Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de Datos en Ciencias Sociales y de La Salud II PDF
Analisis de Datos en Ciencias Sociales y de La Salud II PDF
Directores:
Antonio Pardo Merino
Miguel Ángel Ruiz Díaz
Análisis de datos
en ciencias sociales y de la salud II
Antonio Pardo • Rafael San Martín
SINTESIS
EDITORIAL
Consulte nuestra página web: www.sintesis.com
En ella encontrará el catálogo completo y comentado
© EDITORIAL SÍNTESIS, S. A.
Vallehermoso, 34. 28015 Madrid
Teléfono 91 593 20 98
http://www.sintesis.com
ISBN:978-84-975670-4-6
ISBN: 978-84-995849-9-7
Depósito Legal: M. 34.480-2010
Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1. La inferencia estadística
La inferencia estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
El contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Qué significa rechazar y no rechazar la hipótesis nula . . . . . . . . . . . . . . . . . . . . . . . 23
Contrastes bilaterales y unilaterales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Errores Tipo I y II, y potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Factores de los que depende la potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Tamaño del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Clasificación de los contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Programas informáticos para el análisis de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .38
Apéndice 1
Cálculo de la potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Curva de potencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Apéndice 4
La prueba de Kolmogorov-Smirnov para dos muestras independientes . . . . . . . . . . 156
La prueba de las rachas de Wald-Wolfowitz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
La prueba de reacciones extremas de Moses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR) con SPSS . . 351
Esfericidad multi-muestra e igualdad de varianzas . . . . . . . . . . . . . . . . . . . . . . . 356
Hipótesis globales (efecto de A, de B y de AB ) . . . . . . . . . . . . . . . . . . . . . . . . . . 357
Comparaciones post hoc: efectos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
Comparaciones múltiples: efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
Comparaciones múltiples: efecto de la interacción . . . . . . . . . . . . . . . . . . . . . . . 360
Apéndice 9
La sentencia MMATRIX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
Análisis de los efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
Comparaciones entre los niveles de un mismo efecto simple . . . . . . . . . . . . . . . 364
Análisis del efecto de la interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
Este manual de análisis de datos es el segundo volumen de una serie dedicada a revisar los
procedimientos estadísticos comúnmente utilizados en el ámbito de las ciencias sociales
y de la salud.
En la presentación del primer volumen hemos argumentado ya acerca de la necesidad
de un nuevo manual de análisis de datos y acerca de qué contenidos seleccionar y cómo
organizarlos y exponerlos. Lo dicho allí sirve también aquí.
Aunque este manual va dirigido, principalmente, a estudiantes de las disciplinas en-
globadas en las ciencias sociales y de la salud, no se trata de un material diseñado exclusi-
vamente para ellos. También pretende servir de ayuda a los profesores de análisis de datos
y a los investigadores. Creemos que ambos pueden encontrar, en éste y en los demás volú-
menes, las respuestas a muchas de las preguntas que se formulan en su trabajo cotidiano.
Los Capítulos 1 al 5 de este volumen sirven de complemento a los Capítulos 7 al 12
del primer volumen. Se vuelve a prestar atención a la inferencia estadística, pero presen-
tando nuevos conceptos (errores Tipo I y II, potencia estadística, tamaño del efecto, etc.).
Y se vuelve a estudiar cómo analizar una y dos variables añadiendo nuevas herramientas
(pruebas no paramétricas, contrastes de equivalencia y no inferioridad, índices de riesgo
y de acuerdo, etc.). El resto de los capítulos se centran en las dos concreciones más impor-
tantes del modelo lineal general: el análisis de varianza y el análisis de regresión lineal. Por
tanto, los contenidos de estos dos primeros volúmenes coinciden, en esencia, con los conte-
nidos que incluyen muchos planes de estudios para formar en estadística a los estudiantes
de los nuevos grados universitarios. En el tercer volumen prestaremos atención a proce-
dimientos más avanzados para satisfacer las necesidades de los estudiantes de posgrado y
de los investigadores que necesitan aplicar herramientas más sofisticadas o tratar con un
mayor número de variables.
Un profesional o un investigador de las ciencias sociales y de la salud no es un esta-
dístico y, muy probablemente, tampoco pretende serlo. Consecuentemente, no necesita ser
un experto en los fundamentos matemáticos de las herramientas estadísticas que aplica. En
la elaboración de este manual y de los restantes de la colección hemos pretendido ofrecer
una exposición asequible de los procedimientos disponibles y hemos intentado poner el
énfasis en (1) cómo razonar para elegir el procedimiento apropiado, (2) cómo aplicarlo con
una calculadora de bolsillo y con un programa informático y (3) cómo interpretar correc-
tamente los resultados que ofrece. Esta es la razón que justifica que hayamos prestado más
atención a los aspectos prácticos o aplicados que a los teóricos o formales, aunque sin des-
cuidar estos últimos.
16 Análisis de datos (vol. I)
Antonio Pardo
Rafael San Martín
1
La inferencia estadística
El análisis de datos es una actividad que se desarrolla en fases: comienza con la selección y
recopilación de los datos, continúa con la aplicación de herramientas descriptivas para explo-
rar, organizar y resumir la información contenida en los datos y termina (no necesariamente,
pero sí habitualmente) con la aplicación de herramientas inferenciales para llevar a cabo com-
paraciones y estudiar relaciones.
En el volumen I de Análisis de datos en ciencias sociales y de la salud (Pardo, Ruiz y San
Martín, 2009) hemos estudiado ya lo relativo a la selección de casos (brevemente, pues esta
parte es objeto de los diseños de investigación) y a las herramientas disponibles para abordar
la fase descriptiva (Capítulos 3 al 6). También hemos ofrecido ya una primera aproximación
al concepto de inferencia estadística y a su lógica (Capítulos 7 y 8), y hemos estudiado algu-
nas herramientas inferenciales básicas (Capítulos 9 al 12). En este capítulo vamos a revisar
la lógica de la inferencia estadística (repasando algunos aspectos ya estudiados y prestando
atención a otros nuevos) para terminar de familiarizarnos con el importantísimo rol que de-
sempeña en el análisis de datos.
La inferencia estadística
La inferencia estadística es un tipo de razonamiento que procede de lo particular a lo general.
Permite extraer conclusiones de tipo general sobre la forma de una población o sobre alguno
de sus parámetros a partir de la información particular contenida en una muestra procedente
de esa población.
El trabajo con herramientas inferenciales consiste, principalmente, en realizar compara-
ciones y estudiar relaciones con los datos disponibles y en trasladar los resultados de esas
comparaciones y relaciones a las poblaciones de donde proceden los datos.
Estas inferencias (comparaciones, relaciones) suelen llevarse a cabo utilizando dos estra-
tegias distintas: la estimación de parámetros y el contraste de hipótesis. Al estudiar estas
estrategias en el primer volumen hemos visto que ofrecen información complementaria y que,
en muchos aspectos, son equivalentes (ambas permiten abordar el mismo tipo de problemas
y llegar a las mismas conclusiones, aunque con algunos matices que ya hemos estudiado y
sobre los que volveremos aquí).
18 Análisis de datos (vol. II)
El contraste de hipótesis
En este apartado se repasa brevemente la lógica del contraste de hipótesis ya estudiada en el
Capítulo 8 del primer volumen (en caso necesario, consultar ese capítulo).
Recordemos que un contraste de hipótesis (hypothesis test), también llamado contraste
o prueba de significación (significance test), es un proceso de toma de decisiones en el que
una afirmación formulada en términos estadísticos es puesta en relación con los datos em-
píricos para determinar si es o no compatible con ellos1. Es decir, un contraste de hipótesis
es una estrategia diseñada para tomar decisiones: permite decidir si una proposición acerca
de una población puede mantenerse o debe rechazarse2. Como tal, constituye una herramienta
esencial para ayudar a elegir entre hipótesis rivales y, de forma más o menos directa, para
recoger evidencia empírica en apoyo de una cuestión científica.
Este proceso de decisión comienza con la formulación de una afirmación estadística so-
bre la cual se desea tomar una decisión. A esta afirmación se le llama hipótesis nula (H0 ) y
siempre se refiere a la forma de una o varias distribuciones poblacionales, o al valor de uno
1
El primer trabajo en el que se plantea la posibilidad de evaluar hipótesis científicas a partir de datos muestrales se debe
a K. Pearson y se remonta a 1901. Pero fue R. Fisher (1925) quien presentó formalmente el método que ha evolucionado
hasta lo que hoy conocemos como contrastes de hipótesis o pruebas de significación. A la propuesta original de Fisher se
incorporaron rápidamente las aportaciones de J. Neyman y E. Pearson (1928) y, en los años inmediatamente siguientes, los
avances en el propio método y en las concepciones teóricas subyacentes al mismo no fueron fruto de una reflexión pausada
y sistemática sobre la forma correcta de llevar a cabo el trabajo científico, sino de acalorados debates con cambios de postura
e incorporaciones del adversario no siempre reconocidas como tales. Esta mezcla de aportaciones ha dado como resultado
el contraste de hipótesis tal como lo conocemos y aplicamos hoy: básicamente, una mezcla de las aportaciones de Fisher
y de Neyman-Pearson (ver Gigerenzer, 1993; Oakes, 1986).
2
A pesar de que el contraste de hipótesis viene utilizándose de forma generalizada por la comunidad científica desde hace
más de medio siglo, rara vez se ha visto libre de críticas (ver Morrison y Henkel, 1970). Estas críticas han alcanzado su má-
xima expresión en la pasada década de los noventa, la cual ha sido testigo de un agrio debate promovido por una corriente
muy beligerante con el uso y abuso de esta estrategia (para una revisión de este debate ver Balluerka, Gómez e Hidalgo,
2005; Harlow, Mulaik y Steiger, 1997; y, muy especialmente, Nikerson, 2000). Algunos autores han llegado a proponer,
incluso, el abandono del contraste de hipótesis por no considerarlo un método válido para generar conocimiento científico
(Cohen, 1990, 1994; Gigerenzer, 1993; Hunter, 1997; Oakes, 1986; Rozeboom, 1960, 1997; Schmidt, 1996; etc.). Algunas
de estas críticas se han dirigido al propio método (nos iremos ocupando de ellas), pero la mayoría de ellas, y han sido
muchas y muy duras en las formas, se han concentrado, sobre todo, en lo que el método no puede hacer y en el mal uso que
se hace de él; y esto, obviamente, no tiene nada que ver con lo que sí hace y con su buen uso. Por supuesto, todas las obje-
ciones formuladas al contraste de hipótesis han recibido cumplida respuesta (ver, por ejemplo Abelson, 1997a, 1997b;
Chow, 1996; Cortina y Dunlap, 1997; Hagen, 1997; Mulaik, Raju y Harshman, 1997); de ahí que sigamos utilizándolo. De
hecho, nuestra impresión es que todas las críticas que ha recibido y sigue recibiendo sirven, más que nada, para fortalecerlo.
La aplicación de un método, cualquiera que éste sea, como un ritual carente de reflexión puede terminar convirtiendo el
uso en abuso. La mejor manera de evitar que ocurra esto consiste en conocer a fondo el método identificando con claridad
sus fortalezas y debilidades. Ése es el objetivo de este capítulo. Intentaremos exponer el contraste de hipótesis tal como se
aplica actualmente, destacando sus posibilidades, llamando la atención sobre lo que no puede hacer y, muy particularmente,
proponiendo todo aquello de lo que conviene acompañarlo para mejorarlo.
Capítulo 1. La inferencia estadística 19
o más parámetros de esas distribuciones. Las hipótesis estadísticas están relacionadas con las
hipótesis científicas que se desea contrastar (es decir, con los enunciados que suelen hacer los
científicos para resolver o aclarar algún problema de conocimiento), lo cual supone que una
hipótesis científica permite derivar algunas implicaciones acerca de la forma de una o varias
distribuciones poblacionales, o acerca del valor de uno o más parámetros de esas distribucio-
nes. Por ejemplo, la hipótesis científica los tratamientos antidepresivos A y B son igualmente
eficaces implica3, en términos estadísticos, µA = µB; es decir, la media de la variable depresión
en la población de pacientes que han recibido el tratamiento A es igual que la media de la mis-
ma variable en la población de pacientes que han recibido el tratamiento B. La hipótesis nula
(la hipótesis que se pone a prueba en un contraste de hipótesis) se plantea en términos de no-
diferencias o no-relación, es decir, en términos de diferencias o relaciones nulas4 (esto es de-
bido a la naturaleza del argumento lógico en el que se basa el contraste de hipótesis –modus
tollens– y tiene que ver con el hecho de que la negación o falsación de enunciados es conclu-
yente, en tanto que la corroboración de los mismos no lo es. Volveremos sobre esto.
Formulada la hipótesis estadística, el siguiente paso de un contraste de hipótesis consiste
en buscar evidencia empírica capaz de informar sobre si la hipótesis formulada es o no soste-
nible. Esta búsqueda de evidencia se basa en un sencillo argumento: si una hipótesis concreta
referida a una distribución poblacional es cierta, al extraer una muestra de esa población es
razonable esperar encontrar un resultado muestral similar al que esa hipótesis propone para
la distribución poblacional. Por ejemplo, si la hipótesis de que los tratamientos antidepresivos
A y B son igualmente eficaces (µA = µB) es cierta, al extraer una muestra aleatoria de la pobla-
ción de pacientes tratados con A y otra de la población de pacientes tratados
_ _con B, cabe es-
perar que el nivel medio de depresión observado en ambas muestras, Y A y Y B , sea similar.
Recordemos que, en el contexto del contraste de hipótesis, la evidencia empírica se resume
en un valor numérico denominado estadístico del contraste; y recordemos también que este
estadístico es un valor muestral que, si se dan las condiciones apropiadas (condiciones a las
que nos hemos referido como supuestos del contraste), además de informar sobre la hipóte-
sis planteada, posee una distribución muestral conocida.
Si la evidencia empírica (resultado muestral) difiere de la afirmación establecida en H0,
pueden estar ocurriendo dos cosas: (1) la hipótesis no es cierta y, por tanto, es incapaz de
ofrecer predicciones correctas; (2) la hipótesis es cierta y la discrepancia observada entre H0
y los datos es debida a la variabilidad propia de los datos muestrales. La clave de este argu-
mento está, precisamente, en poder discernir cuándo una discrepancia entre lo que afirma H0
y lo que dicen los datos es lo bastante grande como para poder considerar que el resultado
muestral observado es incompatible con H0, es decir, lo bastante grande como para conside-
rar que la discrepancia entre H0 y los datos no es explicable por la variabilidad debida al azar
muestral sino por el hecho de que la hipótesis planteada es realmente falsa.
3
En un contraste de hipótesis se pone a prueba una hipótesis estadística, no una hipótesis científica. Las conclusiones que
pueden extraerse sobre la hipótesis científica de la que se deriva la hipótesis estadística dependen del grado de conexión
existente entre ambas, el cual a veces es evidente y a veces no tanto (Meehl, 1967, 1978, 1990). En relación con esta temá-
tica pueden consultarse las interesantes reflexiones de Chow (1996, Cap. 3).
4
Una de las críticas dirigidas al contraste de hipótesis se ha centrado justamente en el hecho de que la hipótesis nula es una
hipótesis de no diferencias o no relación, es decir, una hipótesis, argumentan los críticos, que siempre es falsa (Bakan, 1966;
Meehl, 1978; Cohen, 1994; Schmidt, 1992, 1996; etc.) porque en el mundo real no existen poblaciones idénticas. Y ¿qué
sentido tiene poner a prueba una hipótesis que se sabe que es falsa? Esta crítica olvida que la hipótesis nula no es una afir-
mación sobre el mundo real, sino una afirmación estadística cuya verdad o falsedad es irrelevante; se formula para poder
definir una distribución muestral y construir un argumento a partir de ella (ver Chow, 1996, págs. 56-57; Hagen, 1997).
20 Análisis de datos (vol. II)
Hace falta, y este es el siguiente paso del proceso, una regla de decisión. Aunque podrían
establecerse reglas de decisión muy diferentes, la teoría de la decisión se ha encargado de
elaborar algunos argumentos que se han trasladado al contraste de hipótesis. La regla de deci-
sión que se utiliza se basa en el grado de compatibilidad existente entre la hipótesis nula y
los datos. Y para cuantificar el grado de compatibilidad hipótesis-datos se recurre a la teoría
de la probabilidad. El hecho de tener que trabajar con muestras en lugar de poblaciones
introduce variabilidad en los datos y obliga a recurrir a la inferencia y a tener que establecer
una regla de decisión en términos de probabilidad. Se obtiene así un número comprendido en-
tre 0 y 1, al que llamamos nivel crítico o valor p, que representa la probabilidad asociada a
los datos observados si se asume que la hipótesis planteada es cierta: un valor p alto indica
alta compatibilidad hipótesis-datos; un valor p bajo indica baja compatibilidad.
La cuestión clave en este momento está en decidir cuándo un valor p debe considerarse
alto (alta compatibilidad) o bajo (baja compatibilidad). Para ello, la comunidad científica ha
consensuado un punto de corte arbitrario5, pero razonable, en 0,05. A este punto de corte se
le llama nivel de significación. Si el valor p obtenido en una muestra concreta es menor que
el nivel de significación consensuado (0,05), se considera que los datos son incompatibles con
la hipótesis nula planteada. Con esta regla de decisión se llega a dos posibles decisiones sobre
la hipótesis nula: mantenerla, por considerarla compatible con los datos, o rechazarla, por
considerarla incompatible con los datos. El rechazo de H0 implica afirmar lo que H0 niega.
Así, si H0 afirma que el efecto estudiado es nulo (es decir, que no hay diferencias, que no hay
relación), el rechazo de H0 permitirá afirmar que el efecto estudiado no es nulo (es decir, per-
mitirá afirmar que sí hay diferencias, que sí hay relación). A esta afirmación complementaria
de H0 se le llama hipótesis alternativa6 y se representa mediante H1.
Un ejemplo
Imaginemos que un profesor desea evaluar el conocimiento que un estudiante ha adquirido
de una determinada materia. Imaginemos, además, que el profesor desea evaluar los conoci-
mientos del estudiante haciéndole una pregunta con cuatro alternativas de respuesta de las que
5
El hecho de que un punto de corte sea arbitrario no le resta utilidad (los colores elegidos para las luces de los semáforos
son arbitrarios y eso no les impide ser útiles). Los puntos de corte arbitrarios forman parte inherente de todo proceso de
decisión con incertidumbre: se fija un punto de corte para aprobar a los estudiantes, para determinar si se aplica un trata-
miento, para conceder un crédito, etc. Permiten tomar decisiones. Curiosamente, quienes critican la arbitrariedad de estable-
cer un punto de corte en 0,05 no tienen ningún inconveniente en admitir los puntos de corte arbitrarios que incluyen en sus
propuestas (por ejemplo, el valor en torno al cual debe estar la potencia idónea de un contraste, o los valores que permiten
caracterizar un efecto como de tamaño pequeño, mediano o grande; ver Glass, McGraw y Smith, 1981).
¿Está justificado un punto de corte arbitrario? Si está claramente definido, sirve para tomar decisiones. No faltan quienes
defienden que ese punto de corte debería ser flexible y tener en cuenta los costes y beneficios de cada decisión (Labovitz,
1968; Oakes, 1986; Skipper, Guenther y Nass, 1967; ver, más adelante, el apartado Errores Tipo I y II, y potencia de un con-
traste). Pero un punto de corte flexible estaría introduciendo un elemento de subjetividad en el proceso al permitir, con unos
mismos datos, obtener conclusiones distintas a distintos investigadores (ver Chow, 1996, pág. 38; Frick, 1996).
6
En su propuesta original del contraste de hipótesis, Fisher (1925) únicamente habla de la hipótesis nula. La consideración
simultánea de dos hipótesis complementarias, H0 y H1 , se debe a Neyman y Pearson (1928). En la propuesta de Fisher, el
contraste de hipótesis se concibe como una forma de resumir la información muestral y de elaborar un argumento a favor
de una cuestión científica. Con las aportaciones de Neyman y Pearson, el contraste de hipótesis empieza a interpretarse como
un método de toma de decisiones en el que necesariamente se elige entre dos hipótesis rivales (H0 y H1) a partir de un nivel
de significación prefijado (ver Chow, 1996, págs. 21-24, para una reflexión sobre las coincidencias y diferencias entre la
propuesta inicial de Fisher y las aportaciones de Neyman y Pearson).
Capítulo 1. La inferencia estadística 21
solamente una es correcta. Si el estudiante no conoce la materia, cabe esperar que responda
al azar, en cuyo caso la probabilidad de acertar la pregunta valdrá
Pacierto = 1 / 4 = 0,25
(Pues hay 1 manera de responder bien y 4 posibles maneras de responder). El profesor se
percata de que la probabilidad de acertar por azar es demasiado grande y comprende que con
una sola pregunta no puede distinguir si el estudiante está acertando por azar o porque real-
mente conoce la respuesta. Decide probar con dos preguntas y constata que la probabilidad
de acertar por azar las dos preguntas vale
Pacierto = 1 / 16 = 0,0625
(hay 1 manera de responder bien y 4 × 4 = 16 posibles maneras de responder). Aunque esta
probabilidad es más pequeña que la anterior, nuestro profesor considera que no es lo bastante
pequeña como para poder confiar en que dos respuestas correctas sirvan para descartar que
el estudiante está respondiendo al azar. Decide probar con tres preguntas. La probabilidad de
acertar por azar las tres preguntas vale
Pacierto = 1 / 64 = 0,0156
(hay 1 manera de responder bien y 4 × 4 × 4 = 64 posibles maneras de responder). El profesor
considera, por fin, que esta probabilidad ya es lo bastante pequeña como para poder confiar
en que un estudiante que acierte las tres preguntas no estará respondiendo al azar. Y, para
evaluar los conocimientos del estudiante, decide hacerle tres preguntas y aprobarlo si acierta
las tres.
En un contraste de hipótesis hacemos algo parecido a lo que acaba de hacer el profesor
con su estudiante, pero con la diferencia de que el proceso está mecanizado. Para evaluar los
conocimientos de un estudiante sobre una determinada materia (éste es el objetivo del estu-
dio), comenzamos formulando nuestra hipótesis de investigación; por ejemplo: el estudiante
conoce la materia.
Para poder contrastar esta hipótesis, lo primero que tenemos que hacer es transformarla
en hipótesis estadística. Puesto que hemos decidido utilizar preguntas con cuatro alternativas
de respuesta de las que solamente una es correcta, la hipótesis nula puede formularse tomando
como referencia el número o la proporción de aciertos7:
$ 0,25
H0 : πacierto <
Esta hipótesis afirma que la proporción de acertar una pregunta es igual o menor que la pro-
porción de acertar por azar. Y es la afirmación estadística que asumimos como equivalente
de la afirmación no estadística el estudiante no conoce la materia. La hipótesis nula suele
recoger la idea de que el efecto estudiado es nulo; aquí, el efecto estudiado es el conocimiento
de la materia; de ahí que la hipótesis nula se haga corresponder con la afirmación de que tal
efecto no existe.
La afirmación complementaria de esta hipótesis nula, es decir, la hipótesis alternativa, se
obtiene a partir de la negación de la hipótesis nula. Por tanto, adopta la forma
H1 : πacierto > 0,25
7
Si estuviéramos comparando dos grupos en una variable cuantitativa, H0 podría hacer referencia a los promedios; si
estuviéramos estudiando la relación entre dos variables, H0 podría hacer referencia a algún coeficiente de correlación; etc.
22 Análisis de datos (vol. II)
Esta hipótesis afirma que la proporción de acertar es mayor que la esperable por azar. Y es
la afirmación estadística que asumimos que equivale a la afirmación no estadística (hipótesis
de investigación) el estudiante conoce la materia.
Para poder tomar una decisión sobre esta hipótesis nula (mantenerla o rechazarla), op-
tamos por hacer cinco8 preguntas a nuestro estudiante. Si H0 es verdadera, es decir, si el es-
tudiante realmente no conoce la materia, cabe esperar encontrar pocos aciertos (no más de
los esperables por azar). Por el contario, si H0 es falsa, es decir, si el estudiante sí conoce la
materia, cabe esperar encontrar muchos aciertos (más de los esperables por azar).
Ahora bien, si el estudiante acierta 3 de las 5 preguntas, ¿podremos concluir que ese re-
sultado es mayor que el esperable por azar?, ¿y si acierta 4?, ¿tiene que acertar las 5 preguntas
para que podamos descartar que está respondiendo al azar? Es decir, ¿con cuántos aciertos
podremos concluir que el estudiante ha superado el resultado más alto esperable por azar?
Para responder esta pregunta, en lugar de basarnos en nuestras impresiones subjetivas, recurri-
mos a la teoría de la probabilidad intentando establecer una regla de decisión que nos permita
llegar a alguna conclusión. Aplicando esta regla, un número de aciertos esperable por azar (un
resultado probable cuando se responde al azar), llevará a decidir que la hipótesis planteada
es compatible con los datos y a sospechar que el estudiante no conoce la materia. Por el con-
trario, un número de aciertos superior al esperable por azar (un resultado improbable cuando
se responde al azar), llevará a decidir que la hipótesis planteada es incompatible con los datos
y a concluir que el estudiante sí conoce la materia (pues si “πacierto < $ 0,25” es una afirmación
incorrecta, entonces la afirmación correcta debe ser “πacierto 0,25”).
Esta regla de decisión obliga a concretar cómo cabe esperar que se comporte la realidad
(los datos) cuando la hipótesis nula formulada es verdadera. Y lo que esto significa es que hay
que elegir el estadístico del contraste (que resume el comportamiento de la realidad) y su
distribución muestral (que indica cómo cabe esperar que se comporte la realidad cuando H0
es verdadera). El estadístico ya lo hemos elegido: el número de aciertos. Su distribución
muestral9 es la que ofrece la Tabla 1.1. La fila nacierto recoge el número de aciertos que pueden
darse al responder 5 preguntas (puede no acertarse ninguna, o una, o dos, ..., o las cinco). La
fila P (nacierto ) contiene la probabilidad asociada a cada valor nacierto cuando se realizan 5 ensa-
yos independientes (5 preguntas) con probabilidad teórica de acertar igual a 0,25.
n acierto 0 1 2 3 4 5
P (n acierto ) 0,2373 0,3955 0,2637 0,0879 0,0146 0,0010
Para tomar una decisión sobre H0 se utiliza, como regla de decisión, un punto de corte prefi-
jado en 0,05: los resultados con probabilidad asociada menor que 0,05 se consideran impro-
bables y, consecuentemente, incompatibles con H0. Por tanto, cuando se obtiene un resultado
8
Podríamos hacer diez preguntas, o quince, etc. Se trata de hacer tantas preguntas como sea necesario para poder descartar
la hipótesis del azar (acabamos de ver que con pocas preguntas no es posible hacerlo). Pero esto no es todo. Al recoger infor-
mación muestral se debe procurar hacer un barrido lo más completo posible por la población muestreada (en el ejemplo, el
conjunto de contenidos de la materia). Y esto es más fácil hacerlo con muestras grandes que con muestras pequeñas.
9
Puesto que se trata de n ensayos independientes de Bernoulli, con probabilidad constante 0,25 en cada ensayo, estas proba-
bilidades se obtienen de distribución binomial con n = 10 y π1 = 0,25 (ver Capítulo 6 del primer volumen).
Capítulo 1. La inferencia estadística 23
Para tomar una decisión sobre H0 , la distribución muestral del estadístico del contraste se
divide en dos zonas exclusivas y exhaustivas (ver Figura 8.1 del primer volumen; pág. 231):
la zona de rechazo y la zona de aceptación.
La zona de rechazo, también llamada zona crítica, es la zona de la distribución muestral
correspondiente a los valores del estadístico del contraste que se encuentran tan alejados de
la afirmación establecida en H0 que es muy poco probable que ocurran si H0, como se asume,
es verdadera; es decir, la zona en la que se encuentran los datos poco compatibles con H0. La
probabilidad asociada a esta zona de rechazo o crítica es el nivel de significación o nivel de
riesgo y se representa con la letra griega α (alfa).
La zona de aceptación es la zona de la distribución muestral correspondiente a los valo-
res del estadístico del contraste próximos a la afirmación establecida en H0. Es, por tanto, la
zona en la que se encuentran los valores del estadístico que es probable que ocurran si H0,
como se supone, es verdadera; es decir, la zona en la que se encuentran los datos compatibles
con H0. La probabilidad asociada a esta zona de aceptación es el nivel de confianza y se re-
presenta mediante 1 ! α.
Una vez definidas las zonas de rechazo y de aceptación, se aplica la siguiente regla de
decisión:
Rechazar H0 cuando el estadístico del contraste toma un valor perteneciente a la zona
de rechazo o crítica; mantener H0 cuando el estadístico del contraste toma un valor
perteneciente a la zona de aceptación.
Por tanto, se rechaza una H0 particular porque eso significa que el valor del estadístico del
contraste se aleja demasiado de la predicción establecida en esa hipótesis, es decir, porque,
10
Lo que se está intentando determinar es cuánto se aleja cada posible resultado muestral (cada posible número de aciertos)
de su valor esperado (en el ejemplo, el valor esperado del número de aciertos es n πacierto = 5(0,25) = 2,5). Esto puede saberse
ubicando cada resultado en la posición exacta que ocupa en su distribución muestral. Y esa posición se conoce calculando,
no la probabilidad individual de cada resultado, sino la probabilidad que queda por encima de cada resultado (se trata de
un contraste unilateral derecho; si el contraste fuera unilateral izquierdo calcularíamos la probabilidad que queda por debajo
de cada resultado; ver siguiente apartado). A esta probabilidad es a la que llamamos nivel crítico o valor p y es a la que nos
referimos de forma abreviada como probabilidad asociada.
24 Análisis de datos (vol. II)
si esa H0 fuera verdadera, el estadístico del contraste no debería tomar ese valor (sería impro-
bable que lo tomara, aunque no imposible); si de hecho lo toma, lo razonable es concluir que
esa H0 no debe ser verdadera. Es importante reparar en el hecho de que la decisión siempre
se toma sobre H0 .
Con esta regla de decisión se está asumiendo que la probabilidad asociada al estadístico
del contraste indica el grado de compatibilidad existente entre la hipótesis nula y los datos.
A esta probabilidad (grado de compatibilidad) la llamamos nivel crítico (también se le llama
nivel de significación observado) y la representamos mediante p:
que afirmar que el estudiate conoce la materia; lo que se está afirmando es que es improbable
que el estudiante haya respondido al azar. Cuando ocurre esto decimos que el resultado ob-
servado es estadísticamente significativo. Y, basándonos en la lógica del procedimiento, asu-
mimos que el efecto observado en la muestra está presente en la población11.
Existe una asimetría evidente entre las dos conclusiones que se siguen de la decisión de
un contraste. Si se rechaza H0 se está afirmando que ha quedado probado que H0 es falsa (con
las limitaciones propias de una decisión basada en probabilidades; es decir, sin la certeza
absoluta de que las cosas sean así). Por el contrario, si se mantiene H0 , no se está afirmando
que ha quedado probado que H0 es verdadera, sino solamente que la evidencia empírica dis-
ponible no permite rechazarla. Por tanto:
Mantener una hipótesis nula significa que se considera que esa hipótesis es compatible
con los datos. Rechazar una hipótesis nula significa que se considera probado (con la
limitación señalada) que esa hipótesis es falsa.
La razón de esta asimetría en la conclusión es doble. Por un lado, dada la naturaleza inespecí-
fica de H1 (recordemos que H1 es una afirmación inexacta), raramente es posible afirmar que
H1 no es verdadera; las desviaciones pequeñas de H0 forman parte de H1, por lo que al
mantener una H0 particular, también se están manteniendo, muy probablemente, algunos de
los valores incluidos en H1 (Tukey, 1991); debe concluirse, por tanto, que se mantiene o no
se rechaza H0 , pero no que se acepta como verdadera.
Por otro lado, en el razonamiento que lleva a tomar una decisión sobre H0, puede reco-
nocerse el argumento deductivo modus tollens (si a, entonces b; no b, luego no a), aunque de
tipo probabilístico:
Si H0 es verdadera (si a), entonces, muy probablemente, los datos serán compatibles con
ella (entonces, muy probablemente, b); los datos no son compatibles con H0 (no b); luego,
muy probablemente, H0 no es verdadera (luego, muy probablemente, no a).
Dicho de forma algo más técnica:
Si H0 es verdadera, entonces, muy probablemente, el estadístico del contraste tomará un
valor de la zona de aceptación (si a, entonces, muy probablemente, b); el estadístico del
contraste no toma un valor de la zona de aceptación (no b); luego, muy probablemente,
H0 no es verdadera (luego, muy probablemente, no a).
Este argumento es correcto desde el punto de vista lógico, y útil12. Sin embargo, si una vez
establecida la primera premisa se continúa de esta otra manera:
El estadístico del contraste cae en la zona de aceptación (entonces b); luego, muy pro-
bablemente, H0 es verdadera (luego, muy probablemente, a),
11
En este salto de la hipótesis estadística a la hipótesis científica o de investigación debe tenerse siempre presente que una
hipótesis de investigación puede ser afirmada únicamente en la medida en que se corresponde con la hipótesis estadística
que la representa (ver Chow, 1996, Cap. 3).
12
El hecho de que este argumento cambie las premisas categóricas del modus tollens por premisas probabilísticas ha llevado
a algunos autores, no solo a dudar de su validez lógica, sino a afirmar que no permite llegar a conclusiones correctas (ver,
por ejemplo, Cohen, 1994; Falk y Greenbaum, 1995). Sin embargo, estas objeciones han recibido cumplida respuesta que
han venido a destacar, no ya la utilidad del argumento, que la tiene, sino su validez lógica cuando se aplica correctamente
(ver Cortina y Dunlap, 1997; Hagen, 1997, 1998; McDonald, 1997).
26 Análisis de datos (vol. II)
entonces se comete un error lógico llamado falacia de la afirmación del consecuente, pues
el estadístico del contraste puede haber tomado un valor de la zona de aceptación por razones
diferentes13 de las contenidas en H0.
13
Buscar un efecto es como buscar un objeto en un cuarto trastero. Cuando se busca algo y se encuentra se puede afirmar
que estaba. Cuando se busca algo y no se encuentra no es posible afirmar que no está; puede ocurrir, desde luego, que real-
mente no esté, pero también puede ocurrir que no se haya buscado bien.
Capítulo 1. La inferencia estadística 27
La zona de rechazo o crítica, por tanto, debe situarse allí donde pueden aparecer los valo-
res muestrales incompatibles con H0, es decir, allí donde indica H1. Y esto es algo que depen-
de únicamente de lo que interese estudiar en cada caso concreto. Por ejemplo, para comparar
la eficacia de dos tratamientos sin una expectativa justificada (estudios previos, intereses
concretos, etc.) sobre cuál de los dos es más eficaz, lo razonable es plantear un contraste bila-
teral (H1 : µA =/ µB). Lo cual significa que la zona crítica debe recoger los valores muestrales
que vayan tanto en la dirección µA ! µB > 0 como en la dirección µA ! µB < 0. Pues, si H0 es
falsa, lo será tanto si µA es mayor que µB como si µA es menor que µB; y la zona crítica debe-
rá recoger ambas posibilidades14. Por esta razón,
en los contrastes bilaterales, la zona crítica se encuentra repartida15, generalmente a
partes iguales, entre las dos colas de la distribución muestral.
Sin embargo, para comprobar si un estudiante responde o no al azar, lo razonable es plantear
un contraste unilateral (H1 : πacierto > 0,25), pues solamente interesa considerar el caso en el
que el estudiante obtiene una proporción de aciertos mayor que la esperable por azar (no una
proporción menor). En este caso, los únicos valores muestrales incompatibles con H0 son los
que van en la dirección πacierto > 0,25, que es justamente la dirección apuntada en H0. Y la zo-
na crítica debe reflejar esta circunstancia quedando ubicada en la cola derecha de la distri-
bución muestral. Por tanto,
en los contrastes unilaterales, la zona crítica se encuentra en una de las dos colas de la
distribución muestral.
De acuerdo con esto, las reglas de decisión que corresponden a los contrastes de nuestros dos
ejemplos (el de las diferencias entre dos tratamientos y el del profesor que desea evaluar los
conocimientos de su estudiante) pueden concretarse de la siguiente manera:
1. Rechazar H0: µA = µB si el estadístico del contraste cae en la zona crítica, es decir, si toma
un valor mayor que el cuantil 100 (1 ! α /2) o menor que el cuantil 100 (α /2) de su distri-
bución muestral.
O bien: rechazar H0: µA = µB si el estadístico del contraste toma un valor tan grande o tan
pequeño que la probabilidad de obtener un valor tan extremo o más que el obtenido es
menor que α /2. Es decir, rechazar H0 si p /2 < α /2; o, lo que es lo mismo, si p < α.
$ 0,25 si el estadístico del contraste (el número de aciertos) cae en
2. Rechazar H0: πacierto <
la zona crítica, es decir, si el estadístico del contraste toma un valor mayor que el percen-
til 100 (1 ! α) de su distribución muestral.
O bien: rechazar H0: πacierto <$ 0,25 si el estadístico del contraste toma un valor tan grande
que la probabilidad de obtener un valor como ése o mayor es menor que α. Es decir, re-
chazar H0 si p < α.
14
Por supuesto, si se desea contrastar, no si dos tratamientos difieren, sino si uno es mejor que el otro, habrá que plantear
un contraste unilateral.
15
Existen excepciones a esta regla. Cuando se utiliza la distribución normal o la distribución t de Student, la zona crítica
de los contrastes bilaterales se encuentra, efectivamente, repartida entre las dos colas de la distribución muestral. Pero de-
pendiendo del estadístico utilizado y de su distribución muestral, puede ocurrir que la zona crítica de un contraste bilateral
esté, toda ella, ubicada en la cola derecha de la distribución. Esto es lo que ocurre, por ejemplo, cuando se utiliza la distri-
bución χ 2 o la distribución F. Tendremos ocasión de estudiar esto con detalle más adelante.
28 Análisis de datos (vol. II)
Puesto que el área de una distribución de probabilidad se asume que vale 1, de las probabi-
lidades asignadas a cada tipo de error (α y β) se deduce: (1) que 1 ! α es la probabilidad de
tomar una decisión correcta cuando H0 es verdadera y (2) que 1 ! β es la probabilidad de to-
mar una decisión correcta cuando H0 es falsa (es decir, cuando H1 es verdadera; o, mejor
dicho, cuando es verdadero algún valor concreto de los muchos incluidos en H1 ).
Por tanto, α y β son las probabilidades de cometer errores Tipo I y II, respectivamente.
Ya sabemos que a la probabilidad α se le llama nivel de riesgo o nivel de significación. Y
también sabemos que a la probabilidad 1 ! α se le llama nivel de confianza. A la probabili-
dad 1 ! β se le llama potencia del contraste.
Es importante señalar que estas cuatro probabilidades son probabilidades condicionales.
Por definición, un error Tipo I únicamente puede cometerse si H0 es verdadera; y un error
Tipo II únicamente puede cometerse si H0 es falsa. Por tanto, α es la probabilidad de recha-
zar H0 si H0 es verdadera, es decir, P (rechazar H0 | H0 verdadera). Y 1 ! α es la probabilidad
de mantener H0 si H0 es verdadera, es decir, P (mantener H0 | H0 verdadera). Lo mismo vale
decir de sus probabilidades complementarias. Así, β es la probabilidad de mantener H0 cuando
se asume que la hipótesis verdadera es H1 , es decir, P (mantener H0 | H1 verdadera); y 1 ! β
es la probabilidad de rechazar H0 cuando se asume que la hipótesis verdadera es H1, es decir,
P (rechazar H0 | H1 verdadera).
16
El proceso que se sigue hasta llegar a esa decisión se basa, todo él excepto la propia decisión, en el supuesto de que H0
es verdadera. Entre otras cosas, la distribución muestral que ofrece las probabilidades en las que se basa la decisión se ob-
tiene asumiendo que H0 es verdadera. En su propuesta original del contraste de hipótesis, R. Fisher (1925) únicamente habla
de H0. La consideración simultánea de dos hipótesis complementarias, H0 y H1, se empezó a popularizar en los años 40 gra-
cias a las aportaciones de Neyman y Pearson (1928). En la propuesta inicial de Fisher, el contraste de hipótesis se concibe
como una forma de resumir la información muestral y de elaborar un argumento a favor de una cuestión científica. Con las
aportaciones de Neyman y Pearson, el contraste de hipótesis se empieza a interpretar como un método de toma de decisiones
en el que necesariamente se elige entre dos hipótesis rivales (H0 y H1 ) tomando como referencia un nivel de significación
prefijado (ver Chow, 1996, págs. 21-24, para una reflexión sobre las coincidencias y diferencias entre la propuesta inicial
de Fisher y las aportaciones de Neyman y Pearson).
Capítulo 1. La inferencia estadística 29
Recordemos que el nivel crítico o valor p (la probabilidad que se compara con el nivel
de significación α para tomar una decisión sobre H0 ) también es una probabilidad condicio-
nal. Representa la probabilidad de encontrar, en la distribución muestral definida por H0 , los
datos de hecho encontrados, es decir, P (D | H0)17 (más concretamente, la probabilidad de
encontrar datos, D, tan alejados, o más alejados, de la afirmación establecida en H0 como los
de hecho encontrados).
La Tabla 1.2 puede ayudar a aclarar todas estas ideas. En ella están representadas las
cuatro posibles consecuencias asociadas a la decisión que se toma un contraste de hipótesis,
junto con sus correspondientes probabilidades.
Decisión sobre H0
Naturaleza de H0 Mantenerla Rechazarla
Decisión correcta Error Tipo I
Verdadera (P = 1 ! α) (P = α)
17
Puesto que el valor p es una probabilidad condicional, no debe interpretarse como la probabilidad de que H0 sea verdade-
ra; por la misma razón, tampoco el valor 1! p debe interpretarse como la probabilidad de que sea verdadera H1 . En un
contraste de hipótesis, tanto P (H0) como P (H1) son valores desconocidos. No obstante, puede demostrarse que cuanto me-
nor es la probabilidad de que H0 sea verdadera (y, por tanto, mayor la probabilidad de que sea verdadera H1), menor es el
valor del nivel crítico p (en relación con esta problemática puede consultarse la excelente argumentación de Nikerson, 2000,
págs. 246-253).
30 Análisis de datos (vol. II)
una persona sana está enferma ( falso positivo; equivale a rechazar H0 cuando es verdadera
es decir, a un error Tipo I) y cuando dice que una persona enferma está sana ( falso negativo;
equivale a mantener H0 cuando es falsa, es decir, a un error Tipo II).
Grupo pronosticado
Grupo real Sano Enfermo
Acierto Error
Sano (especificidad) (falso positivo)
Error Acierto
Enfermo (falso negativo) (sensibilidad)
En la Figura 1.1 están representadas las probabilidades correspondientes a los cuatro resul-
tados de la Tabla 1.2. Las curvas representan una situación hipotética referida a un contraste
unilateral derecho sobre el parámetro µ (con H0: µ =_µ 0 ; H1: µ = µ1). La curva de la izquierda
representa la distribución muestral18 del estadístico Y para H0: µ = µ0 (µ0 se refiere a un valor
concreto
_ cualquiera). La curva de la derecha representa la distribución muestral del estadístico
Y para H1 : µ = µ 1 (µ 1 se refiere a un valor cualquiera mayor que µ 0)19.
H0 H1
1− α 1− β
β
α _
Y
µ0 µ1
Zona de aceptación Zona de rechazo
18
La probabilidad asociada a una media cualquiera en su distribución muestral es la misma que la asociada a su corres-
pondiente puntuación típica en la distribución N (0, 1) o tn-1 (ver, en el Capítulo 6 del primer volumen, el apartado Distri-
bución muestral del estadístico media). En términos de probabilidad, por tanto, es equivalente hablar de la distribución
muestral de la media y de la distribución muestral de la media transformada en Z o T.
19
No debe pasarse por alto el hecho de que esta representación exige fijar para el parámetro µ un valor concreto de todos
los que le asigna H1. Aunque H0 define una única curva (pues H0 es una afirmación exacta), cada valor distinto de los inclui-
dos en H1 define una curva distinta (pues H1 es una afirmación inexacta). Cada una de estas curvas tiene sus propios valores
β y 1 ! β.
Capítulo 1. La inferencia estadística 31
20
En la tradición fisheriana no tiene sentido hablar de la potencia de un contraste porque únicamente se contempla una hipó-
tesis: la hipótesis nula (Fisher, 1925, 1935). La incorporación de la hipótesis alternativa al proceso es lo que lleva a Neyman
y Pearson (1928) a definir la potencia y a incluirla como un aspecto más del contraste de hipótesis. No obstante, solamente
en los últimos años se le ha empezado a prestar cierta atención. Muchos autores consideran que la potencia debe desempeñar
un rol esencial en la planificación de los estudios en los que se tiene intención de aplicar algún contraste de hipótesis (Chase
y Tucker, 1977; Cohen, 1988, 1992a, 1992b, 1994; Lashley, 1998; Rossi, 1990, 1997; Schmidt, 1996; Schmidt y Hunter,
1997). Entre algunos de estos autores predomina, incluso, la opinión de que un contraste de hipótesis del que no se conoce
la potencia es un contraste inútil, o incluso peor que inútil, porque puede llevar a conclusiones equivocadas. Sin embargo,
no faltan quienes consideran que la potencia es un concepto mal definido y, en algunos contextos, innecesario (ver, por
ejemplo, Chow, 1996, Cap. 6; Grayson, 2004; Macdonald, 2002).
32 Análisis de datos (vol. II)
21
La variabilidad de un conjunto de puntuaciones puede reducirse mejorando el control sobre las condiciones del estudio
y, muy especialmente, mejorando la precisión de las mediciones que se llevan a cabo (ver, por ejemplo, Judd y Kenny, 1981,
págs. 111 y siguientes).
Capítulo 1. La inferencia estadística 33
Entre los factores de los que depende el valor de β y, por tanto, el valor de la potencia,
aumentar el tamaño muestral, con la consiguiente reducción del error típico que esto implica,
no solo es la solución más eficaz, sino también, por lo general, la más sencilla. Por tanto, no
debe sorprender que el tamaño muestral desempeñe un rol destacado en la mayor parte del tra-
bajo relacionado con la potencia.
Cuando estudiemos los diferentes procedimientos estadísticos incluidos en este manual
prestaremos atención a la potencia en dos sentidos. En un sentido a priori estudiaremos cómo
determinar el tamaño muestral necesario para alcanzar, en un contraste concreto, una deter-
minada potencia (generalmente, un valor en torno a 0,80); esto, según veremos, requiere fijar
el valor de todos los factores de los que depende la potencia excepto, lógicamente, el del ta-
maño muestral (determinar de antemano el tamaño muestral tiene su importancia; si se utiliza
un tamaño muestral demasiado pequeño se corre el riesgo de no detectar efectos importantes;
si se utiliza un tamaño muestral demasiado grande se corre el riesgo de declarar significativos
efectos triviales). En un sentido a posteriori veremos cómo calcular la potencia observada,
es decir, la potencia de un contraste una vez llevado a cabo y, por tanto, dando a los factores
de los que depende el valor concreto que toman en el contraste realizado. En el Apéndice 1
se explica cómo realizar ambas tareas en un caso parecido al representado en la Figura 1.1.
Trabajar con la potencia observada es relativamente sencillo porque se tiene información
sobre todos los factores de los que depende. Trabajar con la potencia a priori es otra historia.
Entre otras cosas, es necesario asignar un valor concreto a H1. Y esto exige, inevitablemente,
conocer o estimar el tamaño del efecto que se está analizando.
es algo limitada. Imaginemos que, al comparar un grupo experimental con un grupo control,
rechazamos la hipótesis H0: µE = µC con un nivel crítico tan pequeño como p = 0,0001. Puesto
que p toma un valor muy pequeño, seguramente nos sentiremos inclinados a pensar que H0
es muy falsa y que entre µE y µC existe una gran diferencia (un gran tamaño del efecto). Pero
esa conclusión no necesariamente sería correcta. Por un lado, el valor p no es la probabilidad
de H0, sino la probabilidad asociada a los datos obtenidos cuando H0 es verdadera. Por otro,
puesto que la potencia de un contraste es tanto mayor cuanto mayor es el tamaño muestral
(ver apartado anterior), tamaños muestrales muy grandes podrían llevar a rechazar H0 incluso
con diferencias µE ! µC insignificantes (pues si los tamaños muestrales son muy grandes en
relación con los tamaños de las varianzas, el valor del estadístico del contraste será muy gran-
de incluso cuando la diferencia entre las medias muestrales sea muy pequeña).
Parece, por tanto, que la significación estadística (el valor p), precisamente por su depen-
dencia del tamaño muestral, no informa correctamente del tamaño del efecto estudiado (de
la verdadera diferencia entre µE y µC)22.
Para valorar, no la significación estadística de un resultado, sino su relevancia, contamos
con diferentes estadísticos agrupados bajo la denominación de medidas del tamaño del efecto.
Existen multitud de estas medidas (ver Abelson, 1995, págs. 39-77; Kirk, 1996). Todas ellas
han sido diseñadas con el mismo objetivo, pero se basan en diferentes criterios. Y, aunque es-
tos criterios son muy variados (ver, por ejemplo, Richardson, 1996), la mayoría de las me-
didas disponibles (al menos las más utilizadas) pueden clasificarse atendiendo solamente a
dos: (1) las basadas en una estandarización de la diferencia entre las medias y (2) las basadas
en la proporción de varianza común o explicada23.
Lógicamente, estas medidas adoptan una u otra forma dependiendo de las características
de los datos analizados. Al estudiar los diferentes procedimientos que se incluyen en este ma-
nual tendremos ocasión de conocer cómo se calculan e interpretan en cada caso. De momen-
to, basta con saber que las medidas del tamaño del efecto ofrecen información adicional a la
que ofrece un contraste de hipótesis:
1. Contribuyen a distinguir entre la significación estadística de un resultado y su relevancia
teórica o práctica (Kirk, 1996).
2. Sirven para estimar la potencia de un contraste y para elegir el tamaño muestral idóneo
al planificar un estudio (Cohen, 1988; 1992a).
3. Facilitan la recopilación de los resultados de diferentes estudios para realizar un meta-
análisis (Hunter y Schmidt, 2004; Rosenthal, 1991).
Éstas son, sin duda, algunas de las razones por las que muchos expertos (también los editores
de las más importantes revistas científicas), recomiendan utilizar las medidas del tamaño del
efecto e incluirlas en los informes de investigación acompañando a la significación estadística
(Abelson, 1995; Cohen, 1988; Murphy, 1997; Thonsom, 1994, 1997). Especialmente relevan-
22
Sin embargo, el tamaño de un efecto y el valor p obtenido al contrastarlo no son independientes. Permaneciendo todo lo
demás igual, cuanto mayor es el tamaño del efecto, menor en el valor p. En relación con esta problemática puede consultarse
la excelente argumentación de Nikerson (2000, págs. 246-253).
23
A veces se distingue entre las primeras (a las que siempre se les llama medidas del tamaño del efecto) y las segundas (a
las que se les suele llamar medidas de asociación). Pero tanto unas como otras deben ser consideradas medidas del tamaño
del efecto.
Capítulo 1. La inferencia estadística 35
tes en este sentido son las recomendaciones del informe de Wilkinson y la APA Task Force
on Statistical Inference (1999).
Sin embargo, estas recomendaciones no vienen acompañadas de una aclaración del tipo
de medidas que conviene utilizar en cada caso (con cada diseño, con cada tipo de datos, etc.),
probablemente porque su aplicación no está libre de problemas y porque no existe suficiente
consenso en torno a qué tipo de medida es la idónea en cada contexto24.
Por tanto, las medidas del tamaño del efecto no deben ser consideradas una panacea en
el análisis de datos. A pesar de que no faltan quienes han llegado a proponer sustituir la sig-
nificación estadística (es decir, los contrastes de hipótesis) por soluciones basadas, entre otras
cosas, en la estimación del tamaño del efecto (por ejemplo, Cohen, 1992a, 1994; Rossi, 1997;
Schmidt, 1996), tampoco faltan quienes han refutado sus argumentos con reconocida solven-
cia (por ejemplo, Abelson, 1997a, 1997b; Chow, 1996; Cortina y Dunlap, 1997; Mulaik, Raju
y Harshman, 1997).
Por nuestra parte, seguiremos considerando que la significación estadística que ofrece
un contraste de hipótesis posee una extraordinaria utilidad como argumento para elegir entre
hipótesis rivales. Y, al analizar nuestros datos, acompañaremos la significación estadística
de cada contraste, siempre que sea posible, de la información necesaria para mejorar nuestra
comprensión del efecto estudiado; y esto significa prestar atención tanto a la potencia concreta
del contraste realizado como a la estimación del tamaño del efecto estudiado.
24
Al igual que con otras muchas herramientas estadísticas, no existe un acuerdo generalizado sobre el significado real de
este tipo de medidas. No hay consenso sobre qué medida es más apropiada en cada caso (Gorsuch, 1991; McGrath y Meyer,
2006; Olejnik y Algina, 2003; Parker, 1995). Un efecto cuantificado como pequeño puede ser relevante en algunos contextos
y un efecto cuantificado como grande puede ser poco relevante en otros (Lewandowsky y Maybery, 1998; Prentice y Miller,
1992; Rosental, 1990). Un efecto cuantificado como grande no garantiza que se trate de un efecto relevante o importante
más de lo que lo hace un valor p pequeño (Chow, 1991; Shaver, 1985). O’Grady (1982) ha señalado algunas cuestiones
teóricas, metodológicas y psicométricas que pueden afectar de forma importante al significado y utilidad de las medidas que
intentan cuantificar el tamaño de un efecto. Además, el error típico de las distribuciones muestrales de estas medidas es,
por lo general, muy grande (Carrol y Nordholm, 1975), especialmente cuando los tamaños muestrales son pequeños, y esto
implica que es posible que su valor sea grande cuando de hecho se está estudiando un efecto trivial, y pequeño cuando de
hecho se está estudiando un efecto relevante (Rosenthal y Rubin, 1982). Chow (1988, 1996) ha argumentado que la cuan-
tificación de un efecto puede tener interés cuando un estudio está diseñado justamente para conocer la magnitud de un
efecto y su relevancia práctica, pero no cuando el objetivo de un estudio es contrastar una predicción concreta hecha por
una teoría; en este segundo caso, lo que realmente interesa es poder determinar si la evidencia empírica que aporta el estudio
es o no consistente con la predicción hecha; y, en este contexto, la cuantificación del tamaño del efecto no solo carece de
interés, sino que podría llevar a error.
36 Análisis de datos (vol. II)
criterio, por sí solo, no conduce a una clasificación del todo satisfactoria porque no resulta
muy útil a quienes se inician en el análisis de datos.
Una clasificación de los contrastes de hipótesis debe servir para cubrir, al menos, estos
dos objetivos: (1) ofrecer una panorámica de los contrastes disponibles y (2) ayudar al analista
de datos a elegir el contraste apropiado en cada caso. Creemos que ambos objetivos pueden
conseguirse fácilmente si el criterio referido al tipo de hipótesis que cada contraste permite
poner a prueba se complementa con otros dos: (1) el número de las variables que intervienen
en el análisis y (2) la naturaleza categórica o cuantitativa de las variables analizadas25.
El Cuadro 1.1 ofrece una clasificación de los contrastes basada en todos o parte de estos
criterios. Incluye los contrastes ya estudiados en el primer volumen (en cursiva) y los que
estudiaremos en éste. En la clasificación propuesta se utiliza, como primer criterio de clasi-
ficación, el número de variables; a continuación, la naturaleza categórica o cuantitativa de
las variables; por último, el tipo de hipótesis que cada contraste permite poner a prueba.
En lo relativo a una y dos variables, este cuadro es el mismo que ya hemos presentado
en el Capítulo 8 del primer volumen acompañado de una breve explicación de las caracte-
rísticas de cada contraste. La parte nueva, aquí, se refiere al estudio de más de dos varia-
bles, para lo cual se propone el análisis de varianza y el análisis de regresión lineal (junto con
alguna alternativa no paramétrica). Tanto el análisis de varianza como el de regresión, son
expresiones del modelo lineal general (ver Capítulo 1 del tercer volumen). Y ambos permiten
estudiar simultáneamente una variable dependiente y una o más variables independientes. La
variable dependiente debe ser cuantitativa en ambos casos (estudiaremos otros modelos en
el volumen 3). Lo que los distingue tiene que ver con la naturaleza de las variables indepen-
dientes: en el análisis de varianza son categóricas; en el de regresión pueder ser categóricas
o cuantitativas. Para completar la clasificación se han incluido algunas pruebas no paramétri-
cas que sirven para analizar diseños de un factor con medidas repetidas (J variables) cuando
no puede aplicarse el análisis de varianza: la prueba de Friedman (para variables ordinales)
y la prueba de Cochran (para variables dicotómicas).
Cuadro 1.1. Clasificación de los contrastes de hipótesis (los contrastes que aparecen en cursiva se han es-
tudiado en el primer volumen)
25
No falta quien considera (ver, en el Capítulo 1 del primer volumen, el apartado Rol de las escalas de medida; págs. 25-26)
que este criterio de clasificación es inapropiado. Pero lo cierto es que la naturaleza categórica o cuantitativa de las variables
condiciona el tipo de estadísticos que permiten extraer información útil de los datos. Con variables nominales como, por
ejemplo, el lugar de nacimiento, no tiene sentido calcular medias: ¿cuál es la media de Andalucía, Aragón, Asturias, ...,
Valencia? Y con variables cuantitativas como, por ejemplo, la edad, no tiene mucha utilidad preguntarse qué porcentaje de
sujetos tiene una determinada edad (si la variable está medida con suficiente precisión, no habrá repeticiones o habrá muy
pocas), es más útil conocer el centro, la dispersión y la forma de la distribución. Por tanto, los estadísticos que permiten ob-
tener información útil con variables categóricas y con variables cuantitativas no son los mismos. La clasificación propuesta
tiene en cuenta esta circunstancia incorporando la naturaleza de las variables como un criterio más.
Capítulo 1. La inferencia estadística 37
Apéndice 1
Cálculo de la potencia 26
Retomemos el ejemplo del profesor que desea evaluar los conocimientos de un estudiante sobre una
determinada materia administrándole preguntas de 4 alternativas de respuesta con solamente una correc-
ta. Al realizar el contraste (ver el apartado El contraste de hipótesis) hemos formulado las siguientes
hipótesis estadísticas:
$ 0,25; H1 : πacierto > 0,25
H0 : πacierto <
Para poder calcular la potencia de un contraste es necesario elegir un valor concreto de los múltiples
incluidos en H1 . En nuestro ejemplo, debemos elegir un valor concreto para πacierto. Esto puede hacer-
se de varias maneras. Una de ellas consiste en hacer las preguntas al estudiante y calcular su propor-
ción de aciertos. Supongamos que hacemos 10 preguntas al estudiante y que éste acierta 6. Y suponga-
mos que, basándonos en este dato, deseamos calcular la potencia del contraste cuando πacierto = 0,60.
Con esta información podemos calcular la potencia observada.
El cálculo de la potencia se basa en las distribuciones muestrales del estadístico del contraste bajo
H0 y bajo H1 . En nuestro ejemplo, hemos elegido nacierto como estadístico del contraste. Por tanto,
necesitamos conocer las distribuciones muestrales de nacierto bajo H0 y bajo H1 , es decir, las probabi-
lidades asociadas a los diferentes valores de nacierto cuando πacierto vale 0,25 y cuando πacierto vale 0,60. La
Tabla 1.4 ofrece estas probabilidades (recordemos que el estadístico nacierto sigue el modelo de distribu-
ción binomial con parámetros n y πacierto ).
Tabla 1.4. Distribuciones muestrales del estadístico nacierto bajo H0: πacierto = 0,25 y H1: πacierto = 0,60
nacierto 0 1 2 3 4 5 6 7 8 9 10
P (nacierto | πacierto = 0,25) 0,056 0,188 0,282 0,250 0,146 0,058 0,016 0,003 0,000 0,000 0,000
P (nacierto | πacierto = 0,60) 0,000 0,002 0,011 0,,42 0,111 0,201 0,251 0,215 0,121 0,040 0,006
26
Trabajar con una calculadora de bolsillo es, quizá, la mejor manera de entender las cosas. En este apartado vamos a ha-
cer precisamente eso. No obstante, los cálculos relacionados con la potencia se van complicando sensiblemente a medida
que lo va haciendo el diseño. Afortunadamente, los programas informáticos tienen resuelto este problema. En los siguien-
tes capítulos veremos cómo calcular la potencia asociada a los diferentes contrastes que vayamos estudiando. También vere-
mos cómo solicitar al SPSS este tipo de cálculos. No obstante, el SPSS no calcula la potencia de muchos de los contrastes
que estudiaremos. Para cubrir esta laguna puede utilizarse un excelente programa informático llamado GPOWER (Erdfelder,
Faul y Buchner, 1996) que, además de ser muy sencillo de manejar, puede descargarse de forma gratuita en la siguiente
dirección http://www.psycho.uni-duesseldorf.de/aap/projects/gpower.
40 Análisis de datos (vol. II)
Figura 1.2. Distribuciones muestrales del estadístico nacierto bajo H0: πacierto = 0,25 y H1: πacierto = 0,60
P(nacierto )
0,30 H0: π = 0,25
H1: π = 0,60
0,20 1− β
1− α α
0,10
β
0,00 nacierto
0 1 2 3 4 5 6 7 8 9 10
La potencia de este contraste es la probabilidad de rechazar H0 : πacierto = 0,25 cuando la hipótesis ver-
dadera es H1: πacierto = 0,60. Y únicamente tomaremos la decisión de rechazar H0 cuando nos encontre-
mos con un resultado muestral (nacierto) perteneciente a la zona de aceptación (es decir, 6 aciertos o más).
Ahora bien, si H1 es verdadera, la probabilidad de tomar la decisión de rechazar H0 (es decir, 1 ! β se-
rá la probabilidad de encontrar 6 o más aciertos en la distribución muestral correspondiente a H1 .
Sumando las probabilidades individuales desde nacierto = 6 hasta nacierto = 10, obtenemos
Por tanto, si asumimos que el verdadero valor del parámetro πacierto es 0,60, al contrastar H0: π = 0,25
con α = 0,05, la probabilidad de que el contraste detecte que H0 es falsa vale 0,633.
Curva de potencias
Teniendo en cuenta que suelen recomendarse valores en torno a 0,80 para la potencia de un contras-
te (Cohen, 1988), el valor obtenido en el contraste del apartado anterior (0,633) es un valor más bien
bajo. Cuando ocurre esto, ¿qué puede hacerse para aumentar la potencia del contraste? Sabemos que
la potencia depende de tres factores: (1) el valor de α, (2) el tamaño del error típico de la distribución
muestral utilizada para realizar el contraste y (3) el verdadero valor del parámetro estudiado entre to-
dos los incluidos en H1.
Al aumentar el valor de α, aumenta la potencia; por ejemplo, fijando el valor de α en 0,10 (en lugar
de 0,05) y dejando todo lo demás igual, la potencia sube a 0,834. Al modifica r el valor de πacierto en H1,
cambia la potencia (al aumentar la distancia entre H0 y H1, aumenta la potencia); por ejemplo, fijando
el valor de πacierto en 0,70 (en lugar de 0,60) y dejando todo lo demás igual, la potencia sube a 0,850.
Por último, al aumentar el tamaño muestral, aumenta la potencia; por ejemplo, utilizando 20 preguntas
(en lugar de 10) y dejando todo lo demás igual, la potencia sube a 0,943.
Tomando como referencia el ejemplo del apartado anterior (ver Figura 1.2), la Tabla 1.5 muestra
los valores que toma la potencia del contraste cuando, permaneciendo todo lo demás igual, se modifi-
ca el valor de α: la potencia (1 ! β) va aumentando conforme lo hace α (estos valores se han calculado
siguiendo la estrategia propuesta en el apartado anterior).
La Tabla 1.6 recoge los valores que toma la potencia del contraste cuando, permaneciendo todo
lo demás igual, se modifican los valores de πacierto en H1 (por supuesto, H0 permanece con πacierto = 0,25):
la potencia (1 ! β) va aumentando conforme el valor de πacierto en H1 se va alejando del valor de πacierto
en H0 .
Capítulo 1. La inferencia estadística 41
Por último, la Tabla 1.7 muestra los valores que toma la potencia del contraste cuando, perma-
neciendo todo lo demás igual, se modifican los valores del tamaño muestral n, es decir, del número de
preguntas: la potencia (1 ! β) va aumentando conforme lo hace el valor de n.
Tabla 1.7. Valores de 1 ! β en función del tamaño muestral n (H1: πacierto = 0,60; α = 0,05)
n 4 5 6 8 10 15 20 30 40
1!β 0,130 0,337 0,544 0,594 0,633 0,787 0,943 0,979 0,997
Una buena forma de apreciar cómo va cambiando la potencia conforme lo hacen los valores de los que
depende consiste en construir gráficos de líneas colocando los valores de los que depende la potencia
en el eje horizontal y los valores de la potencia en el vertical. Se obtienen así las llamadas curvas de
potencia. La Figura 1.3 muestra dos de estas curvas. La curva de la izquierda se ha obtenido a partir
de los datos de la Tabla 1.6; por tanto, muestra cómo va aumentando la potencia conforme lo va ha-
ciendo la distancia entre H0 y H1 . La curva de la derecha se ha obtenido a partir de los datos de la Ta-
bla 1.7; por tanto, muestra cómo va aumentando la potencia conforme lo va haciendo n (el número de
preguntas)27.
Figura 1.3. Valores de 1 ! β en función del valor de πacierto H1 (izquierda) y en función del tamaño muestral n (derecha)
1,0 1,0
0,8 0,8
0,6 0,6
1− β
1− β
0,4 0,4
0,2 0,2
0,0 0,0
0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 5 10 15 20 25 30 35 40
πacierto | H1 n
27
Las curvas aparecen escalonadas porque la distribución muestral que se está utilizando, la binomial, es una distribución
discreta. Por la misma razón, los valores de las Tablas 1.5 a la 1.7 son aproximados: no hay un punto de corte que deje exac-
tamente por encima de sí una probabilidad igual a 0,05.
42 Análisis de datos (vol. II)
La Figura 1.4 (gráfico de la izquierda) se ha construido a partir de los datos de la Tabla 1.5. A la curva
que se obtiene con los valores de α y 1 ! β se le suele llamar curva COR (curva característica de ope-
ración del receptor)28. En el contexto de los contrastes de hipótesis, la curva COR indica cómo va
aumentando la potencia a medida que lo hace α, es decir, a medida que se va modificando el punto de
corte en el que se basa la decisión del contraste (no olvidemos que el punto de corte depende del valor
asignado a α). Por tanto, la curva COR permite formarse una idea bastante precisa sobre la capacidad
de un contraste para discriminar entre H0 y H1. Esta capacidad es tanto mayor cuanto más se acerca la
curva a la esquina superior izquierda. Solamente de esa manera es posible obtener, simultáneamente,
valores α iguales o menores que 0,05 y potencias iguales o mayores que 0,80 (que son los valores co-
múnmente considerados aceptables).
El punto en el que la curva corta la diagonal trazada en el gráfico representa el punto en el que
ambos errores (Tipo I y Tipo II) toman el valor más pequeño. En la curva de la izquierda (que corres-
ponde a los datos de la Tabla 1.5), este punto de corte ofrece valores aproximados de 0,14 para α y de
0,85 para la potencia (es decir, 0,15 para β). Tomando para la potencia un valor de 0,80 (β = 0,20), el
valor de α baja hasta aproximadamente 0,08. Estos valores indican que, al contrastar H0: πacierto = 0,25
frente a H1 : πacierto = 0,60 con n = 10, la capacidad del contraste para discriminar entre H0 y H1 no es
lo bastante buena.
La Tabla 1.8 contiene la misma información que la 1.5, pero para el caso H1 : πacierto = 0,70. La
Figura 1.4 (gráfico de la derecha) representa esta nueva situación. Al aumentar la distancia entre H0
y H1, la curva COR se aproxima más a la esquina superior izquierda. Y esto indica que la capacidad
de discriminación del contraste ha aumentado. De hecho, ahora, cuando α vale 0,05, la potencia al-
canza 0,85. Y estos valores ya son aceptables. El punto que minimiza ambos errores (punto en el que
la diagonal trazada en el gráfico corta la curva) ofrece un valor aproximado de 0,08 para α y de 0,95
para la potencia (0,05 para β).
Figura 1.4. Valores de 1 ! β en función de α (curvas COR). Izquierda: H1: πacierto = 0,60. Derecha: H1: πacierto = 0,70
1,0 1,0
0,8 0,8
0,6 0,6
1− β
1− β
0,4 0,4
0,2 0,2
0,0 0,0
0,0 0,20 0,40 0,60 0,80 1,0 0,0 0,20 0,40 0,60 0,80 1,0
α α
28
Es muy utilizada en contextos en los que es necesario tomar decisiones con incertidumbre porque ayuda a encontrar el
punto de corte que minimiza los dos tipos de error inherentes a toda decisión. Por ejemplo, en una situación como la des-
crita en la Tabla 1.3, permite identificar el punto de corte que maximiza la sensibilidad y la especificidad de la prueba
diagnóstica (ver Franco y Vivo, 2007).
Capítulo 1. La inferencia estadística 43
1.1. En un contraste de hipótesis, la probabilidad de rechazar una hipótesis nula que es verdadera se deno-
mina:
a. Error tipo I.
b. Nivel crítico.
c. Nivel de confianza.
d. Potencia.
e. Nivel de significación.
1.2. Supongamos que se desea evaluar la eficacia de un tratamiento. Para ello, se selecciona aleatoriamen-
te una muestra de pacientes y se forman, también aleatoriamente, dos grupos: experimental y control.
Al grupo experimental se le aplica el tratamiento; al grupo control se le aplica un placebo. Tras recoger
los datos y comparar los grupos se obtiene un resultado significativo ( p = 0,001). Teniendo en cuenta
este escenario, señalar como verdadera o falsa cada una de las siguientes afirmaciones:
a. Se ha conseguido probar definitivamente la eficacia del tratamiento.
b. Se conoce o puede deducirse la probabilidad de que la hipótesis nula sea verdadera.
c. Se conoce o puede deducirse la probabilidad de que la hipótesis nula sea falsa.
d. Si se decide rechazar la hipótesis nula, se conoce la probabilidad de que la decisión sea incorrecta.
e. Si se repitiera el experimento un gran número de veces, cabría esperar encontrar un resultado sig-
nificativo en el 99,9 % de las veces.
f. Si se mantiene la hipótesis nula, puede concluirse que los grupos no difieren.
1.3. La siguiente tabla ofrece los valores y las distribuciones del estadístico W :
W !2 !1 0 1 2 3 4
f (W ) | H0 0,00 0,03 0,10 0,20 0,50 0,10 0,07
f (W ) | H1 0,05 0,25 0,30 0,20 0,10 0,10 0,00
Si establecemos, como regla de decisión, “Rechazar H0 si W toma un valor menor que 0; mantenerla
en caso contrario”,
a. ¿Cuál es la probabilidad de mantener H0 siendo falsa?
b. ¿Cuál es la probabilidad de rechazar H0 siendo verdadera?
1.4. La siguiente tabla muestra las funciones de probabilidad acumuladas del estadístico V bajo H0 y bajo
una determinada H1. En un contraste unilateral izquierdo se ha obtenido V = !1.
n1 0 1 2 3 4
f (n1 ) con π = 0,40 0,130 0,345 0,345 0,154 0,026
f (n1 ) con π = 0,60 0,026 0,154 0,345 0,345 0,130
1.6. Un test de aptitud consta de 5 preguntas, cada una con 5 alternativas de las que solamente una es correc-
ta. La tabla ofrece la distribución muestral de la variable naciertos = «número de aciertos» cuando un su-
jeto responde al azar (H0) y cuando responde de acuerdo con lo que sabe (H1):
naciertos 0 1 2 3 4 5
f (nacierto ) | H0 0,328 0,409 0,205 0,051 0,006 0,001
f (nacierto ) | H1 0,168 0,360 0,309 0,132 0,029 0,002
1.7. Un investigador ha utilizado dos estadísticos de contraste diferentes, T1 y T2, para contrastar la misma
hipótesis de igualdad de medias. La siguiente tabla muestra los posibles valores de estos estadísticos
junto con sus funciones de probabilidad acumuladas bajo H0 :
T1 , T2 0 1 2 3 4 5 6 7 8
F (T1) 0,070 0,236 0,399 0,456 0,544 0,601 0,764 0,930 1,000
F (T2) 0,000 0,126 0,250 0,366 0,500 0,634 0,750 0,874 1,000
Sabiendo que el contraste es unilateral derecho y que en una determinada muestra aleatoria se ha ob-
tenido T1 = T2 = 7,
a. Si el investigador decide utilizar un nivel de significación de 0,10, deberá rechazar la hipótesis nula:
( ) solo con T1, ( ) solo con T2, ( ) con ninguno de los dos, ( ) con ambos. ¿Por qué?
b. Si se asume que las distribuciones muestrales de T1 y T2 son simétricas, ¿cuáles son los valores
esperados de T1 y T2 ?
1.8. (Indicar cuál de las siguientes afirmaciones es verdadera.) En un contraste unilateral derecho, con un
nivel de significación de 0,05,
a. La probabilidad de mantener H0 siendo falsa vale 0,05.
b. La probabilidad de rechazar H0 siendo falsa vale 0,05.
c. La probabilidad de rechazar H0 siendo verdadera vale 0,05.
d. La probabilidad de mantener H0 siendo falsa vale 0,95.
e. La probabilidad de rechazar H0 siendo verdadera vale 0,95.
Capítulo 1. La inferencia estadística 45
1.9. Un investigador afirma que, entre los estudiantes universitarios, la proporción de fumadoras es mayor
que la de fumadores. Tras efectuar una encuesta, ha comparado la proporción de fumadoras con la pro-
$ πellos; H1: πellas > πellos ) y ha obtenido, para el estadístico del contras-
porción de fumadores (H0: πellas <
te, un valor T = 2,681. La siguiente tabla ofrece la función de distribución (probabilidades acumula-
das) de algunos valores del estadístico T:
a. ¿Puede afirmarse que los datos confirman la hipótesis del investigador? ¿Por qué? (α = 0,05)
b. ¿Qué valores del estadístico T llevarán a rechazar H0 con α = 0,05?
1.10. Un terapeuta afirma que una determinada terapia antidepresiva consigue recuperaciones aceptables en
más del 80 % de los pacientes tratados. Un colega suyo piensa que la proporción de recuperaciones
aceptables es menor que el 80 %. Ambos realizan un estudio para contrastar sus respectivas hipótesis
con α = 0,05:
a. ¿Qué hipótesis estadísticas debe plantear cada terapeuta?
b. Al contrastar su hipótesis nula el primer terapeuta obtiene un nivel crítico p = 0,818. Utilizando
un nivel de confianza de 0,95, ¿qué decisión debe tomar? ¿Por qué?
c. Al contrastar su hipótesis nula el segundo terapeuta obtiene un nivel crítico p = 0,002. Utilizando
un nivel de confianza de 0,95, ¿qué decisión debe tomar? ¿Por qué?
d. ¿Cuál de los dos terapeutas tiene razón?, ¿tienen razón los dos?, ¿ninguno de los dos?
1.11. En 1990 fumaba el 30 % de los universitarios madrileños. Un investigador cree que en los últimos años
ese porcentaje ha aumentado. Para comprobarlo, selecciona una muestra aleatoria y obtiene un esta-
dístico al que, en la distribución correspondiente a πF = 0,30, le corresponde el centil 93.
a. Plantea las hipótesis estadísticas del contraste.
b. ¿Qué decisión debe tomarse sobre H0 con α = 0,05? ¿Por qué?
1.12 Al comparar dos medias independientes en un contraste unilateral izquierdo se ha obtenido, para el
$ !0,92) = 0,20 y utilizando α = 0,05 (elegir la al-
estadístico T un valor de !0,92. Sabiendo que P (T <
ternativa correcta):
a. Debe rechazarse H0 porque T cae en la zona crítica.
b. Debe mantenerse H0 porque 0,20 > 0,05.
c. Debe rechazarse H0 porque !0,92 < 0,20.
d. No se puede concluir nada porque se desconocen los grados de libertad de la distribución de T.
e. Debe concluirse que las medias poblacionales comparadas no son iguales.
1.14 Queremos averiguar si los hombres y las mujeres opinan de forma distinta sobre la normativa relati-
va al carné por puntos. Para ello se ha seleccionado una muestra aleatoria de 200 personas (100 de
cada sexo) y se les ha preguntado si están a favor o en contra del carné por puntos. Todos los sujetos
han respondido en una escala de 0 (muy en contra) a 100 (muy a favor):
46 Análisis de datos (vol. II)
a. ¿Con cuántas variables se está trabajando? ¿Cuál o cuáles son estas varaibles?
b. ¿Qué hipótesis nula plantearías?
c. ¿Qué contraste aplicarías para analizar los datos?
d. Si el estadístico del contraste tomara un valor de 5, ¿debería rechazarse H0? ¿Por qué?
1.15. Al comparar las medias de dos grupos mediante un contraste unilateral derecho el estadístico del con-
traste T ha tomado el valor 2,63. Sabiendo que P (T > 2,63) = 0,075 y utilizando un nivel de signifi-
cación α = 0,05:
a. Se debe rechazar H0 porque T cae en la zona crítica.
b. Se debe mantener H0 porque 0,075 > 0,05.
c. Se debe rechazar H0 porque 0,075 > 0,05.
d. Se debe concluir que las medias poblacionales difieren entre sí.
e. Se debe concluir que las medias muestrales son iguales.
1.16. En un contraste unilateral derecho se ha obtenido para el estadístico del contraste H un valor de 6,13.
Sabiendo que P (H < 6,13) = 0,05:
a. La decisión razonable es mantener H0.
b. La decisión razonable es rechazar H0.
c. La probabilidad de rechazar H0 siendo verdadera vale 0,05.
d. Se puede rechazar H0 con una probabilidad de equivocarse de 0,05.
e. Al mantener H0 siendo verdadera, la probabilidad de equivocarse vale al menos 0,05.
1.17. Para contrastar una determinada hipótesis nula se han utilizado dos estadísticos: V y W. Se sabe que
V se distribuye según el modelo de probabilidad t de Student y que W se distribuye según el modelo
de probabilidad normal N (0, 1). En una muestra aleatoria concreta se ha obtenido V = W = k. Según es-
to, siendo k un valor cualquiera y dado un mismo nivel de significación (elegir la/s alternativa/s correc-
ta/s):
a. Si se mantiene H0 con V, es imposible rechazarla con W.
b. Si se rechaza H0 con V, necesariamente se rechazará con W.
c. Es más probable rechazar H0 con V que con W.
d. Si se mantiene H0 con V, necesariamente se mantendrá con W.
e. Si se rechaza H0 con V, es posible mantenerla con W.
2
Inferencia con una variable
En el Capítulo 9 del primer volumen ya hemos empezado a estudiar qué puede hacerse con
una sola variable desde el punto de vista inferencial. En concreto, hemos estudiado qué puede
hacerse (1) con una variable dicotómica: contrastar hipótesis sobre una proporción con la
prueba binomial y construir intervalos de confianza sobre el parámetro π1; (2) con una varia-
ble politómica: contrastar hipótesis acerca de cómo se distribuyen las frecuencias asociadas
a cada categoría de la variable (bondad de ajuste con la prueba X 2 de Pearson) y construir
intervalos de confianza para la proporción teórica de cada categoría; y (3) con una variable
cuantitativa: contrastar hipótesis sobre el valor de su media poblacional con la prueba T de
Student y construir intervalos de confianza sobre el parámetro µY. No presentaremos nuevos
procedimientos para el análisis de una variable categórica (dicotómica o politómica); los ya
estudiados sirven para responder las preguntas que suelen plantearse con este tipo de varia-
bles. Pero con una variable cuantitativa es posible hacer más cosas.
Recordemos que, para describir correctamente una variable cuantitativa debemos prestar
atención a tres propiedades de su distribución: centro, dispersión y forma. Pues bien, desde
el punto de vista inferencial también es posible estudiar esas mismas tres propiedades. En
relación con el centro de la distribución, estudiaremos la prueba de Wilcoxon y la prueba de
los signos. Para estudiar la dispersión presentaremos el contraste sobre una varianza y ten-
dremos ocasión de comprobar que, en determinadas circunstancias, puede resultar bastante
útil. Y en lo relativo a la forma de la distribución estudiaremos la prueba de Kolmogorov-
Smirnov, que sirve para contrastar hipótesis sobre bondad de ajuste con variables cuantitativas
(de modo similar a como hace la prueba X 2 de Pearson con variables categóricas).
= . = [2.2]
En este escenario, una fuerte discrepancia entre los valores muestrales S+ y S! estaría indi-
cando que k0 no es el verdadero valor de la mediana poblacional de Y. Por tanto, las sumas
S+ y S! pueden utilizarse para contrastar hipótesis del tipo MdnY = k0.
Ahora bien, para que esto sea posible, es necesario conocer la distribución muestral de
S+ (o de S!). Con muestras pequeñas es relativamente fácil obtener esta distribución muestral
(ver, por ejemplo, Pardo y San Martín, 1998, págs. 421-422): la Tabla M del Apéndice final
Capítulo 2. Inferencia con una variable 49
1. Hipótesis:
a. Contraste bilateral: H0: MdnY = k0; H1: MdnY =/ k0 .
b. Contraste unilateral derecho: H0: MdnY < $ k0; H1: MdnY > k0 .
c. Contraste unilateral izquierdo: H0: MdnY > $ k0; H1: MdnY < k0 .
(k0 se refiere al valor concreto de MdnY que interesa contrastar)
2. Supuestos: muestra aleatoria de m observaciones de una variable cuantitativa Yi (de
las que se desechan los valores Yi = k0) procedente de una distribución simétrica (el
supuesto de simetría implica que las inferencias efectuadas sobre la mediana son tras-
ladables a la media).
3. Estadístico del contraste: = . [2.6]
4. Distribución muestral: los puntos críticos de la distribución muestral de S+ se encuen-
tran tabulados en la Tabla M del Apéndice final.
5. Zonas críticas:
a. Contraste bilateral: S+ < sα/2 y S+ > s1 ! α/2 .
b. Contraste unilateral derecho: S+ > s1 ! α .
c. Contraste unilateral izquierdo: S+ < sα .
6. Decisión: se rechaza H0 si S+ cae en la zona crítica; en caso contrario, se mantiene.
1
Conforme aumenta el tamaño muestral, el espacio muestral correspondiente a los posibles valores S+ va aumentando rápi-
damente y la obtención de su distribución exacta se va haciendo más complicada. En estos casos se puede recurrir al teorema
del límite central y utilizar la aproximación normal (ésta es la solución que utiliza el SPSS, aunque con una variante que
veremos más adelante).
Sabemos (ver, por ejemplo, Conover, 1980, págs. 36-40) que la suma y la suma al cuadrado de los n primeros números
enteros (1 + 2 + · · · + n) valen, respectivamente:
y [2.3]
A partir de aquí, y teniendo en cuenta que S+ es la suma de la mitad aleatoria de los n primeros enteros, se obtiene:
y [2.4]
[2.5]
tiende a distribuirse según el modelo de probabilidad normal N(0, 1). Lo cual significa que con muestras grandes es posible
utilizar el estadístico Z y su distribución aproximada N (0, 1) para contrastar la hipótesis MdnY = k0.
50 Análisis de datos (vol. II)
Yi 1,48 1,80 1,93 1,98 2,04 2,08 2,18 2,20 2,30 2,45 2,47 3,15 3,46 4,64
Di !1,02 !0,70 !0,57 !0,52 !0,46 !0,42 !0,32 !0,30 !0,20 !0,05 !0,03 0,65 0,96 2,14
| Di | 1,02 0,70 0,57 0,52 0,48 0,42 0,32 0,30 0,20 0,05 0,03 0,65 0,96 2,14
Ri 13 11 9 8 7 6 5 4 3 2 1 10 12 14
Capítulo 2. Inferencia con una variable 51
2
Esto supone restringir su aplicación al caso en el que se verifica π+ = 0,50. En el Apéndice 2 se incluye una descripción
de la prueba de los signos para el caso general, es decir para cuando π+ = k0 (a esta variante de la prueba de los signos se le
suele llamar prueba de los cuantiles).
3
La prueba de los signos permite, al igual que la de Wilcoxon, contrastar hipótesis sobre el centro de una distribución (en
concreto, sobre la mediana). La diferencia más evidente entre ambas es que la prueba de Wilcoxon aprovecha la información
ordinal de los datos mientras que la de los signos únicamente aprovecha la información nominal. Como contrapartida, la
prueba de Wilcoxon exige nivel de medida de intervalos o razón (pues asume simetría de la distribución) mientras que la
de los signos únicamente exige nivel de medida ordinal (la mediana es un estadístico ordinal).
52 Análisis de datos (vol. II)
n+ . n! [2.9]
Una fuerte discrepancia entre n+ y n! estaría indicando que el valor de la mediana poblacional
no es k0. La clave está precisamente en poder determinar cuándo una discrepancia entre n+ y
n! es lo bastante grande como para poder afirmar que, efectivamente, el valor de la mediana
poblacional no es k0. Para esto es necesario conocer las distribuciones muestrales de n+ y n!.
Ahora bien, recordemos4 que si se realizan n ensayos independientes de una variable alea-
toria que solamente puede tomar dos valores (1= «éxito», 0 = «fracaso»), la variable n1 = «nú-
mero de éxitos en los n ensayos» se distribuye según el modelo de probabilidad binomial con
parámetros n y π1. Por tanto, bajo la hipótesis H0: MdnY = k0, la variable aleatoria n+ se
distribuirá según el modelo de probabilidad binomial con parámetros n y π+ = 0,50 (decimos
π+ = 0,50 porque, si H0 es verdadera, entonces π + = π!). Esto también sirve para n+.
El modelo binomial, en consecuencia, ofrece las probabilidades asociadas al estadístico
n+ y eso es todo lo que necesitamos para poder diseñar un contraste sobre MdnY basado en ese
estadístico. Pero también sabemos5 que, a medida que n va aumentando, la distribución de n+
(binomial) se va aproximando a la normal con parámetros:
E (n +) = = n π+ = n / 2
[2.10]
V (n +) = = n π+ (1 ! π+) = n / 4 ÷ =
Z = = [2.11]
tiende a distribuirse N (0, 1). Esto significa que también es posible utilizar la transformación
Z y la distribución normal tipificada para contrastar la hipótesis MdnY = k0 . El cuadro 2.2
ofrece un resumen del procedimiento.
1. Hipótesis:
a. Contraste bilateral: H0: MdnY = k0; H1: MdnY =/ k0 .
b. Contraste unilateral derecho: H0: MdnY <$ k0; H1: MdnY > k0 .
$ k0; H1: MdnY < k0 .
c. Contraste unilateral izquierdo: H0: MdnY >
2. Supuestos: muestra aleatoria de m observaciones resultado de medir una variable Y al
menos ordinal. Cada valor de la variable es clasificado como mayor, menor o igual
que k0 para obtener:
4
Ver, en el Capítulo 3 del primer volumen, el apartado sobre la distribución binomial.
5
Ver, en el Capítulo 5 del primer volumen, el apartado Aproximación de la distribución binomial a la normal.
Capítulo 2. Inferencia con una variable 53
4. Distribuciones muestrales:
4.1. n+ se distribuye según el modelo de probabilidad binomial con parámetros n y
π+ = 0,50.
4.2. Z se aproxima al modelo de distribución de probabilidad normal N (0, 1) a medi-
da que el tamaño muestral n va aumentando8.
5. Reglas de decisión:
a. Contraste bilateral:
a.1. Se rechaza H0 si n+ toma un valor tan alejado de su valor esperado bajo H0
que la probabilidad de obtener un valor tan alejado como ése o más es me-
nor que α / 2.
a.2. Se rechaza H0 si Z $
< Zα/2 o Z $
> Z1!α/2 .
b. Contraste unilateral derecho:
b.1. Se rechaza H0 si n+ toma un valor tan grande que la probabilidad de obtener
un valor como ése o mayor es menor que α.
b.2. Se rechaza H0 si Z $
> Z1!α .
c. Contraste unilateral izquierdo:
c.1. Se rechaza H0 si n+ toma un valor tan pequeño que la probabilidad de obte-
ner un valor como ése o más pequeño es menor que α.
c.2. Se rechaza H0 si Z $
< Zα .
6
Conviene que la variable estudiada sea continua para evitar que aparezcan valores iguales a la mediana (empates). Aun
así, la variable puede no ser continua. Y tanto si lo es como si no, los empates se desechan porque no informan sobre H0.
7
Recordemos que, si n no es muy grande, la aproximación es un poco más exacta aplicando una pequeña modificación lla-
mada corrección por continuidad, que consiste en sumar (si n+ es menor que n π+) o restar (si n+ es mayor que n π+) 0,5 a n+
para hacer el contraste algo más conservador:
[2.12]
8
Tenemos dos estadísticos. El primero de ellos (n+) tiene distribución muestral exacta (la binomial); el segundo (Z) tiene
una distribución muestral aproximada (la normal tipificada). El primero es preferible con muestras pequeñas (por ejemplo,
con n $
< 20, que es el tope de la tabla binomial del Apéndice final). Z solamente debe utilizarse con muestras grandes (ver,
en el Capítulo 5 del primer volumen, el apartado Aproximación de la distribución binomial a la normal).
54 Análisis de datos (vol. II)
Dadas las características de la variable peso, parece razonable aplicar un procedimiento que
no asuma asimetría. Veamos a qué conclusión llegamos con la prueba de los signos (segui-
mos utilizando α = 0,05):
1. Hipótesis: H0: MdnY > $ 2,50; H1: MdnY < 2,50 (contraste unilateral izquierdo).
2. Supuestos: muestra aleatoria de 14 observaciones de una variable al menos ordinal.
3. Estadístico del contraste: n+ = 3 (número de diferencias positivas entre cada peso y el
valor 2,50 hipotetizado para la mediana; ver Tabla 2.2).
4. Distribución muestral: n+ se distribuye según el modelo de probabilidad binomial con
parámetros n = 14 y π+ = 0,50.
5. Regla de decisión: se rechaza H0 si n+ toma un valor tan pequeño que la probabilidad de
obtener un valor como ése o más pequeño es menor que α = 0,05. En la distribución bino-
$ 3) = 0,029.
mial (Tabla A del Apéndice final), con n = 14 y π+ = 0,50, se obtiene: P (n+ <
6. Decisión: puesto que 0,029 < 0,05, se rechaza H0. Podemos concluir que el valor pobla-
cional del la mediana del peso de los recién nacidos de madres fumadoras es menor que
2,50 kg.
$ 3) = 0,029.
7. Nivel crítico: p = P (n+ <
La prueba de Wilcoxon
Aunque el SPSS no incluye la prueba de Wilcoxon para una muestra, un sencillo truco per-
mite utilizar la prueba de Wilcoxon para dos muestras relacionadas para contrastar hipó-
tesis referidas a una sola mediana (la prueba de Wilcoxon para dos muestras relacionadas se
estudia en el siguiente capítulo). Este truco consiste en crear una nueva variable en la que
todos los casos tomen el valor propuesto para la mediana en la hipótesis nula.
El SPSS tampoco incluye el estadístico S+ y su distribución muestral exacta (es decir, no
incluye el procedimiento descrito en el Cuadro 2.1); únicamente ofrece una aproximación
normal parecida al estadístico Z propuesto en la nota a pie de página nº 1. En concreto, utili-
za la transformación:
Z = [2.13]
donde S se refiere al menor de S+ y S!, k al número rangos distintos en los que existen empa-
tes y ti al número de puntuaciones empatadas en el rango i (si al asignar rangos no existen em-
pates, el sumatorio del denominador vale cero). Como S es el menor de S+ y S!, el resultado
de la ecuación [2.13] siempre es negativo. El SPSS ofrece el nivel crítico bilateral resultante
de multiplicar por 2 la probabilidad de obtener valores menores o iguales que Z.
Retomemos los datos de la Tabla 2.1 sobre el peso de 14 recién nacidos de madres fu-
madoras (los datos se encuentran en el archivo Tabla 2.1 peso bajo, en la página web del
manual). Para aplicar [2.13] a los datos de la Tabla 2.1:
' Reproducir en el Editor de datos los datos de la Tabla 2.1 (o abrir el archivo Tabla 2.1
peso bajo) y asignar a la nueva variable el nombre peso o cualquier otro nombre válido.
' Utilizar la opción Calcular del menú Transformar para crear una variable en la que todos
los casos tomen el valor 2,50 (valor propuesto para la mediana en la hipótesis nula) y
asignar a esa nueva variable el nombre mediana o cualquier otro nombre válido.
' Seleccionar la opción Pruebas no paramétricas > Dos muestras relacionadas del menú Anali-
zar para acceder al cuadro de diálogo Pruebas para dos muestras relacionadas (la prueba
de Wilcoxon está seleccionada por defecto).
' Trasladar las variables peso y mediana a la lista Contrastar pares (en caso necesario, reor-
denar las variables colocando la variable mediana antes que la variable peso).
Capítulo 2. Inferencia con una variable 57
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Pruebas para dos mues-
tras relacionadas: Estadísticos y marcar las opciones Descriptivos y Cuartiles. Pulsar el
botón Continuar para volver al cuadro de diálogo principal.
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 2.3 a 2.5. La
Tabla 2.3 ofrece algunos estadísticos descriptivos: el número de casos válidos (N ), la media,
la desviación típica, los valores mínimo y máximo, y los tres cuartiles (percentiles 25, 50 y
75). La mediana (percentil 50) de la variable peso (peso al nacer en kg) vale 2,19.
Lo que estamos intentando averiguar con la prueba de Wilcoxon es si ese valor (2,19)
es lo bastante pequeño como para poder afirmar que el peso mediano de los recién nacidos
de madres fumadoras es menor que 2,50 kg, es decir, menor que el valor propuesto en la hi-
pótesis nula.
La Tabla 2.4 ofrece el número, media y suma de los rangos negativos y positivos (las notas
a pie de tabla indican qué rangos se están considerando positivos y negativos; debe tenerse
en cuenta que el SPSS calcula las diferencias entre la segunda variable y la primera del par
seleccionado en el cuadro de diálogo; por eso hemos colocado la variable mediana antes).
La tabla también ofrece el número de empates (casos excluidos del análisis) y el número total
de rangos asignados (incluidos los empates).
Por último, la Tabla 2.5 muestra el estadístico de Wilcoxon (Z ) y su nivel crítico bilateral
(sig. asintót. bilateral). Puesto que estamos planteando un contraste unilateral izquierdo, el
nivel crítico bilateral hay que dividirlo entre 2. Por tanto: p = 0,300 / 2 = 0,150. Y como el
valor del nivel crítico (0,150) es mayor que α = 0,05, lo razonable es no rechazar la hipótesis
de que el valor de la mediana poblacional es 2,50 kg.
= [2.14]
60 Análisis de datos (vol. II)
P( $
< $
< ) = 1! α [2.15]
Unas sencillas transformaciones (ver Pardo y San Martín, 1998, pág. 106) permiten utilizar
[2.14] y [2.15] para contrastar hipótesis y construir intervalos de confianza sobre el parámetro
. El cuadro 2.3 ofrece un resumen del procedimiento.
1. Hipótesis:
a. Contraste bilateral: H0: = k 0 ; H 1: =/ k0 .
b. Contraste unilateral derecho: H0: $
< k 0 ; H 1: > k0 .
c. Contraste unilateral izquierdo: H0: $
> k 0 ; H 1: < k0 .
(k0 se refiere al valor concreto de que interesa contrastar).
2. Supuestos: muestra aleatoria de tamaño n extraída de una población normal.
3. Estadístico del contraste (ver ecuación [2.14]): = .
4. Distribución muestral: se distribuye según el modelo de probabilidad ji-cuadrado
con n ! 1 grados de libertad: .
5. Zona crítica:
a. Contraste bilateral: $
< y $
> .
b. Contraste unilateral derecho: $
> .
c. Contraste unilateral izquierdo: $
< .
6. Regla de decisión: se rechaza H0 si el estadístico del contraste cae en la zona crítica;
en caso contrario, se mantiene.
7. Intervalo de confianza (basado en [2.15]): Li =
[2.16]
Ls =
la distribución original es normal, ¿es posible afirmar que el entrenamiento ha tenido algún
efecto sobre el CI de los sujetos entrenados? (α = 0,05).
1. Hipótesis: H0: $
< 100; H1: > 100 (contraste unilateral derecho).
2. Supuestos: muestra aleatoria de 30 observaciones procedentes de una población normal.
3. Estadístico del contraste: = = (25 !1) (12,6)2 / 102 = 38,10.
4. Distribución muestral: X 2 se distribuye según ji-cuadrado con 24 grados de libertad.
5. Zona crítica (contraste unilateral derecho): $
> = = 36,42.
5. Regla de decisión: puesto que el valor del estadístico del contraste (38,10) es mayor que
el punto crítico (36,42) se rechaza H0. Por tanto, la varianza de las puntaciones ha au-
mentado con el entrenamiento. El aumento de la varianza en un conjunto de datos cuya
media no cambia está indicando que unas puntuaciones han aumentado y otras han dis-
minuido. Y esto significa que en unos sujetos ha mejorado el CI mientas que en otros ha
empeorado.
La Tabla N del Apéndice final ofrece algunos cuantiles dα de las distribuciones muestrales
de DKS correspondientes a tamaños muestrales comprendidos entre 4 y 40 (Smirnov, 1948).
Si la variable estudiada es discreta, las decisiones basadas en estos cuantiles tienden a ser con-
servadoras (Noether, 1967). Y si en la hipótesis nula no se especifica el valor de los paráme-
tros de la distribución propuesta y, consecuentemente, hay que estimarlos a partir de los datos,
la prueba también se vuelve conservadora (Conover, 1980). El Cuadro 2.4 ofrece un resumen
del procedimiento.
viación típica propuestas en la hipótesis nula (2,5 y 1); y la función de distribución teó-
rica, F0 (Yi ), se ha obtenido calculando la probabilidad acumulada hasta cada valor Z i en
la curva normal tipificada N (0, 1).
Yi 1,48 1,80 1,93 1,98 2,04 2,08 2,18 2,20 2,30 2,45 2,47 3,15 3,46 4,64
F (Yi ) 0,07 0,14 0,21 0,29 0,36 0,43 0,50 0,57 0,64 0,71 0,79 0,86 0,93 1,00
Zi !1,02 !0,70 !0,57 !0,52 !0,46 !0,42 !0,32 !0,30 !0,20 !0,05 !0,03 0,65 0,96 2,14
F0 (Yi ) 0,15 0,24 0,28 0,30 0,32 0,34 0,37 0,38 0,42 0,48 0,49 0,74 0,83 0,98
| Di | 0,08 0,10 0,07 0,01 0,03 0,09 0,13 0,19 0,22 0,23 0,30 0,12 0,10 0,02
= [2.19]
ZKS = [2.20]
La distribución de este estadístico se aproxima al modelo de probabilidad normal N(0, 1); por
tanto, las probabilidades asociadas a cada uno de sus posibles valores pueden obtenerse a par-
tir de la tabla de la curva normal tipificada. No obstante, el SPSS calcula esas probabilidades
aplicando el método de Smirnov (1948), el cual difiere del basado en las probabilidades de
la curva normal tipificada (si bien arroja resultados parecidos).
Aunque el SPSS permite utilizar la prueba de Kolmogorov-Smirnov para valorar el ajuste
de una variable cuantitativa a diferentes distribuciones teóricas (uniforme, normal, Poisson
y exponencial), lo cierto es que lo más habitual es verse en la necesidad de valorar el ajuste
a la distribución normal. La razón de esto es que varios de los procedimientos estadísticos
más utilizados han sido diseñados para analizar datos procedentes de distribuciones normales.
Para contrastar con la prueba de Kolmogorov-Smirnov la hipótesis de que la variable peso
al nacer (ver ejemplo anterior) se distribuye normalmente con parámetros µY = 2,5 y σY = 1
(los datos se encuentran en el archivo Tabla 2.7 Kolmogorov):
' Seleccionar la opción Pruebas no paramétricas > K-S de una muestra del menú Analizar para
acceder al cuadro de diálogo Prueba de Kolmogorov-Smirnov para una muestra.
' En el cuadro de diálogo principal, seleccionar la variable peso (peso al nacer) y trasla-
darla a la lista Contrastar variables. Para efectuar el ajuste a la distribución normal, dejar
marcada la opción Normal del recuadro Distribución de contraste.
' Pulsar el botón Pegar para generar la sintaxis correspondiente a las elecciones hechas y,
en el Editor de sintaxis, cambiar la línea K-S(NORMAL) = peso añadiendo el valor de los
parámetros media y desviación típica: K-S(NORMAL 2.5, 1) = peso (si no se aplica esta
corrección, el SPSS utiliza como parámetros los valores muestrales).
Ejecutando la sintaxis, el Visor ofrece los resultados que muestra la Tabla 2.8. La tabla in-
cluye la siguiente información: (1) el número de casos válidos (N ); (2) los parámetros de la
distribución teórica seleccionada (es decir, los parámetros que hemos fijado: media = 2,5 y
desviación típica = 1); (3) las diferencias más extremas entre las distribuciones acumuladas
empírica y teórica (la diferencia más grande de las positivas, la más pequeña de las negati-
vas y la más grande de las dos en valor absoluto); (4) el estadístico ZKS (Z = 1,114); y (5) el
nivel crítico o valor p (significación asintótica bilateral = 0,167). Puesto que el valor del ni-
vel crítico es mayor que 0,05, la decisión razonable es mantener la hipótesis nula. Por tanto,
es razonable asumir que los datos analizados podrían proceder de una distribución normal con
media 2,5 y desviación típica 1.
Capítulo 2. Inferencia con una variable 65
Tabla 2.8. Prueba de Kolmogorov-Smirnov para una muestra (ajuste a una distribución normal)
Peso al nacer
N 14
Parámetros normales a,b Media 2,5
Desviación típica 1
Diferencias más extremas Absoluta ,30
Positiva ,30
Negativa -,17
Z de Kolmogorov-Smirnov 1,11
Sig. asintót. (bilateral) ,167
a. La distribución de contraste es la Normal.
b. Especificado por el usuario
El procedimiento Explorar incluye dos pruebas de significación para valorar el ajuste de una
variable cuantitativa a una distribución normal: la prueba de Kolmogorov-Smirnov con la
corrección del nivel crítico mediante el método de Lilliefors (Kolmogorov, 1933; Smirnov,
1948; Lilliefors, 1967; ver también Dallal y Wilkinson, 1986) y la prueba de Shapiro-Wilk
(Shapiro y Wilk, 1965).
El problema de estos y otros estadísticos de normalidad es que, con muestras grandes, son
demasiado sensibles a pequeñas desviaciones de la normalidad. Por esta razón, estos estadís-
ticos suelen acompañarse con algún gráfico de normalidad. El procedimiento Explorar ofrece
dos de estos gráficos: el Q-Q normal y el Q-Q normal sin tendencias.
Para obtener los estadísticos de Kolmogorov-Lilliefors y de Shapiro-Wilk, y gráficos de
normalidad del procedimiento Explorar:
' Seleccionar la opción Estadísticos descriptivos > Explorar del menú Analizar para acceder
al cuadro de diálogo Explorar y trasladar la variable peso (peso al nacer) a la lista Depen-
dientes.
' Pulsar el botón Gráficos para acceder al subcuadro de diálogo Explorar: Gráficos y mar-
car la opción Gráficos con pruebas de normalidad. Pulsar el botón Continuar para volver al
cuadro de diálogo principal.
Aceptando estas selecciones se obtienen, entre otros, los resultados que muestran la Tabla 2.9
y la Figura 2.2. La Tabla 2.9 incluye los estadísticos de Kolmogorov-Smirnov y de Shapiro-
Wilk acompañados de sus correspondientes niveles críticos (sig.). Ambos estadísticos permi-
ten contrastar la hipótesis nula de que los datos muestrales proceden de poblaciones norma-
les: se rechaza la hipótesis de normalidad cuando el nivel crítico (sig.) es menor que el nivel
de significación establecido (generalmente 0,05).
lar que la hipótesis de normalidad debe ser rechazada (este resultado contrasta con el obteni-
do al aplicar la prueba de Kolmogorov-Smirnov del procedimiento Pruebas no paramétricas;
pero debe tenerse en cuenta que allí se utilizaron otros parámetros y que los niveles críticos
se calculan de forma distinta).
Estos estadísticos adolecen de ser excesivamente sensibles a pequeñas desviaciones de
la normalidad cuando se utilizan con muestras grandes. En estos casos (muestras grandes),
es recomendable acompañarlos con algún gráfico de normalidad. El procedimiento Explorar
incluye dos de estos gráficos: el Q-Q normal y el Q-Q normal sin tendencias. La Figura 2.2
muestra ambos gráficos referidos a la variable peso al nacer.
En un gráfico Q-Q normal (Figura 2.2, gráfico de la izquierda), cada valor observado (Yi)
se compara con la puntuación típica N Z i correspondiente en la curva normal tipificada a la
proporción acumulada hasta cada valor Yi (esta proporción acumulada se calcula asignando
rangos a los valores Yi y dividiendo cada rango entre el número de casos más uno). En el eje
horizontal están representados los valores observados ordenados desde el más pequeño al más
grande (Yi); en el vertical están representadas las puntuaciones típicas normales N Z i. Cuan-
do una distribución empírica se aproxima a una distribución teórica normal, los puntos del
diagrama se encuentran agrupados en torno a la diagonal representada en el diagrama. Las
desviaciones de la diagonal indican desviaciones de la normalidad.
Un gráfico Q-Q normal sin tendencia (Figura 2.2, gráfico de la derecha) muestra las di-
ferencias existentes entre la puntuación típica de cada valor observado (Z i) y su correspon-
diente puntuación típica normal (N Z i). Es decir, muestra las distancias verticales existentes
entre cada punto y la diagonal del gráfico Q-Q normal. En el eje horizontal están represen-
tados los valores observados (Yi) y en el vertical ordenadas el tamaño de las diferencias entre
las puntuaciones típicas observadas y las esperadas (Zi ! N Zi). Si las puntuaciones proceden
de una población normal, esas diferencias deben oscilar de forma aleatoria en torno al valor
cero (línea recta horizontal). La presencia de pautas de variación no aleatorias indica des-
viaciones de la normalidad.
Figura 2.2. Gráficos de normalidad: Q-Q normal (izquierda) y Q-Q normal sin tendencia (derecha)
Gráfico Q-Q normal (var. peso al nacer)
Los diagramas de las Figuras 2.3, 2.4 y 2.5 ofrecen algunos ejemplos que pueden ayudar a
comprender el significado de los gráficos de normalidad. Estos diagramas muestran el com-
portamiento de tres muestras de puntuaciones aleatoriamente extraídas de tres distribuciones
teóricas de probabilidad: una distribución normal, una distribución uniforme y una distribu-
ción ji-cuadrado (para obtener estas muestras de puntuaciones se han utilizado las funciones
RV.NORMAL, RV.UNIFORM y RV.CHISQ del procedimiento Calcular del menú Transformar).
Capítulo 2. Inferencia con una variable 67
Figura 2.3. Gráficos de normalidad: muestra extraída de una distribución normal (media=10, desv. típica=3)
Gráfico Q-Q normal (var. normal)
Figura 2.4. Gráficos de normalidad: muestra extraída de una distribución uniforme (rango 0, 1)
Figura 2.5. Gráficos de normalidad: muestra extraída de una distribución ji-cuadrado (gl = 10)
68 Análisis de datos (vol. II)
Apéndice 2
La prueba de las rachas
La mayor parte de los procedimientos estadísticos que se utilizan para realizar inferencias asumen que
las muestras con las que se trabaja son aleatorias; o, lo que es lo mismo, que las observaciones mues-
treadas son independientes entre sí. Esto hemos tenido ocasión de comprobarlo con todos los procedi-
mientos inferenciales ya estudiados y tendremos ocasión de seguir comprobándolo a lo largo de todos
los capítulos que siguen. El incumplimiento de este supuesto puede acarrear graves consecuencias so-
bre las conclusiones de un contraste (ver Kenny y Judd, 1986).
En la práctica, la independencia entre observaciones se consigue seleccionándolas al azar. En una
secuencia temporal, por ejemplo, las observaciones no suelen ser independientes entre sí: lo que ocurre
con una observación concreta depende, generalmente, de las características de alguna observación pre-
via. En una muestra aleatoria, por el contrario, debe esperarse que lo que ocurre con cada observación
sea independiente de lo que ocurre con las demás. La prueba de las rachas permite valorar si las ob-
servaciones seleccionadas son realmente independientes entre sí.
El concepto de racha se refiere a una secuencia de observaciones de un mismo tipo. Supongamos
que se lanza una moneda al aire 10 veces y que se obtiene el siguiente resultado: CCCXCCXXXC. En
este resultado hay 5 rachas: CCC, X, CC, XXX y C. A simple vista, el resultado obtenido parece
aleatorio. Pero si en lugar de ese resultado se hubiera obtenido este otro: CCCCCXXXXX (2 rachas),
no resultaría difícil ponerse de acuerdo en que la secuencia obtenida no parece aleatoria. Como tampo-
co parece aleatoria una secuencia con demasiadas rachas: CXCXCXCXCX (10 rachas). Pues bien, la
prueba de las rachas permite determinar si el número de rachas (R) observado en un conjunto de ob-
servaciones es lo suficientemente grande o lo suficientemente pequeño como para poder rechazar la
hipótesis de independencia (o aleatoriedad) entre las observaciones.
Es importante no confundir la hipótesis de aleatoriedad con la hipótesis de bondad de ajuste
estudiada a propósito del contraste sobre una proporción o prueba binomial (ver Capítulo 9 del primer
volumen). Obtener 5 caras y 5 cruces al lanzar una moneda 10 veces es un resultado que se ajusta
perfectamente a la hipótesis de equiprobabilidad (πcara = πcruz = 0,5), pero si las 5 caras salen al princi-
pio y las 5 cruces al final, esto haría dudar de la hipótesis de independencia o aleatoriedad.
Para obtener el número de rachas de un conjunto de n observaciones es necesario que éstas estén
clasificadas en dos grupos exhaustivos y mutuamente exclusivos (variable dicotómica). Si no lo están,
se deberá utilizar algún criterio (por ejemplo, colocando un punto de corte en la media, en la media na,
en la moda o en cualquier otro valor) para hacer que lo estén. Una vez clasificadas las n observaciones
en dos grupos (de tamaños n1 y n2), la hipótesis de aleatoriedad o independencia puede ponerse a
prueba utilizando una tipificación10 del número de rachas (R):
=
Z = con [2.21]
=
10
Si el tamaño muestral es menor que 50, el estadístico Z se obtiene utilizando la corrección por continuidad de la siguiente
manera (así es como aplica la corrección el PSSS):
• Si [R ! E (R )] < !0,5, se suma 0,5 a R. Es decir: Z = [R + 0,5 ! E (R )] / σR.
• Si [R ! E (R )] > 0,5, se resta 0,5 a R. Es decir: Z = [R ! 0,5 ! E (R )] / σR.
• Si | R ! E (R ) | < 0,5, entonces Z = 0.
Capítulo 2. Inferencia con una variable 69
El estadístico Z se distribuye según el modelo de probabilidad normal N (0, 1). Las probabilidades
asociadas al estadístico Z pueden utilizarse para tomar decisiones sobre la hipótesis nula de aleatorie-
dad en un contraste bilateral.
Retomemos los datos de la Tabla 2.1 referidos al peso de 14 recién nacidos de madres fumadoras.
La primera fila de la Tabla 2.10 muestra las puntuaciones originales (ahora no están ordenadas de
menor a mayor, como en la Tabla 2.1). ¿Qué puede decirse sobre la hipótesis de independencia o
aleatoriedad de esta secuencia de observaciones? (α = 0,05).
Yi 2,45 1,80 3,15 1,98 2,04 2,08 4,64 2,20 2,30 1,48 2,47 1,93 3,46 2,18
Rachas % & % & & & % % % & % & % &
Puesto que se trata de una variable cuantitativa, lo primero que debemos hacer para poder aplicar la
prueba de las rachas es convertirla en dicotómica creando dos grupos: uno con los valores menores que
la mediana y otro con los valores mayores. El valor de la mediana es 2,19. En la Tabla 2.10 se ha colo-
cado un signo “!” a los valores menores que 2,19 y un signo “+” a los valores mayores. Como resulta-
do de esta clasificación se obtienen R = 10 rachas (es decir, 10 secuencias de signos del mismo tipo).
Hay n1 = n2 = 7 signos de cada tipo.
La hipótesis nula que vamos a contrastar es que la muestra es aleatoria (frente a la alternativa de
que no lo es). El único supuesto que necesitamos establecer es que tenemos 14 observaciones de una
variable dicotómica o dicotomizada. Aplicando la ecuación [2.21] obtenemos11:
R = 10; E (R ) = 2 n1 n2 / n + 1 = 2 (7) (7) / 14 +1 = 8.
σR = = = 1,797.
Z = [R ! E (R)] / σR = (10 ! 8) / 1,797 = 1,11.
Puesto que el estadístico Z se distribuye aproximadamente N (0, 1), la zona crítica está formada por los
valores menores que Z0,025 = !1,96 y mayores que Z0,975 = 1,96. El valor del estadístico del contraste
(1,11) no cae en la zona crítica. Por tanto, se mantiene H0. No hay razón para pensar que la secuencia
de observaciones analizada no es aleatoria.
La prueba de las rachas se encuentra en la opción Pruebas no paramétricas del menú Analizar.
Recordemos que, para poder aplicar la prueba, es necesario que las observaciones estén clasificadas
en dos grupos (variable dicotómica). Si no lo están, debe utilizarse algún criterio para hacer que lo
estén. El SPSS permite elegir como criterio de dicotomización (Punto de corte), la mediana, la moda,
la media o cualquier otro valor. Los valores menores que el punto de corte pasan a formar parte del
primer grupo; los valores iguales o mayores que el punto de corte pasan a formar parte del segundo. El
botón Opciones conduce a un subcuadro de diálogo que permite obtener algunos estadísticos descrip-
tivos y decidir qué tratamiento se desea dar a los valores perdidos.
El SPSS, tras contar el número de rachas, utiliza el estadístico Z propuesto en [2.21] (aplicando
la corrección por continuidad propuesta en la nota a pie de página número 9) y ofrece el nivel crítico
bilateral resultante de multiplicar por 2 la probabilidad de encontrar, en la distribución N (0, 1), pun-
tuaciones Z menores que la obtenida si R < E(R ), o mayores que la obtenida si R > E(R ).
Para contrastar la hipótesis de independencia o de aleatoriedad referida la variable peso de la Ta-
bla 2.10 con el SPSS:
' Reproducir en el Editor de datos los datos de la Tabla 2.10 (o abrir el archivo Tabla 2.10 rachas
que se encuentra en la página web del manual).
11
Incluyendo la corrección por continuidad propuesta en la nota a pie de página número 10 de la página anterior se obtiene:
Z = [R ! 0,5 ! E (R )] / σR = (10 ! 0,5 ! 8) / 1,797 = 0,835 (con: p ' 2 [P (Z > $ *0,83*)] ' 2 (0,2033) = 0,4066).
70 Análisis de datos (vol. II)
' Seleccionar la opción Pruebas no paramétricas > Rachas del menú Analizar para acceder al cuadro
de diálogo Prueba de las rachas y trasladar la variable peso a la lista Contrastar variables (si se tras-
lada más de una variable, se obtiene un contraste por variable).
' Dejar marcada la opción Mediana del recuadro Punto de corte para categorizar la variable utilizan-
do la mediana (este criterio es el que suele utilizarse como punto de corte).
Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 2.11. La tabla comienza
identificando el valor que se ha utilizado como punto de corte para la dicotomización: valor de prueba
= 2,19. Una nota a pie de tabla recuerda que ese punto de corte es la mediana. A continuación aparece
el número de casos del primer grupo (casos < valor de prueba = 7), el número de casos del segundo
grupo (casos >= valor de prueba = 7), el número de casos válidos (casos en total = 14) y el número de
rachas contabilizadas (10).
La tabla ofrece, por último, el valor del estadístico de contraste (Z = 0,835) y su nivel crítico (sig-
nificación asintótica bilateral = 0,404). Puesto que el nivel crítico es mayor que 0,05, la decisión
razonable es mantener H0. Por tanto, nada impide asumir que la secuencia de observaciones analizada
es aleatoria.
una proporción P de signos negativos (salvando, por supuesto, las fluctuaciones atribuibles al azar
muestral). O, lo que es lo mismo,
n! . n P [2.24]
Una fuerte discrepancia entre n ! y n P estaría indicando que el verdadero valor poblacional del cuantil
CP no es k0. La clave está precisamente en poder determinar cuándo una discrepancia entre n ! y n P
es lo bastante grande como para pensar que, efectivamente, el valor poblacional del cuantil CP no es
k0. Para esto es necesario conocer la distribución muestral de n!. Pero la distribución muestral de n!
sabemos que es la binomial con parámetros n y π! = P (ver el apartado Prueba de los signos para una
muestra). Por tanto, tenemos todo lo necesario para contrastar hipótesis sobre el cuantil CP .
La prueba de los cuantiles se obtiene en el SPSS exactamente igual que la prueba de los signos ya
estudiada en este mismo capítulo. La única diferencia está en que la proporción que se contrasta ahora
no es 0,50 (como cuando la hipótesis se refiere a la mediana) sino la proporción P correspondiente al
cuantil que se desea estudiar.
Recordemos el ejemplo sobre 14 recién nacidos de madres fumadoras (ver Tabla 2.1). Imagine-
mos que un investigador tiene la hipótesis de que el 70 % de estos bebés pesa menos de 2,50 kg al na-
cer. Esta hipótesis puede contrastarse haciendo exactamente lo mismo que hemos hecho a propósito de
la prueba de los signos, con la única diferencia de que, ahora, la Proporción de prueba es 0,70 en lugar
de 0,50 (ahora estamos interesados en el cuantil C0,70 –percentil 70– y no en la mediana). El proce-
dimiento ofrece un nivel crítico p = 0,355 que no permite rechazar la hipótesis nula de que el cuantil
C0,70 vale 2,50 kg. Por tanto, la información muestral disponible es compatible con la hipótesis de
nuestro investigador.
2.1. Un grupo de educadores considera que los estudiantes de bachillerato deben dedicar, para rendir satis-
factoriamente, un promedio de 12 horas de estudio a la semana. En una muestra aleatoria de 14 estu-
diantes de bachillerato de un determinado instituto se han obtenido los datos que ofrece la siguiente
tabla (la variable Yi es una medida cuantitativa del rendimiento):
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Yi 9 11 7 16 10 8 3 12 6 15 9 5 12 20
a. ¿Puede asumirse que estos datos proceden de una población distribuida normalmente? (la media
vale 10,21 y la desviación típica 4,59).
b. Aplicar la prueba T, la prueba de Wilcoxon y la prueba de los signos para averiguar si estos datos
permiten afirmar que el promedio de horas de estudio semanales de los estudiantes de este instituto
es menor que 12 (α = 0,05).
2.2. Con el método utilizado en los últimos años en un determinado colegio para enseñar matemáticas los
estudiantes de enseñanza primaria consiguen una calificación media de 6,4. Un educador convence al
director del centro de que existe un método más eficaz y decide aplicarlo durante un año en dos aulas
de 25 estudiantes cada una. Al final del curso, los 50 estudiantes obtienen una calificación media de
6,8 y una varianza de 2. ¿Se puede concluir, con un nivel de confianza de 0,95, que el nuevo método
de enseñanza ha mejorado la calificación media que se venía obteniendo con el método tradicional?
72 Análisis de datos (vol. II)
2.3. Las puntuaciones del WAIS (Escala de Inteligencia para Adultos de Wechsler) se distribuyen normal-
mente con media 100. Un psicólogo ha construido una nueva prueba de inteligencia (Y ) y desea saber
si la media que se obtiene con ella se parece o no a la del WAIS. Para ello, selecciona una muestra
aleatoria de 100 sujetos y, tras pasarles la prueba, obtiene una media de 104 y una desviación típica
insesgada de 16. ¿Qué concluirá el psicólogo con un nivel de confianza de 0,95?
2.4. ¿A qué conclusión se habría llegado en el ejercicio anterior si, permaneciendo todo lo demás igual, se
hubiera utilizado una muestra de 25 estudiantes en lugar de la que ha utilizado de 100?
2.5. La información que ofrece el editor de una escala de madurez indica que las puntuaciones en la escala
se distribuyen normalmente con media 5 en la población de estudiantes de enseñanza secundaria. La
escala tiene ya 10 años, lo que hace sospechar a un educador que el promedio de la escala ha podido
aumentar. Para comprobarlo, selecciona una muestra aleatoria de 25 estudiantes de enseñanza secunda-
ria y, tras pasarles la prueba, obtiene una media de 5,6 y una desviación típica de 2. ¿Podrá el educador
concluir, con α = 0,05, que el promedio de la escala de madurez ha aumentado?
_
2.6. En un contraste bilateral de H0: µY = 420, ¿qué valores de Y llevarán a rechazar H0 con una muestra
aleatoria de tamaño 36 extraída de una población normal cuya desviación típica vale 18? (α = 0,05).
2.7. (Elegir la/s alternativa/s correcta/s) En un estudio se ha obtenido, para el estadístico del contraste, un
valor T = 7,3 tal que P(T < 7,3) = 0,025. Si el contraste es unilateral derecho, esto significa que:
a. Hay que rechazar H0.
b. La probabilidad de rechazar H0, siendo verdadera, vale 0,025.
c. Lo razonable es mantener H0.
d. Puede rechazarse H0 con una probabilidad de 0,025 de cometer un error en la decisión.
e. Si H0 es verdadera y se decide mantenerla, la probabilidad de cometer un error vale al menos 0,025.
2.8. Supongamos que se contrasta H0: µY >$ 0 frente a H1: µY < 0 y, en una muestra aleatoria, se obtiene un
estadístico T = !2. Sabiendo que P (T < !2) = 0,005 y utilizando α = 0,01, ¿qué decisión debe tomar-
se sobre H0 y por qué?
a. Rechazarla porque !2 < 0.
b. Mantenerla porque 0,01 < 0,995.
c. Mantenerla porque !2 < 0,01.
d. Rechazarla porque 0,005 < 0,01.
c. Mantenerla porque P (T < !2) > α.
2.9. Un investigador desea comprobar si un test se distribuye N (0, 1) en la población de estudiantes univer-
sitarios. En una muestra obtiene un estadístico de contraste KS con valor igual al centil 95. Teniendo
en cuenta la siguiente función de distribución de algunos de los valores del estadístico de contraste:
KS 43,28 45,44 48,76 51,74 55,33 85,53 90,53 95,02 100,4 104,2
F (KS | H0) 0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995
Utilizando α = 0,01:
a. ¿Con qué valores del estadístico KS se tomará la decisión de rechazar H0?
b. ¿Qué decidiremos sobre H0? ( ) Mantenerla ( ) Rechazarla, porque...
$ 95) < 0,01; ( ) P (KS >
( ) 90,53 < 100,4; ( ) 95 < 100; ( ) P (KS > $ 95) > 0,01; ( ) 0,95 > 0,01.
c. ¿Qué se puede concluir?
d. ¿Cuánto vale el nivel crítico p?
3
Inferencia con
dos variables categóricas
En nuestra clasificación de los contrastes de hipótesis (ver el Cuadro 1.1 al final del primer
capítulo) hemos propuesto diferentes procedimientos para abordar el análisis de dos varia-
bles categóricas: (1) la prueba X 2 de Pearson sobre independencia o igualdad de proporcio-
nes, (2) los índices de riesgo, (3) la prueba de McNemar para el contraste de la hipótesis de
simetría y (4) las medidas de asociación. Para decidir cuál de ellos aplicar en una situación
concreta hay que prestar atención a dos detalles: las categorías de las variables analizadas y
la hipótesis que se desea contrastar.
Las categorías de las variables pueden ser o no las mismas. Por ejemplo, al analizar las
variables sexo (hombres, mujeres) y tabaquismo (fumadores, exfumadores, no fumadores),
o las variables clase social (baja, media, alta) y nivel de estudios (primarios, secundarios, me-
dios superiores), las categorías de las variables son distintas. Pero al analizar las variables opi-
nión sobre la eutanasia (a favor, indiferente, en contra) y opinión sobre el aborto (a favor,
indiferente, en contra), o las variables bebedor (sí, no) y fumador (sí, no), las categorías de
ambas variables son las mismas. En el primer caso (categorías distintas), el análisis suele diri-
girse casi de forma exclusiva al estudio de la relación entre las variables mediante el contraste
de la hipótesis de independencia; en el segundo caso (categorías iguales), además de estudiar
si existe relación, es posible y suele interesar estudiar otros aspectos mediante el contraste de
diferentes hipótesis: homogeneidad marginal, simetría absoluta, simetría relativa, acuerdo,
cuasi-independencia, etc.
El análisis de dos variables categóricas ya lo hemos iniciado en el Capítulo 10 del primer
volumen construyendo tablas de contingencias bidimensionales y contrastando la hipótesis
de independencia o igualdad de proporciones con la prueba X 2 de Pearson. En este capítulo
estudiaremos el resto de los procedimientos propuestos en el Cuadro 1.1.
Algunos de ellos, como los índices de riesgo, también sirven para contrastar la hipótesis
de independencia, pero con especial atención a los diseños longitudinales y poniendo el én-
fasis en la cuantificación del efecto estudiado. Otros, como la prueba de McNemar, sirven
para contrastar la hipótesis de homogeneidad marginal en tablas 2 × 2. Tendremos ocasión de
comprobar que la independencia y la homogeneidad marginal son cosas muy distintas. Y tam-
74 Análisis de datos (vol. II)
bién estudiaremos varias medidas de asociación diseñadas para intentar resumir en un solo
número el grado o intensidad de la relación presente en una tabla de contingencias bidimen-
sional, incluyendo el acuerdo como un caso especial de la asociación.
Aquí, como en el caso anterior, también podría contrastarse la hipótesis de independencia para
averiguar si la opinión que se tiene en el momento antes está relacionada con la opinión que
se tiene en el momento después. Esto podría hacerse comparando, como antes, las proporcio-
nes 60 / 80 = 0,75 y 30 / 120 = 0,25. Pero en un estudio de estas características, el hecho de
saber que existe relación entre ambos momentos suele tener poco de interés: puesto que se
está haciendo la misma pregunta a los mismos sujetos, es lógico esperar que exista relación;
y saber esto no aporta gran cosa.
Lo que suele interesar en una situación de estas características es, más bien, saber si la
opinión ha cambiado; es decir, saber si la opinión que se tiene en el momento antes difiere
o no de la opinión que se tiene en el momento después. Y esto no puede saberse contrastan-
do la hipótesis de independencia, sino otra hipótesis llamada de homogeneidad marginal.
Y contrastar esta hipótesis implica comparar la proporción de personas que están a favor en
el momento antes (80 / 200 = 0,40) con la proporción de personas que están a favor en el
momento después (90 / 200 = 0,45), lo cual no tiene nada que ver con las proporciones que
se comparan cuando se contrasta la hipótesis de independencia (0,75 y 0,25). Por supuesto,
sería equivalente centrarse en la proporción de personas que están en contra.
Entre las proporciones que se comparan en la hipótesis de independencia y las que se
comparan en la hipótesis de homogeneidad marginal existe una diferencia muy importante.
En la hipótesis de independencia (ver Tabla 3.1) se están comparando dos proporciones que
son independientes entre sí: en las proporciones 33 / 110 = 0,30 y 36 / 90 = 0,40, los 33 hom-
bres fumadores son personas distintas (independientes) de las 36 mujeres fumadoras; de otra
manera: los 110 hombres que intervienen en la primera proporción son distintos de las 90
mujeres que intervienen en la segunda. Por el contrario, en la hipótesis de homogeneidad mar-
ginal (ver Tabla 3.2) se están comparando dos proporciones relacionadas: en las proporcio-
nes 80 / 200 = 0,40 (a favor en el momento antes) y 90 / 200 = 0,45 (a favor en el momento
después), hay 60 personas que son las mismas, es decir, 60 personas que no son indepen-
dientes entre sí.
La situación representada en la Tabla 3.2 es una forma de diseño longitudinal que consis-
te en medir una variable categórica en dos momentos distintos: se toma una medida de la va-
riable, se realiza una intervención o simplemente se deja pasar el tiempo, y se vuelve a tomar
una medida de la misma variable a los mismos sujetos. Estos diseños antes-después son útiles
para valorar si se produce algún cambio entre los dos momentos. Y el escenario es similar si
en lugar de tomar dos medidas a los mismos sujetos se toma una medida a pares de sujetos
igualados en algún criterio relevante para el análisis. Esto es lo que ocurre, por ejemplo, cuan-
do se utilizan casos y controles en un estudio clínico, o padres e hijos en un estudio socio-
lógico, o gemelos en un estudio sobre la problemática herencia-ambiente, etc. La Tabla 3.3
muestra los resultados obtenidos al preguntar la opinión sobre la eutanasia (a favor, en contra)
a los miembros de una misma pareja (marido, mujer).
Quizá la diferencia entre proporciones independientes (las que se utilizan para contrastar la
hipótesis de independencia) y proporciones relacionadas (las que se utilizan para contrastar
la hipótesis de homogeneidad marginal) pueda entenderse mejor en la situación propuesta
en la Tabla 3.4. La tabla ofrece el resultado de clasificar una muestra de 200 personas tras res-
ponder a dos preguntas distintas (opinión sobre la eutanasia y opinión sobre el aborto), ambas
con las mismas categorías de respuesta (a favor, en contra). En esta nueva clasificación se es-
tán midiendo dos variables distintas (igual que en la Tabla 3.1), pero ambas tienen las mismas
categorías (igual que en las Tablas 3.2 y 3.3). Las características de las variables utilizadas
hacen que las Tablas 3.2, 3.3 y 3.4 sean cuadradas (filas = columnas).
Ahora podría interesar contrastar ambas hipótesis: (1) el contraste de la hipótesis de inde-
pendencia estaría informando acerca de si ambas opiniones están o no relacionadas, lo cual
permitiría saber si las personas que están a favor de la eutanasia tienden o no a estar también
a favor del aborto; (2) el contraste de la hipótesis de homogeneidad marginal estaría infor-
mando acerca de si la proporción de personas que están a favor de la eutanasia difiere (es ma-
yor o menor) de la proporción de personas que están a favor del aborto.
Para poder contrastar la hipótesis de independencia habría que comparar las proporciones
60 / 80 = 0,75 y 30 / 120 = 0,40; para poder contrastar la hipótesis de homogeneidad marginal
habría que comparar las proporciones 80 / 200 = 0,40 y 90 / 200 = 0,45. Y lo que conviene
advertir es, no solo que cada hipótesis informa sobre un aspecto distinto de la tabla, sino que
las proporciones que se comparan en el primer caso son proporciones independientes, mien-
tras que las que se comparan en el segundo caso son proporciones relacionadas.
En cualquiera de los tres escenarios descritos (todos ellos representados en la Tabla 3.6), la
hipótesis nula de homogeneidad marginal puede formularse como:
H0 : π1+ = π +1 [3.1]
Con palabras: la proporción de “unos” en X es igual a la proporción de “unos” en Y. Y apli-
cada al ejemplo de la Tabla 3.2: la proporción de personas que están a favor de la eutanasia
en el momento antes es igual a esa misma proporción en el momento después.
Sería equivalente referir la hipótesis [3.1] a la proporción de “doses”, pues si π1+ y π+1
son iguales, entonces π2+ y π+2 también lo son. Por esta razón a la hipótesis que estamos con-
trastando se le llama hipótesis de homogeneidad marginal: se está afirmando que las propor-
ciones marginales de X e Y son iguales.
en una dirección (π12) es igual a la proporción de cambios que se observan en la otra dirección
(π21):
H0 : π12 = π21 [3.3]
Esto implica que, en una tabla de contingencias 2 × 2, n12 y n21 contienen la información ne-
cesaria y suficiente para contrastar la hipótesis de homogeneidad marginal. Si H0 es verda-
dera, cabe esperar que n12 y n21 tomen valores parecidos. Una fuerte discrepancia entre n12 y
n21 hará dudar de H0. Por tanto, conociendo las probabilidades asociadas a n12 y n21, podre-
mos determinar cuándo la diferencia entre ambos valores es lo bastante grande (lo bastante
improbable si H0 fuera verdadera) como para poder rechazar H0.
Ahora bien, como cada uno de los n* = n12 + n21 casos representa un ensayo de Bernou-
lli que puede pertenecer a n12 o de n21 con la misma probabilidad (pues H0 afirma que π12 y
π21 son iguales), n12 y n21 son variables aleatorias que se distribuyen según el modelo de pro-
babilidad binomial con parámetros π = 0,50 y n* = n12 + n21 (ver, en el Capítulo 6 del primer
volumen, el apartado Distribución muestral del estadístico proporción). Y como n12 y n21 son
complementarios respecto de n, conocer la probabilidad asociada a cualquiera de ellos implica
conocer la probabilidad asociada al otro. Esto significa que es innecesario trabajar con am-
bos; basta con utilizar n12.
Por tanto, tenemos un estadístico (n12) con distribución muestral conocida que puede uti-
lizarse para contrastar la hipótesis de homogeneidad marginal (hipótesis que equivale a la
de simetría cuando, como es el caso, ambas variables son dicotómicas). Y ocurre que este
contraste es idéntico al contraste sobre una proporción ( prueba binomial ) ya estudiado en
el Capítulo 9 del primer volumen; únicamente hay que tener en cuenta la siguiente equiva-
lencia entre la notación utilizada aquí y la utilizada allí: n12 = «número de éxitos», n* = «nú-
mero de ensayos» y π12 = 0,50 = «proporción de éxitos».
No repetiremos aquí este contraste, pero recordemos que la distribución binomial tiende
a la distribución normal conforme el tamaño muestral va aumentando. En lo que ahora nos
ocupa, conforme n* va aumentando, el estadístico n12 se va aproximando a la distribución
normal con valor esperado n* (0,5) y varianza n* (0,5) (0,5) (ver, en el Capítulo 4 del primer
volumen, el apartado Aproximación de la distribución binomial a la normal). Basándose en
esta aproximación, McNemar (1947) ha diseñado un estadístico que no es más que una tipi-
ficación de n12 elevada al cuadrado1:
= [3.4]
1
La ecuación incluye corrección por continuidad. En Pardo y San Martín (1998, pág. 501) puede encontrarse una sencilla
demostración de cómo se obtiene el estadístico de McNemar a partir de los valores esperados de n12 y n21.
Capítulo 3. Inferencia con dos variables categóricas 79
= [3.5]
Lo cual significa que es posible construir un intervalo de confianza para la diferencia π1+ ! π+1
mediante:
= [3.6]
(Zα/2 es el cuantil α/2 de la distribución normal tipificada). El Cuadro 3.1 ofrece un resumen
de cómo utilizar el estadístico de McNemar para contrastar las hipótesis de homogeneidad
marginal o simetría. El resumen incluye cómo calcular el nivel crítico (valor p) y cómo cons-
truir un intervalo de confianza para la diferencia entre las dos proporciones comparadas.
Cuadro 3.1. Resumen de la prueba de McNemar sobre homogeneidad marginal o simetría (tablas 2 × 2)
1. Hipótesis:
a. Contraste bilateral: H0 : π1+ = π+1 ; H1: π1+ =/ π+1 .
b. Contraste unilateral derecho: H0 : π1+ $< π+1 ; H1: π1+ > π+1 .
c. Contraste unilateral izquierdo: H0 : π1+ $> π+1 ; H1: π1+ < π+1 .
2. Supuestos: muestra aleatoria de n sujetos en la que se ha medido una variable dicotó-
mica en dos momentos distintos (X e Y ) o dos variables dicotómicas (X e Y ) con las
mismas categorías; o bien, muestra aleatoria de n pares (X e Y ) de sujetos en la que se
ha medido una variable dicotómica.
3. Estadístico del contraste (ver [3.4]): = .
4. Distribución muestral: se aproxima a la distribución ji-cuadrado con 1 grado
de libertad ( ). La aproximación es buena incluso con muestras pequeñas.
5. Zonas críticas:
a. Contraste bilateral: $
> .
b. Contraste unilateral derecho : 2
$
> .
c. Contraste unilateral izquierdo2: $
> .
6. Decisión: se rechaza H0 si el estadístico del contraste cae en la zona crítica; en caso
contrario, se mantiene.
7. Nivel crítico (valor p):
a. Contraste bilateral: p = [P ( $
> )].
b. Contraste unilateral derecho: p = 2 [P ( $
> )].
c. Contraste unilateral izquierdo: p = 2 [P ( $
> )].
8. Intervalo de confianza (ver [3.6]): = .
2
En un contraste bilateral, toda la zona crítica (de tamaño α) está a la derecha de la distribución muestral (pues las diferen-
cias entre n12 y n21 están elevadas al cuadrado). En un contraste unilateral (sea derecho o izquierdo), la zona crítica sigue
estando en la cola derecha de la distribución muestral, pero su tamaño es el doble de grande (2 α) que en el caso bilateral.
80 Análisis de datos (vol. II)
Tabla 3.7. Preferencia entre dos líderes políticos antes y después de un debate televisado
Preferencia después
Preferencia antes Líder A Líder B Total
Líder A 49 21 70
Líder B 63 117 180
Total 112 138 250
Se está midiendo una variable categórica (preferencia) con dos categorías (líder A, líder B)
en dos momentos distintos (antes y después de un debate televisado). Y el interés del análisis
no está en saber si lo que ocurre en el momento antes está o no relacionado con lo que ocurre
en el momento después (hipótesis de independencia), sino en averiguar si la proporción de
personas que prefieren al líder A (o al B) ha cambiado tras el debate (hipótesis de simetría
o de homogeneidad marginal).
1. Hipótesis: H0 : π1+ = π+1; H1: π1+ =/ π+1.
Se está planteando un contraste bilateral porque se quiere saber si la preferencia por el
líder A ha cambiado, no si ha aumentado o si ha disminuido.
2. Supuestos: muestra aleatoria de n = 250 sujetos en la que se ha medido una variable di-
cotómica (líder A, líder B) en dos momentos distintos.
3. Estadístico del contraste (con n12 = 21 y n21 = 63):
= = = .
= [3.7]
Tabla 3.8. Preferencia entre tres líderes políticos antes y después de un debate televisado
Preferencia después
Preferencia antes Líder A Líder B Líder C Total
Líder A 38 8 4 50
Líder B 24 46 10 80
Líder C 18 16 86 120
Total 80 70 100 250
82 Análisis de datos (vol. II)
= = =
Por ejemplo, en los datos de la Tabla 3.7 se tiene: n12 = 21, n21 = 63, n* = 21 + 63 = 84, r = 21,
i = «todos los valores de 0 a 21». Para contrastar la hipótesis de simetría (prueba de McNe-
mar) con los datos de la Tabla 3.7:
' Reproducir en el Editor de datos los datos de la Tabla 3.7 (ver en el Apéndice 3 el apar-
tado Cómo reproducir una tabla de contingencias en SPSS ) y ponderar el archivo con
la variable ncasos (o abrir el archivo Tabla 3.7 simetría mcnemar que se encuentra en
la página web del manual).
Capítulo 3. Inferencia con dos variables categóricas 83
' Seleccionar la opción Estadísticos descriptivos > Tablas de contingencias del menú Analizar
para acceder al cuadro de diálogo Tablas de contingencias y trasladar la variable antes
(preferencia antes del debate) a la lista Filas y la variable después (preferencia después
del debate) a la lista Columnas.
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Tablas de contingen-
cias: Estadísticos y marcar la opción McNemar. Pulsar el botón Continuar para volver al
cuadro de diálogo principal.
Aceptando estas elecciones, el Visor ofrece, además de la correspondiente tabla de contin-
gencias, los resultados que muestra la Tabla 3.9. La tabla informa del nivel crítico asociado
al número de cambios observados (sig. exacta bilateral) y del número de casos válidos. La
tabla no incluye el valor del estadístico de McNemar (ecuación [3.4]) porque el nivel críti-
co se ha obtenido aplicando la ecuación [3.9] para obtener la probabilidad exacta que ofrece
la distribución binomial (se indica en una nota a pie de tabla).
Cualquiera que sea la forma de obtener el nivel crítico, su significado siempre es el mis-
mo: indica el grado de compatibilidad existente entre los datos muestrales y la hipótesis nula.
En el ejemplo, puesto que el nivel crítico es menor que 0,05 (sig. exacta bilateral < 0,0005),
se puede rechazar la hipótesis nula de simetría y concluir que el número de cambios a favor
del líder A difiere del número de cambios a favor del líder B. O, lo que es lo mismo, que la
proporción de sujetos que prefiere al líder A antes del debate (70 / 250 = 0,28) ha cambiado
significativamente –ha aumentado– tras el debate (112 / 250 = 0,45).
La opción McNemar del procedimiento Tablas de Contingencias también permite trabajar con
variables politómicas. Si las variables seleccionadas tienen más de dos categorías, el SPSS
ofrece, en lugar del estadístico de McNemar, el de Bowker (lo llama estadístico de McNemar-
Bowker). Para contrastar la hipótesis de simetría con los datos de la Tabla 3.8:
' Reproducir en el Editor de datos los datos de la Tabla 3.8 (ver en el Apéndice 3 el apar-
tado Cómo reproducir una tabla de contingencias en SPSS ) y ponderar el archivo con
la variable ncasos (o abrir el archivo Tabla 3.8 simetría bowker que se encuentra en la
página web del manual).
' Repetir los mismos pasos del ejemplo anterior (procedimiento Tablas de contingencias)
para obtener la prueba de McNemar-Bowker.
Ahora, el Visor ofrece los resultados que muestra la Tabla 3.10. La tabla incluye el valor del
estadístico de McNemar-Bowker (valor = 18,29) junto con los grados de libertad de su distri-
bución muestral (gl = 3) y el correspondiente nivel crítico (sig. asintótica bilateral < 0,0005).
Puesto que el nivel crítico es menor que 0,05, se puede rechazar la hipótesis nula de simetría
y concluir que los cambios de preferencia observados no se reparten de igual forma entre los
tres líderes.
84 Análisis de datos (vol. II)
El problema de este contraste es que, dado que la variable categórica analizada tiene más de
dos categorías, el rechazo de la hipótesis de simetría no permite determinar en qué dirección
se producen cambios significativos. Para conocer esto es necesario aplicar la prueba de Mc-
Nemar a cada par de categorías: primero comparando los líderes A y B, a continuación los
líderes A y C, y por último los líderes B y C. Estas comparaciones pueden hacerse aplican-
do varios filtros al archivo de datos (con la opción Seleccionar casos del menú Datos), de tal
manera que en cada contraste únicamente intervengan las dos categorías (líderes) que se de-
sea comparar. La Figura 3.1 muestra los tres filtros creados para efectuar los tres contrastes.
La variable filtro_AB permite aislar a los líderes A y B; la variable filtro_AC, a los líderes A
y C; la variable filtro_BC, a los líderes B y C.
Figura 3.1. Datos correspondientes a la Tabla 3.8 con tres variables filtro añadidas
Aplicando la prueba de McNemar tras activar consecutivamente cada uno de los tres filtros
definidos se obtienen los resultados que muestran las Tablas 3.11 a la 3.13. Los niveles crí-
ticos obtenidos con cada filtro (sig. exacta bilateral) indican que los cambios significativos
se producen desde los líderes B y C hacia el A ( p = 0,007 en el primer caso y p = 0,004 en
el segundo; ver Tablas 3.11 y 3.12). El resultado de la comparación entre los líderes B y C
no es significativo (p = 0,327; ver Tabla 3.13). Se obtiene idéntico resultado si los filtros se
llevan a las capas (un filtro por capa).
Tabla 3.11. Preferencia entre dos líderes políticos antes y después de un debate televisado (izquierda) y
prueba de McNemar (derecha). Líderes A y B
Recuento
Preferencia Sig. exacta
después Valor (bilateral)
Líder A Líder B Total a
Prueba de McNemar ,007
Preferencia Líder A 38 8 46 N de casos válidos 116
antes Líder B 24 46 70 a. Utilizada la distribución binomial
Total 62 54 116
Capítulo 3. Inferencia con dos variables categóricas 85
Tabla 3.12. Preferencia entre dos líderes políticos antes y después de un debate televisado (izquierda) y
prueba de McNemar (derecha). Líderes A y C
Recuento
Preferencia Sig. exacta
después Valor (bilateral)
a
Líder A Líder C Total Prueba de McNemar ,004
Preferencia Líder A 38 4 42 N de casos válidos 146
antes Líder C 18 86 104 a. Utilizada la distribución binomial
Total 56 90 146
Tabla 3.13. Preferencia entre dos líderes políticos antes y después de un debate televisado (izquierda)
y prueba de McNemar (derecha). Líderes B y C
Recuento
Preferencia Sig. exacta
después Valor (bilateral)
a
Líder B Líder C Total Prueba de McNemar ,327
Preferencia Líder B 46 10 56 N de casos válidos 158
antes Líder C 16 86 102 a. Utilizada la distribución binomial
Total 62 96 158
Cuando las variables analizadas son dicotómicas, la hipótesis de simetría (π12 = π21) es equi-
valente a la de homogeneidad marginal (πi + = π+ j). Esta equivalencia no se sostiene cuando
las variables tienen más de dos categorías. La simetría implica homogeneidad marginal, pe-
ro la homogeneidad marginal no implica simetría. Del rechazo de la hipótesis de simetría no
se sigue que las distribuciones marginales sean distintas. Por tanto, al analizar situaciones
como la representada en la Tabla 3.8 es muy importante tener claro qué es lo que interesa
analizar: (1) centrar la atención en la hipótesis de simetría significa valorar la pauta que si-
guen los cambios observados (esto es lo que hemos hecho en el ejemplo anterior: ver hacia
qué líder se dirigen los cambios observados); (2) centrar la atención en la hipótesis de ho-
mogeneidad marginal significa valorar si las proporciones antes-después han cambiado (es
decir, valorar si las proporciones de personas que prefieren a cada líder son o no iguales an-
tes y después del debate).
Veamos cómo contrastar con el SPSS la hipótesis de homogeneidad marginal referida
a los mismos datos del ejemplo anterior (ver Tabla 3.8 y Figura 3.1):
' Seleccionar la opción Pruebas no paramétricas > Dos muestras relacionadas del menú Anali-
zar para acceder al cuadro de diálogo Pruebas para dos muestras relacionadas.
' Trasladar las variables antes (preferencia antes del debate) y después (preferencia des-
pués del debate) a la lista Contrastar pares.
' Marcar la opción Homogeneidad marginal del recuadro Tipo de prueba.
error típico (media del estadístico HM = 157 y desviación típica del estadístico HM = 6,04);
(5) el valor tipificado del estadístico de homogeneidad marginal (estadístico de HM tipifica-
do = 4,14); este valor tipificado se obtiene restando al valor del estadístico su valor esperado
y dividiendo la diferencia entre su error típico: (182 ! 157) / 6,04 = 4,14; y (6) el nivel crítico
bilateral (valor p) que corresponde al valor tipificado obtenido (significación asintótica bilate-
ral < 0,0005; esta probabilidad se calcula multiplicando por 2 la probabilidad de obtener, en
la distribución normal tipificada, valores mayores o iguales que el obtenido.
Puesto que el nivel crítico es muy pequeño, lo razonable es rechazar la hipótesis de ho-
mogeneidad marginal. Para saber qué proporciones marginales difieren se puede aplicar la
prueba de McNemar a cada pareja de líderes tal como se ha hecho en el ejemplo anterior.
Índices de riesgo
Seguimos analizando dos variables dicotómicas. Pero a diferencia de lo que hemos hecho en
el apartado anterior (medir la misma variable dos veces o en pares de sujetos, o medir dos
variables con las mismas categorías), el interés ahora se centra en estudiar la relación entre
dos variables dicotómicas distintas. La Tabla 3.15 muestra un ejemplo típico de la situación
que nos proponemos analizar. En una muestra aleatoria de 1.150 personas mayores de 40
años se ha registrado la presencia o no de infarto de miocardio en fumadores y no fumadores
durante un periodo de seguimiento de 15 años (infarto = «sí » significa al menos un infarto).
Estamos interesados en analizar el grado de relación existente entre una variable dicotómi-
ca a la que llamaremos factor (en el ejemplo, tabaquismo) y otra variable dicotómica a la que
llamaremos desenlace o respuesta (en el ejemplo, infarto). La variable factor suele elegir-
se porque se sabe o se sospecha que puede estar relacionada con la variable respuesta que
Capítulo 3. Inferencia con dos variables categóricas 87
interesa estudiar. Los datos recogidos al estudiar este tipo de situaciones suelen organizarse
en tablas de contingencias 2 × 2 como la representada en la Tabla 3.15. La Tabla 3.16 mues-
tra la notación que utilizaremos para referirnos a cada elemento de la tabla. Sustituyendo n
por π o por P se obtiene la notación correspondiente a las proporciones teóricas y muestra-
les de cada casilla y de cada total.
Este tipo de datos son habituales en estudios longitudinales, los cuales pueden hacerse de dos
formas: hacia delante o hacia atrás (para más detalles, ver Kleinbaum, Kupper y Morgens-
tern, 1982, págs. 63-70). En los diseños hacia delante, llamados prospectivos o de cohortes,
se clasifica a los sujetos en dos grupos dependiendo de la presencia o ausencia de algún fac-
tor de interés (por ejemplo, el hábito de fumar) y se hace seguimiento durante un periodo de
tiempo para determinar la proporción de sujetos de cada grupo en los que se da la respues-
ta o desenlace objeto de estudio (por ejemplo, infarto). En los diseños longitudinales hacia
atrás, llamados retrospectivos o de casos y controles, se forman dos grupos de sujetos a par-
tir de la presencia o ausencia de la respuesta o desenlace objeto de estudio (por ejemplo, su-
jetos sanos y sujetos que han sufrido infarto) y se hace seguimiento hacia atrás intentando
encontrar información sobre la proporción en la que aparece en cada grupo un determinado
factor de interés (por ejemplo, el hábito de fumar).
Riesgo relativo
En los diseños prospectivos o de cohortes es posible decidir si las variables factor y respues-
ta están relacionadas contrastando la hipótesis de independencia con la prueba X 2 de Pear-
son (ver Capítulo 10 del primer volumen). Aplicando esta prueba a los datos de a Tabla 3.15
se obtiene un valor de 26,49 con un nivel crítico asociado p < 0,0005. Puesto que el nivel
crítico es muy pequeño (menor que 0,05), se puede concluir que las variables tabaquismo e
infarto están relacionadas.
Pero en este tipo de diseños, más que el hecho de saber si existe o no relación, lo que
suele interesar es comparar lo que ocurre con los sujetos expuestos y los no expuestos. De
hecho, en este tipo de diseños lo habitual es utilizar un estadístico que permite comparar la
proporción de respuestas o desenlaces del grupo de sujetos expuestos (P1 = n11 / n1+) con esa
misma proporción en el grupo de sujetos no expuestos (P2 = n21 / n2+). Al cociente entre estas
dos proporciones (ver Miettinen, 1976) se le llama índice de riesgo relativo RR :
= = [3.10]
88 Análisis de datos (vol. II)
El numerador del riesgo relativo recoge la proporción de desenlaces entre los sujetos expues-
tos. El denominador, la proporción de desenlaces entre los sujetos no expuestos. El cocien-
te entre ambas proporciones indica cuánto mayor es la proporción de desenlaces en el grupo
de sujetos expuestos que en el de sujetos no expuestos.
El valor (siempre no negativo) del índice de riesgo relativo se interpreta tomando como
referencia el valor 1. Un riesgo relativo de 1 indica que la proporción de desenlaces es la mis-
ma en ambos grupos. El valor de RR es mayor que 1 cuando la proporción del numerador es
mayor que la del denominador; un RR = 2 indica que la proporción de desenlaces del nume-
rador es el doble que la del denominador; un RR = 5 indica que la proporción del numerador
es 5 veces la del denominador. El valor de RR es menor que 1 cuando la proporción del nu-
merador es menor que la del denominador; un RR = 0,75 indica que la proporción de de-
senlaces del numerador es un 25 % menor que la del denominador; un RR = 0,50 indica que
la proporción del numerador es un 50 % menor (la mitad) que la del denominador. En el
ejemplo de la Tabla 3.15:
= = = =
= [3.11]
donde e se refiere a la base de los logaritmos naturales (2,71828) y al error típico del
logaritmo de RR:
= [3.12]
Este intervalo de confianza sirve para contrastar la hipótesis nula de que el riesgo es el mis-
mo en los dos grupos comparados (RR = 1 en la población). Si el valor 1 no se encuentra en-
tre los límites del intervalo de confianza definido en [3.11], puede concluirse que el riesgo
de experimentar el desenlace no es el mismo en los dos grupos comparados. Aplicando la
ecuación [3.11] a los datos de la Tabla 3.15 se obtiene:
= =
= =
Puesto que el valor 1 no se encuentra dentro de los límites del intervalo, podemos estimar, con
una confianza del 95 %, que el riesgo poblacional es mayor que 1. Y como el límite inferior
Capítulo 3. Inferencia con dos variables categóricas 89
vale 1,93, puede concluirse que la proporción de desenlaces (infartos) en el grupo de fuma-
dores es al menos 1,93 veces la proporción de desenlaces en el de no fumadores.
En los estudios epidemiológicos, el riesgo relativo suele acompañarse del porcentaje de
riesgo atribuible o fracción etiológica (PRA) en un intento de cuantificar en qué medida los
desenlaces observados pueden ser atribuidos al factor de riesgo. Puesto que en el grupo de no
expuestos también se observan desenlaces, la incidencia en el grupo de expuestos no sirve
como cuantificación del porcentaje de desenlaces atribuibles al hecho de estar expuestos. Es
decir, como entre los no fumadores también se dan infartos (0,04), la proporción de infartos
del grupo de fumadores (0,12) no puede ser atribuida, toda ella, al hecho de fumar. El riesgo
atribuible se obtiene restando la proporción de desenlaces de ambos grupos: RA = P1 ! P2. Y
el porcentaje de riesgo atribuible se calcula como una fracción de RA respecto de P1:
Odds ratio
En este apartado vamos a estudiar un estadístico muy utilizado para cuantificar la relación
entre dos variables dicotómicas y como componente de algunos modelos estadísticos. Aquí,
de momento, nos limitaremos a utilizarlo como una estimación del riesgo relativo cuando és-
te no puede calcularse. Comencemos con el concepto de odds. Siendo P la probabilidad de
un suceso cualquiera, la odds de ese suceso se define como:
odds = P ª (1 ! P ) [3.14]
Es decir, la odds de un suceso es el cociente entre la probabilidad de ese suceso (por ejem-
plo, acierto) y la de su complementario (error). Si la probabilidad del suceso acierto vale
0,75, entonces su odds vale 0,75 / (0,25) = 3. Lo cual significa que la probabilidad del suce-
so acierto es 3 veces la del suceso error.
Una odds siempre toma un valor no negativo: odds = 1 cuando la probabilidad del suce-
so es igual que la de su complementario (esto solamente ocurre cuando la probabilidad del
suceso vale 0,50); odds > 1 cuando la probabilidad del suceso es mayor que la de su com-
plementario (si la probabilidad de un suceso vale 0,80, ese suceso es cuatro veces más pro-
bable que su complementario: 0,80 / 0,20 = 4); y odds < 1 cuando la probabilidad del suceso
es menor que la de su complementario (si la probabilidad de un suceso vale 0,20, ese suceso
es cuatro veces menos probable que su complementario: 0,20 / 0,80 = 1/ 4).
La probabilidad de un suceso puede conocerse a partir de su odds: P = odds / (odds + 1).
Por ejemplo, si la odds de un suceso vale 3, su probabilidad vale 3 / (3 + 1) = 0,75.
90 Análisis de datos (vol. II)
En los diseños retrospectivos o de casos y controles, tras formar dos grupos de sujetos
a partir de algún desenlace de interés, se va hacia atrás buscando la presencia de algún fac-
tor de riesgo. El estudio sobre tabaquismo e infarto del apartado anterior (ver Tabla 3.15)
podría diseñarse seleccionando dos grupos de sujetos (con y sin infarto) y buscando hacia
atrás (por ejemplo, en la historia clínica de los sujetos) la presencia del hábito de fumar. La
Tabla 3.17 reproduce esta nueva situación3.
Los diseños de casos y controles son muy utilizados en las ciencias de la salud porque tienen
algunas ventajas sobre los diseños de cohortes: no es necesario hacer seguimiento durante
años para poder identificar factores de riesgo y garantizan que el estudio incluya una muestra
suficientemente grande de pacientes con la enfermedad o el desenlace que interesa estudiar.
Pero se diferencian de los diseños de cohortes en un aspecto importante desde el punto de
vista estadístico: mientras que en un diseño de cohortes se fijan las frecuencias marginales
de las filas, en un diseño de casos y controles se fijan las frecuencias marginales de las co-
lumnas (generalmente eligiendo entre 1 y 4 controles por cada caso). Como consecuencia de
esto, las frecuencias marginales de las filas son resultado del muestreo: puesto que a cada
caso se le puede asignar distinto número de controles, los totales marginales de las filas no
dependen únicamente de la verdadera proporción de desenlaces (es decir, de la verdadera
incidencia del desenlace estudiado), sino de la decisión subjetiva o arbitraria del investiga-
dor (es decir, del número de controles que el investigador decida utilizar).
En este escenario no tiene sentido calcular las proporciones de desenlaces de las filas,
pues esas proporciones no reflejan incidencias reales. Y si no tiene sentido calcular las inci-
dencias, tampoco tiene sentido calcular el índice de riesgo relativo definido en [3.10]. La
solución a este problema pasa por intentar estimar el riesgo relativo utilizando alguna es-
trategia que no se base en las frecuencias marginales de las filas. Aquí es donde intervienen
las odds que acabamos de presentar.
Consideremos los datos de la Tabla 3.17 y asumamos que se han obtenido utilizando un
diseño de casos y controles (es decir, asumamos que, ahora, las frecuencias marginales fijas
son las de las columnas). Podemos calcular la odds del suceso fumar entre los casos y entre
los controles, es decir, entre los sujetos que han sufrido infarto (oddssí) y entre los sujetos que
no han sufrido infarto (oddsno):
oddssí = (51 / 80) /(29 / 80) = 51 / 29 = 1,7586
oddsno = (374 / 1.070) / (696 / 1.070) = 374 / 696 = 0,5374
3
Hemos conservado en la Tabla 3.17 las mismas frecuencias que en la Tabla 3.15 para reflejar mejor el paralelismo que
existe entre ambos tipos de estudio (a pesar de que en un diseño de casos y controles el número de controles suele fijarse
en no más de 4 por cada caso).
Capítulo 3. Inferencia con dos variables categóricas 91
Lo cual significa que, entre los casos (sujetos que han sufrido infarto), el suceso fumar es más
probable que el suceso no fumar; en concreto, un 76 % más probable. Y entre los controles
(sujetos que no han sufrido infarto), el suceso fumar es menos probable que el suceso no fu-
mar; en concreto, un 46 % menos probable.
El cociente entre ambas odds indica cuánto mayor o menor es la odds del suceso fumar
en el grupo “sí” (casos) que en el grupo “no” (controles):
oddssí / oddsno = 1,7586 / 0,5374 = 3,27
La odds del suceso fumar entre los casos es 3,27 veces la odds del suceso fumar entre los con-
troles. Ahora bien, esto no es lo que estábamos buscando. La información que buscamos es
la misma que nos ofrece el índice de riesgo, a saber: cuánto más se da el desenlace infarto
entre los fumadores que entre los no fumadores (no cuánto más se da el suceso fumar entre
los casos que entre los controles). Pero este problema tiene fácil solución cuando se trabaja
con el cociente entre dos odds. Ocurre que ese cociente no cambia cuando, en lugar de dividir
las odds de las columnas, se dividen las odds de las filas:
oddsfumadores = (51/ 425) / (374 / 425) = 51 / 374 = 0,1364
oddsno fumadores = (29 / 725) / (696 / 725) = 29 / 696 = 0,0417
oddsfumadores / oddsno fumadores = 0,1364 / 0,0417 = 3,27
Este resultado es idéntico al anterior y está indicando que la odds del suceso infarto entre los
fumadores es 3,27 veces las odds del suceso infarto entre los no fumadores.
Cuando se trabaja con sucesos cuyas odds son pequeñas, el cociente entre odds toma un
valor muy parecido al del índice de riesgo relativo (recordemos que, con estos mismos datos,
RR = 3). Por esta razón, en los diseños de casos y controles (que no permiten calcular las in-
cidencias del desenlace estudiado), se utiliza el cociente entre odds como una estimación del
riesgo relativo. A este cociente entre odds se le llama odds ratio4 (OR ) (Cornfield, 1951) y
se define mediante
= = = = [3.15]
= [3.16]
donde e se refiere a la base de los logaritmos naturales (2,71828) y al error típico del
logaritmo de OR:
= [3.17]
Este intervalo de confianza sirve para contrastar la hipótesis nula de que la odds ratio vale 1
en la población muestreada. Si el valor 1 no se encuentra entre los límites del intervalo de
confianza, puede concluirse que la odds de la respuesta o desenlace estudiado no es la mis-
ma en las dos poblaciones comparadas. Aplicando las ecuaciones 3.15 y 3.16 a los datos de
la Tabla 3.17 se obtiene
= =
= =
Puesto que el valor 1 no se encuentra dentro de los límites del intervalo, podemos estimar,
con una confianza del 95 %, que la odds ratio poblacional es mayor que 1. Y como el límite
inferior vale 2,04, podemos concluir que la odds del suceso infarto en el grupo de fumado-
res es al menos 2,04 veces la odds del suceso infarto en el grupo de no fumadores.
Ahora bien, aunque una odds ratio no es lo mismo que un índice de riesgo relativo, ambos
estadísticos se encuentran estrechamente relacionados:
= = [3.18]
Esto significa que cuando P1 y P2 toman valores muy parecidos, la fracción final de la ecua-
ción [3.18] se aproxima a 1 y el valor de OR se aproxima al de RR. Ciertamente esto no condu-
ce a nada interesante porque cuando se diseña un estudio de casos y controles es justamen-
te porque se sospecha que P1 y P2 son diferentes. Ahora bien, en muchos de los estudios que
se llevan a cabo, P1 y P2 suelen ser valores pequeños. Aunque P1 y P2 sean diferentes, si son
lo bastante pequeños, la fracción final de la ecuación [3.18] se aproximará a 1 y el valor de
OR se aproximará al de RR. Bajo estas circunstancias, el valor de la odds ratio puede utilizar-
se como una estimación del riesgo relativo que no es posible calcular (ver Rigby, 1999). Con
los datos de la Tabla 3.17 se obtiene OR = 3,27 y RR = 3. Puesto que las proporciones de
Capítulo 3. Inferencia con dos variables categóricas 93
desenlaces son más bien pequeñas, no se comete un error importante si se afirma que el riesgo
de experimentar el suceso infarto es 3,27 veces mayor en el grupo de fumadores que en el de
no fumadores.
Riesgo no es causalidad
En todos los ejemplos del párrafo anterior se calculan índices de riesgo que se utilizan para
tomar decisiones que, muchas veces, afectan de forma importante a las personas: recomen-
daciones sobre comportamientos saludables, precios de los seguros, concesión de créditos,
etc. Sin embargo, no debe perderse de vista el hecho de que un índice de riesgo no es más
que un cociente de proporciones (o de odds). Su valor indica cuánto mayor o menor es una
proporción que otra. Y sustituir el término proporción por el de riesgo no cambia la natu-
raleza del índice. Un factor de riesgo no es lo mismo que un factor causal.
Tanto los diseños de cohortes como los de casos y controles son diseños observaciona-
les (ver Capítulo 1 del primer volumen). Dado que no existe asignación aleatoria de los suje-
tos a las condiciones del estudio (fumar, no fumar), con estos diseños es posible situarse en
un nivel de indagación de tipo relacional, pero no explicativo. Esto significa que estos dise-
ños no permiten determinar si una relación es o no de tipo causal. Sirven para detectar di-
ferencias y relaciones, pero no para determinar si la variable factor es o no la responsable del
desenlace estudiado. Recordemos que para poder afirmar que una relación es de naturaleza
causal es necesario utilizar diseños experimentales (con asignación aleatoria que es imposi-
ble llevar a cabo en los diseños de cohortes y de casos y controles) o fundamentar tal afir-
mación en teorías sólidas (ver, en el Capítulo 12 del primer volumen, el apartado Relación
y causalidad). Conviene no pasar esto por alto porque el término riesgo, tan característico
de este tipo de diseños, puede llevar fácilmente a conclusiones equivocadas.
En el ejemplo sobre tabaquismo e infarto hemos visto que un riesgo relativo de 3 indica
que el riesgo de sufrir infarto si se fuma es 3 veces mayor que si no se fuma. Del hecho de
interpretar un cociente de proporciones utilizando el término riesgo no se sigue que el hábito
de fumar sea la causa de la diferencia observada. Y no se sigue tal cosa porque los sujetos
no se han asignado aleatoriamente a las condiciones del estudio (los grupos de fumadores
y no fumadores vienen dados). En un estudio de estas características, la diferencia observada
podría deberse a causas distintas del hecho de fumar. De hecho, podría deberse a cualquier
94 Análisis de datos (vol. II)
variable en que los fumadores difieran de los no fumadores (si es que difieren en algo aparte
del hecho de fumar). A estas terceras variables que podrían estar contaminando el resultado
de un estudio se les llama factores de confusión. Y lo ideal, lógicamente, es poder identificar
y controlar estos factores para eliminar su efecto.
La forma más segura de hacer esto es mediante la asignación aleatoria de los sujetos a las
condiciones del estudio. Pero la asignación aleatoria no siempre es posible. Por ejemplo, no
es posible seleccionar aleatoriamente dos grupos de sujetos no fumadores, convertir en fuma-
dores a los sujetos de un grupo y hacer seguimiento a ambos grupos para averiguar en cuál
de ellos se producen más infartos. Y no es posible hacer esto por razones éticas y porque pro-
bablemente sería muy difícil encontrar sujetos que se prestaran a ello. Pero, incluso aunque
esto fuera posible, tampoco serviría de mucho, pues no bastaría con hacer dos grupos equi-
valentes al principio del estudio, sino que habría que mantenerlos equivalentes a lo largo del
estudio controlando sus hábitos alimentarios, la cantidad de ejercicio físico, el tipo de traba-
jo, las enfermedades sobrevenidas, etc.
Muchos de los problemas que nos interesa estudiar no pueden abordarse planteando un
diseño experimental. En estos casos, no queda más remedio que recurrir a diseños correla-
cionales (como los de cohortes y los de casos y controles) donde la equivalencia entre grupos
se intenta establecer, no mediante asignación aleatoria, sino controlando las variables de con-
fusión que se sabe o se sospecha que pueden alterar los resultados del estudio (hipertensión,
obesidad, nivel de colesterol, sedentarismo, etc.). Si no se consigue controlar estas variables,
es muy difícil aislar factores causales. Y aun cuando se consigue controlarlas, difícilmente
se tiene la certeza de estar controlando todos los posibles factores de confusión. Ésta es la ra-
zón principal por la cual, al interpretar los índices de riesgo, debe evitarse realizar afirma-
ciones que atribuyan connotaciones causales a la relación encontrada.
tal índice es el porcentaje de desenlaces que se deben a todo aquello en lo que puedan diferir
el grupo de sujetos expuestos y el grupo de sujetos no expuestos (los cuales, recordemos, no
sabemos en qué difieren exactamente porque no hay forma de saber si son o no equivalentes).
La consecuencia más llamativa de sobrestimar el verdadero porcentaje de riesgo atribuible
se produce cuando la estimación de ese porcentaje se utiliza para calcular “los miles de per-
sonas afectadas” por el factor de riesgo o “las miles de muertes que se evitarían” si la pobla-
ción de sujetos expuestos dejara de estarlo. No es infrecuente encontrar en los informes de
resultados y en los medios de comunicación cifras disparatadas (supuestamente basadas en
estudios epidemiológicos serios) que se escapan a toda lógica.
La falacia ecológica
Una falacia es un error lógico, un error en la argumentación. La falacia ecológica es un error
que consiste en atribuir al individuo las características del grupo. A pesar de que este tipo de
error fue detectado hace más de medio siglo (Robinson, 1950), todavía sigue apareciendo en
las conclusiones de no pocos estudios. Y es particularmente frecuente en la interpretación del
riesgo relativo.
Recordemos de nuevo el ejemplo sobre tabaquismo e infarto. Hemos visto que un riesgo
relativo de 3 indica que la proporción de infartos en el grupo de fumadores es 3 veces mayor
que en el grupo de no fumadores. También puede interpretarse este dato como que el riesgo
de sufrir infarto entre los fumadores es 3 veces mayor que entre los no fumadores (sin perder
de vista las consideraciones hechas en el apartado anterior). Se cae en la falacia ecológica
cuando se afirma que la probabilidad de que un fumador sufra un infarto es 3 veces mayor que
la de un no fumador. En esta interpretación se está convirtiendo un dato grupal (una propor-
ción referida al grupo) en una característica individual, es decir, en una especie de propen-
sión del individuo a sufrir infarto con una determinada probabilidad.
un diseño de casos y controles, ofrece tanto el riesgo relativo como la odds ratio (la cual apa-
rece con el nombre razón de las ventajas). Hay que elegir el índice apropiado en cada caso.
La primera fila de la tabla indica que el riesgo estimado se refiere al de fumadores frente
al de no fumadores ( fumadores / no fumadores) en un diseño de casos y controles (razón de
las ventajas). Su valor indica que la odds del suceso infarto en el grupo de fumadores es 3,27
veces la odds del grupo de no fumadores. Y los límites del intervalo de confianza indican que
la odds del suceso infarto es significativamente mayor que 1: estimamos, con una confianza
del 95 %, que es al menos 2,04 veces mayor en los fumadores que en los no fumadores.
Las dos filas siguientes ofrecen dos estimaciones del riesgo relativo para un diseño de
cohortes (dos estimaciones porque el desenlace de interés puede encontrarse en cualquiera
de las dos categorías de la variable colocada en las columnas). Si el desenlace que interesa
estudiar es la presencia de infarto (infarto = sí), la conclusión es que la proporción de infartos
es 3 veces mayor en los fumadores que en los no fumadores. Si el desenlace que interesa es-
tudiar es la ausencia de infarto (infarto = no), la conclusión es que tal desenlace se da menos
entre los fumadores: en concreto, la proporción de sujetos sin infarto es un 8,3 % (100 ! 91,7)
menor en el grupo de fumadores que en el de no fumadores. Puesto que el valor 1 no está in-
cluido entre los límites de los correspondientes intervalos de confianza, puede concluirse que
el valor poblacional del riesgo relativo difiere de 1.
Es importante tener presente que los índices de riesgo siempre se calculan dividiendo la infor-
mación de la primera fila de la tabla entre la información de la segunda fila (en el ejemplo,
la fila fumadores entre la fila no fumadores; ver Tabla 3.15 o 3.17). Como el orden en el que
el SPSS coloca en la tabla las categorías de las filas (también las de las columnas) viene deter-
minado por los códigos que tienen asignados (se ordenan de menor a mayor), es importante
vigilar que la categoría cuyo riesgo se desea evaluar reciba un código menor que la otra ca-
tegoría (en nuestro ejemplo hemos utilizado el código 1 para los fumadores y el código 2 para
los no fumadores). Reparar en este detalle es importante debido a que este tipo de variables
suelen codificarse como variables indicador, con el código 1 para la “presencia” y el código
0 para la “ausencia” (por ejemplo: 1 = «fumadores» y 2 = «no fumadores»); una codificación
tipo indicador haría que el SPSS construyera la tabla con los no fumadores en la primera fila
(con las consiguientes consecuencias sobre los resultados y su interpretación).
Por supuesto, siempre es posible utilizar más de dos grupos (factores con más de dos ni-
veles). Pero debe tenerse en cuenta que las comparaciones siempre se llevan a cabo entre dos
filas. Si se tienen tres filas (fumadores, no fumadores y exfumadores), se puede agrupar a los
exfumadores y a los no fumadores y calcular el riesgo del grupo fumadores respecto del res-
to de grupos tomados juntos. Y si lo que interesa es calcular el riesgo del grupo fumadores
respecto de cada grupo por separado, se tendrá que aplicar un filtro al archivo de datos.
Capítulo 3. Inferencia con dos variables categóricas 97
Índices de acuerdo
Un aspecto interesante de la asociación entre dos variables categóricas tiene que ver con el
grado de acuerdo (parecido, concordancia) existente entre ambas variables5.
Una situación típica en la que suele interesar estudiar el grado de acuerdo es la que se de-
riva de aplicar dos criterios de clasificación (dos jueces o expertos, dos escalas de medida, dos
pruebas diagnósticas, etc.) a una serie de sujetos u objetos. Las categorías utilizadas para la
clasificación pueden ser nominales (como el tipo de trastorno) u ordinales (como la gravedad
del trastorno). En el primer caso suele utilizarse el índice de acuerdo kappa de Cohen (1960)
o alguna variante del mismo (Cohen, 1968). En el segundo, alguna medida de asociación para
variables ordinales; en el siguiente apartado estudiaremos tres: gamma (Goodman y Kruskal,
1979), tau-b (Kendall, 1970) y d (Somers, 1962). Estas medidas de asociación sirven para
valorar el grado de relación positiva o negativa existente entre dos variables; por tanto, sus
valores positivos también permiten cuantificar el grado de acuerdo. Para una revisión de otros
índices de acuerdo, puede consultarse Shroukri (2004) o Von Eye y Mun (2005).
La Tabla 3.19 muestra la forma de presentar los datos en una tabla de contingencias bidi-
mensional y la notación que utilizaremos para identificar cada elemento de la tabla. Ni la es-
tructura de la tabla ni la notación cambian por el hecho de que las variables codificadas sean
nominales u ordinales. Esta notación es la misma que ya hemos empezado a utilizar en el Ca-
pítulo 10 del primer volumen y es generalización directa de la ya utilizada para tablas 2 × 2
en apartados anteriores de este mismo capítulo (ver Tabla 3.16).
Las I categorías de la variable X (juez 1, prueba diagnóstica 1, etc.) definen las filas de
la tabla; para identificar cada una de estas categorías (cada fila), utilizamos el subíndice i; por
tanto: i = 1, 2, ..., I. Las J categorías de la variable Y definen las columnas de la tabla; para
identificar cada una de estas categorías (cada columna) utilizamos el subíndice j: por tanto:
j = 1, 2, ..., J. El signo “+” se refiere a todos los valores del subíndice al que sustituye; por
tanto, cuando sustituye al subíndice i, se refiere a todos los valores de i (es decir, 1, 2, ..., I );
y cuando sustituye al subíndice j, se refiere a todos los valores de j (es decir, 1, 2, ..., J ).
Y
X 1 2 AAA j AAA J ni+
1 n11 n12 AAA n1 j AAA n1J n1+ n i j = frecuencias conjuntas de X e Y
2 n21 n22 AAA n2 j AAA n1J n2 + n i+ = frecuencias marginales de X
AAA AAA AAA AAA AAA AAA AAA AAA
i n i1 n i2 AAA nij AAA n iJ n i+ n + j = frecuencias marginales de Y
AAA AAA AAA AAA AAA AAA AAA AAA n = número total de casos
I nI 1 nI 2 AAA nI j AAA nI J nI +
n+j n+1 n+2 AAA n+j AAA n+J n
5
Conviene recordar dos cosas: (1) en una tabla de contingencias bidimensional pueden darse diferentes pautas de aso-
ciación; (2) los diferentes estadísticos disponibles para estudiar esas pautas de asociación se han diseñado para valorar un
determinado tipo de pauta, incluso varias, pero no todas ellas. De ahí la importancia de elegir en cada caso el estadístico
capaz de capturar justamente la pauta de asociación que se desea estudiar.
98 Análisis de datos (vol. II)
Tabla 3.20. Resultado obtenido por dos expertos al clasificar a 200 pacientes con neurosis
Segundo experto
Primer experto Fóbica Histérica Obsesiva Depresiva Total
Fóbica 20 8 6 1 35
Histérica 7 36 14 4 61
Obsesiva 1 8 43 7 59
Depresiva 2 6 4 33 45
Total 30 58 67 45 200
El acuerdo o coincidencia está reflejado en las casillas de la diagonal principal (la que va des-
de la parte superior izquierda de la tabla hasta la parte inferior derecha; casillas con i = j). Esta
diagonal contiene el número de casos que ambos expertos clasifican de la misma manera. Por
tanto, una forma sencilla e intuitiva de cuantificar el grado de acuerdo consiste simplemente
en valorar en qué medida las frecuencias de la tabla tienden a concentrarse en esa diagonal.
Sumando las frecuencias de las casillas de la diagonal principal se obtienen 132 coinciden-
cias, lo que representa una proporción de acuerdo de 132 / 200 = 0,66.
El problema es que, al utilizar esta proporción como una medida del grado de acuerdo,
no se está teniendo en cuenta el hecho de que es posible obtener cierto grado de acuerdo sim-
plemente por azar. Si se asume que ambos expertos realizan la clasificación de forma inde-
pendiente, los casos que cabría encontrar por azar en las casillas de la diagonal pueden obte-
nerse multiplicando las correspondientes frecuencias marginales y dividiendo ese producto
por el número total de casos (ver, en el Capítulo 10 del primer volumen, la ecuación [10.6]).
Así, en la primera casilla de la diagonal cabría esperar, por azar, 35(30)/200 = 5,25 casos; en
la segunda casilla, 61(58)/200 = 17,69 casos; etc. Repitiendo la operación para todas las casi-
llas de la diagonal se obtiene un total de 52,83 casos, lo que representa una proporción de
acuerdo esperado por azar de 52,83 / 200 = 0,26.
Capítulo 3. Inferencia con dos variables categóricas 99
= = [3.19]
(ni i se refiere a las frecuencias de las casillas de la diagonal principal, es decir, de las casi-
llas en las que se verifica: i = j). Aplicando [3.19] a los datos de la Tabla 3.20 se obtiene:
= =
= =
= =
El valor del índice kappa debe interpretarse teniendo en cuenta que toma valores entre 0
(acuerdo nulo) y 1 (acuerdo máximo). Si el grado de acuerdo es menor que el esperado por
azar, kappa toma un valor negativo.
Fleiss, Cohen y Everitt (1969) han demostrado que la varianza del coeficiente kappa debe
estimarse de forma ligeramente distinta para el caso general (es decir, para cualquier valor
poblacional de κ) y para el caso particular en el que se asume κ = 0 (en Wickens, 1989, págs.
241-243, puede encontrarse una excelente descripción de ambas estimaciones). Para el caso
particular en el que se asume κ = 0, la varianza de [3.19] se obtiene mediante:
= [3.20]
La hipótesis nula de que el coeficiente kappa vale cero en la población puede contrastarse
dividiendo el valor de kappa entre su error típico (raíz cuadrada de [3.20]). Se obtiene así un
valor tipificado que se distribuye de forma aproximadamente normal, con media 0 y des-
viación típica 1:
= Í N (0, 1) [3.21]
6
Esta forma de estimar la proporción de acuerdo por azar no es del todo correcta porque incluye no solo acuerdo por azar
sino acuerdo verdadero. La separación de estas dos fuentes de acuerdo requiere utilizar modelos loglineales que no estudia-
remos aquí. No obstante, el índice de acuerdo kappa tal como está definido en [3.19] suele resultar satisfactorio en la mayor
parte de los contextos en los que se aplica.
100 Análisis de datos (vol. II)
Para contrastar la hipótesis de acuerdo nulo (H0: κ = 0) comenzamos estimando el error típi-
co de kappa (raíz cuadrada de [3.20]) y calculando a continuación (ecuación [3.21]):
= =
= =
=
= =
= =
= = =
En la distribución normal tipificada, P (Zκ >$ 12,93) . 0. Y siendo el nivel crítico tan próximo
a cero, la decisión razonable será rechazar H0 y concluir que el acuerdo entre ambos exper-
tos es significativamente mayor que el esperable por azar.
Saber que el grado de acuerdo entre dos criterios de clasificación es significativamente
mayor que el esperable por azar no dice gran cosa (aunque sí saber que no lo es). Por esta
razón, Landis y Koch (1977) han argumentado que, por lo general, valores por encima de
0,80 reflejan un acuerdo excelente; valores entre 0,60 y 0,80, un buen acuerdo; valores en-
tre 0,40 y 0,60 un acuerdo moderado; y valores por debajo de 0,40, un acuerdo más bien
pobre. Pero estos puntos de corte no parecen estar suficientemente bien justificados.
Al interpretar el coeficiente kappa hay que tener en cuenta que, aunque permite cuan-
tificar el grado de acuerdo global, no sirve para reflejar la verdadera naturaleza del acuerdo
y del desacuerdo subyacentes. De hecho, puede obtenerse el mismo valor kappa con distin-
tas pautas de variación entre las frecuencias de la diagonal principal; y pueden obtenerse
valores kappa distintos con la misma pauta de variación en la diagonal principal (misma pau-
ta de acuerdo) pero con distinta pauta de variación fuera de ella (distintas pautas de desa-
cuerdo) (Grayson, 2004). Ésta es la razón por la cual suele recomendarse no comparar coefi-
cientes obtenidos en diferentes estudios o en diferentes poblaciones (Feinstein y Cicchetti,
1990; Thompson y Walter, 1988).
Además, dependiendo de los criterios de clasificación utilizados, algunos desacuerdos
pueden ser más fuertes que otros (puede haber categorías que se parezcan entre sí más que
otras). Y si las categorías de clasificación son ordinales (por ejemplo, trastorno leve, mode-
rado y severo), el desacuerdo por clasificar al mismo sujeto en categorías adyacentes (leve,
moderado) es menos grave que el desacuerdo por clasificar al mismo sujeto en categorías
más alejadas (leve, severo). Para resolver estos problemas puede utilizarse una versión
ponderada del índice kappa (Cohen, 1968; Spitzer, Cohen, Fleis y Endicott, 1967).
La ponderación consiste en asignar un peso (w) entre 0 y 1 a cada casilla. Por lo gene-
ral, a las casillas de la diagonal principal se les asigna un peso de 1 (wi = j = 1) y al resto de
las casillas se les asigna un peso tanto menor cuanto más grave se considera el desacuerdo
(siempre con wi j = wj i). En el caso de que la gravedad del desacuerdo sea tanto mayor cuan-
to más alejada de la diagonal principal se encuentre una casilla, Fleiss y Cohen (1973) pro-
ponen calcular los pesos de las casillas de la siguiente manera:
Capítulo 3. Inferencia con dos variables categóricas 101
= [3.22]
Por ejemplo, para la casilla (i = 1, j = 1) de la Tabla 3.20, w11 = 1! |1 ! 1| / (4 !1) = 1 (la ecua-
ción [3.22] asigna un peso de 1 a todas las casillas de la diagonal principal). Para la casilla
(i = 1, j = 2), w12 = 1! |1! 2| / (4 ! 1) = 0,667. Para la casilla (i = 1, j = 3), w12 = 1! |1! 3| / (4 ! 1)
= 0,333. Para la casilla (i = 1, j = 4), w12 = 1! |1! 4| / (4 ! 1) = 0. Etcétera. Las casillas más ale-
jadas de la diagonal principal (los desacuerdos más graves) reciben un peso menor.
Tras asignar los pesos a las casillas, la versión ponderada del coeficiente kappa se obtie-
ne aplicando la ecuación [3.19] a la tabla resultante de multiplicar cada frecuencia ni j por su
correspondiente peso wi j.
Supongamos que dos tutores de un centro de acogida de niños huérfanos hacen una valo-
ración del comportamiento global de cada uno de sus 43 tutelados durante una determinada
semana. Ambos tutores realizan su evaluación clasificando el comportamiento de cada niño
en una de 4 categorías ordenadas: “malo”, “regular”, “bueno” y “excelente”. La Tabla 3.21
resume los resultados obtenidos. Entre paréntesis aparecen los coeficientes o pesos que la
ecuación [3.22] asigna a cada casilla. Con esta forma de asignar los coeficientes de ponde-
ración, las casillas más alejadas de la diagonal principal reciben un peso menor. Al proceder
de esta manera se está considerando que las frecuencias más alejadas de la diagonal princi-
pal representan un desacuerdo más grave que las menos alejadas. Multiplicando la frecuencia
de cada casilla por su correspondiente coeficiente, la nueva tabla de contingencias toma los
valores que muestra la Tabla 3.22.
Tabla 3.21. Resultado obtenido por dos tutores al evaluar el comportamiento de 84 niños (entre paréntesis
aparecen los coeficientes de ponderación que resultan de aplicar la ecuación [3.22])
Segundo tutor
Primer tutor Malo Regular Bueno Muy bueno Total
Malo 12 (1,00) 8 (0,67) 4 (0,33) 0 (0,00) 24
Regular 7 (0,67) 24 (1,00) 5 (0,67) 0 (0,33) 36
Bueno 0 (0,33) 2 (0,67) 14 (1,00) 3 (0,67) 19
Muy bueno 0 (0,00) 0 (0,33) 2 (0,67) 3 (1,00) 5
Total 19 34 25 6 84
Segundo tutor
Primer tutor Malo Regular Bueno Muy bueno Total
Malo 12,00 5,36 1,32 0,00 18,68
Regular 4,69 24,00 3,35 0,00 32,04
Bueno 0,00 1,34 14,00 2,01 17,35
Muy bueno 0,00 0,00 1,34 3,00 4,34
16,69 30,7 20,01 5,01 72,41
102 Análisis de datos (vol. II)
= =
= =
= = =
Al ponderar la “gravedad” de los desacuerdos, el valor de kappa pasa de 0,47 a 0,61. Por
tanto, al ponderar las frecuencias, aumenta el grado de acuerdo estimado.
El índice de acuerdo kappa no es el único índice disponible para valorar el acuerdo en-
tre dos criterios de clasificación7. Existen varios índices que difieren entre sí y de kappa en
aspectos importantes como, por ejemplo, la forma concreta definir e interpretar el acuerdo o
la manera de cuantificar la proporción de acuerdos por azar (ver Zwick, 1988). También
existen índices para valorar el acuerdo entre más de dos criterios de clasificación, es decir,
entre más de dos jueces o entre más de dos variables (ver, por ejemplo, Posner, Sampson,
Caplan, Ward y Cheney, 1990). Para una revisión de todos estos índices puede consultarse
Shroukri (2004) o Von Eye y Mun (2005).
7
Especialmente útil puede resultar un índice de acuerdo asimétrico propuesto por Kvålseth (1991):
= [3.23]
Mientras kappa permite evaluar el grado de acuerdo mutuo entre dos criterios de clasificación, (trata ambos criterios de for-
ma equivalente), el índice permite valorar el acuerdo entre dos criterios de clasificación cuando el primero de ellos
se considera un referente para la comparación (cambiando en el denominador n+j por ni+ se obtiene el valor del coeficiente
para el caso en el que el juez de referencia sea el segundo). Esta forma de cuantificar el grado de acuerdo es útil, por ejem-
plo, para valorar la calidad diagnóstica de un nuevo método en comparación con otro estándar que ya se sabe que funciona
bien; o para valorar cómo clasifica un juez novato en comparación con un juez experto; etc.
Capítulo 3. Inferencia con dos variables categóricas 103
Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 3.23. La tabla
incluye: (1) el valor del coeficiente kappa (0,538), el cual coincide con el que hemos obteni-
do aplicando [3.19]; (2) el error típico asintótico de kappa cuando no se asume acuerdo nulo;
(3) el cociente entre el valor del coeficiente y su error típico, calculado éste bajo el supuesto
de acuerdo nulo (se indica en una nota a pie de tabla); y (4) el nivel crítico (sig. aproximada)
asociado al estadístico T. Puesto que el nivel crítico es muy pequeño, se puede rechazar la
hipótesis de acuerdo nulo y concluir que el grado de acuerdo entre los dos expertos es mayor
que el esperable por azar.
Con tamaños muestrales grandes, el error típico asintótico que ofrece la Tabla 3.23 pue-
de utilizarse para construir un intervalo de confianza para el parámetro κ (el valor de kappa
en la población) siguiendo la misma lógica que se utiliza para construir cualquier otro inter-
valo de confianza basado en la distribución normal:
= = =
Este resultado permite estimar, con una confianza del 95 %, que el verdadero acuerdo entre
ambos expertos (el valor poblacional de kappa) se encuentra entre 0,45 y 0,63 (un buen acuer-
do según el criterio propuesto por Landis y Koch).
En el caso de que se desee dar distinta importancia a los desacuerdos de una tabla (es decir,
a las frecuencias que se encuentran fuera de la diagonal), pueden asignarse coeficientes de
ponderación para obtener la versión ponderada del índice kappa. Para ello:
' Reproducir en el Editor de datos los datos de la Tabla 3.20 (ver en el Apéndice 3 el apar-
tado Cómo reproducir una tabla de contingencias en SPSS ) o abrir el archivo Tabla 3.21
acuerdo kappa ponderada que se encuentra en la página web del manual.
' Crear dos nuevas variables en el archivo de datos: (1) la primera (con nombre w u otro
nombre válido) con los valores de los coeficientes de ponderación (valores entre parénte-
sis de la Tabla 3.21); (2) la segunda (con nombre ncasos_w u otro nombre válido), mul-
tiplicando las frecuencias originales (ncasos) por los coeficientes de ponderación (w).
' Seleccionar la opción Ponderar casos del menú Datos para ponderar el archivo de datos
con la variable ncasos_w.
' Seguir los pasos del ejemplo anterior para obtener el índice de acuerdo kappa utilizando
el procedimiento Tablas de contingencias (para obtener el valor exacto de kappa es necesa-
rio marcar, en el subcuadro de diálogo Casillas, la opción No efectuar correcciones).
Tras la ponderación, las frecuencias originales de la Tabla 3.21 se convierten en las frecuen-
cias ponderadas de la Tabla 3.22. Y al aplicar el índice de acuerdo kappa a estas nuevas fre-
cuencias se obtiene el índice de acuerdo kappa ponderada que muestra la Tabla 3.24. Su
104 Análisis de datos (vol. II)
valor ha pasado de 0,47 (valor no ponderado) a 0,61 (valor ponderado), que es justamente
el valor obtenido anteriormente al aplicar la ecuación [3.19] a los datos de la Tabla 3.22.
Opinión aborto
Opinión eutanasia 1. En contra 2. Indiferente 3. A favor Total
1. En contra 73 16 3 92
2. Indiferente 18 30 12 60
3. A favor 8 18 80 106
Total 99 64 95 258
No cabe duda de que todos estos contrastes (independencia, homogeneidad marginal, sime-
tría y acuerdo) ofrecen información interesante sobre diferentes aspectos de una tabla de
contingencias. Es más, dependiendo de los objetivos del análisis, cualquiera de ellos podría
ser la elección idónea. No obstante, cuando las dos variables analizadas son ordinales (cate-
gorías cuantitativamente ordenadas), lo que suele interesar estudiar es si el aumento de los va-
lores de la primera tiende a ir o no acompañado del aumento (o disminución) de los valores
de la segunda. Y esta tendencia no está contemplada ni en la hipótesis de independencia, ni
en la de homogeneidad marginal, ni en la de simetría (el acuerdo tiene algo que ver con esto,
pero solo en parte).
Con variables cuantitativas (de intervalo o razón), el estudio de esta tendencia suele
abordarse con el coeficiente de correlación de Pearson (ver Capítulo 12 del primer volumen),
el cual ya sabemos que permite cuantificar el grado de relación lineal entre variables. Con
variables ordinales no tiene mucho sentido hablar de relación lineal porque las variables
ordinales no tienen una métrica definida; sin embargo, dado que sus categorías se encuentran
ordenadas, sí es posible hablar de relación monótona. Cuando se da este tipo de relación, las
frecuencias de la tabla tienden a concentrarse en una de las dos diagonales: en la principal
en el caso de relación positiva o creciente y en la secundaria en el caso de relación negativa
o decreciente. Por tanto, estudiar la relación entre variables ordinales requiere utilizar esta-
dísticos (medidas de asociación) capaces de valorar en qué medida las frecuencias tienden
a concentrarse en una de las dos diagonales de la tabla.
El índice de acuerdo kappa (ver Tablas 3.21 y 3.22) hace algo parecido a lo que hacen
las medidas de asociación ordinales, pero kappa únicamente tiene en cuenta el grado de con-
centración de las frecuencias en la diagonal principal y se basa en el porcentaje de acuerdo
global; además, solamente tiene sentido aplicarlo cuando las categorías de las dos variables
son las mismas. Las medidas de asociación que se incluyen en este apartado se basan en la
comparación individual de cada caso con cada otro y en los conceptos de concordancia y
discordancia; y no es necesario que las dos variables tengan las mismas categorías.
Medidas de concordancia-discordancia
Dos casos son concordantes (C ) cuando el primero puntúa más alto (o más bajo) que el se-
gundo tanto en X como en Y. Dos casos son discordantes (D ) cuando el primero puntúa más
alto (o más bajo) que el segundo en la variable X y más bajo (o más alto) en la variable Y. Dos
casos están empatados en X (EX ) cuando sus valores son iguales en X y distintos en Y. Dos
106 Análisis de datos (vol. II)
casos están empatados en Y (EY ) cuando sus valores son iguales en Y y distintos X. Dos ca-
sos están empatados en X e Y (EXY ) cuando sus valores son los iguales en ambas variables.
Cuando predominan las concordancias, la relación es positiva: los valores altos (bajos)
de una de las variables tienden a ir acompañados de valores altos (bajos) de la otra variable.
Cuando predominan las discordancias, la relación es negativa: los valores altos (bajos) de
una de las variables tienden a ir acompañados de valores bajos (altos) de la otra variable.
Todas las medidas de asociación que se describen en este apartado utilizan en el nume-
rador la diferencia entre el número de concordancias (nC ) y discordancias (nD ) resultantes
de comparar cada caso con cada otro; pero se diferencian en el tratamiento que dan a los em-
pates. En el Apéndice 3 se explica cómo se calcula el número de concordancias, discordan-
cias y empates en una tabla de contingencias.
Si todas las comparaciones entre casos dan como resultado pares concordantes o discor-
dantes (es decir, si no existen pares empatados), las probabilidades de concordancia (PC ) y
de discordancia (PD ) pueden estimarse dividiendo el número de pares concordantes y
discordantes entre el número total de comparaciones (que viene dado por las combinaciones
sin repetición de n elementos tomados de dos en dos):
= y = [3.24]
Y como las concordancias reflejan relación positiva y las discordancias relación negativa,
una forma directa y sencilla de cuantificar la relación entre dos variables consiste simple-
mente en restar ambas proporciones. Esto es precisamente lo que hace el coeficiente tau-a
(Kendall 1938, 1970):
= = [3.25]
Pero esta diferencia, útil cuando no existen empates, pasa por alto el hecho de que en una ta-
bla de contingencias existen muchos empates. Para resolver este problema, el coeficiente
gamma (ver Goodman y Kruskal, 1979) excluye del análisis el número de empates:
= [3.26]
Cuando la relación entre las variables es perfecta y positiva, todos los pares son concordantes
(nC ) y gamma vale 1. Cuando la relación entre las variables es perfecta pero negativa, todos
los pares de casos son discordantes (nD ) y gamma vale !1. Cuando las variables son inde-
pendientes, hay tantos pares concordantes como discordantes (nC = nD) y gamma vale 0. Por
tanto, gamma oscila, entre !1 y 1. Cuando dos variables son independientes, gamma vale
cero; sin embargo, una gamma de cero no implica independencia (excepto en tablas de con-
tingencias 2 × 2)8.
8
En tablas de contingencias 2 × 2, la ecuación [3.26] equivale a: = (n11 n22 ! n12 n21) / (n11 n22 + n12 n21). Esta expresión fue
inicialmente propuesta por Yule (1900, 1912) como una forma de cuantificar el grado de asociación existente en una tabla
de contingencias 2 × 2. Yule, que llamó Q a su coeficiente, llegó a él a partir de la odds ratio estudiada en el apartado ante-
rior: Q = (OR ! 1) / (OR + 1). Puesto que en tablas 2 × 2 se verifica Q = , lo que realmente está haciendo es transformar
un valor como la odds ratio, que varía en el rango [0, 4], en otro valor, más interpretable, que varía en el rango [!1, 1].
Capítulo 3. Inferencia con dos variables categóricas 107
La exclusión, sin más, de los pares empatados suele inflar en exceso la estimación que
se obtiene de la verdadera relación subyacente. El coeficiente tau-b de Kendall (1945, 1970)
tiene esto en cuenta incorporando a la ecuación el número de pares empatados en X o en Y
(quedan fuera los pares empatados en ambas variables):
= [3.27]
La inclusión del número de empates en X y del número de empates en Y hace que el valor
de tau-b sea menor que el de gamma. El coeficiente tau-b toma valores entre !1 y +1 sola-
mente en tablas de contingencias cuadradas y si ninguna frecuencia marginal vale cero. El
coeficiente tau-c (Stuart, 1953) intenta corregir esta limitación (aunque no lo consigue del
todo; y no faltan quienes, como Freeman, 1986, desaconsejan su uso):
= [3.28]
donde m se refiere al valor menor del número de filas (I ) y del número de columnas (J ). El
coeficiente tau-c toma valores entre aproximadamente !1 y 1 independientemente del número
de categorías de las variables.
Por último, el coeficiente d de Somers (1962) incorpora una ligera modificación al coefi-
ciente gamma para cuando una de las variables se considera independiente (X ) y la otra de-
pendiente (Y ). Esta modificación consiste en añadir en el denominador de gamma (ecuación
[3.26]) el número de pares empatados en la variable dependiente:
= [3.29]
El coeficiente d de Somers tiene tres versiones: dos asimétricas y una simétrica. La versión
simétrica se obtiene utilizando en el denominador de [3.29] el promedio de los denomina-
dores correspondientes a las dos versiones asimétricas.
Existen otros coeficientes basados en el concepto de pares concordantes y discordantes
(ver, por ejemplo, Agresti, 1984), pero el SPSS únicamente incluye los cuatro mencionados
en [3.26], [3.27], [3.28] y [3.29].
Para aplicar estas cuatro ecuaciones a las frecuencias de la Tabla 3.25 debemos comenzar
calculando el número de pares concordantes, discordantes y empatados (en el Apéndice 3 se
explica cómo realizar estos cálculos):
= [3.30]
= Í N (0, 1) [3.31]
Para contrastar la hipótesis nula de no asociación ordinal con los datos de la Tabla 3.25,
comenzamos estimando el error típico de nC ! nD y calculando a continuación :
= =
= =
= =
= =
= = =
' Seleccionar la opción Estadísticos descriptivos > Tablas de contingencias del menú Analizar
para acceder al cuadro de diálogo Tablas de contingencias y trasladar la variable euta-
nasia (opinión sobre la eutanasia) a la lista Filas y la variable aborto (opinión sobre el
aborto) a la lista Columnas.
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Tablas de contingen-
cias: Estadísticos y marcar las cuatro opciones del recuadro Ordinal: gamma, d de Somers,
tau-b y tau-c.
Aceptando estas elecciones, el Visor ofrece los resultados que recogen las Tablas 3.26 y 3.27.
La Tabla 3.26 contiene las medidas de asociación simétricas, es decir, los coeficientes tau-b,
tau-c y gamma. La Tabla 3.27 contiene las tres versiones del coeficiente d de Somers: (1) sin
hacer distinción entre variable independiente y dependiente; ésta es la opción apropiada para
nuestro ejemplo porque en ningún momento hemos hecho tal distinción; (2) tomando la varia-
ble opinión sobre la eutanasia como variable dependiente; y (3) tomando la variable opinión
sobre el aborto como variable dependiente.
Cada coeficiente de correlación aparece con su correspondiente nivel crítico (sig. aproxi-
mada), el cual permite decidir sobre la hipótesis nula de independencia. Puesto que todos es-
tos niveles críticos son menores que 0,05, se puede rechazar la hipótesis de independencia y
afirmar que las variables opinión sobre la eutanasia y opinión sobre el aborto están monóto-
namente relacionadas. Y puesto que el signo de los coeficientes es positivo, podemos concluir
que las personas que tienden a estar a favor (o en contra) de la eutanasia tienden también a
estar a favor (o en contra) del aborto.
Junto con el valor de cada coeficiente de correlación aparece también su valor tipificado
(T aproximada), es decir, el valor del coeficiente dividido por su error típico. La tabla también
ofrece una estimación del error típico de cada coeficiente (error típico asintótico). Estas esti-
maciones se obtienen sin asumir independencia entre las variables y pueden utilizarse para
construir intervalos de confianza de idéntica manera a como hemos hecho con el índice de
acuerdo kappa en el apartado anterior.
Apéndice 3
Simetría relativa
El contraste de simetría estudiado al comienzo del capítulo (ver, en el apartado Homogeneidad mar-
ginal y simetría, el ejemplo sobre la prueba de McNemar; Tabla 3.7), nos ha llevado a concluir que,
de las 21 + 63 = 84 personas que han cambiado su preferencia, la proporción que lo ha hecho a favor
del líder A (63 / 84 = 0,75) es mayor que la que lo ha hecho a favor del líder B (21 / 84 = 0,25).
Esta diferencia de 50 centésimas en la proporción de cambios a favor del líder A también está re-
flejada en las proporciones marginales de la tabla (al tratarse de una tabla 2 × 2, la hipótesis de sime-
tría equivale a la de homogeneidad marginal): la proporción de personas que prefieren al líder A ha
cambiado de 70 / 250 = 0,28 a 112 / 250 = 0,45; una diferencia de 17 centésimas.
Es importante no olvidar que en la valoración estadística de la hipótesis de simetría no intervienen
las personas que no han cambiado su preferencia (49 + 117 = 166). La relevancia del resultado obtenido
debe ser valorada sin perder de vista esta circunstancia. Si, en lugar de encuestar a 250 personas, se
hubiera encuestado a 2.500 y se hubiera obtenido el mismo número de cambios (84) con la misma
proporción inicial de personas a favor (0,28), el contraste de la hipótesis de simetría estaría basado en
los 84 cambios observados y llevaría a la misma conclusión que con 250 encuestados (a pesar de que
ahora se estarían quedando fuera del análisis los 2.416 encuestados que no cambian su preferencia).
Con 2.500 encuestados, una proporción inicial de 0,28 a favor del líder A y un número de cambios
total de 84 personas (63 de los cuales prefieren al líder A), la proporción inicial a favor del líder A ya
no cambia de 0,28 a 0,45 (como en el caso de 250 encuestados), sino de 0,28 a 0,30 (2 centésimas). El
contraste de la hipótesis de simetría con la prueba de McNemar seguirá indicando que este cambio es
estadísticamente significativo (pues se basa únicamente en las 84 personas que cambian). Pero los
responsables de diseñar los debates de sus respectivos líderes probablemente tendrán otra impresión.
Estas consideraciones sugieren que, en situaciones como las descritas en la Tabla 3.7, cabe la po-
sibilidad de que la información que proporciona el contraste de la hipótesis de simetría no resulte del
todo satisfactoria. En estos casos puede interesar contrastar, además de la hipótesis de simetría, la de
simetría relativa. Esta hipótesis permite valorar, no el número absoluto de cambios, sino el número
relativo de cambios.
Reordenando los datos de la Tabla 3.7 tal como muestra la Tabla 3.28 y considerando fijos los to-
tales marginales del momento antes (pues estos totales marginales condicionan el número de cambios
que puede producirse), en lugar de analizar el número absoluto de cambios (21 frente a 63) es posible
analizar el número relativo de cambios: 21 de 70 posibles frente a 63 de 180 posibles.
Tabla 3.28. Preferencia entre dos líderes políticos antes y después de un debate televisado
Preferencia después
Preferencia antes La misma Distinta Total
Líder A 49 (46,5) 21 (23,5) 70
Líder B 117 (119,5) 63 (60,5) 180
Total 166 84 250
Entre paréntesis aparecen las frecuencias esperadas bajo la hipótesis de independencia.
Ahora bien, las proporciones que se comparan en la hipótesis de simetría relativa (21/70 = 0,30 frente
a 63/180 = 0,35) son independientes entre sí (cosa que no ocurre con las proporciones que se comparan
Capítulo 3. Inferencia con dos variables categóricas 111
en la hipótesis de simetría, basadas en el número absoluto de cambios). Por tanto, la hipótesis de sime-
tría relativa puede contrastarse con la prueba X 2 de Pearson ya estudiada en el Capítulo 10 del primer
volumen. Es decir, contrastar la hipótesis de simetría relativa referida a los datos de la Tabla 3.7 equi-
vale a contrastar la hipótesis de independencia referida a los datos de la Tabla 3.28.
Aplicando el estadístico de Pearson a los datos de la Tabla 3.28 (la tabla incluye, entre paréntesis,
las frecuencias esperadas en cada casilla bajo la hipótesis de independencia filas-columnas), se obtiene
= =
En la distribución ji-cuadrado con (I ! 1) (J ! 1) = 1(1) = 1 grado de libertad (ver Tabla C del Apéndice
final) se obtiene: p = P( > $ 0,57)] > 0,10. Este nivel crítico no permite rechazar la hipótesis de sime-
tría relativa. Por tanto, con los datos disponibles, no es posible afirmar que la proporción relativa de
cambios a favor del líder A (0,30) difiera significativamente de la proporción relativa de cambios a fa-
vor del líder B (0,35). Esta conclusión es distinta de la obtenida anteriormente al contrastar la hipótesis
de simetría a partir del número absoluto de cambios.
En este tipo de situaciones, contrastar la hipótesis de independencia con el conjunto de datos agrupa-
dos puede arrojar resultados equívocos. Y aplicar los índices de riesgo a cada estrato por separado no
ofrece una idea global del efecto de la variable factor.
Se obtiene una información más ajustada utilizando los estadísticos de Cochran y Mantel-Haenszel
para contrastar la hipótesis de independencia condicional, es decir, la hipótesis de independencia entre
las variables factor y respuesta una vez que se ha controlado el efecto de los estratos. El estadístico de
Cochran (1954) adopta la siguiente forma:
= [3.32]
donde k se refiere a cada uno de los estratos; nk a la frecuencia observada en una cualquiera de las
casillas del estrato k (solamente una y siempre la misma en todos los estratos); mk a las frecuencias
112 Análisis de datos (vol. II)
esperadas correspondientes a nk; y = n1+k n2+k n+1k n+2k / n3 (siendo n1+k, n2+k, n+1k, y n+2k las cuatro fre-
cuencias marginales de las tablas 2 × 2 de cada estrato).
El estadístico de Mantel-Haenszel (1959) es idéntico al de Cochran en todo excepto en dos deta-
lles: (1) utiliza corrección por continuidad (restando medio punto al numerador de la ecuación antes de
elevar el paréntesis al cuadrado) y (2) en el denominador de la varianza utiliza n2 (n – 1) en lugar de n3.
Las distribuciones muestrales de ambos estadísticos (el de Cochran y el de Mantel-Haenszel) se
aproximan al modelo de probabilidad χ2 con 1 grado de libertad. Si el nivel crítico asociado es menor
que 0,05, se puede rechazar la hipótesis nula de independencia condicional y concluir que, una vez con-
trolado el efecto de la variable estratos, las variables factor y respuesta están relacionadas.
Para obtener los estadísticos de Cochran y Mantel-Haenszel con SPSS utilizando los datos de la
Tabla 3.29:
' Reproducir en el Editor de datos los datos de la Tabla 3.29 (ver más adelante el apartado Cómo
reproducir una tabla de contingencias en SPSS ) o abrir el archivo Tabla 3.29 tabaco infarto sexo
que se encuentra en la página web del manual.
' Seleccionar la opción Estadísticos descriptivos > Tablas de contingencias del menú Analizar para
acceder al cuadro de diálogo Tablas de contingencias; trasladar la variable tabaco a la lista Filas,
la variable infarto a la lista Columnas y la variable sexo a la lista Capas.
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Tablas de contingencias: Esta-
dísticos y marcar la opción Estadísticos de Cochran y de Mantel-Haenszel. Pulsar el botón Continuar
para volver al cuadro de diálogo principal.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 3.30 a la 3.32. La
Tabla 3.30 ofrece el contraste de la hipótesis de independencia condicional. El estadístico de Cochran
vale 28,565 y tiene asociado un nivel crítico (sig. asintótica bilateral) menor que 0,0005; puesto que
el nivel crítico es muy pequeño, se puede rechazar la hipótesis nula de independencia condicional y
concluir que, una vez controlado el efecto de la variable sexo, las variables tabaquismo e infarto están
relacionadas. A idéntica conclusión se llega con el estadístico de Mantel-Haenszel.
Si se rechaza la hipótesis de independencia condicional, el interés del análisis debe orientarse hacia la
cuantificación del grado de relación existente entre las variables factor y respuesta. Esto puede hacerse
de dos maneras: (1) obteniendo una cuantificación distinta para cada estrato y (2) obteniendo una única
cuantificación tras mezclar todos los estratos como si se tratara de una sola muestra. Si la relación entre
las variables factor y respuesta es la misma en todos los estratos, lo razonable será obtener una única
cuantificación de la relación; si la relación entre las variables factor y respuesta difiere de un estrato
a otro, lo razonable será obtener una cuantificación de la relación distinta para cada estrato.
Por tanto, una vez rechazada la hipótesis de independencia condicional, lo que conviene hacer es
determinar si la relación detectada es o no la misma en todos los estratos. Esto puede hacerse contras-
tando la hipótesis nula de homogeneidad de las odds ratio inter-estratos. Para contrastar esta hipótesis,
el SPSS incluye los estadísticos de Breslow-Day (1980, 1987) y Tarone (1985; Tarone, Gart y Hauck,
1983; ver también Breslow, 1996). Al aplicar estos estadísticos a los datos de la Tabla 3.29 se obtiene
el resultado que muestra la Tabla 3.31. Ambos tienen asociado un nivel crítico menor que 0,05 (sig.
asintótica = 0,009); por tanto, lo razonable es rechazar la hipótesis de homogeneidad de las odds ratio.
Es decir, la odds ratio (el cociente entre la odds de infarto en los fumadores y la odds de infarto en los
Capítulo 3. Inferencia con dos variables categóricas 113
Puesto que la odds ratio no es la misma en los dos estratos comparados y, consecuentemente, no puede
asumirse que el riesgo relativo sea el mismo en ambos estratos, no tiene sentido obtener una estimación
común o global del mismo; lo razonable es obtener una estimación del riesgo para cada estrato (en el
siguiente párrafo nos ocuparemos de esto). No obstante, independientemente de cuál sea el resultado
de las pruebas de homogeneidad, el SPSS ofrece una estimación común del riesgo basada en un es-
tadístico propuesto por Mantel y Haenszel (1959) que adopta la siguiente forma:
= [3.33]
La Tabla 3.32 muestra el resultado que ofrece el SPSS como estimación común del riesgo. El valor de
la estimación, 3,41, tiene asociado un nivel crítico (sig. asintótica) menor que 0,0005 y un intervalo de
confianza entre cuyos límites (2,125; 5,481) no se encuentra el valor 1. Por tanto, puede concluirse que
el riesgo de infarto entre los fumadores es mayor que entre los no fumadores: aproximadamente 3,4
veces mayor (la tabla ofrece esta misma información en escala logarítmica; en este caso, el valor de
referencia para la interpretación ya no es el 1, sino el 0).
Pero ya sabemos que esta estimación común o global del riesgo solamente tiene sentido si la relación
detectada entre las variables factor y respuesta es homogénea en todos los estratos. Por tanto, en el caso
de que, como en nuestro ejemplo, se rechace la hipótesis de homogeneidad de las odds ratio, lo apro-
piado es obtener una estimación del riesgo para cada estrato. Para esto, basta con seguir los pasos del
apartado Los índices de riesgo con SPSS, pero añadiendo la variable sexo a la lista Capas del corres-
pondiente cuadro de diálogo. Al incluir la variable sexo en el análisis, se obtienen los resultados que
muestra la Tabla 3.33. La diferencia entre lo que ocurre en el grupo de hombres y en el de mujeres es
evidente: la odds ratio (razón de ventajas) entre los hombres vale 4,71; entre las mujeres, 0,95. En el
primer caso, el resultado es significativamente mayor que 1 (intervalo de confianza: 2,73-8,12); en el
segundo, no. Conclusión: en los hombres, el riesgo de infarto entre los fumadores es 4,71 veces mayor
que entre los no fumadores; en las mujeres, no hay evidencia de que el riesgo de infarto entre las fu-
madoras sea distinto del riesgo de infarto entre las no fumadoras.
114 Análisis de datos (vol. II)
Tabla 3.33. Índices de riesgo
Intervalo de
confianza al 95%
Sexo Valor Inferior Superior
Hombres Razón de las ventajas para Tabaquismo (Fumadores / No fumadores) 4,710 2,733 8,117
Para la cohorte Infarto = Sí 3,862 2,391 6,240
Para la cohorte Infarto = No ,820 ,757 ,888
N de casos válidos 569
Mujeres Razón de las ventajas para Tabaquismo (Fumadores / No fumadores) ,953 ,308 2,949
Para la cohorte Infarto = Sí ,954 ,316 2,879
Para la cohorte Infarto = No 1,001 ,976 1,026
N de casos válidos 581
La paradoja de Simpson
Los resultados del apartado anterior indican que la relación entre dos variables puede verse modulada
o alterada por la presencia de terceras variables. Esta circunstancia ha sido especialmente puesta de ma-
nifiesto por Simpson (1951).
Supongamos que se dispone de dos tratamientos, t1 y t2, para tratar un mismo desorden y que para
todos los pacientes de la población g se verifica:
P (R | t1) > P (R | t2)
donde R se refiere al suceso recuperación. Supongamos además que la población de pacientes g está
compuesta por dos sub-poblaciones, g1 y g2. En ambas poblaciones el tratamiento t1 es más eficaz que
el tratamiento t2, pero los pacientes de la primera población tienen peor pronóstico que los de la
segunda. En concreto, supongamos que:
P (R | t1, g1) = 0,5 > P (R | t2, g1) = 0,4
P (R | t1, g2) = 0,9 > P (R | t2, g2) = 0,8
Imaginemos que un investigador está interesado en comparar ambos tratamientos. Si utiliza un diseño
correcto, la proporción de elementos muestrales extraídos de cada subpoblación para cada grupo de
tratamiento será la misma. Sin embargo, no siempre es posible asignar sujetos aleatoriamente a los
tratamientos, de modo que no siempre es posible seleccionar muestras de tamaño proporcional a sus
poblaciones. Supongamos que el 70 % de los pacientes que reciben el tratamiento t1 pertenecen a la
subpoblación g1 y el 70 % de los pacientes que reciben el tratamiento t2 pertenecen a la subpoblación
g2. Así las cosas, se tendrá:
P (R | t1) = P (R | t1, g1) P ( g1 | t1) + P (R | t1, g2) P ( g2 | t1) = (0,5) (0,7) + (0,9) (0,3) = 0,62
P (R | t2) = P (R | t2, g1) P ( g1 | t2) + P (R | t2, g2) P ( g2 | t2) = (0,4) (0,3) + (0,8) (0,7) = 0,68
Parece que la eficacia de los tratamientos ha cambiado (no coincide con la que de hecho sabemos que
es su eficacia real). Pero lo único que ocurre es que el tratamiento t1 (el más eficaz) se ha administrado
mayoritariamente a una muestra de la subpoblación con la que se consiguen los peores resultados;
mientras que el tratamiento t2 (el menos eficaz) se ha administrado mayoritariamente a una muestra de
la subpoblación con la que se consiguen los mejores resultados. Un análisis que no contemple esta
circunstancia llevará a conclusiones incorrectas.
Una buena ilustración de este efecto tiene que ver con la discriminación sexual existente en el
proceso de admisión de estudiantes de una determinada Universidad (tomado de Bickel, Hammel y
O’Connell, 1975). Supongamos que dos facultades (variable X: facultad ) de una Universidad admiten
Capítulo 3. Inferencia con dos variables categóricas 115
estudiantes procedentes de distintos institutos. Unos aspirantes son admitidos y otros no (variable Y:
admisión). Las tablas de contingencias que aparecen a continuación recogen unos resultados hipotéticos
distinguiendo entre hombres y mujeres (variable Z: sexo).
Consideremos en primer lugar la clasificación obtenida basada en las tres variables (Tabla 3.34).
Aunque hay ligeramente menos casos en la diagonal principal (OR < 1), las variables admisión y sexo
no están asociadas en ninguno de los niveles de la variable facultad: en ambas facultades se obtienen
valores X 2 menores que 1. Sin embargo, al combinar los resultados de ambas facultades (Tabla 3.35.a),
la asociación entre admisión y sexo se vuelve significativa ( p < 0,05). Aparece un exceso de frecuen-
cias en la diagonal principal (OR > 1): se ha pasado de tasas de admisión aproximadamente iguales en
la Tabla 3.34 a una tasa de admisión favorable a los hombres.
Este efecto es idéntico al detectado en el ejemplo de los dos tratamientos. Las facultades difieren
tanto en la distribución de hombres-mujeres de sus aspirantes como en la proporción de estudiantes que
son admitidos (tal como muestran las Tablas 3.35.b y 3.35.c). Y ocurre que la mayoría de las mujeres
son aspirantes a la facultad en la que más difícil es entrar (la facultad 2). Consecuentemente, la propor-
ción global de admitidos es menor en las mujeres que en los hombres. Las variables sexo y admisión
no son independientes, pero son condicionalmente independientes dada A.
La valoración de una situación de este tipo exige algo más que simplemente listar el conjunto de
asociaciones significativas. Determinar qué asociaciones son importantes depende de qué variables se
considera que dependen de otras. En el ejemplo, la asociación entre admisión y sexo no depende de un
sesgo en el proceso de admisión, sino de la diferencia en los criterios de admisión de ambas facultades
(en una de ellas se admite a muchos más aspirantes que en la otra) y de los intereses de los aspirantes
(la mayoría de las mujeres optan por la facultad con criterios más exigentes).
Facultad = 1 Facultad = 2
Sexo Admisión = Sí Admisión = No Admisión = Sí Admisión = No
Hombres 23 16 3 25
Mujeres 7 4 7 47
En el Capítulo 10 del primer volumen hemos empezado ya a estudiar algunas medidas de asocia-
ción basadas en el estadístico X 2 de Pearson; todas ellas intentan cuantificar el grado de asociación apli-
cando algún tipo de corrección al valor de X 2 para hacerle tomar un valor comprendido entre 0 y 1. Por
tanto, esas medidas son sensibles al mismo tipo de relación a la que es sensible el estadístico de Pearson
(diferencia entre las distribuciones condicionales). En este apartado vamos a estudiar tres medidas de
asociación (los coeficientes lambda y tau; Goodman y Kruskal, 1979) y el coeficiente de incertidumbre;
Theil, 1970) que se basan en un criterio diferente: la reducción proporcional del error. Son medidas
que expresan la relación entre dos variables, X e Y, como la proporción en que se consigue reducir la
probabilidad de cometer un error de predicción cuando, al clasificar un caso como perteneciente a una
u otra categoría de Y, en lugar de utilizar únicamente la información que se tiene de Y, también se tiene
en cuenta la información que aporta X.
Lambda
La medida de asociación lambda se basa en la siguiente lógica: al pronosticar a qué categoría de una
determinada variable, Y, pertenece un caso concreto, podría elegirse la categoría más probable de todas;
con esta estrategia se estaría cometiendo un error de clasificación igual a la probabilidad de pertenecer
a una cualquiera de las restantes categorías; en lugar de esto, podría clasificarse a ese caso en una u otra
categoría de la variable Y dependiendo de su valor (categoría) en la variable X; con esta segunda estra-
tegia podría reducirse el error de clasificación si X e Y estuvieran relacionadas. El coeficiente lambda
expresa en qué medida se consigue reducir el error de clasificación al utilizar la segunda estrategia en
lugar de la primera.
La Tabla 3.36 recoge las frecuencias resultantes de cruzar las variables sexo y grupos de salario.
Si únicamente se tuviera información sobre la variable grupos de salario, al estimar a qué grupo de
salario pertenece un sujeto cualquiera podría elegirse el grupo “15 - 30” porque, al ser el grupo más
numeroso, la probabilidad de pertenecer a ese grupo (270/500 = 0,540) es más alta que la de pertene-
cer a cualquier otro grupo. Procediendo de esta manera se estaría cometiendo un error de clasificación
de 1 ! 0,540 = 0,460.
En lugar de esto, podría utilizarse la información que aporta la variable sexo y clasificar a los hombres
en el grupo salarial “15 - 30” porque ése es el grupo al que es más probable que pertenezca un hombre
(con un error de (19 + 28 + 17) / 500 = 0,128), y a las mujeres en el grupo salarial “< 15” porque ése es
el grupo al que es más probable que pertenezca una mujer (con un error de (84 + 16 + 2) / 500 = 0,204).
De esta manera se estaría cometiendo un error de clasificación de 0,128 + 0,204 = 0,332. Por tanto, con
esta segunda estrategia se estaría reduciendo el error de clasificación en 0,460 ! 0,332 = 0,128 puntos,
lo cual representa una proporción de reducción del error de clasificación de 0,128 / 0,460 = 0,278, que
es justamente el valor que toma lambda si se aplica la ecuación
= [3.34]
Capítulo 3. Inferencia con dos variables categóricas 117
donde máx i (ni j) se refiere a la mayor de las frecuencias de cada fila y máx (n+j) a la mayor de las fre-
cuencias marginales de las columnas. Efectivamente, aplicando la ecuación [3.34] a los datos de la
Tabla 3.36 se obtiene:
= =
Lambda tiene tres versiones: dos asimétricas (para cuando una de las dos variables se considera inde-
pendiente y la otra dependiente) y una simétrica (para cuando no hay razón para distinguir entre varia-
ble independiente y dependiente). La ecuación [3.34] se aplica cuando la clasificación se efectúa to-
mando Y como dependiente. Si se desea tomar X como dependiente basta con sustituir “máxi (nij)” por
“máx j (ni j)” (es decir, por la mayor de las frecuencias de cada columna) y “máx (n+ j)” por “máx (ni +)”
(es decir, por la mayor de las frecuencias marginales de las filas). La versión simétrica se obtiene pro-
mediando las dos asimétricas.
Un valor de 0 indica que la variable independiente no contribuye en absoluto a reducir el error de
clasificación. Un valor de 1 indica que se ha conseguido reducir por completo el error de clasificación,
es decir, que la variable independiente permite predecir con toda precisión a qué categoría de la variable
dependiente pertenece cada caso. Cuando las variables son estadísticamente independientes (es decir,
cuando πi j = πi+ π+ j ), lambda vale 0. Pero un valor de 0 no implica independencia estadística, pues
lambda únicamente es sensible al tipo particular de asociación que se deriva de la reducción del error
de clasificación.
Tau
La medida de asociación tau se parece a lambda, pero su lógica es algo diferente9. Al pronosticar a qué
categoría de la variable grupos de salario pertenece un grupo de sujetos, se podría optar por asignar
aleatoriamente el 100(167/500) = 33,4% a la categoría “< 15”, el 100(270/500) = 54,0% a la categoría
“15-30”, etc., tomando como referencia la probabilidad de pertenecer a cada una de las categorías de
la variable (en lugar de considerar, como hace el coeficiente lambda, únicamente la categoría más pro-
bable). Con esta estrategia se estaría clasificando correctamente al 33,4% de sujetos del grupo “< 15”,
al 54,0% de los sujetos del grupo “15 - 30”, etc., lo cual supone una proporción de clasificación correc-
ta global de 0,412 y, por tanto, una proporción de clasificación errónea de 1 ! 0,412 = 0,588.
En lugar de esto, se podría optar por aprovechar la información que aporta la variable sexo asig-
nando aleatoriamente el 100 (19 / 250) = 7,6 % de los hombres a la categoría “< 15”, el 100 (186 / 250)
= 74,4 % de los hombres a la categoría “15 - 30”, etc.; y el 100 (148 / 250) = 59,2 % de las mujeres a la
categoría “< 15”, el 100 (86/216) = 39,81 % de las mujeres a la categoría “15 - 30”, etc. Con esta estra-
tegia se estaría clasificando correctamente al 52,2 % de los sujetos y, por tanto, se estarían efectuando
pronósticos erróneos con una probabilidad de 1 ! 0,522 = 0,478. Utilizando esta segunda estrategia,
la probabilidad de clasificar a un sujeto de forma incorrecta se reduce en 0,588 ! 0,478 = 0,110 pun-
tos. Lo cual representa una proporción de reducción del error de clasificación de 0,110 / 0,588 = 0,187,
que es justamente el valor que toma el coeficiente tau si se aplica la ecuación
= [3.35]
Al igual que lambda, el coeficiente tau también toma valores entre 0 y 1, significando el 0 ausencia
de reducción del error de clasificación y el 1 reducción completa. Aplicando [3.35] a los datos de la
Tabla 3.36 se obtiene
9
No confundir esta medida de reducción proporcional del error, tau, con las medidas de asociación tau-a, tau-b y tau-c estu-
diadas en el apartado Asociación entre variables categóricas ordinales de este mismo capítulo.
118 Análisis de datos (vol. II)
= =
El coeficiente tau posee dos versiones asimétricas en función de cuál de las dos variables se considere
independiente. En la ecuación [3.35] se está tomando la variable Y como dependiente (es decir, la cla-
sificación se hace en las categorías de Y a partir de la información que proporcionan las categorías de
X ). Intercambiando los roles de n i + y n + j en [3.35] se obtiene la ecuación para el caso en el que se to
ma la variable X como dependiente.
Coeficiente de incertidumbre
Al igual que lambda y tau, también el coeficiente de incertidumbre (Theil, 1970) es una medida de aso-
ciación basada en la reducción proporcional del error. Por tanto, es una medida que expresa el grado
de incertidumbre que se consigue reducir cuando se utiliza una variable para efectuar pronósticos sobre
otra. También tiene dos versiones asimétricas (dependiendo de cuál de las dos variables se considere
dependiente) y una simétrica (para cuando no se hace distinción entre variable independiente y depen-
diente). Se obtiene de la siguiente manera:
= [3.36]
donde: =
= (con ni j > 0)
Para obtener IX basta con intercambiar los roles de I (X ) e I (Y ) en la ecuación [3.36]. Y la versión
simétrica se obtiene multiplicando por 2 el resultado de [3.36] tras sustituir, en el denominador, I (Y )
por el producto I (X ) I (Y ).
en todos los casos), se puede rechazar la hipótesis nula de independencia y concluir que las variables
sexo y grupos de salario están relacionadas. Junto con el valor de cada medida de asociación aparece
una tipificación o estandarización del mismo (T aproximada) que se obtiene dividiendo el valor de la
medida entre su error típico (calculado éste suponiendo independencia entre las variables). La tabla
muestra el error típico de cada medida calculado sin asumir independencia (error típico asintótico).
Estos errores típicos pueden utilizarse para construir intervalos de confianza utilizando los cuantiles
de la distribución normal tal como hemos hecho con otros estadísticos, es decir sumando y restando
a cada medida el producto de su error típico asintótico por el cuantil (1 ! α /2) de la distribución nor-
mal tipificada. Por último, la tabla ofrece algunas notas aclaratorias acerca de aspectos tales como bajo
qué condiciones se han hecho algunos cálculos, cómo se han obtenido algunos de los niveles críticos
que se ofrecen y, si procede, cuál es el motivo de que no se puedan realizar algunos cálculos.
P (n11) = [3.37]
Para contrastar la hipótesis de independencia mediante la prueba exacta de Fisher, el nivel crítico p se
obtiene sumando las probabilidades de obtener frecuencias tan alejadas o más de la hipótesis de inde-
pendencia como las de hecho obtenidas.
120 Análisis de datos (vol. II)
En un experimento diseñado por el propio Fisher, a un colega suyo que afirmaba ser capaz de dis-
tinguir si en una taza de té con leche se había servido primero el té o la leche, le presentó aleatoriamente
8 tazas de té con leche con la única indicación de que en cuatro de ellas se había servido primero el té
y en las otras cuatro se había servido primero la leche. La Tabla 3.38 muestra un posible resultado.
Conjetura
Orden real Té Leche Total
Té 3 1 4
Leche 1 3 4
Total 4 4 8
Las frecuencias marginales de la tabla son fijas; y las frecuencias marginales de las filas y de las co-
lumnas son iguales porque el sujeto que realiza la conjetura sabe que hay cuatro tazas de cada tipo.
La hipótesis nula de independencia afirma que las conjeturas son independientes del orden real en
el que se ha servido el té y la leche; la hipótesis alternativa afirma que las conjeturas coinciden con el
orden real en el que se han servido el té y la leche. En este escenario, la distribución de n11 viene dada
por todas las tablas 2 × 2 con frecuencias marginales (4, 4) tanto para las filas como para las columnas.
Los posibles valores de n11 son cinco: 0, 1, 2, 3 y 4. De estos cinco posibles valores, solamente el va-
lor 4 se aleja más de la hipótesis de independencia que el resultado obtenido (3). Por tanto, la proba-
bilidad de obtener valores tan alejados o más de la hipótesis de independencia que el obtenido es la
probabilidad de obtener n11 = 3 más la probabilidad de obtener n11 = 4. Aplicando [3.37] se obtiene
P (n11 = 3) = = = = 0,2286
P (n11 = 4) = = = 0,0143
Por tanto, en el escenario definido por la Tabla 3.38, la probabilidad de que n11 tome un valor tan ex-
tremo o más que 3 vale:
p = P (n11 = 3) + P (n11 = 4) = 0,2286 + 0,0143 = 0,243
Puesto que p = 0,243 es mayor que 0,05, no parece razonable rechazar la hipótesis de independencia.
Solamente con el resultado n11 = 4 se obtendría un nivel crítico p menor que 0,05; por tanto, solamente
el resultado n11 = 4 llevaría a rechazar la hipótesis nula de independencia. El SPSS no tiene una opción
para elegir la prueba exacta de Fisher, pero la ofrece por defecto cuando se marca la opción Chi-cua-
drado del procedimiento Tablas de contingencias y la tabla analizada es una tabla 2 × 2.
Al comparar las puntuaciones ordinales de dos casos cualesquiera puede ocurrir una de estas cinco posi-
bilidades (los cálculos están hechos con los datos de la Tabla 3.25):
1. Concordancias (C ): dos casos son concordantes cuando el primero puntúa más alto (o más bajo)
que el segundo tanto en X como en Y. Por ejemplo, los 73 casos de la casilla (1, 1) puntúan más
bajo, tanto en X como en Y, que los 30 de la casilla (2, 2). Al comparar los 73 casos de la casilla
Capítulo 3. Inferencia con dos variables categóricas 121
(1, 1) con los 30 de la casilla (2, 2) se obtienen 73 (30) = 2.190 pares concordantes. También se
obtienen pares concordantes al comparar los 73 casos de la casilla (1, 1) con los 12 de la casilla
(2, 3), y con los 18 de la casilla (3, 2), y con los 80 de la casilla (3, 3). Por tanto, al comparar los
73 casos de la casilla (1, 1) con el resto de casos que puntúan más alto en ambas variables (casillas
con i > 1 y j > 1) se obtienen: 73 (30 + 12 + 18 + 80) = 10.220 pares concordantes.
Al comparar los 16 casos de la casilla (1, 2) con todos los demás casos que puntúan más alto
tanto en X como en Y (casillas con i > 1 y j > 2) se obtienen: 16 (12 + 80) = 1.472 pares concordan-
tes. Siguiendo con esta lógica, con los 18 casos de la casilla (2, 1) se obtienen: 18 (18 + 80) = 1.764
pares concordantes. Y con los 30 casos de la casilla (2, 2) se obtienen: 30 (80) = 2.400 pares con-
cordantes. Por tanto, el número total de pares concordantes de la tabla es:
= 10.220 + 1.472 + 1.764 + 2.400 = 15.856 pares concordantes
2. Discordancias (D): dos casos son discordantes entre sí cuando el primero puntúa más alto (o más
bajo) que el segundo en la variable X y más bajo (o más alto) en la variable Y. Por ejemplo, los 8
casos de la casilla (3, 1) puntúan más alto en X y más bajo en Y que los 30 de la casilla (2, 2). Al
comparar los 8 casos de la casilla (3, 1) con los 30 de la casilla (2, 2) se obtienen 8(30) = 240 pares
discordantes. Lo mismo ocurre al comparar los 8 casos de la casilla (3, 1) con los 12 de la casilla
(2, 3), con los 16 de la casilla (1, 2), y con los 3 de la casilla (1, 3). Por tanto, al comparar los 8
casos de la casilla (3, 1) con el resto de casos que puntúan más bajo en X y más alto Y (casillas con
i > 3 y j > 1) se obtienen: 8 (30 + 12 + 16 + 3) = 488 pares concordantes.
Al comparar los 16 casos de la casilla (3, 2) con todos los demás casos que puntúan más bajo
en X y más alto en Y (casillas con i < 3 y j > 2) se obtienen: 18 (12 + 3) = 270 pares discordantes.
Siguiendo la misma lógica, con los 18 casos de la casilla (2, 1) se obtienen: 18(16 + 3) = 342 pares
discordantes. Y con los 30 casos de la casilla (2, 2) se obtienen: 30(3) = 90 pares discordantes. Por
tanto, el número total de pares concordantes de la tabla es:
= 488 + 270 + 342 + 90 = 1.190 pares discordantes
3. Empates en X (EX): dos casos están empatados en X cuando sus valores en X son iguales y sus va-
lores en Y distintos. Por tanto, cada caso está empatado en X con todos los casos que se encuentran
en su misma fila. Los 73 casos de la casilla (1, 1) están empatados en X con los 16 + 3 = 19 de su
misma fila; y los 16 casos de la casilla (1, 2) están empatados en X con los 3 casos de su misma
fila. Por tanto, en la primera fila hay 73 (19) + 16 (3) = 1.435 empates en X. Haciendo lo mismo en
la segunda fila se obtienen 18(42) + 30(12) = 1.116 empates. Y en la tercera, 8(98) + 18(80) = 2.224.
Por tanto, el número total de empates en X es:
= 1.435 + 1.116 + 2.224 = 4.775 pares empatados en X
4. Empates en Y (EY): dos casos están empatados en Y cuando sus valores en Y son iguales y sus va-
lores en X distintos. Por tanto, cada caso está empatado en Y con todos los casos que se encuentran
en su misma columna. Aplicando a las columnas la misma lógica aplicada en el párrafo anterior
a las columnas se obtienen, para toda la tabla:
= 2.042 + 1.308 + 1.236 = 4.586 pares empatados en Y
5. Empates en X e Y (EXY): dos casos están empatados en X e Y cuando sus valores son los mismos
en ambas variables. Por tanto, cada caso está empatado en X e Y con el resto de casos que se
encuentran en su misma casilla. El número de comparaciones entre los nij casos de la misma casilla
viene dado por las combinaciones de nij elementos tomados de dos en dos: nij (nij ! 1) / 2. Entre los
73 casos de la casilla (1, 1) hay 73(72)/2 = 2.628 pares empatados en X e Y; en la casilla (1, 2) hay
16 (15) / 2 = 120 pares empatados; etc. Por tanto, el número total de pares empatados en X e Y es:
= 2.628 + 120 + 3 + 153 + 435 + 66 + 28 + 153 + 3.160 = 6.746 pares empatados en X e Y
122 Análisis de datos (vol. II)
Al comparar cada caso con cada otro, el número de comparaciones que pueden hacerse viene dado por
las combinaciones de n casos tomados de dos en dos, es decir: n (n ! 1) / 2 = 258 (257) / 2 = 33.153.
Este resultado es el que debe obtenerse al sumar el número de pares concordantes, discordantes y
empatados: 15.856 + 1.190 + 4.775 + 4.586 + 6.746 = 33.153.
Figura 3.2. Datos de la Tabla 3.36 reproducidos en el Editor de datos (izquierda: valores; derecha: etiquetas)
Para que los 8 casos del archivo de la Figura 3.2 puedan convertirse en los 500 de la Tabla 3.36 es
necesario crear, además de las variables sexo y salario, una tercera variable con las frecuencias de cada
casilla. En el ejemplo, a esta tercera variable se le ha asignado el nombre ncasos, pero se le puede
asignar cualquier nombre válido.
Hecho esto, para reproducir la Tabla 3.36 en el Visor de resultados a partir de los datos que mues-
tra el Editor de datos de la Figura 3.2:
' Seleccionar la opción Ponderar casos del menú Datos para acceder al cuadro de diálogo Ponderar
casos, marcar la opción Ponderar casos mediante y trasladar la variable ncasos al cuadro Variable de
frecuencia.
' Seleccionar la opción Estadísticos descriptivos > Tablas de contingencias del menú Analizar para ac-
ceder al cuadro de diálogo Tablas de contingencias y trasladar la variable sexo a la lista Fila y la
variable salario a la lista Columna.
Aceptando estas elecciones, el Visor de resultados genera la tabla de contingencias que muestra la
Tabla 3.39. Puede comprobarse que esta tabla es idéntica a la Tabla 3.36. A pesar de que el archivo
de datos solamente contiene 8 casos, al ponderar el archivo mediante la variable ncasos, los 8 casos
del archivo reproducido en la Figura 3.2 se han convertido en los 500 de la Tabla 3.36.
Capítulo 3. Inferencia con dos variables categóricas 123
Tabla 3.39. Distribución del salario por sexos
Recuento
Grupos de salario
< 20 20 - 40 40 - 60 > 60 Total
Sexo Hombres 19 186 28 17 250
Mujeres 148 84 16 2 250
Total 167 270 44 19 500
Figura 3.3. Datos de la Tabla 3.29 reproducidos en el Editor de datos (izquierda: valores; derecha: etiquetas)
3.1. La siguiente tabla recoge algunos datos extraídos de una encuesta realizada a 240 jóvenes madrileños
de edades comprendidas entre 15 y 25 años:
Beben
Fuman Sí No Total
Sí 64 16 80
No 32 128 160
Total 96 144 240
El investigador A está interesado en averiguar si la variable fumar está relacionada con la variable
beber. El investigador B está interesado en averiguar si la proporción de bebedores entre los que fuman
difiere o no de la proporción de bebedores en el grupo de los que no fuman:
124 Análisis de datos (vol. II)
a. ¿Qué hipótesis nula debe contrastar el investigador A para obtener la información que le interesa?
¿Y el investigador B ?
b. ¿Qué procedimiento estadístico debe utilizar el investigador A para contrastar su hipótesis nula?
¿Y el investigador B ?
3.2. Siguiendo con los datos del ejercicio anterior, el investigador C quiere saber si la proporción de fu-
madores difiere de la proporción de bebedores:
a. ¿Qué hipótesis nula debe contrastar?
b. ¿Qué procedimiento estadístico debe utilizar para contrastar esa hipótesis?
c. Aplicar el procedimiento elegido, tomar una decisión sobre la hipótesis nula planteada (α = 0,05)
y concluir.
3.3. En uno de los primeros estudios sobre tabaquismo y cáncer de pulmón se tomaron datos de pacientes
con cáncer de pulmón ingresados durante el último año en 20 hospitales de Londres. En todos los pa-
cientes se registró si consumían o no tabaco (al menos un cigarrillo al día durante al menos un año).
Por cada paciente con cáncer de pulmón se incluyó en el estudio un paciente ingresado en el mismo
hospital sin cáncer de pulmón, del mismo sexo y del mismo grupo de edad (no más de 5 años de dife-
rencia). La siguiente tabla muestra los resultados obtenidos.
Cáncer de pulmón
Tabaquismo Sí No Total
Fumadores 688 650 1.338
No fumadores 21 59 80
Total 709 709 1.418
3.4. Los datos de una encuesta de contenido socio-demográfico se han utilizado para clasificar una muestra
aleatoria de 240 sujetos según su salario y su nivel educativo. La siguiente tabla muestra los resulta-
dos obtenidos:
Nivel de estudios
Grupos de salario 1. Primarios 2. Secundarios 3. Medios 4. Superiores Total
1. < 15.000 15 48 10 2 75
2. 15.001 - 30.000 10 46 66 4 126
3. > 30.000 3 2 14 20 39
Total 28 96 90 26 240
El objetivo del estudio es averiguar si los niveles educativos más altos (bajos) tienden a ir acompaña-
dos de salarios más altos (bajos):
a. ¿Qué hipótesis estadística corresponde a la hipótesis de investigación del estudio?
b. ¿Qué estadístico puede utilizarse para contrastar la correspondiente hipótesis nula?
c. Calcular ese estadístico utilizando el SPSS e interpretar el resultado del contraste (α = 0,05).
Capítulo 3. Inferencia con dos variables categóricas 125
3.5. Teniendo en cuenta los resultados obtenidos en el ejercicio anterior ¿cuál de las siguientes afirmacio-
nes es verdadera y cuál falsa?
a. El salario depende del nivel educativo.
b. El salario no depende del nivel educativo.
c. El salario no está relacionado con el nivel educativo.
d. Ha quedado probado de forma inequívoca que el salario está relacionado con el nivel educativo.
e. No existe evidencia suficiente para poder afirmar que el salario está relacionado con el nivel edu-
cativo.
3.6. De una encuesta realizada a 400 personas se han extraído los datos relativos a dos preguntas: X = «¿Con
qué frecuencia recicla vidrio, papel, latas, envases etc.?», Y = «¿Con qué frecuencia consume frutas
y verduras ecológicas?» Las respuestas se han codificado como: 1 = «nunca o casi nunca», 2 = «algu-
nas veces», 3 = «habitualmente». La siguiente tabla muestra los resultados obtenidos:
3.7. Seguimos con los datos del ejercicio anterior, pero descartando a los sujetos de la primera categoría
de ambas variables, es decir, quedándonos únicamente con los sujetos que han respondido a ambas pre-
guntas “algunas veces” (2) o “habitualmente” (3):
a. ¿Qué hipótesis nula debemos contrastar para decidir si la proporción de personas que reciclan ha-
bitualmente difiere de la proporción de personas que consumen productos ecológicos habitual-
mente.
b. Contrastarla e interpretar el resultado (α = 0,05).
c. Calcular el intervalo de confianza para la diferencia entre ambas proporciones.
3.8. Algunos datos recogidos durante los últimos años indican que la odds de sobrevivir a un accidente de
tráfico es 1,75 veces mayor entre los hombres que entre las mujeres.
a. Sabiendo que la odds de sobrevivir entre los hombres vale 5,25, averiguar la proporción de perso-
nas que sobrevive de cada sexo.
b. Encontrar el valor de k en la expresión “la proporción de hombres que sobreviven es k veces ma-
yor que la de mujeres que sobreviven”.
3.9. Un psicólogo cree que la opinión que un paciente tiene sobre su terapeuta va cambiando a más favora-
ble a medida que avanza el proceso terapéutico. El psicólogo tiene, incluso, algunos datos relacionados
con esa hipótesis: preguntó a 30 pacientes su opinión sobre el terapeuta recién iniciada la terapia y en-
contró 18 opiniones favorables; preguntó a los mismos 30 pacientes su opinión sobre el terapeuta a
punto de finalizar la terapia y encontró 26 opiniones favorables, siendo 11 los pacientes que habían
126 Análisis de datos (vol. II)
cambiado su opinión de desfavorable a favorable. El problema de nuestro psicólogo es que cuando era
estudiante no prestó suficiente atención a la asignatura Análisis de datos y ahora se encuentra con que
no sabe qué hacer o cómo interpretar los datos que tiene. Se trata de que nosotros le demos nuestra opi-
nión fundamentada sobre su sospecha de que la opinión de los pacientes va cambiando a más favora-
ble a medida que avanza el proceso terapéutico (α = 0,05).
3.10. Hemos seleccionado una muestra aleatoria de 100 historias clínicas de niños recién nacidos y las hemos
clasificado utilizando dos criterios. El primero, si la madre ha fumado o no durante la gestación (varia-
ble con dos niveles: madre fumadora y madre no fumadora); el segundo, el peso del niño al nacer (va-
riable con dos niveles: menos de 2,5 kg y más de 2,5 kg). Hemos encontrado los resultados que muestra
la siguiente tabla.
Peso al nacer
Madre fumadora 2,5 kg o menos Más de 2,5 kg
Sí 15 5
No 16 64
Estamos interesados en averiguar si el peso de los recién nacidos está relacionado con el hecho de que
la madre haya fumado o no durante la gestación.
a. ¿Qué hipótesis nula habría que plantear?
b. Estimar, utilizando el índice apropiado, el riesgo relativo del suceso “pesar menos de 2,5 kg” en
los recién nacidos de madres fumadoras. Interpretar el resultado.
c. Obtener el intervalo de confianza para el índice utilizado en el apartado anterior (α = 0,05).
3.11. Antes de comenzar un debate sobre la conveniencia de legalizar o no las drogas, se preguntó a 50 per-
sonas si estaban o no a favor de la legalización, resultando que 20 de ellas se mostraron a favor y las
restantes en contra. Tras el debate, se volvió a hacer la misma pregunta a las mismas 50 personas,
encontrando que ahora eran 26 las que se mostraban a favor y que 7 de las que al principio estaban en
contra ahora estaban a favor. A partir de estos datos y utilizando α = 0,05, se desea averiguar si la pro-
porción de personas que se muestran a favor de la legalización de las drogas ha cambiado tras el debate.
3.12. Dos psiquiatras han evaluado a 25 pacientes para determinar cuáles de ellos tienen pseudoalucinacio-
nes y cuáles no. El informe de los psiquiatras únicamente incluye un “sí” cuando consideran que el
paciente sufre pseudoalucinaciones y un “no” cuando consideran que no las sufre. La siguiente tabla
resume los datos de los informes de ambos psiquiatras. ¿Puede afirmarse que entre los dos psiquiatras
existe un acuerdo significativamente mayor que el que cabría esperar por azar? (α = 0,05).
Psiquiatra 2
Psiquiatra 1 Sí No Total
Sí 12 6 18
No 2 5 7
Total 14 11 25
3.13. En una encuesta realizada a 670 españoles adultos, el 38 % de los encuestados manifiesta creer en que
los espíritus habitan entre nosotros y el 32 % manifiesta creer en la astrología. Si estuviéramos inte-
resados en comparar estos porcentajes, ¿cuál de las siguientes pruebas podríamos utilizar? (Razonar
la elección).
Capítulo 3. Inferencia con dos variables categóricas 127
3.15. El cociente entre las odds de un suceso en los grupos 1 y 2 vale 3. Si la probabilidad del suceso vale
0,60 en el grupo 1, ¿cuánto vale la probabilidad del suceso en el grupo 2?
3.16. En cada cohorte de edad, la tasa de mortalidad es mayor en la ciudad A que en la B. Sin embargo, la
tasa de mortalidad global es más alta en la ciudad B. ¿Es esto posible? ¿Por qué? (en caso necesario,
revisar el apartado La paradoja de Simpson en el Apéndice 3).
4
Inferencia con una variable
categórica y una cuantitativa
1
Quizá no esté de más volver a recordar que las pruebas estadísticas diseñadas para comparar grupos (y lo mismo vale decir
de cualquier otra herramienta inferencial) únicamente permiten averiguar si los grupos difieren; no permiten ir más allá. Para
poder afirmar que las diferencias encontradas reflejan una relación de naturaleza causal es necesario atenerse a las carac-
terísticas del diseño. Y ya hemos señalado (ver, en el Capítulo 1 del primer volumen, el apartado Niveles de indagación;
y en el Capítulo 12 del primer volumen, el apartado Relación y causalidad) que solamente en el contexto de los diseños
experimentales es posible hacer afirmaciones sobre la naturaleza causal de una relación (al margen, por supuesto, de la po-
sible existencia de alguna teoría bien fundamentada de la que se deriven tales afirmaciones).
130 Análisis de datos (vol. II)
También estudiaremos cómo estimar el tamaño del efecto al comparar grupos en una
variable cuantitativa y, relacionado con esto, cómo llevar a cabo contrastes de equivalencia
y no-inferioridad, cuestión de especial utilidad en contextos clínicos en los que no es in-
frecuente tener que valorar la eficacia de un nuevo tratamiento comparándolo con otro ya
existente o estándar para demostrar, no que el nuevo tratamiento es mejor que el estándar
(esto puede hacerse mediante un contraste convencional), sino que el nuevo tratamiento es,
como mínimo, tan eficaz como el estándar (cosa muy distinta).
Para contrastar [4.1] o [4.2] se utiliza una tipificación de la diferencia entre las medias mues-
trales que es la que da nombre al procedimiento:
= [4.3]
La diferencia entre las medias poblacionales del numerador de [4.3] es justamente el valor
propuesto en la hipótesis nula. Y la forma de estimar el error típico del denominador depende
de si puede o no asumirse que las varianzas poblacionales son iguales. Si puede asumirse que
lo son, únicamente será necesario estimar un parámetro ( ). Y puesto que los dos estima-
dores de ese parámetro ( y ) son independientes entre sí, pues proceden de muestras
independientes, lo más razonable será combinar ambos para obtener una única estimación de
. Si no puede asumirse que las varianzas poblacionales son iguales, no tendrá sentido
realizar una única estimación a partir de la combinación ponderada de los dos estimadores
disponibles. Lo razonable será, más bien, utilizar cada varianza muestral como estimador de
la varianza de su propia población (ver, en el Capítulo 11 del primer volumen, el apartado La
prueba T de Student para muestras independientes). Esto significa que existen dos versiones
del estadístico [4.3]: una para cuando puede asumirse que las varianzas poblacionales son
iguales y otra para cuando no puede asumirse tal cosa. Y ambas permiten tomar decisiones
sobre la hipótesis de igualdad de medias porque tienen distribución muestral conocida:
T Í tgl [4.4]
Los grados de libertad, gl, varían dependiendo de la forma de estimar el denominador de la
ecuación [4.3] (ver Capítulo 11 del primer volumen).
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 131
Con la prueba T se están comparando las medias de dos poblaciones a partir de las medias
muestrales obtenidas en muestras aleatorias extraídas de esas poblaciones. Para que el proce-
dimiento funcione bien (es decir, para que el estadístico T se distribuya tal como se dice que
se distribuye) es necesario que las poblaciones muestreadas sean normales. Con muestras
grandes, el incumplimiento de este supuesto no afecta a las conclusiones del contraste; pero
con muestras pequeñas pierde precisión. En estos casos es preferible utilizar procedimientos
que no asumen normalidad.
Grupos Sujetos nj
Tenemos una variable categórica (grupo) con dos niveles (1 = «experimental», 2 = «control»)
y una variable cuantitativa (Y = «puntuaciones en el test Raven») en la cual se desea comparar
los grupos. Por tanto, tenemos una situación susceptible de ser analizada mediante la prueba
T de Student para muestras independientes:
1. Hipótesis: H0: $
< ; H 1: > (contraste unilateral derecho).
2. Supuestos: asumimos que las puntuaciones en el test Raven se distribuyen normalmente
en las dos poblaciones; desconocemos las varianzas poblacionales pero asumimos que son
iguales; las muestras se han seleccionado de forma aleatoria e independientemente una de
otra.
3. Estadístico del contraste:
= = = =
132 Análisis de datos (vol. II)
La prueba de Mann-Whitney
La prueba de Mann-Whitney2 sirve, al igual que la T de Student para muestras independien-
tes, para comparar dos grupos en una variable cuantitativa. Sirve, por tanto, para valorar la
eficacia de dos tratamientos, o para comparar un grupo experimental con un grupo control,
o dos colectivos distintos (hombres y mujeres; fumadores y no fumadores; etc.) en alguna
variable de interés. Representa una excelente alternativa a la prueba T de Student cuando se
incumple el supuesto de normalidad o cuando no es apropiado utilizar la prueba T porque el
nivel de medida de la variable cuantitativa es ordinal (ver Blair, Higgins y Smitley, 1980).
Consideremos dos muestras de tamaños n1 y n2 extraídas aleatoria e independiente-
mente de sus respectivas poblaciones Y1 e Y2 . Mezclando las N = n1 + n2 observaciones y
asignando rangos R i a las N puntuaciones como si se tratara de una sola muestra (un 1 a la
más pequeña, un 2 a la más pequeña de las restantes, ..., un N a la más grande, resolviendo
los empates asignando el rango promedio), se obtendrán n1 rangos R i 1 (los n1 rangos asig-
nados a las observaciones de la muestra Y1) y n2 rangos R i 2 (los n2 rangos asignados a las
observaciones de la muestra Y2). Entre los diferentes estadísticos que podrían definirse en este
escenario, consideremos estos dos:
S1 = y S2 = [4.5]
S1 + S2 = N (N +1) / 2 [4.6]
2
El procedimiento que se describe en este apartado con el nombre prueba de Mann-Whitney fue originalmente propuesto
por Wilcoxon (1945) para el caso de grupos del mismo tamaño. Festinger (1946) desarrolló independientemente un proce-
dimiento equivalente al de Wilcoxon. Pero fueron Mann y Whitney (1947) los primeros en extender el procedimiento al caso
de grupos de tamaños distintos y los primeros también en elaborar tablas para poder utilizarlo con muestras pequeñas. Fue-
ron precisamente las aportaciones de Mann y Whitney las que más contribuyeron a la divulgación del procedimiento; de
ahí que, generalmente, se presente como prueba de Mann-Whitney. Sin embargo, en ocasiones, este procedimiento puede
encontrarse con la denominación de prueba de Wilcoxon-Mann-Whitney; también puede encontrarse como prueba de Wil-
coxon para muestras independientes, la cual no debe confundirse con la prueba de Wilcoxon para una muestra (ya estudiada
en el capítulo anterior) ni con la prueba de Wilcoxon para dos muestras relacionadas (que estudiaremos en el próximo
capítulo).
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 133
Si asumimos que las dos muestras se han extraído de la misma población o de dos poblacio-
nes idénticas, cabe esperar que S1 y S2 sean aproximadamente iguales (excepto, claro está,
en la parte atribuible a las fluctuaciones propias del azar muestral). Si los valores de S1 y S2
fueran muy distintos, habría una buena razón para sospechar que las muestras proceden de
poblaciones distintas3. Por tanto, S1 y S2 contienen información sobre la hipótesis de que am-
bos promedios poblacionales son iguales. No obstante, para poder utilizar estas sumas como
estadísticos de un contraste, es necesario conocer sus distribuciones muestrales. Ahora bien,
según [4.6], S1 y S2 son complementarios respecto de N (N + 1) / 2. Por tanto, no es necesario
trabajar con ambos; nos centraremos en S1 y lo llamaremos U (que es la forma habitual de
identificar el estadístico de Mann-Whitney):
U = S1 [4.7]
Con muestras pequeñas es relativamente sencillo obtener la distribución muestral exacta del
estadístico U a partir de los posibles valores que puede tomar la suma de n1 rangos (ver, por
ejemplo, San Martín y Pardo, 1989, págs. 122-124). La Tabla O del Apéndice final ofrece
algunos cuantiles de las distribuciones exactas de U para valores de n1 y n2 iguales o meno-
res que 20. La tabla únicamente ofrece los puntos críticos uα de la cola izquierda de cada
distribución muestral. No obstante, los puntos críticos de la cola derecha pueden obtenerse
mediante u1 ! α = n1 (N + 1) ! uα .
Con tamaños muestrales más grandes puede utilizarse una tipificación4 del estadístico U
basada en su valor esperado y en su error típico (ver, por ejemplo, San Martín y Pardo, 1989,
págs. 124-125):
=
Z = con [4.8]
=
3
Si las dos poblaciones tienen la misma forma, una fuerte discrepancia entre S1 y S2 estaría indicando, efectivamente, que
los promedios poblacionales no son iguales. Si no puede asumirse que las dos poblaciones tienen la misma forma, una fuerte
discrepancia entre S1 y S2 estaría indicando que P (X < Y ) =/ P (X > Y ) =/ 0,5 (ver Conover, 1980, págs. 224-225). Y esto im-
plica que las distribuciones poblacionales no tienen la misma forma.
4
Existen diferentes versiones de los estadísticos U y Z (ver, por ejemplo, San Martín y Pardo, 1989, pág. 126; o Marascuilo
y McSweeney, 1977, págs. 267-278), pero todas ellas son equivalentes y conducen al mismo resultado.
5
En el caso de que al asignar rangos a las puntuaciones originales existan empates (puntuaciones a las que les corresponde
el mismo rango), la aproximación del estadístico Z a la distribución normal mejora si se incorpora al error típico una correc-
ción que tiene en cuenta el número de puntuaciones empatadas:
[4.9]
(k se refiere al número de rangos distintos empatados y ti al número de puntuaciones empatadas en el rango i). Este error
típico apenas difiere del propuesto en [4.8] cuando existen pocos empates o cuando en cada empate no intervienen más de
dos puntuaciones.
134 Análisis de datos (vol. II)
1. Hipótesis:
a. Contraste bilateral: H0: E (Y1) = E (Y2); H1: E (Y1) =/ E (Y2).
b. Contraste unilateral derecho: H0: E (Y1) <$ E (Y2); H1: E (Y1) > E (Y2).
$ E (Y2); H1: E (Y1) < E (Y2).
c. Contraste unilateral izquierdo: H0: E (Y1) >
2. Supuestos: tenemos una variable al menos ordinal medida en dos muestras de tamaños
n1 y n2 seleccionadas aleatoria e independientemente de dos poblaciones con la misma
forma: F (Y1) = F (Y2).
3. Estadísticos del contraste (ver [4.5] y [4.8]):
3.1. U = S1 =
3.2. Z =
4. Distribuciones muestrales:
4.1. La Tabla O del Apéndice final ofrece la distribución muestral exacta de U. La
tabla únicamente incluye los puntos críticos uα de las colas izquierdas de las
correspondientes distribuciones muestrales. Los puntos críticos de las colas de-
rechas pueden obtenerse mediante: u1 ! α = n1 (N + 1) ! uα .
4.2. La distribución de Z se aproxima a N (0, 1) a medida que los tamaños mues-
trales van aumentando.
5. Zona crítica:
a. Contraste bilateral:
a.1. U < u α/2 y U > u1 ! α/2 .
a.2. Z <$ Z α/2 y Z $> Z1 ! α/2 .
b. Contraste unilateral derecho:
b.1. U > u1 ! α .
$ Z1 ! α .
b.2. Z >
c. Contraste unilateral izquierdo:
c.1. U < u α .
$ Zα .
c.2. Z <
6. Regla de decisión: rechazar H0 si el estadístico del contraste cae en la zona crítica;
en caso contrario, mantenerla.
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 135
En el caso de que se desee obtener el estadístico Z utilizando el error típico que incluye
la corrección por empates hay que aplicar6 la ecuación [4.9].
4. Distribuciones muestrales:
4.1. U ÷ Tabla O del Apéndice final.
4.2. Z se aproxima a N (0, 1).
5. Zonas críticas:
5.1. U > u 0,95 = n1 (N + 1) ! u0,05 = 10 (20 + 1) ! 83 = 127.
5.2. Z $
> Z1 ! 0,05 = Z0,95 = 1,645.
6. Decisión:
6.1. Como 136 > 127, se rechaza H0.
6.2. Como 2,34 > 1,645, se rechaza H0.
Ambos estadísticos llevan a la misma decisión. Se puede concluir, por tanto, que el pro-
medio de los sujetos entrenados (grupo experimental) es significativamente más alto que
el de los sujetos no entrenados (grupo control).
$ 2,34) = 0,0096.
7. Nivel crítico: p = P(Z >
6
Para aplicar la corrección por empates (ver [4.8] y [4.9]) hay que tener en cuenta que se dan empates en 4 rangos distintos
(1,5, 5,5, 7,5 y 16,5) y que en todos los casos el número de puntuaciones empatadas son dos. Por tanto,
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 137
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Pruebas para dos mues-
tras independientes: Opciones y marcar la opción Descriptivos. Pulsar el botón Continuar
para volver al cuadro de diálogo principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 4.3 y 4.4.
La primera de ellas incluye varios estadísticos descriptivos: el tamaño de cada grupo y el to-
tal, la media de los rangos asignados a cada grupo (rango promedio) y la suma de los rangos
asignados a cada grupo: S1 =136 y S2 = 74.
La Tabla 4.4 ofrece varios estadísticos y niveles críticos. El estadístico U de Mann-Whit-
ney es el menor de U1 = n1 n2 + n1 (n1 +1) / 2 ! S1 y U2 = n1 n2 !U1. Con los datos de la Tabla 4.1,
U1 = 10 (10) + 10 (10 + 1) / 2 ! 136 = 19 y U2 = 10 (10) ! 19 = 81. Por tanto, U = 19.
El estadístico W de Wilcoxon es el menor de S1 y S2. Puesto que S1 = 136 y S2 = 74 (ver
Tabla 4.3), W = 74.
Y el estadístico Z es una tipificación de los estadísticos U y W. La tipificación del esta-
dístico U es idéntica a la que nosotros hemos presentado en la ecuación [4.9] excepto en lo
que se refiere al valor esperado que se utiliza en el numerador; aquí, µU = n1 n2 / 2. Y la tipifi-
cación del estadístico W es idéntica a la que nosotros hemos propuesto en [4.9]. Pero en am-
bos casos hay que tener en cuenta un detalle importante: nosotros hemos utilizado U = S1 en
el numerador de Z y el SPSS utiliza el menor de S1 y S2 (razón por la cual el valor de Z en la
Tabla 4.4 es negativo). Esto obliga a tomar algunas precauciones. Puesto que el SPSS siem-
pre utiliza el menor de S1 y S2, la zona crítica siempre está en la cola izquierda de la distribu-
ción. En el caso de rechazar H0, el signo de Z no permite saber a qué grupo le corresponde un
promedio más alto. Para saber esto hay que fijarse en los rangos promedio de la Tabla 4.3.
Las últimas dos líneas de la tabla ofrecen el nivel crítico bilateral. El primero de ellos
(sig. asintótica) se obtiene tal como nosotros hemos propuesto en el Cuadro 4.1: multipli-
cando por 2 la probabilidad de obtener valores Z iguales o menores que el obtenido. El se-
gundo (sig. exacta) calcula el nivel crítico exacto7 utilizando un algoritmo propuesto por Di-
neen y Blakesley (1973). El nivel crítico unilateral se obtiene dividiendo entre 2 el bilateral.
7
$ 400 y (2) n1 n2 / 2 + mín (n1, n2) $
Este nivel crítico exacto se calcula siempre que se den dos condiciones: (1) n1 n2 < < 220.
Si no se da alguna de estas condiciones, el procedimiento únicamente ofrece el nivel crítico asintótico.
138 Análisis de datos (vol. II)
La prueba de Kruskal-Wallis
La prueba de Mann-Whitney para dos muestras independientes fue extendida al caso de más
de dos muestras por Kruskal y Wallis (1952). Seguimos trabajando con una variable categó-
rica que define grupos y una variable cuantitativa en la cual deseamos comparar los grupos;
pero, ahora, la variable categórica define más de dos grupos. Por tanto, la prueba de Kruskal-
Wallis sirve para valorar el efecto de varios tratamientos sobre una variable cuantitativa, o
para comparar varios grupos en alguna medida cuantitativa de interés.
Lo habitual es abordar este tipo de situaciones con un procedimiento llamado análisis
de varianza de un factor (lo estudiaremos más adelante, en el Capítulo 6). Pero, según vere-
mos, el análisis de varianza requiere que se den una serie de condiciones (normalidad de las
poblaciones muestreadas, igualdad de las varianzas poblacionales, nivel de medida de inter-
valos o razón) que no siempre se dan. Precisamente las ventajas fundamentales de la prueba
de Kruskal-Wallis frente al análisis de varianza tienen que ver con estas condiciones: (1) no
necesita establecer supuestos sobre las poblaciones originales tan exigentes como los del
análisis de varianza y (2) permite trabajar con datos ordinales. Por contra, si se cumplen los
supuestos en los que se basa el análisis de varianza, su potencia es mayor que la que es posi-
ble alcanzar con la prueba de Kruskal-Wallis.
Teniendo en cuenta que con muchos de los datos que se recogen en el ámbito de las cien-
cias sociales y de la salud es demasiado arriesgado asumir normalidad y homocedasticidad
(especialmente si las muestras son pequeñas y los tamaños muestrales desiguales), y con-
siderando, además, que muchas de las variables que interesa analizar son ordinales, se com-
prenderá que la prueba de Kruskal-Wallis representa una más que interesante alternativa para
el estudio de una variable categórica y una cuantitativa.
Nos encontramos ante un diseño en el que J muestras son aleatoria e independientemente
seleccionadas de J poblaciones que se asumen iguales con el objetivo de averiguar si efec-
tivamente esas J poblaciones son iguales o, por el contrario, algunas de ellas difieren en sus
promedios. Por tanto, el punto de partida del análisis lo constituyen J muestras aleatorias e
independientes (Y1, Y2, ..., Yj, ..., YJ ) de tamaños n1, n2, ..., nj, ..., nJ (j = 1, 2, ..., J ) extraídas
de la misma población o de J poblaciones idénticas (N = n1 + n2 + · · · + nj + · · · + nJ ). Asignan-
do rangos desde 1 hasta N al conjunto de las Yi j puntuaciones como si se tratara de una sola
muestra (resolviendo los empates con el promedio de los rangos empatados), es posible
definir la variable R i j = «rango asignado al sujeto i de la muestra j » (i = 1, 2, ..., nj ). La Ta-
bla 4.5 muestra la disposición de los datos tras asignar rangos.
H = [4.10]
Bajo la hipótesis nula de que las J poblaciones tienen la misma forma, el estadístico H se
distribuye según el modelo de probabilidad ji-cuadrado, con J ! 1 grados de libertad. El re-
chazo de esta hipótesis implica que los J promedios comparados no son iguales. El Cuadro
4.2 ofrece un resumen del procedimiento.
H =
4. Distribución muestral: la Tabla P del Apéndice final recoge los puntos críticos de la
distribución muestral de H a partir de los cuales se puede rechazar H0 . La tabla inclu-
ye algunos valores de J y n j . Para otros valores de J o n j puede utilizarse la aproxi-
mación del estadístico H a la distribución ji-cuadrado con J ! 1 grados de libertad.
$ h1! α o H $
5. Zona crítica: H > > .
6. Decisión: se rechaza H0 si H cae en la zona crítica; en caso contrario, se mantiene.
7. Nivel crítico (valor p): p = P (H > Hh), donde Hh se refiere al valor concreto de H.
8
Si existen muchos empates al asignar rangos, el estadístico H propuesto en [4.10] se vuelve conservador. En ese caso
conviene aplicar una corrección que tiene en cuenta la presencia de empates:
HN [4.11]
(k se refiere al número de rangos distintos empatados y ti al número de puntuaciones empatadas en cada rango i). Puesto
que H N sirve para corregir el sesgo conservador de H cuando existen empates, si con H ya se rechaza H0 no será necesario
calcular H. Si existen pocos empates, la diferencia entre H y H N es muy pequeña.
140 Análisis de datos (vol. II)
Muchos estudios coinciden en señalar que el comportamiento de los sujetos en las tareas de
rendimiento está estrechamente relacionado con su nivel de ansiedad o activación. Al pare-
cer, el rendimiento tiende a mejorar conforme aumenta el nivel de activación, pero solamen-
te hasta cierto umbral; a partir de ese punto, el aumento en el nivel de activación comienza
a afectar de forma negativa al rendimiento (este efecto se conoce como ley Yerkes-Dodson).
En este contexto, se ha diseñado un estudio con tres grupos, todos ellos formados por 10
sujetos aleatoriamente seleccionados. A cada grupo se le ha inducido un nivel de ansiedad
distinto (bajo, medio y alto) mientras realizaban una tarea de solución de problemas con un
rompecabezas. Tras evaluar el rendimiento de cada sujeto en una escala de 0 a 20 puntos se
han obtenido los resultados que muestra la Tabla 4.6. ¿Es posible afirmar que el rendimien-
to en la tarea no es el mismo bajo los tres estados de ansiedad inducidos? (α = 0,05).
Tenemos una variable categórica (nivel de activación) que define tres grupos (bajo, medio y
alto) y una variable cuantitativa (rendimiento) cuyo nivel de medida es al menos ordinal y
en la cual deseamos comparar los grupos. La prueba de Kruskal-Wallis es apropiada para dar
respuesta a la pregunta planteada:
1. Hipótesis:
H0: las 3 distribuciones poblacionales son iguales.
H1: las 3 poblaciones no tienen la misma media.
2. Supuestos: tenemos una variable al menos ordinal medida en 3 muestras aleatoria e in-
dependientemente extraídas de sus respectivas poblaciones, las cuales se asume que tie-
nen la misma forma.
3. Estadístico del contraste (ecuación [4.10]). La Tabla 4.7 ofrece los rangos correspondien-
tes a las puntuaciones de la Tabla 4.6.
H = =
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 141
4. Zona crítica: puesto que la Tabla P del Apéndice final no incluye puntos críticos para
tamaños muestrales mayores que 8, utilizamos la aproximación basada en la distribución
ji-cuadrado. El cuantil 95 de la distribución ji-cuadrado con J ! 1 = 3 ! 1 = 2 grados de
libertad vale = 5,99.
5. Decisión: puesto que el valor del estadístico del contraste (H = 11,94) es mayor que el
punto crítico (5,99), lo razonable es rechazar H0 y concluir que el rendimiento medio de
las tres poblaciones comparadas no es el mismo9.
6. Nivel crítico: p = P(H > 11,94) < 0,005 (en la distribución χ 2 con 2 grados de libertad).
Por primera vez en todo lo que llevamos estudiado hasta ahora, el rechazo de una hipótesis
nula nos deja con la incertidumbre de saber dónde están las diferencias. Al comparar más de
dos grupos, el rechazo de la hipótesis nula nos permite afirmar que los promedios compara-
dos no son iguales pero no nos permite precisar qué grupo difiere de qué otro. Para respon-
der a esta pregunta es necesario comparar los grupos por pares. Esto puede hacerse con la
prueba de Mann-Whitney estudiada en el apartado anterior. Ahora bien, puesto que se están
llevando a cabo varias comparaciones con los mismos datos, es necesario modificar el nivel
de significación (normalmente 0,05) para que no se incremente la probabilidad de tomar de-
cisiones incorrectas. Estudiaremos esto en el Capítulo 6.
' Reproducir en el Editor de datos los datos de la Tabla 4.6 o abrir el archivo Tabla 4.6 an-
siedad rendimiento que se encuentra en la página web del manual.
' Seleccionar la opción Pruebas no paramétricas > K muestras independientes del menú Ana-
lizar para acceder al cuadro de diálogo Pruebas para varias muestras independientes y
trasladar la variable rendimiento (puntuaciones en rendimiento) a la lista Contrastar
variables y la variable ansiedad (nivel de activación) al cuadro Variable de agrupación.
' Pulsar el botón Definir grupos para acceder al subcuadro de diálogo Pruebas para varias
muestras independientes: Definir grupos e introducir los códigos 1 y 3 (es decir, los có-
digos menor y mayor de la variable ansiedad). Pulsar el botón Continuar para volver al
cuadro de diálogo principal.
9
Aplicando la corrección por empates propuesta en [4.11] (ver nota a pie de página número 8) se obtiene un resultado no
muy distinto del obtenido con la ecuación [4.10], a pesar de que existen muchos empates. Hay cuatro rangos (6,5, 12,5, 20,5
y 27,5) con dos empates (ti = 2) y cinco rangos (4, 9, 15, 18 y 24) con tres empates (ti = 3). Por tanto,
' (23 ! 2) + (23 ! 2) + (23 ! 2) + (23 ! 2) + (33 ! 3) + (33 ! 3) + (33 ! 3) + (33 ! 3) + (33 ! 3) ' 144
HN
142 Análisis de datos (vol. II)
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Pruebas para dos mues-
tras independientes: Opciones y marcar la opción Descriptivos. Pulsar el botón Continuar
para volver al cuadro de diálogo principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 4.8 y 4.9.
La primera de ellas incluye varios estadísticos descriptivos: el tamaño de cada grupo y de
toda la muestra, y la media de los rangos asignados a cada grupo (rango promedio).
Existen varios procedimientos para efectuar comparaciones entre pares de grupos tras obte-
ner un resultado significativo (ver, por ejemplo, Pardo y San Martín, 1998, págs. 437-441),
pero el SPSS no los incluye. Para analizar con el SPSS qué grupos difieren de qué otros pue-
de utilizarse la prueba de Mann-Whitney acompañada de la corrección de Bonferroni. Esta
corrección impide que la tasa de error (probabilidad de cometer errores de tipo I) aumente
por el hecho de estar haciendo varias comparaciones. La corrección consiste en dividir el
nivel de significación α (generalmente 0,05) entre el número de comparaciones que se desea
realizar y en utilizar ese nuevo valor como referente con el que comparar el nivel crítico
(valor p) asociado a cada comparación entre pares de grupos.
Por ejemplo, con tres grupos hay que hacer tres comparaciones por pares: 1-2, 1-3 y 2-3.
Por tanto, la aplicación de la corrección de Bonferroni llevará a tomar decisiones con un nivel
de significación de 0,05 / 3 = 0,017. Es decir, se considerará que dos grupos difieren signi-
ficativamente cuando el nivel crítico obtenido al compararlos (valor p) sea menor que 0,017.
Aplicando la prueba de Mann-Whitney a nuestro ejemplo, al comparar los niveles de ansiedad
bajo y medio se obtiene p = 0,008; al comparar los niveles bajo y alto se obtiene p = 0,224;
y al comparar los niveles medio y alto se obtiene p = 0,002. Por tanto, el grupo con nivel de
ansiedad medio difiere significativamente de los otros dos y no existe evidencia de que los
grupos con niveles de ansiedad bajo y alto difieran entre sí. Lo cual parece confirmar que,
efectivamente, el rendimiento es más alto cuando el nivel de ansiedad es intermedio.
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 143
En el contexto de los diseños de dos grupos aleatorios10, quizá la más popular de estas medi-
das sea el índice δ de Cohen (1988)11, también conocido como diferencia tipificada. Consis-
te en tipificar la distancia entre dos medias poblacionales dividiéndola entre la desviación
típica poblacional, la cual se asume que es la misma en ambas poblaciones12:
= [4.12]
Si se asume que las dos poblaciones comparadas son normales, la transformación [4.12] es,
en realidad, una puntuación típica Z (ver Capítulo 4 del primer volumen) que expresa la dis-
tancia entre las dos medias poblacionales en unidades de desviación típica en lugar de ha-
cerlo en la métrica original de las variables.
Las curvas de la Figura 4.1 ilustran el significado del parámetro δ. Una diferencia de una
desviación típica, δ = 1 (gráfico de la izquierda) es en realidad una puntuación típica Z = 1 en
una curva normal tipificada N (0, 1); por tanto, δ = 1 indica que el 84,1% de las puntuaciones
de la población 1 se encuentran por debajo de la media de la población 2, pues, en la curva
10
Diseños en los que interviene una variable dicotómica (que define dos poblaciones distintas de cada una de las cuales
se tiene una muestra aleatoria) y una variable cuantitativa en la cual se desea comparar las dos poblaciones. Es decir, el tipo
de diseños que hemos analizado con la prueba T para muestras independientes y con la prueba de Mann-Whitney.
11
Cohen llamó d a su medida del tamaño del efecto, pero nosotros seguiremos manteniendo la norma de representar los
parámetros con letras griegas y los estadísticos con letras latinas o con letras griegas con acento circunflejo.
12
Esta formulación de δ está referida al caso de dos medias independientes; en el caso de una sola media (ver Capítulo 9
del primer volumen): δ = | µY ! µ_0 | / σY, donde µ0 se refiere al valor propuesto para µ en H0, µY se refiere a la media pobla-
cional (valor que se estima con Y ) y σY a la desviación típica poblacional (valor que, si no se conoce, se estima con SY).
144 Análisis de datos (vol. II)
N (0, 1), P (Z $
< 1) = 0,841. Y una diferencia de dos desviaciones típicas, δ = 2 (gráfico de la
derecha) indica que el 97,7 % de las puntuaciones de la población 1 se encuentran por deba-
jo de la media de la población 2, pues, en la curva N (0, 1), P (Z $
< 2) = 0,977.
Figura 4.1. Tamaño del efecto: diferencia entre dos medias en unidades de desviación típica
δ=1 δ=2
µY µY µY µY
1 2 1 2
= [4.13]
Si existe grupo control, Glass (1976) sugiere estimar la varianza poblacional con la varianza
del grupo control. Pero Hedges (1981; ver también Hunter y Schmidt, 2004) ha demostrado
que utilizar la varianza del grupo control conduce a un estimador sesgado y que ese sesgo
se reduce, tanto si hay grupo control como si no, utilizando como estimador de la varianza
poblacional el promedio ponderado de las dos varianzas muestrales13:
= [4.14]
Con esta estrategia se está asumiendo que las dos varianzas poblacionales son iguales; de ahí
que se utilice el promedio ponderado de las dos varianzas muestrales para estimar la única
varianza poblacional.
Existe una correspondencia directa entre y el estadístico T de Student cuando la va-
rianza poblacional se estima mediante [4.14]. Esta correspondencia puede utilizarse para
13
Al valor que se obtiene estimando la varianza poblacional con [4.14] se le suele llamar índice o coeficiente g. Sigue
siendo un estimador sesgado del parámetro δ, pero el sesgo puede eliminarse casi por completo multiplicando (es decir,
g ) por el término corrector
c = (N ! 3) / ( N ! 2,25) [4.15]
donde N = n1 + n2 (ver Hedges, 1982; Hedges y Olkin, 1985; esta versión simplificada de c se debe a Hunter y Schmidt,
2004). A la versión corregida de g se le suele llamar g N (g N = c g). Por supuesto, con tamaños muestrales grandes, la diferen-
cia entre utilizar o no el término corrector c es insignificante (ver, por ejemplo, Bangert, Kulik y Kulik, 1983), de modo que,
con tamaños muestrales grandes, es irrelevante aplicar o no la corrección.
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 145
estimar δ cuando no se tiene otra información (por ejemplo, a partir de informes de inves-
tigación en los que no se incluyen las varianzas):
= [4.16]
RXY = [4.18]
14
También es posible obtener un intervalo de confianza para el parámetro δ. Cuando H0 es verdadera, el estadístico T se
aproxima a la distribución t con gl = n1 + n2 ! 2 grados de libertad. Cuando H0 es falsa, el estadístico T se aproxima a una
distribución asimétrica llamada t no centrada, con los mismos grados de libertad y con parámetro de no centralidad λ. Este
parámetro de no centralidad depende del tamaño del efecto y del tamaño de los grupos:
[4.17]
Steiger y Fouladi (1997; ver también Kelley, 2005) han demostrado que los límites de confianza para λ conducen directa-
mente a los límites de confianza para δ. El límite inferior para λ es el parámetro λ de la distribución t no centrada en la que
el cuantil 1! α/2 coincide con el valor del estadístico T; el límite superior para λ es el parámetro λ de la distribución t no
centrada en la que el cuantil α/2 coincide con el valor del estadístico T. Estos límites pueden obtenerse fácilmente con un
programa informático. Multiplicando ahora estos límites por se obtienen los límites de confianza para δ (ver
también Bird, 2002; Algina y Keselman, 2003). Algina, Keselman y Penfield (2005, 2006) han propuesto una solución
basada en estimadores resistentes para cuando no puede asumirse que las varianzas poblacionales son iguales.
15
La correlación se calcula entre las puntuaciones de la variable cuantitativa y las de la variable categórica. La variable
categórica es una variable dicotómica (pertenecer a un grupo o a otro), generalmente con códigos 0 y 1, o 1 y 2.
16
Construir un intervalo de confianza para el parámetro ρXY requiere trabajar con la transformación Z de Fisher (ver Apén-
dice 12 del primer volumen):
[4.19]
(la transformación puede obtenerse de la Tabla I del Apéndice final del primer volumen). Los límites de confianza
obtenidos con [4.19] están en unidades de ; para obtener los límites de ρXY hay que devolverlos a unidades de RXY uti-
lizando la misma tabla.
146 Análisis de datos (vol. II)
No obstante, Cohen (1992a) ha sugerido que valores en torno a 0,10, 0,30 y 0,50 se corres-
ponden, en muchos contextos aplicados, con efectos de tamaños pequeño, medio y grande
(estos valores se refieren a RXY, no a su cuadrado).
En el ejemplo utilizado en este mismo capítulo a propósito de la prueba T de Student (ver
Tabla 4.1) con N = 20 niños con problemas perceptivos repartidos en dos grupos del mismo
tamaño (n1 = n2 = 10) hemos obtenido un valor de 2,70 para el estadístico T. Aplicando aho-
ra [4.16] y [4.18] obtenemos
= = =
RXY = = =
El valor de RXY al cuadrado, 0,542 = 0,29, indica que las puntuaciones en el test Raven y el
hecho de pertenecer al grupo experimental o al control comparten un 29% de la varianza; por
tanto, saber que los sujetos pertenecen a uno u otro grupo permite mejorar nuestro conoci-
miento de las puntuaciones en el test Raven un 29 %. Por otro lado, el valor = 1,21 indica
que las medias de los grupos experimental y control están separadas 1,21 desviaciones típicas.
En la curva normal tipificada P (Z < 1,21) = 0,887; por tanto, el 88,7 % de las puntuaciones
del grupo control está por debajo de la puntuación media del grupo experimental. Siguiendo
la regla propuesta por Cohen para interpretar estos valores, ambos coeficientes coinciden en
señalar que se trata de un efecto de tamaño grande. En consecuencia, podría concluirse que,
al comparar las medias de los grupos experimental y control en las puntuaciones del test Ra-
ven, se ha encontrado una diferencia relevante.
Las dos medidas propuestas, y RXY , guardan una estrecha relación entre sí. Conociendo
una es posible conocer la otra mediante
= ÷ RXY = [4.20]
Aunque el estadístico RXY puede tomar valores negativos (recordemos que sus posibles valo-
res oscilan entre !1 y 1), éstos no tienen sentido cuando RXY se utiliza como medida del ta-
maño del efecto. Por un lado, el tamaño del efecto refleja a la intensidad de la relación, no
si ésta es positiva o negativa; por otro, el signo de RXY depende de cómo se codifique el he-
cho de pertenecer a uno u otro grupo (y esta codificación es arbitraria).
Las preferencias por una u otra medida están divididas. Quizá la utilización de está
más extendida entre quienes trabajan con diseños experimentales; tiene la ventaja de ser más
fácil de interpretar que RXY al tratarse de una distancia tipificada. La interpretación de RXY es
menos intuitiva (proporción de varianza común), pero tiene una propiedad muy deseable en
un índice estadístico: tiene un mínimo y un máximo. McGrath y Meyer (2006) han argu-
mentado que, cuando se trabaja con grupos de distinto tamaño, el valor de RXY está artificial-
mente inflado. Pero Ruscio (2008) ha demostrado que esto también ocurre con cuando las
varianzas poblacionales no son iguales; y también ha destacado la conveniencia de utilizar
medidas del tamaño del efecto que no se vean afectadas por el hecho de trabajar con tama-
ños muestrales desiguales.
Una de estas medidas, además de no estar afectada por el tamaño de los grupos, es fá-
cilmente interpretable y posee interesantes propiedades que no tienen ni ni RXY. Se trata de
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 147
la medida de lenguaje común (McGraw y Wong, 1992), la cual se define como P (Y1 > Y2 ),
es decir, como la probabilidad de que una puntuación (Y ) aleatoriamente seleccionada de la
población 1 sea mayor que una puntuación aleatoriamente seleccionada de la población 2.
El nombre de esta medida obedece al hecho de que, según sus promotores, ofrece informa-
ción sobre el tamaño de un efecto en un lenguaje fácil de entender sin necesidad de ser un
experto en estos temas.
La estrategia propuesta por McGraw y Wong para estimar P (Y1 > Y2 ) requiere, al igual
que y RXY, que las poblaciones sean normales y sus varianzas iguales. Pero Delaney y
Vargha (2002) han definido un estadístico, A, que permite estimar esa probabilidad sin ne-
cesidad de establecer ningún supuesto sobre las poblaciones muestreadas:
A = [#(Y1 > Y2 ) + 0,5 #(Y1 = Y2 )] / (n1 n2) [4.21]
Es decir, P(Y1 > Y2) se estima contando el número de veces (#) que cada puntuación Y1 es ma-
yor que cada puntuación Y2 (ponderando los empates por la mitad) y dividiendo ese recuento
entre el número total de comparaciones.
Esta medida del tamaño del efecto, además de ser fácilmente interpretable, no requiere
que el nivel de medida de la variable cuantitativa sea de intervalo o razón; y puede utilizarse
con variables ordinales (de ahí que no sea necesario asumir poblaciones normales y varian-
zas iguales).
El valor del estadístico A coincide con el área bajo la curva COR (ver Apéndice 1) cal-
culada con el método de Hanley y McNeil (1982), que es justamente el que utiliza el SPSS.
Y puede obtenerse fácilmente a partir de las sumas de rangos que se obtienen a propósito de
la prueba de Mann-Whitney. En concreto:
A = [n1 n2 + nj (nj + 1) / 2 ! Sj ] / (n1 n2) [4.22]
donde Sj se refiere a la menor de las sumas S1 y S2 (ver ecuación [4.6]) y j se refiere al gru-
po al que corresponde la suma menor. En el ejemplo utilizado al estudiar la prueba de Mann-
Whitney teníamos N = 20 niños con problemas perceptivos (n1 = 10 en el grupo experimen-
tal y n2 = 10 en el grupo control), S1 = 136 y S2 = 74 (ver Tabla 4.2). Aplicando la ecuación
[4.22] se obtiene
A = [10 (10) + 10 (10 + 1) / 2 ! 74] / [(10 (10)] = 81 / 100 = 0,81
Este resultado indica que, de cada 10 pares de puntuaciones (una de cada población) selec-
cionados, en 8 de ellos cabe esperar que la puntuación de la población 1 (grupo experimen-
tal) sea mayor que la de la población 2 (grupo control). Esta conclusión no es muy diferente
de la que hemos formulado unos párrafos atrás al calcular , pero ahora no ha sido necesa-
rio asumir normalidad ni igualdad de varianzas, y nos hemos despreocupado del nivel de
medida de la variable cuantitativa (ver Hsu, 2004, para una discusión sobre las ventajas de
una medida de este tipo).
Por supuesto, , RXY y A no son los únicos estadísticos disponibles para obtener una
cuantificación del tamaño del efecto (aunque sí, probablemente, los más utilizados). Existen
otros muchos estadísticos como la proporción de casos incorrectamente clasificados (Levy,
1967), el binomial effect size display (Rosenthal y Rubin, 1982), la r-equivalente (Rosenthal
y Rubin, 2003), etc.
También pueden encontrarse estadísticos no parámetricos del tamaño del efecto (ver, por
ejemplo, Kraemer y Andrews, 1982; o Hedges y Olkin, 1984).
148 Análisis de datos (vol. II)
En el caso de que la variable categórica tenga más de dos niveles, el tamaño del efecto puede
cuantificarse mediante un estadístico llamado eta-cuadrado ( ). Aunque este estadístico
es uno de los más utilizados en el contexto del análisis de varianza (ver Capítulos 6 al 9),
también es posible obtenerlo a partir del estadístico H de Kruskal-Wallis (ver Serlin, Carr y
Marascuilo, 1982):
= [4.23]
El valor de expresa el grado de asociación (no solamente lineal, como R XY, sino de cual-
quier tipo) entre la variable categórica y la variable cuantitativa. Cuando la variable categóri-
ca tiene dos categorías, = . El valor de puede interpretarse, al igual que el de ,
como proporción de varianza común o compartida, es decir, como el grado en que aumenta
nuestro conocimiento de las puntuaciones de la variable cuantitativa por el hecho de saber
de qué grupo provienen.
Para interpretar el tamaño de , Cohen (1988) ha propuesto una especie de regla gene-
ral que puede resultar útil en muchos contextos aplicados: valores en torno a 0,01, 0,06 y
0,14 indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
En el ejemplo utilizado al estudiar la prueba de Kruskal-Wallis tenemos N = 30 sujetos
repartidos en tres grupos con diferente nivel de ansiedad o activación (bajo, medio, alto). Al
comparar los grupos hemos obtenido para el estadístico H un valor de 11,94. Por tanto:
= 11,94 / (30 ! 1) = 0,41
Este resultado (que revela un efecto de tamaño grande) indica que el nivel de ansiedad y el
rendimiento comparten el 41 % de su varianza: saber a qué grupo de ansiedad pertenecen los
sujetos permite mejorar nuestro conocimiento del rendimiento en un 41 %.
coincide con el valor del área bajo la curva (el cual se ofrece en una tabla con ese mismo
encabezamiento).
El valor de también puede obtenerse de varias maneras. Por ejemplo, con el procedi-
miento Comparar medias > Medias del menú Analizar. A la lista Dependientes hay que trasladar
la variable cuantitativa; a la lista Independientes, la categórica; y en el subcuadro de diálogo
Opciones (se accede a él pulsando el botón Opciones del cuadro de diálogo principal), hay
que marcar la opción Tabla de ANOVA y eta. El procedimiento ofrece el valor de en una tabla
con el encabezamiento medidas de asociación (el valor que ofrece este procedimiento para
no se obtiene como se indica en [4.23], sino como se explica en el Capítulo 6).
= [4.24]
(recordemos que, al estimar mediante [4.13], se está asumiendo que las poblaciones son
normales y que tienen la misma varianza). Si los tamaños muestrales no son iguales, el valor
de n en [4.24] puede sustituirse por la media armónica de n1 y n2:
= = [4.25]
= = 2,71
Con = 2,71 y α = 0,05, la Tabla E del Apéndice final indica que la potencia del contras-
te vale 0,85.
Lo que acabamos de hacer (calcular la potencia del contraste después de llevarlo a cabo)
tiene el interés de saber con qué potencia se ha trabajado asumiendo que el efecto en la po-
blación es el efecto observado en la muestra (potencia observada o a posteriori). Pero lo
realmente interesante es poder diseñar un estudio conociendo de antemano la potencia con
la que se va a trabajar (potencia a priori). Y esto pasa por calcular el tamaño muestral nece-
sario para alcanzar una determinada potencia. Despejando n en [4.24] se obtiene
n = [4.26]
Supongamos que estamos interesados en realizar un contraste unilateral con dos grupos; y
supongamos que queremos que la potencia del contraste para detectar un efecto de tamaño
150 Análisis de datos (vol. II)
medio ( = 0,50 según el criterio de Cohen) valga 0,80 (esta es la potencia convencional-
mente aceptada como razonable). Con α = 0,05 y 1 ! β = 0,80, la Tabla E del Apéndice final
ofrece para un valor de 2,50. Y aplicando [4.26] obtenemos
n = 2 (2,50)2 / 0,502 = 50
Lo cual significa que, para detectar un efecto de tamaño medio con una potencia de 0,80 en
un contraste unilateral con dos grupos, necesitaríamos 100 sujetos (50 por grupo).
Puede ocurrir que un investigador no sepa con exactitud si el tamaño del efecto que le
interesa analizar es, en términos de , pequeño, medio o grande, pero que sí sepa cuál es el
valor de la diferencia que considera mínimamente relevante (por ejemplo, la diferencia que
se considera, con argumentos teóricos o prácticos, que representa un cambio en la respues-
ta de los sujetos). En estos casos, en lugar de fijar el tamaño de para calcular el tamaño
muestral necesario para alcanzar una determinada potencia, puede fijarse el valor de esa di-
ferencia (el numerador de [4.12]) y obtener estimando el denominador (desviación típica
poblacional) a partir de estudios previos o mediante un estudio piloto con unos pocos datos.
yo objetivo es demostrar superioridad. Pero, dado que el punto de partida de todo contras-
te es una hipótesis de no diferencias y que el no rechazo de esa hipótesis no es concluyen-
te17, los contrastes de hipótesis tal como los hemos estudiado hasta ahora no permiten dar
respuesta a las cuestiones que interesa resolver en los estudios cuyo objetivo es demostrar
equivalencia o no-inferioridad. Para esto es necesario utilizar una estrategia distinta.
17
Recordemos que el nivel crítico (valor p) es un indicador del grado de evidencia existente en contra de la hipótesis nula,
no a favor de ella. Si la evidencia en contra de la hipótesis nula es insuficiente para rechazarla ( p > 0,05), eso no significa
que haya suficiente evidencia para aceptarla.
18
No es necesario utilizar un nivel de significación α/2 en cada contraste para que la tasa de error total (la probabilidad de
cometer un error Tipo I) no sea mayor que α. Al ser ambas hipótesis nulas mutuamente exclusivas, solamente una de ellas
puede ser verdadera. Por tanto, únicamente cabe la posibilidad de cometer un error Tipo I.
152 Análisis de datos (vol. II)
afirmar que la diferencia entre las dos medias poblacionales se encuentra dentro de los lími-
tes de equivalencia y , es decir,
< ( ! ) < [4.28]
Las hipótesis formuladas en [4.27] se contrastan con la prueba T de Student para muestras
independientes ya estudiada en el Capítulo 11 del primer volumen y resumida al comienzo
de este mismo capítulo:
T1 = , T2 = [4.29]
Si las poblaciones muestreadas son normales (o los tamaños muestrales lo bastante grandes),
la distribución muestral de los estadísticos T1 y T2 se aproxima al modelo de probabilidad t
$ tgl; α ; se
de Student con gl = n1 + n2 ! 2 grados de libertad19. Se rechaza H0 (1) cuando T1 <
$ tgl; 1 ! α .
rechaza H0 (2) cuando T2 >
Ls =
= ÷ [4.32]
Li =
Se considera que dos grupos son equivalentes cuando los límites de este intervalo de con-
fianza quedan incluidos dentro de los límites de equivalencia, es decir, cuando
< < [4.33]
O, lo
_ que _ es lo mismo, cuando se verifica simultáneamente Li > y Ls < . Lógicamente,
si |Y 1 ! Y 2 | > sabremos que los grupos no son equivalentes sin necesidad de hacer ningún
19
Si puede asumirse que las varianzas poblacionales son iguales, el error típico de la diferencia entre las medias mues-
trales se estima (ver Capítulo 11 del primer volumen, ecuación [11.4]) mediante
[4.30]
y los grados de libertad de la distribución t son, efectivamente, n1 + n2 ! 2. Si no puede asumirse que las varianzas pobla-
cionales son iguales, el error típico de la diferencia entre las medias muestrales debe estimarse (ver Capítulo 11 del primer
volumen, ecuación [11.9]) mediante
[4.31]
y los grados de libertad de la distribución t cambian (ver Capítulo 11 del primer volumen, ecuación [11.11]).
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 153
cálculo. La ecuación [4.33], que requiere que todo el intervalo de confianza esté incluido
dentro de los límites de equivalencia, puede reducirse a esta otra:
< [4.34]
La Figura 4.2 recoge las tres posibilidades que pueden darse al construir un intervalo de con-
fianza de estas características. La situación representada en a es la única que permite concluir
que las medias son equivalentes; el hecho de que todo el intervalo de confianza esté incluido
entre los límites de equivalencia está indicando que la diferencia estimada entre y
es trivial (es decir, menor que el margen de equivalencia ). En la situación representada en
b todo el intervalo de confianza está fuera de los límites de equivalencia; por tanto, no es
posible concluir que la diferencia entre las medias sea trivial; más bien parece que la dife-
rencia es no trivial (aunque esta conclusión debe evitarse porque, dado que el intervalo se ha
construido con un nivel de confianza de 1 ! 2 α, la probabilidad de cometer un error Ti po I
no es α, sino 2 α). En la situación representada en c no es posible llegar a ninguna conclu-
sión; el intervalo de confianza incluye tanto diferencias triviales como no triviales.
Figura 4.2. Intervalo de confianza de Westlake (figura adaptada de Seaman y Serlin, 1998)
Interv. confianza
a
−∆ 0 ∆
Límites de equivalencia
Interv. confianza
b
−∆ 0 ∆
Límites de equivalencia
Interv. confianza
c
−∆ 0 ∆
Límites de equivalencia
pues no incluyen el valor cero. El intervalo de confianza de Westlake no permite hacer esto:
el representado en a llevaría a no rechazar la hipótesis de igualdad de medias, pero los repre-
sentados en b y en c no serían concluyentes (al estar calculados con un nivel de confianza
menor que el convencional, podrían no incluir el valor cero solo porque son más estrechos).
Un psicólogo considera que los hombres y las mujeres rinden en matemáticas de forma dis-
tinta por razones que no tienen que ver con la capacidad de razonamiento abstracto. Para va-
lidar su sospecha, antes de buscar las razones por las que el rendimiento en matemáticas es
distinto, decide buscar algún tipo de evidencia empírica que le permita asumir que, efecti-
vamente, los hombres y las mujeres no difieren en razonamiento abstracto. Su idea es que si
los hombres difieren de las mujeres en matemáticas pero no en razonamiento abstracto, éste
no puede ser el responsable de las diferencias en matemáticas. Selecciona aleatoria e inde-
pendientemente una muestra de 50 hombres y otra de 50 mujeres, y les pasa una prueba de
razonamiento abstracto, Y, en la que obtiene los siguientes resultados:
Las puntuaciones de la escala de razonamiento abstracto oscilan entre 0 y 40. Nuestro inves-
tigador considera que una diferencia menor de 4 puntos es lo bastante pequeña como para
decidir que los grupos son equivalentes (es decir, = 4).
Obviamente, no se trata de valorar si la diferencia observada entre las medias muestra-
les (27 ! 25 = 2) se encuentra entre los límites de equivalencia = 4 y = 4 (para esto no
es necesario hacer ningún contraste). Se trata de valorar si, a partir de esa diferencia mues-
tral, se puede afirmar, con un nivel de confianza 1 ! α, que la diferencia entre las medias
poblacionales se encuentra dentro de los límites de equivalencia = 4 y = 4. Para ello,
vamos a calcular el intervalo de confianza de Westlake con α = 0,05, es decir, con un nivel
de confianza de 1 ! 2α = 0,90 (asumimos que las varianzas poblacionales son iguales):
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 155
Puesto que 3,71 es menor que = 4, podemos asumir que los promedios comparados difie-
ren en no más de una cantidad trivial, es decir, en no más de la cantidad definida como mar-
gen de equivalencia. Por tanto, podemos concluir que los hombres y las mujeres son grupos
equivalentes en lo referente a su capacidad de razonamiento abstracto.
Con SPSS, al solicitar la prueba T de Student para muestras independientes con las es-
pecificaciones que el procedimiento tiene establecidas por defecto, el intervalo de confianza
que se obtiene para la diferencia entre las medias poblacionales está calculado con un nivel
de confianza de 0,95. Pero el botón Opciones del cuadro de diálogo principal permite acceder
a un subcuadro de diálogo que ofrece la posibilidad de elegir el nivel de confianza con el que
se desea trabajar.
Apéndice 4
En este apéndice se describen varios procedimientos de los denominados no paramétricos. Todos ellos
han sido diseñados, al igual que la prueba T de Student para muestras independientes, para analizar una
variable dicotómica y una cuantitativa. Y representan una alternativa de análisis a la prueba T cuando
las características de los datos no se ajustan a las exigencias de la prueba T. En el SPSS, están dispo-
nibles en la opción Pruebas no paramétricas > Dos muestras independientes del menú Analizar.
promedios), la prueba de Kolmogorov-Smirnov es sensible a cualquier tipo de diferencia entre las dos
distribuciones: tendencia central, variabilidad y forma de la distribución.
Para obtener las funciones de distribución de las dos muestras se comienza asignando rangos de
1 a n1 a los valores de Y1 y de 1 a n2 a los valores de Y2. Los eventuales empates se resuelven asignan-
do el rango promedio a las puntuaciones empatadas.
Tras asignar rangos a los valores de ambas muestras, la función de distribución empírica para ca-
da valor de Yi se obtiene mediante F1 (Yi1) = i / n1 para la muestra Y1 y F2 (Yi2) = i / n2 para la muestra Y2
(donde i se refiere al rango correspondiente a cada observación). A continuación se obtienen las dife-
rencias Di = F1(Yi1) ! F1(Yi1), donde F1(Yi1) se refiere a la función de distribución de la muestra de ma-
yor tamaño. Una vez obtenidas las diferencias Di, la hipótesis de que las dos muestras proceden de la
misma población se pone a prueba utilizando una tipificación de la diferencia Di más grande en valor
absoluto (Smirnov, 1939, 1948):
ZKS = [4.35]
Este estadístico ZKS se distribuye según el modelo de probabilidad normal N (0, 1). El SPSS utiliza el
método de Smirnov (1948) para obtener las probabilidades concretas asociadas a los valores del esta-
dístico ZKS. Este método difiere del estándar (basado en las probabilidades de la curva normal tipi-
ficada), pero es equivalente.
P (R $
< r) =
[4.36]
P (R $
< r) = [4.37]
= [4.38]
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 159
El SPSS calcula esta probabilidad tanto para r = 0 como para r = 0,05 nc (en este último caso, si r < 1,
se toma 1; si r > 1, se toma la parte entera de r). Si esta probabilidad es pequeña (menor que 0,05), se
podrá rechazar la hipótesis de que ambas muestras proceden de poblaciones con la misma amplitud
(dispersión).
4.1. Para estudiar la posible influencia del tipo de instrucciones sobre la ejecución de una tarea se ha selec-
cionado aleatoriamente una muestra de 12 sujetos. La mitad de ellos ha realizado la tarea tras recibir
instrucciones breves y sencillas (grupo 1); la otra mitad tras recibir instrucciones largas y explícitas
(grupo 2). La siguiente tabla muestra las puntuaciones en rendimiento que han obtenido los 12 sujetos:
Grupo 1 2 3 6 7 8 4
Grupo 2 3 5 8 6 8 9
4.2. Se ha realizado un estudio para comprobar si una sustancia utilizada por la medicina hindú para desin-
toxicar opiómanos podría ser empleada también para deshabituar a los fumadores. La experiencia se
ha realizado con 26 fumadores distribuidos al azar en dos grupos. Al grupo A se le ha administrado
la mencionada sustancia; al grupo B, un placebo. Tras el tratamiento se ha registrado el número medio
de cigarrillos/día que ha fumado cada sujeto durante un mes. La siguiente tabla recoge los resultados
obtenidos:
Grupo A 20 10 0 0 0 0 3 7 0 8 7 10 11
Grupo B 19 28 18 14 17 16 13 12 14 11 10 20 8
a. Comprobar si el promedio de cigarrillos consumidos por el grupo tratado es menor que el prome-
dio de cigarrillos del grupo no tratado (α = 0,05).
b. Estimar el tamaño del efecto con y con RXY. Interpretar el resultado.
c. Calcular la potencia del contraste.
4.3. Utilizar el procedimiento “curva COR” del SPSS para obtener el valor del estadístico A (tamaño del
efecto) con los datos de los ejercicios 4.1 y 4.2. Comparar los valores de este estadístico con los valo-
res de ya calculados.
4.4. En un experimento diseñado para estudiar si el efecto de indefensión aprendida se generaliza de si-
tuaciones de evitación a situaciones apetitivas, se han utilizado 21 ratas distribuidas aleatoriamente
en tres grupos. Al primer grupo se le ha aplicado un estímulo aversivo del que se podía escapar saltan-
do a un compartimento contiguo. Al segundo grupo se le ha aplicado el mismo estímulo aversivo con
la diferencia de que no se podía escapar de él. El tercer grupo no recibió estimulación aversiva. En la
160 Análisis de datos (vol. II)
segunda fase del experimento, las ratas tenían que apretar una palanca para conseguir una bola de ali-
mento. La siguiente tabla muestra el número de respuestas (apretar la palanca) dadas por cada animal
en un intervalo de tiempo idéntico para todos. La expectativa de los investigadores era que las ratas
a las que se había inducido indefensión (grupo 2) darían menos respuestas en la segunda fase.
Grupo 1 3 7 6 1 5 4 6
Grupo 2 0 2 1 0 0 1 0
Grupo 3 2 6 4 0 3 9 3
a. ¿Puede afirmarse que los grupos difieren en el número medio de respuestas dadas? (α = 0,05).
b. ¿Confirman los datos la expectativa de los investigadores?
c. Estimar el tamaño del efecto.
4.5. Con el fin de estudiar el efecto de un determinado fármaco en pacientes aquejados de insomnio, un in-
vestigador ha seleccionado 3 niveles de fármaco (100, 250 y 500 mg) y los ha administrado a 3 grupos
de pacientes aleatoriamente seleccionados. Las dosis fueron administradas una vez al día durante una
semana. La siguiente tabla recoge el número medio de minutos/día que ha dormido cada paciente du-
rante la semana de tratamiento. La tabla también recoge los datos relativos a un grupo de pacientes que
no recibió el tratamiento sino un placebo (0 mg):
Comparar el número medio de horas dormidas de los cuatro grupos y decidir si existen diferencias
significativas (α = 0,01).
4.6. En un determinado estudio se ha obtenido T = 7,3. Sabemos que P (T < 7,3) = 0,025. Si el contraste es
unilateral derecho, esto significa que (señalar la/s alternativa/s correcta/s):
a. Hay que rechazar H0.
b. La probabilidad de que H0 sea verdadera vale 0,025.
c. Lo razonable es mantener H0.
d. Podemos rechazar H0 con una probabilidad de equivocarnos de 0,025.
e. Al mantener H0 siendo verdadera, la probabilidad de equivocarnos vale 0,025 como mínimo.
5
Inferencia con
dos variables cuantitativas
obtenemos una variable aleatoria cuyos valor esperado y varianza (ver Apéndice 6 del pri-
mer volumen) son los siguientes:
=
[5.3]
= = ÷ =
= = [5.4]
T = [5.5]
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Y1 = Pre-test 24 38 21 14 19 31 34 33 22 16 17 20 18 23 23,57
Y2 = Post-test 15 22 21 17 11 6 15 20 8 9 5 19 7 8 13,07
Tenemos dos conjuntos de puntuaciones que se han obtenido al medir dos veces en los mis-
mos sujetos (muestras relacionadas) una variable cuantitativa (Y = puntuaciones en la esca-
la Hamilton). Vamos a comparar sus medias con la prueba T para muestras relacionadas:
$ µ después; H1: µ antes > µ después (contraste unilateral derecho).
1. Hipótesis: H0: µ antes <
2. Supuestos: asumimos que la muestra de 14 diferencias se ha seleccionado aleatoriamen-
te de una población normal.
3. Estadístico del contraste:
Sujetos 1 2 3 4 5 ··· 13 14
Y1 = Pre-test 24 38 21 14 19 ··· 18 23
Y2 = Post-test 15 22 21 17 11 ··· 7 8 Total
D _ 9 16 0 !3 8 ··· 11 15 147
(D ! D )2 2,25 30,25 110,25 182,25 6,25 ··· 0,25 20,25 757,5
T = = = = 5,15
4. Distribución muestral: T se distribuye según t con n ! 1 = 14 ! 1 = 13 grados de libertad.
$ t13; 0,95 = 1,771.
5. Zona crítica: T >
6. Decisión: como 5,15 > 1,771, se rechaza H0. Por tanto, puede concluirse que la media del
post-test es menor que la del pre-test.
$ 5,15) < 0,001.
7. Nivel crítico: p = P (T >
164 Análisis de datos (vol. II)
1. Hipótesis:
a. Contraste bilateral: H0: = (o bien, = 0).
H 1: =/ (o bien, =/ 0).
b. Contraste unilateral derecho: H0: $
< (o bien, $
< 0).
H 1: > (o bien, > 0).
c. Contraste unilateral izquierdo: H0: $
> (o bien, $ 0).
>
H 1: < (o bien, < 0).
2. Supuestos: muestra aleatoria de m pares de puntuaciones cuantitativas de las que se
obtienen las n diferencias no nulas. Se asume que la distribución de las diferencias es
simétrica (el supuesto de simetría implica que las inferencias efectuadas sobre la me-
diana son trasladables a la media).
3. Estadístico del contraste1: S+ = .
4. Distribución muestral: los puntos críticos de la distribución muestral de S+ se encuen-
tran tabulados en la Tabla M del Apéndice final.
5. Zonas críticas:
a. Contraste bilateral: S+ < s α/ 2 y S+ > s 1! α/ 2 .
b. Contraste unilateral derecho: S+ < s α .
c. Contraste unilateral izquierdo: S+ > s1! α .
6. Decisión: se rechaza H0 si S+ cae en la zona crítica; en caso contrario, se mantiene.
7. Nivel crítico (valor p):
a. Contraste bilateral: p = 2 [P (S+ < S )], donde S se refiere al menor de S+ y S!.
b. Contraste unilateral derecho: p = P (S+ > Sh), donde Sh se refiere al valor concre-
to que toma S+.
c. Contraste unilateral izquierdo: p = P (S+ > Sh).
Tenemos dos conjuntos de puntuaciones que se han obtenido al medir dos veces a los mis-
mos sujetos (muestras relacionadas) en una variable cuantitativa (Y = puntuaciones en la
escala Hamilton). Tenemos, por tanto, dos variables cuantitativas (no olvidar que se tienen
dos variables cuantitativas tanto si se miden dos variables distintas como si se mide la mis-
ma variable dos veces). Y queremos averiguar si las puntuaciones del post-test, en promedio,
son más bajas que las del pre-test.
Estos datos ya los hemos analizado con la prueba T para muestras relacionadas (ver Ca-
pítulo 12 del primer volumen) y hemos rechazado la hipótesis de igualdad de medias. Vea-
mos si la prueba de Wilcoxon permite llegar a la misma conclusión:
1. Hipótesis: H0: Mdnantes <$ Mdndespués.
H1: Mdnantes > Mdndespués (contraste unilateral derecho).
2. Supuestos: muestra de 14 diferencias aleatoriamente seleccionadas de una población si-
métrica.
3. Estadístico del contraste: S+ = = 5 +11+ 4 +13 + · · · + 7 + 1 + 6 +10 = 89.
Para obtener el estadístico S+, hemos comenzado calculando las diferencias D = Y1 ! Y2
y asignando rangos, R i, a sus valores absolutos (ver Tabla 5.3). Tras esto, hemos suma-
do los rangos correspondientes a las diferencias positivas2.
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Y1 = Pre-test 24 38 21 14 19 31 34 33 22 16 17 20 18 23
Y2 = Post-test 15 22 21 17 11 6 15 20 8 9 5 19 7 8
Di 9 16 0 !3 8 25 19 13 14 7 12 1 11 15
Ri 5 11 ! 2 4 13 12 8 9 3 7 1 6 10
2
Puesto que la suma de n rangos vale n (n + 1) / 2, la suma de los 13 rangos de la Tabla 5.2 vale 13 (14) / 2 = 91. Y dado que
únicamente uno de los 13 rangos es negativo (el del cuarto sujeto), la suma de los rangos positivos vale 91 ! 2 = 89.
Capítulo 5. Inferencia con dos variables cuantitativas 167
Z = [5.10]
donde S se refiere al menor de S+ y S!, k al número rangos distintos en los que existen empa-
tes y ti al número de puntuaciones empatadas en el rango i (si al asignar rangos no existen
empates, el sumatorio de denominador vale cero). Como S es el menor de S+ y S!, el resulta-
do de la ecuación [5.10] siempre es negativo. El SPSS calcula el nivel crítico bilateral mul-
tiplicando por 2 la probabilidad de obtener valores menores o iguales que Z. Para aplicar el
estadístico definido en [5.10] a los datos de la Tabla 5.1:
' Reproducir en el Editor de datos los datos de la Tabla 5.1 asignando a las variables los
nombres pre_test y post_test (o abrir el archivo Tabla 5.1 hamilton que se encuentra en
la página web del manual).
' Seleccionar la opción Pruebas no paramétricas > Dos muestras relacionadas del menú Anali-
zar para acceder al cuadro de diálogo Pruebas para dos muestras relacionadas (la prueba
de Wilcoxon está seleccionada por defecto).
' Trasladar las variables pre_test y post_test a la lista Contrastar pares (en caso necesario,
reordenar las variables colocando la variable post_test antes que la variable pre_test).
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Pruebas para dos mues-
tras relacionadas: Estadísticos y marcar las opciones Descriptivos y Cuartiles. Pulsar el
botón Continuar para volver al cuadro de diálogo principal.
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 5.4 a 5.6. La
Tabla 5.4 ofrece, para cada variable, algunos estadísticos descriptivos: el número de casos vá-
lidos (N ), la media, la desviación típica, los valores mínimo y máximo, y los tres cuartiles
(percentiles 25, 50 y 75). La diferencia entre las medianas vale 21,5 ! 13 = 8,5. La prueba de
Wilcoxon permite contrastar la hipótesis nula de que las medianas poblacionales del pre-test
y del post-test son iguales y, por tanto, permite averiguar si esa diferencia muestral de 8,5
puntos es lo bastante grande como para poder afirmar que las puntaciones del post-test han
disminuido (el supuesto de simetría permite convertir las conclusiones sobre las medianas
en conclusiones sobre las medias).
Las dos tablas siguientes contienen información relacionada con la prueba de Wilcoxon. La
Tabla 5.5 ofrece el número, media y suma de los rangos negativos y positivos. Las notas a pie
de tabla aclaran qué rangos se están considerando positivos y negativos (debe tenerse en cuen-
ta que el SPSS calcula las diferencias entre la segunda variable y la primera del par selec-
cionado en el cuadro de diálogo; por eso hemos colocado la variable post_test delante de la
168 Análisis de datos (vol. II)
variable pre-test). La tabla también ofrece el número de empates (casos excluidos del análi-
sis) y el número total de rangos asignados (incluidos los empates).
Por último, la Tabla 5.6 muestra el estadístico de Wilcoxon (Z ) y su nivel crítico bilateral
(sig. asintótica bilateral). Puesto que estamos planteando un contraste unilateral derecho, el
nivel crítico bilateral hay que dividirlo entre 2. Por tanto: p = 0,002 / 2 = 0,001. Y como el
valor p obtenido es menor que α = 0,05, lo razonable es rechazar la hipótesis de igualdad
entre las medianas del pre-test y del post-test, y concluir que las puntuaciones en la escala
Hamilton han disminuido tras el tratamiento (puesto que se está asumiendo que la población
de las diferencias pre-post es simétrica, la conclusión vale igualmente para las medias).
La Figura 5.1 muestra el histograma y el diagrama de caja de las diferencias entre las puntua-
ciones del pre-test y las del post-test3. No existen indicios de asimetría ni se observan casos
atípicos o extremos.
Figura 5.1. Histograma y diagrama de caja de las diferencias entre el pre-test y el post-test
3
Estos diagramas se han obtenido mediante la opción Diagramas de caja > Simple (Resúmenes para distintas variables)
del menú Gráficos.
Capítulo 5. Inferencia con dos variables cuantitativas 169
Z = [5.12]
Para aplicar la prueba de los signos para dos muestras a los datos de la Tabla 5.1 (recorde-
mos que la tabla recoge las puntuaciones de 14 pacientes depresivos antes y después de apli-
carles un tratamiento):
' Reproducir en el Editor de datos los datos de la Tabla 5.1 asignando a las variables los
nombres pre_test y post_test (o abrir el archivo Tabla 5.1 hamilton que se encuentra en
la página web del manual).
Capítulo 5. Inferencia con dos variables cuantitativas 171
' Seleccionar la opción Pruebas no paramétricas > Dos muestras relacionadas del menú Anali-
zar para acceder al cuadro de diálogo Pruebas para dos muestras relacionadas y, en el
recuadro Tipo de prueba, marcar la opción Signos.
' Trasladar las variables pre_test y post_test a la lista Contrastar pares (en caso necesario,
reordenar las variables colocando la variable post_test antes que la variable pre_test).
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 5.6 y 5.7.
La Tabla 5.6 muestra las diferencias negativas, las positivas y los empates entre cada par de
puntuaciones; las notas a pie de tabla permiten saber qué diferencias se están considerando
negativas y cuáles positivas.
Puesto que el número de diferencias en menor que 25, la Tabla 5.7 ofrece la probabili-
dad bilateral exacta de obtener 12 diferencias positivas o más (de las 13 posibles). Esta pro-
babilidad está multiplicada por 2 (el SPSS siempre asume contraste bilateral). Por tanto, el
nivel crítico de nuestro contraste unilateral vale p = 0,0034 / 2 = 0,0017. Y como este nivel
crítico es menor que 0,05, lo razonable es rechazar la hipótesis nula y concluir que la media-
na poblacional del post-test es menor que la del pre-test.
= [5.13]
Esta ecuación permite interpretar RXY, antes que nada, como el grado en que la covarianza
alcanza su máximo. Y es equivalente a calcular la covarianza a partir de las puntuaciones
típicas (puntuaciones Z ). El coeficiente definido en [5.13] mide el grado de relación lineal
(no de otro tipo); su valor oscila entre !1 y 1 (el signo indica si la relación es positiva o
negativa) y no se altera si los datos se transforman linealmente (por ejemplo, sumando y/o
multiplicando una constante).
refleja o no un grado de relación lineal mayor del que cabría esperar por puro azar entre dos
variables realmente independientes en la población.
Para responder a esta pregunta lo que hacemos es contrastar la hipótesis nula de ausencia de
relación lineal (H0: ρXY = 0) (ver Capítulo 12 del primer volumen) mediante el estadístico
T = [5.14]
T = = 1,42
En la distribución t de Student con 14 ! 2 = 12 grados de libertad (Tabla D del Apéndice final)
obtenemos t12; 0,95 = 1,81 y t12; 0,975 = 2,179. En consecuencia, tanto si decidimos plantear el
contraste unilateral (punto crítico 1,81) como si decidimos plantearlo bilateral (punto crítico
2,179), el valor del estadístico T = 1,42 cae dentro de la zona de aceptación. No es razonable,
por tanto, rechazar la hipótesis de relación lineal nula, es decir, no es posible afirmar que las
puntuaciones del pre-test y las del post-test estén linealmente relacionadas en la población.
Debe repararse en el hecho de que, aunque hemos rechazado la hipótesis de igualdad de
medias (ver apartados anteriores), no hemos podido rechazar la de ausencia de relación lineal.
Esto significa que, aunque las puntuaciones cambian (las del post-test son menores que las
del pre-test), lo hacen independientemente del nivel o gravedad inicial.
174 Análisis de datos (vol. II)
RS = 1 ! [5.15]
donde D i = R i (X ) ! R i (Y ) se refiere a las diferencias entre los rangos de cada par de pun-
tuaciones (i = 1, 2, ...n). El coeficiente de correlación de Spearman toma valores entre !1 y
+1; los valores mayores que cero indican relación positiva o monótona creciente; los valores
menores que cero indican relación negativa o monótona decreciente; el valor cero indica
ausencia de relación monótona.
4
A este coeficiente se le suele llamar rho (ρ) de Spearman. Nosotros lo llamaremos RS para distinguirlo del parámetro ρXY
(valor poblacional del coeficiente de correlación de Pearson).
5
La equivalencia entre [5.13] y [5.15] únicamente se da si no se producen empates al asignar rangos a las puntuaciones ori-
ginales. Cuando existen empates puede utilizarse una corrección para ajustar el valor de RS (ver, por ejemplo, San Martín
y Pardo, 1989, págs. 401-402), pero quizá resulte más sencillo aplicar directamente la ecuación [5.13] a las puntuaciones
transformadas en rangos. Por otro lado, esta corrección solo altera ligeramente a la baja el valor absoluto de RS.
Capítulo 5. Inferencia con dos variables cuantitativas 175
Para determinar si el tamaño de RS está indicando verdadera relación entre las variables
estudiadas se puede contrastar la hipótesis nula de que su valor vale cero en la población. No
existe un acuerdo generalizado sobre la forma correcta de realizar este contraste; no obstan-
te, en el Cuadro 5.2 ofrecemos un resumen del procedimiento que, según los resultados ob-
tenidos por Nijsse (1988), parece el más recomendable.
1. Hipótesis:
a. Contraste bilateral: H0: X e Y no están relacionadas.
H1: la relación entre X e Y es monótona.
b. Contraste unilat. derecho: H0: X e Y no están relacionadas.
H1: la relación entre X e Y es monótona creciente.
c. Contraste unilat. izquierdo: H0: X e Y no están relacionadas.
H1: la relación entre X e Y es monótona decreciente.
2. Supuestos: muestra aleatoria de n pares de puntuaciones, independientes entre sí, ob-
tenidos al medir dos variables al menos ordinales.
3. Estadísticos del contraste:
3.1. RS (ver ecuación [5.15])
3.2. T = [5.16]
4. Distribución muestral:
4.1. Los puntos críticos r1 ! α de la distribución muestral de RS se encuentran en la
Tabla R del Apéndice final para n < $ 30 y algunos valores de α.
4.2. La distribución del estadístico T se aproxima al modelo de probabilidad t de Stu-
dent con n ! 2 grados de libertad (tn !2).
5. Zona crítica:
a. Contraste bilateral:
a.1. RS < rα/ 2 y RS > r1 ! α/ 2 .
a.2. T <$ tn !2; α/ 2 y T >
$ tn !2; 1 ! α/ 2 .
b. Contraste unilateral derecho:
b.1. RS > rα .
b.2. T $> tn !2; 1 ! α .
c. Contraste unilateral izquierdo:
c.1. RS < r1 ! α .
c.2. T <$ tn !2; α .
6. Regla de decisión: se rechaza H0 si el estadístico del contraste cae en la zona crítica;
en caso contrario, se mantiene.
176 Análisis de datos (vol. II)
Tabla 5.9. Datos de 10 sujetos en las variables X = «horas de estudio» e Y = «rendimiento medio»
Sujetos 1 2 3 4 5 6 7 8 9 10
X = «horas de estudio» 5 5 6 6 6 7 7 11 11 16
Y = «rendimiento medio» 5 4 3,5 5 6 5 8 8,5 9 6
Tenemos dos variables cuantitativas medidas en una muestra aleatoria de 10 sujetos. Tene-
mos, por tanto, 10 pares de puntuaciones. Y queremos averiguar si, en la población de donde
proceden estos 10 pares de puntuaciones, existe relación positiva o creciente (“... las pun-
tuaciones altas... tienden a ir acompañadas de puntuaciones altas...”).
Estos datos ya los hemos analizado aplicando el coeficiente de correlación de Pearson
(ver Capítulo 12 del primer volumen; RXY = 0,52). Ahora decidimos analizarlos con el coefi-
ciente de correlación de Spearman porque nos hemos dado cuenta de que la distribución de
la variable X no es normal y el nivel de medida de la variable Y es ordinal:
1. Hipótesis:
H0: X e Y no están relacionadas.
H1: la relación entre X e Y es monótona creciente (contraste unilateral derecho).
2. Supuestos: muestra aleatoria de 10 pares de puntuaciones, independientes entre sí, ob-
tenidos al medir dos variables al menos ordinales.
3. Estadísticos del contraste: para facilitar los cálculos, la Tabla 5.10 ofrece los rangos
correspondientes a las puntuaciones de X e Y, las diferencias entre cada par de rangos y
esas diferencias elevadas al cuadrado:
3.1. RS = 1 ! = 1 ! 6 (45) (103 ! 10) = 0,73 (ecuación [5.15])
Sujetos 1 2 3 4 5 6 7 8 9 10 Suma
R i(X ) 1,5 1,5 4 4 4 6,5 6,5 8,5 8,5 10
R i(Y ) 4 2 1 4 6,5 4 8 9 10 6,5
Di !2,5 !0,5 3 0 !2,5 2,5 !1,5 !0,5 !1,5 3,5
Di2 6,25 0,25 9 0 6,25 6,25 2,25 0,25 2,25 12,25 45,00
4. Distribución muestral:
4.1. Los puntos críticos de la distribución muestral de RS se encuentran en la Tabla R
del Apéndice final.
4.2. La distribución del estadístico T se aproxima al modelo de probabilidad t de Stu-
dent con 10 ! 2 = 8 grados de libertad (tn !2).
5. Zona crítica (contraste unilateral derecho):
5.1. RS > r1 ! α = r0,95 = 0,564.
5.2. T $> tn !2; 1 ! α = t8; 0,95 = 1,86.
6. Regla de decisión: con ambos estadísticos se obtienen valores mayores que sus respec-
tivos puntos críticos: 0,73 > 0,564 en el caso de RS y 3,02 > 1,86 en el caso de T. Por
tanto, lo razonable es rechazar H0 y concluir que existe relación monótona creciente, lo
cual significa que las puntuaciones altas (bajas) en horas de estudio tienden a ir acom-
pañadas de puntuaciones altas (bajas) en rendimiento medio.
$ 3,02) < 0,001.
7. Nivel crítico (contraste unilateral derecho): p = P (T >
[5.16] (sig. bilateral; el nivel crítico unilateral puede obtenerse dividiendo entre 2 el bilate-
ral); y (3) el número de casos válidos (N).
El coeficiente de correlación de Spearman vale6 0,72 y el nivel crítico bilateral resultan-
te de contrastar la hipótesis de independencia vale 0,02. Como el contraste es unilateral (ver
ejemplo anterior), el nivel crítico vale 0,02/2 = 0,01. Y como este nivel crítico es menor que
0,05, podemos rechazar la hipótesis de independencia y concluir que la relación encontrada
es estadísticamente significativa. El signo positivo del coeficiente indica que la relación es
monótona creciente: los valores altos (bajos) de horas de estudio tienden a ir acompañados
de valores altos (bajos) en rendimiento medio.
= = [5.17]
El numerador de [5.17] puede estimarse a partir de la diferencia entre las medias muestrales;
el denominador puede estimarse a partir de la desviación típica de las diferencias entre cada
par de puntuaciones (ver ecuación [5.4]). Es decir,
6
Este valor (0,72) es ligeramente diferente del que hemos obtenido (0,73) aplicando la ecuación [5.15]. Esto es debido a
que el SPSS utiliza una ecuación que tiene en cuenta la presencia de rangos empatados dentro de la misma variable. Ver
nota a pie de página número 5.
Capítulo 5. Inferencia con dos variables cuantitativas 179
= [5.18]
En nuestro ejemplo
_ con 14 pacientes
_ sometidos a tratamiento antidepresivo (ver Tabla 5.1)
hemos obtenido Y 1 = 23,57, Y 2 = 13,07, y SD = 7,63. Por tanto,
= = 1,38
Lo cual representa un efecto de tamaño grande (esta diferencia tipificada se interpreta en los
términos ya conocidos: valores en torno a 0,20 indican un efecto pequeño; valores en torno
a 0,50, un efecto medio; valores en torno a 0,80 y mayores, un efecto grande).
= [5.20]
En nuestro ejemplo con 14 pacientes sometidos a tratamiento antidepresivo (ver Tabla 5.1)
hemos obtenido = 1,38 (ver apartado anterior). Por tanto,
= = 5,16
Con = 5,16 y α = 0,05 en un contraste unilateral, la Tabla E del Apéndice final indica que
la potencia del contraste es mayor de 0,99.
Este valor es la potencia observada (es decir, la potencia del contraste considerando que
la diferencia entre las medias poblacionales es la diferencia observada entre las medias mues-
trales). Para conocer el tamaño muestral necesario para alcanzar una determinada potencia
basta con despejar n en la ecuación [5.20] y utilizar la Tabla E en sentido inverso a como lo
hemos hecho para calcular la potencia observada:
n = [5.21]
Supongamos que queremos diseñar un contraste unilateral con dos muestras relacionadas
cuya potencia para detectar un efecto de tamaño medio ( = 0,50 según el criterio de Cohen)
valga 0,80. Con α = 0,05 y 1 ! β = 0,80, la Tabla E del Apéndice final ofrece para un va-
lor de 2,50. Aplicando [5.21] obtenemos
n = (2,50)2 / 0,52 = 25
Lo cual significa que, para detectar un efecto de tamaño medio con una potencia de 0,80 en
un contraste unilateral con dos muestras relacionadas, necesitaríamos una muestra de 25
sujetos.
180 Análisis de datos (vol. II)
Apéndice 5
Correlaciones parciales
Los coeficientes de correlación estudiados permiten cuantificar la relación entre dos variables. Un coe-
ficiente de correlación parcial expresa el grado de relación lineal existente entre dos variables cuando
se elimina de esa relación el efecto debido a otras variables. Se trata, por tanto, de una técnica de con-
trol estadístico que permite cuantificar la relación neta entre dos variables al eliminar de ambas el
efecto de terceras variables.
Por ejemplo, se sabe que la relación entre las variables inteligencia y rendimiento escolar es alta
y positiva. Sin embargo, cuando se controla el efecto de terceras variables como el número de horas
de estudio o el nivel educativo de los padres, la correlación entre inteligencia y rendimiento descien-
de sensiblemente, lo cual está indicando que la relación entre inteligencia y rendimiento está condi-
cionada o modulada por el número de horas de estudio y el nivel educativo de los padres.
La ecuación para obtener el coeficiente de correlación parcial depende del número de variables
cuyo efecto se desea controlar. Comencemos con tres variables: Y1, Y2, Y3. Llamando al coeficien-
te de correlación de Pearson entre las dos primeras variables, el coeficiente de correlación parcial en-
tre Y1 e Y2 se obtiene mediante
= [5.22]
Hablamos de correlación de primer orden para indicar que se está controlando el efecto de una sola
variable. La ecuación [5.22] es una correlación de primer orden. Con cuatro variables, el coeficiente
de correlación parcial entre Y1 e Y2 se obtiene mediante
= [5.23]
Hablamos de correlación de segundo orden, para indicar que se está controlando el efecto de dos varia-
bles. La ecuación [5.23] es una correlación de segundo orden. Siguiendo esta lógica, a la correlación
entre dos variables cuando no se controla el efecto de terceras variables se le llama correlación de orden
cero. Los coeficientes de mayor orden se obtienen siguiendo la misma lógica.
Para contrastar la hipótesis nula de que el valor poblacional de un coeficiente de correlación par-
cial es cero, puede utilizarse el estadístico
T = [5.24]
(n se refiere al número de casos con puntuación válida en todas las variables que intervienen en el cál-
culo del coeficiente de correlación parcial y p se refiere al número de variables controladas). El estadís-
tico T se distribuye según el modelo de probabilidad t de Student con n ! p ! 2 grados de libertad.
Veamos cómo utilizar el procedimiento Correlaciones parciales del SPSS para cuantificar e inter-
pretar la relación entre dos variables cuando se controla el efecto de terceras variables. El ejemplo se
basa en el archivo Datos de empleados (se encuentra en la misma carpeta en la que está instalado el
SPSS):
Capítulo 5. Inferencia con dos variables cuantitativas 181
' Seleccionar la opción Correlaciones > Parciales del menú Analizar el cuadro de diálogo principal
y trasladar las variables salini (salario inicial) y salario (salario actual) a la lista Variables. Éstas
son las dos variables que interesa correlacionar.
' Trasladar las variables educ (nivel educativo), tiempemp (meses desde el contrato) y expprev (ex-
periencia previa) a la lista Controlando para. Éstas son las tres variables cuyo efecto se desea con-
trolar.
' Pulsar el botón Opciones para acceder al cuadro de diálogo Correlaciones parciales: Opciones y
marcar la opción Correlaciones de orden cero del recuadro Estadísticos.
Aceptando estas selecciones, el Visor ofrece los resultados que muestra la Tabla 5.12. La tabla contie-
ne las correlaciones bivariadas y las parciales. La mitad superior de la tabla (variables controladas =
ninguna) ofrece los coeficientes de correlación de orden cero entre todas las variables seleccionadas.
El contenido de esta tabla es idéntico al estudiado a propósito del coeficiente de correlación de Pear-
son (ver Capítulo 12 del primer volumen).
Esta información es doblemente útil: por un lado, informa sobre el grado de relación existente entre
las dos variables que interesa estudiar (salario inicial y salario actual); por otro, permite averiguar si
las variables cuyo efecto se desea controlar (nivel educativo, meses de contrato y experiencia previa)
están o no relacionas con las dos variables que interesa correlacionar. Puede comprobarse que el coe-
ficiente de correlación entre salario inicial y salario actual vale 0,88, con un nivel crítico sig. < 0,0005
que permite rechazar la hipótesis nula de no relación y afirmar que el coeficiente es significativamente
distinto de cero. También puede comprobarse que, de las tres variables incluidas en el análisis para con-
trolar su efecto, nivel educativo correlaciona significativamente tanto con salario inicial como con sala-
rio actual (sig. < 0,0005 en ambos casos), meses de contrato no correlaciona significativamente ni con
salario inicial (sig. = 0,668) ni con salario actual (sig. = 0,067), y experiencia previa correlaciona sig-
nificativamente con salario actual (sig. = 0,034) pero no con salario inicial (sig. = 0,327).
La mitad inferior de la tabla ofrece el coeficiente de correlación parcial entre las variables salario ini-
cial y salario actual. El coeficiente (0,812) tiene asociado un nivel crítico (sig. < 0,0005) que permi-
te afirmar que su valor poblacional es distinto de cero. Puesto que el coeficiente de correlación parcial
sigue siendo significativo y su diferencia con el coeficiente de orden cero es más bien escasa (ha baja-
do de 0,88 a 0,81), puede afirmarse: (1) que entre las variables salario inicial y salario actual existe
relación lineal significativa y (2) que tal relación solo se altera ligeramente tras controlar el efecto del
nivel educativo, los meses de contrato y la experiencia previa.
5.1. Antes de recibir una terapia correctora de 10 sesiones, 7 niños disléxicos han pasado por una prueba
de dictado en la que se ha contabilizado el número de errores cometidos. Tras las 10 sesiones de en-
trenamiento, los 7 niños han vuelto a repetir la prueba de dictado y se ha vuelto a contabilizar el nú-
mero de errores. La siguiente tabla muestra los resultados obtenidos:
Sujetos 1 2 3 4 5 6 7
Y1: n errores antes 19 13 20 12 15 17 9
Y2: n errores después 7 9 10 4 3 10 6
a. Aplicar la prueba de Wilcoxon y la de los signos para averiguar si el número medio de errores ha
disminuido tras el entrenamiento (α = 0,05).
b. Estimar el tamaño del efecto.
c. ¿Cuántos sujetos habría que utilizar para alcanzar una potencia de 0,80?
5.2. Cuando se toman dos medidas a los mismos sujetos (pre-post o antes-después), lo que suele interesar
es comparar ambas medidas para valorar si se ha producido algún cambio. Esto es lo que se ha hecho,
por ejemplo, en el ejercicio anterior. Pero esto no tiene por qué ser siempre así. Ocasionalmente pue-
de interesar constatar si el cambio observado se ha producido o no de forma lineal, es decir, si todos
los sujetos han cambiado más o menos lo mismo o de forma proporcional a sus puntuaciones origi-
nales o, por el contrario, unos sujetos han cambiado más que otros y de forma no proporcional a sus
puntuaciones originales. Esto último no puede saberse comparando los promedios antes-después, sino
relacionando ambas medidas. Utilizando los datos del ejercicio anterior:
a. ¿Cuánto vale el coeficiente de correlación de Spearman entre los registros efectuados antes y des-
pués del entrenamiento?
b. ¿Es estadísticamente significativa la relación encontrada?
c. Explicar por qué puede haber diferencias significativas entre las mediciones antes-después y, sin
embargo, no existir relación lineal significativa entre ellas.
5.3. Un investigador desea comprobar si la ingestión de alcohol reduce la capacidad de los sujetos para
reconocer letras presentadas mediante taquistoscopio. Para ello, forma 10 pares aleatorios de sujetos
de tal forma que los sujetos de cada par están igualados en agudeza visual. Un sujeto de cada par, selec-
cionado al azar, recibe una determinada dosis de alcohol. Al cabo de un tiempo preestablecido se
presenta la serie de letras y se registra el número de aciertos de cada sujeto. La siguiente tabla muestra
los resultados obtenidos:
Capítulo 5. Inferencia con dos variables cuantitativas 183
Pares 1 2 3 4 5 6 7 8 9 10
Y1: con alcohol 2 1 1 3 2 5 1 3 3 2
Y2: sin alcohol 4 3 5 7 8 5 4 6 4 5
a. ¿Apoyan los datos la hipótesis de que la dosis de alcohol administrada reduce el número medio de
aciertos? (α = 0,05).
b. Estimar el tamaño del efecto.
5.4. Algunos estudios sobre gemelos señalan que el miembro del par nacido en primer lugar suele mostrar
un comportamiento más agresivo que el nacido en segundo lugar. Para obtener alguna evidencia más
sobre esto, se ha pasado una escala de agresividad a una muestra aleatoria de 10 parejas de gemelos.
La siguiente tabla muestra los resultados obtenidos:
Pares 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
er
Y1: 1 gemelo 23 10 15 17 22 25 20 25 11 16 13 19 21 23 10
Y2: 2o gemelo 17 5 10 12 15 15 12 18 6 9 10 15 4 3 14
a. ¿Apoyan los datos la hipótesis de que los gemelos nacidos en primer lugar se muestran más agre-
sivos que los nacidos en segundo lugar?
b. Estimar el tamaño del efecto.
c. ¿Cuánto vale la potencia del contraste?
d. ¿Cuánto vale el coeficiente de correlación de Spearman?
e. ¿Es estadísticamente significativa la relación encontrada? (α = 0,05).
5.5. Seguimos con los 15 pares de gemelos del ejercicio anterior. Aunque ya sabemos que el coeficiente
de correlación de Spearman no alcanza la significación estadística (p > 0,05), vamos a intentar formar-
nos una idea lo más exacta posible sobre lo que está ocurriendo. Para ello:
a. Dibujar el correspondiente diagrama de dispersión.
b. La nube de puntos del diagrama de dispersión revela que hay tres pares de gemelos que podrían
estar reduciendo sensiblemente el grado de relación lineal. ¿Cuáles son esos tres pares? Dibujar
el diagrama de dispersión eliminando esos tres pares.
c. ¿Cuánto vale el coeficiente de correlación de Spearman si se eliminan esos tres pares de gemelos?
d. ¿Es estadísticamente significativo el nuevo coeficiente de correlación? (α = 0,05).
5.6. Se ha utilizado el coeficiente de correlación de Spearman para comprobar si la relación entre la inten-
sidad luminosa (variable X ) y el rendimiento en una prueba de discriminación visual (variable Y ) es
monótona creciente. Al valorar la significación estadística del coeficiente de correlación en una mues-
tra aleatoria de 15 sujetos se ha obtenido, para el estadístico del contraste, un valor T = 1,562. Sabiendo
que P (T $< 1,562) = 0,93 y utilizando un nivel de confianza de 0,99, ¿cuál de las siguientes decisiones
(y motivos) es correcta?
a. Rechazar H0 porque P (T $
< 1,562) < 0,99.
b. Mantener H0 porque P (T $
< 1,562) > 0,01.
c. Rechazar H0 porque P (T $
> 1,562) < 0,01.
d. Mantener H0 porque P (T $
< 1,562) < 0,99.
e. Rechazar H0 porque P (T $
< 1,562) < 0,99.
5.7. En el estudio llevado a cabo en el ejercicio anterior sobre discriminación visual se ha llegado a la con-
clusión de que lo razonable es no rechazar H0. Pero:
184 Análisis de datos (vol. II)
5.8. En un estudio sobre la relación entre rigidez y creatividad, un investigador plantea la hipótesis nula
de independencia frente a la hipótesis alternativa de relación negativa (monótona decreciente). En una
$ !2)
muestra aleatoria obtiene, para el estadístico del contraste, un valor T = !2. Sabiendo que P (T >
= 0,98 y utilizando α = 0,05, ¿es razonable rechazar H0 ? ¿Por qué?
5.9. ¿Cuáles de las siguientes afirmaciones podrían servir como conclusión del contraste del ejercicio an-
terior?:
a. La creatividad no tiene nada que ver con la rigidez.
b. La creatividad depende de la rigidez.
c. La rigidez depende de la creatividad.
d. Las puntuaciones altas en rigidez tienden a ir acompañadas de puntuaciones altas en creatividad.
e. Las puntuaciones altas en rigidez tienden a ir acompañadas de puntuaciones bajas en creatividad.
5.10. ¿Qué nivel de significación se ha utilizado en un estudio si, al contrastar la hipótesis nula H0: µD = 0
frente a la alternativa H1: µD = 6 con una muestra aleatoria de tamaño 31 extraída de una población
normal con = 97, la probabilidad de rechazar la hipótesis nula siendo falsa vale 0,80?
6
Análisis de varianza (I)
Un factor
completamente aleatorizado
Ya sabemos cómo abordar el análisis de una variable categórica y una cuantitativa aplican-
do la prueba T de Student para muestras independientes; pero esta prueba solamente sirve
para comparar dos grupos; el análisis de varianza permite extender el análisis a más de dos
grupos. También sabemos cómo comparar variables cuantitativas aplicando la prueba T de
Student para muestras relacionadas; pero esta prueba solamente sirve para comparar dos va-
riables; el análisis de varianza permite comparar más de dos variables. Además, con el aná-
lisis de varianza es posible estudiar simultáneamente más de una variable categórica y valo-
rar su efecto conjunto sobre una variable cuantitativa.
El análisis de varianza o ANOVA (acrónimo de ANalisys Of VAriance) no es una úni-
ca técnica de análisis, sino toda una familia de técnicas que comparten el objetivo de ayudar
a interpretar los datos de un estudio empírico mediante la formulación de modelos esta-
dísticos. Estos modelos permiten valorar el comportamiento de una variable dependiente o
respuesta cuantitativa (variable medida con una escala de intervalos o de razón) a partir de
una o más variables independientes o factores categóricos (variables medidas con una esca-
la nominal u ordinal). También permiten controlar el efecto de variables extrañas (variables
ajenas al estudio) incluyéndolas como covariables.
Aunque estos modelos han surgido en el contexto de los diseños experimentales (Fisher,
1935), son aplicables a cualquier tipo de investigación siempre que se den las circunstancias
apropiadas. Se basan en una estructura matemática relativamente simple, conocida como
modelo lineal general, que posee la suficiente versatilidad como para adaptarse a contextos
muy diversos (ver Capítulo 1 del tercer volumen).
Este capítulo se centra en el modelo de un factor completamente aleatorizado, pero tam-
bién incluye una clasificación de los diferentes modelos de ANOVA y de la lógica en la que
se basan todos ellos. Más adelante estudiaremos el modelo de dos factores (Capítulo 7) y los
modelos de medidas repetidas (Capítulos 8 y 9). Para profundizar en los fundamentos de estos
186 Análisis de datos (vol. II)
modelos (y de otros que no trataremos aquí) pueden consultarse los excelentes manuales de
Keppel y Wickens (2004), Kirk (1995), Maxwell y Delaney (2004), Myers y Well (2003) o
Winer, Brown y Michels (1991).
Número de factores
En los modelos de ANOVA, el término factor es sinónimo de variable independiente. Y se
refiere a una variable categórica que define grupos. Al modelo que únicamente incluye una
variable independiente se le llama ANOVA de un factor (one-way ANOVA); al que inclu-
ye dos variables independientes se le llama ANOVA de dos factores (two-way ANOVA);
etc. A los modelos de más de un factor se les llama modelos factoriales.
En un estudio diseñado para valorar el efecto del nivel de ansiedad (bajo, medio, alto)
sobre el rendimiento en una tarea tenemos una variable independiente o factor (nivel de an-
siedad) y una variable dependiente cuantitativa (rendimiento); los datos de este estudio se
analizan con un ANOVA de un factor. En un estudio diseñado para valorar el efecto del ni-
vel de ansiedad (bajo, medio, alto) y la dificultad de la tarea (fácil, difícil) sobre el rendi-
miento tenemos dos variables independientes o factores (nivel de ansiedad y dificultad de la
tarea) y una variable dependiente cuantitativa (rendimiento); los datos de este estudio se
analizan con un ANOVA de dos factores.
Por lo general, esta asignación de las unidades de análisis a las condiciones del estudio
se realiza de forma aleatoria (es decir, al azar) para que todos los sujetos tengan la misma
probabilidad de ser asignados a cada condición. Se pretende con ello que el conjunto de po-
sibles variables extrañas asociadas a las características de los sujetos (diferencias entre los
sujetos que podrían afectar a los resultados del estudio) queden repartidas de forma similar
entre todas las condiciones. Hay dos estrategias básicas de asignación aleatoria que suelen
recibir el nombre de grupos aleatorios y bloques aleatorios.
En los diseños de grupos aleatorios cada unidad de análisis (cada sujeto) es aleato-
riamente seleccionada y asignada a un nivel del factor. Supongamos que interesa valorar la
cantidad de fármaco idónea para aumentar las horas de sueño de pacientes afectados de in-
somnio. Se tiene una variable independiente o factor (cantidad de fármaco) en la que se han
definido tres niveles (0 mg, 250 mg, 500 mg) y una variable dependiente (horas de sueño) de
la que se puede obtener una medida cuantitativa. Para valorar el efecto del fármaco sobre las
horas de sueño con un diseño de grupos aleatorios, se selecciona aleatoriamente una mues-
tra de pacientes insomnes, se forman aleatoriamente tres grupos y se asigna, también alea-
toriamente, cada grupo a uno de los tres niveles del factor. Al modelo de ANOVA que per-
mite analizar los datos de este diseño se le llama modelo completamente aleatorizado.
La asignación aleatoria es la mejor estrategia para formar grupos equivalentes (grupos
con el máximo control sobre posibles variables extrañas). Pero la asignación aleatoria no
siempre es posible; por ejemplo, al comparar hombres y mujeres en una variable cuantitativa
no es posible decidir quién es hombre y quién es mujer; eso es algo que viene dado. Otras ve-
ces, aun siendo posible la asignación aleatoria, no interesa aplicarla por razones prácticas o
éticas; por ejemplo, al comparar dos métodos de enseñanza se decide aplicar cada método a
los alumnos de un aula simplemente porque no se considera apropiado mezclar los alumnos
aleatoriamente solamente por el interés de la investigación. No obstante, en ambos ejemplos
se tienen grupos aleatorios: en el ejemplo de hombres y mujeres, los sujetos se seleccionan
aleatoriamente; en el ejemplo del método de enseñanza, las aulas se seleccionan aleatoriamen-
te y los métodos se asignan aleatoriamente a las aulas. Ciertamente, el grado de control sobre
posibles variables extrañas no es el mismo en todos estos ejemplos y eso determina el nivel
de indagación que es posible alcanzar; pero la herramienta estadística que permite analizar
los datos es la misma en todos ellos: un modelo de ANOVA completamente aleatorizado.
En los diseños de bloques aleatorios se intenta ejercer mayor control sobre posibles va-
riables extrañas. Si se sospecha que existe alguna variable que puede alterar de forma apre-
ciable las conclusiones del estudio, se puede ejercer sobre ella un control directo modificando
la forma de asignar las unidades de análisis a las condiciones del estudio. Supongamos que
el fármaco cuyo efecto sobre el insomnio se desea valorar tiene la peculiaridad de afectar de
forma diferenciada a los pacientes en función del grado de insomnio que padecen. Se puede
controlar ese efecto formando bloques: si se clasifica a los pacientes seleccionados como
pacientes con insomnio leve, moderado o severo (tres bloques)1 y, tras esto, los sujetos de
un mismo bloque se asignan aleatoriamente a los diferentes niveles del factor (grupo), se
habrá conseguido que dentro de cada grupo haya pacientes con insomnio leve, moderado y
severo; el efecto de la variable extraña habrá quedado controlado al estar todos los grupos
igualados en grado de insomnio. Al proceder de esta manera se tiene un diseño de bloques
1
Aunque en este ejemplo concreto se están formando 3 bloques, el número de bloques que pueden formarse oscila entre
un mínimo de 2 (o se forman al menos 2 bloques o no se forma ninguno) y un máximo de n / k, siendo n el tamaño de la
muestra y k el número de niveles del factor.
188 Análisis de datos (vol. II)
aleatorios y el modelo de ANOVA que permite analizar los datos así obtenidos recibe el
nombre de modelo aleatorizado en bloques.
En un caso extremo de bloqueo cada bloque está formado por un único sujeto: a todos
y cada uno de los sujetos se le aplican todos y cada uno de los niveles del factor. La homo-
geneidad dentro de cada bloque es máxima (y por tanto mínima la presencia de variables
extrañas atribuibles a diferencias entre los sujetos) porque todas las puntuaciones dentro de
un mismo bloque pertenecen a un mismo sujeto. En este caso ya no se habla de diseño de
bloques aleatorios, sino de diseño intrasujetos o diseño con los mismos sujetos; y al mode-
lo de ANOVA que permite analizar estos datos se le llama modelo de medidas repetidas.
Esta distinción basada en la forma de asignar las unidades de análisis a las condiciones
del estudio es equivalente a la ya hecha entre muestras independientes y muestras relacio-
nadas: hablar de diseños completamente aleatorizados equivale a hablar de muestras inde-
pendientes (a cada nivel del factor se asigna un grupo distinto de sujetos); y hablar de diseños
de bloques aleatorios o intrasujetos equivale a hablar de muestras relacionadas (bien porque
los sujetos de un mismo bloque han sido igualados atendiendo a algún vínculo relevante pa-
ra el análisis, bien porque cada bloque está formado por un único sujeto).
efecto del factor hospital podría seleccionarse aleatoriamente una muestra de hospitales (no
sería necesario –ni tal vez posible– seleccionar todos los hospitales). Y los resultados del
estudio estarían indicando, no si dos hospitales concretos difieren entre sí (aquí no interesa
averiguar si tal hospital concreto difiere de tal otro), sino si el factor hospital se relaciona con
el tiempo de convalecencia post-quirúrgica.
de la misma población. Con tres muestras seguimos teniendo variabilidad intragrupos (la que
se da entre los valores de una misma muestra). Pero, además, también tenemos la variabilidad
que se da entre las muestras, pues los valores de una cualquiera de las muestras no tienen por
qué ser iguales, ni siquiera en promedio, a los valores de las demás muestras. A esta segunda
forma de variabilidad entre las muestras la llamamos intergrupos.
La variabilidad intragrupos refleja las diferencias entre las puntuaciones dentro de cada
muestra; la variabilidad intergrupos refleja las diferencias entre las distintas muestras. La
esencia del análisis de varianza consiste en comparar ambas fuentes de variabilidad para
determinar cómo de grande es la variabilidad intergrupos en comparación con la variabili-
dad intragrupos.
Comencemos con el diseño más simple: una variable categórica A (con J categorías o
niveles) y una variable cuantitativa Y (ver Tabla 6.1). Supongamos que la variable cuantita-
tiva Y se distribuye normalmente en las J poblaciones definidas por los J niveles de la varia-
ble categórica A y que todas esas poblaciones normales tienen la misma varianza, es decir,
Supongamos además que de cada población se extrae una muestra aleatoria de tamaño nj de
puntuaciones Yi j (i se refiere a los diferentes elementos de la misma muestra: i = 1, 2, ..., nj;
j se refiere a las diferentes muestras: j = 1, 2, ..., J ; por ejemplo, Y52 se refiere a la 5ª puntua-
ción de la 2ª muestra).
En este escenario, el valor de cada varianza muestral es una estimación concreta de
la varianza de su población. Pero como se está asumiendo que las J poblaciones tienen la
misma varianza, la estimación de esa única varianza poblacional2 puede mejorarse si, en lu-
gar de hacer J estimaciones distintas, se hace una sola estimación basada en la media pon-
derada de las J varianzas muestrales3:
MCE = = = [6.2]
2
No debe confundirse (la varianza de Y en cada población) con la varianza de todas las puntuaciones de Y tomadas
juntas (la varianza total). Estas dos varianzas solamente son iguales cuando todas las poblaciones tienen, además de la misma
varianza, la misma media. Cuando tengamos que utilizar esta segunda varianza quedará claro que nos referimos a ella.
3
En el caso de que todas las muestras tengan el mismo tamaño (es decir, si n1 = n2 = · · · = nJ = n), la ecuación [6.2] se puede
simplificar bastante:
MCE = = = [6 3]
4
La varianza de un conjunto de puntuaciones no se ve alterada si a esas puntuaciones se le añade una constante. Por tanto,
el estimador propuesto en [6.2] no depende del valor de las medias.
Capítulo 6. ANOVA de un factor 191
Supongamos ahora que las J poblaciones normales, además de la misma varianza, tam-
bién tienen la misma media. Si esto es así, las J muestras aleatorias seleccionadas pueden
considerarse muestras de la misma población (pues han sido seleccionadas de J poblaciones
idénticas). Esto significa que las medias de esas muestras pueden utilizarse para obtener un
nuevo estimador de la varianza poblacional. Sabemos que la varianza de la distribución
muestral de la media5 se relaciona con la varianza poblacional mediante = (n es el
tamaño de la muestra). Por tanto, si se tienen J muestras de la misma población, la varianza
de Y puede estimarse mediante6
A este estimador de basado en la variabilidad existente entre las medias de las diferen-
tes muestras se le llama media cuadrática intergrupos y se representa mediante MCI. Y
puesto que, de momento, esta MCI únicamente incluye la variabilidad debida al factor A,
también se le llama MCA.
Por tanto, tenemos dos estimadores de la varianza poblacional. Uno de ellos, MCE, es
independiente del valor de las medias poblacionales, pues se basa en la variabilidad de las
puntuaciones individuales respecto de la media de su propia muestra. El otro, MCA, depen-
de del valor de las medias poblacionales porque se basa en la variabilidad existente entre las
medias muestrales; únicamente es un estimador de la varianza poblacional cuando las mues-
tras se extraen de la misma población o de J poblaciones idénticas.
Por tanto, si MCA y MCE se calculan a partir de muestras aleatorias extraídas de pobla-
ciones con la misma media, sus valores serán parecidos. Por el contrario, si se calculan en
muestras extraídas de poblaciones que no tienen la misma media, el valor de MCA será ma-
yor que el valor de MCE, pues MCA estará reflejando no solamente variabilidad aleatoria en-
tre las medias muestrales, sino variabilidad debida al hecho de que las medias poblacionales
son distintas. Esto significa que el tamaño relativo de MCA respecto del de MCE está infor-
mando del grado de parecido existente entre las medias poblacionales.
Ahora bien, aunque las medias poblacionales sean iguales, como MCA y MCE son valo-
res muestrales, raramente tomarán valores idénticos. Cabe esperar que, aun siendo iguales
las medias poblacionales, entre MCA y MCE existan ligeras diferencias atribuibles a las fluc-
tuaciones propias del azar muestral. La clave está precisamente en poder determinar cuándo
la diferencia entre MCA y MCE es lo bastante grande como para pensar que no se debe al azar
muestral, sino al hecho de que las medias poblacionales son distintas. Justamente esto es lo
que hace el análisis de varianza comparando MCA y MCE mediante
F = = [6.6]
5
La distribución muestral de la media es la distribución de las medias calculadas en todas las muestras de tamaño n que
es posible extraer de una determinada población (en caso necesario, repasar el concepto de distribución muestral en el
Capítulo 6 del primer volumen).
6
En el caso de que todas las muestras tengan el mismo tamaño (n1 = n2 = · · · = nJ = n), la ecuación [6.4] se reduce a:
MCA = = n = [6 5]
192 Análisis de datos (vol. II)
La distribución muestral de este cociente (ver Apéndice 6) fue establecida por Fisher (1924)
y etiquetada distribución F en su honor por Snedecor (1934). El estadístico F refleja el gra-
do de parecido existente entre las medias poblacionales. Si las medias poblacionales son
iguales, las medias muestrales de los diferentes grupos serán parecidas, existiendo entre ellas
tan solo diferencias atribuibles al azar. En ese caso, el numerador (basado en las diferencias
entre las medias muestrales) reflejará un grado de variación similar al del denominador (ba-
sado en las diferencias entre las puntuaciones individuales dentro de cada grupo) y el cocien-
te F tomará un valor próximo a 1. Por el contrario, si las medias muestrales son distintas, el
numerador será mayor que el denominador y el estadístico F tomará un valor mayor que 1.
Cuanto más diferentes sean las medias muestrales, mayor será el valor de F.
Si las poblaciones muestreadas son normales y sus varianzas iguales, el estadístico F
se aproxima a la distribución F con J !1 y N ! J grados de libertad (ver, en el Apéndice 6, el
apartado Distribución muestral del estadístico F ). Y puesto que el estadístico F, además de
informar del grado de parecido entre las medias, tiene distribución muestral conocida, te-
nemos todo lo necesario para diseñar un contraste sobre la hipótesis de igualdad de medias.
Tabla 6.1. Estructura de los datos y notación en un diseño de un factor completamente aleatorizado (A-CA)
a1 ··· ···
a2 ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ···
aj ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ···
aJ ··· ···
Los subíndices son necesarios para identificar cada elemento de la tabla. A los J grupos o
niveles del factor A los representamos mediante a1, a2, ..., aj..., aJ ; por tanto, j = 1, 2, ..., J.
En el modelo de un factor es necesario utilizar dos subíndices para representar cada valor de
Y: el primero de ellos (i) se refiere a los diferentes elementos (generalmente sujetos) del
mismo grupo: i = 1, 2, ..., nj ; el segundo ( j) se refiere a los diferentes grupos. Así, por
ejemplo, Y52 se refiere a la puntuación obtenida por el 5º sujeto del 2º grupo.
Los grupos pueden tener o no el mismo tamaño; el tamaño de cada grupo lo represen-
taremos mediante nj , con N = n1 + n2 + · · · + nj + · · · + nJ. El signo “+” colocado como subín-
dice se refiere a todos los valores del subíndice al que sustituye. Por ejemplo, Y+2 se refie-
re a todas las puntuaciones (todos los valores i) del segundo grupo ( j = 2). Para representar
estas sumas o totales utilizaremos la letra T. Las sumas o totales de cada grupo ( ) se ob-
tienen sumando desde 1 hasta nj todas las puntuaciones de ese grupo:
= = [6.7]
Por ejemplo, el total del grupo 1 (T1) se obtiene sumando las n1 puntuaciones de la primera
fila de la tabla (es decir, sumando la fila a1). Y el gran total (T ) se obtiene sumando todas las
puntuaciones de la tabla:
= = = [6.8]
A partir de estos totales es fácil obtener las medias de cada grupo y la media total; basta con
dividir los correspondientes totales por el número de puntuaciones utilizadas para obtenerlos:
= = y = = [6.9]
La hipótesis nula que se pone a prueba con el ANOVA de un factor es que las J medias po-
blacionales son iguales. El Cuadro 6.1 ofrece un resumen de los pasos que seguiremos para
contrastar esta hipótesis. Para que el estadístico F propuesto en [6.6] permita contrastar la
hipótesis de igualdad de medias estamos asumiendo que se dan ciertas condiciones: muestras
aleatorias extraídas de poblaciones normales con la misma varianza. En el siguiente aparta-
do hablaremos de estas condiciones.
194 Análisis de datos (vol. II)
Tenemos una variable categórica o factor (nivel de ansiedad) con tres niveles que definen tres
grupos y una variable cuantitativa ( puntuaciones en rendimiento) en la cual queremos com-
7
A partir de ahora suprimiremos el subíndice Y de las medias poblacionales µ para simplificar la notación. Por tanto, siem-
pre que utilicemos el símbolo µ sin indicación de la variable a la que se refiere (X, Y, Z, etc.), asumiremos que se trata de
la media poblacional de Y.
Capítulo 6. ANOVA de un factor 195
parar los grupos. La Figura 6.1 muestra los diagramas de caja correspondientes a los tres gru-
pos del estudio. En ninguno de ellos se observan casos atípicos; tampoco se aprecian indicios
de asimetría; y el grado de dispersión es parecido en todos ellos. El grupo de nivel de ansie-
dad medio es el que obtiene el rendimiento medio más alto; el de nivel de ansiedad alto, el
que muestra el rendimiento medio más bajo.
Figura 6.1. Diagramas de caja correspondientes a los tres grupos de la tabla 6.2
Veamos si las diferencias que se aprecian en los diagramas de caja son estadísticamente sig-
nificativas. Asumiendo que las tres muestras se han seleccionado aleatoriamente de pobla-
ciones normales con la misma varianza, la hipótesis de igualdad de medias puede contras-
tarse aplicando un ANOVA de un factor completamente aleatorizado:
1. Hipótesis: H0: µ bajo = µ medio = µ alto .
H1: µ j =/ µ j para algún j o jN (j =/ jN).
2. Supuestos: tenemos 3 muestras aleatorias extraídas de poblaciones que asumimos nor-
males y con la misma varianza.
3. Estadístico del contraste (ver ecuaciones [6.3], [6.5] y [6.6]):
_
Y = (9 + 14 + 7) / 3 = 10.
= [(9 ! 10)2 + (14 ! 10)2 + (7 ! 10)2 ] / 2 = 13.
MCA = 10 (13) = 130.
MCE = (10,89 + 13,33 + 15,11) / 3 = 13,11.
F = MCA « MCE = 130 / 13,11 = 9,92.
4. Distribución muestral: F se distribuye según FJ !1, N !J = F3 !1, 30 ! 3 = F2, 27.
5. Zona crítica: F $> F2, 27; 0,95 . 3,35.
6. Decisión: como el valor del estadístico del contraste (9,92) es mayor que el punto críti-
co (3,35), se rechaza H0. Se puede concluir, por tanto, que los promedios poblacionales
comparados no son iguales. El rechazo de la hipótesis de igualdad de medias nos dice que
el rendimiento medio no es el mismo en los tres grupos, pero no nos dice qué grupos di-
fieren de qué otros. Para saber esto es necesario seguir haciendo comparaciones. Estas
comparaciones (llamadas múltiples) se estudian más adelante en este mismo capítulo.
7. Nivel crítico: p = P (F $ > 9,92) < 0,01.
196 Análisis de datos (vol. II)
En el apartado anterior hemos presentado lo que podríamos llamar una versión abreviada del
ANOVA de un factor completamente aleatorizado. Para contrastar la hipótesis de igualdad
de medias basta con conocer esta versión abreviada.
Pero el análisis de varianza es una concreción de un modelo estadístico en el que se basan
varios de los procedimientos que hemos estudiando y que estudiaremos más adelante: el mo-
delo lineal general (ver el Capítulo 1 del tercer volumen). Y ocurre que todo modelo estadís-
tico necesita ir acompañado de una serie de aclaraciones referidas a las condiciones que deben
darse para que el modelo funcione correctamente. A estas condiciones las llamamos supues-
tos. En este apartado nos vamos a ocupar de los supuestos asociados al modelo de un factor.
El estadístico F propuesto en [6.6] permite tomar decisiones sobre la hipótesis de igual-
dad de medias porque, si se dan ciertas condiciones, se aproxima a la distribución F con J !1
y N ! J grados de libertad. Estas condiciones (supuestos) son las que garantizan que la pro-
babilidad de cometer errores Tipo I y Tipo II es la que estamos asumiendo que es y no otra.
Al definir el estadístico F hemos considerado en todo momento que estábamos traba-
jando con muestras aleatorias procedentes de poblaciones normales con la misma varianza.
De estas condiciones iniciales es de donde se derivan los tres supuestos del ANOVA de un
factor completamente aleatorizado: independencia entre las puntuaciones, normalidad de las
poblaciones y homocedasticidad (varianzas poblacionales iguales).
El incumplimiento de uno o más de estos supuestos puede hacer que la distribución
muestral del estadístico F cambie y, consecuentemente, que el nivel de significación adopta-
do (generalmente 0,05) no coincida con el nivel de significación real, pasando a ser menor
(haciendo el contraste más conservador) o mayor (haciendo el contraste más liberal). Esto
significa que el incumplimiento de uno o más de estos supuestos puede llevar a tomar deci-
siones equivocadas. Lo cual es especialmente relevante si se tiene en cuenta que los datos de
los estudios que suelen llevarse a cabo en el ámbito de las ciencias sociales y de la salud
raramente cumplen todos los supuestos en los que se basa la distribución muestral del esta-
dístico F. En general, el estadístico F es robusto (es decir, ofrece resultados correctos en
condiciones desfavorables) frente a desviaciones moderadas de los supuestos en los que se
basa (ver Glass, Peckham y Sanders, 1972), pero desviaciones más acusadas pueden alterar
de forma importante la probabilidad de cometer errores Tipo I y II, y esto puede tener graves
consecuencias sobre las conclusiones del análisis. Veamos algunos aspectos relacionados con
estos supuestos.
Independencia
En el análisis de varianza de un factor, el supuesto de independencia se refiere a que cada
puntuación debe ser independiente de las demás (independiente de las de su mismo grupo y
de las del resto de los grupos). En la práctica, la independencia se consigue con la selección
aleatoria de los sujetos y/o la asignación aleatoria de los mismos a las condiciones del estu-
dio8. Las consecuencias del incumplimiento del supuesto de independencia pueden ser gra-
8
La independencia entre las puntuaciones no es un requisito exclusivamente estadístico; también es un requisito experi-
mental . Recordemos que, si las unidades de análisis no se asignan aleatoriamente a las condiciones del estudio, no habrá
forma de separar el efecto de la variable independiente o factor del efecto de posibles variables extrañas.
Capítulo 6. ANOVA de un factor 197
ves (ver Kenny y Judd, 1986; Scariano y Davenport, 1987), de modo que es muy importan
te cuidar los aspectos relativos a la selección y asignación de sujetos.
No es infrecuente encontrar incumplimientos de este supuesto. Un ejemplo típico se da
cuando se realizan repetidas mediciones de los mismos sujetos, de manera que el número to-
tal de puntuaciones es mayor que el número total de sujetos. En un diseño completamente
aleatorizado hay que procurar que cada puntuación se corresponda con un sujeto distinto. No
obstante, esto no necesariamente garantiza la independencia entre las puntuaciones. Siempre
es posible encontrar sujetos distintos que no se comportan de forma independiente; es decir,
sujetos distintos que muestran comportamientos similares en la variable estudiada: miembros
de la misma familia, estudiantes de la misma clase, pacientes de un mismo hospital, parti-
cipantes en un experimento que interaccionan entre sí en su actividad cotidiana, miembros
de un mismo colectivo social o religioso, etc.
Si existen dudas acerca de la aleatoriedad de las puntuaciones de un estudio concreto,
puede utilizarse la prueba de las rachas para contrastar la hipótesis de que las muestras uti-
lizadas son aleatorias (ver Apéndice 2).
Normalidad
El segundo de los supuestos se refiere a que las puntuaciones de cada grupo constituyen una
muestra aleatoria extraída de una población normal. En varios trabajos ha quedado probado
que el estadístico F es robusto frente al incumplimiento de este supuesto (Box, 1953; Jagers,
1980; Lix, Keselman y Keselman, 1996).
Si las desviaciones de la normalidad son muy acusadas, pueden detectarse fácilmente
utilizando sencillos métodos gráficos (Chambers, Cleveland, Kleiner y Tukey, 1983; Iman
y Conover, 1983; Wainer y Thissen, 1993). Los gráficos de normalidad ya estudiados (Q-Q
normal y Q-Q normal sin tendencias; ver, en el Capítulo 2, el apartado Contrastes sobre la
forma de una distribución), son una herramienta muy útil en este sentido. Pero no olvidemos
que estos gráficos son apropiados, sobre todo, para valorar la normalidad de muestras gran-
des; con muestras pequeñas es preferible contrastar la hipótesis de normalidad mediante
alguno de los procedimientos descritos en el Capítulo 2.
Si las poblaciones muestreadas, aun no siendo normales, son simétricas o tienen forma
parecida (por ejemplo, todas positivamente asimétricas y leptocúrticas), el estadístico F ofrece
resultados correctos incluso con tamaños muestrales relativamente pequeños (ver Tan, 1982).
No obstante, siempre es recomendable trabajar con tamaños muestrales moderadamente gran-
des para tener la garantía de que el estadístico F se comportará correctamente incluso cuan-
do las poblaciones originales se desvíen sensiblemente de la normalidad. En el caso de tener
que trabajar con muestras pequeñas procedentes de poblaciones no normales, es preferible
utilizar procedimientos alternativos al estadístico F como, por ejemplo, la prueba de Kruskal-
Wallis estudiada en el Capítulo 4 (Wilcox, 1996; Good y Lunneborg, 2006).
y los tamaños muestrales son iguales y no demasiado pequeños. Pero en las ciencias sociales
y de la salud no es infrecuente tener que trabajar con datos en los que la varianza más grande
es más de doce veces mayor que la más pequeña (Tomarken y Serlin, 1986; Wilcox, 1987a).
Y cuando las varianzas poblacionales son distintas, el comportamiento del estadístico F puede
resultar insatisfactorio incluso con tamaños muestrales iguales (Harwell, Rubinstein, Hayes
y Olds, 1992; Rogan y Keselman, 1977; Tomarken y Serlin, 1986; Wilcox, 1987a; Wilcox,
Charlin y Thompson, 1986; etc.). Y si los tamaños muestrales son diferentes, varios trabajos
(ver Glass, Peckham y Sanders, 1972, para una revisión) coinciden en señalar que el estadís-
tico F deja de ser robusto: se convierte en muy conservador cuando las varianzas más gran-
des corresponden a los grupos de mayor tamaño (perdiendo, además, potencia) y en marca-
damente liberal cuando las más grandes corresponden a los grupos de menor tamaño.
Estas consideraciones sugieren que, cuando se tiene intención de utilizar el estadístico
F para contrastar la hipótesis de igualdad de medias, es más que recomendable contrastar
previamente la hipótesis de igualdad de varianzas. Existen varios procedimientos para esto,
pero no todos ellos son igualmente robustos frente al incumplimiento del supuesto de nor-
malidad (ver O’Brien, 1981). Uno de los más utilizados (incluido en el SPSS) es el propues-
to por Levene (1960). Consiste en transformar las puntuaciones originales en _ desviaciones
D i j en valor absoluto de las medias de sus respectivos grupos (D i j = | Yi j ! Y j |) y aplicar el
estadístico F a las puntuaciones transformadas. Si las varianzas poblacionales son iguales,
las desviaciones Di j tendrán promedios parecidos en todos los grupos y servirán como refe-
rencia del grado del parecido existente entre las varianzas. Una F significativa llevará al
rechazo de la hipótesis de igualdad de varianzas. Brown y Forsythe (1974a) han propuesto
un procedimiento idéntico al de Levene, pero utilizando las medianas en lugar de las medias
para obtener las puntuaciones transformadas D i j.
Si alguno de estos procedimientos9 lleva al rechazo de la hipótesis de igualdad de va-
rianzas, lo razonable es contrastar la hipótesis de igualdad de medias con alguna prueba
alternativa al estadístico F. Ya hemos mencionado que la prueba de Kruskal-Wallis estudia-
da en el Capítulo 4 representa una alternativa robusta cuando no puede asumirse normali-
dad; pero, cuando no puede asumirse igualdad de varianzas, Vargha y Delaney (1998; ver
también Keselman, Games y Rogan, 1979) recomiendan utilizar los estadísticos propuestos
por Welch (1951) y Brown y Forsythe (1974b) basados en una modificación del estadístico
F (estos estadísticos son los que incluye el SPSS como métodos alternativos al estadístico F
y se describen al final de este capítulo, en el Apéndice 6).
Acabamos de señalar que el estadístico F requiere trabajar con poblaciones normales y homo-
cedásticas; y que, cuando no se dan estas condiciones, lo recomendable es utilizar procedi-
mientos alternativos (hemos mencionado la prueba de Kruskal-Wallis –ver Capítulo 4– y las
de Welch y Brown-Forsythe –ver Apéndice 6–). No obstante, cuando las poblaciones no son
9
En Conover, Johnson y Johnson (1981) se comparan 60 procedimientos diferentes para contrastar la igualdad de varian-
zas. O’Brien (1981) ha diseñado un método de bastante aceptación (ver, por ejemplo, Pardo y San Martín, 1998, pág. 271);
Cochran (1941) ha propuesto un estadístico basado en el cociente entre la varianza más grande y la suma de las J varian-
zas (ver Kirk, 1995, pág. 101); el método de Hartley (1940, 1950), uno de los más utilizados en el pasado, se basa en el co-
ciente entre la varianza más grande y la más pequeña (ver Kirk, 1995, pág. 101); etc.
Capítulo 6. ANOVA de un factor 199
H0 : = 0 [6.10]
Puesto que la varianza de las medias solamente valdrá cero cuando todas las medias sean
iguales, el rechazo de la hipótesis formulada en [6.10] permitirá concluir que las medias po-
blacionales no son iguales.
Las hipótesis que se contrastan con uno y otro tipo de factores nos ponen en la pista del
tipo de inferencias que es posible hacer. Con un factor es de efectos fijos, las inferencias se
limitan a los niveles concretos incluidos en el análisis; los niveles que interesa estudiar son
justamente los que se están estudiando; ellos constituyen la población de niveles del factor;
si se replicara el experimento, aunque los sujetos serían, muy probablemente, diferentes, los
niveles del factor serían los mismos. Con los factores de efectos aleatorios no ocurre esto:
los niveles concretos incluidos en el análisis solamente constituyen una muestra aleatoria de
la población de niveles que interesa estudiar; las inferencias, por tanto, se realizan, no sobre
los niveles incluidos en el estudio, sino sobre la población de posibles niveles del factor.
Excepto por lo que se refiere a algún detalle relacionado con la cuantificación del tama-
ño del efecto (ver siguiente apartado), el hecho de que un factor sea de efectos fijos o de efec-
tos aleatorios no tiene consecuencias sobre los cálculos involucrados en los modelos de un
factor; sí las tiene, sin embargo, en los modelos de más de un factor, de modo que más ade-
lante tendremos que volver sobre esto.
= [6.11]
Esta medida (a la que Cohen llama f ) es equivalente a la que ya estudiada para el caso de dos
medias (ver ecuación [4.12]). Sustituyendo las medias y la varianza poblacionales por sus
correspondientes estimadores muestrales se obtiene
= = [6.12]
Para interpretar , Cohen (1992a) ha propuesto una regla general que puede servir de guía
en la mayor parte de los contextos aplicados: valores en torno a 0,10, 0,25 y 0,40 represen-
tan, respectivamente, efectos de tamaño pequeño, mediano y grande.
La variabilidad entre las medias y la variabilidad entre las puntuaciones individuales tam-
bién puede utilizarse para obtener la proporción de varianza común, es decir, el grado de re-
lación existente entre la variable categórica o factor y la variable cuantitativa o dependien-
te. Esto es justamente lo que hacen las medidas del tamaño del efecto que estudiaremos a
continuación: todas ellas intentan estimar el verdadero tamaño del efecto en la población (la
verdadera diferencia entre las medias) comparando distintas fuentes de variabilidad para
obtener una estimación de la proporción de varianza común.
La más antigua de estas medidas, eta-cuadrado, fue inicialmente propuesta por Pearson
(1905) e incorporada más tarde por Fisher (1925, 1935) al contexto de los modelos de aná-
lisis de varianza:
= = [6.13]
El valor de expresa el grado de asociación (no solo lineal, sino de cualquier tipo) existen-
te entre la variable categórica o factor y la variable cuantitativa o dependiente (si se aplica
al caso de dos medias, = RXY). El numerador de es una cuantificación de la variabilidad
existente entre las medias; el denominador, una cuantificación de la variabilidad total; el
cociente entre ambas cuantificaciones indica cómo es de grande la variabilidad entre las
202 Análisis de datos (vol. II)
medias en comparación con la variabilidad total. Por tanto, puede interpretarse como la
proporción de varianza que comparten la variable categórica o factor y la variable cuantita-
tiva o dependiente: indica el grado en que aumenta el conocimiento (o se reduce la incer-
tidumbre) de las puntuaciones de la variable dependiente por el hecho de saber a qué nivel
del factor (a qué grupo) pertenecen.
El problema de es que tiende a ofrecer estimaciones sesgadas de la verdadera pro-
porción de varianza común (en concreto, la sobrestima; es decir, tiende a ofrecer valores más
altos que el del parámetro que estima; ver, por ejemplo, Fowler, 1985). Una corrección debi-
da a Wherry (1931) permite reducir ese sesgo:
= [6.14]
También para corregir el sesgo de , Kelley (1935, págs. 554-559) y, posteriormente, Pe-
ters y Van Voorhis (1940) y Cohen (1966), han propuesto utilizar una modificación de
llamada épsilon-cuadrado:
= [6.15]
= [6.16]
= [6.17]
(n se refiere al tamaño de cada grupo o al promedio de los tamaños en caso de que sean dis-
tintos). La ecuación [6.17] también se conoce como coeficiente de correlación intraclase,
una medida que indica el grado de parecido entre las puntuaciones del mismo grupo en com-
paración con el grado de parecido entre las puntuaciones de grupos distintos.
12
No deja de ser sorprendente que, a pesar de ser de la medida de asociación que acapara las preferencias de los expertos,
muchos programas de análisis estadístico, incluido el SPSS, no la incluyan como tal entre sus opciones.
13
Si el estadístico F es menor que 1 (es decir, si MCA < MCE ), las ecuaciones [6.16] y [6.17] ofrecen un valor negativo.
Puesto que una proporción no puede ser negativa, cuando ocurre esto se considera que ω2 vale cero.
14
El valor de también puede obtenerse a partir del estadístico F. Cuando el factor es de efectos fijos, la ecuación [6.16]
equivale a = [(J ! 1) (F ! 1)] / [N + (J !1) (F !1)]. Cuando el factor es de efectos aleatorios, la ecuación [6.17] equivale
a = (F ! 1) / [(N ! 1) + F].
Capítulo 6. ANOVA de un factor 203
= = =
= =
= = =
= = =
El valor de es mayor que el del resto de las medidas (ya hemos señalado que, como esti-
mador de la verdadera proporción de varianza común, ofrece estimaciones infladas). El
resto de medidas toman el mismo valor. La interpretación de una medida de este tipo (va-
rianza común) puede hacerse en términos del grado de incertidumbre en que se reduce nues-
tro conocimiento de la variable dependiente por el hecho de saber a qué grupo pertenece ca-
da sujeto. En nuestro ejemplo, saber a qué grupo (nivel de ansiedad) pertenecen los sujetos
reduce nuestra incertidumbre (mejora nuestro conocimiento) sobre su rendimiento un 38 %.
Y de acuerdo con la regla de Cohen para este tipo de medidas (0,01; 0,06; 0,14), puede
concluirse que la intensidad de la asociación encontrada es alta.
Aplicando la ecuación [6.12] para calcular la medida del tamaño del efecto con estos
mismos datos obtenemos
= =
Valor que, de nuevo con la regla de Cohen (0,10; 0,25; 0,40), representa un efecto de tama-
ño grande.
Es evidente que las medidas del tamaño del efecto ofrecen información adicional a la del
estadístico F : contribuyen a distinguir entre la significación estadística de un resultado y su
relevancia o importancia práctica (Kirk, 1996); sirven para estimar la potencia de un contras-
te y elegir el tamaño muestral idóneo al planificar un estudio (Cohen, 1988; ver siguiente
apartado); y facilitan la recopilación de los resultados de diferentes estudios al realizar un
meta-análisis (Hunter y Schmidt, 2004; Rosenthal, 1991). Éstas son, sin duda, algunas de las
razones por las que muchos autores (también los editores de las más importantes revistas
científicas), recomiendan utilizar las medidas del tamaño del efecto e incluirlas en los in-
204 Análisis de datos (vol. II)
formes de investigación (Abelson, 1995; Cohen, 1988; Murphy, 1997; Thomson, 1994, 1997;
etc.). Especialmente relevantes en este sentido son las recomendaciones del informe de Wil-
kinson y la APA Task Force on Statistical Inference (1999).
No obstante, ya hemos señalado (ver, en el Capítulo 1, el apartado Tamaño del efecto)
que las medidas del tamaño del efecto no deben ser consideradas una panacea en el análisis
de datos. La razón principal de esto es que su significado no parece estar del todo claro (en
relación con esta problemática merecen destacarse las interesantes reflexiones de Chow,
1996, págs. 89-118; y O’Grady, 1982).
La estrategia que presentamos en este apartado para calcular la potencia asociada al esta-
dístico F se basa en una medida del tamaño del efecto llamada (phi) y en la distribución
F no centrada (Tabla G del Apéndice final)15.
Si la hipótesis de igualdad de medias es verdadera, el estadístico F sigue el modelo de
distribución de probabilidad F con parámetros J !1 y N ! J (sus grados de libertad). Si la
hipótesis de igualdad de medias es falsa, el estadístico F se distribuye según la F no centra-
da con un tercer parámetro de no-centralidad llamado λ (letra griega lambda):
= [6.18]
= [6.19]
15
Un tratamiento completo de todo lo relacionado con la definición y cálculo de la potencia puede encontrarse en Cohen
(1988). Kirk (1995, págs. 182-188) y Maxwell y Delaney (2004, págs. 120-126) presentan el cálculo de la potencia a par-
tir de gráficos explícitamente diseñados para ello. Y Hays (1994, págs. 408-410) utiliza un procedimiento basado en su
estadístico ω2. Todas estas aproximaciones, incluida la que nosotros proponemos aquí, son equivalentes, es decir, ofrecen
los mismos resultados (ver Winer, Brown y Michels, 1991, págs. 126-140).
Capítulo 6. ANOVA de un factor 205
ra obtener una estimación de estos parámetros. Cualquiera que sea la forma de obtener esta
información, una vez obtenida el valor de puede estimarse mediante16
= = = [6.20]
En nuestro ejemplo sobre la relación entre ansiedad y rendimiento con J = 3 grupos (ver Ta-
bla 6.2) hemos obtenido MCA = 130 y MCE = 13,11. Por tanto,
= =
Para calcular la potencia del contraste llevado a cabo con los datos de la Tabla 6.2 necesi-
tamos α = 0,05, gl1 = J ! 1 = 2, gl2 = N ! J = 27 y = 2,57. En la Tabla G del Apéndice fi-
nal (redondeando a gl2 = 30 y = 2,6), encontramos que la probabilidad de cometer errores
Tipo II (β) vale 0,02. Por tanto, la potencia de este contraste vale 1 ! β = 1 ! 0,02 = 0,98.
Puesto que tanto gl2 como se han redondeado por arriba, es muy posible que el valor de
la potencia sea una o dos décimas menor de 0,98.
Calcular la potencia de un contraste después de llevarlo a cabo tiene el interés de saber
con qué potencia se ha trabajado (potencia observada) asumiendo que el efecto en la po-
blación es el efecto observado en la muestra. Si la potencia observada es alta, perfecto; pero
si la potencia observada es baja, ya no hay forma de arreglar el problema. Lo realmente in-
teresante es poder diseñar cada estudio de tal forma que pueda conocerse de antemano la
potencia con la que se va a trabajar. Y esto pasa por calcular el tamaño muestral necesario pa-
ra alcanzar una determinada potencia. Puesto que la potencia depende del nivel de signifi-
cación (α), del tamaño del efecto ( ) y del número (J ) y tamaño (n) de los grupos, una vez
establecido el nivel de significación (generalmente 0,05), el tamaño del efecto que se desea
poder detectar o que se considera mínimamente relevante ( o ), la potencia que se desea
alcanzar (generalmente 0,80) y el número de grupos con el que se va a trabajar (J ), tenemos
todo lo necesario para calcular el tamaño muestral. Ahora bien, para esto hace falta separar
el tamaño muestral del resto de los elementos en la ecuación [6.20]. Al eliminar el tamaño
muestral de [6.20], queda la medida del tamaño del efecto definida por Cohen (ver [6.12]):
= ÷ n = [6.21]
(n se refiere al tamaño de cada grupo). Supongamos que en un estudio con 3 grupos (gl1 = 2)
y α = 0,05 queremos que la potencia del contraste para detectar un efecto de tamaño medio
(δ = 0,25 según la regla de Cohen) valga 0,80 (β = 0,20). Tenemos que utilizar la Tabla G
al revés de como lo hemos hecho antes, pero ahora nos encontramos con que no conocemos
los grados de libertad gl2, pues dependen del tamaño muestral que estamos buscando. Esto,
sin embargo, no representa ningún problema porque utilizar un valor de partida de 30 o ma-
yor no hace cambiar las cosas. Podemos elegir, por ejemplo, gl2 = . Así, con gl1 = 2, gl2 =
y β = 0,20, la Tabla G ofrece un valor de 1,8 para . Por tanto, n = (1,8 / 0,25)2 = 51,8. Es
decir, para alcanzar una potencia de 0,80 hacen falta, redondeando al entero mayor, 52 suje-
tos por grupo.
16
Aunque la ecuación [6.18] permite entender fácilmente el significado del parámetro de no-centralidad , este parámetro
puede estimarse fácilmente mediante (J ! 1) F. En cuyo caso, puede estimarse mediante = .
206 Análisis de datos (vol. II)
Para comprobar que nuestros cálculos son correctos podemos realizar la acción inver-
sa de averiguar cuánto vale la potencia de un estudio con J = 3 grupos (gl1 = 2), 52 sujetos
por grupo (gl2 = 153) y un efecto de tamaño medio (δ = 0,25). Con estos datos, el parámetro
vale δ = = 1,80. Y la Tabla G indica que el valor de β es algo menor de 0,24.
Por tanto, el valor de la potencia, 1 ! β, es algo mayor de 0,76.
Comparaciones lineales
En el contexto de los contrastes sobre medias, una comparación lineal (o contraste lineal)
es una combinación lineal (suma ponderada) de medias con pesos o coeficientes, no todos
iguales a cero, que suman cero.
Utilizaremos los símbolos para representar la h-ésima comparación entre J medias
poblacionales y para representar el valor muestral o estimado de esta comparación.
Aclaremos la definición de comparación lineal que acabamos de presentar. Imaginemos
un estudio con cinco tratamientos o grupos y, por tanto, con cinco medias poblacionales: µ1,
µ 2, µ 3, µ 4 y µ 5. Con estas cinco medias es posible realizar, por ejemplo, comparaciones en-
tre pares de medias como
= µ1 ! µ2
[6.23]
= µ2 ! µ3
Pero las comparaciones entre pares de medias no son las únicas que es posible plantear. Tam-
bién es posible plantear comparaciones del tipo
= (µ 1 + µ 2 ) ! (µ 3 + µ 4 )
= (µ 1 + µ 2 + µ 3 ) / 3 ! (µ 4 + µ 5 ) / 2 [6.24]
= (µ 1 + µ 2 + µ 3 + µ 4 ) / 4 ! µ 5
17
Los procedimientos diseñados para efectuar comparaciones múltiples entre medias son muchos y muy variados. El lector
interesado en ampliar los aquí expuestos puede consultar, por ejemplo, Hochberg y Tamhane (2009), Hsu (1996) , Miller
(1981) y Toothaker (1991, 1999).
Capítulo 6. ANOVA de un factor 207
En se están comparando las medias 1 y 2 tomadas juntas con las medias 3 y 4 tomadas
juntas; en , las medias 1, 2 y 3 tomadas juntas con las medias 4 y 5 tomadas juntas; y en
, las cuatro primeras medias tomadas juntas con la última.
Las llamamos comparaciones múltiples porque se están planteando varias comparacio-
nes simultáneamente. Cada una de estas comparaciones (y cualquier otra que se nos ocurra
formular) puede expresarse como una combinación lineal de J medias con coeficientes cj
conocidos que verifican dos condiciones: (1) al menos uno de los coeficientes cj es distinto
de cero y (2) la suma de todos ellos vale cero. Es decir:
= c1 µ 1 + c2 µ 2 + · · · + cJ µJ = cj µ j [6.25]
con cj =/ 0 para algún j, y ' cj = 0. La pregunta que surge en este momento es cómo asignar
coeficientes a las medias para que la comparación resultante exprese justamente la dife-
rencia entre medias que se desea plantear.
Para asignar coeficientes correctamente hay que tener presente que cualquiera que sea
el tipo de comparación planteada, en una comparación concreta siempre se están comparan-
do dos cosas. Aunque sean varias las medias involucradas, la comparación siempre consis-
te en comparar una cosa (una media o grupo de medias) con otra cosa (otra media o grupo
de medias). Y esas dos cosas se comparan restándolas (igual que hemos hecho, por ejemplo,
para comparar dos medias con la prueba T de Student).
La asignación de coeficientes para comparar dos medias (como en las comparaciones
y propuestas en [6.23]) es bastante simple: se asigna un 1 a una de las medias que se de-
sea comparar, un !1 a la otra media (da igual a cuál de las dos medias se le asigne el valor
negativo) y ceros al resto de las medias para eliminarlas de la comparación. Así, para defi-
nir las comparaciones y de [6.23] en el formato propuesto en [6.25] haremos
Para comparar dos grupos de medias (situación que se da cuando en uno de los dos grupos
o en los dos hay al menos dos medias, como en las comparaciones , y propuestas
en [6.24]), se asignan a las medias de cada grupo coeficientes iguales al número de medias
que forman parte del otro grupo y, arbitrariamente, se hacen negativos los coeficientes de uno
de los dos grupos. Así, al definir las comparaciones y de [6.24] en el formato pro-
puesto en [6.25], nos queda
Vemos, pues, que cualquier tipo de diferencia entre medias puede plantearse como una com-
binación lineal si se eligen los coeficientes apropiados.
Si, en lugar de utilizar las medias
_ poblacionales µ j para definir una comparación , se
utilizan las medias muestrales Y j , el resultado es una comparación muestral que sirve co-
mo estimador de la comparación poblacional:
= = [6.26]
Lo interesante de este tipo de combinaciones lineales no es solo que permiten definir cual-
quier comparación entre medias, sino que es muy fácil trabajar con ellas porque conocemos
tanto su valor esperado como su varianza (ver Pardo y San Martín, 1998, pág. 289):
= y = = [6.27]
No todas las comparaciones que pueden definirse con J medias son independientes entre sí:
algunas de ellas pueden obtenerse combinando otras. Por ejemplo, el número de compara-
ciones por pares que pueden definirse con J medias es J (J ! 1) / 2 (es decir, combinaciones
de J elementos tomados de 2 en 2). Así, con J = 4 medias es posible definir 4 (4 !1) / 2 = 6
comparaciones por pares. Pero no todas ellas son independientes entre sí, lo cual significa
que incluyen información redundante. Por ejemplo, la comparación µ 2 ! µ 3 puede obtener-
se a partir de las comparaciones µ 1 ! µ 2 y µ 1 ! µ 3 :
(µ 1 ! µ 3) ! (µ 1 ! µ 2) = µ 2 ! µ 3
Del mismo modo, la comparación (µ 1 + µ 2) ! (2) µ 3 puede obtenerse a partir de las compa-
raciones µ 1 ! µ 3 y µ 2 ! µ 3 :
(µ 1 ! µ 3) + (µ 2 ! µ 3) = (µ 1 + µ 2) ! (2) µ 3
= 0 [6.28]
Esta condición es válida cuando los tamaños muestrales son iguales. Si los tamaños mues-
trales no son iguales debe verificarse
= 0 [6.29]
Supongamos que en un diseño con, por ejemplo, 3 medias, definimos las siguientes dos com-
paraciones (con nj iguales):
pues (1) (1) + (0) (!2) + (!1) (1) = 0. La utilidad de trabajar con comparaciones ortogonales
está precisamente en que no contienen información redundante. Y la importancia de esta
propiedad se comprenderá enseguida al estudiar algunos de los procedimientos incluidos en
los siguientes apartados.
Y la probabilidad de cometer algún error en las seis comparaciones (es decir, la probabilidad
de cometer al menos un error), valdrá:
Es decir, al realizar seis comparaciones, la probabilidad de cometer algún error Tipo I es más
de 5 veces más grande que si se realiza una sola comparación. En general, la probabilidad
210 Análisis de datos (vol. II)
18
Esta probabilidad es exacta si las J (J !1) / 2 comparaciones son independientes entre sí. Pero esas comparaciones no son,
de hecho, independientes (ver apartado anterior). Cuando las comparaciones no son independientes, la probabilidad de
cometer algún error Tipo I es difícil de calcular, pero puede demostrarse que siempre es menor o igual que 1!(1! α)k.
19
Algunos autores (por ejemplo, Kirk, 1995, pág. 122; ver también Hochber y Tamhane, 2009, págs. 5-12) hablan de la tasa
de error por experimento tomando como referencia el conjunto de posibles comparaciones asociadas a un experimento.
Capítulo 6. ANOVA de un factor 211
es un claro síntoma de que ninguno de ellos ofrece una solución del todo satisfactoria. El con-
trol que consigue cada uno de ellos sobre la tasa de error depende de cosas como el número
de grupos (muchos o pocos), el tamaño de los grupos (pequeño o grande, el mismo o distin-
to), las varianzas poblacionales (iguales o distintas), el tipo de comparaciones (ortogonales
o no), etc. No obstante, los procedimientos que hemos seleccionado suelen ofrecer un com-
portamiento aceptable cuando se dan las condiciones para las que han sido diseñados.
Prueba de Dunn-Bonferroni
20
A este procedimiento también se le llama prueba de Dunn; la razón es que, a pesar de tratarse de un procedimiento cono-
cido desde hace tiempo, fue Dunn (1961) el primero en formalizarlo y en presentar las tablas necesarias para poder utilizarlo.
También se le llama prueba de Bonferroni, por estar basado en la desigualdad de Bonferroni (los programas informáticos
suelen utilizar este nombre). Nosotros hemos querido reconocer la aportación de ambos llamando al procedimiento prueba
de Dunn-Bonferroni.
21
Šidák (1967) ha demostrado que αF siempre es menor que 1 ! (1 ! αC )k y ha propuesto utilizar αC = 1 ! (1 ! αF )1/k como
nivel de significación en cada comparación. Esta solución ofrece para αC valores ligeramente mayores que α/k mantenien-
do al mismo tiempo la tasa de error total en el valor inicialmente establecido (αF). Esta forma de controlar la tasa de error
hace el contraste algo más potente, pero la ganancia en potencia es tan pequeña que, en la práctica, la estrategia de Dunn-
Bonferroni, más sencilla de calcular, ha tenido mayor aceptación (para más detalles sobre la solución de Šidák puede
consultarse Kirk, 1995, págs. 140-142; Holland y Copenhaver, 1988).
212 Análisis de datos (vol. II)
ra demostrar que, al realizar k comparaciones, la tasa de error total (la tasa de error por fami-
lia de comparaciones) siempre es igual o menor que la suma de las tasas de error de cada
comparación individual:
$ k αC
αF < [6.33]
Esto significa que, si cada una de las k comparaciones se lleva a cabo con un nivel de signifi-
cación α C = α F / k = 0,05/ k, la tasa de error total α F siempre será igual o menor que 0,05.
No debe pasarse por alto el hecho de que la ecuación [6.33] es una desigualdad. Cuando
se utiliza para corregir la tasa de error de un conjunto de comparaciones ortogonales funciona
correctamente: α F vale aproximadamente 0,05. Pero cuando se utiliza para corregir la tasa
de error de un conjunto de comparaciones no ortogonales se vuelve conservadora: α F pue-
de ser sensiblemente menor de 0,05 (tanto menor cuanto mayor sea el valor de k) (ver Max-
well y Delaney, 2004, pág. 203). Por tanto, aunque esta forma de corregir la tasa de error pue-
de aplicarse a cualquier tipo de comparación, lo recomendable es que se utilice solamente
con comparaciones ortogonales o con un número reducido de comparaciones no ortogonales.
El procedimiento permite valorar cualquier comparación lineal del tipo descrito en [6.26]
mediante el contraste de la hipótesis nula de que la comparación vale cero:
H0 (h) : = c1 µ 1 + c2 µ 2 + · · · + cJ µJ = 0 [6.34]
Ya sabemos que, cuando se comparan dos medias, la hipótesis nula afirma que la diferencia
entre ellas vale cero; también sabemos que, cuando se comparan más de dos medias, en rea-
lidad se están comparando dos cosas: una media con varias, o varias medias con varias; la
hipótesis nula recoge la idea de que esas dos cosas que se comparan son iguales; es decir, que
su diferencia vale cero.
Puesto que puede estimarse mediante (ver ecuación [6.26]), y el valor esperado
y la varianza de son valores conocidos (ver ecuación [6.27]), es posible tipificar el valor
de mediante
TDB = = [6.35]
En la transformación [6.35] se está asumiendo que las J varianzas poblacionales son igua-
les, de ahí que se utilice MCE como único estimador de esas varianzas. Si no puede asumirse
que las varianzas poblacionales son iguales, basta con modificar el denominador sustitu-
yendo MCE por cada una de las varianzas muestrales:
T NDB = [6.36]
La Tabla J del Apéndice final contiene los puntos críticos t bilaterales22 de la distribución
muestral de TDB y T NDB para α F = 0,05 y α F = 0,01, y para diferentes valores de k (número de
22
Estos puntos críticos se han obtenido de la distribución t con glerror grados de libertad dividiendo el correspondiente nivel
de significación bilateral entre el número de comparaciones planeadas: (α /2)/k. La tabla ofrece los puntos críticos de la cola
derecha de la distribución, de ahí que el numerador de TDB se tome en valor absoluto.
Capítulo 6. ANOVA de un factor 213
glNerror = [6.37]
Se rechaza la hipótesis nula definida en [6.34] si el valor de TDB (o de T NDB) es mayor que el
correspondiente punto crítico de la Tabla J.
El valor de junto con su error típico y su distribución muestral pueden utilizarse pa-
ra construir un intervalo de confianza para la comparación :
= ± [6.38]
donde t es el punto crítico que se obtiene de la Tabla J y es el error típico de (es decir,
el denominador de TDB si las varianzas poblacionales son iguales, y el denominador de T NDB
si no son iguales); k es el número de comparaciones; y glerror es igual a N ! J si las varianzas
poblacionales son iguales e igual a [6.37] si no son iguales. El intervalo de confianza indica
entre qué valores cabe esperar que se encuentre el valor poblacional de .
Puesto que se trata de pocas comparaciones y además son ortogonales (la suma del producto
de sus coeficientes vale cero: (!1) (1) + (2) (0) + (!1) (!_1) = 0),_ la prueba
_ de Dunn-Bonferro-
ni permite controlar la tasa de error. Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras de tamaño 10 aleatoriamente seleccionadas de poblacio-
nes que asumimos normales y con la misma varianza.
3. Estadísticos del contraste (ecuación [6.35]):
! = (!1) 9 + (2)14 + (!1) 7 = 12.
= (1) 9 + (0)14 + (!1) 7 = 2.
214 Análisis de datos (vol. II)
! = = 2,80.
= = 1,62.
! TDB (1) = = 12 / 2,80 = 4,29.
TDB (2) = = 2 / 1,62 = 1,23.
4. Distribución muestral: los puntos críticos de la distribución muestral de TDB se encuen-
tran en la Tabla J del Apéndice final, con k = 2, glerror = N ! J = 30 ! 3 = 27 y α F = 0,05.
5. Zona crítica: TDB > $ t2, 27; 0,95 = 2,37 (hemos tomado un valor intermedio entre los corres-
pondientes a glerror = 25 y glerror = 30).
6. Decisión: únicamente el valor de TDB (1) = 4,29 es mayor que el punto crítico 2,37. Por
tanto, debe rechazarse H0 (1) pero no H0 (2). El rechazo de H0 (1) indica que la media del
grupo 2 (nivel de ansiedad medio) difiere de la media de los otros dos grupos tomados
juntos. Y el no rechazo de H0 (2) indica que, con los datos disponibles, no es posible afir-
mar que el rendimiento medio del grupo 1 difiera del rendimiento medio del grupo 3.
Aunque los contrastes son bilaterales, el valor positivo de indica que el rendimiento
medio del segundo grupo, es decir, del grupo que está ponderado con un coeficiente posi-
tivo en , es mayor que el rendimiento medio de los otros dos grupos tomados juntos.
7. Intervalo de confianza (asumiendo varianzas iguales, ecuación [6.38]). Al asignar coe-
ficientes para definir cada comparación lineal utilizamos números enteros para facilitar
los cálculos. Esta estrategia no es apropiada cuando se trata de calcular un intervalo de
confianza. Para que los límites del intervalo se encuentren en la misma métrica que la
variable dependiente, es necesario que los coeficientes con signo positivo sumen 1 y que
los coeficientes con signo negativo sumen !1 (exactamente igual que cuando se com-
paran dos medias):
! = (!0,5) 9 + (1)14 + (!0,5) 7 = 6.
= (1) 9 + (0)14 + (!1) 7 = 2.
! = = 1,40.
= = 1,62.
encuentra entre 2,7 y 9,3 puntos. Este mismo argumento sirve para la segunda compa-
ración, pero el intervalo obtenido para ella incluye el valor cero y esto significa que no
puede afirmarse que los promedios comparados sean distintos.
Comparaciones de tendencia
Sabemos que el rechazo de la hipótesis global del ANOVA está indicando que las medias
comparadas no son iguales. Esto significa que los valores de la variable dependiente cam-
bian cuando cambian los de la independiente; significa, por tanto, que ambas variables están
relacionadas. Pero una F significativa no dice nada sobre la pauta concreta que sigue ese
cambio; es decir, no dice nada acerca del tipo de relación que se da entre las variables.
Sin embargo, conocer el tipo de relación existente entre la variable independiente o fac-
tor y la dependiente, no solo puede resultar interesante en muchos contextos, sino que pue-
de constituir el objetivo principal de algunos estudios. Tal es el caso de los ensayos clínicos
en los que se analiza la relación dosis-respuesta, o de los estudios psicológicos en los que se
valora, por ejemplo, la relación entre el nivel de ansiedad y el rendimiento.
Para que tenga sentido estudiar el tipo de relación es imprescindible que los niveles de
la variable independiente o factor se encuentren cuantitativamente ordenados (de no ser así,
no tendría sentido estudiar el tipo de relación, pues la ordenación arbitraria de los niveles
daría como resultado diferentes tipos de relación). Cuando los niveles están cuantitativamen-
te ordenados pueden darse diferentes pautas de relación; puede ocurrir, por ejemplo, que los
valores de la variable dependiente aumenten conforme lo hacen los de la independiente, en
cuyo caso la relación será de tipo lineal (ver Figura 6.2, gráficos a, b y d ); también puede
ocurrir que los valores de la variable dependiente vayan aumentando conforme lo hacen los
de la independiente hasta llegar a un punto a partir del cual el aumento en los valores de la
variable independiente se corresponde con una disminución en los de la dependiente (ver
Figura 6.2, gráficos c y e); y también puede ocurrir que la relación sea algo más compleja,
con subidas y caídas en la variable dependiente conforme los valores de la independiente van
aumentando (ver Figura 6.2, gráfico f ).
Por tanto, la relación entre una variable categórica (con categorías cuantitativamente
ordenadas) y una variable cuantitativa puede ser de tipo lineal, cuadrático, cúbico, etc. Las
comparaciones de tendencia sirven para estudiar estos tipos de relación.
Debe tenerse en cuenta que las comparaciones de tendencia son comparaciones ortogo-
nales. Por tanto, con J medias, únicamente será posible definir J ! 1 tendencias ortogonales.
En los gráficos de la Figura 6.2 se aprecia con claridad esta idea: con J = 2 solamente pue-
de darse una relación de tipo lineal (ver Figura 6.2, gráfico a); con J = 3, la relación puede
ser lineal o cuadrática (ver Figura 6.2, gráficos b y c); con J = 4, la relación puede ser lineal,
cuadrática o cúbica (ver Figura 6.2, gráficos d, e y f ); etc.
En todos los contrastes propuestos hasta ahora en el contexto del ANOVA de un factor
y en todos los que estudiaremos más adelante, la disposición de los niveles de la variable
independiente o factor es completamente irrelevante: se comparan medias con independen-
cia de la posición que ocupan. Ahora, sin embargo, el estudio del tipo de relación existente
entre la variable independiente y la dependiente únicamente tiene sentido si la variable in-
dependiente es, al igual que la dependiente, cuantitativa.
216 Análisis de datos (vol. II)
Figura 6.2. Diferentes tipos de relación entre dos variables: lineal (a, b y d), cuadrática (c y e) y cúbica (f )
a b c
a1 a2 a1 a2 a3 a1 a2 a3
d e f
a1 a2 a3 a4 a1 a2 a3 a4 a1 a2 a3 a4
En los gráficos de la Figura 6.4 se puede apreciar que los coeficientes !3, !1, 1 y 3 definen
una tendencia lineal; los coeficientes 1, !1, !1 y 1, una tendencia cuadrática; y los coefi-
cientes !1, 3, !3 y 1, una tendencia cúbica. Lo que se hace al valorar cada tendencia es sim-
plemente correlacionar los coeficientes asignados con las medias a las que se asignan.
0 0
-1 -1
-2 -2
µ1 µ2 µ3 µ1 µ2 µ3
Figura 6.4. Coeficientes de polinomios ortogonales con J = 4; tendencias lineal, cuadrática y cúbica
cj lineal cj cuadrática cj cúbica
3 3 3
2 2 2
1 1 1
0 0 0
-1 -1 -1
-2 -2 -2
-3 -3 -3
µ1 µ2 µ3 µ4 µ1 µ2 µ3 µ4 µ1 µ2 µ3 µ4
Tras asignar coeficientes a las medias para definir cada tendencia ( , , etc), es po-
sible contrastar hipótesis del tipo:
H 0: =0
aplicando la prueba de Dunn-Bonferroni exactamente igual que hemos hecho en el apartado
anterior23 (de hecho, las dos comparaciones del ejemplo del apartado anterior son exacta-
mente las correspondientes a las tendencias lineal y cuadrática, aunque con los coeficientes
cambiados de signo). La hipótesis = 0 significa que no existe relación lineal; el rechazo
de esta hipótesis indica que existe relación lineal significativa.
23
Los coeficientes de la Tabla H solamente son apropiados si los niveles del factor están igualmente espaciados (por ejem-
plo, 1-2-3 frente a 1-2-5) y los tamaños de los grupos son iguales. No es fácil asignar coeficientes cuando no se dan estas
dos condiciones. Afortunadamente, los programas informáticos tienen resuelto el problema. El SPSS calcula los coeficien-
tes de cada tendencia teniendo en cuenta el espaciamiento existente entre los niveles del factor: a diferentes espaciamientos
corresponden diferentes coeficientes (ver Pardo y San Martín, 1998, págs. 301-303). Y cuando los tamaños muestrales no
son iguales, el SPSS ofrece dos soluciones para cada tendencia: una ponderada y una no ponderada. En la solución no
ponderada, los coeficientes se calculan sin tener en cuenta el tamaño de los grupos (el inconveniente de esta estrategia es
que las comparaciones resultantes no son ortogonales; ver ecuación [6.29]). En la solución ponderada, los coeficientes se
calculan teniendo en cuenta el tamaño de los grupos. No está claro cuál de las dos soluciones es mejor, pero parece que,
cuando la única tendencia real en los datos es la lineal, es preferible la solución ponderada; mientras que, cuando hay otras
tendencias presentes, es preferible la solución no ponderada (ver Maxwell y Delaney, 2004, págs. 267-269).
218 Análisis de datos (vol. II)
Prueba de Dunnett
Dunnett (1955) ha propuesto un método específicamente diseñado para controlar la tasa de
error cuando se realizan las J ! 1 comparaciones entre los grupos experimentales y el grupo
control, si existe. La propuesta de Dunnett consiste en obtener un valor, llamado diferencia
mínima_ significativa
_ (DMS ), que es el valor más pequeño a partir de la cual una diferencia
= | Y control ! Y j | puede ser declarada significativa (con j =/ control ):
donde t es el valor de la Tabla K del Apéndice final que corresponde a un nivel de signifi-
cación αF con J medias (incluida la del grupo control) y N ! J grados de libertad. La tabla
ofrece puntos críticos para αF = 0,05 y αF = 0,01, y para contrastes bilaterales y unilaterales.
Tanto si el _contraste_ es bilateral como si es unilateral, la diferencia que se compara con
DMS Dunnett es | Y control ! Y j |, es decir, la diferencia en valor absoluto; pero si el contraste es
unilateral, es necesario prestar atención al signo de esa diferencia para tomar la decisión apro-
piada.
El procedimiento de Dunnett también puede utilizarse para construir intervalos de con-
fianza (IC ) para las J ! 1 diferencias entre los grupos experimentales y el control:
_ _
= | Y control ! Y j | ± DMSDunnett (con j =/ control) [6.40]
Volvamos a los datos de la Tabla 6.2, donde J = 3 grupos de nj = 10 sujetos (N = 30) con di-
ferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de rendimiento. Su-
pongamos, solamente para poder ilustrar el procedimiento, que el grupo de ansiedad baja (es
decir, el grupo 1) es un grupo control y que estamos interesados en comparar los otros dos
grupos con el control; es decir, supongamos que estamos interesados en llevar a cabo estas
dos comparaciones:
= µ1 ! µ 2
= µ1 ! µ 3
Puesto que J = 3,
_ solamente
_ es posible
_ realizar dos comparaciones con el grupo control. Re-
cordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras aleatoriamente extraídas de poblaciones que asumimos
normales y con la misma varianza.
3. Estadístico del contraste (ecuación [6.39]). Puesto que los tamaños muestrales son igua-
les, basta con calcular una única DMS; si los tamaños muestrales fueran distintos habría
que calcular una DMS para cada comparación (debe tenerse en cuenta que la diferencia
entre las DMS de dos comparaciones está únicamente en el tamaño del grupo que se com-
para con el control):
Capítulo 6. ANOVA de un factor 219
_ _
= | Y_1 ! Y_2 | = | 9 ! 14 | = 5.
= | Y 1 ! Y 3 | = | 9 ! 7 | = 2.
DMS Dunnett = = 2,33 (1,62) = 3,77.
(considerando que ambos contrastes son bilaterales y utilizando α F = 0,05).
6. Decisión: únicamente el valor de = 5 es mayor que el valor de la DMSDunnett = 3,77.
Por tanto, únicamente el grupo 2 (nivel de ansiedad medio) difiere del grupo 1 o control
(nivel de ansiedad bajo).
7. Intervalo de confianza (ecuación [6.40]):
= 5 ± 3,77 = (1,23; 8,77).
= 2 ± 3,77 = (!1,77; 5,77).
El intervalo de no incluye el valor cero, pero sí el intervalo de . Este resultado
coincide con la decisión ya tomada sobre ambas comparaciones (rechazar H0 (1) y no
rechazar H0 (2)). En el caso de la primera comparación, la diferencia entre el rendimien-
to medio del segundo grupo (14) y el del grupo control (9) vale 5 puntos. El intervalo de
confianza obtenido indica que, basándonos en esa diferencia muestral de 5 puntos,
podemos estimar, con una confianza del 95 %, que la diferencia poblacional entre los
promedios comparados se encuentra entre 1,76 y 8,24 puntos. Este mismo argumento
sirve para la segunda comparación; pero el intervalo obtenido para la segunda compa-
ración incluye el valor cero y esto significa que no puede afirmarse que el tercer grupo
difiera del grupo control.
diseñados para controlar la tasa de error cuando se llevan a cabo todas las comparaciones
posibles, ya sean comparaciones por pares (como la prueba de Tukey), ya sean comparacio-
nes de cualquier otro tipo (como la prueba de Scheffé).
Prueba de Tukey
La prueba de Tukey (1953) representa uno de los primeros intentos por controlar la tasa de
error cuando se realizan comparaciones múltiples. Está diseñada específicamente para contro-
lar la tasa de error cuando se llevan a cabo las J (J ! 1) / 2 posibles comparaciones por pares
(comparaciones dos a dos) entre J medias.
Se basa en la distribución del rango studentizado (derivada, al igual que la t de Student,
por William Sealy Gosset). La diferencia entre estas dos distribuciones radica en que la dis-
tribución del rango studentizado tiene en cuenta el número de medias involucradas en el
conjunto de comparaciones. Si J = 2, el procedimiento de Tukey, basado en la distribución
del rango studentizado, es equivalente a la prueba T para dos muestras independientes, basa-
da en la distribución t de Student. Los puntos críticos q de la distribución del rango stu-
dentizado se encuentran en la Tabla L del Apéndice final (para α F = 0,05 y α F = 0,01).
La estrategia propuesta por Tukey para realizar las J (J ! 1) / 2 comparaciones por pares
entre J medias consiste en obtener un valor llamado DMS (diferencia mínima significativa)
que
_ es _ la diferencia mínima (en valor absoluto) que debe darse entre dos medias muestrales,
Y j e Y j , para decidir que las correspondientes medias poblacionales son distintas24:
En las ecuaciones [6.41] y [6.42] se está asumiendo que todos los grupos tienen el mismo ta-
maño (n1 = n2 = · · · = nJ = n). Si los tamaños de los grupos no son iguales, Kramer (1956) ha
demostrado que el procedimiento de Tukey sigue siendo válido si se aplica la siguiente mo-
dificación:
24
Lo que estamos llamando diferencia mínima significativa de Tukey (DMSTukey) es la diferencia honestamente significati-
va de Tukey (honestly significant difference: HSD ). El propio Tukey ha desarrollado una variante de este procedimiento
al que ha llamado diferencia completamente significativa (WSD). Este otro procedimiento aparece en el SPSS como Tukey-b
y ofrece una solución intermedia entre el valor de DMSTukey y el valor de DMSS-N-K (Student-Newman-Keuls) para medias
separadas r pasos (la DMSS-N-K se describe en el Apéndice 6, en el apartado Comparaciones múltiples por pares procedi-
mientos alternativos).
25
En realidad, el error típico de la diferencia entre dos medias es y el punto crítico con el que se construye el
valor de DMS Tukey es . Los cálculos se simplifican eliminando de ambas expresiones.
Capítulo 6. ANOVA de un factor 221
Sustituyendo DMS Tukey por DMS Tukey-Kramer en [6.42] pueden obtenerse intervalos de confian-
za cuando los tamaños muestrales no son iguales26.
La prueba de Tukey y la modificación de Kramer no son los únicos procedimientos post
hoc disponibles para llevar a cabo comparaciones por pares. De hecho, existen multitud de
procedimientos para realizar comparaciones por pares. En el apartado Comparaciones post
hoc: procedimientos alternativos del Apéndice 6 se describen varios más; también se des-
criben procedimientos válidos para cuando no es posible asumir que las varianzas pobla-
cionales son iguales.
6. Decisión: los valores =5y = 7 son mayores que DMS Tukley = 4,02. Por tanto,
podemos afirmar que la media del grupo 2 difiere significativamente tanto de la media
del grupo 1 como de la media del grupo 3. No puede afirmarse, sin embargo, que las
medias de los grupos 1 y 3 sean distintas ( = 2 < 4,02). Parece, por tanto, que el
rendimiento es más alto con niveles de ansiedad medios que con niveles bajos o altos.
26
Hochberg (1974) ha propuesto el procedimiento GT2 como alternativa al de Tukey-Kramer para el caso de varianzas
poblacionales iguales y tamaños muestrales distintos, pero la solución de Hochberg es algo más conservadora que la de
Tukey-Kramer y, por tanto, menos recomendable (ver Dunnett, 1980a). La DMS de Hochberg es idéntica a [6.42] con la
única diferencia de que el cuantil q se busca en la distribución del módulo máximo studentizado (ver Pardo y San Martín,
1998, Tabla K del Apéndice final) con k = J (J ! 1) / 2 y gl grados de libertad (gl se obtiene con la ecuación [6.37]).
222 Análisis de datos (vol. II)
Prueba de Scheffé
La prueba de Scheffé (1953) permite valorar simultáneamente no solo las posibles compa-
raciones por pares entre J medias, sino cualquier otro tipo de comparación. Es decir, cual-
quier comparación que pueda plantearse en el formato de la ecuación [6.25].
Por tanto, la prueba de Scheffé permite contrastar el mismo tipo de hipótesis que la prue-
ba de Dunn-Bonferroni. La diferencia entre ellas está en la forma de controlar la tasa de error.
La prueba de Dunn-Bonferroni (que utiliza α C = α F / k) controla bien la tasa de error cuando
se llevan a cabo unas pocas comparaciones (preferiblemente ortogonales, aunque no nece-
sariamente), pero se va haciendo conservadora conforme va aumentando el número de com-
paraciones. La prueba de Scheffé controla la tasa de error para el total de posibles compa-
raciones entre J medias; si se utiliza para valorar solamente unas pocas comparaciones (por
ejemplo, para valorar solamente las comparaciones por pares), es muy conservadora.
La prueba de Scheffé se basa en la distribución F y, por tanto, exige, al igual que el es-
tadístico F, trabajar con poblaciones normales y homocedásticas. Como en otros procedi-
mientos estudiados, se considera que una comparación es significativamente distinta de
cero si su valor absoluto es mayor que
= [6.45]
En el caso de que no pueda asumirse que las varianzas poblacionales son iguales, Brown y
Forsythe (1974b) recomiendan utilizar
Volviendo una vez más al ejemplo de la Tabla 6.2, en el que J = 3 grupos de nj = 10 sujetos
(N = 30) con diferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de ren-
dimiento, supongamos que estamos interesados en comparar todos los grupos entre sí (com-
paraciones por pares) y, además, cada grupo con los otros dos tomados juntos. Esto signifi-
ca que tenemos que llevar a cabo las siguientes seis comparaciones:
=(1) µ 1 + (!1) µ 2 + (0) µ 3
=(1) µ 1 + (0) µ 2 + (!1) µ 3
=(0) µ 1 + (1) µ 2 + (!1) µ 3
=(2) µ 1 + (!1) µ 2 + (!1) µ 3
=(!1) µ 1 + (2) µ 2 + (!1) µ 3
=(!1) µ 1 + (!1) µ 2 + (2) µ 3
_ _ _
Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hipótesis: H0 (1) : = 0; H1 (1) : =/ 0.
H0 (2) : = 0; H1 (2) : =/ 0.
H0 (3) : = 0; H1 (3) : =/ 0.
H0 (4) : = 0; H1 (4) : =/ 0.
H0 (5) : = 0; H1 (5) : =/ 0.
H0 (6) : = 0; H1 (6) : =/ 0.
2. Supuestos: tenemos 3 muestras aleatoriamente extraídas de poblaciones que asumimos
normales y con la misma varianza.
3. Estadístico del contraste (ecuación [6.44]:
= | (1) 9 + (!1) 14 + (0) 7 | = 5.
= | (1) 9 + (0) 14 + (!1) 7 | = 2.
= | (0) 9 + (1) 14 + (!1) 7 | = 7.
= | (2) 9 + (!1) 14 + (!1) 7 | = 3.
= | (!1) 9 + (2) 14 + (!1) 7 | = 12.
= | (!1) 9 + (!1) 14 + (2) 7 | = 9.
Para valorar estas comparaciones no es necesario calcular seis DMS Scheffé distintas. Pues-
to que lo único en que difieren las DMS Scheffé de dos comparaciones es en la suma de los
cuadrados de sus coeficientes, basta con calcular dos: una para las comparaciones 1, 2
y 3 (donde = 2), y otra para las comparaciones 4, 5 y 6 (donde = 6):
DMS Scheffé = = = 4,19.
6. Decisión: los valores =5y = 7 son mayores que DMS Tukley = 4,19. Por tanto,
puede concluirse que la media del grupo 2 difiere significativamente tanto de la media
del grupo 1 como de la media del grupo 3; y no hay evidencia de que las medias de los
224 Análisis de datos (vol. II)
Supuestos
Por lo general, la primera tarea que hay que abordar al analizar unos datos es la de intentar
formarnos una idea lo más exacta posible acerca de sus características. Con una variable ca-
tegórica o factor y una cuantitativa o dependiente, que es el caso que estamos considerando
en todo este capítulo, esta tarea inicial se lleva a cabo calculando varios estadísticos descrip-
tivos y obteniendo algún gráfico con el doble objetivo de (1) valorar el centro, la dispersión
y la forma de la distribución de la variable dependiente en cada grupo y (2) detectar posibles
anomalías en los datos. Esta fase inicial también suele incluir el chequeo de los supuestos en
los que se basarán las herramientas inferenciales que se tenga intención de utilizar más tar-
de. El procedimiento Explorar suele ser el más indicado para hacer todo esto.
En este apartado se muestra cómo utilizar el procedimiento Explorar para obtener algu-
nos estadísticos descriptivos y para contrastar los supuestos del ANOVA de un factor: norma-
lidad y homogeneidad o igualdad de varianzas (el supuesto relativo a la independencia de las
puntuaciones puede contrastarse mediante la prueba de las rachas descrita en el Capítulo 2):
' Reproducir en el Editor de datos los datos de la Tabla 6.2 (o abrir el archivo Tabla 6.2
ansiedad rendimiento que se encuentra en la página web del manual).
' Seleccionar la opción Estadísticos descriptivos > Explorar del menú Analizar para acceder
al cuadro de diálogo Explorar y trasladar la variable rendimiento a la lista Dependientes
y la variable ansiedad a la lista Factores.
' Pulsar el botón Gráficos para acceder al subcuadro de diálogo Explorar: Gráficos y mar-
car la opción Gráficos con pruebas de normalidad y la opción No transformados del recuadro
Dispersión por nivel con prueba de Levene27. A las opciones correspondientes a los diagra-
27
Ya hemos señalado (ver, en este mismo capítulo, el apartado Transformación de las puntuaciones) que, cuando se incum-
plen el supuesto de normalidad o el de igualdad de varianzas, existe la posibilidad de aplicar algún tipo de transformación
a los datos originales para conseguir normalizarlos y homogeneizar las varianzas. Una transformación basada en potencias
(opción Estimación de potencia) consiste en elevar las puntuaciones originales a una potencia específica. Para determinar el
valor de esa potencia, el SPSS genera un gráfico de dispersión comparando, en cada grupo, el logaritmo natural de la media-
na (en el eje de horizontal) con el logaritmo natural de la amplitud intercuartil (en el eje de vertical). Cuando las varianzas
son iguales, los puntos del gráfico (tantos como grupos) se encuentran a la misma altura, es decir, alineados horizontalmen-
te. El gráfico también incluye el valor de la pendiente (inclinación) de la recta de regresión mínimo-cuadrática (ver Capítu-
lo 10). Basándose en el valor de esa pendiente, el SPSS ofrece una estimación de la potencia a la que habría que elevar las
puntuaciones originales de la variable dependiente para intentar homogeneizar las varianzas de esa variable en cada nivel
de la variable factor (no siempre se consigue). El valor de esta potencia se estima restando a uno el valor de la pendiente
de la recta de regresión. Aunque la potencia así estimada puede tomar cualquier valor, lo habitual es utilizar potencias re-
dondeadas a múltiplos de 0,5 (incluyendo el cero). Algunas de las potencias más utilizadas son las siguientes: !1 = «recí-
proco»; –1/2 = «recíproco de la raíz cuadrada»; 0 = «logaritmo natural»; ½ = «raíz cuadrada»; 1 = «sin transformación»;
2 = «cuadrado»; 3 = «cubo». Todas estas transformaciones, que son las habitualmente recomendadas para transformar da-
tos, están recogidas en la opción Transformados.
Una vez estimada la potencia apropiada para homogeneizar las varianzas, puede utilizarse la opción Transformados para
aplicar la transformación sugerida por el SPSS. Esta opción incluye, dentro de la lista desplegable Potencia, las siguientes
transformaciones: logaritmo natural, recíproco de la raíz cuadrada, recíproco, raíz cuadrada, cuadrado y cubo. Todas ellas
intentan homogeneizar las varianzas alterando (aumentando en unos casos y disminuyendo en otros) las varianzas de las
distribuciones y corrigiendo el grado de asimetría.
Al solicitar un gráfico de dispersión por nivel seleccionando algún tipo de transformación, tanto la prueba de Levene
como el gráfico de dispersión se obtienen a partir de los datos transformados. Pero, excepto en el caso de la transformación
logarítmica, al solicitar una transformación basada en alguna de las potencias disponibles, el gráfico de dispersión por ni-
vel se obtiene a partir de la mediana y de la amplitud intercuartílica, no a partir de sus logaritmos (estos logaritmos son los
que se utilizan en las opciones Estimación de potencia y No transformados).
Capítulo 6. ANOVA de un factor 227
mas de caja y al resto de los gráficos (tallo y hojas, histograma) no les prestaremos aten-
ción en este ejemplo; para esto, ver el Capítulo 4 del primer volumen).
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.3 a 6.5.
Para describir el rendimiento en cada grupo de ansiedad, la Tabla 6.3 incluye algunos esta-
dísticos referidos a las tres propiedades de una distribución a las que hay que prestar atención
para poder formarnos una idea precisa sobre las características de los datos: centro (media,
media recortada y mediana), dispersión (varianza, desviación típica, amplitud o rango y am-
plitud intercuartil) y forma (índices de asimetría y curtosis). A la espera de lo que digan los
contrastes de normalidad e igualdad de varianzas, el hecho de que los índices de asimetría y
curtosis sean menores que sus respectivos errores típicos está indicando que en las pobla-
ciones muestreadas no parece haber problemas de asimetría ni de curtosis. Los diagramas de
caja (ver Figura 6.1) apuntan en la misma dirección: no muestran asimetrías ni tampoco
excesiva dispersión; tampoco hay indicios de casos anómalos o atípicos.
Las pruebas de normalidad de la Tabla 6.4 (los detalles de estas pruebas se explican en
el en el Capítulo 2) indican que no hay motivos para preocuparse por este supuesto. En nin-
guno de los tres casos (tres grupos) se rechaza la hipótesis de normalidad ( p > 0,05 tanto con
la prueba de Kolmogorov-Smirnov como con la de Shapiro-Wilk).
Tampoco parece que haya que preocuparse por el supuesto relativo a la igualdad de las va-
rianzas (ver Tabla 6.5). Tanto la prueba de Levene (basada en las medias y en las medias re-
cortadas) como la de Brown-Forsythe (basada en las medianas, con y sin corrección de los
grados de libertad) tienen asociados valores p (sig.) mayores que 0,05.
28
Puede seleccionarse más de una variable dependiente: el SPSS genera un análisis de varianza completo por cada variable
dependiente seleccionada.
Capítulo 6. ANOVA de un factor 229
primeras. Puesto que el nivel crítico o valor p asociado al estadístico F (sig. = 0,001) es me-
nor que 0,05, lo razonable es rechazar la hipótesis de igualdad de medias y concluir que el
rendimiento medio no es el mismo en las tres poblaciones compradas.
En el caso de que no pueda asumirse que las varianzas poblacionales son iguales, los esta-
dísticos de Welch y de Brown-Forsythe (ver Apéndice 6) ofrecen una solución robusta pa-
ra el contraste de la hipótesis de igualdad de medias. La Tabla 6.7 incluye el valor de estos
estadísticos junto con sus grados de libertad y niveles críticos. Puesto que el valor p asocia-
do a ambos (sig.) es menor que 0,05, la decisión sobre la hipótesis de igualdad de medias es
la misma que con el estadístico F de la Tabla 6.6.
= = 0,38
230 Análisis de datos (vol. II)
Tabla 6.8. Resumen del ANOVA de un factor (procedimiento MLG > Univariante)
Variable dependiente: Rendimiento
Suma de Eta al Parámetro
cuadrados Media cuadrado de no Potencia
a
Fuente tipo III gl cuadrática F Sig. parcial centralidad observada
b
Modelo corregido 260,00 2 130,00 9,92 ,001 ,423 19,831 ,972
Intersección 3.000,00 1 3.000,00 228,81 ,000 ,894 228,814 1,000
ansiedad 260,00 2 130,00 9,92 ,001 ,423 19,831 ,972
Error 354,00 27 13,11
Total 3.614,00 30
Total corregida 614,00 29
a. Calculado con alfa = ,05
b. R cuadrado = ,423 (R cuadrado corregida = ,381)
29
Todos los estadísticos disponibles en este subcuadro de diálogo persiguen el mismo objetivo: controlar la tasa de error
cuando se realizan comparaciones post hoc. Ya hemos explicado las diferencias entre ellos y hemos recomendado cuáles
elegir en cada caso. En este ejemplo nos vamos a centrar en uno de ellos: Tukey. El SPSS ofrece para todos ellos la misma
información; y todos ellos se interpretan de la misma manera.
Capítulo 6. ANOVA de un factor 231
de la hipótesis nula de que esa diferencia vale cero en la población (sig.) y (4) el intervalo
de confianza para a cada diferencia. Por ejemplo, la diferencia entre el nivel de ansiedad
medio y el nivel de ansiedad bajo vale 5 puntos; el error típico de esa diferencia vale 1,62;
y el nivel crítico o valor p asociado al contraste de esa diferencia vale sig. = 0,012. Puesto
que 0,012 < 0,05, puede concluirse que las medias poblacionales de esos dos grupos son dis-
tintas. Los valores p asociados a cada comparación indican que el grupo medio difiere tan-
to del grupo bajo como del grupo alto y que estos dos grupos no difieren significativamente.
Los intervalos de confianza de las dos últimas columnas permiten: (1) estimar entre qué
limites se encuentra la diferencia poblacional entre las medias de los grupos comparados y
(2) contrastar la hipótesis nula de que las medias poblacionales de los dos grupos compara-
dos son iguales. Rechazar esta hipótesis cuando el intervalo de confianza no incluye el valor
cero es equivalente a rechazarla cuando el nivel crítico (sig.) es menor que 0,05.
Tabla 6.9. Comparaciones múltiples post hoc: prueba de Tukey (procedimiento ANOVA de un factor)
Variable dependiente: Rendimiento
HSD de Tukey
Intervalo de confianza
al 95%
(I) Nivel de (J) Nivel de Diferencia de Error
ansiedad ansiedad medias (I-J) típico Sig. L. inferior L. superior
Bajo Medio -5,00* 1,62 ,012 -9,01 -,99
Alto 2,00 1,62 ,443 -2,01 6,01
Medio Bajo 5,00* 1,62 ,012 ,99 9,01
Alto 7,00* 1,62 ,001 2,99 11,01
Alto Bajo -2,00 1,62 ,443 -6,01 2,01
Medio -7,00* 1,62 ,001 -11,01 -2,99
*. La diferencia de medias es significativa al nivel .05.
La Tabla 6.10 ofrece una clasificación de los grupos (niveles del factor) basada en el grado
de parecido existente entre sus medias, es decir, basada en los resultados de la Tabla 6.9.
Cada subconjunto de la tabla incluye los grupos cuyas medias no difieren significativamen-
te entre sí; los grupos cuyas medias difieren significativamente aparecen en subconjuntos
distintos. En la Tabla 6.10, por ejemplo, en el subconjunto 1 están incluidos dos grupos (alto
y bajo) cuyas medias no difieren significativamente (sig. = 0,443); y en el subconjunto 2 está
incluido un solo grupo (medio) que difiere de los dos anteriores y que, obviamente, no difie-
re de sí mismo (sig. = 1,00). Esta clasificación de los grupos en subconjuntos no está dispo-
nible con todos los métodos post-hoc, sino solamente con algunos: S-N-K, Tukey, Tukey-b,
Duncan, Scheffé, Gabriel, R-E-G-W F y Q, GT2 de Hochberg y Waller-Duncan.
cia lineal es nula y se concluye que no es posible afirmar que entre la ansiedad y el rendi-
miento exista relación lineal significativa.
A continuación aparece información referida al resto de tendencias todavía no contras-
tadas (desviación). Puesto que en este ejemplo únicamente es posible valorar las tendencias
lineal y cuadrática (recordemos que con tres grupos solamente es posible valorar dos ten-
dencias), la única tendencia todavía no contrastada es la cuadrática. El nivel crítico asociado
a las tendencias no contrastadas (sig. < 0,0005) indica que entre las de orden mayor que el
lineal existe alguna que es significativa. En el ejemplo esa única tendencia es la cuadrática.
Y es significativamente distinta de cero. Los resultados correspondientes al término cua-
drático son idénticos a los de la desviación del término lineal.
Puede concluirse, por tanto, que la relación entre las variables ansiedad y rendimiento
es cuadrática. El gráfico de líneas (Figura 6.2) muestra con claridad lo que está ocurriendo
(este gráfico se ha obtenido mediante la opción Gráfico de las medias del subcuadro de diálo-
go ANOVA de un factor: Opciones).
Tabla 6.11. Resumen del ANOVA con comparaciones de tendencia (procedimiento ANOVA de un factor)
Rendimiento
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos (Combinados) 260,00 2 130,00 9,92 ,001
Término lineal Contraste 20,00 1 20,00 1,53 ,227
Desviación 240,00 1 240,00 18,31 ,000
Término cuadrático Contraste 240,00 1 240,00 18,31 ,000
Intra-grupos 354,00 27 13,11
Total 614,00 29
Las Tablas 6.12 y 6.13 contienen la información relativa a las dos comparaciones planeadas
que se han solicitado. La Tabla 6.12 muestra los coeficientes asignados. Estos coeficientes
sirven para identificar las comparaciones que se están llevando a cabo y, por supuesto, para
comprobar que, efectivamente, se corresponden con las dos comparaciones solicitadas. La
Tabla 6.13 ofrece los resultados de ambas comparaciones agrupados en dos bloques. En el
primero de ellos, las comparaciones están evaluadas asumiendo que las varianzas pobla-
234 Análisis de datos (vol. II)
cionales son iguales; en el segundo, sin asumir igualdad de varianzas. Aunque es habitual que
ambas estrategias lleven a la misma conclusión, debe utilizarse la que se ajuste a las carac-
terísticas de los datos; para tomar esta decisión debe tenerse en cuenta el resultado obtenido
previamente al evaluar la hipótesis de igualdad de varianzas mediante la prueba de Levene.
Puesto que el contraste de Levene aplicado a los datos del ejemplo permite asumir varianzas
poblacionales iguales (ver Tabla 6.5), la decisión sobre la hipótesis de que los promedios
comparados son iguales puede basarse en el primer bloque de información (asumiendo
igualdad de varianzas).
La tabla muestra, para cada uno de los dos contrastes definidos, el valor del contraste,
su error típico, el estadístico del contraste (t), sus grados de libertad y el nivel crítico (sig.
bilateral ). La hipótesis nula que se pone a prueba con cada contraste es que los promedios
poblacionales comparados son iguales. Teniendo en cuenta los niveles críticos asociados a
cada contraste debe decidirse: (1) mantener la hipótesis nula referida al primer contraste
(pues 0,227 > 0,05) y (2) rechazar la referida al segundo contraste (pues 0,0005 < 0,05). En
consecuencia, puede concluirse, en primer lugar, que no existe evidencia para pensar que el
rendimiento medio de los grupos 1 y 3 sea distinto; y, en segundo lugar, que el rendimiento
medio del grupo 2 difiere significativamente del rendimiento medio de los dos grupos to-
mados juntos.
Apéndice 6
Distribución muestral del estadístico F
Hemos definido el estadístico F como el cociente entre MCA y MCE. Sabemos que, si es un esti-
mador insesgado de , la transformación
[6.47]
Capítulo 6. ANOVA de un factor 235
es una variable con n ! 1 grados de libertad (ver, en el Apéndice 6 del primer volumen, el apartado
Distribución muestral del estadístico varianza). También sabemos (ver ecuación [6.4]) que, si las J
medias poblacionales son iguales, MCA es un estimador insesgado de . Por tanto, la transformación
[6.48]
se distribuye según con J ! 1 grados de libertad. Y también sabemos, por último, que, tanto si las
medias poblacionales son iguales como si no, MCE es un estimador insesgado de (ver ecuación
[6.2]). Por tanto, la transformación
[6.49]
= [6.50]
Por tanto, puesto que [6.48] y [6.49] son dos variables independientes, el conciente entre ambas
tras dividirlas por sus respectivos grados de libertad es una variable F con los grados de libertad de
[6.48] y [6.49]:
= = [6.51]
Al igual que ocurre con otras distribuciones de probabilidad teóricas (binomial, normal, , t), no exis-
te una única distribución F sino toda una familia. La diferencia entre cada distribución F únicamente
está en los grados de libertad, es decir, en gl1 y gl2.
Puesto que una variable F es el cociente de dos variables ji-cuadrado, es decir, el cociente de dos
variables asimétricas positivas, su distribución también es asimétrica positiva. En relación con la for-
ma de la distribución F, los gráficos de la Figura 6.3 muestran: (1) asimetría extrema cuando gl1 = 2,
sin importar cómo de grande es gl2 ; y (2) reducción paulatina del grado de asimetría conforme va
aumentando el valor de gl1.
En el eje horizontal de estos gráficos están representados los valores F ; en el vertical, sus densi-
dades. Cada gráfico se corresponde con un valor de gl1: 2, 4, 6, 8, 10 y 12. Y las distintas curvas den-
tro de un mismo gráfico se corresponden con diferentes valores de gl2: 20, 50, 100 y 500. El rango de
valores representados permite formarse una idea bastante precisa de cómo va cambiando la forma de
la distribución. Cuando gl1 = 2, los valores de gl2 apenas alteran la forma de la distribución; las cua-
tro curvas dibujadas están tan solapadas que parece que solamente hay una curva; el cuantil 95 (que
es el que habitualmente se utiliza para tomar decisiones en el análisis de varianza), varía entre el va-
lor F = 3,49 para gl2 = 20 y el valor F = 3,01 para gl2 = 500. Conforme va aumentando gl1, las curvas
correspondientes a los diferentes valores de gl2 se van separando un poco más; y también va dismi-
nuyendo el grado de asimetría (las curvas más altas y más estrechas corresponden a más grados de
libertad). Con gl1 = 12, los valores de gl2 permiten distinguir cuatro curvas distintas; sin embargo, las
30
MCA y MCE son estimadores independientes de , pues MCA se basa en las medias muestrales y MCE se basa en las
varianzas muestrales. Y no olvidemos que la media y la varianza de una distribución normal, caso en el que nos encontra-
mos, son independientes.
236 Análisis de datos (vol. II)
diferencias en el cuantil 95 se mantienen en aproximadamente medio punto (igual que con gl1 = 2): el
cuantil 95 varía entre el valor F = 2,28 para gl2 = 20 y el valor F = 1,77 para gl2 = 500.
Figura 6.3. Distribuciones F con diferentes grados de libertad (gl2 = 20, 50, 100, 500).
gl1 = 2 gl1 = 4 gl1 = 6
Tabla de la distribución F
Al igual que con otras distribuciones de probabilidad estudiadas, el trabajo con la distribución F sue-
le limitarse a calcular la proporción de área bajo la curva asociada a diferentes valores del eje horizon-
tal o a encontrar el valor concreto del eje horizontal asociado a una determinada proporción de área
bajo la curva. Para esta tarea, asumimos que toda el área bajo la curva vale 1 y, por tanto, que hablar
de proporción de área es equivalente a hablar de probabilidad.
La Tabla F del Apéndice final ofrece los cuantiles 95 y 99 de la distribución F. Las cabeceras de
las columnas (gl1) contienen los grados de libertad del numerador del estadístico F ; las cabeceras de
las filas (gl2) contienen los grados de libertad del denominador. Por tanto, cada valor del interior de la
tabla corresponde a una distribución F distinta. Estos valores son los que acumulan, en sus respectivas
distribuciones, un área bajo la curva de tamaño 1 ! α = 0,95 y 1 ! α = 0,99.
Con 1 ! α = 0,95, el valor F que corresponde a gl1 = 2 y gl2 = 24 es 3,40. Esto significa que, en
la distribución F con 2 y 24 grados de libertad, el valor 3,40 acumula (o sea, deja por debajo o a la
izquierda) una proporción de área de tamaño 0,95. Es decir,
P (F < 3,40) = F (3,40) = 0,95
Ahora bien, si por debajo del valor 3,40 queda una proporción de área de tamaño 0,95, entonces la
probabilidad de encontrar valores F menores que 3,40 vale 0,95 (esto es lo que se quiere indicar al de-
cir que proporción de área es equivalente a probabilidad). Para representar este resultado utilizamos
la siguiente expresión:
F2, 24; 0,95 = 3,40
Los dos primeros subíndices se refieren a los grados de libertad; el tercero, a la proporción de área que
queda a la izquierda cada valor F (probabilidad acumulada). La tabla únicamente ofrece los cuantiles
95 y 99 de algunas distribuciones F. Para conocer otros valores puede utilizarse un programa infor-
mático como el SPSS.
Capítulo 6. ANOVA de un factor 237
FWelch = [6.52]
donde
Brown y Forsythe (1974b) han propuesto una modificación del estadístico F cuya lógica es algo
más intuitiva que la de FWelch y que sirve igualmente para contrastar la hipótesis global de igualdad de
medias cuando no puede asumirse que las varianzas poblacionales son iguales:
FBrown-Forsythe = [6.53]
gl = con = [6.54]
donde q, al igual que en el procedimiento de Tukey, es el valor de la distribución del rango studen-
tizado que acumula una probabilidad 1 ! αF con J medias y gl grados de libertad (gl se obtiene con la
ecuación [6.37]). No obstante, el método de Games-Howell se vuelve algo liberal con tamaños mues-
trales pequeños. En estos casos es preferible utilizar la DMS basada en el estadístico T3 de Dunnett32
(1980b):
donde q es el valor de la distribución del módulo máximo studentizado (ver Pardo y San Martín, 1998,
Tabla K del Apéndice final) que acumula una probabilidad 1 ! α F con k = J (J ! 1) / 2 y gl grados de
libertad (gl se obtiene con la ecuación [6.37]).
Métodos secuenciales
No todos los procedimientos diseñados para llevar a cabo comparaciones a posteriori por pares se ba-
san en la misma lógica. Mientras la prueba de Tukey, por ejemplo, utiliza un mismo nivel de signifi-
cación y un único punto crítico (una única DMS) para las J (J !1) / 2 posibles comparaciones por pares,
31
Dunnett (1980b) ha propuesto una solución similar a la de Games-Howell: el método C. Este método consiste en utilizar
como estimación de los grados de libertad del error (gl) la solución de Cochran y Cox (ver Pardo y San Martín, 1998,
Capítulo 4, ecuación [4.13]), en lugar de la solución de Welch (que es lo que hace el método de Games-Howell).
32
El estadístico T3 de Dunnett se basa en el T2 de Tamhane (1977, 1979). El estadístico T2 utiliza como estimación del
error típico de la diferencia de medias el mismo valor que el estadístico T3 de Dunnett, pero se basa en la distribución t de
Student y utiliza la desigualdad de Sidák para controlar la tasa de error (ver, en este mismo capítulo, la nota a pie de página
número 21). El valor t que se utiliza en la ecuación de la DMS es el cuantil 100 (1 ! α /2)1/k de la distribución t de Student
con gl grados de libertad (gl se obtiene con la ecuación [6.37]) y k = J (J ! 1)/ 2.
Capítulo 6. ANOVA de un factor 239
otros procedimientos realizan las comparaciones por pasos o de forma secuencial, cambiando el nivel
de significación y el punto crítico en cada paso.
En los métodos secuenciales, tras ordenar de forma ascendente las J medias por su tamaño, las
comparaciones entre pares de medias se llevan a cabo teniendo en cuenta el número de pasos (r) que
separan a las medias comparadas: con J medias, la media más pequeña y la más grande están separa-
das r = J pasos; la media más pequeña y la segunda más grande están separadas r = J ! 1 pasos; la
media más pequeña y la tercera más grande están separadas r = J ! 2 pasos; etc. Dos medias adya-
centes tras la ordenación están separadas r = 2 pasos. El número de pasos existente entre las medias
comparadas condiciona el nivel de significación (y, por tanto, el punto crítico) con el que se evalúa
cada comparación. En este apartado se describen dos de estos métodos secuenciales33: la prueba de
Student-Newman-Keuls y la de Ryan-Einot-Gabriel-Welch.
La prueba de Student-Newman-Keuls (S-N-K) fue propuesta inicialmente por Gosset (1927),
Newman (1939) y Keuls (1952), y ha sido muy revitalizada en las últimas décadas (ver Jaccard, Bec-
ker y Wood, 1984; Toothaker, 1991). Utiliza, al igual que la prueba de Tukey, un estadístico basado
en la distribución del rango studentizado, pero, a diferencia de la de Tukey, la prueba de S-N-K sigue
una estrategia secuencial basada en una ordenación de las medias por su tamaño.
La diferencia mínima significativa de Student-Newman-Keuls (DMSSNK) se calcula de la misma
manera que DMSTukey (ver ecuación [6.27]), con la única diferencia de que los grados de libertad que
se utilizan para obtener el cuantil 100(1 ! αF) de la distribución del rango studentizado cambian:
donde el procedimiento de Tukey utiliza J para obtener un único punto crítico q y, en consecuencia,
un único valor DMSTukey, el procedimiento S-N-K utiliza r = «número de pasos entre las medias com-
paradas» para obtener tantos puntos críticos como valores r distintos pueda haber con J medias:
DMSS-N-K = [6.57]
Por ejemplo, con cuatro grupos (J = 4), la media más grande y la más pequeña están separadas 4 pa-
sos; para comparar esas dos medias, el valor de DMSS-N-K se obtiene utilizando r = 4 grados de liber-
tad. Las medias 1ª-3ª y 2ª-4ª, que se encuentran separadas 3 pasos, se comparan utilizando r = 3. Y las
medias 1ª-2ª, 2ª-3ª y 3ª-4ª, que están separadas 2 pasos, se comparan utilizando r = 2.
En todos los casos se contrasta la hipótesis nula de que las dos medias comparadas son iguales, es
decir, H0: µ j = µ j’ . Estas comparaciones se llevan a cabo de forma secuencial, por pasos:
1. Se compara la media más grande con la más pequeña, es decir, las dos medias separadas r = J
pasos. Si se mantiene la hipótesis nula referida a esta primera comparación, se detiene el proce-
so y se concluye que entre las J medias consideradas no se han encontrado diferencias signifi-
cativas. Si se rechaza la hipótesis nula, se continúa con el paso 2.
2. Se comparan las medias separadas r = J ! 1 pasos, pero por orden. Primero se comparan las dos
medias cuya diferencia es mayor; si se mantiene la hipótesis nula referida a esa comparación, se
detiene el proceso y se consideran no significativas el resto de diferencias; si se rechaza la hipó-
tesis nula, se comparan las dos medias cuya diferencia es la siguiente mayor. Si se rechazan todas
las hipótesis referidas a las medias separadas r = J ! 1 pasos, se continúa con el paso 3.
3. Se comparan las medias separadas r = J ! 2 pasos, también por orden y siguiendo la misma ló-
gica del paso 2.
4. Se continúa el proceso hasta que se obtiene una diferencia no significativa o hasta que se compa-
ran todas las medias separadas r = 2 pasos.
33
Existen otros métodos secuenciales además de los dos incluidos aquí. Duncan (1955), por ejemplo, ha propuesto un mé-
todo secuencial, conocido como prueba del rango múltiple, que se basa en la misma lógica que la de Student-Newman-Keuls
pero utilizando como nivel de significación para cada grupo de medias separadas r pasos el valor αr = 1 ! (1 ! α) r!1. A pe-
sar de su amplia utilización en el pasado, la prueba del rango múltiple parece más bien poco recomendable (ver Seaman,
Levin y Serlin, 1991).
240 Análisis de datos (vol. II)
La consecuencia de esta forma de proceder es que, para J > 3, la tasa de error por familia de compa-
raciones (αF) es siempre mayor que el nivel de significación nominal α (ver, por ejemplo, Keselman,
Keselman y Games, 1991). De hecho, lo que hace el procedimiento SNK es controlar αF para cada
conjunto de medias separadas r pasos.
Cuantos más pasos existen entre dos medias, mayor es la diferencia mínima necesaria para consi-
derar que esas medias difieren significativamente. Esto convierte al procedimiento de S-N-K en más
potente que el de Tukey, pero a costa de incrementar la tasa de error por familia de comparaciones (αF).
La prueba de Ryan-Einot-Gabriel-Welsch (R-E-G-W Q) debe su nombre a varios participan-
tes en su diseño final. Ryan (1960) propuso una modificación del procedimiento de S-N-K para ate-
nuar la disminución tan rápida que se produce en el valor de DMSSNK como consecuencia de la dismi-
nución de r. Según la propuesta de Ryan, es posible controlar αF si, al comparar dos medias sepa-
radas r pasos, en lugar de utilizar α (como hace el procedimiento de S-N-K), se utiliza αr = α / (J / r).
Puesto que la fracción J / r aumenta conforme disminuye r, el valor de αr será tanto más pequeño cuan-
to menor sea r, lo cual significa que, aunque el valor de la DMS vaya disminuyendo con r, esta dis-
minución será más lenta que la que se produce con el método de S-N-K. De hecho, la solución pro-
puesta por Ryan permite ejercer un buen control sobre la tasa de error.
La propuesta inicial de Ryan ha sufrido dos modificaciones en un intento de incrementar la po-
tencia del procedimiento sin alterar su control sobre αF. En primer lugar, Einot y Gabriel (1975) han
propuesto utilizar αr = 1 ! (1 ! α)r/J; con esta solución, αr también disminuye conforme lo hace r, pero
más despacio que en la solución propuesta por Ryan. En segundo lugar, Welsch (1977) ha argumen-
tado que es posible incrementar todavía más la potencia del procedimiento sin perder control sobre αF
si, permaneciendo todo igual, las medias separadas r = J ! 1 pasos se comparan utilizando α (en lugar
de αr ). Estas dos modificaciones de la propuesta inicial de Ryan unidas a la lógica del procedimien-
to de S-N-K es lo que se conoce como método de R-E-G-W Q. La letra Q hace referencia a la distri-
bución del rango studentizado.
Efectos aleatorios
Recordemos que los niveles concretos que adopta un factor de efectos fijos son los niveles que intere-
sa estudiar; por este motivo la hipótesis nula se plantea justamente sobre las medias poblacionales
correspondientes a esos niveles: H0: µ 1 = µ 2 = · · · = µ J . Por el contrario, los niveles concretos que adop-
ta un factor de efectos aleatorios únicamente constituyen una muestra aleatoria de la población de los
niveles que interesa estudiar; por este motivo la hipótesis nula no se plantea sobre las medias de los
niveles utilizados, sino sobre su varianza:
H0: = 0
( se refiere a la varianza de las medias de todos los posibles niveles del factor). Puesto que los ni-
veles de un factor de efectos aleatorios son solamente algunos de los posibles, la hipótesis debe refle-
jar, no la diferencia entre las medias de los niveles concretos utilizados, sino la diferencia entre todos
los posibles niveles del factor (y la varianza de esas medias será cero cuando todas ellas sean iguales).
Por tanto, en un modelo de efectos aleatorios, el interés del análisis no se centra en las medias de los
niveles del factor, sino en su varianza; en concreto, el interés se centra en intentar cuantificar la con-
tribución de cada término aleatorio a la varianza de la variable dependiente.
En el modelo de un factor de efectos aleatorios hay dos términos aleatorios: el factor y la varia-
ble dependiente (en el modelo de efectos fijos, el factor no se considera una variable aleatoria); y se
asume que la variabilidad de la variable dependiente dentro de cada nivel del factor es independiente
del nivel del factor (éste es el supuesto de igualdad de varianzas al que nos hemos referido repeti-
damente a lo largo de este capítulo); por tanto, se verifica:
= + [6.58]
Capítulo 6. ANOVA de un factor 241
Es decir, la varianza total (la varianza del conjunto de puntuaciones Y tomadas como si pertenecieran
a un único grupo) es la suma de dos términos o componentes independientes: la varianza del factor
( ; la varianza entre las medias de los niveles del factor) y la varianza de Y ( ; la varianza de la
variable dependiente en cada población; se asume que todas las poblaciones tienen la misma varian-
za). De ahí el nombre de componentes de la varianza que recibe esta versión del análisis de varianza
(para profundizar en los modelos de efectos aleatorios, puede consultarse Rao y Kleffe, 1988; o Sear-
le, Casella y McCulloch, 1992).
El procedimiento ANOVA de un factor permite contrastar la hipótesis nula = 0 y estimar tanto
como . Veamos cómo hacer esto con un ejemplo. El ejemplo se basa en los mismos datos que hemos
analizado con el modelo de efectos fijos (Tabla 6.2; ejemplo sobre la relación entre la ansiedad y el ren-
dimiento). Obviamente, un mismo factor (nivel de ansiedad: bajo, medio, alto) no puede ser de efectos
fijos y al mismo tiempo de efectos aleatorios. Sin embargo, vamos a utilizar los mismos datos para que
se entienda dónde están las diferencias entre el modelo de efectos fijos y el de efectos aleatorios:
' Reproducir en el Editor de datos los datos de la Tabla 6.2 (o abrir el archivo Tabla 6.2 ansiedad
rendimiento que se encuentra en la página web del manual).
' Seleccionar la opción Comparar medias > ANOVA de un factor del menú Analizar para acceder al cua-
dro de diálogo ANOVA de un factor y trasladar la variable rendimiento a la lista Dependiente y la
variable ansiedad al cuadro Factor.
' Pulsar el botón Opciones para acceder al subcuadro de diálogo ANOVA de un factor: Opciones y
marcar la opción Efectos aleatorios y fijos. Pulsar el botón Continuar para volver al cuadro de diálo-
go principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.14 y 6.15. La Ta-
bla 6.14 muestra el resumen del ANOVA y es idéntica a la que ya hemos obtenido cuando hemos
asumido que el factor ansiedad era de efectos fijos (ver Tabla 6.6). Por tanto, en el modelo de un factor,
ni las medias cuadráticas ni el estadístico F cambian porque el factor sea de efectos fijos o de efectos
aleatorios. La única diferencia en este punto está en que, ahora, la hipótesis nula que se está contras-
tando se refiere a la varianza de las medias del factor. Cuando el factor es de efectos fijos, el rechazo
de la hipótesis de igualdad de medias permite concluir que los promedios comparados no son iguales;
y como los niveles del factor son justamente los que interesa estudiar, tiene sentido realizar compa-
raciones múltiples para indagar entre qué medias en concreto se dan las diferencias. Cuando el factor
es de efectos aleatorios, el rechazo de la hipótesis nula permite concluir que el nivel de ansiedad está
relacionado con el rendimiento; y como los niveles concretos del factor solamente son una muestra
aleatoria de los posibles niveles, no tiene sentido realizar comparaciones múltiples entre ellos.
La novedad del análisis en relación con el hecho de estar utilizando un factor de efectos aleatorios se
encuentra en la Tabla 6.15. La última columna de la tabla (componentes de la varianza) ofrece una
estimación de la varianza del factor ( = 11,69). De acuerdo con la relación establecida en [6.58], es-
ta estimación de la varianza del factor puede utilizarse para conocer cómo de grande es la variabilidad
debida al factor en comparación con la variabilidad total:
CCI = [6.59]
242 Análisis de datos (vol. II)
Puesto que el CCI (coeficiente de correlación intraclase) está calculado como el tamaño relativo de la
varianza de las medias del factor respecto de la varianza total, lo que realmente está expresando es la
proporción de varianza común o compartida entre el factor y la variable dependiente.
Para obtener CCI mediante [6.59], además de , necesitamos , es decir, una estimación de la va-
rianza de Y en cada población; pero la tenemos. Recordemos que, puesto que estamos asumiendo que
las varianzas poblacionales son iguales, la mejor estimación de esa única varianza poblacional se ob-
tiene promediando las J varianzas muestrales, es decir, calculando MCE. Y este cálculo lo incluye la
Tabla 6.14 (MCE = 13,11). Por tanto,
Este resultado indica que el factor ansiedad comparte el 47 % de la varianza del rendimiento. Lo cual
significa que nuestro conocimiento del rendimiento de los sujetos mejora un 47 % cuando conocemos
su nivel de ansiedad. Vemos que el CCI se interpreta exactamente igual que las medidas de asociación
estudiadas en el apartado Medidas del tamaño del efecto. En realidad, cuando el factor es de efectos
aleatorios, el CCI coincide con la medida de asociación omega-cuadrado (ver ecuación [6.17]):
CCI = = = = 0,47
6.1. En muchos trabajos sobre aprendizaje parece haber quedado demostrado que el rendimiento de los suje-
tos es tanto mejor cuanto mayor es la recompensa (refuerzo) que reciben. En uno de estos trabajos se
formaron aleatoriamente 3 grupos de ratas sedientas. Las seis ratas de cada grupo fueron reforzadas con
diferentes cantidades de agua (5, 10 y 15 cc) por recorrer el laberinto. La siguiente tabla muestra el
número de ensayos que ha necesitado cada rata para aprender a recorrer el laberinto bajo cada condición
experimental:
5 cc 9 8 7 8 7 9
10 cc 6 6 3 4 5 6
15 cc 4 2 3 4 3 2
Utilizando α = 0,05,
a. ¿Puede afirmarse que la cantidad de recompensa afecta a la velocidad de aprendizaje de las ratas?
b. Obtener una estimación del tamaño del efecto. Interpretar el resultado.
Capítulo 6. ANOVA de un factor 243
6.2. La siguiente tabla muestra las puntuaciones de una muestra de 32 pacientes depresivos en la escala de
depresión de Hamilton tras recibir tratamiento durante 12 semanas. Todos los pacientes seleccionados
tenían puntuaciones iniciales mayores de 30 puntos. Se han formado aleatoriamente 4 grupos del mis-
mo tamaño (8 pacientes por grupo) y a cada grupo se le ha asignado, también aleatoriamente, un trata-
miento distinto. Al primer grupo se le ha administrado un tratamiento farmacológico convencional a
base fluoxetina (a1 = «control»); al segundo, una combinación de fluoxetina con reboxetina (a2 = «com-
puesto»); al tercero, fluoxetina y psicoterapia (a3 = «mixto»); el cuarto grupo solamente ha recibido
psicoterapia (a4 = «psicoterapia»).
_
Tratamientos Puntuaciones escala Hamilton Yj S j2
Utilizando α = 0,05,
a. Contrastar la hipótesis nula de que el nivel medio de depresión es el mismo en los cuatro grupos.
b. Estimar el tamaño del efecto. Interpretar el resultado.
c. Calcular la potencia del contraste.
d. ¿Qué grupo difiere del control?
e. Comparar las medias de los dos grupos que han recibido psicoterapia con las de los dos que no la
han recibido.
6.3. En el contexto de la valoración que se hace anualmente de la calidad percibida del servicio de cafete-
rías del campus de una determinada universidad, se desea estudiar la evolución que han experimen-
tado esas valoraciones entre los años 2002 y 2005. La hipótesis de los investigadores es que las valora-
ciones han ido mejorando con los años. La siguiente tabal recoge las valoraciones medias registradas
cada año:
Sabiendo que cada año se ha entrevistado a 100 usuarios, que la media cuadrática error (MCE ) vale
2,58, y utilizando un nivel de confianza de 0,95, ¿qué puede concluirse sobre la hipótesis de los inves-
tigadores?
6.4. Para estudiar el efecto de la desnutrición proteica sobre el aprendizaje de las ratas se seleccionaron tres
tipos de dieta: A, B y C (cada una con diferente contenido proteico), y_se aplicaron_ a 30 ratas
_ (10 por
tratamiento). Las medias obtenidas por grupo fueron las siguientes: A = 3,8; B = 5,2; C = 6,3. Sa-
biendo que la media cuadrática error vale 2,22, averiguar si la cantidad de contenido proteico en la
dieta influye sobre el aprendizaje de las ratas (α = 0,05).
244 Análisis de datos (vol. II)
6.5. Se sospecha que el nivel de bienestar psicológico está relacionado con la proximidad del periodo vaca-
cional estival. Para estudiar esta relación se toma una muestra de 30 personas a las que se les pide que
valoren, en una escala de 0 a 10, su bienestar psicológico en tres meses del año: febrero, abril y junio.
a. Identificar qué variables están involucradas y si son cuantitativas o categóricas.
b. ¿Qué prueba estadística podría utilizarse para estudiar si el bienestar psicológico está relacionado
con la proximidad del periodo vacacional estival?
c. ¿Qué prueba estadística podría utilizarse para estudiar si el bienestar psicológico aumenta confor-
me se va aproximando el periodo vacacional estival?
d. ¿Qué prueba estadística permitiría averiguar en qué mes(es) de los estudiados es mayor el nivel
de bienestar psicológico?
6.7. De un ANOVA A-CA con la variable dependiente Y tenemos la siguiente información: MCI = 32,3 y
MCE = 2,70. Si hacemos W = 2Y + 3 y llevamos a cabo un ANOVA con la variable dependiente W,
a. ¿Cuánto valdrá la media cuadrática intergrupos MCI ?
b. ¿Cuánto valdrá la media cuadrática error MCE ?
c. ¿Cuánto valdrá el estadístico F ?
6.9. (Señalar la alternativa correcta.) En un ANOVA A-CA, la MCE (media cuadrática error)...
a. Siempre es mayor que cero.
b. Es, a veces, negativa.
c. Siempre es igual o mayor que cero.
d. Es negativa cuando la variabilidad total es menor que la variabilidad entre los niveles del factor.
e. No puede valer cero.
6.11. Un psicólogo afirma que al aumentar el nivel de adrenalina en sangre también aumenta el número de
errores que se cometen en una determinada tarea de atención. Un colega suyo piensa que la relación
entre la adrenalina y el número de errores tiene forma de U invertida. Para aclarar la situación, toman
una muestra aleatoria de 60 sujetos y la dividen en tres grupos a los que ponen a realizar la tarea tras
inducirles distintos niveles de adrenalina: bajo, medio y alto. Miden los errores cometidos por cada
sujeto y se disponen a analizar los datos obtenidos.
a. Plantea con palabras y estadísticamente las hipótesis nulas que deben formularse para poder con-
trastar las sospechas de ambos psicólogos.
b. Al contrastar la hipótesis del primer psicólogo se obtiene un nivel crítico p = 0,261. Utilizando un
nivel de confianza de 0,95, ¿qué decisión debe tomarse?
c. Al contrastar la hipótesis del segundo psicólogo se obtiene un nivel crítico p = 0,002. Utilizando
un nivel de confianza de 0,95, ¿qué decisión debe tomarse?
d. Con estos resultados, ¿cuál es la conclusión razonable?
( ) Tiene razón el primer psicólogo.
( ) Tiene razón el segundo psicólogo.
( ) No tiene razón ninguno de los dos.
( ) Con los datos disponibles no podemos saber cuál de los dos tiene razón.
6.12. (Señalar la alternativa correcta.) En un ANOVA de un factor con J grupos independientes, siendo ver-
dadera la hipótesis H0: µ 1 = µ 2 = · · · = µ J , y siendo α el nivel de significación, la probabilidad de que
k hipótesis nulas referidas a comparaciones independientes entre pares de medias sean...
a. Rechazadas, vale α.
b. Mantenidas, vale ( k ! 1) α .
c. Rechazadas, vale (1 ! α) k !1.
d. Mantenidas, vale (1 ! α).
e. Rechazadas, vale 1 ! (1 ! α) k.
6.13. En un diseño con J = 4 grupos se quiere comparar la media del grupo 4 con las medias de los grupos
1, 2 y 3 tomados juntos. ¿Qué hipótesis nula debe plantearse?
a. H0 : L = (1) µ 1 + (1) µ 2 + (1) µ 3 + (!1) µ 4 = 0.
b. H0 : L = (!1) µ 1 + (!1) µ 2 + (1) µ 3 + (1) µ 4 = 0.
c. H0 : L = (1) µ 1 + (!1) µ 2 + (!1) µ 3 + (1) µ 4 = 0.
d. H0 : L = (1) µ 1 + (1) µ 2 + (1) µ 3 + (!3) µ 4 = 0.
e. Ninguna de las anteriores hipótesis es correcta.
6.14. Al analizar los datos de un diseño con tres grupos se plantean las siguientes hipótesis:
! H0(1) : L1 = µ 1 + µ 2 ! 2 µ 3 = 0.
! H0(2) : L2 = µ 1 ! µ 3 = 0.
¿Son independientes L1 y L2? ¿Por qué?
6.15. Queremos utilizar la prueba de Scheffé para contrastar la hipótesis de que los promedios de dos trata-
mientos tomados juntos (a1 y a2) no difieren del promedio de otros cuatro combinados (a3, a4, a5 y a6).
Elegir el conjunto de coeficientes que permiten definir la comparación:
a1 a2 a3 a4 a5 a6
a. !1 !1 1 1 1 1
b. 1 1 !1 !1 !1 !1
c. 2 2 !2 !2 !2 !2
d. 4 4 !2 !2 !2 !2
e. 2 2 !1 !1 !1 !1
246 Análisis de datos (vol. II)
6.16. A continuación se ofrece, incompleta, la tabla resumen de un ANOVA A-CA. Además de la informa-
ción que contiene la tabla, sabemos que J = 3.
Fuente de variación gl MC F p
Intergrupos ( ) 30 6 0,010
Término lineal ( ) ( ) ( ) 0,005
Término cuadrático ( ) 10 ( ) 0,100
Término cúbico ( ) ( ) ( )
Intragrupos o error ( ) ( )
Total 17
a. Completar la tabla.
b. ¿Puede concluirse que la VI y la VD están relacionadas? ¿Por qué? (α = 0,05).
c. La relación entre la VI y la VD es: ¿lineal?, ¿cuadrática?, ¿cúbica?, ¿ninguna de ellas? ¿Por qué?
d. ¿Cuántos sujetos han participado en el estudio?
e. ¿Qué porcentaje de la varianza de la atención explica la dosis de fármaco?
6.17. Como parte de un estudio sobre inseguridad ciudadana, un ayuntamiento ha recogido datos del núme-
ro de denuncias registradas en comisaría en cuatro días diferentes (martes, jueves, sábado y domingo)
durante cinco semanas. El objetivo del estudio es contrastar dos hipótesis con α = 0,05: (1) si el pro-
medio de denuncias registradas en sábado es mayor que el promedio de denuncias registradas en el
resto de los días de la semana tomados juntos y (2) si el número de denuncias registradas aumenta a lo
largo de la semana.
a. ¿Qué hipótesis nula debe plantearse para contrastar la hipótesis 1? ¿Con qué prueba estadística
puede contrastarse esa hipótesis? ¿Cuál será la conclusión si p = 0,001?
b. ¿Qué hipótesis nula debe plantearse para contrastar la hipótesis 2? ¿Con qué prueba estadística
puede contrastarse esa hipótesis? ¿Cuál será la conclusión si p = 0,001?
6.18. En un diseño con tres grupos, ¿cuál de las siguientes hipótesis nulas hay que contrastar para averiguar
si la relación entre la VI y la VD es lineal?
a. H0: (!1) µ 1 + µ 2 + (1) µ 3 = 0.
b. H0: (!2) µ 1 + (1) µ 2 + (1) µ 3 = 0.
c. H0: µ 1 + (!1) µ 2 + (1) µ 3 = 0.
d. H0: !µ 1 + µ 3 = 0.
e. H0: (!1) µ 1 + (!1) µ 2 + (2) µ 3 = 0.
7
Análisis de varianza (II)
Dos factores
completamente aleatorizados
En todos los procedimientos estadísticos revisados hasta ahora nos hemos limitado a estudiar
una o dos variables. En este capítulo vamos a abordar por primera vez el estudio de más de
dos variables.
Los modelos factoriales de análisis de varianza (factorial = más de un factor) permiten
evaluar el efecto individual y conjunto de dos o más factores (variables independientes ca-
tegóricas) sobre una variable dependiente cuantitativa. En este capítulo nos vamos a centrar
en el modelo de dos factores completamente aleatorizados. Este modelo permite analizar el
efecto de dos variables independientes categóricas (factores) sobre una variable dependien-
te cuantitativa.
Un ANOVA de dos factores permite estudiar, por ejemplo, si el rendimiento en una tarea
(variable dependiente cuantitativa) cambia con el nivel de ansiedad de los sujetos (bajo, medio,
alto; variable independiente categórica) y con la dificultad de la tarea (fácil, difícil; variable
independiente categórica). Pero, además, y esto es lo realmente interesante, también permite
estudiar si las diferencias entre sujetos con diferente nivel de ansiedad se mantienen o no
cuando cambia la dificultad de la tarea; es decir, permite estudiar si la interacción entre los
factores nivel de ansiedad y dificultad de la tarea afecta a la variable dependiente rendimiento
de forma diferente a como lo hace cada factor por separado.
Una ventaja de los diseños de dos factores sobre los diseños de un factor es que necesitan
menos sujetos para alcanzar la misma potencia. Supongamos que tenemos dos variables in-
dependientes o factores (A y B), el primero con tres niveles y el segundo con dos. Para com-
parar los niveles de A utilizando un diseño de un factor podemos asignar una muestra aleato-
ria de 20 sujetos a cada nivel; 60 sujetos en total. Para comparar los niveles de B podemos
asignar una muestra aleatoria de 30 sujetos a cada nivel; otros 60 sujetos en total. Entre los
dos experimentos, 120 sujetos. En un diseño factorial las cosas cambian. Al combinar los
niveles de A y B es posible reducir el número de sujetos a la mitad: con 10 sujetos por cada
248 Análisis de datos (vol. II)
combinación AB tendremos un total de 60 sujetos y tanto los niveles de A como los de B po-
drán evaluarse con el mismo número de sujetos que en los correspondientes diseños de un
factor por separado.
Esta ventaja tiene su importancia, sobre todo si se tiene en cuenta que en muchas áreas
de conocimiento no resulta nada fácil conseguir muestras grandes. Pero la ventaja verdade-
ramente importante de los diseños factoriales radica en el hecho de que el estudio simultáneo
de más de un factor permite determinar, no ya solo el efecto individual de cada factor sobre
la variable dependiente, sino, además, si la interacción entre los factores modifica el efecto
individual que cada factor tiene por separado.
Enseguida nos ocuparemos del importantísimo concepto de la interacción entre factores.
Antes necesitamos conocer la estructura de un diseño de dos factores y la notación que uti-
lizaremos para identificar cada elemento del diseño.
Factor B
Factor A b1 b2 ··· bk ··· bK
a1 ab11 ab12 ··· ab1k ··· ab1K
a2 ab21 ab22 ··· ab2k ··· ab2K
··· ··· ··· ··· ··· ··· ···
aj abj 1 abj 2 ··· abj k ··· abj K
··· ··· ··· ··· ··· ··· ···
aJ abJ1 abJ 2 ··· abJ k ··· abJ K
Los niveles del factor A definen J poblaciones con medias1 µ 1+, µ 2+, ..., µ J +. Los niveles del
factor B definen K poblaciones con medias µ +1, µ +2, ..., µ +K. La combinación AB entre los
niveles de ambos factores definen JK poblaciones con medias µ 11, µ 12, ..., µ 21, µ 22, ..., µ +K.
A la media total la llamaremos µ. De cada combinación abj k (es decir, de cada población)
tenemos una muestra aleatoria de puntuaciones Yijk de tamaño n (i = 1, 2, ..., n).
El número de puntuaciones (sujetos) de cada casilla abj k, es decir, el tamaño de las ca-
sillas, puede o no ser el mismo, pero, de momento, nos centraremos en el caso en el que to-
1
Al igual que en el capítulo anterior, suprimiremos el subíndice Y de las medias poblacionales µ para simplificar la nota-
ción. Por tanto, siempre que utilicemos el símbolo µ (media poblacional) sin indicación de la variable a la que se refiere
(X, Y, Z, etc.), estaremos asumiendo que se refiere a la variable dependiente Y.
Capítulo 7. ANOVA de dos factores 249
das las casillas tienen el mismo tamaño, es decir, n. Por tanto, N = n JK. Con las n puntua-
ciones de cada casilla abj k obtenemos los totales (sumas) que muestra la Tabla 7.2.
Factor B
Factor A b1 b2 ··· bk ··· bK Suma
a1 ··· ···
a2 ··· ···
··· ··· ··· ··· ··· ··· ··· ···
aj ··· ···
··· ··· ··· ··· ··· ··· ··· ···
aJ ··· ···
En el modelo de dos factores es necesario utilizar tres subíndices (ijk) para identificar cada
valor de Y: el primero de ellos (i) se refiere a los diferentes elementos (generalmente sujetos)
de la misma muestra o casilla: i = 1, 2, ..., n; el segundo ( j), a los diferentes niveles del fac-
tor A; y el tercero (k), a los diferentes niveles del factor B. Así, por ejemplo, Y523 se refiere
a la puntuación del 5º elemento (sujeto) en la casilla correspondiente a la combinación del
2º nivel de A con el 3er nivel de B; es decir, a la 5ª puntuación de la casilla ab23.
El signo “+” colocado como subíndice se refiere a todos los valores del subíndice al que
sustituye. Por ejemplo, Y+24 se refiere a todas las puntuaciones (todos los valores i) de la ca-
silla correspondiente al cruce del 2º nivel de A ( j = 2) con el 4º nivel de B ( k = 4). Para re-
presentar estas sumas o totales utilizaremos la letra T.
Los totales de cada casilla ( ) se obtienen sumando desde 1 hasta n todas las puntua-
ciones de esa casilla:
= = [7.1]
Los totales correspondientes a cada nivel del factor A ( ) se obtienen sumando todas las
puntuaciones de la fila j:
= = = [7.2]
Los totales correspondientes a cada nivel del factor B ( ) se obtienen sumando todas las
puntuaciones de la columna k:
= = = [7.3]
250 Análisis de datos (vol. II)
Y el gran total (T ) se obtiene sumando todas las puntuaciones de la tabla, lo cual puede ha-
cerse de diferentes maneras:
= = = = = [7.4]
A partir de estos totales pueden obtenerse las medias de cada casilla, de cada fila, de cada
columna y el total de la tabla simplemente dividiendo los correspondientes totales por el
número de puntuaciones utilizadas para obtenerlos:
= , = , = , = [7.5]
b1 b2 b3
a1 µ 11 µ 12 µ 13 µ 1+
a2 µ 21 µ 22 µ 23 µ 2+
µ +1 µ +2 µ +3 µ
2
Ver, por ejemplo, Everitt y Howell (2005, págs. 930-931); Kirk (1995, pág. 367); o Maxwell y Delaney (2004, pág. 278).
3
Ver, por ejemplo, Everitt y Howell (2005, pág. 931); Maxwell y Delaney (2004, págs. 279-280); o Winer, Brown y Mi-
chels (1991, pág. 296).
Capítulo 7. ANOVA de dos factores 251
4
Las expresiones [7.7] y [7.8] se deducen, ambas, de [7.6]; por tanto, son equivalentes. En efecto, según [7.7], cuando no
existe interacción se verifica µ11 = µ1++ µ+1 ! µ y µ21 = µ2++ µ+1 ! µ. De estas igualdades se sigue que
µ 11 ! µ 1+ ! µ +1 = !µ y µ 21 ! µ 2+ ! µ +1 = !µ
Por tanto,
µ 11 ! µ 1+ ! µ +1 = µ 21 ! µ 2+ ! µ +1
Lo cual lleva a µ 11 ! µ 21 = µ 1+ ! µ 2+, que no es otra cosa que la expresión [7.8]. De este argumento se desprende que es
irrelevante tomar [7.7] o [7.8] como referente para definir el efecto de la interacción. Sin embargo, las interpretaciones basa-
das en [7.8] suelen resultar más fáciles de entender. La formulación basada en [7.7] ha recibido especial atención por parte
de Rosnow y Rosenthal (1989a, 1989b, 1991, 1995, 1996), quienes han llevado el argumento al extremo insistiendo en que
para poder interpretar correctamente el efecto de la interacción hay que despojarlo de todos los elementos extraños que inclu-
ye. Es así como se llega a las medias residualizadas o residuos de interacción que, siempre según Rosnow y Rosenthal, son
los únicos que informan cabalmente sobre el efecto de la interacción. Pero no parece que este enfoque haya merecido la
aceptación de todos (ver Meyer, 1991; Petty, Fabrigar, Wegener y Priester, 1996); y tampoco parece que los investigadores
estén dispuestos a incorporar a sus hábitos el plus de comprensión que exige.
252 Análisis de datos (vol. II)
La herramienta más útil para entender el concepto de interacción entre factores es, proba-
blemente, un gráfico de líneas basado en las medias de las casillas. En la Figura 7.1 (iz-
quierda) están representadas las medias de la Tabla 7.4.1. El gráfico muestra con claridad
que, cualquiera que sea el nivel de B que se considere, el comportamiento del factor A siem-
pre es el mismo: la media de a1 siempre supera en 2 puntos a la media de a2. La ausencia de
interacción queda reflejada en el hecho de que las líneas que unen las medias son paralelas
entre cada dos niveles del eje horizontal (las líneas definen perfiles idénticos).
Figura 7.1. Gráficos de líneas con las medias de las Tablas 7.4.1 (izquierda) y 7.4.2 (derecha)
En el gráfico de la Figura 7.1 (derecha) están representadas las medias de las casillas de la
Tabla 7.4.2. Ahora, las medias de a1 superan a las de a2 tanto en b1 como en b3, pero no en
Capítulo 7. ANOVA de dos factores 253
b2, donde la media de a2 es mayor que la de a1. Es decir, la diferencia entre las medias de a1
y a2 cambia cuando cambian los niveles de B. La presencia de interacción queda reflejada en
el hecho de que las líneas que unen las medias no son paralelas (definen perfiles distintos).
El significado de la interacción puede entenderse mejor, quizá, poniendo contenido con-
creto a los factores. Supongamos que el factor A es tipo de tratamiento (a1 = «tratamiento
convencional», a2 = «nuevo tratamiento») y que el factor B se refiere a tres variantes de una
misma enfermedad (b1 = «tipo 1», b2 = «tipo 2», b3 = «tipo 3»). Supongamos además que al
medir el efecto de los tratamientos hemos encontrado los resultados (medias) que recogen
las Tablas 7.4.1 y 7.4.2 (estas medias son las que están representadas en la Figura 7.1). Su-
pongamos, por último, que las medias más altas indican que el tratamiento funciona mejor.
En el caso de la Tabla 7.4.1 (diseño sin interacción), la media que se obtiene con el tra-
tamiento convencional (6) es más alta que la que se obtiene con el nuevo tratamiento (4); y
esta pauta se repite con todas las variantes de la enfermedad. Por tanto, el tratamiento con-
vencional (a1) es mejor que el nuevo tratamiento (a2) independientemente de la variante de
la enfermedad tratada.
En el caso de la Tabla 7.4.2 (diseño con interacción), el efecto global de los dos trata-
mientos es el mismo (ambas medias marginales valen 5), pero este resultado es engañoso
precisamente por la presencia de interacción. El efecto de los tratamientos está condiciona-
do por la variante de la enfermedad tratada: con las variantes 1 y 3, el tratamiento
convencional (a1) consigue mejores resultados que el nuevo tratamiento (a2); con la varian-
te 2, es el nuevo tratamiento el que consigue mejores resultados. Por tanto, el efecto de los
tratamientos cambia cuando cambia la variante de la enfermedad tratada.
Supongamos, además, que, de cada una de esas JK poblaciones, extraemos una muestra
aleatoria de tamaño n. En este escenario es posible identificar varios tipos de variabilidad.
Comencemos con las dos que ya nos resultan familiares: (1) la variabilidad que existe den-
tro de cada muestra o variabilidad intragrupos y (2) la variabilidad que existe entre las di-
ferentes muestras o variabilidad intergrupos.
Estas dos formas de variabilidad pueden cuantificarse tal como hemos hecho en el ca-
pítulo anterior a propósito del modelo de un factor. En primer lugar, con JK muestras alea-
torias tenemos JK varianzas muestrales cada una de las cuales puede utilizarse para es-
timar la varianza de su propia población. No obstante, como estamos asumiendo que las JK
254 Análisis de datos (vol. II)
varianzas poblaciones son iguales (ver [7.10]), en lugar de utilizar cada varianza muestral por
separado, obtendremos una mejor estimación de esa única varianza poblacional, , combi-
nando en un único estimador las JK varianzas muestrales:
MCE = = [7.11]
MCI = [7.12]
MCA = [7.13]
MCB = [7.14]
Capítulo 7. ANOVA de dos factores 255
MCAB = [7.15]
FA = = [7.16]
es una variable que, además de informar del grado de parecido entre las medias de los nive-
les del factor A, se distribuye según F con los grados de libertad del numerador, J ! 1, y los
del denominador, N ! JK. También sabemos que el cociente entre MCB y MCE
FB = = [7.17]
es una variable que informa del grado de parecido existente entre las medias de los niveles
del factor B y que se distribuye según F con los grados de libertad del numerador, K ! 1, y
los del denominador, N ! JK. Por último, el cociente entre MCAB y MCE
FAB = = [7.18]
es una variable que, además de informar del grado de parecido existente entre las medias de
las casillas y sus medias marginales (interacción), sabemos que se distribuye según F con los
grados de libertad del numerador, (J ! 1) (K ! 1), y los del denominador N ! JK .
Por tanto, los estadísticos FA, FB y FAB pueden utilizarse para evaluar los tres efectos de
interés (A, B y AB) en un diseño de dos factores, de efectos fijos, completamente aleatori-
zados. El Cuadro 7.1 ofrece un resumen del procedimiento.
256 Análisis de datos (vol. II)
Cuadro 7.1. Resumen del ANOVA de dos factores completamente aleatorizados (AB-CA)
1. Hipótesis:
a. H0 (A) : µ 1+ = µ 2+ = · · · = µ J+ (las medias poblacionales correspondientes a los J
niveles del factor A son iguales). Es decir, no existe efecto del factor A.
H1(A): µ j + =/ µ j + para algún j o jN (con j =/ jN) (no todas las medias correspondien-
tes a los niveles del factor A son iguales). Es decir, existe efecto del factor A.
b. H0 (B) : µ +1 = µ +2 = · · · = µ +K (las medias poblacionales correspondientes a los K
niveles del factor B son iguales). Es decir, no existe efecto del factor B.
H1 (B): µ + k =/ µ + k para algún k o kN (con k =/ kN) (no todas las medias correspon-
dientes a los niveles del factor B son iguales). Es decir, existe efecto del factor B.
c. H0(AB) : µ jk ! µ j k = µ j+ ! µ j + para todo j, jN o k (con j =/ jN) (la diferencia entre las
medias de dos casillas cualesquiera de la misma columna es igual a la diferencia
entre las medias marginales correspondientes a esas casillas). Es decir, no existe
efecto de la interacción.
H1 (AB) : µ j k ! µ j k =/ µ j + ! µ j + para algún j, jN o k (con j =/ jN) (no todas las dife-
rencias entre las medias de dos casillas cualesquiera de la misma columna son
iguales a la diferencia entre las medias marginales correspondientes a esas ca-
sillas). Es decir, existe efecto de la interacción.
2. Supuestos: JK muestras de tamaño n aleatoriamente seleccionadas de JK poblacio-
nes normales con la misma varianza.
3. Estadísticos del contraste (ver ecuaciones [7.16], [7.17] y [7.18]):
a. Para H0 (A) : FA = MCA « MCE .
b. Para H0 (B) : FB = MCB « MCE .
c. Para H0 (AB) : FAB = MCAB « MCE .
4. Distribuciones muestrales:
a. FA se distribuye según F con J !1 y N ! JK grados de libertad.
b. FB se distribuye según F con K !1 y N ! JK grados de libertad.
c. FAB se distribuye según F con (J !1)(K !1) y N ! JK grados de libertad.
5. Zonas críticas:
a. FA $
> FJ !1, N !JK; 1! α .
b. FB $
> FK !1, N !JK; 1! α .
c. FAB $
> F(J !1)(K !1), N !JK; 1! α .
6. Reglas de decisión:
a. Se rechaza H0 (A) si el estadístico FA cae en la zona crítica; en caso contrario, se
mantiene. El rechazo de H0 (A) implica que existe efecto significativo del factor A.
b. Se rechaza H0 (B) si el estadístico FB cae en la zona crítica; en caso contrario, se
mantiene. El rechazo de H0 (B) implica que existe efecto significativo del factor B.
c. Se rechaza H0 (AB) si el estadístico FAB cae en la zona crítica; en caso contrario, se
mantiene. El rechazo de H0 (AB) implica que existe efecto significativo de la interac-
ción AB.
Capítulo 7. ANOVA de dos factores 257
(B ) Nivel de ansiedad
(A ) Dificultad
de la tarea (b1) Bajo (b2) Medio (b3) Alto Totales
12 15 8
17 12 6
(a1) Fácil 9 18 5 180
14 14 10
13 (65) 16 (75) 11 (40)
8 10 13
6 14 10
(a2) Difícil 9 16 9 150
8 14 12
4 (35) 11 (65) 6 (50)
Totales 100 140 90 330
Los valores entre paréntesis son los totales (sumas) de las casillas.
diciones resultantes de combinar los niveles de ambos factores. El análisis de varianza de dos
factores completamente aleatorizados es el modelo apropiado para analizar estos datos. La
Figura 7.2 muestra los diagramas de caja del rendimiento correspondientes a cada combi-
nación entre la dificultad de la tarea y el nivel de ansiedad. Ninguno de los diagramas mues-
tra casos anómalos ni asimetrías evidentes. Pero el rendimiento medio varía sensiblemente
entre condiciones. Veamos cómo evaluar los tres efectos presentes en el diseño.
1. Hipótesis:
a. H0 (A) : µ fácil = µ difícil (el rendimiento medio es el mismo con tareas fáciles y con ta-
reas difíciles; es decir, la dificultad de la tarea no afecta al rendimiento).
H1 (A): el rendimiento medio no es el mismo con tareas fáciles y con tareas difíciles
(es decir, la dificultad de la tarea afecta al rendimiento).
b. H0 (B) : µ bajo = µ medio = µ alto (el rendimiento medio es el mismo en los tres niveles de
ansiedad; es decir, el nivel de ansiedad no afecta al rendimiento).
H1 (B): el rendimiento medio no es el mismo en los tres niveles de ansiedad (es decir,
el nivel de ansiedad afecta al rendimiento).
c. H0 (AB) : µ j k ! µ j k = µ j + ! µ j + para todo j, j N o k (con j =/ jN) (la interacción entre la
dificultad de la tarea y el nivel de ansiedad no afecta al rendimiento).
H1 (AB) : µ jk ! µ j k =/ µ j+ ! µ j + para algún j, jN o k (con j =/ jN) (la interacción entre la
dificultad de la tarea y el nivel de ansiedad afecta al rendimiento).
2. Supuestos: tenemos 6 muestras de tamaño 5 aleatoriamente seleccionadas de 6 pobla-
ciones normales con la misma varianza.
3. Estadísticos del contraste. Para facilitar la obtención de FA, FB y FAB (ecuaciones [7.16],
[7.17] y [7.18]) hemos transformado las puntuaciones originales de la Tabla 7.5 en las
medias y varianzas que muestra la Tabla 7.6:
b1 b2 b3
a1 13 (8,5) 15 (5,0) 8 (6,5) 12
a2 7 (4,0) 13 (6,0) 10 (7,5) 10
10 14 9 11
Capítulo 7. ANOVA de dos factores 259
MCI = 5 [(13 ! 11)2 + (15 ! 11)2 + · · · + (10 ! 11)2] / 5 = 5 (50) / 5 = 50 (ver [7.12])
2 2
MCA = 15 [(12 ! 11) + (10 ! 11) ] / 1 = 15 (2) / (2 ! 1) = 30 (ver [7.13])
MCB = 10 [(130 ! 11)2 + (14 ! 11)2 + (9 ! 11)2] / (3 ! 1) = 10 (14) / 2 = 70 (ver [7.14])
MCAB5 = [5 (50) ! 15 (2) ! 10 (14)] / 2 = (250 ! 30 ! 140)/2 = 40
MCE = (8,5 + 5,0 + 6,5 + 4,0 + 6,0 + 7,5) / 6 = 6,25 (ver [7.11])
a. FA = MCA « MCE = 30 / 6,25 = 4,80.
b. FB = MCB « MCE = 70 / 6,25 = 11,20.
c. FAB = MCAB « MCE = 40 / 6,25 = 6,4.
4. Distribuciones muestrales (con J = 2, K = 3 y N = 30):
a. FA Í F con J !1 = 1 y N ! JK = 24 grados de libertad, es decir, F1, 24.
b. FB Í F con K !1 = 2 y N ! JK = 24 grados de libertad, es decir, F2, 24.
c. FAB Í F con (J !1)(K !1) = 2 y N ! JK = 24 grados de libertad, es decir, F2, 24.
5. Zonas críticas:
a. FA $
> F1, 24; 0,95 = 4,26.
b. FB $
> F2, 24; 0,95 = 3,40.
c. FAB $
> F2, 24; 0,95 = 3,40.
6. Reglas de decisión:
a. Puesto que FA = 4,80 es mayor que el punto crítico 4,26, se rechaza H0(A). Puede con-
cluirse que el rendimiento medio no es el mismo con tareas fáciles y con tareas difí-
ciles. Por tanto, la dificultad de la tarea afecta al rendimiento.
b. Puesto que FB = 11,20 es mayor que el punto crítico 3,40, se rechaza H0(B). Puede con-
cluirse que el rendimiento medio no es el mismo en los tres niveles de ansiedad. Por
tanto, el nivel de ansiedad afecta al rendimiento.
c. Puesto que FAB = 6,4 es mayor que el punto crítico 3,40, se rechaza H0(AB). Puede con-
cluirse que el efecto de la interacción AB es estadísticamente significativo. Por tanto,
el efecto de cada factor sobre el rendimiento está condicionado o modulado por la
presencia del otro factor.
Un estadístico F significativo indica que los promedios comparados no son iguales, pero no
permite concretar qué promedios difieren de qué otros. Para esto es necesario llevar a cabo
comparaciones múltiples. Y en el caso de la interacción, además de realizar comparaciones
múltiples, es necesario recurrir a gráficos de perfil para precisar su significado. Más adelan-
te, en el apartado Comparaciones múltiples, veremos cómo hacer todo esto.
5
Teniendo en cuenta que el numerador de MCI es igual a la suma de los numeradores de MCA, MCB y MCAB, y que el cálcu-
lo de MCI es sensiblemente más breve que el de MCAB, la forma más rápida de calcular MCAB consiste en restar al numera-
dor de MCI = 5(50) = 250 la suma de los numeradores de MCA = 15(2) = 30 y MCB = 10(14) = 140, y dividir el resultado
entre los grados de libertad de MCAB. No obstante, puede comprobarse que aplicando la ecuación [7.15] se llega exacta-
mente al mismo resultado:
MCAB = [(13 !12 !10 +11)2 + (15 !12 !14 +11)2 (8 !12 ! 9 +11)2 + · · · + (10 !10 ! 9 +11)2] / [(2 !1) (3 !1)] = 40.
260 Análisis de datos (vol. II)
Por supuesto, los grados de libertad de cada estadístico F son los grados de libertad de las
medias cuadráticas en las que se basan. Por tanto, los grados de libertad del numerador de
todos los estadísticos F son los mismos en los tres modelos, pues las medias cuadráticas del
numerador son las que corresponden a cada efecto; pero los grados de libertad del denomi-
nador cambian dependiendo de la media cuadrática que interviene.
Capítulo 7. ANOVA de dos factores 261
= [7.19]
= =
Este valor indica que el conjunto de efectos presentes en el modelo (la dificultad de la tarea,
el nivel de ansiedad y la interacción entre la dificultad y la ansiedad) comparten el 63 % de
la varianza del rendimiento. Por tanto, nuestro conocimiento del rendimiento de los sujetos
mejora un 63 % cuando conocemos su nivel de ansiedad y la dificultad de la tarea que rea-
lizan. La ecuación [7.19] puede formularse de esta otra manera:
= [7.20]
Para obtener una estimación del tamaño de cada efecto (A, B y AB) basta con colocar en
[7.20] los correspondientes estadísticos F y grados de libertad (estas estimaciones se llaman
parciales porque en el denominador no se utiliza la variabilidad total, sino la de cada efec-
to y la del error). Por ejemplo, con el efecto del factor B (nivel de ansiedad), la ecuación
[7.20] ofrece el siguiente resultado:
= = =
262 Análisis de datos (vol. II)
Este valor indica que el nivel de ansiedad (factor B) comparte el 48 % de la varianza del rendi-
miento. Por tanto, saber cuál es el nivel de ansiedad de los sujetos permite mejorar un 48 %
nuestro conocimiento del rendimiento.
Aunque esta forma de estimar el tamaño de un efecto está muy extendida (es, por ejem-
plo, la que utiliza el SPSS), lo cierto es que las estimaciones que se obtienen con (tanto
si son parciales como si no) contienen un sesgo importante (están infladas; ver, por ejemplo,
Fowler, 1985). Algunas correcciones pueden atenuar este sesgo (ver capítulo anterior), pe-
ro, en lugar de aplicar estas correcciones, suele ser más recomendable utilizar la medida de
asociación omega-cuadrado ( ).
El valor concreto de depende de si los factores son de efectos fijos o de efectos alea-
torios (ver Winer, Brown y Michels, 1991, págs. 405-415). Cuando ambos factores son de
efectos fijos (Modelo I), el valor para cada efecto por separado puede obtenerse aplican-
do la siguiente regla6:
= = [7.22]
Sustituyendo efecto por A, B y AB puede obtenerse el valor de para cada efecto. Por ejem-
plo, con el efecto del factor B, tenemos
= = =
que es un valor menor que el obtenido con porque, como ya se ha señalado, suele
ofrecer estimaciones infladas de la verdadera proporción de varianza compartida.
Para interpretar el tamaño de , Cohen (1988) ha propuesto una especie de regla gene-
ral que puede resultar útil en muchos contextos aplicados: valores en torno a 0,01, 0,06 y
0,14 indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
La Tabla 7.8 muestra los valores de y obtenidos al aplicar las ecuaciones [7.20]
y [7.22] a los datos de nuestro ejemplo sobre la relación entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad (ver Tabla 7.5). Puede comprobarse que, efectivamente, los
valores parciales de son sistemáticamente menores que los valores parciales de .
Efecto
A 0,17 0,11
B 0,48 0,40
AB 0,35 0,26
Al igual que para el modelo de un factor (ver capítulo anterior, ecuación [6.11]), Cohen
(1988) ha propuesto, para el modelo de dos factores, una medida del tamaño del efecto basada
6
Si el estadístico F es menor que 1, el valor de es negativo. Puesto que una proporción no puede ser negativa, cuando
ocurre esto se considera que vale cero.
Capítulo 7. ANOVA de dos factores 263
en una tipificación de la diferencia entre los promedios comparados. Su estrecha relación con
permite obtener este estadístico a partir de lo que ya sabemos:
= [7.23]
(aunque el propio Cohen llama f a su medida del tamaño del efecto, nosotros seguiremos
manteniendo la consistencia en nuestra notación para evitar confusión). Siguiendo la regla
ya conocida, valores en torno a 0,10, 0,25 y 0,40 representan, respectivamente, efectos de
tamaño pequeño, mediano y grande.
= [7.24]
Estos estadísticos representan una cuantificación del tamaño de cada efecto. De hecho, están
estrechamente relacionados con la medida del tamaño del efecto de Cohen:
= [7.25]
(donde nefecto = nK para el efecto de A, nefecto = nJ para el efecto de B y nefecto = n para el efec-
to de AB).
En el ejemplo que venimos utilizando sobre la relación entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad (ver Tabla 7.5) tenemos J = 2, K = 3, MCA = 30, MCB = 70,
MCAB = 40 y MCE = 6,25. Por tanto,
= =
= =
= =
Para calcular la potencia asociada al contraste del efecto del factor B, por ejemplo, necesita-
mos α = 0,05, gl1 = K ! 1 = 2, gl2 = N ! JK = 24 y = 2,73. En la Tabla G del Apéndice
264 Análisis de datos (vol. II)
final (redondeando a = 2,6) encontramos que la probabilidad de cometer errores Tipo II (β)
vale 0,03. Por tanto, la potencia de este contraste vale 1 ! β = 1 ! 0,03 = 0,97 (puesto que
tanto gl2 como se han redondeado a la baja, es muy posible que el valor exacto de la po-
tencia sea una o dos décimas mayor de 0,97).
Este valor (0,97) es la potencia observada, es decir la potencia del contraste cuando se
asume que la diferencia poblacional entre los niveles del factor B (el verdadero tamaño del
efecto) es la diferencia de hecho observada. Para conocer de antemano la potencia de un es-
tudio concreto es necesario calcular el tamaño muestral que permitirá alcanzar la potencia
deseada. Y para esto, basta con tener en cuenta la relación establecida en [7.24]:
n = [7.26]
Imaginemos un estudio con J = 3 y K = 4. Supongamos que, para evaluar el efecto del fac-
tor B con α = 0,05, queremos que la potencia del contraste para detectar un efecto de tama-
ño medio (δ = 0,25 siguiendo la regla de Cohen) valga 0,80 (β = 0,20). Tenemos que utilizar
la Tabla G al revés de como lo hemos hecho antes. Conocemos gl1 = 3, pero no gl2 (pues
depende del tamaño muestral que estamos buscando). Esto, sin embargo, no representa un
problema serio porque utilizar un valor de partida de 30 o mayor no hace cambiar las cosas.
Vamos a elegir, por ejemplo, gl2 = . Con gl1 = 3, gl2 = y β = 0,20 (tomamos 0,23), la
Tabla G arroja un valor = 1,6. Por tanto, n = (1,6 / 0,25)2 = 40,96. Es decir, hacen falta
aproximadamente 41 sujetos por grupo para alcanzar una potencia de 0,80.
Comparaciones múltiples
Los estadísticos FA, FB y FAB permiten valorar los efectos globales de A, B y AB, respec-
tivamente, y decidir cuál de ellos es estadísticamente significativo. El rechazo de la hipóte-
sis nula referida al efecto del factor A indica que las medias poblacionales correspondientes
a los niveles de ese factor no son iguales, pero no permite precisar qué media en concreto
difiere de qué otra (este problema es el mismo que nos hemos encontrado en el capítulo
anterior al estudiar el modelo de un factor). Lo mismo vale decir del efecto de B y de su hi-
pótesis nula. Y el rechazo de la hipótesis nula referida al efecto de la interacción indica que
el efecto combinado de los factores A y B difiere de la suma de los efectos individuales de
ambos factores, pero no permite precisar cuál es el significado de esa diferencia.
Por tanto, en los tres casos (A, B y AB), el rechazo de la correspondiente hipótesis nula
está delatando la presencia de un efecto significativo sin llegar a precisar la naturaleza o el
significado del mismo. Tanto para conocer con exactitud qué niveles de un factor difieren de
qué otros como para poder entender el significado de una interacción significativa es nece-
sario seguir adelante con el análisis realizando comparaciones múltiples.
A los efectos individuales de A y B los hemos llamado efectos principales. Al efecto
combinado de A y B lo hemos llamado efecto de la interacción. En nuestro ejemplo sobre
la relación entre la dificultad de la tarea (fácil, difícil), el nivel de ansiedad (bajo, medio, al-
to) y el rendimiento, el efecto de la dificultad de la tarea es un efecto principal; el efecto del
nivel de ansiedad es un efecto principal; y el efecto combinado de la dificultad de la tarea y
el nivel de ansiedad es el efecto de la interacción. Para entender el significado de la interac-
ción entre factores es necesario definir un nuevo tipo de efectos llamados efectos simples,
Capítulo 7. ANOVA de dos factores 265
los cuales se refieren al efecto de un factor en cada uno de los niveles del otro. El efecto de
la dificultad de la tarea en un nivel concreto de ansiedad (por ejemplo, nivel bajo) es un efec-
to simple. Volveremos sobre esto enseguida.
Efectos principales
Para realizar comparaciones múltiples con los niveles del factor A y con los niveles del factor
B no es necesario aprender nada nuevo. Todos los procedimientos estudiados en el capítulo
anterior para realizar comparaciones múltiples con un factor son aplicables a cada uno de los
efectos principales de un diseño factorial completamente aleatorizado. Esto significa que
puede utilizarse la prueba de Dunn-Bonferroni para realizar comparaciones planeadas y de
tendencia; la prueba de Dunnett para realizar comparaciones con un grupo control, si exis-
te; y las pruebas de Tukey y Scheffé para realizar comparaciones post hoc. Únicamente hay
que tener en cuenta unas sencillas modificaciones que afectan a las ecuaciones [6.34] a [6.46]:
1. El subíndice “j ” debe cambiarse por los subíndices “j +” al analizar los niveles del fac-
tor A y por los subíndices “+ k ” al analizar los niveles del_ factor B. Así, _por ejemplo,
para comparar las medias del factor A, en lugar de utilizar Y j utilizaremos Y j+ y en lugar
de utilizar nj utilizaremos nj +, es decir, nK.
2. El número de niveles del factor A sigue siendo J (igual que en el modelo de un factor),
pero el número de niveles del factor B es K. Por tanto, al analizar los niveles del factor
B, J debe sustituirse por K.
3. Los grados de libertad asociados a MCE en el modelo de un factor (N ! J ) deben sustituir-
se por los grados de libertad asociados a MCE en el modelo de dos factores (N ! JK ).
Se trata de dos comparaciones ortogonales, pues la suma del producto de sus coeficientes
vale cero: (!1) (1)_+ (2) (0) +
_ (!1) (!1)
_ = 0. Vamos a aplicar la prueba de Dunn-Bonferroni.
Recordemos que Y +1 = 10, Y +2 = 14, Y +3 = 9 y MCE = 6,25:
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras de tamaño nJ = 10 aleatoriamente seleccionadas de po-
blaciones que asumimos normales y con la misma varianza.
3. Estadísticos del contraste (ver ecuación [6.35] en el capítulo anterior):
! = =
= =
! = =
= =
! TDB (1) = = =
TDB (2) = = =
4. Distribución muestral: los puntos críticos de la distribución muestral de TDB están en la
Tabla J del Apéndice final, con αF = 0,05, k = 2 y glerror = N ! JK = 30 ! 2(3) = 24.
$ t2, 24; 0,05 = 2,39.
5. Zona crítica: TDB >
6. Decisión: únicamente el valor TDB (1) = 4,64 es mayor que el punto crítico 2,39. Por tan-
to, debe rechazarse H0 (1) pero no H0(2). El rechazo de H0(1) indica que la media del grupo
2 (nivel de ansiedad medio) difiere de la media de los otros dos grupos tomados juntos.
Y el no rechazo de H0(2) indica que, con los datos disponibles, no es posible afirmar que
el rendimiento medio de los grupos 1 y 3 (los grupos de menor y mayor ansiedad) sea
distinto. Aunque estos contrastes son bilaterales, el valor positivo de indica que el
rendimiento medio del segundo grupo (es decir, del grupo ponderado con un coeficien-
te positivo en ) es mayor que el rendimiento medio de los otros dos grupos tomados
juntos.
Es importante tener en cuenta que el significado de un efecto principal está condicionado por
el efecto de la interacción. Aunque volveremos sobre esta cuestión, conviene empezar a to-
mar conciencia de un hecho que no siempre es correctamente tenido en cuenta.
Cuando no existe interacción, los efectos principales agotan toda la información del dise-
ño. Imaginemos que, en nuestro ejemplo sobre la relación entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad, el efecto de la interacción no fuera significativo. Si ése fue-
ra el caso, el resultado obtenido con el factor A (dificultad de la tarea) estaría indicando que
el rendimiento medio es más alto con tareas fáciles (media = 12) que con tareas difíciles
(media = 10). Y el resultado obtenido con el factor B estaría indicando que el rendimiento
medio es más alto cuando el nivel de ansiedad es medio (media = 14) que cuando es bajo
(media = 10) o alto (media = 9). Pero el hecho de que el efecto de la interacción sea signi-
Capítulo 7. ANOVA de dos factores 267
ficativo lo cambia todo. Una interacción significativa acapara todo el protagonismo del dise-
ño relegando los efectos principales a un segundo plano. Más adelante veremos cómo se pro-
duce esto, pero, de momento, puesto que los resultados de nuestro ejemplo indican que el
efecto de la interacción es significativo, sabemos que no es posible afirmar que el rendi-
miento con las tareas fáciles es mejor que con las tareas difíciles (efecto principal de la difi-
cultad) pues esto depende del nivel de ansiedad; y también sabemos que tampoco es posible
afirmar que el rendimiento es mejor cuando el nivel de ansiedad es medio que cuando es ba-
jo o alto (efecto principal de la ansiedad ) porque esto depende de la dificultad de la tarea.
Volveremos sobre este importante aspecto del análisis en el apartado Efecto de la interacción.
Efectos simples
Un efecto simple es el efecto de un factor cuando únicamente se tiene en cuenta un único
nivel del otro factor.
Consideremos un diseño 2 × 3 como el que se muestra en la Tabla 7.9. Para valorar el
efecto del factor A se comparan las medias de sus dos niveles, es decir las medias de las filas:
µ 1+ ! µ 2+. La diferencia entre estas medias representa el efecto principal del factor A.
Un efecto simple consiste en esto mismo pero referido a un único nivel de B. Por ejem-
plo, la diferencia entre las medias µ 11 ! µ 21 es un efecto simple: el efecto simple de A en b1;
la diferencia entre las medias µ 12 ! µ 22 es el efecto simple de A en b2; y la diferencia entre
las medias µ 13 ! µ 23 es el efecto simple de A en b3. Por tanto, el factor A puede descompo-
nerse en tres efectos simples, uno por cada nivel de B.
b1 b2 b3
a1 µ 11 µ 12 µ 13 µ 1+
a2 µ 21 µ 22 µ 23 µ 2+
µ +1 µ +2 µ +3 µ
Contrastar esta hipótesis nula equivale a llevar a cabo un ANOVA de un factor (el factor A)
con cada nivel del factor B. Haciendo
= [7.28]
tenemos las mismas medias cuadráticas que utilizaríamos al aplicar un ANOVA de un fac-
tor K veces para comparar las medias de A en cada nivel de B. La hipótesis [7.27] puede
ponerse a prueba mediante el estadístico
= [7.29]
268 Análisis de datos (vol. II)
Y, siguiendo la misma lógica que para los efectos simples del factor A, la media cuadrática
asociada a cada efecto simple del factor B puede obtenerse
= [7.31]
Y, a partir de esta media cuadrática, es posible contrastar la hipótesis nula [7.30] mediante
el estadístico
= [7.32]
b1 b2 b3
a1 13 15 8 12
a2 7 13 10 10
10 14 9 11
Capítulo 7. ANOVA de dos factores 269
Veamos cómo contrastar los efectos simples de A en cada nivel de B aplicando las ecuacio-
nes [7.27], [7.28] y [7.29]:
1. Hipótesis: : µ 11 = µ 21
: µ 12 = µ 22
: µ 13 = µ 23
2. Supuestos: tenemos 6 muestras de tamaño n = 5 aleatoriamente seleccionadas de pobla-
ciones que asumimos normales y con la misma varianza.
3. Estadísticos del contraste:
! = = 5 [(13 !10)2 + (7 !10)2 ] / (2 !1) = 90.
= = 5 [(15 !14)2 + (13 !14)2 ] / (2 !1) = 10.
= = 5 [(8 ! 9)2 + (10 ! 9)2 ] / (2 !1) = 10.
! = = 90 / 6,25 = 14,4.
= = 10 / 6,25 = 1,6.
= = 10 / 6,25 = 1,6.
4. Distribuciones muestrales: los tres estadísticos se aproximan a la distribución de
probabilidad F con J !1 = 2 !1 = 1 y N ! JK = 30 ! 6 = 24 grados de libertad.
5. Zona crítica: $ F1, 24; 0,95 = 4,26.
>
6. Decisiones: solamente el estadístico (14,4) es mayor que el punto crítico (4,26). Es
decir, solamente es significativo el efecto simple de A en b1. Por tanto, puede concluirse
que la dificultad de la tarea (efecto de A) únicamente afecta al rendimiento cuando el nivel
de ansiedad de los sujetos es bajo (b1); cuando el nivel de ansiedad es medio (b2) o alto
(b3), no puede afirmarse que el rendimiento se vea afectado por la dificultad de la tarea.
Conviene llamar la atención sobre dos cuestiones relativas al análisis de los efectos simples.
La primera de ellas tiene que ver con el control de la tasa de error. A pesar de que el análi-
sis de los efectos simples implica llevar a cabo varias comparaciones, el procedimiento pro-
puesto no incorpora ningún mecanismo de control de la tasa de error. Cuando los factores
tienen dos o tres niveles, esto no es un problema importante porque el número de efectos que
se analizan es muy pequeño. Pero cuando los factores tienen más niveles, la falta de control
sobre la tasa de error puede convertirse en un problema serio. Aunque no existe un acuerdo
generalizado acerca de cuál es la mejor manera de controlar la tasa de error cuando se ana-
lizan efectos simples, siempre cabe la posibilidad de controlar αF aplicando la corrección de
Bonferroni, la cual, recordemos, consiste realizar cada contraste utilizando αC = αF / k en lu-
gar de αC = αF (k se refiere aquí al número de efectos simples que se están valorando).
La segunda cuestión tiene que ver con las posibilidades que surgen cuando un efecto
simple es declarado significativo. Afirmar que el efecto de A en b1 es significativo es lo mis-
mo que decir que los promedios comparados en no son iguales. En nuestro ejemplo,
como el factor A solamente tiene dos niveles, no es necesario hacer ningún análisis adicio-
nal: sabemos que los promedios que difieren son justamente esos dos. Pero si un efecto sim-
270 Análisis de datos (vol. II)
ple incluye más de dos medias, el rechazo de la hipótesis nula podría estar exigiendo con-
tinuar el análisis para poder determinar qué medias en concreto difieren de qué otras. Esto
puede hacerse definiendo comparaciones lineales del tipo
= c1 µ 1k + c2 µ 2k + · · · + cJ µ J k [7.33]
y contrastando la hipótesis nula de que la comparación vale cero mediante la prueba de Dunn-
Bonferroni (ver capítulo anterior). En nuestro ejemplo, los efectos simples de B en a1 y a2 son
ambos significativos. Y estos efectos incluyen tres medias. Para saber qué medias difieren
de qué otras habría que realizar comparaciones del tipo propuesto en [7.33] y contrastarlas
tal como se ha hecho en el capítulo anterior.
Efecto de la interacción
La interacción entre factores ya la hemos definido al comienzo del capítulo. Existe interac-
ción entre dos factores cuando el efecto de uno de ellos sobre la variable dependiente no es
el mismo en todos los niveles del otro factor. Dicho de otro modo, existe interacción cuan-
do los efectos simples correspondientes a un mismo efecto principal no son iguales.
De la misma manera que es posible definir comparaciones lineales de un grado de liber-
tad para interpretar, descomponiéndolo, un efecto principal (esto es lo que hacemos, por
ejemplo, con las comparaciones planeadas y las de tendencia), también es posible definir
comparaciones lineales de un grado de libertad para conseguir interpretar una interacción
significativa. El número de estas comparaciones puede llegar a ser muy elevado (Abelson y
Prentice, 1997), pero las comparaciones que más ayudan a los investigadores a interpretar
una interacción significativa suelen ser aquellas que permiten comparar entre sí los efectos
simples. Por ejemplo, en un diseño factorial 2 × 3 como el propuesto en la Tabla 7.9, la nece-
sidad de interpretar una interacción significativa quedará cubierta, por lo general, comparan-
do entre sí cada efecto de A en cada nivel de B, es decir, comparando entre sí los efectos
simples de A (o comparando entre sí los efectos simples de B, lo cual es equivalente desde
el punto de vista de las conclusiones a las que se llega).
Ahora bien, para comparar entre sí los efectos simples de A no basta con valorar si un
efecto simple es significativo y otro no para, de esta forma, decidir que son distintos. A pe-
sar del uso generalizado de esta estrategia, lo cierto es que no sirve para aislar el efecto de la
interacción. Un efecto simple incluye parte del correspondiente efecto principal y parte del
efecto de la interacción (ver Kirk, 1995, págs. 380-381). Esto implica que un efecto simple
puede ser significativo porque lo es su parte de efecto principal, porque lo es su parte de
interacción o porque lo son ambas partes. Por tanto, para comparar entre sí los efectos sim-
ples no basta con saber cuáles son significativos y cuáles no (ver Pardo, Garrido, Ruiz y San
Martín, 2007). Comparar entre sí los efectos simples de A requiere:
1. Comparar la diferencia entre µ 11 y µ 21 (o efecto simple de A en b1) con la diferencia en-
tre µ 12 y µ 22 (o efecto simple de A en b2);
2. Comparar la diferencia entre µ 11 y µ 21 (o efecto simple de A en b1) con la diferencia en-
tre µ 13 y µ 23 (o efecto simple de A en b3);
3. Comparar la diferencia entre µ12 y µ22 (o efecto simple de A en b2), con la diferencia en-
tre µ 13 y µ 23 (o efecto simple de A en b3).
Capítulo 7. ANOVA de dos factores 271
Es decir, comparar entre sí los efectos simples de A requiere efectuar estas tres7 compara-
ciones:
ψ1 = ( µ 11 ! µ 21 ) ! ( µ 12 ! µ 22 )
ψ2 = ( µ 11 ! µ 21 ) ! ( µ 13 ! µ 23 ) [7.35]
ψ3 = ( µ 12 ! µ 22 ) ! ( µ 13 ! µ 23 )
Por tanto, comparar los efectos simples requiere comparar diferencias. Ordenando y asignan-
do coeficientes se obtiene
ψ1 = (1) µ 11 + (!1) µ 12 + (0) µ 13 + (!1) µ 21 + (1) µ 22 + (0) µ 23
ψ2 = (1) µ 11 + (0) µ 12 + (!1) µ 13 + (!1) µ 21 + (0) µ 22 + (1) µ 23 [7.36]
ψ3 = (0) µ 11 + (1) µ 12 + (!1) µ 13 + (0) µ 21 + (!1) µ 22 + (1) µ 23
En la Figura 7.3 están representadas las medias de la Tabla 7.6. Los recuadros 1, 2 y 3que
hemos trazado en el gráfico representan los efectos simples de A (dificultad de la tarea) en
cada nivel de B (nivel de ansiedad). Con la comparación ψ1 se intenta averiguar si lo que
ocurre en el recuadro 1 difiere de lo que ocurre en el recuadro 2; con la comparación ψ2 se
intenta averiguar si lo que ocurre en el recuadro 1 difiere de lo que ocurre en el recuadro 3;
y con la comparación ψ3 se intenta averiguar si lo que ocurre en el recuadro 2 difiere de lo
que ocurre en el recuadro 3. Estas tres comparaciones aíslan el efecto de la interacción y son
independientes del efecto principal de A (ver Pardo, Garrido, Ruiz y San Martín, 2007).
Para contrastar hipótesis del tipo ψh = 0 puede utilizarse la prueba de Dunn-Bonferroni
en los términos ya conocidos. El siguiente ejemplo muestra cómo hacer esto.
7
En un diseño 2 × 2 (dos factores con dos niveles cada factor), unas sencillas transformaciones permiten comprobar que
la definición de no interacción propuesta en [7.8] equivale a:
µ 11 ! µ 21 = µ 12 ! µ 22 [7.34]
La comparación [7.34] es la que corresponde al único grado de libertad asociado a la interacción en un diseño 2 × 2. Por
tanto, si el estadístico F asociado al efecto de la interacción es significativo, una interpretación basada en las diferencias
comparadas en [7.34] agota el significado de la interacción, lo cual implica que no es necesario recurrir a comparaciones
adicionales para interpretar una interacción significativa.
Debe tenerse en cuenta que, si se verifica [7.34], también se verifica µ 11 ! µ 12 = µ 21 ! µ 22 ; y una interacción significa-
tiva en un diseño 2 × 2 puede interpretarse recurriendo a cualquiera de estas dos comparaciones, sin necesidad de cálculos
adicionales.
272 Análisis de datos (vol. II)
b1 b2 b3
a1 13 15 8
a2 7 13 10
! = = 2,236.
Puesto que los coeficientes de las tres comparaciones son los mismos (aunque en di-
ferente orden), las tres comparaciones tienen el mismo error típico.
! TDB (1) = = 4 / 2,24 = 1,79.
TDB (2) = = 8 / 2,24 = 3,58.
TDB (3) = = 4 / 2,24 = 1,79.
Capítulo 7. ANOVA de dos factores 273
Tres comentarios más sobre el efecto de la interacción. En primer lugar, conviene saber que
el efecto de la interacción puede ser significativo tanto si los efectos principales son signi-
ficativos como si no. Y al revés.
En segundo lugar, es importante recordar que los efectos simples no informan de lo mis-
mo que el efecto de la interacción. Interpretar la interacción requiere comparar efectos sim-
ples; pero, analizar los efectos simples y decidir que difieren cuando unos son significativos
y otros no, no es comparar los efectos simples. En nuestro ejemplo sobre la relación entre el
rendimiento, la dificultad de la tarea y el nivel de ansiedad, hemos encontrado que el efecto
simple de A en b1 era significativo y que los efectos simples de A en b2 y b3 no lo eran. ¿Sig-
nifica esto que lo que ocurre con el efecto de A en b1 difiere de lo que ocurre con el efecto
de A en b2 y en b3? La respuesta es no: el resultado de las comparaciones entre los efectos
simples indican otra cosa. En el Apéndice 7 se discute más a fondo esta cuestión.
Por último, también es importante saber qué hacer con los efectos principales en pre-
sencia de una interacción significativa. Dado que una interacción significativa está indican-
do que el efecto de un factor no es el mismo en todos los niveles del otro factor, puede afir-
marse que el significado de los efectos principales queda matizado (incluso alterado) por la
presencia de una interacción significativa8 (ver León y Montero, 2003, págs. 278-282).
8
El grado en que un efecto principal puede verse alterado por la presencia de una interacción significativa depende de varios
factores, pero uno bastante determinante es que las líneas del gráfico de perfiles se crucen (interacción no ordinal) o no
(interacción ordinal).
274 Análisis de datos (vol. II)
Algunos autores sugieren que, siendo significativa la interacción, todavía podría tener senti-
do interpretar los efectos principales en determinadas circunstancias (ver, por ejemplo, Ho-
well, 2002, pág. 432; Keppel y Wickens, 2004, pág. 244; León y Montero, 2003, págs. 278-
279 y 295), pero otros muchos recomiendan no prestar atención a los efectos principales en
presencia de una interacción significativa (Games, 1973; Kirk, 1995, pág. 370; Maxwell y
Delaney, 2004, pág. 301; Pedhazur y Pedhazur, 1991, pág. 523; Winer, Brown y Michels,
1991, págs. 326-327). Cualquiera que sea la postura que se adopte, lo importante es tener
presente que, si el efecto de la interacción es significativo, los efectos principales no solo no
estarán contando toda la historia, sino que, además, es muy posible que la estén contando
mal. Y esto es algo que no debe pasarse por alto.
9
La lista Factores aleatorios permite ajustar modelos con factores de efectos aleatorios. La lista Covariables permite ajus-
tar modelos de análisis de covarianza (ver Apéndice 10). Y el cuadro Ponderación MCP permite utilizar una variable de
ponderación. En los modelos de ANOVA se asume que la varianza de la variable dependiente es la misma en todas las
poblaciones objeto de estudio. Cuando las varianzas poblacionales no son iguales (por ejemplo, cuando las casillas con pun-
tuaciones mayores muestran más variabilidad que las casillas con puntuaciones menores), el método de mínimos cuadra-
dos no consigue ofrecer estimaciones óptimas. En estos casos, si la diferencia en la variabilidad de las casillas puede esti-
marse a partir de alguna variable, el método de mínimos cuadrados ponderados (MCP) permite tener en cuenta esa variable
de ponderación al estimar los parámetros de un modelo lineal, dando más importancia a las observaciones más precisas (es
decir, a aquéllas con menor variabilidad).
Capítulo 7. ANOVA de dos factores 275
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 7.11 y
7.12. La Tabla 7.11 informa del nombre de las variables independientes (factores), de sus
niveles, incluidos los códigos que se les ha asignado (valores) y las etiquetas de los valores,
y del número de casos en cada nivel de ambos factores (N).
La tabla resumen del ANOVA (Tabla 7.12) contiene la misma información que la tabla
resumen del modelo de un factor: las fuentes de variación, las sumas de cuadrados, los gra-
dos de libertad (gl ), las medias cuadráticas, los estadísticos F y los niveles críticos (sig.)
asociados a cada estadístico F. Pero, ahora, toda esa información no está referida a un úni-
co factor, sino a los tres efectos presentes en el modelo de dos factores: A, B y AB.
La fila modelo corregido se refiere a los tres efectos tomados juntos. Por tanto, recoge
la información relativa a lo que nosotros hemos llamado variabilidad intergrupos. La media
cuadrática de esta fila es MCI . El nivel crítico asociado al estadístico F (sig. < 0,0005) indi-
ca que el modelo (los tres efectos tomados juntos) explica una parte significativa de la va-
riabilidad de la variable dependiente (rendimiento).
En la fila intersección se está contrastando la hipótesis nula de que la media total vale
cero. Por tanto, contiene información que no tiene nada que ver con los efectos que realmen-
te interesa analizar en un modelo de dos factores (la suma de cuadrados de la intersección se
obtiene elevando al cuadrado la media total y multiplicando el resultado por el número de
observaciones).
Las tres filas siguientes informan de los efectos principales (dificultad y ansiedad ) y del
efecto de la interacción (dificultad * ansiedad ). Los correspondientes niveles críticos (sig.)
indican que los tres efectos son significativos (en los tres casos, sig. < 0,05). En consecuen-
cia, tanto la dificultad de la tarea como el nivel de ansiedad afectan al rendimiento. Pero el
hecho de que el efecto de la interacción sea significativo está indicando que el efecto de la
dificultad de la tarea sobre el rendimiento está condicionado por el nivel de ansiedad; o,
también, que el efecto del nivel de ansiedad sobre el rendimiento está condicionado por la
dificultad de la tarea. Enseguida haremos las comparaciones necesarias para interpretar el
efecto de la interacción.
La fila error contiene la información referida a la variabilidad intragrupos o error. Re-
cordemos que MCE es la mejor estimación que tenemos de la varianza del rendimiento en las
seis poblaciones con las que estamos trabajando.
La penúltima fila (total ) ofrece la suma de los cuadrados de todos los valores de la varia-
ble dependiente; sus grados de libertad son el número total de casos incluidos en el análisis.
Y la última fila (total corregida) informa sobre la variabilidad total, es decir sobre la
variabilidad de las puntuaciones de la variable dependiente como si todas ellas constituye-
ran una única muestra extraída de una única población. Esta variabilidad total (400) es la que
descomponemos en variabilidad intergrupos (250) y variabilidad intragrupos o error (150).
276 Análisis de datos (vol. II)
= = =
La Tabla 7.15 muestra el resultado de los dos procedimientos post hoc solicitados: Tukey y
Games-Howell. Con ambos procedimientos se llega a la misma conclusión: el rendimiento
de los sujetos con nivel de ansiedad medio es distinto del rendimiento de los sujetos con ni-
278 Análisis de datos (vol. II)
vel de ansiedad bajo (sig. = 0,004) y alto (sig. < 0,0005); y no puede afirmarse que el ren-
dimiento de estos dos grupos sea distinto (sig. = 0,649).
Si puede asumirse que las varianzas poblacionales son iguales es porque las varianzas
muestrales son parecidas; cuando ocurre esto, calcular el error típico de cada comparación
promediando las varianzas o sin promediarlas no supone una diferencia importante; y esto
se traduce en que los resultados obtenidos asumiendo varianzas iguales (Tukey) y sin asumir
tal cosa (Games-Howell) son parecidos. Si no puede asumirse que las varianzas poblaciona-
les son iguales, es posible que las pruebas de Tukey y de Games-Howell no den el mismo
resultado; en ese caso habrá que fiarse de lo que diga la prueba de Games-Howell.
Al ejecutar la sintaxis se obtienen los resultados que muestran las Tablas 7.16 a 7.18. La
Tabla 7.16 contiene las medias estimadas10 de las casillas (es decir, de cada combinación
dificultad*ansiedad ). Éstas son las medias en las que se basan las comparaciones solicita-
das. Cuando los tamaños muestrales son iguales, el valor de las medias estimadas es el mis-
mo que el de las medias observadas (ver Tabla 7.16).
Las Tablas 7.17 y 7.18 son el resultado de las modificaciones introducidas en la sintaxis. La
Tabla 7.17 ofrece el contraste de los efectos simples de A (dificultad de la tarea) en cada nivel
de B (nivel de ansiedad). En cada contraste se está comparando el rendimiento medio obteni-
do con tareas fáciles y con tareas difíciles. El único contraste significativo es el que se refiere
al nivel de ansiedad bajo. Esto quiere decir que la dificultad de la tarea únicamente afecta al
rendimiento cuando el nivel de ansiedad de los sujetos es bajo. Puede comprobarse que estos
resultados son idénticos a los que hemos obtenido en el ejemplo del apartado Efectos simples.
10
Las medias estimadas son medias no ponderadas. Se calculan sin tener en cuenta el tamaño de las casillas (ver Searle,
Speed y Milliken, 1980). Todos los contrastes se realizan a partir de estas medias (son las medias que se utilizan en la es-
trategia conocida como sumas de cuadrados Tipo III , que es la que se aplica por defecto):
Las medias observadas son medias ponderadas (se utilizan en los contrastes cuando se opta por aplicar la estrategia cono-
cida como sumas de cuadrados Tipo I ):
, ,
Estas medias son las que se obtienen, por ejemplo, cuando se solicitan estadísticos descriptivos. Cuando todas las casillas
tienen el mismo número de casos, las medias estimadas (no ponderadas) y las observadas (ponderadas) son iguales.
280 Análisis de datos (vol. II)
Por último, la Tabla 7.18 ofrece las comparaciones por pares entre las medias de cada efecto
simple. Estas comparaciones se llevan a cabo controlando la tasa de error con el método de
Bonferroni (recordar la modificación que hemos introducido en la sintaxis) y se interpretan
exactamente igual que las comparaciones post hoc ya estudiadas. Puesto que en los efectos
simples analizados (dificultad de la tarea) únicamente intervienen dos medias (fácil, difícil),
las comparaciones de esta tabla coinciden con las de la Tabla 7.14 (además, al comparar
solamente dos medias, la corrección de Bonferroni no tiene ningún efecto).
Tabla 7.18. Comparaciones por pares entre las medias de cada efecto simple (dificultad de la tarea)
Variable dependiente: Rendimiento
Intervalo de confianza al
a
95 % para la diferencia
Nivel de (I) Dificultad (J) Dificultad Diferencia entre Límite Límite
a
ansiedad de la tarea de la tarea medias (I-J) Error típ. Sig. inferior superior
Bajo Fácil Difícil 6,00 1,58 ,001 2,74 9,26
Medio Fácil Difícil 2,00 1,58 ,218 -1,26 5,26
Alto Fácil Difícil -2,00 1,58 ,218 -5,26 1,26
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones múltiples: Bonferroni.
Una rápida inspección del gráfico permite formarse una primera impresión sobre el posible
significado de la interacción. Parece que lo que ocurre cuando el nivel de ansiedad es bajo
(se rinde mucho mejor en las tareas fáciles) no es lo mismo que lo que ocurre cuando el nivel
de ansiedad es medio (se rinde un poco mejor en las tareas fáciles) o alto (se rinde un poco
mejor en las tareas difíciles). También parece que lo que ocurre cuando el nivel de ansiedad
es medio no es lo mismo que lo que ocurre cuando el nivel de ansiedad es alto.
Pero todo esto no son más que conjeturas basadas en las diferencias observadas. Los
contrastes de los efectos simples llevados a cabo en el apartado anterior indican que la única
diferencia significativa se da en el nivel de ansiedad bajo. ¿Quiere esto decir que lo que
ocurre en ese nivel es distinto de lo que ocurre en los otros dos, y que lo que ocurre en estos
dos es lo mismo? Ya hemos señalado que la respuesta a esta pregunta es no. Para poder ha-
cer una afirmación de este tipo es necesario comparar entre sí los efectos simples; no basta
con decidir cuál de ellos es significativo y cuál no.
Para comparar entre sí los efectos simples vamos a realizar las comparaciones definidas
en [7.36]. Y lo vamos a hacer con el procedimiento ANOVA de un factor. Es decir, vamos a
tratar las 6 casillas de nuestro diseño como si fueran los 6 niveles de un único factor. Para
hacer esto necesitamos crear una variable con 6 códigos distintos (uno por casilla). En el ar-
chivo Tabla 7.5 dificultad ansiedad rendimiento hemos creado la variable grupo asignando
el código 1 a la casilla ab11, el código 2 a la casilla ab12, el código 3 a la casilla ab13, el códi-
go 4 a la casilla ab21, el código 5 a la casilla ab22 y el código 6 a la casilla ab23. Una vez crea-
da esta variable:
' Seleccionar la opción Comparar medias > ANOVA de un factor del menú Analizar para acce-
der al cuadro de diálogo ANOVA de un factor y trasladar la variable rendimiento a la lista
Dependientes y la variable grupo al cuadro Factor.
' Pulsar el botón Contrastes para acceder al cuadro de diálogo ANOVA de un factor: Con-
trastes y comenzar a introducir los coeficientes correspondientes a las tres comparaciones
definidas en [7.36] utilizando el cuadro de texto Coeficientes y el botón Añadir: introducir
los coeficientes de la primera comparación (1, !1, 0, !1, 1, 0) y pulsar el botón Siguiente;
introducir los coeficientes de la segunda comparación (1, 0, !1, !1, 0, 1) y pulsar el bo-
tón Siguiente; introducir los coeficientes de la tercera comparación (0, 1, !1, 0, !1, 1).
Aceptando estas selecciones el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 7.19 y 7.20. La primera de ellas contiene los coeficientes asignados a las tres compa-
raciones que hemos definido. Estos coeficientes sirven para identificar las comparaciones que
se están llevando a cabo y, por supuesto, para comprobar que, efectivamente, se correspon-
den con las que hemos definido.
La Tabla 7.20 ofrece los resultados de las tres comparaciones solicitadas agrupados en dos
bloques. En el primer bloque, las comparaciones están evaluadas asumiendo que las varian-
282 Análisis de datos (vol. II)
zas poblacionales son iguales; en el segundo, sin asumir tal cosa. Aunque ambas estrategias
suelen llevar a la misma conclusión, debe utilizarse la que se ajuste a las características de
los datos. Para esto, debe tenerse en cuenta el resultado obtenido previamente al contrastar
la hipótesis de igualdad de varianzas con la prueba de Levene. Puesto que en nuestro ejem-
plo puede asumirse que las varianzas poblacionales son iguales (ver Tabla 7.14), los resul-
tados que deben interpretarse son los del primer bloque (asumiendo igualdad de varianzas).
El contenido de esta tabla ya se ha explicado en el capítulo anterior. Incluye, para cada
comparación solicitada, el valor de la comparación (contraste), su error típico, el estadísti-
co del contraste (t), sus grados de libertad y el nivel crítico (sig. bilateral ). La hipótesis nula
que se pone a prueba con cada contraste es que los promedios poblacionales comparados son
iguales. Para tomar decisiones sobre estas hipótesis debe tenerse en cuenta que el procedi-
miento no aplica ninguna corrección para controlar la tasa de error. Para aplicar la correc-
ción de Bonferroni, basta con comparar cada nivel crítico (sig. bilateral) con αF dividida por
el número de comparaciones; en nuestro ejemplo, αC = 0,05/ 3 = 0,017.
Con los niveles críticos obtenidos (sig. bilateral ) debe decidirse: (1) mantener la hipó-
tesis nula referida al primer contraste (pues 0,086 > 0,017), (2) rechazar la hipótesis nula re-
ferida al segundo contraste (pues 0,002 < 0,017) y (3) mantener la hipótesis nula referida al
tercer contraste (pues 0,086 > 0,017). En consecuencia, puede concluirse que el efecto de la
dificultad de la tarea no es el mismo cuando el nivel de ansiedad es bajo y cuando es alto. En
el apartado Efecto de la interacción puede encontrarse un comentario más detallado de estos
resultados.
Apéndice 7
Casillas con tamaños muestrales distintos
Aunque lo habitual es planificar un estudio con la intención de utilizar el mismo número de casos en
todas las condiciones (diseño equilibrado o balanceado), lo cierto es que esta circunstancia raramen-
te se da. Las razones por las que podemos encontrarnos con tamaños muestrales distintos son de diver-
sa naturaleza: puede haber descuido del investigador al seleccionar los sujetos o errores al registrar sus
respuestas; puede que algunos sujetos de los seleccionados no ofrezcan respuestas válidas para el estu-
dio; puede que se esté trabajando con grupos ya formados cuyo tamaño no depende del investigador
(estudiantes de un aula); etc. Cuando se trabaja con tamaños muestrales distintos las inferencias se
Capítulo 7. ANOVA de dos factores 283
complican bastante, pues los efectos de A, B y AB dejan de ser independientes entre sí; no obstante,
todavía es posible analizarlos.
¿Por qué la presencia de tamaños muestrales distintos complica las cosas? Consideremos un di-
seño 2 × 2 como el que muestra la Tabla 7.21. El factor A (tratamiento) define dos grupos: sujetos tra-
tados y no tratados (grupos experimental y control); el factor B (sexo) define dos grupos: hombres y
mujeres. La variable dependiente es una variable cuantitativa que vamos a llamar recuperación. Ima-
ginemos que hemos seleccionado una muestra de 10 hombres y otra de 10 mujeres y que hemos
aplicado el tratamiento a la mitad de los sujetos de cada muestra (5 sujetos por condición o casilla).
Por circunstancias ajenas al investigador, al final del estudio han quedado 6 hombres y 6 mujeres. La
tabla muestra las puntuaciones de los 12 sujetos, las medias de las casillas y las medias marginales.
Tanto las medias de las casillas como las medias marginales de las filas indican que los sujetos
tratados (grupo experimental) puntúan en recuperación el doble que los sujetos no tratados (grupo
control); y esto, tanto en el caso de los hombres como en el de las mujeres. Sin embargo, las medias
marginales de las columnas (las medias de las seis puntuaciones de cada columna) dicen otra cosa:
parece que los hombres (media = 8) se benefician del tratamiento menos que las mujeres (media = 10).
Esta aparente inconsistencia se debe al hecho de que, entre los hombres, el grupo que puntúa más alto
es el menos numeroso, mientras que, entre las mujeres, el grupo que puntúa más alto es el más nume-
roso. Por supuesto, esta aparente inconsistencia también se debe al hecho de que las medias margi-
nales se han calculado teniendo en cuenta el tamaño de las casillas.
Si los tamaños de las casillas reflejaran el tamaño de sus respectivas poblaciones, estas medias
marginales (8 y 10) podrían tener algún sentido; de hecho, desde el punto de vista descriptivo, estas
medias serían las que mejor estarían informando de lo que ocurre en la población; incluso podría ocu-
rrir que estas medias fueran el objetivo principal de un estudio inferencial. Pero, por lo general, esto
no es lo que suele ocurrir en un diseño factorial; al analizar diferencias, las medias marginales no de-
berían decir nada distinto de lo que están diciendo las medias de las casillas. No parece razonable que
el efecto de un tratamiento pueda depender del número de sujetos a los que se aplica; como tampoco
parece razonable que las posibles diferencias entre hombres y mujeres puedan variar en función del
número de hombres y mujeres incluidos en el estudio.
Sexo
Tratamiento Hombres Mujeres Medias
11 10, 11
Grupo
13 13, 14 12
experimental
media = 12 media = 12
4, 5 5
Grupo
7, 8 7 6
control
media = 6 media = 6
Medias 8 10 9
La solución pasa por calcular las medias marginales sin tener el cuenta el tamaño de las casillas. Esto
daría para las dos medias marginales de las columnas un valor de (12 + 6) / 2 = 9, que es lo que cabría
esperar después de ver lo que ocurre en las casillas. Ambas formas de calcular las medias son numé-
ricamente correctas, pero informan de cosas distintas (ver nota a pie de página nº 10).
Aunque se han propuesto diferentes procedimientos para analizar los diseños con tamaños mues-
trales distintos, ninguno de ellos parece representar una solución definitiva. Si los tamaños de las ca-
284 Análisis de datos (vol. II)
sillas son proporcionales a los tamaños de sus respectivos marginales (nj k = nj+ n+k /N ), siguen siendo
válidas las fórmulas propuestas en este capítulo para el caso de tamaños muestrales iguales. Si los ta-
maños de las casillas no son proporcionales, una solución sencilla, que funciona bastante bien, consis-
te en aplicar las fórmulas descritas en este capítulo sustituyendo n por la media armónica de los ta-
maños de las casillas. Otras soluciones más complejas es preferible abordarlas utilizando algún pro-
grama informático (Maxwell y Delaney, 2004, págs. 320-343, ofrecen un amplia discusión de toda
esta problemática).
Nuestra intención al incluir este breve apartado sobre la complicación añadida que supone utili-
zar tamaños muestrales distintos no es que aprendamos a hacer cálculos a mano. Las soluciones que
mejor funcionan son lo bastante complejas como para requerir la ayuda de un programa informático.
Y eso es lo que debemos aprender a hacer. Pero conviene no olvidar que hay distintas formas de calcu-
lar medias marginales y que esas diferentes formas de cálculo pueden llevar a conclusiones distintas.
5 5 GE 5
GE
4 4 4
GE
3 3 3
2 GC 2 2
GC
1 1 GC 1
0 0 0
pre- post- pre- post- pre- post-
Por tanto, para poder afirmar que existe efecto del tratamiento no basta con saber que GE y GC no difie-
ren en el pre- y sí en el postratamiento, como tampoco basta con saber que GE cambia entre el pre- y
el postratamiento mientras que GC no lo hace (de todo esto es de lo que informan los efectos simples).
Para poder afirmar que existe efecto del tratamiento, la diferencia observada en el post- hay que refe-
rirla a la observada en el pretratamiento (o, de forma equivalente, el cambio observado en GE entre el
pre- y el postratamiento hay que referirlo al cambio observado en GC), y esto solo es posible hacerlo
comparando diferencias, que es justamente lo que se hace cuando se analiza el efecto de la interacción.
Aunque una interacción significativa coincidirá, en muchos casos, con la presencia de efectos sim-
ples diferenciados (es decir, unos significativos y otros no), esto no tiene por qué ser necesariamente
así. Por tanto, si bien el análisis de los efectos simples por separado puede llevar a las mismas con-
clusiones que la comparación entre ellos, esa estrategia debe considerarse inapropiada porque puede
llevar a conclusiones incorrectas.
La sentencia LMATRIX
Al margen de las comparaciones que es posible llevar a cabo desde los cuadros de diálogo del SPSS,
la sentencia LMATRIX permite efectuar cualquier tipo de comparación mediante sintaxis: permite va-
286 Análisis de datos (vol. II)
lorar la significación de los efectos simples, realizar comparaciones entre los diferentes niveles de un
mismo efecto simple para precisar dónde están las diferencias, realizar comparaciones entre diferentes
efectos simples para interpretar el efecto de la interacción, etc.
La sentencia LMATRIX permite realizar estas comparaciones asignando valores a los coeficientes
de la matriz L en la hipótesis general LB = 0 (B representa el vector de parámetros). El modelo esta-
dístico correspondiente a un diseño de dos factores completamente aleatorizados (ver Capítulo 1 del
tercer volumen) adopta la forma
( j se refiere a los niveles del primer factor y k a los niveles del segundo factor). En nuestro ejemplo,
el modelo puede representarse mediante
rendimiento jk = constante + dificultad j + ansiedad k + dificultad*ansiedad jk
(con j = 1, 2; k = 1, 2, 3). La parte izquierda de la ecuación recoge los pronósticos del modelo, es de-
cir, el rendimiento que el modelo pronostica para cada combinación entre los niveles de los factores
(para cada casilla del diseño). La parte derecha de la ecuación recoge las dos variables independien-
tes y la interacción entre ambas. El modelo incluye doce parámetros: la constante, los dos niveles de
dificultad, los tres niveles de ansiedad y los seis parámetros resultantes de combinar los dos niveles
de dificultad con los tres niveles de ansiedad. Es decir, el vector de parámetros B incluye los siguien-
tes parámetros:
B N = (constante, dificultad 1, dificultad 2, ansiedad 1, ansiedad 2, ansiedad 3,
dificultad*ansiedad 11, dificultad*ansiedad 12, dificultad*ansiedad 13,
dificultad*ansiedad 21, dificultad*ansiedad 22, dificultad*ansiedad 23)
Y la matriz de coeficientes L incluye el peso o coeficiente asignado a cada parámetro del modelo:
L = (l1, l2, l3, l4, l5, l6, l7, l8, l9, l10, l11, l12)
Para definir contrastes personalizados basta con especificar los valores que deben tomar los coeficien-
tes de la matriz L en la expresión LB:
LB = l1 constante + l2 dificultad 1 + l3 dificultad 2 + l4 ansiedad 1 + l5 ansiedad 2 + l6 ansiedad 3 +
l7 dificultad*ansiedad 11 + l8 dificultad*ansiedad 12 + l9 dificultad*ansiedad 13 +
l10 dificultad*ansiedad 21 + l11 dificultad*ansiedad 22 + l12 dificultad*ansiedad 23
La sentencia LMATRIX permite definir contrastes personalizados asignando a cada parámetro los coe-
ficientes apropiados. Para comparar, por ejemplo, las dos dificultades (fácil, difícil) en el primer nivel
de ansiedad (bajo), a los coeficientes l2 y l7 asociados a los parámetros correspondientes a la primera
categoría de dificultad (dificultad 1) y a la combinación de la primera categoría de dificultad con la
primera de ansiedad (dificultad*ansiedad 11) se les asigna un valor de 1; y a los coeficientes l3 y l10
asociados a los parámetros correspondientes a la segunda categoría de dificultad (dificultad 2) y a la
combinación de la segunda categoría de dificultad con la primera de ansiedad (dificultad*ansiedad 21)
se les asigna un valor de !1. Al resto de coeficientes se les asignan ceros para excluir del contraste los
efectos que no intervienen en la comparación. Por tanto, la expresión LB correspondiente a la com-
paración de las dos dificultades en el primer nivel de ansiedad queda de la siguiente manera:
LB = (1) dificultad 1 + (1) dificultad*ansiedad 11 + (!1) dificultad 2 + (!1) dificultad*ansiedad 21
= (dificultad 1 ! dificultad 2) + (dificultad*ansiedad 11 ! dificultad*ansiedad 21)
Capítulo 7. ANOVA de dos factores 287
En la primera parte de la expresión se están comparando las dos dificultades; en la segunda parte se
indica que la comparación entre las dos dificultades debe limitarse al primer nivel de ansiedad. De
modo similar, la expresión LB correspondiente a la comparación de las dos dificultades en el segun-
do nivel de ansiedad adopta la forma
LB = (1) dificultad 1 + (1) dificultad*ansiedad 12 + (!1) dificultad 2 + (!1) dificultad*ansiedad 22
= (dificultad 1 ! dificultad 2) + (dificultad*ansiedad 12 ! dificultad*ansiedad 22)
Por último, la expresión LB correspondiente a la comparación de las dos dificultades en el tercer nivel
de ansiedad adopta la forma
LB = (1) dificultad 1 + (1) dificultad*ansiedad 13 + (!1) dificultad 2 + (!1) dificultad*ansiedad 23
= (dificultad 1 ! dificultad 2) + (dificultad*ansiedad 13 ! dificultad*ansiedad 23)
Como ya hemos dicho, la sentencia LMATRIX permite valorar cualquier comparación entre medias
mediante el contraste de hipótesis nulas del tipo LB = 0. Para contrastar estas hipótesis (los datos se
encuentran en el archivo Tabla 7.5 dificultad ansiedad rendimiento):
' En el cuadro de diálogo Univariante, trasladar la variable rendimiento a la lista Dependiente y las
variables dificultad (dificultad de la tarea) y ansiedad (nivel de ansiedad) y trasladarlas a la lis-
ta Factores fijos.
' Pulsar el botón Pegar para obtener la sintaxis correspondiente a las elecciones hechas.
METHOD indica que se van a utilizar las sumas de cuadrados Tipo III; INTERCEPT recuerda que el
modelo solicitado incluye la constante; CRITERIA establece el nivel de significación que se utilizará
para construir los intervalos de confianza; y DESIGN recoge los efectos incluidos en el modelo. Los
valores asignados a estas cuatro sentencias son los que el procedimiento UNIANOVA utiliza por defec-
to; por tanto, no es necesario incluirlos. Para poder efectuar contrastes personalizados es necesario
añadir a la sintaxis la sentencia LMATRIX:
UNIANOVA
rendimiento BY dificultad ansiedad
/LMATRIX = ‘Comparaciones entre las dos dificultades en cada nivel de ansiedad’
dificultad 1 –1 dificultad*ansiedad 1 0 0 –1 0 0;
dificultad 1 –1 dificultad*ansiedad 0 1 0 0 –1 0;
dificultad 1 –1 dificultad*ansiedad 0 0 1 0 0 –1.
La expresión entre apóstrofos de la sentencia LMATRIX es una etiqueta descriptiva que servirá para
identificar los resultados en el Visor. A continuación aparecen definidas las tres comparaciones entre
las dos dificultades dentro de cada nivel de ansiedad; es decir, las tres comparaciones correspondien-
tes a los efectos simples del factor A (dificultad ). En la primera línea, los coeficientes de la primera
parte (dificultad ) comparan las dos dificultades (estos coeficientes son los que en la expresión LB es-
tán asociados a los efectos dificultad1 y dificultad 2); y los coeficientes de la segunda parte (dificultad*
ansiedad ) indican que esa comparación entre las dos dificultades debe hacerse dentro del primer ni-
288 Análisis de datos (vol. II)
vel de ansiedad, pues los coeficientes 1 y !1 se han asignado a los parámetros dificultad*ansiedad 11
y dificultad*ansiedad 21 (estos 6 coeficientes se corresponden con las 6 casillas del diseño en el orden
1-1, 1-2, 1-3, 2-1, 2-2 y 2-3 ). En la segunda línea, los coeficientes indican que la comparación entre
las dos dificultades debe hacerse dentro del segundo nivel de ansiedad, pues los coeficientes 1 y !1 se
han asignado a los parámetros dificultad*ansiedad 12 y dificultad*ansiedad 22. En la tercera línea, los
coeficientes indican que la comparación entre las dos dificultades debe hacerse dentro del tercer nivel
de ansiedad, pues los coeficientes 1 y !1 se han asignado a los parámetros dificultad*ansiedad 13 y
dificultad*ansiedad 23.
Ejecutando esta sintaxis se obtienen, entre otros, los resultados que muestra la Tabla 7.22. Estos
resultados son idénticos a los ya obtenidos al estudiar los efectos simples con otra estrategia diferen-
te (ver Tabla 7.18), con la diferencia de que ahora no se está aplicando la corrección de Bonferroni al
calcular los niveles críticos ni al construir los intervalos de confianza. Los niveles críticos (sig.) per-
miten concluir que la dificultad de la tarea únicamente afecta al rendimiento cuando el nivel de an-
siedad es bajo (contraste L1 ).
Puesto que la variable dificultad únicamente tiene dos niveles, basta con hacer una comparación entre
dificultades por cada nivel de ansiedad (tres comparaciones en total); cada una de esas tres compara-
ciones capta el efecto de la dificultad en cada nivel de ansiedad; es decir, cada una de esas tres com-
paraciones corresponde a uno de los tres efectos simples del factor dificultad.
Cuando el factor analizado tiene más de dos niveles, además de valorar los efectos simples, pue-
de interesar comparar entre sí las medias involucradas en cada efecto simple. Por ejemplo, los efectos
simples del factor ansiedad son dos: uno por cada dificultad. Pero cada efecto simple del factor an-
siedad incluye tres medias. Para precisar el significado de cada efecto simple del factor ansiedad hay
que comparar por pares las medias correspondientes a sus tres niveles (tres comparaciones por cada
dificultad; seis comparaciones en total). Estas comparaciones pueden hacerse utilizando dos sentencias
LMATRIX: una con las comparaciones referidas a la primera dificultad (fácil) y otra con las referidas
a la segunda dificultad (difícil). La sintaxis correspondiente a estas comparaciones es la siguiente:
UNIANOVA
rendimiento BY dificultad ansiedad
/LMATRIX = ‘Comparaciones entre los niveles de ansiedad en dificultad = fácil’
ansiedad 1 –1 0 dificultad*ansiedad 1 –1 0 0 0 0;
ansiedad 1 0 –1 dificultad*ansiedad 1 0 –1 0 0 0;
ansiedad 0 1 –1 dificultad*ansiedad 0 1 –1 0 0 0
/LMATRIX = ‘Comparaciones entre los niveles de ansiedad en dificultad = difícil’
ansiedad 1 –1 0 dificultad*ansiedad 0 0 0 1 –1 0;
ansiedad 1 0 –1 dificultad*ansiedad 0 0 0 1 0 –1;
ansiedad 0 1 –1 dificultad*ansiedad 0 0 0 0 1 –1.
Capítulo 7. ANOVA de dos factores 289
Ejecutando esta sintaxis se obtienen los resultados que muestran las Tablas 7.23 a 7.26. La Tabla 7.23
ofrece las comparaciones entre los tres niveles de ansiedad dentro de la primera categoría de dificul-
tad (fácil). La nota a pie de tabla muestra la etiqueta incluida en la sintaxis. En L1 se están compa-
rando los niveles de ansiedad bajo y medio; en L2, los niveles bajo y alto; en L3, los niveles medio y
alto. El nivel crítico asociado a L2 (sig. = 0,004) indica que, cuando la tarea es fácil, el rendimiento
medio de los sujetos con nivel de ansiedad bajo difiere del rendimiento medio de los sujetos con nivel
de ansiedad alto. El nivel crítico asociado a L3 (sig. < 0,0005) indica que, cuando la tarea es fácil, el
rendimiento de los sujetos con nivel de ansiedad medio difiere del rendimiento de los sujetos con nivel
de ansiedad alto (no debe olvidarse que al realizar estas comparaciones no se está aplicando ningún
tipo de corrección para controlar la tasa de error).
Por tanto, cuando la tarea es fácil, el rendimiento en los tres niveles de ansiedad no es el mismo.
La Tabla 7.24 ofrece una valoración del efecto global del nivel de ansiedad en la primera categoría de
dificultad (fácil), es decir, una valoración del primero de los dos efectos simples del nivel de ansiedad.
El nivel crítico (sig. = 0,001) indica que ese efecto simple es significativamente distinto de cero (con-
firmando lo que ya nos ha dicho la Tabla 7.23, es decir, confirmando que, cuando la tarea es fácil, el
rendimiento medio no es el mismo en los tres niveles de ansiedad).
Tabla 7.23. Comparaciones entre las medias de nivel de ansiedad en el primer nivel de dificultad (fácil)
Variable dependiente: Rendimiento
Intervalo de confianza al
Estimación Valor Diferencia (Estim. Error 95% para la diferencia
a
Contraste del contraste hipotetizado - Hipotetiz.) típico Sig. Lím. inferior Lím. superior
L1 -2,00 0 -2,00 1,58 ,218 -5,26 1,26
L2 5,00 0 5,00 1,58 ,004 1,74 8,26
L3 7,00 0 7,00 1,58 ,000 3,74 10,26
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: Comparaciones entre los
niveles de ansiedad en dificultad = fácil
Tabla 7.24. Contraste del efecto simple de nivel de ansiedad en el primer nivel de dificultad (fácil)
Variable dependiente: Rendimiento
Suma de Media
Fuente cuadrados gl cuadrática F Sig.
Contraste 130,00 2 65,00 10,40 ,001
Error 150,00 24 6,25
La Tabla 7.25 ofrece las comparaciones entre los tres niveles de ansiedad dentro del segundo nivel de
dificultad (difícil). Ahora solamente es significativa la comparación L1 (sig. = 0,001): cuando la tarea
es difícil, el rendimiento de los sujetos con nivel de ansiedad bajo difiere del de los sujetos con nivel
de ansiedad medio. El resto de comparaciones no son significativas. Los resultados de la Tabla 7.26
confirman que el segundo efecto simple de nivel de ansiedad es significativo (sig. = 0,004).
Tabla 7.25. Comparaciones entre las medias de nivel de ansiedad en el segundo nivel de dificultad (difícil)
Variable dependiente: Rendimiento
Intervalo de confianza al
Estimación Valor Diferencia (Estim. Error 95% para la diferencia
a
Contraste del contraste hipotetizado - Hipotetiz.) típico Sig. Lím. inferior Lím. superior
L1 -6.00 0 -6.00 1.58 ,001 -9.26 -2.74
L2 -3.00 0 -3.00 1.58 ,070 -6.26 .26
L3 3.00 0 3.00 1.58 ,070 -.26 6.26
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: Comparaciones entre los
niveles de ansiedad en dificultad = difícil
290 Análisis de datos (vol. II)
Tabla 7.26. Contraste del efecto simple de nivel de ansiedad en el segundo nivel de dificultad (difícil)
Variable dependiente: Rendimiento
Suma de Media
Fuente cuadrados gl cuadrática F Sig.
Contraste 90,00 2 45,00 7,20 ,004
Error 150,00 24 6,25
Esta sintaxis genera, entre otros, los resultados que muestran las Tablas 7.27 y 7.28. La primera es
idéntica a la que hemos obtenido al comparar los efectos simples con el procedimiento ANOVA de un
factor (ver Tablas 7.19 y 7.20); por tanto, se interpreta de idéntica manera. La Tabla 7.28 ofrece una
valoración global de las tres comparaciones de la Tabla 7.27. Estos resultados no tendrían ningún
interés si no fuera porque permiten comprobar que el efecto global de las tres comparaciones entre
efectos simples llevadas a cabo en la Tabla 7.27 para poder asilar e interpretar el efecto de la interac-
ción es idéntico al efecto de la interacción (ver Tabla 7.12). Lo cual está indicando que estas tres
comparaciones, además de agotar el efecto de la interacción, no están contaminadas por la presencia
de otros efectos distintos del de la interacción.
7.1. En un centro de salud se vienen realizando estudios sobre la adicción a una determinada sustancia. En
uno de estos estudios, 30 pacientes aleatoriamente seleccionados se han dividido en 6 grupos en fun-
ción de: (1) el lugar donde han recibido la terapia (en el centro o en el domicilio) y (2) el tiempo que
llevaban consumiendo antes de comenzar la terapia (menos de 2 años, entre 2 y 5 años, y más de 5
años). Se ha registrado la dosis (en mg) consumida durante una semana. Con los datos obtenidos se ha
construido la siguiente tabla de medias:
Tras realizar el correspondiente análisis de varianza se ha obtenido la siguiente tabla resumen (in-
completa):
292 Análisis de datos (vol. II)
7.2. Estamos interesados en estudiar el efecto de ciertas variables motivacionales sobre el rendimiento. Pa-
ra ello, se han aplicado dos programas de entrenamiento motivacional (a1 = «instrumental», a2 = «atri-
bucional») a dos grupos de sujetos seleccionados al azar. Un tercio de los sujetos de cada grupo ha
recibido el entrenamiento bajo un clima de clase diferente: b1 = «cooperativo», b2 = «competitivo» y
b3 = «individual». Al evaluar el rendimiento de los sujetos tras el entrenamiento se han obtenido las
medias que muestra la siguiente tabla (las varianzas se ofrecen entre paréntesis):
Clima de clase
Utilizando α = 0,05,
a. Plantear las hipótesis estadísticas correspondientes al efecto del factor A, al efecto del factor B y
al efecto de la interacción AB. Contrastarlas.
b. Estimar el tamaño de los tres efectos del apartado a. Interpretar el resultado.
c. Calcular la potencia asociada al contraste del efecto de la interacción.
d. Aplicar la prueba pertinente para decidir entre qué niveles del factor clima de clase existen dife-
rencias significativas (α = 0,05).
e. Representar gráficamente el efecto de la interacción con la variable tiempo en el eje horizontal.
f. Comparar entre sí los efectos simples del factor entrenamiento e interpretar el efecto de la inte-
racción.
7.3. Para estudiar el efecto de cierta proteína sobre la actividad motora de las ratas, un investigador selec-
cionó una muestra de 45 ratas que distribuyó aleatoriamente en tres grupos de igual tamaño. A cada
grupo le aplicó durante una semana una de tres dietas distintas (factor A), cada una de ellas con diferen-
te contenido de la proteína en cuestión. Sospechando que las horas de sueño también podrían afectar
Capítulo 7. ANOVA de dos factores 293
a la actividad motora de las ratas, el investigador controló el número de horas dormidas diariamente
por cada rata (factor B), dejando dormir 2 horas o menos a unas, entre 2 y 4 a otras, y más de 4 al resto.
Al final de la semana de tratamiento contabilizó el número de respuestas emitidas por cada rata en una
caja de ensayo durante 3 minutos y obtuvo los resultados que muestra la siguiente tabla:
Horas de sueño
Dieta (b1) < 2 horas (b2) 2 - 4 horas (b3) > 4 horas
8 10 5
12 8 2
(a1) Dieta 1 6 12 10
10 4 2
9 6 6
13 5 4
9 12 8
(a2) Dieta 2 8 8 0
14 16 1
6 14 7
12 16 11
23 8 9
(a3) Dieta 3 17 10 7
9 6 6
14 20 12
7.4. La siguiente tabla se refiere a las medias poblacionales de un diseño de dos factores AB-CA. Com-
pletarla sabiendo que no existe efecto del factor A ni del factor B.
b1 b2 b3
a1 2 ( ) ( ) ( )
a2 ( ) 4 ( ) ( )
( ) ( ) ( ) 4
7.5. Cuando en un ANOVA AB-CA se dice que el efecto de la interacción es significativo, lo que se está
queriendo decir con ello es que... (elegir la/s alternativa/s correcta/s):
a. El factor A está relacionado con el factor B.
b. Los factores A y B son independientes entre sí pero ambos están relacionados con la VD.
294 Análisis de datos (vol. II)
c. El efecto principal del factor A difiere del efecto principal del factor B.
d. Los efectos simples del factor A difieren de los efectos simples del factor B.
e. La diferencia entre las medias del factor A cambia cuando cambian los niveles del factor B.
7.6. La siguiente tabla contiene algunas medias poblacionales de un diseño AB-CA. Sabemos que la me-
dia total vale 40 y que no existe efecto de la interacción.
b1 b2 b3
a1 ( ) ( ) ( ) 50
a2 ( ) ( ) ( ) ( )
( ) 40 20 ( )
a. Completar la tabla.
b. ¿Existe efecto del factor A?
c. ¿Existe efecto del factor B ?
d. Si, tomada una muestra aleatoria y hechos los correspondientes cálculos, se decide rechazar la
hipótesis nula referida al factor A, ¿qué error se podría estar cometiendo?
e. ¿Cuántos efectos simples tiene el factor A?
f. En este escenario, ¿es correcto afirmar que los efectos simples del factor A no difieren?
7.7. En un diseño AB-CA, con J = 3 y K = 2 se realizan J ! 1 comparaciones ortogonales entre los nive-
les del factor A y K ! 1 entre los niveles del factor B. Elegir la/s alternativa/s correcta/s:
a. Si FA es significativa, también lo serán las J ! 1 comparaciones ortogonales entre los niveles del
factor A.
b. Si FA no es significativa, puede que lo sea alguna de las J ! 1 comparaciones ortogonales entre los
niveles del factor A.
c. Si alguna de las comparaciones ortogonales planteadas es significativa, también lo será FAB.
d. Solamente pueden plantearse 2 comparaciones ortogonales entre los niveles del factor B.
e. Si ninguna de las comparaciones ortogonales entre los niveles del factor A es significativa, puede
que sea significativa FA.
A los modelos de análisis de varianza estudiados en los Capítulos 6 y 7 los hemos llamado
completamente aleatorizados porque a cada condición del diseño (es decir, a cada nivel del
factor, en el caso de un factor; o a cada combinación entre los niveles de los factores, en el
caso de dos factores) se asigna una muestra aleatoria de sujetos distintos (grupos aleatorios).
A los modelos que vamos a estudiar en este capítulo y en el siguiente se les llama de medi-
das repetidas (MR) porque se utilizan los mismos sujetos en más de una condición (bloques
aleatorios).
Consideremos un estudio diseñado para conocer la opinión de los consumidores sobre
cinco productos rivales. Podemos seleccionar al azar tantos grupos de sujetos como productos
(cinco) y hacer que cada grupo opine sobre un producto; al proceder de esta manera tenemos
un diseño con un factor (tipo de producto, con cinco niveles) completamente aleatorizado
(tantos grupos de sujetos como niveles tiene el factor). En lugar de esto, podemos seleccionar
un único grupo y pedir a cada sujeto que exprese su preferencia por cada uno de los cinco pro-
ductos; seguimos teniendo un factor (tipo de producto), pero con medidas repetidas (un único
grupo de sujetos opina sobre todos los productos).
En este capítulo estudiaremos el modelo de un factor con medidas repetidas (A-MR). En
el siguiente estudiaremos los modelos de dos factores: el de dos factores con medidas repe-
tidas en ambos (AB-MR) y el de dos factores con medidas repetidas en uno (AB-CA-MR).
También se obtienen medidas repetidas cuando, en lugar de utilizar los mismos sujetos,
se utilizan bloques de sujetos igualados mediante algún tipo de vínculo relevante para el aná-
lisis (bloques aleatorios). Por ejemplo, en un estudio diseñado para comparar tres métodos
de enseñanza de las matemáticas, se pueden formar bloques de tres sujetos con el mismo
cociente intelectual y asignar cada sujeto del mismo bloque a un método distinto. Aunque los
sujetos del mismo bloque son distintos, el hecho de que sean homogéneos en una caracte-
rística relevante para el análisis permite considerar cada bloque como unidad de análisis.
Tanto si se utilizan los mismos sujetos como si se utilizan bloques de sujetos igualados,
lo que caracteriza a las medidas repetidas es que no son independientes entre sí; y no lo son
porque, tanto en el caso de puntuaciones pertenecientes a los mismos sujetos como en el de
puntuaciones pertenecientes a sujetos igualados, el conocimiento de una de las puntuaciones
de un sujeto o bloque permite saber algo de las demás puntuaciones del mismo sujeto o
bloque: los buenos estudiantes tienden a obtener puntuaciones altas en lengua, en matemá-
ticas y en inglés; los sujetos que más se benefician de un programa de adelgazamiento tien-
den a ser los que mejor mantienen ese beneficio al cabo de un mes; los sujetos con cociente
intelectual alto tienden a aprender mejor con cualquier método de enseñanza; etc. Puede que
una puntuación no diga mucho de las demás, pero es seguro que algo dice. Y esta circunstan-
cia debe ser tenida en cuenta en el análisis.
Los modelos de análisis de varianza con medidas repetidas sirven para valorar el efecto
de uno o más factores cuando al menos uno de ellos es un factor intrasujetos. En un factor
intersujetos o completamente aleatorizados (ver Capítulos 6 y 7), cada nivel del factor se
asocia a un grupo de sujetos. Un factor intrasujetos o con medidas repetidas se distingue
porque todos los niveles del factor se aplican a los mismos sujetos. Los términos intersu-
jetos e intrasujetos se aplican tanto a los factores como a los diseños. Los términos diseño
intrasujetos y diseño con medidas repetidas se refieren al mismo tipo de diseño.
Los diseños intrasujetos o con medidas repetidas ya los hemos empezado a estudiar en
el Capítulo 12 del primer volumen y en el Capítulo 5 de éste. El más simple de todos ellos
consiste en medir dos variables en una misma muestra de sujetos. Es lo que hemos hecho al
aplicar la prueba T para muestras relacionadas. Pero los diseños de medidas repetidas pue-
den tener más de dos medidas y más de un factor. Los ejemplos de las Tablas 8.1 a 8.3 pue-
den ayudar a comprender las diferencias entre los diseños completamente aleatorizados (CA)
y los de medidas repetidas (MR). Cada sujeto (cada participante en el estudio) está repre-
sentado con la letra s ; las letras con el mismo subíndice se refieren al mismo sujeto; subín-
dices distintos indican sujetos distintos. Seguimos utilizando a1, a2, ..., aJ para identificar los
niveles del factor A y b1, b2, ..., bK para identificar los niveles del factor B.
En la Tabla 8.1 están representados dos diseños de un factor. La Tabla 8.1.1 muestra un
diseño CA (grupos aleatorios o muestras independientes, es decir, sujetos distintos en cada
condición). Con 5 sujetos por condición, hacen falta 20 sujetos para completar las 4 condi-
ciones del diseño. Cada sujeto genera una puntuación. Estos datos se analizan con el mode-
lo de un factor CA (ver Capítulo 6). Si el factor solamente tiene dos niveles, los datos pue-
den analizarse con la prueba T de Student para muestras independientes (ver Capítulo 4).
La Tabla 8.1.2 muestra un diseño MR (bloques aleatorios o muestras relacionadas, es
decir, los mismos sujetos en todas las condiciones). Las 4 condiciones del diseño se com-
pletan con los mismos 5 sujetos. Cada sujeto genera 4 puntuaciones. Estos datos se analizan
con el modelo de un factor MR (lo estudiaremos en este capítulo). Cuando un factor con me-
didas repetidas tiene solamente dos niveles, los datos pueden analizarse con la prueba T de
Student para muestras relacionadas (ver Capítulo 5).
Capítulo 8. ANOVA. Un factor con medidas repetidas 297
1 a1 a2 a3 a4 2 a1 a2 a3 a4
s1 s6 s11 s16 s1 s1 s1 s1
s2 s7 s12 s17 s2 s2 s2 s2
s3 s8 s13 s18 s3 s3 s3 s3
s4 s9 s14 s19 s4 s4 s4 s4
s5 s10 s15 s20 s5 s5 s5 s5
En la Tabla 8.2 están representados tres diseños de dos factores. En los tres casos se trata de
diseños 2 × 4. La Tabla 8.2.1 muestra un diseño CA. En este diseño ambos factores son in-
tersujetos. Con 5 sujetos por condición, hacen falta 40 sujetos para completar las 8 condi-
ciones del diseño. Cada sujeto genera una sola puntuación. Estos datos se analizan con el
modelo de dos factores completamente aleatorizados (ver Capítulo 7).
La Tabla 8.2.2 muestra un diseño con medidas repetidas en ambos factores. Los dos
factores son intrasujetos. Las 8 condiciones del diseño se completan con los mismos 5 su-
jetos. Cada sujeto genera 8 puntuaciones. Estos datos se analizan con el modelo de dos fac-
tores con medidas repetidas en ambos (lo estudiaremos en el Capítulo 9).
La Tabla 8.2.3 muestra un diseño con medidas repetidas en el segundo factor: A es un
factor intersujetos; B es un factor intrasujetos. A los niveles de A se han asignado sujetos
distintos; a los de B se han asignado los mismos sujetos. Las 8 condiciones del diseño se
completan con 10 sujetos (los 5 de la condición a1 más los 5 de la condición a2 ). Cada suje-
to genera 4 puntuaciones. Estos datos se analizan con el modelo de dos factores con me-
didas repetidas en uno de ellos (lo estudiaremos en el Capítulo 9).
Tabla 8.2. Diseños de dos factores. 1: dos factores completamente aleatorizados (AB-CA); 2: dos factores
con medidas repetidas en ambos (AB-MR); 3: dos factores con medidas repetidas en uno (el B) (AB-CA-MR)
1 b1 b2 b3 b4 2 b1 b2 b3 b4 3 b1 b2 b3 b4
s1 s6 s11 s16 s1 s1 s1 s1 s1 s1 s1 s1
s2 s7 s12 s17 s2 s2 s2 s2 s2 s2 s2 s2
a1 s3 s8 s13 s18 a1 s3 s3 s3 s3 a1 s3 s3 s3 s3
s4 s9 s14 s19 s4 s4 s4 s4 s4 s4 s4 s4
s5 s10 s15 s20 s5 s5 s5 s5 s5 s5 s5 s5
s21 s26 s31 s36 s1 s1 s1 s1 s6 s6 s6 s6
s22 s27 s32 s37 s2 s2 s2 s2 s7 s7 s7 s7
a2 s23 s28 s33 s38 a2 s3 s3 s3 s3 a2 s8 s8 s8 s8
s24 s29 s34 s39 s4 s4 s4 s4 s9 s9 s9 s9
s25 s30 s35 s40 s5 s5 s5 s5 s10 s10 s10 s10
Las ventajas de los diseños con medidas repetidas son evidentes: requieren menos sujetos que
un diseño completamente aleatorizado (ver Kirk, 1995, págs. 286-288) y permiten eliminar
la variabilidad debida a las diferencias entre los sujetos (pues se utilizan los mismos). Como
contrapartida, los supuestos del análisis se vuelven algo más exigentes (estudiaremos esto más
298 Análisis de datos (vol. II)
adelante) y es necesario vigilar algunos efectos derivados del hecho de utilizar los mismos
sujetos. Por ejemplo, el efecto de arrastre, que ocurre cuando se aplica una condición antes
de que haya finalizado el efecto de otra aplicada previamente, o el efecto del aprendizaje por
la práctica, que ocurre cuando las respuestas de los sujetos pueden mejorar con la repetición
y, como consecuencia de ello, los tratamientos administrados en último lugar parecen más
efectivos que los administrados en primer lugar, sin que haya diferencias reales entre ellos
(cuando se sospecha de la presencia de este efecto es importante controlar el orden de pre-
sentación de las condiciones). Conviene conocer las fortalezas y debilidades de estos dise-
ños para decidir correctamente cuándo utilizarlos (ver León y Montero, 2003, págs. 233-258).
Tabla 8.3. Estructura de los datos y notación en un diseño de un factor con medidas repetidas (A-MR)
Factor A
Sujetos a1 a2 ··· aj ··· aJ Suma
s1 ··· ···
s2 ··· ···
··· ··· ··· ··· ··· ··· ··· ···
si ··· ···
··· ··· ··· ··· ··· ··· ··· ···
sn ··· ···
Recordemos que el signo “+” colocado como subíndice se refiere a todos los valores del
subíndice al que sustituye. Por ejemplo, Y2+ se refiere a todas las puntuaciones del segundo
sujeto (todos los valores j cuando i = 2). Los totales de cada nivel del factor ( ) se obtie-
nen sumando las n puntuaciones de cada columna; los de cada sujeto ( ) se obtienen su-
mando las J puntuaciones de cada fila; y el gran total (T ) se obtiene sumando todas las pun-
tuaciones de la tabla. Con estos totales se obtienen las medias de cada nivel del factor (me-
dias de las columnas), de cada sujeto (medias de las filas) y del total de la tabla; basta con
dividir esos totales entre el número de observaciones utilizadas para obtenerlos:
= , = , = = [8.1]
Los niveles del factor A definen J poblaciones. Supongamos que la variable cuantitativa Y
se distribuye normalmente en esas J poblaciones y que todas ellas tienen la misma varianza.
Y supongamos que, de cada una de esas J poblaciones, extraemos una muestra de n obser-
vaciones con la particularidad de que esas observaciones no son independientes entre sí por-
que pertenecen a los mismos sujetos o a bloques de J sujetos igualados. En este escenario es
posible identificar varios tipos de variabilidad.
La variabilidad total recoge la variabilidad entre cada observación y la media total. Es-
ta variabilidad total se puede descomponer en tres fuentes de variabilidad1: (1) la que se da
entre los diferentes niveles del factor o variabilidad intergrupos, también llamada intra-
sujetos por ser la variabilidad entre las puntuaciones de los mismos sujetos, (2) la que se da
entre los diferentes sujetos o variabilidad intersujetos y (3) la que se da entre cada obser-
vación y sus respectivas medias marginales (es decir, la variabilidad de cada observación
individual respecto de la media de su misma fila y columna); a esta forma de variabilidad la
llamamos variabilidad error porque representa el alejamiento de cada puntuación respecto
de lo esperado en función de sus valores marginales.
Estas tres fuentes de variabilidad pueden cuantificarse aplicando la lógica ya utilizada
a propósito del modelo de un factor CA. Así, la variabilidad intergrupos o intrasujetos, que
se refiere a las diferencias existentes entre las medias de las diferentes medidas (niveles del
factor), puede cuantificarse mediante la varianza o media cuadrática intergrupos:
(puesto que la MCI únicamente incluye la variabilidad debida al factor A, también podemos
llamarla MCA ). La variabilidad intersujetos o variabilidad entre las medias de los sujetos
puede cuantificarse mediante la varianza o media cuadrática intersujetos:
MCS = [8.3]
1
Por supuesto, esta descomposición de la variabilidad total en tres fuentes de variabilidad tiene su justificación matemá-
tica (ver Pardo y San Martín, 1998, págs. 256-259 ). Pero esto es justamente lo que estamos intentando evitar aquí.
300 Análisis de datos (vol. II)
Esta media cuadrática refleja, en realidad, la interacción entre los sujetos (filas) y los niveles
del factor (columnas), es decir, la interacción AS, y sustituye a la variabilidad intragrupos o
error de los modelos CA que aquí no existe porque solamente hay una observación por casilla.
Aplicando ahora la lógica estudiada a propósito del modelo completamente aleatoriza-
do, sabemos que el cociente entre MCA y MCA × S expresa cómo de grande es la variabilidad
entre las medias de las diferentes medidas o niveles del factor (MCA) en comparación con la
variabilidad error (MCA × S ), que es la variabilidad que cabría esperar por azar independien-
temente del tamaño de las medias poblacionales. Por tanto, el estadístico
F = = [8.5]
que sabemos que se distribuye según el modelo de probabilidad F con los grados de libertad
del numerador (J ! 1), y los del denominador [(J !1) (n !1)], puede utilizarse para contrastar
la hipótesis de que las J medias poblacionales son iguales2. El Cuadro 8.1 ofrece un resumen
del procedimiento3.
El estadístico F propuesto en [8.5] permite contrastar la hipótesis de igualdad de medias
si, al igual que en cualquier otro modelo de ANOVA, se dan ciertas condiciones. Estas con-
diciones son las mismas que en el modelo completamente aleatorizado más alguna otra adi-
cional que trataremos en el siguiente apartado.
Cuadro 8.1. Resumen del ANOVA de un factor con medidas repetidas (A-MR)
2
El cociente entre MCS y MCA ×S podría utilizarse para comparar las n medias de los sujetos, pero esto es algo que, en este
contexto, no suele tener interés. Se da por hecho que los sujetos difieren (razón por la cual se utilizan varios). La variabi-
lidad entre los sujetos únicamente se tiene en cuenta para eliminarla de la variabilidad error.
3
La diferencia entre el modelo completamente aleatorizado (CA) y el de medidas repetidas (MR) está únicamente en la
variabilidad intersujetos. Recordemos que, en el modelo CA, la variabilidad total se descompone en dos fuentes de varia-
bilidad: intergrupos y error. Ahora, en el modelo MR, la variabilidad total se descompone en tres fuentes de variabilidad:
intergrupos, intersujetos y error. Puesto que las variabilidades total e intergrupos son idénticas en ambos modelos, la va-
riabilidad error es menor en el modelo MR que en el CA en la cantidad correspondiente a la variabilidad intersujetos. Có-
mo de grande es esa cantidad es algo que depende del grado de relación existente entre las medidas repetidas. Si la relación
es alta, también lo será la variabilidad intersujetos, pues los sujetos que tienden a puntuar bajo (alto) en una medida ten-
derán a puntuar bajo (alto) en las demás y las medias de los sujetos serán distintas. Pero si las medidas repetidas son in-
dependientes, la variabilidad intersujetos será pequeña, pues los sujetos tenderán a puntuar indistintamente bajo y alto en
las diferentes medidas y sus medias serán parecidas. Por tanto, si las medidas repetidas no están relacionadas, no se obten-
drá ningún beneficio aplicando un modelo MR (es decir, no se conseguirá reducir la variabilidad error debida a las dife-
rencias entre los sujetos y, consecuentemente, no habrá diferencia entre aplicar un modelo CA y un modelo MR).
Capítulo 8. ANOVA. Un factor con medidas repetidas 301
Tabla 8.4. Datos de un diseño A-MR. Calidad del recuerdo en cuatro momentos
Medias 17 12 8 7 11
Se trata de un diseño con una variable independiente o factor (al que podemos llamar tiempo)
con cuatro niveles (J = 4). Los n = 6 sujetos incluidos en el estudio pasan por los 4 niveles
del factor (medidas repetidas). La variable dependiente, calidad del recuerdo (en realidad se
trata de 4 variables cuantitativas) se ha obtenido a partir de las valoraciones de varios exper-
tos. Tenemos, por tanto, un diseño de un factor con medidas repetidas.
Antes de comenzar el análisis siempre es recomendable formarse una idea sobre los datos
que se van a analizar. Para esto, nada como un diagrama de cajas representando las puntua-
ciones individuales de las variables (de las medidas repetidas) y un gráfico de líneas repre-
sentando las medias. La Figura 8.1 muestra ambas cosas. Aunque el diagrama correspon-
diente a un mes muestra una distribución algo asimétrica, no da la impresión de que estemos
ante distribuciones muy asimétricas; de hecho, la prueba de normalidad de Shapiro-Wilk (ver
302 Análisis de datos (vol. II)
Figura 8.1. Diagramas de caja (izquierda) y gráfico de líneas (derecha) de la calidad del recuerdo al cabo
de una hora, un día, una semana y un mes
1. Hipótesis:
H0: µ hora = µ día = µ semana = µ mes (el paso del tiempo no afecta a la calidad del recuerdo).
H1: µ j =/ µ j para algún valor de j o jN (j =/ jN) (el paso del tiempo afecta a la calidad del
recuerdo).
2. Supuestos: tenemos 4 muestras aleatorias de puntuaciones extraídas de poblaciones que
asumimos normales y con la misma varianza; asumimos también que las varianzas de las
diferencias entre cada par de medidas son iguales (ver siguiente apartado).
3. Estadístico del contraste (ver ecuación [8.5]). Para obtener el estadístico F únicamente
necesitamos las puntuaciones y las medias que ofrece la Tabla 8.3:
MCA = 6 [(17 ! 11)2 + (12 ! 11)2 + (8 ! 11)2 + (7 ! 11)2 ] / (4 ! 1) = 124.
MCA × S = [(16 ! 11 ! 17 + 11)2 + (14 ! 7 ! 17 + 11)2 + (19 ! 12 ! 17 + 11)2 + · · ·
+ (9 ! 11 ! 7 + 11)2 + (5 ! 11 ! 7 + 11)2 + (8 ! 7 ! 14 + 11)2 ] / [(4 ! 1)(6 ! 1) =
= 42 / 15 = 2,133.
F = MCA MCA × S = 124 / 2,133 = 58,13.
4. Distribución muestral: F se distribuye según FJ ! 1, (J !1) (n ! 1) = F4 !1, (4 !1) (6 !1) = F3, 15 .
5. Zona crítica: F $> F3, 15; 0,95 = 3,29.
6. Decisión: como el valor del estadístico del contraste (58,13) es mayor que el punto críti-
co (3,29), se rechaza H0. Se puede concluir, por tanto, que los promedios poblacionales
comparados no son iguales. El rechazo de la hipótesis de igualdad de medias indica que
la calidad del recuerdo no es la misma en los cuatro momentos considerados. Sin em-
bargo, no permite precisar qué momentos difieren de qué otros; para esto es necesario
realizar las comparaciones múltiples que estudiaremos más adelante.
7. Nivel crítico: p = P (F $ > 58,13) < 0,01.
Capítulo 8. ANOVA. Un factor con medidas repetidas 303
Alternativas al estadístico F
En condiciones de no-esfericidad, el estadístico F se vuelve liberal (aumenta la probabilidad
de cometer errores Tipo I). Y esto puede afectar seriamente a las conclusiones basadas en el
rechazo de la hipótesis de igualdad de medias. Por tanto, antes de elaborar conclusiones ba-
sadas en el rechazo de esta hipótesis, es importante asegurarse de que puede asumirse que la
matriz de varianzas-covarianzas es esférica. Para esto existen varios procedimientos. El más
popular (aunque no el más recomendable) es, quizá, el propuesto por Mauchly (1940); y es
el que incluye el SPSS4.
¿Qué hacer cuando se incumple el supuesto de esfericidad? El procedimiento SPSS que
utilizaremos en este capítulo ofrece dos soluciones alternativas: (1) modificar los grados de
libertad de la distribución F y (2) utilizar estadísticos multivariados que no asumen esferi-
cidad (en el Volumen III estudiaremos otras soluciones).
Aproximación multivariada
La segunda solución consiste en analizar los datos procedentes de un diseño de medidas re-
petidas mediante una serie de estadísticos agrupados bajo la denominación aproximación
multivariada (ver, por ejemplo, Maxwell y Delany, 2004, cap. 13). Para obtener estos esta-
dísticos es necesario recurrir al cálculo matricial. No obstante, el SPSS ofrece los estadísticos
multivariados comúnmente utilizados para este propósito (lamda de Wilks, T 2 de Hotelling-
4
La mayoría de los procedimientos disponibles para chequear el supuesto de esfericidad son sensibles a la no normalidad
de las poblaciones originales (Keselman, Rogan, Mendoza y Breen, 1980). No obstante, Cornell, Young, Seaman y Kirk
(1992), tras comparar ocho de estos procedimientos, han llegado a la conclusión de que el locally best invariant test (John,
1971, 1972; Nagao, 1973; Sugiura, 1972) es el más potente al tiempo que ofrece un buen control sobre la tasa de error (Kirk,
1995, pág. 278, explica cómo aplicar este procedimiento).
Capítulo 8. ANOVA. Un factor con medidas repetidas 305
Lawley, raíz mayor de Roy y traza de Pillai) acompañados de sus correspondientes niveles
críticos; y eso es todo lo que se necesita para contrastar la hipótesis de igualdad de medias.
La ventaja principal de estos estadísticos multivariados es que no exigen que la matriz
de varianzas-covarianzas sea esférica (condición que constituye la principal fuente de pro-
blemas con el estadístico F convencional). Como contrapartida, pierden potencia cuando se
utilizan con tamaños muestrales pequeños.
= [8.6]
y si es de efectos aleatorios,
= [8.7]
Recordemos que este estadístico se interpreta como proporción de varianza común o com-
partida: indica cómo de grande es la variabilidad entre las medidas repetidas en compara-
ción con la variabilidad total (excluyendo la variabilidad entre los sujetos7 ). La ecuación
[8.7] también se conoce como coeficiente de correlación intraclase, una medida del grado
de parecido (relación) existente entre las respuestas de los sujetos8.
El estadístico está estrechamente relacionado con la medida del tamaño del efecto
de Cohen (1988):
= [8.8]
La regla propuesta por Cohen para interpretar estas medidas sigue siendo válida aquí. En lo
relativo a , valores de 0,01, 0,06 y 0,14 indican efectos de tamaños pequeño, mediano y
grande. En el caso de ( f en la notación utilizada por Cohen), los valores de referencia son
0,10, 025 y 0,40.
En nuestro ejemplo sobre la relación entre la calidad del recuerdo y el paso del tiempo
(ver Tabla 8.4) tenemos J = 4 medidas repetidas, n = 6 sujetos, MCA = 124 y MCA×S = 2,80.
Asumiendo que el factor (momentos en los que se registra el recuerdo) es de efectos fijos,
= = 0,88
5
Si el estadístico F es menor que 1 (es decir, sin MCA < MCA×S ), las ecuaciones [8.6] y [8.7] ofrecen un valor negativo.
Puesto que una proporción no puede ser negativa, cuando ocurre esto se considera que ω2 vale cero.
6
El valor de también puede obtenerse a partir del estadístico F. Cuando el factor es de efectos fijos, la ecuación [8.6]
equivale a = [(J ! 1) (F ! 1)] / [n J + (J !1) (F !1)]. Cuando el factor es de efectos aleatorios, la ecuación [8.7] equiva-
le a = (F ! 1) / [(n ! 1) + F ].
7
Los estadísticos definidos en [8.6] y en [8.7] son medidas parciales, por contraposición a las medidas completas, que
utilizan la variabilidad total en el denominador. En general, las medidas de asociación parciales son preferibles a las com-
pletas, pues comparan la variabilidad debida al factor con una estimación neta de la variabilidad error (Keppel y Wickens,
2004, pág. 235; Maxwell, Camp y Arvey, 1981).
8
Sustituyendo en [8.7] MCA por MCS y n ! 1 por J ! 1 se obtiene una estimación del grado de variabilidad existente entre
los sujetos o bloques. Esta estimación refleja el grado de parecido existente entre las medidas repetidas y es muy utiliza-
da en el contexto de la fiabilidad de las escalas (ver Abad, Olea, Ponsoda y García, 2010, Cap. 9).
Capítulo 8. ANOVA. Un factor con medidas repetidas 307
= = 2,71
Ambos estadísticos indican que el efecto del paso del tiempo sobre la calidad del recuerdo
es de gran tamaño. En concreto, conocer en qué momento se registra el recuerdo (hora, día,
semana, mes) mejora nuestro conocimiento sobre su calidad un 84 %.
= , = [8.9]
= = = [8.10]
= = 6,60
= ÷ n = [8.11]
Supongamos que en un estudio con 4 medidas repetidas (gl1 = 3) y α = 0,05 queremos que
la potencia del contraste para detectar un efecto de tamaño medio (δ = 0,25 según la regla de
308 Análisis de datos (vol. II)
Cohen) valga 0,80 (β = 0,20). Tenemos que utilizar la Tabla G al revés de como lo hemos
hecho antes, pero ahora nos encontramos con que no conocemos los grados de libertad gl2,
pues dependen del tamaño muestral que estamos buscando. Esto, sin embargo, no represen-
ta ningún problema porque utilizar un valor de partida de 30 o mayor no hace cambiar las
cosas. Podemos elegir, por ejemplo, gl2 = . Así, con gl1 = 3, gl2 = y β = 0,20 (tomamos
0,23), la Tabla G ofrece un valor de 1,6 para . Por tanto, n = (1,6 / 0,25)2 = 40,96. Es decir,
hacen falta al menos 41 sujetos para alcanzar una potencia de 0,77.
Comparaciones múltiples
El rechazo de la hipótesis global de igualdad de medias permite afirmar que hay medias que
no son iguales, pero no permite precisar qué medias difieren de qué otras. Para esto es nece-
sario realizar comparaciones múltiples.
En el caso de que pueda asumirse esfericidad, los procedimientos descritos a propósi-
to del modelo de un factor completamente aleatorizado (ver, en el Capítulo 6, el apartado
Comparaciones múltiples) sirven para el modelo de un factor con medidas repetidas. Úni-
camente hay que tener en cuenta que la media cuadrática error, que ahora es MCA × S , se
calcula de forma distinta y que sus grados de libertad son (J ! 1) (n ! 1) en lugar de N ! J.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados pa-
ra realizar comparaciones planeadas o a priori siguen siendo válidos si se tiene la precau-
ción de utilizar las ecuaciones propuestas para el caso en que no puede asumirse que las va-
rianzas poblacionales son iguales (por ejemplo, utilizando la ecuación [6.36] en lugar de la
[6.35]; ver, por ejemplo, Mitzel y Games, 1981).
Y en lo relativo a las comparaciones post hoc o a posteriori, es preferible (ver Kesel-
man y Keselman, 1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980) estudiar las
comparaciones por pares utilizando la prueba T de Student para muestras relacionadas (ver
Capítulo 5) corrigiendo la tasa de error por comparación (αC) mediante el método de Dunn-
Bonferroni, es decir, dividiendo α F , generalmente 0,05, entre el número de comparaciones
por pares llevadas a cabo (lo cual equivale a utilizar la tabla de Dunn-Bonferroni en lugar de
la tabla de la distribución t)9. En el siguiente apartado se explica cómo hacer todo esto con
el SPSS.
9
Puede obtenerse un ligero incremento en la potencia (ver Hochberg y Tamhane, 2009) si el valor del estadístico T para
muestras relacionadas se compara con el cuantil 100 (1 ! α) de la distribución del módulo máximo studentizado (ver Par-
do y San Martín, 1998, Tabla M del Apéndice final) con k = J (J ! 1) / 2 y n ! 1 grados de libertad.
Capítulo 8. ANOVA. Un factor con medidas repetidas 309
variables del archivo de datos. Mientras que un factor CA es una variable del archivo (una
variable categórica que toma distintos valores, cada uno de los cuales define un nivel del
factor), un factor MR no es una variable del archivo de datos; no existe como tal; sus niveles
son las medidas repetidas; y cada medida repetida es una variable del archivo. Por tanto, pa-
ra poder ajustar un modelo de un factor MR, es necesario realizar algunas tareas extra: hay
que dar nombre al factor MR, fijar su número de niveles e indicar qué variable del archivo
de datos se corresponde con cada nivel.
En este apartado se explica cómo utilizar el procedimiento GLM Medidas repetidas para
analizar los datos de nuestro ejemplo sobre la relación entre el paso del tiempo y la calidad
del recuerdo (ver Tabla 8.4). En concreto, vamos a realizar 6 tareas: (1) chequear el supues-
to de esfericidad 10, (2) obtener un gráfico de líneas o de perfil representando las medias de
las medidas repetidas, (3) contrastar la hipótesis de igualdad de medias con los diferentes
estadísticos propuestos (es decir, con el estadístico F convencional, con el estadístico F con
los grados de libertad modificados y con los estadísticos de la aproximación multivariada),
(4) estimar el tamaño del efecto y calcular la potencia observada, (5) realizar comparacio-
nes planeadas o a priori (incluidas las comparaciones de tendencia) y (6) realizar compa-
raciones post hoc o a posteriori. Para llevar a cabo todas estas tareas:
' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4
tiempo recuerdo que se encuentra en la página web del manual).
' Seleccionar la opción Modelo lineal general > Medidas repetidas del menú Analizar para acce-
der al cuadro de diálogo Medidas repetidas: Definir factores (en este cuadro de diálogo,
previo al principal, es donde se define el factor de medidas repetidas).
' Introducir el nombre del factor MR (tiempo) en el cuadro de texto Nombre del factor intra-
sujetos y el número de niveles de que consta el factor (4) en el cuadro de texto Número
de niveles. Pulsar el botón Añadir para validar y el botón Definir para acceder al cuadro de
diálogo principal Medidas repetidas.
' Seleccionar las variables hora, día, semana y mes, y trasladarlas (en el orden correcto)
a la lista Variables intrasujetos.
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Medidas repetidas: Opcio-
nes y marcar las casillas Estadísticos descriptivos, Estimaciones del tamaño del efecto y Po-
tencia observada.
' Seleccionar la variable tiempo en la lista Factores e interacciones de los factores y trasla-
darla, con el botón flecha, a la lista Mostrar las medias para.
' Marcar la opción Comparar los efectos principales y seleccionar la opción Bonferroni den-
tro del menú desplegable Ajuste del intervalo de confianza (las comparaciones post hoc no
están disponibles para los factores intrasujetos o de medidas repetidas; para realizar es-
te tipo de comparaciones con un factor intrasujetos es necesario utilizar la opción Com-
parar efectos principales del cuadro de diálogo Opciones.). Pulsar el botón Continuar para
volver al cuadro de diálogo principal.
10
Los supuestos de independencia y normalidad se pueden contrastar aplicando a cada medida repetida la prueba de las
rachas (ver Apéndice 2) y la prueba de normalidad de Shapiro-Wilk (ver, en el Capítulo 2, el apartado Contrastes y gráficos
de normalidad). Aplicando estas dos pruebas a los datos de la Tabla 8.4, con ninguna de las cuatro medidas repetidas se
rechaza la hipótesis de independencia o aleatoriedad ( p > 0,377 en todos los casos) ni la de normalidad ( p > 0,05 en todos
los casos).
310 Análisis de datos (vol. II)
' Pulsar el botón Gráficos para acceder al subcuadro de diálogo Medidas repetidas: Grá-
ficos de perfil, trasladar la variable tiempo de la lista Factores al cuadro Eje horizontal y
pulsar el botón Añadir para trasladar la variable seleccionada a la lista inferior y hacer
efectiva la selección.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 8.5 a la
8.11 y el gráfico de líneas que muestra la Figura 8.1 (derecha). La Tabla 8.5 comienza ofre-
ciendo información descriptiva: las medias y las desviaciones típicas de cada medida (es
decir, de cada nivel del factor tiempo); también ofrece el número de casos válidos en cada
medida (este dato permite saber si existe algún valor perdido). En el gráfico de líneas de la
Figura 8.1 (pág. 302) están representadas estas medias; en él se aprecia un evidente descenso
de la calidad media del recuerdo conforme pasa el tiempo; el análisis de varianza permite
decidir si ese descenso es real o puede explicarse por las fluctuaciones del azar muestral.
Esfericidad
La Tabla 8.6 ofrece la prueba de esfericidad de Mauchly. Esta prueba permite contrastar la
hipótesis nula de que la matriz de varianzas-covarianzas correspondiente a las J medidas
repetidas es esférica. El rechazo de esta hipótesis implica que no es posible asumir esferi-
cidad. Puesto que el nivel crítico asociado al estadístico W (sig. = 0,743) es mayo que 0,05,
no puede rechazarse la hipótesis de esfericidad; es decir, puede asumirse que la matriz de
varianzas-covarianzas es esférica. Las tres últimas columnas de la tabla (épsilon) se expli-
can a continuación.
Épsilon
W de Chi-cuadrado Greenhouse- Huynh- Límite-
Efecto intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
tiempo ,47 2,77 5 ,743 ,69 1,00 ,33
Igualdad de medias
Las Tablas 8.7 y 8.8 recogen todos los estadísticos que incluye el procedimiento para el
contraste de la hipótesis global de igualdad de medias.
Si puede asumirse esfericidad, el estadístico F es la mejor elección. Este estadístico se
encuentra en la Tabla 8.8 en la fila encabezada esfericidad asumida (éste es el estadístico
que hemos calculado a mano con los datos de la Tabla 8.4). El nivel crítico asociado al es-
Capítulo 8. ANOVA. Un factor con medidas repetidas 311
tadístico F = 58,12 (sig. < 0,0005) permite rechazar la hipótesis de igualdad de medias y
concluir que los promedios comparados no son iguales. Por tanto, la calidad del recuerdo no
es la misma en los cuatro momentos definidos por el factor tiempo (en una situación real, el
contraste de la hipótesis global de igualdad de medias debería detenerse aquí; pero esto es
un ejemplo y debemos seguir explicando el resto de posibilidades).
Si no puede asumirse esfericidad, tenemos dos soluciones alternativas: (1) los estadís-
ticos multivariados de la Tabla 8.7 y (2) el estadístico F con los grados de libertad modi-
ficados mediante el índice corrector épsilon.
La Tabla 8.7 ofrece cuatro estadísticos multivariados: traza de Pillai, lambda de Wilks,
T 2 de Hotelling y raíz mayor de Roy (para una descripción de estos estadísticos puede con-
sultarse Bock, 1975, o Tabachnik y Fidel, 2001). Se interpretan de la misma manera que el
resto de estadísticos ya estudiados: puesto que el nivel crítico (sig.) asociado a cada uno de
ellos (en el ejemplo es el mismo para todos: 0,003) es menor que 0,05, se puede rechazar la
hipótesis nula de igualdad de medias.
Tabla 8.8. Contrastes univariados (estadísticos F con y sin modificación de los grados de libertad)
Medida: MEASURE_1
a
Suma de cuadrados
Potencia observada
Media cuadrática
Parámetro de no
Eta al cuadrado
centralidad
parcial
tipo III
Sig.
gl
Fuente
tiempo Esfericidad asumida 372,00 3,00 124,00 58,12 ,000 ,92 174,37 1,00
Greenhouse-Geisser 372,00 2,06 180,19 58,12 ,000 ,92 120,00 1,00
Huynh-Feldt 372,00 3,00 124,00 58,12 ,000 ,92 174,37 1,00
Límite-inferior 372,00 1,00 372,00 58,12 ,001 ,92 58,12 1,00
Error (tiempo) Esfericidad asumida 32,00 15,00 2,13
Greenhouse-Geisser 32,00 10,32 3,10
Huynh-Feldt 32,00 15,00 2,13
Límite-inferior 32,00 5,00 6,40
a. Calculado con alfa = ,05
= = = 0,92
El procedimiento GLM Medidas repetidas no calcula (Ver ecuación [8.6]), pero la Tabla 8.8
contiene la información necesaria para hacerlo:
= = = 0,88
Comparaciones planeadas
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinómico a los
factores MR. Estos contrastes permiten estudiar el tipo de relación (lineal, cuadrática, cúbi-
ca, etc.) existente entre el factor y la variable dependiente11.
Si no se modifica la opción por defecto del botón Contrastes (subcuadro de diálogo Me-
didas repetidas: Contrastes), el Visor ofrece los contrastes polinómicos (comparaciones de
tendencia) que muestra la Tabla 8.9. Puesto que se trata de contrastes ortogonales, la tabla
muestra tantos contrastes como niveles tiene el factor, menos uno; dado que el factor tiem-
po del ejemplo tiene cuatro niveles, aparecen tres contrastes: lineal, cuadrático y cúbico.
La tabla recoge la información necesaria para contrastar la hipótesis nula de que el po-
linomio (tendencia) evaluado vale cero en la población; es decir, la hipótesis nula de que no
existe relación lineal, cuadrática, etc. En el ejemplo, los valores de los niveles críticos (sig.)
asociados a cada estadístico F permiten rechazar las hipótesis referidas a los componentes
11
Aunque el SPSS los ofrece por defecto, debe tenerse en cuenta que, dependiendo de las características del factor, estos
contrastes podrían no tener sentido (ver, en el Capítulo 6, el apartado Comparaciones de tendencia).
Capítulo 8. ANOVA. Un factor con medidas repetidas 313
lineal y cuadrático, pero no la referida al componente cúbico. Esto significa que las medias
de la calidad del recuerdo en cada momento temporal se ajustan tanto a una línea recta (ten-
dencia lineal) como a una curva (tendencia cuadrática).
Cuando existe más de un componente significativo, es probable que el de mayor orden
se ajuste mejor, pero las funciones más parsimoniosas (más simples) son más fáciles de in-
terpretar y, generalmente, más útiles. No obstante, decidir qué componente de los signifi-
cativos se interpreta depende, fundamentalmente, de las hipótesis del estudio.
No es infrecuente encontrar más de un componente significativo. En concreto, no es in-
frecuente encontrar que tanto el componente lineal como el cuadrático son significativos. Esto
indica, por lo general, que la relación subyacente no es estrictamente lineal sino monótona
(creciente o decreciente). Un gráfico de perfil (ver siguiente apartado) suele ayudar bastan-
te a entender lo que está ocurriendo.
factores intrasujetos. Para comparar por pares los niveles de un factor intrasujetos debe uti-
lizarse la opción Comparar los efectos principales del subcuadro de diálogo Medidas repetidas:
Opciones. Al seleccionar esta opción, lo recomendable es seleccionar también algún méto-
do de control de la tasa de error. El procedimiento permite elegir entre el método de Bon-
ferroni y el de Šidák12.
Con esta opción se obtienen los resultados que muestran las Tablas 8.10 y 8.11. La pri-
mera de ellas es la tabla de Medias estimadas: ofrece, para cada nivel del factor tiempo, la
media estimada y su correspondiente error típico e intervalo de confianza (calculado al 95%).
Debe tenerse en cuenta que estos intervalos de confianza se refieren a cada media indivi-
dualmente considerada, no a diferencias entre pares de medias; por tanto, el hecho de que
exista o no solapamiento entre los intervalos de confianza de dos medias concretas no pue-
de utilizarse para contrastar la hipótesis de igualdad entre las correspondientes medias po-
blacionales.
La Tabla 8.11 ofrece las comparaciones dos a dos entre los cuatro niveles del factor (entre
las cuatro medidas repetidas). La tabla incluye, para cada comparación, la diferencia obser-
vada entre cada par de medias, el error típico de esa diferencia y el nivel crítico asociado a
esa diferencia bajo la hipótesis de igualdad de medias. Una nota a pie de tabla recuerda que
se está aplicando el método de Bonferroni para controlar la tasa de error. Los resultados de
la tabla indican que todas las comparaciones entre momentos son significativamente dis-
tintas de cero (sig. < 0,05 en todos los casos).
12
Ver, en el Capítulo 6, el apartado Prueba de Dunn-Bonferroni. Ver también, en ese mismo capítulo, la nota a pie de pá-
gina número 21.
Capítulo 8. ANOVA. Un factor con medidas repetidas 315
La prueba de Friedman
El estadístico F asume que los datos proceden de poblaciones normales y que la matriz de
varianzas-covarianzas es esférica. Los estadísticos estudiados en el apartado Alternativas al
estadístico F no asumen esfericidad, pero sí normalidad. Y todos ellos requieren trabajar con
una variable dependiente cuantitativa (de intervalos o de razón).
Friedman (1937) ha propuesto un procedimiento que puede aplicarse con datos ordina-
les (no exige, por tanto, nivel de medida de intervalos o razón) y, como consecuencia de esto,
no requiere asumir normalidad ni esfericidad. Como contrapartida, únicamente aprovecha
información ordinal. En realidad se trata de una extensión de la prueba de Wilcoxon para dos
muestras relacionadas (ver Capítulo 5) al caso de más de dos muestras relacionadas, es de-
cir, al caso de J medidas repetidas.
Para aplicar la prueba de Friedman se comienza transformando las puntuaciones origi-
nales en rangos . Esto se hace asignando, a las puntuaciones de cada sujeto o bloque,
enteros consecutivos de 1 a J (es decir, asignando un 1 a la puntuación más pequeña, un 2 a
la más pequeña de las restantes, etc.; los empates se resuelven asignando el rango prome-
dio). Puesto que los rangos se asignan independientemente a cada sujeto o bloque, todas las
filas de la tabla (sujetos) pasan a sumar lo mismo: = J (J + 1) / 2 (ver Tabla 8.3). De don-
de cabe deducir que la media y la varianza de cada casilla vendrán dadas por
= y = [8.12]
Pero los totales que nos interesan, es decir, los totales que nos informan de las posibles dife-
rencias entre los niveles del factor, son las sumas de los n rangos de cada columna ( ). Si
las J medias poblacionales son iguales, entonces
= y = [8.13]
Una sencilla manera de formarnos una idea sobre el grado de parecido entre las J medias
poblacionales consiste en obtener una cuantificación del grado en que cada total se des-
vía de su valor esperado, es decir,
= [8.14]
Si las medias poblacionales son iguales, los serán parecidos y S tomará un valor próxi-
mo a cero. El problema de S es que su valor depende (ver Pardo y San Martín, 1998, pág.
443) tanto del número de medidas repetidas del diseño (J ) como del número de sujetos (n).
Es preferible utilizar una variante de S,
= [8.15]
que no depende del número de sujetos sino solamente del número de medidas repetidas. Unas
sencillas operaciones permiten transformar la ecuación [8.9] en la expresión habitual del
estadístico de Friedman:
= [8.16]
316 Análisis de datos (vol. II)
La Tabla Q del Apéndice final ofrece las probabilidades exactas asociadas los puntos críti-
cos de la distribución muestral de para algunos valores de J y n. Para valores diferentes
de J o n puede utilizarse la distribución χ 2 con J ! 1 grados de libertad13.
El estadístico y su distribución muestral pueden utilizarse para contrastar la hipóte-
sis nula de que las J poblaciones tienen el mismo centro14 frente a la alternativa de que al me-
nos una población contiene puntuaciones más altas que la otra15. Para ello, basta con asumir
que el nivel de medida es al menos ordinal y que los sujetos o bloques son independientes
entre sí (muestra aleatoria) e independientes de los niveles del factor (el efecto del factor y
el de los sujetos o bloques se combinan aditivamente)16.
Para contrastar la hipótesis de igualdad de medias con los datos de nuestro ejemplo so-
bre la relación entre la calidad del recuerdo y el paso del tiempo, hemos comenzado asig-
nando rangos a los datos de la Tabla 8.4. La Tabla 8.12 muestra el resultado obtenido.
13
Ver, por ejemplo, San Martín y Pardo, 1989, págs. 248-249, para una justificación de la aproximación de a la dis-
tribución χ2 con J!1 grados de libertad.
14
La hipótesis nula que se contrasta con el estadístico de Friedman (ecuación [8.16]) es que, dentro de cada sujeto o bloque,
cualquier combinación de J rangos es igualmente probable. Esta hipótesis aplicada a nuestro ejemplo sobre la relación entre
la calidad del recuerdo y el paso del tiempo significa que la calidad del recuerdo es la misma en los cuatro momentos con-
siderados en el ejemplo.
15
El estadístico F aplicado, no a las puntuaciones originales, sino a las puntuaciones transformadas en rangos, adopta la
siguiente forma
[8.17]
y se distribuye según el modelo de probabilidad F con J ! 1 y (J ! 1) (n ! 1) grados de libertad. Iman y Davenport (1980)
y Zimmerman y Zumbo (1993) han señalado que esta solución ofrece mejores resultados que el estadístico de Friedman.
16
Si existen muchos rangos empatados, el estadístico tiene un comportamiento algo conservador (tiende a rechazar
la hipótesis nula menos de lo que debería). En estos casos conviene dividir el valor de por un término corrector que tie-
ne en cuenta la presencia de empates:
[8.18]
donde tg es el número de puntuaciones empatadas en un rango dado (t1, t2, ..., tg, ..., tG) y G el número de conjuntos de em-
pates. Por supuesto, los empates que importan son los que se dan dentro del mismo sujeto o bloque pues, recordemos, los
rangos se asignan independientemente para cada sujeto o bloque. Esta corrección por empates se realiza para corregir el
sesgo conservador que afecta a cuando existen empates, por lo que no tiene sentido utilizarla cuando sin ella ya se re-
chaza la hipótesis de igualdad de medias.
Capítulo 8. ANOVA. Un factor con medidas repetidas 317
= = 16,40
17
El SPSS calcula el estadístico de Friedman aplicando la corrección por empates propuesta en la ecuación [8.18]. Pues-
to que en nuestro ejemplo no existen rangos empatados, el resultado que se obtiene con las ecuaciones [8.16] y [8.18] es
exactamente el mismo.
318 Análisis de datos (vol. II)
Apéndice 8
Cómo estimar épsilon (ε)
Al mencionar los supuestos en los que se basa el modelo de un factor con medidas repetidas hemos
tenido que hacer constantes referencias a la matriz de varianzas-covarianzas. Esta matriz es una ma-
triz cuadrada de orden J (es decir, con J filas y J columnas, tantas como medidas repetidas) con las
varianzas de cada medida en la diagonal principal y las covarianzas entre cada par de medidas fuera
de la diagonal.
Cuando se utiliza el estadístico F convencional para contrastar efectos intrasujetos, la matriz de
varianzas-covarianzas debe ajustarse a una determinada estructura. A esta estructura la hemos llamado
esfericidad. Y Box (1954a, 1954b) ha demostrado que, cualquiera que sea el grado de incumplimiento
del supuesto de esfericidad, el cociente MCefecto / MCerror referido a un efecto intrasujetos se distribuye
aproximadamente según el modelo de probabilidad F con ε(glefecto ) y ε(glerror) grados de libertad, don-
de ε es un parámetro que expresa el grado en que la matriz de varianzas-covarianzas se aleja de una es-
tructura esférica (recordemos que ε vale 1 en condiciones de esfericidad perfecta y que va disminu-
yendo alejandose de 1 conforme la matriz de varianzas-covarianzas se va haciendo menos esférica).
Para estimar ε se han propuesto varios métodos. El SPSS recoge dos de ellos: Greenhouse-Geisser
y Huynh-Feldt (ver Tabla 8.6). La estimación de ε que el SPSS presenta con el nombre de Greenhouse-
Geisser (Geisser y Greenhouse, 1958; Greenhouse y Geiser, 1959) se obtiene mediante
= [8.19]
_
donde Sj =j se refiere a los elementos de la diagonal principal, S es la media de todos los elementos de
la matriz, S j j se refiere al elemento de la j-ésima fila y de la j-ésima columna, y S j se refiere a los ele-
mentos de la j-ésima fila. Puesto que la solución basada en resulta algo conservadora, Huynh y Feldt
(1976) han propuesto corregir mediante
˜= [8.20]
En nuestro ejemplo sobre la relación entre la calidad del recuerdo y el paso del tiempo (ver Tabla 8.4)
tenemos J = 4 medidas repetidas (hora, día, semana, mes). Con estas 4 variables (medidas repetidas)
se obtiene la matriz de varianzas-covarianzas que muestra la Tabla 8.15 (la tabla incluye las sumas de
los elementos de las filas, de las columnas y de toda la tabla).
= = 0,69
˜ = > 1
que son justamente los valores que ofrece el SPSS para las estimaciones Greenhose-Geisser y Huynh-
Feldt (ver Tabla 8.6). El valor de ˜ siempre es mayor que el de , excepto cuando toma su valor mí-
nimo, 1/(J ! 1), en cuyo caso ambos valores son iguales.
Prueba de Cochran
Cabe la posibilidad de que en un diseño de un factor con medidas repetidas (A-MR) la variable de-
pendiente o respuesta no sea una variable cuantitativa sino dicotómica (presencia, ausencia; a favor,
en contra; recuperados, no recuperados; etc.). En este escenario, en lugar de J variables cuantitativas,
tenemos J variables dicotómicas que siguen estando relacionadas porque se miden en los mismos su-
jetos o bloques. Y lo que procede en estos casos no es comparar medias, sino proporciones.
El procedimiento para comparar J proporciones relacionadas es una generalización del proce-
dimiento estudiado en el Capítulo 3 para el caso de dos proporciones relacionadas (ver el aparatado
Simetría con variables dicotómicas: la prueba de McNemar).
La estructura de los datos es idéntica a la presentada en la Tabla 8.3. La única diferencia es que,
ahora, las puntuaciones Yij son unos y ceros. La suma de cada columna, T+j, representa el número total
de unos en cada nivel del factor. Consecuentemente, las proporciones marginales P+ j representan la
proporción de unos en cada nivel del factor: P+ j = T+ j /n.
Si las J muestras proceden de poblaciones idénticas, cabe esperar que las proporciones margina-
les P+ j sean iguales, excepto en la parte atribuible a las fluctuaciones propias del azar muestral. Ba-
sándose en este hecho, Cochran (1950) ha diseñado un procedimiento18 que permite poner a prueba la
hipótesis nula de igualdad entre las J proporciones poblacionales (H0: π +1 = π +2 = ... = π +J ):
Q= [8.21]
El estadístico Q se distribuye según χ2 con J – 1 grados de libertad. Y para contrastar la hipótesis nula
de igualdad de proporciones únicamente hay que asumir que se tiene una muestra aleatoria de n sujetos
o bloques independientes entre sí en los que se miden J variables dicotómicas.
El SPSS incluye la prueba de Cochran en el procedimiento Pruebas no paramétricas. Para ilustrar
su aplicación, vamos a utilizar los datos de una encuesta realizada a 906 espectadores de televisión
sobre los motivos por los que estarían dispuestos a seguir viendo un determinado programa en la
siguiente temporada. Los datos están disponibles en el archivo tv-survey, el cual se encuentra en la
carpeta de ejemplos que incluye el SPSS. Las siete variables del archivo (cada variable representa un
motivo) son dicotómicas: 1 = «sí», 0 = «no».
Puesto que todos los sujetos responden a las siete preguntas, se trata de un diseño de medidas re-
petidas (muestras relacionadas). Y puesto que las variables que interesa analizar son dicotómicas,
puede aplicarse la prueba de Cochran para comparar J proporciones relacionadas. Para ello,
18
Este procedimiento es generalización del de McNemar para dos proporciones relacionadas. De hecho, si J = 2, el estadís-
tico de McNemar y el de Cochran son exactamente el mismo (ver, por ejemplo, Conover, 1980, pág. 204).
320 Análisis de datos (vol. II)
' Seleccionar la opción Pruebas no paramétricas > K muestras relacionadas del menú Analizar para ac-
ceder al cuadro de diálogo Pruebas para varias muestras relacionadas.
' Trasladar todas las variables (siete en total) a la lista Contrastar variables y, en el recuadro Tipo de
prueba, marcar la opción Cochran.
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Varias muestras relacionadas:
Estadísticos y marcar la opción Descriptivos. Pulsar el botón Continuar para volver al cuadro de
diálogo principal.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 8.16 a 8.18. La Ta-
bla 8.16 contiene algunos descriptivos básicos: el número de casos válidos (no hay casos con valor
perdido), la media (que al tratarse de variables dicotómicas no es otra cosa que la proporción de unos),
la desviación típica insesgada, y los valores mínimo y máximo. La Tabla 8.17 muestra el número (fre-
cuencia) de respuestas de cada tipo observadas en cada pregunta (1 = «sí», 0 = «no»). Estas frecuen-
cias constituyen la base de cálculo de la información que aparece en la Tabla 8.16.
Finalmente, la Tabla 8.18 ofrece el número de casos válidos (N = 906), el estadístico de Cochran
(Q de Cochran = 1.491,561), los grados de libertad ( gl = 6) y el nivel crítico (sig. asintót. < 0,0005).
Puesto que el nivel crítico es menor que 0,05, se puede rechazar la hipótesis de igualdad de propor-
ciones y concluir que la proporción de televidentes que elige cada motivo no es la misma.
Aunque existen procedimientos para efectuar comparaciones múltiples cuando el estadístico de
Cochran resulta significativo (ver, por ejemplo, Pardo y San Martín, 1998, págs. 508-510), para con-
trastar con el SPSS qué proporciones difieren entre sí puede utilizarse la prueba de McNemar para dos
muestras relacionadas (ver Capítulo 3) aplicando la corrección de Bonferroni para controlar la tasa de
error.
= [8.22]
Los rangos se asignan por filas, es decir, de la misma manera que para aplicar la prueba de Friedman.
La Tabla 8.12 muestra los rangos asignados a las puntuaciones de la Tabla 8.4.
En el diseño de un factor MR, el objetivo del análisis es comparar los promedios correspondientes
a los J niveles del factor. Con la prueba de Friedman se persigue el mismo objetivo que con el estadís-
tico F, pero asignando rangos a las puntuaciones de cada sujeto o bloque. Con los datos de las Tablas
8.4 y 8.12, ambos estadísticos permiten valorar cómo cambia el recuerdo medio con el paso del tiempo.
Otra forma equivalente de ver el problema consiste en valorar la relación, acuerdo o concordan-
cia existentes entre los n = 6 conjuntos de rangos de la Tabla 8.12. Existirá concordancia perfecta en-
tre ellos cuando todos los sujetos se comporten del mismo modo (por ejemplo, cuando todos los suje-
tos recuerden más al principio y menos al final, en cuyo caso todos los sujetos obtendrán el rango 4 en
el primer momento, el rango 3 en el segundo, ..., el rango 1 en el último). Cuando ocurra esto, los to-
tales correspondientes a los diferentes niveles del factor (a las diferentes columnas) alcanzarán
la máxima diferencia entre ellos (en concreto valdrán 1J, 2 J, 3 J, ..., n J ).
Por el contrario, la relación o concordancia entre los n conjuntos de rangos de la Tabla 8.12 será
baja cuando los sujetos se comporten de forma distinta (por ejemplo, cuando unos recuerden mejor al
principio y otros mejor al final). Cuando ocurra esto, los totales tomarán valores parecidos. Y en
el hipotético caso de concordancia nula serán iguales:
(pues la suma de J conjuntos de rangos vale J (J + 1) / 2). Por tanto, el grado de parecido existente entre
los J totales está reflejando el grado de relación o concordancia existente entre los n conjuntos de
rangos. Traducido esto a los datos de la Tabla 8.12 significa que estudiar si el recuerdo cambia entre
los J = 4 momentos (hipótesis de igualdad de promedios) equivale a estudiar si los n = 6 conjuntos de
rangos correspondientes a cada sujeto están relacionados (hipótesis de relación o concordancia).
Así pues, cuando la concordancia entre n conjuntos de rangos es perfecta, la variabilidad entre los
es máxima; cuando la concordancia es nula, la variabilidad entre los es mínima. Teniendo esto
en cuenta, el estadístico:
S= [8.24]
representa la variabilidad observada entre cada total y el total definido en [8.23], que es el que
cabría esperar si la concordancia fuera nula. S valdrá cero cuando la concordancia existente entre los
n conjuntos de rangos sea nula (pues, en ese caso, todos los totales serán iguales entre sí e igua-
322 Análisis de datos (vol. II)
Smáx = [8.25]
Para obtener un coeficiente que valga 0 en el caso de concordancia nula y 1 en el caso de concordan-
cia perfecta puede utilizarse una transformación consistente en dividir S entre su valor máximo. Esta
solución es justamente lo que se conoce como coeficiente de concordancia de Kendall:
= [8.26]
= [8.27]
Y sabemos que este estadístico se distribuye según el modelo de probabilidad χ2 con J ! 1 grados
de libertad.
En el ejemplo que venimos utilizando en este capítulo sobre la relación entre la calidad del recuer-
do y el paso del tiempo (ver Tablas 8.4 y 8.12), tenemos J = 4, n = 6 y = 1.066,5. Aplicando
[8.26] se obtiene19
= = 0,91
19
La presencia de empates dentro de un mismo conjunto de rangos hace que tome un valor más pequeño del que le
corresponde. El SPSS utiliza el coeficiente de Kendall aplicando una corrección por empates:
= [8.28]
donde tg tiene el mismo significado que en [8.18]. Esta corrección es importante solamente cuando hay muchos empates.
Capítulo 8. ANOVA. Un factor con medidas repetidas 323
Puesto que toma comprendidos entre 0 (acuerdo mínimo) y 1 (acuerdo máximo ), el valor obtenido
indica que el grado de concordancia entre las respuestas de los sujetos es muy alto. Es importante
recordar que no se está valorando el grado de parecido existente entre las medidas repetidas, sino entre
las respuestas de los sujetos (lo cual equivale a valorar el parecido entre los promedios de las medidas
repetidas). Aplicando ahora [8.27] se obtiene20
= 6 (4 ! 1) 0,91 = 16,40
es decir, el mismo valor obtenido al calcular el estadístico de Friedman con estos datos. La significa-
ción estadística de se valora tal como ya hemos hecho al estudiar la prueba de Friedman.
El coeficiente de concordancia de Kendall está disponible en el SPSS dentro de la opción Prue-
bas no paramétricas. Para aplicarlo a los datos de la Tabla 8.4:
' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4 tiempo
recuerdo que se encuentra en la página web del manual).
' Seleccionar la opción Pruebas no paramétricas > K muestras relacionadas del menú Analizar para ac-
ceder al cuadro de diálogo Pruebas para varias muestras relacionadas, trasladar las variables
hora, día, semana y mes a la lista Contrastar variables y marcar la opción W de Kendall.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 8.19. La
tabla incluye el número de casos válidos (N = 6), el valor del coeficiente de concordancia de Ken-
dall (0,91; este valor se obtiene aplicando la corrección por empates propuesta en la ecuación [8.28]),
su transformación en (chi-cuadrado = 16,40; ver [8.27]), los grados de libertad (gl = 3) y el
correspondiente nivel crítico (sig. asintótica = 0,001). Puesto que el nivel crítico obtenido es menor
que 0,05, se puede rechazar la hipótesis de concordancia nula y concluir que existe acuerdo estadísti-
camente significativo entre las respuestas de los sujetos (lo cual equivale a afirmar que los promedios
de los cuatro momentos no son iguales).
20
Aplicando la corrección por empates propuesta en [8.28] se obtiene = 6 (4 ! 1) 0,94 = 16,92, que es el mismo valor
que ofrece el SPSS para el estadístico de Friedman.
324 Análisis de datos (vol. II)
este escenario, la variabilidad error incluye dos componentes: (1) el relacionado con la interacción en-
tre el factor y los sujetos, que sería el responsable de la eventual falta de independencia (no-aditividad)
entre el factor y los sujetos o bloques; y (2) el no relacionado con la interacción entre el factor y los
sujetos, que estaría formado por el resto de fuentes de variabilidad error (el efecto debido a los factores
no tenidos en cuenta, los errores de medida, etc.).
El primer componente (al que llamaremos no-aditividad por reflejar el efecto atribuible a la in-
teracción entre el factor y los sujetos) puede cuantificarse mediante
MCno-aditividad = [8.29]
Y el segundo (al que llamaremos resto por reflejar la parte de la variabilidad error no atribuible a la
interacción entre el factor y los sujetos), mediante
El cociente entre las medias cuadráticas [8.29] y [8.30] permite valorar cómo de grande es la variabili-
dad debida a la interacción entre el factor y los sujetos en comparación con el resto de la variabilidad
error:
Bajo la hipótesis de independencia entre las medidas repetidas y los sujetos o bloques (es decir, bajo
la hipótesis de aditividad), el estadístico [8.31] se distribuye según el modelo de probabilidad F con 1
y (J ! 1) (n ! 1) ! 1 grados de libertad. Debe rechazarse la hipótesis nula de independencia o aditividad
cuando el valor de [8.31] sea mayor que el cuantil 95 de la distribución F con 1 y (J ! 1) (n ! 1) ! 1
grados de libertad. El rechazo de esta hipótesis de aditividad indica que no es razonable asumir inde-
pendencia entre las medidas repetidas y los sujetos o bloques y, consecuentemente, que el modelo adi-
tivo podría no ser el más apropiado.
El estadístico propuesto en [8.31] es sensible a un tipo particular de no-aditividad. En concreto,
a situaciones en las que las medidas repetidas van aumentando o disminuyendo pero no lo hacen de
la misma forma en todos los sujetos o bloques. Por tanto, el no rechazo de la hipótesis de aditividad
no es garantía de que las medidas repetidas sean independientes de los sujetos o bloques. No obstan-
te, es una buena forma de comenzar, pues el no rechazo de la hipótesis de aditividad indica que no
existe evidencia de que las formas habituales de no-aditividad estén presentes en los datos.
El SPSS incluye la prueba de no-aditividad de Tukey en el procedimiento Análisis de fiabilidad.
Para aplicarla a los datos de nuestro ejemplo sobre la relación entre el paso del tiempo y la calidad
del recuerdo (ver Tabla 8.4):
' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4 tiempo re-
cuerdo que se encuentra en la página web del manual).
' Seleccionar la opción Escalas > Análisis de fiabilidad del menú Analizar para acceder al cuadro de diá-
logo Análisis de fiabilidad y trasladar las variables hora, día, semana y mes a la lista Elementos.
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Análisis de fiabilidad: Esta-
dísticos y marcar la opción Prueba de aditividad de Tukey. Pulsar el botón Continuar para volver al
cuadro de diálogo principal.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 8.20. Es-
ta tabla incluye parte de la información que ya hemos obtenido con el procedimiento MLG Medidas
repetidas (ver Tabla 8.8). Por ejemplo, el valor del estadístico F de la fila encabezada inter-elementos
(58,13) es el mismo que se obtiene al contrastar el efecto del factor intrasujetos (tiempo en la Tabla 8.8).
Capítulo 8. ANOVA. Un factor con medidas repetidas 325
El estadístico [8.31] aparece en la fila encabezada no aditividad: vale 0,05 y tiene asociado un nivel
crítico de 0,821. Por tanto, no existe evidencia de que el efecto del paso del tiempo dependa o esté
relacionado con los sujetos incluidos en el análisis, es decir, no existe evidencia de que el modelo adi-
tivo sea inapropiado.
En una nota a pie de tabla (estimación de Tukey = 1,096) se ofrece una estimación del valor al que
habría que elevar cada una de las puntuaciones originales para reducir o eliminar la eventual presen-
cia de interacción entre las medidas repetidas y los sujetos o bloques.
8.1. Para evaluar el efecto de un determinado fármaco sobre la ansiedad de pacientes diagnosticados de
neurosis, un investigador administró tres dosis diferentes del fármaco a un grupo de pacientes. Pen-
sando que el tipo de neurosis podría alterar el efecto del fármaco, seleccionó tres pacientes con neu-
rosis obsesiva, tres con neurosis fóbica, tres con neurosis de angustia y tres con neurosis histérica.
Aplicó cada nivel del fármaco a un paciente de cada uno de los grupos de neurosis y obtuvo los re-
sultados que muestra la tabla:
Dosis
Neurosis 100 mg 250 mg 500 mg Medias
Obsesiva 72 73 80 75
Fóbica 64 77 84 75
De angustia 70 83 90 81
Histérica 62 71 86 73
Medias 67 76 85 76
Asumiendo que se cumplen los supuestos en los que se basa el estadístico F del ANOVA A-MR y
utilizando α = 0,05,
a. Contrastar la hipótesis nula de que el nivel de ansiedad no cambia con la dosis.
b. Estimar el tamaño del efecto e interpretar el resultado.
c. Calcular la potencia del contraste.
326 Análisis de datos (vol. II)
8.2. Reproducir en el SPSS los datos del ejercicio anterior (cada dosis en una columna) y responder a las
siguientes preguntas:
a. ¿Es razonable asumir esfericidad?
b. ¿Cuánto vale la épsilon de Greenhouse-Geisser?
c. ¿Cambia la decisión sobre la hipótesis nula cuando se utilizan los estadísticos F con los grados de
libertad corregidos?
d. ¿Cambia la decisión sobre la hipótesis nula cuando se utiliza los estadísticos de la aproximación
multivariada?
e. ¿Es apropiado utilizar la solución multivariada con estos datos?
f. Comprobar si con la prueba de Friedman se llega a la misma conclusión que con el estadístico F.
8.3. Un educador está interesado en comprobar si las puntuaciones de una prueba de razonamiento verbal
se mantienen constantes o se modifican entre los 7, 8 y 9 años de edad. Selecciona una muestra alea-
toria de 10 niños de 7 años de edad y les mide su nivel de razonamiento verbal. Vuelve a efectuar el
mismo registro a los 8 y a los 9 años. La siguiente tabla muestra los resultados obtenidos.
Sujetos
Edad 1 2 3 4 5 6 7 8 9 10 Medias
7 años 20 28 24 15 30 39 15 21 10 38 24
8 años 28 29 29 20 32 41 19 25 12 45 28
9 años 24 33 31 16 34 43 23 29 14 43 29
Medias 24 30 28 17 32 41 19 25 12 42 27
Asumiendo que se cumplen los supuestos en los que se basa el estadístico F del ANOVA A-MR y
utilizando α = 0,05,
a. Contrastar la hipótesis nula de que las puntuaciones en razonamiento verbal no cambian entre los
7 y los 9 años.
b. Estimar el tamaño del efecto e interpretar el resultado.
c. Calcular la potencia del contraste.
d. Averiguar si la relación entre la edad y las puntuaciones en razonamiento verbal es de tipo lineal.
e. Contrastar la hipótesis del apartado a como si se tratara de un diseño completamente aleatorizado
y comparar ambos resultados.
f. La comparación entre los resultados de los apartados a y e refleja una de las principales ventajas
de los diseños de medidas repetidas. ¿De qué ventaja se trata?
8.4. En un estudio sobre memoria a corto plazo se han utilizando 3 listas diferentes: (1) números, (2) pa-
labras con sentido y (3) palabras sin sentido. Al poner a prueba mediante un ANOVA A-MR la hipó-
tesis de que el rendimiento en las tres tareas es el mismo, hemos obtenido F = 12,86. Sabiendo que en
el estudio han intervenido 7 sujetos,
a. Contrastar la hipótesis nula de igualdad de medias, es decir, la hipótesis nula de que el rendimien-
to es el mismo en las tres tareas (α = 0,05).
b. Estimar el tamaño del efecto e interpretar el resultado.
Capítulo 8. ANOVA. Un factor con medidas repetidas 327
8.5. Imaginemos una situación en la que 6 sujetos son evaluados de 0 a 10 por 3 jueces independientes (por
ejemplo, 6 alumnos son calificados por 3 profesores, 6 candidatos a un puesto de trabajo son clasifica-
dos por 3 entrevistadores, etc.). La siguiente tabla ofrece unos datos ficticios:
Sujetos
Jueces 1 2 3 4 5 6
1 8 7 2 1 6 3
2 4 9 3 1 6 2
3 6 9 4 2 5 3
Reproducir los datos de la tabla en el SPSS y responder a las siguientes preguntas utilizando en todos
los casos α = 0,05.
a. Utilizar la prueba de Friedman para contrastar la hipótesis nula de que los seis sujetos han recibi-
do la misma valoración promedio.
b. Utilizar la prueba de Friedman para contrastar la hipótesis nula de que los tres jueces están asig-
nando la misma valoración promedio.
c. ¿Cuál de los dos contrastes anteriores está informando del grado de acuerdo existente entre las va-
loraciones de los jueces? ¿Por qué?
8.6. En un experimento sobre percepción visual se han utilizado 5 estímulos luminosos (A, B, C, D y E)
de diferente intensidad. Los estímulos se han presentado aleatoriamente a 8 sujetos seleccionados al
azar. Cada sujeto ha ordenado los estímulos según su propia percepción de la intensidad luminosa de
los mismos. La tabla muestra los resultados obtenidos:
Orden de Sujetos
clasificación de
los estímulos 1 2 3 4 5 6 7 8
1 C C B C D D C C
2 D B C B B C D A
3 B D E D C E B D
4 A E D E E A A B
5 E A A A A B E E
Contrastar, con α = 0,05, la hipótesis nula de que los cinco estímulos son percibidos como igualmen-
te intensos.
8.7. Hemos presentado a 6 sujetos elegidos al azar 4 discos de colores: rojo (R), verde (V), azul (A) y ne-
gro (N). A cada sujeto se le ha pedido situar los 4 estímulos en un continuo subjetivo con los polos
alegre y triste. La siguiente tabla muestra los resultados obtenidos.
Reproducir los datos de la tabla en el SPSS y responder a las siguientes preguntas utilizando en todos
los casos α = 0,05 (para reproducir estos datos en el SPSS debe tenerse en cuenta que los niveles del
factor son los cuatro colores y que las puntuaciones que cada sujeto asigna a los colores vienen dadas
por la posición que ocupan los colores en el continuo alegre-triste):
a. Contrastar la hipótesis nula de que los cuatro colores son percibidos como igualmente alegres o
tristes.
b. Utilizar el resultado del apartado anterior para decidir si existe acuerdo significativo entre las res-
puestas de los sujetos.
9
Análisis de varianza (IV)
Dos factores
con medidas repetidas
La Tabla 9.1 muestra la estructura de los datos y la notación que utilizaremos en un dise-
ño de dos factores con medidas repetidas en ambos. Seguimos llamando A y B a los factores
e Y a la variable dependiente (la variable cuantitativa de la que se toman varias medidas). A
los J niveles del factor A los representamos mediante a1, a2, ..., aj..., aJ ( j = 1, 2, ..., J ). A los
K niveles del factor B los representamos mediante b1, b2, ..., bk..., bK (k = 1, 2, ..., K ). A ca-
da sujeto lo representamos mediante si (i = 1, 2, ..., n). Los n sujetos incluidos en el estudio
participan en todas las condiciones del diseño, es decir, en las JK condiciones resultantes de
combinar los J niveles del factor A con los K niveles del factor B.
Tabla 9.1. Estructura de los datos en un diseño de dos factores con medidas repetidas en ambos (AB-MR)
a1 aj aJ
Sujetos b1 ··· bk ··· bK b1 ··· bk ··· bK b1 ··· bk ··· bK
s1 ··· ··· ··· ··· ··· ···
s2 ··· ··· ··· ··· ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···
si ··· ··· ··· ··· ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···
sn ··· ··· ··· ··· ··· ···
Sumando puntuaciones se obtienen los totales y las medias necesarios para el análisis. Así,
por ejemplo, con las puntuaciones de cada fila de la tabla se obtienen los totales y las medias
correspondientes a cada sujeto; con las puntuaciones de cada columna se obtienen los tota-
les y las medias correspondientes a cada combinación AB; etc. Siguiendo la lógica ya apli-
cada a propósito del modelo completamente aleatorizado (ver ecuaciones [7.1] a [7.5]) se
obtienen el resto de totales y medias.
En un modelo de dos factores, los efectos que interesa analizar son tres: los dos efectos
principales (es decir, los efectos de cada factor individualmente considerado, A y B ) y el
efecto de la interacción entre ambos factores (es decir, el efecto conjunto o combinado de
ambos factores, AB). El hecho de que el diseño sea completamente aleatorizado o de medidas
repetidas no cambia esto. Y para poder analizar estos tres efectos, es necesario identificar las
diferentes fuentes de variabilidad presentes en el diseño.
Ya hemos visto que, en un diseño completamente aleatorizado (CA), la variabilidad to-
tal (la variabilidad que se da entre cada observación y la media total) se descompone en va-
riabilidad intergrupos y variabilidad intragrupos o error. También hemos visto que en un
diseño con medidas repetidas (MR) hay una forma más de variabilidad: la debida a las di-
ferencias entre los sujetos o variabilidad intersujetos (esta fuente de variabilidad también
existe en un diseño CA, pero no hay forma de aislarla).
Además, si el diseño tiene dos factores (tanto si es CA como si es MR), la variabilidad
intergrupos puede descomponerse, a su vez, en la variabilidad asociada al factor A, la aso-
ciada al factor B y la asociada a la interacción AB. Todas estas fuentes de variabilidad ya
las hemos estudiado en alguno de los tres capítulos anteriores.
Capítulo 9. ANOVA. Dos factores con medidas repetidas 331
En esta forma de descomponer la variabilidad total se está asumiendo que los sujetos son
independientes del resto de efectos. Por tanto, las interacciones A×S, B ×S y AB ×S constitu-
yen variabilidad error. En el diseño de un factor MR (ver capítulo anterior), la variabilidad
error es precisamente la variabilidad asociada a la interacción entre el factor A y los sujetos.
En el diseño de dos factores MR la variabilidad error también incluye la variabilidad debi-
da a la interacción entre los sujetos y cada uno de los efectos intrasujetos, es decir, la debida
a la interacción entre el efecto de A y los sujetos (A×S ), la debida a la interacción entre el
efecto de B y los sujetos (B×S ) y la debida a la interacción entre el efecto de AB y los sujetos
(AB×S ). En consecuencia, en un diseño de dos factores, ambos con medidas repetidas, la va-
riabilidad total puede descomponerse en siete fuentes distintas de variabilidad. La Tabla 9.2
muestra cómo cuantificarlas.
Tabla 9.2. Medias cuadráticas en un diseño de dos factores con medidas repetidas en ambos (AB-MR)
MCA =
MCB =
MCAB =
MCS =
MCA×S =
MCB×S =
MCAB×S =
Por tanto, no existe una única fuente de variabilidad error, sino tres. Y para valorar la sig-
nificación de los efectos presentes en el diseño (A, B y AB), cada uno debe compararse con
su correspondiente variabilidad error:
= [9.1]
Así, para valorar el efecto del factor A se utiliza el cociente entre la media cuadrática de A
y la media cuadrática de la interacción A×S. Para valorar el efecto del factor B se utiliza el
cociente entre la media cuadrática de B y la media cuadrática de la interacción B×S. Y Para
valorar el efecto de la interacción AB se utiliza el cociente entre la media cuadrática de AB
y la media cuadrática de la interacción AB×S.
La lógica de estos tres cocientes se entenderá fácilmente si se considera que valorar el
efecto del factor A consiste en comparar las medias marginales correspondientes a los nive-
les del factor A tras promediar el resto de efectos. Ahora bien, al promediar las K puntua-
ciones de cada sujeto se obtiene un diseño de un factor MR idéntico al estudiado en el capí-
332 Análisis de datos (vol. II)
tulo anterior. Analizando estos promedios con el estadístico F del modelo de un factor MR
se obtiene el mismo resultado que con la solución propuesta en [9.1]. Exactamente lo mismo
vale decir del efecto del factor B.
En relación con el efecto de la interacción, la única variabilidad error es la que se da en-
tre cada puntuación individual y las medias marginales de su propia columna (ver Tabla 9.1).
Y esa variabilidad es justamente la debida a la interacción entre AB y los sujetos.
El Cuadro 9.2 ofrece un resumen de cómo analizar los tres efectos del diseño (A, B y AB)
mediante la aplicación de los estadísticos F propuestos en [9.1]. Estos estadísticos se dis-
tribuyen según el modelo de probabilidad F con los grados de libertad correspondientes al
numerador y al denominador de cada cociente. Ahora bien, para que esto sea así, es necesa-
rio seguir asumiendo, como en cualquier otro modelo de ANOVA, que se dan ciertas con-
diciones. Estas condiciones son las mismas que las estudiadas a propósito del modelo de un
factor MR, pero con algunos matices que trataremos en el siguiente apartado.
Cuadro 9.2. Resumen del ANOVA de dos factores con medidas repetidas en ambos (AB-MR)
1. Hipótesis: las hipótesis sobre los efectos del factor A, el factor B y la interacción AB
son las mismas que en el modelo de dos factores completamente aleatorizados (ver
Cuadro 7.1).
2. Supuestos: muestra de tamaño n aleatoriamente seleccionada de JK poblaciones nor-
males con la misma varianza; también se asume que la matriz de varianzas-covarian-
zas de las JK medidas repetidas es esférica (ver siguiente apartado).
3. Estadísticos del contraste (ver ecuación [9.1] y Tabla 9.12):
a. Para H0 (A) : FA = MCA MCA×S .
b. Para H0 (B) : FB = MCB MCB×S .
c. Para H0 (AB) : FAB = MCAB MCAB×S .
4. Distribuciones muestrales:
a. FA se distribuye según F con J !1 y (J !1)(n !1) grados de libertad.
b. FB se distribuye según F con K !1 y (K !1)(n !1) grados de libertad.
c. FAB se distribuye según F con (J !1)(K !1) y (J !1)(K !1)(n !1) grados de libertad.
5. Zonas críticas:
a. FA $
> FJ !1, (J !1)(n !1); 1! α .
b. FB $
> FK !1, (K !1)(n !1); 1! α .
c. FAB $
> F(J !1)(K !1), (J !1)(K !1)(n !1); 1! α .
6. Reglas de decisión: las mismas que en el modelo de dos factores completamente
aleatorizados (ver Cuadro 7.1).
7. Niveles críticos (valores p): los mismos que en el modelo de dos factores comple-
tamente aleatorizados (ver Cuadro 7.1).
La Tabla 9.2 y el Cuadro 9.2 contienen la información necesaria para resolver las ecua-
ciones que permiten analizar los tres efectos del diseño. No obstante, en lugar de realizar
cálculos a mano, explicaremos todos los detalles del análisis utilizando el SPSS.
Capítulo 9. ANOVA. Dos factores con medidas repetidas 333
= [9.2]
Esta medida de asociación parcial es la que ofrece el SPSS como estimación del tamaño del
efecto. No obstante, puesto que tiende a ofrecer una estimación inflada de la verdadera
proporción de varianza compartida, la medida de asociación que tiende a acaparar las prefe-
rencias de los expertos para cuantificar el tamaño de un efecto intrasujetos es omega-cua-
drado ( ).
Cuando los factores son de efectos fijos, el tamaño del efecto puede estimarse (ver Kirk,
1995, pág. 460) mediante
= [9.3]
1
En el caso de que pueda asumirse esfericidad global, los tres estadísticos F propuestos en el Cuadro 9.2 podrían cal-
cularse utilizando en el denominador la media cuadrática error resultante de combinar las tres medias cuadráticas error
propuestas (ver Kirk, 1995, págs. 463-464).
334 Análisis de datos (vol. II)
El estadístico está estrechamente relacionado con la medida del tamaño del efecto de
Cohen (1988):
= [9.4]
La regla propuesta por Cohen para interpretar estas medidas sigue siendo válida aquí. En lo
relativo a y , valores de 0,01, 0,06 y 0,14 indican efectos de tamaños pequeño, media-
no y grande. En el caso de ( f en la notación de Cohen), los valores de referencia son 0,10,
0,25 y 0,40.
= , = [9.5]
La potencia asociada al contraste de cada efecto puede obtenerse de la Tabla G del Apéndi-
ce final a partir del valor de y de los grados de libertad de cada estadístico Fefecto. Para
estimar el tamaño muestral necesario para alcanzar una determinada potencia al contrastar un
efecto concreto, puede utilizarse la ecuación [7.26] y los pasos descritos en ese apartado.
Comparaciones múltiples
El hecho de que un diseño sea de medidas repetidas no cambia las cosas a la hora de cómo
proceder tras detectar un efecto significativo. En el caso de que resulte significativo un efec-
to principal (A, B), el análisis debe continuar comparando los niveles correspondientes a ese
efecto para poder precisar dónde se encuentran las diferencias. En el caso de que resulte sig-
nificativo el efecto de la interacción (AB), el análisis debe continuar comparando entre sí los
efectos simples. Todo esto, al margen de que el estudio incluya objetivos concretos que exi-
jan comparaciones planeadas.
Si puede asumirse esfericidad, los procedimientos descritos a propósito del modelo de
dos factores CA (ver, en el Capítulo 7, el apartado Comparaciones múltiples) sirven también
para el modelo de dos factores MR. Únicamente hay que tener en cuenta que, ahora, cada
efecto tiene su propia media cuadrática y sus propios grados de libertad.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para
realizar comparaciones planeadas o a priori siguen siendo válidos si se tiene la precaución
de utilizar las ecuaciones propuestas para el caso en que no pueda asumirse que las varianzas
poblacionales son iguales.
Y en lo relativo a las comparaciones post hoc o a posteriori, es preferible (ver Kesel-
man y Keselman, 1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980) realizar com-
paraciones por pares aplicando la prueba T de Student para muestras relacionadas y corri-
giendo la tasa de error por comparación (α C) mediante el método de Dunn-Bonferroni, es
decir, dividiendo α F, generalmente 0,05, entre el número de comparaciones por pares lle-
vadas a cabo. En el siguiente apartado se explica cómo hacer todo esto con el SPSS.
Capítulo 9. ANOVA. Dos factores con medidas repetidas 335
ANOVA de dos factores con medidas repetidas en ambos (AB-MR) con SPSS
En este apartado se explica cómo utilizar el SPSS para aplicar un ANOVA de dos factores
con medidas repetidas en ambos2. Para ello, vamos a realizar 6 tareas: (1) chequear el supues-
to de esfericidad con cada uno de los tres efectos presentes en el diseño (A, B y AB), (2) con-
trastar las hipótesis globales referidas a esos tres efectos, (3) estimar el tamaño del efecto y
la potencia asociada al contraste de cada uno de esos tres efectos, (4) realizar comparaciones
post hoc para interpretar los efectos principales, (5) realizar comparaciones múltiples para
analizar los efectos simples y (6) obtener un gráfico de líneas y comparar entre sí los efectos
simples para interpretar el efecto de la interacción.
Estas 6 tareas las vamos a realizar con los datos de un estudio diseñado para valorar la
relación entre la calidad del recuerdo, el tipo de material recordado y el paso del tiempo. A
seis sujetos aleatoriamente seleccionados se les ha hecho memorizar durante 20 minutos dos
listas distintas: una de números de dos cifras y otra de sílabas de dos letras. Más tarde, al
cabo de una hora, un día, una semana y un mes, se les ha solicitado reproducir ambas listas
y, como una medida de la calidad del recuerdo, se ha contabilizado el número de aciertos. La
Tabla 9.3 recoge los resultados obtenidos.
El propósito del estudio es averiguar si existen diferencias en la calidad del recuerdo
(variable dependiente cuantitativa) en función de dos variables independientes o factores: el
contenido del material memorizado (números o letras) y el paso del tiempo (una hora, un día,
una semana, un mes). Puesto que todos los sujetos pasan por todas las condiciones (a todos
los sujetos se les hace memorizar y reproducir las dos listas en los cuatro momentos), se tra-
ta de un diseño con dos factores MR (tiempo, con cuatro niveles, y contenido, con dos ni-
veles) y una variable dependiente cuantitativa (la calidad del recuerdo, cuantificada como
el número de aciertos.
Tabla 9.3. Datos de un diseño de dos factores (contenido × tiempo) con medidas repetidas en ambos
Números Letras
Sujetos Hora Día Semana Mes Hora Día Semana Mes
1 6 6 3 2 8 6 4 3
2 7 5 5 5 10 8 5 2
3 4 2 1 3 7 7 2 2
4 7 5 3 4 11 9 3 6
5 6 4 4 5 10 6 4 3
6 5 2 1 1 9 4 3 5
Para reproducir los datos de la Tabla 9.3 en el Editor de datos del SPSS es necesario crear
tantas variables como condiciones resultan de combinar los niveles de ambos factores. Pues-
to que el estudio incluye un factor con 4 niveles y otro con 2, es necesario crear 4 × 2 = 8
variables. Para nombrar estas variables puede utilizarse cualquier nombre válido, pero, ob-
2
En la explicación de algunos de los resultados obtenidos se asumirá que el lector está familiarizado con el modelo de un
factor con medidas repetidas estudiado en el capítulo anterior.
336 Análisis de datos (vol. II)
La Figura 9.2 muestra los diagramas de caja de la calidad del recuerdo correspondientes a
cada medida repetida. Ninguno de los diagramas de caja muestra casos anómalos ni asime-
trías evidentes. Y en la dispersión de las diferentes medidas no parece haber diferencias
sustanciales. Pero el rendimiento medio varía sensiblemente entre condiciones: la calidad del
recuerdo va disminuyendo con el paso del tiempo, si bien esta disminución es más acusada
en el caso de la lista de letras (los cuatro diagramas de la mitad derecha); y el punto de par-
tida de esta lista es claramente más alto que el de la de números.
Todas estas selecciones son necesarias para llevar a cabo el análisis básico, es decir, para
contrastar las tres hipótesis globales referidas a los tres efectos del diseño: contenido, tiempo
y contenido*tiempo. Las selecciones que se ofrecen a continuación sirven para seguir avan-
zando en el análisis. Para obtener un gráfico de líneas basado en las medias de las casillas:
' Pulsar el botón Gráficos para acceder al subcuadro de diálogo Medidas repetidas: Grá-
ficos de perfil; trasladar el factor tiempo al cuadro Eje horizontal y el factor contenido al
cuadro Líneas separadas, y pulsar el botón Añadir para trasladar las variables seleccio-
nadas a la lista inferior y, con ello, hacer efectiva la selección. Pulsar el botón Continuar
para volver al cuadro de diálogo principal.
Para llevar a cabo comparaciones post hoc entre los niveles del factor tiempo y para analizar
los efectos simples:
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Medidas repetidas: Op-
ciones; trasladar el factor tiempo y la interacción contenido*tiempo a la lista Mostrar las
medias para, marcar la opción Comparar los efectos principales y seleccionar la opción
Bonferroni dentro del menú desplegable Ajuste del intervalo de confianza (para controlar la
tasa de error). Pulsar el botón Continuar para volver al cuadro de diálogo principal.
Puesto que el factor contenido solamente tiene dos niveles, no es necesario solicitar
este tipo de comparaciones. Y la selección de la interacción contenido*tiempo sirve para
obtener información sobre los efectos simples si, más tarde, en lugar de ejecutar el pro-
cedimiento, se pega la sintaxis y se modifica la línea «/EMMEANS = TABLES(contenido*
tiempo)» añadiendo: «COMPARE(contenido) ADJ(BONFERRONI)». La línea completa debe
quedar de la siguiente manera:
«/EMMEANS = TABLES(tiempo*contenido) COMPARE(contenido) ADJ(BONFERRONI)».
338 Análisis de datos (vol. II)
Para obtener estimaciones del tamaño de los efectos del diseño y para calcular la potencia
asociada a cada contraste:
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Medidas repetidas: Opc-
iones y marcar las casillas Estadísticos descriptivos, Estimaciones del tamaño del efecto y
Potencia observada (siempre es conveniente solicitar estadísticos descriptivos e informar
de ellos antes que de ninguna otra cosa).
Para comparar los efectos simples entre sí, es decir, para realizar las comparaciones necesa-
rias para interpretar el efecto de la interacción:
' Pulsar el botón Contrastes para acceder al subcuadro de diálogo Medidas repetidas: Con-
trastes; seleccionar el factor contenido, seleccionar la opción Simple del menú desple-
gable Contrastes, seleccionar Primera como categoría de referencia y pulsar el botón Cam-
biar para validar la selección hecha. Repetir la operación para el factor tiempo.
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinómi-
co a los factores MR; estos contrastes permiten estudiar el tipo de relación (lineal, cua-
drática, cúbica, etc.) existente entre el factor y la variable dependiente. Pero también es
posible solicitar comparaciones distintas de las de tendencia seleccionando alguna de las
opciones del menú desplegable Contraste. La opción Simple (que es la que nosotros he-
mos elegido) permite comparar cada categoría o nivel con la categoría de referencia. Se
puede elegir como categoría de referencia la primera o la última (también se puede ele-
gir cualquier otra categoría mediante sintaxis; veremos cómo hacerlo más adelante).
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 9.4 a 9.14
y el gráfico de líneas que muestra la Figura 9.3.
La Tabla 9.4 ofrece algunos estadísticos descriptivos para cada medida repetida: la me-
dia, la desviación típica y el número de observaciones. Estas medias son las que se utilizan
para construir el gráfico de líneas que se muestra más adelante en la Figura 9.3 y es la in-
formación que hay que revisar en primer lugar, junto con los diagramas de caja de la Figu-
ra 9.2, y de la que hay que informar en primer lugar.
Esfericidad
La Tabla 9.5 ofrece la prueba de esfericidad de Mauchly. La tabla incluye un estadístico pa-
ra cada uno de los efectos presentes en el modelo (esfericidad local). Puesto que el nivel
crítico (sig.) es mayor que 0,05 en todos los casos, puede asumirse que las correspondientes
Capítulo 9. ANOVA. Dos factores con medidas repetidas 339
matrices son esféricas (la significación referida al factor contenido no aparece porque cuan-
do un factor tiene dos niveles no tiene sentido hablar de esfericidad; con dos niveles sola-
mente existe una covarianza que, obviamente, es igual a sí misma).
Épsilon
Efectos W de Chi-cuadrado Greenhouse- Huynh- Límite-
intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
contenido 1,00 ,00 0 . 1,00 1,00 1,00
tiempo ,42 3,25 5 ,672 ,75 1,00 ,33
contenido * tiempo ,22 5,65 5 ,356 ,52 ,71 ,33
Tabla 9.7. Contrastes univariados (estadísticos F con y sin modificación de los grados de libertad)
Medida: MEASURE_1
Media cuadrática
Parámetro de no
Eta al cuadrado
Significación
Potencia a
centralidad
observada
Suma de
parcial
Fuente
gl
F
contenido Esfericidad asumida 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Greenhouse-Geisser 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Huynh-Feldt 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Límite-inferior 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Error Esfericidad asumida 8,60 5,00 1,72
(contenido) Greenhouse-Geisser 8,60 5,00 1,72
Huynh-Feldt 8,60 5,00 1,72
Límite-inferior 8,60 5,00 1,72
tiempo Esfericidad asumida 145,73 3,00 48,58 38,06 ,000 ,88 114,2 1,00
Greenhouse-Geisser 145,73 2,26 64,50 38,06 ,000 ,88 85,99 1,00
Huynh-Feldt 145,73 3,00 48,58 38,06 ,000 ,88 114,2 1,00
Límite-inferior 145,73 1,00 145,73 38,06 ,002 ,88 38,06 1,00
Error Esfericidad asumida 19,15 15,00 1,28
(tiempo) Greenhouse-Geisser 19,15 11,30 1,69
Huynh-Feldt 19,15 15,00 1,28
Límite-inferior
19,15 5,00 3,83
contenido * Esfericidad asumida 21,06 3,00 7,02 5,32 ,011 ,52 15,95 ,85
tiempo Greenhouse-Geisser 21,06 1,56 13,48 5,32 ,040 ,52 8,30 ,61
Huynh-Feldt 21,06 2,14 9,82 5,32 ,023 ,52 11,40 ,73
Límite-inferior 21,06 1,00 21,06 5,32 ,069 ,52 5,32 ,46
Error Esfericidad asumida 19,81 15,00 1,32
(contenido*tiempo) Greenhouse-Geisser 19,81 7,81 2,54
Huynh-Feldt 19,81 10,72 1,85
Límite-inferior 19,81 5,00 3,96
a. Calculado con alfa = ,05.
Si no puede asumirse esfericidad, tenemos dos soluciones alternativas: (1) los estadísticos
multivariados de la Tabla 9.6 y (2) los estadísticos F de la Tabla 9.7 con los grados de liber-
tad modificados mediante el índice corrector épsilon. La Tabla 9.6 ofrece la solución basa-
da en los estadísticos multivariados. Al contrastar los dos efectos principales (contenido y
tiempo) se llega a la misma conclusión que con los estadísticos F, pero al contrastar el efecto
de la interacción se llega a una conclusión distinta (pues 0,083 > 0,05). Ya hemos señalado
que, con muestras muy pequeñas, la aproximación multivariada es poco potente (particu-
larmente cuando el número de casos es menor que el de medidas repetidas).
En el caso de que la solución basada en los estadísticos multivariados no lleve al recha-
zo de alguna hipótesis (como ocurre aquí con la hipótesis referida la interacción), el análisis
debe continuar tomando como referencia los estadísticos F con los grados de libertad mo-
dificados (ver, en el capítulo anterior, el apartado Alternativas al estadístico F ). Estos esta-
dísticos se encuentran en la Tabla 9.7. La peculiaridad que los distingue es que su distribu-
ción muestral está modificada multiplicando los grados de libertad originales por el índice
Capítulo 9. ANOVA. Dos factores con medidas repetidas 341
corrector épsilon (ε). Este índice corrector (Tabla 9.5, mitad derecha) expresa el grado de
esfericidad de la matriz de varianzas-covarianzas. La tabla ofrece dos estimaciones de épsi-
lon: Greenhouse-Geisser y Huynh-Feldt; un tercer valor, límite inferior, expresa el valor que
adoptaría épsilon en el caso de incumplimiento extremo del supuesto de esfericidad. Las dos
versiones corregidas del estadístico F que incluye la Tabla 9.7 (Greenhouse-Geisser y Huynh-
Feldt) llevan a la misma conclusión que el estadístico F convencional (esfericidad asumida);
no así la solución más conservadora de todas (límite inferior).
El procedimiento GLM Medidas repetidas no calcula (ecuación [9.3]), pero todo lo que hace
falta para obtenerlo es el estadístico F asociado a cada efecto y sus grados de libertad. Y la
Tabla 9.7 ofrece esa información. La penúltima columna de la tabla contiene las estima-
ciones de los parámetros de no-centralidad de las correspondientes distribuciones F no cen-
tradas (ver ecuación [9.4]). Estos parámetros son los que se utilizan para calcular la poten-
cia observada que aparece en la última columna de la tabla. En el caso de esfericidad asu-
mida, los tres contrastes tienen una potencia observada mayor de 0,80.
La Tabla 9.9 muestra las comparaciones por pares entre los niveles del factor tiempo. Para
controlar la tasa de error, tanto los niveles críticos (sig.) como los intervalos de confianza
están ajustados mediante la corrección de Bonferroni (se han eliminado las filas redundan-
tes). El resultado de las comparaciones indica que la calidad del recuerdo en el nivel 1 (hora)
es significativamente mejor (Sig. < 0,05) que en el resto de niveles; y significativamente me-
jor también en el nivel 2 (día) que en el nivel 3 (semana). Los intervalos de confianza per-
miten llegar a la misma conclusión. No obstante, esta conclusión es provisional. El hecho de
que el efecto de la interacción sea significativo indica que este resultado podría ser matizado.
La Tabla 9.11 contiene las comparaciones entre los efectos simples, es decir las compara-
ciones entre los niveles del factor contenido (1 = «números», 2 = «letras») en cada nivel del
factor tiempo (1 = «hora», 2 = «día», 3 = «semana», 4 = «mes»). Tanto los niveles críticos
(sig.) como los intervalos de confianza se han ajustado mediante la corrección de Bonferroni
Capítulo 9. ANOVA. Dos factores con medidas repetidas 343
(se indica en una nota a pie de tabla; aunque esto aquí es irrelevante porque el factor conte-
nido solamente tiene dos niveles). Los resultados indican que la diferencia entre el recuerdo
de números y letras es significativa en los momentos 1 y 2 ( phora < 0,0005, pdía = 0,014), pe-
ro no en los momentos 3 y 4 (psemana = 0,102, pmes = 0,883). Por tanto, las letras se recuerdan
mejor que los números al cabo de una hora y de un día, pero no hay evidencia de que esto
sea así al cabo de una semana y de un mes.
Tabla 9.11. Comparaciones por pares (efectos simples del factor contenido)
Medida: MEASURE_1
Intervalo de confianza al 95%
a
(I) (J) Diferencia entre Error para la diferencia
a
tiempo contenido contenido medias (I-J) típ. Sig. Límite inferior Límite superior
1 1 2 -3,33 ,33 ,000 -4,19 -2,48
2 1 2 -2,67 ,71 ,014 -4,50 -,83
3 1 2 -,67 ,33 ,102 -1,52 ,19
4 1 2 -,17 1,08 ,883 -2,94 2,60
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones múltiples: Bonferroni.
Figura 9.3. Gráfico de líneas (perfiles) correspondiente a los datos de la Tabla 9.3
344 Análisis de datos (vol. II)
Pero, ¿qué momentos difieren de qué otros? El análisis de los efectos simples indica que la
diferencia entre el recuerdo de números y letras solamente es significativa al cabo de una ho-
ra y de un día (ver Tabla 9.11). ¿Quiere esto decir que lo que ocurre al cabo de una hora y
un día difiere de lo que ocurre al cabo de una semana y de un mes? No exactamente. Para
saber qué efectos simples difieren entre sí hay que compararlos.
Parte de estas comparaciones aparecen en la Tabla 9.12 (se ha eliminado de la tabla ori-
ginal la información relativa a los efectos principales). Puesto que el factor tiempo tiene 4
niveles, hay 4 efectos simples asociados al factor contenido (es decir, 4 diferencias “números-
letras”). Para comparar entre sí estos 4 efectos simples es necesario realizar 6 comparacio-
nes; hay que comparar lo que ocurre en el momento 1 con lo que ocurre en los momentos 2,
3 y 4; lo que ocurre en el momento 2 con lo que ocurre en los momentos 3 y 4; y lo que ocurre
en el momento 3 con lo que ocurre en el momento 4.
De estas 6 comparaciones, la Tabla 9.12 incluye las 3 primeras: lo que ocurre en el mo-
mento 1 comparado con lo que ocurre en los momentos 2, 3 y 4. En la primera de ellas se está
comparando el efecto simple de contenido (nivel 2 ! nivel 1) en el momento 1 con el efecto
simple de contenido en el momento 2 (tiempo = nivel 2 ! nivel 1). Es decir, se está compa-
rando la diferencia entre letras (contenido = nivel 2) y números (contenido = nivel 1) al cabo
de un día (tiempo = nivel 2) con la diferencia entre letras (contenido = nivel 2) y números
(contenido = nivel 1) al cabo de una hora (tiempo = nivel 1). Los resultados se presentan en
el formato de una tabla convencional de ANOVA: sumas de cuadrados, grados de libertad,
medias cuadráticas, estadísticos F y niveles críticos. Puesto que esta comparación tiene aso-
ciado un nivel crítico mayor que 0,05 (sig. = 0,363), no puede afirmarse que el efecto simple
de contenido en el momento 1 difiera del efecto simple de contenido en el momento 2.
En la segunda línea se está comparando el efecto simple de contenido en el momento 1
con el efecto simple de contenido en el momento 3 (tiempo = nivel 3 ! nivel 1). Puesto que
esta comparación tiene asociado un nivel crítico menor que 0,05 (sig. = 0,003), puede afirmar-
se que el efecto simple de contenido en el momento 1 difiere del efecto simple de contenido
en el momento 3.
Y en la tercera línea se está comparando el efecto simple de contenido en el momento 1
con el efecto simple de contenido en el momento 4 (tiempo = nivel 4 ! nivel 1). Puesto que
esta comparación tiene asociado un nivel crítico menor que 0,05 (sig. = 0,029), puede afir-
marse que el efecto simple de contenido en el momento 1 difiere del efecto simple de con-
tenido en el momento 4.
La Tabla 9.12 contiene información sobre las comparaciones entre los momentos 1-1, 1-3 y
1-4; faltan las comparaciones entre los momentos 2-3, 2-4 y 3-4. Esta tabla es la que se ob-
Capítulo 9. ANOVA. Dos factores con medidas repetidas 345
El valor 1 colocado entre paréntesis en tiempo 4 Simple(1) indica que la categoría de referen-
cia (el nivel del factor tiempo con el que se comparan los demás niveles) es la primera. Cam-
biando ese valor a 2, la categoría de referencia pasa a ser la segunda. Y cambiando ese valor
a 3, la categoría de referencia pasa a ser la tercera. Ejecutando la sintaxis con estos cambios
se obtienen los resultados que muestran las Tablas 9.13 y 9.14.
En la primera línea de la Tabla 9.13 se está comparando el efecto simple de contenido en
el momento 2 con el efecto simple de contenido en el momento 3 (tiempo = nivel 3 ! nivel 2).
Puesto que esta comparación tiene asociado un nivel crítico mayor que 0,05 (sig. = 0,067),
no puede afirmarse que el efecto simple de contenido en el momento 2 difiera del efecto sim-
ple de contenido en el momento 3. En la segunda línea de la tabla se está comparando el
efecto simple de contenido en el momento 2 con el efecto simple de contenido en el momen-
to 4 (tiempo = nivel 4 ! nivel 2). Puesto que esta comparación tiene asociado un nivel críti-
co mayor que 0,05 (sig. = 0,136), no puede afirmarse que el efecto simple de contenido en el
momento 2 difiera del efecto simple de contenido en el momento 4.
Por último, en la Tabla 9.14 se está comparando el efecto simple de contenido en el
momento 3 con el efecto simple de contenido en el momento 4 (tiempo = nivel 4 ! nivel 3).
Puesto que esta comparación tiene asociado un nivel crítico mayor que 0,05 (sig. = 0,597),
no puede afirmarse que el efecto simple de contenido en el momento 3 difiera del efecto
simple de contenido en el momento 4.
Resumiendo, al comparar entre sí los efectos simples de contenido únicamente existen
diferencias significativas entre el momento 1 y los momentos 3 y 4. Cuando nos preguntamos
por la diferencia en el recuerdo entre números y letras, lo que encontramos es que esa diferen-
cia es mayor al cabo de una hora que al cabo de una semana y al cabo de un mes.
Aunque esta tarea puede parecer algo engorrosa, permite obtener las 6 comparaciones ne-
cesarias para interpretar el efecto de la interacción. Si se está dispuesto a utilizar la sintaxis
con algo más de profundidad, estos mismos resultados y otros relacionados pueden obte-
nerse mediante la sentencia MMATRIX (ver Apéndice 9).
3
A este tipo de diseños también se les llama split-plot. Y, dado que se trata de diseños que combinan factores intersujetos
e intrasujetos, también reciben, a veces, el nombre de mixtos; no obstante, lo habitual es reservar este término para resal-
tar la presencia simultánea de efectos fijos y aleatorios en un mismo modelo (ver el Capítulo 2 del Volumen III).
Capítulo 9. ANOVA. Dos factores con medidas repetidas 347
lizado en el ámbito de las ciencias sociales y de la salud (ver Micceri, 1989). De hecho, este
diseño constituye el paradigma de lo que se conoce como ensayo clínico.
La estructura de los datos se corresponde con la representada en la Tabla 8.2.3. Y la no-
tación utilizada es la misma que en el modelo de dos factores MR (ver Tabla 9.1).
Puesto que se trata de un modelo de dos factores, los efectos que interesa analizar siguen
siendo tres: los dos efectos principales (los efectos de cada factor individualmente conside-
rado, A y B) y el efecto de la interacción entre ambos factores (el efecto conjunto o combi-
nado de ambos factores, AB). Y, al igual que en el resto de diseños estudiados, para poder
analizar estos tres efectos es necesario identificar las diferentes fuentes de variabilidad pre-
sentes en el diseño.
En un diseño completamente aleatorizado (CA), la variabilidad total se descompone en
variabilidad intergrupos y variabilidad intragrupos o error. En un diseño con medidas re-
petidas (MR) hay una forma más de variabilidad: la debida a las diferencias entre los sujetos
o variabilidad intersujetos (recordemos que esta forma de variabilidad también existe en un
diseño CA, pero no hay forma de aislarla).
Además, si el diseño tiene dos factores (tanto si los factores son CA como si son MR),
la variabilidad intergrupos puede descomponerse, a su vez, en la variabilidad asociada al fac-
tor A, la asociada al factor B y la asociada a la interacción AB. Todas estas fuentes de varia-
bilidad son las mismas que hemos estudiado en el apartado anterior a propósito del diseño de
dos factores MR.
En esta forma de descomponer la variabilidad total se está asumiendo que los sujetos no
interaccionan ni con A, ni con B ni con AB. Por tanto, se está asumiendo que estas interac-
ciones reflejan variabilidad error. En el diseño de un factor A-MR hemos visto que la va-
riabilidad error es precisamente la variabilidad debida a la interacción entre el factor y los
sujetos. En el diseño de dos factores AB-CA-MR ocurre lo mismo: la variabilidad error se
estima a partir de la variabilidad debida a la interacción entre el factor intrasujetos y los
sujetos, es decir, a partir de la interacción entre el factor B y los sujetos: B × S . La interac-
ción entre el factor A y los sujetos no se contempla porque cada sujeto participa en un único
nivel del factor A. Y tampoco se contempla la triple interacción entre A, B y los sujetos por-
que cada combinación B × S únicamente se da en un nivel del factor A.
Esto significa que, en un diseño de dos factores con medidas repetidas en uno, la varia-
bilidad total puede descomponerse en cinco fuentes distintas de variabilidad. La Tabla 9.15
muestra cómo cuantificar estas fuentes de variabilidad.
Tabla 9.15. Medias cuadráticas en un diseño de dos factores con medidas repetidas en uno (AB-CA-MR)
MCA =
MCB =
MCAB =
MCS =
MCB × S =
348 Análisis de datos (vol. II)
Por tanto, no existe una única fuente de variabilidad error, sino dos. Y para valorar la sig-
nificación de los efectos presentes en el diseño (A, B y AB) cada uno debe compararse con
su correspondiente variabilidad error:
=
= [9.6]
=
Para valorar el efecto del factor A se utiliza el cociente entre la media cuadrática de A y la
media cuadrática de los sujetos (MCS). Valorar el efecto de A consiste en comparar las me-
dias marginales correspondientes a los niveles del factor A tras promediar el resto de efectos.
Ahora bien, al promediar las K puntuaciones de cada sujeto se obtiene un diseño de un úni-
co factor CA. Analizando estos promedios con el estadístico F del modelo de un factor CA
se obtiene el mismo resultado que con el estadístico FA en [9.6].
Para valorar el efecto del factor B y el de la interacción AB se utiliza el cociente entre la
media cuadrática correspondiente al factor B y la media cuadrática de la interacción entre el
factor B y los sujetos (MCB × S ). En lo relativo al factor B, valorar su efecto consiste en com-
parar las medias marginales de cada uno de sus niveles. Con un solo grupo (J = 1), la situa-
ción sería idéntica a la del modelo de un factor MR, donde el término error es justamente la
interacción entre el factor y los sujetos. Con J > 1 grupos tenemos J diseños de un factor.
Aplicando el modelo de un factor MR a cada grupo obtendríamos J medias cuadráticas referi-
das a la interacción entre el factor y los sujetos. Lo que se hace en el modelo de dos factores
es utilizar como variabilidad error para el factor intrasujetos el promedio de esas J medias
cuadráticas (lo cual, como veremos en el siguiente apartado, tiene algunas implicaciones
sobre los supuestos del análisis).
Con el efecto de la interacción AB ocurre algo parecido a lo que ocurre con el efecto del
factor B. Para valorar el efecto de la interacción se analiza lo que ocurre con el efecto de B
en cada nivel de A. Y esto nos lleva a la misma solución adoptada para el factor B. Por tan-
to, cuando un efecto contiene una mezcla de factores inter e intrasujetos, el efecto de la in-
teracción se considera intrasujetos y se analiza como tal.
El Cuadro 9.3 ofrece un resumen del procedimiento para contrastar las hipótesis relativas
a los efectos de A, B y AB mediante los estadísticos propuestos en [9.6]. Bajo ciertas condi-
ciones (ver el siguiente apartado sobre los supuestos del modelo), estos estadísticos F se
aproximan a la distribución F con los grados de libertad correspondientes al numerador y al
denominador de cada estadístico.
Cuadro 9.3. Resumen del ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR)
1. Hipótesis: las hipótesis sobre los efectos del factor A, el factor B y la interacción AB
son las mismas que en el modelo de dos factores completamente aleatorizados (ver
Cuadro 7.1).
2. Supuestos: J muestras de tamaño n aleatoriamente seleccionadas de K poblaciones
normales con la misma varianza; también se asume que las J matrices de varianzas-
covarianzas de las K medidas repetidas (una por cada nivel del factor A), además de
esféricas, son iguales (ver siguiente apartado).
Capítulo 9. ANOVA. Dos factores con medidas repetidas 349
Con la información de la Tabla 9.15 y del Cuadro 9.3 tenemos todo lo necesario para resol-
ver las ecuaciones que permiten analizar los tres efectos del diseño. No obstante, en lugar de
hacer cálculos a mano, explicaremos todos los detalles del análisis utilizando el SPSS.
= [9.7]
Pero la medida de asociación que acapara las preferencias de los expertos, tanto para los efec-
tos intersujetos como para los intrasujetos, sigue siendo omega-cuadrado ( ). Cuando los
factores son de efectos fijos, el tamaño del efecto puede estimarse (ver Kirk, 1995, pág. 519)
mediante
= [9.8]
El estadístico está estrechamente relacionado con la medida del tamaño del efecto de Co-
hen (1988):
= [9.9]
La regla propuesta por Cohen para interpretar estas medidas sigue siendo válida aquí. En lo
relativo a y , valores de 0,01, 0,06 y 0,14 indican efectos de tamaños pequeño, mediano
y grande. En el caso de ( f en la notación utilizada por Cohen), los valores de referencia son
0,10, 025 y 0,40.
Capítulo 9. ANOVA. Dos factores con medidas repetidas 351
= , = [9.10]
La potencia asociada al contraste de cada efecto puede obtenerse de la Tabla G del Apéndice
final a partir del valor de y de los grados de libertad del correspondiente estadístico Fefecto.
Para estimar el tamaño muestral necesario para alcanzar una determinada potencia al contrastar
un efecto concreto, puede utilizarse la ecuación [7.26] y los pasos descritos en ese apartado.
Comparaciones múltiples
En el caso de que resulte significativo un efecto principal (A, B ), el análisis debe continuar
comparando los niveles correspondientes a ese efecto para poder precisar dónde se encuentran
las diferencias. En el caso de que resulte significativo el efecto de la interacción (AB ), el aná-
lisis debe continuar comparando entre sí los efectos simples. Todo esto, al margen de que el
estudio incluya objetivos concretos que exijan comparaciones planeadas.
Para realizar comparaciones entre los niveles del factor intersujetos (A ) sirve todo lo
dicho a propósito del modelo de un factor CA (ver, en el Capítulo 6, el apartado Compara-
ciones múltiples). Y sirve tanto para las comparaciones planeadas como para las compara-
ciones post hoc.
Por lo que se refiere a los efectos intrasujetos (B y AB ), si puede asumirse esfericidad,
sirven aquí los procedimientos ya descritos a propósito del modelo de dos factores CA (ver,
en el Capítulo 7, el apartado Comparaciones múltiples). Únicamente hay que tener en cuen-
ta cuáles son las medias cuadráticas y los grados de libertad que intervienen al valorar cada
efecto.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para
realizar comparaciones planeadas siguen siendo válidos si se tiene la precaución de utilizar
las ecuaciones propuestas para el caso en que no puede asumirse que las varianzas pobla-
cionales son iguales. Y en lo relativo a las comparaciones post hoc, es preferible estudiar las
comparaciones por pares utilizando la prueba T para muestras relacionadas ajustando la ta-
sa de error por comparación (αC) mediante el método de Bonferroni (Keselman y Keselman,
1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980). En el siguiente apartado se
explica cómo hacer todo esto con el SPSS.
ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR) con SPSS
Veamos cómo utilizar el SPSS para llevar a cabo un ANOVA de dos factores con medidas
repetidas en uno4. Para ello, vamos a realizar 6 tareas: (1) chequear el supuesto de igualdad
de varianzas referido al efecto intersujetos (A) y los de esfericidad y esfericidad multi-mues-
4
En la explicación de algunos de los resultados obtenidos se asumirá que el lector está familiarizado con el modelo de un
factor con medidas repetidas estudiado en el capítulo anterior.
352 Análisis de datos (vol. II)
tra referidos a los efectos intrasujetos (B y AB), (2) contrastar las hipótesis globales referidas
a los tres efectos del diseño, (3) estimar el tamaño de cada efecto y calcular la potencia ob-
servada asociada a cada contraste, (4) realizar comparaciones post hoc para interpretar los
efectos principales, (5) realizar comparaciones múltiples para valorar e interpretar los efec-
tos simples y (6) obtener un gráfico de líneas y comparar entre sí los efectos simples para
interpretar el efecto de la interacción.
Estas tareas las vamos a realizar con los datos de un estudio diseñado para comparar dos
tratamientos antidepresivos. A un grupo de pacientes con depresión se les ha aplicado la es-
cala de depresión de Hamilton para obtener una medida inicial o basal del nivel de depresión
de cada paciente. Tras esto, se han seleccionado aleatoriamente 40 pacientes entre los que
han alcanzado o superado la puntuación 30 (puntuación basal). Con estos 40 pacientes se han
formado al azar dos grupos del mismo tamaño y uno de ellos ha comenzado a recibir un tra-
tamiento estándar (basado en fluoxetina) y el otro un tratamiento combinado (fluoxetina más
psicoterapia). Al cabo de cuatro semanas de iniciado el tratamiento se ha vuelto a administrar
la escala de depresión para obtener una medida de la evolución de los pacientes. Al cabo de
ocho semanas se ha vuelto a administrar la escala y se ha dado por finalizado el estudio. La
Tabla 9.16 recoge los resultados obtenidos.
Tabla 9.16. Puntuaciones de 40 pacientes depresivos en la escala Hamilton. Diseño con dos factores: trata-
miento (estándar, combinado) y tiempo (basal, semana 4, semana 8) con medidas repetidas en el factor tiempo
Estándar Combinado
Basal Semana 4 Semana 8 Basal Semana 4 Semana 8
s1 30 28 21 s21 32 25 20
s2 31 33 32 s22 37 29 25
s3 31 32 27 s23 30 24 19
s4 30 22 23 s24 32 27 16
s5 34 37 36 s25 38 36 29
s6 35 30 26 s26 37 35 28
s7 32 25 22 s27 30 22 19
s8 34 35 30 s28 36 32 24
s9 35 32 31 s29 30 26 22
s10 31 29 27 s30 33 30 26
s11 31 30 32 s31 33 30 26
s12 34 33 30 s32 31 29 26
s13 30 26 22 s33 32 26 14
s14 30 28 25 s34 31 27 25
s15 37 32 31 s35 36 31 24
s16 35 29 30 s36 31 26 22
s17 33 32 28 s37 38 33 26
s18 34 31 24 s38 37 29 19
s19 36 34 28 s39 34 22 12
s20 30 26 24 s40 39 34 28
Capítulo 9. ANOVA. Dos factores con medidas repetidas 353
Tenemos un factor intersujetos (tratamiento; con dos niveles: estándar y combinado; a cada
nivel se asigna un grupo distinto de sujetos) y un factor intrasujetos (tiempo; con tres nive-
les: basal, semana 4 y semana 8; todos los sujetos pasan por los tres niveles). La variable
dependiente es el nivel de depresión (cuantificado con la escala de depresión de Hamilton).
El objetivo del estudio es valorar la eficacia del tratamiento combinado en comparación con
el tratamiento estándar.
Para reproducir los datos de la Tabla 9.16 en el Editor de datos del SPSS es necesario
crear cuatro variables: una para definir el factor intersujetos y tres para definir los tres nive-
les del factor intrasujetos. La Figura 9.4 muestra el aspecto del Editor de datos después de
introducir en él los datos de la Tabla 9.16. Hemos creado la variable tto (tratamiento) ha-
ciéndole tomar los valores 1 y 2 (con etiquetas: 1 = «estándar», 2 = «combinado»). Y para de-
finir los tres niveles del factor intrasujetos tiempo se han creado tres variables: basal, cuatro
y ocho. Estas variables recogen las puntuaciones en la escala Hamilton al inicio del estudio
y al cabo de cuatro y ocho semanas de tratamiento. También hemos creado una variable de
identificación de caso (sujeto).
Como primera aproximación a los resultados de este estudio, la Figura 9.5 muestra los dia-
gramas de caja correspondientes a las puntuaciones obtenidas por cada grupo en cada uno de
los tres momentos evaluados. Ninguno de los diagramas muestra casos anómalos ni asimetrías
evidentes. Y en la dispersión de las diferentes medidas no parece haber diferencias sustan-
ciales. Pero el nivel de depresión varía sensiblemente entre condiciones: tanto en el grupo que
ha recibido el tratamiento estándar como en el que ha recibido el tratamiento combinado se
observa una clara disminución del nivel de depresión conforme avanza el tratamiento; sin
embargo, en el grupo que ha recibido el tratamiento combinado, parece que esta disminución
es más evidente.
354 Análisis de datos (vol. II)
Para analizar los efectos presentes en el diseño (los dos efectos principales y el efecto de la
interacción):
' Reproducir en el Editor de datos los datos de la Tabla 9.16 tal como se muestra en la
Figura 9.4 (o abrir el archivo Tabla 9.16 depresión hamilton que se encuentra en la pá-
gina web del manual).
' Seleccionar la opción Modelo lineal general > Medidas repetidas del menú Analizar para ac-
ceder al cuadro de diálogo (previo al principal) Medidas repetidas: Definir factores.
' Para definir el factor de medidas repetidas, asignarle nombre (tiempo) en el cuadro de
texto Nombre del factor intra-sujetos y número de niveles (3) en el cuadro de texto Núme-
ro de niveles, y pulsar el botón Añadir para validar (si fuera necesario, utilizar los botones
Cambiar y Borrar para realizar modificaciones).
' Pulsar el botón Definir para acceder al cuadro de diálogo principal Medidas repetidas. La
lista Variables intra-sujetos está preparada para recibir los nombres de las variables que
corresponden a los niveles del factor previamente definido.
' Seleccionar las tres variables que definen los niveles del factor intrasujetos (basal, cua-
tro y ocho) y trasladarlas, en el orden correcto, a la lista Variables intra-sujetos; selec-
cionar la variable que define el factor intersujetos (tto) y trasladarla a la lista Factores
inter-sujetos.
Las elecciones hechas hasta aquí permiten realizar el análisis básico, es decir, contrastar las
tres hipótesis globales referidas a los tres efectos del diseño: tto, tiempo y tto*contenido. Las
siguientes elecciones sirven para seguir avanzando en el análisis. Para obtener un gráfico de
líneas basado en las medias de las casillas:
' Pulsar el botón Gráficos para acceder al subcuadro de diálogo Medidas repetidas: Grá-
ficos de perfil.
' Trasladar el factor tiempo al cuadro Eje horizontal y el factor tto al cuadro Líneas separa-
das, y pulsar el botón Añadir para trasladar las variables seleccionadas a la lista inferior
y, con ello, hacer efectiva la selección. Pulsar el botón Continuar para volver al cuadro
de diálogo principal.
Capítulo 9. ANOVA. Dos factores con medidas repetidas 355
Para llevar a cabo comparaciones post hoc entre los niveles del factor tiempo y para analizar
los efectos simples:
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Medidas repetidas: Op-
ciones; trasladar el factor tiempo y la interacción tto*tiempo a la lista Mostrar las medias
para, marcar la opción Comparar los efectos principales y seleccionar la opción Bonferro-
ni dentro del menú desplegable Ajuste del intervalo de confianza (para controlar la tasa de
error). Pulsar el botón Continuar para volver al cuadro de diálogo principal.
Puesto que el factor tto solamente tiene dos niveles, no es necesario solicitar este tipo
de comparaciones. Con todo, con los factores intersujetos pueden utilizarse los procedi-
mientos del botón Post hoc de idéntica manera a como se ha hecho en el Capítulo 6 con
el modelo de un factor CA. La selección de la interacción tto*tiempo sirve para obtener
información sobre los efectos simples si, más tarde, en lugar de ejecutar el procedimiento,
se pega la sintaxis y se modifica la línea «/EMMEANS = TABLES(tto* tiempo)» añadiendo:
«COMPARE(tto) ADJ(BONFERRONI)». La sentencia completa debe quedar de esta manera:
«/EMMEANS = TABLES (tto*tiempo) COMPARE(tto) ADJ(BONFERRONI)».
Para chequear el supuesto de igualdad de varianzas y el de esfericidad multi-muestra:
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Medidas repetidas: Op-
ciones y marcar las casillas Estadísticos descriptivos y Pruebas de homogeneidad. Las op-
ciones Estimaciones del tamaño del efecto y Potencia observada ya se han explicado con
detalle en ejemplos anteriores y, puesto que siempre generan los mismos resultados, no
las incluiremos aquí. Pulsar el botón Continuar para volver al cuadro de diálogo principal.
Para comparar los efectos simples entre sí, es decir, para realizar las comparaciones necesa-
rias para interpretar el efecto de la interacción:
' Pulsar el botón Contrastes para acceder al subcuadro de diálogo Medidas repetidas: Con-
trastes; seleccionar el factor tiempo, seleccionar la opción Simple del menú desplegable
Contraste, seleccionar Primera como categoría de referencia y pulsar el botón Cambiar pa-
ra validar las elecciones hechas.
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinómi-
co a los factores MR; estos contrastes permiten estudiar el tipo de relación (lineal, cua-
drática, cúbica, etc.) existente entre un factor MR y la variable dependiente. Pero también
es posible llevar a cabo comparaciones planeadas distintas de las de tendencia seleccio-
nando alguna de las opciones del menú desplegable Contraste. La opción Simple (que es
la que hemos elegido) permite comparar cada categoría con la categoría de referencia. Se
puede elegir como categoría de referencia la primera o la última (también se puede elegir
cualquier otra categoría mediante sintaxis; veremos cómo hacerlo más adelante).
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 9.17 a 9.28
y el gráfico de líneas que muestra la Figura 9.6. Muchas de estas tablas son idénticas a las
ya estudiadas en apartados anteriores, pero ahora existe información nueva relativa al efec-
to del factor intersujetos.
La Tabla 9.17 contiene algunos estadísticos descriptivos para cada grupo y medida repe-
tida: la media, la desviación típica y el número de observaciones. Estas medias son las que
se utilizan para construir el gráfico de líneas que se ofrece más adelante en la Figura 9.6 y
es la información que hay que revisar en primer lugar, junto con los diagramas de caja de la
Figura 9.5, y de la que hay que informar en primer lugar.
356 Análisis de datos (vol. II)
Épsilon
Efecto W de Chi-cuadrado Greenhouse- Huynh- Límite-
intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
tiempo ,74 11,36 2 ,003 ,79 ,84 ,50
5
Aunque esta forma de interpretar el efecto global de la interacción puede resultar más sencilla de entender, el efecto de
la interacción también puede interpretarse tomando como referencia el otro factor: el cambio que se produce entre los tres
momentos analizados no es el mismo con los dos tratamientos.
358 Análisis de datos (vol. II)
la corrección de Bonferroni (se indica en una nota a pie de tabla). El resultado de estas
comparaciones indica que el nivel medio de depresión en el momento basal (nivel 1) es sig-
nificativamente más alto (sig. < 0,0005) que en el resto de momentos; y significativamente
más alto también (sig. < 0,0005) en la semana 4 que en la 8 (niveles 2 y 3). Los intervalos de
confianza indican exactamente lo mismo (ninguno de ellos incluye el valor cero). Por tanto,
puede concluirse que el nivel medio de depresión va disminuyendo conforme va avanzando
el tratamiento (debe tenerse en cuenta que esta conclusión es provisional; el hecho de que el
efecto de la interacción sea significativo indica que este resultado podría ser matizado).
Tabla 9.27. Comparaciones por pares (efectos simples del factor tto)
Medida: MEASURE_1
Intervalo de confianza al 95%
a
(I) (J) Diferencia entre Error para la diferencia
a
tiempo Tratamiento Tratamiento medias (I-J) típ. Sig. Límite inferior Límite superior
1 Estándar Combinado -1,20 ,86 ,171 -2,94 ,54
2 Estándar Combinado 1,40 1,24 ,266 -1,11 3,91
3 Estándar Combinado 4,95 1,40 ,001 2,11 7,79
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones múltiples: Bonferroni.
Figura 9.6. Gráfico de líneas (perfiles) correspondiente a los datos de la Tabla 9.16
Parte de las comparaciones entre efectos simples aparecen en la Tabla 9.28 (se ha elimina-
do de la tabla original la información relativa a los efectos principales y se ha dejado úni-
camente la relativa al efecto de la interacción). Puesto que el factor tiempo tiene 3 niveles,
hay 3 efectos simples asociados al factor tiempo (es decir, 3 diferencias entre los dos trata-
mientos). Para comparar entre sí estos 3 efectos simples es necesario realizar 3 compara-
ciones; hay que comparar lo que ocurre en el momento 1 con lo que ocurre en los momentos
2 y 3, y lo que lo que ocurre en el momento 2 con lo que ocurre en el momento 3.
De estas 3 comparaciones, la Tabla 9.28 incluye las 2 primeras, es decir, lo que ocurre
en el momento 1 comparado con lo que ocurre en los momentos 2 y 3. En la primera de ellas
se está comparando el efecto simple de tto en el momento 1 con el efecto simple de tto en el
momento 2 (tiempo = nivel 2 - nivel 1). Los resultados se presentan en el formato de una ta-
bla de ANOVA. Puesto que esta comparación tiene asociado un nivel crítico menor que 0,05
(sig. = 0,006), puede afirmarse que el efecto simple de tto en el momento 1 (basal) difiere del
efecto simple de tto en el momento 2 (semana 4). Debe repararse en el hecho de que este re-
sultado (diferencia significativa entre los dos primeros efectos simples de tto) no coincide con
el que se desprende del análisis individual de los efectos simples del apartado anterior, pues
ambos efectos simples han resultado no significativos (ver Tabla 9.27).
En la segunda línea se está comparando el efecto simple de tto en el momento 1 con el
efecto simple de tto en el momento 3 (tiempo = nivel 3 ! nivel 1). Puesto que esta compa-
ración tiene asociado un nivel crítico menor que 0,05 (sig. < 0,0005), puede afirmarse que
el efecto simple de tto en el momento 1 difiere del efecto simple de tto en el momento 3.
La Tabla 9.28 contiene información sobre las comparaciones entre los momentos 1-2 y 1-3
(falta la comparación entre los momentos 2-3). Esta tabla es la que se obtiene al seleccionar
362 Análisis de datos (vol. II)
Apéndice 9
La sentencia MMATRIX
Al margen de las comparaciones que es posible llevar a cabo desde los cuadros de diálogo del SPSS,
la sentencia MMATRIX permite realizar cualquier tipo de comparación entre los niveles de un efecto
intrasujetos. En lo que aquí nos interesa más, esta sentencia permite valorar la significación individual
de los efectos simples, realizar comparaciones entre los niveles de un mismo efecto simple y realizar
comparaciones entre diferentes efectos simples. En este apartado se explica cómo utilizar la sentencia
MMATRIX para llevar a cabo estos tres tipos de comparaciones.
La lógica en la que se basa la sentencia MMATRIX es similar a la ya utilizada a propósito de la sen-
tencia LMATRIX en el Apéndice 7. Pero trabajar con la sentencia MMATRIX es más sencillo porque los
coeficientes que hay que elegir para definir cada comparación se asignan directamente a las medidas
repetidas del diseño.
Capítulo 9. ANOVA. Dos factores con medidas repetidas 363
Retomemos nuestro ejemplo (ver Tabla 9.3) sobre la relación entre la calidad del recuerdo, el contenido
del material recordado (números, letras) y el paso del tiempo (hora, día, semana, mes). Para valorar, por
ejemplo, los efectos simples del factor contenido, es decir, la diferencia entre números y letras en cada
uno de los cuatro momentos:
' En el cuadro de diálogo Medidas repetidas, trasladar las 8 variables (medidas repetidas) del ejem-
plo (n_hora, n_día, n_semana, n_mes, l_hora, l_día, l_semana, l_mes) a la lista Factores intra-
sujetos y pulsar el botón Pegar para obtener la sintaxis correspondiente a las elecciones hechas.
Los valores asignados a las sentencias WSFACTOR, METHOD, CRITERIA y WSDESIGN son los que
el procedimiento GLM utiliza por defecto; no es necesario modificarlos. Para valorar los cuatro efec-
tos simples del factor contenido vamos a añadir la sentencia MMATRIX con las especificaciones que
se muestran a continuación:
GLM n_hora n_día n_semana n_mes l_hora l_día l_semana l_mes
/WSFACTOR = contenido 2 Polynomial tiempo 4 Polynomial
/METHOD = SSTYPE(3)
/CRITERIA = ALPHA(.05)
/MMATRIX =
n_hora 1 l_hora !1;
n_día 1 l_día !1;
n_semana 1 l_semana !1;
n_mes 1 l_mes !1;
/WSDESIGN = contenido tiempo contenido*tiempo.
Los cuatro efectos simples del factor contenido (uno por cada nivel del factor tiempo) se han definido
en las cuatro líneas adosadas a la sentencia MMATRIX. La primera línea, por ejemplo, define la com-
paración entre las variables n_hora (código 1) y l_hora (código !1); es decir, define el efecto simple
del factor contenido en el momento una hora (primer nivel del factor tiempo). Las otras tres líneas
definen la misma comparación pero referida a los otros tres momentos del factor tiempo (nótese que
cada línea de la sentencia termina con punto y coma).
Ejecutando esta sintaxis se obtienen, entre otros, los resultados que muestra la Tabla 9.30. Estos
resultados son equivalentes a los ya obtenidos al estudiar los efectos simples con otra estrategia dife-
rente (ver Tabla 9.11), con la diferencia de que ahora no se está aplicando la corrección de Bonferro-
ni al calcular los niveles críticos ni al construir los intervalos de confianza (cosa que en este ejemplo
es del todo irrelevante porque el factor contenido tiene dos niveles). El procedimiento asigna el nom-
bre T# a cada contraste. Así, T1 se refiere al primer contraste solicitado (primer efecto simple del fac-
tor contenido), T2 al segundo contraste solicitado (segundo efecto simple del factor contenido), etc.
Los resultados obtenidos (sig.) indican que la diferencia entre el recuerdo de números y letras
es significativa en los momentos 1 y 2 ( p < 0,0005 y p = 0,014, respectivamente) pero no en los mo-
mentos 3 y 4 ( p = 0,102 y p = 0,883, respectivamente). Por tanto, las letras se recuerdan mejor que los
números al cabo de una hora y de un día, pero no hay evidencia de que esto sea así al cabo de una se-
mana y de un mes.
364 Análisis de datos (vol. II)
Tabla 9.30. Efectos simples del factor contenido
Variable Suma de Media
Fuente transformada cuadrados gl cuadrática F Sig.
Contraste T1 66,67 1 66,67 100,00 ,000
T2 42,67 1 42,67 13,91 ,014
T3 2,67 1 2,67 4,00 ,102
T4 ,17 1 ,17 ,02 ,883
Error T1 3,33 5 ,67
T2 15,33 5 3,07
T3 3,33 5 ,67
T4 34,83 5 6,97
Y la siguiente sentencia MMATRIX solicita comparar los niveles del factor tiempo cuando el material
recordado es letras:
/MMATRIX =
l_hora 1 l_día –1;
l_hora 1 l_semana –1;
l_hora 1 l_mes –1;
l_día 1 l_semana –1;
l_día 1 l_mes –1;
l_semana 1 l_mes –1;
Ejecutando esta sintaxis se obtienen los resultados que muestran las Tablas 9.31 y 9.32. La Tabla 9.31
ofrece los 6 contrastes (comparaciones por pares) entre los 4 niveles del factor tiempo dentro del pri-
mer nivel de contenido (números). El orden de los contrastes T1, T2, etc., es el que se ha definido en
la sentencia MMATRIX. Por tanto, en T1 se está comparando una hora con un día; en T2 se está com-
parando una hora con una semana; ...; en T6 se está comparando una semana con un mes. El resulta-
Capítulo 9. ANOVA. Dos factores con medidas repetidas 365
do de los contrastes T1, T2 y T3 indica que, al recordar números, la calidad del recuerdo al cabo de una
hora es mejor que al cabo de un día ( p = 0,006), mejor que al cabo de una semana ( p < 0,0005) y me-
jor que al cabo de un mes ( p = 0,007). Los resultados de los contrastes T4, T5 y T6 indican que no
existe evidencia de diferencias entre el resto de los momentos ( p > 0,05 en los tres casos).
La Tabla 9.32 ofrece los mismos 6 contrastes pero dentro del segundo nivel de contenido (letras).
El resultado de los contrastes T1, T2 y T3 indica que, al recordar letras, la calidad del recuerdo al cabo
de una hora es mejor que al cabo de un día ( p = 0,018), mejor que al cabo de una semana ( p < 0,0005)
y mejor que al cabo de un mes ( p < 0,0005). El resultado de los contrastes T4 y T5 indica que la cali-
dad del recuerdo al cabo de un día es mejor que al cabo de una semana ( p = 0,010) y mejor que al ca-
bo de un mes ( p = 0,023). El resultado del contraste T6 indica que no existe evidencia de que lo que
ocurre al cabo de una semana difiera de lo que ocurre al cabo de un mes ( p = 1,000). No olvidar que
en todos estos contrastes no se está aplicando ningún tipo de corrección para controlar la tasa de error.
Tabla 9.31. Comparaciones por pares entre los niveles del factor tiempo en el primer contenido (números)
Variable Suma de Media
Fuente transformada cuadrados gl cuadrática F Sig.
Contraste T1 20,17 1 20,17 20,86 ,006
T2 54,00 1 54,00 67,50 ,000
T3 37,50 1 37,50 19,74 ,007
T4 8,17 1 8,17 5,98 ,058
T5 2,67 1 2,67 ,77 ,421
T6 1,50 1 1,50 1,36 ,296
Error T1 4,83 5 ,97
T2 4,00 5 ,80
T3 9,50 5 1,90
T4 6,83 5 1,37
T5 17,33 5 3,47
T6 5,50 5 1,10
Tabla 9.32. Comparaciones por pares entre los niveles del factor tiempo en el segundo contenido (letras)
Variable Suma de Media
Fuente transformada cuadrados gl cuadrática F Sig.
Contraste T1 37,50 1 37,50 12,10 ,018
T2 192,67 1 192,67 103,21 ,000
T3 192,67 1 192,67 85,00 ,000
T4 60,17 1 60,17 15,97 ,010
T5 60,17 1 60,17 10,43 ,023
T6 ,00 1 ,00 ,00 1,000
Error T1 15,50 5 3,10
T2 9,33 5 1,87
T3 11,33 5 2,27
T4 18,83 5 3,77
T5 28,83 5 5,77
T6 24,00 5 4,80
Veamos cómo comparar entre sí los 4 efectos simples de contenido. Cada efecto simple de conte-
nido representa la diferencia entre números y letras en cada uno de los cuatro niveles del factor tiempo
(hora, día, semana, mes). Para comparar cada efecto simple (cada diferencia números-letras) con cada
otro hay que realizar 6 comparaciones: hora-día, hora-semana, hora-mes, día-semana, día-mes y
semana-mes. En cada una de estas comparaciones hay involucradas 4 medias. Por ejemplo, en la
comparación hora-día se está comparando la diferencia números-letras
_ en
_ el momento
_ una _hora con
la diferencia números-letras en el momento un día; es decir, (Y n_hora ! Y l_hora) ! (Y n_día ! Y l_día). La
sintaxis que permite realizar estas 6 comparaciones es la siguiente (ver, en el Apéndice 7, la lógica
seguida al asignar coeficientes con la sentencia LMATRIX):
/MMATRIX =
n_hora 1 n_día –1 n_semana 0 n_mes 0 l_hora –1 l_día 1 l_semana 0 l_mes 0;
n_hora 1 n_día 0 n_semana –1 n_mes 0 l_hora –1 l_día 0 l_semana 1 l_mes 0;
n_hora 1 n_día 0 n_semana 0 n_mes –1 l_hora –1 l_día 0 l_semana 0 l_mes 1;
n_hora 0 n_día 1 n_semana –1 n_mes 0 l_hora 0 l_día –1 l_semana 1 l_mes 0;
n_hora 0 n_día 1 n_semana 0 n_mes –1 l_hora 0 l_día –1 l_semana 0 l_mes 1;
n_hora 0 n_día 0 n_semana 1 n_mes –1 l_hora 0 l_día 0 l_semana –1 l_mes 1;
Esta sintaxis genera, entre otros, los resultados que muestran las Tablas 9.33 y 9.34. La primera de ellas
es idéntica a las de los dos apartados anteriores. Y puede comprobarse que ofrece idéntico resultado
al obtenido al comparar los efectos simples del factor contenido con la opción Contrastes (ver Tablas
9.12 a la 9.14). Por tanto, se interpreta de idéntica manera.
La Tabla 9.34 ofrece una valoración global de los 6 contrastes de la Tabla 9.33. El resultado de
esta tabla no tendría interés si no fuera porque permite constatar que el efecto global de los 6 con-
trastes entre efectos simples llevados a cabo en la Tabla 9.33 para aislar e interpretar el efecto de la
interacción es idéntico al resultado obtenido al analizar el efecto global de la interacción (Tabla 9.6).
Lo cual está indicando, por un lado, que estos 6 contrastes agotan el efecto de la interacción y, por otro,
que no están contaminados por la presencia de efectos distintos del de la interacción.
Tabla 9.33. Comparaciones entre los efectos simples del factor contenido
Variable Suma de Media
Fuente transformada cuadrados gl cuadrática F Sig.
Contraste T1 2,67 1 2,67 1,00 ,363
T2 42,67 1 42,67 29,09 ,003
T3 60,17 1 60,17 9,16 ,029
T4 24,00 1 24,00 5,45 ,067
T5 37,50 1 37,50 3,15 ,136
T6 1,50 1 1,50 ,32 ,597
Error T1 13,33 5 2,67
T2 7,33 5 1,47
T3 32,83 5 6,57
T4 22,00 5 4,40
T5 59,50 5 11,90
T6 23,50 5 4,70
Cuando el diseño incluye un factor intersujetos y un factor intrasujetos (modelo AB-CA-MR), las
comparaciones relativas al efecto principal del factor intersujetos pueden llevarse a cabo con la sen-
tencia LMATRIX (tal como hemos hecho en el Apéndice 7) y las relativas al efecto principal del factor
intrasujetos con la sentencia MMATRIX (tal como acabamos de hacer en este mismo apartado). Para
llevar a cabo las comparaciones relacionadas con el efecto de la interacción es necesario utilizar am-
bas sentencias simultáneamente.
Volvamos a nuestro ejemplo (ver Tabla 9.16) sobre los dos tratamientos antidepresivos (factor
intersujetos tto: estándar, combinado) y las tres mediciones en el tiempo (factor intrasujetos tiempo:
basal, semana 4 y semana 8). Puesto que el efecto de la interacción tto*tiempo incluye un factor inter-
sujetos (tto) y un factor intrasujetos (tiempo), las comparaciones relacionadas con este efecto es ne-
cesario solicitarlas combinando las sentencias LMATRIX y MMATRIX. La forma de hacerlo consiste en
intercalar en la sintaxis del procedimiento GLM lo siguiente:
/LMATRIX =
tto 1 –1
/MMATRIX =
basal 1 cuatro –1 ocho 0;
basal 1 cuatro 0 ocho –1;
basal 0 cuatro 1 ocho –1;
En la sentencia LMATRIX se está solicitando que se comparen los dos tratamientos (estándar, combi-
nado) asignando a sus niveles los coeficientes6 1 y !1.
En la primera línea de la sentencia MMATRIX se está solicitando que se compare el momento ba-
sal con la semana 4; en la segunda, el momento basal con la semana 8; en la tercera, la semana 4 con
la semana 8. Puesto que lo que se está comparando en cada línea de la sentencia MMATRIX es la di-
ferencia definida en LMATRIX, lo que realmente se está haciendo con este conjunto de sentencias es
comparar entre sí los tres efectos simples de la variable tto.
La Tabla 9.35 muestra el resultado que se obtiene con estas sentencias. En el contraste T1 se es-
tá comparando la diferencia entre los dos tratamientos en el momento basal con la diferencia entre los
dos tratamientos en la semana 4; la diferencia es significativa ( p = 0,006). En el contraste T2 se está
comparando la diferencia entre los dos tratamientos en el momento basal con la diferencia entre los
dos tratamientos en la semana 8; la diferencia es significativa ( p < 0,0005). En el contraste T3 se es-
tá comparando la diferencia entre los dos tratamientos en la semana 4 con la diferencia entre los dos
tratamientos en la semana 8; la diferencia es significativa ( p < 0,0005). Por tanto, todas las diferen-
cias entre los efectos simples del factor tratamiento son significativas.
Tabla 9.35. Comparaciones entre los efectos simples del factor tratamiento
Variable Suma de Media
Fuente transformada cuadrados gl cuadrática F Sig.
Contraste T1 67,60 1 67,60 8,45 ,006
T2 378,23 1 378,23 24,29 ,000
T3 126,03 1 126,03 17,23 ,000
Error T1 303,90 38 8,00
T2 591,75 38 15,57
T3 277,95 38 7,31
6
Estos dos coeficientes se asignan automáticamente a los dos niveles del factor tto. El primer coeficiente (1) se asigna al
primer nivel; el segundo (!1), al segundo nivel. El orden de los niveles del factor viene impuesto por los códigos utiliza-
dos para identificar cada nivel: el primer nivel es el que tiene asignado el código menor; el segundo nivel, el que tiene asig-
nado el siguiente código menor; etc. Esta consideración tiene su importancia porque si los dos tratamientos se han codifi-
cado como 1 = «estándar» y 2 = «combinado», el primer nivel es “estándar”; pero si se han codificado como 1 = «estándar»
y 0 = «combinado», el primer nivel es “combinado”.
368 Análisis de datos (vol. II)
9.1. Para comprobar si el nivel de ansiedad (factor A) y el nivel de dificultad de la tarea (factor B) afectan
al rendimiento en una tarea visomotora, un investigador ha seleccionado 4 sujetos bajos en ansiedad
y otros 4 altos en ansiedad (basándose en las puntuaciones obtenidas en una escala de ansiedad) y les
ha presentado, de forma aleatoria, tres tareas de diferente dificultad (baja, media y alta). Tras evaluar
el rendimiento de los sujetos ha obtenido los resultados que muestra la tabla:
Dificultad de la tarea
Ansiedad Sujetos (b1) Baja (b2) Media (b3) Alta
s1 7 9 5
s2 7 8 8
(a1) Baja
s3 5 7 6
s4 6 8 4
s5 6 4 3
s6 6 5 6
(a2) Alta
s7 7 3 5
s8 4 2 4
Reproducir los datos de la tabla en el SPSS. Asumiendo que se cumplen los supuestos en los que se
basan los estadísticos F del correspondiente modelo de ANOVA y utilizando α = 0,05,
a. ¿Qué modelo de ANOVA debe utilizarse para analizar estos datos?
b. ¿Es razonable asumir esfericidad? ¿A qué matriz se refiere este supuesto?
c. ¿Es razonable asumir que las matrices de varianzas-covarianzas son homogéneas? ¿A qué matrices
se refiere este supuesto?
d. ¿Qué decisión debe tomarse sobre la hipótesis nula de que no existe efecto del nivel de ansiedad?
e. ¿Y sobre la hipótesis nula de que no existe efecto de la dificultad de la tarea?
f. ¿Y sobre la hipótesis nula de que no existe efecto de la interacción entre el nivel de ansiedad y la
dificultad de la tarea?
g. ¿Cuánto vale la épsilon de Greenhouse-Geisser?
h. ¿Cambia la decisión sobre las hipótesis nulas contrastadas en los apartados d, e y f cuando se uti-
liza el corrector épsilon?
i. ¿Cambia la decisión sobre las hipótesis nulas contrastadas en los apartados d, e y f cuando se uti-
lizan los estadísticos de la aproximación multivariada?
j. ¿Es apropiado utilizar la aproximación multivariada con estos datos?
k. ¿Puede afirmarse que la relación entre la dificultad de la tarea y el rendimiento es cuadrática?
l. Utilizar para estimar el tamaño de los efectos analizados en los apartados d, e y f. Interpretar
los resultados obtenidos.
m. ¿Cuánto vale la potencia asociada a los contrastes realizados en los apartados d, e y f ?
9.2. Seguimos con los datos del ejercicio anterior, pero ahora nos vamos a centrar en los efectos simples y
en el efecto de la interacción:
a. ¿En qué niveles de dificultad difiere el rendimiento medio de los sujetos con ansiedad baja del de
los sujetos con ansiedad alta?
Capítulo 9. ANOVA. Dos factores con medidas repetidas 369
b. ¿Entre qué efectos simples del factor ansiedad existen diferencias significativas?
c. Utilizar el resultado del apartado anterior y un gráfico de perfil (con la dificultad de la tarea en el
eje horizontal) para interpretar el efecto de la interacción.
9.3. Algunos estudios han puesto de manifiesto que las enfermedades de tipo alérgico se ven agravadas por
la presencia de estrés. Además, la época del año parece afectar de forma decisiva a la intensidad de la
respuesta alérgica. En un estudio concreto se ha utilizado una muestra aleatoria de 10 pacientes alér-
gicos (todos con el mismo tipo de alergia), la mitad de ellos con condiciones de vida calificables de
bajo estrés y la otra mitad con condiciones de vida calificables de alto estrés. Un grupo de especia-
listas ha evaluado la gravedad de la alergia de cada paciente (en una escala de 0 a 10) en los cuatro
periodos estacionales: primavera, verano, otoño e invierno. Los resultados de esta evaluación apare-
cen en la siguiente tabla:
s6 7 6 8 5
s7 9 5 5 7
(a2) Alto s8 10 4 9 5
s9 10 6 6 4
s10 9 3 7 6
Reproducir los datos de la tabla en el SPSS. Asumiendo que se cumplen los supuestos en los que se
basan los estadísticos F del correspondiente modelo de ANOVA y utilizando α = 0,05,
a. ¿Qué modelo de ANOVA debe utilizarse para analizar estos datos?
b. ¿Es razonable asumir esfericidad? ¿Cuántas filas tiene la matriz a la que se refiere este supuesto?
c. ¿Es razonable asumir que las matrices de varianzas-covarianzas son homogéneas? ¿Cuántas ma-
trices se están comparando para valorar este supuesto?
d. ¿Qué decisión debe tomarse sobre la hipótesis nula de que no existe efecto del estrés?
e. ¿Y sobre la hipótesis nula de que no existe efecto de la dificultad de la época del año?
f. ¿Y sobre la hipótesis nula de que no existe efecto de la interacción entre el nivel de ansiedad y la
dificultad de la tarea?
g. ¿Cuántos grados de libertad tiene la variabilidad asociada al error correspondiente a la época del
año?
h. ¿Cuánto vale la épsilon de Greenhouse-Geisser?
i. ¿Cambia la decisión sobre las hipótesis nulas contrastadas en los apartados d, e y f cuando se uti-
liza el corrector épsilon?
j. ¿Cambia la decisión sobre las hipótesis nulas contrastadas en los apartados d, e y f cuando se uti-
lizan los estadísticos de la aproximación multivariada?
k. ¿Es apropiado utilizar la aproximación multivariada con estos datos?
l. Utilizar para estimar el tamaño de los efectos analizados en los apartados d, e y f. Interpretar
los resultados obtenidos.
m. ¿Cuánto vale la potencia asociada a los contrastes realizados en los apartados d, e y f ?
370 Análisis de datos (vol. II)
9.4. Seguimos con los datos del ejercicio anterior. Vamos a realizar algunas comparaciones (siempre con
α = 0,05):
a. Ya sabemos que la gravedad de la alergia no es la misma en las cuatro estaciones. ¿Qué estacio-
nes difieren de qué otras?
b. ¿En qué épocas del año difiere la gravedad de la alergia de los sujetos con estrés bajo de la de los
sujetos con estrés alto?
c. ¿Entre qué efectos simples del factor estrés existen diferencias significativas?
d. Utilizar el resultado del apartado anterior y un gráfico de perfil (con la época del año en el eje ho-
rizontal) para interpretar el efecto de la interacción.
9.5. La siguiente tabla muestra el número de errores que han cometido 6 sujetos en una tarea de memori-
zación realizada en dos condiciones de recuerdo (a1: reconocimiento; a2: evocación libre) y después
de distintos intervalos de tiempo (b1: una hora; b2: un día; b3: una semana):
a1 a2
Sujetos b1 b2 b3 b1 b2 b3
s1 1 5 2 4 5 7
s1 3 6 6 6 8 10
s1 3 5 4 1 6 5
s1 1 4 7 2 10 12
s1 5 6 5 5 10 10
s1 2 8 7 1 7 8
Reproducir los datos en el SPSS. Asumiendo que se cumplen los supuestos en los que se basan los esta-
dísticos F del correspondiente modelo de ANOVA y utilizando α = 0,05,
a. ¿Qué modelo de ANOVA debe utilizarse para analizar estos datos?
b. ¿Es razonable asumir esfericidad?
c. Valorar el efecto del factor recuerdo, el del factor tiempo y el de la interacción recuerdo-tiempo.
d. Utilizar para estimar el tamaño de los efectos analizados en el apartado anterior. Interpretar los
resultados obtenidos.
e. ¿En qué momentos (hora, día, semana) puede afirmarse que el número medio de errores que se
comete en condiciones de reconocimiento difiere del que se comete en condiciones de evocación?
f. ¿Entre qué efectos simples del factor recuerdo existen diferencias significativas?
g. Utilizar el resultado del apartado anterior y un gráfico de perfil (con el factor tiempo en el eje ho-
rizontal) para interpretar el efecto de la interacción.
10
Análisis de regresión lineal
2
El término regresión procede de los trabajos de Galton sobre la naturaleza hereditaria de algunas características físicas.
Galton observó que los padres con alturas muy altas o muy bajas tendían a tener hijos cuya altura media estaba más cerca
de la media global que la de sus padres. Galton (1885) llamó a este efecto regresión hacia la mediocridad (regresión o acer-
camiento de las alturas individuales a la altura media).
3
Los términos independiente y dependiente deben despojarse de cualquier connotación de tipo causal. Según veremos, el
análisis de regresión se basa en una ecuación que permite obtener para Y valores que dependen de los que se asignan a X.
Pero esta dependencia es de tipo funcional: indica cómo cambia la variable Y cuando cambia la variable X. Lo cual no sig-
nifica que Y cambie porque cambia X (podría ocurrir, por ejemplo, que el cambio en ambas variables se debiera al efecto
de terceras variables). Recordemos que las herramientas estadísticas únicamente permiten detectar diferencias y relaciones.
El hecho de que una diferencia o una relación permita o no extraer conclusiones de tipo causal es algo que no depende de
la herramienta estadística aplicada sino del diseño utilizado y de la teoría subyacente, si existe (ver, en el Capítulo 12 del
primer volumen, el apartado Relación y causalidad).
4
La relación lineal solamente es una de las posibles formas de relación entre dos variables cuantitativas, pero es, sin du-
da, la más estudiada en el ámbito de las ciencias sociales y de la salud; y también es la más fácil de analizar e interpretar.
Esto no significa que no sea interesante estudiar otros tipos de relación (por ejemplo, una ley muy conocida en psicología,
llamada ley de Yerkes-Dodson, afirma que la relación entre la ansiedad y el rendimiento es cuadrática). Pero el grado de
elaboración que alcanzan las teorías que se construyen en el ámbito de las ciencias sociales y de la salud no permite, por
lo general, realizar predicciones no lineales precisas. Lo habitual es, más bien, que únicamente se tenga una sospecha de
relación monótona. No obstante, en el apartado Comparaciones de tendencia del Capítulo 6 hemos presentado una apro-
ximación al estudio de relaciones no lineales (cuadrática, cúbica). Y en el Apéndice 10 se describen brevemente algunas
ecuaciones de regresión curvilíneas que pueden resultar útiles en algunos contextos.
Capítulo 10. Análisis de regresión lineal 373
La Tabla 10.1 recoge los datos de una muestra de 20 pacientes con trastorno depresivo
que han participado en un estudio diseñado para valorar la eficacia de dos tratamientos anti-
depresivos (tto: 1 = «estándar», 2 = «combinado»). El estudio, realizado en tres centros dis-
tintos (A, B, C), comenzó administrando la Escala de Depresión de Hamilton para obtener
una medida inicial (basal ) del nivel de depresión de los pacientes. Al finalizar el tratamiento
se volvió a administrar la escala ( final ) y se dio por finalizado el estudio. La variable re-
cuperación se ha obtenido restando las puntuaciones basal y final (los datos se encuentran
en el archivo Tabla 10.1 depresión hamilton reducido, en la página web del manual).
Diagramas de dispersión
La manera más directa e intuitiva de formarse una primera impresión sobre el tipo de relación
existente entre dos variables cuantitativas es un diagrama de dispersión (ver Capítulo 12 del
primer volumen). La disposición de los puntos del diagrama está informando sobre el tipo de
relación subyacente.
De las variables incluidas en la Tabla 10.1, solamente final y recuperación tienen la
condición de dependientes (pues, en principio, solamente ellas dos pueden depender de algu-
na de las restantes variables consideradas en el estudio). Vamos a comenzar preguntándonos
374 Análisis de datos (vol. II)
si las puntuaciones basales o la edad de los pacientes ayudan a entender o anticipar, en algu-
na medida, su recuperación. En un primer intento por responder a esta pregunta, podemos
obtener los diagramas de dispersión correspondientes a basal y recuperación (Figura 10.1,
izquierda) y a edad y recuperación (Figura 10.1, derecha). En ambos diagramas se aprecia
cierto grado de relación lineal (las líneas discontinuas se han trazado tomando como referen-
cia las medias de cada variable). En el caso de las puntuaciones basales, la nube de puntos
muestra una pauta lineal positiva: las puntuaciones basales altas tienden a ir acompañadas
de recuperaciones altas y las puntuaciones basales bajas de recuperaciones bajas. En el caso
de la edad, la nube de puntos muestra una pauta lineal negativa: las edades altas tienden a ir
acompañadas de recuperaciones bajas y las edades bajas de recuperaciones altas. Y en nin-
guno de los dos casos se aprecian tendencias distintas de la lineal. En principio, tanto las pun-
tuaciones basales como la edad podrían ayudarnos a entender o anticipar, en alguna medida,
el comportamiento de la variable recuperación.
Ahora bien, aunque un diagrama de dispersión ayuda a formarse una primera impresión
más o menos acertada sobre el tipo de relación existente entre dos variables, no permite cuan-
tificar con precisión el grado o intensidad de la relación ni tampoco aclara en qué medida una
variable puede ayudar a entender el comportamiento de la otra. En realidad, únicamente a
partir de la inspección de un diagrama de dispersión, no resulta nada fácil precisar si el gra-
do de relación lineal subyacente es bajo, medio o alto.
¿Qué podemos hacer para mejorar nuestra comprensión de una nube de puntos? Quizá
bastaría con decir, simplemente, que las puntuaciones basales más altas (bajas) van acompa-
ñadas de mayor (menor) recuperación; o que las edades más altas (bajas) van acompañadas
de menor (mayor) recuperación. Pero esto, aunque correcto, es poco preciso. También podría
ofrecerse un listado de todos los datos; pero esto, aunque preciso, es poco informativo.
Recordemos que, para describir una variable cuantitativa, recurrimos a tres propiedades
de su distribución: centro, dispersión y forma. Para describir conjuntamente dos variables
cuantitativas podemos hacer algo parecido: (1) forma: determinar si la nube de puntos delata
o no una pauta lineal, (2) centro: resumir la nube de puntos en una recta y (3) dispersión: va-
lorar el grado de concentración o alejamiento de los puntos a esa recta.
Ya sabemos cómo utilizar los diagramas de dispersión y el coeficiente de correlación de
Pearson para determinar si existe relación lineal y su intensidad. En los siguientes apartados
aprenderemos a resumir la nube de puntos en una recta y a valorar el grado de dispersión de
los puntos en torno a ella.
Figura 10.1. Diagramas de dispersión. Izquierda: basal por recuperación. Derecha: edad por recuperación
Capítulo 10. Análisis de regresión lineal 375
La recta de regresión
Cuando la relación entre dos variables sigue una pauta lineal, la correspondiente nube de pun-
tos puede resumirse mediante una función matemática tan simple como una línea recta:
= [10.1]
El valor B0 es el punto en el que la recta corta el eje vertical; se le suele llamar ordenada en
el origen o intersección. El valor B1 refleja el grado de inclinación de la recta; se le suele lla-
mar pendiente. En el contexto del análisis de regresión, a B0 y B1 se les llama coeficientes
de regresión parcial o, simplemente, coeficientes de regresión. Una vez fijados los valores
de B0 y B1 (enseguida veremos cómo hacer esto), ya es posible asignar valores a la variable
independiente X para obtener los pronósticos que la ecuación [10.1] atribuye a la variable
dependiente Y.
A la ecuación [10.1] se le llama ecuación de regresión de Y sobre X (y es distinta de la
ecuación de regresión de X sobre Y ). La recta concreta que se obtiene con ella depende de los
valores concretos elegidos para B0 y B1. La Figura 10.2 muestra algunas posibles rectas. Las
representadas en el gráfico a tienen la misma intersección B0 pero distinta pendiente B1. Las
rectas del gráfico b tienen distinta intersección pero la misma pendiente. Y las del gráfico c
tienen distinta intersección y distinta pendiente.
Y Y Y
X X X
Por tanto, sobre una nube de puntos cualquiera es posible trazar tantas rectas distintas como
valores distintos se asignen a B0 y a B1. Y esto nos lleva a la cuestión clave de un análisis de
regresión lineal: ¿cuál de todas las rectas posibles es la que mejor representa o resume la nube
de puntos?, es decir, ¿cuál de todas ellas es la que mejor se ajusta a la nube de puntos?
En una situación ideal en la que todos los puntos del diagrama de dispersión se encontra-
ran perfectamente alineados, no habría que preocuparse por encontrar la recta que mejor resu-
me los puntos del diagrama porque, simplemente uniendo los puntos entre sí, se obtendría la
recta con el mejor ajuste posible5. Pero en nubes de puntos algo más realistas como las de la
Figura 10.1 es posible trazar muchas rectas distintas. Y, obviamente, no todas ellas se ajus-
tarán igualmente bien a la nube de puntos. En un análisis de regresión lineal se trata de en-
contrar la recta que mejor representa o resume la nube de puntos.
5
En algunos contextos es relativamente fácil y frecuente encontrar o definir relaciones lineales perfectas. Por ejemplo, la
relación entre la temperatura en escala Fahrenheit es una función lineal perfecta de las temperaturas en escala Celsius; en
concreto, F = 32 + 1,8 C. Pero, en el ámbito de las ciencias sociales y de la salud, no se dan relaciones perfectamente
lineales; según veremos, los errores de predicción forman parte inseparable de los pronósticos.
376 Análisis de datos (vol. II)
Mínimos cuadrados
Para elegir la mejor recta pueden utilizarse diferentes criterios (ver Rousseeuw y Leroy,
1987), pero el de mayor aceptación es el que se basa en la suma de los cuadrados de las dis-
tancias verticales entre cada punto y la recta. La Figura 10.3 muestra estas distancias mar-
cadas con líneas discontinuas. Los valores observados representan la distancia de cada
punto al eje horizontal. Los valores pronosticados representan la distancia de la recta al
eje horizontal. A las diferencias entre los valores observados y los pronosticados se
les llama residuos y representan la parte de Y que la ecuación lineal (la recta) no es capaz
de pronosticar, es decir, los errores de predicción. Utilizar el criterio de mínimos cuadra-
dos supone aceptar que la recta es tanto mejor (es un representante tanto mejor de la nube de
puntos) cuanto más pequeños son los residuos o errores de predicción.
Sumando todos los residuos podría obtenerse una medida del error de predicción total.
Pero en esta suma se estaría olvidando que unos residuos son positivos y otros negativos, y
que tienden a compensarse entre sí. Una forma de superar este inconveniente consiste en
elevar al cuadrado los residuos antes de sumarlos (también podrían sumarse los residuos en
valor absoluto, pero esta solución es más compleja de tratar). El criterio de mínimos cua-
drados consiste en elegir para B0 y B1 los valores que minimizan la suma de los residuos al
cuadrado, es decir, los valores que hacen mínima la expresión
= [10.2]
Y^i
(Yi – Y^i )
Yi
Y^i
Yi
X
Coeficientes de regresión
Los valores que minimizan [10.2] se obtienen resolviendo, tras igualarlas a cero, sus deriva-
das parciales respecto de B0 y B1 (ver, por ejemplo, Amón, 1979, págs. 205-209):
= [10.3]
= [10.4]
(SXY es la covarianza entre X e Y ). De todas las rectas que es posible definir, justamente la
que se basa en la intersección [10.3] y en la pendiente [10.4] es la que minimiza las distancias
Capítulo 10. Análisis de regresión lineal 377
verticales (al cuadrado) entre cada punto del diagrama y la recta de regresión._ _De la ecua-
ción [10.3] se desprende que la recta mínimo-cuadrática pasa por el punto (X , Y ).
Los diagramas de la Figura 10.4 ofrecen una aclaración del significado de estos coeficien-
tes (se han utilizado enteros consecutivos en ambos ejes de los diagramas para facilitar la
explicación). El coeficiente B0 es el pronóstico que ofrece [10.1] cuando X = 0. Por tanto, B0
solamente tiene significado si también lo tiene X = 0. Es un valor necesario para poder efec-
tuar pronósticos (actúa como una especie de término corrector para ajustar la métrica de la
variable X a la de la variable Y ), pero no aporta información sobre la relación entre X e Y.
Cuando la relación es positiva (recta ascendente; diagrama de la izquierda), el valor de
B1 es positivo: a un aumento en X, la ecuación asigna un aumento en . Cuando la relación
es negativa (recta descendente; diagrama de la derecha), el valor de B1 es negativo: a un au-
mento en X, la ecuación asigna una disminución en . Más concretamente, B1 es el cambio
(aumento o disminución) que la ecuación de regresión [10.1] asigna a por cada unidad que
aumenta X. Cuando no existe relación lineal, el coeficiente B1 vale cero (recta paralela al eje
horizontal, pendiente nula). Aplicando [10.3] y [10.4] a los datos obtenidos con las variables
basal y recuperación (ver Tabla 10.1) se obtiene B0 = !7,138 y B1 = 0,585, es decir,
Pronóstico (recuperación) = !7,138 + 0,585 (basal )
.
Y
B0
B1 < 0
B1 > 0
. B0
X X
La Figura 10.5 (izquierda) muestra esta recta sobre el diagrama de dispersión. El valor de B0
es la recuperación que pronostica la ecuación [10.1] para una puntuación basal de cero
(recordemos que B0 solamente tiene significado si X = 0 también lo tiene)6. El valor de B1
indica que, por cada unidad que aumenta basal, la ecuación de regresión [10.1] pronostica
un aumento de 0,585 puntos en recuperación. Por supuesto, asignando valores a X (basal )
pueden obtenerse los pronósticos en Y (recuperación).
Debe tenerse en cuenta que, puesto que la relación entre basal y recuperación no es per-
fecta, los pronósticos basados en la ecuación de regresión incluyen un error de predicción.
6
El hecho de que B0 tome un valor negativo nos está advirtiendo de un hecho importante: no deben efectuarse pronósticos
fuera del rango de valores que toma la variable X. Una inspección del diagrama indica que no existen puntuaciones basales
menores que 20. Puesto que la ecuación de regresión se basa en el rango de valores disponible, extrapolar los pronósticos
a otros valores de X puede llevar a resultados absurdos. Aunque ciertamente la recuperación podría ser negativa (los pacien-
tes podrían empeorar con el tratamiento), no tiene sentido hablar de un sujeto con puntuación basal cero, pues se trataría
de un sujeto sin problemas de depresión al que no habría que aplicar ningún tratamiento antidepresivo.
378 Análisis de datos (vol. II)
Por tanto, con la ecuación obtenida no es posible afirmar que un aumento de un punto en la
puntuación basal de un paciente concreto irá acompañado de un aumento de 0,585 puntos en
su recuperación, pero sí que, en el conjunto de pacientes cuya puntuación basal es un punto
mayor, se espera una recuperación media 0,585 puntos mayor.
Aplicando [10.3] y [10.4] a los datos obtenidos con las variables edad y recuperación
(ver Tabla 10.1) se obtiene B0 = 27,204 y B1 = !0,336. La Figura 10.5 (derecha) muestra esta
recta sobre el diagrama de dispersión. El valor de B0 es la recuperación que la ecuación de
regresión [10.1] pronostica para cero años (de nuevo tenemos una intersección sin signifi-
cado porque X = 0 tampoco lo tiene). El signo negativo de B1 indica que el aumento en edad
tiende a ir acompañado de menos recuperación; en concreto, por cada año que aumenta edad,
la ecuación de regresión pronostica una disminución de 0,336 puntos en recuperación.
Y, dado que la desviación típica de las puntuaciones Z vale 1 (ver Capítulo 5 del primer volu-
men), si la ecuación de regresión se obtiene después de transformar las puntuaciones origina-
les en puntuaciones Z, el nuevo coeficiente de regresión, B1 (Z) (que suele recibir el nombre
de tipificado o estandarizado), coincide con RXY. Es decir, B1 (Z) = RXY. Y esto nos da un
nuevo significado para RXY : cuando X aumenta una desviación típica, la ecuación de regre-
sión pronostica un cambio de RXY desviaciones típicas en Y.
Aplicando [10.3] y [10.4] después de tipificar las variables basal y recuperación se obtie-
ne B1 (Z) = 0,676, es decir, “pronóstico (Zrecuperación ) = 0,676 (Zbasal )”. Por tanto, por cada des-
viación típica que aumenta basal, la ecuación de regresión pronostica un aumento de 0,676
desviaciones típicas en recuperación. Puesto que la recta de regresión pasa por las medias
de X e Y, y éstas valen cero cuando X e Y están tipificadas, la intersección B0 (Z) vale cero.
Capítulo 10. Análisis de regresión lineal 379
Bondad de ajuste
Aun aceptando que la recta de regresión mínimo-cuadrática es la que mejor resume una nube
de puntos dada, el grado de ajuste de esa recta (lo bien o mal que la recta resume la nube de
puntos) no tiene por qué ser bueno. De hecho, el grado de ajuste de la mejor recta posible
puede ir desde muy malo a excelente. Esto puede comprenderse fácilmente observando los
diagramas de dispersión de la Figura 10.6. Aunque en los tres casos se trata de rectas mí-
nimo-cuadráticas, el ajuste es claramente mejor en el diagrama de la izquierda que en el del
centro, y mejor en éste que en el de la derecha. Para poder afirmar esto nos basamos en el
grado de dispersión (es decir, en el grado de alejamiento) de los puntos alrededor de la rec-
ta de regresión.
Ahora bien, el grado de dispersión de los puntos en torno a la recta de regresión viene
dado por las distancias verticales que ya hemos identificado como residuos o errores de pre-
dicción: Ei = . Consecuentemente, el tamaño de los residuos está informando de lo
bien o mal (bondad de ajuste) que la recta de regresión consigue resumir la nube de puntos.
Figura 10.6. Rectas de regresión con distinto grado de ajuste a la nube de puntos
•
•• • •
• •
•• • • • • •
• • • •
• • • • • •
•• • • • • •
Y Y • • Y
••
• •• • • • • • • •
• • •
• • • • •
• • • •
• •
X X X
Una manera de cuantificar el tamaño de los residuos (dispersión en torno a la recta) consiste
en obtener su varianza:
= = [10.6]
Esta varianza valdrá cero cuando todos los residuos valgan cero (es decir, cuando el ajuste
de la recta a la nube de puntos sea perfecto) y tomará un valor tanto mayor cuanto mayor sea
el tamaño de los residuos en valor absoluto (es decir, cuanto peor sea el ajuste).
Pero sabemos que el peor ajuste posible se da cuando las variables X e Y son lineal-
mente independientes, es decir, cuando la recta de regresión es horizontal (pendiente nula;
ver Figura 10.6, gráfico de la derecha). Y esto solamente ocurre cuando todos los pronósti-
cos se realizan con la media de Y (elegimos la media en lugar de cualquier otro valor porque,
a falta de otra información, las desviaciones de la media elevadas al cuadrado son menores
que respecto de cualquier otro valor; ver, en el Apéndice 7 del primer volumen, el apartado
Estimación por mínimos cuadrados).
Cuando _a todos los casos se pronostica la media de Y se comete un error de predicción
igual a Yi ! Y . Y la varianza de estos residuos (es decir, el valor máximo de ) no es otra
cosa que la varianza de Y:
= = [10.7]
380 Análisis de datos (vol. II)
Ahora bien, si [10.7] es el máximo de [10.6], entonces la diferencia entre [10.7] y [10.6] nece-
sariamente representa la cantidad en que se consigue reducir
_ los residuos (errores de predic-
ción) cuando, en lugar de hacer pronósticos basados en Y , se hacen pronósticos basados en
la ecuación de regresión. Esta reducción debida a la regresión puede cuantificarse mediante
= = [10.8]
Por tanto, tenemos tres medidas (varianzas) que permiten cuantificar diferentes aspectos de
la variabilidad o dispersión presente en una nube de puntos. En la Figura 10.7 están identifi-
cadas las desviaciones en las que se basa cada una de estas medidas:
1. es la varianza de Y, es decir, la varianza total o máxima que se obtiene
_ cuando X e Y
son linealmente independientes. Se basa en las desviaciones Y , es decir, en la dis-
persión de la nube de puntos en torno a la recta horizontal que pasa por la media de Y .
2. es la varianza de los residuos o errores de predicción. Se basa en las desviaciones
, es decir, en la dispersión de la nube de puntos en torno a la recta de regresión.
_
3. es la varianza de los pronósticos. Se basa en las desviaciones Y , es decir, en la
dispersión de los pronósticos en torno la recta horizontal que pasa por la media de Y. Por
tanto, representa la diferencia entre la dispersión en torno a la recta horizontal, ,
y la dispersión en torno a la recta de regresión, . En consecuencia,
= + [10.9]
Y^ i
· Yi
(Yi – Y^i )
_
Y Y^i _
(Yi – Y )
_
(Y^i – Y )
_
X Y
Unas pocas transformaciones (ver Amón, 1979, pág. 231) permiten comprobar que la pro-
porción de varianza de los errores de predicción (varianza no explicada) y la proporción de
Capítulo 10. Análisis de regresión lineal 381
= 1! / [10.10]
= / [10.11]
Este valor indica: (1) que la recta de regresión de Y sobre X permite reducir los errores de
predicción en un 46 % y (2) que las variables X e Y comparten el 46 % de la varianza. Y esto
significa que conocer las puntuaciones basales (X ) permite entender (anticipar, explicar, etc.)
un 46 % de la variabilidad de la recuperación de los pacientes (Y ).
7
Cuando a un mismo valor de X le corresponde más de un valor distinto de Y, no puede alcanzar el valor 1 (con un
mismo valor X no es posible pronosticar más de un valor Y sin error).
8
Interpretar correctamente el tamaño y el significado del coeficiente de determinación requiere tener en cuenta diferentes
aspectos relativos al contexto en el que se obtiene, al tipo de relación subyacente entre las variables y a la disposición de
los puntos en el diagrama de dispersión (ver, en el Capítulo 12 del primer volumen, el apartado Cómo interpretar el coefi-
ciente de correlación RXY ).
9
Debe tenerse en cuenta que es una medida de lo bien o mal que la recta resume la nube de puntos, lo cual no debe con-
fundirse con el hecho de que la relación subyacente sea o no de tipo lineal. Un valor alto no necesariamente está in-
dicando que la relación subyacente es efectivamente lineal. El valor de puede ser relativamente alto incluso cuando
la relación subyacente no es lineal. Por ejemplo, en una relación cuadrática puede haber un componente lineal importan-
te (ver, en el Capítulo 12 del primer volumen, el segundo gráfico de la Figura 12.9). De ahí la importancia de acompañar
toda ecuación de regresión de su correspondiente gráfico de dispersión.
382 Análisis de datos (vol. II)
= , con = [10.12]
= , con = [10.13]
Cuando se dan ciertas condiciones (ver, más abajo, el apartado Supuestos del modelo de re-
gresión), ambos estadísticos T se aproximan a la distribución de probabilidad t de Student
con n ! 2 grados de libertad. Siguiendo la lógica habitual, puede rechazarse la correspondien-
te H0 cuando el valor absoluto de estos estadísticos T es mayor que el cuantil 100 (1 ! α / 2)
de la distribución t de Student con n ! 2 grados de libertad.
Por lo general, el interés del análisis irá orientado a determinar si las variables X e Y están
linealmente relacionadas, es decir, a determinar si, a partir de la relación encontrada en la
muestra, es posible afirmar que existe relación en la población. Esto significa que, por lo
general, la hipótesis que interesará contrastar será la hipótesis de pendiente o relación nula:
H0 : β1 = 0 [10.14]
El rechazo de esta hipótesis indica que entre X e Y existe relación lineal significativa y, con-
secuentemente, que la variable X contribuye en alguna medida a reducir los errores de predic-
ción. El no rechazo no significa que X e Y no estén linealmente relacionadas, sino que no se
ha podido demostrar que lo estén (puede que no se haya utilizado un rango de valores X lo
bastante amplio, puede que los errores de medida estén ocultando la relación, etc.).
Tanto en la varianza de B0 como en la de B1 está interviniendo el error cuadrático me-
dio o media cuadrática error:
MCE = [10.15]
Esta media cuadrática es el mejor estadístico de que disponemos para estimar la varianza de
Y asociada a cada valor distinto de X ( hablaremos de esto más adelante, en el apartado Su-
puestos del modelo de regresión). A la raíz cuadrada de [10.15] se le llama error típico de
la estimación y representa el error medio que se comete al efectuar pronósticos utilizando
la ecuación de regresión.
En nuestro ejemplo sobre la relación entre las puntuaciones
_ basales y la recuperación
(ver Tabla 10.1) tenemos ' ( ! )2 = 179,846 y ' ( X ! X ) 2 = 441,20. Aplicando [10.13]
y [10.15] para contrastar la hipótesis [10.14] obtenemos
Capítulo 10. Análisis de regresión lineal 383
F = = = [10.16]
Cuando se dan ciertas condiciones (ver, más adelante, el apartado Supuestos del modelo de
regresión), este estadístico se aproxima a la distribución de probabilidad F con 1 y n ! 2 gra-
dos de libertad. Y, en regresión simple, coincide con el cuadrado del estadístico definido
en [10.13])11.
Intervalos de confianza
Siguiendo la lógica ya estudiada en el Capítulo 7 del primer volumen, los errores típicos pro-
puestos en [10.12] y [10.13] pueden utilizarse para construir intervalos de confianza para los
valores poblacionales de los coeficientes de regresión. Así, por ejemplo, el intervalo de con-
fianza para la pendiente de la recta de regresión poblacional, β1, puede obtenerse mediante
= [10.17]
Aplicando [10.17] a nuestro ejemplo sobre la relación entre las puntuaciones basales y la
recuperación (ver Tabla 10.1 ), obtenemos
= = 0,585 2,101 (0,15) = (0,27; 0,90)
Por tanto, estimamos, con una confianza del 95%, que el verdadero valor de la pendiente de
regresión se encuentra entre 0,27 y 0,90.
10
Este estadístico es exactamente el mismo que se utiliza para valorar el componente o tendencia lineal en un análisis de
varianza (ver Capítulo 6). El numerador de F es un estimador de la varianza de la población basado en la dispersión que se
consigue reducir con la recta de regresión (variabilidad debida a la regresión). El denominador es un estimador de la varianza
de la población basado en la variabilidad de los residuos (variabilidad no debida a la regresión).
11
El cual coincide con el estadístico T ya estudiado en el Capítulo 12 del primer volumen para contrastar la hipótesis nula
de que el coeficiente de correlación de Pearson vale cero en la población (ver ecuación [12.14] y el contraste propuesto en
el Cuadro 12.2).
384 Análisis de datos (vol. II)
= [10.18]
= [10.19]
La expresión [10.18] es mayor que la [10.19] en la cantidad MCE. Por tanto, la varianza de
los pronósticos individuales es mayor que la varianza de los pronósticos promedio. Y puesto
que ambas varianzas son distintas, al construir intervalos de confianza para un pronóstico es
importante especificar de qué tipo de pronóstico se trata. A partir de las ecuaciones [10.18]
y [10.19] es posible construir intervalos de confianza mediante,
= [10.20]
= [10.21]
En nuestro ejemplo sobre las_ puntuaciones basales y la recuperación (ver Tabla 10.1) tene-
mos MCE = 9,99, ' (X i ! X )2 = 441,20 y X = 29,20. Y el pronóstico que la ecuación de
_
regresión asigna al primer sujeto (puntuación basal 25) vale = !7,138 + 0,585 (25) = 7,49.
Aplicando a este pronóstico las ecuaciones [10.18] a la [10.21] obtenemos
12
Recordemos, por ejemplo, que la varianza de Y es , mientras que la varianza de la media de Y es . Es decir, la
varianza de la media de Y es n veces más pequeña que la varianza de Y.
Capítulo 10. Análisis de regresión lineal 385
Figura 10.8. Intervalos de confianza para los pronósticos individuales (líneas continuas) y para los pronós-
ticos promedio (líneas discontinuas)
Recuperación (basal – final)
Y^i
La ecuación de regresión
Al presentar el análisis de regresión simple hemos visto que un diagrama de dispersión es una
buena manera de formarse una primera impresión sobre el tipo de relación existente entre dos
variables cuantitativas. Pero al aumentar el número de variables las cosas cambian.
Para construir un diagrama de dispersión con tres variables (dos independientes) es ne-
cesario utilizar tres ejes, es decir, tres dimensiones; esto es posible hacerlo, pero ya no tiene
la utilidad que tiene en el caso de dos variables. Para construir un diagrama de dispersión con
cuatro variables (tres independientes) sería necesario utilizar un espacio de cuatro dimen-
siones. Y un espacio de cinco dimensiones para construir un diagrama con cinco variables
(cuatro independientes). Así pues, con dos variables independientes, un diagrama de disper-
sión resulta poco intuitivo y, por tanto, poco útil. Y con más de dos variables independien-
tes, la representación gráfica simplemente no resulta posible.
No obstante, a pesar de que una ecuación de regresión múltiple no define una recta en
un plano sino un hiperplano en un hiperespacio multidimensional (algo imposible de repre-
sentar gráficamente), la complejidad de su representación gráfica contrasta con la simplicidad
de su expresión algebraica:
= B0 + B1 X1 + B2 X2 + · · · + Bp X p [10.22]
En una ecuación de estas características, los pronósticos se obtienen combinando lineal-
mente (es decir, sumando) las p variables independientes X j , cada una de ellas ponderada (es
decir, multiplicada) con un coeficiente de regresión Bj que indica el peso de esa variable en
los pronósticos.
Al igual que en el caso de la regresión simple, existen tantas ecuaciones de regresión
múltiple como valores distintos puedan asignarse a los coeficientes de regresión B0 y B j. Y,
de nuevo, para elegir la mejor de esas ecuaciones posibles, seguimos utilizando el criterio de
mínimos cuadrados, el cual, recordemos, consiste en elegir para B0 y Bj los valores que con-
siguen minimizar la suma de los residuos al cuadrado: = .
Capítulo 10. Análisis de regresión lineal 387
Coeficientes de regresión
Aunque los cálculos se complican algo cuando la ecuación de regresión incluye más de una
variable independiente13, el significado de los coeficientes de regresión sigue siendo el mis-
mo. Así, B0 sigue siendo el origen o intersección. Con dos variables independientes, por
ejemplo, B0 es el punto en el que el plano de regresión corta el eje correspondiente a la va-
riable dependiente Y, es decir, el valor que pronostica la ecuación de regresión cuando todas
las variables X toman el valor cero. Al igual que en regresión simple, B0 no tiene un signi-
ficado útil a no ser que el valor cero tenga un significado concreto en todas las variables in-
dependientes14.
Los coeficientes B1, B2, ..., Bp son coeficientes de regresión parciales, pues el valor
concreto que toma cada uno de ellos depende del resto de coeficientes incluidos en la ecua-
ción: se estiman intentando minimizar , es decir, intentando que la combinación
de las variables X j consiga explicar la mayor cantidad posible de la variabilidad de Y. Re-
presentan el cambio esperado en Y cuando, permaneciendo constantes el resto de variables,
la correspondiente X j aumenta una unidad. Por ejemplo, B1 representa el cambio estimado
en Y cuando, permaneciendo constantes el resto de variables, X1 aumenta una unidad.
Añadiendo las variables edad y tto a nuestro ejemplo sobre la relación entre la recupe-
ración y las puntuaciones basales (ver Tabla 10.1), la ecuación de regresión que minimiza
la suma de los residuos al cuadrado es:
Pronóstico (recuperación) = !8,88 + 0,40 (basal ) ! 0,01 (edad ) + 4,93 (tto) [10.23]
Por tanto, para una edad y un tto dados, un aumento de un punto en las puntuaciones basales
representa un aumento de 0,40 puntos en la recuperación pronosticada (B1 = 0,40). Para una
puntuación basal y un tto dados, un aumento de un año de edad representa una disminución
de 0,01 puntos en la recuperación pronosticada (B2 = !0,01). Y para unas puntuaciones ba-
sales y una edad dadas, un aumento de una unidad en tto representa un aumento de 4,93
puntos en la recuperación pronosticada; es decir, a los pacientes que han recibido el trata-
miento 2 (combinado) se les pronostica una recuperación 4,93 puntos mejor que a los que
han recibido el tratamiento 1 (estándar).
13
En notación matricial, el vector de coeficientes de regresión B = (B0, B1, B2, ..., Bp )’ se obtiene multiplicando el vector
de puntuaciones Y por una transformación de la matriz de datos que refleja la variabilidad del conjunto de las variables in-
dependientes En concreto, B = [X’ X]!1 [X’ Y], donde Y es el vector de puntuaciones de la variable dependiente Y y X es
una matriz n × ( p + 1), con unos en la primera columna y con las puntuaciones de las p variables independientes en las
restantes columnas.
14
El coeficiente B0 no siempre está desprovisto de significado. Si la ecuación de regresión se obtiene a partir de las pun-
tuaciones diferenciales o de desviación de las variables independientes, entonces B0 es la media de Y, es decir, el pronós-
tico que la ecuación de regresión asigna cuando todas las variables independientes toman su valor medio (el cual vale cero
en todas ellas porque todas ellas se han transformado en puntuaciones de desviación).
388 Análisis de datos (vol. II)
Bondad de ajuste
Aun aceptando que la ecuación de regresión mínimo-cuadrática es la mejor, sabemos que esto
no significa que sea buena. Para valorar la calidad de una ecuación es necesario utilizar algún
indicador de la precisión con que permite efectuar pronósticos. Y, para ello, de nuevo sirve
aquí lo ya dicho a propósito de la ecuación de regresión simple. La única diferencia es que,
ahora, la relación entre la parte izquierda y la parte derecha de la ecuación no es la relación
15
En regresión simple, el coeficiente de regresión tipificado coincide con el coeficiente de correlación de Pearson RXY. En
regresión múltiple, los coeficientes de regresión tipificados no son coeficientes de correlación. De hecho, pueden tomar
valores mayores que 1 y menores que !1.
Capítulo 10. Análisis de regresión lineal 389
entre X e Y (es decir, la relación entre dos variables), sino la relación entre Y y X1, X2, ..., Xp
(es decir, la relación entre p + 1 variables). Y para cuantificar esa relación utilizamos el coe-
ficiente de correlación múltiple, el cual suele representarse mediante o, más
brevemente, mediante .
Este coeficiente de correlación expresa el grado de relación lineal existente entre la va-
riable dependiente Y y la mejor combinación lineal entre las variables independientes Xj
(variables 1, 2, ..., p). Lo cual no es otra cosa que la relación lineal entre Y y los pronósticos
derivados de la ecuación de regresión:
= [10.25]
De esta definición se deduce que tomará siempre valores entre cero y uno, pues no
cabe esperar que la relación entre Y y los pronósticos sea negativa (además, tampoco tiene
sentido hablar de relación negativa entre más de dos variables). Unas sencillas transforma-
ciones permiten definir el cuadrado del coeficiente de correlación múltiple, decir, el coefi-
ciente de determinación, exactamente de la misma manera que en regresión simple:
= 1! / [10.26]
= / [10.27]
Por tanto, puede interpretarse, al igual que en regresión simple, como propor-
ción de reducción de los errores de predicción (ecuación [10.26]) y como proporción de
varianza común o explicada (ecuación [10.27]).
En nuestro ejemplo sobre la recuperación de pacientes sometidos a tratamiento antide-
presivo, el coeficiente de correlación múltiple vale 0,89; y, elevado al cuadrado, 0,79. Este
valor indica, en primer lugar, que las variables incluidas en la ecuación (basal, edad y tto)
permiten reducir los errores de predicción un 79 % y, en segundo lugar, que esas tres va-
riables, tomadas juntas, comparten el 79 % de la varianza de la recuperación; por tanto,
conocer las puntuaciones basales de los pacientes, su edad y el tratamiento que han recibido
permite entender (anticipar, explicar) el 79 % de la variabilidad de su recuperación.
El coeficiente es un estimador positivamente sesgado de su correspondiente
parámetro poblacional (tiende a ofrecer estimaciones infladas). Este sesgo depende del nú-
mero de variables independientes (p) y del número de casos (n). Cuanto menor es la relación
n: p, mayor es el sesgo16. Para atenuar este sesgo es habitual aplicar la siguiente corrección:
= [10.28]
F = = [10.30]
Cuando se dan ciertas condiciones (ver, más adelante, el apartado Supuestos del modelo de
regresión), este estadístico se aproxima a la distribución de probabilidad F con p y n ! p ! 1
grados de libertad. Puede rechazarse la hipótesis [10.29] si el estadístico F toma un valor
mayor que el cuantil 100 (1 ! α) de la distribución F con p y n ! p ! 1 grados de libertad. En
nuestro ejemplo hemos obtenido = 0,79; por tanto,
F = = 20,06
MCE = [10.31]
distintos valores de las Xj (ver el apartado Supuestos del modelo de regresión). La raíz cua-
drada de [10.31] es el error típico de la estimación (desviación típica de los residuos).
Representa el error medio que se comete al efectuar pronósticos utilizando la ecuación de
regresión. Y, al igual que , sirve como un indicador de la bondad del ajuste del plano
de regresión: cuanto menor es la desviación típica de los residuos, mejor es el ajuste.
nunca disminuye al incorporar una nueva variable a la ecuación. Pero eso no
significa que la ecuación que incluye la nueva variable sea mejor que la que no la incluye. En-
tre dos ecuaciones rivales, la que mejor se ajusta es aquella a la que le corresponde una MCE
menor . Y puesto que al incorporar una nueva variable la MCE pierde un grado de libertad,
para poder afirmar que la nueva ecuación ofrece un mejor ajuste que la original, debe ocurrir
que la nueva variable consiga reducir la suma de los residuos al cuadrado en una cantidad
mayor que la MCE original.
La hipótesis propuesta en [10.29] es una hipótesis global referida a los p coeficientes de
regresión incluidos en la ecuación (excluido β0). El rechazo de esta hipótesis indica que al
menos un coeficiente βj es distinto de cero, pero sin precisar cuál. Para identificar qué coe-
ficiente es distinto de cero es necesario valorar cada uno por separado. Esto puede hacerse
de la misma manera que en regresión simple, es decir, contrastando, para cada coeficiente,
H0 : β j = 0 [10.32]
mediante estadísticos T del tipo
= [10.33]
Cuando se dan ciertas condiciones (ver, más adelante, el apartado Supuestos del modelo de
regresión), el estadístico se aproxima a la distribución de probabilidad t de Student con
n ! p ! 1 grados de libertad. Puede rechazarse la hipótesis [10.32] si el valor absoluto de
es mayor que el cuantil 100 (1 ! α / 2) de la distribución t con n ! p ! 1 grados de libertad.
El rechazo de [10.32] indica que la correspondiente X j contribuye significativamente al
ajuste del plano de regresión. El no rechazo de indica que la correspondiente X j puede eli-
minarse de la ecuación sin pérdida de ajuste.
El denominador de [10.33], , es el error típico de y, aunque es algo más comple-
jo de calcular que en el caso de la regresión simple17, los programas informáticos de análisis
estadístico lo incluyen de forma rutinaria. En nuestro ejemplo, en el caso de las variables
basal y tto se obtienen valores que llevan al rechazo de la hipótesis [10.32]. No así en
el caso de la variable edad. Por tanto, la variable edad puede eliminarse de la ecuación de
regresión sin pérdida de ajuste18.
Este resultado nos recuerda que los coeficientes de regresión son coeficientes parciales.
A pesar de que la edad está significativamente relacionada con la recuperación (RXY = !0,58,
p = 0,007), esta relación se desvanece cuando entran en juego las variables basal y tto. Y es-
to ocurre porque la variable edad correlaciona !0,78 con la variable tto: la edad media de los
sujetos que han recibido el tratamiento 1 (estándar = 56,8) es mayor que la de los sujetos que
17
= , donde es la varianza de X j y es el coeficiente de determinación que se ob-
tiene con la ecuación de regresión de X j sobre el resto de variables independientes.
18
El valor de no cambia si se elimina la variable edad de la ecuación. Y tampoco cambia el valor de los coe-
ficientes de regresión tipificados correspondientes a basal y a tto.
392 Análisis de datos (vol. II)
han recibido el tratamiento 2 (combinado = 45,9). Como además ocurre que los sujetos que
reciben el tratamiento 2 se recuperan mejor que los que reciben el tratamiento 1, la relación
entre edad y recuperación podría ser simplemente resultado de la relación entre tto y re-
cuperación: la edad podría estar correlacionando negativamente con la recuperación porque
los sujetos más jóvenes han recibido el tratamiento más eficaz19. En el siguiente apartado se
trata más a fondo esta idea.
Los errores típicos pueden utilizarse para construir intervalos de confianza siguien-
do la misma estrategia que en regresión simple (ver ecuación [10.17]).
No existe una única forma de valorar la importancia o peso relativo de una variable dentro
de una ecuación de regresión. Entre otras cosas, porque para poder hacer esto es necesario
aclarar qué se entiende por importancia de una variable.
Si se considera que la variable más importante es la que más contribuye al cambio es-
perado en Y, entonces la importancia relativa de las variables puede establecerse a partir de
los coeficientes de regresión tipificados: cuanto mayor es un coeficiente tipificado, mayor
es el cambio esperado en Y asociado a un cambio de una unidad en X j . Y esto, indepen-
dientemente de cuál sea la métrica original de las variables.
Si se considera que la variable más importante es la que más contribuye al ajuste global,
es decir, la que más contribuye a reducir los errores de predicción, entonces la importancia
relativa de las variables puede establecerse mediante el cuadrado del coeficiente de corre-
lación semiparcial: .
En el Apéndice 5 hemos estudiado el coeficiente de correlación parcial como una medida
del grado de relación neta entre dos variables, es decir, del grado de relación entre dos varia-
bles cuando se elimina de ambas (se controla o parcializa) el efecto de terceras variables. Por
ejemplo, R12|3 es la relación entre las variables 1 y 2 cuando se elimina de ambas el efecto de
19
Por supuesto, también podría estar ocurriendo lo contrario, es decir, que el tratamiento 2 fuera más eficaz que el 1 porque
se ha aplicado a pacientes que se recuperan mejor (pacientes más jóvenes). Pero el hecho de que el peso de la variable tto
sea distinto de cero y sensiblemente mayor que el de la variable edad, y que el peso de ésta no sea distinto de cero está indi-
cando: (1) que la variable tto explica una parte de la recuperación que no puede explicar la variable edad y (2) que la varia-
ble edad no puede explicar algo distinto de lo que están explicando las variables tto y basal.
Es posible precisar qué es lo que realmente está ocurriendo formando cuatro grupos de pacientes en función del trata-
miento recibido y de la edad (separando a los 5 sujetos más jóvenes de los 5 menos jóvenes en cada tratamiento). La siguien-
te tabla muestra la recuperación media de estos cuatro grupos:
Un análisis de estas medias indica, en primer lugar, que la recuperación media es mayor con el tratamiento 2 tanto entre los
pacientes más jóvenes (t8 = !3,39, p = 0,009) como entre los menos jóvenes (t8 = !3,67, p = 0,006); y, en segundo lugar,
que la recuperación media de los pacientes más jóvenes no difiere significativamente de la de los menos jóvenes ni cuando
reciben el tratamiento 1 (t8 = !0,24, p = 0,819) ni cuando reciben el tratamiento 2 (t8 = !0,75, p = 0,476). Y esto permite
afirmar que la relación entre edad y recuperación es una relación espuria resultado de haber aplicado el tratamiento más
eficaz a pacientes más jóvenes.
Capítulo 10. Análisis de regresión lineal 393
= ! [10.34]
= [10.35]
= + [10.36]
20
Aunque el signo de un coeficiente de regresión suele indicar el sentido positivo o negativo de la relación entre Y y la
correspondiente X j , esto no tiene por qué ser necesariamente así. Puede ocurrir que el signo de un coeficiente sea distinto
del sentido de la relación. La razón de esto es que los coeficientes de una ecuación de regresión múltiple son parciales y,
por tanto, su valor depende del resto de elementos presentes en la ecuación. Una variable independiente tiene un peso sig-
nificativo en una ecuación de regresión cuando, independientemente de su relación con Y, consigue explicar una parte de
Y que otras variables no explican; y su relación con esa parte de Y podría no tener el mismo signo que su relación con Y.
394 Análisis de datos (vol. II)
Por tanto, en una ecuación de regresión con dos variables independientes (variables 1 y 2),
el cuadrado del coeficiente de correlación múltiple (es decir, el coeficiente de determinación
) es la suma del cuadrado de la correlación simple entre la variable dependiente y una
cualquiera de las dos variables independientes ( ) más el cuadrado de la correlación entre
la variable dependiente y la parte de la segunda variable independiente que no depende o no
está explicada por la primera ( ).
Y esto implica que el coeficiente de determinación se compone de la informa-
ción que aporta la primera variable ( ), más la información adicional no redundante que
aporta una segunda variable ( ), más la información adicional no redundante que aporta
una tercera variable ( ), y así sucesivamente. Es decir,
= + + + ··· + [10.37]
En nuestro ejemplo sobre la relación entre las variables basal, tto y recuperación (hemos de-
sechado la variable edad por no tener un peso significativo en la ecuación), los coeficientes
de correlación semiparcial entre la variable dependiente y cada una de las dos independientes
valen, respectivamente, 0,438 y 0,579. Esto significa que, en una ecuación de regresión que
ya contiene la variable tto, la incorporación de la variable basal hace aumentar la proporción
de varianza explicada en 0,4382 = 0,19 puntos; y en una ecuación que ya contiene la variable
basal, la incorporación de la variable tto hace aumentar la proporción de varianza explicada
en 0,5792 = 0,34 puntos. Y sabemos que ambos aumentos son estadísticamente significativos
(es decir, representan un incremento significativo en el ajuste de la ecuación de regresión)
porque ya hemos comprobado que sus correspondientes coeficientes de regresión son signi-
ficativamente distintos de cero.
En resumen, la importancia relativa de una variable dentro de una ecuación de regresión
puede valorarse atendiendo a dos criterios diferentes: su peso en los pronósticos (coeficientes
de regresión tipificados) y su contribución neta al ajuste global (coeficiente de correlación
semiparcial elevado al cuadrado). En nuestro ejemplo, tanto el coeficiente de regresión tipi-
ficado mayor (en valor absoluto) como el coeficiente de correlación semiparcial más alto
(también en valor absoluto) corresponden a la variable tto.
21
A estas variables se les suele llamar variables dummy (ficticias) o variables indicador. Nosotros seguiremos llamándo-
las dicotómicas.
Capítulo 10. Análisis de regresión lineal 395
centro (ver Tabla 10.1), que tiene J = 3 categorías, puede convertirse en J ! 1 = 2 variables
dicotómicas creando las variables centro_A (con código 1 para el centro A y código 0 para
los centros B y C) y centro_B (con código1 para el centro B y código 0 para los centros A y
C). Las variables centro_A y centro_B, tomadas juntas, contienen exactamente la misma in-
formación que la variable centro. El centro A queda identificado con el código 1 en centro_A
y el código 0 en centro_B; el centro B, con el código 0 en centro_A y el código 1 en cen-
tro_B; y el centro C, con el código 0 tanto en centro_A como en centro_B. No es necesario
crear una tercera variable para identificar el centro C (sería redundante), como tampoco es
necesario crear dos variables, sino una, para identificar las dos categorías de una variable
dicotómica.
Al calcular la ecuación de regresión utilizando la variable recuperación como variable
dependiente y las variables centro_A y centro_B como variables independientes se obtiene
el siguiente resultado:
Pronóstico (recuperación) = 8,25 + 5,42 (centro_A) + 0,25 (centro_B )
El valor de la intersección (8,25) representa la recuperación estimada para los pacientes del
centro C (el valor pronosticado cuando tanto centro_A como centro_B toman el valor 0). Este
valor, 8,25, sirve de referente para interpretar el resto de los coeficientes de la ecuación. El
coeficiente asociado a centro_A (5,42) representa la recuperación estimada para los pacientes
del centro A en comparación con la de los pacientes del centro C (esta diferencia de 5,42 pun-
tos es significativamente distinta de cero; t17 = 2,84; p = 0,011). Y el coeficiente asociado a
centro_B representa la recuperación estimada para los pacientes del centro B en comparación
con la de los pacientes del centro C (esta diferencia de 0,25 puntos no es significativamente
distinta de cero; t17 = 0,13; p = 0,897). Por tanto, a los pacientes del centro A (centro_A = 1,
centro_B = 0) se les está estimando una recuperación de 8,25 + 5,42 = 13,67 puntos; a los del
centro B (centro_A = 0, centro_B = 1), de 8,25 + 0,25 = 8,50 puntos; y a los del centro C (cen-
tro_A = 0, centro_B = 0), de 8,25. Todo lo cual no es otra cosa que la recuperación media
de cada centro.
Por supuesto, si se añaden nuevas variables a la ecuación, el valor de los coeficientes de
regresión cambia. Añadiendo, por ejemplo, la variable tto se obtiene el siguiente resultado:
Pronóstico (recuperación) = 0,63 + 3,80 (centro_A) + !0,44 (centro_B ) + 5,54 (tto)
Ahora, a los pacientes del centro C que han recibido el tratamiento estándar (centro_A = 0,
centro_B = 0, tto = 1) se les pronostica una recuperación de 0,63 + 5,54 = 6,17 puntos; y a
los que han recibido el tratamiento combinado (centro_A = 0, centro_B = 0, tto = 2), se les
pronostica una recuperación de 0,63 + 2 (5,54) = 11,71 puntos.
A los pacientes del centro A que han recibido el tratamiento estándar (centro_A = 1, cen-
tro_B = 0, tto = 1) se les pronostica una recuperación de 0,63 + 3,80 + 5,54 = 9,97 puntos; y
a los que han recibido el tratamiento combinado (centro_A = 1, centro_B = 0, tto = 2), se les
pronostica una recuperación de 0,63 + 3,80 + 2 (5,54) = 15,51 puntos. El coeficiente asociado
a centro_A (3,80) sigue indicando el aumento en la recuperación que se pronostica a los pa-
cientes del centro_A en comparación con los del centro_B.
Por último, a los pacientes del centro B que han recibido el tratamiento estándar (cen-
tro_A = 0, centro_B = 1, tto = 1) se les pronostica una recuperación de 0,63 ! 0,44 + 5,54 =
5,73 puntos; y a los que han recibido el tratamiento combinado (centro_A = 0, centro_B = 1,
tto = 2), una recuperación de 0,63 ! 0,44 + 2 (5,54) = 11,27 puntos.
396 Análisis de datos (vol. II)
= ! [10.38]
= [10.39]
22
El estadístico F propuesto en [10.39] coincide con el cuadrado del estadístico propuesto en [10.33] y utilizado para
contrastar la significación individual de cada coeficiente de regresión.
23
Recordemos que el criterio de selección es que la variable incorporada a la ecuación genere un incremento significativo
en el coeficiente de determinación. En el primer paso, este incremento es el que va desde cero hasta el valor del coeficiente
de determinación correspondiente a la primera variable seleccionada.
398 Análisis de datos (vol. II)
24
Esta estrategia de construcción de una ecuación de regresión por pasos no debe confundirse con la regresión multinivel
(la estudiaremos en el siguiente volumen), la cual, a veces, también recibe el nombre de jerárquica.
25
Al incorporar o eliminar bloques de variables, las ecuaciones [10.38] y [10.39] para cuantificar el cambio en el coefi-
ciente de determinación y para valorar la significación estadística de ese cambio, quedan de la siguiente manera:
= ! [10.40]
= [10.41]
Linealidad
En un análisis de regresión lineal se está asumiendo que las variables independientes están
linealmente relacionadas con la dependiente. Y para representar esta relación se utiliza una
ecuación lineal, es decir, una ecuación que estima para Y un cambio constante (lineal) de
tamaño B j por cada unidad que aumenta X j (permaneciendo el resto de variables constan-
tes). El supuesto de linealidad es crucial: no tiene sentido utilizar una ecuación lineal si la
relación subyacente entre las dos partes de la ecuación no es lineal.
Al error consistente en utilizar un modelo lineal para dar cuenta de una relación que no
es lineal se le llama error de especificación. Este tipo de error ocurre cuando no se eligen bien
las variables independientes (porque hay otra u otras variables que podrían explicar mejor el
comportamiento de la variable dependiente, o porque se han incluido en el modelo variables
irrelevantes) o cuando, habiendo elegido bien las variables independientes, su relación con
la dependiente no es de tipo lineal. La consecuencia de un error de especificación es que los
coeficientes de regresión Bj se convierten en estimadores sesgados y poco eficientes de sus
400 Análisis de datos (vol. II)
Figura 10.9. Diagramas de dispersión. Izquierda: basal por recuperación. Derecha: basal por residuos
En regresión múltiple, los diagramas de dispersión de Y con cada X j pueden resultar en-
gañosos porque no cuentan toda la historia. En regresión múltiple interesa valorar las rela-
ciones parcializadas. Y esto puede hacerse obteniendo un diagrama de dispersión parcial
para cada variable independiente. Los diagramas de dispersión parcial representan la relación
entre dos conjuntos de residuos: los que se obtienen al pronosticar Y con todas las variables
independientes excepto X j y los que se obtienen al pronosticar X j con el resto de variables
independientes. La correlación entre estos dos conjuntos de residuos es el coeficiente de
correlación parcial entre Y y X j ; y la pendiente de la recta de regresión es Bj (es decir, el
coeficiente de regresión asociado a X j en la ecuación de regresión múltiple).
La Figura 10.10 muestra dos de los diagramas de dispersión parciales correspondientes
a la ecuación de regresión que incluye las variables independientes basal, edad y tto. El dia-
grama de la izquierda recoge la relación entre las variables basal y recuperación tras elimi-
nar de ambas el efecto atribuible a las variables edad y tto. El de la derecha recoge la rela-
ción entre las variables edad y recuperación tras eliminar de ambas el efecto atribuible a las
26
Suele ser buena idea construir este diagrama de dispersión con variables no incluidas en la ecuación. Si los residuos
muestran una pauta no aleatoria con alguna de esas variables, podría interesar incluir esa variable en la ecuación.
Capítulo 10. Análisis de regresión lineal 401
Además de asumir que la relación subyacente es lineal, la ecuación de regresión estima los
valores de Y combinando aditivamente las variables independientes, es decir, sumándolas. Y
esto implica que el cambio estimado para Y por cada unidad que aumenta Xj (permaneciendo
el resto de variables constantes) es siempre el mismo independientemente del valor concreto
que tomen el resto de las variables incluidas en la ecuación, es decir, independientemente del
valor concreto en el que permanezcan constantes el resto de las variables. Y esto significa
que se está asumiendo que no existe interacción entre las variables independientes. Si la rela-
ción entre Y y una determinada X j depende de los valores que tome alguna otra X j , entonces
el modelo aditivo no es un modelo apropiado. En presencia de interacción entre variables
independientes es recomendable incluir en la ecuación el producto de las variables que in-
teraccionan (ver Jaccard y Turrisi, 2003).
No colinealidad
El concepto de colinealidad se refiere a la relación entre variables independientes (si hay
involucradas más de dos variables también se habla de multicolinealidad). Existe colinealidad
perfecta cuando una variable independiente es función lineal perfecta de otra u otras variables
independientes. Para que el método de mínimos cuadrados pueda estimar los coeficientes de
regresión es imprescindible que no exista colinealidad perfecta. En condiciones de colinea-
lidad perfecta no existe una solución única para las estimaciones mínimo-cuadráticas.
La colinealidad perfecta es infrecuente27, pero no lo es cierto grado de colinealidad. Y el
problema de una colinealidad elevada es que la varianza de los coeficientes de regresión
27
Se da, por ejemplo, cuando se incluye una variable que es suma de otras que también se incluyen (los ítems de una escala
y la puntuación total en la escala obtenida como la suma de los ítems), o cuando se incluyen variables cuyos valores suman
una constante (el porcentaje de tiempo libre dedicado a cada una de un conjunto de actividades).
402 Análisis de datos (vol. II)
aumenta sensiblemente28. Y eto hace que las estimaciones se vuelven inestables: pequeños
cambios en los datos pueden llevar a cambios importantes en las estimaciones.
Lo habitual en una ecuación de regresión múltiple es que exista algún grado de colineali-
dad, pues es improbable que un conjunto de variables sean completamente independientes.
La cuestión no es si existe o no colinealidad, sino si el grado de colinealidad existente es lo
bastante grande como para representar un problema.
Existen algunos indicios que alertan sobre un posible problema con el grado de colinea-
lidad. Por ejemplo, que el estadístico F que contrasta la hipótesis global de no relación sea
significativo y, sin embargo, no lo sea ninguno de los coeficientes de regresión (lo cual puede
ocurrir cuando las varianzas de los coeficientes son muy grandes); o que algún coeficiente de
regresión tenga un signo distinto del esperado; o que algún coeficiente de regresión tipificado
sea excesivamente grande (mayor que uno en valor absoluto).
También existen algunos estadísticos que pueden ayudar a detectar un posible problema
con el grado de colinealidad. El nivel de tolerancia de una variable independiente X j se ob-
tiene restando a 1 el coeficiente de determinación correspondiente a la ecuación de regresión
de X j sobre el resto de variables independientes (1 ! ). Un nivel de tolerancia próximo a
1 indica que la variable X j no está relacionada con el resto de variables independientes; un
nivel de tolerancia próximo a 0 indica que la variable X j está muy relacionada con el resto
de variables independientes. Suele asumirse que los problemas asociados a la presencia de
colinealidad empiezan con tolerancias menores que 0,10.
A los valores inversos de los niveles de tolerancia, 1/ (1 ! ), se les llama factores de
inflación de la varianza (FIVj ). Reciben este nombre porque reflejan el aumento que expe-
rimenta la varianza de cada coeficiente de regresión como consecuencia de la relación
existente entre las variables independientes (las raíces cuadradas de los FIVj indican cuán-
to aumentan los errores típicos de los coeficientes de regresión Bj , los cuales intervienen en
los estadísticos T y en los intervalos de confianza). Los FIVj informan exactamente de lo
mismo que los niveles de tolerancia. Valores mayores que 10 suelen ir acompañados de los
problemas de estimación asociados a un exceso de colinealidad.
Para solucionar los problemas derivados de un exceso de colinealidad se han propues-
to diferentes soluciones. La más sencilla consiste en eliminar alguna de las variables inde-
pendientes que está causando el problema, pero esta solución puede llevar a un error de espe-
cificación al dejar fuera variables importantes desde el punto de vista teórico. Otra solución
consiste en combinar las variables muy relacionadas entre sí en nuevas variables que, aun no
correlacionando entre sí, todavía reflejen la pauta de relación subyacente (esta combinación
puede hacerse a partir de criterios teóricos o mediante alguna herramienta estadística de
reducción de datos como componentes principales). Por último, siempre existe la posibili-
dad de utilizar modelos de regresión que no se vean tan afectados como el lineal por la pre-
sencia de colinealidad, como, por ejemplo, la regresión ridge (Rozeboom, 1979); en algunos
contextos puede ser preferible obtener estimaciones sesgadas con varianza mínima en lugar
de estimaciones insesgadas con varianzas grandes.
28
Esto puede apreciarse fácilmente si nos fijamos en la ecuación que define el error típico de un coeficiente de regresión
(ver nota a pie de página número 17). El denominador de esta ecuación incluye el término 1 ! . Puesto que refleja
el grado de relación existente entre la variable Xj y las demás variables independientes, cuanto mayor sea esta relación (es
decir, cuanto mayor sea el grado de colinealidad), menor será el término 1 ! y , consecuentemente, mayor el error típico
del correspondiente coeficiente B j .
Capítulo 10. Análisis de regresión lineal 403
Independencia
Ya hemos definido los residuos como la diferencia entre los valores observados y los pro-
nosticados: Ei = . Estos residuos (valores muestrales) son estimaciones de los errores
poblacionales, es decir de las desviaciones de los verdaderos valores de Y respecto del plano
de regresión poblacional (Berry, 1993). En un modelo de regresión lineal se asume que los
errores tienen media cero y que son independientes entre sí.
En primer lugar, las estimaciones mínimo-cuadráticas de los coeficientes de regresión no
se ven afectadas por el valor de la media poblacional de los errores. No así las estimaciones
de la intersección, que se vuelven sesgadas cuando la media de los errores es distinta de cero
(el valor esperado de B0 se aleja de su parámetro en la misma cantidad que la media de los
errores se aleja de cero). Aunque la intersección de una ecuación de regresión suele tener po-
co interés, cuando se trabaja con variables independientes centradas (puntuaciones diferencia-
les o de desviación) la intersección es una estimación de la media de Y; en estos casos, si la
media de los errores es distinta de cero, B0 ofrecerá estimaciones sesgadas de la media de Y.
En segundo lugar, la independencia entre errores significa que no están autocorrelacio-
nados, es decir, que no aumentan o disminuyen siguiendo una pauta discernible. Este supuesto
suele incumplirse en datos que proceden de estudios longitudinales (como en el caso de las
series temporales), en datos recogidos secuencialmente (donde los terapeutas pueden mejorar
su forma de administrar un tratamiento, los sujetos mostrar fatiga, los aparatos sufrir algún
tipo de desgaste, etc.), en datos recogidos en grupos homogéneos de sujetos pero diferentes
entre sí (grupos de diferente ideología política o religiosa, grupos de diferente estatus socio-
económico, etc.). En este tipo de estudios, el error asociado a un caso tiende a parecerse a los
errores de los casos adyacentes. Cuando ocurre esto es preferible utilizar otros métodos de
estimación, como el de mínimos cuadrados generalizados, o analizar los datos con otro tipo
de estrategias (ver Montgomery, Johnson y Gardiner, 1990; Ostrom, 1990).
Cuando los errores están autocorrelacionados, aunque las estimaciones de los coeficientes
de regresión todavía son insesgadas, sus varianzas tienden a tomar valores más pequeños de
lo que deberían. Y la consecuencia de esto es que las pruebas de significación y los intervalos
de confianza tienden a detectar coeficientes de regresión significativamente distintos de cero
con demasiada frecuencia.
Los residuos (valores muestrales) son las mejores estimaciones que tenemos de los erro-
res (valores poblacionales). Pero, debido a la forma de calcularlos, aunque su media siempre
vale cero, no son completamente independientes entre sí (ver Montgomery, Peck y Vining,
2001, págs. 132-133). La cuestión es si el grado de autocorrelación existente entre los resi-
duos es o no lo bastante grande como para sospechar que los errores poblacionales no son in-
dependientes. Para decidir sobre esta cuestión puede utilizarse un diagrama de dispersión con
los casos en el eje horizontal y los residuos en el vertical (siempre, claro está, que el orden
de los casos obedezca a algún tipo de secuencia). Si los residuos son aproximadamente in-
dependientes, los puntos de este diagrama deben estar aleatoriamente repartidos en torno al
valor cero del eje vertical.
Los diagramas de la Figura 10.11 muestran diferentes pautas de autocorrelación. En con-
diciones de autocorrelación nula, la nube de puntos está aleatoriamente repartida en torno al
valor cero del eje vertical (diagrama de la izquierda); las subidas y bajadas de las líneas dis-
continuas que unen los puntos siguen una pauta aleatoria. En condiciones de autocorrelación
positiva, los puntos se encuentran alineados de forma creciente o decreciente, o a intervalos
404 Análisis de datos (vol. II)
• •
• • •• •
• • •
• • • • • • • • •
•
Residuos
Residuos
Residuos
• • • •• •
• • •
• •• •
• • • • • • •
• •
• • • • • • •
• •
•
El grado de autocorrelación entre los residuos también puede valorarse mediante el estadís-
tico de Durbin-Watson (1950, 1951, 1971):
DW = [10.42]
(con = ). Este estadístico toma valores entre 0 y 4. Los valores en torno a 2 indican
que los residuos son independientes; los valores menores que 2 indican autocorrelación po-
sitiva; los mayores que 2, autocorrelación negativa. Suele asumirse que los errores son in-
dependientes cuando el estadístico DW toma valores comprendidos entre 1,5 y 2,5 (existen
tablas para tomar decisiones sobre la hipótesis de autocorrelación nula; ver Draper y Smith,
1998, Cap. 9).
El supuesto de independencia también afecta a las variables independientes. Puesto que
los errores representan la parte de Y que el modelo de regresión no explica, es razonable espe-
rar que los errores no estén relacionados con las variables incluidas en la ecuación; si lo están,
entonces las variables independientes no están aportando al modelo todo lo que pueden. Es-
to puede valorarse elaborando diagramas de dispersión con cada variable independiente en
el eje horizontal y los residuos en el eje vertical. Los puntos de este diagrama deben estar
aleatoriamente repartidos en torno al valor cero del eje vertical (Figura 10.9, derecha).
Normalidad
Este supuesto y el siguiente son idénticos a los ya estudiados con el mismo nombre a propó-
sito de los modelos de análisis de varianza. En el modelo de regresión simple se asume que
a cada valor de X le corresponde una población de valores Y. La Figura 10.12 ilustra esta cir-
cunstancia. Cada una de estas poblaciones de valores Y se asume que son normales y que
están centradas en el valor esperado de Y, que es justamente por donde pasa la recta po-
blacional. En regresión múltiple se asume que existe una población normal de valores Y por
cada combinación distinta de valores Xj . El supuesto de normalidad es necesario para ga-
rantizar que los estadísticos utilizados al contrastar hipótesis del tipo β j = 0 se aproximan a
sus respectivas distribuciones muestrales.
Capítulo 10. Análisis de regresión lineal 405
E (Y | Xi )
X
X1 X2 ··· Xn
Homocedasticidad
Las poblaciones de la Figura 10.12, además de normales, se asume que son homocedásticas,
es decir, que tienen la misma varianza. La media cuadrática error (MCE, ver ecuación [10.15])
que se utiliza en los estadísticos T y F y en los intervalos de confianza es una estimación de
la varianza de esas poblaciones normales. Cuando se calcula en una muestra concreta, la MCE
se obtiene promediando las varianzas de Y correspondientes a cada valor de X (o combinación
de valores Xj ). Si el promedio de esas varianzas muestrales, es decir, MCE , ha de utilizarse
con algún sentido, es necesario asumir que es el promedio de varianzas muestrales que es-
timan la misma varianza poblacional.
En condiciones de heterocedasticidad (varianzas distintas) los coeficientes Bj siguen
siendo estimadores insesgados de sus respectivos parámetros, pero se vuelven poco eficientes
(es decir, aumenta su varianza). Y esto implica, una vez más, que las pruebas de significación
y los intervalos de confianza podrían llevar a conclusiones erróneas.
Para valorar este supuesto puede utilizarse un diagrama de dispersión con los pronósti-
cos en el eje horizontal y los residuos en el vertical. Puesto que cada pronóstico es una com-
binación lineal de valores X, cada pronóstico distinto refleja una combinación distinta de
valores X. Al representar los pronósticos con los residuos se está obteniendo información
acerca de la dispersión de las distribuciones empíricas correspondientes a las distribuciones
poblacionales representadas en la Figura 10.12. Si la varianza de los residuos es constante,
la nube de puntos estará distribuida homogéneamente en torno al valor cero del eje vertical
406 Análisis de datos (vol. II)
(es decir, la nube de puntos tendrá aproximadamente la misma altura a lo largo de todo el eje
horizontal; ver Figura 10.13, izquierda). Los diagramas del centro y de la derecha de la Figu-
ra 10.13 muestran incumplimientos más o menos frecuentes de este supuesto.
• • • • •
• • • • • •
• • • • •
• •• • • •• • •
•
•
•
• • • • • •
• • • •• • • • • • • • • •
Residuos
Residuos
Residuos
• • • • •
• • • •
• •
• •
• • •
• • • • • • • •• • • • • • • • • • • •
• • • • • • • • • • •
• • • • • • • • • • • • • • •
• • • • • •
• • •
•
Pronósticos Pronósticos Pronósticos
Casos atípicos
Un caso atípico es un caso inusual, un caso que no se parece a los demás. Una exploración
descriptiva inicial de los datos, además de ofrecer una primera impresión sobre las caracte-
rísticas de cada variable, también sirve para detectar posibles casos atípicos. Sin embargo,
esto, que es algo muy útil en el caso de la regresión simple, no lo es tanto en el caso de la
regresión múltiple. El hecho de que no existan casos atípicos en ninguna variable indivi-
Capítulo 10. Análisis de regresión lineal 407
dualmente considerada no significa que todo esté bien. Es necesario valorar la posibilidad
de que existan casos atípicos multivariados: un caso puede tener una puntuación razonable
en dos variables individualmente consideradas y ser un caso atípico al combinar ambas va-
riables. Por ejemplo, no es inusual que una persona tenga una altura de 180 cm; tampoco lo
es que una persona tenga un peso de 55 kg; pero sí es inusual que una persona con una altura
de 180 cm tenga un peso de 55 kg.
Casos atípicos en Y
Puesto que los pronósticos de una ecuación de regresión representan el centro estimado de
cada distribución poblacional de Y (ver Figura 10.12), los residuos = son una es-
timación del grado en que cada valor de Y se aleja del valor esperado de su distribución. En
consecuencia, los casos atípicos en Y tendrán asociados residuos grandes (en valor absoluto).
Suele considerarse que los residuos que se alejan más de tres desviaciones típicas de su
media corresponden a casos mal pronosticados. Y los casos mal pronosticados son, proba-
blemente, casos atípicos en Y . El tamaño de los residuos puede valorarse tipificándolos:
= [10.43]
A estos residuos se les llama tipificados o estandarizados y tienen una media de cero y una
desviación típica de uno (aproximadamente). Por tanto, un residuo tipificado mayor que 3 (en
valor absoluto) está delatando un posible caso atípico en Y (es seguro que se trata de un caso
mal pronosticado y, por tanto, es probable que se trate de un caso atípico en Y ).
Tipificar los residuos a partir de MCE es solo una aproximación. Del mismo modo que
cada pronóstico tiene su propio error típico (ver ecuación [10.18]), cada residuo también tiene
el suyo29. Si cada residuo se tipifica dividiéndolo por su error típico, se obtienen unos residuos
muy utilizados en regresión lineal: los residuos studentizados:
= [10.46]
29
La varianza de un residuo Ei es tanto mayor cuanto más se aleja un caso de la media de X. En regresión simple, esta
varianza se obtiene mediante
= [10.44]
Puesto que la MCE está multiplicada por 1 menos una cantidad que depende de , el valor de [10.44] será tanto más
pequeño cuanto más alejado se encuentre de su media. En regresión múltiple, la varianza de E i se obtiene mediante
= [10.45]
donde hi se refiere a los elementos diagonales de la matriz H = X(X’ X)!1 X’. Esta matriz, de dimensiones n × n, recibe el
nombre de matriz hat y desempeña un importantísimo rol en el análisis de regresión lineal (contiene la información necesaria
para transformar el vector de valores observados en el de valores pronosticados: = HY ). Los elementos diagonales de H
representan el grado de alejamiento de cada caso respecto del centroide del espacio definido por el conjunto de variables
independientes X j . Reflejan la influencia (leverage) de cada caso en la forma final de la ecuación de regresión. El valor de
hi asociado a un caso es tanto mayor cuanto más alejado se encuentra ese caso de su centroide (es decir, del centro común
de las Xj ). Esto significa que la varianza de un residuo es tanto mayor cuanto más centrado se encuentra el caso (recuérdese
que con las varianzas de los pronósticos ocurre justamente lo contrario). No obstante, en [10.44] se puede_ apreciar que la
corrección que se aplica sobre MCE no depende únicamente de la distancia de un caso a su centro (Xi ! X ), sino del tamaño
muestral: cuanto mayor es el tamaño muestral, menor es la corrección que sufre MCE. Por tanto, con tamaños muestrales
grandes, los residuos studentizados definidos en [10.46] serán muy parecidos a los tipificados definidos en [10.43].
408 Análisis de datos (vol. II)
A estos residuos se les lama studentizados porque se distribuyen según el modelo de proba-
bilidad t de Student con n ! p ! 1 grados de libertad. Si puede asumirse que la variable Y se
distribuye normalmente en torno a la recta de regresión poblacional (ver Figura 10.12), en-
tonces los residuos studentizados pueden utilizarse para decidir si un determinado caso se
aleja significativamente de su valor pronosticado. Para ello, basta con comprobar si el valor
absoluto de es mayor que el cuantil 100 (1 ! α /2) de la distribución t con n ! p ! 1 grados
de libertad. Con muestras grandes, sigue siendo válido (y generalmente más útil) el criterio
de revisar aquellos casos con residuos studentizados mayores que 3 (en valor absoluto). Un
residuo que se aleja más de tres desviaciones típicas de su valor esperado está delatando un
caso mal pronosticado y, como tal, un caso que conviene revisar.
Un diagrama de dispersión con los pronósticos en el eje horizontal y los residuos en el
vertical suele ser bastante útil para identificar posibles casos atípicos en Y.
Casos atípicos en X j
El grado en que un caso es inusual o atípico en el conjunto de variables independientes X j
suele cuantificarse mediante una medida llamada influencia (leverage). Esta medida se repre-
senta mediante h i (ver nota a pie de página número 29, en la página anterior) y refleja el gra-
do de alejamiento de cada caso respecto del centro de su distribución, es decir, el grado de
alejamiento del conjunto de puntuaciones de un caso respecto de las puntuaciones medias de
todos los casos.
Los valores h i oscilan30 entre 1/n y 1, y su media vale ( p + 1) / n. Cuanto mayor es el valor
h i asociado a un caso, más inusual o atípico es en X j .
Para interpretar la magnitud de hi se han propuesto diferentes reglas (ver Chatterjee y
Hadi, 1988; Stevens, 1984). Hoaglin y Welsch (1978) sugieren revisar los casos con valores
h i mayores que 2 ( p + 1) / n. Pero Belsley, Kuh y Welsch (1980) consideran que este criterio
arroja demasiados casos atípicos, particularmente si se trabaja con pocas variables indepen-
dientes y muestras grandes. Stevens (1992) sugiere revisar los casos con valores h i mayores
que 3( p + 1)/n. Y una regla que funciona razonablemente bien para identificar casos atípicos
en Xj es la siguiente: los valores hi menores que 0,2 son poco problemáticos, los valores com-
prendidos entre 0,2 y 0,5 son arriesgados; los valores mayores que 0,5 deben revisarse.
Casos influyentes
Al calcular, por ejemplo, una media, todos los casos de la muestra tienen el mismo peso en
el resultado. En una ecuación de regresión no ocurre lo mismo. Aunque todos los casos contri-
buyen a estimar los coeficientes de la ecuación, no todos lo hacen en la misma medida. Los
casos influyentes son casos que afectan de forma importante a los resultados del análisis.
Un caso influyente no debe confundirse con un caso atípico. Los casos atípicos son casos
que conviene revisar, pero no necesariamente son casos influyentes. Para que un caso pueda
ser etiquetado de influyente, además de ser atípico, debe alterar de forma importante los resul-
tados del análisis.
30
Algunos programas informáticos, entre los que se encuentra el SPSS, no calculan los valores de influencia (valores de
la diagonal de la matriz H), sino los valores de influencia centrados (hi ! 1/ n), que oscilan entre 0 y (n ! 1) / n. Esta peque-
ña variante no afecta a la interpretación de los resultados, pero sí a la media de hi , que vale p / n en lugar de ( p + 1) / n.
Capítulo 10. Análisis de regresión lineal 409
Los ejemplos de la Figura 10.14 muestran casos atípicos que no pueden ser considerados
influyentes. La línea continua es a la recta de regresión basada en todos los casos; la línea dis-
continua es a la recta de regresión basada en todos los casos menos el atípico (el caso alejado
de los demás). El diagrama de la izquierda incluye un caso atípico en Y (su residuo es muy
grande), pero no en X (toma un valor intermedio en X ); el diagrama de la derecha incluye un
caso atípico en X (toma un valor muy grande X ) pero no en Y (su residuo es muy pequeño).
A pesar de que ambos son casos atípicos, las pendientes de las rectas de regresión apenas se
alteran al eliminar estos casos del análisis.
Figura 10.14. Diagramas de dispersión y rectas de regresión con casos atípicos no influyentes
Y Y
X X
Los ejemplos de la Figura 10.15 muestran casos que, además de atípicos, son influyentes. El
diagrama de la izquierda incluye un caso atípico tanto en Y como en X (su residuo es grande
y su valor en X es claramente mayor que el del resto de los casos); el de la derecha incluye
un caso atípico en X pero no en Y (toma un valor grande en X pero su residuo es pequeño).
Ahora, a diferencia de lo que ocurría en los diagramas de la Figura 10.14, las pendientes de
las rectas de regresión cambian sensiblemente al eliminar estos casos del análisis.
Figura 10.15. Diagramas de dispersión y rectas de regresión con casos atípicos e influyentes
Y Y
X X
Los diagramas de dispersión sirven para identificar con relativa facilidad la presencia de po-
sibles casos influyentes en regresión simple, pero son poco útiles en regresión múltiple. Al
aumentar el número de variables, la forma de valorar el grado de influencia de un caso consis-
410 Análisis de datos (vol. II)
te en comparar lo que ocurre cuando se utilizan todos los casos con lo que ocurre al eliminar
ese caso del análisis. Esta comparación se centra, por lo general, en tres resultados del aná-
lisis: (1) los coeficientes de regresión, (2) los pronósticos y (3) los residuos.
Para realizar estas comparaciones se estiman n + 1 ecuaciones de regresión: una basada
en todos los casos y las n restantes eliminando un caso cada vez. A los resultados basados en
todos los casos los hemos llamado , , , etc. A los resultados basados en todos los casos
menos uno los llamaremos , , , etc. Por ejemplo, mientras que es el pronóstico
obtenido para el caso i con la ecuación de regresión que incluye todos los casos, es el pro-
nóstico obtenido para el caso i con la ecuación de regresión que incluye todos los casos menos
el caso i.
El subíndice j indica que estas diferencias pueden calcularse con cualquier coeficiente de
regresión (incluida la intersección); el subíndice i indica que hay una de estas diferencias
para cada caso. Por tanto, a cada caso le corresponde un valor DFBETAS j (i) por cada coefi-
ciente de regresión presente en la ecuación.
Para interpretar estas diferencias, lo habitual es tipificarlas dividiéndolas entre su error
típico (ver Montgomery, Peck y Vining, 2001, págs. 213-214). Los promotores de este esta-
dístico sugieren revisar los casos a los que les corresponde alguna DFBETAS j (i) tipificada
mayor que .
Cook (1977, 1979) ha propuesto el estadístico probablemente más conocido y utilizado
para valorar la influencia de cada caso sobre los resultados de la regresión. Este estadístico
se conoce como distancia de Cook ( ) y se basa en la suma de los cambios que se produ-
cen en los coeficientes de regresión al ir eliminando cada caso del análisis31. Por tanto, a
diferencia de lo que ocurre con el estadístico DFBETAS j (i) , que se centra en el cambio de
cada coeficiente, el estadístico refleja el cambio que experimentan todos los coeficien-
tes de forma simultánea o conjunta. Cook y Weisberg (1982) señalan que este estadístico se
aproxima a una distribución F con p + 1 y n ! p ! 1 grados de libertad, y sugieren que un caso
debe ser considerado influyente (y por tanto, que debe ser revisado) cuando es mayor que
el cuantil Fp + 1, n ! p ! 1; 0,50 (cuantil 50). Esto equivale, en la mayoría de los casos, a considerar
que un caso es influyente cuando > 1.
31
La distancia de Cook puede calcularse mediante:
= [10.48]
En esta forma concreta de definir se observa claramente que la distancia asociada a un caso concreto depende del ta-
maño de hi y del tamaño de . Ambos valores tienen que ser altos para que también lo sea. Ahora bien, puesto que
hi es una medida del grado en que un caso es atípico en X j y es una medida del grado en que un caso es atípico en Y,
el estadístico está identificando un caso como influyente cuando es atípico simultáneamente en X j y en Y.
Capítulo 10. Análisis de regresión lineal 411
A cada caso le corresponde un valor DFFITS(i). Para interpretar estas diferencias, se tipifican
dividiéndolas entre su error típico (ver Montgomery, Peck y Vining, 2001, pág. 214). Debe
prestarse especial atención a los casos a los que les corresponde una DFFITS(i) tipificada ma-
yor que .
Hemos visto que la mejor manera de valorar el tamaño de un residuo consiste en studentizar-
lo, es decir, en dividirlo por su error típico individual32 en lugar de hacerlo por el error típico
promedio de todos los residuos. Con los residuos eliminados se hace lo mismo. A la versión
tipificada de un residuo eliminado se le llama residuo eliminado studentizado. Si un caso
es influyente, estos residuos tomarán valores alejados de cero. Puesto que la distribución de
estos residuos se aproxima a una t con n ! p ! 2 grados de libertad, lo razonable es revisar
los casos cuyo residuo eliminado studentizado (en valor absoluto) sea mayor que 3.
32
La varianza de un residuo se obtiene a partir de la ecuación [10.45]. La varianza de un residuo eliminado se obtiene de
forma algo distinta: = .
412 Análisis de datos (vol. II)
Puede ocurrir que un caso atípico se corresponda con una respuesta deseable o incluso
ideal (una recuperación espectacular, un rendimiento excelente, etc.). En estos casos, conocer
los valores que toma un caso atípico en las variables independientes puede aportar informa-
ción muy valiosa para futuros estudios.
No existe un acuerdo generalizado sobre la conveniencia o no de eliminar los casos atípi-
cos. No existe, por tanto, una única regla en la que basar esta decisión. Pero es innegable que,
para tomarla, puede ayudar el hecho de saber que, cuando se decide eliminar un caso del aná-
lisis, hay que informar de las razones que han llevado a hacer tal cosa.
Los casos atípicos podrían ser eliminados del análisis con la excusa de que están entor-
peciendo o inflando el ajuste. Pero, sin otro tipo de justificación, estaríamos pasando por alto
el hecho de que el aspecto más relevante de los relacionados con los casos atípicos consiste
precisamente en identificar las causas por las que son atípicos.
También podrían eliminarse los casos muy atípicos con el argumento de que el objetivo
del análisis es construir una ecuación para entender lo que ocurre con los casos típicos, no con
los atípicos. Este argumento es más convincente si los casos atípicos representan a una sub-
población especial que se sale del rango de variación típico o esperable en la población es-
tudiada. Sin embargo, si existe un conjunto de casos atípicos que parece formar un subgrupo
separado del resto, lo razonable es incorporarlos a la ecuación de regresión creando una varia-
ble dicotómica (con unos y ceros para diferenciar ambos subgrupos) o desarrollar diferentes
ecuaciones de regresión para los diferentes subgrupos (como se hace con los modelos multi-
nivel que estudiaremos en el volumen 3).
Una solución intermedia entre retener y eliminar los casos atípicos consiste en utilizar
métodos de estimación robustos, es decir, métodos cuyas estimaciones se ven menos alteradas
que las mínimo-cuadráticas por la presencia de casos atípicos o influyentes (ver por ejemplo,
Huynh, 1982; Neter, Kutner, Nachtscheim y Wasserman, 1996; Rousseeuw & Leroy, 1987).
Y cualquiera que sea la decisión que finalmente se decida adoptar con un caso atípico o
influyente, no debe olvidarse que el hecho de que un caso sea considerado atípico o influyente
siempre se hace tomando como referencia una ecuación de regresión concreta. Si la ecuación
cambia porque se incorporan nuevas variables o porque se elimina alguna de las incluidas,
los casos etiquetados como atípicos o influyentes pueden dejar de serlo y otros que antes no
lo eran pueden pasar a serlo.
Este apartado muestra cómo utilizar el SPSS para llevar a cabo un análisis de regresión lineal
con los datos de la Tabla 10.1 (los datos se encuentran en el archivo Tabla 10.1 depresión
hamilton reducido, en la página web del manual).
Para cubrir los diferentes objetivos del análisis vamos a realizar siete tareas: (1) obtener
la recta de regresión en puntuaciones directas y en puntuaciones típicas; (2) valorar el ajuste
de la recta mediante el coeficiente de determinación; (3) contrastar si los coeficientes de
regresión son distintos de cero y calcular sus intervalos de confianza; (4) obtener los pro-
nósticos que se derivan de la ecuación de regresión; (5) valorar la importancia relativa de
Capítulo 10. Análisis de regresión lineal 413
cada variable independiente; (6) chequear los supuestos del análisis; y (7) averiguar si exis-
ten casos atípicos e influyentes. Para llevar acabo estas siete tareas,
' Seleccionar la opción Regresión > Lineal del menú Analizar para acceder al cuadro de diá-
logo Regresión lineal.
' Trasladar la variable recuperación al cuadro Dependiente y las variables basal, edad y tto
a la lista Independientes.
Con estas selecciones ya se obtiene la ecuación de regresión, el coeficiente de determinación
y la significación de los coeficientes, es decir, la información necesaria para cubrir los tres
primeros objetivos del análisis. Para terminar de completar estos tres objetivos únicamente
faltan los intervalos de confianza de los coeficientes de regresión. Para obtenerlos,
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Regresión lineal: Esta-
dísticos y marcar la opción Intervalos de confianza del recuadro Coeficientes de regresión.
Bondad de ajuste
Los resultados del análisis comienzan con la Tabla 10.2, la cual incluye información relativa
al ajuste global de la ecuación de regresión: el coeficiente de correlación múltiple (R = 0,89;
ver ecuación [10.25]), el coeficiente de determinación (R cuadrado = 0,79; ver ecuaciones
[10.26] y [10.27]), el coeficiente de determinación corregido (R cuadrado corregida = 0,75;
ver ecuación [10.28]) y la raíz cuadrada de la media cuadrática error (error típico de la esti-
mación = 2,08; raíz cuadrada de la ecuación [10.31]).
Recordemos que cuanto mayor es el coeficiente de determinación, mejor es el ajuste. Un
valor corregido de 0,75 indica, en primer lugar, que la ecuación de regresión permite reducir
los errores de predicción en un 75 % y, en segundo lugar, que las variables basal, edad y tto
comparten el 75 % de la varianza de la variable recuperación. Por tanto, conocer las puntua-
ciones basales de los pacientes, su edad y el tratamiento que han recibido permite entender
(anticipar, explicar, etc.) el 79% de la variabilidad de su recuperación.
Ecuación de regresión
La mitad izquierda de la Tabla 10.4 recoge la información relativa a la ecuación de regresión
(ver ecuación [10.23]). La columna etiquetada coeficientes no tipificados contiene las esti-
maciones de los coeficientes de regresión parcial Bj que definen la ecuación de regresión en
puntuaciones directas (ver ecuación [10.23]):
Los coeficientes beta (coeficientes tipificados) son los coeficientes que definen la ecuación
de regresión en puntuaciones típicas, es decir, los coeficientes de regresión que se obtienen
cuando la ecuación de regresión se estima después de transformar las puntuaciones originales
en puntuaciones Z (ver ecuación [10.24]). Estos coeficientes tipificados también pueden ob-
tenerse multiplicando el correspondiente coeficiente de regresión no tipificado por .
El valor de estos coeficientes indica que la variable tratamiento es la que más peso tiene en
los pronósticos (0,61), seguida de basal (0,47).
Pronósticos
Hasta aquí, la información que ofrece el procedimiento por defecto. Para cubrir el resto de los
objetivos del análisis es necesario solicitar información de forma explícita. Para obtener los
pronósticos que ofrece la ecuación de regresión,
' Pulsar el botón Guardar para acceder al subcuadro de diálogo Regresión lineal: Guardar
nuevas variables y marcar la opción No tipificados del recuadro Valores pronosticados y las
opciones Media e Individuos del recuadro Intervalos de pronóstico.
Estas selecciones crean en el archivo de datos cinco variables. La opción No tipificados crea
una variable con los pronósticos: PRE_#. La opción Media crea dos variables con los límites
inferior y superior del intervalo de confianza correspondiente a los pronósticos promedio:
LMCI_# y UMCI_#. La opción Individuos crea dos variables con los límites inferior y supe-
rior del intervalo de confianza correspondiente a los pronósticos individuales: LICI_# y
UICI_# (para una aclaración del significado de estos intervalos de confianza, ver el apartado
Cómo efectuar pronósticos; pág. 384). El símbolo # va cambiando (1, 2, 3...) si el procedi-
miento se ejecuta varias veces durante la misma sesión.
Al marcar esta opción, la tabla de coeficientes (ver Tabla 10.4) incluye información adicional
(ver Tabla 10.5) referida a tres coeficientes de correlación entre cada variable independiente
y la dependiente: el simple o de orden cero, el parcial y el semiparcial. Las correlaciones se-
miparciales informan del grado de relación existente entre cada variable independiente y la
dependiente tras eliminar de la variable independiente el efecto atribuible al resto de variables
independientes incluidas en la ecuación. En nuestro ejemplo, la correlación simple entre la
edad y la recuperación vale !0,58; sin embargo, la correlación semiparcial vale !0,01. Esto
significa que, al eliminar de la edad el efecto atribuible a las variables basal y tratamiento,
la relación entre la edad y la recuperación se desvanece.
Elevando al cuadrado los coeficientes de correlación semiparcial se obtiene la contri-
bución neta de cada variable al ajuste global: la variable basal contribuye con un 19 % (pues
416 Análisis de datos (vol. II)
0,442 = 0,19); la variable edad no contribuye al ajuste global (pues !0,012 = 0,0001); y la va-
riable tratamiento contribuye con un 13 % (pues 0,362 = 0,13).
Estos resultados indican que, aunque la variable tratamiento es la que más peso tiene en
los pronósticos, la variable basal es la que más contribuye al ajuste global. Sin embargo, es-
ta incongruencia entre ambos criterios de importancia es solo aparente. La presencia en la
ecuación de una variable irrelevante (la edad ) está distorsionando ligeramente los resulta-
dos del análisis. Al excluir la variable edad (ver Tabla 10.6), ocurre que tanto el coeficiente
de regresión tipificado más alto (0,62) como el coeficiente de correlación semiparcial más
alto (0,58) corresponden a la variable tratamiento.
Tabla 10.5. Coeficientes de regresión y coeficientes de correlación parcial y semiparcial (basal, edad, tto)
Modelo: 1
Coeficientes no Coeficientes
tipificados tipificados Correlaciones
B Error típ. Beta t Sig. Orden cero Parcial Semiparcial
(Constante) -8,88 7,54 -1,18 ,257
Basal ,40 ,11 ,47 3,82 ,001 ,68 ,69 ,44
Edad -,01 ,11 -,01 -,07 ,947 -,58 -,02 -,01
Tratamiento 4,93 1,56 ,61 3,16 ,006 ,77 ,62 ,36
Tabla 10.6. Coeficientes de regresión y coeficientes de correlación parcial y semiparcial (basal, tto)
Modelo: 1
Coeficientes no Coeficientes
tipificados tipificados Correlaciones
B Error típ. Beta t Sig. Orden cero Parcial Semiparcial
(Constante) -9,35 2,87 -3,26 ,005
Basal ,40 ,10 ,47 3,96 ,001 ,68 ,69 ,44
Tratamiento 5,01 ,96 ,62 5,23 ,000 ,77 ,79 ,58
sión están linealmente relacionadas con la dependiente. Para esto utilizamos diagramas de
dispersión parcial. Para obtener estos diagramas,
' En el cuadro de diálogo principal, pulsar el botón Gráficos para acceder al subcuadro de
diálogo Regresión lineal: Gráficos y marcar la opción Generar todos los gráficos parciales.
Esta opción permite obtener un gráfico de dispersión parcial por cada variable independiente.
Los diagramas correspondientes a las variables basal y edad ya los hemos presentado en la
Figura 10.10. Allí tuvimos ocasión de comprobar que la relación parcializada entre basal y
recuperación contiene un componente lineal que no se observa en la relación parcializada en-
tre edad y recuperación. La información que ofrecen estos gráficos parciales es exactamen-
te la misma que la que ofrecen los coeficientes de correlación parcial (ver Tabla 10.5). Y la
significación estadística de estos coeficientes de correlación parcial es idéntica a la de los
correspondientes coeficientes de regresión B j . En nuestro ejemplo, la relación parcializada
entre la edad y la recuperación no es significativa ( sig. = 0,947). Y esto indica que, una vez
eliminado el efecto atribuible a basal y tratamiento, no existe evidencia de relación lineal
entre edad y recuperación (ver nota a pie de página número 19).
Para chequear el supuesto de no colinealidad hay que valorar el grado de relación lineal
existente entre las variables independientes. En nuestro ejemplo no se observa ninguno de los
indicios que podrían delatar la presencia de elevada colinealidad: no hay incongruencia en-
tre la significa ción del estadístico F y la de los coeficientes de regresión (el estadístico F es
significativo y también lo son algunos de los coeficientes de regresión); no existen coefi-
cientes de regresión con signo distinto del esperado (todos los coeficientes de regresión tienen
el mismo signo que las correlaciones de orden cero); y no existen coeficientes de regresión
tipificados mayores que uno en valor absoluto. Además de estos sencillos indicios, conviene
revisar algunos estadísticos relacionados con este supuesto de no colinealidad; en concreto,
los niveles de tolerancia y los factores de inflación de la varianza. Para ello,
' En el cuadro de diálogo principal, pulsar el botón Estadísticos para acceder al subcuadro
de diálogo Regresión lineal: Estadísticos y marcar la opción Diagnósticos de colinealidad.
Con esta opción, la tabla de coeficientes (ver Tabla 10.4) incluye información adicional (ver
Tabla 10.7); en concreto, los niveles de tolerancia y los factores de inflación de la varianza
(FIV ). Recordemos que los posibles problemas asociados a un exceso de colinealidad solo
empiezan a aparecer con tolerancias pequeñas (menores que 0,10) y valores FIV grandes
(mayores que 10). No parece que en nuestro ejemplo haya problemas de colinealidad33.
33
Al solicitar los diagnósticos de colinealidad también se obtiene una tabla con autovalores, índices de condición y propor-
ciones de varianza. Una explicación detallada de estos estadísticos excede el alcance de este manual, pero es posible enten-
derlos e interpretarlos con una breve explicación. En primer lugar se lleva a cabo un análisis de componentes principales
para identificar las variables independientes que correlacionan entre sí (se trata de una técnica de reducción de datos en la
que el primer componente es la combinación entre variables que explica la mayor cantidad de la variabilidad total; el segun-
do componente es la combinación entre variables que, además de ser independiente de la anterior, explica la mayor cantidad
de la variabilidad restante; etc.). Los autovalores indican la cantidad de varianza que explica cada componente; si uno o
más autovalores valen cero, entonces una o más variables están perfectamente relacionadas entre sí (colinealidad perfecta).
Los índices de condición son las raíces cuadradas de los cocientes entre el autovalor más grande y el autovalor de cada com-
ponente; por lo general, un índice mayor que 15 suele estar delatando un problema de colinealidad; y un índice mayor que
30 suele ir asociado a graves problemas de colinealidad. Las proporciones de varianza indican qué proporción de la va-
rianza de cada coeficiente de regresión está asociada a cada componente; existen problemas de colinealidad cuando un mis-
mo componente explica más del 50 % de la varianza de al menos dos coeficientes de regresión (excluida la intersección).
418 Análisis de datos (vol. II)
' En el cuadro de diálogo principal, pulsar el botón Gráficos para acceder al subcuadro de
diálogo Regresión lineal: Gráficos y marcar las opciones Histograma y Gráfico de probabi-
lidad normal del recuadro Gráficos de los residuos tipificados.
En el histograma de los residuos hay que vigilar, sobre todo, si existen residuos que se alejan
excesivamente por una de las dos colas de la distribución. Se trataría de casos mal pronos-
ticados (probablemente atípicos en Y ), que estarían causando un alejamiento serio de la nor-
malidad. El histograma de nuestro ejemplo (ver Figura 10.17, gráfico de la izquierda) indica
que faltan casos por la cola izquierda de la distribución; pero no se observan residuos muy
alejados del centro por ninguna de las dos colas.
En un gráfico de probabilidad normal (Figura 10.17, gráfico de la derecha) se comparan
las probabilidades observadas con las probabilidades teóricas de una distribución normal. En
el eje horizontal están representadas las probabilidades acumuladas hasta cada residuo, orde-
nados éstos desde el más pequeño al más grande; en el eje vertical están representadas las pro-
babilidades normales acumuladas hasta la puntuación típica correspondiente a cada residuo.
Cuando una distribución empírica se aproxima a una distribución teórica normal, los puntos
del diagrama se encuentran alineados en torno a la diagonal representada en el diagrama. Las
desviaciones de la diagonal indican desviaciones de la normalidad. En el diagrama de nuestro
ejemplo se observa cierto alejamiento de la normalidad en la parte inferior de la distribución.
También es posible contrastar la hipótesis de normalidad con alguno de los estadísticos
propuestos en el apartado Contrastes sobre bondad de ajuste del Capítulo 2 (sin olvidar que
estos estadísticos son demasiado sensibles a pequeñas desviaciones de la normalidad, parti-
cularmente con muestras grandes).
' En el cuadro de diálogo principal, pulsar el botón Gráficos para acceder al subcuadro de
diálogo Regresión lineal: Gráficos y trasladar la variable *ZPRED al eje X y la variable
*ZRESID al eje Y (el asterisco colocado delante del nombre de la variable indica que se
trata de variables del sistema; no son variables del archivo de datos).
La Figura 10.18 muestra una nube de puntos homogéneamente dispersa (aproximadamente)
a lo largo del eje horizontal. Quizá es menor la dispersión asociada a los pronósticos tipifi-
cados próximos a cero, pero no se observa un incumplimiento serio del supuesto de homoce-
dasticidad.
34
La distancia de Mahalanobis (1936) disponible en este recuadro se obtiene multiplicando por n ! 1 la medida de influen-
cia h i. La información que ofrece, por tanto, es idéntica a la que ofrece h i (ver Stevens, 1984).
35
La razón entre covarianzas (RV) que incluye este recuadro es también un estadístico de influencia. Se obtiene dividien-
do los determinantes de las matrices de varianzas-covarianzas (base del análisis de regresión) cuando el caso está presente
en la ecuación y cuando se elimina. Este cociente vale aproximadamente 1 cuando un caso no es influyente. Con muestras
grandes, se considera que un caso es influyente si le corresponde un valor RV mayor que 1 + 3 p / n o menor que 1 ! 3 p / n.
Capítulo 10. Análisis de regresión lineal 421
cadas genera una variable por cada coeficiente de regresión (incluida la intersección). No es
necesario revisar estas variables caso a caso; esto puede hacerse utilizando cualquiera de los
procedimientos SPSS disponibles para explorar variables.
Además, el SPSS ofrece, como parte de los resultados del análisis de regresión, una tabla
resumen con información sobre algunas de estas variables. La Tabla 10.8 muestra estos resul-
tados. Los residuos studentizados toman valores comprendidos entre !1,16 y 2,14; puesto
que no hay residuos mayores que 3 en valor absoluto, no parece que haya casos atípicos en
Y. El valor de influencia más alto (aparece en la tabla como valor de influencia centrado)
vale 0,32; por tanto, tampoco parece que haya casos atípicos en X j (recordemos que los
valores menores que 0,50 no suelen ser problemáticos). La distancia de Cook más alta vale
0,68; por tanto, no parece que haya que preocuparse por la presencia de puntos influyentes
(recordemos que los valores menores que 1 no son problemáticos). Y los residuos eliminados
studentizados oscilan entre !1,17 y 2,46; tampoco estos residuos detectan casos influyentes
(además, eliminando la variable edad de la ecuación, puede comprobarse que el residuo stu-
dentizado más grande vale 1,92, el valor de influencia más alto 0,23, la distancia de Cook
más alta 0,26 y el residuo eliminado studentizado más grande 2,10).
La tabla no incluye las diferencias entre los coeficientes de regresión (DFBETAS j (i) ) ni
las diferencias entre los pronósticos (DFFITS (i) ). Para revisar estos estadísticos hay que
recurrir a las variables creadas en el archivo de datos (lo cual solamente será necesario si el
valor absoluto de algún residuo eliminado studentizado es mayor que tres o alguna distancia
de Cook mayor que uno).
Tabla 10.8. Resumen descriptivo de algunas variables creadas por el procedimiento Regresión lineal
Mínimo Máximo Media Desviación típ. N
Valor pronosticado 4,12 16,00 9,95 3,71 20
Valor pronosticado tipificado -1,57 1,63 ,00 1,00 20
Error típico del valor pronosticado ,67 1,27 ,91 ,17 20
Valor pronosticado corregido 2,38 16,00 9,87 3,85 20
Residuo bruto -2,12 3,57 ,00 1,91 20
Residuo tipificado -1,02 1,72 ,00 ,92 20
Residuo studentizado -1,16 2,14 ,02 1,05 20
Residuo eliminado -2,73 5,62 ,08 2,51 20
Residuo eliminado studentizado -1,17 2,46 ,05 1,11 20
Distancia de Mahalanobis 1,03 6,13 2,85 1,42 20
Distancia de Cook ,00 ,68 ,09 ,15 20
Valor de influencia centrado ,05 ,32 ,15 ,07 20
Este apartado muestra cómo construir una ecuación de regresión por pasos con los datos de
la Tabla 10.1 (los datos se encuentran en el archivo Tabla 10.1 depresión hamilton reducido).
Únicamente prestaremos atención a los aspectos característicos de esta forma de proce-
der: cómo se van seleccionando las variables y cómo va aumentando el coeficiente de deter-
minación en cada paso. Para todo lo demás (ecuación de regresión, bondad de ajuste, signi-
ficación de los coeficientes, obtención de pronósticos, importancia relativa de las variables,
422 Análisis de datos (vol. II)
Estadísticos de cambio
R R cuadrado Error típ. de la Cambio en F del Sig. de la F
Modelo R cuadrado corregida estimación R cuadrado cambio gl1 gl2 del cambio
a
1 ,77 ,60 ,58 2,71 ,60 26,96 1 18 ,000
2 ,89b ,79 ,77 2,01 ,19 15,66 1 17 ,001
a. Variables predictoras: (Constante), Tratamiento.
b. Variables predictoras: (Constante), Tratamiento, Basal.
Los estadísticos F de la Tabla 10.10 permiten contrastar, en cada paso, la hipótesis nula de
que el coeficiente de determinación vale cero en la población. Estas hipótesis se refieren a
la ecuación completa en cada paso; lo cual no debe confundirse con las hipótesis contrasta-
das con los estadísticos F de la Tabla 10.9, los cuales se refieren al cambio o aumento que
experimenta R cuadrado al ir incorporando nuevas variables a la ecuación (Algina y Ke-
selman, 1999, proponen otra forma de comparar coeficientes de determinación).
Capítulo 10. Análisis de regresión lineal 423
Tabla 10.11. Coeficientes de regresión (con los coeficientes de correlación parcial y semiparcial)
Coeficientes no Coef.
estandarizados estand. Correlaciones
Modelo B Error típ. Beta t Sig. Orden cero Parcial Semiparcial
1 (Constante) ,50 1,92 ,26 ,797
Tratamiento 6,30 1,21 ,77 5,19 ,000 ,77 ,77 ,77
2 (Constante) -9,35 2,87 -3,26 ,005
Tratamiento 5,01 ,96 ,62 5,23 ,000 ,77 ,79 ,58
Basal ,40 ,10 ,47 3,96 ,001 ,68 ,69 ,44
Comentarios finales
Validación de una ecuación de regresión
Recordemos que los coeficientes de una ecuación de regresión lineal se estiman aplicando el
criterio de mínimos cuadrados, el cual consiste en minimizar los residuos (errores de predic-
ción). Puesto que los residuos no son más que las diferencias entre los pronósticos y los va-
lores observados, esta forma de estimar los coeficientes de la ecuación de regresión hace que
el ajuste que se obtiene con la muestra concreta utilizada sea mejor que el que se obtiene con
Capítulo 10. Análisis de regresión lineal 425
cualquier otra muestra. De ahí la importancia de que los errores típicos de las estimaciones
sean pequeños. Cuanto más pequeños son, mayor parecido cabe esperar encontrar entre las
estimaciones que se obtienen y las que podrían obtenerse en una muestra distinta.
Este argumento sugiere que una ecuación de regresión puede validarse utilizando casos
nuevos. Para ello, basta con obtener los pronósticos para esos casos nuevos y, a continuación,
calcular el coeficiente de correlación entre los valores observados en la variable dependiente
y los valores pronosticados para esos casos nuevos. En teoría, el coeficiente de correlación
así obtenido debería ser igual al coeficiente de correlación múltiple del análisis de regresión.
En la práctica, si la ecuación es lo bastante buena, se observarán pequeñas diferencias entre
ambos coeficientes atribuibles únicamente al azar muestral. Por supuesto, los nuevos casos
deben representar a las mismas poblaciones que los casos originalmente utilizados para es-
timar la ecuación de regresión.
Si no se tiene acceso a nuevos casos o resulta difícil obtenerlos, todavía es posible validar
una ecuación de regresión si la muestra es lo bastante grande. Basta con utilizar la mitad de
los casos de la muestra (aleatoriamente seleccionados) para obtener la ecuación de regresión
y la otra mitad de la muestra para efectuar los pronósticos. Una buena ecuación debería lle-
var a obtener una correlación similar entre los valores observados y los pronosticados de
ambas mitades.
Apéndice 10
Regresión curvilínea
El análisis de regresión lineal únicamente es una forma particular de regresión. Y, aunque es, quizá,
la forma de regresión más utilizada, existen funciones no lineales que pueden resultar útiles para
abordar determinados problemas. Se sabe, por ejemplo, que al intentar resolver una tarea compleja, los
sujetos excesivamente ansiosos y los muy relajados rinden peor que los sujetos que mantienen niveles
de ansiedad intermedios; es decir, se sabe que la relación existente entre la ansiedad y el rendimiento
no es lineal, sino cuadrática. Por tanto, si se desea pronosticar el rendimiento a partir del nivel de an-
siedad, una ecuación cuadrática ofrecerá mejores pronósticos que una ecuación lineal.
La nube de puntos de la Figura 10.19 representa la relación entre las variables ansiedad (medi-
da en una escala de 0 a 7) y rendimiento (medida en una escala de 0 a 100). Los datos corresponden
a una muestra de 25 sujetos (estos datos se encuentran en el archivo Tabla 10.14 ansiedad rendimien-
to, en la página web del manual). La forma de la nube de puntos revela que el tipo de relación subya-
cente no es de tipo lineal. De hecho, la variable ansiedad no correlaciona linealmente con la variable
rendimiento (RXY = 0,21; sig. = 0,306).
Para ajustar cualquiera de las ecuaciones de regresión del procedimiento Estimación curvilínea con
las variables ansiedad y rendimiento (archivo Tabla 10.14 ansiedad rendimiento),
' En el cuadro de diálogo Estimación curvilínea, trasladar la variable rendimiento a la lista Depen-
dientes y la variable ansiedad al cuadro Independiente (Variable).
' Marcar las opciones Lineal, Logarítmico y Cuadrático del recuadro Modelos.
Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 10.14 y la
Figura 10.20. La Tabla 10.14 contiene los resultados del análisis: la ecuación estimada, el cuadrado del
coeficiente de correlación (coeficiente de determinación) entre los valores de la variable dependiente
y los valores pronosticados por cada ecuación (R cuadrado), el estadístico F con sus grados de libertad,
la significación del estadístico F y las estimaciones correspondientes a los parámetros de cada ecuación
(b0, b1, etc.).
Las tres ecuaciones solicitadas ofrecen diferente grado de ajuste a los datos. Con la ecuación lineal
se obtiene un coeficiente de determinación de 0,05. Al contrastar con el estadístico F la hipótesis de
que este coeficiente vale cero en la población, se obtiene un nivel crítico mayor que 0,05 (sig = 0,306),
por lo que no puede rechazarse la hipótesis de relación lineal nula. Puede concluirse, por tanto, que no
existe evidencia de relación lineal (la ecuación lineal no permite obtener un buen ajuste a los datos).
Con la ecuación logarítmica se obtiene mejor ajuste que con la lineal. De hecho, el estadístico F
tiene asociado un nivel crítico (sig. = 0,030) que permite rechazar la hipótesis de relación nula. No
obstante, el coeficiente de determinación toma un valor más bien discreto (0,19).
Por último, con la ecuación cuadrática no se obtiene un estadístico F cuyo nivel crítico lleva al
rechazo de la hipótesis nula de independencia (sig. < 0,0005) y el coeficiente de determinación toma
un valor de 0,57. Por tanto, puede concluirse que, en la relación entre ansiedad y rendimiento, existe
un componente cuadrático significativo: la ansiedad explica (comparte) el 57,3 % de la variabilidad del
rendimiento.
Cuanto mayor es el número de términos que incluye una ecuación, mayor es también el valor del coefi-
ciente de determinación R 2. Por tanto, en una situación dada, el valor de R 2 será menor en una ecuación
lineal que en una ecuación cuadrática, y menor en ésta que en una ecuación cúbica. Sin embargo, esto
no significa que una ecuación con más términos sea mejor. La ecuación ideal es aquella que es capaz
de explicar la mayor cantidad de varianza con el menor número de términos; y para encontrar esa ecua-
ción suele resultar muy útil valorar la significación de cada término por separado.
En el ejemplo, de las tres ecuaciones seleccionadas, dos de ellas ofrecen un ajuste significativo
a los datos: la logarítmica y la cuadrática. Aunque la logarítmica tiene menos términos y ofrece un ajus-
te significativo (podría ser preferida por su simplicidad), ocurre que el ajuste de la ecuación cuadráti-
ca (el coeficiente de determinación) es mucho mejor que el de la logarítmica (0,57 frente a 0,19).
La nube de puntos también suele ayudar a elegir la mejor ecuación. La Figura 10.20 muestra el dia-
grama de dispersión de las variables ansiedad y rendimiento con las curvas (pronósticos) correspon-
dientes a las tres ecuaciones solicitadas (ver Figura 10.20). En el diagrama se aprecia con claridad que
los pronósticos de la ecuación cuadrática hacen un seguimiento de la nube de puntos sensiblemente
mejor que el que hacen los pronósticos de las ecuaciones lineal y logarítmica.
428 Análisis de datos (vol. II)
Figura 10.20. Diagrama de dispersión: ansiedad por rendimiento (con curvas lineal, logarítmica y cuadrática)
Marcando la opción Mostrar tabla de ANOVA y seleccionando únicamente la ecuación Cuadrática se obtie-
ne información adicional que incluye, entre otras cosas, pruebas de significación para cada uno de los
coeficientes estimados.
La Tabla 10.15 contiene un resumen del análisis idéntico al que se obtiene con el análisis de regre-
sión lineal (ver Tabla 10.2). La Tabla 10.16 ofrece el estadístico F para el contraste de la hipótesis nula
de que la relación estudiada (en este caso, la cuadrática) vale cero en la población; puesto que el nivel
crítico es muy pequeño (sig. < 0,0005), se puede rechazar la hipótesis nula y concluir que en la relación
entre ansiedad y rendimiento existe un componente cuadrático significativo. Por último, la Tabla 10.17
contiene las estimaciones de los coeficientes de la ecuación cuadrática junto con su error típico, su va-
lor tipificado y un estadístico T que permite contrastar la hipótesis nula de que el correspondiente
coeficiente vale cero en la población. Los resultados indican que tanto el término constante como los
dos términos asociados a la variable ansiedad (ansiedad y ansiedad**2), son significativamente dis-
tintos de cero (en todos ellos, sig. < 0,0005).
Para una explicación más detallada de todos estos estadísticos pueden revisarse los comentarios
ya hechos a propósito de las Tablas 10.2, 10.3 y 10.4.
10.1 La siguiente tabla muestra el resultado obtenido con una muestra de 10 estudiantes de enseñanza se-
cundaria al medir dos variables: X = «promedio de horas de estudio semanales» e Y = «rendimiento
académico» (cuantificado como la suma de las calificaciones obtenidas en 7 asignaturas):
Sujetos 1 2 3 4 5 6 7 8 9 10
Xi 5 5 6 6 6 7 7 11 11 16
Yi 25 30 30 35 45 40 45 55 60 65
10.2. Abrir el archivo SPSS GSS93 reducido (se encuentra en la carpeta de ejemplos que se instala con el
programa). Estamos interesados en pronosticar el índice socioeconómico del encuestado (indsocec) a
partir de la edad del encuestado (edad ) y de los años de escolarización (educ).
a. Calcular la ecuación de regresión de Y sobre X en puntuaciones directas.
b. Interpretar los coeficientes de regresión B1 y B2 .
c. ¿Puede afirmarse que la edad y los años de escolarización están relacionados con el índice socio-
económico? (α = 0,05).
d. ¿Cuál de las dos variables independientes tiene mayor peso (importancia relativa) en la ecuación
de regresión? ¿Por qué?
e. ¿Qué puede decirse acerca de la calidad del ajuste de la ecuación de regresión?
f. ¿Es razonable asumir que los residuos se distribuyen normalmente? ¿Por qué?
g. ¿Es razonable asumir que las varianzas de los residuos son homogéneas? ¿Por qué?
h. ¿Existen problemas de colinealidad? ¿Por qué?
i. ¿Hay algún caso que pueda calificarse de influyente? ¿Por qué?
10.3. Abrir el archivo SPSS Coches (se encuentra en la carpeta de ejemplos que se instala con el programa).
Queremos construir un modelo de regresión por pasos (pasos sucesivos) que permita pronosticar el
consumo de los vehículos a partir de su cilindrada (motor), su potencia (cv), su peso (peso) y su acele-
ración (acel).
a. ¿Cuántos pasos ha dado el procedimiento?
b. ¿Qué variables incluye el modelo final?
430 Análisis de datos (vol. II)
c. En ese modelo final, ¿qué variable tiene más peso (importancia relativa) desde el punto de vista de
su contribución a los pronósticos?
d. ¿Qué variable tiene más peso (importancia relativa) desde el punto de vista de su contribución al
ajuste de la ecuación de regresión?
e. ¿Qué porcentaje de varianza explica la ecuación final?
f. ¿Qué caso(s) tiene(n) residuo(s) atípicamente alto(s)?
g. ¿Existe algún indicio que haga sospechar de la posible presencia de colinealidad?
h. ¿Hay algún caso que pueda calificarse de influyente? ¿Por qué?
10.4. Se ha llevado a cabo un análisis de regresión lineal utilizando la edad como variable independiente y
el grado de conservadurismo como dependiente. En una muestra aleatoria de 11 personas se han en-
contrado los siguientes resultados:
FV SC gl MC F p
Regresión ( ) ( ) ( ) ( ) 0,003
Error ( ) ( ) 4
Total 100 ( )
10.5. Tratando de contrastar la hipótesis de que la intensidad luminosa (X ) está relacionada de forma directa
(positiva) con el rendimiento en una prueba de discriminación (Y ), se ha utilizado el correspondiente
coeficiente de regresión parcial. Al valorar la significación de ese coeficiente en una muestra aleatoria
de 15 individuos se ha obtenido un valor T = 1,562. Sabiendo que P (T $ < 1,562) = 0,93 y utilizando un
nivel de confianza de 0,99,
a. ¿Qué hipótesis nula se está contrastando?
b. ¿Puede rechazarse esa hipótesis? ¿Por cuál de los siguientes motivos?:
( ) P (T $
> 1,562) < 0,01; ( ) P (T $
> 1,562) > 0,01; ( ) P (T $ $ 1,562) > 0,01.
< 1,562) < 0,01; ( ) P (T <
c. ¿Puede afirmarse que las variables están linealmente relacionadas?
10.6. Al utilizar el estadístico F para analizar la relación lineal entre dos variables se han obtenido los resul-
tados que muestra la siguiente tabla:
FV SC gl MC F
Regresión 90 ( ) ( ) ( )
Error ( ) ( ) ( )
Total 330 9
10.7. A continuación se ofrecen dos tablas. La primera contiene las puntuaciones diferenciales o de desvia-
ción de 5 sujetos en las variables X e Y. La segunda es la tabla resumen del ANOVA correspondiente
al análisis de regresión lineal simple. Sabiendo que la ecuación de regresión es: = 0,9 , completar
ambas tablas.
Sujetos 1 2 3 4 5 FV SC gl MC F
x 2 !2 0 1 ( ) Regresión ( ) ( ) ( ) ( )
y 2 !1 0 1 ( ) No regresión ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) Total ( ) ( )
10.8. Antes de llevar a cabo un análisis de regresión lineal de Y sobre X1, X2 y X3 se ha calculado la matriz
de correlaciones entre las variables, con el siguiente resultado:
X1 X2 X3
Correlación de Pearson 0,850 !0,879 !0,041
Y Sig. (bilateral) 0,000 0,000 0,899
n 12 12 12
Correlación de Pearson !0,961 0,184
X1 Sig. (bilateral) 0,000 0,548
n 12 12
X2 Correlación de Pearson !0,70
Sig. (bilateral) 0,830
n 12
10.9. A continuación se ofrecen dos tablas con los resultados parciales de un análisis de regresión lineal de
Y sobre X. Se ha utilizado una muestra aleatoria de 20 sujetos. La primera tabla contiene las puntua-
ciones de 2 sujetos en X y las puntuaciones pronosticadas en Y a esos mismos 2 sujetos. La segunda
tabla contiene la tabla resumen del ANOVA (incompleta).
Sujetos 1 2 FV SC gl MC F
X !1 0 Regresión ( ) ( ) 20 2
2 3 Error ( ) ( ) ( )
Total 200 ( )
432 Análisis de datos (vol. II)
a. Completar la tabla rellenando las casillas donde aparecen paréntesis.
b. Obtener la ecuación de regresión de Y sobre X.
10.10. En un análisis de regresión lineal de Y sobre X se ha obtenido = 2,56. ¿Cuál de las siguientes
afirmaciones es correcta sabiendo que P ( > 2,56) < 0,02?
a. Se mantiene H0 con α = 0,05.
b. Se rechaza H0 porque 2,56 > 0,02.
c. Con α = 0,05, puede afirmarse que X e Y no están linealmente relacionadas.
d. Con α = 0,05, puede afirmarse que X e Y están linealmente relacionadas.
e. La pendiente de la recta de regresión vale cero en la población.
10.11. Se puede llegar a la conclusión de que dos variables están linealmente relacionadas mediante... (elegir
la/s alternativa/s correcta/s)
a. Un ANOVA, con F = 5,6 ( p < 0,05).
b. Un análisis de regresión lineal, al mantener H0 : β1 = 0.
c. Un análisis de regresión lineal, con = 4,2 tal que P (T $
< 4,2) > 0,999.
d. Unas comparaciones de tendencia con Flineal = 2,1 ( p > 0,05).
e. Ninguna de las alternativas anteriores es correcta.
10.12. En un análisis de regresión lineal de Y sobre X... (elegir la/s alternativa/s correcta/s)
a. El coeficiente β0 representa el efecto de X.
b. El coeficiente β1 representa el efecto de Y.
c. El coeficiente β1 representa el efecto del factor B.
d. Si el coeficiente β1 vale cero, entonces la relación entre X e Y es cuadrática.
e. Ninguna de las alternativas anteriores es correcta.
Apéndice final
Tablas estadísticas
Tabla A
Distribuciones binomiales
Probabilidades acumuladas hasta n1 = «número de éxitos» en cada distribución B (n, π1),
con n = «número de ensayos» y π1 = «probabilidad de éxito»
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
1 0 0,950 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,050
1 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
2 0 0,902 0,810 0,640 0,490 0,360 0,250 0,160 0,090 0,040 0,010 0,002
1 0,997 0,990 0,960 0,910 0,840 0,750 0,640 0,510 0,360 0,190 0,097
2 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
3 0 0,857 0,729 0,512 0,343 0,216 0,125 0,064 0,027 0,008 0,001 0,000
1 0,993 0,972 0,896 0,784 0,648 0,500 0,352 0,216 0,104 0,028 0,007
2 1,000 0,999 0,992 0,973 0,936 0,875 0,784 0,657 0,488 0,271 0,143
3 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
4 0 0,815 0,656 0,410 0,240 0,130 0,063 0,026 0,008 0,002 0,000 0,000
1 0,986 0,948 0,819 0,652 0,475 0,313 0,179 0,084 0,027 0,004 0,000
2 1,000 0,996 0,973 0,916 0,821 0,688 0,525 0,348 0,181 0,052 0,014
3 1,000 1,000 0,998 0,992 0,974 0,938 0,870 0,760 0,590 0,344 0,185
4 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
5 0 0,774 0,590 0,328 0,168 0,078 0,031 0,010 0,002 0,000 0,000 0,000
1 0,977 0,919 0,737 0,528 0,337 0,188 0,087 0,031 0,007 0,000 0,000
2 0,999 0,991 0,942 0,837 0,683 0,500 0,317 0,163 0,058 0,009 0,001
3 1,000 1,000 0,993 0,969 0,913 0,813 0,663 0,472 0,263 0,081 0,023
4 1,000 1,000 1,000 0,998 0,990 0,969 0,922 0,832 0,672 0,410 0,226
5 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
6 0 0,735 0,531 0,262 0,118 0,047 0,016 0,004 0,001 0,000 0,000 0,000
1 0,967 0,886 0,655 0,420 0,233 0,109 0,041 0,011 0,002 0,000 0,000
2 0,998 0,984 0,901 0,744 0,544 0,344 0,179 0,070 0,017 0,001 0,000
3 1,000 0,999 0,983 0,930 0,821 0,656 0,456 0,256 0,099 0,016 0,002
4 1,000 1,000 0,998 0,989 0,959 0,891 0,767 0,580 0,345 0,114 0,033
5 1,000 1,000 1,000 0,999 0,996 0,984 0,953 0,882 0,738 0,469 0,265
6 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
7 0 0,698 0,478 0,210 0,082 0,028 0,008 0,002 0,000 0,000 0,000 0,000
1 0,956 0,850 0,577 0,329 0,159 0,063 0,019 0,004 0,000 0,000 0,000
2 0,996 0,974 0,852 0,647 0,420 0,227 0,096 0,029 0,005 0,000 0,000
3 1,000 0,997 0,967 0,874 0,710 0,500 0,290 0,126 0,033 0,003 0,000
4 1,000 1,000 0,995 0,971 0,904 0,773 0,580 0,353 0,148 0,026 0,004
5 1,000 1,000 1,000 0,996 0,981 0,938 0,841 0,671 0,423 0,150 0,044
6 1,000 1,000 1,000 1,000 0,998 0,992 0,972 0,918 0,790 0,522 0,302
7 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Apéndice final. Tablas estadísticas 435
Tabla A (continuación)
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
8 0 0,663 0,430 0168 0,058 0,017 0,004 0,001 0,000 0,000 0,000 0,000
1 0,943 0,813 0,503 0,255 0,106 0,035 0,009 0,001 0,000 0,000 0,000
2 0,994 0,962 0,797 0,552 0,315 0,145 0,050 0,011 0,001 0,000 0,000
3 1,000 0,995 0,944 0,806 0,594 0,363 0,174 0,058 0,010 0,000 0,000
4 1,000 1,000 0,990 0,942 0,826 0,637 0,406 0,194 0,056 0,005 0,000
5 1,000 1,000 0,999 0,989 0,950 0,855 0,685 0,448 0,203 0,038 0,006
6 1,000 1,000 1,000 0,999 0,991 0,965 0,894 0,745 0,497 0,187 0,057
7 1,000 1,000 1,000 1,000 0,999 0,996 0,983 0,942 0,832 0,570 0,337
8 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
9 0 0,630 0,387 0134 0,040 0,010 0,002 0,000 0,000 0,000 0,000 0,000
1 0,929 0,775 0,436 0,196 0,071 0,020 0,004 0,000 0,000 0,000 0,000
2 0,992 0,947 0,738 0,463 0,232 0,090 0,025 0,004 0,000 0,000 0,000
3 0,999 0,992 0,914 0,730 0,483 0,254 0,099 0,025 0,003 0,000 0,000
4 1,000 0,999 0,980 0,901 0,733 0,500 0,267 0,099 0,020 0,001 0,000
5 1,000 1,000 0,997 0,975 0,901 0,746 0,517 0,270 0,086 0,008 0,001
6 1,000 1,000 1,000 0,996 0,975 0,910 0,768 0,537 0,262 0,053 0,008
7 1,000 1,000 1,000 1,000 0,996 0,980 0,929 0,804 0,564 0,225 0,071
8 1,000 1,000 1,000 1,000 1,000 0,998 0,990 0,960 0,866 0,613 0,370
9 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
10 0 0,599 0,349 0,107 0,028 0,006 0,001 0,000 0,000 0,000 0,000 0,000
1 0,914 0,736 0,376 0,149 0,046 0,011 0,002 0,000 0,000 0,000 0,000
2 0,988 0,930 0,678 0,383 0,167 0,055 0,012 0,002 0,000 0,000 0,000
3 0,999 0,987 0,879 0,650 0,382 0,172 0,055 0,011 0,001 0,000 0,000
4 1,000 0,998 0,967 0,850 0,633 0,377 0,166 0,047 0,006 0,000 0,000
5 1,000 1,000 0,994 0,953 0,834 0,623 0,367 0,150 0,033 0,002 0,000
6 1,000 1,000 0,999 0,989 0,945 0,828 0,618 0,350 0,121 0,013 0,0001
7 1,000 1,000 1,000 0,998 0,988 0,945 0,833 0,617 0,322 0,070 0,012
8 1,000 1,000 1,000 1,000 0,998 0,989 0,954 0,851 0,624 0,264 0,086
9 1,000 1,000 1,000 1,000 1,000 0,999 0,994 0,972 0,893 0,651 0,401
10 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
11 0 0,569 0,314 0,086 0,020 0,004 0,000 0,000 0,000 0,000 0,000 0,000
1 0,898 0,697 0,322 0,113 0,030 0,006 0,001 0,000 0,000 0,000 0,000
2 0,985 0,910 0,617 0,313 0,119 0,033 0,006 0,001 0,000 0,000 0,000
3 0,998 0,981 0,839 0,570 0,296 0,113 0,029 0,004 0,000 0,000 0,000
4 1,000 0,997 0,950 0,790 0,533 0,274 0,099 0,022 0,002 0,000 0,000
5 1,000 1,000 0,988 0,922 0,753 0,500 0,247 0,078 0,012 0,000 0,000
6 1,000 1,000 0,998 0,978 0,901 0,726 0,467 0,210 0,050 0,003 0,000
7 1,000 1,000 1,000 0,996 0,971 0,887 0,704 0,430 0,161 0,019 0,002
8 1,000 1,000 1,000 0,999 0,994 0,967 0,881 0,687 0,383 0,090 0,015
9 1,000 1,000 1,000 1,000 0,999 0,994 0,970 0,887 0,678 0,303 0,102
10 1,000 1,000 1,000 1,000 1,000 1,000 0,996 0,980 0,914 0,686 0,431
11 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
436 Análisis de datos (vol. II)
Tabla A (continuación)
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
12 0 0,540 0,282 0,069 0,014 0,002 0,000 0,000 0,000 0,000 0,000 0,000
1 0,882 0,659 0,275 0,085 0,020 0,003 0,000 0,000 0,000 0,000 0,000
2 0,980 0,889 0,558 0,253 0,083 0,019 0,003 0,000 0,000 0,000 0,000
3 0,998 0,974 0,795 0,493 0,225 0,073 0,015 0,002 0,000 0,000 0,000
4 1,000 0,996 0,927 0,724 0,438 0,194 0,057 0,009 0,001 0,000 0,000
5 1,000 0,999 0,981 0,882 0,665 0,387 0,158 0,039 0,004 0,000 0,000
6 1,000 1,000 0,996 0,961 0,842 0,613 0,335 0,118 0,019 0,001 0,000
7 1,000 1,000 0,999 0,991 0,943 0,806 0,562 0,276 0,073 0,004 0,000
8 1,000 1,000 1,000 0,998 0,985 0,927 0,775 0,507 0,205 0,026 0,002
9 1,000 1,000 1,000 1,000 0,997 0,981 0,917 0,747 0,442 0,111 0,020
10 1,000 1,000 1,000 1,000 1,000 0,997 0,980 0,915 0,725 0,341 0,118
11 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,986 0,931 0,718 0,460
12 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
13 0 0,513 0,254 0,055 0,010 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,865 0,621 0,234 0,064 0,013 0,002 0,000 0,000 0,000 0,000 0,000
2 0,975 0,866 0,502 0,202 0,058 0,011 0,001 0,000 0,000 0,000 0,000
3 0,997 0,966 0,747 0,421 0,169 0,046 0,008 0,001 0,000 0,000 0,000
4 1,000 0,994 0,901 0,654 0,353 0,133 0,032 0,004 0,000 0,000 0,000
5 1,000 0,999 0,970 0,835 0,574 0,291 0,098 0,018 0,001 0,000 0,000
6 1,000 1,000 0,993 0,938 0,771 0,500 0,229 0,062 0,007 0,000 0,000
7 1,000 1,000 0,999 0,982 0,902 0,709 0,426 0,165 0,030 0,001 0,000
8 1,000 1,000 1,000 0,996 0,968 0,867 0,647 0,346 0,099 0,006 0,000
9 1,000 1,000 1,000 0,999 0,992 0,954 0,831 0,579 0,253 0,034 0,003
10 1,000 1,000 1,000 1,000 0,999 0,989 0,942 0,798 0,498 0,134 0,025
11 1,000 1,000 1,000 1,000 1,000 0,998 0,987 0,936 0,766 0,379 0,135
12 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,990 0,945 0,746 0,487
13 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
14 0 0,488 0,229 0,044 0,007 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,847 0,585 0,198 0,047 0,008 0,001 0,000 0,000 0,000 0,000 0,000
2 0,970 0,842 0,448 0,161 0,040 0,006 0,001 0,000 0,000 0,000 0,000
3 0,996 0,956 0,698 0,355 0,124 0,029 0,004 0,000 0,000 0,000 0,000
4 1,000 0,991 0,870 0,584 0,279 0,090 0,018 0,002 0,000 0,000 0,000
5 1,000 0,999 0,956 0,781 0,486 0,212 0,058 0,008 0,000 0,000 0,000
6 1,000 1,000 0,988 0,907 0,692 0,395 0,150 0,031 0,002 0,000 0,000
7 1,000 1,000 0,998 0,969 0,850 0,605 0,308 0,093 0,012 0,000 0,000
8 1,000 1,000 1,000 0,992 0,942 0,788 0,514 0,219 0,044 0,001 0,000
9 1,000 1,000 1,000 0,998 0,982 0,910 0,721 0,416 0,130 0,009 0,000
10 1,000 1,000 1,000 1,000 0,996 0,971 0,876 0,645 0,302 0,044 0,004
11 1,000 1,000 1,000 1,000 0,999 0,994 0,960 0,839 0,552 0,158 0,030
12 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,953 0,802 0,415 0,153
13 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,993 0,956 0,771 0,512
14 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Apéndice final. Tablas estadísticas 437
Tabla A (continuación)
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
15 0 0,463 0,206 0,035 0,005 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,829 0,549 0,167 0,035 0,005 0,000 0,000 0,000 0,000 0,000 0,000
2 0,964 0,816 0,398 0,127 0,027 0,004 0,000 0,000 0,000 0,000 0,000
3 0,995 0,944 0,648 0,297 0,091 0,018 0,002 0,000 0,000 0,000 0,000
4 0,999 0,987 0,836 0,515 0,217 0,059 0,009 0,001 0,000 0,000 0,000
5 1,000 0,998 0,939 0,722 0,403 0,151 0,034 0,004 0,000 0,000 0,000
6 1,000 1,000 0,982 0,869 0,610 0,304 0,095 0,015 0,001 0,000 0,000
7 1,000 1,000 0,996 0,950 0,787 0,500 0,213 0,050 0,004 0,000 0,000
8 1,000 1,000 0,999 0,985 0,905 0,696 0,390 0,131 0,018 0,000 0,000
9 1,000 1,000 1,000 0,996 0,966 0,849 0,579 0,278 0,061 0,002 0,000
10 1,000 1,000 1,000 0,999 0,991 0,941 0,783 0,485 0,164 0,013 0,001
11 1,000 1,000 1,000 1,000 0,998 0,982 0,909 0,703 0,352 0,056 0,005
12 1,000 1,000 1,000 1,000 1,000 0,996 0,973 0,873 0,602 0,184 0,036
13 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,965 0,833 0,451 0,171
14 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,965 0,794 0,537
15 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
16 0 0,440 0,185 0,028 0,003 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,811 0,515 0,141 0,026 0,003 0,000 0,000 0,000 0,000 0,000 0,000
2 0,957 0,789 0,352 0,099 0,018 0,002 0,000 0,000 0,000 0,000 0,000
3 0,993 0,932 0,598 0,246 0,065 0,011 0,001 0,000 0,000 0,000 0,000
4 0,999 0,983 0,798 0,450 0,167 0,038 0,005 0,000 0,000 0,000 0,000
5 1,000 0,997 0,918 0,660 0,329 0,105 0,019 0,002 0,000 0,000 0,000
6 1,000 0,999 0,973 0,825 0,527 0,227 0,058 0,007 0,000 0,000 0,000
7 1,000 1,000 0,993 0,926 0,716 0,402 0,142 0,026 0,001 0,000 0,000
8 1,000 1,000 0,999 0,974 0,858 0,598 0,284 0,074 0,007 0,000 0,000
9 1,000 1,000 1,000 0,993 0,942 0,773 0,473 0,175 0,027 0,001 0,000
10 1,000 1,000 1,000 0,998 0,981 0,895 0,671 0,340 0,082 0,003 0,000
11 1,000 1,000 1,000 1,000 0,995 0,962 0,833 0,550 0,202 0,017 0,001
12 1,000 1,000 1,000 1,000 0,999 0,989 0,935 0,754 0,402 0,068 0,007
13 1,000 1,000 1,000 1,000 1,000 0,998 0,982 0,901 0,648 0,211 0,043
14 1,000 1,000 1,000 1,000 1,000 1,000 0,997 0,974 0,859 0,485 0,189
15 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,997 0,972 0,815 0,560
16 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
17 0 0,418 0,167 0,023 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,792 0,482 0,118 0,019 0,002 0,000 0,000 0,000 0,000 0,000 0,000
2 0,950 0,762 0,310 0,077 0,012 0,001 0,000 0,000 0,000 0,000 0,000
3 0,991 0,917 0,549 0,202 0,046 0,006 0,000 0,000 0,000 0,000 0,000
4 0,999 0,978 0,758 0,389 0,126 0,025 0,003 0,000 0,000 0,000 0,000
5 1,000 0,995 0,894 0,597 0,264 0,072 0,011 0,001 0,000 0,000 0,000
6 1,000 0,999 0,962 0,775 0,448 0,166 0,035 0,003 0,000 0,000 0,000
7 1,000 1,000 0,989 0,895 0,641 0,315 0,092 0,013 0,000 0,000 0,000
8 1,000 1,000 0,997 0,960 0,801 0,500 0,199 0,040 0,003 0,000 0,000
438 Análisis de datos (vol. II)
Tabla A (continuación)
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
9 1,000 1,000 1,000 0,987 0,908 0685 0359 0,105 0,011 0,000 0,000
10 1,000 1,000 1,000 0,997 0,965 0,834 0,552 0,225 0,038 0,001 0,000
11 1,000 1,000 1,000 0,999 0,989 0,928 0,736 0,403 0,106 0,005 0,000
12 1,000 1,000 1,000 1,000 0,997 0,975 0,874 0,611 0,242 0,022 0,001
13 1,000 1,000 1,000 1,000 1,000 0,994 0,954 0,798 0,451 0,083 0,009
14 1,000 1,000 1,000 1,000 1,000 0,999 0,988 0,923 0,690 0,238 0,050
15 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,981 0,882 0,518 0,208
16 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,977 0,833 0,582
17 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
18 0 0,397 0,150 0,018 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,774 0,450 0,099 0,014 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,942 0,734 0,271 0,060 0,008 0,001 0,000 0,000 0,000 0,000 0,000
3 0,989 0,902 0,501 0,165 0,033 0,004 0,000 0,000 0,000 0,000 0,000
4 0,998 0,972 0,716 0,333 0,094 0,015 0,001 0,000 0,000 0,000 0,000
5 1,000 0,994 0,867 0,534 0,209 0,048 0,006 0,000 0,000 0,000 0,000
6 1,000 0,999 0,949 0,722 0,374 0,119 0,020 0,001 0,000 0,000 0,000
7 1,000 1,000 0,984 0,859 0,563 0,240 0,058 0,006 0,000 0,000 0,000
8 1,000 1,000 0,996 0,940 0,737 0,407 0,135 0,021 0,001 0,000 0,000
9 1,000 1,000 0,999 0,979 0,865 0,593 0,263 0,060 0,004 0,000 0,000
10 1,000 1,000 1,000 0,994 0,942 0,760 0,437 0,141 0,016 0,000 0,000
11 1,000 1,000 1,000 0,999 0,980 0,881 0,626 0,278 0,051 0,001 0,000
12 1,000 1,000 1,000 1,000 0,994 0,952 0,791 0,466 0,133 0,006 0,000
13 1,000 1,000 1,000 1,000 0,999 0,985 0,906 0,667 0,284 0,028 0,002
14 1,000 1,000 1,000 1,000 1,000 0,996 0,967 0,835 0,499 0,098 0,011
15 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,940 0,729 0,266 0,058
16 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,986 0,901 0,550 0,226
17 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,982 0,850 0,603
18 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
19 0 0,377 0,135 0,014 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,755 0,420 0,083 0,010 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,933 0,705 0,237 0,046 0,005 0,000 0,000 0,000 0,000 0,000 0,000
3 0,987 0,885 0,455 0,133 0,023 0,002 0,000 0,000 0,000 0,000 0,000
4 0,998 0,965 0,673 0,282 0,070 0,010 0,001 0,000 0,000 0,000 0,000
5 1,000 0,991 0,837 0,474 0,163 0,032 0,003 0,000 0,000 0,000 0,000
6 1,000 0,998 0,932 0,666 0,308 0,084 0,012 0,001 0,000 0,000 0,000
7 1,000 1,000 0,977 0,818 0,488 0,180 0,035 0,003 0,000 0,000 0,000
8 1,000 1,000 0,993 0,916 0,667 0,324 0,088 0,011 0,000 0,000 0,000
9 1,000 1,000 0,998 0,967 0,814 0,500 0,186 0,033 0,002 0,000 0,000
10 1,000 1,000 1,000 0,989 0,912 0,676 0,333 0,084 0,007 0,000 0,000
11 1,000 1,000 1,000 0,997 0,965 0,820 0,512 0,182 0,023 0,000 0,000
12 1,000 1,000 1,000 0,999 0,988 0,916 0,692 0,334 0,068 0,002 0,000
13 1,000 1,000 1,000 1,000 0,997 0,968 0,837 0,526 0,163 0,009 0,000
Apéndice final. Tablas estadísticas 439
Tabla A (continuación)
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
14 1,000 1,000 1,000 1,000 0,999 0,990 0,930 0,718 0,327 0,035 0,002
15 1,000 1,000 1,000 1,000 1,000 0,998 0,977 0,867 0,545 0,115 0,013
16 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,954 0,763 0,295 0,067
17 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,990 0,917 0,580 0,245
18 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,986 0,865 0,623
19 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
20 0 0,358 0,122 0,012 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,736 0,392 0,069 0,008 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,925 0,677 0,206 0,035 0,004 0,000 0,000 0,000 0,000 0,000 0,000
3 0,984 0,867 0,411 0,107 0,016 0,001 0,000 0,000 0,000 0,000 0,000
4 0,997 0,957 0,630 0,238 0,051 0,006 0,000 0,000 0,000 0,000 0,000
5 1,000 0,989 0,804 0,416 0,126 0,021 0,002 0,000 0,000 0,000 0,000
6 1,000 0,998 0,913 0,608 0,250 0,058 0,006 0,000 0,000 0,000 0,000
7 1,000 1,000 0,968 0,772 0,416 0,132 0,021 0,001 0,000 0,000 0,000
8 1,000 1,000 0,990 0,887 0,596 0,252 0,057 0,005 0,000 0,000 0,000
9 1,000 1,000 0,997 0,952 0,755 0,412 0,128 0,017 0,001 0,000 0,000
10 1,000 1,000 0,999 0,983 0,872 0,588 0,245 0,048 0,003 0,000 0,000
11 1,000 1,000 1,000 0,995 0,943 0,748 0,404 0,113 0,010 0,000 0,000
12 1,000 1,000 1,000 0,999 0,979 0,868 0,584 0,228 0,032 0,000 0,000
13 1,000 1,000 1,000 1,000 0,994 0,942 0,750 0,392 0,087 0,002 0,000
14 1,000 1,000 1,000 1,000 0,998 0,979 0,874 0,584 0,196 0,011 0,000
15 1,000 1,000 1,000 1,000 1,000 0,994 0,949 0,762 0,370 0,043 0,003
16 1,000 1,000 1,000 1,000 1,000 0,999 0,984 0,893 0,589 0,133 0,016
17 1,000 1,000 1,000 1,000 1,000 1,000 0,996 0,965 0,794 0,323 0,075
18 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,931 0,608 0,264
19 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,988 0,878 0,642
20 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
440 Análisis de datos (vol. II)
Tabla B
Distribución normal tipificada: N (0, 1)
Probabilidades acumuladas ( p) hasta cada valor Z
Segundo decimal de Zp
Zp 0 1 2 3 4 5 6 7 8 9
!3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
!3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
!3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0012 0,0011 0,0011 0,0010 0,0010
!2,9 0,0019 0,0018 0,0017 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
!2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0020 0,0020 0,0019
!2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
!2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
!2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
!2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
!2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
!2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
!2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
!2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
!1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
!1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
!1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
!1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
!1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
!1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
!1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
!1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
!1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
!1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
!0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
!0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
!0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
!0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
!0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
!0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
!0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
!0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
!0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
!0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
Apéndice final. Tablas estadísticas 441
Tabla B (continuación)
Segundo decimal de Zp
Zp 0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
Tabla C
Distribuciones χ2 ( ji-cuadrado)
Valores χ2gl; p que acumulan una probabilidad p con diferentes grados de libertad ( gl )
gl 0,001 0,005 0,01 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995 0,999
1 0,00 0,00 0,00 0,00 0,00 0,02 2,71 3,84 5,02 6,63 7,88 10,83
2 0,00 0,01 0,02 0,05 0,10 0,21 4,61 5,99 7,38 9,21 10,60 13,82
3 0,02 0,07 0,12 0,22 0,35 0,58 6,25 7,81 9,35 11,34 12,84 16,27
4 0,09 0,21 0,28 0,48 0,71 1,06 7,78 9,49 11,14 13,28 14,86 18,47
5 0,21 0,41 0,55 0,83 1,14 1,61 9,24 11,07 12,83 15,09 16,75 20,52
6 0,38 0,68 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81 18,55 22,46
7 0,60 0,99 1,24 1,69 2,27 2,83 12,02 14,07 16,01 18,48 20,28 24,32
8 0,86 1,34 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09 21,96 26,13
9 1,15 1,73 2,09 2,70 3,33 4,17 14,68 16,92 19,02 21,67 23,59 27,88
10 1,48 2,16 2,56 3,25 3,94 4,87 15,99 18,31 20,48 23,21 25,19 29,59
11 1,83 2,60 3,05 3,82 4,57 5,58 17,28 19,68 21,92 24,72 26,76 31,26
12 2,21 3,07 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22 28,30 32,91
13 2,62 3,57 4,11 5,01 5,89 7,04 19,81 22,36 24,74 27,69 29,82 34,53
14 3,04 4,07 4,66 5,63 6,57 7,79 21,06 23,68 26,12 29,14 31,32 36,12
15 3,48 4,60 5,23 6,26 7,26 8,55 22,31 25,00 27,49 30,58 32,80 37,70
16 3,94 5,14 5,81 6,91 7,96 9,31 23,54 26,30 28,85 32,00 34,27 39,25
17 4,42 5,70 6,41 7,56 8,67 10,09 24,77 27,59 30,19 33,41 35,72 40,79
18 4,90 6,26 7,01 8,23 9,39 10,86 25,99 28,87 31,53 34,81 37,16 42,31
19 5,41 6,84 7,63 8,91 10,12 11,65 27,20 30,14 32,85 36,19 38,58 43,82
20 5,92 7,43 8,26 8,59 10,85 12,44 28,41 31,41 34,17 37,57 40,00 45,31
21 6,45 8,03 8,90 10,28 11,59 13,24 29,62 32,67 35,48 38,93 41,40 46,80
22 6,98 8,64 9,54 10,98 12,34 14,04 30,81 33,92 36,78 40,29 42,80 48,27
23 7,53 9,26 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64 44,18 49,73
24 8,08 9,89 10,86 12,40 13,85 15,66 33,20 36,42 39,36 42,98 45,56 51,18
25 8,65 10,52 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 46,93 52,62
26 9,22 11,16 12,20 13,84 15,38 17,29 35,56 38,89 41,92 45,64 48,29 54,05
27 9,80 11,81 12,88 14,57 16,15 18,11 36,74 40,11 43,19 46,96 49,64 55,48
28 10,39 12,46 13,56 15,31 16,39 18,94 37,92 41,34 44,46 48,28 50,99 56,89
29 10,99 13,21 14,26 16,05 17,71 19,77 39,09 42,56 45,72 49,59 52,34 58,30
30 11,59 13,79 14,95 16,79 18,49 20,60 40,26 43,77 46,98 50,89 53,67 59,70
40 17,92 20,71 22,16 24,43 26,51 29,05 51,81 55,76 59,34 63,69 66,77 73,40
50 24,67 27,99 29,71 32,36 34,76 37,69 63,17 67,50 71,42 76,15 79,49 86,66
60 31,74 35,53 37,48 40,48 43,19 46,46 74,40 79,08 83,30 88,38 91,95 99,61
70 39,04 43,28 45,44 48,76 51,74 55,33 85,53 90,53 95,02 100,43 104,21 112,3
80 46,52 51,17 53,54 57,15 60,39 64,28 96,58 101,88 106,63 112,33 116,32 124,8
90 54,16 59,20 61,75 65,65 69,13 73,29 107,57 113,15 118,14 124,12 128,30 137,2
100 61,92 67,33 70,06 74,22 77,93 82,36 118,50 124,34 129,56 135,81 140,17 149,4
Tabla D
Distribuciones t de Student
Valores tgl; p que acumulan una probabilidad p con diferentes grados de libertad gl (tgl; p = !tgl; 1!p )
Tabla E
Potencias (1 ! β) para diferentes valores de yα
Tabla F
Distribuciones F
Puntos críticos que acumulan una probabilidad 1 ! α
con gl1 = «grados de libertad del numerador» y gl2 = «grados de libertad del denominador»
1 ! α = 0,95
gl1
gl2 1 2 3 4 5 6 7 8 10 12 15 20
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,79 8,74 8,70 8,66
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 5,96 5,91 5,86 5,80
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,74 4,68 4,62 4,56
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,06 4,00 3,94 3,87
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,64 3,57 3,51 3,44
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,35 3,28 3,22 3,15
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,14 3,07 3,01 2,94
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 2,98 2,91 2,85 2,77
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,85 2,79 2,72 2,65
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,75 2,69 2,62 2,54
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,67 2,60 2,53 2,46
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,60 2,53 2,46 2,39
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,54 2,48 2,40 2,33
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,49 2,42 2,35 2,28
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,45 2,38 2,31 2,23
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,41 2,34 2,27 2,19
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,38 2,31 2,23 2,16
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,35 2,28 2,20 2,12
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,32 2,25 2,18 2,10
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,30 2,23 2,15 2,07
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,27 2,20 2,13 2,05
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,25 2,18 2,11 2,03
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,24 2,16 2,09 2,01
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,22 2,15 2,07 1,99
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,20 2,13 2,06 1,97
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,19 2,12 2,04 1,96
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,18 2,10 2,03 1,94
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,16 2,09 2,01 1,93
35 4,12 3,27 2,87 2,64 2,49 2,37 2,29 2,22 2,11 2,04 1,96 1,88
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,08 2,00 1,92 1,84
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,03 1,95 1,87 1,78
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 1,97 1,89 1,81 1,72
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,94 1,86 1,78 1,69
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,91 1,83 1,75 1,66
200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,88 1,80 1,72 1,62
500 3,86 3,01 2,62 2,39 2,23 2,12 2,03 1,96 1,85 1,77 1,69 1,59
4 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,83 1,75 1,67 1,57
446 Análisis de datos (vol. II)
Tabla F (continuación)
1 ! α = 0,99
gl1
gl2 1 2 3 4 5 6 7 8 10 12 15 20
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,23 27,05 26,87 26,69
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,55 14,37 14,20 14,02
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,05 9,89 9,72 9,55
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,87 7,72 7,56 7,40
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,62 6,47 6,31 6,16
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,81 5,67 5,52 5,36
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,26 5,11 4,96 4,81
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,85 4,71 4,56 4,41
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,54 4,40 4,25 4,10
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,30 4,16 4,01 3,86
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,10 3,96 3,82 3,66
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 3,94 3,80 3,66 3,51
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,80 3,67 3,52 3,37
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,69 3,55 3,41 3,26
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,59 3,46 3,31 3,16
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,51 3,37 3,23 3,08
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,43 3,30 3,15 3,00
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,37 3,23 3,09 2,94
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,31 3,17 3,03 2,88
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,26 3,12 2,98 2,83
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,21 3,07 2,93 2,78
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,17 3,03 2,89 2,74
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,13 2,99 2,85 2,70
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,09 2,96 2,81 2,66
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,06 2,93 2,78 2,63
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,03 2,90 2,75 2,60
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,00 2,87 2,73 2,57
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 2,98 2,84 2,70 2,55
35 7,42 5,27 4,40 3,91 3,59 3,37 3,20 3,07 2,88 2,74 2,60 2,44
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,80 2,66 2,52 2,37
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,70 2,56 2,42 2,27
70 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,59 2,45 2,31 2,15
90 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,52 2,39 2,24 2,09
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,47 2,34 2,19 2,03
200 6,76 4,71 3,88 3,41 3,11 2,89 2,73 2,60 2,41 2,27 2,13 1,97
500 6,69 4,65 3,82 3,36 3,05 2,84 2,68 2,55 2,36 2,22 2,07 1,92
4 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,32 2,18 2,04 1,88
Apéndice final. Tablas estadísticas 447
Tabla G
Distribuciones F no centradas
Probabilidades de cometer errores Tipo II (β) asociadas a diferentes valores de yα
1 ! α = 0,95
gl1 gl2 0,5 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,6 3,0
1 4 0,91 0,80 0,74 0,67 0,59 0,51 0,43 0,65 0,22 0,12
6 0,91 0,78 0,70 0,62 0,52 0,43 0,34 0,26 0,14 0,06
8 0,90 0,76 0,68 0,59 0,49 0,39 0,30 0, 22 0,11 0,04
10 0,90 0,75 0,66 0,57 0,47 0,37 0,28 0, 20 0,09 0,03
12 0,90 0,74 0,65 0,56 0,45 0,35 0,26 0,19 0,08 0,03
16 0,90 0,74 0,64 0,54 0,43 0,33 0,24 0, 17 0,07 0,02
20 0,90 0,73 0,63 0,53 0,42 0,32 0,26 0,16 0,06 0,02
30 0,89 0,72 0,62 0,52 0,40 0,31 0,22 0,15 0,06 0,02
4 0,89 0,71 0,60 0,49 0,38 0,28 0,19 0,12 0,04 0,01
2 4 0,92 0,82 0,77 0,70 0,62 0,54 0,46 0,38 0,24 0,14
6 0,91 0,79 0,71 0,63 0,53 0,43 0,34 0,26 0,13 0,05
8 0,91 0,77 0,68 0,58 0,48 0,37 0,28 0,20 0,08 0,03
10 0,91 0,75 0,66 0,55 0,44 0,34 0,24 0,16 0,06 0,02
12 0,90 0,74 0,64 0,53 0,42 0,31 0,22 0,14 0,05 0,01
16 0,90 0,73 0,62 0,51 0,39 0,28 0,19 0,12 0,04 0,01
20 0,90 0,72 0,61 0,49 0,36 0,26 0,17 0,11 0,03 0,01
30 0,90 0,71 0,59 0,47 0,35 0,24 0,15 0,09 0,02 0,00
4 0,89 0,68 0,56 0,43 0,30 0,20 0,12 0,06 0,01 0,00
3 4 0,92 0,83 0,77 0,71 0,63 0,55 0,47 0,39 0,25 0,14
6 0,91 0,79 0,71 0,62 0,52 0,42 0,33 0,24 0,11 0,04
8 0,91 0,76 0,67 0,57 0,46 0,35 0,25 0,18 0,06 0,02
10 0,91 0,75 0,65 0,53 0,41 0,30 0,21 0,13 0,04 0,01
12 0,90 0,73 0,62 0,50 0,38 0,27 0,18 0,11 0,03 0,01
16 0,90 0,71 0,60 0,47 0,34 0,23 0,14 0,08 0,02 0,00
20 0,90 0,70 0,58 0,45 0,32 0,21 0,13 0,07 0,01 0,00
30 0,89 0,68 0,55 0,42 0,29 0,18 0,10 0,05 0,01 0,00
4 0,88 0,64 0,50 0,36 0,23 0,13 0,07 0,03 0,00 0,00
4 4 0,92 0,83 0,78 0,71 0,64 0,55 0,47 0,39 0,25 0,14
6 0,92 0,79 0,71 0,62 0,52 0,41 0,31 0,23 0,10 0,04
8 0,91 0,76 0,66 0,55 0,44 0,33 0,23 0,15 0,05 0,01
10 0,91 0,74 0,63 0,51 0,39 0,27 0,18 0,11 0,03 0,00
12 0,90 0,72 0,61 0,48 0,35 0,24 0,15 0,08 0,02 0,00
16 0,90 0,70 0,57 0,44 0,31 0,19 0,11 0,06 0,01 0,00
20 0,89 0,68 0,55 0,41 0,28 0,17 0,09 0,04 0,01 0,00
30 0,89 0,66 0,52 0,37 0,24 0,14 0,07 0,03 0,00 0,00
4 0,88 0,60 0,45 0,29 0,17 0,08 0,04 0,01 0,00 0,00
448 Análisis de datos (vol. II)
Tabla G (continuación)
1 ! α = 0,99
gl1 gl2 0,5 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,6 3,0
1 4 0,98 0,95 0,93 0,90 0,87 0,83 0,78 0,73 0,62 0,50
6 0,98 0,93 0,90 0,86 0,81 0,75 0,69 0,61 0,46 0,31
8 0,98 0,92 0,89 0,84 0,78 0,70 0,62 0,54 0,37 0,22
10 0,98 0,92 0,87 0,82 0,75 0,67 0,58 0,49 0,31 0,17
12 0,97 0,91 0,87 0,81 0,73 0,65 0,55 0,46 0,28 0,14
16 0,97 0,90 0,85 0,79 0,71 0,61 0,52 0,42 0,24 0,11
20 0,97 0,90 0,85 0,78 0,69 0,59 0,49 0,39 0,21 0,10
30 0,97 0,89 0,83 0,76 0,67 0,57 0,46 0,36 0,19 0,08
4 0,97 0,88 0,81 0,72 0,62 0,51 0,40 0,30 0,14 0,05
2 4 0,98 0,96 0,94 0,92 0,89 0,85 0,81 0,76 0,66 0,54
6 0,98 0,94 0,91 0,87 0,82 0,76 0,70 0,62 0,46 0,31
8 0,98 0,93 0,89 0,84 0,78 0,70 0,61 0,52 0,34 0,19
10 0,98 0,92 0,88 0,82 0,74 0,65 0,55 0,45 0,26 0,13
12 0,98 0,91 0,86 0,80 0,71 0,61 0,51 0,40 0,22 0,09
16 0,97 0,90 0,84 0,77 0,67 0,57 0,45 0,34 0,16 0,06
20 0,97 0,90 0,83 0,75 0,65 0,53 0,42 0,31 0,14 0,04
30 0,97 0,88 0,82 0,72 0,61 0,49 0,37 0,26 0,10 0,03
4 0,97 0,88 0,77 0,66 0,53 0,40 0,28 0,18 0,05 0,01
3 4 0,98 0,96 0,94 0,92 0,89 0,86 0,82 0,77 0,67 0,55
6 0,98 0,94 0,91 0,87 0,82 0,75 0,69 0,61 0,44 0,29
8 0,98 0,93 0,89 0,84 0,77 0,58 0,59 0,49 0,30 0,19
10 0,98 0,92 0,87 0,80 0,72 0,62 0,52 0,41 0,22 0,09
12 0,98 0,91 0,85 0,78 0,69 0,58 0,46 0,35 0,17 0,06
16 0,97 0,90 0,83 0,74 0,64 0,51 0,39 0,28 0,11 0,03
20 0,97 0,89 0,82 0,72 0,60 0,47 0,35 0,24 0,08 0,02
30 0,97 0,87 0,79 0,68 0,55 0,42 0,29 0,18 0,05 0,01
4 0,97 0,84 0,73 0,59 0,44 0,30 0,18 0,10 0,02 0,00
4 4 0,98 0,96 0,94 0,92 0,89 0,86 0,82 0,78 0,67 0,56
6 0,98 0,94 0,91 0,87 0,82 0,76 0,68 0,60 0,43 0,28
8 0,98 0,93 0,89 0,83 0,76 0,67 0,57 0,47 0,28 0,14
10 0,98 0,92 0,86 0,79 0,70 0,60 0,49 0,37 0,19 0,07
12 0,98 0,91 0,85 0,76 0,66 0,55 0,42 0,31 0,13 0,04
16 0,97 0,89 0,82 0,72 0,60 0,47 0,34 0,23 0,08 0,02
20 0,97 0,88 0,80 0,69 0,56 0,42 0,29 0,18 0,05 0,01
30 0,97 0,86 0,77 0,64 0,50 0,35 0,22 0,13 0,03 0,00
4 0,96 0,81 0,68 0,53 0,36 0,22 0,11 0,05 0,01 0,00
Apéndice final. Tablas estadísticas 449
Tabla H
Coeficientes de polinomios ortogonales
Coeficientes cj para comparaciones de tendencia, con J = nº de medias
Coeficientes
J c1 c2 c3 c4 c5 c6 c7 c8 c9 c10
3 Lineal !1 0 1 2
Cuadrático 1 !2 1 6
4 Lineal !3 !1 1 3 20
Cuadrático 1 !1 !1 1 4
Cúbico !1 3 !3 1 20
5 Lineal !2 !1 0 1 2 10
Cuadrático 2 !1 !2 !1 2 14
Cúbico !1 2 0 !2 1 10
De 4º grado 1 !4 6 !4 1 70
6 Lineal !5 !3 !1 1 3 5 70
Cuadrático 5 !1 !4 !4 1 5 84
Cúbico !5 7 4 !4 !7 5 180
De 4º grado 1 !3 2 2 !3 1 28
7 Lineal !3 !2 !1 0 1 2 3 28
Cuadrático 5 0 !3 !4 !3 0 5 84
Cúbico !1 1 1 0 !1 !1 1 6
De 4º grado 3 !7 1 6 1 !7 3 154
8 Lineal !7 !5 !3 !1 1 3 5 7 168
Cuadrático 7 1 !3 !5 !5 !3 1 7 168
Cúbico !7 5 7 3 !3 !7 !5 7 264
De 4º grado 7 !13 !3 9 9 !3 !13 7 616
De 5º grado !7 23 !17 !15 15 17 !23 7 2184
9 Lineal !4 !3 !2 !1 0 1 2 3 4 60
Cuadrático 28 7 !8 !17 !20 !17 !8 7 28 2772
Cúbico !14 7 13 9 0 !9 !13 !7 14 990
De 4º grado 14 !21 !11 9 18 9 !11 !21 14 2002
De 5º grado !4 11 !4 !9 0 9 4 !11 4 468
10 Lineal !9 !7 !5 !3 !1 1 3 5 7 9 330
Cuadrático 6 2 !1 !3 !4 !4 !3 !1 2 6 132
Cúbico !42 14 35 31 12 !12 !31 !35 !14 42 8580
De 4º grado 18 !22 !17 3 18 18 3 !17 !22 18 2860
De 5º grado !6 14 !1 !11 !6 6 11 1 !14 6 780
450 Análisis de datos (vol. II)
Tabla I
Transformación Z de Fisher
Valores Z correspondientes a RXY y ρXY
Tabla J
Puntos críticos para el estadístico de Dunn-Bonferroni
Contrastes bilaterales
1 ! αF = 0,95
k = número de comparaciones
glerror 2 3 4 5 6 7 8 9 10 12 15 20
5 3,16 3,53 3,81 4,03 4,22 4,38 4,53 4,66 4,77 4,98 5,25 5,60
6 2,97 3,29 3,52 3,71 3,86 4,00 4,12 4,22 4,32 4,49 4,70 4,98
7 2,84 3,13 3,34 3,50 3,64 3,75 3,86 3,95 4,03 4,17 4,36 4,59
8 2,75 3,02 3,21 3,36 3,48 3,58 3,68 3,76 3,83 3,96 4,12 4,33
9 2,69 2,93 3,11 3,25 3,36 3,46 3,55 3,62 3,69 3,81 3,95 4,15
10 2,63 2,87 3,04 3,17 3,28 3,37 3,45 3,52 3,58 3,69 3,83 4,00
11 2,59 2,82 2,98 3,11 3,21 3,30 3,37 3,44 3,50 3,60 3,73 3,89
12 2,56 2,78 2,93 3,05 3,15 3,24 3,31 3,37 3,43 3,53 3,65 3,81
13 2,53 2,75 2,90 3,01 3,11 3,19 3,26 3,32 3,37 3,47 3,58 3,73
14 2,51 2,72 2,86 2,98 3,07 3,15 3,21 3,27 3,33 3,42 3,53 3,67
15 2,49 2,69 2,84 2,95 3,04 3,11 3,18 3,23 3,29 3,37 3,48 3,62
16 2,47 2,67 2,81 2,92 3,01 3,08 3,15 3,20 3,25 3,34 3,44 3,58
17 2,46 2,66 2,79 2,90 2,98 3,06 3,12 3,17 3,22 3,31 3,41 3,54
18 2,45 2,64 2,77 2,88 2,96 3,03 3,09 3,15 3,20 3,28 3,38 3,51
19 2,43 2,63 2,76 2,86 2,94 3,01 3,07 3,13 3,17 3,25 3,35 3,48
20 2,42 2,61 2,74 2,85 2,93 3,00 3,06 3,11 3,15 3,23 3,33 3,46
21 2,41 2,60 2,73 2,83 2,91 2,98 3,04 3,09 3,14 3,21 3,31 3,43
22 2,41 2,59 2,72 2,82 2,90 2,97 3,02 3,07 3,12 3,20 3,29 3,41
23 2,40 2,58 2,71 2,81 2,89 2,95 3,01 3,06 3,10 3,18 3,27 3,39
24 2,39 2,57 2,70 2,80 2,88 2,94 3,00 3,05 3,09 3,17 3,26 3,38
25 2,38 2,57 2,69 2,79 2,86 2,93 2,99 3,03 3,08 3,15 3,24 3,36
26 2,38 2,56 2,68 2,78 2,86 2,92 2,98 3,02 3,07 3,14 3,23 3,35
27 2,37 2,55 2,68 2,77 2,85 2,91 2,97 3,01 3,06 3,13 3,22 3,33
28 2,37 2,55 2,67 2,76 2,84 2,90 2,96 3,00 3,05 3,12 3,21 3,32
29 2,36 2,54 2,66 2,76 2,83 2,89 2,95 3,00 3,04 3,11 3,20 3,31
30 2,36 2,54 2,66 2,75 2,82 2,89 2,94 2,99 3,03 3,10 3,19 3,30
35 2,34 2,51 2,63 2,72 2,80 2,86 2,91 2,96 3,00 3,07 3,15 3,26
40 2,33 2,50 2,62 2,70 2,78 2,84 2,89 2,93 2,97 3,04 3,12 3,23
50 2,31 2,48 2,59 2,68 2,75 2,81 2,85 2,90 2,94 3,00 3,08 3,18
60 2,30 2,46 2,58 2,66 2,73 2,79 2,83 2,88 2,91 2,98 3,06 3,16
80 2,28 2,45 2,56 2,64 2,71 2,76 2,81 2,85 2,89 2,95 3,03 3,12
100 2,28 2,43 2,54 2,63 2,69 2,75 2,79 2,83 2,87 2,93 3,01 3,10
200 2,26 2,41 2,52 2,60 2,66 2,72 2,76 2,80 2,84 2,90 2,97 3,06
500 2,25 2,40 2,51 2,59 2,65 2,70 2,75 2,79 2,82 2,88 2,95 3,04
4 2,24 2,39 2,50 2,58 2,64 2,69 2,74 2,77 2,81 2,87 2,94 3,02
452 Análisis de datos (vol. II)
Tabla J (continuación)
1 ! αF = 0,99
k = número de comparaciones
glerror 2 3 4 5 6 7 8 9 10 12 15 20
5 4,77 5,25 5,60 5,89 6,14 6,35 6,54 6,71 6,87 7,15 7,50 7,98
6 4,32 4,70 4,98 5,21 5,40 5,56 5,71 5,84 5,96 6,17 6,43 6,79
7 4,03 4,36 4,59 4,79 4,94 5,08 5,20 5,31 5,41 5,58 5,80 6,08
8 3,83 4,12 4,33 4,50 4,64 4,76 4,86 4,96 5,04 5,19 5,37 5,62
9 3,69 3,95 4,15 4,30 4,42 4,53 4,62 4,71 4,78 4,91 5,08 5,29
10 3,58 3,83 4,00 4,14 4,26 4,36 4,44 4,52 4,59 4,71 4,85 5,05
11 3,50 3,73 3,89 4,02 4,13 4,22 4,30 4,37 4,44 4,55 4,68 4,86
12 3,43 3,65 3,81 3,93 4,03 4,12 4,19 4,26 4,32 4,42 4,55 4,72
13 3,37 3,58 3,73 3,85 3,95 4,03 4,10 4,16 4,22 4,32 4,44 4,60
14 3,33 3,53 3,67 3,79 3,88 3,96 4,03 4,09 4,14 4,23 4,35 4,50
15 3,29 3,48 3,62 3,73 3,82 3,90 3,96 4,02 4,07 4,16 4,27 4,42
16 3,25 3,44 3,58 3,69 3,77 3,85 3,91 3,96 4,01 4,10 4,21 4,35
17 3,22 3,41 3,54 3,65 3,73 3,80 3,86 3,92 3,97 4,05 4,15 4,29
18 3,20 3,38 3,51 3,61 3,69 3,76 3,82 3,87 3,92 4,00 4,10 4,23
19 3,17 3,35 3,48 3,58 3,66 3,73 3,79 3,84 3,88 3,96 4,06 4,19
20 3,15 3,33 3,46 3,55 3,63 3,70 3,75 3,80 3,85 3,93 4,02 4,15
21 3,14 3,31 3,43 3,53 3,60 3,67 3,73 3,78 3,82 3,90 3,99 4,11
22 3,12 3,29 3,41 3,50 3,58 3,64 3,70 3,75 3,79 3,87 3,96 4,08
23 3,10 3,27 3,39 3,48 3,56 3,62 3,68 3,72 3,77 3,84 3,93 4,05
24 3,09 3,26 3,38 3,47 3,54 3,60 3,66 3,70 3,75 3,82 3,91 4,02
25 3,08 3,24 3,36 3,45 3,52 3,58 3,64 3,68 3,73 3,80 3,88 4,00
26 3,07 3,23 3,35 3,43 3,51 3,57 3,62 3,67 3,71 3,78 3,86 3,97
27 3,06 3,22 3,33 3,42 3,49 3,55 3,60 3,65 3,69 3,76 3,84 3,95
28 3,05 3,21 3,32 3,41 3,48 3,54 3,59 3,63 3,67 3,74 3,83 3,94
29 3,04 3,20 3,31 3,40 3,47 3,52 3,58 3,62 3,66 3,73 3,81 3,92
30 3,03 3,19 3,30 3,39 3,45 3,51 3,56 3,61 3,65 3,71 3,80 3,90
35 3,00 3,15 3,26 3,34 3,41 3,46 3,51 3,55 3,59 3,66 3,74 3,84
40 2,97 3,12 3,23 3,31 3,37 3,43 3,47 3,51 3,55 3,61 3,69 3,79
50 2,94 3,08 3,18 3,26 3,32 3,38 3,42 3,46 3,50 3,56 3,63 3,72
60 2,91 3,06 3,16 3,23 3,29 3,34 3,39 3,43 3,46 3,52 3,59 3,68
80 2,89 3,03 3,12 3,20 3,25 3,30 3,35 3,38 3,42 3,47 3,54 3,63
100 2,87 3,01 3,10 3,17 3,23 3,28 3,32 3,36 3,39 3,45 3,51 3,60
200 2,84 2,97 3,06 3,13 3,19 3,23 3,27 3,31 3,34 3,39 3,46 3,54
500 2,82 2,95 3,04 3,11 3,16 3,21 3,25 3,28 3,31 3,36 3,42 3,50
4 2,81 2,94 3,02 3,09 3,15 3,19 3,23 3,26 3,29 3,34 3,41 3,48
Apéndice final. Tablas estadísticas 453
Tabla K
Puntos críticos para el estadístico de Dunnett
Contrastes unilaterales
Tabla K (continuación)
Contrastes bilaterales
Tabla L
Puntos críticos de las distribuciones del rango studentizado
1 ! αF = 0,95
J = nº de medias
glerror 3 4 5 6 7 8 9 10 11 12 15 20
6 4,34 4,90 5,31 5,63 5,90 6,12 6,32 6,49 6,65 6,79 7,14 7,59
7 4,16 4,68 5,06 5,36 5,61 5,82 6,00 6,16 6,30 6,43 6,76 7,17
8 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92 6,05 6,18 6,48 6,87
9 3,95 3,42 4,76 5,02 5,24 5,43 5,60 5,74 5,87 5,98 6,28 6,64
10 3,88 3,33 4,65 4,91 5,12 5,30 5,46 5,60 5,72 5,83 6,11 6,47
11 3,82 3,26 4,57 4,82 5,03 5,20 5,35 5,49 5,60 5,71 5,98 6,33
12 3,77 3,20 4,51 4,75 4,95 5,12 5,26 5,40 5,51 5,62 5,88 6,21
13 3,74 3,15 4,45 4,69 4,88 5,05 5,19 5,32 5,43 5,53 5,79 6,11
14 3,70 3,11 4,41 4,64 4,83 4,99 5,13 5,25 5,36 5,46 5,71 6,03
15 3,67 3,08 4,37 4,60 4,78 4,94 5,08 5,20 5,31 5,40 5,65 5,96
16 3,65 3,05 4,33 4,56 4,74 4,90 5,03 5,15 5,26 5,35 5,59 5,90
18 3,61 3,00 4,28 4,50 4,67 4,82 4,96 5,07 5,17 5,27 5,50 5,79
20 3,58 3,96 4,23 4,44 4,62 4,77 4,90 5,01 5,11 5,20 5,43 5,71
24 3,53 3,90 4,17 4,17 4,54 4,68 4,81 4,92 5,01 5,10 5,32 5,59
30 3,49 3,84 4,10 4,30 4,46 4,60 4,72 4,82 4,92 5,00 5,21 5,47
40 3,44 3,79 4,04 4,23 4,39 4,52 4,64 4,74 4,82 4,90 5,11 5,36
60 3,40 3,74 3,98 4,16 4,31 4,44 4,55 4,65 4,73 4,81 5,00 5,24
4 3,31 3,63 3,86 4,03 4,17 4,29 4,39 4,47 4,55 4,62 4,80 5,01
1 ! αF = 0,99
J = nº de medias
glerror 3 4 5 6 7 8 9 10 11 12 15 20
6 6,33 7,03 7,56 7,97 8,32 8,62 8,87 9,10 9,30 9,48 9,95 10,54
7 5,92 6,54 7,00 7,37 7,68 7,94 8,17 8,37 8,55 8,71 9,12 9,65
8 5,64 6,20 6,62 6,96 7,24 7,47 7,68 7,86 8,03 8,18 8,55 9,03
9 5,43 5,96 6,35 6,66 6,92 7,13 7,32 7,50 7,65 7,78 8,13 8,57
10 5,27 5,77 6,14 6,43 6,67 6,88 7,06 7,21 7,36 7,48 7,81 8,23
11 5,15 5,62 5,97 6,25 6,48 6,67 6,84 6,99 7,13 7,25 7,56 7,95
12 5,05 5,50 5,84 6,10 6,32 6,51 6,67 6,81 6,94 7,06 7,36 7,73
13 4,96 5,40 5,73 5,98 6,19 6,37 6,53 6,67 6,79 6,90 7,19 7,55
14 4,90 5,32 5,63 5,88 6,08 6,26 6,41 6,54 6,66 6,77 7,05 7,39
15 4,84 5,25 5,56 5,80 5,99 6,16 6,31 6,44 6,56 6,66 6,93 7,26
16 4,79 5,19 5,49 5,72 5,92 6,08 6,22 6,35 6,46 6,56 6,82 7,15
18 4,70 5,09 5,38 5,60 5,79 5,94 6,08 6,20 6,31 6,41 6,66 6,97
20 4,64 5,02 5,29 5,51 5,69 5,84 5,97 6,09 6,19 6,28 6,52 6,82
24 4,55 4,91 5,17 5,37 5,54 5,69 5,81 5,92 6,02 6,11 6,33 6,61
30 4,46 4,80 5,05 5,24 5,40 5,54 5,65 5,76 5,85 5,93 6,14 6,41
40 4,37 4,70 4,93 5,11 5,26 5,39 5,50 5,60 5,69 5,76 5,96 6,21
60 4,28 4,60 4,82 4,99 5,13 5,25 5,36 5,45 5,53 5,60 5,78 6,02
4 4,12 4,40 4,60 4,76 4,88 4,99 5,08 5,16 5,23 5,29 5,45 5,65
456 Análisis de datos (vol. II)
Tabla M
Puntos críticos para el estadístico S+ de Wilcoxon
Valores sp que acumulan una probabilidad p con diferentes tamaños muestrales n
n s0,005 s0,01 s0,025 s0,05 s0,10 s0,20 s0,80 s0,90 s0,95 s0,975 s0,99 s0,995
4 0 0 0 0 1 3 7 9 10 10 10 10
5 0 0 0 1 3 4 11 12 14 15 15 15
6 0 0 1 3 4 6 15 17 18 20 21 21
7 0 1 3 4 6 9 19 22 24 25 27 28
8 1 2 4 6 9 12 24 27 30 32 34 35
9 2 4 6 9 11 15 30 34 36 39 41 43
10 4 6 9 11 15 19 36 40 44 46 49 51
11 6 8 11 14 18 23 43 48 52 55 58 60
12 8 10 14 18 22 28 50 56 60 64 68 70
13 10 13 18 22 27 33 58 64 69 73 78 81
14 13 16 22 26 32 39 66 73 79 83 89 92
15 16 20 26 31 37 45 75 83 89 94 100 104
16 20 24 30 36 43 51 85 93 100 106 112 116
17 24 28 35 42 49 58 95 104 111 118 125 129
18 28 33 41 48 56 66 105 115 123 130 138 143
19 33 38 47 54 63 74 116 127 136 143 152 157
20 38 44 53 61 70 83 127 140 149 157 166 172
21 44 50 59 68 78 91 140 153 163 172 181 187
22 49 56 67 76 87 100 153 166 177 186 197 204
23 55 63 74 84 95 110 166 181 192 202 213 221
24 62 70 82 92 105 120 180 195 208 218 230 238
25 69 77 90 101 114 131 194 211 224 235 248 256
26 76 85 99 111 125 142 209 226 240 252 266 275
27 84 94 108 120 135 154 224 243 258 270 284 294
28 92 102 117 131 146 166 240 260 275 289 304 314
29 101 111 127 141 158 178 257 277 294 308 324 334
30 110 121 138 152 170 191 274 295 313 327 344 355
31 119 131 148 164 182 205 291 314 332 348 365 377
32 129 141 160 176 195 219 309 333 352 368 387 399
33 139 152 171 188 208 233 328 353 373 390 409 422
34 149 163 183 201 222 248 347 373 394 412 432 446
35 160 175 196 214 236 263 367 394 416 434 455 470
36 172 187 209 228 251 279 387 415 438 457 479 494
37 184 199 222 242 266 295 408 437 461 481 504 519
38 196 212 236 257 298 312 429 459 484 505 529 545
39 208 225 250 272 314 329 451 482 508 530 555 572
40 221 239 265 287 331 347 473 506 533 555 581 599
Para n > 40, los puntos críticos sp de la distribución del estadístico S+ de Wilcoxon pueden obte-
nerse utilizando la aproximación normal: .
Apéndice final. Tablas estadísticas 457
Tabla N
Puntos críticos para el estadístico DKS de Kolmogorov-Smirnov
Valores dα correspondientes a diferentes niveles de significación α y tamaños muestrales n
Nivel de significación α
n > 40
458 Análisis de datos (vol. II)
Tabla O
Puntos críticos para el estadístico U de Mann-Whitney
Valores uα que acumulan una probabilidad α con diferentes tamaños muestrales n1 y n2
n1 α n2 ' 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
4 0,001 10 10 10 10 10 10 11 11 11 12 12 12 13 13 14 14 14
0,005 10 10 11 11 12 12 13 13 14 14 15 16 16 17 17 18 19
0,010 10 11 12 12 13 14 14 15 16 16 17 18 18 19 20 20 21
0,025 11 12 13 14 15 15 16 17 18 19 20 21 22 22 23 24 25
0,050 12 13 14 15 16 17 18 19 20 21 22 23 25 26 27 28 29
5 0,001 15 15 15 15 16 17 17 18 18 19 19 20 21 21 22 23 23
0,005 15 16 17 17 18 19 20 21 22 23 23 24 25 26 27 28 29
0,010 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
0,025 17 18 19 21 22 23 24 25 27 28 29 30 31 33 34 35 36
0,050 18 20 21 22 24 25 27 28 29 31 32 34 35 36 38 39 41
6 0,001 21 21 21 21 23 24 25 26 26 27 28 29 30 31 32 33 34
0,005 22 23 24 25 26 27 28 29 31 32 33 34 35 37 38 39 40
0,010 23 24 25 26 28 29 30 31 33 34 35 37 38 40 41 42 44
0,025 24 25 27 28 30 32 33 35 36 38 39 41 43 44 46 47 49
0,050 25 27 29 30 32 34 36 38 39 41 43 45 47 48 50 52 54
7 0,001 28 28 29 30 31 32 34 35 36 37 38 39 40 42 43 44 45
0,005 29 30 32 33 35 36 38 39 41 42 44 45 47 48 50 51 53
0,010 30 32 33 35 36 38 40 41 43 45 46 48 50 52 53 55 57
0,025 32 34 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63
0,050 33 35 37 40 42 44 46 48 50 53 55 57 59 62 64 66 68
8 0,001 36 37 38 39 41 42 43 45 46 48 49 51 52 54 55 57 58
0,005 38 39 41 43 44 46 48 50 52 54 55 57 59 61 63 65 67
0,010 39 41 43 44 46 48 50 52 54 56 59 61 63 65 67 69 71
0,025 41 43 45 47 50 52 54 56 59 61 63 66 68 71 73 75 78
0,050 42 45 47 50 52 55 57 60 63 65 68 70 73 76 78 81 84
9 0,001 45 47 48 49 51 53 54 56 58 60 61 63 65 67 69 71 72
0,005 47 49 51 53 55 57 59 62 64 66 68 70 73 75 77 79 82
0,010 49 51 53 55 57 60 62 64 67 69 72 74 77 79 82 84 86
0,025 50 53 56 58 61 63 66 69 72 74 77 80 83 85 88 91 94
0,050 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100
10 0,001 56 57 59 61 62 64 66 68 70 73 75 77 79 81 83 85 88
0,005 58 60 62 65 67 69 72 74 77 80 82 85 87 90 93 95 98
0,010 59 62 64 67 69 72 75 78 80 83 86 89 92 94 97 100 103
0,025 61 64 67 70 73 76 79 82 85 89 92 95 98 101 104 108 111
0,050 63 67 70 73 76 80 83 87 90 93 97 100 104 107 111 114 118
11 0,001 67 69 71 73 75 77 79 82 84 87 89 91 94 96 99 101 104
0,005 69 72 74 77 80 83 85 88 91 94 97 100 103 106 109 112 115
0,010 71 74 76 79 82 85 89 92 95 98 101 104 108 111 114 117 120
0,025 73 76 80 83 86 90 93 97 100 104 107 111 114 118 122 125 129
0,050 75 79 83 86 90 94 98 101 105 109 113 117 121 124 128 132 136
Apéndice final. Tablas estadísticas 459
Tabla O (continuación)
n1 α n2 ' 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
12 0,001 79 81 83 86 88 91 93 96 98 102 104 106 110 113 116 118 121
0,005 82 82 88 91 94 97 100 103 106 110 113 116 120 123 126 130 133
0,010 84 87 90 93 96 100 103 107 110 114 117 121 125 128 132 135 139
0,025 86 90 93 97 101 105 108 112 116 120 124 158 132 136 140 144 148
0,050 88 92 96 100 105 109 111 117 121 126 130 134 139 414 147 151 156
13 0,001 93 95 97 100 103 106 109 112 115 118 121 124 127 130 134 137 140
0,005 95 99 102 105 109 112 116 119 123 126 130 134 137 141 145 149 152
0,010 97 101 104 108 112 115 119 123 127 131 135 139 143 147 151 155 159
0,025 100 104 108 112 116 120 125 129 133 137 142 146 151 155 159 164 168
0,050 102 107 111 116 120 125 129 134 139 143 148 153 157 162 167 172 176
14 0,001 107 109 112 115 118 121 125 128 131 135 138 142 145 149 152 156 160
0,005 110 113 117 121 124 128 132 136 140 144 148 152 156 160 164 169 173
0,010 112 116 119 123 128 132 136 140 144 149 153 157 162 166 171 175 179
0,025 115 119 123 128 132 137 142 146 151 156 161 165 170 175 180 184 189
0,050 117 122 127 132 137 142 147 152 157 162 167 172 177 183 188 193 198
15 0,001 122 125 128 133 135 138 142 145 149 153 157 161 164 168 172 176 180
0,005 126 129 133 137 141 145 150 154 158 163 167 172 176 181 185 190 194
0,010 128 132 136 140 145 149 154 158 163 168 172 177 182 187 191 196 201
0,025 131 135 140 145 150 155 160 165 170 175 180 185 191 196 201 206 211
0,050 133 139 144 149 154 160 165 191 176 182 187 193 198 204 209 215 221
16 0,001 139 142 145 148 152 156 160 164 168 172 176 180 185 189 193 197 202
0,005 142 146 150 155 159 164 168 173 178 182 187 192 197 202 207 211 216
0,010 144 149 153 158 163 168 173 178 183 188 193 198 203 208 213 219 224
0,025 148 152 158 163 168 174 179 184 190 196 201 207 212 218 223 229 235
0,050 151 156 162 167 173 179 185 191 197 202 208 214 220 226 232 238 244
17 0,001 156 159 163 167 171 175 179 183 188 192 197 201 206 211 215 220 224
0,005 160 164 169 173 178 183 188 193 198 203 208 214 219 224 229 235 240
0,010 162 167 172 177 182 187 192 198 203 209 214 220 225 231 236 242 247
0,025 165 171 176 182 188 193 199 205 211 217 223 229 235 241 247 253 259
0,050 169 174 180 187 193 199 205 211 218 224 231 237 243 250 256 263 269
18 0,001 175 178 182 186 190 195 199 204 209 214 218 223 228 233 238 243 248
0,005 178 183 188 193 198 203 209 214 219 225 230 236 242 247 253 259 264
0,010 181 186 191 196 202 208 213 219 225 231 237 242 248 254 260 266 272
0,025 184 190 196 202 208 214 220 227 233 239 246 252 258 265 271 278 284
0,050 188 194 200 207 213 220 227 233 240 247 254 260 267 274 281 288 295
19 0,001 194 198 202 206 211 216 220 225 231 236 241 246 251 257 262 268 273
0,005 198 203 208 213 219 224 230 236 242 248 254 260 265 272 278 284 290
0,010 200 206 211 217 223 229 235 241 247 254 260 266 273 279 285 292 298
0,025 204 210 216 223 229 236 243 249 256 263 269 276 283 290 297 304 310
0,050 208 214 221 228 235 242 239 256 263 271 278 285 292 300 307 314 321
20 0,001 214 218 223 227 232 237 243 248 253 259 265 270 276 281 287 293 299
0,005 219 224 229 235 241 247 253 259 265 271 278 284 290 297 303 310 316
0,010 221 227 233 239 245 251 258 264 271 278 284 291 298 304 311 318 325
0,025 225 231 238 245 251 259 266 273 280 287 294 301 309 316 323 330 338
0,050 229 236 243 250 258 265 273 280 288 295 303 311 318 326 334 341 349
Tabla P
Puntos críticos para el estadístico H de Kruskal-Wallis
Valores h1!α que acumulan una probabilidad 1 ! α
J n1 n2 n3 n4 n5 1 ! α . 0,95 1 ! α . 0,99
3 3 3 3 5,60 !
4 3 3 5,73 6,75
4 4 3 5,58 7,14
4 4 4 5,69 7,54
5 3 3 5,52 7,08
5 4 3 5,63 7,44
5 4 4 5,62 7,76
5 5 3 5,63 7,54
5 5 4 5,64 7,82
5 5 5 5,66 7,98
6 3 3 5,61 7,19
6 4 3 5,61 7,47
6 4 4 5,67 7,72
6 5 3 5,60 7,56
6 5 4 5,66 7,94
6 5 5 5,73 8,01
6 6 3 5,63 7,73
6 6 4 5,72 8,00
6 6 5 5,76 8,12
6 6 6 5,72 8,19
7 7 7 5,77 8,33
8 8 8 5,80 8,43
Valor asintótico 5,99 9,21
4 3 3 3 3 6,88 8,44
4 3 3 3 6,97 8,66
4 4 3 3 7,04 8,87
4 4 4 3 7,13 9,07
4 4 4 4 7,21 9,29
Valor asintótico 7,82 11,34
5 3 3 3 3 3 8,33 10,20
Valor asintótico 9,49 13,28
Apéndice final. Tablas estadísticas 461
Tabla Q
Puntos críticos para el estadístico de Friedman
Valores que acumulan una probabilidad 1 ! α
4 3 7,40 9,00
4 7,80 9,60
5 7,80 9,96
6 7,60 10,20
7 7,80 10,54
8 7,65 10,50
Valor asintótico 7,82 11,34
5 3 8,53 13,13
4 8,80 11,20
5 8,96 11,52
6 9,07 11,87
7 9,14 12,11
8 9,20 12,30
Valor asintótico 9,49 13,28
6 3 9,56 11,76
4 10,29 12,57
5 10,49 13,23
6 10,57 13,62
Valor asintótico 11,07 15,07
462 Análisis de datos (vol. II)
Tabla R
Puntos críticos para el coeficiente de correlación RS de Spearman
Valores r1 ! α que acumulan una probabilidad 1 ! α con diferentes tamaños muestrales n
Se verifica: rα = !r1 ! α .
Glosario de símbolos
Letras griegas
Abad FJ, Olea J, Ponsoda J y García C (2010). Medición en ciencias sociales y de la salud. Madrid: Síntesis.
Abelson RP (1995). Statistics as principled argument. Hillsdale, NJ: LEA.
Abelson RP (1997a). On the surprising longevity of flogged horses: Why there is a case for the significance test.
Psychological Science, 8, 12-15.
Abelson RP (1997b). A retrospective on the significance test ban of 1999 (if there were no significance tests,
they would be invented). In LL Harlow, SA Mulaik y JH Steiger (Eds), What if there were no significance
tests? (págs 117-141). Hillsdale, NJ: LEA.
Abelson RP y Prentice DA (1997). Contrast tests of interaction hypotheses. Psychological Bulletin, 2, 315-328.
Agresti A (1984). Analysis of ordinal categorical data. New York: Wiley.
Agresti A (2002). Categorical data analysis (2ª ed). New York: Wiley.
Agresti A (2007). An introduction to categorical data analysis (2ª ed). New York: Wiley.
Algina J y Keselman HJ (1999). Comparing squared multiple correlation coefficients: Examination of an
interval and a test of significance. Psychological Methods, 4, 76-83.
Algina J y Keselman HJ (2003). Approximate confidence intervals for effect sizes. Educational and Psycholo-
gical Measurement, 63, 537-553.
Algina J, Keselman HJ y Penfield RD (2005). An alternative to Cohen’s standardized mean difference effect
size: A robust parameter and confidence interval in the two independent groups case. Psychological
Methods, 10, 317-328.
Algina J, Keselman HJ y Penfield RD (2006). Confidence intervals for an effect size when variances are not
equal. Journal of Modern Applied Statistical Methods, 5, 2-13.
Amón J (1979). Estadística para psicólogos. Estadística descriptiva (2ª ed). Madrid: Pirámide.
Amón J (1984). Estadística para psicólogos. Probabilidad y estadística inferencial (3ª ed). Madrid: Pirámide.
Ato M y Vallejo G (2007). Diseños experimentales en psicología. Madrid: Pirámide.
Bakan D (1966). The test of significance in psychological research. Psychological Bulletin, 66, 423-437.
Balluerka N, Gómez J y Hidalgo D (2005). The controversy over null hypothesis significance testing revisited.
Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, 1, 55-70.
Bangert R, Kulik JA y Kulik CLC (1983). Effect of coaching programs on achievement test performance.
Review of Educational Research, 53, 571-585.
Belsley DA, Kuh E y Welsch RE (1980). Regression diagnostics: Identifying influential data and sources of
collinearity. New York: Wiley.
Berry WD (1993). Understanding regression assumptions. Newbury Park, CA: Sage.
Berry WD y Feldman S (1985). Multiple regression in practice. Beverly Hills, CA: Sage.
Bird KD (2002). Confidence intervals for effect sizes in analysis of variance. Educational and Psychological
Measurement, 62, 197-226.
Blair RC y Higgins JJ (1985). Comparisons of the power of the paired samples t test to that of Wilcoxon’s
signed-ranks test under various population shapes. Psychollogical Bulletin, 97, 119-128.
Blair RC, Higgins JJ y Smitley DS (1980). On the relative power of the U and t test. British Journal of
Mathematical and Statistical Psychology, 33, 114-120.
468 Análisis de datos (vol. II)
Bock RD (1975). Multivariate statistical methods in behavioral research. New York: McGraw-Hill.
Bonett DG y Wright TA (2000). Sample size requirements for estimating Pearson, Kendall, and Spearman
correlations. Psychometrika, 65, 23-28.
Bonett DG y Wright TA (2007). Comments and recommendations regarding the hypothesis testing controversy.
Journal of Organizational Behavior, 28, 647–659.
Boss DD y Hughes-Oliver JM (2000). How large does n have to be for the Z and t intervals. American Sta-
tistician, 54, 121-128.
Bowker AH (1948). A test for symmetry in contingency tables. Journal of the American Statistical Association,
43, 572-574.
Box GEP (1950). Problems in the analysis of the growth and wear curves. Biometrics, 6, 362-389.
Box GEP (1953). Non-normality and tests on variance. Biometrika, 40, 318-335.
Box GEP (1954a). Some theorems on quadratic forms applied in the study of analysis of variance problems.
I: Effects of inequality of variance in the one-way classification. Annals of Mathematical Statistics, 25,
290-302.
Box GEP (1954b). Some theorems on quadratic forms applied in the study of analysis of variance problems.
II: Effects of inequality of variance and of correlation between errors in the two-way classification. Annals
of Mathematical Statistics, 25, 484-498.
Breslow NE (1996). Statistics in epidemiology: The case-control study. Journal of the American Statistical
Association, 91, 14-28.
Breslow NE y Day NE (1980). Statistical methods in cancer research. I: The analysis of case-control studies.
Lyon: IARC.
Breslow NE y Day NE (1987). Statistical methods in cancer research. II: The design and analysis of cohort
studies. Lyon: IARC.
Brown M y Forsythe A (1974a). Robust tests for the equality of variances. Journal of the American Statistical
Association, 69, 364-367.
Brown MB y Forsythe AB (1974b). The ANOVA and multiple comparisons for data with heterogeneous
variances. Biometrics, 30, 719-724.
Budescu DV y Appelbaum MI (1981). Variance stabilizing transformations and the power of the F test. Journal
of Educational Statistics, 6, 55-74.
Caruso JC y Cliff N (1997). Empirical size, coverage, and power of confidence intervals for Spearman’s rho.
Educational and Psychological Measurement, 57, 637-654.
Carroll RM y Nordholm LA (1975). Sampling characteristics of Kelleys’s ε2 and Hays’s ω2. Educational and
Psychological Measurement, 35, 541-554.
Chambers JM, Cleveland WS, Kleiner B y Tukey PA (1983). Graphical methods for data analysis. Belmont,
CA: Wadsworth.
Chase LJ y Tucker RK (1977). Statistical power: Derivation, development and data-analytic implications.
Psychological Record, 26, 473-486.
Chatterjee S y Hadi AS (1988). Sensitivity analysis in regression. New York: Wiley.
Chow SL (1988). Significance test or effect size? Psychological Bulletin, 103, 105-110.
Chow SL (1989). Significance tests and deduction: Reply to Folger (1989). Psychological Bulletin, 106, 161-165.
Chow SL (1991). Some reservations about power analysis. American Psychologist, 46, 1088-1089.
Chow SL (1996). Statistical significance: Rationale, validity, and utility. Thousand Oaks, CA: Sage.
Chow SL (1998). What statistical significance means. Theory and Psychology, 8, 323-330.
Cochran WG (1941). The distribution of the largest of a set of estimated variances as a fraction of their total.
Annals of Eugenics, 11, 47-52.
Cochran WG (1950). The comparison of percentages in matched samples. Biometrika, 37, 256-266.
Cochran WG (1954). Some methods for strengthening the common χ2 tests. Biometrics, 10, 417-451.
Cohen J (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement,
20, 37-46.
Cohen J (1966). Some statistical issues in psychological research. En BB Wolman (Ed), Handbook of clinical
psychology (págs 95-121). New York: McGraw-Hill.
Referencias 469
Cohen J (1968). Weighted kappa: Nominal scale agreement with provision for scaled disagreement of partial
credit. Psychological Bulletin, 70, 213-220.
Cohen J (1988). Statistical power analysis for the behavioral sciences (2ª ed). New York: Academic Press.
Cohen J (1990). Things I have learned (so far). American Psychologist, 45, 1304-1312.
Cohen J (1992a). A power primer. Psychological Bulletin, 112, 155-159.
Cohen J (1992b). Statistical power analysis. Current Directions in Psychological Science, 1, 98-101.
Cohen J (1994). The earth is round (p < .05). American Psychologist, 49, 997-1003.
Cohen J (1995). The earth is round (p < .05): Rejoinder. American Psychologist, 50, 1103.
Cohen J, Cohen P, West SG y Aiken LS (2003). Applied multiple regression/correlation analysis for the
behabioral sciences (3ª ed). Mahwah, NJ: LEA.
Conover WJ (1980). Practical nonparametric statistics (2ª ed). New York: Wiley.
Conover WJ, Johnson ME y Johnson MM (1981). A comparative study of test for homogeneity of variances
with applications to the outer continental self bidding data. Technometrics, 23, 351-361.
Conover WJ y Kemp KE (1976). Comparisons of the asymptotic efficiencies of two sample tests for discrete
distributions. Communications in Statistics - Theory and Methods, 5, 1-15.
Cook RD (1977). Detection of influential observations in linear regression. Technometrics, 19, 15-18.
Cook RD (1979). Influential observations in linear regression. Journal of the American Statistical Association,
74, 169-174.
Cook RD (1993). Exploring partial residual plots. Technometrics, 35, 351-362.
Cook RD y Weisberg, S. (1982). Residuals and influence in regression. New York: Chapman and Hall.
Cornell JE, Young DM, Seaman SL y Kirk RE (1992). Power comparisons of eight tests for sphericity in re-
peated measures designs. Journal of Educational Statistics, 27, 909-949.
Cornfield J (1951). A method for estimating comparative rates from clinical data. Applications to cancer of
lung, breast and cervix. Journal of the National Cancer Institute, 11, 1269-1275.
Cortina JM y Dunlap WP (1997). On the logic and purpose of significance testing. Psychological Methods, 2,
171-172.
Cumming G y Finch S (2005). Inference by eye: Confidence intervals and how to read pictures of data. Ame-
rican Psychologist, 60, 170–180.
Dallal GE y Wilkinson L (1986). An analytic approximation to the distribution of Lilliefors test statistics for
normality. The American Statistician, 40, 294-296 (corrección: 41, 248).
Dar R (1998). Null hypothesis tests and theory corroboration: Defending NHSTP out of context. Behavioral
and Brain Sciences, 21, 196-197.
Darlington RB (1990). Regression and linear models. New York: McGraw-Hill.
Davidson ML (1972). Univariate versus multivariate testsin repeated measures experiments. Psychological
Bulletin, 77, 446-452.
DeCoster J, Iselin AMR y Gallucci M (2009). A conceptual and empirical examination of justifications for
dichotomization. Psychological Methods, 14, 349-366.
Delaney HD y Vargha A (2002). Comparing several robust tests of stochastic equality with ordinally scaled
variables and small to moderate sized samples. Psychological Methods, 7, 485-503.
Dineen LC y Blakesley BC (1973). Algorithm AS 62: Generator for the sampling distribution of the Mann-
Whitney U statistic. Applied Statistics, 22, 269-273.
Draper NR y Smith H (1998). Applied regression analysis (3ª ed). New York: Wiley.
Duncan DB (1955). Multiple range and multiple F tests. Biometrics, 11, 1-42.
Dunn CW (1961). Multiple comparisons among means. Journal of the American Statistical Association, 56,
52-64.
Dunnett CW (1955). A multiple comparison procedure for comparing several treatments with a control. Journal
of the American Statistical Association, 50, 1096-1121.
Dunnett CW (1980a). Pairwise multiple comparisons in the homogeneous variance, unequal sample size case.
Journal of the American Statistical Association, 75, 789-795.
Dunnett CW (1980b). Pairwise multiple comparisons in the unequal variance case. Journal of the American
Statistical Association, 75, 795-800.
470 Análisis de datos (vol. II)
Dunnett CW y Gent M (1996). An alternative to the use of two-sided tests in clinical trials. Statistics in Me-
dicine, 15, 1729-1738.
Durbin J y Watson GS (1950). Testing for serial correlation in least-squares regression I. Biometrika, 37, 409-438.
Durbin J y Watson GS (1951). Testing for serial correlation in least-squares regression II. Biometrika, 38, 159-178.
Durbin J y Watson GS (1971). Testing for serial correlation in least-squares regression III. Biometrika, 58, 1-19.
Einot I y Gabriel KR (1975). A study of the powers of several methods of multiple comparisons. Journal of the
American Statistical Association, 70, 574-583.
Erdfelder E, Faul F y Buchner A (1996). GPOWER: A general power analysis program. Behavior Research
Methods, Instruments and Computers, 28, 1-11.
Everitt BS y Howell DC (2005). Encyclopedia of statistics in behavioral science (vol 2, págs 929-933).
Chichester, Sussex: Wiley.
Falk R (1998). In criticism of the null hypothesis statistical test. American Psychologist, 53, 798-799.
Falk R y Greenbaum CW (1995). Significance tests die hard: The amazing persistence of a probabilistic
misconception. Theory and Psychology, 5, 75-98.
Feinstein AR y Cicchetti DV (1990). High agreement but low kappa. I: The problems of two paradoxes. Journal
of Clinical Epidemiology, 43, 543-549.
Festinger L (1946). The significance of difference between means without reference to the frequency
distribution function. Psychometrika, 11, 97-105.
Fisher RA (1924). The conditions under which X 2 measures the discrepancy between observation and
hypothesis. Journal of the Royal Statistical Society, 87, 442-450.
Fisher RA (1925). Statistical methods for research workers. Edinburg: Oliver and Boyd.
Fisher RA (1935). Design of experiments (5ª ed). Edinburgh: Oliver and Boyd.
Fleiss JL (1981). Statistical methods for rates and proportions. Nueva York: Wiley.
Fleiss JL (1986). The design and analysis of clinical experiments. New York: Wiley.
Fleiss JL y Cohen J (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as
measures of reliability. Educational and Psychological Measurement, 33, 633-639.
Fleiss JL, Cohen J y Everitt BS (1969). Large sample standard errors of kappa and weighted kappa. Psycho-
logical Bulletin, 72, 323-327.
Fleming ThR (2008). Current issues in non-inferiority trials. Statistics in Medicine, 27, 317–332.
Fowler RL (1985). Point estimates and confidence intervals in measures of association. Psychological Bulletin,
98, 160-165.
Fox J (1991). Regression diagnostics. Newbury Park, CA: Sage.
Fox J (1997). Applied regression analysis, linear models and related methods. Thousand Oaks, Park, CA: Sage.
Franco M y Vivo JM (2007). Análisis de curvas ROC. Principios básicos y aplicaciones. Madrid: La Muralla.
.Freeman LC (1986). Order-based statistics and monotonicity: A family of order-based measures of association.
Journal of Mathematical Sociology, 12, 49-69.
Friedman M (1937). The use of ranks to avoid the assumption of normality implicit in the analysis of variance.
Journal of the American Statistical Association, 61, 1081-1096.
Friedman H (1968). Magnitude of experimental effect and a table for its rapid estimation. Psychological
Bulletin, 70, 245-251.
Frick RW (1996). The appropriate use of null hypothesis testing. Psychological Methods, 1, 379-390
Games PA (1973). Type IV errors revised. Psychological Bulletin, 80, 304-307.
Games PA (1983). Curvilinear transformation of the dependent variable. Psychological Bulletin, 93, 382-387.
Games PA y Howell JF (1976). Pairwise multiple comparison procedures with unequal n’s and/or variances:
A Monte Carlo study. Journal of Educational Statistics, 1, 113-125.
Games PA, Keselman HJ y Rogan JC (1981). Simultaneous pairwise multiple comparison procedures for means
when sample sizes are unequal. Psychological Bulletin, 90, 594-598.
Games PA y Lucas PA (1966). Power of the analysis of variance of independent groups on non-normal and
normally transformed data. Educational and Psychological Measurement, 26, 311-327.
Geisser S y Greenhouse SW (1958). An extension of Box’ results on the use of F distribution in multivariate
analysis. Annals of Mathematical Statistics, 29, 885-891.
Referencias 471
Gigerenzer G (1993). The superego, the ego, and the id in statistical reasoning. En G Keren y C Lewis (Eds),
A handbook for data analysis in the behavioral sciences. Methodological issues (págs 311-339). Hillsdale,
NJ: LEA.
Glass GV (1976). Primary, secondary, and meta-analysis of research. Educational Researcher, 5, 3-8.
Glass GV, McGraw B y Smith ML (1981). Meta-analysis in social research. Beberly-Hills, CA: Sage.
Glass GV, Peckham PD y Sanders JR (1972). Consequences of failure to meet assumptions underlying the fixed
effects analysis of variance and covariance. Review of Educational Research, 42, 237- 288.
Good PI y Lunneborg C (2006). Limitations of the analysis of variance. Journal of Modern Applied Statistical
Methods, 5, 41-43.
Goodman LA y Kruskal WH (1979). Measures of association for cross classifications. New York: Springer.
Gorsuch RL (1991). Things learned from another perspective (so far). American Psychologist, 46, 1089-1090.
Gosset WS (Student) (1927). Errors of routine analysis. Biometrika, 19, 151-164.
Grayson D (2004). Some myths and legends in quantitative psychology. Understanding Statistics, 3, 101-134.
Green SB (1991). How many subjects dos it take tod a regression analysis. Multivariate Behavioral Research,
26, 499-510.
Greenhouse SW y Geisser S (1959). On methods in the analysis of profile data. Psychometrika, 24, 95-112.
Hagen RL (1997). In praise of the hypothesis statistical test. American Psychologist, 52, 15-24.
Hagen RL (1998). A further look at wrong reasons to abandon statistical testing. American Psychologist, 53,
801-803.
Hanley JA y McNeil BJ (1982). The meaning and use of the area under a receiver operating characteristic
(ROC) curve. Radiology, 143, 29-36.
Hardy M (1993). Regression with dummy variables. Newbury Park, CA: Sage.
Hardy M y Briman A (Eds) (2004). Handbook of data analysis. London: Sage.
Harlow LL, Mulaik SA y Steiger JH (1997). What if there were no significance test. Mahwah, NJ: LEA.
Harrell FE (2001). Regression modeling strategies: With applications to linear models, logistic regression, and
survival analysis. New York: Springer-Veralg.
Harris RJ (2001). A primer of multivariate statistics (3ª ed). Mahwah, NJ: LEA.
Hartley HO (1940). Testing the homogeneity of a set of variances. Biometrika, 31, 249-255.
Hartley HO (1950). The maximum F-ratio as a short-cut test for heterogeneity of variance. Biometrika, 37,
308-312.
Harwell MR, Rubinstein EN, Hayes WS y Olds CC (1992). Summarizing Monte Carlo results in methodo-
logical research: The one- and two- ANOVA cases. Journal of Educational Statistics, 17, 315-339.
Hays WL (1963). Statistics. New York: Holt, Rinehart and Winston.
Hays WL (1994). Statistics (5ª ed). New York: Holt, Rinehart and Winston.
Hedges LV (1981). Distribution theory for Glass’s estimator of effect size and related estimators. Journal of
Educational Statistics, 6, 107-128.
Hedges LV (1982). Estimation of effect size from a series of independent experiments. Psychological Bulletin,
91, 490-499.
Hedges LV y Olkin I (1984). Nonparametric estimators of effect size in meta-analysis. Psychological Bulletin,
96, 573-580.
Hedges LV y Olkin I (1985). Statistical methods for meta-analysis. New York: Academic Press.
Henderson DA y Denison DR (1989). Stepwise regression in social and psychological research. Psychological
Reports, 64, 251-257.
Hoaglin DC y Welsch R (1978). The hat matrix in regression and ANOVA. American Statistician, 32, 17-22.
Hochberg Y (1974). Some generalizations of the T-method in simultaneous inference. Journal of Multivariate
Analysis, 4, 224-234.
Hochberg Y y Tamhane AC (2009). Multiple comparison procedures (2ª ed). New York: Wiley.
Holland BS y Copenhaver MD (1988). Improved Bonferroni-type multiple testing procedures. Psychological
Bulletin, 104, 145-149.
Horsnell G (1953). The effect of unequal groups variances on the F-test for homogeneity of group means.
Biometrika, 40, 128-136.
472 Análisis de datos (vol. II)
Howell DC (2002). Statistical methods for psychology (5ª ed). Belmont, CA: Thomson Wadsworth.
Hsu JC (1996). Multiple comparisons: Theory and methods. New York: Chapman and Hall.
Hsu LM (2004). Biases of success rate differences shown in binomial effect size displays. Psychological Me-
thods, 9, 183-197.
Huberty CJ (1989). Problems with stepwise methods. Better alternatives. En B Thomson (Ed), Advances in
social science methodology (vol 1, págs 43-70). Greenwich, CT: JAI Press.
Hunter JE (1997). Needed: A ban on the significance test. Psychological Science, 8, 3-7.
Hunter JE y Schmidt FL (2004). Methods of meta-analysis (2ª ed). Thousand Oaks, CA: Sage.
Huynh H (1978). Some approximate tests for repeated measurement designs. Psychometrika, 43, 161-175.
Huynh H (1982). A comparison of four approaches to robust regression. Psychological Bulletin, 92, 505-512.
Huynh H y Feldt LS (1970). Conditons under which mean square ratios in repeated measurements designs have
exacta F-distributions. Journal of the American Statistical Association, 65, 1582-1589.
Huynh H y Feldt LS (1976). Estimation of the Box correction for degrees of freedom from sample data in
randomized block and split-plot design. Journal of Educational Statistics, 1, 69-82.
Iman RL y Conover WJ (1983). A modern approach to statistics. New York: Wiley.
Iman RL y Davenport JM (1980). Approximations of the critical region of the Friedman statistics. Commu-
nications in Statistics - Theory and Methods, 9, 571-595.
Jaccard J (1998). Interaction effects in factorial analysis of variance. Thousand Oaks, CA: Sage.
Jaccard J, Becker MA y Wood G (1984). Pairwise multiple comparison procedures: A review. Psychological
Bulletin, 96, 589-596.
Jaccard J y Turrisi R (2003). Interaction effects in multiple regression. Thousand Oaks, CA: Sage.
Jagers P (1980). Invariance in the linear model: An argument for chi-square and F in non-normal situations.
Mathematische Operationsforschung und Statistik, 11, 455-464.
Jensen DR (1982). Efficiency and robustness in the use of repeated measurements. Biometrics, 38, 813-825.
Jensen DR (1987). Topics in the analysis of repeated measurements. En H Bozdogan y AK Gupta (Eds), Mul-
tivariate statistical modeling and data analysis (págs 147-161). Nwe York: Reidel.
John S (1971). Some optimal multivariate tests. Biometrika, 58, 123-127.
John S (1972). The distribution of a statistic used for testing sphericity of normal distributions. Biometrika, 59,
169-173.
Judd CM y Kenny D (1981). Estimating the effects of social interventions. Cambridge, MA: Cambridge Uni-
versity Press.
Kaul S, Diamond GA (2006). Good enough: A primer on the analysis and interpretation of noninferiority trials.
Annals of Internal Medicine, 145, 62-69.
Kelley K (2005). The effects of non-normal distributions on confidence intervals around the standardized mean
difference: Bootstrap and parametric confidence intervals. Educational and Psychological Measurement,
65, 51-69.
Kelley TL (1935). An unbiased correlation ratio measure. Proceedings of the National Academy of Sciences,
21, 554-559.
Kendall MG (1938). A new measure of rank correlation. Biometrika, 30, 81-93.
Kendall MG (1945). The treatment of ties in rank problems. Biometrika, 33, 239-251.
Kendall MG (1970). Rank correlation methods (3ª ed). London: Griffi.
Kendall MG y Babington-Smith B (1939). The problem of m rankings. The Annals of Mathematical Statistics,
10, 275-287.
Kenny DA y Judd CM (1986). Consequences of violating the independence assumption in analysis of variance.
Psychological Bulletin, 99, 422-431.
Keppel G y Wickens ThD (2004). Design and analysis. A researcher’s handbook (4ª ed). Englewood Cliffs,
NJ: Prentice-Hall.
Keselman HJ, Games PA y Rogan JC (1979). An addendum to “A comparison of the modified Tukey and
Scheffé methods of multiple comparisons for pairwise contrasts”. Journal of the American Statistical
Association, 74, 626-627.
Keselman HJ y Keselman JC (1988). Repeated measures multiple comparison procedures: Effects of violating
multisample sphericity in unbalanced designs. Journal of Educational Statistics, 13, 215-226.
Referencias 473
Keselman HJ, Keselman JC y Games PA (1991). Maximum familywise type I error rate: The least signifi-
cant differende, Newman-Keuls, and other multiple comparison procedures. Psychological Bulletin, 110,
155-161.
Keselman HJ, Keselman JC y Shaffer JP (1991). Multiple pairwise comparisons of repeated measures means
under violation of multisample sphericity. Psychological Bulletin, 110, 162-170.
Keselman HJ, Lix LM y Kowalchuk RK (1998). Multiple comparison procedures for trimmed means.
Psychological Methods, 3, 123-141.
Keselman HJ y Rogan JC (1978). A comparison of the modified Tukey and Scheffé methods of multiple
comparisons. Journal of the American Statistical Association, 73, 47-52.
Keselman HJ, Rogan JC, Mendoza JL y Breen LJ (1980). Testing the validity conditions of repeated measures
F tests. Psychological Bulletin, 87, 479-481.
Keuls M (1952). The use of studentized range in connection with an analysis of variance. Euphytica, 1, 112-122.
Kirk RE (1995). Experimental design. Procedures for the behavioral sciences (3ª ed). Belmont, CA: Brooks/
Cole Publishing Company.
Kirk RE (1996). Practical significance: A concept whose time has come. Educational and Psychological Mea-
surement, 56, 746-759.
Kleinbaum DJ, Kupper LL y Morgenstern H (1982). Epidemiologic research. Principles and quantitative me-
thods. Mew York: Van Nostrand Reinhold.
Kline RB (2004). Beyond significance testing. Reforming data analysis methods in behavioral research. Was-
hington, DC: American Psychological Association.
Kohr RL y Games PA (1974). Robustness of analysis of variance, the Welch procedure, and a Box procedure
to heterogeneous variances. Journal of Experimental Education, 43, 61-69.
Kolmogorov A (1933). Sulla determinazione empirica di una legge di distribuzione. Giornale dell ’ Istituto
Italiano degli Attuari, 4, 83-91.
Kraemer HC y Andrews G (1982). A nonparametric technique for meta-analysis effect size calculation. Psy-
chological Bulletin, 91, 404-412.
Kramer CY (1956). Extension of multiple range test to group means with unequal numbers of replications.
Biometrics, 12, 307-310.
Kruskal JB (1978). Transformations of data. En WH Kruskal y JM Tanur (Eds), International Encyclopedia
of Statistics (págs 1044-1056). New York: Free Press.
Kruskal WH y Wallis WA (1952). Use of ranks on one-criterion variance analysis. Journal of the American
Statistical Association, 47, 583-621 (aparecen correcciones en vol 48, págs 907-911).
Kulinska E y Staudte RG (2006). Interval estimates of weighted effect sizes in the one-way heteroscedastic
ANOVA. British Journal of Mathematical and Statistical Psychology, 59, 97-111.
Kvålseth TO (1991). A coefficient of agreement for nominal sacales: An asymetric version of kappa. Educa-
tional and Psychological Measurement, 51, 95-101.
Labovitz S (1968). Criteria for selecting a significance level: A note on the sacredness of .05. American So-
ciologist, 3, 200-222.
Landis JR y Koch GG (1977). The measurement of observer agreement for categorical data. Biometrics, 33,
159-174.
Lashley BR (1998). A defense of statistical power analysis. Behavioral and Brain Sciences, 21, 209-210.
León OG y Montero I (2003). Métodos de investigación en psicología y educación (3ª ed). Madrid: McGraw-Hill.
Levene H (1960). Robust tests for the equality of variances. En J. Olkin (Ed), Contributions to probability and
statistics (págs 278-292). Palo Alto, CA: Stanford University Press.
Levin JR y Serlin RC (2000). Changing students’ perspectives of McNemar’ test of change. Journal of Statistics
Education, 8 (2) [online].
Levine DW y Dunlap WP (1982). Power of the F test with skewed data: Should one transform or not? Psycho-
logical Bulletin, 92, 272-280.
Levine DW y Dunlap WP (1983). Data transformation, power, and skew: A rejoinder to Games. Psychological
Bulletin, 93, 596-599.
Levy P (1967). Substantive significance of significant differences between groups. Psychological Bulletin, 67,
37-40.
474 Análisis de datos (vol. II)
Lewandowsky S y Maybery M (1998). The critics rebutted: A pyrrhic victory. Behavioral and Brain Sciences,
21, 210-211.
Lewis-Beck MS (1980). Applied regression. An introduction. Beverly-Hills, CA: Sage.
Lillieffors HW (1967). On the Kolmogorov-Smirnov test for normality with mean and variance unknown.
Journal of the American Statistical Association, 62, 399-402.
Lix LM, Keselman JC y Keselman HJ (1996). Consequences of assumption violations revisited: A quantitative
review of alternatives to the one-way analysis of variance F test. Review of Educ. Research, 66, 579-619.
Luh WM (1992). Heterogeneous variances in one-way fixed model ANOVA: Variance-stabilizing transfor-
mations and other alternatives. Dissertation Abstracts International, 53, DA9301212.
Macdonald RR (2002). The incompleteness of probability models and the resultant implications for theories of
statistical inference. Understanding Statistics, 1, 167-189.
Mahalanobis PC (1936). On the generalized distance in statistics. Procedures National Science India, 2, 49-55.
Mann HB y Whitney DR (1947). On a test of whether one of two random variables is stochastically larger than
the other. Annals of Mathematical Statistics, 18, 50-60.
Mantel N y Haenszel W (1959). Statistical aspects of the analysis of data from retrospective studies of disease.
Journal of the National Cancer Institute, 22, 719-748.
Marascuilo LA y McSweeney M (1977). Nonparametric and distribution-free methods. Monterrey, CA:
Brooks/Cole Publishing Company.
Markus KA (2001). The converse inequality argument against tests of statistical significance. Psychological
Methods, 6, 147-160.
Mauchly JW (1940). Significance test for sphericity of a normal n-variate distribution. Annals of Mathematical
Statistics, 11, 204-209.
Maxwell SE (1980). Pairwise multiple comparisons in repeated measures designs. Journal of Educational Sta-
tistics, 5, 269-287.
Maxwell SE, Camp CJ y Arvey RD (1981). Measures of strength of association: A comparative examination.
Journal of Applied Psychology, 66, 525-534.
Maxwell SE y Delaney HD (2004). Designing experiments and analyzing data (2ª ed). Mahwah, NJ: LEA.
McDonald RP (1997). Goodness of approximation in the linear model. En LL Harlow, SA Mulaik y JH Steiger
(Eds), What if there were no significance tests? (págs 199-219). Hillsdale, NJ: LEA.
McFaden D (1974). The measurement of urban travel demand. Journal of Public Economics, 3, 303-328.
McGrath RE (1998). Significance testing: Is there something better? American Psychologist, 53, 796-797.
McGrath RE y Meyer GJ (2006). When effect sizes disagree: The case of r and d. Psychological Methods, 11,
386-401.
McGraw KO y Wong SP (1992). A common language effect size statistic. Psychological Bulletin, 111, 361-365.
McGraw KO y Wong SP (1996). Forming inferences about some intraclass correlation coefficients. Psycholo-
gical Methods, 1, 30-46.
McNemar Q (1947). Note on the sampling error of te difference between correlated proportions or percentages.
Psychometrika, 12, 153-157.
Meehl PE (1967). Theory testing in psychology and in physics: A methodological paradox. Philosophy of
Science, 34, 103-115.
Meehl PE (1978). Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft
psychology. Journal of Consulting and Clinical Psychology, 46, 806-834.
Meehl PE (1990). Why summaries of research on psychological theories are often uninterpretable. Psycho-
logical Reports, 66, 195-244.
Meehl PE (1997). The problem is epistemology, not statistics: Replace significance tests by confidence intervals
and quantify accuracy of risky numerical predictions. In LL Harlow, SA Mulaik y JH Steiger (Eds), What
if there were no significance tests? (págs 391-423). Hillsdale, NJ: LEA.
Mendoza JL (1980). A significance test for multisample sphericity. Psychometrika 45, 495-498.
Meyer DL (1991). Misinterpretation of interactions effects: A reply to Rosnow and Rosenthal. Psychological
Bulletin, 110, 571-573.
Micceri T (1989). The unicorn, the normal curve, and other improbable creatures. Psychological Bulletin, 105,
156-166.
Referencias 475
Miettinen OS (1976). Estimability and estimation in case-referent studies. American Journal of Epidemiology,
103, 226-235.
Miles JNV y Banyard P (2007). Understanding and using statistics in psychology. A practical introduction.
Thousand Oaks, CA: Sage.
Miller RG (1981). Simultaneous statistical inference (2ª ed). New York: McGraw-Hill.
Milligan GW (1987). The use of the arc-sine transformation in the analysis of variance. Educational and Psy-
chological Measurement, 47, 563-573.
Mitzel HC y Games PA (1981). Circularity and multiple comparisons in repeated measures designs. British
Journal of Mathematical and Statistical Psychology, 34, 253-259.
Montgomery DC, Johnson LA y Gardiner JS (1990). Forecasting and time series analysis (2ª ed). New York:
McGraw-Hill.
Montgomery DC, Peck EA y Vining GG (2001). Introduction to linear regression analysis (3ª ed). New
York: Wiley.
Morrison DE y Henkel RE (Eds) (1970). The significant test controversy: A reader. Chicago, IL: Aldine.
Moses LE (1952). A two sample test. Psychometrika, 17, 239-247.
Murphy KR (1997). Editorial. Journal of Applied Psychology, 82, 3-5.
Mulaik SA, Raju NS y Harshman RA (1997). There is a time and place for significance testing. En LL Harlow,
SA Mulaik y JH Steiger (Eds), What if there were no significance tests? (págs 65-116). Hillsdale, NJ: LEA.
Myers JL y Well AD (2003). Research design and statistical analysis (2ª ed). Mahwah, NJ: LEA.
Nagao H (1973). On some test criteria for covariance matrix. The Annals of Statistics, 1, 700-709.
Neter J, Kutner MH, Nachtscheim CJ y Wasserman W (1996). Applied linear statistical models (4ª ed). Boston:
McGraw-Hill.
Newman D (1939). The distribution of the range in samples of a normal population, expressed in terms of an
independent estimate of standard deviation. Biometrika, 31, 20-30.
Neyman J y Pearson ES (1928). On the use and interpretation of certain test criteria for purposes of statistical
inference. Biometrika, 20A, 175-240 (1ª parte), 263-294 (2ª parte).
Nijsse M (1988). Testing the significance of Kendall’s τ and Spearman’s rs. Psychological Bulletin, 103, 235-237.
Nikerson RS (2000). Null hypothesis significance testing: A review of an old and continuing controversy.
Psychological Methods, 5, 241-301.
Noether GA (1967). Elements of nonparametric statistics. New York: Wiley.
Oakes M (1986). Statistical inference: A commentary for the social and behavioral sciences. New York: Wiley.
O’Brien RG (1981). A simple test for variance effects in experimental designs. Psychological Bulletin, 89, 570-
574.
O’Grady KE (1982). Measures of explained variance: Cautions and limitations. Psychological Bulletin, 92,
766-777.
Olejnik S y Algina J (2000). Measures of effect size for comparative studies: Applications, interpretations and
limitations. Contemporary Educational Psychology, 25, 241-286.
Olejnik S y Algina J (2003). Generalized eta and omega squared statistics: Measures of effect size for some
common research designs. Psychological Methods, 8, 434-447.
Oshima TC y Algina J (1992). Type I error rates for James’s second order test and Wilcox’s Hm test under hete-
roscedasticity and nonnormality. British Journal of Mathematical and Statistical Psychology, 45, 225-263.
Ostrom CW (1990). Time series analysis: Regression techniques (2ª ed). Newbury Park, CA: Sage.
Pardo A, Garrido J, Ruiz MA y San Martín R (2007). La interacción entre factores en el análisis de varianza:
errores de interpretación. Psicothema, 19, 343-349.
Pardo A y Ruiz MA (2009). Gestión de datos con SPSS Statistics. Madrid: Síntesis.
Pardo A, Ruiz MA y San Martín R (2009). Análisis de datos en ciencias sociales y de la salud (vol 1). Madrid:
Síntesis.
Pardo A y San Martín R (1998). Análisis de datos en psicología II (2ª ed). Madrid: Pirámide.
Parker S (1995). The ‘difference of means’ may not be the ‘effect size’. American Psychologist, 50, 1101-1102.
Pascual J (1998). Diseño entre grupos. En MT Anguera, J Arnau, M Ato, R Martínez, J Pascual y G Vallejo
(Eds): Métodos de investigación en Psicología (págs 73-112). Madrid: Síntesis.
476 Análisis de datos (vol. II)
Pearson K (1905). On the theory of skew correlations and nonlinear regression. Mathematical contributions
to the theory of evolution. Londres: Cambridge University Press (Biometric Laboratory Publications).
Pedhazur EJ y Pedhazur L (1991). Measurement, design and analysis. An integrated approach. Hillsdale,
NJ: LEA.
Peters CC y Van Voorhis WR (1940). Statistical procedures and their mathematical bases. New York: Mc-
Graw-Hill.
Petty RE, Fabrigar LR, Wegener DT y Priester JR (1996). Understanding data when interactions are present or
hypothesized. Psychological Science, 7, 247-252.
Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ (2006). Reporting of noninferiority and equivalence
randomized trials: an extension of the CONSORT statement. Journal of the American Medical Association,
295, 1152-1160.
Posner KL, Sampson PD, Caplan RA, Ward RJ y Cheney FW (1990). Measuring inter-rater reliability among
multiple raters: An example of methods for nominal data. Statistics in Medicine, 9, 1103-1115.
Powers JH (2008). Noninferiority and equivalence trials: Deciphering ‘similarity’of medical interventions.
Statistics in Medicine, 27, 343-352.
Prentice DA y Miller DT (1992). When small effects are impressive. Psychological Bulletin, 112, 160- 164.
Rao CR y Kleffe J (1988). Estimation of variance components and applications. Amsterdam: North- Holland
Rasmussen JL (1989). Data transformation, Type I error rate, and power. British Journal of Mathematical and
Statistical Psychology, 42, 203-213.
Richardson JTE (1996). Measures of effect size. Behavioral Research Methods, Instruments, and Computers,
28, 12–22.
Rigby AS (1999). Statistical methods in epidemiology. III. The odds ratio as an approximation to the relative
risk. Disability and Rehabilitation, 21, 145-151.
Robinson WS (1950). Ecological correlations and the behavior of individuals. American Sociological Review,
15, 351-357.
Rogan J y Keselman H (1977). Is the ANOVA F-test robust to variance heterogeneity when sample sizes are
equal? An investigation via a coefficient of variation. American Educational Research Journal, 14, 493-498.
Rosenthal R (1990). How are we doing in soft psychology? American Psychologist, 45, 775-777.
Rosenthal R (1991). Meta-analytic procedures for social research (2ª ed). Beverly-Hills, CA: Sage.
Rosenthal R, Rosnow RL y Rubin DB (2000). Contrasts and effect sizes in behavioral research: A correlational
approach. New York: Cambridge University Press.
Rosenthal R y Rubin DB (1982). A simple, general purpose display of magnitude of experimental effect.
Journal of Educational Psychology, 74, 166-169.
Rosenthal R y Rubin DB (2003). r-equivalent: A simple effect size indicator. Psychological Methods, 8, 492-496.
Rosnow RL y Rosenthal R (1989a). Definition and interpretation of interaction effects. Psychological Bulletin,
105, 143-146.
Rosnow RL y Rosenthal R (1989b). Statistical procedures and the justification of knowledge in psychological
science. American Psychologist, 44, 1276-1284.
Rosnow RL y Rosenthal R (1991). If you’re looking at the cell means, you’re not looking only at the interaction
(unless all main effects are zero). Psychological Bulletin, 110, 574-576.
Rosnow RL y Rosenthal R (1995). «Some things you learn aren’t so»: Cohen’s paradox, Asch’s paradigm and
the interpretation of interaction. Psychological Science, 6, 3-9.
Rosnow RL y Rosenthal R (1996). Contrast and interactions redux: Five easy pieces. Psychological Science,
7, 253-257.
Rossi JS (1990). Statistical power of psychological research: What have we gained in 20 years? Journal of
Consulting and Clinical Psychology, 58, 646-656.
Rossi JS (1997). A case study in the failure of Psychology as a cumulative science: The spontaneous recovery
of verbal learning. En LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no significance tests?
(págs 174-197). Mahwah, NJ: LEA.
Rouanet H y Lépine D (1970). Comparisons between treatments in a repeated-measures design: ANOVA and
multivariate methods. The British Journal of Mathematical and Statistical Psychology, 23, 147-163.
Rousseeuw PJ y Leroy AM (1987). Robust regression and outlier detection. New York: Wiley.
Referencias 477
Rozeboom WW (1960). The fallacy of the null hypothesis significance test. Psychological Bulletin, 57, 416-428.
Rozeboom WW (1979). Ridge regression: Bonanza or beguilement? Psychological Bulletin, 86, 242-249.
Rozeboom WW (1997). Good science is abductive, not hypothetico-deductive. En LL Harlow, SA Mulaik y
JH Steiger (Eds), What if there were no significance tests? (págs 335-391). Hillsdale, NJ: LEA.
Ruscio J (2006). Critical thinking in psychology: Separating sense of nonsense (2ª ed). Belmont, CA: Thomson
Wadsworth.
Ruscio J (2008). A probability-based measure of effect size: Robustness to base rates and other factors. Psy-
chological Methods, 13, 19-30
Ryan TA (1960). Significance tests for multiple comparisons of proportions, variances and other statistics.
Psychological Bulletin, 57, 318-328.
San Martín R y Pardo A (1989). Psicoestadística. Contrastes paramétricos y no paramétricos. Madrid:
Pirámide.
Saville BK (2008). Research methods in psychology. A guide to teaching. Malden, MA: Blackwell Publishing.
Scariano SM y Davenport JM (1987). The effects of violations of independence assumptions in the one-way
ANOVA. The American Statistician, 41, 123-129
Scheffé HA (1953). A method for judging all possible contrasts in the analysis of variance. Biometrika, 40,
87-104.
Schmidt FL (1992). What do data really mean. American Psychologist, 47, 1173-1181.
Schmidt FL (1996). Statistical significance testing and cumulative knowledge in psychology: Implications for
training research. Psychological Methods, 1, 115-129.
Schmidt FL y Hunter JE (1996). Measurement error in psychological research: Lessons from 26 research
scenarios. Psychological Methods, 1, 199-223.
Schmidt FL y Hunter JE (1997). Eight common but false objections to the discontinuation of significance tes-
ting in the analysis of research data. En LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no
significance tests? (págs 37-64). Mahwah, NJ: LEA.
Schroeder LD, Sjoquist DL y Stephan PA (1986). Understanding regression analysis. An introductory Guide.
Beverly Hills, CA: Sage.
Schuirmann DJ (1987). A comparison of the two one-sided tests procedure and the power approach for
assessing the equivalence of average bioavailability. Journal of Pharmacokinetics and Biopharmaceutics,
15, 657-680.
Seaman MA, Levin JR y Serlin RC (1991). New developments in pairwise multiple comparisons: Some
powerfull and practicable procedures. Psychological Bulletin, 110, 577-586.
Seaman MA y Serlin RC (1998). Equivalence confidence intervals for two-groups comparisons of means.
Psychological Methods, 3, 403-411.
Searle SR, Casella G y McCulloch CE (1992). Variance components. New York: Wiley.
Searle SR, Speed FM y Milliken GA (1980). Population marginal means in the linear model: An alternative to
least squares means. The American Statistician, 34, 216-221.
Serlin RC, Carr J y Marascuilo LA (1982). A measure of association for selected nonparametric procedures.
Psychological Bulletin, 92, 786-790.
Shapiro SS y Wilk MB (1965). An analysis of variance test for normality. (complete samples). Biometrika, 52,
591-611.
Shaver JP (1985). Chance and nonsense: A conversation about interpreting tests of statistical significance. Phi
Delta Kappan, 67, 57-60, 138-141.
Shoukri MM (2004). Measures of interobserver agreement. Boca Ratón, FL: Chapman and Hall/CRC Press.
Šidák Z (1967). Rectangular confidence regions for the means of multivariate normal distributions. Journal of
the American Statistical Association, 62, 626-633.
Siegel S y Castellan NJ (1988). Nonparametric statistics for the behavioral sciences (2ª ed). New York: Mc-
Graw-Hill.
Skipper Jr JK, Guenther AL y Nass G (1967). The sacredness of .05: A note concerning the uses of statistical
levels of significance in social science. The American Sociologist, 2, 16-18.
Smirnov NV (1939). Estimate of deviation between empirical distribution functions in two independent
samples. Bulletin Moscow University, 2, 3-16 [ruso].
478 Análisis de datos (vol. II)
Smirnov NV (1948). Table for estimating the goodness of fit of empirical distributions. Annals of Mathematical
Statistics, 19, 279-281.
Snapinn SM (2000). Noninferiority trials. Current Control Trials in Cardiovascular Medicine, 1, 19-21.
Snedecor GW (1934). Analysis of variance and covariance. Ames, IW: Iowa State University Press.
Somers RH (1962). A new asymmetric measure of association for ordinal variables. American Sociological
Review, 27, 799-811.
Spearman C (1904). The proof and measurement of association between two things. American Journal of
Psychology, 15, 72-101.
Spitzer RL, Cohen J, Fleis JL y Endicott J (1967). Quantification of agreement in psychiatric diagnosis. Archi-
ves of General Psiychiatry, 17, 83-87.
Steel RGD, Torrie JH y Dickey DA (1997). Principles and procedures of statistics: A biomedical approach (3ª
ed). New York: McGraw-Hill.
Steiger JH (2004). Beyond the F test: Effect size confidence intervals and tests of close fit in the analysis of
variance and contrast analysis. Psychological Methods, 9, 164-182.
Steiger JH y Fouladi RT (1997). Noncentrality interval estimation and the evaluation of statistical methods. En
LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no significance tests? (págs 221-257).
Mahwah, NJ: LEA.
Stevens JP (1984). Outliers and influential data points in regression analysis. Psychological Bulletin, 95, 334-344.
Stevens JP (1992). Applied multivariate statistics for the social sciences. Hillsdale. NJ: LEA.
Stuart A (1953). The estimation and comparison of strengths os association in contingency tables. Biometrica,
40, 105-112.
Sugiura N (1972). Locally best invariant test for sphericity and the limiting distribution. Annals of Mathematical
Statistics, 43, 1312-1316.
Tabachnik BG y Fidel LS (2001). Using multivariate statistics (2ª ed). Boston: Allyn and Bacon.
Tamhane AC (1977). Multiple comparisons in model I one-way ANOVA with unequal variances. Com-
munications in Statistics - Theory and Methods, 6, 15-32.
Tamhane AC (1979). A comparison of procedures for multiple comparisons of means with unequal variances.
Journal of the American Statistical Association, 74, 471-480.
Tan WY (1982). Sampling distributions and robustness of t, F and variance-ratio in two samples and ANOVA
models with respect to departure from normality. Communications in Statistics - Theory and Methods, 11,
486-511.
Tarone RE (1985). On heterogeneity tests based on efficient scores. Biometrika, 72, 91-95.
Tarone RE, Gart JJ y Hauck WW (1983). On the asymptotic relative efficiency of certain noniterative estimators
of a common relative risk or odds ratio. Biometrika, 70, 519-522.
Theil H (1970). On the estimation of relationships involving qualitative variables. American Journal of Socio-
logy, 76, 103-154.
Thompson B (1994). Guidelines for authors. Educational and Psychological Measurement, 54, 837- 847.
Thompson B (1997). Editorial policies regarding statistical significance tests: Further comments. Educational
Researcher, 26, 29-32.
Thompson WD y Walter SD (1988). Kappa and the concept of independent errors. Journal of Clinical
Epidemiology, 41, 969-970.
Tomarken AJ y Serlin RC (1986). Comparison of ANOVA alternatives under variance heterogeneity and spe-
cific noncentrality structures. Psychological Bulletin, 99, 90-99.
Toothaker LE (1991). Multiple comparison for researchers. London: Sage.
Toothaker LE (1999). Multiple comparison procedures (2ª ed). London: Sage.
Tryon WW (2001). Evaluating statistical difference, equivalence, and indeterminacy using inferential confi-
dence intervals: An integrated alternative method of conducting null hypothesis statistical tests. Psycho-
logical Methods, 6, 371–386.
Tryon WW y Lewis Ch (2008). An inferential confidence interval method of establishing statistical equivalence
that corrects Tryon’ (2001) reduction factor. Psychological Methods, 13, 272-277.
Tukey JW (1949). One degree of freedom for nonaditivity. Biometrics, 5, 232-242.
Tukey JW (1953). The problem of multiple comparisons. Princeton University (manuscrito no publicado).
Referencias 479
Tukey JW (1991). The philosophy of multiple comparison. Statistical Science, 6, 100-116.
Van Belle G, Fisher LD, Heagerty PJ y Lumley Th (2004). Biostatistics. A methodology for the health sciences
(2ª ed). Hoboken, NJ: Wiley.
Vargha A y Delaney HD (1998). The Kruskal-Wallis test and estochastic homogeneity. Journal of Educational
and Behavioral Statistics, 23, 195-217.
Vargha A y Delaney HD (2000). A critique and improvement of the CL common language effect size statistic
of McGraw and Wong. Journal of Educational and Behavioral Statistics, 25, 101-132.
Von Eye A y Mun EY (2005). Analyzing rater agreement. Mahwah, NJ: LEA.
Wainer H (1999). One cheer for null hypothesis significance testing. Psychological Methods, 4, 212-213.
Wainer H y Thissen D (1993). Graphical data analysis. En G Keren y C Lewis (Eds). A handbook for data
analysis in the behavioral sciences. Methodological issues (págs 391-457). Hillsdale, NJ: LEA.
Wald A y Wolfowitz J (1940). On a test whether two samples are from the same population. Annals of Ma-
thematical Statistics, 11, 147-162.
Wallis WA (1939). The correlation ratio for ranked data. Journal of the American Statistical Association, 34,
533-538.
Weisberg S (2005). Applied linear regression (3ª ed). Hoboken, NJ: Wiley.
Welch BL (1951). On the comparison of several mean values: An alternative approach. Biometrika, 38, 330-336.
Wellek S (2003). Testing statistical hypotheses of equivalence. Boca Raton, Fla: Chapman and Hall.
Welsch RE (1977). Stepwise multiple comparison procedures. Journal of the American Statistical Association,
72, 566-575.
Wherry RJ (1931). A new formula for predicting the shrinkage of the coefficient of multiple correlation. Annals
of Mathematical Statistics, 2, 440-447.
Westlake WJ (1972). Use of confidence intervals in analysis of comparative bioavailability trials. Journal of
Pharmaceutical Science, 61, 1340–1341.
Westlake WJ (1976). Symetrical confidence intervals for bioequivalence trials. Biometrics, 32, 741-744.
Westlake WJ (1979). Statistical aspects of comparative bioavailability trials. Biometrics, 35, 273–280.
Westlake WJ (1981). Bioequivalence testing: A need to rethink (response to Kirkwood). Biometrics, 32, 589-594.
Wickens ThD (1989). Multiway contingency tables analysis for the social sciences. Hillsdale, NJ: LEA.
Viechtbauer W (2007). Approximate confidence intervals for standardized effect sizes in the two- independent
and two-dependent samples designs. Journal of Educational and Behavioral Statistics, 32, 39-60.
Wiens BL (2002). Choosing an equivalence limit for noninferiority or equivalence studies. Controlled Clinical
Trials, 23, 2-14.
Wilcox RR (1987a). New designs in analysis of variance. Annual Review of Psichology, 38, 29-60.
Wilcox RR (1987b). New statistical procedures for the social sciences: Modern solutions to basic problems.
Hillsdale, NJ: LEA.
Wilcox RR (1992). Comparing the medians of dependent groups. British Journal of Mathematical and Sta-
tistical Psychology, 45, 151-162.
Wilcox RR (1996). Statistics for the social sciences. San Diego, CA: Academic Press.
Wilcox RR (1997). Three multiple comparison procedures for trimmed means. Biometrical Journal, 37, 643-656.
Wilcox RR (2003). Applying contemporary statistical techniques. San Diego, CA. Academic Press.
Wilcox RR (2005). Introduction to robust estimation and hypothesis testing (2ª ed). San Diego, CA: Elsevier
Academic Press.
Wilcox RR, Charin V y Thompson K (1986). New Monte Carlo results on the robustness of ANOVA F, W, and
F* statistics. Communications in Statistics - Simulation and Computation, 15, 933-944.
Wilcoxon F (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83.
Wilcoxon F (1949). Some rapid approximate statistical procedures. American Cyanamid Company, Standford
Research Laboratories.
Wilkinson L y Task Force on Statistical Inference. (1999). Statistical methods in psychology journals: Guide-
lines and explanations. American Psychologist, 54, 594-604.
Winer BJ, Brown DR y Michels KM (1991). Statistical principles in experimental design (3ª ed). New York:
McGraw-Hill.
Wright DB y London K (2009). First steps in statistics (2ª ed). London: Sage.
480 Análisis de datos (vol. II)
Wyrwich KW (2004). Minimal important difference thresholds and the standard error of measurement: Is there
a connection? Journal of Biopharmaceutical Statistics, 14, 97-110.
Wyrwich KW, Nienaber NA, Tierney WM y Wolinsky FD (1999). Linking clinical relevance and statistical sig-
nificance in evaluating intra-individual changes in health-related quality of life. Medical Care, 37, 469-478.
Wyrwich KW, Tierney WM, Wolinsky FD (1999). Further evidence supporting an SEM-based criterion for
identifying meaningful intra-individual changes in health-related quality of life. Journal of Clinical Epi-
demiology, 52, 861-873.
Yule GU (1900). On the association of attributes in statistics. Philosophical transactions of the Royal Society
of London, Series A, 194, 257-319.
Yule GU (1912). On the methods of measuring association between two attributes (with discussion). Journal
of the Royal Statistical Society, 75, 579-652.
Zwick R (1988). Another look at inter-rater agreement. Psychological Bulletin, 103, 374-378.
Zimmerman DW y Zumbo DB (1993). Relative power of the Wilcoxon test, the Friedman test, and repeated-
measures ANOVA on ranks. Journal of Experimental Education, 62, 75-86
Índice de materias