Ampliación Sobre Estadística Inferencial Mamano Grande, M. (2022)

Ampliación sobre estadística inferencial, elaborada a partir de Pardo, A., San Martín, R.
, Análisis de datos en ciencias sociales y de la

salud II. (2010); Mamano Grande, M. (2022)
Este documento constituye un resumen del manual de Pardo, A., San Martín, R., Análisis de datos en
ciencias sociales y de la salud II. (2010), dado que recientemente hemos identificado que recogen muchas de
las preguntas PIR planteadas en las últimas convocatorias.
TEMA 1. LA INFERENCIA ESTADÍSTICA
NOTA de la profesora (Mar): En este tema únicamente se recogen 2 cuestiones separadas; por un lado, una
aportación sobre las 4 probabilidades teóricas (que reciben también el nombre de “condicionales”) y por otro
lado se recogen los factores de los que depende la potencia, que se explican de un modo detallado y más o
menos extenso.
Error tipo I, tipo II, Nivel de confianza y potencia son 4 probabilidades teóricas o CONDICIONALES.
La potencia depende de:
1. Del valor de alfa (…)
2. Del error típico de la distribución muestral del estadístico utilizado para realizar el contraste.
Para una distancia dada entre µ0 y µ1 (medias de las curvas de la Ho y de la H1), el solapamiento entre
las curvas correspondientes a uno y otro parámetro es tanto mayor cuanto mayor es el error típico de
las distribuciones que representan esas curvas (cuanto mayor es el error típico de una distribución,
más ancha es la distribución). Y cuanto mayor es el solapamiento entre las dos curvas, mayor es el
tamaño del área B. En el caso representado justo aquí, se está contrastando la hipótesis H0: µ=µ0.
Al disminuir la desviación típica de la población o al aumentar n (el tamaño de la muestra), se reduce

el error típico de la distribución y con ello se puede obtener una reducción de la probabilidad de
cometer errores Tipo II y, por tanto, un aumento de la potencia.
3. De la distancia existente entre los valores µ0 y µ1. Si miramos de nuevo las curvas que se solapan,
veremos que se asigna un valor para la media (µ1) según H1, aunque la H1 realmente expresa un
intervalo de puntuaciones (todas aquellas que sean mayores que el valor propuesto en la Ho) y no una
puntuación concreta (H1: µ>µ0). Si se entiende eso, se puede entender que H1 atribuye al parámetro
Ampliación sobre estadística inferencial, elaborada a partir de Pardo, A., San Martín, R., Análisis de datos en ciencias sociales y de la
media (µ) diferentes valores, todos ellos mayores que µ0. Cada uno de estos valores genera una
distribución muestral concreta para Y (v. dependiente) cuya ubicación o grado de alejamiento de la
curva de Ho depende del valor de µ1. Y esto significa que existe toda una familia de valores de β (y, por
ende, toda una familia de valores de la potencia) que dependen del valor concreto que tome µ entre
todos los incluidos en la H1.
Volviendo a la figura de las 2 curvas, podemos comprobar que, permaneciendo todo lo demás igual,
cuanto más se aleja el valor µ1 del valor µ0, más hacia la derecha se desplaza la curva H1 y, en
consecuencia, más pequeña se hace el área β (permaneciendo todo lo demás igual). Y, al contrario,
cuanto más se aproxima ese valor al µ0, más hacia la izquierda se desplaza la curva H1 y más grande se
hace el área β (permaneciendo todo lo demás igual).
TEMA 2. INFERENCIA CON UNA SOLA VARIABLE:
2.1. Contrastes sobre una distribución
a) T d’Student para una muestra (+ desarrollado en Pardo, vol. I): Se trata de la prueba de elección por
sus propiedades contraste de hipótesis sobre el parámetro media (centro de la distribución de una
variable cuantitativa). Condiciones aplicación: 1. Normalidad (o muestra grande), 2. Independencia de
las observaciones.
b) Wilcoxon para una muestra: la utilizaremos si la distribución de la variable que queremos estudiar no
es normal. Las hipótesis nula y alternativa se construyen contrastando el valor de la mediana. Debe
cumplir el supuesto de simetría y los datos deben ser mínimo a nivel de intervalo (aunque aprovecha
información ordinal). Ho: Mdn y (mediana de y en la población) =Ko (un valor concreto); H1: Mdn y
diferente, > o < que Ko
c) Prueba de signos para una muestra: También se llama binomial y se utiliza para hacer inferencias sobre
la mediana en una variable cuantitativa*1. Exige datos mínimo a nivel ordinal (aunque aprovecha
información nominal). Ho: Mdn y (mediana de Y en la población)=Ko (un valor concreto); H1: Mdn y
diferente, > o < que Ko. Si n<25 se utilizará el estadístico n+, si n>25 se utilizará el estadístico Z.
*1 La prueba de los signos permite, al igual que la de Wilcoxon, contrastar hipótesis sobre el centro de una
distribución (en concreto, sobre la mediana). La diferencia más evidente entre ambas es que la prueba de Wilcoxon aprovecha
la información ordinal de los datos mientras que la de los signos únicamente aprovecha la información nominal. Como
contrapartida, la prueba de Wilcoxon exige nivel de medida de intervalos o razón (pues asume simetría de la distribución)
mientras que la de los signos únicamente exige nivel de medida ordinal (la mediana es un estadístico ordinal).
2.2. Contrastes sobre la dispersión de una distribución: Usaremos la varianza, que además de informar sobre
el grado de dispersión, posee distribución muestral conocida. Ho: Var. Y =Ko
2.3. Contrastes sobre la forma de una distribución: Se las suele llamar pruebas de bondad de ajuste, pues
sirven para valorar si la distribución de una variable se ajusta o no (se parece o no) a una determinada
distribución de probabilidad teórica.
a) Xi cuadrado de Pearson sobre la bondad de ajuste: Para valorar el ajuste de variables discretas. La
explicación de esta prueba se desarrolla en el vol. I de Pardo.
b) Kolmogorov-smirnov: Para contrastar hipótesis de bondad de ajuste con una variable cuantitativa. Se
basa en la comparación de dos funciones de distribución: una función empírica y una teórica, y se calcula
a partir de la diferencia más grande (tipificada) en valor absoluto entre ambas distribuciones. Si la
variable estudiada es discreta, las decisiones basadas en estos cuantiles tienden a ser conservadoras
(Noether, 1967). Y si en la hipótesis nula no se especifica el valor de los parámetros de la distribución
propuesta (y hay que estimarlos a partir de los datos) la prueba también se vuelve conservadora
(Conover, 1980).
Dos de las pruebas más utilizadas para valorar el valorar el ajuste de una variable cuantitativa a una
distribución normal son:
- La prueba de Kolmogorov-Smirnov con la corrección del nivel crítico mediante el método de Lilliefors.
- Prueba de Shapiro-Wilk.
El problema de estos y otros estadísticos de normalidad es que, con muestras grandes, son demasiado
sensibles a pequeñas desviaciones de la normalidad. Por esta razón, estos estadísticos suelen acompañarse
con algún gráfico de normalidad.
2.4. Apéndice 2:
a) Prueba de rachas:
La mayor parte de los procedimientos estadísticos que se utilizan para realizar inferencias asumen que
las muestras con las que se trabaja son aleatorias; o, lo que es lo mismo, que las observaciones muestreadas
son independientes entre sí. El incumplimiento de este supuesto puede acarrear graves consecuencias sobre
las conclusiones de un contraste (ver Kenny y Judd, 1986).
En la práctica, la independencia entre observaciones se consigue seleccionándolas al azar. En una secuencia

temporal, por ejemplo, las observaciones no suelen ser independientes entre sí: lo que ocurre con una
observación concreta depende, generalmente, de las características de alguna observación previa. En una
muestra aleatoria, por el contrario, debe esperarse que lo que ocurre con cada observación sea independiente
de lo que ocurre con las demás. La prueba de las rachas permite valorar si las observaciones seleccionadas son
realmente independientes entre sí.
El concepto de racha se refiere a una secuencia de observaciones de un mismo tipo. Supongamos que se lanza
una moneda al aire 10 veces y que se obtiene el siguiente resultado: CCCXCCXXXC. En este resultado hay 5
rachas: CCC, X, CC, XXX y C. A simple vista, el resultado obtenido parece aleatorio. Pero si en lugar de ese
resultado se hubiera obtenido este otro: CCCCCXXXXX (2 rachas), no resultaría difícil ponerse de acuerdo en
que la secuencia obtenida no parece aleatoria. Como tampoco parece aleatoria una secuencia con demasiadas
rachas: CXCXCXCXCX (10 rachas). Pues bien, la prueba de las rachas permite determinar si el número de rachas
(R) observado en un conjunto de observaciones es lo suficientemente grande o lo suficientemente pequeño
como para poder rechazar la hipótesis de independencia (o aleatoriedad) entre las observaciones.
Es importante no confundir la hipótesis de aleatoriedad con la hipótesis de bondad de ajuste estudiada a

propósito del contraste sobre una proporción o prueba binomial (ver capítulo 9 del primer volumen). Obtener
5 caras y 5 cruces al lanzar una moneda 10 veces es un resultado que se ajusta perfectamente a la hipótesis de
equiprobabilidad (prob. cara = prob. cruz = 0,5), pero si las 5 caras salen al principio y las 5 cruces al final, esto
haría dudar de la hipótesis de independencia o aleatoriedad. Para obtener el número de rachas de un conjunto
de observaciones es necesario que éstas estén clasificadas en dos grupos exhaustivos y mutuamente exclusivos
(variable dicotómica). Si no lo están, se deberá utilizar algún criterio (por ejemplo, colocando un punto de corte
en la media, en la mediana, en la moda o en cualquier otro valor) para hacer que lo estén. Una vez clasificadas
las n observaciones en dos grupos (de tamaños n1 y n2), la hipótesis de aleatoriedad o independencia puede
ponerse a prueba utilizando una tipificación 10 del número de rachas.
b) Prueba de los cuantiles:
Un cuantil es un valor de la variable que deja por debajo de si un determinado porcentaje de casos. La
mediana, que deja por debajo de sí al 50% de los casos, es el cuantil 50. La prueba de los signos o binomial,
estudiada en este mismo capítulo, sirve para contrastar hipótesis sobre cualquier cuantil, por lo que también
nos servirá para contrastar hipótesis sobre la mediana (que es un cuantil). Mínimo nivel ordinal. La prueba de
los cuantiles puede contrastar cualquiera proporción, en función del cuantil, mientras que, si queremos
contrastar la mediana, se contrastará una proporción específica de 0,50.
TEMA 3. INFERENCIA CON DOS VARIABLES CATEGÓRICAS
Las categorías de las variables pueden ser o no las mismas. Por ejemplo, al analizar la relación entre las
variables sexo (hombres, mujeres) y tabaquismo (fumadores, exfumadores, no fumadores), o entre las variables
clase social (baja, media, alta) y nivel de estudios (primarios, secundarios, medios superiores), las categorías de
las variables son distintas. Pero al analizar la relación entre las variables opinión sobre la eutanasia (a favor,
indiferente, en contra) y opinión sobre el aborto (a favor, indiferente, en contra), o las variables bebedor (sí, no)
y fumador (sí, no), las categorías de ambas variables son las mismas. En el primer caso (categorías distintas), el
análisis suele dirigirse casi de forma exclusiva al estudio de la relación entre las variables mediante el contraste
de la hipótesis de independencia; en el segundo caso (categorías iguales), además de estudiar si existe relación,
es posible y suele interesar estudiar otros aspectos mediante el contraste de diferentes hipótesis:
homogeneidad marginal, simetría absoluta, simetría relativa, acuerdo, cuasi-independencia, etc.
3.1. Contraste de independencia o igualdad de proporciones (proporciones independientes*2):
El contraste de la hipótesis de independencia es el más frecuente al analizar dos variables categóricas. Se

construyen tablas de contingencias bidimensionales y se contrasta la hipótesis de independencia o igualdad
con la prueba X2 de Pearson. (explicación detallada en el capítulo 10 del vol. I de Pardo). Ej para un contraste
de independencia: ¿Hay relación (dependencia) entre las variables sexo y tabaquismo? La pregunta que suele
interesar responder en un ejemplo de estas características es si la proporción de fumadores (hombres) difiere
o no de la proporción de fumadoras (mujeres), lo cual es equivalente a preguntarse si las variables sexo y
tabaquismo están o no relacionadas.
3.2. Homogeneidad marginal y simetría (proporciones relacionadas*2)
La hipótesis de independencia (3.1.) no es la única hipótesis que puede interesar contrastar al analizar dos
variables categóricas. Consideremos una situación diferente: supongamos que queremos estudiar la opinión
sobre la eutanasia (a favor, en contra) de un grupo de personas en dos momentos distintos (por ejemplo, antes
y después de un debate televisado).
Aquí, como en el caso anterior, también podría contrastarse la hipótesis de independencia para averiguar si la
opinión que se tiene en el momento antes está relacionada con la opinión que se tiene en el momento después.
Pero en un estudio de estas características, el hecho de saber que existe relación entre ambos momentos
(relación entre ambos grupos de puntuaciones) suele tener poco interés: puesto que se está haciendo la misma
pregunta a los mismos sujetos, es lógico esperar que exista relación y saber esto no aporta gran cosa. Lo que
suele interesar en una situación de estas características es, más bien, saber si la opinión ha cambiado; es decir,
saber si la opinión que se tiene en el momento antes difiere o no de la opinión que se tiene en el momento
después. Y esto no puede saberse contrastando la hipótesis de independencia, sino otra hipótesis llamada: “de
homogeneidad marginal”. Y contrastar esta hipótesis implica comparar la proporción de personas que están a
favor en el momento antes con la proporción de personas que están a favor en el momento después
(proporciones marginales), lo cual no tiene nada que ver con las proporciones que se comparan cuando se
contrasta la hipótesis de independencia.
(*2) Entre las proporciones que se comparan en la hipótesis de independencia y las que se comparan en
la hipótesis de homogeneidad marginal existe una diferencia muy importante. En la hipótesis de independencia
comparan dos proporciones que son independientes entre sí: la diferencia recae en el hecho de si se trata de
grupos de datos independientes (al comparar hombres y mujeres, estamos hablando de 2 grupos de personas
distintas; punto 3.1.) o relacionados (al comparar la evolución de la opinión tras el debate, el grupo de personas
que son interrogadas sobre la eutanasia es el mismo).
Las medidas relacionadas no son típicas únicamente de los diseños pre-post. Un escenario similar sería si en
lugar de tomar dos medidas a los mismos sujetos se toma una medida a pares de sujetos igualados en algún
criterio relevante para el análisis (p. ej: opinión sobre la eutanasia de miembros de una misma pareja en un
diseño transversal). Otros ejemplos serían cuando se utilizan casos y controles en un estudio clínico, padres e
hijos en un estudio sociológico, gemelos en un estudio sobre la problemática herencia-ambiente, etc.
Otro ejemplo para entender la diferencia entre proporciones independientes (las que se utilizan para
contrastar la hipótesis de independencia) y proporciones relacionadas (las que se utilizan para contrastar la
hipótesis de homogeneidad marginal) sería: imaginemos una muestra de personas que responden a dos
preguntas distintas (opinión sobre la eutanasia y opinión sobre el aborto), ambas con las mismas categorías de
respuesta (a favor, en contra). Aquí podría interesar contrastar ambas hipótesis: (1) el contraste de la hipótesis
de independencia estaría informando acerca de si ambas opiniones están o no relacionadas, lo cual permitiría
saber si las personas que están a favor de la eutanasia tienden o no a estar también a favor del aborto; (2) el
contraste de la hipótesis de homogeneidad marginal estaría informando acerca de si la proporción de personas
que están a favor de la eutanasia difiere (es mayor o menor) de la proporción de personas que están a favor
del aborto.
En variables dicotómicas (tablas 2 x 2), la hipótesis de homogeneidad marginal es (equivale a) una hipótesis de
simetría que permite valorar el cambio: indica si el número de personas que cambian en una dirección difiere
del de personas que cambian en la otra dirección.
En el libro también nos hablan de simetría relativa (concepto más complejo); lo más relevante: comparación
de dos proporciones independientes, analizando números relativos de cambios o diferencias. (vs nº absolutos
en las hipótesis de simetría). Puede contrastarse con la prueba de chi cuadrado.
.
a) Simetría con variables dicotómicas: la prueba de McNemar: sirve para contrastar la hipótesis de
homogeneidad marginal en tablas 2 x 2. La distribución muestral de este estadístico se aproxima al
modelo de probabilidad ji-cuadrado con 1 grado de libertad. A mayor n, mejor aproximación al modelo,
aunque ya se consiguen aproximaciones muy buenas con tamaños muestrales relativamente pequeños
(dado que se basa en la distribución binomial). Ho: proporción teórica=proporción empírica.
b) Simetría con variables politómicas: la prueba de Bowker: En el caso de que las variables tengan más de
dos categorías, la hipótesis de simetría puede contrastarse aplicando una modificación del estadístico
de McNemar propuesta por Bowker (1948). Es importante señalar que, con variables politómicas, la
hipótesis de simetría no es equivalente a la de homogeneidad marginal. La simetría (frecuencias
idénticas en espejo respecto de la diagonal principal) implica homogeneidad marginal, pero la
homogeneidad marginal no implica simetría. Y la hipótesis nula que se contrasta con no es la de
homogeneidad marginal, sino la de simetría.
3.3. Índices de riesgo:
Sirven para contrastar hipótesis de independencia, pero con especial atención a los diseños longitudinales
y poniendo el énfasis en la cuantificación del efecto estudiado.
Seguimos analizando dos variables dicotómicas, pero a diferencia de lo que hemos hecho en el apartado
anterior (medir la misma variable dos veces o en pares de sujetos, o medir dos variables con las mismas
categorías), el interés ahora se centra en estudiar la relación entre dos variables dicotómicas distintas. Un
ejemplo típico sería: en una muestra aleatoria de 1.150 personas mayores de 40 años se ha registrado la
presencia o no de infarto de miocardio en fumadores y no fumadores durante un periodo de seguimiento de
15 años. Estamos interesados en analizar el grado de relación existente entre una variable dicotómica a la que
llamaremos factor (en el ejemplo, tabaquismo sí/no) y otra variable dicotómica a la que llamaremos desenlace
o respuesta (en el ejemplo, infarto sí/no). La variable factor suele elegirse porque se sabe o se sospecha que
puede estar relacionada con la variable respuesta que interesa estudiar. Los datos recogidos al estudiar este
tipo de situaciones suelen organizarse en tablas de contingencias 2 x2.
Este tipo de datos son habituales en estudios longitudinales, los cuales pueden hacerse de dos formas: hacia
delante o hacia atrás. En los diseños hacia delante, llamados prospectivos o de cohortes, se clasifica a los
sujetos en dos grupos dependiendo de la presencia o ausencia de algún factor de interés (por ejemplo, el
hábito de fumar) y se hace seguimiento durante un periodo de tiempo para determinar la proporción de
sujetos de cada grupo en los que se da la respuesta o desenlace objeto de estudio (por ejemplo, infarto). En
los diseños longitudinales hacia atrás, llamados retrospectivos o de casos y controles, se forman dos grupos de
sujetos a partir de la presencia o ausencia de la respuesta o desenlace objeto de estudio (por ejemplo, sujetos
sanos y sujetos que han sufrido infarto) y se hace seguimiento hacia atrás intentando encontrar información
sobre la proporción en la que aparece en cada grupo un determinado factor de interés (por ejemplo, el hábito
de fumar).
a) Riesgo relativo
Siguiendo el ejemplo anterior, con un diseño prospectivo o de cohortes, nos podría interesar hacer un
contraste de independencia (ver si las variables factor y respuesta están relacionadas), contrastando la
hipótesis de independencia con la prueba Xi cuadrado de Pearson. Siguiendo nuestro ejemplo, si el nivel crítico
asociado fuera menor que el nivel de significación, se podría concluir que las variables tabaquismo e infarto
están relacionadas.
Pero en este tipo de diseños, más que el hecho de saber si existe o no relación, lo que suele interesar es
comparar lo que ocurre con los sujetos expuestos y los no expuestos. Lo habitual es utilizar un estadístico que
permita comparar la proporción de respuestas o desenlaces del grupo de sujetos expuestos con esa
misma proporción en el grupo de sujetos no expuestos: la proporción de infartos (incidencia) en el grupo de
fumadores comparada con la proporción de infartos en el de no fumadores. Al cociente entre estas
dos proporciones se le llama índice de riesgo relativo RR: el numerador del riesgo relativo recoge la proporción
de desenlaces entre los sujetos expuestos (infartos en fumadores) y el denominador, la proporción de
desenlaces entre los sujetos no expuestos (infartos en no fumadores). El cociente entre ambas proporciones
indica cuánto mayor es la proporción de desenlaces en el grupo de sujetos expuestos que en el de sujetos no
expuestos.
El valor (siempre no negativo) del índice de riesgo relativo se interpreta tomando como
referencia el valor 1: un riesgo relativo de 1 indica que la proporción de desenlaces es la misma
en ambos grupos, por lo que se diría que la probabilidad de sufrir un infarto no guarda relación con el hecho
de ser fumador (por lo tanto, el valor 1 va a quedar comprendido en la hipótesis nula*3). El valor de R, es mayor
que 1 cuando la proporción del numerador es mayor que la del denominador, p.ej: un RR=2 indica que la
proporción de desenlaces del numerador es el doble que la del denominador. Mientras que el valor de R es
menor que 1 cuando la proporción del numerador es menor que la del denominador; p.ej. un RR=0,75 indica
que la proporción de desenlaces del numerador es un 25% menor que la del denominador o, p.ej. un RR=0,50
indica que la proporción del numerador es un 50% menor (la mitad) que la del denominador.
En muchos contextos (muy especialmente en contextos clínicos y epidemiológicos) es habitual interpretar R,
utilizando, no el término proporción, sino el término riesgo: un ejemplo sería, con un RR=3: “el riesgo
de sufrir infarto entre los fumadores es 3 veces el riesgo de sufrirlo entre los no fumadores” o un RR=0,67: “el
67% de los desenlaces (infartos) que se producen en el grupo de sujetos expuestos (fumadores) son atribuibles
al factor de riesgo (fumar).”
Ahora bien, para poder hacer esta interpretación es necesario que el factor de riesgo sea la causa del desenlace
estudiado. Y ya hemos señalado que esto es algo muy difícil de determinar en un
estudio de cohortes. La conclusión razonable sería que el 67% de los infartos del grupo de
fumadores es atribuible a todo en lo que difieren fumadores y no fumadores (que, probablemente, no es

únicamente en el hecho de fumar). A estas terceras variables que podrían estar contaminando el resultado de
un estudio se les llama factores de confusión y lo ideal, lógicamente, es poder identificarlos y controlarlos para
eliminar su efecto. → ¡Cuidado al interpretar ese dato (que en otra parte del capítulo denominan como
fracción etiológica – pg 94)!
La distribución muestral de RR es muy asimétrica. No obstante, para valorar si un índice

de riesgo es significativamente distinto de 1. Como en todo proceso de contraste de hipótesis, se construirá
un intervalo de confianza… por lo que podremos afirmar que, si el valor 1 no se encuentra entre los límites del
intervalo de confianza definido, puede concluirse que el riesgo de experimentar el desenlace no es el mismo
en los dos grupos comparados (*3).
b) Odds ratio:
Se trata de un estadístico muy utilizado para cuantificar la relación entre dos variables dicotómicas. Aquí, de
momento, nos limitaremos a utilizarlo como una estimación del riesgo relativo cuando éste no puede
calcularse.
Comencemos con el concepto de odds. Siendo P la probabilidad de un suceso cualquiera, la odds de un suceso
es el cociente entre la probabilidad de ese suceso (por ejemplo, acierto) y la de su complementario (error):
odds=P/(1-P). Si la probabilidad del suceso acierto vale 0,75, entonces su odds vale 0,75/(0,25)=3. Lo cual
significa que la probabilidad de acierto es 3 veces mayor a la de error.
Una odds siempre toma un valor no negativo. Odds valdrá 1 cuando la probabilidad del suceso es igual que la
de su complementario (esto solamente ocurre cuando la probabilidad del suceso vale 0,50); odds > 1 cuando
la probabilidad del suceso es mayor que la de su complementario (si la probabilidad de un suceso vale 0,80,
ese suceso es cuatro veces más probable que su complementario: Odds=0,80/0,20=4); y odds < 1 cuando la
probabilidad del suceso es menor que la de su complementario (si la probabilidad de un suceso vale 0,20, ese
suceso es cuatro veces menos probable que su complementario: odds= 0,20/0,80=114). Rango: de cero a
infinito.
En los diseños retrospectivos o de casos y controles, tras formar dos grupos de sujetos a partir de algún
desenlace de interés, se va hacia atrás buscando la presencia de algún factor de riesgo. El estudio sobre
tabaquismo e infarto del apartado anterior podría diseñarse seleccionando dos grupos de sujetos (con y sin
infarto) y buscando hacia atrás (por ejemplo, en la historia clínica de los sujetos) la presencia del hábito de
fumar.
Los diseños de casos y controles son muy utilizados en las ciencias de la salud porque tienen algunas ventajas
sobre los diseños de cohortes: no es necesario hacer seguimiento durante años para poder identificar factores
de riesgo y garantizan que el estudio incluya una muestra suficientemente grande de pacientes con la
enfermedad o el desenlace que interesa estudiar. Pero se diferencian de los diseños de cohortes en un aspecto
importante desde el punto de vista estadístico: mientras que en un diseño de cohortes se fijan las frecuencias
marginales de las filas, en un diseño de casos y controles se fijan las frecuencias marginales de las columnas.
Como consecuencia de esto, las frecuencias marginales de las filas no dependen únicamente de la verdadera
proporción de desenlaces (es decir, de la verdadera incidencia del desenlace estudiado), sino de la decisión
subjetiva o arbitraria del investigador (dependiendo del número de controles que el investigador decida utilizar
por cada caso; suelen ser entre 1 y 4 controles por caso). En este escenario no tiene sentido calcular el índice
de riesgo relativo, por lo que se recomienda utilizar la odds.
Siguiendo el ejemplo anterior, podemos calcular dos odds dentro del grupo de fumadores: odds infartos
(casos) y odds NO infarto (controles). El cociente entre ambas odds nos servirá para compararlas e indica
cuánto mayor o menor es la odds del suceso fumar en el grupo "sí" (casos) que en el grupo "no" (controles).
En conclusión, en los diseños de casos y controles (que no permiten calcular las incidencias del desenlace
estudiado), se utiliza el cociente entre odds como una estimación del riesgo relativo. A este cociente entre
odds se le llama odds ratio (OR).
Respecto la OR: su valor no se altera si se cambia el orden de las filas y el de las columnas, ni si se intercambian
las filas y las columnas. Para interpretarla, hay que referirla al valor 1: OR toma un valor igual a 1 cuando la
odds del desenlace es la misma en las filas y en las columnas (valor que va a quedar recogido en la Ho*4);
mientras que si OR>1, diremos que va a ser mayor y si OR<1, menor.
La distribución muestral de la OR, al igual que la de RR, muy asimétrica incluso con tamaños muestrales
grandes. No obstante, el logaritmo natural de OR permite corregir la asimetría de su distribución y definir un
intervalo de confianza basado en una aproximación a la distribución normal. De nuevo, si el valor 1 no se
encuentra entre los límites del intervalo de confianza, puede concluirse que la odds de la respuesta o desenlace
estudiado no es la misma en las dos poblaciones comparadas (*4).
c) Relación entre el riesgo relativo y la odds ratio:
Aunque una odds ratio no es lo mismo que un índice de riesgo relativo, ambos estadísticos se encuentran
estrechamente relacionados: si las proporciones de los desenlaces (las explicadas en el RR) son más bien
pequeñas, el valor de OR se aproximará al de RR.
d) Consideraciones sobre la interpretación de los índices de riesgo
Los diseños de cohortes y de casos y controles que estamos revisando en este apartado son muy utilizados
en las ciencias sociales y de la salud. Acabarnos de ver que en epidemiología sirven para identificar factores de
riesgo asociados a determinadas enfermedades. En sociología se pueden utilizar para identificar características
grupales bajo las que es más frecuente determinada conducta (la abstención en unas elecciones, el consumo
de drogas, etc.). En seguridad vial se pueden utilizar para valorar la relación entre el uso del cinturón de
seguridad y las muertes por accidente. Las aseguradoras utilizan estos diseños para identificar bajo qué
circunstancias son más probables los accidentes, o los incendios, o los robos, etc. Las entidades financieras los
utilizan para decidir qué características de sus clientes aumentan o disminuyen el riesgo de morosidad.
Etcétera.
❖ Riesgo no es causalidad: En todos los ejemplos del párrafo anterior se calculan índices de riesgo que
se utilizan para tomar decisiones que, muchas veces, afectan de forma importante a las personas:
recomendaciones sobre comportamientos saludables, precios de los seguros, concesión de créditos,
etc. Sin embargo, no debe perderse de vista el hecho de que un índice de riesgo no es más que un
cociente de proporciones (o de odds). Su valor indica cuánto mayor o menor es una proporción que
otra. Y sustituir el término proporción por el de riesgo no cambia la naturaleza del índice. Un factor de
riesgo no es lo mismo que un factor causal: tanto los diseños de cohortes como los de casos y controles
son diseños observacionales y permiten sacar conclusiones a nivel correlacional, pero no determinar
si una relación es o no de tipo causal.
❖ Los índices de riesgo tienden a sobrestimar el verdadero riesgo: Con el RR se corre el riesgo de
magnificar diferencias muy pequeñas, dado que la diferencia entre dos proporciones es más
importante cuando ambas se encuentran cerca del valor cero que cuando toman un valor intermedio.
Además, al cuantificar el riesgo mediante la odds ratio supone sobrestimar (inflar) el grado de relación
entre el factor y la respuesta (dado que OR siempre toma un valor más alejado de 1 que el RR). El grado
en el que una odds ratio sobrestima el verdadero riesgo es tanto mayor cuanto más distintas y alejadas
de cero están las verdaderas proporciones subyacentes de desenlaces. De ahí la recomendación ya
hecha de limitar la utilización de la odds ratio como estimación del riesgo relativo a los casos en los
que se trabaja con desenlaces poco probables (valores pequeños).
❖ La falacia ecológica: Una falacia es un error lógico, un error en la argumentación. La falacia ecológica
es un error que consiste en atribuir al individuo las características del grupo. A pesar de que este tipo
de error fue detectado hace más de medio siglo (Robinson, 1950), todavía sigue apareciendo en las
conclusiones de no pocos estudios. Y es particularmente frecuente en la interpretación del riesgo
relativo. Recordemos de nuevo el ejemplo sobre tabaquismo e infarto. Hemos visto que un riesgo
relativo de 3 indica que la proporción de infartos en el grupo de fumadores es 3 veces mayor que en
el grupo de no fumadores. También puede interpretarse este dato como que el riesgo de sufrir infarto
entre los fumadores es 3 veces mayor que entre los no fumadores (sin perder de vista las
consideraciones hechas en el apartado anterior). Se cae en la falacia ecológica cuando se afirma que
la probabilidad de que un fumador sufra un infarto es 3 veces mayor que la de un no fumador. En esta
interpretación se está convirtiendo un dato grupal (una proporción referida al grupo) en una
característica individual, es decir, en una especie de propensión del individuo a sufrir infarto con una
determinada probabilidad.
3.4. Índices de acuerdo
Una situación típica en la que suele interesar estudiar el grado de acuerdo es la que se deriva de aplicar dos
criterios de clasificación (dos jueces o expertos, dos escalas de medida, dos pruebas diagnósticas, etc.) a una
serie de sujetos u objetos. Las categorías utilizadas para la clasificación pueden ser nominales (como el tipo de
trastorno) u ordinales (como la gravedad del trastorno). En el primer caso suele utilizarse el índice de acuerdo
kappa de Cohen (1960) o alguna variante del mismo (Cohen, 1968). En el segundo, alguna medida de asociación
para variables ordinales; en el siguiente apartado estudiaremos tres: gamma (Goodman y Kruskal, 1979), tau-
b (Kendall, 1970) y d (Somers, 1962). Estas medidas de asociación sirven para valorar el grado de relación
positiva o negativa existente entre dos variables; por tanto, sus valores positivos también permiten cuantificar
el grado de acuerdo.
a) Acuerdo con variables nominales: kappa
En la tabla se recoge el resultado obtenido por dos expertos al clasificar una muestra de 200 pacientes
afectados de trastorno neurótico. Ambos expertos han intentado identificar el tipo de neurosis dominante en
cada paciente (fóbica, histérica, obsesiva o depresiva). Por tanto, las categorías de las filas son las mimas que
las de las columnas. Cuando el interés del análisis está en valorar el grado de acuerdo o coincidencia entre dos
criterios de clasificación (en el
ejemplo, dos expertos), no tiene
sentido contrastar la hipótesis de
independencia con la prueba Xi
cuadrado de Pearson, puesto que
en este caso únicamente estamos
interesados en capturar al grado de
acuerdo o coincidencia entre ambos criterios de clasificación.
El acuerdo o coincidencia está reflejado en las casillas de la diagonal principal, puesto que contiene el número
de casos que ambos expertos clasifican de la misma manera. Por tanto, una forma sencilla e intuitiva de
cuantificar el grado de acuerdo consiste simplemente en valorar en qué medida las frecuencias de la tabla
tienden a concentrarse en esa diagonal, pero entonces no se está teniendo en cuenta el hecho de que es
posible obtener cierto grado de acuerdo simplemente por azar.
El índice de acuerdo kappa (Cohen, 1960) se obtiene dividiendo el

acuerdo neto (proporción de acuerdo observado – proporción de acuerdo
esperado por azar) entre la proporción de acuerdo máximo que es posible
alcanzar (esta proporción se estima haciendo la resta: 1 - proporción de
acuerdo esperado por azar).
El valor del índice kappa debe interpretarse teniendo en cuenta que toma valores entre 0 (acuerdo nulo) y 1
(acuerdo máximo). Si el grado de acuerdo es menor que el esperado por azar, kappa toma un valor negativo.
El valor cero quedará comprendido dentro de la hipótesis nula.
Landis y Koch (1977) han argumentado que, por lo general, valores por encima de 0,80 reflejan un acuerdo
excelente; valores entre 0,60 y 0,80, un buen acuerdo; valores entre 0,40 y 0,60 un acuerdo moderado; y
valores por debajo de 0,40, un acuerdo más bien pobre. Pero estos puntos de corte no parecen estar
suficientemente bien justificados. Al interpretar el coeficiente kappa hay que tener en cuenta que, aunque
permite cuantificar el grado de acuerdo global, no sirve para reflejar la verdadera naturaleza del acuerdo y del
desacuerdo subyacentes (de hecho, puede obtenerse el mismo valor kappa con distintas pautas de variación
entre las frecuencias de la diagonal principal o con distintas pautas de desacuerdo) (Grayson, 2004). Ésta es la
razón por la cual suele recomendarse no comparar coeficientes obtenidos en diferentes estudios o en
diferentes poblaciones (Feinstein y Cicchetti, 1990; Thompson y Walter, 1988). Además, dependiendo de los
criterios de clasificación utilizados, algunos desacuerdos pueden ser más fuertes que otros (puede haber
categorías que se parezcan entre sí más que otras). Y si las categorías de clasificación son ordinales (por
ejemplo, trastorno leve, moderado y severo), el desacuerdo por clasificar al mismo sujeto en categorías
adyacentes (p. ej. leve y moderado) es menos grave que el desacuerdo por clasificar al mismo sujeto en
categorías más alejadas (p.ej. leve y severo). Para resolver estos problemas puede utilizarse una versión
ponderada del índice kappa (Cohen, 1968; Spitzer, Cohen, Fleis y Endicott, 1967): la ponderación consiste en
asignar un peso (w) entre 0 y 1 a cada casilla. Por lo general, a las casillas de la diagonal principal se les asigna
un peso de 1 y al resto de las casillas se les asigna un peso tanto menor cuanto más grave se considera el
desacuerdo (las casillas más alejadas de la diagonal principal - los desacuerdos más graves - reciben un peso
menor). Tras asignar los pesos a las casillas, la versión ponderada del coeficiente kappa se obtiene aplicando
una ecuación (…).
3.5. Asociación entre variables categóricas ordinales:
En este apartado nos vamos a ocupar de un tipo particular de variables categóricas: aquellas cuyas
categorías se encuentran cuantitativamente ordenadas. (¡definen las variables ordinales cómo “categóricas
ordinales”!) Tal es el caso de variables como el nivel d estudios (primarios, secundarios, medios, superiores), o
la clase social (baja, media alta), etc.; o el de variables originalmente cuantitativas (como la edad) cuyos valores
se han agrupado en unas pocas categorías (grupos de edad).
Consideremos de nuevo el ejemplo del grupo de personas a los que se pedía su opinión acerca del aborto y de
la eutanasia (en contra, indiferente o a favor). A modo de resumen de lo visto hasta aquí, ante esta muestra
tendría sentido contrastar diferentes hipótesis y cada hipótesis requeriría aplicar diferentes pruebas
estadísticas:
❖ El contraste de la hipótesis de independencia con la prueba X2 de Pearson permitiría saber si las

distribuciones condicionales de una de las dos variables son o no iguales en cada nivel de la otra.
Cualquier casilla de la tabla cuya frecuencia se alejará suficientemente del valor esperado de esa casilla
bajo la hipótesis de igualdad llevaría al rechazo de la hipótesis de independencia y, consecuentemente,
a concluir que existe relación entre ambas opiniones, sin importar en qué casilla se produce el
alejamiento de lo esperado.
❖ El contraste de la hipótesis de homogeneidad marginal (distinta de la de independencia) permitiría saber
si la proporción de personas que elige cada categoría de opinión ("a favor", "indiferente", ''en contra")
es o no la misma cuando se trata de la eutanasia y cuando se trata del aborto.
❖ El contraste de la hipótesis de simetría (distinta de la de independencia y distinta de la de homogeneidad
marginal) permitiría estudiar la pauta que siguen las secuencias de las casillas que representan opiniones
distintas hacia la eutanasia y hacia el aborto.
❖ Por último, el índice de acuerdo kappa permitirla cuantificar el grado de acuerdo, es decir el grado en
que la opinión que se tiene sobre la eutanasia tiende a coincidir con la que se tiene sobre el aborto.
No cabe duda de que todos estos contrastes ofrecen información interesante y, dependiendo de los objetivos
del análisis, cualquiera de ellos podría ser la elección idónea. No obstante, cuando las dos variables analizadas
son ordinales (cómo es el caso de la opinión respecto al aborto y la eutanasia) lo que suele interesar estudiar
es si el aumento de los valores de la primera tiende a ir o no acompañado del aumento (o disminución) de los
valores de la segunda. Y esta tendencia no está contemplada en ninguna de las hipótesis planteadas hasta el
momento.
Con variables cuantitativas (de intervalo o razón), el estudio de esta tendencia suele abordarse con el
coeficiente de correlación de Pearson, el cual ya sabemos que permite cuantificar el grado de relación lineal
entre variables. Con variables ordinales no tiene mucho sentido hablar de relación lineal porque las variables
ordinales no tienen una métrica definida (sin unidad de medida constante); sin embargo, dado que sus
categorías se encuentran ordenadas, sí es posible hablar de relación monótona. Cuando se da este tipo de
relación, las frecuencias de la tabla tienden a concentrarse en una de las dos diagonales: en la principal en el
caso de relación positiva o creciente y en la secundaria en el caso de relación negativa o decreciente. Por tanto,
estudiar la relación entre variables ordinales requiere utilizar estadísticos (medidas de asociación) capaces de
valorar en qué medida las frecuencias tienden a concentrarse en una de las dos diagonales de la tabla.
Las medidas de asociación que se incluyen en este apartado se basan en la comparación individual de cada
caso con cada otro y en los conceptos de concordancia y discordancia; y no es necesario que las dos variables
tengan las mismas categorías.
a) Medidas de concordancia-discordancia
Dos casos son concordantes (C) cuando el primero puntúa más alto (o más bajo) que el segundo tanto en X
como en Y. Dos casos son discordantes (D) cuando el primero puntúa más alto (o más bajo) que el segundo en
la variable X y más bajo (o más alto) en la variable Y. Dos casos están empatados en X (Ex) cuando sus valores
son iguales en X y distintos en Y. Dos casos están empatados en Y (E y) cuando sus valores son iguales en Y y
distintos X. Dos casos están empatados en X e Y (Exy) cuando sus valores son los iguales en ambas variables.
Cuando predominan las concordancias, la relación es positiva: los valores altos (bajos) de una de las variables
tienden a ir acompañados de valores altos (bajos) de la otra variable. Cuando predominan las discordancias, la
relación es negativa: los valores altos (bajos) de una de las variables tienden a ir acompañados de valores bajos
(altos) de la otra variable.
Si todas las comparaciones entre casos dan como resultado pares concordantes o discordantes (es decir, si no
existen pares empatados), las probabilidades de concordancia (PC) y de discordancia (PD) pueden estimarse
dividiendo el número de pares concordantes y discordantes entre el número total de comparaciones:
❖ Coeficiente tau-a: PC - PD (se restan ambas proporciones)

❖ Coeficiente gamma: Si hay empates no podemos utilizar tau-a, por lo que se recomienda gamma, que
excluye los empates del análisis. Cuando la relación entre las variables es perfecta y positiva, todos los
pares son concordantes y gamma vale 1. Cuando la relación entre las variables es perfecta pero
negativa, todos los pares de casos son discordantes y gamma vale -1. Cuando las variables son
independientes, hay tantos pares concordantes como discordantes y gamma vale 0. Por tanto, gamma
oscila, entre -1 y 1. Cuando dos variables son independientes, gamma vale cero; sin embargo, una
gamma de cero no implica independencia (excepto en tablas de contingencias 2x2).
❖ Coeficiente tau-b: La exclusión, sin más, de los pares empatados suele inflar en exceso la estimación
que se obtiene de la verdadera relación subyacente. El coeficiente tau-b de Kendall tiene esto en
cuenta, incorporando a la ecuación el número de pares empatados en X o en Y (quedan fuera los pares
empatados en ambas variables), por lo que su valor será inferior al de gamma. El coeficiente tau-b
toma valores entre - 1 y + 1 pero solamente en tablas de contingencias cuadradas y si ninguna
frecuencia marginal vale cero (esto serían sus limitaciones).
❖ Coeficiente tau-c: intenta corregir las limitaciones de tau-b y toma valores entre aproximadamente -1
y 1 independientemente del número de categorías de las variables.
❖ Coeficiente d de Somers: incorpora una ligera modificación al coeficiente gamma para cuando una de
las variables se considera independiente (X) y la otra dependiente (Y). Tiene tres versiones: dos
asimétricas y una simétrica.
La hipótesis nula de no asociación ordinal en la población comprenderá el valor cero para todos los coeficientes
explicados.
3.6. Apéndice 3:
a) Combinación de tablas 2x2 (Cochran y Mantel-Haenszel):
Coeficientes interesantes para el control de terceras variables en los diseños de cohortes y en los casos y
controles. Recordemos el ejemplo sobre tabaquismo e infarto. Hablaremos de hipótesis de independencia
condicional: la hipótesis de independencia entre las variables factor (tabaquismo) y respuesta (infarto) una vez
que se ha controlado el efecto de los estratos (distintos grupos de edad o de sexo, pacientes con distinta
sintomatología o con distinta gravedad, distintas dosis de fármaco, distintos grupos étnicos, etc.).
El estadístico de Mantel-Haenszel (1959) es idéntico al de Cochran en todo excepto en dos detalles: (1) utiliza
corrección por continuidad y (2) en el denominador de la varianza utiliza una pequeña variación.
Las distribuciones muestrales de ambos estadísticos se aproximan al modelo de probabilidad chi cuadrado con
1 grado de libertad. Si el nivel crítico asociado es menor que 0,05, se puede rechazar la hipótesis nula de
independencia condicional y concluir que, una vez controlado el efecto de la variable estratos, las variables
factor y respuesta están relacionadas.
Si se rechaza la hipótesis de independencia condicional, lo que conviene hacer es determinar si la relación

detectada es o no la misma en todos los estratos. Esto puede hacerse contrastando la hipótesis nula de
homogeneidad de las odds ratio inter-estratos. Para la cuantificación del grado de relación existente entre las
variables factor y respuesta puede hacerse de dos maneras: (1) obteniendo una cuantificación distinta para
cada estrato (lo razonable si la relación entre las variables factor y respuesta difiere de un estrato a otro) y (2)
obteniendo una única cuantificación tras mezclar todos los estratos como si se tratara de una sola muestra (lo
razonable si la relación entre las variables es la misma en todos los estratos).
b) La paradoja de Simpson:
Paradoja en la cual una tendencia que aparece en varios grupos de datos desaparece cuando estos grupos
se combinan y en su lugar aparece la tendencia contraria para los datos agregados. Nos habla de que la relación
entre dos variables puede verse modulada o alterada por la presencia de terceras variables.
Veamos un ejemplo: Imaginemos dos tratamientos para la depresión para todos los pacientes de una
población (tratamiento 1: farmacológico y tratamiento 2: farmacología y psicoterapia). Al estudiar el efecto de
ambos tratamientos, se verifica que el proceso de recuperación es mayor para los sujetos que reciben el
tratamiento 2. Ahora supongamos que la población de pacientes está compuesta de 2 sub-poblaciones (Ay B).
El tratamiento 2 es más eficaz que el 1 si lo calculamos en ambas sub-poblaciones por separado. Pero resulta
que los pacientes de la subpoblación A tienen un peor pronóstico que la subpoblación B.
Ahora imaginemos que un investigador está interesado en comparar ambos tratamientos. Si utiliza un diseño
correcto, la proporción de elementos muestrales extraídos de cada subpoblación para cada grupo de
tratamiento será la misma. Sin embargo, no siempre es posible asignar sujetos aleatoriamente a los
tratamientos, de modo que no siempre es posible seleccionar muestras de tamaño proporcional a sus
poblaciones… Supongamos, siguiendo el ejemplo, que – con mala suerte – el 70% de los pacientes que reciben
el tratamiento 1 (únicamente farmacológico) pertenecen a la sub-población B (mejor pronóstico) y el 70% de
los pacientes que reciben el tratamiento 2 (combinado) pertenecen a la sub-población A (peor pronóstico).
Dada esta situación, los resultados fácilmente podrían mostrar que el tratamiento 1 es más eficaz que el 2: un
análisis que no contemple la influencia de terceras variables relevantes (diferencias de pronóstico en las
diferentes sub-poblaciones) llevará a conclusiones incorrectas.
c) Medidas de asociación basadas en la reducción proporcional del error:
Para la cuantificación de la fuerza o intensidad de la relación detectada (tamaño del efecto). En el capítulo
10 del primer volumen hemos empezado ya a estudiar algunas medidas de asociación basadas en el estadístico
X2 de Pearson; todas ellas intentan cuantificar el grado de asociación aplicando algún tipo de corrección al
valor de X2 para hacerle tomar un valor comprendido entre 0 y 1. Por tanto, esas medidas son sensibles al
mismo tipo de relación a la que es sensible el estadístico de Pearson (diferencia entre las distribuciones
condicionales).
En este apartado vamos a estudiar tres medidas de asociación: los coeficientes lambda y tau y el coeficiente
de incertidumbre que se basan en un criterio diferente: la reducción proporcional del error. Son medidas que
expresan la relación entre dos variables, X e Y, como la proporción en que se consigue reducir la probabilidad
de cometer un error de predicción cuando, al clasificar un caso como perteneciente a una u otra categoría de
Y, en lugar de utilizar únicamente la información que se tiene de Y, también se tiene en cuenta la información
que aporta X.
❖ LAMBDA: Un valor de 1 indica que se ha conseguido reducir por completo el error de clasificación, es
decir, que la variable independiente permite predecir con toda precisión a qué categoría de la variable
dependiente pertenece cada caso. Un valor de 0 indica que la variable independiente no contribuye
en absoluto a reducir el error de clasificación. Cuando las variables son estadísticamente
independientes, lambda vale 0. Pero un valor de 0 no implica independencia estadística, pues lambda
únicamente es sensible al tipo particular de asociación que se deriva de la reducción del error de
clasificación. Tiene tres versiones: dos asimétricas (para cuando una de las dos variables se considera
independiente y la otra dependiente) y una simétrica (para cuando no hay razón para distinguir entre
variable independiente y dependiente).
❖ TAU: Se trata de un coeficiente diferente de los vistos anteriormente en este mismo capítulo (tau-a,
tau-b y tau-c). Se parece a lambda, pero su lógica es algo diferente. Al igual que lambda, también toma
valores entre 0 y 1, significando el valor 0 ausencia de reducción del error de clasificación y el 1
reducción completa. Posee dos versiones asimétricas en función de cuál de las dos variables se
considere independiente.
❖ COEFICIENTE DE INCERTIDUMBRE: Al igual que lambda y tau, es una medida de asociación basada en
la reducción proporcional del error. Por tanto, es una medida que expresa el grado de incertidumbre
que se consigue reducir cuando se utiliza una variable para efectuar pronósticos sobre otra. También
tiene dos versiones asimétricas (dependiendo de cuál de las dos variables se considere dependiente)
y una simétrica (para cuando no se hace distinción entre variable independiente y dependiente).
d) Muestras pequeñas: la prueba exacta de Fisher
Con muestras muy pequeñas es preferible utilizar distribuciones exactas en lugar de aproximadas. La prueba
exacta de Fisher (1935) permite trabajar con las probabilidades exactas de una tabla 2x2.
TEMA 4. INFERENCIA CON UNA VARIABLE CATEGÓRICA Y UNA CUANTITATIVA
Recordemos que trabajar simultáneamente con una variable categórica y una cuantitativa significa,
por lo general, trabajar con una variable que define grupos (la categórica) y una variable en la cual se desea
comparar los grupos (la cuantitativa). Si la variable categórica tiene dos categorías y, por tanto, define dos
grupos, lo habitual es aplicar la prueba T de Student para muestras independientes; si la variable categórica
tiene más de dos categorías y, por tanto, define más de dos grupos, lo habitual es aplicar el análisis de varianza
de un factor (lo veremos más adelante en el tema 6).
No está de más volver a recordar que las pruebas estadísticas diseñadas para comparar grupos (y lo mismo
vale decir de cualquier otra herramienta inferencial) únicamente permiten averiguar si los grupos difieren; no
permiten ir más allá. Para poder afirmar que las diferencias encontradas reflejan una relación de naturaleza
causal es necesario atenerse a las características del diseño.
4.1. La prueba T de Student para muestras independientes:
Esta prueba ya se ha explicado en el capítulo 11 del VOL. 1, aquí únicamente la repasaremos brevemente.
Con la prueba T se están comparando las medias de dos poblaciones a partir de las medias muestrales
obtenidas en muestras aleatorias extraídas de esas poblaciones. Para que el procedimiento funcione bien (es
decir, para que el estadístico T se distribuya tal como se dice que se distribuye) es necesario que las poblaciones
muestreadas sean normales. Con muestras grandes, el incumplimiento de este supuesto no afecta a las
conclusiones del contraste; pero con muestras pequeñas pierde precisión. En estos casos es preferible utilizar
procedimientos que no asumen normalidad.
Existen dos versiones del estadístico: una para cuando puede asumirse que las varianzas poblacionales son
iguales y otra para cuando no puede asumirse tal cosa. Y ambas permiten tomar decisiones sobre la hipótesis
de igualdad de medias porque tienen distribución muestral conocida.
Ejemplo: Un educador sospecha que los niños con problemas perceptivos aumentan su rendimiento, con
entrenamiento adecuado, en preguntas del test Raven (Y) que habitualmente no resuelven por carecer de las
estrategias adecuadas. Con el fin de obtener alguna evidencia sobre su sospecha ha seleccionado una muestra
aleatoria de 20 niños con problemas perceptivos y los ha repartido, también aleatoriamente, en dos grupos. A
un grupo (experimental) lo ha entrenado durante 2 meses en tareas de percepción de formas; el otro grupo no
ha recibido entrenamiento (control). Terminado el entrenamiento, ha pasado a todos los sujetos el test Raven
para obtener una medida del su rendimiento individual. ¿Permiten estos datos afirmar que los sujetos
entrenados en percepción de formas rinden mejor en el test Raven que los sujetos no entrenados? (a= 0,05)
Contraste unilateral derecho; 18 g.l.
4.2. La prueba de Mann-Whitney
La prueba de Mann-Whitney sirve, al igual que la T de Student para muestras independientes, para
comparar dos grupos en una variable cuantitativa. Sirve, por tanto. para valorar la eficacia de dos tratamientos,
o para comparar un grupo experimental con un grupo control, o dos colectivos distintos (hombres y mujeres;
fumadores y no fumadores; etc.) en alguna variable de interés. Representa una excelente alternativa a la
prueba T de Student cuando se incumple el supuesto de normalidad o cuando no es apropiado utilizar la
prueba T porque el nivel de medida de la variable cuantitativa es ordinal.
En ocasiones, este procedimiento puede encontrarse con la denominación de prueba de Wilcoxon-Mann-

Whitney; también puede encontrarse como prueba de Wilcoxon para muestras independientes, la cual no
debe confundirse con la prueba de Wilcoxon para una muestra (ya estudiada en el capítulo anterior) ni con la
prueba de Wilcoxon para dos muestras relacionadas (que estudiaremos en el próximo capítulo).
Con muestras pequeñas es relativamente sencillo obtener la distribución muestral exacta del estadístico U,
mientras que con tamaños muestrales más grandes puede utilizarse una tipificación del estadístico U: versión
aproximada Z (basada en su valor esperado y en su error típico).
Supuestos: asumimos que las puntuaciones de ambos grupos son muestras aleatorias de poblaciones que
tienen la misma forma.
4.3. La prueba de Kruskal-Wallis
La prueba de Mann-Whitney para dos muestras independientes fue extendida al caso de más de dos
muestras por Kruskal y Wallis (H). Seguimos trabajando con una variable categórica que define grupos y una
variable cuantitativa en la cual deseamos comparar los grupos; pero, ahora, la variable categórica define más
de dos grupos. Por tanto, la prueba de Kruskal-Wallis sirve para valorar el efecto de varios tratamientos sobre
una variable cuantitativa, o para comparar varios grupos en alguna medida cuantitativa de interés. Lo habitual
es abordar este tipo de situaciones con un procedimiento llamado análisis de varianza de un factor (ANOVA I,
que estudiaremos en el capítulo 6). Pero, según veremos, el análisis de varianza requiere que se den una serie
de condiciones (normalidad de las poblaciones muestreadas, igualdad de las varianzas poblacionales, nivel de
medida de intervalos o razón) que no siempre se dan.
Precisamente las ventajas fundamentales de la prueba de Kruskal-Wallis frente al análisis de varianza tienen
que ver con estas condiciones: (1) no necesita establecer supuestos sobre las poblaciones originales tan
exigentes como los del análisis de varianza (supuestos de normalidad y homocedasticidad, que son
especialmente difíciles de cumplir si las muestras son pequeñas y los tamaños muestrales desiguales), y (2)
permite trabajar con datos ordinales.
Los supuestos de la prueba: variable sea al menos ordinal medida en x muestras aleatoria e
independientemente extraídas de sus respectivas poblaciones, las cuales se asume que tienen la misma forma.
Al comparar más de dos grupos, el rechazo de la hipótesis nula nos permite afirmar que los promedios
comparados no son iguales, pero no nos permite precisar qué grupo difiere de qué otro. Para responder a esta
pregunta es necesario comparar los grupos por pares. Esto puede hacerse con la prueba de Mann-Whitney
estudiada en el apartado anterior. Ahora bien, puesto que se están llevando a cabo varias comparaciones con
los mismos datos, es necesario modificar el nivel de significación (normalmente 0,05) para que no se
incremente la probabilidad de tomar decisiones incorrectas. Estudiaremos esto en el capítulo 6.
Ejemplo: Muchos estudios coinciden en señalar que el comportamiento de los sujetos en las tareas de
rendimiento está estrechamente relacionado con su nivel de ansiedad o activación. Al parecer, el rendimiento
tiende a mejorar conforme aumenta el nivel de activación, pero solamente hasta cierto umbral; a partir de ese
punto, el aumento en el nivel de activación comienza a afectar de forma negativa al rendimiento (este efecto
se conoce como ley Yerkes-Dodson). En este contexto, se ha diseñado un estudio con tres grupos, todos ellos
formados por 10 sujetos aleatoriamente seleccionados. A cada grupo se le ha inducido un nivel de ansiedad
distinto (bajo, medio y alto) mientras realizaban una tarea de solución de problemas con un rompecabezas. El
rendimiento de cada sujeto se ha evaluado en una escala de 0 a 20 puntos. ¿Es posible afirmar que el
rendimiento en la tarea no es el mismo bajo los tres estados de ansiedad inducidos? (a=0,05).
Para analizar con el SPSS qué grupos difieren de qué otros, puede utilizarse la prueba de Mann-Whitney
acompañada de la corrección de Bonferroni. Esta corrección impide que la tasa de error (probabilidad de
cometer errores de tipo 1) aumente por el hecho de estar haciendo varias comparaciones. La corrección
consiste en dividir el nivel de significación alfa (generalmente 0,05) entre el número de comparaciones que se
desea realizar y en utilizar ese nuevo valor como referente con el que comparar el nivel crítico (valor p)
asociado a cada comparación entre pares de grupos.
4.4. Medidas del tamaño del efecto
Al estudiar la relación entre dos variables categóricas (ver capítulo 10 del primer volumen) hemos tenido
ocasión de constatar la utilidad de acompañar el contraste con alguna medida de asociación para intentar
cuantificar la fuerza o intensidad de la asociación. En los contrastes sobre medias ocurre algo parecido. Las
pruebas T de Student, U de Mann-Whitney y H de Kruskal-Wallis permiten comparar grupos en una variable
cuantitativa y decidir si la diferencia observada es estadísticamente significativa; pero la significación
estadística no dice mucho acerca de lo fuerte o intensa que es la relación que delata una diferencia
significativa. Para valorar esto es necesario utilizar alguna medida del tamaño del efecto. En el capítulo 1 de
este mismo volumen, hemos utilizado ya la expresión tamaño del efecto para referirnos al grado en que el
efecto estudiado está presente en la población (es decir, para referirnos a la magnitud de una diferencia o a la
intensidad de una relación). También hemos señalado en ese mismo capítulo que la significación estadística
de un resultado empírico es un concepto que no necesariamente coincide con la relevancia (importancia
teórica o práctica) del mismo (ver Kirk, 1996). Para valorar, no la significación estadística de un resultado, sino
su relevancia, contamos con varias
a) El caso de dos grupos
En el contexto de los diseños de dos grupos aleatorios*5, quizá la más

popular de estas medidas sea el índice o de Cohen, también conocido como
diferencia tipificada. Consiste en tipificar la distancia entre dos medias
poblacionales dividiéndola entre la desviación típica poblacional, la cual se asume
que es la misma en ambas poblaciones. Si se asume que las dos poblaciones
comparadas son normales es, en realidad, una puntuación típica Z que expresa la distancia entre las dos medias
poblacionales en unidades de desviación típica en lugar de hacerlo en la métrica original de las variables.
Si existe grupo control, Glass (1976) sugiere estimar la varianza poblacional con la varianza del grupo control
(delta de Glass). Pero Hedges (1981) ha demostrado que utilizar la varianza del grupo control conduce a un
estimador sesgado y que ese sesgo se reduce, tanto si hay grupo control como si no, utilizando como estimador
de la varianza poblacional el promedio ponderado de las dos varianzas muestrales → g de Hedges. La g de
Hedges sigue siendo un estimador sesgado del coeficiente de Cohen, pero el sesgo se puede eliminar casi por
completo multiplicando g por un término corrector (con tamaños muestrales grandes, es irrelevante aplicar o
no la corrección).
La relevancia o importancia práctica de un determinado efecto depende del contexto en el que se produce
(características del estudio y de las variables, tamaño relativo de los grupos, etc.) No obstante, Cohen (1992a)
ha propuesto una especie de regla general que puede servir de ayuda para interpretar el tamaño del efecto en
muchos contextos aplicados: valores en torno a 0,20 indican un efecto pequeño; valores en torno a 0,50, un
efecto medio; valores en torno a 0,80 y mayores, un efecto grande.
Otra medida del tamaño del efecto muy utilizada en los diseños con dos muestras independientes es el
coeficiente de correlación de Pearson, Rxy (ver el cap. 12 del primer volumen). Fue inicialmente propuesto
para esta finalidad por Friedman (1968) y es muy recomendado por diversos autores. Cuando se aplica a una
variable dicotómica y a una cuantitativa recibe el nombre de coeficiente de correlación biserial-puntual. Rxy
puede calcularse de varias maneras y es posible su obtención directa a partir del estadístico T.
Elevando al cuadrado el coeficiente de correlación Rxy se obtiene la proporción de varianza que comparten
ambas variables (coef. Determinación). Cuanto mayor es esta proporción, mayor es el tamaño del efecto, es
decir, mayor es la diferencia entre las dos medias comparadas. No obstante, Cohen (1992a) ha sugerido que
valores en torno a 0,10, 0,30 y 0,50 se corresponden, en muchos contextos aplicados, con efectos de tamaños
pequeño, medio y grande (estos valores se refieren a Rxy, no a su cuadrado). Aunque el estadístico Rxy puede
tomar valores negativos (recordemos que sus posibles valores oscilan entre - 1 y +1), éstos no tienen sentido
cuando Rxy se utiliza como medida del tamaño del efecto. Por un lado, el tamaño del efecto refleja a la
intensidad de la relación, no si ésta es positiva o negativa; por otro, el signo de Rxy depende de cómo se
codifique el hecho de pertenecer a uno u otro grupo (y esta codificación es arbitraria).
Siguiendo el ejemplo utilizado en este mismo capítulo a propósito de la prueba T de Student, con un valor de
Rxy 0,54, obtendríamos un coef. Determinación de 0,29 → indica que las puntuaciones en el test Raven y el
hecho de pertenecer al grupo experimental o al control comparten un 29% de la varianza; por tanto, saber que
los sujetos pertenecen a uno u otro grupo permite mejorar nuestro conocimiento de las puntuaciones en el test
Raven un 29%. Por otro lado, con una d de Cohen de 1,21 (p.ej.) indicaría que las medias de los grupos
experimental y control están separadas 1,21 desviaciones típicas. En la curva normal tipificada P(Z < 1,21) =
0,887; por tanto, el 88,7% de las puntuaciones del grupo control está por debajo de la puntuación media del
grupo experimental. Siguiendo la regla propuesta por Cohen para interpretar estos valores, ambos coeficientes
coinciden en señalar que se trata de un efecto de tamaño grande. En consecuencia, podría concluirse que, al
comparar las medias de los grupos experimental y control en las puntuaciones del test Raven, se ha encontrado
una diferencia relevante.
Las preferencias por la d de Cohen o el Rxy de Pearson como medidas del tamaño del efecto están divididas.
Quizá la utilización de la d de Cohen está más extendida entre quienes trabajan con diseños experimentales;
tiene la ventaja de ser más fácil de interpretar que Rxy al tratarse de una distancia tipificada. La interpretación
de Rxy es menos intuitiva (proporción de varianza común), pero tiene una propiedad muy deseable en un
índice estadístico: tiene un mínimo y un máximo (acotada → permite saber la intensidad).
McGrath y Meyer (2006) han argumentado que, cuando se trabaja con grupos de distinto tamaño, el valor de
Rxy está artificialmente inflado. Pero Ruscio (2008) ha demostrado que esto también ocurre con la d Cohen
cuando las varianzas poblacionales no son iguales; y también ha destacado la conveniencia de utilizar medidas
del tamaño del efecto que no se vean afectadas por el hecho de trabajar con tamaños muestrales desiguales.
Una de estas medidas, además de no estar afectada por el tamaño de los grupos, es fácilmente interpretable
y posee interesantes propiedades que no tienen ni la d ni Rxy. Se trata de la medida de lenguaje común
(McGraw y Wong, 1992), la cual se define como la probabilidad de que una puntuación (Y) aleatoriamente
seleccionada de la población 1 sea mayor que una puntuación aleatoriamente seleccionada de la población 2.
El nombre de esta medida obedece al hecho de que, según sus promotores, ofrece información sobre el
tamaño de un efecto en un lenguaje fácil de entender sin necesidad de ser un experto en estos temas. En este
sentido, se ha definido un estadístico “A”, que permite estimar esa probabilidad sin necesidad de establecer
ningún supuesto sobre las poblaciones muestreadas y que puede utilizarse con variables ordinales.
Por supuesto, estos tres estadísticos no son los únicos disponibles para obtener una cuantificación del tamaño
del efecto (aunque sí, probablemente, los más utilizados). Existen otros muchos estadísticos como la
proporción de casos incorrectamente clasificados (Levy, 1967), el binomial effect size display (Rosenthal y
Rubio, 1982), la r-equivalente (Rosenthal y Rubio, 2003), etc. Así como también pueden encontrarse
estadísticos no paramétricos del tamaño del efecto (ver, por ejemplo, Kraemer y Andrews, 1982; o Hedges y
Olkin, 1984).
*5 Diseños en los que interviene una variable dicotómica (que define dos poblaciones distintas de cada una de
las cuales se tiene una muestra aleatoria) y una variable cuantitativa en la cual se desea comparar las dos
poblaciones. Es decir, el tipo de diseños que hemos analizado con la prueba T para muestras independientes y
con la prueba de Mann-Whitney.
b) El caso de más de dos grupos
En el caso de que la variable categórica tenga más de dos niveles, el tamaño del efecto puede
cuantificarse mediante un estadístico llamado eta-cuadrado. Aunque este estadístico es uno de los más
utilizados en el contexto del análisis de varianza (ver capítulos 6-9), también es posible obtenerlo a partir del
estadístico H de Kruskal-Wallis.
El valor de eta2 expresa el grado de asociación (no solamente lineal, como Rxy, sino de cualquier tipo) entre la
variable categórica y la variable cuantitativa. Cuando la variable categórica tiene dos categoría podemos
afirmar que: eta cuadrado= coef det. El valor de eta cuadrado puede interpretarse, al igual que el del coef de
determinación, como proporción de varianza común o compartida, es decir, como el grado en que aumenta
nuestro conocimiento de las puntuaciones de la variable cuantitativa por el hecho de saber de qué grupo
provienen.
Para interpretar el tamaño de eta2, Cohen (1988) ha propuesto una especie de regla general que puede resultar
útil en muchos contextos aplicados: valores en torno a 0,01, 0,06 y 0,14 indican, por lo general, asociaciones
de intensidad baja, media y alta, respectivamente.
En el ejemplo utilizado al estudiar la prueba de Kruskal-Wallis tenemos 30 sujetos repartidos en tres grupos con
diferente nivel de ansiedad o activación (bajo, medio, alto). Al comparar los grupos hemos obtenido para el
estadístico H un valor de 11,94 y, por tanto, una eta2 de 0,41 → Este resultado (que revela un efecto de tamaño
grande) indica que el nivel de ansiedad y el rendimiento comparten el 41% de su varianza: saber a qué grupo
de ansiedad pertenecen los sujetos permite mejorar nuestro conocimiento del rendimiento en un 41 %.
4.5. Cálculo de la potencia y del tamaño muestral
El cálculo de la potencia, tal como será abordado aquí, consiste en obtener una transformación de la medida
del tamaño del efecto d de cohen a partir de la cual es posible conocer la potencia de un contraste, a partir
de la consulta de una tabla (…). Esa transformación recibe el nombre de “phi”.
Potencia observada o a posteriori: nos permite saber con qué potencia se ha trabajado asumiendo que el
efecto en la población es el efecto observado en la muestra.
Potencia a priori: la más interesante, ya que permite diseñar un estudio conociendo de antemano la potencia
con la que se va a trabajar. Y esto pasa por calcular el tamaño muestral necesario para alcanzar una
determinada potencia (en función del diseño, el alfa que se desea asumir, etc.)
4.6. Contrastes de equivalencia y no-inferioridad
Por lo general, cuando se decide comparar dos grupos (experimental-control; hombres-mujeres; etc.) se
hace porque se sospecha que difieren y, por tanto, con la intención de demostrar que difieren. Para demostrar
tal cosa, la lógica del contraste de hipótesis exige que el punto de partida sea una hipótesis de "no diferencia"
(hipótesis nula) para poder especificar la distribución muestral que servirá para tomar decisiones en términos
de probabilidad. Esto es lo que hemos venido haciendo en todos los contrastes estudiados hasta ahora.
En ocasiones, sin embargo, puede interesar comparar dos grupos, no para demostrar que difieren, sino para
demostrar que no difieren. En el ámbito clínico, por ejemplo, podría interesar comparar un nuevo tratamiento
con otro estándar con la intención de demostrar, no que el nuevo es mejor que el estándar, sino que ambos
son equivalentes; si el nuevo tratamiento tuviera asociados menos efectos adversos que el estándar,
demostrar que la eficacia de ambos tratamientos es la misma servirla para justificar la aplicación del nuevo
tratamiento sin necesidad de demostrar que es mejor que el estándar. En otros ámbitos puede interesar
demostrar, por ejemplo, que el rendimiento de dos grupos es el mismo. Y en otros, que se está trabajando con
grupos equivalentes en alguna variable cuando no es posible formar grupos equivalentes mediante asignación
aleatoria.
Entonces, la comparación entre dos grupos en una variable cuantitativa puede llevarse a cabo para conseguir
alguno de estos tres objetivos:
1. La superioridad de uno de los grupos: demostrar que un grupo difiere del otro.
2. La equivalencia de ambos grupos: demostrar que los grupos no difieren en más de una cantidad
trivial prefijada.
3. La no-inferioridad de un grupo respecto del otro: demostrar que un grupo no es peor que el otro
en más de una cantidad trivial prefijada (por ejemplo, que un tratamiento es, como mínimo, tan bueno
como otro; y si es peor, lo es en una cantidad trivial). Puede ser igual o puede ser mejor.
Los contrastes de hipótesis tal como los hemos estudiado hasta ahora sirven para comparar dos grupos y
decidir si difieren; por tanto, sirven para analizar los datos de los estudios cuyo objetivo es demostrar
superioridad. Pero, dado que el punto de partida de todo contraste es una hipótesis de no diferencias y que el
no rechazo de esa hipótesis no es concluyente, los contrastes de hipótesis tal como los hemos estudiado hasta
ahora no permiten dar respuesta a las cuestiones que interesa resolver en los estudios cuyo objetivo es
demostrar equivalencia o no-inferioridad. Recordemos que el nivel crítico (valor p) es un indicador del grado
de evidencia existente en contra de la hipótesis nula, no a favor de ella: si la evidencia en contra de la hipótesis
nula es insuficiente para rechazarla (p > 0,05), eso no significa que haya suficiente evidencia para aceptarla.
Para esto es necesario utilizar una estrategia distinta.
a) Métodos para demostrar equivalencia
El objetivo de un estudio de equivalencia es demostrar que dos grupos no difieren. Pero la igualdad
absoluta entre dos grupos no es posible demostrarla (haría falta una muestra del tamaño de la población).
Para poder afirmar que dos grupos son equivalentes es necesario especificar la cantidad que se considera lo
bastante pequeña (la diferencia mínima que se considera que representa un cambio significativo – o cantidad
trivial – en la métrica de la variable estudiada) como para que, si los grupos no difieren en más de esa cantidad,
puedan declararse equivalentes. A esta pequeña cantidad se le llama margen de equivalencia y se suele
representar mediante 𝛥 (delta mayúscula). Este margen de equivalencia debe fijarse atendiendo a criterios
que no son propiamente estadísticos, sino que es el investigador quien tiene la información necesaria para
decidir cuál es ese margen. Es, por tanto, un margen de carácter subjetivo. Los resultados de estudios previos,
si existieran, y la información disponible acerca de la diferencia mínimamente importante, si existiera, podrían
ayudar a reducir el componente de subjetividad que conlleva establecer este margen de equivalencia.
❖ Doble contraste unilateral de Schuirmann
Dos grupos se consideran equivalentes en una determinada variable si la diferencia entre sus
medias se encuentra dentro de los límites de confianza – 𝛥 y + 𝛥. Esto significa que cualquier diferencia
comprendida entre esos límites se considerará lo bastante pequeña como para que, a efectos
prácticos, los grupos sean indistinguibles en la variable analizada, eso es: que sean equivalentes.
Schuirmann (1987; Dunnett y Gent, 1996) ha demostrado que es posible llegar a la conclusión de que
dos grupos son equivalentes mediante el contraste simultáneo de dos hipótesis:
i. Hip. Nula 1: La diferencia entre las medias es mayor o igual que 𝛥 (Hip. Alternativa: menor que)
ii. Hip Nula 2: La diferencia entre las medias es menor o igual que -𝛥 (Hip. Alternativa: mayor que)
Estas dos hipótesis están planteadas de tal manera que el rechazo simultáneo de ambas hipótesis
permite afirmar que la diferencia entre las dos medias poblacionales se encuentra dentro de los límites
de equivalencia -afirmar que la diferencia entre las dos medias poblacionales se encuentra dentro de
los límites de equivalencia – 𝛥 y + 𝛥.
Ambos contrastes son unilaterales y en ambos se utiliza el mismo nivel de significación α. No es

necesario utilizar un nivel de significación α/2 en cada contraste para que la tasa de error total
(probabilidad de cometer un error Tipo l) no sea mayor que α. Al ser ambas hipótesis nulas
mutuamente exclusivas, solamente una de ellas puede ser verdadera. Por tanto, únicamente cabe la
posibilidad de cometer un error Tipo l.
Las hipótesis formuladas se contrastan con la prueba T de Student para muestras independientes.
❖ Intervalo de confianza de Westlake:
Es un contraste de equivalencia idéntico al doble contraste unilateral de Schuirrnann,

mediante un sencillo método que se basa en establecer un intervalo de confianza para la diferencia
entre las medias poblacionales, con NC: 1-2 α.
La Figura 4.2 recoge las tres posibilidades que pueden darse al construir un intervalo de confianza de
estas características. La situación representada en a es la única que permite concluir que las medias
son equivalentes; el hecho de que todo el intervalo de confianza esté incluido entre los límites de
equivalencia está indicando que la
diferencia estimada entre ambas medias es
trivial (es decir, menor que el margen de
equivalencia). En la situación representada
en b todo el intervalo de confianza está
fuera de los límites de equivalencia; por
tanto, no es posible concluir que la
diferencia entre las medias sea trivial; más
bien parece que la diferencia es no trivial
(aunque esta conclusión debe evitarse
porque la probabilidad de cometer un error
tipo 1 no es α, sino 2α). En la situación
representada en c no es posible llegar a
ninguna conclusión; el intervalo de
confianza incluye tanto diferencias triviales
como no triviales.
¡Ojo! El intervalo de Westlake es un contraste de equivalencia, no es un intervalo de equivalencia (estimación

de los límites entre los que debe estar la diferencia entre medias, dado que estos límites están definidos por
el intervalo ± 𝛥). Tampoco es una estimación de los límites entre los que se encuentra la verdadera diferencia
entre las medias poblacionales, pues se calcula utilizando un nivel de confianza menor que el convencional. Si
los intervalos representados en la Figura 4.2 se hubieran calculado utilizando un nivel de confianza de 1 - α,
servirían para contrastar la hipótesis de igualdad de medias: el intervalo representado en a llevaría a no
rechazarla, pues incluye el valor cero; los representados en b y en c llevarían a rechazarla, pues no incluyen el
valor cero. El intervalo de confianza de Westlake no permite hacer esto: el representado en a llevaría a no
rechazar la hipótesis de igualdad de medias, pero los representados en b y en c no serían concluyentes (al estar
calculados con un nivel de confianza menor que el convencional, podrían no incluir el valor cero solo porque
son más estrechos).
b) Métodos para demostrar no-inferioridad
El objetivo de un estudio de no-inferioridad es demostrar que un tratamiento no es peor que otro

(puede ser igual, es decir, equivalente, o puede ser mejor). El intervalo de Westlake estudiado en el apartado
anterior para demostrar equivalencia, también sirve para demostrar no-inferioridad.
Llamemos experimental al grupo 1 y estándar al grupo 2. Y asumamos que el interés del análisis está en
demostrar que el grupo experimental no es inferior al estándar. Cuando se considera que un grupo es mejor
que otro si su media es mayor, la no-inferioridad del grupo experimental queda demostrada cuando el
intervalo de confianza definido de Westlake está, todo él, por encima del límite de equivalencia - 𝛥. Cuando se
considera que un grupo es mejor que otro si su media es menor, la no-inferioridad del grupo experimental
queda demostrada cuando el intervalo de confianza está, todo él, por debajo del límite de equivalencia + 𝛥.
Ejemplo: Un psicólogo considera que los hombres y las mujeres rinden en matemáticas de forma distinta por
razones que no tienen que ver con la capacidad de razonamiento abstracto. Para validar su sospecha, antes de
buscar las razones por las que el rendimiento en matemáticas es distinto, decide buscar algún tipo de evidencia
empírica que le permita asumir que, efectivamente, los hombres y las mujeres no difieren en razonamiento
abstracto. Su idea es que, si los hombres difieren de las mujeres en matemáticas, pero no en razonamiento
abstracto, éste no puede ser el responsable de las diferencias en matemáticas.
Selecciona aleatoria e independientemente una muestra de 50 hombres y otra de 50 mujeres, y les pasa una
prueba de razonamiento abstracto. Las puntuaciones de la escala de razonamiento abstracto oscilan entre 0 y
40. Nuestro investigador considera que una diferencia menor de 4 puntos es lo bastante pequeña como para
decidir que los grupos son equivalentes (es decir 𝛥=4). Obviamente, no se trata de valorar si la diferencia
observada entre las medias muestrales se encuentra entre los límites de equivalencia (para esto no es necesario
hacer ningún contraste). Se trata de valorar si, a partir de la diferencia muestral se puede afirmar, con un nivel
de confianza 1 - α., que la diferencia entre las medias poblacionales se encuentra dentro de los límites de
equivalencia (entre -4 y +4). Se asumen varianzas poblacionales son iguales.
c) Limitaciones de los contrastes de equivalencia y no-inferioridad:
Los estudios de equivalencia y no-inferioridad poseen importantes limitaciones que un analista de datos
no debe pasar por alto.
❖ En primer lugar, establecer el margen de equivalencia de forma solvente no es una tarea nada
sencilla. Y, sin embargo, acertar con el margen correcto es un aspecto crucial en los estudios de
equivalencia y no inferioridad. El criterio habitualmente recomendado para fijar el margen de
equivalencia es la diferencia mínimamente importante o diferencia clínicamente relevante (Wiens,
2002). Y esa diferencia suele estimarse a partir del efecto encontrado en estudios previos. El
problema es que este efecto, además de no ser del todo objetivo (pues depende de las condiciones
de cada estudio), no siempre existe. Y tampoco termina de estar claro que sea una estrategia
apropiada para establecer el margen de equivalencia. Cuando no existan estudios que aporten
evidencia para poder establecer el margen de equivalencia, varios expertos podrían ponerse de
acuerdo en qué cantidad de cambio en la métrica de la variable estudiada representa un cambio
significativo en la respuesta de los sujetos, pero esta estrategia no elimina el componente
subjetivo del margen de equivalencia. Por ejemplo, ¿cuántos puntos de cociente intelectual o de
una escala de depresión indican que la inteligencia o la depresión de un sujeto es mayor que la de
otro? Wyrwich y colaboradores, entre otros, han señalado una posible conexión entre la diferencia
mínimamente importante y el error típico de medida de la escala (una propiedad de las escalas
que se obtiene analizando las respuestas de los sujetos). Pero, aunque esta conexión fuera
perfecta, que no lo es, todavía faltaría por resolver el problema de si la “diferencia mínimamente
importante" es un valor del todo apropiado como criterio para establecer el margen de
equivalencia.
❖ En segundo lugar, es importante no olvidar que la equivalencia o no-inferioridad nunca termina
de estar completamente demostrada. En un estudio de superioridad, es decir, en un contraste
convencional, el rechazo de la hipótesis de igualdad de medias permite afirmar que los grupos
difieren; incluso si las características del estudio lo hacen poco sensible para detectar un efecto
real (baja potencia), el rechazo de la hipótesis de igualdad sigue permitiendo afirmar que los
grupos difieren (la baja potencia, en todo caso, dificultaría el rechazo de Ho). En cambio, en un
estudio de equivalencia o no-inferioridad ocurre justo lo contrario: las características de las
hipótesis que se contrastan no permiten distinguir entre un estudio bien diseñado y un estudio
cuyas características lo hacen poco sensible (poco potente).
Estas y otras limitaciones hacen que los resultados de un estudio de equivalencia o no-inferioridad sean menos
creíbles que los de un estudio de superioridad. Sin embargo, no siempre es posible o conveniente llevar a cabo
estudios de superioridad. Unas veces hay razones éticas que lo desaconsejan (por ejemplo, cuando dejar a un
grupo de pacientes sin tratamiento tiene consecuencias indeseables). Otras veces, la diferencia en eficacia
entre dos tratamientos es tan pequeña que para poder demostrar la superioridad de uno de ellos habría que
utilizar un tamaño muestral excesivamente grande (siendo, no obstante, importante demostrar la equivalencia
de los tratamientos porque el nuevo aporta beneficios adicionales a la eficacia). También, cuando no es posible
la asignación aleatoria a las condiciones del estudio, contar con una estrategia que pueda aportar alguna
evidencia sobre la equivalencia de los grupos en una variable de interés puede resultar muy útil. Por tanto,
parece que hay situaciones donde los estudios de equivalencia y no-inferioridad son útiles y, además, no tienen
alternativa. Pero esto no debe hacernos olvidar sus limitaciones.
4.7. Apéndice 4
En este apéndice se describen varios procedimientos de los denominados no paramétricos. Todos ellos
han sido diseñados, al igual que la prueba T de Student para muestras independientes, para analizar una
variable dicotómica y una cuantitativa. Y representan una alternativa de análisis a la prueba T cuando las
características de los datos no se ajustan a las exigencias de la prueba T.
a) La prueba de Kolmogorov-Smirnov para dos muestras independientes
Esta prueba sirve para contrastar la hipótesis de que dos muestras independientes proceden de la
misma población o de dos poblaciones idénticas. Para ello, compara las funciones de distribución (funciones
de probabilidad acumuladas) empíricas de ambas muestras. La prueba de Kolmogorov-Smirnov es sensible a
cualquier tipo de diferencia entre las dos distribuciones: tendencia central, variabilidad y forma de la
distribución, mientras que la U de Mann-Whitney únicamente compara dos promedios poblacionales,
asumiendo que ambas distribuciones tienen la misma forma.
b) La prueba de las rachas de Wald-Wolfowitz
La prueba de las rachas para dos muestras independientes (Wald y Wolfowitz, 1940) es similar a la prueba de
las rachas para una muestra ya estudiada en el capítulo 2. Aplicada a dos muestras independientes, esta prueba
permite contrastar la hipótesis de que ambas muestras proceden de la misma población o de dos poblaciones
idénticas. Al igual que la prueba de Kolmogorov-Smirnov para dos muestras (ver apartado anterior), la de las
rachas es sensible no solo a diferencias entre los promedios, sino a diferencias en variabilidad, simetría, etc.
c) La prueba de reacciones extremas de Moses
Uno de los distintos procedimientos existentes para comparar la dispersión de dos distribuciones. Útil en
aquellas situaciones en que no se pueda utilizar Levene (que se basa en la comparación de las varianzas), que
al tratarse de un procedimiento paramétrico pierde precisión cuando las distribuciones comparadas no son
normales. Como alternativa, Moses (1952) ha diseñado un procedimiento no paramétrico (basado en la
amplitud) que puede utilizarse con variables ordinales y que, por tanto, no exige que las distribuciones
comparadas sean normales. Dado que la amplitud es una medida de dispersión muy inestable, Moses sugiere
utilizar la amplitud recortada (AR)
TEMA 5. INFERENCIA CON DOS VARIABLES CUANTITATIVAS
Se tienen 2 variables cuantitativas si se toman dos medidas a los mismos sujetos (o a pares de sujetos),
bien porque se miden dos variables distintas (altura y peso; o calificaciones en lengua y en matemáticas), bien
porque se mide la misma variable en dos momentos distintos (el nivel de ansiedad antes y después de un
examen; o el peso antes y después de participar en un programa de adelgazamiento). A tener en cuenta:
cuándo trabajamos con grupos independientes, estos se han generado a partir de los distintos niveles de una
variable categórica.
Cualquiera que sea la forma de obtener dos variables cuantitativas, el hecho relevante es que las dos
puntuaciones de cada sujeto (o par de sujetos) no son independientes, pues cabe esperar que se parezcan
entre sí más que las puntuaciones de dos sujetos (o pares de sujetos) distintos. Ésta es la característica
distintiva de los diseños con muestras relacionadas (también llamados diseños con los mismos sujetos o
diseños de medidas repetidas).
Recordemos también que, al trabajar con dos variables cuantitativas, el interés del análisis puede orientarse
hacia dos objetivos bien diferentes: comparar esas dos variables o bien relacionarlas. La comparación se basa
en los centros (promedios) de las variables; la relación se basa en la forma de variar las puntuaciones. Para
comparar dos variables cuantitativas ya hemos estudiado la prueba T de Student para muestras relacionadas;
y, para relacionarlas, el coeficiente de correlación de Pearson.
En este capítulo vamos a seguir avanzando en el análisis de dos variables cuantitativas estudiando algunos
procedimientos que pueden aplicarse cuando no se dan las condiciones idóneas para aplicar la prueba T o el
coeficiente de correlación de Pearson (normalidad de las distribuciones y nivel de medida de intervalos o
razón). También se repasará brevemente el procedimiento de la prueba T para muestras relacionadas.
5.1. La prueba T de Student para muestras relacionadas
Para comparar las medias de dos variables cuantitativas. Ejemplo: En un estudio diseñado para probar el
efecto de un tratamiento antidepresivo mixto (fluoxetina + psicoterapia), se ha utilizado una muestra aleatoria
de 14 pacientes con depresión. A todos ellos se les ha aplicado la escala de depresión de Hamilton en dos
momentos: justo antes de iniciar el tratamiento (línea base o pre-test) y tras 12 semanas de tratamiento (post-
test). El objetivo del estudio es averiguar si las puntuaciones en la escala disminuyen tras el tratamiento (α=
0,05). Contraste unilateral derecho, supuesto: la muestra – de las 14 diferencias pre-post – se ha seleccionado
aleatoriamente de una población normal. Las hipótesis se construirán comparando medias del pre y el post.
Conviene recordar que un diseño de muestras relacionadas sirve para reducir la variabilidad debida a los
sujetos. Pero esto solamente es así si la relación entre las variables es positiva. Aunque esto es lo que cabe
esperar por tratarse de medidas en los mismos sujetos, puede ocurrir que la relación sea negativa (por
ejemplo, al medir la dominancia en los dos miembros de una misma pareja). En estos casos es preferible utilizar
diseños de muestras independientes (que utilizan el doble de grados de libertad que los diseños de muestras
relacionadas).
5.2. La prueba de Wilcoxon para dos muestras
En las ciencias sociales y de la salud no es infrecuente verse en la necesidad de trabajar con poblaciones
que no son normales. Con tamaños muestrales grandes, la ausencia de normalidad no constituye un problema
importante. Pero, si además de tener que trabajar con poblaciones que no son normales, hay que hacerlo con
muestras pequeñas, la prueba T pierde precisión → una excelente alternativa es Wilcoxon (que permite
comparar los centros de dos variables cuantitativas sin necesidad de asumir normalidad). La Ho que se
planteará será: mediana pre=mediana post (diferencia pre-post=0).
La situación es, por tanto, idéntica a la descrita en el capítulo 2 a propósito de la prueba de Wilcoxon para una
muestra: trabajar con dos muestras relacionadas es lo mismo que trabajar con una muestra, pues las dos
muestras se convierten en una única muestra al trabajar con las diferencias: al restar las dos puntuaciones de
cada par.
Exige nivel de medida de intervalos o razón, aprovechando la información ordinal de los datos, y asume que la
población de diferencias es simétrica.
Ejemplo: nos serviría el mismo ejemplo que en el punto anterior, pero en el contraste se compararían las
medianas pre y post.
5.3. Prueba de los signos para dos muestras
La prueba de los signos para dos muestras es muy parecida a la prueba de los signos para una muestra
estudiada en el capítulo 2 (en realidad se trata de la misma prueba) y ambas guardan una estrecha relación
con la prueba binomial (contraste sobre una proporción; capítulo 9 del primer volumen). Al igual que la prueba
de Wilcoxon, la de los signos permite contrastar la hipótesis de igualdad entre dos medianas poblacionales.
Puede utilizarse cuando no se dan las condiciones apropiadas para aplicar la prueba de Wilcoxon (población
simétrica y nivel de medida de intervalos o razón). → La prueba de signos únicamente exige nivel de medida
al menos ordinal (y solamente aprovecha de los datos sus propiedades nominales) y únicamente asume que
se está trabajando con una muestra aleatoria de puntuaciones ordinales.
El procedimiento es idéntico al descrito en el capítulo 2 a propósito de la prueba de los signos para una
muestra. La única diferencia entre ambas pruebas es que en el caso de una muestra se está comparando la
mediana de la población con un valor concreto, mientras que en el caso de dos muestras se están comparando
dos medianas.
5.4. El coeficiente de correlación de Pearson
Se obtiene tipificando la covarianza (es equivalente a calcular la covarianza a partir de las puntuaciones
típicas) y se puede interpretar como el grado en que la covarianza alcanza su máximo. Se asume que las 2
variables analizadas se distribuyen normalmente (o tamaño muestral muy grande) y que el nivel de medida es
de intervalo o de razón.
Ejemplo: utilizando el mismo ejemplo que en el punto 5.1., el valor del coef de correlación de Pearson obtenido
en la muestra indicaría el signo y el grado de la relación entre las puntuaciones pre y post EN LA MUESTRA:
p.ej, un Rxy = 0,38 indicaría que la relación entre las puntuaciones del pre-test y las del post-test es positiva y
de intensidad moderada EN LA MUESTRA. Pero, puesto que se trata de un valor muestral (valor obtenido en
la muestra), su alejamiento de cero podría deberse simplemente a las fluctuaciones aleatorias propias del azar
muestral. El hecho de que un coeficiente de correlación sea distinto de cero no constituye, en sí mismo,
evidencia suficiente para afirmar que existe relación lineal en la población. Por tanto, tras cuantificar una
relación, la pregunta que hay que hacerse es si el valor muestral obtenido refleja o no un grado de relación
lineal mayor del que cabría esperar por puro azar entre dos variables realmente independientes en la
población, o lo que es lo mismo: ¿la relación encontrada en la muestra es suficiente como para extrapolarla a
la población y decir que SÍ HAY RELACIÓN EN LA POBLACIÓN ENTRE LAS PUNTUACIONES pre y post?
Para responder a esta pregunta lo que hacemos es contrastar la hipótesis nula de ausencia de relación lineal
(H0: Parámetro Coef. Correl de Pearson=0) mediante el estadístico T (que se calcula a partir del estadístico Rxy
y el cual se distribuye según el modelo de probabilidad t de Student con n - 2 grados de libertad).
Siguiendo con el ejemplo, imaginemos que el valor del estadístico T cae dentro de la zona de aceptación. No
es razonable, por tanto, rechazar la hipótesis de relación lineal nula, es decir, no es posible afirmar que las
puntuaciones del pre-test y las del post-test estén linealmente relacionadas en la población.
Debe repararse en el hecho de que, aunque hubiéramos rechazado la hipótesis de igualdad de medias
(apartado 5.1.), en este caso no hemos podido rechazar la de ausencia de relación lineal: esto significaría que,
aunque las puntuaciones cambian (diferencia significativa entre la media pre-test y post-test), lo hacen
independientemente del nivel o gravedad inicial (no podemos afirmar que mayores puntuaciones en pre se
asocien con mayores puntuaciones en post… ni a la inversa… ni que mayores en pre se asocien con menores
en post… etc.).
5.5. El coeficiente de correlación de Spearman
Si el nivel de medida de las variables es ordinal, no podrá asumirse que se distribuyen normalmente.
Además, con variables ordinales no tiene mucho sentido hablar de relación lineal porque estas variables no
tienen una métrica definida, aunque sus valores están cuantitativamente ordenados y sí es posible hablar de
relación monótona. En una relación lineal, el aumento en las puntuaciones de una variable va acompañado de
un aumento (o disminución) constante o uniforme (es decir, lineal) en las puntuaciones de la otra variable. En
una relación monótona, el aumento en las puntuaciones de una variable también va acompañado de un
aumento (o disminución) en las puntuaciones de la otra variable, pero ese aumento (o disminución) no es
necesariamente constante o uniforme.
Tanto si el nivel de medida de las variables es ordinal como si, siendo de intervalos o de razón, no puede
asumirse que las distribuciones muestreadas son normales, existen procedimientos que permiten valorar el
grado de relación monótona. En el capítulo 3 hemos presentado ya algunos de estos procedimientos en el
apartado Medidas de concordancia-discordancia. En este apartado vamos a presentar uno de los más
utilizados para estudiar la relación entre variables ordinales: el coeficiente de correlación de Spearman (1904).
Este coeficiente no es más que el coeficiente de correlación Rxy de Pearson aplicado después de transformar
las puntuaciones originales X e Y en rangos.
La Ho en el coeficiente de correlación de Spearman reflejará la NO relación entre 2 VV; supuestos: muestra

aleatoria de n pares de puntuaciones, independientes entre sí, obtenidos al medir dos variables al menos
ordinales.
Ejemplo: En una muestra aleatoria de 10 estudiantes de enseñanza secundaria se han medido dos variables;
X: «promedio de horas de estudio semanales>> e Y: «rendimiento medio>> (cuantificado como la media de las
calificaciones obtenidas en 8 asignaturas). Queremos averiguar si, en la población de estudiantes de enseñanza
secundaria, las puntuaciones altas en horas de estudio tienden a ir acompañadas de puntuaciones altas en
rendimiento medio
5.6. Medidas del tamaño del efecto
Sabemos que con dos variables cuantitativas es posible orientar el análisis hacia dos objetivos bien
diferentes: compararlas o relacionarlas. Al relacionarlas con un coeficiente de correlación ya estamos
obteniendo una cuantificación del tamaño del efecto, pues un coeficiente elevado al cuadrado refleja la
proporción de varianza que comparten ambas variables (véase el coeficiente de determinación).
No obstante, para compararlas se podrá valorar el grado en que difieren los promedios de ambas variables
puede utilizarse una medida estandarizada de la diferencia entre las medias: de nuevo utilizaremos la d de
Cohen. Y de nuevo se pueden sacar las mismas conclusiones respecto potencia y tamaño muestral que las
expresadas en el tema 4.
5.7. Apéndice 5: Correlaciones parciales
Los coeficientes de correlación estudiados permiten cuantificar la relación entre dos variables. Un
coeficiente de correlación parcial expresa el grado de relación lineal existente entre dos variables cuando se
elimina de esa relación el efecto debido a otras variables. Se trata, por tanto, de una técnica de control
estadístico que permite cuantificar la relación neta entre dos variables al eliminar de ambas el efecto de
terceras variables. Por ejemplo, se sabe que la relación entre las variables inteligencia y rendimiento escolar es
alta y positiva. Sin embargo, cuando se controla el efecto de terceras variables corno el número de horas de
estudio o el nivel educativo de los padres, la correlación entre inteligencia y rendimiento desciende
sensiblemente, lo cual está indicando que la relación entre inteligencia y rendimiento está condicionada o
modulada por el número de horas de estudio y el nivel educativo de los padres.
La ecuación para obtener el coeficiente de correlación parcial depende del número de variables cuyo efecto
se desea controlar. Hablarnos de correlación de primer orden para indicar que se está controlando el efecto
de una sola variable, de correlación de segundo orden, para indicar que se está controlando el efecto de dos
variables, etc. La hipótesis nula reflejará que el valor poblacional de un coeficiente de correlación parcial es
cero y se contrastará mediante el estadístico T (que en su cálculo utiliza el coeficiente de correlación parcial y
el nº de variables controladas, entre otros valores).
TEMA 6. ANÁLISIS DE VARIANZA (I). UN FACTOR COMPLETAMENTE ALEATORIZADO
El análisis de varianza o ANOVA (acrónimo de ANalisys Of VAriance) no es una única técnica de análisis,
sino toda una familia de técnicas que comparten el objetivo de ayudar a interpretar los datos de un estudio
empírico mediante la formulación de modelos estadísticos. Estos modelos permiten valorar el
comportamiento de una variable dependiente o respuesta cuantitativa (variable medida con una escala de
intervalos o de razón) a partir de una o más variables independientes o factores categóricos (variables medidas
con una escala nominal u ordinal). También permiten controlar el efecto de variables extrañas (variables ajenas
al estudio) incluyéndolas como covariables. Aunque estos modelos han surgido en el contexto de los diseños
experimentales (Fisher, 1 935), son aplicables a cualquier tipo de investigación siempre que se den las
circunstancias apropiadas. Se basan en una estructura matemática relativamente simple, conocida como
modelo lineal general, que posee la suficiente versatilidad como para adaptarse a contextos muy diversos.
Este capítulo se centra en el modelo de un factor completamente aleatorizado, pero también incluye una
clasificación de los diferentes modelos de ANOVA y de la lógica en la que se basan todos ellos. Más adelante
estudiaremos el modelo de dos factores (capítulo 7) y los modelos de medidas repetidas (capítulos 8 y 9).
6.1. Modelos de análisis de varianza
Los modelos de análisis de varianza no deben confundirse con los diseños de investigación. Aunque ambos
están estrechamente relacionados, un diseño de investigación es un plan de actuación que, partiendo de una
o varias hipótesis, detalla qué variables se van a estudiar y cómo se van a medir, cuántos sujetos se van a elegir
y de qué población, cómo se van a asignar los sujetos a las condiciones del estudio, etc., mientras que un
modelo de análisis de varianza es una herramienta estadística que permite tomar decisiones analizando los
datos recogidos en el marco de un diseño concreto. No obstante, aunque diseño y modelo no son la misma
cosa, puesto que las características del diseño determinan las del correspondiente modelo, no es raro
encontrar que estos dos términos se usan de forma intercambiable (ver, por ejemplo, Kirk, 1995). Aunque
existen varios y muy distintos modelos de ANOVA, puede obtenerse una clasificación razonablemente simple
de los mismos atendiendo únicamente a tres características del diseño: (1) el número de factores, (2) el tipo
de asignación de las unidades de análisis a las condiciones del estudio y (3) la forma de establecer los niveles
de los factores.
a) Número de factores:
En los modelos de ANOVA, el término factor es sinónimo de variable independiente. Y se refiere a una
variable categórica que define grupos. Al modelo que únicamente incluye una variable independiente se le
llama ANOVA de un factor (one-way ANOVA); al que incluye dos variables independientes se le llama ANOVA
de dos factores (two-way ANOVA); etc. A los modelos de más de un factor se les llama modelos factoriales. En
un estudio diseñado para valorar el efecto del nivel de ansiedad (bajo, medio, alto) sobre el rendimiento en
una tarea tenemos una variable independiente o factor (nivel de ansiedad) y una variable dependiente
cuantitativa (rendimiento); los datos de este estudio se analizan con un ANOVA de un factor. En un estudio
diseñado para valorar el efecto del nivel de ansiedad (bajo, medio, alto) y la dificultad de la tarea (fácil, difícil)
sobre el rendimiento tenemos dos variables independientes o factores (nivel de ansiedad y dificultad de la
tarea) y una variable dependiente cuantitativa (rendimiento); los datos de este estudio se analizan con un
ANOVA de dos factores.
b) Tipo de asignación de las unidades de análisis a las condiciones del estudio
Los diseños de investigación se diferencian, entre otras cosas, por la forma de asignar las unidades de
análisis a las condiciones del estudio. Unidades de análisis: sujetos (pacientes, estudiantes, etc.) pero también
pueden ser animales, objetos, empresas, etc.; condiciones del estudio son las condiciones definidas por los
niveles del factor o por la combinación de los niveles de los factores (= tratamientos).
Por lo general, esta asignación de las unidades de análisis a las condiciones del estudio se realiza de forma
aleatoria (es decir, al azar) para que todos los sujetos tengan la misma probabilidad de ser asignados a cada
condición (…)
Hay dos estrategias básicas de asignación aleatoria: grupos aleatorios y bloques aleatorios. Al modelo de
ANOVA que permite analizar los datos de los diseños de grupos aleatorios (mediante asignación aleatoria o
bien por selección aleatoria) se le llama modelo completamente aleatorizado. Este modelo es igualmente
válido si, p.ej, queremos comparar hombres y mujeres en una variable cuantitativa o, cuando al comparar dos
métodos de enseñanza se decide aplicar cada método a los alumnos de un aula distinta (simplemente porque
no se considera apropiado mezclar los alumnos aleatoriamente solamente por el interés de la investigación).
En estos ejemplos, se tienen grupos aleatorios si: en el ejemplo de hombres y mujeres, los sujetos se
seleccionan aleatoriamente; en el ejemplo del método de enseñanza, las aulas se seleccionan aleatoriamente
y los métodos se asignan aleatoriamente a las aulas.
En los diseños de bloques aleatorios se intenta ejercer mayor control sobre posibles variables extrañas. El
modelo de ANOVA que permite analizar los datos así obtenidos recibe el nombre de modelo aleatorizado en
bloques. En un caso extremo de bloqueo cada bloque está formado por un único sujeto: a todos y cada uno
de los sujetos se le aplican todos y cada uno de los niveles del factor. La homogeneidad dentro de cada bloque
es máxima (y por tanto mínima la presencia de variables extrañas atribuibles a diferencias entre los sujetos)
porque todas las puntuaciones dentro de un mismo bloque pertenecen a un mismo sujeto. En este caso ya no
se habla de diseño de bloques aleatorios, sino de diseño intra-sujetos o diseño con los mismos sujetos; y al
modelo de ANOVA que permite analizar estos datos se le llama modelo de medidas repetidas.
Esta distinción basada en la forma de asignar las unidades de análisis a las condiciones del estudio es
equivalente a la ya hecha entre muestras independientes y muestras relacionadas: hablar de diseños
completamente aleatorizados equivale a hablar de muestras independientes (a cada nivel del factor se asigna
un grupo distinto de sujetos); y hablar de diseños de bloques aleatorios o intrasujetos equivale a hablar de
muestras relacionadas (bien porque los sujetos de un mismo bloque han sido igualados atendiendo a algún
vínculo relevante para el análisis, bien porque cada bloque está formado por un único sujeto).
c) Forma de establecer los niveles del factor
Los niveles de una variable independiente o factor pueden establecerse de dos maneras distintas:
❖ Fijando los niveles que se desea estudiar (por ejemplo, cantidad de fármaco: 0 mg, 250 mg,
500 mg) o utilizando los niveles que posee el factor (por ejemplo, nivel educativo: sin estudios,
primarios, secundarios, medios, superiores). Se establecen estos niveles porque es justamente
los que interesa estudiar y las inferencias se limitan a esos niveles. Entonces el factor es de
efectos fijos y el modelo correspondiente de ANOVA se le llama modelo de efectos fijos o
modelo I. Si se replicara el experimento, los sujetos serían diferentes, pero los niveles del
factor serían exactamente los mismos. Son los utilizados con mayor frecuencia en los modelos
de ANOVA.
❖ Seleccionando aleatoriamente unos pocos niveles de la población de posibles niveles del factor
(por ejemplo, seleccionando una muestra aleatoria de los hospitales de una ciudad). Las
inferencias que interesa realizar se refieren, no a unos niveles concretos, sino a cualquiera de
los posibles. Entonces el factor es de efectos aleatorios y el modelo de ANOVA
correspondiente se le llama modelo de efectos aleatorios o modelo II. Si se llevara a cabo una
réplica del estudio, tanto los sujetos como los niveles del factor podrían ser diferentes.
d) Clasificación de los modelos de análisis de varianza
Los tres criterios propuestos en el apartado anterior constituyen una sencilla guía para clasificar e
identificar los diferentes modelos de ANOVA que estudiaremos en éste y en los próximos capitulas.
En los modelos de un factor, el tipo de asignación de las unidades de análisis a las condiciones del estudio
define dos modelos distintos: el modelo de un factor completamente aleatorizado (A-CA) y el modelo de un
factor aleatorizado en bloques, también llamado modelo de un factor con medidas repetidas (A-MR). En
ambos casos el factor puede ser de efectos fijos o de efectos aleatorios.
En los modelos de dos factores aumentan las posibilidades. En el modelo de dos factores completamente
aleatorizados (AB-CA) se utilizan grupos aleatorios en ambos factores (grupos distintos de sujetos en cada
combinación entre los niveles de ambos factores). En los modelos de dos factores aleatorizados en bloques,
también llamado dos factores con medidas repetidas en ambos (AB-MR), se utilizan bloques aleatorios en
ambos factores (un único grupo de sujetos o bloques pasa por todas las combinaciones entre los niveles de
ambos factores). En los modelos de dos factores con medidas repetidas en un factor (AB-CA-MR) se utilizan
grupos aleatorios en el primer factor y bloques aleatorios en el segundo (varios grupos, tantos como niveles
tiene el primer factor, pasan por todos los niveles del segundo factor). En todos los casos, los factores pueden
ser de efectos fijos o de efectos aleatorios.
Más adelante tendremos ocasión de estudiar los detalles de cada uno de estos modelos. De momento, vamos
a centrarnos en la lógica en la que se basan todos ellos.
6.2. La lógica del análisis de varianza
La forma convencional de comparar las medias de dos distribuciones consiste en restarlas. Esto es lo
que hemos hecho, por ejemplo, al contrastar la hipótesis de igualdad de medias con la prueba T de Student.
Pero, cuando se tienen más de dos medias, no es posible compararlas simultáneamente con una resta. ¿Y qué
podemos hacer para comparar las medias de más de dos distribuciones? La respuesta a esta pregunta se le
ocurrió a Fisher y se basa, no en el análisis de las medias de las distribuciones, sino en la comparación de
varianzas (de ahí el nombre del procedimiento) mediante el coeficiente F, que trabaja con medias cuadráticas.
P.ej., en un ANOVA I de medidas independientes, el coeficiente F comparará la varianza intergrupo (basada en

la media cuadrática intergrupo) con la varianza intragrupo o error o residual (basada en la media cuadrática
intragrupo).
La distribución muestral de este cociente (división entre ambas varianzas) fue establecida por Fisher (1924) y
etiquetada distribución F en su honor por Snedecor (1934). El estadístico F refleja el grado de parecido
existente entre las medias poblacionales. Si las medias poblacionales son iguales, las medias muestrales de los
diferentes grupos serán parecidas, existiendo entre ellas tan solo diferencias atribuibles al azar. En ese caso,
el numerador (basado en las diferencias entre las medias muestrales) reflejará un grado de variación similar al
del denominador (basado en las diferencias entre las puntuaciones individuales dentro de cada grupo) y el
cociente F tomará un valor próximo a 1. Por el contrario, si las medias muestrales son distintas, el numerador
será mayor que el denominador y el estadístico F tomará un valor mayor que 1. Cuanto más diferentes sean
las medias muestrales, mayor será el valor de F. Para el contraste sobre la hipótesis de igualdad de medias se
suponen muestras aleatorias extraídas de poblaciones normales con varianzas iguales. La Ho comprenderá la
igualdad entre todas las medias sometidas a contraste.
6.3. ANOVA de un factor completamente aleatorizado (A-CA)
También llamado, simplemente, ANOVA de un factor. A la variable categórica (nominal u ordinal) que define
los grupos o muestras se le llama independiente o factor. A la variable cuantitativa (de intervalo o razón) en la
que se desea comparar los grupos se le llama dependiente o respuesta. A los factores los representaremos por
letras latinas mayúsculas empezando por la primera: A, B, etc. Al único factor del modelo de un factor lo
llamaremos A. Y a la variable dependiente (la variable cuantitativa) la llamaremos Y.
Se trata de una generalización de la prueba T para dos muestras independientes para el caso de más de dos
muestras.
Consideremos un ejemplo sobre la relación entre el nivel de activación o ansiedad (variable categórica con tres
niveles: bajo, medio y alto) y el rendimiento (variable cuantitativa) en el que se han seleccionado
aleatoriamente 20 sujetos de cada nivel de ansiedad y se les ha hecho trabajar en una tarea de solución de
problemas. El objetivo del estudio es comprobar si el rendimiento es o no el mismo en los distintos niveles de
ansiedad. El análisis de varianza de un factor permite comparar el rendimiento medio de los tres grupos y
valorar si existen diferencias. Otro ejemplo: Supongamos que una muestra aleatoria de 40 pacientes depresivos
(todos ellos con puntuaciones mayores de 30 en la escala de depresión de Hamilton) se reparten aleatoriamente
en cuatro grupos. Al primer grupo se le aplica un tratamiento farmacológico convencional; al segundo, un
nuevo tratamiento farmacológico; al tercero, una combinación de tratamiento farmacológico y psicoterapia;
al cuarto, solamente psicoterapia. El objetivo del estudio consiste en valorar si hay algún tratamiento más
eficaz que los otros. El análisis de varianza permite valorar si, al cabo de las doce semanas de tratamiento, el
nivel de depresión medio es o no el mismo en las poblaciones definidas por los cuatro tratamientos. También
permite realizar comparaciones para identificar el tratamiento más eficaz.
Varianza intergrupos → nos indicará sobre los efectos de la VIndep. Sobre la V. Dep. La variabilidad existente
entre las medias muestrales para obtener una estimación de la varianza poblacional de Y que, además, sirve
como una cuantificación del grado de parecido existente entre las medias.
Varianza intragrupos → varianza residual o error.
a) Supuestos del ANOVA de un factor
El análisis de varianza es una concreción de un modelo estadístico en el que se basan varios de los
procedimientos que hemos estudiando y que estudiaremos más adelante: el modelo lineal general. Y ocurre
que todo modelo estadístico necesita ir acompañado de una serie de aclaraciones referidas a las condiciones
que deben darse para que el modelo funcione correctamente. A estas condiciones las llamamos supuestos. Y
estas condiciones (supuestos) son las que garantizan que la probabilidad de cometer errores Tipo I y Tipo II es
la que estamos asumiendo que es y no otra. En este apartado nos vamos a ocupar de los supuestos asociados
al modelo de un factor completamente aleatorizado.
❖ Independencia:
En el análisis de varianza de un factor, el supuesto de independencia se refiere a que cada

puntuación debe ser independiente de las demás (independiente de las de su mismo grupo y de las
del resto de los grupos). En la práctica, la independencia se consigue con la selección aleatoria de los
sujetos y/o la asignación aleatoria de los mismos a las condiciones del estudio. La independencia entre
las puntuaciones no es un requisito exclusivamente estadístico; también es un requisito experimental:
si las unidades de análisis no se asignan aleatoriamente a las condiciones del estudio, no habrá forma
de separar el efecto de la variable independiente o factor del efecto de posibles variables extrañas.
Las consecuencias del incumplimiento del supuesto de independencia pueden ser graves, aunque no
es infrecuente encontrar incumplimientos de este supuesto. Un ejemplo típico se da cuando se realizan
repetidas mediciones de los mismos sujetos, de manera que el número total de puntuaciones es mayor
que el número total de sujetos. En un diseño completamente aleatorizado hay que procurar que cada
puntuación se corresponda con un sujeto distinto. No obstante, esto no necesariamente garantiza la
independencia entre las puntuaciones. Siempre es posible encontrar sujetos distintos que no se
comportan de forma independiente; es decir, sujetos distintos que muestran comportamientos
similares en la variable estudiada: miembros de la misma familia, estudiantes de la misma clase,
pacientes de un mismo hospital, participantes en un experimento que interaccionan entre sí en su
actividad cotidiana, miembros de un mismo colectivo social o religioso, etc.
Si existen dudas acerca de la aleatoriedad de las puntuaciones de un estudio concreto, puede utilizarse
la prueba de las rachas para contrastar la hipótesis de que las muestras utilizadas son aleatorias (ver
apéndice 2).
❖ Normalidad:
El segundo de los supuestos se refiere a que las puntuaciones de cada grupo constituyen una
muestra aleatoria extraída de una población normal. En varios trabajos ha quedado probado que el
estadístico F es robusto frente al incumplimiento de este supuesto.
Si las desviaciones de la normalidad son muy acusadas, pueden detectarse fácilmente utilizando
sencillos métodos gráficos (ver, en el capítulo 2, el apartado Contrastes sobre la forma de una
distribución), pero no olvidemos que estos gráficos son apropiados, sobre todo, para valorar la
normalidad de muestras grandes; con muestras pequeñas es preferible contrastar la hipótesis de
normalidad mediante alguno de los otros procedimientos descritos en el capítulo 2.
Si las poblaciones muestreadas, aun no siendo normales, son simétricas o tienen forma parecida (por
ejemplo, todas positivamente asimétricas y leptocúrticas), el estadístico F ofrece resultados correctos
incluso con tamaños muestrales relativamente pequeños (Tan, 1982). No obstante, siempre es
recomendable trabajar con tamaños muestrales moderadamente grandes para tener la garantía de
que el estadístico F se comportará correctamente incluso cuando las poblaciones originales se desvíen
sensiblemente de la normalidad. En el caso de tener que trabajar con muestras pequeñas procedentes
de poblaciones no normales, es preferible utilizar procedimientos alternativos al estadístico F como,
por ejemplo, la prueba de Kruskal Wallis (estudiada en el capítulo 4).
❖ Igualdad de varianzas (homocedasticidad):
Afirma que las varianzas de las poblaciones son iguales. Durante años se ha venido aceptando,
a partir de trabajos como el de Horsnell (1953) o Box (1954a), que el estadístico F es robusto frente al
incumplimiento de este supuesto si la varianza más grande no es más de tres veces mayor que la más
pequeña y los tamaños muestrales son iguales y no demasiado pequeños.
Pero en las ciencias sociales y de la salud no es infrecuente tener que trabajar con datos en los que la
varianza más grande es más de doce veces mayor que la más pequeña (Tomarken et al., 1986; Wilcox,
1987a). Y cuando las varianzas poblacionales son distintas, el comportamiento del estadístico F puede
resultar insatisfactorio incluso con tamaños muestrales iguales.
Si los tamaños muestrales son diferentes, el estadístico F deja de ser robusto: se convierte en muy
conservador cuando las varianzas más grandes corresponden a los grupos de mayor tamaño
(perdiendo, además, potencia) y se convierte en muy liberal cuando las más grandes corresponden a
los grupos de menor tamaño. Estas consideraciones sugieren que, cuando se tiene intención de utilizar
el estadístico F para contrastar la hipótesis de igualdad de medias, es más que recomendable contrastar
previamente la hipótesis de igualdad de varianzas.
Existen varios procedimientos para el contraste de igualdad de varianzas, pero no todos ellos son
igualmente robustos frente al incumplimiento del supuesto de normalidad (ver O'Brien, 1981):
- Levene: uno de los más utilizados. Consiste en transformar las puntuaciones originales en
desviaciones “Dij” en valor absoluto de las medias de sus respectivos grupos y aplicar el
estadístico F a las puntuaciones transformadas. Una F significativa llevará al rechazo de la
hipótesis de igualdad de varianzas, mientras que, si las varianzas poblacionales son iguales, las
desviaciones “Dij” tendrán promedios parecidos en todos los grupos y servirán como referencia
del grado del parecido existente entre las varianzas.
- Brown y Forsythe: han propuesto un procedimiento idéntico al de Levene, pero utilizando las
medianas en lugar de las medias para obtener las puntuaciones transformadas.
Existen muchos otros procedimientos para someter a contraste la igualdad de varianzas. O'Brien
(1981) ha diseñado un método de bastante aceptación; Cochran (1941) ha propuesto un estadístico
basado en el cociente entre la varianza más grande y la suma de las J varianzas; el método de Hartley
(1940) es uno de los más utilizados en el pasado y se basa en el cociente entre la varianza más grande
y la más pequeña; etc.
Si alguno de estos procedimientos lleva al rechazo de la hipótesis de igualdad de varianzas (→

varianzas diferentes), lo razonable es contrastar la hipótesis de igualdad de medias con alguna
prueba alternativa al estadístico F (pruebas no paramétricas). Ya hemos mencionado que la prueba
de Kruskal-Wallis estudiada en el capítulo 4 representa una alternativa robusta cuando no puede
asumirse normalidad; pero, cuando no puede asumirse igualdad de varianzas se recomienda utilizar
los estadísticos propuestos por Welch (1951) y Brown y Forsythe (1974b) basados en una
modificación del estadístico F.
El incumplimiento de uno o más de estos tres supuestos puede hacer que la distribución muestral del
estadístico F cambie y, consecuentemente, que el nivel de significación adoptado (generalmente 0,05) no
coincida con el nivel de significación real, pasando a ser menor (haciendo el contraste más conservador) o
mayor (haciendo el contraste más libera). Esto significa que el incumplimiento de uno o más de estos supuestos
puede llevar a tomar decisiones equivocadas. Lo cual es especialmente relevante si se tiene en cuenta que los
datos de los estudios que suelen llevarse a cabo en el ámbito de las ciencias sociales y de la salud raramente
cumplen todos los supuestos en los que se basa la distribución muestral del estadístico F. En general, el
estadístico Fes robusto (es decir, ofrece resultados correctos en condiciones desfavorables) frente a
desviaciones moderadas de los supuestos en los que se basa (ver Glass, Peckham y Sanders, 1972), pero
desviaciones más acusadas pueden alterar de forma importante la probabilidad de cometer errores Tipo I y II,
y esto puede tener graves consecuencias sobre las conclusiones del análisis. Veamos algunos aspectos
relacionados con estos supuestos.
b) Transformación de las puntuaciones
Acabamos de señalar que el estadístico F requiere trabajar con poblaciones normales y

homocedásticas; y que, cuando no se dan estas condiciones, lo recomendable es utilizar procedimientos
alternativos: hemos mencionado, principalmente, la prueba de Kruskal-Wallis y las de Welch y Brown-Forsythe.
No obstante, cuando las poblaciones no son normales y homocedásticas, todavía existe la posibilidad de seguir
utilizando el estadístico F si a las puntuaciones originales se les aplica alguna transformación que permita
normalizar las distribuciones y homogeneizar las varianzas. Las transformaciones aplicadas son NO lineales.
Las más frecuentes son:
- Transformación raíz cuadrada permite disminuir la asimetría positiva y hacer más homogéneas las
varianzas. Pero… suele reducir la potencia sin mejorar la probabilidad de cometer errores Tipo I
(también le ocurre al arcoseno de la raíz cuadrada).
- Transformación logarítmica: reduce todavía más la asimetría positiva y también hace más homogéneas
las varianzas. Pero… los valores extremos pueden quedar poco corregidos en unos grupos y demasiado
en otros.
- Transformación en recíprocos o inversos: para atenuar la presencia de valores muy extremos
- Transformación arcoseno de la raíz cuadrada: suele aplicarse para poder trabajar con proporciones.
Pero los beneficios de esta práctica están poco claros y han sido, y siguen siendo, objeto de controversia: El
problema surge cuando las transformaciones se aplican con el objetivo de que los datos se ajusten a
determinados supuestos estadísticos. Transformar la variable dependiente para conseguir normalizar las
distribuciones y homogenizar las varianzas tiene consecuencias que dependen de varios factores (ver Games,
1 983); y ni esos factores ni sus consecuencias parecen estar del todo claros. Por tanto, la transformación de
las puntuaciones originales no es algo que deba hacerse de forma rutinaria. Incluso entre los partidarios de las
transformaciones se reconoce que una transformación que reduce la asimetría en un grupo puede
incrementarla en otro, y que una transformación que reduce la asimetría en todos los grupos puede hacer más
heterogéneas las varianzas. Es legítimo intentar hacer que las distribuciones con las que se va a trabajar sean
razonablemente simétricas, con pocos o ningún valor extremo y con varianzas más o menos homogéneas (todo
ello con el objetivo de poder aplicar el estadístico F). Pero si los datos ya poseen esas características o si existe
algún procedimiento que pueda analizar con solvencia los datos disponibles, no se obtendrá ninguna ganancia
evidente aplicando una transformación cuya única consecuencia segura es la de obligar al investigador a
trabajar en una métrica desprovista de significado. Y existen procedimientos robustos para analizar casi
cualquier tipo de datos si necesidad de transformarlos
c) Efectos fijos y aleatorios
La diferencia en la forma de establecer los niveles de un factor (fijos o aleatorios) tiene algunas
consecuencias sobre algunos elementos del contraste.
- Si se trata de un modelo de efectos fijos, el análisis se centra en los niveles del factor (que representan
todos los niveles de interés), por lo que la hipótesis nula se referirá justamente a las medias de esos
niveles. Las inferencias se limitan a los niveles concretos incluidos en el análisis.
- Cuando un factor es de efectos aleatorios, las hipótesis no se plantean sobre las medias poblacionales
de los niveles del factor sino sobre su varianza. Puesto que los niveles utilizados son solamente algunos
de los posibles, la hipótesis nula debe reflejar la diferencia entre todos los posibles niveles del factor
(incluyendo la diferencia entre las medias de esos niveles concretos). Esto se consigue contrastando la
hipótesis nula de que la varianza de las medias de todos los posibles niveles del factor vale cero (lo que
va a ocurrir cuando todas las medias sean iguales). Los niveles concretos incluidos en el análisis
solamente constituyen una muestra aleatoria de la población de niveles que interesa estudiar; las
inferencias, por tanto, se realizan, no sobre los niveles incluidos en el estudio, sino sobre la población
de posibles niveles del factor. En el modelo de un factor de efectos aleatorios hay dos términos
aleatorios: el factor y la variable dependiente (mientras que, en el modelo de efectos fijos, el factor no
se considera una variable aleatoria) → Varianza total= varianza del factor + varianza de la V.
dependiente (se consideran 2 componentes independientes dentro de la varianza total)
Excepto por lo que se refiere a algún detalle relacionado con la cuantificación del tamaño del efecto (ver
siguiente apartado), el hecho de que un factor sea de efectos fijos o de efectos aleatorios no tiene
consecuencias sobre los cálculos involucrados en los modelos del ANOVA de un factor; sí las tiene, sin embargo,
en los modelos de más de un factor, de modo que más adelante tendremos que volver sobre esto.
d) Medidas del tamaño del efecto
Tal y como hemos tratado anteriormente con el estadístico T, una F significativa no necesariamente se
corresponde con un efecto importante o un resultado relevante (puesto que su significación depende, en
parte, del tamaño de las muestras y del grado de variabilidad de las puntuaciones).
Las medidas del tamaño del efecto ofrecen información adicional a la del estadístico F: contribuyen a distinguir
entre la significación estadística de un resultado y su relevancia o importancia práctica, sirven para estimar la
potencia de un contraste y elegir el tamaño muestral idóneo al planificar un estudio y facilitan la recopilación
de los resultados de diferentes estudios al realizar un meta-análisis.
Veamos 2 estrategias distintas (al igual que hemos visto en el punto 5.6.): una basada en la diferencia entre las
medias y otra basada en la relación entre las variables. Y ya hemos tenido ocasión de comprobar que ambas
estrategias son equivalentes porque, tratándose de una variable categórica y una cuantitativa, comparar los
grupos y relacionar las variables son la misma cosa: si los grupos definidos por la variable categórica difieren
en la variable cuantitativa, entonces la variable categórica está relacionada con la variable cuantitativa. En este
escenario, el resultado que se obtiene cuantificando la magnitud de la diferencia entre las medias es
exactamente el mismo que el que se obtiene cuantificando la magnitud de la relación entre las variables.
❖ Diferencia entre las medias:
La f de Cohen, equivalente a la d de Cohen (utilizada para el caso de 2 medias) pero para más
de 2 medias. Para interpretar la f, Cohen (1992a) ha propuesto una regla general que puede servir de
guía en la mayor parte de los contextos aplicados: valores en torno a 0,10, 0,25 y 0,40 representan,
respectivamente, efectos de tamaño pequeño, mediano y grande.
❖ Relación entre las variables (proporción de varianza común):
Eta-cuadrado: inicialmente propuesta por Pearson (1905) e incorporada más tarde por Fisher
(1925) al contexto de los modelos de análisis de varianza. Expresa el grado de asociación (no solo lineal,
sino de cualquier tipo) existente entre la variable categórica o factor y la variable cuantitativa o
dependiente (si se aplica al caso de dos medias, eta-cuadrado=Rxy). El coeficiente consiste en una
fracción, dónde en el numerador se cuantifica la variabilidad existente entre las medias y en el
denominador, la variabilidad total: el cociente entre ambas cuantificaciones indica cómo es de grande
la variabilidad entre las medias en comparación con la variabilidad total.
Por tanto, eta-cuadrado puede interpretarse como la proporción de varianza que comparten la
variable factor y la variable dependiente: indica el grado en que aumenta el conocimiento (o se reduce
la incertidumbre) de las puntuaciones de la variable dependiente por el hecho de saber a qué nivel del
factor (a qué grupo) pertenecen. Siguiendo el ejemplo: “saber a qué grupo (nivel de ansiedad)
pertenecen los sujetos reduce nuestra incertidumbre (mejora nuestro conocimiento) sobre su
rendimiento un 38%.”
El problema de eta-cuadrado es que tiende a ofrecer estimaciones sesgadas de la verdadera

proporción de varianza común (en concreto, la sobrestima: tiende a ofrecer valores más altos que el
del parámetro que estima). Para subsanar este problema podemos optar a: eta-cuadrado corregida,
épsilon-cuadrado (modificación de eta-cuadrado) u omega-cuadrado (medida muy parecida a eta-
cuadrado que ha llegado a convertirse en una de las de mayor aceptación; su valor concreto depende
de que el factor sea de efectos fijos - coeficiente de correlación intraclase - o de efectos aleatorios).
De las cuatro medidas de asociación propuestas (eta-cuadrado, eta-cuadrado corregida, épsilon-

cuadrado y omega-cuadrado), las tres últimas son preferibles a eta-cuadrado porque el sesgo de esta
es mayor. Entre el resto de medidas, aunque todas ellas ofrecen resultados muy parecidos, omega-
cuadrado tiene la ventaja de que puede aplicarse a modelos y diseños más complejos y, además, el
sesgo como estimador de la verdadera proporción de varianza común es muy pequeño. Para
interpretar el tamaño de omega-cuadrado, Cohen (1988) ha propuesto una especie de regla general
que puede resultar útil en muchos contextos aplicados: valores en torno a 0,01, 0,06 y 0,14 indican,
por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
e) Cálculo de la potencia y del tamaño muestral
La estrategia que presentamos en este apartado para calcular la potencia asociada al estadístico F se
basa en una medida del tamaño del efecto llamada phi. Si la hipótesis de igualdad de medias es falsa, el
estadístico F se distribuye según la F no centrada con un tercer parámetro de no-centralidad llamado lambda
(lambda expresa el grado en que difieren las medias poblaciones: cuanto mayor es la diferencia entre las
medias, mayor es el valor de lambda).
Con esos cálculos (…) encontraremos una probabilidad de cometer un error tipo II, a partir de la cuál (teniendo
en cuenta los g.l.) podremos saber el valor de la potencia observada.
Calcular la potencia de un contraste después de llevarlo a cabo tiene el interés de saber con qué potencia se
ha trabajado (potencia observada) asumiendo que el efecto en la población es el efecto observado en la
muestra. Si la potencia observada es alta, perfecto; pero si la potencia observada es baja, ya no hay forma de
arreglar el problema. Lo realmente interesante es poder diseñar cada estudio de tal forma que pueda
conocerse de antemano la potencia con la que se va a trabajar. Y esto pasa por calcular el tamaño muestral
necesario para alcanzar una determinada potencia. Puesto que la potencia depende del nivel de significación
(alpha), del tamaño del efecto y del número y tamaño de los grupos, una vez establecido el nivel de
significación (generalmente 0,05), el tamaño del efecto que se considera mínimamente relevante (phi o
lambda), la potencia que se desea alcanzar (generalmente 0,80) y el número de grupos con el que se va a
trabajar , tenemos todo lo necesario para calcular el tamaño muestral.
6.4. Comparaciones múltiples entre medias
La hipótesis nula que se contrasta con el estadístico F en el ANOVA de un factor es una hipótesis global
referida al conjunto de las J medias poblacionales incluidas en el estudio. El rechazo de esta hipótesis permite
concluir que no todas las medias poblacionales son iguales, pero no permite concretar qué medias difieren de
qué otras. En este sentido, un estadístico F significativo solamente es, por lo general, el primer paso del análisis.
Tras rechazar la hipótesis global de igualdad de medias, todavía falta por aclarar dónde se encuentran las
diferencias. Esto se consigue aplicando un conjunto de procedimientos agrupados bajo la denominación de
comparaciones múltiples.
a) Comparaciones lineales
En el contexto de los contrastes sobre medias, una comparación lineal (o contraste lineal) es una
combinación lineal (suma ponderada) de medias con pesos o coeficientes, no todos iguales a cero, que suman
cero. Aclaremos la definición de comparación lineal que acabamos de presentar: imaginemos un estudio con
cinco tratamientos o grupos y, por tanto, con cinco medias poblacionales. Con estas cinco medias es posible
realizar, por ejemplo, comparaciones entre pares de medias pero también podemos plantear otro tipo de
comparaciones como, p.ej. podría ser “comparar las medias 1 y 2 tomadas juntas con las medias 3 y 4 tomadas
juntas”, etc.
Hablamos de comparaciones múltiples porque se están planteando varias comparaciones simultáneamente.

Cada una de estas comparaciones (y cualquier otra que se nos ocurra formular) puede expresarse como una
combinación lineal de las medias, con coeficientes conocidos que verifican dos condiciones: (1) al menos uno
de los coeficientes es distinto de cero y (2) la suma de todos ellos vale cero.
A las comparaciones independientes entre sí se les llama comparaciones o contrastes ortogonales. Sabremos
si dos comparaciones son ortogonales si la suma del producto de sus coeficientes vale 0. La utilidad de trabajar
con comparaciones ortogonales está precisamente en que no contienen información redundante. Con J medias
solo es posible definir J- 1 comparaciones ortogonales (p.ej: con 3 medias, por ejemplo, solo es posible definir
2 comparaciones independientes entre sí).
b) Tasa de error en las comparaciones múltiples
La clave de la discusión referida a los procedimientos de comparaciones múltiples está en la

probabilidad asociada a los errores Tipo l. Consideremos un ejemplo con 4 grupos (A, B, C y D): si se rechazara
la Ho de igualdad de medias, implicaría que no todas las medias poblacionales son iguales. ¿Pero cómo
sabemos entre qué medias hay diferencias? Si para resolver esta cuestión decidimos comparar, por ejemplo,
cada media con cada otra para concretar qué medias difieren entre sí, tendremos que efectuar 6
comparaciones (A-B, A-C, A-D, B-C, B-D y C-D). En cada una de estas comparaciones existe una probabilidad
alfa de cometer un error Tipo l. Si alfa vale, por ejemplo, 0,05, la probabilidad de cometer un error tipo I en
cada comparación valdrá 0,05. Pero… la probabilidad de cometer algún error en las seis comparaciones será
mucho mayor que 0,05… Siguiendo este argumento, si el nº de grupos a comparar es grande, también lo será
la probabilidad de cometer algún error tipo 1.
Estas consideraciones, además de alertar sobre la necesidad de controlar la probabilidad de cometer errores
tipo I cuando se llevan a cabo varias comparaciones con los mismos datos, permiten introducir un concepto
importante. Comencemos llamando tasa de error Tipo I, o simplemente tasa de error, a la probabilidad de
cometer algún error Tipo I (α) en k comparaciones y llamaremos tasa de error por comparación (αc) a la
probabilidad de cometer un error tipo 1 al realizar una sola comparación.
Al comparar dos medias con la prueba T de Student se está realizando una única comparación. Por tanto, la
probabilidad de cometer un error tipo I, es decir, la tasa de error por comparación (αc) es justamente el valor
adoptado para α (generalmente 0,05).
Pero… si en lugar de una comparación, se lleva a cabo un conjunto de comparaciones (o familia de k

comparaciones) y se utiliza en cada una de ellas un nivel de significación alfa, la tasa de error (“total”) aumenta.
Llamaremos tasa de error por familia de comparaciones (αF) a la probabilidad de cometer al menos un error
tipo I al realizar un conjunto de comparaciones. Una familia de comparaciones es el conjunto de
comparaciones que realmente interesa llevar a cabo. (algunos autores hablan de la tasa de error por
experimento tomando como referencia el conjunto de posibles comparaciones asociadas a un experimento).
Los procedimientos de comparaciones múltiples han sido diseñados precisamente para controlar la tasa de
error cuando se llevan a cabo varias comparaciones con los mismos datos. En los siguientes apartados veremos
que existen varios de estos procedimientos, cada uno de ellos con un modo distinto de intentar controlar la
tasa de error, aunque ninguno de ellos ofrece una solución del todo satisfactoria. No obstante, los
procedimientos que hemos seleccionado y que se explican a continuación suelen ofrecer un comportamiento
aceptable cuando se dan las condiciones para las que han sido diseñados.
6.5. Comparaciones planeadas o a priori
Comparaciones que se aplican si existe alguna expectativa acerca de lo que va a ocurrir (qué grupos
van a diferir de qué otros), que es lo más habitual. Se planifican antes de recoger o examinar los datos y suelen
ser pocas (dos, tres, cuatro). Los procedimientos que analizan estas comparaciones no necesitan ir precedidos
o acompañados del estadístico F y, por tanto, su aplicación es independiente de que el estadístico F sea o no
significativo.
a) Prueba de Dunn-Bonferroni:
Prueba de elección dentro de las comparaciones a priori, a no ser que exista algún objetivo más
concreto, en cuyo caso utilizaremos alguna de las pruebas que se explican más adelante (comparaciones de
tendencia y prueba de Dunnet). Se trata del estadístico T de Student ya estudiado (y de su distribución muestral
t) acompañado de una sencilla estrategia de control de la tasa de error. A este procedimiento también se le
llama prueba de Dunn puesto que este autor fue el primero en formalizar el procedimiento y en presentar las
tablas necesarias para poder utilizarlo. También se le llama prueba de Bonferroni, por estar basado en la
desigualdad de Bonferroni.
Al realizar k comparaciones, la tasa de error total (la tasa de error por familia de comparaciones) siempre es
igual o menor que la suma de las tasas de error de cada comparación individual. al realizar k comparaciones,
la tasa de error total (la tasa de error por familia de comparaciones). αF siempre es igual o menor que la suma
de las tasas de error de cada comparación individual.
Cuando αF se utiliza para corregir la tasa de error de un conjunto de comparaciones ortogonales funciona
correctamente: vale aproximadamente 0,05. Pero cuando se utiliza para corregir la tasa de error de un
conjunto de comparaciones no ortogonales se vuelve conservadora: puede ser sensiblemente menor de 0,05
(tanto menor cuanto mayor sea el nº de comparaciones). Por tanto, lo recomendable es que se utilice
solamente con comparaciones ortogonales o con un número reducido de comparaciones no ortogonales.
Sidák ha propuesto una solución (…) que hace el contraste algo más potente, pero la ganancia en potencia es
tan pequeña que, en la práctica, la estrategia de Dunn-Bonferroni (más sencilla de calcular) ha tenido mayor
aceptación.
b) Comparaciones de tendencia
Sabemos que el rechazo de la hipótesis global del ANOVA está indicando que las medias comparadas
no son iguales. Esto significa que los valores de la variable dependiente cambian cuando cambian los de la
independiente; significa, por tanto, que ambas variables están relacionadas. Mientras que en el apartado
anterior analizábamos la diferencia entre medias, en este apartado se persigue analizar la relación entre las
variables (estas comparaciones solamente tiene sentido aplicarlas si los niveles del factor se encuentran
cuantitativamente ordenados). De nuevo, una F significativa no dice nada sobre la pauta concreta que sigue
el cambio o acerca del tipo de relación que se da entre las variables.
Sin embargo, conocer el tipo de relación existente entre la variable independiente o factor y la
dependiente, no solo puede resultar interesante en muchos contextos, sino que puede constituir el objetivo
principal de algunos estudios. Tal es el caso de los ensayos clínicos en los que se analiza la relación dosis-
respuesta, o de los estudios psicológicos en los que se valora, por ejemplo, la relación entre el nivel de ansiedad
y el rendimiento. Para que tenga sentido estudiar el tipo de relación es imprescindible que los niveles de la
variable independiente se encuentren cuantitativamente ordenados.
Pueden darse diferentes pautas de relación:
- Relación lineal (gráficos a, b y d): los valores de la variable dependiente aumenten conforme lo hacen
los de la independiente.
- Relación cuadrática (gráficos c y e): los valores de la variable dependiente van aumentando conforme
lo hacen los de la independiente hasta llegar a un punto a partir del cual el aumento en los valores de
la variable independiente se corresponde con una disminución en los de la dependiente (o a la inversa,

que sería en forma de: “V” o “U”)
- Relación cúbica(gráfico f): relación algo más compleja, con subidas y caídas en la variable dependiente
conforme los valores de la independiente van aumentando.
Por tanto, la relación entre una variable categórica (con categorías cuantitativamente ordenadas) y una
variable cuantitativa puede ser de tipo lineal, cuadrático, cúbico, etc. Las comparaciones de tendencia son
comparaciones ortogonales, por tanto, con J medias, únicamente será posible definir J- 1 tendencias
ortogonales. En los gráficos se aprecia con claridad esta idea: con J= 2 solamente puede darse una relación de
tipo lineal (gráfico a); con J = 3, la relación puede ser lineal o cuadrática (gráficos b y e); con J = 4, la relación
puede ser lineal, cuadrática o cúbica (gráficos d, e y f); etc.
La forma concreta de realizar comparaciones de tendencia es idéntica a la descrita en el apartado anterior a

propósito de la prueba de Dunn-Bonferroni.
c) Prueba de Dunnett
Dunnett (1955) ha propuesto un método específicamente diseñado para controlar la tasa de error para
las comparaciones entre los grupos experimentales y el grupo control, si existe. La propuesta de Dunnett
consiste en obtener un valor, llamado diferencia mínima significativa (DMS).
6.6. Comparaciones post hoc o a posteriori
Para los estudios en los que no se tiene una expectativa concreta o, aun teniéndola, se desea explorar
otras posibilidades. En este caso, lo habitual es realizar muchas comparaciones (por ejemplo, todas las
comparaciones por pares) para detectar dónde están realmente las diferencias. Puesto que estas
comparaciones no van dirigidas por expectativas previas, suelen ser más numerosas que las “a priori” para
intentar que no se escape nada (son más bien de tipo exploratorio). Se llevan a cabo tras detectar que existen
diferencias (es decir, tras obtener un estadístico F significativo).
En realidad, la prueba de Dunn-Bonferroni, estudiada en las pruebas a priori, sirve para valorar cualquier tipo
de comparación entre medias, pero conforme va aumentando el número de comparaciones se va haciendo
más conservadora y perdiendo potencia, por lo que no se recomienda para las comparaciones post hoc.
a) Prueba de Tukey
La prueba de Tukey (1953) representa uno de los primeros intentos por controlar la tasa de error
cuando se realizan comparaciones múltiples. Está diseñada específicamente para contralar la tasa de error
cuando se llevan a cabo comparaciones por pares (comparaciones dos a dos) entre las medias. Para la prueba
de Tukey se exige asumir que las varianzas poblacionales son iguales. Se basa en la distribución del rango
studentizado y la estrategia propuesta por Tukey para realizar esas comparaciones radica de nuevo en el
concepto de diferencia mínima significativa (DMS). La DMS de Tukey también se llama diferencia
honestamente significativa de Tukey, y el mismo Tukey ha desarrollado una variante de este procedimiento al
que ha llamado diferencia completamente significativa (WSD).
Si los tamaños de los grupos no son iguales: modificación de Kramer → DMS Tukey-Kramer. Hochberg (1974)
ha propuesto el procedimiento como alternativa al de Tukey-Kramer para el caso de varianzas poblacionales
iguales y tamaños muestrales distintos, pero la solución de Hochberg es algo más conservadora que la de
Tukey-Kramer y, por tanto, menos recomendable. En el caso de no poder asumir varianzas iguales, se
recomienda utilizar la prueba de DMS Games-Howell.
b) Prueba de Scheffé
La prueba de Scheffé (1953) permite valorar simultáneamente no solo las posibles comparaciones por pares
entre todas las medias, sino cualquier otro tipo de comparación o (una media con otra, una media con varias,
varias medias con varias medias, …).
Por tanto, la prueba de Scheffé permite contrastar el mismo tipo de hipótesis que la prueba de Dunn-
Bonferroni. La diferencia entre ellas está en la forma de controlar la tasa de error. Dunn-Bonferroni controla
bien la tasa de error cuando se llevan a cabo unas pocas comparaciones (preferiblemente ortogonales, aunque
no necesariamente), pero se va haciendo conservadora conforme va aumentando el número de
comparaciones. La prueba de Scheffé controla la tasa de error para el total de posibles comparaciones entre
medias; si se utiliza para valorar solamente unas pocas comparaciones (por ejemplo, para valorar solamente
las comparaciones por pares), es muy conservadora. La prueba de Scheffé, en cambio, se basa en la distribución
F y, por tanto, exige, al igual que el estadístico F, trabajar con poblaciones normales y homocedásticas
(varianzas iguales).
Como en otros procedimientos estudiados, Scheffé se vasa en el concepto de diferencia completamente

significativa → DMS Scheffé. Y en el caso de que no pueda asumirse que las varianzas poblacionales son iguales,
se recomienda utilizar: DMS Brown y Forsythe. En el caso de que las poblaciones originales se alejen
sensiblemente de la normalidad, se recomienda utilizar métodos basados en las medias recortadas.
El procedimiento de Scheffé puede utilizarse para estudiar las posibles diferencias entre pares de medias
(sustituyendo al de Tukey), pero al limitarlo a ese tipo de comparaciones se vuelve excesivamente conservador
y poco potente, por lo que no es aconsejable.
6.7. Apéndice 6
a) Distribución muestral del estadístico F
Puesto que una variable F es el cociente de dos variables xi-cuadrado (cociente de dos variables
asimétricas positivas), su distribución también es asimétrica positiva. En relación con la forma de la distribución
F muestra: (1) asimetría extrema cuando g.l.1 = 2, sin importar cómo de grande es g.l.2 y (2) reducción paulatina
del grado de asimetrfa conforme va aumentando el valor de g.l.1.
b) Estadísticos F robustos: Welch y Brown-Forsythe
Ya hemos insistido en que el estadístico F requiere trabajar con poblaciones normales y

homocedásticas. El incumplimiento del supuesto de normalidad no tiene consecuencias relevantes sobre el
análisis si los tamaños muestrales son moderadamente grandes, pero si se tiene que trabajar con poblaciones
no normales y tamaños muestrales pequeños, puede utilizarse la prueba de Kruskal-Wallis (cap.4)
En el caso de que no pueda asumirse que las varianzas poblacionales son iguales también existen algunos
estadísticos robustos que permiten contrastar la hipótesis global de igualdad de medias sin tener que estar
preocupados por el tamaño de las varianzas. En este apartado describimos dos de estos procedimientos: uno
debido a Welch y otro debido a Brown y Forsythe.
- F de Welch: de los más apropiados en términos de potencia y control de la tasa de error. Cálculo
tedioso pero sencillo. Se distribuye según el modelo de probabilidad F (…)
- F de Brown y Forsythe: modificación del estadístico F cuya lógica es algo más intuitiva que la de F
Welch. También se distribuye según el modelo de probabilidad F (…)
c) Métodos secuenciales (procedimientos alternativos en las comparaciones post hoc):
En los métodos secuenciales, se realizan las comparaciones por pasos o de forma secuencial,
cambiando el nivel de significación y el punto crítico en cada paso.
- La prueba de Student-Newman-Keuls (S-N-K): Utiliza, al igual que la prueba de Tukey, un estadístico

basado en la distribución del rango studentizado, pero, a diferencia de la de Tukey, la prueba de S-N-
K sigue una estrategia secuencial basada en una ordenación de las medias por su tamaño. De nuevo,
se utiliza el concepto de DMS. Permite controlar la tasa de error por familia de comparaciones para
cada conjunto de medias separadas por r pasos. Más potente que Tukey, pero a costa de incrementar
la tasa de error por familia de comparaciones.
- La prueba de Rynn-Einot-Gabriel-Welsch (R-E-G-W Q): muy parecida a S-N-K, aunque el valor de la
DMS disminuirá más lentamente que la que con el método de S-N-K (…). Esta propuesta permite
ejercer un buen control sobre la tasa de error.
- Otros métodos: Prueba del rango múltiple (Duncan, 1955) que se basa en la misma lógica que la de
Student-Newman-Keuls (…), que anteriormente era muy utilizada pero poco recomendable en la
actualidad).
TEMA 7. ANÁLISIS DE VARIANZA (II). DOS FACTORES COMPLETAMENTE ALEATORIZADOS
En este capítulo vamos a abordar por primera vez el estudio de más de dos variables. Los modelos
factoriales de análisis de varianza (factorial = más de un factor) permiten evaluar el efecto individual y conjunto
de dos o más factores (variables independientes categóricas) sobre una variable dependiente cuantitativa. Los
factores se escriben con letras mayúsculas (A, B, C, … una para cada factor).
En este capítulo nos vamos a centrar en el modelo de dos factores completamente aleatorizados: efecto de
dos variables independientes categóricas (factores) sobre una variable dependiente cuantitativa. Por ejemplo:
permite estudiar si el rendimiento en una tarea (variable dependiente cuantitativa) cambia con el nivel de
ansiedad de los sujetos (bajo, medio, alto; variable independiente categórica) y con la dificultad de la tarea
(fácil, difícil; variable independiente categórica). Además, también permite estudiar si las diferencias entre
sujetos con diferente nivel de ansiedad se mantienen o no cuando cambia la dificultad de la tarea; es decir,
permite estudiar si la interacción entre los factores nivel de ansiedad y dificultad de la tarea afecta a la variable
dependiente rendimiento de forma diferente a como lo hace cada factor por separado.
Una ventaja de los diseños de dos factores sobre los diseños de un factor es que necesitan menos sujetos para
alcanzar la misma potencia (ya que se combinan los niveles de las 2 vv independientes). Pero la ventaja
verdaderamente importante de los diseños factoriales radica en el hecho de que el estudio simultáneo de más
de un factor permite determinar, no ya solo el efecto individual de cada factor sobre la variable dependiente,
sino, además, si la interacción entre los factores modifica el efecto individual que cada factor tiene por
separado.
Un diseño 3 x 5 es un diseño de dos factores (A y B), el primero (A) con tres niveles y el segundo (B) con cinco
niveles.
7.1. La interacción entre factores
Los efectos que interesa analizar en un modelo de dos factores completamente aleatorizados son tres: los
dos efectos principales (los efectos de cada factor individualmente considerado, A y B) y el efecto de la
interacción entre ambos factores (el efecto conjunto o combinado de ambos factores, A*B). Los efectos
principales se definen y analizan tal como se ha explicado en el capítulo anterior al estudiar el modelo de un
factor mientras que efecto de la interacción requiere una atención especial.
El concepto de interacción entre factores admite varias formulaciones, todas ellas equivalentes: desde un
punto de vista no formal, decimos que existe interacción entre dos factores cuando el efecto de uno de ellos
sobre la variable dependiente no es el mismo en todos los niveles del otro factor, pero también podemos
afirmar que existe interacción cuando el resultado de la combinación de dos factores difiere de la suma de los
efectos principales de esos factores.
Si no hay interacción, el efecto conjunto de los dos factores sobre la variable dependiente no difiere del efecto
individual de cada factor por separado. Por el contrario, si hay interacción, el efecto conjunto de los dos
factores sobre la variable dependiente difiere de la suma de los efectos individuales de los factores.
Ejemplo: Supongamos que el factor A es tipo de tratamiento (a1: tto convencional y a2: tto nuevo)y que el
factor B se refiere a 3 variantes de una misma enfermedad (b1: tipo 1, b2: tipo 2, y b3: tipo 3). Supongamos
que las medias más altas indican que el tratamiento funciona mejor. Al medir el efecto de los tratamientos
hemos encontrado los resultados (medias) siguientes:
En el primer caso (diseño sin interacción), la media que se obtiene con el tratamiento convencional (a1) es más
alta que la que se obtiene con el nuevo tratamiento (a2) y esta pauta se repite con todas las variantes de la
enfermedad (en la tabla: 6>4 en el marginal de a, y 6>4, 5>3 y 7>5 en cada uno de los niveles de b) . Por tanto,
el tratamiento convencional (a 1) es mejor que el nuevo tratamiento (a2) independientemente de la variante
de la enfermedad tratada. La ausencia de interacción en el gráfico queda reflejada en el hecho de que las líneas
que unen las medias son paralelas entre cada dos niveles del eje horizontal (las líneas definen perfiles
idénticos).
En el caso de la segunda tabla (diseño con interacción), el efecto global de los dos tratamientos es el mismo
(en la tabla, ambas medias marginales valen 5), pero este resultado es engañoso precisamente por la presencia
de interacción. El efecto de los tratamientos está condicionado por la variante de la enfermedad tratada: con
las variantes 1 y 3, el tratamiento convencional (a1) consigue mejores resultados que el nuevo tratamiento
(a2) pero con la variante 2, es el nuevo tratamiento el que consigue mejores resultados. Por tanto, el efecto
de los tratamientos cambia cuando cambia la variante de la enfermedad tratada. La presencia de interacción
queda reflejada en el gráfico en el hecho de que las líneas que unen las medias no son paralelas (definen
perfiles distintos).
7.2. ANOVA de dos factores completamente aleatorizados (AB-CA)
Ya hemos señalado que, en un modelo de dos factores, los efectos que interesa analizar son tres: el efecto
individual del factor A o efecto principal de A, (2) el efecto individual del factor B o efecto principal de B y (3)
el efecto conjunto de los factores A y B o efecto de la interacción AB.
En este escenario es posible identificar varios tipos de variabilidad. Comencemos con las dos que ya nos
resultan familiares:
- La variabilidad intragrupos o variabilidad que existe dentro de cada muestra (en el ejemplo anterior, 6
grupos en total a1b1, a1b2, a1b3, a2b1, a2b2 y a2b3); en este tipo de ANOVA también se la llama varianza
error o residual
- La variabilidad intergrupos o variabilidad que existe entre las diferentes muestras: en esta ocasión,
esta variabilidad intergrupos no nos sirve de mucho porque contiene, mezclados, los tres efectos que
nos interesa analizar (A, B y AB). Para poder cuantificar cada una de estas fuentes de variabilidad es
necesario aislarlas identificando qué parte de la variabilidad intergrupos corresponde a cada una de
ellas. En el modelo de un factor (capítulo anterior) hemos utilizado la variabilidad existente entre las
medias muestrales para obtener una estimación de la varianza poblacional de Y que, además, servía
como una cuantificación del grado de parecido existente entre las medias. Aplicando ahora la misma
lógica al modelo de dos factores, la variabilidad entre las J medias de los niveles del factor A y la
variabilidad entre las K medias de los niveles del factor B, no solo permiten cuantificar el grado de
parecido existente entre las medias de los J niveles de A y entre las medias de los K niveles de B, sino
que pueden utilizarse para obtener sendas estimaciones de la varianza poblacional de Y.
Un estadístico F significativo indica que los promedios comparados no son iguales, pero no permite concretar
qué promedios difieren de qué otros. Para esto es necesario llevar a cabo comparaciones múltiples. Y en el
caso de la interacción, además de realizar comparaciones múltiples, es necesario recurrir a gráficos de perfil
para precisar su significado. Más adelante, en el apartado Comparaciones múltiples, veremos cómo hacer todo
esto.
a) Supuestos del ANOVA de dos factores:
Estos supuestos, si se cumplen, permiten tomar decisiones respecto al valor del estadístico F se puede
asumir una distribución muestral conocida. Dicho de otra forma, al cumplirse se garantiza que la probabilidad
de cometer errores Tipo I y II es la que estamos asumiendo que es y no otra.
Los supuestos son: independencia, normalidad y homocedasticidad (= “muestras aleatorias procedentes de

poblaciones normales con la misma varianza”).
b) Efectos fijos y aleatorios
Hasta ahora, en todo momento hemos asumido que los dos factores del diseño son de efectos fijos
(Modelo 1). Si los dos factores son de efectos aleatorios, decimos que el modelo es de efectos aleatorios
(Modelo II). Y si uno de los factores es de efectos fijos y el otro de efectos aleatorios, decimos que el modelo
es de efectos mixtos (Modelo III).
Esta clasificación tiene su importancia porque la forma de obtener los estadísticos F viene condicionada por el
tipo de modelo utilizado (el valor de las medias cuadráticas no cambia, pero si cambian las medias cuadráticas
que intervienen en la obtención de cada estadístico F).
Los grados de libertad de cada estadístico F son los grados de libertad de las medias cuadráticas en las que se
basan. Por tanto, los grados de libertad del numerador de todos los estadísticos F son los mismos en los tres
modelos, pues las medias cuadráticas del numerador son las que corresponden a cada efecto; pero los grados
de libertad del denominador cambian dependiendo de la media cuadrática que interviene.
c) Medidas del tamaño del efecto
Una F significativa no necesariamente se corresponde con un efecto importante o un resultado

relevante desde el punto de vista teórico o práctico. Para detectar un efecto o resultado de ese tipo utilizamos
medidas del tamaño del efecto: un estadístico F significativo indica que existe algún tipo de relación; una
medida del tamaño del efecto intenta cuantificar la magnitud de esa relación.
Una forma de cuantit1car el tamaño del efecto consiste en estimar la proporción de varianza compartida. Esto
puede hacerse, por ejemplo, con la medida de asociación eta-cuadrado. Ahora bien, en un modelo de dos
factores hay tres efectos distintos (A, B y AB): podemos obtener, por un lado, una medida global de la
proporción de varianza compartida (una medida basada en todos los efectos tomados juntos) y, por otro, una
medida individual de cada efecto por separado (eta-cuadrado parciales).
Ejemplo: en un estudio inicialmente diseñado para evaluar la relación entre el nivel de ansiedad y el
rendimiento se ha incluido una nueva variable: la dificultad de la tarea. Muestra aleatoria de 30 sujetos
repartidos, también aleatoriamente, en 6 grupos del mismo tamaño. Cada grupo ha realizado la prueba de
rendimiento bajo una de las seis condiciones resultantes de combinar dos niveles de dificultad (fácil, difícil) con
tres de ansiedad (bajo, medio, alto). El rendimiento se ha medido aplicando una escala de 0 a 20 puntos. El
objetivo del estudio es valorar qué impacto tiene sobre el rendimiento la dificultad de la tarea, el nivel de
ansiedad y la interacción entre la dificultad de la tarea y el nivel de ansiedad (alfa= 0,05).
Suponemos que se obtiene significación en F del factor A, F del factor B y F para la interacción A*B. Ante esta
situación, calculamos el tamaño del efecto y obtenemos, cómo medida global, un eta-cuadrado= 0,63 → Este
valor indica que el conjunto de efectos presentes en el modelo (la dificultad de la tarea, el nivel de ansiedad y
la interacción entre la dificultad y la ansiedad) comparten el 63% de la varianza del rendimiento. Por tanto,
nuestro conocimiento del rendimiento de los sujetos mejora un 63% cuando conocemos su nivel de ansiedad y
la dificultad de la tarea que realizan.
Y para obtener una estimación del tamaño de cada efecto (A, B y AB) calculamos las estimaciones parciales
(en el denominador no se utiliza la variabilidad total, sino la de cada efecto y la del error): eta-cuadrado parcial
Volviendo con el ejemplo, imaginemos que obtenemos un eta-cuadrado del factor B = 0,48 → Este valor indica
que el nivel de ansiedad (factor B) comparte el48% de la varianza del rendimiento. Por tanto, saber cuál es el
nivel de ansiedad de los sujetos permite mejorar un 48% nuestro conocimiento del rendimiento.
Aunque esta forma de estimar el tamaño de un efecto está muy extendida (es, por ejemplo, la que utiliza el
SPSS), lo cierto es que las estimaciones que se obtienen con eta-cuadrado (tanto si son parciales como si no)
contienen un sesgo importante (suele ofrecer estimaciones infladas de la verdadera proporción de varianza
compartida). Algunas correcciones pueden atenuar este sesgo (ver capítulo anterior), pero, en lugar de aplicar
estas correcciones, suele ser más recomendable utilizar la medida de asociación omega-cuadrado (su valor
concreto depende de si los factores son de efectos fijos o de efectos aleatorios). Cohen (1988) ha propuesto
una especie de regla general para interpretar el tamaño de omega-cuadrado que puede resultar útil en muchos
contextos aplicados: valores en torno a 0,01, 0,06 y 0,14 indican, por lo general, asociaciones de intensidad
baja, media y alta, respectivamente. Si el estadístico F es menor que 1, omega-cuadrado asumirá el valor cero
(puesto que se basa en una proporción i una proporción nuca puede ser negativa)
Al igual que para el modelo de un factor (ver capítulo anterior), Cohen (1988) ha propuesto, para el modelo de
dos factores, una medida del tamaño del efecto basada en una tipificación de la diferencia entre los promedios
comparados: f de cohen, que guarda una estrecha relación con omega-cuadrado. Siguiendo la regla ya
conocida, valores en torno a 0,10, 0,25 y 0,40 representan, respectivamente, efectos de tamaño pequeño,
mediano y grande.
d) Cálculo de la potencia y del tamaño muestral
Al igual que en el capítulo anterior, la estrategia propuesta en este apartado para calcular la potencia se basa
en una medida del tamaño del efecto llamada phi y en la distribución F no centrada; donde el valor del
parámetro phi es una transformación del parámetro de no centralidad lambda, que sigue la lógica del capítulo
anterior. La única diferencia es que, ahora, no tenemos un único efecto, sino tres. Y cada efecto (por tanto,
cada estadístico F) tiene asociado un parámetro de no centralidad y, consecuentemente, un valor phi.
Con esos cálculos encontraremos una probabilidad de cometer un error tipo II, a partir de la cuál (teniendo en
cuenta los g.l.) podremos saber el valor de la potencia observada. También podremos conocer el tamaño
muestral necesario para lograr una determinada potencia (…).
7.3. Comparaciones múltiples
Los estadísticos FA, FB y FAB permiten valorar los efectos globales de A, B y AB, respectivamente, y decidir
cuál de ellos es estadísticamente significativo. El rechazo de la hipótesis nula referida al efecto del factor A
indica que las medias poblacionales correspondientes a los niveles de ese factor no son iguales, pero no
permite precisar qué media en concreto difiere de qué otra (este problema es el mismo que nos hemos
encontrado en el capítulo anterior al estudiar el modelo de un factor). Lo mismo vale decir del efecto de B y
de su hipótesis nula. Y el rechazo de la hipótesis nula referida al efecto de la interacción indica que el efecto
combinado de los factores A y B difiere de la suma de los efectos individuales de ambos factores, pero no
permite precisar cuál es el significado de esa diferencia. Por tanto, en los tres casos (A, B y AB), el rechazo de
la correspondiente hipótesis nula está delatando la presencia de un efecto significativo sin llegar a precisar la
naturaleza o el significado del mismo.
Tanto para conocer con exactitud qué niveles de un factor difieren de qué otros como para poder entender el
significado de una interacción significativa, es necesario seguir adelante con el análisis realizando
comparaciones múltiples.
A los efectos individuales de A y B los hemos llamado efectos principales. Al efecto combinado de A y B lo
hemos llamado efecto de la interacción.
En nuestro ejemplo sobre la relación entre la dificultad de la tarea (fácil, difícil), el nivel de ansiedad (bajo,
medio, alto) y el rendimiento, el efecto de la dificultad de la tarea es un efecto principal; el efecto del nivel de
ansiedad es un efecto principal; y el efecto combinado de la dificultad de la tarea y el nivel de ansiedad es el
efecto de la interacción.
Para entender el significado de la interacción entre factores es necesario definir un nuevo tipo de efectos
llamados efectos simples, los cuales se refieren al efecto de un factor en cada uno de los niveles del otro. El
efecto de la dificultad de la tarea en un nivel concreto de ansiedad (por ejemplo, nivel bajo) es un efecto simple.
Volveremos sobre esto enseguida.
a) Efectos principales
Para realizar comparaciones múltiples con los niveles del factor A y con los niveles del factor B no es
necesario aprender nada nuevo. Todos los procedimientos estudiados en el capítulo anterior para realizar
comparaciones múltiples con un factor (Dunn-Bonferroni, Dunnet, Tuckey, Scheffé, etc.) son aplicables a cada
uno de los efectos principales de un diseño factorial completamente aleatorizado, puesto que únicamente hay
que tener en cuenta unas sencillas modificaciones que afectan a las ecuaciones que no vamos a ver aquí.
Es importante tener en cuenta que el significado de un efecto principal está condicionado por el efecto
de la interacción. Aunque volveremos sobre esta cuestión, conviene empezar a tomar conciencia de un hecho
que no siempre es correctamente tenido en cuenta: Cuando no existe interacción, los efectos principales
agotan toda la información del diseño. Pero el hecho de que el efecto de la interacción sea significativo lo
cambia todo. Una interacción significativa acapara todo el protagonismo del diseño relegando los efectos
principales a un segundo plano.
Para entenderlo mejor, puede pensarse en ejemplo inicial del tema, sobre el tratamiento a1 (tto convencional)
y a2 (tto nuevo), aplicados en una enfermedad con tres tipos de variantes – caso en que había interacción – 2ª
tabla y 2º gráfico –)→ en este caso, la interpretación de los efectos principales al margen de la interacción
conlleva una interpretación errónea de lo que está ocurriendo.
En el ejemplo sobre la relación entre el rendimiento (V. dependiente), la dificultad de la tarea (factor A) y el
nivel de ansiedad (factor B) … Vemos los datos en la tabla, en cada celda se puede ver la media de cada grupo
de sujetos y la varianza entre paréntesis.
Imaginemos que el efecto de la interacción no fuera

significativo. Si ése fuera el caso, el resultado
obtenido con el factor A (dificultad de la tarea)
estaría indicando que el rendimiento medio es más
alto con tareas fáciles (media=12) que con tareas
difíciles (media=10). Y el resultado obtenido con el
factor B estaría indicando que el rendimiento medio es más alto cuando el nivel de ansiedad es medio
(media=14) que cuando es bajo (media= 10) o alto (media=9).
Sin embargo, con estos mismos datos, si el efecto de interacción SÍ fuera significativo, entonces no podríamos
afirmar que el rendimiento con las tareas fáciles es mejor que con las tareas difíciles (efecto principal de la
dificultad) pues esto depende del nivel de ansiedad; y, por otro lado, tampoco es podríamos afirmar que el
rendimiento es mejor cuando el nivel de ansiedad es medio que cuando es bajo o alto (efecto principal de la
ansiedad) porque esto depende de la dificultad de la tarea.
Volveremos sobre este importante aspecto del análisis en el apartado “Efecto de la interacción” (más abajo).
b) Efectos simples
Un efecto simple es el efecto de un factor cuando únicamente se tiene en cuenta un único nivel del
otro factor.
Consideremos un diseño 2 x 3 como el de nuestro ejemplo. Para valorar el efecto del factor A – efecto principal
– se comparan las medias de sus dos niveles, es decir las medias de las filas (a1=12 y a2=10). La diferencia entre
estas medias representa el efecto principal del factor A (12-10=2).
Un efecto simple consiste en esto mismo pero referido a un único nivel de B. Por ejemplo, la diferencia entre
las medias de A en b1: (13-7=6) → esto sería: efecto simple de A en b1; y así, diferencia entre las medias de un
factor (A) para cada uno de los niveles del factor B (b1, b2 y b3). Y exactamente lo mismo valdría decir del
factor B: las diferencias entre las medias de los niveles del factor B en el primer nivel de A (a1) constituyen el
efecto simple de B en a1, etc.
Estos efectos pueden evaluarse de la forma convencional contrastando la hipótesis nula de igualdad de medias,
equivalente a realizar un ANOVA I para cada uno de los efectos simples.
El análisis de los efectos simples únicamente tiene sentido cuando el efecto de la interacción AB es significativo.
Según veremos en el siguiente apartado, una interacción significativa implica que los efectos simples de A
(también los de B) no son iguales entre sí, de ahí que tenga sentido estudiarlos para valorar cómo difieren.
Pero si la interacción no es significativa, no hay motivo para analizar los efectos simples: todos ellos dirán lo
mismo que el correspondiente efecto principal.
Conviene llamar la atención sobre dos cuestiones relativas al análisis de los efectos simples.
- La primera de ellas tiene que ver con el control de la tasa de error: A pesar de que el análisis de los
efectos simples implica llevar a cabo varias comparaciones, el procedimiento propuesto no incorpora
ningún mecanismo de control de la tasa de error. Cuando los factores tienen dos o tres niveles, esto
no es un problema importante porque el número de efectos que se analizan es muy pequeño, pero
cuando los factores tienen más niveles, la falta de control sobre la tasa de error puede convertirse en
un problema serio. Aunque no existe un acuerdo generalizado acerca de cuál es la mejor manera de
controlar la tasa de error cuando se analizan efectos simples, siempre cabe la posibilidad de controlar
la tasa de error por familia de comparaciones aplicando la corrección de Bonferroni.
- La segunda cuestión tiene que ver con las posibilidades que surgen cuando un efecto simple es
declarado significativo. Afirmar que el efecto de A en b1 es significativo es lo mismo que decir que los
promedios comparados en Ho (comparación de a1b1 con a2b1) no son iguales. En nuestro ejemplo,
como el factor A solamente tiene dos niveles, no es necesario hacer ningún análisis adicional. Pero la
cosa se complica si un efecto incluye más de dos medias (p.ej. efecto de B en a1), la Ho estará
comparando 3 medias: a1b1, a1b2 y a1b3, por lo que el rechazo de la hipótesis nula podría estar
exigiendo continuar el análisis para poder determinar qué medias en concreto difieren de qué otras.
Esto podría resolverse mediante la prueba de Dunn-Bonferroni (ver capítulo anterior).
c) Efecto de la interacción
La interacción entre factores ya la hemos definido al comienzo del capítulo. Existe interacción entre
dos factores cuando el efecto de uno de ellos sobre la variable dependiente no es el mismo en todos los niveles
del otro factor. Dicho de otro modo, existe interacción cuando los efectos simples correspondientes a un
mismo efecto principal no son iguales.
De la misma manera que es posible definir comparaciones lineales de un grado de libertad para interpretar un
efecto principal (esto es lo que hacemos, por ejemplo, con las comparaciones planeadas y las de tendencia),
también es posible definir comparaciones lineales de un grado de libertad para conseguir interpretar una
interacción significativa. El número de estas comparaciones puede llegar a ser muy elevado (Abelson y
Prentice, 1997), pero las comparaciones que más ayudan a los investigadores a interpretar una interacción
significativa suelen ser aquellas que permiten comparar entre sí los efectos simples. → es decir: para
interpretar un efecto de interacción significativo, bastará con analizar los distintos efectos simples entre ambos
factores.
Ahora bien, un efecto simple (p. ej A en b1) incluye parte del correspondiente efecto principal (factor A) y parte
del efecto de la interacción (A*B). Esto implica que un efecto simple puede ser significativo porque lo es su
parte de efecto principal, porque lo es su parte de interacción o porque lo son ambas partes.
Por tanto, para comparar entre sí los efectos simples no basta con saber cuáles son significativos y cuáles no.
P.ej.: para comparar entre sí los efectos simples de A (A en b1, A en b2 y A en b3), y decidir si son distintos
entre ellos, no bastará con valorar únicamente si un efecto simple es significativo y otro no. A pesar del uso
generalizado de esta estrategia, lo cierto es que no sirve para aislar el efecto de la interacción. Comparar entre
sí los efectos simples de A requiere:
i. Comparar efecto simple de A en b1 y efecto simple de A en b2.

ii. Comparar efecto simple de A en b1 con efecto simple de A en b3.
iii. Comparar efecto simple de A en b2 con efecto simple de A en b3.
En el siguiente gráfico se representan los datos del ejemplo sobre rendimiento, dificultad de la tarea y nivel de
ansiedad. Los recuadros 1, 2 y 3 que hemos trazado en el gráfico representan los efectos simples de A (dificultad
de la tarea) en cada nivel de B (nivel de ansiedad). Con la comparación i. se intenta averiguar si lo que ocurre
en el recuadro 1 difiere de lo que ocurre en el
recuadro 2; con la comparación ii. se intenta
averiguar si lo que ocurre en el recuadro 1 difiere de
lo que ocurre en el recuadro 3; y con la comparación
iii. se intenta averiguar si lo que ocurre en el recuadro
2 difiere de lo que ocurre en el recuadro 3. Estas tres
comparaciones aíslan el efecto de la interacción y son
independientes del efecto principal de A. Para
contrastar las hipótesis planteadas (i., ii, iii.) puede
utilizarse la prueba de Dunn-Bonferroni en los
términos ya conocidos.
Imaginemos que seguimos con el ejemplo, hacemos los cálculos pertinentes y únicamente encontramos
significación en la comparación ii. → ef efecto simple de A en b1 difiere del efecto simple de A en b3 → visto en
el gráfico, esto sería: “lo que ocurre en el recuadro 1 no es lo mismo que lo que ocurre en el recuadro 3. → Y lo
que esto quiere decir es que el efecto de la dificultad de la tarea sobre el rendimiento (efecto de A) no es el
mismo cuando el nivel de ansiedad de los sujetos es bajo (b,) que cuando es alto (b2).
En la tabla de medias que aparece más arriba (apartado a, sobre efectos principales) se puede observar que,
cuando el nivel de ansiedad es bajo (b1), el rendimiento en las tareas fáciles es 6 puntos mayor que en las
difíciles; mientras que, cuando el nivel de ansiedad es alto (b3), el rendimiento medio en las tareas fáciles es 2
puntos menor que en las difíciles. El rechazo de la Ho de esta comparación (ii.) indica que la diferencia entre
estas diferencias (los 8 puntos de la comparación ii.) es estadísticamente significativa.
Los resultados del análisis también indican que no es posible afirmar que el efecto simple de A en b1, difiera del
efecto simple de A en b2 (comparación i. no significativa); y tampoco es posible afirmar que el efecto
simple de A en b2 difiera del efecto simple de A en b3 (comparación iii. no significativa).
A continuación, se recopilan 3 aspectos importantes de los vistos hasta ahora en relación a la interacción:
- El efecto de la interacción puede ser significativo tanto si los efectos principales son significativos como
si no lo son. Y al revés.
- Es importante recordar que los efectos simples no informan de lo mismo que el efecto de la
interacción. Interpretar la interacción requiere comparar efectos simples; pero, analizar los efectos
simples y decidir que difieren cuando unos son significativos y otros no, no equivale comparar los
efectos simples.
- Es importante saber qué hacer con los efectos principales en presencia de una interacción significativa:
dado que una interacción significativa está indicando que el efecto de un factor no es el mismo en
todos los niveles del otro factor, puede afirmarse que el significado de los efectos principales queda
matizado (incluso alterado) por la presencia de una interacción significativa*6. El grado en que un
efecto principal puede verse alterado por la presencia de una interacción significativa depende de
varios factores, pero uno bastante determinante es que las líneas del gráfico de perfiles se crucen
(interacción no ordinal) o no (interacción ordinal).
*6Algunos autores sugieren que, siendo significativa la interacción, todavía podría tener sentido interpretar los
efectos principales en determinadas circunstancias , pero otros muchos recomiendan no prestar atención a los
efectos principales en presencia de una interacción significativa. Cualquiera que sea la postura que se adopte,
lo importante es tener presente que, si el efecto de la interacción es significativo, los efectos principales no
solo no estarán contando toda la historia, sino que, además, es muy posible que la estén contando mal. Y esto
es algo que no debe pasarse por alto.
7.4. Apéndice 7
a) Casillas con tamaños muestrales distintos
Aunque lo habitual es planificar un estudio con la intención de utilizar el mismo número de casos en
todas las condiciones (diseño equilibrado o balanceado), lo cierto es que esta circunstancia raramente se da.
Las razones por las que podemos encontrarnos con tamaños muestrales distintos son de diversa naturaleza:
puede haber descuido del investigador al seleccionar los sujetos o errores al registrar sus respuestas; puede
que algunos sujetos de los seleccionados no ofrezcan respuestas válidas para el estudio; puede que se esté
trabajando con grupos ya formados cuyo tamaño no depende del investigador (estudiantes de un aula); etc.
Cuando se trabaja con tamaños muestrales distintos las inferencias se complican bastante, pues los efectos de
A, B y AB dejan de ser independientes entre sí; no obstante, todavía es posible analizarlos: la solución pasará
por calcular las medias marginales sin tener en cuenta el tamaño de las casillas (…)
b) La sentencia LMATRIX:
Función del programa SPSS que permite efectuar cualquier tipo de comparación mediante sintaxis:
permite valorar la significación de los efectos simples, realizar comparaciones entre los diferentes niveles de
un mismo efecto simple para precisar dónde están las diferencias, realizar comparaciones entre diferentes
efectos simples para interpretar el efecto de la interacción, etc.
c) Modelos jerárquicos o anidados
En el diseño estudiado en este capítulo (dos factores completamente aleatorizados), todos los niveles del
factor A se combinan con todos los niveles del factor B. → Estos diseños se llaman de clasificación cruzada.
En los diseños de clasificación jerárquica, uno de los factores está anidado en el otro factor: esto significa que
los niveles de uno de los factores no son los mismos en cada nivel del otro factor. La peculiaridad de este tipo
de diseños es que no permiten valorar el efecto de la interacción.
TEMA 8. ANÁLISIS DE VARIANZA (III). UN FACTOR CON MEDIDAS REPETIDAS
A los modelos que vamos a estudiar en este capítulo y en el siguiente se les llama de medidas repetidas
(MR) porque se utilizan los mismos sujetos en más de una condición (bloques aleatorios).
Consideremos un estudio diseñado para conocer la opinión de los consumidores sobre cinco productos rivales.
Podemos seleccionar al azar tantos grupos de sujetos como productos (cinco) y hacer que cada grupo opine
sobre un producto; al proceder de esta manera tenemos un diseño con un factor (tipo de producto, con cinco
niveles) completamente aleatorizado (tantos grupos de sujetos como niveles tiene el factor). En lugar de esto,
podemos seleccionar un único grupo y pedir a cada sujeto que exprese su preferencia por cada uno de los
cinco productos; seguimos teniendo un factor (tipo de producto), pero con medidas repetidas (un único grupo
de sujetos opina sobre todos los productos). En este capítulo estudiaremos el modelo de un factor con medidas
repetidas (A-MR). En el siguiente estudiaremos los modelos de dos factores.
8.1. Características de los diseños con medidas repetidas
Trabajar con medidas repetidas significa trabajar con dos o más variables cuantitativas. Estas variables
pueden obtenerse de diferentes maneras. La más habitual consiste en tomar varias medidas a los mismos
sujetos, ya sea midiendo dos o más variables distintas (por ejemplo, calificaciones en lengua, matemáticas e
inglés), ya sea midiendo la misma variable en varios momentos distintos (por ejemplo, el peso antes de
participar en un programa de adelgazamiento, al terminar el programa y al cabo de un mes de terminado el
programa).
También se obtienen medidas repetidas cuando, en lugar de utilizar los mismos sujetos, se utilizan bloques de
sujetos igualados mediante algún tipo de vinculo relevante para el análisis (bloques aleatorios). Por ejemplo,
en un estudio diseñado para comparar tres métodos de enseñanza de las matemáticas, se pueden formar
bloques de tres sujetos con el mismo cociente intelectual y asignar cada sujeto del mismo bloque a un método
distinto. Aunque los sujetos del mismo bloque son distintos, el hecho de que sean homogéneos en una
característica relevante para el análisis permite considerar cada bloque como unidad de análisis (p.ej. al igual
que haríamos si tratáramos con los dos miembros de una pareja; en este caso se ve claramente que se trata
de medidas relacionadas).
Tanto si se utilizan los mismos sujetos como si se utilizan bloques de sujetos igualados, lo que caracteriza a las
medidas repetidas es que no son independientes entre sí; y no lo son porque, tanto en el caso de puntuaciones
pertenecientes a los mismos sujetos como en el de puntuaciones pertenecientes a sujetos igualados, el
conocimiento de una de las puntuaciones de un sujeto o bloque permite saber algo de las demás puntuaciones
del mismo sujeto o bloque: los buenos estudiantes tienden a obtener puntuaciones altas en lengua, en
matemáticas y en inglés; los sujetos que más se benefician de un programa de adelgazamiento tienden a ser
los que mejor mantienen ese beneficio al cabo de un mes; los sujetos con cociente intelectual alto tienden a
aprender mejor con cualquier método de enseñanza; etc.
Los modelos de análisis de varianza con medidas repetidas sirven para valorar el efecto de uno o más factores
cuando al menos uno de ellos es un factor intra-sujetos. En un factor inter-sujetos o completamente
aleatorizados (ver capítulos 6 y 7), cada nivel del factor se asocia a un grupo de sujetos. En cambio, un factor
intra-sujetos o con medidas repetidas se distingue porque todos los niveles del factor se aplican a los mismos
sujetos.
Los términos inter-sujetos e intra-sujetos se aplican tanto a los factores como a los diseños. Los términos
diseño intra-sujetos y diseño con medidas repetidas se refieren al mismo tipo de diseño. El más simple de
todos ellos consiste en medir dos variables en una misma muestra de sujetos, que es lo que hemos hecho al
aplicar la prueba T para muestras relacionadas. Pero los diseños de medidas repetidas pueden tener más de
dos medidas y más de un factor.
Las ventajas de los diseños con medidas repetidas son evidentes: requieren menos sujetos que un diseño
completamente aleatorizado y permiten eliminar la variabilidad debida a las diferencias entre los sujetos (pues
se utilizan los mismos). Como contrapartida, los supuestos del análisis se vuelven algo más exigentes
(estudiaremos esto adelante) y es necesario vigilar algunos efectos derivados del hecho de utilizar los mismos
sujetos. Por ejemplo, el efecto de arrastre, que ocurre cuando se aplica una condición antes de que haya
finalizado el efecto de otra aplicada previamente, o el efecto del aprendizaje por la práctica, que ocurre cuando
las respuestas de los sujetos pueden mejorar con la repetición y, como consecuencia de ello, los tratamientos
administrados en último lugar parecen más efectivos que los administrados en primer lugar, sin que haya
diferencias reales entre ellos (cuando se sospecha de la presencia de este efecto es importante controlar el
orden de presentación de las condiciones). Conviene conocer las fortalezas y debilidades de estos diseños para
decidir correctamente cuándo utilizarlos.
8.2. ANOVA de un factor con medidas repetidas (A-MR)
Vamos a comenzar con el caso más simple: el modelo de un factor (A-MR). Este modelo sirve para analizar
los datos procedentes de un diseño con un solo grupo de sujetos y un (mico factor por cuyos niveles pasan
todos los sujetos. Se trata de una generalización de la prueba T de Student para muestras relacionadas al caso
de más de dos variables (más de dos medidas repetidas).
Ejemplo: pensemos en un estudio diseñado para valorar el efecto del paso del tiempo sobre la calidad del
recuerdo. A un grupo de sujetos se les hace memorizar una historia. Más tarde, al cabo de una hora, de un día,
de una semana y de un mes, se les pide que intenten reproducir la historia. Un grupo de expertos evalúa la
calidad del recuerdo de cada sujeto en cada momento. Tenemos un factor (al que podemos llamar tiempo) con
cuatro niveles (los cuatro momentos en los que se registra el recuerdo) y una variable dependiente (la calidad
del recuerdo) de la que se toman cuatro medidas.
Supongamos que la variable cuantitativa Y se distribuye normalmente en las poblaciones estudiadas (se
considera una población para cada uno de los niveles del factor) y que todas ellas tienen la misma varianza. Y
supongamos que, de cada una de esas poblaciones, extraemos una muestra den observaciones con la
particularidad de que esas observaciones no son independientes entre sí porque pertenecen a los mismos
sujetos o a bloques de sujetos igualados. En este escenario es posible identificar varios tipos de variabilidad:
La variabilidad total recoge la variabilidad entre cada observación y la media total. Se puede descomponer en
tres fuentes de variabilidad:
- (1) Variabilidad intergrupos: la que se da entre los diferentes niveles del factor, también llamada intra-
suetos por ser la variabilidad entre las puntuaciones de los mismos sujetos.
- (2) Variabilidad intersujetos: la que se da entre los diferentes sujetos
- (3) Variabilidad error: la que se da entre cada observación y sus respectivas medias marginales (es
decir, la variabilidad de cada observación individual respecto de la media de su misma fila y columna);
a esta forma de variabilidad la llamamos variabilidad error porque representa el alejamiento de cada
puntuación respecto de lo esperado en función de sus valores marginales.
La diferencia entre el modelo completamente aleatorizado (CA) y el de medidas repetidas (MR) está
únicamente en la variabilidad intersujetos. Recordemos que, en el modelo CA, la variabilidad total se
descompone en dos fuentes de variabilidad: intergrupos y error. Ahora, en el modelo MR, la variabilidad total
se descompone en tres fuentes de variabilidad: intergrupos, intersujetos y error. Puesto que las variabilidades
total e intergrupos son idénticas en ambos modelos, la variabilidad error es menor en el modelo MR que en el
CA en la cantidad correspondiente a la variabilidad intersujetos. Cómo de grande es esa cantidad es algo que
depende del grado de relación existente entre las medidas repetidas. Si la relación es alta, también lo será la
variabilidad intersujetos, pues los sujetos que tienden a puntuar bajo (o alto) en una medida tenderán a
puntuar bajo (o alto) en las demás y las medias de los sujetos serán distintas. Pero si las medidas repetidas son
independientes, la variabilidad intersujetos será pequeña, pues los sujetos tenderán a puntuar indistintamente
bajo y alto en las diferentes medidas y sus medias serán parecidas. Por tanto, si las medidas repetidas no están
relacionadas, no se obtendrá ningún beneficio aplicando un modelo MR (es decir, no se conseguirá reducir la
variabilidad error debida a las diferencias entre los sujetos y, consecuentemente, no habrá diferencia entre
aplicar un modelo CA y un modelo MR).
Estas tres fuentes de variabilidad pueden cuantificarse aplicando la lógica ya utilizada a propósito del modelo
de un factor Completamente Aleatorio. Así, la variabilidad intergrupos o intrasujetos, que se refiere a las
diferencias existentes entre las medias de las diferentes medidas (niveles del factor), puede cuantificarse
mediante la varianza o media cuadrática intergrupos, etc.
a) Supuestos del modelo
Se asume independencia, normalidad e igualdad de varianzas (ver cap. 6). La diferencia está en que,
ahora, la independencia se refiere a los distintos sujetos o bloques, no a las puntuaciones dentro del mismo
sujeto o bloque, las cuales están evidentemente relacionadas.
Además de estos tres supuestos, también se asume la independencia (o aditividad) entre el factor y los
sujetos (o bloques). Esto sería, que el efecto del factor no depende de los sujetos o bloques a los que se aplica
(la interacción factor*sujeto se considera error). Dicho de otro modo, se asume que los sujetos o bloques son
independientes de las medidas repetidas; es decir, que el factor se combina aditivamente (no interacciona)
con los sujetos o bloques. Esto implica asumir que el efecto del factor no depende de los sujetos o bloques
concretos incluidos en el análisis y, consecuentemente, que en una réplica del mismo estudio con distintos
sujetos debería obtenerse el mismo efecto. Para contrastar este supuesto, Tukey (1949) ha ideado un
procedimiento conocido como prueba de no-aditividad.
Y como ya hemos dicho, la variabilidad debida a la interacción entre el factor y los sujetos se está considerando
variabilidad error (variabilidad no explicada ni por el efecto del factor ni por las diferencias entre los sujetos o
bloques). DE hecho, se considera que, en este escenario, la variabilidad error incluye dos componentes: (1) el
relacionado con la interacción entre el factor y los sujetos o componente de no-aditividad y (2) un segundo
componente formado por el resto de fuentes de variabilidad error (los factores no tenidos en cuenta, los
errores de medida, etc.).
Para contrastar este supuesto utilizaremos la prueba de no-aditividad de Tukey, en la que la Ho recoge la
aditividad o independencia y la H1 la no aditividad. Para el contraste se utiliza el estadístico F. El rechazo de la
hipótesis de aditividad (Ho) indica que no es razonable asumir independencia entre las medidas repetidas y los
sujetos o bloques y, consecuentemente, que el modelo aditivo podría no ser el más apropiado.
El estadístico propuesto (F) es sensible a un tipo particular de no-aditividad. En concreto, a situaciones en las
que las medidas repetidas van aumentando o disminuyendo, pero no lo hacen de la misma forma en todos los
sujetos o bloques. Por tanto, el no rechazo de la hipótesis de aditividad no es garantía de que las medidas
repetidas sean independientes de los sujetos o bloques. No obstante, es una buena forma de comenzar, pues
el no rechazo de la hipótesis de aditividad indica que no existe evidencia de que las formas habituales de no-
aditividad estén presentes en los datos.
Otro supuesto adicional para las medidas repetidas es la esfericidad (o circularidad), que consiste en que las
varianzas de las diferencias son iguales. Pero… ¿a qué se refiere con las varianzas de las diferencias?
Retomemos nuestro ejemplo sobre estudio para valorar la calidad del recuerdo en distintos momentos
temporales. En este caso, la variable “tiempo” se ha organizado de forma ordinal con 4 niveles (momentos
temporales distintos: 1 hora, 1día, 1 semana y 1 mes) → El factor tiempo (A) tiene 4 niveles: a1, a2, a3 y a4.
Pues bien, ahora imaginemos que queremos estudiar las diferencias entre cada par de medias. Para cada par
de medias se calculará la diferencia entre las dos puntuaciones de cada sujeto (o bloque), esto sería: a1-a2,
a1-a3, a1-a4, a2-a3, a2-a4, a3-a4→ obtendremos 6 grupos de datos distintos, uno para cada una de estas 6
comparaciones entre dos medias. Estos grupos de datos tendrán una varianza (en este caso, 6 varianzas). El
supuesto de esfericidad supone, siguiendo el ejemplo, que esas 6 varianzas serán iguales.
El cumplimiento de la esfericidad es la condición necesaria y suficiente para que el estadístico F se distribuya

como asumimos que se distribuye.
La esfericidad es un concepto complejo que atañe a la que la matriz de varianzas-covarianzas de las medidas
repetidas, que se supone que ha sea esférica. Del supuesto de aditividad unido al de igualdad de las varianzas
(homocedasticidad), se deduce en la matriz de varianzas y covarianzas, que las varianzas son iguales e iguales
también las covarianzas → Esta característica de la matriz se denomina simetría compuesta y es condición
suficiente para que F se distribuya según el modelo de probabilidad conocido asociado a este cociente. Sin
embargo, la simetría compuesta es una condición más exigente de lo necesario para cumplir el supuesto de
esfericidad, que únicamente requiere, como se ha dicho más arriba, que las varianzas de las diferencias sean
iguales.
En condiciones de normalidad y esfericidad, el cociente F permite contrastar la hipótesis de igualdad de medias

con buen control sobre la tasa de error y con tanta o más potencia que cualquier otro procedimiento.
Pero ocurre que, cuando se trabaja con medidas repetidas, la esfericidad es más la excepción que la regla.
Cuando las medidas repetidas se obtienen tomando varias medidas en el tiempo, lo habitual es que las
correlaciones entre las medidas que se encuentran más próximas en el tiempo sean más altas que las
correlaciones entre medidas más alejadas y esto dificulta el cumplimiento del supuesto de esfericidad. Pero,
además, cuando las medidas repetidas se obtienen midiendo distintas variables en el mismo momento, no es
infrecuente encontrar que unas variables son más dispersas que otras. Por tanto, en el contexto de las ciencias
sociales y de la salud, raramente el estadístico F será la solución idónea para analizar los datos provenientes
de un diseño de medidas repetidas. Por lo general, será preferible utilizar alguno de los procedimientos
diseñados para poder lidiar con el incumplimiento del supuesto de esfericidad.
b) Alternativas al estadístico F
En condiciones de no-esfericidad, el estadístico F se vuelve liberal (aumenta la probabilidad de cometer

errores tipo I) y esto puede afectar seriamente a las conclusiones basadas en el rechazo de la hipótesis de
igualdad de medias. Por tanto, antes de elaborar conclusiones basadas en el rechazo de esta hipótesis, es
importante asegurarse de que puede asumirse la esfericidad. Para esto existen varios procedimientos; el más
popular (aunque no el más recomendable) es, quizá, el propuesto por Mauchly (1940).
La mayoría de los procedimientos disponibles para chequear el supuesto de esfericidad son sensibles a la no
normalidad de las poblaciones originales. No obstante, Cornell et al. (1992), tras comparar ocho de estos
procedimientos, han llegado a la conclusión de que el locally best invariant test (John, 1971 y otros) es el más
potente al tiempo que ofrece un buen control sobre la tasa de error.
Entonces… ¿Qué hacer cuando se incumple el supuesto de esfericidad? El procedimiento SPSS ofrece dos
soluciones alternativas: (1) modificar los grados de libertad de la distribución F y (2) utilizar estadísticos
multivariados que no asumen esfericidad. Ninguna solución es sistemáticamente más potente que la otra.
❖ Estadístico F con los grados de libertad modificados
La solución consiste en multiplicar los grados de libertad por un índice corrector, épsilon, (que
expresa el grado de esfericidad de la matriz de varianzas-covarianzas poblacional). Si la matriz es
esférica, el índice corrector vale 1 (valor máximo), y cuanto menos esférica es, menor es su valor.
Esta solución hace el contraste más conservador, tanto más conservador como menos esférica es la
matriz de varianzas y covarianzas.
El problema de esta solución es que el índice corrector épsilon es un parámetro y, por tanto, un valor
desconocido, por lo que hay que hacer una estimación de su valor, normalmente mediante programas
informáticos (este procedimiento recibe el nombre de Geisser-Greenhouse).
❖ Aproximación multivariado
La segunda solución consiste en analizar los datos procedentes de un diseño de medidas

repetidas mediante una serie de estadísticos agrupados bajo la denominación aproximación
multivariada. Para obtener estos estadísticos es necesario recurrir al cálculo matricial. No obstante, el
SPSS ofrece los estadísticos multivariados comúnmente utilizados para este propósito (lamda de Wilks,
T2 de Hotelling-Lawley, raíz mayor de Roy y traza de Pillai) acompañados de sus correspondientes
niveles críticos; y eso es todo lo que se necesita para contrastar la hipótesis de igualdad de medias.
La ventaja principal de estos estadísticos multivariados es que no exigen que la matriz de varianzas-
covarianzas sea esférica (que es la principal fuente de problemas con el estadístico F convencional).
Como contrapartida, aunque en teoría no exigen esfericidad, en condiciones de no-esfericidad, van
perdiendo potencia conforme va disminuyendo el tamaño muestral, hasta el punto de que con
tamaños muestrales pequeños no son nada recomendables.
❖ Qué solución elegir
Las peculiaridades de cada diseño (número de casos, número de medidas repetidas, grado de
cumplimiento o incumplimiento de los supuestos de normalidad y esfericidad, etc.), podrían hacer
preferible alguna solución sobre otra. Pero los pasos propuestos llevarán a una solución aceptable en
términos de potencia y control de la tasa de error.
1) Si puede asumirse esfericidad, utilizar el estadístico F (es la mejor estrategia cuando se cumplen
los supuestos del análisis). Si no puede asumirse esfericidad, continuar con el siguiente paso.
2) Utilizar la aproximación multivariada (solución apropiada con muestras grandes, pero poco
potente con muestras pequeñas). Si se rechaza la hipótesis nula, terminar el análisis; si no se
rechaza, continuar con el siguiente paso.
➢ En algunos casos (por ejemplo, cuando el número de sujetos o bloques es menor que el
número de medidas repetidas) no es posible aplicar la aproximación multivariada. Cuando
ocurre esto, puede utilizarse el estadístico F modificando los grados de libertad con el valor
mínimo o límite inferior del índice corrector (la estrategia más conservadora). Si se rechaza
la hipótesis nula, terminar el análisis; si no se rechaza, continuar con el siguiente paso.
3) Utilizar el estadístico F con los grados de libertad modificados mediante el valor estimado del
índice corrector (mediante Geisser-Greenhouse u otros procedimientos como el de Huynh-Feldt,
aunque ninguna de estas soluciones parece ser sistemáticamente mejor que la otra, la solución
de Greenhouse-Geisser es algo más conservadora). Si se ha llegado hasta aquí, adoptar como
buena la decisión a la que lleve este paso.
c) Medidas del tamaño del efecto
Las medidas del tamaño del efecto propuestas para el modelo completamente aleatorizado (ver
capítulo 6) son válidas también aquí. La medida que acapara las preferencias de los expertos es la versión
parcial de omega-cuadrado. Como ya hemos dicho en otras ocasiones, su valor concreto depende de que el
factor sea de efectos fijos o de efectos aleatorios.
Este estadístico se interpreta como proporción de varianza común o compartida: indica cómo de grande es la
variabilidad entre las medidas repetidas en comparación con la variabilidad total (excluyendo la variabilidad
entre los sujetos). Hablamos de medidas parciales, por contraposición a las medidas completas, que utilizan la
variabilidad total en el denominador. En general, las medidas de asociación parciales son preferibles a las
completas, pues comparan la variabilidad debida al factor con una estimación neta de la variabilidad error. De
nuevo, valores de 0,01, 0,06 y 0,14 indican efectos de tamaños pequeño, mediano y grande.
También se puede utilizar la f de Cohen, con valores de referencia de: 0,10, 025 y 0,40.
Siguiendo el ejemplo, con un omega-cuadrado=0,88 y una f de cohen=2,71, podremos decir que ambos
estadísticos indican que el efecto del paso del tiempo sobre la calidad del recuerdo es de gran tamaño. En
concreto, conocer en qué momento se registra el recuerdo (hora, día, semana, mes) mejora nuestro
conocimiento sobre su calidad un 88%. (en el libro pone 84% pero todo apunta a que se trata de un error)
d) Cálculo de la potencia y del tamaño muestral: es suficiente con conocer la información del cap. 6
e) Comparaciones múltiples
El rechazo de la hipótesis global de igualdad de medias permite afirmar que hay medias que no son
iguales, pero no permite precisar qué medias difieren de qué otras. Para esto es necesario realizar
comparaciones múltiples. En el caso de que pueda asumirse esfericidad, los procedimientos descritos a
propósito del modelo de un factor completamente aleatorizado (ver en el capítulo 6, apartado Comparaciones
múltiples) sirven para el modelo de un factor con medidas repetidas. Únicamente habrá que tener en cuenta
que la media cuadrática error y sus grados de libertad se calculan de forma distinta.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para realizar
comparaciones planeadas o a priori siguen siendo válidos si se tiene la precaución de utilizar unas ecuaciones
específicas propuestas para el caso en que no puede asumirse igualdad de varianzas poblacionales. Y en lo
relativo a las comparaciones post hoc o a posteriori, es preferible estudiar las comparaciones por pares
utilizando la prueba T de Student para muestras relacionadas (ver capítulo 5) corrigiendo la tasa de error por
comparación mediante el método de Dunn-Bonferroni (es decir, dividiendo la tasa de error por familia de
comparaciones, generalmente 0,05, entre el número de comparaciones por pares llevadas a cabo → lo cual
equivale a utilizar la tabla de Dunn-Bonferroni en lugar de la tabla de la distribución t).
8.3. La prueba de Friedman
El estadístico F en el ANOVA asume normalidad y esfericidad. Los estadísticos estudiados en el apartado

Alternativas al estadístico F no asumen esfericidad, pero si normalidad. Y todos ellos requieren trabajar con
una variable dependiente cuantitativa (de intervalos o de razón).
Friedman (1937) ha propuesto un procedimiento que puede aplicarse con datos ordinales (no exige, por tanto,
nivel de medida de intervalos o razón) y, como consecuencia de esto, no requiere asumir normalidad ni
esfericidad. Como contrapartida, únicamente aprovecha información ordinal. En realidad, se trata de una
extensión de la prueba de Wilcoxon para dos muestras relacionadas (ver capítulo 5) al caso de más de dos
muestras relacionadas.
La prueba de Friedman se basa en Xi-cuadrado. Si existen muchos rangos empatados, el estadístico tiene un
comportamiento algo conservador (tiende a rechazar la hipótesis nula de menos de lo que debería). En estos
casos conviene aplicar un término corrector que tiene en cuenta la presencia de empates (aplicable,
solamente, si no estamos pudiendo rechazar Ho de igualdad de medias).
8.4. Apéndice 8
a) Prueba de Cochran
Cuando la variable dependiente o respuesta no sea una variable cuantitativa sino dicotómica
(presencia, ausencia; a favor, en contra; recuperados, no recuperados; cte.). En este escenario, tenemos
variables dicotómicas que siguen estando relacionadas porque se miden en los mismos sujetos o bloques. Y lo
que procede en estos casos no es comparar medias, sino proporciones. El procedimiento para comparar
proporciones relacionadas es una generalización del procedimiento estudiado en el capítulo 3 para el caso de
dos proporciones relacionadas (ver el aparatado simetría con variables dicotómicas: la prueba de McNemar).
b) Coeficiente de concordancia W de Kendall
Sirve para valorar el grado de relación (acuerdo, concordancia) entre más de dos conjuntos de rangos
(para valorar la relación entre dos conjuntos de rangos ya hemos estudiado, por ejemplo, el coeficiente de
correlación de Spearman; ver capítulo 5). La necesidad de estudiar la relación entre más de dos conjuntos de
rangos se presenta con cierta frecuencia en diferentes áreas de conocimiento. Por ejemplo, cuando se clasifica
una muestra aleatoria de sujetos u objetos según varias (más de dos) características; o cuando varios jueces
(más de dos) evalúan, ordenan o clasifican un conjunto de elementos según una característica.
Cuando la relación (acuerdo, concordancia) es máxima, W vale 1; cuando la relación es mínima, W vale 0.
Ejemplo: Imaginemos 3 entrevistadores y 5 aspirantes a un puesto de trabajo. Imaginemos que cada

entrevistador hace un ranking con los cinco aspirantes y que estamos interesados en cuantificar el grado de
acuerdo existente entre los entrevistadores.
TEMA 9. ANÁLISIS DE VARIANZA (IV). DOS FACTORES CON MEDIDAS REPETIDAS
9.1. ANOVA de dos factores con medidas repetidas en ambos (AB-MR)
En el diseño de un factor con medidas repetidas estudiado en el capítulo anterior, todos los sujetos
participan en todas las condiciones del estudio. En el diseño de dos factores, ambos con medidas repetidas
(AB-MR), ocurre exactamente lo mismo: todos los sujetos participan en todas las condiciones del estudio, es
decir, en todas las condiciones resultantes de combinar los niveles de ambos factores
Imaginemos que, para estudiar la relación entre la calidad del recuerdo y el paso del tiempo, a una muestra
aleatoria de sujetos se les hace memorizar dos listas distintas: una de letras y otra de números. Más tarde, al
cabo de una hora, un día, una semana y un mes, se les solicita repetir ambas listas y se registra el número de
aciertos. Tenemos dos factores o variables categóricas: contenido (con dos niveles: números y letras) y tiempo
(con cuatro niveles: hora, día, semana, mes); y una variable dependiente (calidad del recuerdo) que hemos
cuantificado mediante el número de aciertos. Los dos factores son intrasujetos pues a todos los sujetos se les
hace memorizar números y letras, y a todos se les pide hacerlo al cabo de una hora, un día, una semana y un
mes; es decir, todos los sujetos pasan por todas las condiciones del estudio (por todas las condiciones
resultantes de combinar los niveles de ambos factores). Las fortalezas y debilidades de un diseño de estas
características son las mismas que las del diseño de un factor con medidas repetidas. Requiere utilizar menos
sujetos que un diseño completamente aleatorizado y permite aislar y eliminar la variabilidad debida a las
diferencias entre los sujetos (pues todos ellos participan en todas las condiciones del estudio). Como
contrapartida, los supuestos del análisis se vuelven algo más exigentes y es necesario vigilar algunos efectos
derivados del hecho de utilizar los mismos sujetos (como el efecto de arrastre o el efecto del aprendizaje por
la práctica ya comentados anteriormente).
En un modelo de dos factores, los efectos que interesa analizar son tres: los dos efectos principales (es decir,
los efectos de cada factor individualmente considerado, A y B) y el efecto de la interacción entre ambos
factores (es decir, el efecto conjunto o combinado de ambos factores, AB). El hecho de que el diseño sea
completamente aleatorizado o de medidas repetidas no cambia esto.
Y para poder analizar estos tres efectos, es necesario identificar las diferentes fuentes de variabilidad presentes
en el diseño. Ya hemos visto que, en un diseño completamente aleatorizado (CA), la variabilidad total (la
variabilidad que se da entre cada observación y la media total) se descompone en variabilidad intergrupos y
variabilidad intragrupos o error. También hemos visto que en un diseño con medidas repetidas (MR) hay una
forma más de variabilidad: la debida a las diferencias entre los sujetos o variabilidad intersujetos (esta fuente
de variabilidad también existe en un diseño CA, pero no hay forma de aislarla). Además, si el diseño tiene dos
factores (tanto si es CA como si es MR), la variabilidad intergrupos puede descomponerse, a su vez, en la
variabilidad asociada al factor A, la asociada al factor B y la asociada a la interacción AB. Todas estas fuentes
de variabilidad ya las hemos estudiado en alguno de los tres capitulas anteriores.
En esta forma de descomponer la variabilidad total se está asumiendo que los sujetos son independientes del
resto de efectos. Por tanto, las interacciones AxSujetos, BxSujetos y ABxSujetos constituyen variabilidad error.
En el diseño de un factor MR (ver capítulo anterior), la variabilidad error es precisamente la variabilidad
asociada a la interacción entre el factor A y los sujetos. En el diseño de dos factores MR la variabilidad error
también incluye la variabilidad debida a la interacción entre los sujetos y cada uno de los efectos intrasujetos,
es decir, la debida a la interacción entre el efecto de A y los sujetos (AxS), la debida a la interacción entre el
efecto de B y los sujetos (BxS) y la debida a la interacción entre el efecto de AB y los sujetos (A BxS). En
consecuencia, en un diseño de dos factores, ambos con medidas repetidas, la variabilidad total puede
descomponerse en siete fuentes distintas de variabilidad.
Se pueden extrapolar los mismos supuestos que en el ANOVA de medidas repetidas con un solo factor:
poblaciones normales (normalidad) con igualdad de varianzas (homocedasticidad), de las que se extraen
muestras aleatorias de n observaciones (independencia), con la peculiaridad de que las distintas muestras no
son independientes entre sí (bien porque se trata de los mismos sujetos, bien porque se trata de sujetos
igualados mediante algún vínculo relevante para el análisis, como los bloques).
Respecto la esfericidad, se asume que la matriz de varianzas-covarianzas de las medidas repetidas es esférica,
es decir, que las varianzas de las diferencias entre cada par de medidas son iguales (ver, en el capítulo anterior,
los supuestos del modelo de un factor). Si esta matriz global es esférica, los tres estadísticos F (F para factor A,
F para B y F para interacción AB) son válidos para contrastar sus respectivas hipótesis. Sin embargo, si esta
matriz global no es esférica, todavía es posible que exista esfericidad local referida a los niveles del factor A o
a los niveles del factor B.
Por tanto, para decidir aplicar los distintos estadísticos F, conviene chequear el supuesto de esfericidad para
cada efecto por separado. En condiciones de normalidad y esfericidad, estos estadísticos permiten contrastar
sus respectivas hipótesis con buen control sobre la tasa de error y con tanta o más potencia que cualquier otro
procedimiento. En condiciones de no-esfericidad, es recomendable utilizar otros estadísticos como los que se
han visto en el capítulo anterior (apartado de Alternativas al estadístico F).
b) Medidas del tamaño del efecto
Al igual que en otros modelos de ANOVA, la versión parcial de eta-cuadrado permite obtener una
estimación de la proporción de varianza común entre cada efecto y la variable dependiente. No obstante,
puesto que eta-cuadrado tiende a ofrecer una estimación inflada de la verdadera proporción de varianza
compartida, la medida de asociación que tiende a acaparar las preferencias de los expertos para cuantificar el
tamaño de un efecto intrasujetos es omega-cuadrado.
El estadístico omega-cuadrado está estrechamente relacionado con la f de Cohen y, en este apartado,

siguen teniendo los mismos valores de referencia que los expresados con anterioridad: para eta-cuadrado y
omega-cuadrado serían 0,01, 0,06 y 0,14 (pequeño, mediano y grande) y en el caso de la f de cohen sería 0,10,
0,25 y 0,40.
c) Cálculo de la potencia y del tamaño muestral: no se aporta nueva información a saber
d) Comparaciones múltiples
El hecho de que un diseño sea de medidas repetidas no cambia las cosas a la hora de cómo proceder
tras detectar un efecto significativo. En el caso de que resulte significativo un efecto principal (A, B), el análisis
debe continuar comparando los niveles correspondientes a ese efecto para poder precisar dónde se
encuentran las diferencias. En el caso de que resulte significativo el efecto de la interacción (A B), el análisis
debe continuar comparando entre si los efectos simples. Todo esto, al margen de que el estudio incluya
objetivos concretos que exijan comparaciones planeadas.
Si puede asumirse esfericidad, los procedimientos descritos a propósito del modelo de dos factores CA (ver,
en el capítulo 7, el apartado Comparaciones múltiples) sirven también para el modelo de dos factores MR.
Únicamente hay que tener en cuenta que, ahora, cada efecto tiene su propia media cuadrática y sus propios
grados de libertad.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para realizar
comparaciones planeadas o a priori siguen siendo válidos si se tiene la precaución de utilizar unas ecuaciones
específicas propuestas para el caso en que no pueda asumirse la igualdad de varianzas poblacionales. Y en lo
relativo a las comparaciones post hoc o a posteriori, es preferible realizar comparaciones por pares aplicando
la prueba T de Student para muestras relacionadas y corrigiendo la tasa de error por comparación mediante
el método de Dunn-Bonferroni (etc.), al igual que se ha descrito en el apartado anterior.
9.2. ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR)
Los diseños en los que todos los factores son intrasujetos (como el estudiado en el apartado anterior) no
son tan comunes como los diseños que incluyen algún factor intersujetos. Lo habitual es que un estudio incluya
algún factor intersujetos, bien porque se utilizan variables que definen grupos naturales (sexo, edad, etc.), bien
porque se utilizan variables manipuladas por el investigador (grupos experimental y control; etc.).
El diseño que vamos a tratar en este apartado es una mezcla de diseños que ya hemos estudiado. En concreto,
es una mezcla del diseño de un factor completamente aleatorizado y del diseño de un factor con medidas
repetidas. Se trata, por tanto, de un diseño que incluye un factor intersujetos (un grupo distinto de sujetos en
cada uno de sus niveles) y un factor intrasujetos (los mismos sujetos en todos sus niveles). En todo momento
llamaremos A al factor intersujetos y B al factor intrasujetos (aclaración para facilitar la lectura).
Ejemplo: consideremos un estudio diseñado para valorar la eficacia de un nuevo tratamiento antidepresivo.
Imaginemos que a un grupo de pacientes afectados de depresión se les aplica la escala de depresión de
Hamilton para obtener una medida inicial o basal del nivel de depresión de cada paciente. Tras esto, se
seleccionan aleatoriamente 40 pacientes entre los que alcanzan o superan la puntuación 30. Imaginemos que
con estos 40 pacientes se forman dos grupos aleatorios del mismo tamaño y que un grupo comienza a recibir
el nuevo tratamiento antidepresivo (grupo experimental) y el otro grupo un tratamiento estándar (grupo
control). Al cabo de cuatro semanas de iniciado el tratamiento se vuelve a administrar la escala de depresión
para obtener una medida de la evolución de los pacientes. Al cabo de ocho semanas se vuelve a administrar de
nuevo la escala y se da por finalizado el estudio.
En un diseño de estas características tenemos dos factores o variables categóricas: tratamiento (A) con dos
niveles: nuevo y estándar y tiempo (B) con tres niveles: basal, semana 4 y semana 8; y una variable dependiente
(Y): nivel de depresión, medida con la escala de depresión de Hamilton. El factor tratamiento es inters4jetos,
pues a cada nivel del factor se asigna un grupo distinto de sujetos (grupos aleatorios). El factor tiempo es
intrasujetos, pues a todos los sujetos se les mide el nivel de depresión en los tres momentos (bloques aleatorios).
De ahí el nombre que recibe el modelo de ANOVA que sirve para analizar este tipo de diseños: dos factores
con medidas repetidas en uno (AB-CA-MR). A este tipo de diseños también se les llama split-plot y a veces
también reciben el nombre de mixtos, aunque lo habitual es reservar este término para resaltar la presencia
simultánea de efectos fijos y aleatorios en un mismo modelo.
Las ventajas de un diseño de estas características son evidentes. Representa un compromiso entre los modelos
CA y MR. Por un lado, requiere utilizar menos sujetos que un diseño CA y permite reducir parte de la
variabilidad error por el hecho de utilizar los mismos sujetos. Por otro, el impacto de los efectos de arrastre y
fatiga es menor que en los diseños completamente MR.
Además, y esto es lo realmente interesante, permite tratar situaciones que no pueden abordarse con otro tipo
de diseños: un diseño completamente aleatorizado permite comparar los tratamientos, pero no hacer
seguimiento a los sujetos; un diseño de medidas repetidas permite hacer seguimiento a los sujetos, pero no
comparar los tratamientos; un diseño ABCA-MR permite hacer ambas cosas. Y probablemente ésta es la razón
por la que es tan utilizado en el ámbito de las ciencias sociales y de la salud. De hecho, este diseño constituye
el paradigma de lo que se conoce como ensayo clínico.
Puesto que se trata de un modelo de dos factores, los efectos que interesa analizar siguen siendo tres: los dos
efectos principales (los efectos de cada factor individualmente considerado, A y B) y el efecto de la interacción
entre ambos factores (el efecto conjunto o combinado de ambos factores, AB). Y, al igual que en el resto de
diseños estudiados, para poder analizar estos tres efectos es necesario identificar las diferentes fuentes de
variabilidad presentes en el diseño.
En un diseño completamente aleatorizado (CA), la variabilidad total se descompone en variabilidad

intergrupos y variabilidad intragrupos o error. En un diseño con medidas repetidas (MR) hay una forma más
de variabilidad: la debida a las diferencias entre los sujetos o variabilidad intersujetos (recordemos que esta
forma de variabilidad también existe en un diseño CA, pero no hay forma de aislarla).
Además, si el diseño tiene dos factores (tanto si los factores son CA como si son MR), la variabilidad intergrupos
puede descomponerse, a su vez, en la variabilidad asociada al factor A, la asociada al factor B y la asociada a
la interacción AB. Todas estas fuentes de variabilidad son las mismas que hemos estudiado en el apartado
anterior a propósito del diseño de dos factores MR.
En esta forma de descomponer la variabilidad total se está asumiendo que los sujetos no interaccionan ni con
A, ni con B ni con AB. Por tanto, se está asumiendo que estas interacciones reflejan variabilidad error. En el
diseño de un factor A-MR hemos visto que la variabilidad error es precisamente la variabilidad debida a la
interacción entre el factor y los sujetos.
En el diseño de dos factores AB-CA-MR ocurre lo mismo: la variabilidad error se estima a partir de la variabilidad
debida a la interacción entre el factor intrasujetos y los sujetos, es decir, a partir de la interacción entre el
factor B y los sujetos: B x S. La interacción entre el factor A y los sujetos no se contempla porque cada sujeto
participa en un único nivel del factor A. Y tampoco se contempla la triple interacción entre A, B y los sujetos
porque cada combinación BxS únicamente se da en un nivel del factor A.
Esto significa que, en un diseño de dos factores con medidas repetidas en uno, la variabilidad total puede
descomponerse en cinco fuentes distintas de variabilidad: intergrupos-factor A, intergrupos-factor B,
intergrupos-interacción AB, sujetos e interacción factorB*sujetos. Por tanto, no existe una única fuente de
variabilidad error, sino dos: sujetos e interacción factorB*sujetos.
Para valorar el efecto de la interacción A*B se analiza lo que ocurre con el efecto de B en cada nivel de A, por
tanto: cuando un efecto contiene una mezcla de factores inter e intrasujetos, el efecto de la interacción se
considera intrasujetos y se analiza como tal.
Puesto que un diseño AB-CA-MR incluye tanto efectos intersujetos como efectos intrasujetos, el
correspondiente modelo de ANOVA necesita establecer supuestos que afectan por separado a ambos tipos de
efectos.
Por lo que se refiere al efecto intersujetos (efecto del factor A), se asume exactamente lo mismo que con
cualquier otro efecto CA, es decir, se asume que se está trabajando con muestras aleatorias (por tanto, con
observaciones independientes) procedentes de poblaciones normales (normalidad) con la misma varianza
(homocedasticidad). Para todo lo relacionado con el incumplimiento de este supuesto puede consultarse lo ya
dicho en el capítulo 6 a propósito del modelo de un factor CA.
Y en lo relativo a los efectos intrasujetos (efecto del factor B y efecto de la interacción AB), además del
supuesto de esfericidad ya estudiado (que se aplica a cada una de las matrices de varianzas-covarianzas entre
las medidas repetidas)), se asume que esas matrices son iguales. A estos dos supuestos combinados se les
llama esfericidad multi-muestra (Huynh, 1978).
Por tanto, antes de aplicar un modelo AB-CA-MR es necesario vigilar el cumplimiento de cuatro supuestos:
independencia, normalidad, igualdad de varianzas entre los niveles del factor intersujetos y esfericidad
multi-muestra (este último supuesto incluye el de esfericidad de las J matrices de varianzas-covarianzas y el
de igualdad de esas J matrices).
Aunque el muestreo aleatorio garantiza la independencia de las observaciones, puede utilizarse la prueba de
las rachas para chequearlo (ver capítulo 2).
La ausencia de normalidad sabemos que deja de ser un problema si el tamaño muestral es razonablemente
grande, pero si se tiene que trabajar con muestras pequeñas, la normalidad se puede chequear con la prueba
de Kolmogorov-Smirnov (ver capítulo 2).
Para contrastar el supuesto de homocedasticidad puede utilizarse, al igual que con el modelo de un factor CA,
la prueba de Levene (ver capítulo 6).
El supuesto de esfericidad multi-muestra implica, por un lado, que las matrices de varianzas-covarianzas son
esféricas → Mauchly para chequearlo y, por otro lado, que esas matrices son iguales → utilizaremos la prueba
de Box para chequearlo, que es la que incluye el SPSS junto con las de Levene y Mauchly, aunque existen varios
procedimientos para ello.
En condiciones de esfericidad, los estadísticos F permiten contrastar sus respectivas hipótesis con buen control
sobre la tasa de error y con tanta o más potencia que cualquier otro procedimiento. En condiciones de no-
esfericidad, es recomendable utilizar los estadísticos y la estrategia que hemos propuesto en el capítulo
anterior, en el apartado Alternativas al estadístico F.
b) Medidas del tamaño del efecto: no se aporta nueva información respecto el mismo apartado en
el punto anterior (9.1)
c) Cálculo de la potencia y del tamaño muestral: no se aporta nueva información respecto el mismo
apartado en el punto anterior (9.1)
d) Comparaciones múltiples
En el caso de que resulte significativo un efecto principal (A y/o B), el análisis debe continuar
comparando los niveles correspondientes a ese efecto para poder precisar dónde se encuentran las
diferencias. En el caso de que resulte significativo el efecto de la interacción (AB), el análisis debe continuar
comparando entre sí los efectos simples (no es suficiente con establecer si cada uno de ellos es significativo o
no lo es). Todo esto, al margen de que el estudio incluya objetivos concretos que exijan comparaciones
planeadas.
Para realizar comparaciones entre los niveles del factor intersujetos (A) sirve todo lo dicho a propósito
del modelo de un factor CA (ver, en el capítulo 6, el apartado Comparaciones múltiples). Y sirve tanto para las
comparaciones planeadas como para las comparaciones post hoc.
Por lo que se refiere a los efectos intrasujetos (B y AB), se puede asumir todo lo expresado en el apartado de
“comparaciones múltiples del punto anterior (9.1.).
TEMA 10. ANÁLISIS DE REGRESIÓN LINEAL
NOTA: En el resumen de este tema se omite bastante información del manual dado que la información ya la tenéis en el manual de
CEDE y en las diapositivas de la asignatura y sería muy redundante tratar extensamente los diferentes apartados.
Este capítulo se centra en el análisis de regresión lineal. Tanto en el caso de dos variables, regresión
simple, como en el de más de dos variables, regresión múltiple, el análisis de regresión lineal sirve para
explorar y cuantificar la relación entre una variable cuantitativa llamada dependiente o respuesta (Y) y una o
más variables cuantitativas o categóricas llamadas independientes o predictoras (X1, X2, ..., X¡,).
Sobre la base de esta relación, se construye un modelo lineal*7 que permite: (1) valorar el impacto individual
y colectivo de las variables independientes sobre la dependiente y (2) efectuar pronósticos sobre la variable
dependiente. Además, el modelo de regresión lineal lleva asociadas diferentes estrategias de diagnóstico que
no solo informan sobre la calidad del modelo, sino que ofrecen pistas acerca de cómo perfeccionarlo. Se trata
de una herramienta estadística lo bastante versátil como para ser aplicada en una amplia variedad de
contextos. Por ejemplo, en el ámbito clínico puede utilizarse para identificar qué variables contribuyen a
entender un determinado síntoma o enfermedad; o para pronosticar el éxito en la recuperación de los
pacientes a partir de indicadores como la gravedad de la enfermedad, el tipo de intervención y la edad. En el
ámbito educativo, para averiguar qué peso tienen el cociente intelectual, las horas de estudio y el nivel
educativo de los padres en el rendimiento académico de los estudiantes. En el ámbito social, para predecir el
desempeño en un puesto de trabajo a partir de la formación, de la experiencia laboral y de algunos rasgos de
personalidad de los candidatos; o para averiguar si la tasa de natalidad está relacionada con la renta per cápita
y el porcentaje de alfabetización; etc.
*7 Los modelos de regresión lineal son versiones concretas del modelo lineal genera. Por tanto, se trata de
modelos idénticos en lo esencial, al igual que ocurre con los modelos de ANOVA estudiados en los capítulos
anteriores. En ambos la variable dependiente es una variable cuantitativa (de intervalos o razón). Pero,
mientras que las variables independientes de un modelo de ANOVA son categóricas (nominales u ordinales:
distintos tratamientos, unos pocos niveles de fármaco, etc.) y el énfasis se pone en la comparación de medias,
las variables independientes de un modelo de regresión pueden ser tanto cuantitativas como categóricas y el
énfasis se pone en la relación entre variables.
El análisis de regresión está estrechamente relacionado con el de correlación. En la regresión, la variable

independiente se considera de efectos fijos mientras que en la correlación se considera la variable
independiente de efectos aleatorios. En la práctica, la forma habitual de distinguir ambos tipos de análisis
consiste en determinar si el análisis se orienta hacia la predicción o explicación (regresión) o bien hacia la
cuantificación del grado de relación (correlación).
10.1. Regresión lineal simple
El análisis de regresión lineal simple sirve para estudiar el comportamiento de una variable cuantitativa
Y, denominada dependiente, a partir de una segunda variable cuantitativa o categórica X, denominada
independiente. Sirve, por tanto, para analizar la dependencia entre dos variables: permite estudiar cómo
cambia una de ellas cuando cambia la otra. Los términos independiente y dependiente deben despojarse de
cualquier connotación de tipo causal. Según veremos, el análisis de regresión se basa en una ecuación que
permite obtener para Y valores que dependen de los que se asignan a X. Pero esta dependencia es de tipo
funcional: indica cómo cambia la variable Y cuando cambia la variable X. Lo cual no significa que Y cambie
porque cambia X (podría ocurrir, por ejemplo, que el cambio en ambas variables se debiera al efecto de
terceras variables). Recordemos que las herramientas estadísticas únicamente permiten detectar diferencias
y relaciones. El hecho de que una diferencia o una relación permita o no extraer conclusiones de tipo causal
es algo que no depende de la herramienta estadística aplicada sino del diseño utilizado y de la teoría
subyacente, si existe.
El objetivo del análisis es formular una ecuación lineal para: (1) valorar el impacto de la variable independiente
sobre la dependiente y (2) efectuar pronósticos sobre la dependiente. Todo ello, a partir del grado de relación
lineal existente entre ambas variables.
Ejemplo: muestra de 20 pacientes con trastorno depresivo que han participado en un estudio diseñado para
valorar la eficacia de dos tratamientos antidepresivos (tto 1 = tto estándar, tto 2 = tto combinado). El estudio,
realizado en tres centros distintos (A, B, C), comenzó administrando la Escala de Depresión de Hamilton para
obtener una medida inicial (basal) del nivel de depresión de los pacientes y en ese momento también se mide
la variable edad. Al finalizar el tratamiento se volvió a administrar la escala (final) y se dio por finalizado el
estudio.
a) Diagramas de dispersión
En un gráfico de dispersión, para describir conjuntamente dos variables cuantitativas podemos analizar
tres propiedades:
(1) forma: determinar si la nube de puntos sigue o no una pauta lineal,
(2) centro: resumir la nube de puntos en una recta (método mínimos cuadrados)
(3) dispersión: valorar el grado de concentración o alejamiento de los puntos a esa recta.
b) La recta de regresión
Cuando la relación entre dos variables sigue una pauta lineal, la correspondiente nube de puntos
puede resumirse mediante una función matemática tan simple como una línea recta:
- B0 es el punto en el que la recta corta el eje vertical; se le llama ordenada en el origen o intersección.
- B1 refleja el grado de inclinación de la recta; se le suele llamar pendiente.
En referencia la ecuación de regresión, a B0 y B1 se les llama coeficientes de regresión parcial o, simplemente,

coeficientes de regresión.
❖ Mínimos cuadrados
Para elegir la mejor recta pueden utilizarse diferentes criterios, pero el de mayor aceptación
es el que se basa en la suma de los cuadrados de las distancias verticales entre cada punto y la recta.
A las diferencias entre los valores observados y los pronosticados se les llama residuos y representan
la parte de Y que la ecuación lineal (la recta) no es capaz de pronosticar, es decir, los errores de
predicción. Utilizar el criterio de mínimos cuadrados supone aceptar que la recta es tanto mejor (es un
representante tanto mejor de la nube de puntos) cuanto más pequeños son los residuos o errores de
predicción.
La recta mínimo-cuadrática pasa por el punto en que coinciden las medias aritméticas de X e Y.
❖ Coeficientes de regresión
El coeficiente B0 es el pronóstico que ofrece la ecuación cuando X=0, por lo que B0 solamente
tiene significado si también lo tiene X=0. Es un valor necesario para poder efectuar pronósticos (actúa
como una especie de término corrector para ajustar la métrica de la variable X a la de la variable Y),
pero no aporta información sobre la relación entre X e Y.
Cuando la relación es positiva (recta ascendente; diagrama de la izquierda), el valor de B1 es positivo:

a un aumento en X, la ecuación asigna un aumento en Y. Cuando la relación es negativa (recta
descendente; diagrama de la derecha), el valor de B1 es negativo: a un aumento en X, la ecuación
asigna una disminución en f. Más concretamente, B1 es el cambio (aumento o disminución) que la
ecuación de regresión asigna a Y por cada unidad que aumenta X. Cuando no existe relación lineal, el
coeficiente B1 vale cero (recta paralela al eje horizontal, pendiente nula).
Al hacer pronósticos con la recta de regresión no deben efectuarse pronósticos fuera del rango de
valores que toma la variable X, puesto que podría llevarnos a resultados absurdos. En nuestro ejemplo,
podría ocurrir que, al intentar hacer un pronóstico con
puntuaciones basales muy pequeñas, cercanas a 0, la
tasa de recuperación llegara a asumir valores negativos…
(ver gráfica →)
Aunque ciertamente la recuperación podría ser negativa

(los pacientes podrían empeorar con el tratamiento), no
tiene sentido hablar de un sujeto con puntuación basal
cero, pues se tratarla de un sujeto sin problemas de
depresión al que no habría que aplicar ningún
tratamiento antidepresivo.
❖ Coeficientes de regresión tipificados

B1 nos en puntuaciones directas indica si la relación entre X e Y es positiva o negativa y su

tamaño indica el cambio esperado en Y por cada unidad que aumenta X. Sin embargo, no refleja la
intensidad de la relación entre X e Y, pues su valor depende de la métrica (unidades de medida) de las
variables.
El coeficiente de regresión B1 se puede tipificar y coincidirá con la correlación de Pearson entre ambas
variables (Rxy). Esto nos da un nuevo significado para Rxy: cuando X aumenta una desviación típica, la
ecuación de regresión pronostica un cambio de Rxy desviaciones típicas en Y.
c) Bondad de ajuste
Al margen de que la recta de regresión mínimo-cuadrática es la que mejor resume una nube de puntos
dada, el grado de ajuste de esa recta a la nube de puntos (lo bien o mal que la recta resume la nube de puntos)
no tiene por qué ser bueno. De hecho, el grado de ajuste de la mejor recta posible puede ir desde muy malo a
excelente. En los siguientes gráficos se muestran diferentes rectas de regresión con distinto grado de ajuste a
la nube de puntos.
El peor ajuste posible se da cuando las variables X e Y son linealmente independientes, es decir, cuando la
recta de regresión es horizontal (pendiente nula). Esto solamente ocurre cuando todos los pronósticos se
realizan con la media de Y (elegimos la media en lugar de cualquier otro valor porque, a falta de otra
información, las desviaciones de la media elevadas al cuadrado son menores que respecto de cualquier otro
valor).
Coeficiente de determinación (…) A mayor coeficiente de determinación, mayor bondad de ajuste (mejor
ajuste de la recta a la nube de puntos). Si vale 1 el ajuste es perfecto, es decir, los puntos del diagrama se
encuentran perfectamente alineados y la recta de regresión permite efectuar pronósticos sin error. Mientras
que si vale 0 (pendiente nula), las variables X e Y son linealmente independientes (bien porque no existe ningún
tipo de relación entre ellas, bien porque la relación subyacente no es de tipo lineal) y la variable X no contribuye
en absoluto a mejorar los pronósticos basados en la media de Y. Cuando a un mismo valor de X le corresponde
más de un valor distinto de Y, el coef de determinación no puede alcanzar el valor 1 (con un mismo valor X no
es posible pronosticar más de un valor Y sin error).
Consecuentemente, el coef de determinación es un indicador del grado de ajuste de la recta de regresión a la

nube de puntos, es decir, un indicador de la calidad con que la recta de regresión es capaz de representar o
describir la relación lineal subyacente entre X e Y.
Ahora bien, debe tenerse en cuenta que es una medida de lo bien o mal que la recta resume la nube de puntos,
lo cual no debe confundirse con el hecho de que la relación subyacente sea o no de tipo lineal. ES decir, un
valor alto no necesariamente está indicando que la relación subyacente es efectivamente lineal, sino que la
loas puntuaciones se ajustan bastante bien a una recta de regresión. Así, el valor del coef de determinación
puede ser relativamente alto incluso cuando la relación subyacente no es lineal. Por ejemplo, en una relación
cuadrática puede haber un componente lineal importante. De ahí, la importancia de acompañar toda ecuación
de regresión de su correspondiente gráfico de dispersión.
d) Significación de los coeficientes de regresión
Los coeficientes de regresión pueden tratarse como valores muestrales, obtenidos a partir de los datos
de una muestra (en el contexto de estadística descriptiva y expresados con letras del alfabeto latino), pero
también pueden utilizarse como estimadores de sus correspondientes parámetros poblacionales (estadística
inferencial, expresados mediante letras griegas).
Para hacer una inferencia de una ecuación de regresión, deben someterse al contraste de hipótesis tanto B0
como B1 (se realizarán dos contrastes de hipótesis, uno para cada uno de los coeficientes). Para el contraste
de hipótesis de ambos coeficientes se utiliza el estadístico T d’Student (con n-2 g.l., siempre y cuando se
cumplan los supuestos requeridos para la prueba).
Por lo general, el interés del análisis irá orientado a determinar si las variables X e Y están linealmente
relacionadas en la población; es decir: a determinar si, a partir de la relación encontrada en la muestra, es
posible afirmar que existe relación en la población. Esto significa que, por lo general, la hipótesis que interesará
contrastar será la hipótesis de pendiente o relación nula (el contraste de ß1), en el que la Ho tomará la forma:
Ho: ß1 = 0
Si se rechaza esta hipótesis (si encontramos significación en el contraste), significa que existe relación lineal
significativa - en la población - entre X e Y. Sin embargo, el no rechazo no significa que X e Y no estén
linealmente relacionadas, sino que no se ha podido demostrar que lo estén (puede que no se haya utilizado
un rango de valores X lo bastante amplio, puede que los errores de medida estén ocultando la relación, etc.).
Además, contrastar la hipótesis de que la pendiente poblacional vale cero es equivalente a contrastar la
hipótesis de que el coeficiente de correlación de Pearson vale cero en la población; y ambas hipótesis pueden
contrastarse mediante un estadístico F.
Por último, para estimar la varianza de Y asociada a cada valor de X tenemos el error cuadrático medio o media
cuadrática error. Su raíz cuadrada es el error típico de estimación, que representa error medio que se comete
al efectuar pronósticos utilizando la ecuación de regresión.
El intervalo de confianza de los coeficientes de regresión se construye mediante el error típico de estimación
(…)
e) Cómo efectuar pronósticos:
La ecuación de regresión será adecuada para efectuar pronósticos siempre y cuando la pendiente de
la recta de regresión sea significativamente distinta de cero y que el coeficiente de determinación refleje una
reducción importante de los errores de predicción (tenga un valor lo suficientemente grande).
El pronóstico que ofrece una ecuación de regresión puede interpretarse de dos maneras distintas:
- como un pronóstico individual: el pronóstico se interpreta como la estimación asignada a un sujeto
concreto con un valor concreto en X.
- como un pronóstico promedio: el pronóstico se interpreta como la estimación media que se hace para
todos los sujetos con la misma puntuación en X.
El valor pronóstico no cambia por el hecho de interpretarlo de una u otra forma, pero la varianza de los
pronósticos individuales es mayor que la varianza de los pronósticos promedio (dado que las puntuaciones
individuales varían más que sus medias); así, el intervalo de confianza para un pronóstico individual es
sensiblemente más ancho que el intervalo de confianza para un pronóstico promedio. Además, ambos
intervalos de confianza serán más anchos cuanto más alejados estén los valores de X de su media – media de
X – (y viceversa: serán más estrechos si los valores de X están más próximos a la media de X).
10.2. Regresión lineal múltiple
La regresión lineal múltiple tiene varias ventajas respecto a la simple: permiten obtener una
explicación más completa (al incluir múltiples variables independientes en el análisis). Además, permite valorar
conjuntamente múltiples variables independientes por lo que es posible eliminar del análisis los efectos
comunes o compartidos entre variables para poder captar el efecto neto de cada una de ellas y, además,
permite valorar la importancia relativa de cada una de ellas, así como el grado en que contribuyen a entender
o explicar el comportamiento del fenómeno estudiado
a) La ecuación de regresión
Mientras que la regresión simple se representa mediante un diagrama de dispersión que se define en
una recta, en el caso de la regresión múltiple la cuestión se complica, definiéndose en un plano o hiperplano
en un hiperespacio multidimensional (algo imposible de representar gráficamente). P.ej, en el caso de un
modelo con tres variables, con dos de ellas siendo variables independientes, para representarlas gráficamente
sería necesario utilizar tres dimensiones (serán necesarias tantas dimensiones como variables comprenda el
análisis).
Por lo que se refiere a la ecuación, adopta la forma:
En una ecuación de estas características, los pronósticos Y se obtienen combinando linealmente (es decir,
sumando) las distintas variables independientes X, cada una de ellas ponderada (es decir, multiplicada) con un
coeficiente de regresión B, que indica el peso de esa variable en los pronósticos.
Al igual que en el caso de la regresión simple, existen tantas ecuaciones de regresión múltiple como valores
distintos puedan asignarse a los coeficientes de regresión B0 y B1, B2, etc. Y, de nuevo, para elegir la mejor de
esas ecuaciones posibles, seguirnos utilizando el criterio de mínimos cuadrados, el cual, recordemos, consiste
en elegir para B0 y B1, B2, etc. los valores que consiguen minimizar la suma de los residuos al cuadrado.
❖ Coeficientes de regresión
Aunque los cálculos se complican algo cuando la ecuación de regresión incluye más de una variable
independiente, el significado de los coeficientes de regresión sigue siendo el mismo.
- B0 sigue siendo el origen o intersección. Con dos variables independientes, por ejemplo, es el punto
en el que el plano de regresión corta el eje correspondiente a la variable dependiente Y, es decir, el
valor que pronostica la ecuación de regresión cuando todas las variables X toman el valor cero. Al
igual que en regresión simple, B0 no tiene un significado útil a no ser que el valor cero tenga un
significado concreto en todas las variables independientes.
- Los coeficientes B1, B2 , …, Bp son coeficientes de regresión parciales, pues el valor concreto que
toma cada uno de ellos depende del resto de coeficientes incluidos en la ecuación. Representan el
cambio esperado en Y cuando, permaneciendo constantes el resto de variables, la correspondiente
X aumenta una unidad. Por ejemplo, B1 representa el cambio estimado en Y cuando, permaneciendo
constantes el resto de variables, X1 aumenta una unidad (y lo mismo con B2 y X2, B3 y X3, etc.)
Si la ecuación de regresión se obtiene a partir de las puntuaciones diferenciales o de desviación de las

variables independientes, entonces B0 es la media de Y, es decir, el pronóstico que la ecuación de
regresión cuando todas las variables independientes toman su valor medio (el cual vale cero en todas
ellas porque todas ellas se han transformado en puntuaciones de desviación…).
❖ Coeficientes de regresión tipificados
El tamaño de los coeficientes de regresión expresados en puntuaciones directas no refleja el

peso o importancia de las variables en la ecuación (recordemos que, en regresión simple, B1 tampoco
refleja la intensidad de la relación entre X e Y). La razón de esto es que el valor de un coeficiente de
regresión depende, entre otras cosas, de la métrica (unidades de medida) de la correspondiente
variable; por ejemplo, si la variable edad se hubiera medido en meses, se habría obtenido un
coeficiente de regresión con muchos más decimales que si se mide en años.
No obstante, la métrica de las variables puede igualarse fácilmente transformando las puntuaciones
originales en puntuaciones Z (puntuaciones típicas). Al calcular la ecuación de regresión con las
puntuaciones tipificadas, se obtienen coeficientes de regresión tipificados o estandarizados,
desprovistos de la métrica original de las variables, por lo que permiten formarse una idea sobre la
importancia relativa de cada variable dentro de la ecuación.
En regresión simple, el coeficiente de regresión tipificado coincide con el coeficiente de correlación de

Pearson Rxy. En regresión múltiple, los coeficientes de regresión tipificados no son coeficientes de
correlación y, de hecho, pueden tomar valores mayores que 1 y menores que -1.
b) Bondad de ajuste
Aun aceptando que la ecuación de regresión mínimo-cuadrática es la mejor, sabemos que esto no
significa que sea buena. Para valorar la calidad de una ecuación es necesario utilizar algún indicador de la
precisión con que permite efectuar pronósticos. Y, para ello, de nuevo sirve aquí lo ya dicho a propósito de la
ecuación de regresión simple.
Para cuantificar la relación entre la v. dependiente y las diferentes vv. Independientes utilizamos el coeficiente
de correlación múltiple. Este coeficiente de correlación expresa el grado de relación lineal existente entre la
variable dependiente y la mejor combinación lineal entre las variables independientes X1, X2, X3, etc. Lo cual
no es otra cosa que la relación lineal entre Y y los pronósticos Y derivados de la ecuación de regresión.
El cuadrado del coeficiente de correlación múltiple es el coeficiente de determinación y se interpreta de la

misma manera que en regresión simple: como proporción de reducción de los errores de predicción y como
proporción de varianza común o explicada.
En nuestro ejemplo sobre la recuperación de pacientes sometidos a tratamiento antidepresivo, el coeficiente

de correlación múltiple vale 0,89; y, elevado al cuadrado, 0,79. Este valor indica, en primer lugar, que las
variables incluidas en la ecuación (Hamilton basal, edad y tto) permiten reducir los errores de predicción un
79% y, en segundo lugar, que esas tres variables, tomadas juntas, comparten el 79% de la varianza de la
recuperación; por tanto, conocer las puntuaciones basales de los pacientes, su edad y el tratamiento que han
recibido permite entender (anticipar, explicar) el 79% de la variabilidad de su recuperación.
El coeficiente de determinación es un estimador positivamente sesgado de su correspondiente parámetro

poblacional (tiende a ofrecer estimaciones infladas). Este sesgo depende del número de variables
independientes (p) y del número de casos (n). Cuanto menor es la relación n:p, mayor es el sesgo. Por ejemplo,
cuando hay muy pocos casos en comparación con el número de variables, la ecuación de regresión ofrece
pronósticos cercanos a la perfección sea cual sea la verdadera relación subyacente (si n=p+1 → Ryx = 1 → coef
det.=1). Para atenuar este sesgo es habitual aplicar una corrección, con lo que obtenemos un valor ligeramente
menor que el valor obtenido sin aplicar la corrección.
c) Significación de los coeficientes de regresión
La calidad de una ecuación de regresión debe valorarse en función del tipo de problema al que se
intenta dar respuesta, debe interpretarse en el contexto en el que se obtiene.
Pero, antes de interpretar un coeficiente de correlación, es necesario preguntarse si, independientemente del
contexto, la relación encontrada es o no estadísticamente significativa, es decir, si el coef de determinación
obtenido en la muestra es, o no, mayor de lo que cabría esperar simplemente por las fluctuaciones propias del
azar muestral.
Esta cuestión puede responderse contrastando la hipótesis nula de que la relación entre Y las distintas vv.
Independientes (X1, X2, X3, etc.) vale cero en la población. Y esto equivale a contrastar la hipótesis nula de que
los distintos coeficientes de regresión poblacionales (excluido B0) valen cero:
El rechazo de esta hipótesis implica que al menos un coeficiente de regresión es diferente a cero y contribuye
significativamente a mejorar el ajuste. La hipótesis puede contrastarse utilizando el mismo estadístico F ya
definido en regresión simple. La variabilidad total de Y puede descomponerse en variabilidad debida a la
regresión (en el numerador del estadístico F) y en variabilidad no debida a la regresión o variabilidad error (en
el denominador del estadístico F).
Más concretamente, como ha ocurrido en las distintas versiones de F que hemos ido revisando a lo largo del
manual, el denominador del estadístico F es el error cuadrático medio o media cuadrática error. Y su raíz
cuadrada es el error típico de la estimación (desviación típica de los residuos). → Representa el error medio
que se comete al efectuar pronósticos utilizando la ecuación de regresión. El error típico de la estimación sirve
como un indicador de la bondad del ajuste del plano de regresión: cuanto menor es la desviación típica de los
residuos, mejor es el ajuste.
Cómo ya hemos visto, el coef de determinación nunca disminuye al incorporar una nueva variable a la
ecuación, pero eso no significa que la ecuación que incluye la nueva variable sea mejor que la que no la incluye.
Por ese motivo, entre dos ecuaciones rivales, la que mejor se ajusta es aquella a la que le corresponde una
menor media cuadrática error. De esa forma, para poder afirmar que la nueva ecuación ofrece un mejor ajuste
que la original, debe ocurrir que la nueva variable aporte información de valor para la predicción (consiga
reducir la suma de los residuos al cuadrado en una cantidad mayor que la media cuadrática error original).
Volviendo a la Ho expuesta unos párrafos más arriba… si rechazamos Ho implica que al menos un coeficiente
de regresión es diferente a cero y contribuye significativamente a mejorar el ajuste, pero no sabemos cuál.
Para identificar qué coeficiente es distinto de cero es necesario valorar cada uno por separado. Esto puede
hacerse mediante estadísticos T, dónde el rechazo de la Ho indica que la correspondiente v.independiente
contribuye significativamente al ajuste del plano de regresión. El no rechazo de indica que la correspondiente
v. independiente puede eliminarse de la ecuación sin pérdida de ajuste.
d) Importancia relativa de las variables

No existe una única forma de valorar la importancia o peso relativo de una variable dentro de una
ecuación de regresión. Entre otras cosas, porque para poder hacer esto es necesario aclarar qué se entiende
por importancia de una variable.
Si se considera que la variable más importante es la que más contribuye al cambio esperado en Y, entonces la
importancia relativa de las variables puede establecerse a partir de los coeficientes de regresión tipificados,
que informan de su peso en los pronósticos: cuanto mayor es un coeficiente tipificado, mayor es el cambio
esperado en Y asociado a un cambio de una unidad en X. Y esto es así independientemente de cuál sea la
métrica original de las variables.
Si se considera que la variable más importante es la que más contribuye al ajuste global, es decir, la que más
contribuye a reducir los errores de predicción, entonces la importancia relativa de las variables puede
establecerse mediante el cuadrado del coeficiente de correlación semiparcial. Para entender este concepto
podemos revisar el coeficiente de correlación parcial (que hemos estudiado en el apéndice 5), que es una
medida del grado de relación neta entre dos variables, es decir, del grado de relación entre dos variables
cuando se elimina de ambas (se controla o parcializa) el efecto de terceras variables: contribución neta al ajuste
global. Por ejemplo, al estudiar la relación entre las variables 1 y 2 cuando se elimina de ambas el efecto de la
variable 3… Esto se hace estimando las ecuaciones de regresión de la variable 1 sobre la variable 3 y de la
variable 2 sobre la variable 3, calculando los residuos de ambas ecuaciones y correlacionando ambos conjuntos
de residuos.
En el coeficiente de correlación semiparcial, el efecto de las terceras variables solamente se elimina de una de
las dos variables correlacionadas y se obtiene correlacionando la variable 1 con los residuos obtenidos con la
ecuación de regresión de la variable 2 sobre la variable 3.
Veamos un ejemplo: consideremos la relación entre el rendimiento académico (variable 1), el cociente
intelectual (variable 2) y las horas de estudio (variable 3): R12 es la correlación simple entre el rendimiento
académico y el cociente intelectual; R12/3 es la correlación parcial entre 1 y 2 → correlación entre el rendimiento
académico y el cociente intelectual después de eliminar de ambas variables el efecto atribuible a las horas de
estudio; y R1(2/3) es la correlación semi parcial entre 1 y 2 → correlación entre el rendimiento académico y el
cociente intelectual después de eliminar del cociente intelectual el efecto atribuible a las horas de estudio.
Ambos coeficientes de correlación, el parcial y el semiparcial, desempeñan un importante rol en el análisis de

regresión múltiple. El parcial se utiliza para elegir variables en los métodos de selección por pasos (veremos
esto más adelante en el apartado Regresión jerárquica o por pasos). El semiparcial se utiliza para cuantificar la
contribución neta de cada variable al ajuste global.
Aunque el signo de un coeficiente de regresión suele indicar el sentido positivo o negativo de la relación entre
Y y la correspondiente X, esto no tiene por qué ser necesariamente así: puede ocurrir que el signo de un
coeficiente sea distinto del sentido de la relación. La razón de esto es que los coeficientes de una ecuación de
regresión múltiple son parciales y, por tanto, su valor depende del resto de elementos presentes en la
ecuación.
e) Variables independientes categóricas
Las variables dicotómicas (variables con dos categorías) pueden incluirse en una ecuación de regresión
lineal sin ningún tipo de consideración adicional. De hecho, en el ejemplo utilizado en los apartados anteriores
ya hemos trabajado con una variable dicotómica (la variable tto, con códigos 1 para el tto estándar y 2 para el
tto combinado). Con este tipo de variables no existen problemas de estimación ni de interpretación.
Una variable con J categorías puede expresarse, sin pérdida de información, como J- 1 variables dicotómicas.
A estas nuevas variables que nos sirven para representar las variable independiente categórica se les suele
llamar variables dummy (ficticias) o variables indicador, pero nosotros seguiremos llamándolas dicotómicas.
Veamos siguiendo el ejemplo del inicio del capítulo : La variable “centro”,

que tiene 3 categorías: A, B y C (J=3), puede convertirse en 2 variables
dicotómicas (J-1=2) creando las variables centro_ A (código 1 para el centro
A y código 0 para los centros B y C) y centro _B (con código 1 para el centro
B y código 0 para los centros A y C).
Esas dos variables, tomadas juntas, contienen exactamente la misma

información que la variable centro. No es necesario crear una tercera
variable para identificar el centro.
f) Regresión jerárquica o por pasos
Frecuentemente falta una hipótesis de trabajo que oriente al investigador en la elección de las
variables realmente relevantes → se puede comenzar incluyendo en la ecuación todas las variables que
pueden aportar algo e ir eliminando aquellas que sus coeficientes de regresión no significativos.
El problema de esta estrategia es que los coeficientes de regresión son coeficientes parciales (su valor depende
del resto de coeficientes presentes en la ecuación), porque no se puede eliminar más de una variable al mismo
tiempo si se quiere valorar el comportamiento individual de cada variable eliminada.
Para ir eliminando variables para valorar su influencia en la regresión tenemos…
Nota de la profesora (Mar): en este tema de los métodos para la selección de variables me parece que las
explicaciones no son da esclarecedoras…. Dejo mi impresión más abajo, para consultar después de haber leído
el temario.
Procedimiento jerárquico: se comienza estimando la ecuación de regresión con todas las variables candidatas
y se elimina, en primer lugar, la variable cuyo coeficiente de regresión tipificado, además de no ser significativo,
es el menor de todos en valor absoluto; a continuación, se vuelve a estimar la ecuación de regresión y se repite
el procedimiento… y así, hasta que todos los coeficientes de regresión que permanecen en la ecuación sean
significativos.
Método por pasos: Se procede de forma parecida al procedimiento jerárquico, pero de forma automática. Los
veremos más abajo…
Con la regresión jerárquica o por pasos se pretende:
1) incluir el menor número posible de variables para facilitar la interpretación del resultado y reducir los
posibles costes de trabajar con muchas variables (principio de parsimonia) y
2) conseguir explicar lo mejor posible el comportamiento de la variable dependiente (principio de
máximo ajuste).
De acuerdo con esto, construir una ecuación de regresión por pasos puede parecer, en principio, una buena
idea. Pero lo cierto es que esta estrategia no está libre de problemas. Si el objetivo del análisis es efectuar
pronósticos y no existe una hipótesis de trabajo que justifique la elección de unas u otras variables, proceder
por pasos puede resultar una estrategia válida (máximo ajuste con el menor número de variables).
Sin embargo, si el objetivo del análisis es obtener evidencia empírica sobre alguna hipótesis de trabajo,
entonces proceder por pasos podría resultar más perjudicial que beneficioso, pues la ecuación con el mejor
ajuste podría incluir variables teóricamente irrelevantes y ese ajuste podría ser solo ligeramente mejor que el
de una ecuación con variables teóricamente relevantes.
❖ Criterios para seleccionar variables
Las variables que finalmente formarán parte de una ecuación de regresión pueden elegirse
aplicando diferentes criterios, todos ellos destinados a intentar maximizar el ajuste utilizando el
mínimo número posible de variables. Algunos de ellos son: el aumento en el coeficiente de correlación
múltiple, el valor del coeficiente de correlación parcial, la reducción del error típico de los residuos,
etc.
Sin embargo, el criterio que acapara las preferencias de los expertos consiste en incorporar al modelo
de regresión solamente las variables que contribuyen de forma significativa a mejorar el ajuste. Una
forma de valorar esta contribución consiste en cuantificar el cambio que se produce en el coeficiente
de determinación al incorporar (o eliminar) una variable a la ecuación (que es el cuadrado del
coeficiente de correlación semiparcial entre la variable dependiente y la variable cuya incorporación o
eliminación se está valorando); a mayor cambio, mayor es la contribución de esa variable al ajuste
global.
❖ Métodos para seleccionar variables
Hay diferentes formas de proceder a la hora de ir seleccionando las variables que finalmente
formarán parte de una ecuación de regresión: (Nota Mar: entiendo que se refiere al método por pasos¿?)
1. Hacia delante (forward). Se comienza con la ecuación que únicamente incluye la intersección y se
van incorporando a la ecuación las variables que poseen el coeficiente de correlación parcial más alto
en valor absoluto con la variable dependiente. La incorporación de variables se detiene cuando no
quedan variables que superen el criterio de selección.
2. Hacia atrás (backward). Se comienza incluyendo en la ecuación de regresión todas las variables
candidatas a formar parte del modelo final y, a continuación, se procede a eliminar una a una aquellas
con coeficientes de regresión no significativos y de menor tamaño. La eliminación de variables se
detiene cuando todas las variables que quedan en la ecuación cumplen el criterio de selección.
3. Pasos sucesivos (stepwise). Este método es una mezcla de los métodos hacia delante y hacia atrás.
Se comienza, al igual que en el método hacia delante, con la ecuación que únicamente incluye la
intersección y se van añadiendo las variables con mayores correlaciones con la variable dependiente.
Pero cada vez que se incorpora una nueva variable, las variables seleccionadas hasta ese momento
son, al igual que en el método hacia atrás, evaluadas nuevamente para determinar si siguen
cumpliendo o no el criterio de selección. Si alguna variable de las ya seleccionadas deja de cumplir el
criterio de selección, es expulsada de la ecuación. El proceso se detiene cuando no quedan variables
fuera de la ecuación que superen el criterio de selección y todas las variables incluidas lo cumplen.
(La regresión por pasos puede hacerse incorporando o eliminando más de una variable - bloques de variables - en cada paso. Esta
estrategia, que es a la que se le suele llamar regresión jerárquica funciona exactamente igual que cuando se incorporan o eliminan
variables una a una. La única diferencia es que, al trabajar con bloques de variables, tanto el criterio de selección de variables
como los estadísticos utilizados para valorar la contribución al ajuste global se aplican al bloque completo de variables que se
desea incorporar o eliminar).
Conviene advertir que el orden en el que se incorporan las variables a una ecuación de regresión aplicando
una estrategia de selección por pasos no es un criterio válido para determinar la importancia relativa de
las variables en la ecuación. En cada paso, la valoración que se hace de la contribución al ajuste global -
de la variable que se incorpora a la ecuación - se basa en las variables previamente seleccionadas, no en
las variables que formarán parte de la ecuación final. Esto significa que cada variable se parcializa
aplicando un criterio diferente, por lo que, si la importancia relativa de las variables ha de hacerse
atendiendo a su contribución al ajuste global, ésta debe valorarse parcializando cada relación mediante
el resto de variables independientes incluidas en la ecuación final.
Nota de la profesora (Mar): mi impresión es que al definir la regresión jerárquica se refieren a ir valorando el
ajuste de los diferentes coeficientes a cada “paso que damos” en la modificación de la ecuación y que, además,
estos pasos (añadir o quitar variables) se dan de acuerdo al criterio del experimentador. Entonces, su principal
diferencia con el método por pasos es que este último hace lo mismo, pero de forma automática y sin criterios
teóricos que respalden el proceder con unas u otras variables a nivel conceptual.
10.3. Supuestos del modelo de regresión lineal
Los datos, por lo general, no son la población que interesa estudiar, sino una muestra de esa población.
Por tanto, la ecuación de regresión que se obtiene con unos datos concretos no es más que una estimación de
la verdadera ecuación de regresión (la ecuación poblacional). Para calcular una ecuación de regresión no es
necesario establecer ningún supuesto. Pero para utilizarla como una estimación de la verdadera ecuación de
regresión, las cosas cambian. Hasta ahora no hemos mencionado nada acerca de las condiciones que deben
darse para que un modelo de regresión lineal sea una buena elección. Sin embargo, habiendo estudiado ya los
modelos de análisis de varianza y los supuestos en los que se basan, no debe sorprender que los modelos de
regresión lineal también lleven asociados algunos supuestos. Para referirnos a ellos, los llamaremos,
abreviadamente: (1) linealidad, (2) no colinealidad, (3) independencia, (4) normalidad y (5) homocedasticidad.
Los supuestos de linealidad, no colinealidad, independencia y homocedasticidad son necesarios para que los
coeficientes de regresión sean estimadores insesgados y eficientes (varianza mínima) de sus correspondientes
parámetros. Y la normalidad nos permitirá contrastar hipótesis sobre los coeficientes de regresión y construir
intervalos de confianza.
a) Linealidad
Las V Indep están relacionadas linealmente con la V Dep. Si usáramos un modelo lineal parea dar
cuenta de una relación No lineal, se llama “error de especificación”, que implicará que los coeficientes de
regresión de la ecuación serán estimadores sesgados y poco eficientes de sus respectivos parámetros. El error
de especificación ocurre cuando no se eligen bien las variables independientes (porque hay otra u otras
variables que podrían explicar mejor el comportamiento de la variable dependiente, o porque se han incluido
en el modelo variables irrelevantes) o cuando, habiendo elegido bien las variables independientes, su relación
con la dependiente no es de tipo lineal.
b) No colinealidad
Hablamos de colinealidad si hay 2 VIndep, si hay involucradas más de 2 VIndep podemos hablar de
multicolinealidad. Difícilmente encontraremos una colinealidad perfecta pero sí es muy frecuente encontrar
cierto grado de colinealidad. Ante una colinealidad elevada, la varianza de los coeficientes de regresión
aumenta, haciendo que las estimaciones sean inestables: pequeños cambios en los datos podrían conllevar
cambios importantes en las estimaciones.
Existen algunos indicios que podrían alertarnos de que existe cierta colinealidad:
- Que el estadístico F para la hipótesis global de NO relación sea significativo pero que no lo sea ninguno de
los coeficientes de regresión (podría ocurrir si las varianzas de los coeficientes fueran muy grandes)
- Que algún coeficiente de regresión tenga un signo distinto al esperado
- Que algún coeficiente de regresión tipificado sea excesivamente grande (mayor que l1l)
A parte, para valorar la colinealidad existen algunos estadísticos:
❖ Tolerancia: El nivel de tolerancia de una variable independiente X se obtiene restando a 1 el

coeficiente de determinación correspondiente a la ecuación de regresión de la variable
independiente X sobre el resto de variables independientes. El nivel de tolerancia está
comprendido entre 0 (mucha relación con el resto de V Indep) y 1 (próximo a 1 indica no hay
relación con el resto de variables independientes). Niveles menores que 0’10 ya indicarían
problemas.
❖ Factores de inflación de la varianza (FIV): son los valores inversos a la tolerancia. Nos informan
exactamente de lo mismo que los niveles de tolerancia: nos informan del incremento de la varianza
de cada coeficiente de regresión, como consecuencia de la relación existente entre variables
independientes. Valores superiores a 10 indicarían problemas derivados de un exceso de
colinealidad.
Para solucionar la colinealidad se puede:
- Eliminar alguna de las variables independientes que esté causando el problema; aunque esto podría
implicar dejar fuera alguna variable importante desde el punto de vista teórico, lo que podría conllevar un
error de especificación.
- Combinar las variables muy relacionadas entre sí en nuevas variables que reflejen la pauta de relación
subyacente (esta combinación puede hacerse a partir de criterios teóricos o mediante alguna herramienta
estadística de reducción de datos como “componentes principales”).
- Por último, siempre existe la posibilidad de utilizar modelos de regresión que no se vean tan afectados
como el lineal por la presencia de colinealidad, como, por ejemplo: la regresión ridge, puesto que en
algunos contextos puede ser preferible obtener estimaciones sesgadas con varianza mínima (p.ej.
regresión ridge) en lugar de estimaciones insesgadas con varianzas grandes (lo que ocurriría en la regresión
lineal si hubiera colinealidad).
c) Independencia
Los residuos son la diferencia entre los valores observados y los pronosticados mediante la ecuación
de la recta. Estos residuos (valores muestrales) son estimaciones de los errores poblacionales, es decir de las
desviaciones de los verdaderos valores de Y respecto del plano de regresión poblacional (Berry, 1993). En un
modelo de regresión lineal se asume que los errores tienen media cero y que son independientes entre sí. La
independencia supone…:
Que las estimaciones de la intersección se vuelven sesgadas cuando la media de los errores es distinta de cero
(el valor esperado de B0 se aleja de su parámetro en la misma cantidad que la media de los errores se aleja de
cero). Aunque la intersección de una ecuación de regresión suele tener poco interés, cuando se trabaja con
variables independientes centradas (que sería: con puntuaciones diferenciales o de desviación), la intersección
es una estimación de la media de Y (v. dependiente) → en estos casos, si la media de los errores es distinta de
cero, B0 ofrecerá estimaciones sesgadas de la media de Y.
La independencia entre errores significa que no están autocorrelacionados, es decir, que no aumentan o
disminuyen siguiendo una pauta discernible. Este supuesto suele incumplirse en datos que proceden de
estudios longitudinales (como en el caso de las series temporales), en datos recogidos secuencialmente (donde
los terapeutas pueden mejorar su forma de administrar un tratamiento, los sujetos mostrar fatiga, los aparatos
sufrir algún tipo de desgaste, etc.), en datos recogidos en grupos homogéneos de sujetos, pero diferentes entre
sí (grupos de diferente ideología política o religiosa, grupos de diferente estatus socioeconómico, etc.). En este
tipo de estudios, el error asociado a un caso tiende a parecerse a los errores de los casos adyacentes. Cuando
ocurre esto es preferible utilizar otros métodos de estimación, como el de mínimos cuadrados generalizados,
o analizar los datos con otro tipo de estrategias.
Cuando los errores están autocorrelacionados, aunque las estimaciones de los coeficientes de regresión
todavía son insesgadas, sus varianzas tienden a tomar valores más pequeños de lo que deberían. Y la
consecuencia de esto es que las pruebas de significación y los intervalos de confianza tienden a detectar
coeficientes de regresión significativamente distintos de cero con demasiada frecuencia (fácilmente se rechaza
Ho).
Los residuos (valores muestrales) son las mejores estimaciones que tenemos de los errores (valores
poblacionales). Pero, debido a la forma de calcularlos, aunque su media siempre vale cero, no son
completamente independientes entre sí. La cuestión es si el grado de autocorrelación existente entre los
residuos es o no lo bastante grande como para sospechar que los errores poblacionales no son independientes.
Para decidir sobre esta cuestión puede utilizarse un diagrama de dispersión como los que se muestran a
continuación:
- Gráfica 1, autocorrelación nula: Si los residuos son aproximadamente independientes, los puntos de
este diagrama deben estar aleatoriamente repartidos en torno al valor cero del eje vertical, las subidas
y bajadas de las líneas discontinuas que unen los puntos siguen una pauta aleatoria.
- Gráfica 2, autocorrelación positiva: los puntos se encuentran alineados de forma creciente o
decreciente, o a intervalos crecientes y decrecientes amplios
- Gráfica 3, autocorrelación negativa: los residuos positivos y negativos se van alternando conforme se
progresa en la secuencia.
El grado de autocorrelación entre los residuos también puede valorarse mediante el estadístico de Durbin-
Watson, que toma valores entre 0 y 4. Los valores en torno a 2 (1,5 a 2,5 )indican que los residuos son
independientes; los valores menores que 2 indican autocorrelación positiva; los mayores que 2,
autocorrelación negativa.
El supuesto de independencia también afecta a las variables independientes. Puesto que los errores
representan la parte de Y que el modelo de regresión no explica, es razonable esperar que los errores no estén
relacionados con las variables incluidas en la ecuación; si lo están, entonces las variables independientes no
están aportando al modelo todo lo que pueden. Esto puede valorarse elaborando diagramas de dispersión
similares a los vistos para analizar la autocorrelación de los errores, pero en el eje horizontal tendríamos la
variable independiente.
d) Normalidad
Este supuesto y el siguiente son idénticos a los ya estudiados con el mismo nombre a propósito de los
modelos de análisis de varianza (ANOVA). En el modelo de regresión simple se asume que a cada valor de X le
corresponde una población de valores Y. La figura que se muestra a continuación ilustra esta circunstancia.
Cada una de estas poblaciones de valores Y se asume que son normales y que están centradas en el valor
esperado de Y, que es justamente por donde pasa la recta poblacional. En regresión múltiple se asume que
existe una población normal de valores Y por cada combinación distinta de valores de las X.
El supuesto de normalidad es necesario para garantizar que los estadísticos utilizados al contrastar hipótesis
del tipo B1=0 (o B2, B3, etc.) se aproximan a sus respectivas distribuciones muestrales.
La variabilidad de Y es la variabilidad de los errores, los cuales se asume que se distribuyen normalmente. La
normalidad de los errores puede valorarse a partir del grado en que la distribución de los residuos se aproxima
a una distribución normal. Y esto puede hacerse utilizando la misma estrategia que con cualquier otra variable:
un histograma y un diagrama de probabilidad normal.
e) Homocedasticidad
Igualdad de varianzas poblacionales, también se puede decir que las poblaciones son homocedásticas.
La media cuadrática error que se utiliza para el cálculo de los estadísticos T y F (y en los intervalos de confianza)
es una estimación de la varianza de esas poblaciones normales (promedio de esas varianzas muestrales).
En condiciones de heterocedasticidad (varianzas distintas) los coeficientes Bj siguen siendo estimadores

insesgados de sus respectivos parámetros, pero se vuelven poco eficientes (es decir, aumenta su varianza). Y
esto implica que las pruebas de significación y los intervalos de confianza podrían llevar a conclusiones
erróneas.
Para valorar este supuesto puede utilizarse un diagrama de dispersión con los residuos en el vertical y los
pronósticos en el eje horizontal (cada pronóstico es una combinación lineal de valores X y refleja una
combinación distinta de valores X). Al representar los pronósticos con los residuos se está obteniendo
información acerca de la dispersión de las distribuciones empíricas correspondientes a las distribuciones
poblacionales representadas (ver diagramas de dispersión a continuación). Si la varianza de los residuos es
constante, la nube de puntos estará distribuida homogéneamente en torno al valor cero del eje vertical
(gráfico 1). Los diagramas del centro y de la derecha muestran incumplimientos más o menos frecuentes de
este supuesto.
Los problemas asociados a la heterogeneidad de varianzas pueden resolverse utilizando el método de

estimación de mínimos cuadrados ponderados. Con esta estrategia, lo que se intenta minimizar no es
exactamente la suma de los residuos al cuadrado, como en el método de mínimos cuadrados ordinarios, sino
esa misma suma después de ponderar cada residuo con un determinado peso w (el tamaño de los pesos se fija
haciéndoles tomar un valor inversamente proporcional a la varianza de Y en cada valor de X)
10.4. Casos atípicos e influyentes
La calidad de una ecuación de regresión no viene determinada únicamente por lo bien que consigue
resumir una nube de puntos (bondad de ajuste). Valorar la calidad de una ecuación y, si fuera posible,
mejorarla, requiere, por un lado, vigilar el cumplimiento de los supuestos en los que se basa y, por otro,
controlar algunos detalles que podrían estar distorsionando los resultados del análisis (casos mal
pronosticados, casos excesivamente influyentes, etc.).
Estas dos tareas deberían abordarse antes que cualquier otra. Sin embargo, puesto que ambas se basan,
principalmente, en el análisis de los residuos, es inevitable tener que comenzar calculando la ecuación de
regresión. Ahora bien, esto no significa que, una vez calculada la ecuación, ésta ya pueda interpretarse y
utilizarse para efectuar pronósticos. Antes de hacer esto es necesario chequear los supuestos del análisis (ver
apartado anterior) y estudiar los casos atípicos y los casos influyentes (que veremos en este apartado).
a) Casos atípicos
Un caso atípico es un caso inusual, un caso que no se parece a los demás. Una exploración descriptiva
inicial de los datos, además de ofrecer una primera impresión sobre las características de cada variable,
también sirve para detectar posibles casos atípicos.
La exploración descriptiva inicial de los datos es algo muy útil en el caso de la regresión simple pero no lo es
tanto en el caso de la regresión múltiple. El hecho de que no existan casos atípicos en ninguna variable
individualmente considerada no significa que todo esté bien, ya que también es necesario valorar la posibilidad
de que existan casos atípicos multivariados: un caso puede tener una puntuación razonable en dos variables
individualmente consideradas y ser un caso atípico al combinar ambas variables. Por ejemplo, no es inusual
que una persona tenga una altura de 180 cm; tampoco lo es que una persona tenga un peso de 55 kg; pero sí
es inusual que una persona con una altura de 180 cm tenga un peso de 55 kg.
❖ Casos atípicos en Y
Puesto que los pronósticos de una ecuación de regresión representan el centro estimado de
cada distribución poblacional de Y, los residuos son una estimación del grado en que cada valor de Y
se aleja del valor esperado de su distribución. En consecuencia, los casos atípicos en Y tendrán
asociados residuos grandes (en valor absoluto). Suele considerarse que los residuos que se alejan más
de tres desviaciones típicas de su media corresponden a casos mal pronosticados. Y los casos mal
pronosticados son, probablemente, casos atípicos en Y.
Para valorar el tamaño de los residuos, se los tipifica → A estos residuos se les llama tipificados o
estandarizados y tienen una media de cero y una desviación típica de uno (aproximadamente). Por
tanto, un residuo tipificado mayor que l3l (en valor absoluto, es decir, mayor que +3 o menor que -3)
está delatando un posible caso atípico en Y (es seguro que se trata de un caso mal pronosticado y, por
tanto, es probable que se trate de un caso atípico en Y).
Cada residuo tiene su propio error típico. Si cada residuo se tipifica dividiéndolo por su error típico, se
obtienen unos residuos muy utilizados en regresión lineal: los residuos studentizados. A estos residuos
se les llama studentizados porque se distribuyen según el modelo de probabilidad t de Student (con n-
p- 1 grados de libertad).
✓ Si puede asumirse que la variable Y se distribuye normalmente en torno a la recta de regresión

poblacional, entonces los residuos studentizados pueden utilizarse para decidir si un
determinado caso se aleja significativamente de su valor pronosticado. Eso se hace mediante
una comprobación de los valores con unos cuantiles obtenidos mediante una fórmula (…)
✓ Pero con muestras grandes, sigue siendo válido (y generalmente más útil) el criterio de revisar
aquellos casos con residuos studentizados mayores que l3l (en valor absoluto). Un residuo que
se aleja más de tres desviaciones típicas de su valor esperado está delatando un caso mal
pronosticado y, corno tal, un caso que conviene revisar.
Un diagrama de dispersión con los pronósticos en el eje horizontal y los residuos en el vertical suele
ser bastante útil para identificar posibles casos atípicos en Y. La varianza de un residuo es tanto mayor
cuanto más centrado se encuentra el caso.
❖ Casos atípicos en X¡
El grado en que un caso es inusual o atípico en el conjunto de variables independientes X suele

cuantificarse mediante una medida llamada influencia (leverage). Esta medida se representa mediante
h y refleja el grado de alejamiento de cada caso respecto del centro de su distribución, es decir, el
grado de alejamiento del conjunto de puntuaciones de un caso respecto de las puntuaciones medias
de todos los casos (también llamado centroide o centro común de las X).
Los valores h oscilan entre 1/n y 1 y son los elementos diagonales de la matriz hat (una matriz
importantísima en el análisis de regresión ya que contiene la información necesaria para transformar
el vector de valores observados en el de valores pronosticados). Cuanto mayor es el valor h ¡ asociado
a un caso, más inusual o atípico es en X.
Para interpretar la magnitud de h se han propuesto diferentes reglas. Hoaglin y Welsch (1978) sugieren
revisar los casos con valores h mayores que el doble de la media. Pero Belsley, Kuh y Welsch (1980)
consideran que este criterio arroja demasiados casos atípicos, particularmente si se trabaja con pocas
variables independientes y muestras grandes. Stevens (1992) sugiere revisar los casos con valores h
mayores que el triple de la media. Y una regla que funciona razonablemente bien para identificar casos
atípicos en X es la siguiente: los valores h menores que 0,2 son poco problemáticos, los valores
comprendidos entre 0,2 y 0,5 son arriesgados; los valores mayores que 0,5 deben revisarse.
b) Casos influyentes
Al calcular, por ejemplo, una media, todos los casos de la muestra tienen el mismo peso en el resultado.
En una ecuación de regresión no ocurre lo mismo. Aunque todos los casos contribuyen a estimar los
coeficientes de la ecuación, no todos lo hacen en la misma medida. Los casos influyentes son casos que afectan
de forma importante a los resultados del análisis. Un caso influyente no debe confundirse con un caso atípico.
Los casos atípicos son casos que conviene revisar, pero no necesariamente son casos influyentes. Para que un
caso pueda ser etiquetado de influyente, además de ser atípico, debe alterar de forma importante los
resultados del análisis.
Los ejemplos de la siguiente figura muestran casos atípicos que no pueden ser considerados influyentes. La
línea continua representa la recta de regresión basada en todos los casos; la línea discontinua representa la
recta de regresión basada en todos los casos menos el atípico (el caso alejado de los demás).
El diagrama de la izquierda incluye un caso atípico en Y (su residuo es muy grande), pero no en X (toma un
valor intermedio en X); el diagrama de la derecha incluye un caso atípico en X (toma un valor muy grande X)
pero no en Y (su residuo es muy pequeño). A pesar de que ambos son casos atípicos, las pendientes de las
rectas de regresión apenas se alteran al eliminar estos casos del análisis.
Los siguientes ejemplos, en cambio, muestran casos que, además de atípicos, son influyentes. El diagrama de
la izquierda incluye un caso atípico tanto en Y como en X (su residuo es grande y su valor en X es claramente
mayor que el del resto de los casos); el de la derecha incluye un caso atípico en X pero no en Y (toma un valor
grande en X pero su residuo es pequeño).
Ahora, a diferencia de lo que ocurría en los diagramas anteriores, las pendientes de las rectas de regresión SÍ
cambian sensiblemente al eliminar estos casos del análisis.
Como ya hemos comentado, los diagramas de dispersión sirven para identificar con relativa facilidad la
presencia de posibles casos influyentes en regresión simple, pero son poco útiles en regresión múltiple.
Al aumentar el número de variables, la forma de valorar el grado de influencia de un caso consiste en comparar
lo que ocurre cuando se utilizan todos los casos con lo que ocurre al eliminar ese caso del análisis. Esta
comparación se centra, por lo general, en tres resultados del análisis: (1) los coeficientes de regresión, (2) los
pronósticos y (3) los residuos. Para realizar estas comparaciones se estiman n + 1 ecuaciones de regresión: una
basada en todos los casos y las n restantes eliminando un caso cada vez. Veámoslo.
❖ Cambio en los coeficientes de regresión:
El cambio en los coeficientes de regresión puede valorarse de forma individual o de forma

colectiva. La influencia de un caso sobre cada uno de los coeficientes de regresión puede valorarse a
partir de la diferencia entre los coeficientes de regresión tipificados (cálculo “diferencia betas” por
cada coeficiente de regresión presente en la ecuación y tipificación al dividir entre su error típico).
Cook ha propuesto el estadístico probablemente más conocido y utilizado para valorar la influencia de
cada caso sobre los resultados de la regresión. Este estadístico se conoce como distancia de Cook (D)
y se basa en la suma de los cambios que experimentan todos los coeficientes de forma simultánea o
conjunta al ir eliminando cada caso del análisis
Este estadístico se aproxima a una distribución F. Un caso debe ser considerado influyente (y por tanto,
debe ser revisado) cuando la D es mayor que el cuantil F (…) (cuantil 50). Esto equivale, en la mayoría
de los casos, a considerar que un caso es influyente cuando D> 1.
❖ Cambio en los pronósticos
Otra forma de valorar la influencia de un caso sobre los resultados de la regresión consiste en
calcular la diferencia entre los valores pronosticados.
Para interpretar estas diferencias, se tipifican dividiéndolas entre su error típico. Debe prestarse
especial atención a los casos a los que les corresponde una “DFFITS” tipificada mayor que el doble de
la raíz cuadrada de la media de los valores h.
❖ Cambio en los residuos
Finalmente, la influencia de un caso sobre los resultados de la regresión puede valorarse a

partir de la diferencia entre su residuo y el residuo obtenido al eliminar el caso de la ecuación. Al
residuo correspondiente a un caso que no forma parte de la ecuación se le llama residuo eliminado. Y
e la mejor manera de valorar el tamaño de un residuo consiste en studentizarlo, es decir, en dividirlo
por su error típico individual (en lugar de hacerlo por el error ti pico promedio de todos los residuos),
por lo que se hace lo mismo con los residuos eliminados → A la versión tipificada de un residuo
eliminado se le llama residuo eliminado studentizado. Si un caso es influyente, estos residuos tomarán
valores alejados de cero y lo razonable es revisar los casos cuyo residuo eliminado studentizado sea
mayor que l3l (en valor absoluto).
c) Qué hacer con los casos atípicos e influyentes
Los casos atípicos son casos anómalos en algún sentido; son casos que no se parecen al resto. Y es
importante revisarlos porque pueden estar alterando los resultados del análisis. En ocasiones, los casos
atípicos serán el resultado de errores de registro o codificación y el problema quedará resuelto simplemente
introduciendo el código correcto o eliminando el caso del análisis si no existe posibilidad de corregirlo. Pero
otras veces se tratará de casos reales, plausibles, que no se parecen al resto por diferentes circunstancias
susceptibles de ser identificadas.
Como regla general, un caso atípico no puede ser excluido del análisis simplemente porque no gusta. Antes de
eliminarlo es necesario valorar cómo afecta a los resultados del análisis (si los altera o no) y comprobar si
obedece a algún tipo de debilidad de la ecuación (no incluye alguna variable relevante, no pronostica bien
cierto rango de valores de la variable dependiente, etc.).
Puede ocurrir que un caso atípico se corresponda con una respuesta deseable o incluso ideal (una recuperación
espectacular, un rendimiento excelente, etc.). En estos casos, conocer los valores que toma un caso atípico en
las variables independientes puede aportar información muy valiosa para futuros estudios.
No existe un acuerdo generalizado sobre la conveniencia o no de eliminar los casos atípicos. No existe, por
tanto, una única regla en la que basar esta decisión. Pero es innegable que, para tomarla, puede ayudar el
hecho de saber que, cuando se decide eliminar un caso del análisis, hay que informar de las razones que han
llevado a hacer tal cosa.
Los casos atípicos podrían ser eliminados del análisis con la excusa de que están entorpeciendo o inflando el
ajuste. Pero, sin otro tipo de justificación, estaríamos pasando por alto el hecho de que el aspecto más
relevante de los relacionados con los casos atípicos consiste precisamente en identificar las causas por las que
son atípicos.
También podrían eliminarse los casos muy atípicos con el argumento de que el objetivo del análisis es construir
una ecuación para entender lo que ocurre con los casos típicos, no con los atípicos. Este argumento es más
convincente si los casos atípicos representan a una sub~ población especial que se sale del rango de variación
típico o esperable en la población estudiada. Sin embargo, si existe un conjunto de casos atípicos que parece
formar un subgrupo separado del resto, lo razonable es incorporarlos a la ecuación de regresión creando una
variable dicotómica (con unos y ceros para diferenciar ambos sub grupos) o desarrollar diferentes ecuaciones
de regresión para los diferentes subgrupos (como se hace con los modelos multinivel).
Una solución intermedia entre retener y eliminar los casos atípicos consiste en utilizar métodos de estimación
robustos, es decir, métodos cuyas estimaciones se ven menos alteradas que las mínimo-cuadráticas por la
presencia de casos atípicos o influyentes.
Y cualquiera que sea la decisión que finalmente se decida adoptar con un caso atípico o influyente, no debe
olvidarse que el hecho de que un caso sea considerado atípico o influyente siempre se hace tomando como
referencia una ecuación de regresión concreta. Si la ecuación cambia porque se incorporan nuevas variables o
porque se elimina alguna de las incluidas, los casos etiquetados como atípicos o influyentes pueden dejar de
serlo y otros que antes no lo eran pueden pasar a serlo.
10.5. Comentarios finales
a) Validez de una ecuación de regresión
Recordemos que los coeficientes de una ecuación de regresión lineal se estiman aplicando el criterio
de mini m os cuadrados, el cual consiste en minimizar los residuos (errores de predicción). Puesto que los
residuos no son más que las diferencias entre los pronósticos y los valores observados, esta forma de estimar
los coeficientes de la ecuación de regresión hace que el ajuste que se obtiene con la muestra concreta utilizada
sea mejor que el que se obtiene con cualquier otra muestra. De ahí la importancia de que los errores ti picos
de las estimaciones sean pequeños. Cuanto más pequeños son, mayor parecido cabe esperar encontrar entre
las estimaciones que se obtienen y las que podrían obtenerse en una muestra distinta.
Este argumento sugiere que una ecuación de regresión puede validarse utilizando casos nuevos. Para ello,
basta con obtener los pronósticos para esos casos nuevos y, a continuación, calcular el coeficiente de
correlación entre los valores observados en la variable dependiente y los valores pronosticados para esos casos
nuevos. En teoría, el coeficiente de correlación así obtenido debería ser igual al coeficiente de correlación
múltiple del análisis de regresión. En la práctica, si la ecuación es lo bastante buena, se observarán pequeñas
diferencias entre ambos coeficientes atribuibles únicamente al azar muestral. Por supuesto, los nuevos casos
deben representar a las mismas poblaciones que los casos originalmente utilizados para estimar la ecuación
de regresión.
Si no se tiene acceso a nuevos casos o resulta difícil obtenerlos, todavía es posible validar una ecuación de
regresión si la muestra es lo bastante grande. Basta con utilizar la mitad de los casos de la muestra
(aleatoriamente seleccionados) para obtener la ecuación de regresión y la otra mitad de la muestra para
efectuar los pronósticos. Una buena ecuación deberla llevar a obtener una correlación similar entre los valores
observados y los pronosticados de ambas mitades.
b) Consideraciones sobre el tamaño muestral
Al llevar a cabo un análisis de regresión es inevitable preguntarse por el tamaño que debe tener la
muestra. Pero la respuesta a esa pregunta no es nada simple.
Harrell (2001) cita varios trabajos en los que se sugiere utilizar entre 10 y 20 casos por cada variable
independiente. Sin embargo, este tipo de reglas no tienen mucho sentido cuando se trabaja con unas pocas
variables independientes (probablemente ningún investigador confiarla seriamente en inferencias basadas en
una variable independiente y 10 casos). Harris (2001) ha propuesto una regla basada, no en el número de casos
por variable, sino en la cantidad que el número de casos debe superar al de variables; propone utilizar 50 casos
más que el número de variables independientes (n =50+ p).
Otros muchos autores plantean el problema del tamaño muestral desde el punto de vista de la potencia
estadística. Por ejemplo, para detectar, con 3 variables independientes, que una correlación múltiple de 0,45
(coeficiente de determinación de 0,20) es significativamente distinta de cero, con una potencia de 0,80 y un
nivel de significación de 0,05, hacen falta 48 casos; y 115 casos para declarar distinta de cero una correlación
múltiple de 0,30 (coeficiente de determinación de 0,09), etc. Por tanto, para poder declarar significativas
correlaciones del tamaño habitual en el ámbito de las ciencias sociales y de la salud, hace falta trabajar con
muestras relativamente grandes.
Además, con muestras pequeñas se corre el riesgo de obtener ecuaciones que no funcionen bien al aplicarlas
a otras muestras. Podría decirse que, en este contexto, funciona la regla de más es mejor. Pero sin olvidar que,
con muestras muy grandes, se corre el riesgo de declarar estadísticamente significativos efectos teóricamente
irrelevantes.
10.6. Apéndice 10: Regresión curvilínea
El análisis de regresión lineal únicamente es una forma particular de regresión. Y, aunque es, quizá, la
forma de regresión más utilizada, existen funciones no lineales que pueden resultar útiles para abordar
determinados problemas. Se sabe, por ejemplo, que al intentar resolver una tarea compleja, los sujetos
excesivamente ansiosos y los muy relajados rinden peor que los sujetos que mantienen niveles de ansiedad
intermedios; es decir, se sabe que la relación existente entre la ansiedad y el rendimiento no es lineal, sino
cuadrática. Por tanto, si se desea pronosticar el rendimiento a partir del nivel de ansiedad, una ecuación
cuadrática ofrecerá mejores pronósticos que una ecuación lineal.

Ampliación Sobre Estadística Inferencial Mamano Grande, M. (2022)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ampliación Sobre Estadística Inferencial Mamano Grande, M. (2022)

Cargado por

Copyright:

Formatos disponibles

Ampliación sobre estadística inferencial, elaborada a partir de Pardo, A., San Martín, R.

, Análisis de datos en ciencias sociales y de la

TEMA 1. LA INFERENCIA ESTADÍSTICA

La potencia depende de:

1. Del valor de alfa (…)

Al disminuir la desviación típica de la población o al aumentar n (el tamaño de la muestra), se reduce

TEMA 2. INFERENCIA CON UNA SOLA VARIABLE:

2.1. Contrastes sobre una distribución

En la práctica, la independencia entre observaciones se consigue seleccionándolas al azar. En una secuencia

Es importante no confundir la hipótesis de aleatoriedad con la hipótesis de bondad de ajuste estudiada a

b) Prueba de los cuantiles:

TEMA 3. INFERENCIA CON DOS VARIABLES CATEGÓRICAS

3.1. Contraste de independencia o igualdad de proporciones (proporciones independientes*2):

El contraste de la hipótesis de independencia es el más frecuente al analizar dos variables categóricas. Se

3.2. Homogeneidad marginal y simetría (proporciones relacionadas*2)

3.3. Índices de riesgo:

fumadores es atribuible a todo en lo que difieren fumadores y no fumadores (que, probablemente, no es

La distribución muestral de RR es muy asimétrica. No obstante, para valorar si un índice

c) Relación entre el riesgo relativo y la odds ratio:

d) Consideraciones sobre la interpretación de los índices de riesgo

3.4. Índices de acuerdo

a) Acuerdo con variables nominales: kappa

acuerdo o coincidencia entre ambos criterios de clasificación.

El índice de acuerdo kappa (Cohen, 1960) se obtiene dividiendo el

3.5. Asociación entre variables categóricas ordinales:

❖ El contraste de la hipótesis de independencia con la prueba X2 de Pearson permitiría saber si las

❖ Coeficiente tau-a: PC - PD (se restan ambas proporciones)

a) Combinación de tablas 2x2 (Cochran y Mantel-Haenszel):

Si se rechaza la hipótesis de independencia condicional, lo que conviene hacer es determinar si la relación

c) Medidas de asociación basadas en la reducción proporcional del error:

d) Muestras pequeñas: la prueba exacta de Fisher

TEMA 4. INFERENCIA CON UNA VARIABLE CATEGÓRICA Y UNA CUANTITATIVA

4.1. La prueba T de Student para muestras independientes:

4.2. La prueba de Mann-Whitney

En ocasiones, este procedimiento puede encontrarse con la denominación de prueba de Wilcoxon-Mann-

4.3. La prueba de Kruskal-Wallis

4.4. Medidas del tamaño del efecto

a) El caso de dos grupos

En el contexto de los diseños de dos grupos aleatorios*5, quizá la más

b) El caso de más de dos grupos

4.5. Cálculo de la potencia y del tamaño muestral

4.6. Contrastes de equivalencia y no-inferioridad

a) Métodos para demostrar equivalencia

❖ Doble contraste unilateral de Schuirmann

Ambos contrastes son unilaterales y en ambos se utiliza el mismo nivel de significación α. No es

❖ Intervalo de confianza de Westlake:

Es un contraste de equivalencia idéntico al doble contraste unilateral de Schuirrnann,

¡Ojo! El intervalo de Westlake es un contraste de equivalencia, no es un intervalo de equivalencia (estimación

b) Métodos para demostrar no-inferioridad

El objetivo de un estudio de no-inferioridad es demostrar que un tratamiento no es peor que otro

c) Limitaciones de los contrastes de equivalencia y no-inferioridad:

a) La prueba de Kolmogorov-Smirnov para dos muestras independientes

b) La prueba de las rachas de Wald-Wolfowitz

c) La prueba de reacciones extremas de Moses

TEMA 5. INFERENCIA CON DOS VARIABLES CUANTITATIVAS

5.1. La prueba T de Student para muestras relacionadas

5.2. La prueba de Wilcoxon para dos muestras

5.3. Prueba de los signos para dos muestras

5.4. El coeficiente de correlación de Pearson

5.5. El coeficiente de correlación de Spearman

La Ho en el coeficiente de correlación de Spearman reflejará la NO relación entre 2 VV; supuestos: muestra

5.6. Medidas del tamaño del efecto

5.7. Apéndice 5: Correlaciones parciales