Está en la página 1de 21

92 Greenhoot

CAPÍTULO SEIS

Diseño y análisis de investigaciones experimentales


y cuasi-experimentales.

Andrea Follmer Greenhoot

Este capítulo se ocupa de los diseños experimentales y cuasiexperimentales y los enfoques estadísticos más comúnmente empleados

en conjunto con ellos. La sección sobre diseño describe configuraciones básicas de experimentos verdaderos y cuasi-experimentos,

explica las ventajas y desventajas de cada una de estas dos familias de diseño, y discute algunas consideraciones generales para

cualquier tipo de diseño. La sección sobre análisis se centra en el análisis de datos experimentales y cuasiexperimentales con variables

de respuesta continua (consulte el capítulo 9, este volumen, para obtener información sobre el análisis de variables dependientes

cualitativas). Esta sección comienza con una breve discusión de análisis descriptivos preliminares, seguida de una descripción de los

métodos para análisis inferenciales. Debido a que los estudios experimentales y cuasiexperimentales están diseñados para abordar

preguntas sobre las diferencias grupales en el rendimiento promedio, los datos de estos estudios generalmente se analizan utilizando

alguna forma de análisis de varianza (ANOVA) o extensiones de esa técnica. Sin embargo, es importante tener en cuenta que las

técnicas estadísticas discutidas aquí pueden ser apropiadas para el análisis de datos no experimentales; de hecho, estos

procedimientos son apropiados para el análisis de datos de cualquier investigación en la que las preguntas de investigación primarias

involucren una evaluación de las diferencias en el desempeño del grupo. Es importante señalar que las técnicas estadísticas discutidas

aquí pueden ser apropiadas para el análisis de datos no experimentales; de hecho, estos procedimientos son apropiados para el

análisis de datos de cualquier investigación en la que las preguntas de investigación primarias involucren una evaluación de las

diferencias en el desempeño del grupo. Es importante señalar que las técnicas estadísticas discutidas aquí pueden ser apropiadas para

el análisis de datos no experimentales; de hecho, estos procedimientos son apropiados para el análisis de datos de cualquier investigación en la que las pre

Diseño

Diseños experimentales

Los experimentos verdaderos implican la manipulación de una o más variables independientes por parte del investigador y
la asignación aleatoria de sujetos a grupos o tratamientos experimentales.
Diseños grupales 93

Un experimento con dos o más variables independientes (es decir, factores) que están completamente cruzadas tiene un diseño

factorial. Las combinaciones de niveles de las variables independientes forman los grupos o células del diseño experimental. Por
ejemplo, un experimentador podría medir los síntomas depresivos de los pacientes que tomaron uno de los tres medicamentos

(medicamento UNA, fármaco SI,

o un placebo) y participó en uno de los dos tipos de terapia. Al combinar los tres niveles del factor farmacológico con
los dos niveles de terapia, se forman seis células o grupos. Con la asignación aleatoria de sujetos a grupos, cada
individuo tiene la misma probabilidad de ser asignado a cualquier grupo experimental, lo que reduce la probabilidad de
que las diferencias entre los grupos de tratamiento se deban a diferencias iniciales en las muestras grupales. Como tal,
los experimentos verdaderos permiten al investigador sacar conclusiones sólidas de causa y efecto sobre las
relaciones entre las variables independientes y dependientes.

Procedimientos de asignación aleatoria


Se pueden utilizar dos procedimientos generales para asignar aleatoriamente a los sujetos a condiciones experimentales. Con el

procedimiento más simple, asignación aleatoria gratuita, los sujetos se distribuyen aleatoriamente entre los grupos experimentales;

este procedimiento lleva a una completamente al azar

diseño experimental. El procedimiento alternativo, asignación aleatoria coincidente, a menudo se usa cuando un investigador

sospecha que ciertas características del sujeto (por ejemplo, edad, coeficiente intelectual u hospitalización previa) están

relacionadas con la variable dependiente. Este método es particularmente deseable cuando es probable que la influencia de una

variable de confusión sea lo suficientemente fuerte como para enmascarar los efectos experimentales. Las puntuaciones

preliminares o los registros existentes se utilizan para crear bloques de sujetos que son similares en las variables de confusión, y

los niveles de tratamiento se asignan al azar a los sujetos dentro de cada bloque. Al controlar las diferencias iniciales entre los

sujetos sobre factores de confusión, el procedimiento de bloqueo facilita la detección de efectos experimentales. Cuando se utiliza

este procedimiento de aleatorización, el experimento tiene un

diseño de bloques al azar.

Diseños posttest-only versus pretest-posttest


En el diseño experimental más simple, uno o más grupos experimentales se comparan con un grupo de
control en una "prueba posterior". En otras palabras, los sujetos se asignan aleatoriamente a grupos, y las
respuestas se miden una vez después de la introducción de la manipulación experimental. Se supone que las
diferencias grupales en las puntuaciones medias en la variable de respuesta reflejan el efecto de la variable
independiente porque el proceso de aleatorización reduce la probabilidad de diferencias grupales iniciales en
la variable de resultado. Los diseños posteriores a la prueba funcionan particularmente bien con muestras
grandes, porque las muestras más grandes aumentan la probabilidad de que la asignación aleatoria realmente
conduzca a la igualdad entre los grupos. Para fortalecer la afirmación de que el proceso de aleatorización
resultó en grupos inicialmente equivalentes,

Mientras que los diseños posteriores a la prueba solo permiten la evaluación de los efectos entre sujetos, los diseños
previos a la prueba permiten evaluar los cambios dentro del grupo en respuesta a una manipulación experimental. En
algunos diseños pretest-posttest, los sujetos se asignan primero al azar a grupos y luego se prueban antes de la
manipulación experimental. Las puntuaciones preliminares permiten al investigador verificar el éxito de la asignación
aleatoria en la creación de grupos equivalentes. Otros diseños pretest-posttest involucran materias de pretest
94 Greenhoot

primero, emparejándolos con base en los puntajes de las pruebas preliminares y asignando al azar miembros de pares
emparejados a grupos. Este procedimiento ayuda a garantizar que se creen grupos equivalentes en primer lugar. Un diseño
pretest-posttest es especialmente preferible cuando el número de sujetos es pequeño o cuando es probable que los sujetos
difieran sustancialmente en una característica relacionada con el resultado de interés. El diseño también se recomienda si
un investigador sospecha que las respuestas de los sujetos a una manipulación dependen de sus puntajes iniciales en la
medida dependiente; Con el diseño pretest-posttest, el investigador puede controlar estadísticamente los niveles iniciales, lo
que facilita la detección de efectos experimentales. Además, cuando el examen de los cambios dentro del sujeto en el
resultado es un objetivo explícito de la investigación, un diseño pretest-posttest es claramente el más apropiado. Una
desventaja de los diseños pretest-postest es que las pruebas repetidas a veces introducen el problema de los efectos de
arrastre diferencial (ver Maxwell y Delaney, 1990). Cuando los efectos de arrastre son probables, se prefiere un diseño
posterior a la prueba solamente.

Diseños cuasiexperimentales

Los cuasiexperimentos tienen algunas de las características de los experimentos verdaderos, incluida la manipulación
directa de una o más variables de interés. Como en los experimentos básicos, las combinaciones de los diferentes niveles
de las variables independientes forman los grupos experimentales. Lo que distingue a los cuasiexperimentos de los
verdaderos es que no implican la asignación aleatoria de sujetos a las condiciones. Los diseños cuasiexperimentales se
pueden clasificar en dos subtipos: diseños de grupo de control no equivalentes y diseños de series de tiempo interrumpido.

Diseños de grupo de control no equivalentes


En la investigación con sujetos humanos, a veces es imposible que un investigador asigne aleatoriamente sujetos a
grupos de tratamiento. En muchas instituciones, los individuos son asignados a grupos con fines educativos o sociales.
Por ejemplo, los niños se agregan a escuelas, grados y aulas, y los pacientes se agregan a hospitales y salas. En estas
situaciones, a los investigadores rara vez se les permite reasignar individuos para probar una hipótesis, y en su lugar
deben comparar grupos preexistentes que reciben diferentes tratamientos. Sin embargo, los grupos intactos pueden diferir
en las características relacionadas con la variable de resultado. Por ejemplo, los pacientes asignados a diferentes salas
pueden variar en el nivel de síntomas o características demográficas como la edad. Del mismo modo, los niños que
asisten a diferentes escuelas pueden provenir de diferentes entornos socioeconómicos y educativos. Dentro de las
escuelas, el personal escolar puede agregar a los niños a las aulas sobre la base de características académicas o de
comportamiento, o por parte de los padres que solicitan maestros particulares para sus hijos. Debido a la posibilidad de
diferencias grupales iniciales, la capacidad de extraer inferencias causales de investigaciones de grupos de control no
equivalentes depende de otras características del diseño del estudio, como si el diseño incluye una prueba previa.

Diseños posttest-only versus pretest-posttest


Normalmente no se recomiendan los diseños posteriores a la prueba para diseños de grupos de control no equivalentes (por
ejemplo, ver Morgan, Gliner y Harmon, 2000). El investigador no puede gobernar
Diseños grupales 95

elimina la amenaza de sesgo de selección porque no se recopila información de referencia sobre la equivalencia de
grupos. Es decir, las diferencias grupales en el resultado podrían atribuirse a la manipulación experimental o a las
diferencias grupales iniciales. Si bien las mediciones de las características de la muestra que podrían estar relacionadas
con las variables de interés podrían usarse para fortalecer la afirmación de equivalencia grupal, los resultados de un
cuasi-experimento solo posterior a la prueba generalmente son más difíciles de interpretar que los de la alternativa
previa a la prueba. Los cuasiexperimentos que emplean algún tipo de prueba previa proporcionan información más clara
sobre las relaciones entre las variables independientes y dependientes, porque el uso de una prueba previa permite una
evaluación de la equivalencia inicial de los grupos experimentales. Sin embargo, los diseños de pretest y posttest no
elimine la amenaza de "historia local" o una experiencia que ocurra entre la prueba previa y la posterior para un grupo
que pueda influir en el resultado de interés. Por lo tanto, debe evaluarse la probabilidad de tales experiencias para los
diferentes grupos.

Diseños de series temporales interrumpidas


A diferencia de los diseños de grupos de control no equivalentes, que implican comparaciones entre sujetos para evaluar
los efectos del tratamiento, los diseños de series de tiempo interrumpido evalúan los efectos del tratamiento a través de
comparaciones entre sujetos. Estos diseños, incluidos ABA, ABAB y múltiples diseños de línea de base, se pueden aplicar
a grupos de sujetos o sujetos individuales. La lógica de los diseños es generalmente la misma independientemente de si
uno o varios sujetos están involucrados: los sujetos están expuestos a una serie de cambios en la variable independiente,
y sus respuestas se miden en cada fase. Para ilustrar, en los diseños ABA, las mediciones de referencia en la variable de
resultado se toman repetidamente durante un período de tiempo determinado, seguido de la introducción de una
manipulación experimental y la medición de las respuestas a la manipulación. Finalmente, Se elimina la manipulación y se
restablecen las condiciones de referencia. Los cambios en las respuestas de los sujetos durante la fase de manipulación
experimental combinados con la reversión de los efectos en la fase final proporcionan una fuerte evidencia de un vínculo
causal entre la variable independiente y la dependiente (ver Gelfand y Hartmann, 1984; y el capítulo 5, este volumen, para
un descripción más detallada de estos procedimientos).

Inclusión de variables explicativas adicionales.

Tanto los experimentos verdaderos como los cuasiexperimentos incluyen frecuentemente mediciones de variables clasi fi
catorias o continuas no manipuladas. Por ejemplo, un investigador podría estar interesado en saber si los sujetos de dos o
más poblaciones (por ejemplo, hombres y mujeres) responden de manera similar a una manipulación experimental (por
ejemplo, drogas UNA y un placebo). Alternativamente, un investigador podría querer controlar las variables extrañas
continuas, como la edad u hospitalizaciones previas, al evaluar los efectos experimentales. La inclusión de tales variables
permite al investigador demostrar la generalización de los efectos del tratamiento, y aumenta la sensibilidad de las pruebas
de los efectos del tratamiento al tener en cuenta alguna variabilidad dentro del grupo. En el análisis de datos, las variables
clasificatorias simplemente pueden tratarse como factores adicionales. Los métodos para tratar con covariables continuas (es
decir, análisis de covarianza) se analizarán con cierta extensión en la sección de análisis de este capítulo.
96 Greenhoot

Ventajas de los diseños factoriales

¿Cuántas variables independientes se deben examinar en un experimento o cuasiexperimento? Los metodólogos generalmente están

de acuerdo en que los diseños factoriales tienen varias ventajas sobre una serie de estudios de un solo factor (por ejemplo, Maxwell y

Delaney, 1990; Kirk, 1982). Un beneficio importante de los experimentos factoriales es su capacidad para detectar la presencia de

interacciones entre factores. Es decir, los estudios factoriales proporcionan información sobre si cada variable opera de la misma

manera en los niveles de las otras variables. Por ejemplo, un investigador interesado en los efectos de un nuevo medicamento sobre

los síntomas depresivos podría usar un diseño factorial para determinar si el medicamento afecta a los sujetos que reciben terapia de

manera diferente a los que no reciben terapia. Incluso si no se esperan interacciones, un diseño factorial mejora la generalización de

los resultados porque los efectos pueden generalizarse a través de los niveles del otro factor. Finalmente, los experimentos factoriales

emplean sujetos más económicamente que una serie de experimentos centrados en un factor a la vez. Estas ventajas no implican que

los investigadores deberían tratar de diseñar estudios que manipulen todos los factores que podrían afectar el resultado de interés. Las

interacciones de alto orden creadas por diseños de cuatro o cinco factores suelen ser demasiado complejas para ser informativas. Por

lo tanto, los diseños con varios factores manipulados (es decir, más de tres) son poco comunes en las ciencias del comportamiento

(Maxwell y Delaney, 1990). Estas ventajas no implican que los investigadores deberían tratar de diseñar estudios que manipulen todos

los factores que podrían afectar el resultado de interés. Las interacciones de alto orden creadas por diseños de cuatro o cinco factores

suelen ser demasiado complejas para ser informativas. Por lo tanto, los diseños con varios factores manipulados (es decir, más de tres)

son poco comunes en las ciencias del comportamiento (Maxwell y Delaney, 1990). Estas ventajas no implican que los investigadores

deberían tratar de diseñar estudios que manipulen todos los factores que podrían afectar el resultado de interés. Las interacciones de alto orden creadas po

Diseños entre sujetos versus dentro de sujetos

La mayor parte de la discusión del diseño hasta ahora se ha centrado en factores entre sujetos, pero muy a menudo los
experimentos y cuasi-experimentos incluyen factores que varían dentro de los sujetos. Por ejemplo, en lugar de exponer a
diferentes grupos a diferentes condiciones de tratamiento, un investigador podría aplicar dos o más condiciones de
tratamiento a los mismos sujetos, contrarrestando el orden de los tratamientos entre los sujetos (tenga en cuenta que este
tipo de diseño es deseable solo cuando se espera que los efectos del tratamiento ser temporal). Otros diseños con sujetos
implican comparar los puntajes de los sujetos en varias variables de resultado diferentes, como en el caso del análisis de
perfil, o comparar los puntajes de los sujetos en las mismas variables medidas repetidamente, como en los diseños
pretest-posttest o estudios longitudinales. El enfoque dentro de las asignaturas puede adoptarse por varias razones. Primero
y ante todo, Los diseños con sujetos se utilizan a menudo para explorar preguntas de investigación que los diseños entre
sujetos no pueden abordar (por ejemplo, preguntas sobre cambios en los individuos a lo largo del tiempo). Además, los
participantes se usan de manera más eficiente en los diseños entre sujetos que en los diseños entre sujetos; Se recopila
más información de cada asignatura y el número de asignaturas requeridas para un nivel particular de potencia es menor
(Maxwell y Delaney, 1990). Finalmente, los factores dentro de los sujetos eliminan cierta variabilidad debido a las diferencias
individuales entre los sujetos del término de error, reduciendo la varianza del error y aumentando la potencia para detectar
efectos experimentales (Vonesh, 1983; Winer, 1971). La desventaja más grave de los diseños dentro del sujeto es el
potencial de arrastre diferencial de medidas repetidas, lo que puede sesgar las estimaciones de los efectos del tratamiento
(por ejemplo, ver Maxwell y Delaney, 1990). Por lo tanto, los efectos de algunos factores se evalúan mejor en los diseños
entre sujetos.
Diseños grupales 97

Análisis

Las preguntas de investigación sobre datos experimentales y cuasiexperimentales implican comparaciones


entre condiciones experimentales en una o más variables de resultado. Las medidas de rendimiento individual
se combinan en medidas de rendimiento típico para cada condición, y las diferencias entre condiciones
proporcionan información sobre si existe evidencia de una relación de causa y efecto entre las variables
independientes y dependientes. En términos más generales, el examen de los datos implica medir una o más
variables dependientes en condiciones identificadas por una o más variables categóricas. Por lo tanto, como
se mencionó anteriormente, las técnicas para analizar datos experimentales y cuasiexperimentales también
son apropiadas para examinar datos no experimentales en los que los sujetos se agrupan en grupos de
acuerdo con una o más variables de clasificación, como la edad,

El análisis de datos puede dividirse en dos fases, cada una de las cuales es crítica para las conclusiones
científicas del investigador. La primera fase es una fase descriptiva preliminar en la que el investigador se familiariza
con los datos. Una vez que se ha aplicado la fase preliminar, se utilizan análisis inferenciales formales para
determinar la probabilidad de que los patrones identificados en los análisis descriptivos puedan haber ocurrido por
casualidad (es decir, la significación estadística de los patrones). Cada una de estas dos fases se discutirá a su vez.

Análisis descriptivos.

Los análisis descriptivos preliminares son esenciales para comprender el significado de los datos. En esta fase de análisis,
el investigador construye gráficos o diagramas y calcula estadísticas descriptivas para familiarizarse con los datos,
buscando patrones importantes o inesperados. Con demasiada frecuencia, después de completar la recopilación de datos,
los investigadores están ansiosos por buscar efectos estadísticamente significativos y realizar pruebas de inferencia
formales prematuramente, antes de tomarse el tiempo para familiarizarse con sus datos. Sin embargo, la fase descriptiva
del análisis es tan crítica para sacar conclusiones científicas como la fase inferencial formal; de hecho, es difícil interpretar
los resultados de los análisis inferenciales sin comprender realmente cómo se ven los datos.

Para familiarizarse con los datos experimentales y cuasiexperimentales, los investigadores a menudo construyen
histogramas o gráficos de tallo y hojas para ilustrar la distribución de frecuencias de las puntuaciones (véanse las figuras 6.1
y 6.2). Estas pantallas gráficas proporcionan información sobre la forma de la distribución, de modo que el investigador
puede examinar la simetría, la modalidad y el pico de la distribución para las desviaciones de la normalidad. Por ejemplo, la
distribución de frecuencias en la figura 6.1 muestra una distribución sesgada positivamente, lo que sugiere que podría haber
un efecto de piso en el instrumento de evaluación. En contraste, la figura 6.2 es una ilustración de una distribución
aproximadamente normal. Como veremos a continuación, se supone que los puntajes se distribuyen normalmente para los
procedimientos estadísticos más comunes utilizados para analizar las variables de respuesta continua. Las distribuciones de
frecuencia también deben examinarse para detectar desviaciones o valores atípicos que se encuentren fuera del patrón
general, como se ilustra en la figura 6.1. En este caso, el investigador debe buscar explicaciones para
98 Greenhoot

25

20

15
Frecuencia

10

55

00
1 2 3 44 55 66 77 8 99 10
Puntuación

Figura 6.1 Ilustración de una distribución de frecuencia que está sesgada positivamente y contiene un valor atípico.

dieciséis

14

12

10
Frecuencia

66

44

00

1 2 3 44 55 66 77 8 99 10

Puntuación

Figura 6.2 Ilustración de una distribución de frecuencia aproximadamente normal.

respuesta atípica y decida cómo manejarla (ver Stevens, 1984 o Tukey, 1977, para discusiones detalladas sobre la
detección y el tratamiento de los valores atípicos).
Cuando las preguntas de investigación se centran en las diferencias entre grupos o condiciones
experimentales, las estadísticas descriptivas más utilizadas son la media, que mide la tendencia central de los
puntajes, y la desviación estándar, que mide la propagación o la variabilidad de los puntajes. Las medias y las
desviaciones estándar se calculan y comparan normalmente para cada celda del diseño experimental, así como
para la muestra total. Cuando se investiga más de una variable independiente (o variable de clasificación),

medios marginales También se puede calcular. Una media marginal es la puntuación media para un nivel particular de una variable
independiente, promediada a través de los niveles del otro factor. Comparaciones
Diseños grupales 99

Tabla 6.1 Muestra de medias celulares para un estudio de 2 factores

Programa

Género Controlar Intervención Media marginal (género)

Hembras Y 11 = 90,3 Y 21 = 79,9 Y. 1 = 85,1


Hombres Y 12 = 83,8 Y 22 = 84,4 Y. 2 = 84,1
Media marginal (programa) Y 1. = 87,1 Y 2. = 82,2 Y .. = 84,6

de medios marginales para una variable independiente proporciona información sobre el efecto principal de esa variable. Las
comparaciones de los medios celulares individuales proporcionan información sobre las interacciones entre variables
independientes. Para ilustrar, la tabla 6.1 muestra los medios celulares, marginales y generales para un ejemplo artificial de
un estudio que examina los efectos de un programa de ejercicio sobre la frecuencia cardíaca en reposo en sujetos masculinos
y femeninos, suponiendo tamaños de muestra de células iguales. Por lo tanto, aquí se consideran dos variables explicativas,
género y programa, cada una de las cuales tiene dos niveles. La comparación de las medias marginales para hombres y
mujeres no sugiere diferencias según el género. La media marginal para el programa de control es algo mayor que la del
programa de intervención. La comparación de los medios celulares sugiere la presencia de una interacción entre género y
programa; entre las mujeres, la frecuencia cardíaca promedio fue menor en el programa de intervención que en el programa
de control, mientras que no parece haber diferencias entre los programas entre los hombres. Por supuesto, en este momento
no es posible determinar si estas diferencias son simplemente el resultado de una variación aleatoria. Las estadísticas
inferenciales deben usarse para determinar si las diferencias de medias observadas son estadísticamente significativas.

Análisis inferenciales

Una vez que un investigador ha explorado patrones en los datos, se utilizan pruebas de inferencia
formales para determinar en qué medida estos patrones podrían haber surgido por casualidad. Los
estudios experimentales y cuasiexperimentales están diseñados para abordar preguntas sobre las
diferencias medias entre las condiciones de tratamiento en una o más variables de respuesta. Por lo
tanto, el análisis de datos experimentales o cuasiexperimentales generalmente implica relacionar una
o más variables independientes categóricas (por ejemplo, un tratamiento experimental) con una o
más variables de resultado continuo. Cuando se manipulan todos los factores entre los sujetos, la
estrategia de análisis más apropiada es un análisis de varianza (ANOVA). Las siguientes secciones
comienzan con una discusión de los supuestos y principios básicos de ANOVA,

Suposiciones de ANOVA
ANOVA requiere varios supuestos que están asociados con el estadístico F o los modelos lineales. Primero, se
supone que todas las observaciones son muestras aleatorias de k
poblaciones o grupos. Segundo, se supone que los errores aleatorios de las observaciones son
100 Greenhoot

independiente y normalmente distribuida dentro de cada población, con una media de 0. Por lo tanto, las observaciones
también son independientes y normalmente distribuidas dentro de cada población. Finalmente, se supone que la varianza de
los errores aleatorios (y, por lo tanto, la varianza de las observaciones) es la misma en todas las poblaciones.

Detalles computacionales
ANOVA divide la variación de una variable dependiente en diferentes partes que se atribuyen a una de las variables
explicativas o al error aleatorio. La variación atribuible al error aleatorio está representada por la variación dentro del
grupo, calculada como la suma de las desviaciones al cuadrado de las puntuaciones individuales de las medias
grupales, o la suma de cuadrados debido a error ( SSE). La ESS, dividida por sus correspondientes grados de libertad (el cuadrado
medio de error, o MSE), es una estimación del error aleatorio o la varianza de la población común, σ 2)

La variación asociada con cada variable explicativa se mide como la variabilidad entre los grupos de tratamiento, calculada
como la suma de las desviaciones al cuadrado de las medias del grupo de tratamiento de la media general de la muestra, o la suma
de cuadrados debido a tratamientos ( SST). Cuando la TSM es grande en comparación con la ESS, sabemos que la mayor
parte de la variabilidad en la variable dependiente se debe a diferencias entre grupos en lugar de diferencias dentro de los
grupos. La TSM dividida por sus grados de libertad se denomina cuadrado medio de tratamiento (TSM) y, bajo la hipótesis
nula de ausencia de diferencias grupales, la TSM también es una estimación de la varianza de la población común σ 2) Cuando
MST es mucho más grande que MSE, la hipótesis nula puede ser rechazada. Por lo tanto, las pruebas de la hipótesis nula se
construyen como una relación de estos dos cuadrados medios, MST / MSE, que tiene una distribución F bajo la hipótesis nula.
La probabilidad de un valor F al menos tan grande como el observado (el pags valor) se puede calcular, proporcionando una
prueba de significación de las diferencias de grupo.

La Tabla 6.2 presenta las fórmulas para el cálculo de los componentes de la varianza para un ANOVA
unidireccional simple, en el que una sola variable de clasificación está relacionada con una variable dependiente. Se
usan dos subíndices en estas fórmulas. El primer subíndice indica el grupo de tratamiento (i = 1 S t a k th grupo), mientras
que el segundo subíndice indica la observación individual dentro de cada grupo (j = 1 S t a n yo
th observación). Los cálculos

son solo un poco más complicados cuando hay más de una variable explicativa involucrada, siempre que haya un
número igual de observaciones en cada celda. Por ejemplo, la TSM para cada variable independiente se indica por las
desviaciones de las medias marginales, más bien

Tabla 6.2 Mesa ANOVA unidireccional general

Df SS em F

Entre ∑C / yo. - C 2 /norte MST / MSE


2
k–1 SST = / norte
yo.
MST = SST / (k – 1)
ik= 1

Dentro ∑ ∑ cc-
2
n–k SSE = ij 2 yo.
/norte
yo.
MSE = SSE / (n – k)
ik =1j =
ni1

∑ ∑ cc-
2
Total n–1 SS total = ij 2
/norte
ik =1j =
ni1
Diseños grupales 101

que las medias de las celdas, a partir de la media general, y las sumas de cuadrados para los efectos de interacción se indican

mediante desviaciones de las medias de las celdas de la media general, menos las sumas de los componentes de los cuadrados para

los efectos principales.

ANOVA como modelo lineal general


Los detalles computacionales descritos anteriormente corresponden al enfoque tradicional de suma de cuadrados
para el análisis de varianza. Este enfoque de ANOVA se desarrolló en el día de las calculadoras de escritorio y
utiliza una fórmula lo suficientemente simple para el cálculo manual. Sin embargo, este enfoque es limitado porque
no se puede utilizar en dos o más estudios de factores con datos desequilibrados. 1 ( es decir, datos con tamaños de
celda desiguales). Un enfoque analítico más general llamado modelo lineal general (GLM) se puede usar con datos
balanceados o no balanceados, pero requiere paquetes de software que puedan manipular matrices. Aunque
ANOVA y la regresión se ven tradicionalmente como enfoques distintos para el análisis de datos, ambos pueden
escribirse como casos específicos del GLM. En el marco GLM, el puntaje de un sujeto en una variable dependiente
se define como una combinación lineal de efectos principales, efectos de interacción y un error. En el enfoque GLM
de ANOVA, las medias grupales se estiman como combinaciones lineales de parámetros de regresión. Los grupos
se definen mediante combinaciones de variables indicadoras que toman el valor de 0 o 1. Por ejemplo, se puede
escribir un ANOVA unidireccional mediante el uso de una variable indicadora única para cada nivel de la variable
categórica.

X 1 = 1 para A = 1
= 0 para A = 2 o 3 X 2 = 1
para A = 2
= 0 para A = 1 o 3 X 3 = 1
para A = 3
= 0 para A = 1 o 2

El modelo lineal para este ejemplo es:

y i = ß 0 + ß 1 X 1i + ß 2 X 2i + ß 3 X 3i

La variación se divide en una porción atribuible al modelo de regresión (o variables explicativas) y una porción debido a un
error aleatorio. Estos componentes de varianza son una función de los valores pronosticados, calculados usando estimaciones
de mínimos cuadrados de los parámetros de regresión y valores observados. Por ejemplo, en un modelo con una variable
explicativa, la suma de cuadrados de regresión (SSR) se calcula como la suma de las desviaciones al cuadrado de los valores
pronosticados de la media global observada. La variación debida a un error aleatorio (SSE) se calcula como la suma de las
desviaciones al cuadrado de los valores individuales observados de los valores predichos. Como en ANOVA, el cuadrado
medio de error en GLM es una estimación de la varianza de la población, σ 2) Cuando la hipótesis nula es verdadera, el
cuadrado medio de regresión también es una estimación de σ 2; así, las pruebas F para los efectos de las variables explicativas
se construyen como razones de los cuadrados medios de regresión y error.

Cuando los datos están equilibrados (es decir, cuando los tamaños de las celdas son iguales), el enfoque GLM y el
enfoque tradicional dan soluciones idénticas. El enfoque GLM es más flexible
102 Greenhoot

que el enfoque tradicional porque puede manejar datos balanceados y no balanceados y también puede extenderse
más fácilmente para incorporar variables explicativas continuas y medidas repetidas. Estas características, así como
la prevalencia de las computadoras para el análisis de datos, hacen de GLM el enfoque preferido actual (Kirk, 1982;
Kleinbaum, Kupper y Muller, 1988). Sin embargo, a menudo se argumenta que los estudiantes deben continuar
aprendiendo sobre el enfoque tradicional de la suma de cuadrados para ANOVA porque aclara muchos de los
conceptos básicos del diseño experimental (por ejemplo, Kirk, 1982; Collier y Hummel, 1977). Además, incluso
cuando la maquinaria GLM se usa para predecir una variable de resultado continuo a partir de una o más variables
de grupo, El término ANOVA se sigue utilizando simplemente porque es una forma conveniente de transmitir estas
características de la estrategia de análisis. De hecho, en el resto de este capítulo, los ejemplos de análisis se llevan
a cabo utilizando maquinaria GLM, pero los términos más tradicionales se utilizarán para describirlos.

ANOVA unidireccional
ANOVA unidireccional se ocupa del efecto de un solo factor o variable entre sujetos en una sola variable de resultado.
La variable independiente puede tener dos o más niveles; así, un ANOVA unidireccional evalúa las diferencias en dos o
más medias poblacionales. En el caso más simple, un ANOVA unidireccional que compara dos medias de población es
equivalente a un ejemplo doble t- prueba. Si hay k población significa, la hipótesis nula es que todos k las medias son
iguales, mientras que la hipótesis alternativa es que todas las medias no son iguales.

Para ilustrar un ANOVA unidireccional, considere un estudio reciente de Donnelly et al. (1996), que
examinaron la efectividad de un programa de intervención para promover la aptitud física y prevenir la
obesidad entre los niños de primaria. La investigación tuvo un diseño cuasiexperimental con una prueba
previa, una prueba posterior y dos observaciones intermedias. Durante dos años, tres cohortes de niños (del
3 ° al 5 ° grado al comienzo del estudio) en la escuela de intervención participaron en un programa con
mayor actividad física, educación nutricional y un almuerzo escolar modificado (bajo en grasas y sodio).
mientras que los niños en la escuela de control continuaron con sus almuerzos escolares regulares y
programas de actividad física. Varias medidas de aptitud física, como capacidad aeróbica, frecuencia
cardíaca en reposo, tirones de lat, press de banca y extensiones de rodilla,

Supongamos que Donnelly y sus colegas estaban interesados ​en las diferencias de edad en el estado físico, medido por los

puntajes de lat pull en la evaluación inicial. Para examinar este tema, primero se calcularían los puntajes promedio de press de

banca para cada grado. Estos datos se muestran en la tabla 6.3 y, como se puede ver, las puntuaciones de lat pull parecieron

aumentar con la edad. Unidireccional

Tabla 6.3 Puntajes promedio y desviaciones estándar para puntajes de tirón lat (lb), por edad

Grado (en pretest) Media Dakota del Sur

3er grado (n = 29) 52,7 8.2


Estudiantes de 4to grado (n = 47) 55,7 11,2
Estudiantes de quinto grado (n = 26) 61,5 10,2
Diseños grupales 103

Tabla 6.4 Resultados de ANOVA unidireccional que examina las diferencias de edad en las puntuaciones de lat pull

Df SS em F

Grado 2 1114,3 557,1 5.41


Error 99 10201.8 103,0
Total 101 11316.0

ANOVA podría usarse para determinar si las diferencias de grado fueron estadísticamente significativas. La Tabla 6.4
resume los resultados de un ANOVA unidireccional con grado como variable de clasificación y lat pull como medida
dependiente. Como se puede ver, el cuadrado medio para la calificación es mayor que el cuadrado medio del error. La
razón F resultante de 5.41 es significativa en p = . 006, lo que indica que los puntajes de lat pull difieren entre las tres
cohortes de edad. La relación F asociada con el efecto de calificación no proporciona información sobre qué calificaciones
se desempeñaron de manera diferente entre sí. Cuando un factor tiene más de dos niveles, la prueba general de F es solo
un primer paso para analizar los datos. Si la prueba F omnibus F es significativa, se consideran comparaciones o
contrastes medios más específicos para determinar qué medias son significativamente diferentes entre sí. Un contraste se
define mediante un conjunto de coeficientes conocidos y ordenados aplicados a los medios de manera tal que al menos
dos coeficientes son distintos de cero y todos los coeficientes suman cero (Ramsey, 1993). Algunos contrastes implican
comparaciones por pares entre medias. Por ejemplo, en Donnelly et al. (1996) ejemplo, uno podría desear determinar si las
puntuaciones de lat pull de los alumnos de 3er grado difieren de las de los alumnos de 4to grado. La hipótesis nula para
este contraste es H o: tu 3ro = tu Cuarto que puede reescribirse como H o: tu 3ro - tu 4to = 0. El contraste para probar esta hipótesis se
identifica por los coeficientes ( - 1 1 0). Otros contrastes implican comparaciones más complejas. Por ejemplo, los
coeficientes ( - 1 12 12 ) podría usarse para determinar si los puntajes de lat pull de 3er grado difieren del promedio de los
puntajes de 4to y 5to grado. Si se realizan múltiples pruebas de seguimiento, el investigador corre el riesgo de inflar la tasa
de error Tipo I. Además, algunos contrastes pueden haber sido hipotetizados antes de que se recopilaran los datos ( a priori o
comparaciones planificadas), mientras que otros podrían surgir después de examinar los datos ( posteriormente

o comparaciones post hoc). Cuando se toman decisiones sobre las comparaciones medias después de examinar los
datos, el procedimiento de prueba se inclina aún más a favor de rechazar la hipótesis nula porque solo se evaluarían
las comparaciones que parecen ser significativas. Se han desarrollado una variedad de procedimientos para controlar la
tasa de error Tipo I cuando se realizan múltiples pruebas de contrastes planificados y post hoc.

Múltiples procedimientos de comparación


Cada uno de los métodos de comparación múltiple discutidos aquí implica calcular una estadística F para cada
contraste y compararlo con un valor crítico. Cuando todas las comparaciones se planifican por adelantado, la tasa de
error Tipo I se puede ajustar reduciendo el nivel de significación (p. Ej., α =. 05) para cada contraste dividiéndolo por el
número de contrastes planificados. Este procedimiento se llama procedimiento de Bonferroni o Dunn y puede usarse
con comparaciones simples por pares o contrastes más complejos. Por ejemplo, si un investigador planea
104 Greenhoot

prueba dos contrastes, cada uno se probaría a un nivel de significación de α = . 025. El HSD de Tukey (diferencia
honestamente significativa) está diseñado específicamente para probar todas las comparaciones por pares, planificadas o
no planificadas. La lógica de este método es que cada F observado se compara con un valor crítico ( q 2 / 2) seleccionado de
modo que la mayor diferencia por pares supere ese valor solo el 5 por ciento de las veces cuando la hipótesis nula sea
verdadera. Aunque el HSD de Tukey se limita a situaciones en las que los tamaños de muestra son iguales en todos los
niveles de tratamiento, Tukey (1953) y Kramer (1956) propusieron una modificación al HSD de Tukey para tamaños de
células desiguales (el método de Tukey-Kramer). Se ha demostrado que este método es más poderoso que el método
Bonferroni para probar comparaciones por pares. Cuando las comparaciones post hoc más complejas son de interés, se
recomienda el método de Scheffe. Siguiendo una lógica similar al HSD de Tukey, el enfoque de Scheffe implica comparar
los valores F observados para cada contraste con un valor crítico de ( k - 1) F. 05; k - 1, n - k ( dónde k es el número de grupos), lo
que garantiza que el valor F más grande para ninguna El posible contraste en los datos (en pares o complejos) excederá
ese valor solo el 5 por ciento de las veces cuando la hipótesis nula sea verdadera. El método de Scheffe debe usarse solo
cuando el investigador está interesado en comparaciones complejas y cuando estos contrastes no están planificados (por
ejemplo, Maxwell y Delaney, 1990). Cuando solo las comparaciones emparejadas son de interés, el HSD de Tukey o la
extensión Tukey-Kramer son más poderosas que el método de Scheffe. En el caso de comparaciones complejas
planificadas, el procedimiento de Bonferroni suele ser más poderoso que el método de Scheffe. Aunque los métodos
Bonferroni, Tukey y Scheffe son los procedimientos de comparación múltiple más utilizados, se han sugerido varios
enfoques adicionales en la literatura estadística. Se pueden encontrar revisiones más completas de estos procedimientos
en otros lugares (por ejemplo, Miller, 1981; Kirk, 1982).

Para evaluar todas las comparaciones de calificaciones por pares en puntajes de lat pull para Donnelly et al. (1996) ejemplo, el

procedimiento más apropiado es el ajuste Tukey-Kramer. La tabla 6.5 muestra los valores de F para cada contraste y los valores

asociados. pags valores de acuerdo con los criterios de Tukey-Kramer. Como se puede ver, los estudiantes de 3er grado difieren de los

estudiantes de 5to grado, mientras que los estudiantes de 4to grado no difieren significativamente de los estudiantes de 3er o 5to

grado.

ANOVA bidireccional (y superior)


Los ANOVA de dos vías están diseñados para evaluar las relaciones entre dos variables de clasificación, cada una con
dos o más niveles, y una variable de resultado. Por lo tanto, los diseños factoriales generalmente se analizan con ANOVA
de dos vías o de mayor vía. Esta estrategia también se puede utilizar con diseños de bloques al azar, con el bloque
considerado un factor adicional, aunque este método es menos poderoso que el análisis de covarianza (Maxwell y
Delaney, 1990;

Tabla 6.5 F y pags valores para comparaciones de calificaciones por pares

Contraste F (1,99) Valor de Tukey-Kramer p

3er vs. 4to grado 1,60 . 419


Estudiantes de 4to vs. 5to grado 5.55 . 053
3er vs. 5to grado 10,48 . 005
Diseños grupales 105

Kirk, 1982). En aras de la simplicidad, la discusión aquí se centrará en estudios de dos factores, pero estos métodos
se generalizan fácilmente a estudios multifactoriales.
La prueba de hipótesis en ANOVA de dos vías implica una evaluación de los principales efectos de cada factor, así como la

interacción entre los factores. La mayoría de los estadísticos recomiendan que se consideren los efectos de interacción antes que los

efectos principales (por ejemplo, Applebaum y Cramer, 1974). Si la interacción es significativa, se deben realizar pruebas de efectos

simples para evaluar el efecto de cada variable independiente en cada nivel de la otra variable independiente (más sobre los efectos

simples a continuación). Si la interacción no es significativa, el investigador debe probar los efectos principales. Existen varios métodos

para calcular las sumas de cuadrados para los efectos principales en los ANOVA de dos vías. Estos métodos producen resultados

equivalentes cuando los tamaños de celda son iguales. Cuando los tamaños de las células son desiguales, los diferentes métodos

pueden llevar a conclusiones dramáticamente diferentes sobre la presencia de efectos principales. Las sumas de cuadrados de Tipo I,

o pruebas de "agregado en orden", prueban el efecto principal del primer factor ingresado en el modelo ignorando los efectos del otro

factor y la interacción. La prueba del segundo factor permite los efectos principales del primer factor, pero ignora la interacción. Las

sumas de cuadrados de tipo II prueban los efectos principales de cada factor permitiendo el efecto del otro factor, pero ignorando el

efecto de interacción. Finalmente, las sumas de cuadrados de Tipo III prueban los efectos principales de cada factor permitiendo todos

los demás efectos especificados, incluida la interacción. El enfoque de Tipo I generalmente no se recomienda porque ignorar los

efectos de un factor anula el propósito de un diseño factorial (Maxwell y Delaney, 1990). La elección entre sumas de cuadrados de Tipo

II y Tipo III es algo controvertida (por ejemplo, Cramer y Applebaum, 1980). El método Tipo II es más poderoso que el enfoque Tipo III

cuando la interacción de la población es cero. Sin embargo, la prueba estadística de la interacción podría no detectar una interacción

verdadera en la población. Como resultado, muchos estadísticos recomiendan utilizar el enfoque de Tipo III, a menos que haya

argumentos teóricos sólidos para una interacción de población distinta de cero (por ejemplo, Maxwell y Delaney, 1990; Kleinbaum,

Kupper y Muller, 1988). La mayoría de los programas de estadísticas (p. Ej., SAS y SPSS) proporcionan automáticamente los

resultados para sumas de cuadrados Tipo III. a menos que haya fuertes argumentos teóricos para una interacción de población distinta

de cero (por ejemplo, Maxwell y Delaney, 1990; Kleinbaum, Kupper y Muller, 1988). La mayoría de los programas de estadísticas (p.

Ej., SAS y SPSS) proporcionan automáticamente los resultados para sumas de cuadrados Tipo III. a menos que haya fuertes

argumentos teóricos para una interacción de población distinta de cero (por ejemplo, Maxwell y Delaney, 1990; Kleinbaum, Kupper y

Muller, 1988). La mayoría de los programas de estadísticas (p. Ej., SAS y SPSS) proporcionan automáticamente los resultados para

sumas de cuadrados Tipo III.

En los ANOVA bidireccionales y superiores, los efectos principales para los factores multinivel se pueden investigar de la
misma manera que en los ANOVA unidireccionales, utilizando contrastes y los procedimientos de comparación múltiple
descritos anteriormente. Para explorar aún más las interacciones, se utilizan pruebas de efectos simples para examinar los
efectos de cada factor en cada nivel del otro factor. Si una prueba de efecto simple es significativa y el factor tiene más de dos
niveles, uno generalmente compara las medias celulares individuales. Para controlar la tasa de error Tipo I, generalmente se
recomienda el ajuste de Bonferroni (Maxwell y Delaney, 1990; Kirk, 1982). Por ejemplo, pruebas del factor A en si diferentes
niveles de factor B se llevan a cabo utilizando α = . 05 / si. Asimismo, las pruebas del factor B en una diferentes niveles de factor A
se llevan a cabo utilizando α = . 05 / a.

En el ejemplo de aptitud física, se podría usar un ANOVA de dos vías para examinar los efectos tanto del nivel de grado como del

género en la aptitud física de los niños medida por sus puntajes iniciales de lat pull. Los puntajes promedio que se muestran en la

tabla 6.6 sugieren que los tirones de lat aumentan con la edad y que las diferencias de género pueden variar según los grados.

Específicamente, las puntuaciones de las mujeres fueron más altas que las de los hombres en los grados tercero y cuarto, pero las

puntuaciones de los hombres fueron más altas que las de las mujeres en el quinto grado, lo que sugiere que puede haber una

interacción entre el género y el grado. La Tabla 6.7 resume los resultados de las 2 × 3 ANOVA analizando estos datos, utilizando las

sumas de cuadrados de Tipo III. Como se puede ver, la prueba F para


106 Greenhoot

Tabla 6.6 Puntajes medios (y desviaciones estándar) para puntajes de lat pull (lbs.), Por edad y sexo

Grado (en pretest) Hembras Hombres

Alumnos de 3er grado 54,9 (8,3) 50,0 (7,4)


4to grado 57,2 (9,3) 53,3 (13,6)
Estudiantes de quinto grado 59,1 (8,5) 66,1 (11,9)

Tabla 6.7 Resultados de un ANOVA bidireccional que examina las diferencias de grado y género en los puntajes de lat pull

df Tipo III SS em F pags

Grado 2 1421.05 710,53 7.12 . 0013


Género 1 7.46 7.46 0,07 . 7851
Grado × género 2 567,19 283,59 2,84 . 0632
Error 96 9579,68 99,79
Total 101 11316.05

la interacción no alcanza significación, haciendo innecesarias las pruebas de efectos simples. Como en el ANOVA unidireccional, se

observó un efecto principal significativo del grado. Para investigar más a fondo este efecto principal, se realizaron comparaciones de

grados por pares utilizando el método de Tukey-Kramer. Estas pruebas indicaron que los alumnos de 3º y 4º grado obtuvieron

puntuaciones significativamente más bajas que los alumnos de 5º grado, F s (1, 96)> 8.35, pags s <.013.

Análisis de covarianza (ANCOVA)

A veces, un investigador desea controlar las variables extrañas al evaluar la relación entre una variable
independiente y una respuesta. Una forma de controlar dicha variable es incluirla en el modelo de análisis, de
modo que los efectos de la variable independiente se ajusten a la presencia de la variable de control, o covariable
en el modelo La técnica estadística habitual para llevar a cabo este proceso de ajuste se denomina análisis de
covarianza (ANCOVA). En el análisis típico de covarianza, uno de los predictores es continuo y el otro es
categórico. Se estiman líneas de regresión paralelas separadas para cada nivel de la variable de clasificación.
Por lo tanto, ANCOVA asume pendientes equivalentes para todos los grupos, o que no existe interacción entre
la variable de clasificación y la covariable continua. Los efectos principales de la variable de clasificación se
representan como diferencias de intercepción, o diferencias en los niveles relativos de las líneas de regresión.
Los modelos ANCOVA más complejos pueden incluir más de un factor y más de una covariable (ver Maxwell,
Delaney y O'Callaghan, 1993, para una discusión de estos modelos más complejos).

ANCOVA también es el método preferido para analizar datos de diseños de bloques aleatorizados (Feldt,
1958; Maxwell y Delaney, 1990). En contraste con el enfoque ANOVA
Diseños grupales 107

en el que el bloque se trata como un factor, el enfoque ANCOVA utiliza toda la información cuantitativa en la variable
covariable o de bloqueo, y consume menos grados de libertad. ANCOVA también se puede utilizar para analizar
datos de pretest-postest, siempre que el análisis del cambio de pretest a posttest no sea de interés para el
investigador. En el enfoque ANCOVA, las diferencias grupales en los puntajes posteriores a la prueba se evalúan con
el puntaje pretest incluido como una covariable. Este método es muy recomendable para el análisis de datos
pretest-posttest porque generalmente es más poderoso que el método alternativo para analizar puntajes de cambio
(Huck y McLean, 1975; Maxwell, Delaney y Dill, 1984).

La mayoría de los metodólogos recomiendan que los investigadores prueben el supuesto de paralelismo de las
líneas de regresión antes de proceder con la estrategia ANCOVA estándar (por ejemplo, Kleinbaum, Kupper y
Muller, 1988; Maxwell y Delaney, 1990). La prueba de paralelismo u homogeneidad de las pendientes es
esencialmente una prueba de la interacción entre la covariable y la variable de clasificación para determinar si la
relación entre la covariable y la variable dependiente difiere en diferentes niveles de la variable de clasificación. El
modelo utilizado para probar la hipótesis del paralelismo se conoce por una variedad de nombres, incluido ANCOVA
con pendientes heterogéneas o el modelo de regresiones heterogéneas. Maxwell y Delaney (1990) sugieren que el
modelo de regresiones heterogéneas se use si la prueba del término de interacción se aproxima a la significación ( p
< . 20) o si hay razones teóricas para sospechar la heterogeneidad de las regresiones. Si ninguna de estas dos
condiciones se aplica, el investigador debe proceder con el ANCOVA estándar asumiendo pendientes paralelas.

Cuando se aplica el modelo de regresiones heterogéneas, la interpretación del efecto principal de la variable de
clasificación es complicada, especialmente si el investigador considera que la covariable es una variable molesta. En
ANCOVA, el efecto principal de la variable de clasificación está representado por la distancia entre las líneas de
regresión; si las líneas de regresión no son paralelas, sin embargo, esta distancia varía continuamente en función de la
covariable. ¿Cómo debe estimarse esta distancia? Hay dos formas de abordar este problema. Un enfoque, elaborado
por Rogosa (1980), consiste en seleccionar un solo punto a lo largo de la dimensión covariable en el que se pruebe el
efecto principal de la variable de clasificación. La estimación será más precisa cuando el punto seleccionado esté en el
centro de la distribución de la covariable. El enfoque alternativo implica probar los efectos principales en múltiples
puntos a lo largo de la distribución de la covariable para identificar regiones en las que los efectos del tratamiento son
significativos (Potthoff, 1964, desarrolló un método para realizar simultáneamente estas pruebas para controlar la tasa
de error Tipo I). Este procedimiento se recomienda cuando un investigador está interesado en la covariable o cuando
las líneas de regresión se cruzan. El enfoque es especialmente útil cuando un investigador está usando la covariable
para identificar rangos dentro de los cuales los tratamientos particulares serán efectivos. Se recomienda al lector
consultar a Neter, Wasserman y Kutner (1985), Maxwell, Delaney y O'Callaghan (1993), o Maxwell y Delaney (1990)
para obtener más detalles sobre estos procedimientos.

Para demostrar estos procedimientos, se usó ANCOVA con Donnelly et al. (1996) datos de aptitud física para evaluar
los efectos del programa de intervención que controla los niveles de aptitud previa a la prueba. Específicamente, se
usaron los puntajes grupales (intervención versus control) y pretest de press de banca para predecir los puntajes de press
de banca en la evaluación final. Una prueba inicial de la interacción entre los puntajes de press de banca grupales y
pretest no fue significativa, F( 1, 98) = 0.05, p = . 82, por lo tanto, se examinó un modelo ANCOVA estándar.
108 Greenhoot

Tabla 6.8 Resultados de ANCOVA examinando las diferencias grupales en los puntajes de press de banca posteriores a la prueba, controlando

los puntajes previos

df Tipo III SS em F pags

Grupo 1 1315,98 1315,98 16,14 . 0001


Pretest press de banca 1 3748.60 3748.60 45,97 . 0001
Error 99 8072.78 81,54
Total 101 14044.10

70
Puntuación de press de banca posterior a la prueba

60 60

50
Control de
intervención

40

30

2020
30 40 50 60 60 70
Puntuación de press de banca previa

Figura 6.3 Puntajes estimados de press de banca posteriores a la prueba en función del grupo, ajustando los puntajes de press de banca previos a

la prueba (datos de Donnelly et al., 1996).

Los resultados de este modelo se muestran en la tabla 6.8. Como se puede ver, tanto los puntajes grupales como los pretest se

relacionaron con los puntajes de press de banca posteriores. Para ilustrar aún más la naturaleza de los efectos, se usaron las

estimaciones de pendiente e intersección de este modelo para trazar las líneas de regresión para cada grupo (ver figura 6.3). La

distancia entre las dos líneas indica que los niños en el grupo de intervención tuvieron puntajes de press de banca más altos al

final del programa que los niños en el grupo de control. La pendiente de las líneas indica que en ambos grupos, las personas con

puntajes de press de banca más altos también obtuvieron puntajes más altos después de la prueba.

Análisis de varianza multivariante (MANOVA)

Cuando se toma más de una medición sobre los mismos sujetos, las mediciones a menudo se correlacionan entre
sí. Para tener en cuenta estas correlaciones, a menudo tiene sentido
Diseños grupales 109

utilizar una estrategia de análisis multivariante. MANOVA se usa cuando el investigador mide más de una variable
dependiente, cada una representando construcciones cualitativamente diferentes que comparten algún significado
conceptual. Por ejemplo, MANOVA es apropiado para analizar varias medidas diferentes de aptitud física, como los
puntajes de lat pull, la capacidad aeróbica y los puntajes de press de banca. En el MANOVA estándar, el investigador
está interesado en probar conjuntamente los efectos de una o más variables de clasificación entre sujetos en el conjunto
de medidas de resultado. El procedimiento es una generalización de ANOVA en el que se forman combinaciones
lineales de las variables dependientes para maximizar las diferencias entre los niveles de la variable independiente. Las
puntuaciones compuestas resultantes, en lugar de las puntuaciones en las medidas dependientes separadas, se
prueban para determinar su importancia. Hay varias razones para considerar un MANOVA en lugar de una serie de
ANOVA univariados separados (Stevens, 1992; Harris, 1993). Cuando hay un efecto de tratamiento débil en varias
variables de resultado, MANOVA tiene mayor poder para detectar el efecto que los ANOVA individuales. Además, el
enfoque MANOVA reduce la probabilidad de un error de Tipo I cuando las variables dependientes están
correlacionadas.

Cuando la prueba multivariada de un efecto entre sujetos es significativa, varias pruebas de seguimiento pueden ser de interés. Por

ejemplo, cuando el factor tiene más de dos niveles, se pueden usar contrastes para determinar qué grupos difieren entre sí en el nivel

multivariado. Además, un investigador a menudo querrá determinar qué variables dependientes contribuyen a la significación

multivariada, con mayor frecuencia examinando pruebas univariadas de cada variable dependiente. Algunos metodólogos argumentan

que los procedimientos de comparación múltiple para controlar el error tipo I no son necesarios en los análisis multivariados porque la

prueba multivariada general proporciona protección adecuada (por ejemplo, Hummel y Sligo, 1971). Otros sugieren el ajuste de

Bonferroni para comparaciones planificadas múltiples y comparaciones post hoc por pares (por ejemplo, Stevens, 1992; Maxwell y

Delaney, 1990; Timm, 1975). Para comparaciones post hoc complejas, a veces se recomienda una extensión multivariada del método

de Scheffe desarrollado por Roy y Bose (1953) para la selección del valor crítico apropiado (por ejemplo, Morrison, 1976; Harris, 1993).

Este método controla la tasa de error de Tipo I para todas las comparaciones de grupos complejos y por pares posibles para cada

variable dependiente, así como para diferentes combinaciones lineales de las variables. Como tal, este procedimiento permite un

análisis sin restricciones, pero es muy conservador (Hummel y Sligo, 1971; Stevens, 1992). Para obtener detalles adicionales sobre los

procedimientos de comparación múltiple en MANOVA, el lector debe consultar a Stevens (1992) o Harris (1993). Para comparaciones

post hoc complejas, a veces se recomienda una extensión multivariada del método de Scheffe desarrollado por Roy y Bose (1953) para

la selección del valor crítico apropiado (por ejemplo, Morrison, 1976; Harris, 1993). Este método controla la tasa de error de Tipo I para

todas las comparaciones de grupos complejos y por pares posibles para cada variable dependiente, así como para diferentes

combinaciones lineales de las variables. Como tal, este procedimiento permite un análisis sin restricciones, pero es muy conservador

(Hummel y Sligo, 1971; Stevens, 1992). Para obtener detalles adicionales sobre los procedimientos de comparación múltiple en MANOVA, el lector debe consulta

Supongamos que Donnelly et al. (1996) estaban interesados ​en evaluar las diferencias de grado y género en las
puntuaciones iniciales en varios indicadores de aptitud física. Para abordar esta pregunta, se utilizó un MANOVA para
examinar los efectos conjuntos de grado y género en un conjunto de cuatro medidas de resultado: capacidad aeróbica,
extensiones de rodilla, tirones de lat y press de banca. Las estadísticas de prueba multivariadas para este análisis se
resumen en la tabla 6.9. Como se muestra en la tabla, el MANOVA reveló efectos principales multivariados significativos
tanto de grado como de género. Para seguir investigando el efecto del grado, se realizaron pruebas multivariadas por pares.
Incluso con el nivel de significación ajustado de acuerdo con el procedimiento de Bonferroni ( α = . 05/3 = .017), los tres
contrastes fueron significativos, F s (4, 93)> 4.95, pags s <.0012. Luego se examinaron las pruebas univariadas de estas
diferencias para determinar qué medidas dependientes contribuyeron a la significación multivariada por pares, ajustando el
nivel de significación para el número de variables dependientes ( α = . 05/4 = .0125). Estas pruebas indicaron
110 Greenhoot

Tabla 6.9 Resultados de MANOVA al examinar las diferencias de grado y género en cuatro medidas de aptitud física (capacidad
aeróbica, extensiones de rodilla, tirones de lat y press de banca)

Num df Den df F pags

Grado 8 186 6,95 . 0001


Género 44 93 8,99 . 0001
Grado × género 8 186 1.05 . 40

que la diferencia entre los alumnos de tercer y cuarto grado se limitaba a las extensiones de rodilla,
F( 1, 96) = 18.06, p = . 0001. Los estudiantes de quinto grado superaron a los estudiantes de tercer grado en ambas extensiones de
rodilla y tirones de lat, F s (1, 96)> 13.49, pags s <.0004. Los estudiantes de quinto grado también superaron a los estudiantes de cuarto

grado en extensiones de rodilla y tirones de lat, F s (1, 96)> 8.38, pags s <.0047. Las contribuciones de las cuatro medidas dependientes

al significativo efecto de género multivariante también se examinaron a través de pruebas univariadas, que indicaron que los hombres

superaron a las mujeres en capacidad aeróbica y puntajes de press de banca, F s (1, 96)> 14.53, pags s <.0002.

Medidas repetidas ANOVA

Al igual que MANOVA, un ANOVA de medidas repetidas se utiliza para analizar múltiples mediciones en los
mismos sujetos. El enfoque de medidas repetidas se usa típicamente para examinar múltiples mediciones en
la misma variable de resultado. En los ANOVA de medidas repetidas más simples, el investigador está
interesado en las diferencias dentro de los sujetos en la medida repetida. En los ANOVA de medidas
repetidas más complejas, los efectos entre sujetos de una o más variables de clasificación, así como las
interacciones entre los sujetos con y las variables entre sujetos, también son de interés. Por el contrario, en
MANOVA, el investigador está interesado principalmente en los efectos entre sujetos, probados
conjuntamente en un conjunto de medidas dependientes. Los ANOVA de medidas repetidas se recomiendan
para investigaciones en las que el cambio en el tiempo es de particular interés, como estudios longitudinales
o de desarrollo,

Hay dos enfoques para los ANOVA de medidas repetidas. El enfoque univariante implica bloquear
los datos por tema y tratar el bloqueo como un factor en un ANOVA univariado para tener en cuenta
las diferencias individuales en las respuestas de los sujetos a la medida repetida. Por lo tanto, las
medidas repetidas univariadas ANOVA siempre tendrán al menos dos factores, uno que representa a
los sujetos y el otro que representa la variable dentro de los sujetos o medidas repetidas (por
ejemplo, el tiempo). El enfoque univariado requiere un supuesto de esfericidad u homogeneidad de
las diferencias de diferencia de tratamiento. En otras palabras, se supone que todos los pares de
niveles de la variable dentro de los sujetos tienen correlaciones iguales. Esta suposición, sin
embargo, es frecuentemente violada; las mediciones tomadas cerca del tiempo a menudo están más
altamente correlacionadas que las medidas tomadas más lejos en el tiempo
Diseños grupales 111

ajuste (ver Stevens, 1992, para más detalles). Alternativamente, un investigador podría optar por
utilizar el enfoque multivariado para ANOVA de medidas repetidas, que no requieren suposición de
esfericidad. La estrategia multivariante implica transformar las variables dependientes en un conjunto
de puntajes de diferencia y probar la hipótesis de que estos puntajes son iguales a cero. Los efectos
entre sujetos se miden promediando los niveles de la variable withinsubjects. Cuando la variable
dentro de los sujetos tiene solo dos niveles, los enfoques univariado y multivariado proporcionan
resultados idénticos. Cuando la esfericidad se mantiene, el enfoque univariante es la estrategia más
poderosa; cuando se viola la esfericidad, la elección entre los procedimientos univariados ajustados y
el enfoque multivariado es complicada (véase Davidson, 1972). Algunos metodólogos (por ejemplo,
Cole y Grizzle, 1966;

En los ANOVA de medidas repetidas, las pruebas generales significativas para los efectos dentro de los sujetos, los efectos entre

sujetos y sus interacciones pueden seguirse con una variedad de comparaciones más específicas, dependiendo de las hipótesis de

interés. Las comparaciones que involucran efectos entre sujetos con más de dos niveles pueden probarse con contrastes que

promedian los puntajes en el factor dentro del sujeto. Los procedimientos de comparación múltiple recomendados para ANOVA

univariados también son apropiados para comparaciones entre sujetos en el caso de medidas repetidas (Maxwell y Delaney, 1990).

Los contrastes también se pueden usar para determinar la naturaleza de los efectos dentro del sujeto. Por ejemplo, el investigador

puede querer probar tendencias lineales, cuadráticas y cúbicas en la medida repetida (ver Morrison, 1976, para más detalles sobre el

análisis de tendencias). Una forma de explorar una interacción significativa entre las variables dentro y entre sujetos es probar el efecto

simple de la variable entre sujetos en cada nivel de la variable dentro de sujetos. Por ejemplo, el investigador podría examinar los

ANOVA univariados unidireccionales de la variable entre sujetos en cada nivel de la variable dentro de los sujetos. Se recomienda el

ajuste de Bonferroni para controlar la tasa de error de Tipo I cuando se prueban múltiples contrastes planificados o comparaciones por

pares no planificadas que involucran efectos dentro de los sujetos. Para las comparaciones complejas post hoc, se prefiere el método

de Roy y Bose (por ejemplo, Morrison, 1976; Harris, 1993). el investigador podría examinar los ANOVA univariados unidireccionales de

la variable entre sujetos en cada nivel de la variable dentro de los sujetos. Se recomienda el ajuste de Bonferroni para controlar la tasa

de error de Tipo I cuando se prueban múltiples contrastes planificados o comparaciones por pares no planificadas que involucran

efectos dentro de los sujetos. Para las comparaciones complejas post hoc, se prefiere el método de Roy y Bose (por ejemplo, Morrison,

1976; Harris, 1993). el investigador podría examinar los ANOVA univariados unidireccionales de la variable entre sujetos en cada nivel de la variable dentro de los

En el ejemplo de aptitud física, se utilizó un ANOVA de medidas repetidas multivariadas para evaluar el cambio a lo largo
del tiempo en las puntuaciones de aptitud física en función del grupo (intervención versus control). El modelo incluía la
variable de tiempo dentro de los sujetos de cuatro niveles, el grupo de variables entre sujetos y la interacción entre el tiempo
y el grupo. Como se muestra en la tabla 6.10, los tres efectos fueron significativos, lo que indica que el efecto del grupo varió
a lo largo del tiempo. Para explorar la naturaleza de esta interacción, pruebas univariadas del efecto grupal

Tabla 6.10 Resultados de un ANOVA de medidas repetidas que examina las diferencias grupales en los puntajes de press de banca a lo largo

del tiempo

Num df Den df F pags

Grupo 1 97 10,92 . 0013


Hora 3 95 18,83 . 0001
Grupo × hora 3 95 4.29 . 007
112 Greenhoot

se llevaron a cabo en cada nivel de tiempo. Estos análisis revelaron que el grupo de intervención tuvo puntajes de press de
banca más altos que el grupo de control en la evaluación final, F ( 1, 97) =
20,78, p < . 0001, pero no en los tres puntos temporales anteriores. Por lo tanto, estos hallazgos sugieren que solo después de dos
años académicos el programa de intervención condujo a ganancias de fuerza significativas en relación con el grupo de control.

Conclusiones

El objetivo de este capítulo es proporcionar una visión general de los diseños experimentales y cuasiexperimentales
comunes y las estrategias de análisis estadístico asociadas con mayor frecuencia a ellos. La información presentada aquí
no es de ninguna manera exhaustiva; Es posible una multitud de extensiones más complejas de estos métodos. Kirk
(1982) ofrece una cobertura en profundidad de una variedad de diseños experimentales para las ciencias del
comportamiento. Los diseños más complejos que los descritos aquí generalmente se pueden analizar utilizando alguna
forma del modelo lineal general. Es probable que estas estrategias sean generalizaciones de las presentadas aquí, que
también se basan en el modelo lineal general. Se remite al lector interesado a Graybill (1961) o Kirk (1982) para obtener
más información sobre el modelo lineal general.

Nota

1 El método de medios no ponderados es una adaptación del enfoque tradicional de suma de cuadrados
para datos no balanceados, pero esta técnica proporciona estadísticas de prueba que solo se aproximan a las estadísticas F bajo la hipótesis

nula.

Referencias

Applebaum, MI, y Cramer, EM (1974). Algunos problemas con el análisis no ortogonal de


diferencia. Boletín psicológico, 81, 335-43.
Cole, JWL y Grizzle, JE (1966). Aplicaciones del análisis multivariado a repetidos
mide experimentos. Biometría, 22, 810–28. Collier, RO y Hummel, TJ (1977). Diseño experimental e
interpretación. Berkeley, CA:
McCutchan
Cramer, EM y Applebaum, MI (1980). Análisis de varianza no ortogonal, una vez más.
Boletín psicológico, 87, 51–7.
Davidson, ML (1972). Pruebas univariadas versus multivariadas en experimentos de medidas repetidas.
Boletín psicológico, 77, 446–52.
Donnelly, JE, Jacobsen, DJ, Whatley, JE, Hill, JO, Swift, LL, Cherrington, A., Polk, B,
Tran, ZV y Reed, G. (1996). Programa de nutrición y actividad física para atenuar la obesidad y promover la aptitud
física y metabólica en niños de primaria. Investigación de la obesidad, 4,
229–43.
Feldt, LS (1958). Una comparación de la precisión de tres diseños experimentales que emplean un
variable concomitante Psychometrika, 23, 335-54.

También podría gustarte