Está en la página 1de 44

Análisis de Medidas Repetidas

Guillermo Correa Londoño


Profesor Asociado

Facultad de Ciencias Agropecuarias


Universidad Nacional de Colombia
—Sede Medellín—
PRESENTACIÓN

Al desarrollar experimentos en los que las unidades experimentales manifiestan


cambios a través del tiempo en respuesta a un factor o serie de factores controlados
por el investigador, es lógico que se quiera obtener la mayor información posible, lo
cual se logra al hacer un seguimiento de la evolución de tales unidades
experimentales. De esta manera se generan los experimentos con medidas
repetidas, y con éstos, la necesidad de técnicas especiales para su análisis.

Este documento surge en respuesta a la alta demanda de información sobre esta


metodología, y se fundamenta en algunos aspectos teóricos generales reportados en
la literatura, pero su fortaleza consiste en recoger las enseñanzas de quienes han
solicitado asesoría en el uso de estos métodos, pues cada estudio plantea
obstáculos particulares, constituyendo, por tanto, un estímulo para la generación de
soluciones.

Quizá el principal obstáculo que tuvieron que enfrentar quienes en algún momento
solicitaron asesoría sobre el uso de esta metodología estuvo representado por las
versiones preliminares de este documento, totalmente centradas en el problema
mismo de las medidas repetidas, descuidando aspectos anexos fundamentales para
su cabal comprensión. Se realizó un importante esfuerzo para ofrecer a través de
esta versión un enfoque más integral.

Con tal objetivo en mente y teniendo en cuenta que los pocos textos de métodos
estadísticos en los que se menciona este análisis están en otro idioma y lo tratan de
una manera general, enfocada hacia aspectos teóricos, no siendo muy clara su
posible aplicación, se elaboró este documento en formato cartilla, tratando de incluir
el mínimo de expresiones matemáticas, así como de mantener un lenguaje sencillo;
obviamente, conservando el rigor necesario en este tipo de textos.

Con el fin de que este documento constituya una guía para la aplicación de este
análisis a conjuntos específicos de datos, se ilustran, a través de ejemplos, varias
situaciones tipo. En todos los casos se anexan las correspondientes rutinas en
SAS®, que pueden tomarse como plantillas para la realización de análisis
posteriores.

Guillermo Correa L.
Agosto de 2004
CONTENIDO

INTRODUCCIÓN ........................................................................................................ 1
1. AJUSTE DE LA ESTRUCTURA DE COVARIANZAS CON MODELOS MIXTOS........ 3
1.1 ESTRUCTURAS DE COVARIANZAS ......................................................................... 4
1.1.1 Estructura simétrica compuesta (Compound symmetric) ............................................ 5
1.1.2 Modelación no estructurada (Unstructured) ................................................................ 5
1.1.3 Estructura autorregresiva de primer orden .................................................................. 5
1.2 CRITERIOS DE INFORMACIÓN ................................................................................ 6
2 EJEMPLOS................................................................................................................. 8
2.1 EJEMPLO 1. DISEÑO COMPLETAMENTE AL AZAR CON
ESTRUCTURA UNIFACTORIAL DE LOS TRATAMIENTOS ...................................... 9
2.1.1 Comparación de medias ........................................................................................... 11
2.1.2 Contrastes ................................................................................................................ 14
2.2 EJEMPLO 2. ESTRUCTURA FACTORIAL DE LOS TRATAMIENTOS.................... 18
2.3 EJEMPLO 3. DISEÑO PARCELAS DIVIDIDAS ....................................................... 26
3 CONSIDERACIONES FINALES ............................................................................... 32
4 REFERENCIAS BIBLIOGRÁFICAS .......................................................................... 33
5 ANEXOS................................................................................................................... 34
INTRODUCCIÓN

En muchos experimentos, en particular en los que las unidades experimentales están


conformadas por seres vivos, es usual que el investigador realice un seguimiento a
través del tiempo de la variable cuyo comportamiento se desea caracterizar. A este
tipo de experimentos en los que se realiza más de una medición de alguna variable
sobre el mismo individuo o unidad experimental se les denomina experimentos con
medidas repetidas. Aunque algunos autores como Kuehl (1994) y Milliken y Johnson
(1992) se refieren a esta situación como diseños de medidas repetidas, aquí se
prefiere reservar el término “diseño” para su acepción más clásica, es decir, aquélla
que hace referencia al esquema de aleatorización de los tratamientos sobre las
unidades experimentales.

Si bien estos experimentos aparecen con mayor frecuencia al trabajar con seres
vivos, no existe ninguna restricción al respecto, pudiendo tomarse medidas repetidas
al trabajar con unidades experimentales inanimadas como, por ejemplo, una serie de
pluviómetros instalados en el interior de un bosque, a los que se les realicen lecturas
semanales.

Éste es también el tipo de análisis más adecuado en estudios en los que por
restricciones para la aleatorización de los niveles de alguno de los factores pueden
generarse secuencias espaciales, lo cual sucede, por ejemplo, al evaluar el efecto de
diferentes niveles de profundidad en la capacidad de retención de humedad del
suelo, en donde los diferentes niveles de profundidad no son susceptibles de
aleatorización. No obstante, este documento está centrado en el análisis de
medidas repetidas que aparecen al registrar diferentes lecturas de una variable sobre
una misma unidad experimental a lo largo del tiempo. A este tipo de observaciones
se les conoce también con el nombre de datos longitudinales (Diggle et al., 1994).

Los experimentos de medidas repetidas tienen estructura factorial, siendo los


tratamientos y el tiempo los factores. Puede suceder que los tratamientos, a su vez,
estén conformados por las combinaciones de los niveles de dos o más factores
(ejemplos 2 y 3).

El objetivo del análisis de medidas repetidas es examinar y comparar las tendencias


en el tiempo de las respuestas a los tratamientos, lo cual puede involucrar
comparaciones de tratamientos en tiempos específicos (efectos simples de los
tratamientos) o comparaciones de tratamientos promediando todos los tiempos
(efectos principales de los tratamientos). También puede resultar importante la
comparación de tiempos para algún tratamiento específico (efectos simples del
tiempo) o la comparación de tiempos promediando todos los tratamientos (efectos
Correa, Guillermo — Análisis de Medidas Repetidas 2

principales del tiempo). El tipo de análisis depende, en última instancia, del resultado
del análisis de varianza, tal y como sucede en todos los experimentos cuyos
tratamientos incluyen una estructura factorial.

Las lecturas secuenciales sobre una misma unidad experimental están


correlacionadas, pues contienen un aporte común de tal unidad. Además, las
medidas sobre una misma unidad que están cercanas en el tiempo tienden a estar
más altamente correlacionadas que aquéllas más distantes en el tiempo; asimismo,
las varianzas tienden a verse afectadas por el tiempo. Tales potenciales patrones
de correlación y variación pueden combinarse para producir complejas estructuras
que hacen que la matriz de covarianzas correspondiente a las lecturas repetidas
sobre un mismo individuo no se ajuste a los supuestos de los análisis de regresión y
de varianza usuales, por lo que éstos pueden no ser válidos.

Aunque este problema ha estado presente desde que Sir Ronald Fisher desarrolló y
empezó a aplicar el análisis de varianza en la década de 1930, el manejo del mismo
ha guardado correspondencia con las herramientas disponibles en cada momento.
Cronológicamente, se han usado principalmente tres enfoques para analizar este tipo
de experimentos.

1) Análisis separados en cada momento de tiempo. Consiste en la comparación


de los tratamientos de manera independiente en cada uno de los tiempos evaluados.
Este análisis no satisface el objetivo de examinar y comparar tendencias en el
tiempo, por lo que no constituye un verdadero método de análisis de medidas
repetidas y, si bien puede resultar útil en la etapa exploratoria, no es adecuado como
método final de análisis para reportar los resultados.

2) Análisis de varianza univariado. Entre los verdaderos métodos de análisis de


medidas repetidas, es decir, aquellos que realizan comparaciones entre tiempos,
éste ha sido el más usado. Este análisis es equivalente al de parcelas divididas, por
lo que se le conoce como parcelas divididas en el tiempo. El análisis de varianza
sólo sería válido si se cumple la condición de simetría compuesta, esto es, que los
errores estén igualmente correlacionados y que tengan la misma varianza1 (Milliken
and Johnson, 1992), pero aun así, son incorrectos los errores estándar estimados
mediante el procedimiento GLM de SAS® para evaluar efectos simples de
tratamientos y para efectos cruzados2.

1
Una forma más general es conocida como la condición Huynh—Feldt o simplemente condición H—F
(Huynh y Feldt, 1970). Esta condición especifica que las varianzas de las diferencias entre pares de
errores correspondientes a lecturas realizadas sobre la misma unidad experimental en diferentes
tiempos son iguales para cualquier par de tiempos elegidos. La condición H—F es necesaria y
suficiente para que la prueba F del análisis de varianza usual tenga validez.
2
Los efectos cruzados consisten en comparaciones entre dos combinaciones de tratamientos, donde
difieren todos los niveles de los factores involucrados, por ejemplo, a1b2 vs. a3b1.
Correa, Guillermo — Análisis de Medidas Repetidas 3

3) Ajuste de la estructura de covarianzas, mediante modelos mixtos. Los


modelos mixtos son los que incluyen tanto efectos fijos como efectos aleatorios3.
Mediante su uso es posible ajustar la estructura de covarianzas y estimar los errores
estándar más adecuados para las diferentes comparaciones, acorde con las
características de cada conjunto de datos.

Vale la pena enfatizar que los dos primeros métodos presentados (análisis
separados para cada uno de los tiempos y análisis de varianza univariado) podrían
utilizarse como parte del análisis exploratorio, pero tienen falencias que los hacen
inadecuados como métodos finales de análisis. Por tanto, siempre que se tengan
medidas repetidas se recomienda ajustar la estructura de covarianzas mediante el
uso de modelos mixtos. En este documento se detalla el uso del procedimiento
MIXED de SAS® para tal efecto.

1. AJUSTE DE LA ESTRUCTURA DE COVARIANZAS CON MODELOS MIXTOS

En experimentos con medidas repetidas, el procedimiento MIXED de SAS® permite


modelar la estructura de covarianzas, lo que posibilita estimar los errores estándar
adecuados para todas las comparaciones.

El procedimiento tiene la siguiente forma básica:

PROC MIXED DATA=EJE1 ORDER=DATA NOITPRINT;


CLASS TTOS R TIEMPO;
MODEL Y=TTOS TIEMPO TTOS*TIEMPO;
RANDOM R(TTOS);
REPEATED TIEMPO/SUB=R(TTOS) TYPE=AR(1);
RUN;

La orden PROC MIXED en la primera línea de programación invoca el procedimiento e


indica al SAS® el tipo de modelos que se aplicarán (modelos mixtos). Las opciones
que aparecen seguidamente en la primera línea son de tipo general y afectan todo el
procedimiento. Mediante el argumento DATA=EJE1 se indica el nombre de la base de
datos sobre la cual se aplicará el procedimiento. Si este argumento es omitido, el
SAS® trabaja con la última base de datos usada. La opción ORDER=DATA es requerida
para que el SAS® respete el orden de entrada de los tratamientos para fines de
cualquier referencia que se haga a los mismos. Esto es de particular importancia
para la asignación de los coeficientes que definen contrastes entre grupos de
3
Los efectos fijos representan subpoblaciones de interés para el investigador, sobre las cuales se
desea inferir y sus niveles son elegidos o fijados por el investigador previamente a la realización del
experimento. Los efectos aleatorios corresponden a factores que aunque son responsables de una
parte de la variabilidad en la respuesta evaluada, no representan subpoblaciones sobre las que se
desee inferir y sus niveles se eligen al azar; es importante, sin embargo, estimar la variabilidad
producida por los mismos, pues con base en ésta se calculan los errores estándar para comparar las
subpoblaciones asociadas con los efectos fijos.
Correa, Guillermo — Análisis de Medidas Repetidas 4

tratamientos (ver ejemplo 1). La opción NOITPRINT suprime la salida de la tabla con
la historia de las iteraciones.

La orden CLASS (segunda línea) se usa para declarar los factores de tipo cualitativo.
Es importante anotar que el hecho de que un factor se considere cualitativo o
cuantitativo tiene que ver con su conceptualización, acorde con el tipo de análisis que
se pretenda ejecutar, sin importar que para su identificación se hayan usado
etiquetas de tipo numérico. En general, todos los factores usados en el análisis de
varianza son de tipo cualitativo, excepto los que hagan las veces de covariables,
entendidas éstas como variables concomitantes cuyo efecto se desea eliminar por
regresión.

Mediante la instrucción MODEL se introduce la ecuación que representa el modelo. En


la parte izquierda de la ecuación se escribe la variable respuesta cuyo
comportamiento se está evaluando; en la parte derecha se declaran los factores que
se cree que afectan la variable respuesta así como sus interacciones. En esta
instrucción —a diferencia de la usada en el procedimiento GLM de SAS®— sólo se
incluyen los efectos fijos, es decir, aquellos cuyo comportamiento se desea
comparar, v. gr., tratamientos, tiempo y sus interacciones.

La variación aleatoria, es decir la que se presenta entre unidades experimentales, se


especifica usando la instrucción RANDOM (cuarta línea). Con base en los efectos
aleatorios allí declarados, el procedimiento estima los términos del error adecuados
para cada efecto.

La variación temporal dentro de una misma unidad experimental se especifica con la


instrucción REPEATED (quinta línea). Allí se indica el nombre del factor no
aleatorizado que hace que se genere una estructura especial de covarianzas
(usualmente tiempo, horas, semana, etc.). Después de la barra inclinada se
especifican dos opciones: SUB={UNIDAD EXPERIMENTAL}, mediante la cual se indica
cuál es el sujeto (subject) o unidad experimental sobre la que se realizan las medidas
repetidas. La identificación de los individuos corresponde al efecto de las
repeticiones anidado en los tratamientos (R(TTOS) o BLOQUES(TTOS)), quedando,
usualmente esta opción así: SUB=R(TTOS). La otra opción permite especificar el tipo
de estructura de covarianzas que se desea evaluar TYPE={UN|AR(1)}. Algunas de
estas estructuras se detallan en el numeral 1.1.

La orden RUN indica el final del procedimiento MIXED.

1.1 ESTRUCTURAS DE COVARIANZAS.

Existen numerosas opciones para modelar la estructura de covarianzas. En este


documento se destacan las tres que, acorde con Littell et al. (1996) y Littell et al.
Correa, Guillermo — Análisis de Medidas Repetidas 5

(1998), resultan más adecuadas en estos casos: 1) simétrica compuesta, 2) sin


estructura y 3) autorregresiva de primer orden. Para información sobre otras
estructuras véase el manual de referencia del SAS® (SAS Institute, 1999).

1.1.1 Estructura simétrica compuesta (Compound symmetric). Resulta


adecuada cuando las lecturas en todos los tiempos tienen la misma varianza y todos
los pares de medidas en la misma unidad experimental tienen la misma correlación.
Ello implica que el único aspecto de la covarianza entre medidas repetidas es debido
a la contribución común de la unidad experimental, sin importar la distancia en el
tiempo. Si estos supuestos se cumplen, el análisis de parcelas divididas en el tiempo
es adecuado, pero aun así los errores estimados mediante la orden LSMEANS del
procedimiento GLM no son válidos para la comparación de tratamientos en un tiempo
específico (efectos simples de tratamientos).

El bloque básico de instrucciones para ajustar esta estructura contiene la siguiente


información:

PROC MIXED DATA=EJE1 ORDER=DATA NOITPRINT;


CLASS TTOS R TIEMPO;
MODEL Y=TTOS TIEMPO TTOS*TIEMPO;
RANDOM R(TTOS);
REPEATED TIEMPO/SUB=R(TTOS);
RUN;

1.1.2 Modelación no estructurada (Unstructured). En este caso se trabaja con


una estructura abierta, sin realizar ningún supuesto sobre igualdad de varianzas o
correlaciones. Se indica mediante la opción TYPE=UN en la orden REPEATED. Esta
alternativa tiene la desventaja de que no aprovecha las tendencias de varianzas y
covarianzas en el tiempo, además de que a menudo se obtienen patrones erráticos
de estimaciones de los errores estándar (Littell et al., 1998).

El bloque básico de instrucciones para ajustar esta estructura contiene la siguiente


información:

PROC MIXED DATA=EJE1 ORDER=DATA NOITPRINT;


CLASS TTOS R TIEMPO;
MODEL Y=TTOS TIEMPO TTOS*TIEMPO;
RANDOM R(TTOS);
REPEATED TIEMPO/SUB=R(TTOS) TYPE=UN;
RUN;

1.1.3 Estructura autorregresiva de primer orden. Si existe una tendencia en las


correlaciones de las observaciones dentro de cada unidad experimental, ésta puede
ser modelada usando una estructura autorregresiva de primer orden. Esta estructura
supone que la correlación dentro de las unidades experimentales es inversamente
proporcional al espaciamiento en el tiempo. Se indica mediante la opción TYPE=AR(1)
en la orden REPEATED.
Correa, Guillermo — Análisis de Medidas Repetidas 6

El bloque básico de instrucciones para ajustar esta estructura contiene la siguiente


información:

PROC MIXED DATA=EJE1 ORDER=DATA NOITPRINT;


CLASS TTOS R TIEMPO;
MODEL Y=TTOS TIEMPO TTOS*TIEMPO;
RANDOM R(TTOS);
REPEATED TIEMPO/SUB=R(TTOS) TYPE=AR(1);
RUN;

1.2 CRITERIOS DE INFORMACIÓN.

Las anteriores estructuras de covarianza pueden compararse objetivamente usando


las pruebas de bondad de ajuste o criterios de información que se generan para cada
estructura. Dependiendo la versión de SAS® que se use, las pruebas presentadas y
la forma en que se calculan pueden cambiar.

Hasta la versión 8.00, los criterios calculados por defecto son: log verosimilitud
restringida (Res Log Likelihood), el criterio de información de Akaike (Akaike’s
Information Criterion —AIC—), el criterio de información bayesiano de Schwarz
(Schwarz’s Bayesian Information Criterion —BIC—) y una segunda versión de la log
verosimilitud restringida (–2 Res Log Likelihood), consistente en multiplicar el
resultado de la log verosimilitud restringida por –2, criterio que presenta información
redundante en relación con el primero. Los tres primeros criterios facilitan la
comparación de las estructuras ajustadas: mientras mayor sea su valor mejor será la
estructura. Lo de mayor valor hay que interpretarlo como cercanía a cero, pues
siempre presentan signos negativos. Para cada estructura se genera una tabla que
tiene el siguiente aspecto.

Fit Statistics

Res Log Likelihood -88.0


Akaike's Information Criterion -90.0
Schwarz's Bayesian Criterion -91.0
-2 Res Log Likelihood 176.1

A partir de la versión 8.02, se elimina la información redundante suministrada por los


dos criterios de log verosimilitud restringida, dejando únicamente el positivo (–2 Res
Log Likelihood); se mantienen el criterio de información de Akaike (Akaike’s
Information Criterion —AIC—) y el criterio de información bayesiano de Schwarz
(Schwarz’s Bayesian Information Criterion —BIC—); y se presenta adicionalmente
una versión del criterio de Akaike que incluye una corrección por finitud muestral
(Akaike’s Information Criterion with Correction —AICC—). En este caso, los
criterios siempre presentan signos positivos. Para la comparación de las estructuras
ajustadas con base en los valores de éstos, debe tenerse en cuenta que mientras
Correa, Guillermo — Análisis de Medidas Repetidas 7

menor sea su valor mejor será la estructura. La tabla generada para cada estructura
tiene el siguiente aspecto.

Fit Statistics

-2 Res Log Likelihood 176.1


AIC (smaller is better) 180.1
AICC (smaller is better) 180.3
BIC (smaller is better) 182.1

Puesto que el número de parámetros que se estiman como parte del ajuste de las
estructuras de covarianzas es diferente para cada una de ellas, la comparación
directa mediante el criterio de verosimilitud no es adecuada. Aunque pueden
realizarse correcciones, resulta más expedito usar alguno de los criterios restantes,
los cuales son versiones ya ajustadas de la prueba de verosimilitud, que incluyen
tales correcciones, acorde con el número de parámetros estimados.

Dado que en algunos casos el criterio de Akaike o su versión corregida pueden


favorecer una estructura diferente a la indicada por el criterio bayesiano de Schwarz,
se seguirá la recomendación de Littell et al. (1998) que prefieren el BIC por imponer
una corrección más severa. En consecuencia, en los ejemplos presentados, el BIC
será el único criterio tenido en cuenta.

Una vez escogida la estructura de covarianzas más adecuada, con base en el criterio
de información bayesiano de Schwarz —BIC—, se pueden realizar las
comparaciones del caso, introduciendo comandos LSMEANS y ESTIMATE en el PROC
MIXED correspondiente a la estructura elegida.

Obviamente, habrá que tomar los resultados del correspondiente análisis de varianza
como guía para la realización de comparaciones entre medias. Si la interacción
entre tratamientos y tiempo resulta significativa, ello es indicio de que las diferencias
entre los tratamientos no se mantienen a lo largo del tiempo, por lo que será
pertinente analizar efectos simples, esto es, comparar tratamientos en tiempos
específicos y, si es del caso, comparar tiempos para algún tratamiento dado. Una
buena guía para la realización de tales comparaciones puede suministrarla un plano
cartesiano con el tiempo en la abscisa y la respuesta en la ordenada, incluyendo una
línea para cada tratamiento; pueden graficarse también los tratamientos en la
abscisa y los tiempos como líneas separadas dentro del plano, con la respuesta en la
ordenada, dependiendo del número de niveles de cada factor y del aspecto que se
desee resaltar.

En caso de que la interacción entre el tiempo y los tratamientos no resulte


significativa, tendrá sentido el análisis de los efectos principales significativos.

A continuación se ilustra mediante ejemplos el uso de los modelos mixtos para el


análisis de medidas repetidas.
Correa, Guillermo — Análisis de Medidas Repetidas 8

Con base en los resultados del análisis de varianza y la información complementaria,


surgirían preguntas que podrían responderse para cada configuración específica. No
obstante, para que los ejemplos tengan un carácter más amplio, se ilustrarán
diferentes posibilidades de comparación de medias.

Antes de pasar a los ejemplos se presenta un esquema resumido de los pasos que
deben seguirse para evaluar cualquier experimento que involucre medidas repetidas.

1) Generar el correspondiente paso DATA en SAS®, con toda la información que


se habrá de incluir en el modelo: variable respuesta y factores, tanto fijos
como aleatorios.

2) Correr, para el conjunto de datos, los procedimientos MIXED para la evaluación


de las tres estructuras de covarianzas sugeridas: a) simétrica compuesta, b)
sin estructura y c) autorregresiva de primer orden. Es necesario generar un
procedimiento MIXED para cada una de las estructuras.

3) Con base en el criterio de información bayesiano de Schwarz —BIC—, elegir


la estructura más adecuada para el conjunto de datos.

4) Evaluar el análisis de varianza correspondiente a la estructura escogida.

5) Realizar las comparaciones de medias que sean del caso, con base en los
resultados del correspondiente análisis de varianza, su información
complementaria (gráficas) y los objetivos del estudio.

2. EJEMPLOS

Antes de entrar en análisis específicos, vale la pena presentar una serie de


recomendaciones generales, relacionadas con la programación en SAS®.

Todas las instrucciones finalizan con punto y coma.

Los comentarios dentro de las rutinas están antecedidos por los símbolos /* y cierran
con los símbolos */, así: /* Comentario */. Su inclusión o exclusión no afecta la rutina;
únicamente tienen carácter explicativo.

Aunque existe una forma elegante y compacta de generar el paso DATA, mediante el
uso de ciclos DO, en los ejemplos y en las correspondientes rutinas anexas se usará
la forma más sencilla, con el fin de que éstas puedan utilizarse fácilmente como
plantillas para analizar la información del usuario.
Correa, Guillermo — Análisis de Medidas Repetidas 9

El nombre de la base de datos, declarado después de la instrucción DATA, puede


contener hasta 32 caracteres. No se pueden incluir espacios ni caracteres
especiales. No se puede iniciar el nombre con un número.

Los factores cuyos niveles estén identificados con letras u otros símbolos no
numéricos deberán ir seguidos del símbolo $ al ser declarados en el comando INPUT.

En los ejemplos se usará la instrucción DATALINES para indicar que las líneas que
siguen contienen los datos. Esta instrucción es equivalente a la instrucción CARDS,
cuyo origen está relacionado con la indicación de lectura de las tarjetas perforadas
que solían contener los datos. Esta última instrucción aún es reconocida por el
SAS®, por lo que puede usarse cualquiera de las dos indiferentemente.

Sin importar la configuración del equipo en el que se esté trabajando, el SAS®


siempre usa el punto como separador decimal.

En caso de datos perdidos, podrá omitirse la fila correspondiente a dicha observación


o podrá remplazarse la respuesta por un punto. Supóngase que en una base de
datos se perdió la respuesta correspondiente a la celda II, a1, b1:

I a1 b1 13.4
II a1 b1 Perdida
III a1 b1 12.2

Esto puede representarse en SAS® de cualquiera de las siguientes formas:

I a1 b1 13.4
III a1 b1 12.2

I a1 b1 13.4
II a1 b1 .
III a1 b1 12.2

Las observaciones incluidas después de la orden DATALINES no tienen que cumplir


ninguna especificación particular en relación con su alineación. Basta con que exista
al menos un espacio entre cada par de observaciones.

2.1 EJEMPLO 1. DISEÑO COMPLETAMENTE AL AZAR CON ESTRUCTURA


UNIFACTORIAL DE LOS TRATAMIENTOS.

Las rutinas básicas de este ejemplo se incluyen en el Anexo 1.


Correa, Guillermo — Análisis de Medidas Repetidas 10

Se comparan 5 tratamientos (A, B, C, D y E) usando una estructura unifactorial de los


tratamientos y un esquema de aleatorización completamente al azar con cuatro
repeticiones. Se realizan 5 lecturas en el tiempo.

Sean:
UE: Unidades experimentales.
TTOS: Tratamientos.
TIEMPO: Tiempo.
Y: Variable respuesta.

/* Inicio del paso DATA. Aquí se alimenta la información que será usada
por el procedimiento MIXED */
DATA EJE1;
INPUT UE TTOS$ TIEMPO Y;
DATALINES;
1 A 1 10.5
2 A 1 9.8
.
.
.

3 E 5 15.2
4 E 5 16.0
;
/* Fin del Paso DATA */

/* Procedimiento MIXED para ajustar la estructura simétrica compuesta */


PROC MIXED DATA=EJE1 ORDER=DATA NOITPRINT;
CLASS TTOS UE TIEMPO;
MODEL Y=TTOS TIEMPO TTOS*TIEMPO;
RANDOM UE(TTOS);
REPEATED TIEMPO/SUB=UE(TTOS);
RUN;

/* Procedimiento MIXED para usar la Modelación no estructurada */


PROC MIXED DATA=EJE1 ORDER=DATA NOITPRINT;
CLASS TTOS UE TIEMPO;
MODEL Y=TTOS TIEMPO TTOS*TIEMPO;
RANDOM UE(TTOS);
REPEATED TIEMPO/SUB=UE(TTOS) TYPE=UN;
RUN;

/* Procedimiento MIXED para modelar las covarianzas mediante estructura


autorregresiva de primer orden */
PROC MIXED DATA=EJE1 ORDER=DATA NOITPRINT;
CLASS TTOS UE TIEMPO;
MODEL Y=TTOS TIEMPO TTOS*TIEMPO;
RANDOM UE(TTOS);
REPEATED TIEMPO/SUB=UE(TTOS) TYPE=AR(1);
RUN;
Correa, Guillermo — Análisis de Medidas Repetidas 11

Se muestran a continuación las tablas con los criterios de información para cada una
de las tres estructuras evaluadas.

Fit Statistics (Estructura Simétrica Compuesta)

-2 Res Log Likelihood 176.1


AIC (smaller is better) 180.1
AICC (smaller is better) 180.3
BIC (smaller is better) 182.1

Fit Statistics (Sin asumir estructura de covarianzas)

-2 Res Log Likelihood 134.2


AIC (smaller is better) 166.2
AICC (smaller is better) 175.6
BIC (smaller is better) 182.2

Fit Statistics (Estructura autorregresiva de primer orden)

-2 Res Log Likelihood 162.8


AIC (smaller is better) 166.8
AICC (smaller is better) 166.9
BIC (smaller is better) 168.8

El criterio de información bayesiano —BIC— señala a la estructura autorregresiva de


primer orden como la mejor opción. Se muestra a continuación el correspondiente
análisis de varianza.

Num Den
Effect DF DF F Value Pr > F

TTOS 4 15 331.99 <.0001


TIEMPO 4 60 1539.02 <.0001
TTOS*TIEMPO 16 60 139.87 <.0001

2.1.1 Comparación de medias. La significancia de la interacción (valor p < 0.0001)


indica que las diferencias entre tratamientos no son consistentes en el tiempo.
Siempre que se tenga una interacción significativa se deberá analizar la naturaleza
de la misma. Para tal efecto, resulta útil la elaboración de un plano cartesiano con el
tiempo en la abscisa y la respuesta en la ordenada, incluyendo una línea para cada
tratamiento, o pueden graficarse los tratamientos en la abscisa y los tiempos como
líneas separadas dentro del plano, con la respuesta en la ordenada, dependiendo del
número de niveles de cada factor y del aspecto que se desee resaltar. Las Figuras 1
y 2, obtenidas en Excel®, ejemplifican lo expresado.
Correa, Guillermo — Análisis de Medidas Repetidas 12

Ttos
40 A
30 B
20 C
Y

10 D
E
0
1 2 3 4 5
Tiempo
Figura 1. Tendencia en el tiempo de la respuesta Y para cada uno de los cinco
tratamientos evaluados.
Tiempos
40 1
30 2
20 3
Y

4
10
5
0
A B C D E
Tratamientos
Figura 2. Comparación de la respuesta Y en los diferentes tiempos para cada uno de los
tratamientos evaluados.

Para la comparación de medias, en el bloque de programación correspondiente a la


estructura de covarianzas escogida (estructura autorregresiva de primer orden, en
este caso), se agregan órdenes LSMEANS o ESTIMATE antes de la instrucción RUN, así:

PROC MIXED DATA=EJE1 ORDER=DATA NOITPRINT;


CLASS TTOS UE TIEMPO;
MODEL Y=TTOS TIEMPO TTOS*TIEMPO;
RANDOM UE(TTOS);
REPEATED TIEMPO/SUB=UE(TTOS) TYPE=AR(1);
/* Comparaciones por pares*/
LSMEANS TTOS TIEMPO TTOS*TIEMPO/PDIFF;
RUN;
Correa, Guillermo — Análisis de Medidas Repetidas 13

Con LSMEANS TTOS se evalúan los efectos principales de los tratamientos; con LSMEANS
TIEMPO, efectos principales del tiempo; con LSMEANS TTOS*TIEMPO, efectos simples de
tratamientos y de tiempo. Si se desea, pueden pedirse simultáneamente las tres
modalidades de comparación usando una sola instrucción LSMEANS.

No está de más resaltar que el análisis adecuado para este conjunto de


observaciones, atendiendo los resultados del análisis de varianza, consiste en
evaluar únicamente los efectos simples. No obstante, con el fin de que este
documento constituya una guía efectiva para el manejo de las diferentes situaciones
que pueden presentársele al usuario, se incluye también el análisis de los efectos
principales.

La opción PDIFF en el comando LSMEANS genera los valores p de las comparaciones


por pares de medias. En la tabla de resultados generada por el SAS®, los efectos
que aparecen en el encabezado antecedidos de un guion bajo se restan de los
demás. Así, por ejemplo, la primera fila de los resultados parciales que se trascriben
representa la diferencia (Tratamiento A en tiempo 1) – (Tratamiento A en tiempo 2);
éste es un efecto simple del tiempo en el tratamiento A. La segunda fila representa
la diferencia (Tratamiento B en tiempo 5) – (Tratamiento D en tiempo 5); éste es un
efecto simple de tratamientos en el tiempo 5.

Differences of Least Squares Means

Effect TTOS TIEMPO _TTOS _TIEMPO Pr > |t|


TTOS*TIEMPO A 1 A 2 0.1296
TTOS*TIEMPO B 5 D 5 0.0008

Las salidas incluyen todas las posibles comparaciones entre pares de medias y sus
correspondientes valores p (aparecen como Pr > | t |). Se deberán analizar aquellas
comparaciones que interesen al investigador. Si el valor p es menor o igual que el
nivel de significancia preestablecido (usualmente 0.05), se declara, con probabilidad
de error igual a valor p, que hay diferencia entre las medias de las subpoblaciones
comparadas.

La prueba usada por defecto es la de Diferencia Mínima Significativa (también


conocida como prueba de t). Puede usarse una prueba diferente mediante la
introducción de la opción ADJUST=, seguida de cualquiera de las siguientes palabras
clave: BONFERRONI, DUNNETT, GT2, SCHEFFE, SIDAK, SIMULATE, SMM o TUKEY,
dependiendo de la prueba que se desee utilizar para el ajuste.

Luego, si se quisiera, por ejemplo, evaluar efectos principales mediante la prueba de


Tukey, se usarían las siguientes instrucciones:

LSMEANS TTOS TIEMPO/PDIFF ADJUST=TUKEY;


Correa, Guillermo — Análisis de Medidas Repetidas 14

Aunque para las condiciones de este ejemplo no es pertinente el análisis de efectos


principales, se presentan algunos resultados parciales, con el fin de ilustrar.
Effect TTOS TIEMPO _TTOS _TIEMPO Pr > |t| Adjustment Adj P

TTOS A B 0.0192 Tukey 0.1159


TTOS A C <.0001 Tukey <.0001
TTOS A D <.0001 Tukey <.0001
.
.
.
TIEMPO 1 2 0.0001 Tukey-Kramer 0.0009
TIEMPO 1 3 <.0001 Tukey-Kramer <.0001
TIEMPO 1 4 <.0001 Tukey-Kramer <.0001

Al usar la prueba de t, la diferencia entre los tratamientos A y B resulta


estadísticamente significativa (valor p=0.0192); no así al usar la prueba de Tukey
(valor p=0.1159). Todas las otras comparaciones mostradas son significativas.

2.1.2 Contrastes. Es posible realizar comparaciones más elaboradas, usando la


orden ESTIMATE para la evaluación de contrastes, esto es, comparaciones entre dos
grupos de medias. La orden ESTIMATE iría, asimismo, antes de la instrucción RUN, en
el correspondiente bloque de programación.

Un contraste de medias está definido matemáticamente como cualquier combinación


lineal de medias, tal que la suma de los coeficientes sea cero. Del infinito grupo de
posibles contrastes interesan aquéllos que representan comparaciones entre dos
grupos de medias.

Supóngase que se desean comparar las medias de los tratamientos A, B y D contra


las medias de los tratamientos C y E. Se plantea un juego de hipótesis, en el que la
hipótesis nula indique que las medias de los dos grupos comparados son iguales,
mientras que la hipótesis alternativa corresponderá a diferencias entre las medias de
los dos grupos. Se ilustra a continuación la forma en que se generan los coeficientes
del contraste que representa la comparación entre los dos grupos.

Ho :
µ A + µ B + µ D µC + µ E
3
=
2 3
( ) ( )
3 3 2
( )
⇔ 1 µ A + 1 µ B + 1 µ D = 1 µC + 1 µ E ⇔
2
( ) ( )
( )
3 A
( )
3 B
( )
2 C 3 D
( ) ( )
1 µ + 1 µ − 1 µ + 1 µ − 1 µ = 0 ⇔ 2 µ A + 2 µ B − 3µ C + 2 µ D − 3µ E = 0
2 E 6

2 µ A + 2 µ B − 3µ C + 2 µ D − 3µ E
Sea ξ = .
6

El juego de hipótesis que representa la comparación entre los dos grupos puede
plantearse, entonces, como:
Correa, Guillermo — Análisis de Medidas Repetidas 15

H0 :ξ = 0
Ha :ξ ≠ 0

El rechazo de la hipótesis nula corresponde a declarar una diferencia


estadísticamente significativa entre los dos grupos comparados.

Para evaluar la significancia de este contraste se usa la orden ESTIMATE con los
coeficientes correspondientes a cada una de las medias. Es claro que el
denominador del contraste (6) podría eliminarse, manteniendo la validez del juego de
hipótesis planteado. De hecho, si lo único que se quiere saber es cuál de las
hipótesis —la nula o la alternativa— se debe respaldar, es indiferente usar
coeficientes (1/3, 1/3, –1/2, 1/3, –1/2) ó (2, 2, –3, 2, –3). No obstante, si además de
la pregunta anterior, se tiene interés en estimar la magnitud de la diferencia entre los
promedios de los dos grupos contrastados —que es lo más lógico—, deberá incluirse
el denominador.

Existen dos formas de indicar en la orden ESTIMATE que se tienen coeficientes no


enteros: 1) usando coeficientes decimales (0.33 0.33 –0.5. 0.33 –0.5) —lo cual no es
recomendable, pues en casos como éste la suma de los coeficientes no es
exactamente cero, lo que ocasionará que el SAS® no pueda estimar la función— y 2)
usando coeficientes enteros junto con la opción DIVISOR={número}.

Luego, las instrucciones completas podrían quedar así:

ESTIMATE “Tratamientos A, B y D vs. C y E” TTOS 2 2 –3 2 –3/DIVISOR=6;

Hay cuatro segmentos obligatorios en esta línea de instrucciones, y cuyo orden se


debe respetar:
1) ESTIMATE, que introduce la orden
2) Un texto que identifique el contraste, el cual debe ir entre comillas (bien sea
sencillas o dobles). No existen restricciones en cuanto al tipo de caracteres
que se pueden usar en dicho texto
3) La etiqueta que identifica al factor cuyas medias se desean contrastar
4) Los coeficientes correspondientes a las medias que conforman la combinación
lineal o contraste.

La instrucción DIVISOR=6, que aparece al final, es opcional, y no afecta la


significancia de la prueba. Su omisión sólo afecta la estimación de la diferencia entre
los grupos comparados, la cual aparecería multiplicada por el valor omitido.

Con un poco de práctica, es fácil proponer los coeficientes de los contrastes para las
comparaciones deseadas, sin necesidad de realizar todos los pasos ilustrados
anteriormente.
Correa, Guillermo — Análisis de Medidas Repetidas 16

Por ejemplo, la comparación de los tratamientos A, C, D y E contra el tratamiento B


se obtiene mediante la inclusión de las siguientes instrucciones:

ESTIMATE “Tratamientos A, C, D y E vs. B” TTOS 1 –4 1 1 1/DIVISOR=4;

Un contraste no tiene que involucrar todas las medias de tratamientos. Si no se


desea incluir algún tratamiento en la comparación, basta con asignarle un coeficiente
cero. Supóngase que se desea comparar los tratamientos A y E contra B y D. Para
tal efecto, deberán incluirse las siguientes instrucciones:

ESTIMATE “Tratamientos A y E vs. B y D” TTOS 1 –1 0 –1 1/DIVISOR=2;

Siguiendo tal razonamiento, podría plantearse un contraste en el que tanto el primer


grupo como el segundo consten de una sola media, lo que corresponde a una prueba
por pares. Por ejemplo, C vs. E:

ESTIMATE “Tratamiento C vs. E” TTOS 0 0 1 0 –1;

Cuando los últimos tratamientos no hacen parte del contraste, pueden omitirse sus
coeficientes. Por ejemplo C vs. A:

ESTIMATE “Tratamiento C vs. A” TTOS –1 0 1;

Para la comparación de tiempos, basta con cambiar TTOS por TIEMPO. Así, para
comparar, por ejemplo, los tiempos 1 y 2 contra los tiempos 3, 4 y 5, se incluirían las
siguientes instrucciones:

ESTIMATE “Tiempos 1 y 2 vs. 3, 4 y 5” TIEMPO 3 3 –2 –2 –2/DIVISOR=6;

Es muy importante tener en cuenta que a menos que se especifique la opción


ORDER=DATA en la primera línea del procedimiento, los coeficientes anotados
guardarán correspondencia con el orden alfabético de los niveles del factor. Para
este ejemplo, tanto para tratamientos como para tiempo, el orden alfabético es
equivalente al orden de entrada, por lo que su omisión no generaría ningún cambio.
No obstante es común que el orden de entrada de los niveles del factor y su orden
alfabético no coincidan, lo que ocasiona que los contrastes generados no
correspondan con los deseados por el usuario. Por lo anterior, se recomienda incluir
siempre la opción ORDER=DATA en la primera línea del procedimiento y asignar los
coeficientes en correspondencia con el orden de entrada de los niveles del factor en
el paso DATA.

Hasta el momento sólo se ha ilustrado el uso de contrastes para la evaluación de


efectos principales, es decir, efectos promedio. Nótese, por ejemplo, que al
contrastar los tratamientos C y A, se está comparando el promedio del tratamiento C
Correa, Guillermo — Análisis de Medidas Repetidas 17

en los cinco tiempos evaluados contra el promedio del tratamiento A, igualmente, en


los cinco tiempos evaluados.

Cuando la interacción entre los tratamientos y el tiempo es significativa (como en


este ejemplo), resulta inadecuada la evaluación de efectos principales, siendo
necesaria la evaluación de efectos simples, esto es, la comparación de dos grupos
de tratamientos en un tiempo específico (efectos simples de tratamientos) o la
comparación de dos grupos de tiempos para un tratamiento particular (efectos
simples del tiempo).

Considérese, por ejemplo, la comparación, en el tiempo 5, de los tratamientos B y D


contra los tratamientos C y E.

ESTIMATE 'Tratamientos B y D vs. C y E, en el tiempo 5'


TTOS 0 1 –1 1 –1
TTOS*TIEMPO
0 0 0 0 0
0 0 0 0 1
0 0 0 0 –1
0 0 0 0 1
0 0 0 0 –1
/DIVISOR=2;

Los coeficientes se han organizado de esa manera con el único fin de facilitar su
visualización. Nótese, sin embargo, que se trata de una sola línea de programación
(el punto y coma sólo aparece al final). Los coeficientes que siguen a TTOS indican
cuáles tratamientos se desean comparar; los coeficientes que siguen a TTOS*TIEMPO
corresponden, en su orden, a las combinaciones:

At1 At2 At3 At4 At5


Bt1 Bt2 Bt3 Bt4 Bt5
Ct1 Ct2 Ct3 Ct4 Ct5
Dt1 Dt2 Dt3 Dt4 Dt5
Et1 Et2 Et3 Et4 Et5

La comparación planteada equivale, pues, a (Bt5, Dt5) vs. (Ct5, Et5); esto es, efectos
simples de los tratamientos en el tiempo 5.

Supóngase ahora que, para el tratamiento C, se quieren comparar los tiempos 1 y 2


contra los tiempos 3, 4 y 5. Tal comparación se obtiene mediante la inclusión de las
siguientes instrucciones:
Correa, Guillermo — Análisis de Medidas Repetidas 18

ESTIMATE 'Tiempos 1 y 2 vs. Tiempos 3, 4 y 5, para el tratamiento C'


TIEMPO 3 3 –2 –2 –2
TTOS*TIEMPO
0 0 0 0 0
0 0 0 0 0
3 3 –2 –2 –2
/DIVISOR=6;

En este caso, los coeficientes que siguen a TIEMPO indican cuáles tiempos se
comparan; los coeficientes que siguen a TTOS*TIEMPO representan, en su orden, las
combinaciones:

At1 At2 At3 At4 At5


Bt1 Bt2 Bt3 Bt4 Bt5
Ct1 Ct2 Ct3 Ct4 Ct5
Dt1 Dt2 Dt3 Dt4 Dt5
Et1 Et2 Et3 Et4 Et5

Se están comparando, entonces, (Ct1, Ct2) vs. (Ct3, Ct4, Ct5). Nótese que si los
tratamientos o las combinaciones de tratamientos que en su orden van al final (D y E,
en este caso) no participan del contraste, pueden ignorarse, no siendo necesario
escribir los correspondientes coeficientes con valor cero.

2.2 EJEMPLO 2. ESTRUCTURA FACTORIAL DE LOS TRATAMIENTOS.

Las rutinas básicas de este ejemplo se incluyen en el Anexo 2.

A quien inicie la lectura del documento a partir de este punto, se le recomienda


realizar una revisión desde el numeral 1, pues en este ejemplo sólo se discuten en
detalle los aspectos no ilustrados anteriormente.

Para estudiar el poder de degradación de celulosa de dos cepas de Bacillus


turingensis, se usó un diseño de bloques completos al azar con tres repeticiones.
Los tratamientos se generan por la combinación de los niveles de tres factores, cada
uno de ellos con dos niveles, así:

Cepa: Cepa 1 (C1) y Cepa 2 (C2).


Sustrato: Bagazo de caña (S1) y papel periódico (S2).
Tratamiento: Hidrólisis alcalina (T1) y sin Tratamiento (T2).

La variable respuesta fue el porcentaje de sacarificación, el cual se midió a las 24, 48


y 72 horas.

Se ilustra a continuación el correspondiente paso DATA.


Correa, Guillermo — Análisis de Medidas Repetidas 19

DATA EJE2;
INPUT B C$ S$ TTO$ TIEMPO Y;
DATALINES;
1 C1 S1 T1 24 17.98
2 C1 S1 T1 24 18.38
.
.
.

2 C2 S2 T2 72 13.76
3 C2 S2 T2 72 14.91
;

Nótese que cada factor está identificado con una etiqueta en la línea del comando
INPUT. Por tanto, cada uno de ellos conformará una columna en el bloque de datos
que sigue a la instrucción DATALINES.

Se evalúan luego las tres estructuras de covarianzas.

/* Procedimiento MIXED para ajustar la estructura simétrica compuesta */


PROC MIXED DATA=EJE2 ORDER=DATA NOITPRINT;
CLASS B C S TTO TIEMPO;
MODEL Y=C|S|TTO|TIEMPO;
RANDOM B B(C*S*TTO);
REPEATED TIEMPO/SUB=B(C*S*TTO);
RUN;

/* Procedimiento MIXED para usar la Modelación no estructurada */


PROC MIXED DATA=EJE2 ORDER=DATA NOITPRINT;
CLASS B C S TTO TIEMPO;
MODEL Y=C|S|TTO|TIEMPO;
RANDOM B B(C*S*TTO);
REPEATED TIEMPO/SUB=B(C*S*TTO) TYPE=UN;
RUN;

/* Procedimiento MIXED para modelar las covarianzas mediante la estructura


autorregresiva de primer orden */
PROC MIXED DATA=EJE2 ORDER=DATA NOITPRINT;
CLASS B C S TTO TIEMPO;
MODEL Y=C|S|TTO|TIEMPO;
RANDOM B B(C*S*TTO);
REPEATED TIEMPO/SUB=B(C*S*TTO) TYPE=AR(1);
RUN;

Las barras verticales en la línea de la orden MODEL se usan para indicar al PROC MIXED
que estime todas las posibles interacciones entre los factores. Así, C|S|TTO|TIEMPO,
es equivalente a escribir C S C*S TTO C*TTO S*TTO C*S*TTO TIEMPO C*TIEMPO
S*TIEMPO C*S*TIEMPO TTO*TIEMPO C*TTO*TIEMPO S*TTO*TIEMPO C*S*TTO*TIEMPO.

Sin importar el nombre asignado a los factores, pudiendo alguno de ellos llamarse
tratamiento —como frecuentemente ocurre—, debe tenerse claro que, en
Correa, Guillermo — Análisis de Medidas Repetidas 20

experimentos con estructura factorial de los tratamientos, los verdaderos


tratamientos corresponden a las combinaciones de los diferentes niveles de los
factores (combinaciones Cepa—Sustrato—Tratamiento, en este caso). Tal
combinación se representa en las órdenes RANDOM y REPEATED como la interacción
entre todos los factores (C*S*TTO).

En caso de que el esquema de aleatorización usado hubiese sido completamente al


azar, habría sido necesario incluir un identificador R para las repeticiones, en lugar
del identificador B usado para los bloques, y se remplazaría B por R en todos los
lugares en los que aparece, excepto la etiqueta B que aparece sola en la orden
RANDOM, la cual se retiraría sin hacer ningún remplazo, dejando sólo R(C*S*TTO). En
realidad, el remplazo de B por R sólo se hace con fines nemotécnicos; el único
cambio real consiste en retirar B de la orden RANDOM.

Debe resaltarse la diferencia en cuanto a presentación del modelo entre los


procedimientos MIXED y GLM, por ser este último más familiar para la mayoría de
usuarios. Puesto que el GLM es un procedimiento creado para modelos de efectos
fijos (con adaptaciones para modelos mixtos), todos los efectos —tanto fijos como
aleatorios— se declaran en la orden MODEL. En el procedimiento MIXED, se declaran
en la orden MODEL sólo los efectos fijos; los efectos aleatorios se declaran en la orden
RANDOM. En el caso particular de los diseños en bloques al azar, el hecho de declarar
incorrectamente los bloques en la línea de la orden MODEL, en lugar de hacerlo en la
de la orden RANDOM, trae como consecuencia que éstos sean tratados como efectos
fijos ignorando la variabilidad aportada por los mismos, lo que ocasiona que los
errores estándar para las medias de tratamientos se estimen incorrectamente.

Se muestran a continuación las tablas con los criterios de información para cada una
de las tres estructuras evaluadas.

Fit Statistics (Estructura Simétrica Compuesta)

-2 Res Log Likelihood 113.7


AIC (smaller is better) 117.7
AICC (smaller is better) 118.0
BIC (smaller is better) 115.9

Fit Statistics (Sin asumir estructura de covarianzas)

-2 Res Log Likelihood 78.2


AIC (smaller is better) 94.2
AICC (smaller is better) 97.9
BIC (smaller is better) 87.0
Correa, Guillermo — Análisis de Medidas Repetidas 21

Fit Statistics (Estructura autorregresiva de primer orden)

-2 Res Log Likelihood 111.7


AIC (smaller is better) 115.7
AICC (smaller is better) 116.0
BIC (smaller is better) 113.9

El criterio bayesiano de Schwarz —BIC— indica que la modelación no estructurada


es la más adecuada en este caso. Se muestra a continuación la correspondiente
tabla resumen del análisis de varianza.

Num Den
Effect DF DF F Value Pr > F

C 1 14 31.06 <.0001
S 1 14 340.04 <.0001
C*S 1 14 174.51 <.0001
TTO 1 14 385.80 <.0001
C*TTO 1 14 161.53 <.0001
S*TTO 1 14 391.42 <.0001
C*S*TTO 1 14 98.96 <.0001
TIEMPO 2 32 721.29 <.0001
C*TIEMPO 2 32 18.49 <.0001
S*TIEMPO 2 32 4.47 0.0195
C*S*TIEMPO 2 32 17.16 <.0001
TTO*TIEMPO 2 32 0.48 0.6218
C*TTO*TIEMPO 2 32 3.76 0.0341
S*TTO*TIEMPO 2 32 6.61 0.0040
C*S*TTO*TIEMPO 2 32 0.47 0.6272

Puesto que las interacciones C*TIEMPO, S*TIEMPO, C*S*TIEMPO, C*TTO*TIEMPO y


S*TTO*TIEMPO resultaron significativas, no es adecuado adelantar un análisis conjunto
para los tres tiempos. Podrían adoptarse diferentes enfoques para los análisis
subsiguientes: evaluar los efectos simples correspondientes a las interacciones
S*TTO*TIEMPO, C*TTO*TIEMPO, C*S*TIEMPO y C*S*TTO; analizar los efectos simples
correspondientes a la interacción C*S*TTO en cada uno de los tiempos; o, mejor aun,
evaluar la naturaleza de la interacción, mediante una gráfica para los promedios de
porcentaje de sacarificación, con el tiempo en la abcisa y cada una de las 8
combinaciones de tratamientos dentro de la gráfica (Figura 3).

La gráfica muestra que las interacciones con el tiempo se deben básicamente a que
la mayoría de los tratamientos tienen similar comportamiento a las 24 horas,
haciéndose manifiestas sus diferencias sólo a partir de las 48 horas. El patrón de
diferencias observado para las 48 horas se mantiene para las 72 horas, existiendo
sólo un efecto aditivo del tiempo. Ello sugiere adelantar un análisis para las 24 horas
y otro análisis conjunto para las observaciones correspondientes a las 48 y las 72
horas.
Correa, Guillermo — Análisis de Medidas Repetidas 22

Ttos
% Sacarificación
25 C1S1T1
20 C1S1T2
15 C1S2T1
10 C1S2T2
5
C2S1T1
0
C2S1T2
24 h 48 h 72 h
C2S2T1
Horas C2S2T2

Figura 3. Tendencia en el tiempo del porcentaje de sacarificación para cada una de las
ocho combinaciones de tratamientos evaluadas.

Se ilustran a continuación los procedimientos necesarios para desarrollar esta última


opción de análisis. Dado que el análisis correspondiente a las 24 horas es de tipo
univariado, sólo se ilustrará el segundo, es decir, el análisis conjunto para las 48 y las
72 horas.

Para que el PROC MIXED no tenga en cuenta las observaciones correspondientes a las
24 horas, sin necesidad de retirarlas físicamente, basta con introducir el filtro IF
TIEMPO > 24 en el paso DATA, después de la instrucción INPUT y antes de la
instrucción DATATALINES. Mediante esta orden se establece una condición necesaria
para cada una de las observaciones que habrán de formar parte de la base de datos
EJE2 (que el valor de TIEMPO sea mayor que 24).

Al evaluar las estructuras de covarianza sobre la base de datos restringida, el criterio


de información bayesiano de Schwarz —BIC— señala nuevamente a la modelación
no estructurada como la más adecuada.

Al observar el correspondiente análisis de varianza, se nota que ninguna interacción


con el tiempo resultó significativa, por lo que un análisis adecuado consiste en la
comparación de los efectos de Cepa, Sustrato, Tratamiento y sus interacciones,
promediando los dos tiempos evaluados.

Una interacción de segundo orden (entre tres factores) significa que las interacciones
de primer orden tienen diferente comportamiento en cada uno de los niveles del
tercer factor, tal y como se ilustra en la Figura 4. Esto quiere decir que los efectos de
un factor deberán ser evaluados en cada una de las combinaciones de los niveles de
los demás factores. En este caso, los efectos de cada uno de los tres factores en
Correa, Guillermo — Análisis de Medidas Repetidas 23

estudio deberán analizarse en cada una de las cuatro combinaciones de niveles de


los otros dos factores, lo que equivale a realizar 12 comparaciones.
Num Den
Effect DF DF F Value Pr > F

C 1 14 5.49 0.0344
S 1 14 133.09 <.0001
C*S 1 14 94.00 <.0001
TTO 1 14 160.11 <.0001
C*TTO 1 14 76.39 <.0001
S*TTO 1 14 142.49 <.0001
C*S*TTO 1 14 36.92 <.0001
TIEMPO 1 16 8.03 0.0120
C*TIEMPO 1 16 0.84 0.3724
S*TIEMPO 1 16 1.80 0.1989
C*S*TIEMPO 1 16 0.30 0.5928
TTO*TIEMPO 1 16 0.67 0.4258
C*TTO*TIEMPO 1 16 0.02 0.9035
S*TTO*TIEMPO 1 16 0.52 0.4809
C*S*TTO*TIEMPO 1 16 0.00 0.9941

Las siguientes gráficas muestran el porcentaje de sacarificación promedio en cada


una de las 8 combinaciones de los factores Cepa, Sustrato y Tratamiento,
promediando en los niveles 48 y 72 horas del factor Tiempo. C: Cepa, S: Sustrato y
T: Tratamiento (Figura 4).

22 15
21
14.5
20
19
14
18
S1 S1
17 13.5
Y

S2 S2
16
13
15
14
12.5
13
12 12
C1 C2 C1 C2

Interacción C*S en T1 Interacción C*S en T2


Correa, Guillermo — Análisis de Medidas Repetidas 24

22 15
21
14.5
20
19
14
18
T1 T1
17 13.5
Y

Y
T2 T2
16
13
15
14
12.5
13
12 12
C1 C2 C1 C2

Interacción C*T en S1 Interacción C*T en S2

22 16
21
15.5
20
19
15
18
T1 T1
17 14.5
Y

Y
T2 T2
16
14
15
14
13.5
13
12 13
S1 S2 S1 S2

Interacción S*T en C1 Interacción S*T en C2

Figura 4. Interacción entre dos factores en cada uno de los niveles del tercer factor.

Se muestran a continuación algunos de los resultados generados al incluir la


instrucción LSMEANS C*S*TTO/PDIFF.

Least Squares Means

Standard
Effect C S TTO Estimate Error DF t Value Pr > |t|

C*S*TTO C1 S1 T1 21.7500 0.3258 14 66.75 <.0001


C*S*TTO C1 S1 T2 12.8133 0.3258 14 39.33 <.0001
C*S*TTO C1 S2 T1 12.8500 0.3258 14 39.44 <.0001
C*S*TTO C1 S2 T2 12.0833 0.3258 14 37.08 <.0001
C*S*TTO C2 S1 T1 15.6600 0.3258 14 48.06 <.0001
C*S*TTO C2 S1 T2 13.4433 0.3258 14 41.26 <.0001
C*S*TTO C2 S2 T1 13.9133 0.3258 14 42.70 <.0001
C*S*TTO C2 S2 T2 14.3550 0.3258 14 44.06 <.0001
Correa, Guillermo — Análisis de Medidas Repetidas 25

Differences of Least Squares Means

Standard
Effect C S TTO _C _S _TTO Estimate Error DF t Value Pr > |t|

C*S*TTO C1 S1 T1 C1 S1 T2 8.9367 0.4536 14 19.70 <.0001


C*S*TTO C1 S1 T1 C1 S2 T1 8.9000 0.4536 14 19.62 <.0001
C*S*TTO C1 S1 T1 C1 S2 T2 9.6667 0.4536 14 21.31 <.0001
C*S*TTO C1 S1 T1 C2 S1 T1 6.0900 0.4536 14 13.43 <.0001
C*S*TTO C1 S1 T1 C2 S1 T2 8.3067 0.4536 14 18.31 <.0001
C*S*TTO C1 S1 T1 C2 S2 T1 7.8367 0.4536 14 17.28 <.0001
C*S*TTO C1 S1 T1 C2 S2 T2 7.3950 0.4536 14 16.30 <.0001
C*S*TTO C1 S1 T2 C1 S2 T1 -0.03667 0.4536 14 -0.08 0.9367
C*S*TTO C1 S1 T2 C1 S2 T2 0.7300 0.4536 14 1.61 0.1298
C*S*TTO C1 S1 T2 C2 S1 T1 -2.8467 0.4536 14 -6.28 <.0001
C*S*TTO C1 S1 T2 C2 S1 T2 -0.6300 0.4536 14 -1.39 0.1865
C*S*TTO C1 S1 T2 C2 S2 T1 -1.1000 0.4536 14 -2.43 0.0294
C*S*TTO C1 S1 T2 C2 S2 T2 -1.5417 0.4536 14 -3.40 0.0043
C*S*TTO C1 S2 T1 C1 S2 T2 0.7667 0.4536 14 1.69 0.1131
C*S*TTO C1 S2 T1 C2 S1 T1 -2.8100 0.4536 14 -6.20 <.0001
C*S*TTO C1 S2 T1 C2 S1 T2 -0.5933 0.4536 14 -1.31 0.2119
C*S*TTO C1 S2 T1 C2 S2 T1 -1.0633 0.4536 14 -2.34 0.0343
C*S*TTO C1 S2 T1 C2 S2 T2 -1.5050 0.4536 14 -3.32 0.0051
C*S*TTO C1 S2 T2 C2 S1 T1 -3.5767 0.4536 14 -7.89 <.0001
C*S*TTO C1 S2 T2 C2 S1 T2 -1.3600 0.4536 14 -3.00 0.0096
C*S*TTO C1 S2 T2 C2 S2 T1 -1.8300 0.4536 14 -4.03 0.0012
C*S*TTO C1 S2 T2 C2 S2 T2 -2.2717 0.4536 14 -5.01 0.0002
C*S*TTO C2 S1 T1 C2 S1 T2 2.2167 0.4536 14 4.89 0.0002
C*S*TTO C2 S1 T1 C2 S2 T1 1.7467 0.4536 14 3.85 0.0018
C*S*TTO C2 S1 T1 C2 S2 T2 1.3050 0.4536 14 2.88 0.0122
C*S*TTO C2 S1 T2 C2 S2 T1 -0.4700 0.4536 14 -1.04 0.3177
C*S*TTO C2 S1 T2 C2 S2 T2 -0.9117 0.4536 14 -2.01 0.0641
C*S*TTO C2 S2 T1 C2 S2 T2 -0.4417 0.4536 14 -0.97 0.3467

Los efectos que aparecen en el encabezado antecedidos de un guion bajo se restan


de los demás. Así, por ejemplo, la fila resaltada representa la diferencia (C1S2T1) –
(C1S2T2). El valor p (Pr > | t |) indica que no hay diferencia estadísticamente
significativa (valor p > nivel de significancia).

Con base en la anterior información, pueden construirse tablas resumen con las
comparaciones de los efectos simples. Se resalta en negrilla la información usada
para tal efecto.

S1 S2 Diferencia valor p
C1T1 21.75 12.85 8.9 <0.0001
C1T2 12.81 12.08 0.73 0.1298
C2T1 15.66 13.91 1.75 0.0018
C2T2 13.44 14.36 –0.92 0.0641
Correa, Guillermo — Análisis de Medidas Repetidas 26

T1 T2 Diferencia valor p
C1S1 21.75 12.81 8.94 <0.0001
C1S2 12.85 12.08 0.77 0.1131
C2S1 15.66 13.44 2.22 0.0002
C2S2 13.91 14.36 –0.44 0.3467

C1 C2 Diferencia valor p
S1T1 21.75 15.66 6.09 <0.0001
S1T2 12.81 13.44 –0.63 0.1865
S2T1 12.85 13.91 –1.06 0.0343
S2T2 12.08 14.36 –2.28 0.0002

Para evaluar la magnitud de la diferencia promedio entre las 48 y las 72 horas —lo
cual resulta adecuado, dado que el tiempo no presentó interacción significativa con
ningún otro efecto y su efecto fue significativo—, basta con introducir la instrucción
LSMEANS TIEMPO/PDIFF, con base en el cual se genera el siguiente resultado.

Standard
Effect TIEMPO _TIEMPO Estimate Error DF t Value Pr > |t|

TIEMPO 48 72 -0.4696 0.1657 16 -2.83 0.0120

Ello quiere decir que el porcentaje de sacarificación promedio a las 72 horas supera
el porcentaje de sacarificación promedio a las 48 horas en 0.4696 %. La
significancia de tal diferencia ya era conocida: nótese que el valor p es exactamente
igual al generado por el análisis de varianza (0.0120).

2.3 EJEMPLO 3. DISEÑO PARCELAS DIVIDIDAS.

Las rutinas básicas de este ejemplo se incluyen en el Anexo 3.

A quien inicie la lectura del documento a partir de este punto, se le recomienda


realizar una revisión desde el numeral 1, pues en este ejemplo sólo se discuten en
detalle los aspectos no ilustrados anteriormente.

Se evaluó el efecto de dos factores (a y b) organizados en un diseño de parcelas


divididas, con el factor a asignado a las parcelas principales, con base en un diseño
de bloques completos al azar con tres repeticiones. Los niveles del factor b se
asignaron a las subunidades. Se realizaron lecturas a las 6, 12, 18 y 24 horas. El
factor a se evaluó en tres niveles (a1, a2 y a3); el factor b, en dos (b1 y b2).

Vale la pena aclarar que el planteamiento no corresponde a un diseño de parcelas


divididas en el tiempo. La división de las parcelas es de carácter espacial. Sobre
Correa, Guillermo — Análisis de Medidas Repetidas 27

cada una de las parcelas con sus respectivas subparcelas se realizan cuatro lecturas
en el tiempo, lo que da lugar a un experimento con medidas repetidas.

DATA EJE3;
INPUT TIEMPO BLOQUES$ A$ B$ Y;
DATALINES;
6 I a1 b1 5.8
6 II a1 b1 8.3
.
.
.
24 II a3 b2 38.7
24 III a3 b2 40.8
;

/* Procedimiento MIXED para ajustar la estructura simétrica compuesta */


PROC MIXED DATA=EJE3 ORDER=DATA NOITPRINT;
CLASS TIEMPO BLOQUES A B;
MODEL Y=A|B|TIEMPO/DDFM=SATTERTH;
RANDOM BLOQUES BLOQUES(A) BLOQUES(A*B);
REPEATED TIEMPO/SUB=BLOQUES(A*B);
RUN;

/* Procedimiento MIXED para usar la Modelación no estructurada */


PROC MIXED DATA=EJE3 ORDER=DATA NOITPRINT;
CLASS TIEMPO BLOQUES A B;
MODEL Y=A|B|TIEMPO/DDFM=SATTERTH;
RANDOM BLOQUES BLOQUES(A) BLOQUES(A*B);
REPEATED TIEMPO/SUB=BLOQUES(A*B) TYPE=UN;
RUN;

/* Procedimiento MIXED para modelar las covarianzas mediante la estructura


autorregresiva de primer orden */
PROC MIXED DATA=EJE3 ORDER=DATA NOITPRINT;
CLASS TIEMPO BLOQUES A B;
MODEL Y=A|B|TIEMPO/DDFM=SATTERTH;
RANDOM BLOQUES BLOQUES(A) BLOQUES(A*B);
REPEATED TIEMPO/SUB=BLOQUES(A*B) TYPE=AR(1);
RUN;

El efecto BLOQUES(A*B) declarado en la orden RANDOM es análogo a los efectos


UE(TTOS) y B(C*S*TTO), de los ejemplos 1 y 2 correspondientemente. Mediante éste
se especifica que la variación entre unidades experimentales es aleatoria. El efecto
BLOQUES, siempre que exista, se debe declarar en esta orden, por las razones
indicadas en el ejemplo 2. En el caso de Parcelas Divididas debe incluirse
adicionalmente el efecto BLOQUES(A), que indica que la variación entre las unidades
principales es de tipo aleatorio. Este efecto constituye el denominado error(a) o error
de las parcelas grandes. Si el factor correspondiente a las parcelas principales se
asigna al azar, se usa el término R(A).
Correa, Guillermo — Análisis de Medidas Repetidas 28

Aparece también como elemento adicional la opción DDFM=SATTERTH en la orden


MODEL, mediante la cual se le indica al procedimiento MIXED que use la aproximación
de Satterthwaite para la obtención de los grados de libertad adecuados en todas las
comparaciones de medias solicitadas mediante las órdenes LSMEANS o ESTIMATE.
Esta opción es de particular importancia en el diseño parcelas divididas cuando se
desean evaluar efectos simples del factor asignado a la parcela principal o efectos
cruzados.

Se muestran a continuación las tablas con los criterios de información para cada una
de las tres estructuras evaluadas.

Fit Statistics (Estructura Simétrica Compuesta)

-2 Res Log Likelihood 224.2


AIC (smaller is better) 228.2
AICC (smaller is better) 228.5
BIC (smaller is better) 226.4

Fit Statistics (Sin asumir estructura de covarianzas)

-2 Res Log Likelihood 197.5


AIC (smaller is better) 223.5
AICC (smaller is better) 234.2
BIC (smaller is better) 211.7

Fit Statistics (Estructura autorregresiva de primer orden)

-2 Res Log Likelihood 223.0


AIC (smaller is better) 229.0
AICC (smaller is better) 229.6
BIC (smaller is better) 226.3

El criterio de información bayesiano de Schwarz —BIC— señala a la modelación no


estructurada como la más adecuada para este conjunto de datos. A continuación se
muestra la tabla resumen del análisis de varianza.

Num Den
Effect DF DF F Value Pr > F

A 2 12 143.06 <.0001
B 1 9.66 195.35 <.0001
A*B 2 9.66 150.25 <.0001
TIEMPO 3 12 834.58 <.0001
TIEMPO*A 6 12 16.44 <.0001
TIEMPO*B 3 12 44.71 <.0001
TIEMPO*A*B 6 12 39.41 <.0001

Nótese que el procedimiento estima tres diferentes términos de error, tal y como se
detalla en la siguiente tabla.
Correa, Guillermo — Análisis de Medidas Repetidas 29

Factor Término del Error


A ERROR(a)
B ERROR(b)
A*B ERROR(b)
TIEMPO ERROR(c)
TIEMPO*A ERROR(c)
TIEMPO*B ERROR(c)
TIEMPO*A*B ERROR(c)

En este ejemplo, la interacción entre todos los factores resultó significativa, por lo
que se deben analizar los efectos simples correspondientes a la interacción de
segundo orden. Aunque podría usarse la instrucción LSMEANS A*B*TIEMPO/PDIFF
para generar todas las posibles comparaciones entre las combinaciones de los
niveles de los tres factores y generar tablas resumen como las ilustradas en el
ejemplo 2, o podrían plantearse contrastes como los ilustrados en el ejemplo 1, se
presentarán otras técnicas de análisis, sugeridas por una gráfica con el tiempo en la
abcisa y las combinaciones de tratamientos en su interior (Figura 5).

50
a1b1
40
a1b2
30 a2b1
Y

20 a2b2
a3b1
10
a3b2
0
6 12 18 24

Figura 5. Tendencia en el tiempo de la respuesta Y para cada una de las seis


combinaciones de tratamientos.

La Figura 5 genera las siguientes impresiones generales: las diferencias entre


tratamientos a las 6 horas no parecen relevantes; la combinación a1b1 no parece
mostrar cambios significativos en el tiempo; los tratamientos a2b1 y a2b2 no difieren
en promedio.
Correa, Guillermo — Análisis de Medidas Repetidas 30

Vale la pena resaltar que aunque el análisis gráfico resulta de gran utilidad para
ilustrar el escenario general, permitiendo al investigador plantear las preguntas más
pertinentes a cada situación, las correspondientes respuestas siempre deberán
respaldarse con una prueba formal de comparación de medias.

Las preguntas planteadas pueden resolverse mediante el uso de la opción


SLICE={FACTOR}, en la orden LSMEANS. La inclusión de esta opción genera una
comparación conjunta de los niveles de los demás factores, en cada uno de los
niveles del factor indicado.

La pregunta relacionada con la aparente similitud entre los tratamientos a2b1 y a2b2
puede responderse mediante las comparaciones de los niveles de b en cada uno de
los niveles del factor a, lo cual se indica con las siguientes instrucciones:

PROC MIXED DATA=EJE3 ORDER=DATA NOITPRINT;


CLASS TIEMPO BLOQUES A B;
MODEL Y=A|B|TIEMPO/DDFM=SATTERTH;
RANDOM BLOQUES BLOQUES(A) BLOQUES(A*B);
REPEATED TIEMPO/SUB=BLOQUES(A*B) TYPE=UN;
LSMEANS A*B/SLICE=A;
RUN;

Se obtienen los siguientes resultados:

Tests of Effect Slices

Num Den
Effect A DF DF F Value Pr > F

A*B a1 1 9.66 493.78 <.0001


A*B a2 1 9.66 0.61 0.4525
A*B a3 1 9.66 1.45 0.2571

La prueba indica que el efecto simple del factor b en a2 no es significativo. Esto es


equivalente a decir que en este nivel del factor a (a2) no hay diferencia
estadísticamente significativa entre los niveles b1 y b2 del factor b. Esta salida
muestra adicionalmente que el efecto simple del factor b no es significativo en a3,
mas sí lo es en a1.

Para corroborar o rechazar la hipótesis de que las diferencias entre tratamientos a


las 6 horas no parecen relevantes, se incluye la instrucción LSMEANS
A*B*TIEMPO/SLICE=TIEMPO.

Se obtienen los siguientes resultados.


Correa, Guillermo — Análisis de Medidas Repetidas 31

Tests of Effect Slices

Num Den
Effect TIEMPO DF DF F Value Pr > F

TIEMPO*A*B 6 5 11 4.34 0.0199


TIEMPO*A*B 12 5 12.1 38.41 <.0001
TIEMPO*A*B 18 5 12.7 238.59 <.0001
TIEMPO*A*B 24 5 11.8 159.13 <.0001

Este resultado indica que en todos los tiempos —incluso en el 6— se tienen al


menos dos combinaciones de tratamientos (combinaciones a*b), cuya diferencia es
estadísticamente significativa.

Nótese que con el uso de esta opción se generan pruebas de carácter general. En
este caso se está contrastando el siguiente juego de hipótesis:

H0: µa1b1t6 = µa1b2t6 = µa2b1t6 = µa2b2t6 = µa3b1t6 = µa3b2t6


Ha: µij1 ≠ µij1’, para al menos una pareja ij1 ≠ ij1’

Para averiguar cuáles son las combinaciones que difieren entre sí, pueden usarse las
comparaciones por pares o los contrastes, ilustrados en los ejemplos 1 y 2.

Para evaluar la hipótesis acerca de que la combinación a1b1 no parece mostrar


cambios significativos en el tiempo, se usa LSMEANS A*B*TIEMPO/SLICE=A*B.
Se obtienen los siguientes resultados.

Tests of Effect Slices

Num Den
Effect A B DF DF F Value Pr > F

TIEMPO*A*B a1 b1 3 12 5.72 0.0114


TIEMPO*A*B a1 b2 3 12 306.69 <.0001
TIEMPO*A*B a2 b1 3 12 119.42 <.0001
TIEMPO*A*B a2 b2 3 12 134.25 <.0001
TIEMPO*A*B a3 b1 3 12 202.99 <.0001
TIEMPO*A*B a3 b2 3 12 221.94 <.0001

Esta prueba indica que para todas las combinaciones de tratamientos


(combinaciones a*b) existe diferencia estadísticamente significativa entre al menos
dos de los tiempos, incluso para a1b1 (valor p=0.0114).

Se está contrastando el siguiente juego de hipótesis:


Correa, Guillermo — Análisis de Medidas Repetidas 32

H0: µa1b1t6 = µa1b1t12 = µa1b1t18 = µa1b1t24


Ha: µ11k ≠ µ11k’, para al menos una pareja 11k ≠ 11k’

Para averiguar cuáles son los tiempos que difieren entre sí, pueden usarse las
comparaciones por pares o los contrastes, ilustrados en los ejemplos 1 y 2.

3. CONSIDERACIONES FINALES

Los anexos 1, 2 y 3 incluyen las rutinas con la información básica para reproducir los
tres ejemplos propuestos. Esta información comprende el paso DATA, con todas las
observaciones, y los procedimientos MIXED que permiten obtener los análisis de
varianza ajustados con base en cada una de las tres estructuras de covarianza
ilustradas. Se anexa también un disco compacto con las correspondientes rutinas en
formato digital (Medidas Repetidas.sas).

Para ejecutar sólo alguna sección de tal rutina, deberá resaltarse con el ratón o
manteniendo presionada la tecla Shift mientras se realiza el desplazamiento por el
texto. Una vez seleccionada la sección deseada, se presiona la tecla F3 o se hace
clic sobre el ícono Submit, que está identificado con la silueta de una persona
corriendo .

Se incluye sólo la parte básica de cada ejemplo, con el ánimo de que las rutinas
incluidas sirvan de plantilla para el análisis de los datos del usuario. Una vez leído
este documento será fácil realizar las correspondientes adecuaciones.

Las comparaciones de medias deberán plantearse aunando toda la información


disponible, esto es, los resultados del análisis de varianza, las gráficas que se
construyan y, desde luego, la información inicial que motivó la realización del estudio.

Como ya se ilustró en los diferentes ejemplos, las comparaciones de medias se


realizan mediante la inclusión de órdenes LSMEANS y ESTIMATE, según sea el caso,
con las opciones que sean requeridas. Cada uno de éstas órdenes puede usarse
tantas veces como sea necesario, y pueden ocupar cualquier posición entre las
instrucciones MODEL y RUN.

Aunque la elección de un buen modelo para las estructuras de covarianzas no


constituye un fin, mientras más adecuado sea el modelo seleccionado, más
confiables serán los resultados del análisis de varianza y sus correspondientes
pruebas de medias y, por tanto, las conclusiones obtenidas con base en éstos.
Correa, Guillermo — Análisis de Medidas Repetidas 33

4. REFERENCIAS BIBLIOGRÁFICAS

Diggle, Peter, J.; Kung—Yee Liang and Zeger, Scott L. Analysis of longitudinal data.
Clarendon Press. Oxford, 1994. ISBN 0198522843. 253 p.

Huynh, H. and Feldt, L. S. Conditions under which mean square ratios in repeated
measures designs have exact F—distributions. Journal of the American
Statistical Association. 1970. 65:1582—1589.

Kuehl, Robert O. Statistical Principles of Research Design and Analysis. Duxbury


Press. Belmont (California), 1994. 686 p.

Littell, R. C.; Henry, P. R. and Ammerman, C. B. Statistical Analysis of repeated


measures using SAS procedures. Journal of Animal Science. 1998. 76:
1216–1231.
Littell, Ramon C.; Milliken, George A.; Stroup, Walter W. and Wolfinger, Rusell D.
SAS® System for Mixed Models. SAS Institute. Cary (North Carolina, USA),
1996. 633 p.

Milliken, George A. and Johnson, Dallas E. Analysis of Messy Data. Volume I:


Designed Experiments. Van Nostrand Reinhold, New York, 1992. 473 p.

SAS Institute Inc. SAS OnlineDoc, Version 8. Cary (North Carolina, USA), 1999.
Versión electrónica.
5. ANEXOS
Correa, Guillermo — Análisis de Medidas Repetidas 35

ANEXO 1. Base de datos y rutinas básicas en SAS® correspondientes al Ejemplo 1.


DATA EJE1;
INPUT UE TTOS$ TIEMPO Y;
DATALINES;
1 A 1 10.5
2 A 1 9.8
3 A 1 10.6
4 A 1 10.0
1 B 1 9.7
2 B 1 9.3
3 B 1 10.9
4 B 1 10.2
1 C 1 10.2
2 C 1 10.0
3 C 1 9.1
4 C 1 9.7
1 D 1 9.3
2 D 1 10.4
3 D 1 10.3
4 D 1 10.0
1 E 1 10.2
2 E 1 10.1
3 E 1 10.3
4 E 1 10.4
1 A 2 10.9
2 A 2 10.6
3 A 2 11.0
4 A 2 10.3
1 B 2 10.2
2 B 2 9.8
3 B 2 11.1
4 B 2 10.7
1 C 2 10.8
2 C 2 10.6
3 C 2 9.3
4 C 2 9.8
1 D 2 10.1
2 D 2 11.2
3 D 2 11.3
4 D 2 11.1
1 E 2 10.9
2 E 2 10.6
3 E 2 10.7
4 E 2 11.5
1 A 3 20.0
2 A 3 19.9
3 A 3 21.1
4 A 3 20.7
1 B 3 21.3
2 B 3 22.7
3 B 3 21.3
4 B 3 20.4
1 C 3 11.2
Correa, Guillermo — Análisis de Medidas Repetidas 36

2 C 3 12.1
3 C 3 10.5
4 C 3 10.8
1 D 3 23.5
2 D 3 24.3
3 D 3 24.7
4 D 3 25.2
1 E 3 12.0
2 E 3 12.3
3 E 3 11.8
4 E 3 12.5
1 A 4 23.1
2 A 4 22.4
3 A 4 22.2
4 A 4 23.7
1 B 4 24.8
2 B 4 25.2
3 B 4 24.7
4 B 4 23.3
1 C 4 13.5
2 C 4 13.9
3 C 4 12.6
4 C 4 12.8
1 D 4 27.3
2 D 4 28.0
3 D 4 28.4
4 D 4 29.1
1 E 4 13.6
2 E 4 12.8
3 E 4 13.0
4 E 4 13.2
1 A 5 28.7
2 A 5 27.6
3 A 5 27.1
4 A 5 28.4
1 B 5 29.3
2 B 5 31.2
3 B 5 30.3
4 B 5 29.5
1 C 5 15.1
2 C 5 14.3
3 C 5 13.9
4 C 5 14.8
1 D 5 32.1
2 D 5 30.8
3 D 5 31.6
4 D 5 32.4
1 E 5 16.1
2 E 5 13.3
3 E 5 15.2
4 E 5 16.0
;
Correa, Guillermo — Análisis de Medidas Repetidas 37

/* Estructura simétrica compuesta */


PROC MIXED DATA=EJE1 ORDER=DATA NOITPRINT;
CLASS TTOS UE TIEMPO;
MODEL Y=TTOS TIEMPO TTOS*TIEMPO;
RANDOM UE(TTOS);
REPEATED TIEMPO/ SUB=UE(TTOS);
RUN;

/* Modelación no estructurada */
PROC MIXED DATA=EJE1 ORDER=DATA NOITPRINT;
CLASS TTOS UE TIEMPO;
MODEL Y=TTOS TIEMPO TTOS*TIEMPO;
RANDOM UE(TTOS);
REPEATED TIEMPO/ SUB=UE(TTOS) TYPE=UN;
RUN;

/* Estructura autorregresiva de primer orden */


PROC MIXED DATA=EJE1 ORDER=DATA NOITPRINT;
CLASS TTOS UE TIEMPO;
MODEL Y=TTOS TIEMPO TTOS*TIEMPO;
RANDOM UE(TTOS);
REPEATED TIEMPO/ SUB=UE(TTOS) TYPE=AR(1);
RUN;
Correa, Guillermo — Análisis de Medidas Repetidas 38

ANEXO 2. Base de datos y rutinas básicas en SAS® correspondientes al Ejemplo 2.


DATA EJE2;
INPUT B C$ S$ TTO$ TIEMPO Y;
DATALINES;
1 C1 S1 T1 24 17.98
2 C1 S1 T1 24 18.38
3 C1 S1 T1 24 18.13
1 C1 S1 T2 24 10.05
2 C1 S1 T2 24 9.12
3 C1 S1 T2 24 8.34
1 C1 S2 T1 24 9.15
2 C1 S2 T1 24 9.44
3 C1 S2 T1 24 9.61
1 C1 S2 T2 24 9.75
2 C1 S2 T2 24 9.77
3 C1 S2 T2 24 9.88
1 C2 S1 T1 24 12.58
2 C2 S1 T1 24 12.41
3 C2 S1 T1 24 12.24
1 C2 S1 T2 24 9.86
2 C2 S1 T2 24 9.29
3 C2 S1 T2 24 9.61
1 C2 S2 T1 24 9.79
2 C2 S2 T1 24 9.11
3 C2 S2 T1 24 9.25
1 C2 S2 T2 24 9.55
2 C2 S2 T2 24 9.84
3 C2 S2 T2 24 9.88
1 C1 S1 T1 48 21.66
2 C1 S1 T1 48 20.97
3 C1 S1 T1 48 21.14
1 C1 S1 T2 48 12.74
2 C1 S1 T2 48 12.35
3 C1 S1 T2 48 12.57
1 C1 S2 T1 48 12.51
2 C1 S2 T1 48 12.93
3 C1 S2 T1 48 12.38
1 C1 S2 T2 48 11.99
2 C1 S2 T2 48 11.78
3 C1 S2 T2 48 11.74
1 C2 S1 T1 48 15.64
2 C2 S1 T1 48 15.15
3 C2 S1 T1 48 14.83
1 C2 S1 T2 48 13.2
2 C2 S1 T2 48 13.48
3 C2 S1 T2 48 13.12
1 C2 S2 T1 48 13.75
2 C2 S2 T1 48 13.85
3 C2 S2 T1 48 14.08
1 C2 S2 T2 48 14.6
2 C2 S2 T2 48 13.99
3 C2 S2 T2 48 14.52
1 C1 S1 T1 72 23.77
Correa, Guillermo — Análisis de Medidas Repetidas 39

2 C1 S1 T1 72 20.48
3 C1 S1 T1 72 22.48
1 C1 S1 T2 72 13.01
2 C1 S1 T2 72 13.24
3 C1 S1 T2 72 12.97
1 C1 S2 T1 72 13.09
2 C1 S2 T1 72 13.18
3 C1 S2 T1 72 13.01
1 C1 S2 T2 72 12.26
2 C1 S2 T2 72 12.43
3 C1 S2 T2 72 12.3
1 C2 S1 T1 72 16.49
2 C2 S1 T1 72 16.12
3 C2 S1 T1 72 15.73
1 C2 S1 T2 72 11.98
2 C2 S1 T2 72 15.73
3 C2 S1 T2 72 13.15
1 C2 S2 T1 72 13.89
2 C2 S2 T1 72 14.1
3 C2 S2 T1 72 13.81
1 C2 S2 T2 72 14.35
2 C2 S2 T2 72 13.76
3 C2 S2 T2 72 14.91
;

/* Estructura simétrica compuesta */


PROC MIXED DATA=EJE2 ORDER=DATA NOITPRINT;
CLASS B C S TTO TIEMPO;
MODEL Y=B C|S|TTO|TIEMPO;
RANDOM B(C*S*TTO);
REPEATED TIEMPO/ SUB=B (C*S*TTO);
RUN;

/* Modelación no estructurada */
PROC MIXED DATA=EJE2 ORDER=DATA NOITPRINT;
CLASS B C S TTO TIEMPO;
MODEL Y = B C|S|TTO|TIEMPO;
RANDOM B(C*S*TTO);
REPEATED TIEMPO/ SUB=B (C*S*TTO) TYPE=UN;
RUN;

/* Estructura autorregresiva de primer orden */


PROC MIXED DATA=EJE2 ORDER=DATA NOITPRINT;
CLASS B C S TTO TIEMPO;
MODEL Y=B C|S|TTO|TIEMPO;
RANDOM B(C*S*TTO);
REPEATED TIEMPO/ SUB=B(C*S*TTO) TYPE=AR(1);
RUN;
Correa, Guillermo — Análisis de Medidas Repetidas 40

ANEXO 3. Base de datos y rutinas básicas en SAS® correspondientes al Ejemplo 3.


DATA EJE3;
INPUT TIEMPO BLOQUES$ A$ B$ Y;
DATALINES;
6 I a1 b1 5.8
6 II a1 b1 8.3
6 III a1 b1 6.7
12 I a1 b1 12.3
12 II a1 b1 10.3
12 III a1 b1 8.1
18 I a1 b1 9.9
18 II a1 b1 10.8
18 III a1 b1 9.3
24 I a1 b1 13.4
24 II a1 b1 11.8
24 III a1 b1 12.2
6 I a1 b2 3.9
6 II a1 b2 5.3
6 III a1 b2 5.7
12 I a1 b2 32.4
12 II a1 b2 37.1
12 III a1 b2 35.2
18 I a1 b2 36.8
18 II a1 b2 37.6
18 III a1 b2 37.9
24 I a1 b2 38.1
24 II a1 b2 36.3
24 III a1 b2 34
6 I a2 b1 10.8
6 II a2 b1 11.1
6 III a2 b1 8.4
12 I a2 b1 27.7
12 II a2 b1 26.6
12 III a2 b1 21.2
18 I a2 b1 32.2
18 II a2 b1 31.6
18 III a2 b1 27.6
24 I a2 b1 33.5
24 II a2 b1 31.1
24 III a2 b1 33.9
6 I a2 b2 10.2
6 II a2 b2 12.9
6 III a2 b2 7.8
12 I a2 b2 21.3
12 II a2 b2 25.7
12 III a2 b2 22.6
18 I a2 b2 34.3
18 II a2 b2 31.9
18 III a2 b2 32.6
24 I a2 b2 34.8
24 II a2 b2 35.6
24 III a2 b2 33.8
6 I a3 b1 11.1
Correa, Guillermo — Análisis de Medidas Repetidas 41

6 II a3 b1 13.3
6 III a3 b1 7.6
12 I a3 b1 38
12 II a3 b1 36.1
12 III a3 b1 32.4
18 I a3 b1 39.9
18 II a3 b1 35.6
18 III a3 b1 36.1
24 I a3 b1 34.4
24 II a3 b1 35.6
24 III a3 b1 35.5
6 I a3 b2 10.3
6 II a3 b2 12.6
6 III a3 b2 9.1
12 I a3 b2 31.3
12 II a3 b2 36.6
12 III a3 b2 37.4
18 I a3 b2 37.1
18 II a3 b2 36.6
18 III a3 b2 35.8
24 I a3 b2 41.3
24 II a3 b2 38.7
24 III a3 b2 40.8
;

/* Estructura simétrica compuesta */


PROC MIXED DATA=EJE3 ORDER=DATA NOITPRINT;
CLASS TIEMPO BLOQUES A B;
MODEL Y=A|B|TIEMPO/DDFM=SATTERTH;
RANDOM BLOQUES BLOQUES(A) BLOQUES(A*B);
REPEATED TIEMPO/SUB=BLOQUES(A*B);
RUN;

/* Modelación no estructurada */
PROC MIXED DATA=EJE3 ORDER=DATA NOITPRINT;
CLASS TIEMPO BLOQUES A B;
MODEL Y=A|B|TIEMPO/DDFM=SATTERTH;
RANDOM BLOQUES BLOQUES(A) BLOQUES(A*B);
REPEATED TIEMPO/SUB=BLOQUES(A*B) TYPE=UN;
LSMEANS A*B*TIEMPO/SLICE=A*B;
RUN;

/* Estructura autorregresiva de primer orden */


PROC MIXED DATA=EJE3 ORDER=DATA NOITPRINT;
CLASS TIEMPO BLOQUES A B;
MODEL Y=A|B|TIEMPO/DDFM=SATTERTH;
RANDOM BLOQUES BLOQUES(A) BLOQUES(A*B);
REPEATED TIEMPO/SUB=BLOQUES(A*B) TYPE=AR(1);
RUN;