Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Conferencia 14
Conferencia 14
Existen muchas situaciones en las que deseamos estudiar una respuesta (Y, variable
dependiente) en funcin de uno o ms tratamientos (factor/es) y de una o ms variables x
(regresores). Es decir, nos interesa combinar en el mismo modelo un ANOVA y una
regresin.
En el anlisis de covarianza tenemos tres objectivos importantes:
1. Comparar las medias de Y para cada tratamiento en un valor comn de x.
2. Comparar la reclacin entre la Y y la x en cada tratamiento.
3. Aumentar la precisin (disminuir el CME).
El modelo para datos provenientes de un DCA con una covariable es
Yij i xij ij
En este modelo i representa el efecto del tratamiento i para un valor dado de x y es el
incremento promedio de las Y de un tratamiento especfico cuando x aumenta en una
unidad. Observar que la interpretacin de los parmetros es anloga a la que hicimos en
regresin mltiple. Los supuestos que realizamos acerca de los ij son los mismos que
realizamos en modelos de ANOVA y regresin: independencia, normalidad y
homogeneidad de varianzas. Adems, como en todo modelo de regresin, requerimos que
el modelo sea el correcto. En particular necesitamos asumir que la relacin entre las Y y
las x es lineal, que la pendiente es la misma en todos los tratamientos (es decir, no
existe interaccin entre la covariable y el tratamiento) y que los tratamientos no afectan a
la covariable. Para las pruebas de hiptesis vamos a usar, como siempre hacemos en
regresin mltiple, las pruebas de tipo III.
Consideremos el siguiente ejemplo. Se estudia el efecto de cuatro dietas sobre el peso
final de cerdos, y se registra el peso inicial de los mismos. Se usaron 6 animales por dieta,
en un DCA.
data dietas;
input dieta pesoinic pesofin;
datalines;
1 5.0 17.0
1 7.0 21.0
1 5.0 18.0
1 4.0 11.0
1 3.0 6.0
1 6.0 23.0
2 7.0 24.0
2 7.0 26.0
2 8.0 23.0
2 6.0 23.0
2 5.0 18.0
2 9.0 30.0
3
3
3
3
3
3
4
4
4
4
4
4
5.0
4.0
3.0
7.0
6.0
5.0
10.0
9.0
8.0
7.0
11.0
9.0
20.0
13.0
14.0
22.0
23.0
16.0
30.0
28.0
22.0
20.0
31.0
25.0
proc gplot;
plot pesofin*pesoinic=dieta;
El modelo que estamos usando es el descripto anteriormente, que en este ejemplo es:
Animales de la dieta 1:
Animales de la dieta 2:
Animales de la dieta 3:
Animales de la dieta 4:
Y1 j 1 x1 j 1 j
Y2 j 2 x2 j 2 j
Y3 j 3 x3 j 3 j
Y4 j 4 x4 j 4 j
Podemos ver que en cada caso el modelo corresponde a una lnea recta con intercepto
diferente i y la misma pendiente . Es decir, tenemos lneas paralelas. Si
graficamos estos datos podemos ver que el modelo es razonable:
Para comparar las medias de las distintas dietas vemos que tenemos dos opciones:
comparamos cada media de Y sin tener en cuenta las x, o comparamos las medias de Y
estimadas en cierto valor comn de x. La primera opcin es lo que haramos si usamos un
modelo sin la covariable, y podramos tener el problema que la dieta que tena los
animales ms pesados nos dara mayores pesos finales no porque fuese mejor sino porque
el azar hizo que tuviera los animales de mayor peso inicial (En el ejemplo la dieta 4 tena
los animales ms pesados inicialmente, y sus pesos finales tambin estuvieron entre los
ms altos).
Una comparacin ms razonable es aquella que compara las dietas a un nivel comn de x
(por ejemplo en x x ). Esta comparacin la realiza una prueba parcial (tipo III), ya
que compara algunos efectos en el modelo ajustando por todos los otros trminos del
modelo (en este caso la covariable). Cmo calculamos el valor de media de Y cuando
x x ? Para eso usamos la frmula de regresin, reemplazando x por x :
Animales de la dieta 1:
Animales de la dieta 2:
Animales de la dieta 3:
Animales de la dieta 4:
Y1 1 x
Y x
2
Y3 3 x
Y4 4 x
stas son las medias ajustadas, que en SAS se denominan least squares means. La
prueba de tipo III prueba la igualdad de medias ajustadas, o lo que es lo mismo, la
igualdad de los i . Debemos observar que debido a que las lneas son paralelas, da lo
mismo comparar en x x o en cualquier otro valor de x: siempre estaremos comparando
igualdad de i (se puede probar que en x x se logra la prueba ms eficiente).
Otra prueba de inters es la relacionada a la regresin lineal: H 0 : 0 (es decir, nos
interesa saber si la covariable explica parte de la variabilidad de la Y en un modelo que
tiene los efectos de tratamiento). La prueba para esto tambin es la prueba parcial (tipo
III) para la covariable.
Para ajustar este modelo en SAS simplemente escribimos la variable tratamiento en
class y las variables tratamiento y covariable en el model:
proc glm;
class dieta;
model pesofin = dieta pesoinic / solution ss3;
lsmeans dieta;
La opcin solution del comando model nos da los estimadores de los parmetros del
modelo y la opcin ss3 nos muestra slo las pruebas de tipo III (parciales).
Class Level Information
Class
Levels
Values
dieta
1234
DF
Sum of Squares
Mean Square
F Value
Model
780.1000000
195.0250000
37.85
Error
19
97.9000000
5.1526316
Corrected Total
23
878.0000000
Source
DF
Type III SS
Mean Square
F Value
Pr > F
<.0001
Pr > F
dieta
51.0056604
17.0018868
3.30
0.0427
pesoinic
372.1000000
372.1000000
72.22
<.0001
Parameter
Estimate
Standard Error
t Value
Pr > |t|
Intercept
-1.450000000
3.36048373
-0.43
0.6710
dieta 1
2.200000000
1.94386123
1.13
0.2718
dieta 2
4.100000000
1.49425802
2.74
0.0129
dieta 3
4.200000000
1.94386123
2.16
0.0437
dieta 4
0.000000000
pesoinic
3.050000000
0.35890917
8.50
<.0001
Note: The X'X matrix has been found to be singular, and a generalized inverse was used to solve
the normal equations. Terms whose estimates are followed by the letter 'B' are not uniquely
estimable.
Least Squares Means
dieta
pesofin LSMEAN
LSMEAN Number
20.5750000
22.4750000
22.5750000
18.3750000
0.2189
0.1435
0.2718
0.9473
0.0129
0.2189
0.1435
0.9473
0.2718
0.0129
0.0437
0.0437
Note: To ensure overall protection level, only probabilities associated with pre-planned
comparisons should be used.
pesofin LSMEAN
19.0500000
20.9500000
21.0500000
16.8500000
Los supuestos que hacemos son los de todo modelo lineal (independencia de errores,
normalidad de errores y homogeneidad de las varianzas de los errores), adems de los
especficos del modelo de regresin usado (validez del modelo de lneas rectas paralelas).
Para verificar los primeros supuestos usamos los residuales como siempre, y para
verificar el supuesto de paralelismo podemos probar la hiptesis de no interaccin entre
los tratamientos y la covariable:
H 0 : Yij i xij ij
H a : Yij i xij i xij ij
Aqu vemos que si la hiptesis nula es falsa, entonces tenemos un modelo con lneas
rectas con pendientes diferentes para cada tratamiento:
Animales de la dieta 1:
Animales de la dieta 2:
Animales de la dieta 3:
Animales de la dieta 4:
Y1 j 1 1 x1 j 1 j
Y2 j 2 2 x2 j 2 j
Y3 j 3 3 x3 j 3 j
Y4 j 4 4 x4 j 4 j
Para hacer esto en SAS simplemente ajustamos un modelo con interaccin, y probamos la
significancia de sta (prueba de tipo III):
proc glm;
class dieta;
model pesofin = dieta pesoinic dieta*pesoinic;
run;
DF
Sum of Squares
Mean Square
F Value
Model
799.6000000
114.2285714
23.31
Error
16
78.4000000
4.9000000
Corrected Total
23
878.0000000
R-Square
Coeff Var
Root MSE
pesofin Mean
0.910706
10.54093
2.213594
21.00000
Source
DF
Type I SS
Mean Square
F Value
Pr > F
<.0001
Pr > F
dieta
408.0000000
136.0000000
27.76
<.0001
pesoinic
372.1000000
372.1000000
75.94
<.0001
pesoinic*dieta
19.5000000
6.5000000
1.33
0.3006
Mean Square
F Value
Source
DF
Type III SS
Pr > F
dieta
27.5204410
9.1734803
1.87
0.1750
pesoinic
372.1000000
372.1000000
75.94
<.0001
pesoinic*dieta
19.5000000
6.5000000
1.33
0.3006
El ejemplo que hemos visto era bastante simple: un factor, una covariable y un diseo
completamente aleatorizado. La extensin a casos ms complejos es directa: podemos
tener ms de un factor, podemos tener ms de una covariable y podemos tener trminos
polinomiales en una covariable. Adems podemos tener cualquier diseo experimental
(bloques, cuadrado latino, parcela dividida, etc.).