Está en la página 1de 7

Análisis de covarianza

Existen muchas situaciones en las que deseamos estudiar una respuesta (Y, variable
dependiente) en función de uno o más tratamientos (factor/es) y de una o más variables x
(regresores). Es decir, nos interesa combinar en el mismo modelo un ANOVA y una
regresión.

En el análisis de covarianza tenemos tres objectivos importantes:


1. Comparar las medias de Y para cada tratamiento en un valor común de x.
2. Comparar la reclación entre la Y y la x en cada tratamiento.
3. Aumentar la precisión (disminuir el CME).

El modelo para datos provenientes de un DCA con una covariable es


Yij     i   xij   ij
En este modelo  i representa el efecto del tratamiento i para un valor dado de x y  es el
incremento promedio de las Y de un tratamiento específico cuando x aumenta en una
unidad. Observar que la interpretación de los parámetros es análoga a la que hicimos en
regresión múltiple. Los supuestos que realizamos acerca de los  ij son los mismos que
realizamos en modelos de ANOVA y regresión: independencia, normalidad y
homogeneidad de varianzas. Además, como en todo modelo de regresión, requerimos que
el modelo sea el correcto. En particular necesitamos asumir que la relación entre las Y y
las x es lineal, que la pendiente  es la misma en todos los tratamientos (es decir, no
existe interacción entre la covariable y el tratamiento) y que los tratamientos no afectan a
la covariable. Para las pruebas de hipótesis vamos a usar, como siempre hacemos en
regresión múltiple, las pruebas de tipo III.

Consideremos el siguiente ejemplo. Se estudia el efecto de cuatro dietas sobre el peso


final de cerdos, y se registra el peso inicial de los mismos. Se usaron 6 animales por dieta,
en un DCA.

data dietas;
input dieta pesoinic pesofin;
datalines;
1 5.0 17.0
1 7.0 21.0
1 5.0 18.0
1 4.0 11.0
1 3.0 6.0
1 6.0 23.0
2 7.0 24.0
2 7.0 26.0
2 8.0 23.0
2 6.0 23.0
2 5.0 18.0
2 9.0 30.0
3 5.0 20.0
3 4.0 13.0
3 3.0 14.0
3 7.0 22.0
3 6.0 23.0
3 5.0 16.0
4 10.0 30.0
4 9.0 28.0
4 8.0 22.0
4 7.0 20.0
4 11.0 31.0
4 9.0 25.0
proc gplot;
plot pesofin*pesoinic=dieta;

El modelo que estamos usando es el descripto anteriormente, que en este ejemplo es:

Animales de la dieta 1: Y1 j     1    x1 j  1 j
Animales de la dieta 2: Y2 j      2    x2 j   2 j
Animales de la dieta 3: Y3 j      3    x3 j   3 j
Animales de la dieta 4: Y4 j      4    x4 j   4 j

Podemos ver que en cada caso el modelo corresponde a una línea recta con intercepto
diferente     i  y la misma pendiente    . Es decir, tenemos líneas paralelas. Si
graficamos estos datos podemos ver que el modelo es razonable:
Para comparar las medias de las distintas dietas vemos que tenemos dos opciones:
comparamos cada media de Y sin tener en cuenta las x, o comparamos las medias de Y
estimadas en cierto valor común de x. La primera opción es lo que haríamos si usamos un
modelo sin la covariable, y podríamos tener el problema que la dieta que tenía los
animales más pesados nos daría mayores pesos finales no porque fuese mejor sino porque
el azar hizo que tuviera los animales de mayor peso inicial (En el ejemplo la dieta 4 tenía
los animales más pesados inicialmente, y sus pesos finales también estuvieron entre los
más altos).

Una comparación más razonable es aquella que compara las dietas a un nivel común de x
(por ejemplo en x  x ). Esta comparación la realiza una prueba “parcial” (tipo III), ya
que compara algunos efectos en el modelo “ajustando” por todos los otros términos del
modelo (en este caso la covariable). ¿Cómo calculamos el valor de media de Y cuando
x  x ? Para eso usamos la fórmula de regresión, reemplazando x por x :

Animales de la dieta 1: Yˆ1   ˆ  ˆ1   ˆ x


Animales de la dieta 2: Yˆ   ˆ  ˆ   ˆ x
2 2

Animales de la dieta 3: Yˆ3   ˆ  ˆ 3   ˆ x


Animales de la dieta 4: Yˆ4   ˆ  ˆ 4   ˆ x
Éstas son las “medias ajustadas”, que en SAS se denominan “least squares means”. La
prueba de tipo III prueba la igualdad de medias ajustadas, o lo que es lo mismo, la
igualdad de los  i . Debemos observar que debido a que las líneas son paralelas, da lo
mismo comparar en x  x o en cualquier otro valor de x: siempre estaremos comparando
igualdad de  i (se puede probar que en x  x se logra la prueba más eficiente).

Otra prueba de interés es la relacionada a la regresión lineal: H 0 :   0 (es decir, nos


interesa saber si la covariable explica parte de la variabilidad de la Y en un modelo que
tiene los efectos de tratamiento). La prueba para esto también es la prueba parcial (tipo
III) para la covariable.

Para ajustar este modelo en SAS simplemente escribimos la variable tratamiento en


“class” y las variables tratamiento y covariable en el “model”:

proc glm;
class dieta;
model pesofin = dieta pesoinic / solution ss3;
lsmeans dieta;

La opción “solution” del comando “model” nos da los estimadores de los parámetros del
modelo y la opción “ss3” nos muestra sólo las pruebas de tipo III (parciales).

Class Level Information

Class Levels Values

dieta 4 1234

Dependent Variable: pesofin

Source DF Sum of Squares Mean Square F Value Pr > F

Model 4 780.1000000 195.0250000 37.85 <.0001

Error 19 97.9000000 5.1526316

Corrected Total 23 878.0000000

Source DF Type III SS Mean Square F Value Pr > F

dieta 3 51.0056604 17.0018868 3.30 0.0427

pesoinic 1 372.1000000 372.1000000 72.22 <.0001


Parameter Estimate Standard Error t Value Pr > |t|

Intercept -1.450000000 B 3.36048373 -0.43 0.6710

dieta 1 2.200000000 B 1.94386123 1.13 0.2718

dieta 2 4.100000000 B 1.49425802 2.74 0.0129

dieta 3 4.200000000 B 1.94386123 2.16 0.0437

dieta 4 0.000000000 B . . .

pesoinic 3.050000000 0.35890917 8.50 <.0001

Note: The X'X matrix has been found to be singular, and a generalized inverse was used to solve
the normal equations. Terms whose estimates are followed by the letter 'B' are not uniquely
estimable.

Least Squares Means


dieta pesofin LSMEAN LSMEAN Number

1 20.5750000 1

2 22.4750000 2

3 22.5750000 3

4 18.3750000 4

Least Squares Means for effect dieta


Pr > |t| for H0: LSMean(i)=LSMean(j)
Dependent Variable: pesofin

i/j 1 2 3 4

1 0.2189 0.1435 0.2718

2 0.2189 0.9473 0.0129

3 0.1435 0.9473 0.0437

4 0.2718 0.0129 0.0437

Note: To ensure overall protection level, only probabilities associated with pre-planned
comparisons should be used.
Least Squares Means at pesoinic=6

dieta pesofin LSMEAN

1 19.0500000

2 20.9500000

3 21.0500000

4 16.8500000

Los supuestos que hacemos son los de todo modelo lineal (independencia de errores,
normalidad de errores y homogeneidad de las varianzas de los errores), además de los
específicos del modelo de regresión usado (validez del modelo de líneas rectas paralelas).
Para verificar los primeros supuestos usamos los residuales como siempre, y para
verificar el supuesto de paralelismo podemos probar la hipótesis de no interacción entre
los tratamientos y la covariable:
H 0 : Yij     i   xij   ij
H a : Yij     i   xij   i xij   ij

Aquí vemos que si la hipótesis nula es falsa, entonces tenemos un modelo con líneas
rectas con pendientes diferentes para cada tratamiento:

Animales de la dieta 1: Y1 j     1       1  x1 j  1 j
Animales de la dieta 2: Y2 j      2       2  x2 j   2 j
Animales de la dieta 3: Y3 j      3       3  x3 j   3 j
Animales de la dieta 4: Y4 j      4       4  x4 j   4 j

Para hacer esto en SAS simplemente ajustamos un modelo con interacción, y probamos la
significancia de ésta (prueba de tipo III):

proc glm;
class dieta;
model pesofin = dieta pesoinic dieta*pesoinic;
run;
Dependent Variable: pesofin

Source DF Sum of Squares Mean Square F Value Pr > F

Model 7 799.6000000 114.2285714 23.31 <.0001

Error 16 78.4000000 4.9000000

Corrected Total 23 878.0000000

R-Square Coeff Var Root MSE pesofin Mean

0.910706 10.54093 2.213594 21.00000

Source DF Type I SS Mean Square F Value Pr > F

dieta 3 408.0000000 136.0000000 27.76 <.0001

pesoinic 1 372.1000000 372.1000000 75.94 <.0001

pesoinic*dieta 3 19.5000000 6.5000000 1.33 0.3006

Source DF Type III SS Mean Square F Value Pr > F

dieta 3 27.5204410 9.1734803 1.87 0.1750

pesoinic 1 372.1000000 372.1000000 75.94 <.0001

pesoinic*dieta 3 19.5000000 6.5000000 1.33 0.3006

El ejemplo que hemos visto era bastante simple: un factor, una covariable y un diseño
completamente aleatorizado. La extensión a casos más complejos es directa: podemos
tener más de un factor, podemos tener más de una covariable y podemos tener términos
polinomiales en una covariable. Además podemos tener cualquier diseño experimental
(bloques, cuadrado latino, parcela dividida, etc.).

También podría gustarte