Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Existen muchas situaciones en las que deseamos estudiar una respuesta (Y, variable
dependiente) en función de uno o más tratamientos (factor/es) y de una o más variables x
(regresores). Es decir, nos interesa combinar en el mismo modelo un ANOVA y una
regresión.
data dietas;
input dieta pesoinic pesofin;
datalines;
1 5.0 17.0
1 7.0 21.0
1 5.0 18.0
1 4.0 11.0
1 3.0 6.0
1 6.0 23.0
2 7.0 24.0
2 7.0 26.0
2 8.0 23.0
2 6.0 23.0
2 5.0 18.0
2 9.0 30.0
3 5.0 20.0
3 4.0 13.0
3 3.0 14.0
3 7.0 22.0
3 6.0 23.0
3 5.0 16.0
4 10.0 30.0
4 9.0 28.0
4 8.0 22.0
4 7.0 20.0
4 11.0 31.0
4 9.0 25.0
proc gplot;
plot pesofin*pesoinic=dieta;
El modelo que estamos usando es el descripto anteriormente, que en este ejemplo es:
Animales de la dieta 1: Y1 j 1 x1 j 1 j
Animales de la dieta 2: Y2 j 2 x2 j 2 j
Animales de la dieta 3: Y3 j 3 x3 j 3 j
Animales de la dieta 4: Y4 j 4 x4 j 4 j
Podemos ver que en cada caso el modelo corresponde a una línea recta con intercepto
diferente i y la misma pendiente . Es decir, tenemos líneas paralelas. Si
graficamos estos datos podemos ver que el modelo es razonable:
Para comparar las medias de las distintas dietas vemos que tenemos dos opciones:
comparamos cada media de Y sin tener en cuenta las x, o comparamos las medias de Y
estimadas en cierto valor común de x. La primera opción es lo que haríamos si usamos un
modelo sin la covariable, y podríamos tener el problema que la dieta que tenía los
animales más pesados nos daría mayores pesos finales no porque fuese mejor sino porque
el azar hizo que tuviera los animales de mayor peso inicial (En el ejemplo la dieta 4 tenía
los animales más pesados inicialmente, y sus pesos finales también estuvieron entre los
más altos).
Una comparación más razonable es aquella que compara las dietas a un nivel común de x
(por ejemplo en x x ). Esta comparación la realiza una prueba “parcial” (tipo III), ya
que compara algunos efectos en el modelo “ajustando” por todos los otros términos del
modelo (en este caso la covariable). ¿Cómo calculamos el valor de media de Y cuando
x x ? Para eso usamos la fórmula de regresión, reemplazando x por x :
proc glm;
class dieta;
model pesofin = dieta pesoinic / solution ss3;
lsmeans dieta;
La opción “solution” del comando “model” nos da los estimadores de los parámetros del
modelo y la opción “ss3” nos muestra sólo las pruebas de tipo III (parciales).
dieta 4 1234
dieta 4 0.000000000 B . . .
Note: The X'X matrix has been found to be singular, and a generalized inverse was used to solve
the normal equations. Terms whose estimates are followed by the letter 'B' are not uniquely
estimable.
1 20.5750000 1
2 22.4750000 2
3 22.5750000 3
4 18.3750000 4
i/j 1 2 3 4
Note: To ensure overall protection level, only probabilities associated with pre-planned
comparisons should be used.
Least Squares Means at pesoinic=6
1 19.0500000
2 20.9500000
3 21.0500000
4 16.8500000
Los supuestos que hacemos son los de todo modelo lineal (independencia de errores,
normalidad de errores y homogeneidad de las varianzas de los errores), además de los
específicos del modelo de regresión usado (validez del modelo de líneas rectas paralelas).
Para verificar los primeros supuestos usamos los residuales como siempre, y para
verificar el supuesto de paralelismo podemos probar la hipótesis de no interacción entre
los tratamientos y la covariable:
H 0 : Yij i xij ij
H a : Yij i xij i xij ij
Aquí vemos que si la hipótesis nula es falsa, entonces tenemos un modelo con líneas
rectas con pendientes diferentes para cada tratamiento:
Animales de la dieta 1: Y1 j 1 1 x1 j 1 j
Animales de la dieta 2: Y2 j 2 2 x2 j 2 j
Animales de la dieta 3: Y3 j 3 3 x3 j 3 j
Animales de la dieta 4: Y4 j 4 4 x4 j 4 j
Para hacer esto en SAS simplemente ajustamos un modelo con interacción, y probamos la
significancia de ésta (prueba de tipo III):
proc glm;
class dieta;
model pesofin = dieta pesoinic dieta*pesoinic;
run;
Dependent Variable: pesofin
El ejemplo que hemos visto era bastante simple: un factor, una covariable y un diseño
completamente aleatorizado. La extensión a casos más complejos es directa: podemos
tener más de un factor, podemos tener más de una covariable y podemos tener términos
polinomiales en una covariable. Además podemos tener cualquier diseño experimental
(bloques, cuadrado latino, parcela dividida, etc.).