Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANOVA Multifactorial PDF
ANOVA Multifactorial PDF
4/d/yyyy
ANOVA Multifactorial
Resumen
El procedimiento ANOVA Multifactorial está diseñado para construir un modelo estadístico
describiendo el impacto de dos o más factores categóricos Xj de una variable dependiente Y. Se
realizan pruebas para determinar si hay o no diferencias significativas entre las medias a
diferentes niveles de los factores y si hay o no interacciones entre los factores. Además, los datos
pueden desplegarse gráficamente de varias maneras, incluyendo un gráfico múltiple de
dispersión, una gráfica de medias y una gráfica de interacciones.
Este procedimiento está diseñado para experimentos relativamente simples, tales como
experimentos factoriales con efectos fijos. El procedimiento Modelos Lineales Generales debe
ser usado para situaciones más complicadas.
Datos de Muestra:
El archivo stresstest.sf6 contiene datos de una prueba de estrés de n = 36 individuos, reportado
por Kutner et al. (1996). En el estudio, cada uno realizó sus ejercicios diarios y se registró el
número de minutos requeridos para alcanzar un nivel predefinido de estrés. La tabla de abajo
muestra una lista parcial de datos en ese archivo:
Entrada de Datos
Los datos consisten en una sola columna que contiene mediciones y múltiples columnas
indicando los niveles de los factores experimentales.
Gráfico de Dispersión
El panel Gráfico de Dispersión grafica por niveles los datos de un nivel seleccionado.
40
30
minutes
20
10
0
high low
body fat
Si hay muchas variables comunes, tal vez deseé agregar a la gráfica una pequeña cantidad de
jitter horizontal presionando el botón Jitter en la barra de herramientas análisis:
Esto compensa cada punto aleatoriamente en dirección horizontal de tal forma que valores
idénticos no se grafican uno encima del otro.
40
30
minutes
20
10
0
high low
body fat
La gráfica anterior sugiere que hay tres diferencias entre individuos con alta grasa corporal e
individuos con baja grasa corporal.
Panel de Opciones
Tabla ANOVA
Para determinar si los factores tienen o no un efecto significativo en la variable dependiente, se
realiza un análisis de varianza. Los resultados son desplegados en la Tabla ANOVA:
Los F-radios son de particular importancia así como sus P-Valores asociados. P-Valores
pequeños (menores que 0.05 si se opera a un nivel de significancia del 5%) corresponden a
efectos significativos.
En este ejemplo, todos los efectos principales son estadísticamente significativos como los es
también la interacción entre factores A y C (grasa corporal y fumador).
Panel de Opciones
El cuadro de diálogo Panel de Opciones controla cómo se calculan las F-pruebas:
• Suma de Cuadrados: el tipo de descomposición usada para calcular las sumas de cuadrados
en la tabla ANOVA. La selección por defecto es Tipo III, que cuantifica el incremento del
© 2006 por StatPoint, Inc. ANOVA Multifactorial - 5
STATGRAPHICS – Rev. 4/d/yyyy
error en la suma de cuadrados que ocurriría si cada efecto se removiese del análisis, dado que
todos los otros efectos permanecen. En contraste, la suma de cuadrados Tipo I representa la
reducción en el error de suma de cuadrados que ocurre cuando cada variable es añadida al
modelo, en el orden mostrado en la tabla ANOVA. En un experimento balanceado (un
experimento con igual número de observaciones de todas las combinaciones de factores) tal
como en este ejemplo, ambos tipos de sumas de cuadrados arrojan resultados idénticos. En
casos no balanceados, habrá diferencia. Tipo III es por defecto pues cuantifica la
contribución marginal de cada efecto dado que todos los demás efectos han sido computados.
Opciones de Análisis
El cuadro de diálogo Opciones de Análisis especifica las interacciones a incluirse en el análisis.
• Máximo Orden de Interacción: número máximo de factores para los que se estimará una
interacción.
• Excluir: Presione este botón para quitar del análisis una o más interacciones.
Haciendo doble clic en cualquier interacción, esta puede moverse de derecha a izquierda o
viceversa. Cualquier interacción especificada en el campo Excluir no será estimada.
Luego de remover los dos efectos insignificantes de los datos de las pruebas de estrés, la tabla
de arriba muestra los efectos remanentes:
Gráfica ANOVA
La Gráfica ANOVA, desarrollada por Hunter (2005), es una técnica para desplegar gráficamente
la importancia de cada factor en el análisis. Es una gráfica de efectos escalados de cada factor,
donde el “efecto” de un factor es igual a la diferencia entre la media de mínimos cuadrados para
ν R ni
(1)
νT n
donde νR es los grados de libertad residuales, νT es los grados de libertad del efecto principal del
factor, ni es igual al número de observaciones en el i-ésimo nivel del factor, y n es el número
promedio de observaciones a todos los niveles del factor. Esto escala los efectos de tal forma que
la varianza natural de los puntos en el diagrama es comparable a la de los residuales, los cuales
son desplegados debajo de la gráfica.
female male
gender P = 0.0000
high low
body fat P = 0.0000
Residuos
-24 -14 -4 6 16 26
En la parte derecha del display están los P-Valores de los efectos principales, tomados de la tabla
ANOVA.
Comparando la variabilidad entre los efectos del tratamiento en la gráfica anterior y los
residuales, es fácil ver que todos los factores muestran diferencias de una magnitud mayor que la
que podría atribuirse solamente a error experimental. Dependiendo de la localización relativa de
los efectos, podría ser posible en algunos casos identificar visualmente qué niveles son diferentes
significativamente de qué otros, lo cual se hace formalmente con las Pruebas de Rangos
Múltiples descrita a continuación.
* indica una
diferencia significativa.
La mitad de arriba de la tabla despliega cada uno de los estimadores medios de mínimos
cuadrados en orden creciente de magnitud. Muestra:
La segunda mitad de la tabla despliega una comparación entre cada par de medias de nivel.
Panel de Opciones
• LSD - forma un intervalo de confianza para cada par de medias al nivel de confianza
seleccionado, usando la distribución t de Student. Este procedimiento se le atribuye a
© 2006 por StatPoint, Inc. ANOVA Multifactorial - 10
STATGRAPHICS – Rev. 4/d/yyyy
Fisher y se conoce como el procedimiento Diferencia Menos Significativa, pues la
magnitud de los límites indica la menor diferencia entre dos medias cualesquiera que
puedan representar una diferencia estadísticamente significativa. Sólo debe usarse cuando
la F-prueba de la tabla ANOVA indique diferencias significativas entre las medias
muestrales
• Tukey HSD – ensancha los intervalos para permitir comparaciones múltiples entre todos
los pares de medias usando la t de Tukey. Tukey llamó a su procedimiento el de
Diferencia Honestamente Significativa ya que controla la tasa de error experimental a α.
Si todas las medias son iguales, la probabilidad de declarar a cualquiera de los pares
como significativamente diferentes en todo el experimento es igual a α. El procedimiento
de Tukey es más conservador que el procedimiento LSD de Fisher, pues hace más difícil
declarar cualquier par particular de medias como significativamente diferentes.
• Scheffe – diseñado para permitir la estimación de todos los posibles contrastes entre las
medias muestrales (no solo en comparaciones por pares). Usa una múltiple relacionada
con la distribución F. En esta instancia, es probable que el procedimiento sea muy
conservador, pues sólo se están estimando pares.
Esto sólo debe usarse cuando la F-prueba en la tabla ANOVA indique diferencias significativas
entre las medias muestrales. La probabilidad de hacer un error Tipo I α aplica a cada par de
medias de manera separada. Si se hace más de una comparación, la probabilidad total de llamar
al menos a un par de medias significativamente diferentes cuando no lo son puede ser
considerablemente mayor que α.
Tabla de Medias
Esta tabla despliega las medias de mínimos cuadrados para cada nivel de los factores y para
pares de niveles de cualquier interacción bifactorial incluida. Cada media se muestra junto a su
error estimado estándar y un intervalo de confianza:
Tabla de Medias por Mínimos Cuadrados para minutos con intervalos de confianza del 95.0 %
Error Límite Límite
Nivel Casos Media Est. Inferior Superior
MEDIA GLOBAL 36 19.1389
grasa corporal
alta 18 14.7222 0.698361 13.2939 16.1505
baja 18 23.5556 0.698361 22.1272 24.9839
sexo
femenino 18 16.7222 0.698361 15.2939 18.1505
masculino 18 21.5556 0.698361 20.1272 22.9839
fumador
pesado 12 15.6667 0.855314 13.9174 17.416
ligero 12 18.5833 0.855314 16.834 20.3326
ninguno 12 23.1667 0.855314 21.4174 24.916
grasa corporal por
fumador
alta,pesado 6 14.1667 1.2096 11.6928 16.6406
alta,ligero 6 14.1667 1.2096 11.6928 16.6406
alta,ninguno 6 15.8333 1.2096 13.3594 18.3072
baja,pesado 6 17.1667 1.2096 14.6928 19.6406
baja,ligero 6 23.0 1.2096 20.5261 25.4739
baja,ninguno 6 30.5 1.2096 28.0261 32.9739
Panel de Opciones
25
23
21
minutes
19
17
15
13
high low
body fat
Si todos los tamaños de muestra son los mismos (o cercanos), el analista puede determinar cuáles
medias son significativamente diferentes de cuáles otras usando los procedimientos LSD, Tukey,
Scheffe o Bonferroni simplemente viendo si un par de intervalos se traslapan en dirección
vertical o no. Un par de intervalos que no se traslapan indica una diferencia estadísticamente
significativa entre las medias al nivel de confianza seleccionado.
En este caso, note que el intervalo para alta grasa corporal no se traslapa con el intervalo de baja
grasa corporal, indicando una diferencia estadísticamente significativa entre las medias a esos
dos niveles.
Panel de Opciones
• Intervalos LSD – diseñados para comparar cualquier par de medias con el nivel de
confianza establecido.
• Intervalos HSD Tukey – diseñados para comparar todos los pares de medias. El nivel de
confianza establecido aplica para toda la familia de comparaciones par a par.
• Intervalos Scheffe – diseñados para comparar todos los contrastes. No son muy
relevantes aquí.
Gráfica de Interacción
Cuando existan una o más interacciones significativas, deben examinarse juntas usando la
Gráfica de Interacción.
Gráfico de Interacciones
32 body fat
high
29 low
26
minutes
23
20
17
14
heavy light none
smoking
La gráfica de interacción despliega las medias por mínimos cuadrados en todas las
combinaciones de dos factores. Si los factores no interactúan, las líneas en la gráfica deben ser
aproximadamente paralelas. Si no, entonces el efecto de un factor depende del nivel de otro, que
es la definición de interacción.
Note que el efecto de fumador es mucho mayor en individuos con baja grasa corporal que en
aquellos con alta grasa corporal.
Panel de Opciones
• Graficar en Ejes – el factor de la interacción seleccionada que será utilizada para definir el
eje horizontal. Líneas separadas se retirarán de cada nivel del otro factor.
35 smoking
heavy
31 light
none
27
minutes
23
19
15
11
high low
body fat
Grupo 2: individuos ligero-fumador, baja grasa corporal, cuyos tiempos en la prueba son
menores que los del Grupo 1, pero significativamente mayores que los de otros.
Grupo 3: los demás. Note que todos sus intervalos se traslapan, indicando que no hay
diferencias estadísticamente significativas entre los individuos restantes.
Gráficas de Residuales
Como en todo modelo estadístico, es una buena costumbre examinar los residuales. Los
residuales son iguales a los datos observados menos los valores predichos por el modelo
estadístico subyacente.
5
residuos
-1
-4
-7
heavy light none
smoking
Panel de Opciones
5
residuos
-1
-4
-7
0 10 20 30 40
predichos
2
residuos
-1
-4
-7
0 10 20 30 40
número de fila
Si los datos se arreglan en orden cronológico, cualquier patrón de los datos puede indicar una
influencia exterior. No es evidente ningún patrón así en la gráfica de arriba.
1. Recuentos por Nivel – el número de observaciones a cada nivel de los factores y a cada
par de factores.
2. Medias por Nivel – la respuesta media a cada nivel de factores y a cada par de factores.
3. Errores Estándar por Nivel – el error estándar a cada nivel de factores.
4. Medias de Mínimos Cuadrados – la media por mínimos cuadrados a cada nivel de
factores.
5. Residuos – los n residuales.
Cálculos
Modelo Estadístico
Para ajustar un modelo a los datos, STATGRAPHICS construye una matriz de n por p de
variables X independientes. La matriz incluye:
• Variables indicatrices para cada factor. Para un factor con k niveles, k – 1 variables
indicatrices se construyen. La j-ésima variable indicadora para un factor contiene el valor 1
para cada observación igual al j-ésimo nivel del factor, -1 para cada observación igual al k-
ésimo nivel y 0 para cualquier otro caso.
• Productos – cruz de las variables indicadoras y las columnas covariadas para representar
cualquier interacción.
β̂ = ( X ′X ) −1 X ′Y (2)
Yˆp = X ′p ( X ′X ) −1 X ′Y (3)