Está en la página 1de 34

Diseo de experimentos y

anlisis de varianza
CAPTULO 12

ANLISIS DE LA
VARIANZA CON UN
FACTOR (ANOVA)

El anlisis de la varianza permite contrastar la hiptesis


nula de que las medias de K poblaciones (K >2) son
iguales, frente a la hiptesis alternativa de que por lo
menos una de las poblaciones difiere de las dems en
cuanto a su valor esperado. Este contraste es
fundamental en el anlisis de resultados experimentales,
en los que interesa comparar los resultados de K
'tratamientos' o 'factores' con respecto a la variable
dependiente o de inters.

El Anova requiere el cumplimiento los siguientes supuestos:


Las poblaciones (distribuciones de probabilidad de la variable
dependiente correspondiente a cada factor) son normales.
Las K muestras sobre las que se aplican los tratamientos son
independientes.
Las poblaciones tienen todas igual varianza (homoscedasticidad).
El ANOVA se basa en la descomposicin de la variacin total de los
datos con respecto a la media global (SCT), que bajo el supuesto de
que H0 es cierta es una estimacin de
obtenida a partir de toda la
informacin muestral, en dos partes:
Variacin dentro de las muestras (SCD) o Intra-grupos, cuantifica la
dispersin de los valores de cada muestra con respecto a sus
correspondientes medias.
Variacin entre muestras (SCE) o Inter-grupos, cuantifica la dispersin
de las medias de las muestras con respecto a la media global.

Las expresiones para el clculo de los elementos que


intervienen en el Anova son las siguientes:

Media Global:
Variacin Total:
Variacin Intra-grupos:
Variacin Inter-grupos:
Siendo xij el i-simo valor de la muestra j-sima; nj el tamao de
dicha muestra y
su media.

.Cuando la hiptesis nula es cierta SCE/K-1 y SCD/n-K son


dos estimadores insesgados de la varianza poblacional y
el cociente entre ambos se distribuye segn una F de
Snedecor con K-1 grados de libertad en el numerador y
N-K grados de libertad en el denominador. Por lo tanto, si
H0 es cierta es de esperar que el cociente entre ambas
estimaciones ser aproximadamente igual a 1, de forma
que se rechazar H0 si dicho cociente difiere
significativamente de 1.
La secuencia para realizar un ANOVA es:
Analizar
Comparar medias
ANOVA de un factor

Ejemplo
Sea desea comparar dos tratamientos para reducir el nivel de colesterol en la
sangre. Se seleccionan 20 individuos y se asignan al azar a dos tipos de dietas
A y B. La tabla muestra la reduccin conseguida despus de dos meses.
A B
51,3 29,6
39,4 47,0
26,3 25,9
39,0 13,0
48,1 33,1
34,2 22,1
69,8 34,1
31,3 19,5
45,2 43,8
46,4 24,9

. Intervalos de confianza de 95%

IC para
IC para
Distribucin relacin de
relacin de
de los datos
Desv.Est.
varianza
Normal
(0.579, 2.333) (0.336, 5.443)
Continuo
(0.440, 2.529) (0.194, 6.397)
Pruebas

Estadstica
Mtodo
GL1 GL2 de prueba Valor P
Prueba F (normal)
9 9
1.35 0.661
Prueba de Levene (cualquiera continua) 1 18
0.07 0.787

Grfica de intervalos de A, B

95% IC para deviaciones estndar

22.5
20.0
17.5
15.0
12.5
10.0
7.5
5.0
A

En Minitab Se abre el siguiente cuadro de dilogo:

Se selecciona la variable que se considera Dependiente y la


variable Factor y con el botn Opciones se activan Estadsticos
Descriptivos y Homogeneidad de varianzas.

Al aceptar en el visor de resultados aparecen los siguientes cuadros:


Descriptivos. Recoge la media, la desviacin tpica, el intervalo de confianza del
95% (por defecto) para la media correspondientes a la variable dependiente
para cada uno de los grupos definidos por el factor.
Prueba de homogeneidad de varianzas. Contiene el valor del estadstico de
Levene del contraste de la hiptesis de homoscedasticidad con el nivel de
significacin crtico.
ANOVA. Contiene las sumas de cuadrados inter-grupos, intra-grupos y total, sus
correspondientes grados de libertad y el valor del estadstico de prueba F junto
con el nivel de significacin crtico.

Como complemento grfico de este anlisis, para


obtener una primera aproximacin acerca de si es
razonable o no la hiptesis nula, se selecciona Grficos >
Barras de error y se activa la opcin Simple. Con el botn
Definir se abre el siguiente cuadro de dilogo:

Se selecciona en Variable la variable dependiente del


ANOVA y en el Eje de categoras la variable factor. El
intervalo de confianza
para la media se calcula por defecto al 95% de confianza.
Al aceptar aparece en el visor de resultados los puntos
que respresentan a la media de cada grupo junto con los
lmites del correspondiente intervalo de confianza para la
media poblacional. Si los puntos que representan las
medias estn desigualmente distribuidos en el grfico se
tiene un indicio de que a nivel poblacional no puede
sostenerse la hiptesis de igualdad de medias; es decir,
por lo menos uno de los niveles del factor influye
significativamente sobre la variable dependiente.

Anlisis doble de la varianza 2 factores


Usaremos el anlisis doble de la varianza para estudiar los
posibles efectos causados por diferentes niveles de dos factores sobre
la variable dependiente. As, por ejemplo, en agricultura estaremos
interesados en estudiar qu efectos tendrn, sobre el crecimiento de
las patatas, variaciones en los niveles de potasio y nitrgeno de la
tierra; en medicina, estaremos interesados en estudiar los efectos,
sobre el dolor de cabeza, del medicamento y de la dosis empleados;
en educacin, buscaremos conocer qu efectos, sobre el tiempo
necesario para adquirir unos conocimientos, tendrn los factores nivel
de estudios y sexo; en una campaa de marketing, estaremos
interesados en conocer los efectos del presupuesto y del medio usado
(televisin, revistas, ...) sobre las ventas; etc.
Usaremos ANOVA doble para contrastar, para cada uno de los dos
factores, la hiptesis nula de que el resultado de la variable
dependiente (crecimiento de patatas, intensidad del dolor de cabeza,
tiempo en adquirir conocimientos, ventas, etc.) no depende del factor.

Modelo aditivo (sin interaccin)


Un aspecto al que debemos prestar especial atencin es el nivel de
interaccin entre ambos factores; es decir, el efecto que cada uno
de los factores tiene sobre el otro. As, por ejemplo, en la campaa de
marketing citada anteriormente, el incremento en las ventas debido a
un aumento del presupuesto podra ser el mismo independientemente
del medio usado, o bien podra variar dependiendo del medio usado.
En este ltimo caso deberamos estudiar tambin la interaccin entre
los factores presupuesto y medio. Para ello usaremos los llamados
modelos con interaccin.
Este modelo supone que la variacin total de los datos puede
descomponerse de la siguiente forma:
(Variacin total en los datos) = (Variacin debida al primer factor) +
(Variacin debida al segundo factor) + (Variacin debida a la
interaccin entre factores) + (Variacin debida al error aleatorio)

CASOS PRCTICOS CON SOFTWARE

Inflamabilidad de pijamas
La inflamabilidad de los pijamas para nios ha sido un
tema de preocupacin constante durante las ltimas
dcadas. Hoy en da, hay toda una serie de controles de
seguridad que garantizan que las telas con que se
fabrican los pijamas no sean fcilmente inflamables.
Tras seleccionar un determinado fabricante de pijamas y 5
laboratorios diferentes, hemos enviado a cada laboratorio
11 prendas de dicho fabricante. La idea es que en cada
laboratorio se les aplique un test de inflamabilidad. Los
resultados (expresados en un determinado ndice de
inflamabilidad) se muestran a continuacin:

Nuestro objetivo ser determinar si las medias


obtenidas por cada laboratorio son aproximadamente
iguales (es decir, pretendemos saber si hay o no
diferencias significativas entre los laboratorios a la hora
de determinar la capacidad de inflamacin de una
determinada
prenda).
Stat Anova One-way (Unstacked)...
Le pediremos al programa que nos aplique la tcnica
ANOVA simple y, adems, que nos represente un
diagrama de puntos y un boxplot de los datos.

En las dos siguientes grficas, podemos observar la


variacin dentro de cada grupo (laboratorio) y la
variacin entre diferentes grupos (laboratorios). La
pregunta que habra que responder es: resulta la
variacin entre diferentes grupos significativamente
mayor que la variacin existente dentro de los grupos?
Notar que el laboratorio 4 parece tener ndices
mayoritariamente bajos, mientras que los grupos 2 y 5
presentan ndices bastante mayores.

Dotplots of LAB 1 - LAB 5


(group means are indicated by lines)

EJ.- Conduccin de vehculos


A continuacin se muestran los datos obtenidos en un
experimento en el que se comprobaron las habilidades
de dos grupos de conductores, los inexpertos y los
expertos. Doce conductores de cada grupo tomaron
parte en el experimento. Se usaron tres tipos de
carreteras: autopista, nacional y comarcal. Mediante un
proceso aleatorio, se asignaron a cada tipo de carretera
cuatro conductores expertos y cuatro inexpertos. Cada
conductor estuvo al volante durante 2 kilmetros, en los
cuales se registraron los siguientes errores de
conduccin cometidos:

Row CONDUCTOR
TIPO CARRETERA
1 Inexperto Autopista 4
2 Inexperto Autopista 18
3 Inexperto Autopista 8
4 Inexperto Autopista 10
5 Experto Autopista 6
6 Experto Autopista 4
7 Experto Autopista 13
8 Experto Autopista 7
9 Inexperto Nacional 23
10 Inexperto Nacional 15
11 Inexperto Nacional 21
12 Inexperto Nacional 13
13 Experto Nacional 2
14 Experto Nacional 6
15 Experto Nacional 8
16 Experto Nacional 12
17 Inexperto Comarcal 16
18 Inexperto Comarcal 27
19 Inexperto Comarcal 23
20 Inexperto Comarcal 14
21 Experto Comarcal 20
22 Experto Comarcal 15
23 Experto Comarcal 8
24 Experto Comarcal 17

ERRORES

.
Plantearemos un ANOVA doble para contrastar, para
cada uno de los dos factores, la hiptesis nula de que el
nmero de errores de conduccin cometidos no
depende del factor; utilizaremos el modelo aditivo.
Stat Anova Balanced Anova...

Anlisis de la varianza (ANOVA)

Analysis of Variance (Balanced Designs)


Factor Type
Levels Values
CONDUCTO fixed 2 Experto Inexperto
TIPO CAR fixed 3 Autopista Comarcal Nacional
Analysis of Variance for ERRORES
Source DF SS
MS F
P
CONDUCTO 1 228,17 228,17 8,56 0,008
TIPO CAR 2 308,33 154,17 5,78 0,010
Error 20 533,33 26,67
Total
23 1069,83

En el output anterior, cabe destacar los p-valores


asociados a cada factor. En este caso, ambos son
bastante pequeos (y, por tanto, significativos), por lo
que deberemos rechazar las hiptesis nulas asociadas a
cada factor; es decir, los datos demuestran que tanto el
tipo de carretera como la experiencia del conductor son
factores que influyen decisivamente en el nmero de
errores de conduccin cometidos.

Calidad en pastelera
Se ha llevado a cabo un experimento para determinar los
efectos de dos ingredientes, harina y azcar (factores),
sobre la calidad final de un pastel.
Hay cuatro niveles para la cantidad empleada de harina
(0%, 10%, 20% y 30%), y dos niveles para la cantidad
empleada de azcar (1 = con azcar, y 0 = sin azcar).
Para cada una de las 8 posibles combinaciones, se
elaboraron 3 pasteles.
Cada uno de los 24 pasteles fue calificado por el mismo
experto con una nota entre 3 (flojo) y 6 (excelente). A
continuacin se muestran los resultados:

Row HARINA AZCAR CALIF.


1 0 0 4,4
2 0 0 4,5
3 0 0 4,3
4 0 1 3,3
5 0 1 3,2
6 0 1 3,1
7 10 0 4,6
8 10 0 4,5
9 10 0 4,8
10 10 1 3,8
11 10 1 3,7
12 10 1 3,6
13 20 0 4,5
14 20 0 4,8
15 20 0 4,8
16 20 1 5,0
17 20 1 5,3
18 20 1 4,8
19 30 0 4,6
20 30 0 4,7
21 30 0 5,1
22 30 1 5,4
23 30 1 5,6
24 30 1 5,3

Anlisis de la varianza (ANOVA)

En primer lugar, mostraremos en forma tabular las


medias asociadas a cada una de las 8 combinaciones
posibles. Ello nos permitir saber si hay o no interaccin
entre ambos factores:

Stat Tables Cross Tabulation...

Analicemos el efecto promedio de cada factor:

La calidad de los pasteles parece incrementarse conforme lo


hace el nivel de harina empleado: los seis pasteles elaborados
para el nivel 0% tienen una calidad media de 3,8; los seis
elaborados para el nivel 10% muestran una calidad media de
4,2; los elaborados para el nivel 20% tienen una calidad media
de 4,9; y los elaborados para el nivel 30% muestran una
calidad media de 5,1.
- Por lo que se refiere al azcar, no parece haber mucha
diferencia entre los valores promedio obtenidos: la calidad
media para los 12 pasteles elaborados sin azcar (4,6) es slo
ligeramente superior a la cantidad media de los otros 12 (4,3).

Graph Plot...

Aplicaremos ahora la tcnica ANOVA usando un modelo con interaccin.


Stat --- > ANOVA --- > Balanced Anova

Analicemos los resultados de los tres contrastes (H01: el factor harina no


influye sobre la calidad del pastel, H02: el factor azcar no influye sobre
la calidad del pastel, H03: no hay interaccin entre ambos factores):
Lo primero es comprobar si existe interaccin, puesto que en tal caso
deberemos interpretar con cautela los resultados de los otros tests. En
este caso p-valor = 0,000. Por tanto, hay fuertes evidencias de la
existencia de interaccin entre ambos factores.
Obtenemos tambin p-valores significativos en los otros dos contrastes;
es decir, tanto el nivel de harina como el nivel de azcar son
determinantes para la calidad esperada de un pastel. Notar que la
calidad media de un pastel sin azcar (4,6333) es mayor que la calidad
media de un pastel con azcar (4,3417). Esto es consistente con el
resultado de nuestro test. Sin embargo, segn hemos observado
anteriormente, el uso del azcar tiende a aumentar la calidad media
para niveles altos de harina, y viceversa. En general, siempre que haya
interaccin entre los factores convendr hacer un anlisis detallado que
vaya ms all del pvalor obtenido en el contraste.