Está en la página 1de 18

Anlisis de la varianza (ANOVA)

ANLISIS DE LA VARIANZA (ANOVA)


Autores: Manuel Terrdez (mterradez@uoc.edu), ngel A. Juan (ajuanp@uoc.edu)

ESQUEMA DE CONTENIDOS

________________________

Anlisis de la varianza
(ANOVA)

ANOVA doble
(Two-ways)

ANOVA simple
(One-way)

Modelo sin interaccin


Modelo aditivo
(sin interaccin)

INTRODUCCIN

___________________

Usaremos el anlisis de la varianza (ANOVA) para contrastar la hiptesis nula de que las
medias de distintas poblaciones coinciden. Por ejemplo, en el caso de 5 poblaciones, el
contraste a realizar sera:
HO : 1 = 2 = ... = 5

vs.

HA : no todas las medias poblacionales son iguales

En math-block EST-I16 se estudia cmo se utiliza la distribucin t-Student (o la Normal) para


contrastar la hiptesis nula de que dos medias poblacionales coinciden. Usando esta tcnica,
podramos realizar los siguientes 10 tests para contrastar la hiptesis nula anterior:
H01: 1 = 2
H02: 2 = 3
H03: 3 = 4
H04: 4 = 5
H05: 1 = 3

H06: 2 = 4
H07: 3 = 5
H08: 1 = 4
H09: 2 = 5
H010: 1 = 5

En este caso, rechazar cualquiera de las 10 hiptesis nulas implicara rechazar la hiptesis nula
inicial de que las cinco medias coinciden. Por el contrario, si no rechazsemos ninguna de las 10
hiptesis, tampoco rechazaramos la hiptesis inicial. El problema de este mtodo es doble: (1)
por un lado, se requiere de un mayor esfuerzo computacional, y (2) por otro, al hacer un mayor
nmero de contrastes aumenta el error de tipo I (la probabilidad de rechazar la hiptesis nula
siendo sta cierta). El uso de las tcnicas ANOVA nos permiten eludir ambos problemas.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA)

OBJETIVOS

________________________

Entender qu es y por qu es importante un contraste de hiptesis.

Saber distinguir en qu situaciones es til realizar un anlisis de la varianza.

Conocer pautas para elegir el modelo ms adecuado para nuestro problema.

Saber aplicar el ANOVA, con ayuda de Minitab.

Interpretar los distintos valores que aparecen en una tabla ANOVA.

Dar respuesta al problema del contraste de hiptesis planteado.

CONOCIMIENTOS PREVIOS

___________________________________

Aparte de estar iniciado en el uso del paquete estadstico Minitab, resulta muy conveniente haber
ledo con profundidad los siguientes math-blocks:

Estadstica descriptiva.

Intervalos de confianza y contraste de hiptesis para 1 poblacin.

Intervalos de confianza y contraste de hiptesis sobre 2 poblaciones.

Muestreo en poblaciones finitas.

CONCEPTOS FUNDAMENTALES

______________________________

Anlisis simple de la varianza (One-Way ANOVA)


El objetivo principal de muchos experimentos consiste en determinar el efecto que sobre
alguna variable dependiente Y tienen distintos niveles de algn factor X (variable
independiente y discreta). El factor puede ser la temperatura, la empresa que ha producido el
bien, el da de la semana, etc.
Esencialmente, el diseo para el anlisis simple de la varianza consistir en obtener muestras
aleatorias e independientes del valor de Y asociado a cada uno de los distintos niveles del
factor X1, X2,..., Xn . Entonces podremos determinar si los diferentes niveles del factor tienen
un efecto significativo sobre el valor de la variable dependiente.
El funcionamiento de la tcnica ANOVA simple es, a grandes rasgos, el siguiente: a fin de
comparar las medias de Y asociadas a los distintos niveles del factor (X1, X2,..., Xn),
compararemos una medida de la variacin entre diferentes niveles (MS-factor) con una
medida de la variacin dentro de cada nivel (MS-error). Si el MS-factor es
significativamente mayor que el MS-error, concluiremos que las medias asociadas a
diferentes niveles del factor son distintas. Esto significa que el factor influye significativamente
sobre la variable dependiente Y. Si, por el contrario, el MS-factor no es significativamente
mayor que el MS-error, no rechazaremos la hiptesis nula de que todas las medias,
asociadas a diferentes niveles del factor, coinciden.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA)


Supuestos
De forma similar a lo que ocurre con la regresin lineal, aqu tambin hay un modelo para los
datos. El modelo asociado al i-simo nivel del factor X ser:
Y = i +
donde:

Los errores estn normalmente distribuidos con media 0


Los errores son independientes
Los errores tienen varianza constante 2

Para verificar estos supuestos suele ser til realizar un grfico que muestre la distribucin de
las observaciones por niveles: si en el grfico se aprecian diferencias entre niveles por lo que
a la variacin de las observaciones se refiere, es muy probable que tengamos un problema
con el supuesto de varianza constante; si aparecen outliers, puede que no se cumpla el
supuesto de normalidad; por otra parte, si el tiempo fuese un factor importante a la hora de
registrar observaciones, podra ocurrir que observaciones consecutivas estuviesen
correlacionadas, con lo que no se cumplira el supuesto de independencia.

Anlisis doble de la varianza (Two-Way ANOVA)


Usaremos el anlisis doble de la varianza para estudiar los posibles efectos causados por
diferentes niveles de dos factores sobre la variable dependiente. As, por ejemplo, en
agricultura estaremos interesados en estudiar qu efectos tendrn, sobre el crecimiento de
las patatas, variaciones en los niveles de potasio y nitrgeno de la tierra; en medicina,
estaremos interesados en estudiar los efectos, sobre el dolor de cabeza, del medicamento y
de la dosis empleados; en educacin, buscaremos conocer qu efectos, sobre el tiempo
necesario para adquirir unos conocimientos, tendrn los factores nivel de estudios y sexo; en
una campaa de marketing, estaremos interesados en conocer los efectos del presupuesto y
del medio usado (televisin, revistas, ...) sobre las ventas; etc.
Usaremos ANOVA doble para contrastar, para cada uno de los dos factores, la hiptesis nula
de que el resultado de la variable dependiente (crecimiento de patatas, intensidad del dolor
de cabeza, tiempo en adquirir conocimientos, ventas, etc.) no depende del factor.
Modelo aditivo (sin interaccin)
El modelo aditivo supone que la variacin total en los datos puede ser expresada como
suma de variaciones procedentes de fuentes diversas:
(Variacin total en los datos) = (Variacin debida al primer factor) + (Variacin debida al
segundo factor) + (Variacin debida al error aleatorio)
En el modelo anterior, si la variacin debida al primer factor fuese mucho mayor que la
variacin debida al error aleatorio, dispondramos de evidencia estadstica contra la hiptesis
nula de que los distintos niveles del primer factor tienen el mismo efecto sobre la variable
dependiente; de forma similar, si la variacin debida al segundo factor fuese mucho mayor
que la variacin debida al error aleatorio, deberamos rechazar la hiptesis nula de que la
variable dependiente no depende de los diversos niveles del segundo factor.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA)


Modelo con interaccin
Un aspecto al que debemos prestar especial atencin es el nivel de interaccin entre
ambos factores; es decir, el efecto que cada uno de los factores tiene sobre el otro. As, por
ejemplo, en la campaa de marketing citada anteriormente, el incremento en las ventas
debido a un aumento del presupuesto podra ser el mismo independientemente del medio
usado, o bien podra variar dependiendo del medio usado.
En este ltimo caso deberamos estudiar tambin la interaccin entre los factores
presupuesto y medio. Para ello usaremos los llamados modelos con interaccin.
Este modelo supone que la variacin total de los datos puede descomponerse de la siguiente
forma:
(Variacin total en los datos) = (Variacin debida al primer factor) + (Variacin debida al
segundo factor) + (Variacin debida a la interaccin entre factores) + (Variacin debida al
error aleatorio)

CASOS PRCTICOS CON SOFTWARE___________________________________


Inflamabilidad de pijamas
La inflamabilidad de los pijamas para nios ha sido un tema de preocupacin constante
durante las ltimas dcadas. Hoy en da, hay toda una serie de controles de seguridad que
garantizan que las telas con que se fabrican los pijamas no sean fcilmente inflamables.
Tras seleccionar un determinado fabricante de pijamas y 5 laboratorios diferentes, hemos
enviado a cada laboratorio 11 prendas de dicho fabricante. La idea es que en cada
laboratorio se les aplique un test de inflamabilidad. Los resultados (expresados en un
determinado ndice de inflamabilidad) se muestran a continuacin:

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA)


Nuestro objetivo ser determinar si las medias obtenidas por cada laboratorio son
aproximadamente iguales (es decir, pretendemos saber si hay o no diferencias significativas
entre los laboratorios a la hora de determinar la capacidad de inflamacin de una determinada
prenda).
Stat

Anova

One-way (Unstacked)...

Le pediremos al programa que nos aplique la tcnica ANOVA simple y, adems, que nos
represente un diagrama de puntos y un boxplot de los datos.

En las dos siguientes grficas, podemos observar la variacin dentro de cada grupo
(laboratorio) y la variacin entre diferentes grupos (laboratorios). La pregunta que habra
que responder es: resulta la variacin entre diferentes grupos significativamente mayor que
la variacin existente dentro de los grupos?
Notar que el laboratorio 4 parece tener ndices mayoritariamente bajos, mientras que los
grupos 2 y 5 presentan ndices bastante mayores.

Dotplots of LAB 1 - LAB 5


(group means are indicated by lines)

4,0

3,5

3,0

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

LAB 5

LAB 4

LAB 3

LAB 2

LAB 1

2,5

Anlisis de la varianza (ANOVA)


Boxplots of LAB 1 - LAB 5
(means are indicated by solid circles)
4,5

3,5

LAB 5

LAB 4

LAB 3

LAB 2

LAB 1

2,5

En el cuadro siguiente se presenta el output numrico del programa. La primera parte del
mismo es la llamada tabla ANOVA. Entre otros datos importantes (como los MS-factor y MSerror, el valor del estadstico de contraste F = (MS-factor)/(MS-error), los grados de libertad,
etc.), sta nos proporciona el p-valor del contraste anterior. En este caso, el p-valor = 0,003 y,
por tanto, rechazaremos la hiptesis nula de que todas las medias son iguales.
A partir del grfico que proporciona los intervalos de confianza (a un nivel del 95%) para la
media, parece obvio que, al menos, las medias procedentes de los laboratorios 4 (3,000) y 5
(3,6455) son significativamente diferentes:

One-way Analysis of Variance


Analysis of Variance
Source
DF
SS
Factor
4
2,987
Error
50
8,233
Total
54
11,219
Level
LAB 1
LAB 2
LAB 3
LAB 4
LAB 5

N
11
11
11
11
11

Pooled StDev =

Mean
3,3364
3,6000
3,3000
3,0000
3,6455
0,4058

MS
0,747
0,165

StDev
0,4523
0,4604
0,3715
0,2864
0,4321

F
4,53

P
0,003

Individual 95% CIs For Mean


Based on Pooled StDev
--+---------+---------+---------+---(------*------)
(------*------)
(------*------)
(------*------)
(------*------)
--+---------+---------+---------+---2,80
3,15
3,50
3,85

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA)

Conduccin de vehculos
A continuacin se muestran los datos obtenidos en un experimento en el que se comprobaron
las habilidades de dos grupos de conductores, los inexpertos y los expertos. Doce
conductores de cada grupo tomaron parte en el experimento. Se usaron tres tipos de
carreteras: autopista, nacional y comarcal. Mediante un proceso aleatorio, se asignaron a
cada tipo de carretera cuatro conductores expertos y cuatro inexpertos. Cada conductor
estuvo al volante durante 2 kilmetros, en los cuales se registraron los siguientes errores de
conduccin cometidos:
Row CONDUCTOR
1 Inexperto
2 Inexperto
3 Inexperto
4 Inexperto
5 Experto
6 Experto
7 Experto
8 Experto
9 Inexperto
10 Inexperto
11 Inexperto
12 Inexperto
13 Experto
14 Experto
15 Experto
16 Experto
17 Inexperto
18 Inexperto
19 Inexperto
20 Inexperto
21 Experto
22 Experto
23 Experto
24 Experto

TIPO CARRETERA
Autopista
Autopista
Autopista
Autopista
Autopista
Autopista
Autopista
Autopista
Nacional
Nacional
Nacional
Nacional
Nacional
Nacional
Nacional
Nacional
Comarcal
Comarcal
Comarcal
Comarcal
Comarcal
Comarcal
Comarcal
Comarcal

ERRORES
4
18
8
10
6
4
13
7
23
15
21
13
2
6
8
12
16
27
23
14
20
15
8
17

Plantearemos un ANOVA doble para contrastar, para cada uno de los dos factores, la
hiptesis nula de que el nmero de errores de conduccin cometidos no depende del factor;
utilizaremos el modelo aditivo.
Stat

Anova

Balanced Anova...

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA)


Analysis of Variance (Balanced Designs)
Factor
CONDUCTO
TIPO CAR

Type Levels Values


fixed
2
Experto Inexperto
fixed
3 Autopista Comarcal

Nacional

Analysis of Variance for ERRORES


Source
CONDUCTO
TIPO CAR
Error
Total

DF
1
2
20
23

SS
228,17
308,33
533,33
1069,83

MS
228,17
154,17
26,67

F
8,56
5,78

P
0,008
0,010

En el output anterior, cabe destacar los p-valores asociados a cada factor. En este caso,
ambos son bastante pequeos (y, por tanto, significativos), por lo que deberemos rechazar
las hiptesis nulas asociadas a cada factor; es decir, los datos demuestran que tanto el tipo
de carretera como la experiencia del conductor son factores que influyen decisivamente en el
nmero de errores de conduccin cometidos.

Calidad en pastelera
Se ha llevado a cabo un experimento para determinar los efectos de dos ingredientes, harina
y azcar (factores), sobre la calidad final de un pastel.
Hay cuatro niveles para la cantidad empleada de harina (0%, 10%, 20% y 30%), y dos niveles
para la cantidad empleada de azcar (1 = con azcar, y 0 = sin azcar). Para cada una de las
8 posibles combinaciones, se elaboraron 3 pasteles.
Cada uno de los 24 pasteles fue calificado por el mismo experto con una nota entre 3 (flojo) y
6 (excelente). A continuacin se muestran los resultados:
Row
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

HARINA
0
0
0
0
0
0
10
10
10
10
10
10
20
20
20
20
20
20
30
30
30
30
30
30

AZCAR
0
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1

CALIF.
4,4
4,5
4,3
3,3
3,2
3,1
4,6
4,5
4,8
3,8
3,7
3,6
4,5
4,8
4,8
5,0
5,3
4,8
4,6
4,7
5,1
5,4
5,6
5,3

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA)

En primer lugar, mostraremos en forma tabular las medias asociadas a cada una de las 8
combinaciones posibles. Ello nos permitir saber si hay o no interaccin entre ambos
factores:

Stat

Tables

Cross Tabulation...

Tabulated Statistics
Rows: HARINA

0
10
20
30
All

Columns: AZCAR

All

4,4000
4,6333
4,7000
4,8000
4,6333

3,2000
3,7000
5,0333
5,4333
4,3417

3,8000
4,1667
4,8667
5,1167
4,4875

Cell Contents -CALIF.:Mean

Analicemos el efecto promedio de cada factor:


-

La calidad de los pasteles parece incrementarse conforme lo hace el nivel de harina


empleado: los seis pasteles elaborados para el nivel 0% tienen una calidad media de 3,8;
los seis elaborados para el nivel 10% muestran una calidad media de 4,2; los elaborados
para el nivel 20% tienen una calidad media de 4,9; y los elaborados para el nivel 30%
muestran una calidad media de 5,1.

Por lo que se refiere al azcar, no parece haber mucha diferencia entre los valores
promedio obtenidos: la calidad media para los 12 pasteles elaborados sin azcar (4,6) es
slo ligeramente superior a la cantidad media de los otros 12 (4,3).

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA)


En el siguiente grfico se muestra la evolucin de la calidad media en funcin de la cantidad
de harina empleada (descompuesto por niveles del factor azcar.
Graph

Plot...

5,5

0
1

Calidad Media

5,0
4,5
4,0
3,5
3,0
0

10

20

30

Harina_

Segn se aprecia, el uso del azcar incrementa la calidad media de los pasteles cuando
estamos en los niveles superiores de harina (20% y 30%), mientras que ocurre todo lo
contrario para niveles bajos de harina (0% y 10%). Por tanto, que el azcar mejore o no la
calidad del pastel depender del nivel de harina que ste contenga. Esto significa que ambos
factores interactan. En general, si los factores no interactuasen las lneas del grfico anterior
seran (aproximadamente) paralelas.
Aplicaremos ahora la tcnica ANOVA usando un modelo con interaccin.
Stat

ANOVA

Balanced Anova

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Anlisis de la varianza (ANOVA)

Analysis of Variance (Balanced Designs)


Factor
HARINA
AZCAR

Type Levels Values


fixed
4
0
fixed
2
0

10
1

20

30

Analysis of Variance for CALIF.


Source
HARINA
AZCAR
HARINA*AZCAR
Error
Total

DF
3
1
3
16
23

SS
6,6912
0,5104
3,7246
0,4800
11,4063

MS
2,2304
0,5104
1,2415
0,0300

F
74,35
17,01
41,38

P
0,000
0,001
0,000

Analicemos los resultados de los tres contrastes (H01: el factor harina no influye sobre la
calidad del pastel, H02: el factor azcar no influye sobre la calidad del pastel, H03: no hay
interaccin entre ambos factores):
Lo primero es comprobar si existe interaccin, puesto que en tal caso deberemos interpretar
con cautela los resultados de los otros tests. En este caso p-valor = 0,000. Por tanto, hay
fuertes evidencias de la existencia de interaccin entre ambos factores.
Obtenemos tambin p-valores significativos en los otros dos contrastes; es decir, tanto el
nivel de harina como el nivel de azcar son determinantes para la calidad esperada de un
pastel. Notar que la calidad media de un pastel sin azcar (4,6333) es mayor que la calidad
media de un pastel con azcar (4,3417). Esto es consistente con el resultado de nuestro test.
Sin embargo, segn hemos observado anteriormente, el uso del azcar tiende a aumentar la
calidad media para niveles altos de harina, y viceversa. En general, siempre que haya
interaccin entre los factores convendr hacer un anlisis detallado que vaya ms all del pvalor obtenido en el contraste.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Anlisis de la varianza (ANOVA)

Educacin universitaria en la UE
En la siguiente tabla se muestran los ratios (%) de educacin universitaria por pases de la
Unin Europea (no se dispone de los datos de Luxemburgo), distribuidos por sexo y grupos
de edad. (Fuente: Informe "Retrato de los europeos", Eurostat, Ao 2002).
18-21 aos
H
BLGICA
DINAMARCA
ALEMANIA
GRECIA
ESPAA
FRANCIA
IRLANDA
ITALIA
HOLANDA
AUSTRIA
PORTUGAL
FINLANDIA
SUECIA
REINO UNIDO

22-24 aos
M

36
7
7
57
28
30
30
12
24
11
22
19
13
26

H
47
10
15
63
40
40
38
17
30
18
30
26
19
31

25-28 aos
M

21
23
20
9
26
22
12
19
25
20
17
37
25
11

H
20
33
20
8
30
25
12
27
22
20
23
42
30
12

M
6
17
15
3
10
5
4
12
8
14
8
21
14
6

5
21
11
3
9
7
5
14
6
12
10
22
16
7

En primer lugar, vamos a determinar si existen diferencias significativas de educacin


universitaria entre los dos sexos (sin tener en cuenta la edad), para lo cual utilizaremos un
modelo ANOVA simple.
Para ello, introducimos los datos en Minitab, en distintas columnas (ver archivo
universitarios.mtw)
Stat

Anova

One-way ...

Tomamos como variable respuesta % y como factor SEXO, y solicitamos los grficos de cajas
(tambin valen los diagramas de puntos).
El output del Minitab es el siguiente:
One-way Analysis of Variance
Analysis of Variance for %
Source
DF
SS
SEXO
1
247
Error
82
11711
Total
83
11958

MS
247
143

F
1,73

P
0,192

Individual 95% CIs For Mean


Level
H
M

N
42
42

Pooled StDev =

Mean
17,90
21,33
11,95

StDev
10,68
13,10

Based on Pooled StDev


---+---------+---------+---------+--(------------*-----------)
(-----------*-----------)
---+---------+---------+---------+--15,0
18,0
21,0
24,0

Mientras que el grfico resultantes es:

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Anlisis de la varianza (ANOVA)

Boxplots of % by SEXO
(means are indicated by solid circles)

60
50

40
30
20
10

SEXO

En los grficos se aprecia que las diferencias entre los dos sexos son mnimas, tanto en las
medias como en la variabilidad (en ambos casos mayor en las mujeres), y por tanto no
parecen significativas.
En la salida numrica se puede comprobar que el p-valor es 0,192, con lo cual no
rechazaramos la hiptesis nula para cualquier nivel de significacin razonable (por ejemplo,
=0,05). De hecho, los intervalos de confianza tienen bastantes valores comunes. Por tanto,
concluiramos que no existen diferencias estadsticamente significativas entre los sexos en
cuanto a los ratios de educacin universitaria en los pases europeos.
Supongamos que ahora queremos tener en cuenta tambin los grupos de edad, para
determinar si hay diferencias en los ratios de educacin universitaria entre los grupos de edad
y/o el sexo. Para ello, utilizaremos el modelo doble con interaccin.
En este caso tenemos un modelo con dos factores (sexo y edad) e interaccin, siendo la
variable respuesta, obviamente, %. En la variable edad, los grupos de edad se han
numerado: 1 (18-21 aos), 2 (22-24 aos), 3 (25-28 aos).
Antes de realizar el ANOVA vamos a presentar los datos de forma tabular para ver si
obtenemos alguna conclusin previa.
Stat

Tables

Cross Tabulation...

Tabulated Statistics
Rows: EDAD

1
2
3
All

Columns: SEXO
H

All

23,000
20,500
10,214
17,905

30,286
23,143
10,571
21,333

26,643
21,821
10,393
19,619

Cell Contents -%:Mean

Se puede observar que, a medida que aumenta la edad, los ratios decrecen sensiblemente
en los dos sexos, y adems las diferencias entre los sexos son menores (siempre a favor de
las mujeres).
Pasamos a realizar el ANOVA doble.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Anlisis de la varianza (ANOVA)


Stat

Anova

Two-way ...

Two-way Analysis of Variance


Analysis of Variance for %
Source
DF
SS
EDAD
2
3900,6
SEXO
1
246,9
Interaction
2
174,5
Error
78
7635,9
Total
83
11957,8

EDAD
1
2
3

Mean
26,6
21,8
10,4

SEXO
H
M

Mean
17,9
21,3

MS
1950,3
246,9
87,3
97,9

F
19,92
2,52
0,89

P
0,000
0,116
0,414

Individual 95% CI
---------+---------+---------+---------+-(-----*------)
(-----*------)
(-----*------)
---------+---------+---------+---------+-12,0
18,0
24,0
30,0
Individual 95% CI
-+---------+---------+---------+---------+
(------------*-----------)
(-----------*-----------)
-+---------+---------+---------+---------+
15,0
17,5
20,0
22,5
25,0

Basndonos en la salida anterior, podemos afirmar que no existe interaccin entre los dos
factores (p-valor=0,414).
As mismo, obtenemos un p-valor prcticamente nulo (0,000) para el factor edad, lo cual nos
indica que existen diferencias significativas entre los tres grupos, tal y como habamos
detectado en la tabla cruzada. Esto tambin se puede comprobar observando los intervalos
de confianza, ya que si bien entre los grupos 1 y 2 comparten muchos valores, ninguno de
ellos tiene interseccin con el intervalo del grupo 3.
Por otra parte, al igual que en el modelo de un factor, no existen evidencias de que el sexo
influya en los ratios de educacin, ya que el p-valor es 0,116>0,05.

Rapidez en la impresin
Estamos interesados en comparar la rapidez de dos modelos de impresoras (0 y 1). Para
realizar el experimento, medimos el tiempo de impresin (en segundos) de los dos modelos
sobre una serie de plantillas estndar.
Los resultados del experimento se muestran en el archivo impresoras.mtw. Los datos han
sido obtenidos despus de medir el tiempo de impresin (recogido en la variable puntuacin)
de las dos mquinas sobre una muestra de 80 plantillas de iguales caractersticas, es decir,
plantillas con similar dificultad de impresin.
Queremos determinar si existen diferencias significativas entre los dos tipos de impresoras.
Stat

Anova

One-way ...

Lgicamente, tomamos como variable respuesta puntuacin, y como factor impresora.


Solicitamos los diagramas de puntos y los grficos de cajas.
El output del Minitab es el siguiente:
One-way Analysis of Variance
Analysis of Variance for Puntuaci
Source
DF
SS
MS
Impresor
1
732,0
732,0
Error
78
7259,9
93,1
Total
79
7992,0

F
7,87

P
0,006

Individual 95% CIs For Mean


Based on Pooled StDev

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Anlisis de la varianza (ANOVA)


Level
0
1

N
40
40

Pooled StDev =

Mean
28,750
22,700
9,648

StDev
10,081
9,194

----+---------+---------+---------+-(--------*--------)
(--------*--------)
----+---------+---------+---------+-21,0
24,5
28,0
31,5

Mientras que los grficos resultantes son:

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Anlisis de la varianza (ANOVA)


En los grficos se aprecia que existen diferencias (el modelo 0 ofrece puntuaciones ms
altas) entre los modelos de impresora, aunque resulta difcil saber si son o no significativas.
En la salida numrica se puede comprobar que el p-valor es 0,006, con lo cual rechazaramos
la hiptesis nula al nivel de significacin habitual (=0,05). De hecho, los intervalos de
confianza son prcticamente disjuntos. Por tanto, concluiramos que existen diferencias
significativas entre las impresoras
Supongamos que ahora queremos tener en cuenta tambin en el experimento la calidad del
papel utilizado, ya que consideramos que puede influir en la rapidez de impresin.
Buscamos, pues, determinar si hay diferencias entre los tipos de impresoras y/o entre las
calidades en el papel utilizado, y si existe relacin entre el tipo de impresora y el tipo de papel
utilizado.
Consideraremos un modelo doble (factores: impresora y papel) con interaccin, siendo la
variable respuesta, obviamente, puntuacin.
Como en otras ocasiones, antes de realizar el ANOVA vamos a presentar los datos de forma
tabular para ver si obtenemos alguna conclusin previa:
Stat

Tables

Cross Tabulation...

Tabulated Statistics
Rows: Impresor

0
1
All

Columns: Papel

All

30,450
19,350
24,900

27,050
26,050
26,550

28,750
22,700
25,725

Cell Contents -Puntuaci:Mean

Se observa que las impresoras del modelo 0 siempre ofrecen valores mayores que las del
modelo 1, pero la diferencia es mucho ms acusada con papel de tipo 0 que con papel de tipo
1. Esto nos hace intuir que existe interaccin entre ambos factores.
Pasamos a realizar el ANOVA doble:
Stat

ANOVA

Two-way

Two-way Analysis of Variance


Analysis of Variance for Puntuaci
Source
DF
SS
MS
Impresor
1
732,0
732,0
Papel
1
54,4
54,4
Interaction
1
510,1
510,1
Error
76
6695,4
88,1
Total
79
7991,9
Impresor
0
1

Mean
28,8
22,7

Papel
0
1

Mean
24,9
26,6

F
8,31
0,62
5,79

P
0,005
0,434
0,019

Individual 95% CI
-----+---------+---------+---------+-----(---------*---------)
(---------*---------)
-----+---------+---------+---------+-----21,0
24,0
27,0
30,0
Individual 95% CI
-+---------+---------+---------+---------+
(--------------*-------------)
(--------------*--------------)
-+---------+---------+---------+---------+
22,0
24,0
26,0
28,0
30,0

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Anlisis de la varianza (ANOVA)


Basndonos en la salida anterior, podemos afirmar que existe interaccin entre los dos
factores (p-valor=0,019).
As mismo, obtenemos un p-valor muy pequeo (0,005) para el factor impresora, lo cual nos
indica que existen diferencias significativas entre ambos modelos de impresoras (intervalos
de confianza disjuntos).
Por otra parte, no existen evidencias de que el tipo de papel influya en la rapidez de la
impresin, ya que el p-valor es 0,434>0,05. Adems, los intervalos de confianza tienen una
interseccin de longitud muy amplia.
No obstante, el hecho de que exista interaccin entre ambos factores nos impide realizar las
afirmaciones anteriores con total rotundidad, ya que sera necesario un anlisis ms detallado
de los datos.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Anlisis de la varianza (ANOVA)

BIBLIOGRAFA

_________________________________________________________

[1]

Bar, J. y Alemany, R. (2000): Estadstica II. Ed. Fundaci per a la Universitat Oberta de
Catalunya. Barcelona.

[2]

Pea Snchez de Rivera, D. (1987): Estadstica. Modelos y Mtodos. Volumen 2. Alianza


Editorial. Madrid. ISBN: 84-206-8110-5

[3]

Johnson, R. R. (1996): Elementary statistics. Belmont, etc. : Duxbury, cop

[4]

Martn-Guzmn, P. (1991): Curso bsico de estadstica econmica. AC, DL. Madrid. ISBN:
84-7288-142-3

[5]

Wonnacott, Thomas H. (1997): "Introduccin a la estadstica". Limusa, Mxico.

[6]

Moore, David S. (1998): "Estadstica aplicada bsica". Antoni Bosch, Barcelona.

ENLACES

___________________________________

http://www.uv.es/~lejarza/anova/anova.html
Leccin de ANOVA en HTML (Universitat de Valncia)
http://e-stadistica.bio.ucm.es/cont_mod_1.html - Anova
Aula Virtual de Bioestadstica (Universidad Complutense de Madrid)
http://www.ruf.rice.edu/~lane/stat_sim/
Applets de Java
http://www.kuleuven.ac.be/ucs/java/version2.0/Content_Anova.htm
Applets de Java

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

También podría gustarte