Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESQUEMA DE CONTENIDOS
________________________
Anlisis de la varianza
(ANOVA)
ANOVA doble
(Two-ways)
ANOVA simple
(One-way)
INTRODUCCIN
___________________
Usaremos el anlisis de la varianza (ANOVA) para contrastar la hiptesis nula de que las
medias de distintas poblaciones coinciden. Por ejemplo, en el caso de 5 poblaciones, el
contraste a realizar sera:
HO : 1 = 2 = ... = 5
vs.
H06: 2 = 4
H07: 3 = 5
H08: 1 = 4
H09: 2 = 5
H010: 1 = 5
En este caso, rechazar cualquiera de las 10 hiptesis nulas implicara rechazar la hiptesis nula
inicial de que las cinco medias coinciden. Por el contrario, si no rechazsemos ninguna de las 10
hiptesis, tampoco rechazaramos la hiptesis inicial. El problema de este mtodo es doble: (1)
por un lado, se requiere de un mayor esfuerzo computacional, y (2) por otro, al hacer un mayor
nmero de contrastes aumenta el error de tipo I (la probabilidad de rechazar la hiptesis nula
siendo sta cierta). El uso de las tcnicas ANOVA nos permiten eludir ambos problemas.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
OBJETIVOS
________________________
CONOCIMIENTOS PREVIOS
___________________________________
Aparte de estar iniciado en el uso del paquete estadstico Minitab, resulta muy conveniente haber
ledo con profundidad los siguientes math-blocks:
Estadstica descriptiva.
CONCEPTOS FUNDAMENTALES
______________________________
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Para verificar estos supuestos suele ser til realizar un grfico que muestre la distribucin de
las observaciones por niveles: si en el grfico se aprecian diferencias entre niveles por lo que
a la variacin de las observaciones se refiere, es muy probable que tengamos un problema
con el supuesto de varianza constante; si aparecen outliers, puede que no se cumpla el
supuesto de normalidad; por otra parte, si el tiempo fuese un factor importante a la hora de
registrar observaciones, podra ocurrir que observaciones consecutivas estuviesen
correlacionadas, con lo que no se cumplira el supuesto de independencia.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Anova
One-way (Unstacked)...
Le pediremos al programa que nos aplique la tcnica ANOVA simple y, adems, que nos
represente un diagrama de puntos y un boxplot de los datos.
En las dos siguientes grficas, podemos observar la variacin dentro de cada grupo
(laboratorio) y la variacin entre diferentes grupos (laboratorios). La pregunta que habra
que responder es: resulta la variacin entre diferentes grupos significativamente mayor que
la variacin existente dentro de los grupos?
Notar que el laboratorio 4 parece tener ndices mayoritariamente bajos, mientras que los
grupos 2 y 5 presentan ndices bastante mayores.
4,0
3,5
3,0
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
LAB 5
LAB 4
LAB 3
LAB 2
LAB 1
2,5
3,5
LAB 5
LAB 4
LAB 3
LAB 2
LAB 1
2,5
En el cuadro siguiente se presenta el output numrico del programa. La primera parte del
mismo es la llamada tabla ANOVA. Entre otros datos importantes (como los MS-factor y MSerror, el valor del estadstico de contraste F = (MS-factor)/(MS-error), los grados de libertad,
etc.), sta nos proporciona el p-valor del contraste anterior. En este caso, el p-valor = 0,003 y,
por tanto, rechazaremos la hiptesis nula de que todas las medias son iguales.
A partir del grfico que proporciona los intervalos de confianza (a un nivel del 95%) para la
media, parece obvio que, al menos, las medias procedentes de los laboratorios 4 (3,000) y 5
(3,6455) son significativamente diferentes:
N
11
11
11
11
11
Pooled StDev =
Mean
3,3364
3,6000
3,3000
3,0000
3,6455
0,4058
MS
0,747
0,165
StDev
0,4523
0,4604
0,3715
0,2864
0,4321
F
4,53
P
0,003
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Conduccin de vehculos
A continuacin se muestran los datos obtenidos en un experimento en el que se comprobaron
las habilidades de dos grupos de conductores, los inexpertos y los expertos. Doce
conductores de cada grupo tomaron parte en el experimento. Se usaron tres tipos de
carreteras: autopista, nacional y comarcal. Mediante un proceso aleatorio, se asignaron a
cada tipo de carretera cuatro conductores expertos y cuatro inexpertos. Cada conductor
estuvo al volante durante 2 kilmetros, en los cuales se registraron los siguientes errores de
conduccin cometidos:
Row CONDUCTOR
1 Inexperto
2 Inexperto
3 Inexperto
4 Inexperto
5 Experto
6 Experto
7 Experto
8 Experto
9 Inexperto
10 Inexperto
11 Inexperto
12 Inexperto
13 Experto
14 Experto
15 Experto
16 Experto
17 Inexperto
18 Inexperto
19 Inexperto
20 Inexperto
21 Experto
22 Experto
23 Experto
24 Experto
TIPO CARRETERA
Autopista
Autopista
Autopista
Autopista
Autopista
Autopista
Autopista
Autopista
Nacional
Nacional
Nacional
Nacional
Nacional
Nacional
Nacional
Nacional
Comarcal
Comarcal
Comarcal
Comarcal
Comarcal
Comarcal
Comarcal
Comarcal
ERRORES
4
18
8
10
6
4
13
7
23
15
21
13
2
6
8
12
16
27
23
14
20
15
8
17
Plantearemos un ANOVA doble para contrastar, para cada uno de los dos factores, la
hiptesis nula de que el nmero de errores de conduccin cometidos no depende del factor;
utilizaremos el modelo aditivo.
Stat
Anova
Balanced Anova...
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Nacional
DF
1
2
20
23
SS
228,17
308,33
533,33
1069,83
MS
228,17
154,17
26,67
F
8,56
5,78
P
0,008
0,010
En el output anterior, cabe destacar los p-valores asociados a cada factor. En este caso,
ambos son bastante pequeos (y, por tanto, significativos), por lo que deberemos rechazar
las hiptesis nulas asociadas a cada factor; es decir, los datos demuestran que tanto el tipo
de carretera como la experiencia del conductor son factores que influyen decisivamente en el
nmero de errores de conduccin cometidos.
Calidad en pastelera
Se ha llevado a cabo un experimento para determinar los efectos de dos ingredientes, harina
y azcar (factores), sobre la calidad final de un pastel.
Hay cuatro niveles para la cantidad empleada de harina (0%, 10%, 20% y 30%), y dos niveles
para la cantidad empleada de azcar (1 = con azcar, y 0 = sin azcar). Para cada una de las
8 posibles combinaciones, se elaboraron 3 pasteles.
Cada uno de los 24 pasteles fue calificado por el mismo experto con una nota entre 3 (flojo) y
6 (excelente). A continuacin se muestran los resultados:
Row
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
HARINA
0
0
0
0
0
0
10
10
10
10
10
10
20
20
20
20
20
20
30
30
30
30
30
30
AZCAR
0
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
CALIF.
4,4
4,5
4,3
3,3
3,2
3,1
4,6
4,5
4,8
3,8
3,7
3,6
4,5
4,8
4,8
5,0
5,3
4,8
4,6
4,7
5,1
5,4
5,6
5,3
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
En primer lugar, mostraremos en forma tabular las medias asociadas a cada una de las 8
combinaciones posibles. Ello nos permitir saber si hay o no interaccin entre ambos
factores:
Stat
Tables
Cross Tabulation...
Tabulated Statistics
Rows: HARINA
0
10
20
30
All
Columns: AZCAR
All
4,4000
4,6333
4,7000
4,8000
4,6333
3,2000
3,7000
5,0333
5,4333
4,3417
3,8000
4,1667
4,8667
5,1167
4,4875
Por lo que se refiere al azcar, no parece haber mucha diferencia entre los valores
promedio obtenidos: la calidad media para los 12 pasteles elaborados sin azcar (4,6) es
slo ligeramente superior a la cantidad media de los otros 12 (4,3).
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Plot...
5,5
0
1
Calidad Media
5,0
4,5
4,0
3,5
3,0
0
10
20
30
Harina_
Segn se aprecia, el uso del azcar incrementa la calidad media de los pasteles cuando
estamos en los niveles superiores de harina (20% y 30%), mientras que ocurre todo lo
contrario para niveles bajos de harina (0% y 10%). Por tanto, que el azcar mejore o no la
calidad del pastel depender del nivel de harina que ste contenga. Esto significa que ambos
factores interactan. En general, si los factores no interactuasen las lneas del grfico anterior
seran (aproximadamente) paralelas.
Aplicaremos ahora la tcnica ANOVA usando un modelo con interaccin.
Stat
ANOVA
Balanced Anova
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
10
10
1
20
30
DF
3
1
3
16
23
SS
6,6912
0,5104
3,7246
0,4800
11,4063
MS
2,2304
0,5104
1,2415
0,0300
F
74,35
17,01
41,38
P
0,000
0,001
0,000
Analicemos los resultados de los tres contrastes (H01: el factor harina no influye sobre la
calidad del pastel, H02: el factor azcar no influye sobre la calidad del pastel, H03: no hay
interaccin entre ambos factores):
Lo primero es comprobar si existe interaccin, puesto que en tal caso deberemos interpretar
con cautela los resultados de los otros tests. En este caso p-valor = 0,000. Por tanto, hay
fuertes evidencias de la existencia de interaccin entre ambos factores.
Obtenemos tambin p-valores significativos en los otros dos contrastes; es decir, tanto el
nivel de harina como el nivel de azcar son determinantes para la calidad esperada de un
pastel. Notar que la calidad media de un pastel sin azcar (4,6333) es mayor que la calidad
media de un pastel con azcar (4,3417). Esto es consistente con el resultado de nuestro test.
Sin embargo, segn hemos observado anteriormente, el uso del azcar tiende a aumentar la
calidad media para niveles altos de harina, y viceversa. En general, siempre que haya
interaccin entre los factores convendr hacer un anlisis detallado que vaya ms all del pvalor obtenido en el contraste.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
11
Educacin universitaria en la UE
En la siguiente tabla se muestran los ratios (%) de educacin universitaria por pases de la
Unin Europea (no se dispone de los datos de Luxemburgo), distribuidos por sexo y grupos
de edad. (Fuente: Informe "Retrato de los europeos", Eurostat, Ao 2002).
18-21 aos
H
BLGICA
DINAMARCA
ALEMANIA
GRECIA
ESPAA
FRANCIA
IRLANDA
ITALIA
HOLANDA
AUSTRIA
PORTUGAL
FINLANDIA
SUECIA
REINO UNIDO
22-24 aos
M
36
7
7
57
28
30
30
12
24
11
22
19
13
26
H
47
10
15
63
40
40
38
17
30
18
30
26
19
31
25-28 aos
M
21
23
20
9
26
22
12
19
25
20
17
37
25
11
H
20
33
20
8
30
25
12
27
22
20
23
42
30
12
M
6
17
15
3
10
5
4
12
8
14
8
21
14
6
5
21
11
3
9
7
5
14
6
12
10
22
16
7
Anova
One-way ...
Tomamos como variable respuesta % y como factor SEXO, y solicitamos los grficos de cajas
(tambin valen los diagramas de puntos).
El output del Minitab es el siguiente:
One-way Analysis of Variance
Analysis of Variance for %
Source
DF
SS
SEXO
1
247
Error
82
11711
Total
83
11958
MS
247
143
F
1,73
P
0,192
N
42
42
Pooled StDev =
Mean
17,90
21,33
11,95
StDev
10,68
13,10
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
12
Boxplots of % by SEXO
(means are indicated by solid circles)
60
50
40
30
20
10
SEXO
En los grficos se aprecia que las diferencias entre los dos sexos son mnimas, tanto en las
medias como en la variabilidad (en ambos casos mayor en las mujeres), y por tanto no
parecen significativas.
En la salida numrica se puede comprobar que el p-valor es 0,192, con lo cual no
rechazaramos la hiptesis nula para cualquier nivel de significacin razonable (por ejemplo,
=0,05). De hecho, los intervalos de confianza tienen bastantes valores comunes. Por tanto,
concluiramos que no existen diferencias estadsticamente significativas entre los sexos en
cuanto a los ratios de educacin universitaria en los pases europeos.
Supongamos que ahora queremos tener en cuenta tambin los grupos de edad, para
determinar si hay diferencias en los ratios de educacin universitaria entre los grupos de edad
y/o el sexo. Para ello, utilizaremos el modelo doble con interaccin.
En este caso tenemos un modelo con dos factores (sexo y edad) e interaccin, siendo la
variable respuesta, obviamente, %. En la variable edad, los grupos de edad se han
numerado: 1 (18-21 aos), 2 (22-24 aos), 3 (25-28 aos).
Antes de realizar el ANOVA vamos a presentar los datos de forma tabular para ver si
obtenemos alguna conclusin previa.
Stat
Tables
Cross Tabulation...
Tabulated Statistics
Rows: EDAD
1
2
3
All
Columns: SEXO
H
All
23,000
20,500
10,214
17,905
30,286
23,143
10,571
21,333
26,643
21,821
10,393
19,619
Se puede observar que, a medida que aumenta la edad, los ratios decrecen sensiblemente
en los dos sexos, y adems las diferencias entre los sexos son menores (siempre a favor de
las mujeres).
Pasamos a realizar el ANOVA doble.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
13
Anova
Two-way ...
EDAD
1
2
3
Mean
26,6
21,8
10,4
SEXO
H
M
Mean
17,9
21,3
MS
1950,3
246,9
87,3
97,9
F
19,92
2,52
0,89
P
0,000
0,116
0,414
Individual 95% CI
---------+---------+---------+---------+-(-----*------)
(-----*------)
(-----*------)
---------+---------+---------+---------+-12,0
18,0
24,0
30,0
Individual 95% CI
-+---------+---------+---------+---------+
(------------*-----------)
(-----------*-----------)
-+---------+---------+---------+---------+
15,0
17,5
20,0
22,5
25,0
Basndonos en la salida anterior, podemos afirmar que no existe interaccin entre los dos
factores (p-valor=0,414).
As mismo, obtenemos un p-valor prcticamente nulo (0,000) para el factor edad, lo cual nos
indica que existen diferencias significativas entre los tres grupos, tal y como habamos
detectado en la tabla cruzada. Esto tambin se puede comprobar observando los intervalos
de confianza, ya que si bien entre los grupos 1 y 2 comparten muchos valores, ninguno de
ellos tiene interseccin con el intervalo del grupo 3.
Por otra parte, al igual que en el modelo de un factor, no existen evidencias de que el sexo
influya en los ratios de educacin, ya que el p-valor es 0,116>0,05.
Rapidez en la impresin
Estamos interesados en comparar la rapidez de dos modelos de impresoras (0 y 1). Para
realizar el experimento, medimos el tiempo de impresin (en segundos) de los dos modelos
sobre una serie de plantillas estndar.
Los resultados del experimento se muestran en el archivo impresoras.mtw. Los datos han
sido obtenidos despus de medir el tiempo de impresin (recogido en la variable puntuacin)
de las dos mquinas sobre una muestra de 80 plantillas de iguales caractersticas, es decir,
plantillas con similar dificultad de impresin.
Queremos determinar si existen diferencias significativas entre los dos tipos de impresoras.
Stat
Anova
One-way ...
F
7,87
P
0,006
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
14
N
40
40
Pooled StDev =
Mean
28,750
22,700
9,648
StDev
10,081
9,194
----+---------+---------+---------+-(--------*--------)
(--------*--------)
----+---------+---------+---------+-21,0
24,5
28,0
31,5
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
15
Tables
Cross Tabulation...
Tabulated Statistics
Rows: Impresor
0
1
All
Columns: Papel
All
30,450
19,350
24,900
27,050
26,050
26,550
28,750
22,700
25,725
Se observa que las impresoras del modelo 0 siempre ofrecen valores mayores que las del
modelo 1, pero la diferencia es mucho ms acusada con papel de tipo 0 que con papel de tipo
1. Esto nos hace intuir que existe interaccin entre ambos factores.
Pasamos a realizar el ANOVA doble:
Stat
ANOVA
Two-way
Mean
28,8
22,7
Papel
0
1
Mean
24,9
26,6
F
8,31
0,62
5,79
P
0,005
0,434
0,019
Individual 95% CI
-----+---------+---------+---------+-----(---------*---------)
(---------*---------)
-----+---------+---------+---------+-----21,0
24,0
27,0
30,0
Individual 95% CI
-+---------+---------+---------+---------+
(--------------*-------------)
(--------------*--------------)
-+---------+---------+---------+---------+
22,0
24,0
26,0
28,0
30,0
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
16
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
17
BIBLIOGRAFA
_________________________________________________________
[1]
Bar, J. y Alemany, R. (2000): Estadstica II. Ed. Fundaci per a la Universitat Oberta de
Catalunya. Barcelona.
[2]
[3]
[4]
Martn-Guzmn, P. (1991): Curso bsico de estadstica econmica. AC, DL. Madrid. ISBN:
84-7288-142-3
[5]
[6]
ENLACES
___________________________________
http://www.uv.es/~lejarza/anova/anova.html
Leccin de ANOVA en HTML (Universitat de Valncia)
http://e-stadistica.bio.ucm.es/cont_mod_1.html - Anova
Aula Virtual de Bioestadstica (Universidad Complutense de Madrid)
http://www.ruf.rice.edu/~lane/stat_sim/
Applets de Java
http://www.kuleuven.ac.be/ucs/java/version2.0/Content_Anova.htm
Applets de Java
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
18