Está en la página 1de 10

Capítulo 9

Análisis de la varianza (un


factor): ANOVA

9.1. Introducción
Veíamos cómo contrastar la igualdad de medias en dos poblaciones normales e indepen-
dientes. En ocasiones necesitamos contrastar la igualdad de medias de un número mayor de
poblaciones para detectar posibles diferencias significativas entre ellas en cuanto a una variable
o característica:

H0 : µ1 = µ2 = .... = µI

H1 : Alguna distinta,

siendo I el número de poblaciones. Surge así el análisis de la varianza.


El análisis de la varianza es un procedimiento creado por Fisher en 1925 para descomponer
la variabilidad de un experimento en componentes independientes que puedan asignarse a causas
distintas.
El problema general que vamos a estudiar es el siguiente: disponemos de n elementos que se
diferencian en un factor: por ejemplo, alumnos de distintas clases (factor clase), coches de dis-
tintas marcas (factor marca), componentes producidos por distintas máquinas (factor máquina),
etc. En cada elemento observamos una característica continua (X) que varía aleatoriamente de
un individuo a otro: notas de Estadística de los alumnos, consumo de gasolina, tiempo de vida

141
142 Capítulo 9. Análisis de la varianza (un factor): ANOVA

de los componentes, etc. A esta característica se le llama variable respuesta. Nuestro objetivo
será conocer si existe o no relación entre la variable respuesta y el factor: ¿habrá diferencias en
las notas de los distintos grupos de Estadística?, ¿tendrán coches similares de distintas marcas
el mismo consumo de gasolina?, ¿tendrán los componentes fabricados por las distintas máquinas
la misma duración?.
Vamos a centrarnos en este ejemplo de las máquinas para ver y desarrollar el modelo inmerso
en un problema del análisis de la varianza.
Supongamos que se desea comprobar si la duración de piezas fabricadas por un grupo de I
máquinas es la misma, es decir, la duración no depende de la máquina. Supongamos además que
la duración de las piezas producidas por una misma máquina varía debido a muchos factores
no controlables como por ejemplo la pureza de la materia prima, desajustes aleatorios de la
máquina, la habilidad del operario, etc. Es decir, la duración de las piezas producidas por cada
máquina será una variable aleatoria. Denotamos por yij la duración de la pieza j producida
por la máquina i. Si para cada máquina i medimos la duración a una muestra de ni piezas,
PI
tendremos un total de n = i=1 ni observaciones:

Máq1 Máq2 MáqI

y11 y21 yi1


.. .. ..
. . .
y1j y2j ... yij
.. .. ..
. . .
y1n1 y2n2 yinI

9.2. El modelo
Vamos a ajustar a nuestras observaciones un modelo matemático de la forma yij = µi +
uij , con el fin de poder tratarlas estadísticamente. Según este modelo vamos a admitir que la
duración de las piezas fabricadas por una misma máquina i oscila aleatoriamente alrededor de
un valor desconocido µi que caracteriza a la máquina i (duración media de sus piezas) y que las
diferencias entre los valores observados para esta máquina, yij , y su media, µi , son el resultado
de múltiples factores que no controlamos y que influyen en la variable respuesta, en este caso
en la duración. Las englobamos en un término uij llamado error experimental o perturbación,
uij = yij − µi .
9.3. Contraste de igualdad de medias 143

Hipótesis del modelo:

E(uij ) = 0 ∀i, j o E(yij ) = µi .

V ar(uij ) = σ 2 ∀i, j (homoscedasticidad).

E(uij urk ) = 0 ∀i 6= r o j 6= k. (incorrelación).

uij → N (0, σ 2 ) o yij → N (µi , σ 2 ) (normalidad).

las dos hipótesis anteriores implican independencia.

En resumen: la variable respuesta en cada grupo sigue una distribución Normal, la varianza
es la misma en todos los grupos y los grupos son independientes.
El paso siguiente sería estimar los parámetros del modelo.

Estimación de los parámetros del modelo:

Los parámetros a estimar son: µi , i = 1, ..., I, y σ 2 . Utilizamos para ello el método de


máxima verosimilitud, y resultan:

Xni
ˆ −
yij
j=1
µi = yi. = , i = 1, .., I,
ni
XI Xni ³ − 2
´
ˆ yij − yi.
i=1 j=1
σ2 = ,
n
ˆ −
Los residuos del modelo son uij = eij = yij − yi. , y se utilizan sobre todo a la hora de
comprobar si se verifican o no las hipótesis del modelo. Si no se verifican, este modelo no sería
el adecuado.

9.3. Contraste de igualdad de medias


Hemos visto que los yij → N (µi , σ 2 ) y son independientes. Por lo tanto los grupos (máquinas)
sólo difieren en las medias, las varianza es la misma en todos. Esto significa que contrastar si
los grupos son estadísticamente iguales equivale a contrastar si sus medias lo son:

H0 : µ1 = µ2 = .... = µI

H1 : Alguna distinta

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


144 Capítulo 9. Análisis de la varianza (un factor): ANOVA

9.4. Descomposición de la variabilidad


Según se comentó al principio, el análisis de la varianza es un procedimiento para descom-
poner la variabilidad total presente en un experimento en componentes independientes que
puedan asignarse a causas distintas. Concretamente, según el modelo se llega a que la variabil-
idad total en el experimento es igual a la suma de la variabilidad existente dentro de los grupos
más la variabilidad existente entre los grupos.
− − − −
yij − y.. = (yi. − y.. ) + (yij − yi. ),
XX − X − − XX
(yij − y.. )2 = ni (yi. − y.. )2 + e2ij
i j i i j

V T = V E + V NE

V T : Variabilidad total

V E : Variabilidad explicada por el modelo; variabilidad entre grupos

V N E : Variabilidad no explicada por el modelo, o residual; variabilidad dentro de los grupos.

VE
La medida R2 = VT indica la variabilidad que explica el modelo de entre toda la presente
en el experimento. Toma valores entre 0 y 1. Un valor próximo a 0 indicaría que el modelo no
es válido.

9.5. Tabla Anova. Contraste de la F


El contraste básico del análisis de la varianza utiliza la descomposición de la variabilidad
V T = V E + V N E.

Tabla ANOVA:

Fuentes de variabilidad S. cuadrados G. libert. Varianza


P − − ˆ 2 VE
Entre grupos (VE) V E = i ni (yi. − y.. )2 I −1 Se =
I −1
P P
V N E = i j e2ij = ˆ 2 V NE ,
Dentro de grupos (VNE) P n−I SR =
= i ni σ 2ni n−I
P P −
V T = i j (yij − y.. )2 = ˆ 2 VT
Total (VT) n−1 Sy =
= nσ 2n n−1
9.5. Tabla Anova. Contraste de la F 145


siendo yi. y σ2ni respectivamente la media y varianza de los datos de la muestra del grupo

i , y y.. y σ 2n la media y varianza del total de las observaciones.

La media total puede calcularse de la siguiente forma:


I
X −
ni yi.
− i=1
y.. =
n

Contraste de la F :

H0 : µ1 = µ2 = .... = µI

H1 : Alguna distinta,

El estadístico de contraste (bajo H0 ) es:


ˆ 2
Se
F = → FI−1,n−I
ˆ 2
SR

Rechazamos H0 cuando F > F1−α,I−1,n−I . En tal caso, podremos decir que no se han
detectado diferencias significativas entre los grupos en cuanto a la variable respuesta, para
un nivel del significación del αx100 %.

Si rechazamos en el contraste anterior H0 estamos diciendo que no todas las medias de los
diferentes grupos son iguales simultáneamente, sin embargo puede ocurrir que algunas de las
medias sí coincidan.
Ejemplo 9.1: Un ingeniero de electrónica está interesado en estudiar el efecto sobre la
conductividad de una válvula electrónica que tienen tres tipos diferentes de recubrimiento para
los tubos de rayos catódicos utilizados en un dispositivo de visualización de un sistema de
telecomunicaciones. Se obtienen los siguientes datos:

Tipo de recubrimiento Conductividad


1 143 141 150 146
2 152 149 137 143
3 134 133 132 127

Contrastar con un nivel de significación del 5 % si el tipo de recubrimiento tiene algún efecto
sobre la conductividad.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


146 Capítulo 9. Análisis de la varianza (un factor): ANOVA

Se supone que las muestras proceden de poblaciones normales e independientes con la misma
varianza.
Solución: Queremos comprobar si la conductividad media de la válvula será la misma con
los tres tipos de recubrimiento, en cuyo caso el tipo de recubrimiento no tendría ningún efecto
sobre la conductividad.
Planteamos el contraste:

H0 : µ1 = µ2 = µ3

H1 : Alguna distinta

y seguidamente realizamos todos los cálculos necesarios para rellenar la tabla Anova y concluir
en el contraste. Comenzamos con el cálculo de las medias y varianzas en las muestras:

Muestra Media (yi. ) Varianza (σ 2ni ) Tamaño (ni )
Tipo 1 145 11.5 4
,
Tipo 2 145.25 33.188 4
Tipo 3 131.5 7.25 4

y la media y varianza totales resultan: y.. = 140,583 y σ2n = 58,576
Calculamos ahora las variabilidades explicada, no explicada y total.
X
V NE = ni σ 2ni = 4(11,5 + 33,188 + 7,25) = 207,752
i

V T = nσ 2n = 12(58,576) = 702,912

V E = V T − V N E = 495,160

Las varianzas explicada y no explicada son entonces:


ˆ 2 VE 495,160
Se = = = 247,58
I −1 2
ˆ 2 V NE 207,752
SR = = = 23,084,
n−I 9
y el estadístico resulta:
ˆ 2
Se 247,58
F = = = 10,725
ˆ 2 23,084
SR
Ahora concluimos: como F = 10,725 es mayor que F0,95,2,9 = 4,26, rechazamos H0 . Existen
por tanto diferencias significativas entre los tres tipos de rucubrimiento, es decir, el tipo de
recubrimiento influye en la conductividad de la válvula.
9.6. Ejercicios 147

9.6. Ejercicios
1. Un fabricante está interesado en estudiar la resistencia a la tensión de una fibra sintética,
y sospecha que puede estar relacionada con el porcentaje de algodón en su composición.
Con este fin, estudia la resistencia de la fibra considerando 5 niveles de porcentaje de
algodón en su composición. Los datos observados se muestran en la siguiente tabla.

Porcentaje de algodón Tensión de ruptura


15 7 7 15 11 9
20 12 17 12 18 18
25 14 18 18 19 19
30 19 25 22 19 23
35 7 10 11 15 11

Contrastar al 5 % de significación si el fabricante está acertado en su sospecha.

2. Un ingeniero de electrónica está interesado en estudiar el efecto sobre la conductividad


de una válvula electrónica que tienen cinco tipos diferentes de recubriminento para los
tubos de rayos catódicos utilizados en un dispositivo de visualización de un sistema de
telecomunicaciones. Se obtienen los siguientes datos:

Tipo de recubrimiento Conductividad


1 143 141 150 146
2 152 149 137 143
3 134 133 132 127
4 129 127 132 129
5 147 148 144 142

Contrastar con un nivel de significación del 5 % si el tipo de recubrimiento tiene algún


efecto sobre la conductividad.

3. Un artículo publicado en el Journal of the Association of Asphalt Paving Technologists


(1998) describe un experimento para determinar el efecto de las burbujas de aire sobre
la resistencia del asfalto. Para fines del experimento, las burbujas se controlan en tres
niveles. bajo (2-4 %), medio (4-6 %) y alto (6-8 %). Los datos obtenidos aparecen en la

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


148 Capítulo 9. Análisis de la varianza (un factor): ANOVA

tabla siguiente.

Resistencia del asfalto


Bajo 106 90 103 90 79 88 92 95
Burbujas de aire Medio 80 69 94 91 70 83 87 83
Alto 78 80 62 69 76 85 69 85

¿Afectan de manera significativa los diferentes niveles de burbujas de aire la resistencia


del asfalto?. Tomar α = 0,05

Suponer que las muestras proceden de poblaciones normales, independientes, con la misma
varianza.

4. La tabla muestra las medidas hechas por Heyl de la constante G gravitatoria con bolas
hechas de oro, platino y vidrio. Contrastar la hipótesis de que los tres materiales tienen
la misma constante G. Tomar un nivel de significación del 5 %.

Oro 6.683 6.681 6.676 6.678 6.679 6.672


Platino 6.661 6.661 6.667 6.667 6.664
Vidrio 6.678 6.671 6.675 6.672 6.674

5. Un artículo publicado en el Material Research Bulletin (1991) investigó cuatro métodos


diferentes para preparar el compuesto superconductor P bM o6 S8 . Los autores sostienen
que la presencia de oxígeno durante el proceso de preparación afecta la temperatura
de transición Tc de superconducción del material. Los métodos de preparación 1 y 2
utilizan técnicas que están diseñadas para eliminar la presencia de oxígeno, mientras que
los métodos 3 y 4 permiten que el oxígeno esté presente. Para cada método se toman 5
observaciones de Tc (en 0 K). Los resultados son:

Método Temperatura de transición Tc


1 14.8 14.8 14.7 14.8 14.9
2 14.6 15.0 14.9 14.8 14.7
3 12.7 11.6 12.4 12.7 12.1
4 14.2 14.4 14.4 12.2 11.7
9.6. Ejercicios 149

a. ¿Tiene algún efecto la presencia de oxígeno durante la preparación del compuesto en


la temperatura de transición?. Realizar el contraste con un nivel de significación del
5 %.

b. ¿Existen diferencias significativas entre métodos de un mismo tipo?. Tomar α = 0,01.

6. Tres profesores dan clases teóricas en una misma autoescuela. Se desea contrastar, si
existen diferencias significativas en la forma de enseñanza de los tres profesores. Para ello
se seleccionan tres muestras de alumnos y se anota el número de preguntas correctas en
el examen.

Prof. 1 Prof. 2 Prof. 3

43 48 29
35 47 31
44 44 28
46 46 42
39 39 31
44 45 36
38 49 35
42 48 36
45 45 39

Contrastar al 5 % de significación si existen diferencias entre los profesores.

7. Un grupo de químicos están interesados en estudiar la cantidad de radón liberado en las


duchas. Para ello realizan un experimento en el que se utiliza agua enriquecida con radón,
y se prueban tres diámetros diferentes para los orificios de las alcachofas. La siguiente
tabla recoge el radón liberado (en %) para cada diámetro:

Diámetro 1 80 83 83 84 85 84 81
Diámetro 2 74 75 76 74 75 78 76
Diámetro 3 60 62 59 61 62 63 64
En base a los datos obtenidos, ¿podemos afirmar que el tamaño del orificio afecta el
porcentaje de radón liberado?. Realizar el contraste con un nivel de significación del 5 %.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


150 Capítulo 9. Análisis de la varianza (un factor): ANOVA

Nota: Suponer para todos los ejercicios normalidad, independencia, e igualdad de varian-
zas en las poblaciones.

También podría gustarte