Está en la página 1de 18

ANOVA P. Reyes / Nov.

2004

ANALISIS DE VARIANZA DE UNA VÍA o DIRECCIÓN


(ANOVA 1 VIA)

El análisis de la varianza de un criterio (ANOVA) es una metodología para analizar la variación


entre muestras y la variación al interior de las mismas mediante la determinación de varianzas. Es
llamado de un criterio porque analiza un variable independiente o Factor ej: Velocidad. Como tal, es
un método estadístico útil para comparar dos o más medias poblacionales. El ANOVA de un criterio
nos permite poner a prueba hipótesis tales como:

H 0  1   2   3  ....   k

H 1 : Al menos dos medias poblacionales son diferentes.

Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes
son:

1. Ambas poblaciones son normales.


2. Las varianzas poblacionales son iguales, esto es,  12   22 .

Como el ANOVA de un criterio es una generalización de la prueba de t para dos muestras, los
supuestos para el ANOVA de un criterio son:

1. Todas las poblaciones k son normales.


2.  1   2   3  .....   k    
2 2 2 2 2

El método de ANOVA con un criterio requiere del cálculo de dos estimaciones independientes para
2 2 2
 2 , la varianza poblacional común. Estas dos estimaciones se denotan por s b y s w . s b se
2
denomina estimación de la varianza entre muestras y s w se denomina estimación de la varianza al
interior de las muestras. El estadístico tiene una distribución muestral resultando:

s b2
F
s w2

El valor crítico para la prueba F es:

F ( k  1, k ( n  1))

Donde el número de grados de libertad para el numerador es k-1 y para el denominador es k(n-1),
siendo  el nivel de significancia.
k = número de muestras.

El Procedimiento es el siguiente1:

1. Determinar si las muestras provienen de poblaciones normales.


2. Proponer las hipótesis.

3. Encontrar las medias poblacionales y las varianzas.


1
Estadística. Richard C.Weimer. CECSA. Segunda Edición.2000

Página 1
ANOVA P. Reyes / Nov. 2004

2
4. Encontrar la estimación de la varianza al interior de las muestras s w y sus grados de libertad
asociados glw.
5. Calcular la gran media para la muestra de las medias muéstrales.
2
6. Determinar la estimación de la varianza entre muestras s b y sus grados de libertad asociados.
7. Hallar el valor del estadístico de la prueba F.
8. Calcular el valor crítico para F basado en glb y glw.
9. Decidir si se rechaza H0.

Calculo Manual

Se utilizan las fórmulas siguientes:

Suma de cuadrados total (SST o SCT)

r c 2

  ( Xij  X )
i 1 j 1
SCT 

*** ** Xi valores individuales


* *** **
X Media de medias
* * **
* **

Suma de cuadrados de los tratamientos o niveles (SSTr o SCTr):

r
SCTR   rj ( X j  X ) 2
j 1

Media
X3

*
5

4 *
* Media X2
Media X1

Suma de cuadrados del error (SSE o SCE):


r c
SCE   (X ij  X j )2
i 1 j 1

Página 2
ANOVA P. Reyes / Nov. 2004

** *
Xi Xi

* ** * ** *
*** * Xmedia 3
X media 1 ** *
* Xmedia 2 Xi *

O también SCE = SCT - SCTr

Grados de libertad:

Gl. Totales = n – 1
Gl. Tratamientos = c -1
Gl. Error = n – c

Cuadrados medios (MS o CM):

CMT = SCT / Gl. SCT


CMTr = SCTr / Gl. SCTr
CME = SCE / Gl. SCE

Estadístico calculado Fc:

Fc = CMTr / CME

P value = distr.f (Fc, Gl. CMtr, Gl. CME)

F crítica de tables o Excel = distr.f.inv(alfa, Gl. CMT, Gl. CME)

Si P es menor a alfa o Fc es mayor a Ft se rechaza Ho indicando que los efectos de los diferentes
niveles del factor tienen efecto significativo en la respuesta.

Distr. F

NO RECHAZAR ZONA DE RECHAZo


Alfa

La tabla de ANOVA final queda como sigue:

Página 3
ANOVA P. Reyes / Nov. 2004

TABLA DE ANOVA

GRADOS
FUENTE DE VARIACIÓN SUMA DE DE CUADRADO VALOR F
CUADRADOS LIBERTAD MEDIO

Entre muestras (tratam.) SCTR c-1 CMTR CMTR/CME

Dentro de muestras
(err.) SCE n-c CME

Variación total SCT n-1 CMT

Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa

Si las medias son diferentes se


puede aplicar la prueba de Tukey o
DMS como sigue:

PRUEBA DE TUKEY

Se utiliza para diseños balanceados (todos los tratamientos tienen


asignado el mismo número de elementos)

Se utiliza el estadístico
T

CME
Se compara T vs la diferencia en valorT absoluto
q ,c ,n c de
r
cada par de medias, si esta dif. Excede a T, las medias son diferentes
o iguales en caso contrario. n = 16 r=4
c= 4 Alfa=0.05
Por ejemplo: 3.6 CME = 19.6875 T
Medias q.05,4,12= 4.2 9.31
X1 = 145 !X1 - X2!= 0.25 X1=X2
X2= 145.25 !X1-X3! = 12.75 X1<>X3
X3= 132.25 !X1-X4!= 15.75 X1<>X4
X4= 129.25 !X2-X3!= 13 X2<>X3
!X2-X4!= 16 X2<>X4
!X3-X4!= 3 X3=X4

DMS
X4 X3 X1 X2 =3.41
129.25 132.25 145 145.2

Página 4
ANOVA P. Reyes / Nov. 2004

DMS

MEDIAS MEDIAS
IGUALES DIFERENTES

9.45

Otro método más conservador es el la DIFERENCIA MÍNIMA SIGNIFICATIVA


DMS

2(CME ) F ,1,n c r=4


DMS  F = DISTR.F.INV(alfa, gl. =1, gl. CME
r =12)

CME = 19.6875
r= 4
F.05,1,12 4.75

187.0313 46.75781 6.837968

Para el caso de diseños no balanceados se utiliza el método DMS


para comparar cada par de muestras

1 1
DMS j , k     (CME ) F ,c 1, n c
 r j rk 

r j es el número de elementos asignados al tratamiento j


r k es el número de elementos asignados al tratamiento k

Verificar si X1 = X2 y si X2 = X3 en el ejemplo de empleados.


DMS 1,2 ? DMS 2,3 ?

Por ejemplo: 3.4


F=3.34
Para comparar X1-X2 Alfa =.05
r1 = 5 r2=4 X1=21.74 X2=21.5 CME=0.02571

DMS = 0.1965 X1-X2= 0.24

Se concluye que X1 y X2 son diferentes

Página 5
ANOVA P. Reyes / Nov. 2004

Utilizando los paquetes de Excel y Minitab se tiene:

Ejemplo 1:

Tres tipos distintos de motores de gasolina fueron probados para determinar cuánto tiempo son
útiles antes de necesitar una reparación; si los tiempos de vida de los motores de cada tipo se
distribuyen normalmente y tienen la misma varianza, haga una prueba usando   0.05 para
determinar si difieren las medias de vida útil antes de requerir una reparación. En la tabla aparecen
los tiempos de vida útil, en decenas de miles de millas para cada tipo de motor.

A B C
6 8 3
2 7 2
4 7 5
1 2 4
7 6 1

Mediante Minitab determinamos si las muestras provienen de una población Normal.

Seleccione en el menu para cada muestra:

Stat > Basic statistics > Normality test


Variable – Columnas de datos
Test for normality – Seleccionar Ryan Joiner OK Hay normalidad si P value es >=0.05
.

Probability Plot of A
Normal
99
Mean 4
StDev 2.550
95 N 5
RJ 0.982
90
P-Value >0.100
80
70
Percent

60
50
40
30
20

10

1
-2 0 2 4 6 8 10
A

Página 6
ANOVA P. Reyes / Nov. 2004

Probability Plot of B
Normal
99
Mean 6
StDev 2.345
95 N 5
RJ 0.909
90
P-Value >0.100
80
70
Percent

60
50
40
30
20

10

1
0 2 4 6 8 10 12
B

Probability Plot of C
Normal
99
Mean 3
StDev 1.581
95 N 5
RJ 0.998
90
P-Value >0.100
80
70
Percent

60
50
40
30
20

10

1
-1 0 1 2 3 4 5 6 7
C

 Analizando las gráficas nos damos cuenta de que las muestras provienen de poblaciones
normales.

Si denotamos por  1,  2 y 3 las medias poblacionales de los tiempos de vida útil para los tipos A,
B y C, respectivamente, entonces podemos escribir las hipótesis estadísticas como:

H 0 : 1   2   3

H1: Al menos dos medias poblacionales no son iguales.

Página 7
ANOVA P. Reyes / Nov. 2004

Procedimiento en Excel:

 En el menú herramientas seleccione la opción Análisis de datos, en funciones para


análisis seleccione Análisis de varianza de un factor.
 En Rango de entrada seleccionar la matriz de datos.

 Alfa = 0.05
 En Rango de salida indicar la celda donde se inciará la presentación de resultados.

Análisis de varianza de un factor

RESUMEN
Grupos Cuenta Suma Promedio Varianza
Columna 1 5 20 4 6.5
Columna 2 5 30 6 5.5
Columna 3 5 15 3 2.5

ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Entre grupos 23.33333333 2 11.66666667 2.413793103 0.13150932 3.885290312
Dentro de los grupos 58 12 4.833333333

Total 81.33333333 14

En la tabla observamos que el estadístico de prueba Fc es menor al valor crítico para F


2.41<3.88, por lo cual no rechazamos al Hipótesis nula H 0. No tenemos evidencia estadística para
afirmar que los tiempos de vida útil de los motores, antes de requerir una reparación son diferentes.

Página 8
ANOVA P. Reyes / Nov. 2004

ANOVA en Minitab.

Utilice   0.05 para calcular si difiere el rendimiento de los motores.

Seleccionar:

Stat > ANOVA > One Way (Unstacked)


Response in separate columns A, B, C
Seleccionar º! Store Residuals º! Store Fits Confidence level 95%

Graphs
Seleccionar Normal plot of residuals

Comparisons
Seleccionar Tukey’s Family error rate OK

Resultados:

La gráfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el
modelo:

Normal Probability Plot of the Residuals


(responses are A, B, C)
99

95

90

80
70
Percent

60
50
40
30
20

10

1
-5.0 -2.5 0.0 2.5 5.0
Residual

One-way ANOVA: A, B, C

Source DF SS MS F P
Factor 2 23.33 11.67 2.41 0.132
Error 12 58.00 4.83
Total 14 81.33

Como este valor P es mayor a 0.05 se rechaza la hipótesis nula y A, B y C no


tienen efecto en la respuesta.
S = 2.198 R-Sq = 28.69% R-Sq(adj) = 16.80%

Página 9
ANOVA P. Reyes / Nov. 2004

Individual 95% CIs For Mean Based on


Pooled StDev
Level N Mean StDev ------+---------+---------+---------+---
A 5 4.000 2.550 (----------*----------)
B 5 6.000 2.345 (----------*----------)
C 5 3.000 1.581 (----------*----------)
------+---------+---------+---------+---
2.0 4.0 6.0 8.0

Pooled StDev = 2.198

Los intervalos de confianza de los tres niveles A, B, C del factor se pueden


traslapar por tanto sus efectos no son diferentes.
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons

Individual confidence level = 97.94%

A subtracted from:

Lower Center Upper ---------+---------+---------+---------+


B -1.707 2.000 5.707 (----------*---------)
C -4.707 -1.000 2.707 (---------*----------)
---------+---------+---------+---------+
-3.5 0.0 3.5 7.0

B subtracted from:

Lower Center Upper ---------+---------+---------+---------+


C -6.707 -3.000 0.707 (---------*----------)
---------+---------+---------+---------+
-3.5 0.0 3.5 7.0

Como el cero pertenece al intervalo de confianza de las diferencias entre A y B; A


y C y entre B y C no hay diferencia entre el efecto entre estos niveles.

A continuación se muestran los residuos y los valores estimados para la respuesta Y por el modelo:

RESI1 RESI2 RESI3 FITS1 FITS2 FITS3


2 2 0 4 6 3
-2 1 -1 4 6 3
0 1 2 4 6 3
-3 -4 1 4 6 3
3 0 -2 4 6 3

Donde cada residuo es Eij = Yij observado – Yij estimado


Yij estimado es el promedio en cada columna.

Ejemplo 2: La tabla adjunta contiene el número de palabras escritas por minuto por cuatro
secretarias de la universidad en cinco ocasiones diferentes usando la misma máquina.

Página 10
ANOVA P. Reyes / Nov. 2004

A B C D
82 55 69 87
79 67 72 61
75 84 78 82
68 77 83 61
65 71 74 72

La gráfica de residuos es la siguiente, mostrando que el modelo es válido:

Normal Probability Plot of the Residuals


(responses are A, B, C, D)
99

95

90

80
70
Percent

60
50
40
30
20

10

1
-20 -10 0 10 20
Residual

One-way ANOVA: A, B, C, D

Source DF SS MS F P
Factor 3 52.2 17.4 0.20 0.892
Error 16 1367.6 85.5
Total 19 1419.8

Como el valor P de 0.892 es mayor a alfa de 0.05 no hay efecto en la respuesta cambiando los
niveles del factor A, B, C y D.
S = 9.245 R-Sq = 3.68% R-Sq(adj) = 0.00%

Individual 95% CIs For Mean Based on


Pooled StDev
Level N Mean StDev -------+---------+---------+---------+--
A 5 73.800 7.190 (--------------*--------------)
B 5 70.800 10.918 (--------------*--------------)
C 5 75.200 5.450 (-------------*--------------)
D 5 72.600 11.887 (--------------*--------------)
-------+---------+---------+---------+--
66.0 72.0 78.0 84.0

Pooled StDev = 9.245

Se pueden traslapar los intervalos de confianza de los niveles del factor, por tanto no hay diferencia
significativa en sus efectos.

Página 11
ANOVA P. Reyes / Nov. 2004

Tukey 95% Simultaneous Confidence Intervals


All Pairwise Comparisons

Individual confidence level = 98.87%

A subtracted from:

Lower Center Upper --------+---------+---------+---------+-


B -19.745 -3.000 13.745 (-------------*------------)
C -15.345 1.400 18.145 (-------------*-------------)
D -17.945 -1.200 15.545 (-------------*-------------)
--------+---------+---------+---------+-
-12 0 12 24

B subtracted from:

Lower Center Upper --------+---------+---------+---------+-


C -12.345 4.400 21.145 (-------------*-------------)
D -14.945 1.800 18.545 (------------*-------------)
--------+---------+---------+---------+-
-12 0 12 24

C subtracted from:

Lower Center Upper --------+---------+---------+---------+-


D -19.345 -2.600 14.145 (-------------*-------------)
--------+---------+---------+---------+-
-12 0 12 24

En la prueba de Tukey como el cero pertenece a los intervalos de confianza de todas las
diferencias entre niveles A, B, C y D, no hay diferencia entre sus efectos en la respuesta.

Página 12
ANOVA P. Reyes / Nov. 2004

ANALISIS DE VARIANZA DE DOS VÍAS o DIRECCIONES


(ANOVA 2 VIAS)

En este caso las fórmulas son parecidas a la del ANOVA de una vía pero ahora agregando el
cálculo por renglones adicional al de columnas donde se incluye la variable de bloqueo.

Ejemplo con Minitab o Excel del Texto de Montgomery, Análisis y diseño de experimentos.

Problema 4.1
Un químico quiere probar el efecto de 4 agentes químicos sobre la resistencia de un tipo particular
de tela. Debido a que podría haber variabilidad de un rollo de tela a otro, el químico decide usar un
diseño de bloques aleatorizados, con los rollos de tela considerados como bloques. Selecciona 5
rollos y aplica los 4 agentes químicos de manera aleatoria a cada rollo. A continuación se
presentan las resistencias a la tención resultantes. Analizar los datos de este experimento (utilizar
α=0.05) y sacar las conclusiones apropiadas.
Rollo
Agente
Químico 1 2 3 4 5
1 73 68 74 71 67
2 73 67 75 72 70
3 75 68 78 73 68
4 73 71 75 75 69

Solución

Rollo Y (gran
Yi.
Agente promedio)
Químico 1 2 3 4 5
1 73 68 74 71 67 70.6 71.75
2 73 67 75 72 70 71.4
3 75 68 78 73 68 72.4
4 73 71 75 75 69 72.6
Y.j 73.5 68.5 75.5 72.75 68.5

Yijestimada (FITS)
72.35 67.35 74.35 71.6 67.35
73.15 68.15 75.15 72.4 68.15
74.15 69.15 76.15 73.4 69.15
74.35 69.35 76.35 73.6 69.35

Residuos (Eij)
0.65 0.65 -0.35 -0.6 -0.35
-0.15 -1.15 -0.15 -0.4 1.85
0.85 -1.15 1.85 -0.4 -1.15
-1.35 1.65 -1.35 1.4 -0.35

Análisis de varianza de dos factores con una sola muestra


por grupo

Página 13
ANOVA P. Reyes / Nov. 2004

RESUMEN Cuenta Suma Promedio Varianza


Fila 1 5 353 70.6 9.3
Fila 2 5 357 71.4 9.3
Fila 3 5 362 72.4 19.3
Fila 4 5 363 72.6 6.8
Columna 1 4 294 73.5 1
Columna 2 4 274 68.5 3
Columna 3 4 302 75.5 3
Columna 4 4 291 72.75 2.916666667
Columna 5 4 274 68.5 1.666666667
ANÁLISIS DE VARIANZA
Origen de Suma de Grados Promedio F Probabilidad Valor
las cuadrados de de los crítico
variaciones libertad cuadrados para F
Filas 12.95 3 4.31666667 2.376146789 0.12114447 3.4902948
Columnas 157 4 39.25 21.60550459 2.05918E-05 3.2591667
Error 21.8 12 1.81666667
Total 191.75 19

Para el caso de los agentes químicos que son los renglones:

La Ho. No se rechaza debido a que el valor de tablas de f esta en 3.49 y el valor Fc calculado es de
2.37 por lo tanto no cae en la zona de rechazo.

Calculo del valor P 0.12114447

Por otro lado el valor P = 0.1211 es mayor a 0.05 de alfa por lo tanto confirma el no rechazo.

Para el caso de los rollos que son las columnas:

La Ho. se rechaza debido a que el valor de tablas de f esta en 3.25 y el valor Fc calculado es 21.60
por lo tanto cae en la zona de rechazo.

Calculo del valor P 3.96618E-05

Por otro lado el valor P = 0.00003 es menor a 0.05 de alfa por lo tanto confirma el rechazo.

Página 14
ANOVA P. Reyes / Nov. 2004

Procedimiento en Excel:

 En el menú herramientas seleccione la opción análisis de datos, en funciones para


análisis seleccione análisis de varianza de dos factores con una sola muestra por grupo.
 En Rango de entrada seleccionar la matriz de datos.
 Alfa = 0.05
 En Rango de salida indicar la celda donde se iniciará la presentación de resultados.

Análisis de varianza de dos factores con una sola muestra por grupo

RESUME Varianz
N Cuenta Suma Promedio a
Fila 1 5 353 70.6 9.3
Fila 2 5 357 71.4 9.3
Fila 3 5 362 72.4 19.3
Fila 4 5 363 72.6 6.8

Columna 1 4 294 73.5 1


Columna 2 4 274 68.5 3
Columna 3 4 302 75.5 3
Columna 4 4 291 72.75 2.92
Columna 5 4 274 68.5 1.67

ANÁLISIS DE VARIANZA
Grados Cuadrado Probabilida F
Fuente de Suma de de s Fc d tablas
Cuadrado
variación s libertad medios Valor P
Filas 12.95 3 4.32 2.38 0.12 3.49
Columnas 157 4 39.25 21.61 2.06E-05 3.26
Error 21.8 12 1.82

Total 191.75 19
Total 231 24

En la tabla observamos que el estadístico de prueba Fc es menor al valor crítico para F


2.38<3.49, por lo cual no rechazamos al Hipótesis nula H 0. No tenemos evidencia estadística para
afirmar que el agente químico tenga influencia en la respuesta.

Sin embargo observamos que el rollo si tiene influenza significativa en la respuesta (P<0.05).

Página 15
ANOVA P. Reyes / Nov. 2004

ANOVA en Minitab.

Utilice   0.05 para calcular si hay diferencias entre los efectos de las columnas y los
renglones.

Introducir los datos arreglados con las respuestas en una sola columna e indicando a que renglón y
columna pertenece cada uno de estos, como sigue:

Resp Columna Fila


73 1 1
73 1 2
75 1 3
73 1 4
68 2 1
67 2 2
68 2 3
71 2 4
74 3 1
75 3 2
78 3 3
75 3 4
71 4 1
72 4 2
73 4 3
75 4 4
67 5 1
70 5 2
68 5 3
69 5 4

Instrucciones:

Stat > ANOVA > One two Way


Response Respuesta, indicar Row factor y Column Factor, Seleccionar º! Display Means
Seleccionar º! Store Residuals º! Store Fits Confidence level 95%

Graphs
Seleccionar Normal plot of residuals

OK

Resultados:

La gráfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el
modelo:

Los residuos se aproximan a la distribución normal por lo cual se concluye que se


está utilizando un modelo válido.

Página 16
ANOVA P. Reyes / Nov. 2004

Normal Probability Plot of the Residuals


(response is Resp)
99

95

90

80
70
Percent

60
50
40
30
20

10

1
-3 -2 -1 0 1 2 3
Residual

Two-way ANOVA: Resistencia versus Agente Químico, Rollo

Source DF SS MS F P
Agente Químico 3 12.95 4.3167 2.38 0.121
Rollo 4 157.00 39.2500 21.61 0.000
Error 12 21.80 1.8167
Total 19 191.75

S = 1.348 R-Sq = 88.63% R-Sq(adj) = 82.00%

Como el valor de P es menor a 0.05 el Rollo tiene influencia significativa en la


resistencia.
Individual 95% CIs For Mean Based on
Agente Pooled StDev
Químico Mean ---+---------+---------+---------+------
1 70.6 (----------*----------)
2 71.4 (----------*----------)
3 72.4 (----------*----------)
4 72.6 (----------*----------)
---+---------+---------+---------+------
69.6 70.8 72.0 73.2

Individual 95% CIs For Mean Based on


Pooled StDev
Rollo Mean --+---------+---------+---------+-------
1 73.50 (-----*-----)
2 68.50 (-----*-----)
3 75.50 (-----*-----)
4 72.75 (-----*-----)
5 68.50 (-----*-----)
--+---------+---------+---------+-------
67.5 70.0 72.5 75.0

Página 17
ANOVA P. Reyes / Nov. 2004

Se seleccionarían en 2º y 5º rollo ya que tienen los valores más pequeños.


Los Fits y los residuales coinciden con los valores determinados en Excel.

Resp Columna Fila RESI1 FITS1 RESI2 FITS2


73 1 1 0.65 72.35 0.65 72.35
73 1 2 -0.15 73.15 -0.15 73.15
75 1 3 0.85 74.15 0.85 74.15
73 1 4 -1.35 74.35 -1.35 74.35
68 2 1 0.65 67.35 0.65 67.35
67 2 2 -1.15 68.15 -1.15 68.15
68 2 3 -1.15 69.15 -1.15 69.15
71 2 4 1.65 69.35 1.65 69.35
74 3 1 -0.35 74.35 -0.35 74.35
75 3 2 -0.15 75.15 -0.15 75.15
78 3 3 1.85 76.15 1.85 76.15
75 3 4 -1.35 76.35 -1.35 76.35
71 4 1 -0.6 71.6 -0.6 71.6
72 4 2 -0.4 72.4 -0.4 72.4
73 4 3 -0.4 73.4 -0.4 73.4
75 4 4 1.4 73.6 1.4 73.6
67 5 1 -0.35 67.35 -0.35 67.35
70 5 2 1.85 68.15 1.85 68.15
68 5 3 -1.15 69.15 -1.15 69.15
69 5 4 -0.35 69.35 -0.35 69.35

Página 18

También podría gustarte