Está en la página 1de 18

ANOVA

P. Reyes / Nov. 2004

ANALISIS DE VARIANZA DE UNA VA o DIRECCIN (ANOVA 1 VIA)


El anlisis de la varianza de un criterio (ANOVA) es una metodologa para analizar la variacin entre muestras y la variacin al interior de las mismas mediante la determinacin de varianzas. Es llamado de un criterio porque analiza un variable independiente o Factor ej: Velocidad. Como tal, es un mtodo estadstico til para comparar dos o ms medias poblacionales. El ANOVA de un criterio nos permite poner a prueba hiptesis tales como:

H 0 = 1 = 2 = 3 = .... = k H 1 : Al menos dos medias poblacionales son diferentes.


Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes son: 1. Ambas poblaciones son normales.
2 2. Las varianzas poblacionales son iguales, esto es, 12 = 2 .

Como el ANOVA de un criterio es una generalizacin de la prueba de t para dos muestras, los supuestos para el ANOVA de un criterio son:

1. Todas las poblaciones k son normales. 2 2 2 2 2 2. 1 = 2 = 3 = ..... = k =

El mtodo de ANOVA con un criterio requiere del clculo de dos estimaciones independientes para
2 2 2 2 , la varianza poblacional comn. Estas dos estimaciones se denotan por sb y s w . sb se 2 denomina estimacin de la varianza entre muestras y s w se denomina estimacin de la varianza al

interior de las muestras. El estadstico tiene una distribucin muestral resultando:


2 sb F= 2 sw

El valor crtico para la prueba F es:

F ( k 1, k (n 1))
Donde el nmero de grados de libertad para el numerador es k-1 y para el denominador es k(n-1), siendo el nivel de significancia. k = nmero de muestras. El Procedimiento es el siguiente1: 1. Determinar si las muestras provienen de poblaciones normales. 2. Proponer las hiptesis.

Estadstica. Richard C.Weimer. CECSA. Segunda Edicin.2000

Pgina 1

ANOVA 3. Encontrar las medias poblacionales y las varianzas.

P. Reyes / Nov. 2004

2 4. Encontrar la estimacin de la varianza al interior de las muestras s w y sus grados de libertad

asociados glw. 5. Calcular la gran media para la muestra de las medias mustrales.
2 6. Determinar la estimacin de la varianza entre muestras sb y sus grados de libertad asociados.

7. Hallar el valor del estadstico de la prueba F. 8. Calcular el valor crtico para F basado en glb y glw. 9. Decidir si se rechaza H0. Calculo Manual Se utilizan las frmulas siguientes: Suma de cuadrados total (SST o SCT)

SCT =

( Xij X )
i =1 j =1

*** * * * * *** **

**

Xi valores individuales X Media de medias

** **

Suma de cuadrados de los tratamientos o niveles (SSTr o SCTr):

SCTR = rj ( X j X ) 2
j =1

Media X3

*
5 5 4

* *
Media X2

Media X1 Suma de cuadrados del error (SSE o SCE):

SCE =
i =1

(X
j =1

ij

X j )2 Pgina 2

ANOVA

P. Reyes / Nov. 2004

** Xi * ** *** * O tambin SCE = SCT - SCTr Grados de libertad: Gl. Totales = n 1 Gl. Tratamientos = c -1 Gl. Error = n c Cuadrados medios (MS o CM): CMT = SCT / Gl. SCT CMTr = SCTr / Gl. SCTr CME = SCE / Gl. SCE Estadstico calculado Fc: Fc = CMTr / CME P value = distr.f (Fc, Gl. CMtr, Gl. CME) F crtica de tables o Excel = distr.f.inv(alfa, Gl. CMT, Gl. CME) * X media 1 Xmedia 2 Xi ** * *

Xmedia 3 ** * Xi *

Si P es menor a alfa o Fc es mayor a Ft se rechaza Ho indicando que los efectos de los diferentes niveles del factor tienen efecto significativo en la respuesta. Distr. F

NO RECHAZAR

ZONA DE RECHAZo Alfa

La tabla de ANOVA final queda como sigue:

Pgina 3

ANOVA

P. Reyes / Nov. 2004

TABLA DE ANOVA GRADOS DE LIBERTAD

FUENTE DE VARIACIN

SUMA DE CUADRADOS

CUADRADO MEDIO

VALOR F

Entre muestras (tratam.) Dentro de muestras (err.) Variacin total

SCTR SCE SCT

c-1 n-c n-1

CMTR CME CMT

CMTR/CME

Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa Si las medias son diferentes se puede aplicar la prueba de Tukey o DMS como sigue: PRUEBA DE TUKEY Se utiliza para diseos balanceados (todos los tratamientos tienen asignado el mismo nmero de elementos) Se utiliza el estadstico T

Se compara T vs la diferencia en valor absoluto de las medias son diferentes cada par de medias, si esta dif. Excede a T, ,c , n c o iguales en caso contrario. n = 16 r=4 c= 4 Alfa=0.05 Por ejemplo: 3.6 CME = 19.6875 T Medias q.05,4,12= 4.2 9.31 X1 = 145 !X1 - X2!= 0.25 X1=X2 X2= 145.25 !X1-X3! = 12.75 X1<>X3 X3= 132.25 !X1-X4!= 15.75 X1<>X4 X4= 129.25 !X2-X3!= 13 X2<>X3 !X2-X4!= 16 X2<>X4 !X3-X4!= 3 X3=X4

T =q

CME r

X4

X3

X1 X2
145 145.2

DMS =3.41

129.25 132.25

Pgina 4

ANOVA

P. Reyes / Nov. 2004

DMS MEDIAS IGUALES 9.45 Otro mtodo ms conservador es el la DIFERENCIA MNIMA SIGNIFICATIVA DMS MEDIAS DIFERENTES

DMS =

2(CME ) F ,1,nc r

r=4 F = DISTR.F.INV(alfa, gl. =1, gl. CME =12)

CME = r= F.05,1,12 187.0313

19.6875 4 4.75 46.75781 6.837968

Para el caso de diseos no balanceados se utiliza el mtodo DMS para comparar cada par de muestras

1 1 D M Sj ,k = + (C M E F ,c 1,n c ) rj rk
r j es el nmero de elementos asignados al tratamiento j r k es el nmero de elementos asignados al tratamiento k Verificar si X1 = X2 DMS 1,2 ? Por ejemplo: y si X2 = X3 en el ejemplo de empleados. DMS 2,3 ? 3.4 Para comparar X1-X2 r1 = 5 r2=4 F=3.34 Alfa =.05 CME=0.02571

X1=21.74 X2=21.5

DMS =

0.1965

X1-X2=

0.24

Se concluye que X1 y X2 son diferentes

Pgina 5

ANOVA Utilizando los paquetes de Excel y Minitab se tiene: Ejemplo 1:

P. Reyes / Nov. 2004

Tres tipos distintos de motores de gasolina fueron probados para determinar cunto tiempo son tiles antes de necesitar una reparacin; si los tiempos de vida de los motores de cada tipo se distribuyen normalmente y tienen la misma varianza, haga una prueba usando = 0.05 para determinar si difieren las medias de vida til antes de requerir una reparacin. En la tabla aparecen los tiempos de vida til, en decenas de miles de millas para cada tipo de motor.

A 6 2 4 1 7

B 8 7 7 2 6

C 3 2 5 4 1

Mediante Minitab determinamos si las muestras provienen de una poblacin Normal. Seleccione en el menu para cada muestra: Stat > Basic statistics > Normality test Variable Columnas de datos Test for normality Seleccionar Ryan Joiner OK .
P r obabi l i ty P l ot of A
Normal
99 Mean StDev N RJ P-Value 4 2.550 5 0.982 >0.100

Hay normalidad si P value es >=0.05

95 90 80 70

Per ce nt

60 50 40 30 20 10 5

-2

4 A

10

Pgina 6

ANOVA

P. Reyes / Nov. 2004

P r obabi l i ty P l ot of B
Normal
99 Mean StDev N RJ P-Value 6 2.345 5 0.909 >0.100

95 90 80 70

Per ce nt

60 50 40 30 20 10 5

6 B

10

12

P r obabi l i ty P l ot of C
Normal
99 Mean StDev N RJ P-Value 3 1.581 5 0.998 >0.100

95 90 80 70

Per cent

60 50 40 30 20 10 5

-1

3 C

Analizando las grficas nos damos cuenta de que las muestras provienen de poblaciones normales.

Si denotamos por

1, 2 y 3 las medias poblacionales de los tiempos de vida til para los tipos A,

B y C, respectivamente, entonces podemos escribir las hiptesis estadsticas como:

H 0 : 1 = 2 = 3
H1: Al menos dos medias poblacionales no son iguales.

Pgina 7

ANOVA Procedimiento en Excel:

P. Reyes / Nov. 2004

En el men herramientas seleccione la opcin Anlisis de datos, en funciones para


anlisis seleccione Anlisis de varianza de un factor. En Rango de entrada seleccionar la matriz de datos.

Alfa = 0.05 En Rango de salida indicar la celda donde se inciar la presentacin de resultados.
Anlisis de varianza de un factor RESUM EN G rupos Columna 1 Columna 2 Columna 3

Cuenta 5 5 5

Sum a 20 30 15

Prom edio 4 6 3

Varianza 6.5 5.5 2.5

ANLISIS D E VARIANZA O rigen de las variaciones Sum a de cuadradosG rados de libertad Prom edio de los cuadrados F Probabilidad Valor crtico para F Entre grupos 23.33333333 2 11.666666672.413793103 0.13150932 3.885290312 Dentro de los grupos 58 12 4.833333333 Total 81.33333333 14

En la tabla observamos que el estadstico de prueba Fc es menor al valor crtico para F 2.41<3.88, por lo cual no rechazamos al Hiptesis nula H0. No tenemos evidencia estadstica para afirmar que los tiempos de vida til de los motores, antes de requerir una reparacin son diferentes.

Pgina 8

ANOVA ANOVA en Minitab. Utilice

P. Reyes / Nov. 2004

= 0.05 para calcular si difiere el rendimiento de los motores.

Seleccionar: Stat > ANOVA > One Way (Unstacked) Response in separate columns A, B, C Seleccionar ! Store Residuals ! Store Fits Graphs Seleccionar Normal plot of residuals Comparisons Seleccionar Tukeys Family error rate OK Resultados: La grfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el modelo:

Confidence level 95%

N or mal P r obabil i ty P lot of the R esi dual s


(responses are A, B, C)
99

95 90 80 70

Per cent

60 50 40 30 20 10 5

-5.0

-2.5

0.0 Res idual

2.5

5.0

One-way ANOVA: A, B, C
Source Factor Error Total DF 2 12 14 SS 23.33 58.00 81.33 MS 11.67 4.83 F 2.41 P 0.132

Como este valor P es mayor a 0.05 se rechaza la hiptesis nula y A, B y C no tienen efecto en la respuesta.
S = 2.198 R-Sq = 28.69% R-Sq(adj) = 16.80%

Pgina 9

ANOVA

P. Reyes / Nov. 2004

Level A B C

N 5 5 5

Mean 4.000 6.000 3.000

StDev 2.550 2.345 1.581

Individual 95% CIs For Mean Based on Pooled StDev ------+---------+---------+---------+--(----------*----------) (----------*----------) (----------*----------) ------+---------+---------+---------+--2.0 4.0 6.0 8.0

Pooled StDev = 2.198

Los intervalos de confianza de los tres niveles A, B, C del factor se pueden traslapar por tanto sus efectos no son diferentes.
Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons Individual confidence level = 97.94% A subtracted from: B C Lower -1.707 -4.707 Center 2.000 -1.000 Upper 5.707 2.707 ---------+---------+---------+---------+ (----------*---------) (---------*----------) ---------+---------+---------+---------+ -3.5 0.0 3.5 7.0

B subtracted from: C Lower -6.707 Center -3.000 Upper 0.707 ---------+---------+---------+---------+ (---------*----------) ---------+---------+---------+---------+ -3.5 0.0 3.5 7.0

Como el cero pertenece al intervalo de confianza de las diferencias entre A y B; A y C y entre B y C no hay diferencia entre el efecto entre estos niveles.
A continuacin se muestran los residuos y los valores estimados para la respuesta Y por el modelo:

RESI1 2 -2 0 -3 3

RESI2 2 1 1 -4 0

RESI3 0 -1 2 1 -2

FITS1 4 4 4 4 4

FITS2 6 6 6 6 6

FITS3 3 3 3 3 3

Donde cada residuo es Eij = Yij observado Yij estimado Yij estimado es el promedio en cada columna. Ejemplo 2: La tabla adjunta contiene el nmero de palabras escritas por minuto por cuatro secretarias de la universidad en cinco ocasiones diferentes usando la misma mquina.

Pgina 10

ANOVA
A 82 79 75 68 65 B 55 67 84 77 71 C 69 72 78 83 74 D 87 61 82 61 72

P. Reyes / Nov. 2004

La grfica de residuos es la siguiente, mostrando que el modelo es vlido:


N or mal P r obabil i ty P lot of the R esi dual s
(responses are A, B, C, D)
99

95 90 80 70

Per cent

60 50 40 30 20 10 5

-20

-10

0 Res idual

10

20

One-way ANOVA: A, B, C, D
Source Factor Error Total DF 3 16 19 SS 52.2 1367.6 1419.8 MS 17.4 85.5 F 0.20 P 0.892

Como el valor P de 0.892 es mayor a alfa de 0.05 no hay efecto en la respuesta cambiando los niveles del factor A, B, C y D.
S = 9.245 R-Sq = 3.68% R-Sq(adj) = 0.00% Individual 95% CIs For Mean Based on Pooled StDev -------+---------+---------+---------+-(--------------*--------------) (--------------*--------------) (-------------*--------------) (--------------*--------------) -------+---------+---------+---------+-66.0 72.0 78.0 84.0

Level A B C D

N 5 5 5 5

Mean 73.800 70.800 75.200 72.600

StDev 7.190 10.918 5.450 11.887

Pooled StDev = 9.245

Se pueden traslapar los intervalos de confianza de los niveles del factor, por tanto no hay diferencia significativa en sus efectos.

Pgina 11

ANOVA
Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons Individual confidence level = 98.87% A subtracted from: B C D Lower -19.745 -15.345 -17.945 Center -3.000 1.400 -1.200 Upper 13.745 18.145 15.545

P. Reyes / Nov. 2004

--------+---------+---------+---------+(-------------*------------) (-------------*-------------) (-------------*-------------) --------+---------+---------+---------+-12 0 12 24

B subtracted from: C D Lower -12.345 -14.945 Center 4.400 1.800 Upper 21.145 18.545 --------+---------+---------+---------+(-------------*-------------) (------------*-------------) --------+---------+---------+---------+-12 0 12 24

C subtracted from: D Lower -19.345 Center -2.600 Upper 14.145 --------+---------+---------+---------+(-------------*-------------) --------+---------+---------+---------+-12 0 12 24

En la prueba de Tukey como el cero pertenece a los intervalos de confianza de todas las diferencias entre niveles A, B, C y D, no hay diferencia entre sus efectos en la respuesta.

Pgina 12

ANOVA

P. Reyes / Nov. 2004

ANALISIS DE VARIANZA DE DOS VAS o DIRECCIONES (ANOVA 2 VIAS)


En este caso las frmulas son parecidas a la del ANOVA de una va pero ahora agregando el clculo por renglones adicional al de columnas donde se incluye la variable de bloqueo. Ejemplo con Minitab o Excel del Texto de Montgomery, Anlisis y diseo de experimentos. Problema 4.1 Un qumico quiere probar el efecto de 4 agentes qumicos sobre la resistencia de un tipo particular de tela. Debido a que podra haber variabilidad de un rollo de tela a otro, el qumico decide usar un diseo de bloques aleatorizados, con los rollos de tela considerados como bloques. Selecciona 5 rollos y aplica los 4 agentes qumicos de manera aleatoria a cada rollo. A continuacin se presentan las resistencias a la tencin resultantes. Analizar los datos de este experimento (utilizar =0.05) y sacar las conclusiones apropiadas. Rollo Agente Qumico 1 2 3 4 Solucin Rollo Agente Qumico 1 2 3 4 Y.j 1 73 73 75 73 73.5 2 68 67 68 71 68.5 3 74 75 78 75 75.5 4 71 72 73 75 72.75 5 67 70 68 69 68.5 70.6 71.4 72.4 72.6 71.75 Yi. Y (gran promedio) 1 73 73 75 73 2 68 67 68 71 3 74 75 78 75 4 71 72 73 75 5 67 70 68 69

72.35 73.15 74.15 74.35

Yijestimada (FITS) 67.35 74.35 68.15 75.15 69.15 76.15 69.35 76.35 Residuos (Eij) 0.65 -0.35 -1.15 -0.15 -1.15 1.85 1.65 -1.35

71.6 72.4 73.4 73.6

67.35 68.15 69.15 69.35

0.65 -0.15 0.85 -1.35

-0.6 -0.4 -0.4 1.4

-0.35 1.85 -1.15 -0.35

Anlisis de varianza de dos factores con una sola muestra por grupo

Pgina 13

ANOVA

P. Reyes / Nov. 2004

RESUMEN

Cuenta

Suma

Promedio

Varianza

Fila 1 5 353 Fila 2 5 357 Fila 3 5 362 Fila 4 5 363 Columna 1 4 294 Columna 2 4 274 Columna 3 4 302 Columna 4 4 291 Columna 5 4 274 ANLISIS DE VARIANZA Origen de Suma de Grados Promedio F las cuadrados de de los variaciones libertad cuadrados Filas Columnas Error Total 12.95 157 21.8 191.75 3 4.31666667 2.376146789 4 39.25 21.60550459 12 1.81666667 19

70.6 9.3 71.4 9.3 72.4 19.3 72.6 6.8 73.5 1 68.5 3 75.5 3 72.75 2.916666667 68.5 1.666666667 Probabilidad Valor crtico para F

0.12114447 3.4902948 2.05918E-05 3.2591667

Para el caso de los agentes qumicos que son los renglones: La Ho. No se rechaza debido a que el valor de tablas de f esta en 3.49 y el valor Fc calculado es de 2.37 por lo tanto no cae en la zona de rechazo. Calculo del valor P 0.12114447 Por otro lado el valor P = 0.1211 es mayor a 0.05 de alfa por lo tanto confirma el no rechazo. Para el caso de los rollos que son las columnas: La Ho. se rechaza debido a que el valor de tablas de f esta en 3.25 y el valor Fc calculado es 21.60 por lo tanto cae en la zona de rechazo. Calculo del valor P 3.96618E-05 Por otro lado el valor P = 0.00003 es menor a 0.05 de alfa por lo tanto confirma el rechazo.

Pgina 14

ANOVA Procedimiento en Excel:

P. Reyes / Nov. 2004

En el men herramientas seleccione la opcin anlisis de datos, en funciones para


anlisis seleccione anlisis de varianza de dos factores con una sola muestra por grupo. En Rango de entrada seleccionar la matriz de datos. Alfa = 0.05 En Rango de salida indicar la celda donde se iniciar la presentacin de resultados.

Anlisis de varianza de dos factores con una sola muestra por grupo RESUME N Fila 1 Fila 2 Fila 3 Fila 4 Columna 1 Columna 2 Columna 3 Columna 4 Columna 5 Varianz a 9.3 9.3 19.3 6.8 1 3 3 2.92 1.67

Cuenta 5 5 5 5 4 4 4 4 4

Suma Promedio 353 70.6 357 71.4 362 72.4 363 72.6 294 274 302 291 274 73.5 68.5 75.5 72.75 68.5

ANLISIS DE VARIANZA Fuente de variacin Filas Columnas Error Total Total Suma de Cuadrado s 12.95 157 21.8 191.75 231 Grados de libertad 3 4 12 19 24 Cuadrado s medios 4.32 39.25 1.82 Fc Probabilida d Valor P 0.12 2.06E-05 F tablas

2.38 21.61

3.49 3.26

En la tabla observamos que el estadstico de prueba Fc es menor al valor crtico para F 2.38<3.49, por lo cual no rechazamos al Hiptesis nula H0. No tenemos evidencia estadstica para afirmar que el agente qumico tenga influencia en la respuesta. Sin embargo observamos que el rollo si tiene influenza significativa en la respuesta (P<0.05).

Pgina 15

ANOVA ANOVA en Minitab. Utilice

P. Reyes / Nov. 2004

= 0.05 para calcular si hay diferencias entre los efectos de las columnas y los renglones.

Introducir los datos arreglados con las respuestas en una sola columna e indicando a que rengln y columna pertenece cada uno de estos, como sigue: Resp 73 73 75 73 68 67 68 71 74 75 78 75 71 72 73 75 67 70 68 69 Columna 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 Fila 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

Instrucciones: Stat > ANOVA > One two Way Response Respuesta, indicar Row factor y Column Factor, Seleccionar ! Display Means Seleccionar ! Store Residuals ! Store Fits Confidence level 95% Graphs Seleccionar Normal plot of residuals OK Resultados: La grfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el modelo:

Los residuos se aproximan a la distribucin normal por lo cual se concluye que se est utilizando un modelo vlido.

Pgina 16

ANOVA

P. Reyes / Nov. 2004

N or mal P r obabi l i ty P l ot of the R esi dual s


(response is Resp)
99

95 90 80 70

Percent

60 50 40 30 20 10 5

-3

-2

-1

0 Residual

Two-way ANOVA: Resistencia versus Agente Qumico, Rollo


Source Agente Qumico Rollo Error Total S = 1.348 DF 3 4 12 19 SS 12.95 157.00 21.80 191.75 MS 4.3167 39.2500 1.8167 F 2.38 21.61 P 0.121 0.000

R-Sq = 88.63%

R-Sq(adj) = 82.00%

Como el valor de P es menor a 0.05 el Rollo tiene influencia significativa en la resistencia.


Agente Qumico 1 2 3 4 Individual 95% CIs For Mean Based on Pooled StDev ---+---------+---------+---------+-----(----------*----------) (----------*----------) (----------*----------) (----------*----------) ---+---------+---------+---------+-----69.6 70.8 72.0 73.2 Individual 95% CIs For Mean Based on Pooled StDev --+---------+---------+---------+------(-----*-----) (-----*-----) (-----*-----) (-----*-----) (-----*-----) --+---------+---------+---------+------67.5 70.0 72.5 75.0

Mean 70.6 71.4 72.4 72.6

Rollo 1 2 3 4 5

Mean 73.50 68.50 75.50 72.75 68.50

Pgina 17

ANOVA

P. Reyes / Nov. 2004

Se seleccionaran en 2 y 5 rollo ya que tienen los valores ms pequeos.


Los Fits y los residuales coinciden con los valores determinados en Excel. Resp 73 73 75 73 68 67 68 71 74 75 78 75 71 72 73 75 67 70 68 69 Columna 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 Fila 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 RESI1 0.65 -0.15 0.85 -1.35 0.65 -1.15 -1.15 1.65 -0.35 -0.15 1.85 -1.35 -0.6 -0.4 -0.4 1.4 -0.35 1.85 -1.15 -0.35 FITS1 72.35 73.15 74.15 74.35 67.35 68.15 69.15 69.35 74.35 75.15 76.15 76.35 71.6 72.4 73.4 73.6 67.35 68.15 69.15 69.35 RESI2 0.65 -0.15 0.85 -1.35 0.65 -1.15 -1.15 1.65 -0.35 -0.15 1.85 -1.35 -0.6 -0.4 -0.4 1.4 -0.35 1.85 -1.15 -0.35 FITS2 72.35 73.15 74.15 74.35 67.35 68.15 69.15 69.35 74.35 75.15 76.15 76.35 71.6 72.4 73.4 73.6 67.35 68.15 69.15 69.35

Pgina 18