Documentos de Académico
Documentos de Profesional
Documentos de Cultura
H 0 = 1 = 2 = 3 = .... = k
Como el ANOVA de un criterio es una generalizacin de la prueba de t para dos muestras, los supuestos para el ANOVA de un criterio son: 1. Todas las poblaciones k son normales. 2 2 2 2 2 2. 1 = 2 = 3 = ..... = k =
El mtodo de ANOVA con un criterio requiere del clculo de dos estimaciones independientes para
2 2 2 2 , la varianza poblacional comn. Estas dos estimaciones se denotan por sb y s w . sb se
denomina estimacin de la varianza entre muestras y s w se denomina estimacin de la varianza al interior de las muestras. El estadstico tiene una distribucin muestral resultando:
2 sb F= 2 sw
F ( k 1, k ( n 1))
Donde el nmero de grados de libertad para el numerador es k-1 y para el denominador es k(n-1), siendo el nivel de significancia. k = nmero de muestras. El Procedimiento es el siguiente1: 1. Determinar si las muestras provienen de poblaciones normales. 2. Proponer las hiptesis. 3. Encontrar las medias poblacionales y las varianzas.
1
Pgina 1
ANOVA
4. Encontrar la estimacin de la varianza al interior de las muestras s w y sus grados de libertad asociados glw. 5. Calcular la gran media para la muestra de las medias mustrales. 2 6. Determinar la estimacin de la varianza entre muestras s b y sus grados de libertad asociados. 7. Hallar el valor del estadstico de la prueba F. 8. Calcular el valor crtico para F basado en glb y glw. 9. Decidir si se rechaza H0. Calculo Manual Se utilizan las frmulas siguientes: Suma de cuadrados total (SST o SCT)
SCT =
i =1
( Xij X )
j =1
*** * * * * *** **
**
** **
SCTR = r j ( X j X ) 2
j =1
Media X3
*
5 5 4
* *
Media X2
SCE =
i =1
( X
j =1
ij
X j )2
Pgina 2
ANOVA
** Xi * ** *** * O tambin SCE = SCT - SCTr Grados de libertad: Gl. Totales = n 1 Gl. Tratamientos = c -1 Gl. Error = n c Cuadrados medios (MS o CM): CMT = SCT / Gl. SCT CMTr = SCTr / Gl. SCTr CME = SCE / Gl. SCE Estadstico calculado Fc: Fc = CMTr / CME P value = distr.f (Fc, Gl. CMtr, Gl. CME) F crtica de tables o Excel = distr.f.inv(alfa, Gl. CMT, Gl. CME) * X media 1 Xmedia 2 Xi ** * *
Xmedia 3 ** * Xi *
Si P es menor a alfa o Fc es mayor a Ft se rechaza Ho indicando que los efectos de los diferentes niveles del factor tienen efecto significativo en la respuesta. Distr. F
NO RECHAZAR
Pgina 3
ANOVA
FUENTE DE VARIACIN
SUMA DE CUADRADOS
CUADRADO MEDIO
VALOR F
CMTR/CME
Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa Si las medias son diferentes se puede aplicar la prueba de Tukey o DMS como sigue: PRUEBA DE TUKEY Se utiliza para diseos balanceados (todos los tratamientos tienen asignado el mismo nmero de elementos) Se utiliza el estadstico T
CME T = q,c , n c de Se compara T vs la diferencia en valor absoluto r cada par de medias, si esta dif. Excede a T, las medias son diferentes o iguales en caso contrario. n = 16 r=4 c= 4 Alfa=0.05 Por ejemplo: 3.6 CME = 19.6875 T Medias q.05,4,12= 4.2 9.31 X1 = 145 !X1 - X2!= 0.25 X1=X2 X2= 145.25 !X1-X3! = 12.75 X1<>X3 X3= 132.25 !X1-X4!= 15.75 X1<>X4 X4= 129.25 !X2-X3!= 13 X2<>X3 !X2-X4!= 16 X2<>X4 !X3-X4!= 3 X3=X4
X4
X3
X1 X2
DMS =3.41
Pgina 4
ANOVA
129.25 132.25
145 145.2
DMS
MEDIAS DIFERENTES
DMS =
2(CME ) F,1,n c r
Para el caso de diseos no balanceados se utiliza el mtodo DMS para comparar cada par de muestras
1 1 DMS j ,k = + (CME ) F,c 1, n c rk r j
r j es el nmero de elementos asignados al tratamiento j r k es el nmero de elementos asignados al tratamiento k Verificar si X1 = X2 DMS 1,2 ? Por ejemplo: y si X2 = X3 en el ejemplo de empleados. DMS 2,3 ? 3.4 Para comparar X1-X2 r1 = 5 r2=4 DMS = F=3.34 Alfa =.05 CME=0.02571 0.24
Pgina 5
ANOVA
0.1965
Se concluye que X1 y X2 son diferentes Utilizando los paquetes de Excel y Minitab se tiene: Ejemplo 1: Tres tipos distintos de motores de gasolina fueron probados para determinar cunto tiempo son tiles antes de necesitar una reparacin; si los tiempos de vida de los motores de cada tipo se distribuyen normalmente y tienen la misma varianza, haga una prueba usando = 0.05 para determinar si difieren las medias de vida til antes de requerir una reparacin. En la tabla aparecen los tiempos de vida til, en decenas de miles de millas para cada tipo de motor.
A 6 2 4 1 7
B 8 7 7 2 6
C 3 2 5 4 1
Mediante Minitab determinamos si las muestras provienen de una poblacin Normal. Seleccione en el menu para cada muestra: Stat > Basic statistics > Normality test Variable Columnas de datos Test for normality Seleccionar Ryan Joiner OK .
Probability Plot of A
Normal
99 Mean StDev N RJ P-Value 4 2.550 5 0.982 >0.100
95 90 80
Percent
70 60 50 40 30 20 10 5
-2
4 A
10
Pgina 6
ANOVA
Probability Plot of B
Normal
99 Mean StDev N RJ P-Value 6 2.345 5 0.909 >0.100
95 90 80
Percent
70 60 50 40 30 20 10 5
6 B
10
12
Probability Plot of C
Normal
99 Mean StDev N RJ P-Value 3 1.581 5 0.998 >0.100
95 90 80
Percent
70 60 50 40 30 20 10 5
-1
3 C
Analizando las grficas nos damos cuenta de que las muestras provienen de poblaciones normales.
Si denotamos por 1, 2 y 3 las medias poblacionales de los tiempos de vida til para los tipos A, B y C, respectivamente, entonces podemos escribir las hiptesis estadsticas como:
H 0 : 1 = 2 = 3
H1: Al menos dos medias poblacionales no son iguales.
Pgina 7
ANOVA Procedimiento en Excel: En el men herramientas seleccione la opcin Anlisis de datos, en funciones para anlisis seleccione Anlisis de varianza de un factor. En Rango de entrada seleccionar la matriz de datos.
Alfa = 0.05 En Rango de salida indicar la celda donde se inciar la presentacin de resultados.
Anlisis de varianza de un factor RESUMEN Grupos Columna 1 Columna 2 Columna 3
Cuenta 5 5 5
Suma 20 30 15
Promedio 4 6 3
ANLISIS DE VARIANZA Origen de las variaciones Entre grupos Dentro de los grupos Total
Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crtico para F 23.33333333 2 11.66666667 2.413793103 0.13150932 3.885290312 58 12 4.833333333 81.33333333 14
En la tabla observamos que el estadstico de prueba Fc es menor al valor crtico para F 2.41<3.88, por lo cual no rechazamos al Hiptesis nula H 0. No tenemos evidencia estadstica para afirmar que los tiempos de vida til de los motores, antes de requerir una reparacin son diferentes.
Pgina 8
ANOVA ANOVA en Minitab. Utilice = 0.05 para calcular si difiere el rendimiento de los motores. Seleccionar: Stat > ANOVA > One Way (Unstacked) Response in separate columns A, B, C Seleccionar ! Store Residuals ! Store Fits Graphs Seleccionar Normal plot of residuals Comparisons Seleccionar Tukeys Family error rate OK Resultados: La grfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el modelo:
95 90 80
Percent
70 60 50 40 30 20 10 5
-5.0
-2.5
0.0 Residual
2.5
5.0
One-way ANOVA: A, B, C
Source Factor Error Total DF 2 12 14 SS 23.33 58.00 81.33 MS 11.67 4.83 F 2.41 P 0.132
Como este valor P es mayor a 0.05 se rechaza la hiptesis nula y A, B y C no tienen efecto en la respuesta.
S = 2.198 R-Sq = 28.69% R-Sq(adj) = 16.80%
Pgina 9
ANOVA
Level A B C
N 5 5 5
Individual 95% CIs For Mean Based on Pooled StDev ------+---------+---------+---------+--(----------*----------) (----------*----------) (----------*----------) ------+---------+---------+---------+--2.0 4.0 6.0 8.0
Los intervalos de confianza de los tres niveles A, B, C del factor se pueden traslapar por tanto sus efectos no son diferentes.
Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons Individual confidence level = 97.94% A subtracted from: B C Lower -1.707 -4.707 Center 2.000 -1.000 Upper 5.707 2.707 ---------+---------+---------+---------+ (----------*---------) (---------*----------) ---------+---------+---------+---------+ -3.5 0.0 3.5 7.0
B subtracted from: C Lower -6.707 Center -3.000 Upper 0.707 ---------+---------+---------+---------+ (---------*----------) ---------+---------+---------+---------+ -3.5 0.0 3.5 7.0
Como el cero pertenece al intervalo de confianza de las diferencias entre A y B; A y C y entre B y C no hay diferencia entre el efecto entre estos niveles.
A continuacin se muestran los residuos y los valores estimados para la respuesta Y por el modelo:
RESI1 2 -2 0 -3 3
RESI2 2 1 1 -4 0
RESI3 0 -1 2 1 -2
FITS1 4 4 4 4 4
FITS2 6 6 6 6 6
FITS3 3 3 3 3 3
Donde cada residuo es Eij = Yij observado Yij estimado Yij estimado es el promedio en cada columna. Ejemplo 2: La tabla adjunta contiene el nmero de palabras escritas por minuto por cuatro secretarias de la universidad en cinco ocasiones diferentes usando la misma mquina.
Pgina 10
ANOVA
A 82 79 75 68 65 B 55 67 84 77 71 C 69 72 78 83 74 D 87 61 82 61 72
95 90 80
Percent
70 60 50 40 30 20 10 5
-20
-10
0 Residual
10
20
One-way ANOVA: A, B, C, D
Source Factor Error Total DF 3 16 19 SS 52.2 1367.6 1419.8 MS 17.4 85.5 F 0.20 P 0.892
Como el valor P de 0.892 es mayor a alfa de 0.05 no hay efecto en la respuesta cambiando los niveles del factor A, B, C y D.
S = 9.245 R-Sq = 3.68% R-Sq(adj) = 0.00% Individual 95% CIs For Mean Based on Pooled StDev -------+---------+---------+---------+-(--------------*--------------) (--------------*--------------) (-------------*--------------) (--------------*--------------) -------+---------+---------+---------+-66.0 72.0 78.0 84.0
Level A B C D
N 5 5 5 5
Se pueden traslapar los intervalos de confianza de los niveles del factor, por tanto no hay diferencia significativa en sus efectos.
Pgina 11
ANOVA
Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons Individual confidence level = 98.87% A subtracted from: B C D Lower -19.745 -15.345 -17.945 Center -3.000 1.400 -1.200 Upper 13.745 18.145 15.545 --------+---------+---------+---------+(-------------*------------) (-------------*-------------) (-------------*-------------) --------+---------+---------+---------+-12 0 12 24
B subtracted from: C D Lower -12.345 -14.945 Center 4.400 1.800 Upper 21.145 18.545 --------+---------+---------+---------+(-------------*-------------) (------------*-------------) --------+---------+---------+---------+-12 0 12 24
C subtracted from: D Lower -19.345 Center -2.600 Upper 14.145 --------+---------+---------+---------+(-------------*-------------) --------+---------+---------+---------+-12 0 12 24
En la prueba de Tukey como el cero pertenece a los intervalos de confianza de todas las diferencias entre niveles A, B, C y D, no hay diferencia entre sus efectos en la respuesta.
Pgina 12
ANOVA
Solucin Rollo Agente Qumico 1 2 3 4 Y.j 1 73 73 75 73 73.5 2 68 67 68 71 68.5 3 74 75 78 75 75.5 4 71 72 73 75 72.75 5 67 70 68 69 68.5 70.6 71.4 72.4 72.6 71.75 Yi. Y (gran promedio)
Pgina 13
ANOVA
Yijestimada (FITS) 67.35 74.35 68.15 75.15 69.15 76.15 69.35 76.35 Residuos (Eij) 0.65 -0.35 -1.15 -0.15 -1.15 1.85 1.65 -1.35
Anlisis de varianza de dos factores con una sola muestra por grupo RESUMEN Cuenta Suma Promedio Varianza
Fila 1 5 353 Fila 2 5 357 Fila 3 5 362 Fila 4 5 363 Columna 1 4 294 Columna 2 4 274 Columna 3 4 302 Columna 4 4 291 Columna 5 4 274 ANLISIS DE VARIANZA Origen de Suma de Grados Promedio F las cuadrados de de los variaciones libertad cuadrados Filas Columnas Error Total 12.95 157 21.8 191.75 3 4.31666667 2.376146789 4 39.25 21.60550459 12 1.81666667 19
70.6 9.3 71.4 9.3 72.4 19.3 72.6 6.8 73.5 1 68.5 3 75.5 3 72.75 2.916666667 68.5 1.666666667 Probabilidad Valor crtico para F
Pgina 14
ANOVA La Ho. No se rechaza debido a que el valor de tablas de f esta en 3.49 y el valor Fc calculado es de 2.37 por lo tanto no cae en la zona de rechazo. Calculo del valor P 0.12114447 Por otro lado el valor P = 0.1211 es mayor a 0.05 de alfa por lo tanto confirma el no rechazo. Para el caso de los rollos que son las columnas: La Ho. se rechaza debido a que el valor de tablas de f esta en 3.25 y el valor Fc calculado es 21.60 por lo tanto cae en la zona de rechazo. Calculo del valor P 3.96618E-05 Por otro lado el valor P = 0.00003 es menor a 0.05 de alfa por lo tanto confirma el rechazo.
Pgina 15
ANOVA Procedimiento en Excel: En el men herramientas seleccione la opcin anlisis de datos, en funciones para anlisis seleccione anlisis de varianza de dos factores con una sola muestra por grupo. En Rango de entrada seleccionar la matriz de datos. Alfa = 0.05 En Rango de salida indicar la celda donde se iniciar la presentacin de resultados.
Anlisis de varianza de dos factores con una sola muestra por grupo RESUME N Fila 1 Fila 2 Fila 3 Fila 4 Columna 1 Columna 2 Columna 3 Columna 4 Columna 5 Varianz a 9.3 9.3 19.3 6.8 1 3 3 2.92 1.67
Cuenta 5 5 5 5 4 4 4 4 4
Suma Promedio 353 70.6 357 71.4 362 72.4 363 72.6 294 274 302 291 274 73.5 68.5 75.5 72.75 68.5
ANLISIS DE VARIANZA Fuente de variacin Filas Columnas Error Total Total Suma de Cuadrado s 12.95 157 21.8 191.75 231 Grados de libertad 3 4 12 19 24 Cuadrado s medios 4.32 39.25 1.82 Fc Probabilida d Valor P 0.12 2.06E-05 F tablas
2.38 21.61
3.49 3.26
En la tabla observamos que el estadstico de prueba Fc es menor al valor crtico para F 2.38<3.49, por lo cual no rechazamos al Hiptesis nula H 0. No tenemos evidencia estadstica para afirmar que el agente qumico tenga influencia en la respuesta. Sin embargo observamos que el rollo si tiene influenza significativa en la respuesta (P<0.05).
Pgina 16
ANOVA ANOVA en Minitab. Utilice = 0.05 para calcular si hay diferencias entre los efectos de las columnas y los renglones. Introducir los datos arreglados con las respuestas en una sola columna e indicando a que rengln y columna pertenece cada uno de estos, como sigue: Resp 73 73 75 73 68 67 68 71 74 75 78 75 71 72 73 75 67 70 68 69 Columna 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 Fila 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Instrucciones: Stat > ANOVA > One two Way Response Respuesta, indicar Row factor y Column Factor, Seleccionar ! Display Means Seleccionar ! Store Residuals ! Store Fits Confidence level 95% Graphs Seleccionar Normal plot of residuals OK Resultados: La grfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el modelo:
Los residuos se aproximan a la distribucin normal por lo cual se concluye que se est utilizando un modelo vlido.
Pgina 17
ANOVA
95 90 80
Percent
70 60 50 40 30 20 10 5
-3
-2
-1
0 Residual
R-Sq = 88.63%
R-Sq(adj) = 82.00%
Rollo 1 2 3 4 5
Pgina 18
ANOVA
Pgina 19