Documentos de Académico
Documentos de Profesional
Documentos de Cultura
An Lisis de Varianza
An Lisis de Varianza
2007
ANÁLISIS DE VARIANZA
ANOVA DE UNA VÍA
Mail: primitivo_reyes@yahoo.com
Tel. 58 83 41 67 / Cel. 044 55 52 17 49 12
Página 1 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
CONTENIDO
1. ANOVA
2. Ejercicios
Página 2 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
H 0 1 2 3 .... k
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes
son:
sb2
Fc
sw2
F ( k 1, k ( n 1))
Donde el número de grados de libertad para el numerador es k-1 y para el denominador es k(n-
1), siendo el nivel de significancia.
k = número de muestras.
Por ejemplo:
Página 3 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
TRATAMIENTOS
1. Variación total entre los 14 empleados, su puntuación no fue igual con todos
VARIACIÓN TOTAL RESPECTO A LA MEDIA GENERAL
r c 2
SCT ( Xij X )
i 1 j 1
r
SCTR rj ( X j X ) 2
j 1
Página 4 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
r c
SCE (X ij X j )2
i 1 j 1
4. GRADOS DE LIBERTAD
Página 5 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
ZONA DE
NO RECHAZAR RECHAZO
Distr. F
7. VALOR P DE Fc
Página 6 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
TABLA DE ANOVA
Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
USO DE EXCEL:
Grados
ANÁLISIS DE VARIANZA de Promedio de
Suma Probabilida
Variaciones cuadrados libertad Cuadrados Fc d F crítica
Entre grupos 65.71428571 2 32.85714286 1.9431644 0.18937731 3.98229796
Dentro de
grupos 186 11 16.90909091
Total 251.7142857 13
USO DE MINITAB
Stat > ANOVA > One Way (Unstacked)
en Responses in separate columns Indicar las columnas de datos
En Confidence Level 95%
Seleccionar Comparisons Tukey 5%
Página 7 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
OK
NOTA: Si los Intervalos de confianza se traslapan, las medias son iguales estadísticamente
Página 8 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
2. EJERCICIOS:
A B C D
75 78 55 64
93 91 66 72
78 97 49 68
71 82 64 77
63 85 70 56
76 77 68 95
A B C
85 71 59
75 75 64
82 73 62
76 74 69
71 69 75
85 82 67
4. Probar si hay diferencia en los tiempos de servicio de 4 unidades de negocio para el mismo
servicio a un nivel de significancia del 5%.
Página 9 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
A B C D
5.4 8.7 11.1 9.9
7.8 7.4 10.3 12.8
5.3 9.4 9.7 12.1
7.4 10.1 10.3 10.8
8.4 9.2 9.2 11.3
7.3 9.8 8.8 11.5
Página 10 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
E n esta parte se analiza el caso en que se desea conocer el efecto de un solo factor o
variable independiente sobre la característica de calidad que sé esta analizando. Esto
implica que a fin de poder detectar su efecto, este factor se debe de variar manteniendo el resto
de los factores en un valor fijo.
Por otro lado en cada nivel del factor se efectúan una serie de pruebas, a cada una de estas
pruebas se les conoce como replicaciones. EL factor se considera fijo.
Ejemplo 1: Suponga que se desea saber si los ejes que surten cuatro proveedores tienen
diferente resistencia a la tracción. Para ello se decide llevar a cabo un experimento de un solo
factor donde la variable dependiente es la resistencia a la tracción del eje medida en Kgs/cm 2 y el
factor es el proveedor. El factor tiene cuatro niveles o tratamientos diferentes. Uno para cada
proveedor (llámelos I, II, III, IV) se decide probar 5 ejes de cada proveedor haciendo un total de
20 pruebas ejecutadas en la misma maquina de prueba y con él mismo operario (recuerde que el
resto de los factores se deben de mantener a un nivel fijo).
Para que el experimento sea aleatorio se numeran los ejes del 1 al 20 y se selecciona al azar un
número entre 1 y 20. Según él numero seleccionado es el siguiente eje que se prueba. De esta
manera, el siguiente eje a probar es seleccionado sin ninguna restricción. Suponga. que los
resultados de experimento se muestran en la tabla siguiente:
Página 11 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
Proveedor
I II III IV
56 64 45 42
55 61 46 39
62 50 45 45
59 55 39 43
60 56 43 41
El proveedor = factor
Tratamiento = I, II, III, IV
Con cinco replicaciones en cada tratamiento.
Observando la tabla se "ve" que existen evidentemente diferencias entre la resistencia de los
ejes de un proveedor a otro. Pero también existen entre los ejes de un mismo proveedor,
entonces, ¿la diferencia detectada entre, los ejes de un proveedor y otro existe realmente? O ¿la
diferencia es debida al azar?, La herramienta estadística conocida como análisis de varianza
(ANOVA) puede ayudar a despejar esta duda.
Para esto suponga un caso general como sigue: Si define Yij como el valor correspondiente
de la variable dependiente o característica de calidad de la i-ésima observación o replicación
bajo el tratamiento j, los resultados de un experimento de un solo factor con k tratamientos y n
replicas u observaciones por tratamiento seria:
(nivel)
1 Y11 Y12 ... Y1n Y1. Y..
2 Y21 Y22 ... Y2n Y2. Y 2.
3 Y31 Y32 ... Y3n Y3. Y 3.
Página 12 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
Donde representa la media general, j representa el efecto del tratamiento j, y ij es el error
aleatorio al hacer la observación ij.
Esto es, se supone que todos los datos en general pertenecen a una misma población con
media excepto que existan desviaciones para diferentes tratamientos del mismo factor. Por
su parte ij representa el error aleatorio o medida de la variabilidad natural dentro de cada
tratamiento.
τ
j 1
j 0;
Y que el error aleatorio sigue una distribución normal con media cero y varianza 2, esto denota:
εij N(0, σ 2 )
Sean Yi. El total de las observaciones bajo el i-esimo tratamiento, y Yi. el promedio de las
observaciones bajo el i-esimo tratamiento. Similarmente sean Y.. La suma de todas las
observaciones y Y.. la media general de todas las observaciones.
Y.. Y../n
Página 13 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
Ho significa que el factor (los niveles bajo estudio) no tiene efecto sobre la variable dependiente
y H1 que si lo tiene, esto es que existe diferencia, estadística. Recuerde también que la hipótesis
nula se asume como cierta a menos que los datos indiquen lo contrario.
Yij Y..
k n 2 k 2 k n 2
n Yi. Y.. Yij Yi.
j 1 i 1 j 1 j 1 i 1
SST SStr SSE
Donde:
La ecuación anterior muestra la variabilidad total de los datos, medida por la suma total corregida
de los cuadrados. SStr se denomina suma de cuadrados debida a los tratamientos (es decir,
entre tratamientos), SSE es la suma de cuadrados debido al error (es decir, dentro de los
tratamientos)
Yi.2 Y.. 2
k
SStr
j 1 n
N
SSE SST SStr
Fuente
De error SS G.L. MS F 0
Variación
SStr k – 1 MStr MStr/MSE
entre tratamientos
Página 14 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
Variación dentro de
SSE N – k MSE
Tratamientos o error
Total SST N – 1
Si F0 > F,k-1,N-k, H0 debe ser rechazada. Donde F, k-1,N-k es el valor de la variable F con
un nivel de significancia (error tipo I), k-1 grados de libertad en el numerador y N-k grados de
libertad en el denominador. Bajo la hipótesis nula la relación MS tr/MSE sigue una función de
densidad F, por lo tanto si F0 es mayor que F , k-1,N-k existirá una diferencia significativa y el factor
afecta la respuesta de la característica de calidad en los niveles bajo estudio.
Si Ho no puede ser rechazada la conclusión es por lo tanto que el factor bajo estudio no
afecta la respuesta. Sin embargo, si Ho es rechazada y existe diferencia significativa entre los
diferentes tratamientos de un solo factor el siguiente paso es el analizar en detalle cual de los
tratamientos es el mejor y cuales son iguales.
Totales Promedios
Yi Yi.
I 56 55 62 59 60 292 58.4
II 64 61 50 55 56 286 57.2
III 45 46 45 39 43 218 43.6
IV 42 39 45 43 41 210 42
Y..= 1006 40.24 Y ..
4 5
Yij
j 1 i 1
2
562 55 2 ... 412 51940
Página 15 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
Fuente
De error SS G.L. MS F0
MStr/MSE
Factor o tratamientos SStr=1135 k – 1 = 3 MStr =378.3
= 29.79
Error SSE=203.2 N – k = 16 MSE=12.7
Total SST=1338.2 N – 1 = 19
Si el nivel de aceptación (error tipo I) lo fijamos en 5%, esto es, = 0.05, de la tabla de la
función F se tiene que:
F,3,16 = 3.24
Experimentos con un solo factor y diferente número de lecturas por tratamiento (o caso
desbalanceado)
C uando por alguna razón él numero de lecturas que se tienen bajo cada tratamiento es
diferente, digamos Zi observaciones en el tratamiento j, el análisis se puede llevar a cabo
de una manera similar con las siguientes formulas para k tratamientos:
Página 16 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
k n
SST Yij 2 - Y.. ; con N - 1 grados de libertad
2
j 1 i 1 N
k
Yi. 2 Y .. 2
SStr ; con k - 1 grados de libertad
j 1 n i N
SSE SST - SStr; con N - k grados de libertad
Es, sin embargo, deseable que él numero de muestras sea igual bajo cada tratamiento, puesto
que el poder de la prueba se maximiza cuando él numero de muestras es igual.
Ejemplo 2: El tiempo de respuesta en milisegundos fue determinado para tres tipos diferentes
de circuitos y los resultados son:
Totales Promedios
tr Observaciones Yi Yi.
I 9 12 10 8 15 13 67 11.17
II 20 23 30 73 24.33
III 6 5 8 16 35 8.75
Y.. 175 14.75 Y ..
Con un nivel de significación de = 0.05. ¿Tiene los circuitos diferente tiempo de respuesta?
k = 3; n1 = 6; n2 = 3; n3 = 4; N = 6 + 3 + 4 = 13
k n
SST (Yij2 Y.. 2 /N)
j 1 i 1
175 2
9 2 122 ... 8 2 16 2
13
2993 2355.76 637.24
k
SStr (Yi.2 /ni Y.. 2 /N)
j 1
2
67 73 2 35 2 175 2
474.98
6 3 4 13
SSE SST - SStr 637.24 - 474.98 162.29
Página 17 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
Fuente
SS G.L. MS
De error F0
MStr/MSE
Factor o tratamientos SStr=474.98 k – 1 = 2 MStr =237.49
= 14.64
Error SSE=162.29 N – k = 10 MSE=16.22
Total SST=637.24 N – 1 = 12
Dado que F.05,2,10 = 4.10, se concluye que los circuitos muestran diferentes tiempos de
respuesta.
Yij μ τi εij
Usando el método de los mínimos cuadrados, las soluciones de las ecuaciones normales son:
μ̂ Y..
τ̂i Yi. Y..
con i 1,2,3,..., k
Y es posible determinar fácilmente un intervalo de confianza para estimar la media del i-ésimo
tratamiento. Dicha i-ésimo media es:
i = + i
Un estimador puntual para i podría ser μ̂i μ̂ τ̂i Yi. ahora si se supone que los errores
están distribuidos normalmente, las Yi. son NID(0,2/n), entonces podría usarse la distribución
normal para definir el intervalo de confianza buscado si se conoce . Al usar MSE como
Página 18 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
estimación de, 2, el intervalo de confianza se debe basar en la distribución t., por tanto, un
intervalo de confianza de (1-)100% para la media del i-ésimo tratamiento, es:
MSE
Yi. tα / 2, N k
n
un intervalo de confianza del (1-)100% para la diferencia de las medias de dos tratamientos
cualesquiera, por ejemplo i-j, será:
2MSE
Yi. Y j. tα / 2, N k .
n
Ejemplo 3: Al usar los datos del ejemplo 2.3, las estimaciones de la media general y de los
efectos de los tratamientos son μ̂ 376 25 15.04; y
usando la formula para calcular el intervalo de confianza del 95% para la media del tratamiento 4
es:
MSE 8.06
Y i. t / 2, N k 21.60 2.086
n 5
o, bien.
21.60 2.65
Página 19 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
Yij μ τi εij
eij Yij Ŷ
ij
S upongamos que al efectuar un análisis de variancia para un modelo de efectos fijos la:
hipótesis nula es rechazada. Se concluye que existe diferencia entre las medias, aunque no
se especifique exactamente cual de ellas es diferente. En esta situación puede ser útil realizar
comparaciones adicionales entre grupos de medias de los tratamientos. La media del i-ésimo
tratamiento se define mediante i = + i y su estimación es Yi. . Las comparaciones entre
medias de tratamientos se realizan en términos de los totales de tratamientos Yi. O de los
promedios de tratamientos Yi. . Los procedimientos para efectuar estas comparaciones se
conocen como métodos de comparación múltiple.
Página 20 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
S upongamos que después de haber rechazado la hipótesis nula, con base en una prueba F
de análisis de variancia, se desea probar Ho: i = j para toda i j. Esto puede hacerse
empleando la estadística t:
Yi. Yj.
to
1 1
MSE
ni nj
Suponiendo una hipótesis alterna bilateral, la pareja de medias i, j se consideran diferentes
1 1
LSD tα/2, N k MSE
ni nj
Ejemplo 4: Para ilustrar este procedimiento, si se usan los datos del Ejemplo 2.3 el valor de la
LSD con = .05 es:
1 1
LSD tα/2, N k MSE
ni nj
2(8.06)
2.086 3.75
5
Por tanto, una pareja de medias difieren significativamente si el valor absoluto de la diferencia
de promedios en los tratamientos correspondientes es mayor que 3.75. Los cinco promedios
de tratamiento son:
Página 21 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
Los valores marcados con asterisco indican parejas de medias que son significativamente
diferentes. Resulta útil graficar los datos como se muestra en la Fig. 4, subrayando las parejas
de medias que no difieren en forma significativa. Claramente los únicos pares que no difieren
significativamente son 1 y 5, y 2 y 3. El tratamiento 4 produce una resistencia a la tensión de
manera significativamente mayor que los otros tratamientos.
Y 1. Y 5. Y 2. Y 3 . Y 4.
9.8 10.8 15.4 17.6 21.6
Ho : μi μk
H1 : μi μk
Página 22 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
Para i = 1, 2,..., k -1. El procedimiento de Dunnett es una modificación de la prueba t. Para cada
hipótesis se calculan las diferencias que se observan en las medias muéstrales:
La hipótesis nula Ho: i = k es rechazada con un nivel de error tipo I según alfa sí:
1 1
Yi. Yk. dα(k 1, f) MSE
ni nk
En donde la constante d (k -1, f) se encuentra en la Tabla IX del Apéndice del texto de Diseño y
Análisis de Experimentos de Douglas C. Montgomery (son posibles tanto pruebas unilaterales
como bilaterales). Hay que notar que alfa constituye el nivel de significación conjunto asociado a
las k -1 pruebas.
Ejemplo 5: Para ilustrar la prueba de Dunnett, considérense los datos del Ejemplo 3, y su
póngase que el tratamiento 5 es el control. En este ejemplo, k = 5, k -1 = 4, f = 20, ni = n = 5, y
con un nivel del 5% se encuentra en la Tabla IX del Apéndice que d 0.05 (4,20) = 2.65. Por tanto, la
diferencia crítica es:
2MSE 2(8.06)
d.05(4,20) 2.65 4.76
n 5
(Hay que notar que esta es una simplificación de la Ecuación anterior y que resulta de un diseño
balanceado.) En consecuencia, un tratamiento debe considerarse significativamente diferente del
control si la diferencia es mayor que 4.76. Las diferencias observadas son:
Página 23 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
1. El proceso esta en control estadístico (estable). Esto es, se pueden repetir y las causas
de variación se han eliminado.
2. La distribución de la población que se muestra es normal.
3. La varianza de los errores dentro de los k niveles del factor es la misma: esto es, la
variabilidad natural dentro de cada tratamiento es la misma de un tratamiento a otro.
S i el modelo es correcto y las suposiciones se satisfacen, los residuos no deben tener algún
patrón, ni deben estar relacionados con alguna variable, incluyendo la respuesta Y ij. Una
comprobación sencilla consiste en graficar los residuos contra los valores ajustados ŷij (debe
recordarse que para el modelo en un sentido ŷij - yi. , el promedio del tratamiento i-ésimo). En
esta grafica no debe revelarse ningún patrón obvio en la siguiente figura se grafican los residuos
contra los valores ajustados de los datos de la resistencia a la tensión del ejemplo 2.3 Ningún
patrón inusual es evidente.
Un efecto que en ocasiones revela la grafica es el de una varianza variable. Algunas veces la
varianza de las observaciones lo hace. Esto resulta cuando el error es proporcional a la magnitud
Página 24 de 25
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA P. Reyes / Sept. 2007
Página 25 de 25