Documentos de Académico
Documentos de Profesional
Documentos de Cultura
An Lisis de Varianza
An Lisis de Varianza
ANLISIS DE VARIANZA
ANOVA DE UNA VA
Pgina 1 de 26
Pgina 2 de 26
CONTENIDO
1. ANOVA
2. Ejercicios
Pgina 3 de 26
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes
son:
1. Ambas poblaciones son normales.
2. Las varianzas poblacionales son iguales, esto es, 12 22 .
El estadstico tiene una distribucin muestral resultando:
Fc
sb2
sw2
Donde el nmero de grados de libertad para el numerador es k-1 y para el denominador es k(n1), siendo
el nivel de significancia.
k = nmero de muestras.
Por ejemplo:
Ejemplo: Se tienen 14 empleados seleccionados al azar que se someten a
3 diferentes cursos de entrenamiento: Programa 1, Programa 2 y Programa 3.
Pgina 4 de 26
c=1
c=2
Programa
c=3
Programa 1 2
Programa 3
85
80
82
72
84
80
83
81
85
80
78
90
**
82
88
80.00
81.00
85.00
Xj
Media de medias o media
r=1
r=2
r=3
r=4
r=5
Medias
total
82.14
SCT
i 1
( Xij X )
j 1
o variacin
SCTR rj ( X j X ) 2
j 1
Pgina 5 de 26
SCE
i 1
(X
j 1
ij
X j )2
19.4
32.9
16.9
1.946745562
Pgina 6 de 26
ZONA DE
NO RECHAZAR
RECHAZO
Distr. F
Como Fc es menor a Falfa no se rechaza Ho y las medias son iguales.
7. VALOR P DE Fc
P = distr.f(Fc, gl. SCTr, gl. SCE) = distr.f(1.946, 2, 11) = 0.18898099
Como P es mayor a alfa no se rechaza Ho
CONCLUSION: NO HAY SUFICIENTE EVIDENCIA PARA RECHAZAR HO, LAS MEDIAS DE
LOS TRATAMIENTOS SON IGUALES
Pgina 7 de 26
TABLA DE ANOVA
FUENTE DE VARIACIN
SUMA DE
GRADOS DE
CUADRADO
CUADRADOS LIBERTAD
MEDIO
VALOR F
SCTR
c-1
CMTR
CMTR/CME
SCE
n-c
CME
Variacin total
SCT
n-1
CMT
Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
USO DE EXCEL:
Alfa = 0.05
RESUMEN
Grupos
Programa 1
Programa 2
Programa 3
ANLISIS DE VARIANZA
Suma
de
Promedio de
Probabilida
Variaciones
Entre grupos
Dentro de
cuadrados
libertad Cuadrados
Fc
d
F crtica
65.71428571
2 32.85714286 1.9431644 0.18937731 3.98229796
grupos
Total
186
251.7142857
11 16.90909091
13
USO DE MINITAB
Pgina 8 de 26
OK
DF
2
11
13
S = 4.112
SS
65.7
186.0
251.7
MS
32.9
16.9
F
1.94
R-Sq = 26.11%
P
0.189
R-Sq(adj) = 12.67%
Individual 95% CIs For Mean Based on
Pooled StDev
Level
Programa 1
Programa 2
Programa 3
N
4
5
5
Mean
80.000
81.000
85.000
StDev
5.715
2.236
4.123
----+---------+---------+---------+----(------------*------------)
(----------*-----------)
(-----------*----------)
----+---------+---------+---------+----77.0
80.5
84.0
87.5
NOTA: Si los Intervalos de confianza se traslapan, las medias son iguales estadsticamente
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 97.94%
Programa 1 subtracted from:
Programa 2
Programa 3
Lower
-6.451
-2.451
Center
1.000
5.000
Upper
8.451
12.451
--------+---------+---------+---------+(------------*-----------)
(-----------*------------)
--------+---------+---------+---------+-6.0
0.0
6.0
12.0
Upper
11.025
--------+---------+---------+---------+(-----------*----------)
--------+---------+---------+---------+-6.0
0.0
6.0
12.0
Lower
-3.025
Center
4.000
Pgina 9 de 26
2. EJERCICIOS:
1. Cuatro catalizadores que pueden afectar la concentracin de un componente en una mezcla
lquida de tres componentes estn siendo investigado.
Se obtienen las siguientes concentraciones:
A
58.2
57.2
58.4
55.8
54.9
Catalizador
B
56.3
54.5
57
55.3
C
50.1
54.2
55.4
D
52.9
49.9
50
51.7
B
78
91
97
82
85
77
C
55
66
49
64
70
68
D
64
72
68
77
56
95
B
71
75
73
74
69
82
C
59
64
62
69
75
67
4. Probar si hay diferencia en los tiempos de servicio de 4 unidades de negocio para el mismo
servicio a un nivel de significancia del 5%.
Pgina 10 de 26
A
5.4
7.8
5.3
7.4
8.4
7.3
B
8.7
7.4
9.4
10.1
9.2
9.8
C
11.1
10.3
9.7
10.3
9.2
8.8
D
9.9
12.8
12.1
10.8
11.3
11.5
Pgina 11 de 26
n esta parte se analiza el caso en que se desea conocer el efecto de un solo factor o
variable independiente sobre la caracterstica de calidad que s esta analizando. Esto
implica que a fin de poder detectar su efecto, este factor se debe de variar manteniendo el resto
de los factores en un valor fijo.
Experimentos sin restricciones en la aleatoriedad.
diferente nivel al cual se realiza el experimento se le conoce como tratamiento. Por ejemplo si el
factor es el proveedor los diferentes niveles o serian proveedor A, proveedor B, proveedor C, etc.
, si el factor es el tipo de proceso los tratamientos serian proceso 1, proceso 2. Si el factor es
temperatura los diferentes niveles serian por ejemplo 10, 20, 30 y 40 C,etc.
Por otro lado en cada nivel del factor se efectan una serie de pruebas, a cada una de estas
pruebas se les conoce como replicaciones. EL factor se considera fijo.
Ejemplo 1: Suponga que se desea saber si los ejes que surten cuatro proveedores tienen
diferente resistencia a la traccin. Para ello se decide llevar a cabo un experimento de un solo
factor donde la variable dependiente es la resistencia a la traccin del eje medida en Kgs/cm 2 y el
factor es el proveedor. El factor tiene cuatro niveles o tratamientos diferentes. Uno para cada
proveedor (llmelos I, II, III, IV) se decide probar 5 ejes de cada proveedor haciendo un total de
20 pruebas ejecutadas en la misma maquina de prueba y con l mismo operario (recuerde que el
resto de los factores se deben de mantener a un nivel fijo).
Para que el experimento sea aleatorio se numeran los ejes del 1 al 20 y se selecciona al azar un
nmero entre 1 y 20. Segn l numero seleccionado es el siguiente eje que se prueba. De esta
manera, el siguiente eje a probar es seleccionado sin ninguna restriccin. Suponga. que los
resultados de experimento se muestran en la tabla siguiente:
Pgina 12 de 26
Proveedor
I II III
56 64 45
55 61 46
62 50 45
59 55 39
60 56 43
IV
42
39
45
43
41
El proveedor = factor
Tratamiento = I, II, III, IV
Con cinco replicaciones en cada tratamiento.
Observando la tabla se "ve" que existen evidentemente diferencias entre la resistencia de los
ejes de un proveedor a otro. Pero tambin existen entre los ejes de un mismo proveedor,
entonces, la diferencia detectada entre, los ejes de un proveedor y otro existe realmente? O la
diferencia es debida al azar?, La herramienta estadstica conocida como anlisis de varianza
(ANOVA) puede ayudar a despejar esta duda.
Para esto suponga un caso general como sigue: Si define Yij como el valor correspondiente
de la variable dependiente o caracterstica de calidad de la i-sima observacin o replicacin
bajo el tratamiento j, los resultados de un experimento de un solo factor con k tratamientos y n
replicas u observaciones por tratamiento seria:
Tratamiento
Observaciones
Totales
Promedios
(nivel)
1
Y11
Y12
...
Y1n
Y1.
Y..
Y21
Y22
...
Y2n
Y2.
Y 2.
Y31
Y32
...
Y3n
Y3.
Y 3.
...
...
...
...
...
...
...
Yk1
Yk2
...
Ykn
Yk.
Yk.
Esto es, se supone que todos los datos en general pertenecen a una misma poblacin con
media excepto que existan desviaciones para diferentes tratamientos del mismo factor. Por
su parte ij representa el error aleatorio o medida de la variabilidad natural dentro de cada
tratamiento.
Generalmente se supone que:
n
0;
j 1
Y que el error aleatorio sigue una distribucin normal con media cero y varianza 2, esto denota:
ij N(0, 2 )
Sean Yi. El total de las observaciones bajo el i-esimo tratamiento, y Yi. el promedio de las
observaciones bajo el i-esimo tratamiento. Similarmente sean Y.. La suma de todas las
observaciones y Y.. la media general de todas las observaciones.
Expresado matemticamente esto es:
Yi.
ij
i 1
i 1
j 1
ij
Y.. Y../n
Pgina 14 de 26
Ho significa que el factor (los niveles bajo estudio) no tiene efecto sobre la variable dependiente
y H1 que si lo tiene, esto es que existe diferencia, estadstica. Recuerde tambin que la hiptesis
nula se asume como cierta a menos que los datos indiquen lo contrario.
Descomposicin de la suma total de cuadrados
Yij Y..
k
j 1 i 1
j 1
j 1 i 1
Donde:
La ecuacin anterior muestra la variabilidad total de los datos, medida por la suma total corregida
de los cuadrados. SStr se denomina suma de cuadrados debida a los tratamientos (es decir,
entre tratamientos), SSE es la suma de cuadrados debido al error (es decir, dentro de los
tratamientos)
SST = Suma de cuadrados total: con N -1 grados de libertad
SStr = Suma de cuadrados debido a los tratamientos, con k - 1 grados de libertad.
SSE = Suma de cuadrados debido al error aleatorio k grados de libertad.
Para simplificar los clculos:
SST
(Yij2
j 1 i 1
Y.. 2
Y.. 2 )
n
Yi.2 Y.. 2
n
N
j 1
SSE SST SStr
SStr
SS
G.L.
MS F0
Pgina 15 de 26
Variacin dentro de
SSE N k MSE
Tratamientos o error
Total
SST N 1
Si F0 > F,k-1,N-k, H0 debe ser rechazada. Donde F, k-1,N-k es el valor de la variable F con
un nivel de significancia (error tipo I), k-1 grados de libertad en el numerador y N-k grados de
libertad en el denominador. Bajo la hiptesis nula la relacin MS tr/MSE sigue una funcin de
densidad F, por lo tanto si F0 es mayor que F , k-1,N-k existir una diferencia significativa y el factor
afecta la respuesta de la caracterstica de calidad en los niveles bajo estudio.
Si Ho no puede ser rechazada la conclusin es por lo tanto que el factor bajo estudio no
afecta la respuesta. Sin embargo, si Ho es rechazada y existe diferencia significativa entre los
diferentes tratamientos de un solo factor el siguiente paso es el analizar en detalle cual de los
tratamientos es el mejor y cuales son iguales.
Y
i.
Totales Promedios
I
II
III
IV
56
64
45
42
55
61
46
39
62
50
45
45
59
55
39
43
Yij
58.4
57.2
43.6
42
1006
40.24
60
56
43
41
Y..=
Yi
292
286
218
210
j1 i 1
Pgina 16 de 26
Y.
SS
G.L.
MS
k 1 = 3 MStr =378.3
F0
MStr/MSE
= 29.79
SSE=203.2 N k = 16 MSE=12.7
SST=1338.2 N 1 = 19
Experimentos con un solo factor y diferente nmero de lecturas por tratamiento (o caso
desbalanceado)
uando por alguna razn l numero de lecturas que se tienen bajo cada tratamiento es
diferente, digamos Zi observaciones en el tratamiento j, el anlisis se puede llevar a cabo
Pgina 17 de 26
2
SST Yij 2 - Y.. ; con N - 1 grados de libertad
N
j 1 i 1
Yi. 2 Y .. 2
SStr
Es, sin embargo, deseable que l numero de muestras sea igual bajo cada tratamiento, puesto
que el poder de la prueba se maximiza cuando l numero de muestras es igual.
Ejemplo 2: El tiempo de respuesta en milisegundos fue determinado para tres tipos diferentes
de circuitos y los resultados son:
tr
I
II
III
9
20
6
Observaciones
12
10
8
23
30
5
8
16
15
13
Y..
Totales
Yi
67
73
35
175
Yi.
Promedios
11.17
24.33
8.75
14.75
Y.
Con un nivel de significacin de = 0.05. Tiene los circuitos diferente tiempo de respuesta?
k = 3; n1 = 6; n2 = 3; n3 = 4; N = 6 + 3 + 4 = 13
k
175 2
13
2993 2355.76 637.24
9 2 122 ... 8 2 16 2
k
67
73 2 35 2 175 2
474.98
6
3
4
13
SSE SST - SStr 637.24 - 474.98 162.29
Pgina 18 de 26
Fuente
SS
De error
G.L.
MS
F0
MStr/MSE
= 14.64
SSE=162.29 N k = 10 MSE=16.22
SST=637.24 N 1 = 12
Dado que F.05,2,10 = 4.10, se concluye que los circuitos muestran diferentes tiempos de
respuesta.
Usando el mtodo de los mnimos cuadrados, las soluciones de las ecuaciones normales son:
Y..
i Yi. Y..
con i 1,2,3,..., k
Y es posible determinar fcilmente un intervalo de confianza para estimar la media del i-simo
tratamiento. Dicha i-simo media es:
i = + i
Un estimador puntual para i podra ser
i
i Yi. ahora
estn distribuidos normalmente, las Yi. son NID(0,2/n), entonces podra usarse la distribucin
normal para definir el intervalo de confianza buscado si se conoce . Al usar MSE como
Pgina 19 de 26
estimacin de, 2, el intervalo de confianza se debe basar en la distribucin t., por tanto, un
intervalo de confianza de (1-)100% para la media del i-simo tratamiento, es:
Yi. t / 2, N
MSE
un intervalo de confianza del (1-)100% para la diferencia de las medias de dos tratamientos
cualesquiera, por ejemplo i-j, ser:
Yi. Y j. t / 2, N
2MSE
.
n
Ejemplo 3: Al usar los datos del ejemplo 2.3, las estimaciones de la media general y de los
efectos de los tratamientos son
376 25 15.04; y
usando la formula para calcular el intervalo de confianza del 95% para la media del tratamiento 4
es:
Y i. t / 2 , N
MSE
8.06
21.60 2.086
n
5
o, bien.
21.60 2.65
por tanto, el intervalo deseado es 18.95 24.25
Pgina 20 de 26
Yij i ij
ij
Y
i
i
ij Y.. ( Yi. Y..)
Y
ij Yi.
Y
upongamos que al efectuar un anlisis de variancia para un modelo de efectos fijos la:
hiptesis nula es rechazada. Se concluye que existe diferencia entre las medias, aunque
no se especifique exactamente cual de ellas es diferente . En esta situacin puede ser til realizar
comparaciones adicionales entre grupos de medias de los tratamientos. La media del i-simo
tratamiento se define mediante i = + i y su estimacin es Yi. . Las comparaciones entre
medias de tratamientos se realizan en trminos de los totales de tratamientos Yi. O de los
promedios de tratamientos Yi. . Los procedimientos para efectuar estas comparaciones se
conocen como mtodos de comparacin mltiple.
Mtodo de la Mnima Diferencia Significativa (LSD, del ingls least significant difference)
Pgina 21 de 26
upongamos que despus de haber rechazado la hiptesis nula, con base en una prueba F
de anlisis de variancia, se desea probar Ho: i = j para toda i j. Esto puede hacerse
empleando la estadstica t:
Yi. Yj.
to
1
1
ni nj
MSE
Yi. Yj. t / 2, N
MSE(1/ ni 1/ nj
La cantidad:
1
1
nj
ni
2(8.06)
3.75
5
Por tanto, una pareja de medias difieren significativamente si el valor absoluto de la diferencia
de promedios en los tratamientos correspondientes es mayor que 3.75. Los cinco promedios
de tratamiento son:
Y1. 9.8
Y 4. 21.6
Y2. 15.4
Y3. 16.6
Y5. 10.8
Pgina 22 de 26
Los valores marcados con asterisco indican parejas de medias que son significativamente
diferentes. Resulta til graficar los datos como se muestra en la Fig. 4, subrayando las parejas
de medias que no difieren en forma significativa. Claramente los nicos pares que no difieren
significativamente son 1 y 5, y 2 y 3. El tratamiento 4 produce una resistencia a la tensin de
manera significativamente mayor que los otros tratamientos.
Y 1. Y 5.
9.8 10.8
Y 2. Y 3 .
15.4 17.6
Y 4.
21.6
Pgina 23 de 26
Para i = 1, 2,..., k -1. El procedimiento de Dunnett es una modificacin de la prueba t. Para cada
hiptesis se calculan las diferencias que se observan en las medias mustrales:
Yi. Yk. con i 1,2,...,k - 1
La hiptesis nula Ho: i = k es rechazada con un nivel de error tipo I segn alfa s:
1
1
nk
ni
MSE
En donde la constante d (k -1, f) se encuentra en la Tabla IX del Apndice del texto de Diseo y
Anlisis de Experimentos de Douglas C. Montgomery (son posibles tanto pruebas unilaterales
como bilaterales). Hay que notar que alfa constituye el nivel de significacin conjunto asociado a
las k -1 pruebas.
Ejemplo 5: Para ilustrar la prueba de Dunnett, considrense los datos del Ejemplo 3, y su
pngase que el tratamiento 5 es el control. En este ejemplo, k = 5, k -1 = 4, f = 20, ni = n = 5, y
con un nivel del 5% se encuentra en la Tabla IX del Apndice que d 0.05 (4,20) = 2.65. Por tanto, la
diferencia crtica es:
d.05(4,20)
2MSE
2(8.06)
2.65
4.76
n
5
(Hay que notar que esta es una simplificacin de la Ecuacin anterior y que resulta de un diseo
balanceado.) En consecuencia, un tratamiento debe considerarse significativamente diferente del
control si la diferencia es mayor que 4.76. Las diferencias observadas son:
1 vs 5; Y1. Y 5. 9.8 10.8 1.0
2 vs 5; Y 2. Y 5. 15.4 10.8 4.6
3 vs 5; Y 3. Y 5. 17.6 10.8 6.8
4 vs 5; Y 4. Y 5. 21.6 10.8 10.8
Y 3. Y 5.; Y 4. Y 5.
1. El proceso esta en control estadstico (estable). Esto es, se pueden repetir y las causas
de variacin se han eliminado.
2. La distribucin de la poblacin que se muestra es normal.
3. La varianza de los errores dentro de los k niveles del factor es la misma: esto es, la
variabilidad natural dentro de cada tratamiento es la misma de un tratamiento a otro.
ij
Grafica de residuos contra el valor ajustado de y
i el modelo es correcto y las suposiciones se satisfacen, los residuos no deben tener algn
patrn, ni deben estar relacionados con alguna variable, incluyendo la respuesta Y ij. Una
ij (debe
comprobacin sencilla consiste en graficar los residuos contra los valores ajustados y
y
ij
yi. ,
esta grafica no debe revelarse ningn patrn obvio en la siguiente figura se grafican los residuos
contra los valores ajustados de los datos de la resistencia a la tensin del ejemplo 2.3 Ningn
patrn inusual es evidente.
Yij
altavoz. La varianza variable tambin ocurre en casos cuyos datos no tienen distribucin normal
y estn sesgados, porque en las distribuciones sesgadas la varianza tiende a ser funcin de la
media.
Pgina 26 de 26