Está en la página 1de 20

ANALISIS DE VARIANZA

El análisis de varianza ANOVA es una técnica estadística, cuyo objetivo es comprobar si son iguales
las medias de dos o más poblaciones independientes, mediante el análisis y la comparación varianza
insesgadas de muestras de diversas fuentes, mediante la prueba F de Fisher.

Cada método del análisis la varianza está asociada a un modelo matemático especifico los modelos se
clasifican según el número de variables que han de ser probadas. Si es una variable, el modelo se
denomina de clasificación simple o de un factor, si son dos variables el modelo se denomina de
clasificación doble o de 2 factores.

ANÁLISIS DE VARIANZA DE UN FACTOR - DISEÑO COMPLETAMENTE


ALEATORIZADO

Sea un “X” una variable aleatoria en “K” poblaciones o tratamientos diferentes, con medias respectivas
𝜇1 , 𝜇2 , … … . 𝜇𝑘 y varianza respectivas 𝜎12 , 𝜎22 , … . 𝜎𝑘2 donde:
a. Los k poblaciones son independientes.
b. Cada población tienen distribución normal , N(𝜇1 , 𝜎12 )
c. Las k varianza son iguales a la varianza común 𝜎 2 (Homocedasticidad)

En el modelo de clasificación de un factor completamente aleatorizado, los valores 𝑋𝑖𝑗 de las k


muestras, se registran en un arreglo tabular como el de la siguiente tabla:

TRATAMIENTO
1 2 ⋯⋯ i ⋯⋯ k
𝑋11 𝑋21 ⋯⋯ 𝑋𝑖1 ⋯⋯ 𝑋𝑘1
𝑋12 𝑋22 ⋯⋯ 𝑋𝑖2 ⋯⋯ 𝑋𝑘2
⋮ ⋮ ⋮ ⋮
⋮ ⋮ ⋮ ⋮
𝑋1𝑛1 𝑋2𝑛2 ⋯⋯ 𝑋𝑖𝑛𝑖 ⋯⋯ 𝑋𝑘𝑛𝑘
TOTAL 𝑇1 . 𝑇2 . ⋯⋯ 𝑇𝑖 . ⋯⋯ 𝑇𝑘 . 𝑇..
𝑛𝑖 𝑛1 𝑛2 ⋯⋯ 𝑛𝑖 ⋯⋯ 𝑛𝑘 𝑛
MEDIAS 𝑋̅1. 𝑋̅2. ⋯⋯ 𝑋̅𝑖. ⋯⋯ 𝑋̅𝑘. 𝑋̅..

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Dónde:
• 𝑇𝑖. : Suma de datos de la muestra i
• 𝑇.. : Total de los datos de las k muetras
• 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 = 𝑛: Total observado en la k muestras
• 𝑋̅𝑖. : Media de la muestra
• 𝑋̅.. : Media total muestral

MODELO DEL ANÁLISIS DE VARIANZA


El modelo matemático de clasificación simple de un factor completo aleatorio, es la ecuación:
𝑿𝒊𝒋 = 𝝁 + 𝜶𝒊 + 𝜺𝒊𝒋 ,
𝑛𝑖
𝑖 = 1,2, … . 𝑘 ; 𝑗 = 1,2, … 𝑛𝑖 ; ∑𝑖−1 𝛼𝑖 = 0 ,

Dónde:
• 𝑋𝑖𝑗 : Es la observación de la muestra
• 𝜇: Media Total
• 𝛼𝑖 : Efecto del i-ésimo tratamiento
• 𝜀𝑖𝑗 : Desviación del dato observado Xij (error o residuo)

PROCEDIMIENTO PARA REALIZAR UN ANOVA


Los pasos a seguir para realizar en análisis de varianza son:

1. Formular las hipótesis


𝐻𝑜 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘
𝐻1 ∶ 𝑛𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

2. Establecer el nivel de significación: 𝛼 = 0,05

3. Estadístico de prueba: ANOVA

Fuente de Suma de Grados de Cuadrado de


F calculada P-VALOR
variación cuadrados libertad medias

𝑆𝐶𝐶
Tratamientos SCC k-1 𝐶𝑀𝑇 =
𝑘−1 𝐶𝑀𝑇
𝑆𝐶𝐸 𝐹𝑐𝑎𝑙 = Regla de decisión:
Error CSE n-k 𝐶𝑀𝐸 = 𝐶𝑀𝐸 𝑝 < 0,05 se rechaza 𝐻0
𝑛−𝑘 𝑝 > 0,05 se acepta 𝐻0
𝐹0 = 𝐹[𝛼, (𝑘 − 1, 𝑛 − 𝑘)𝑔𝑙]

Total SCT n-1

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Dónde:
𝑛 𝑛 𝑇..2
• 𝑆𝐶𝑇 = ∑𝑘𝑖=1 ∑𝑗=1
𝑖
(𝑋𝑖𝑗 − 𝑋̅.. )2 = ∑𝑘𝑖=1 ∑𝑗=1
𝑖
𝑋𝑖𝑗 2 − 𝐶 , 𝑑𝑜𝑛𝑑𝑒 𝐶 =
𝑛

2
𝑛𝑖 𝑇
• 𝑆𝐶𝐶 = ∑𝑘𝑖=1 ∑𝑗=1(𝑋̅𝑖. − 𝑋̅.. )2 = ∑𝑘𝑖=1 𝑖. − 𝐶
𝑛𝑖

• 𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝐶

4. Región critica

𝐹0 = 𝐹[𝛼, (𝑘 − 1, 𝑛 − 𝑘)𝑔𝑙] (𝑒𝑛 𝑚𝑖𝑛𝑖𝑡𝑎𝑏 𝑐𝑜𝑙𝑎 𝑎 𝑙𝑎 𝑑𝑒𝑟𝑒𝑐ℎ𝑎)

5. Conclusión
Si 𝐹𝑐𝑎𝑙 > 𝐹0 , se rechaza 𝐻0 , caso contrario se acepta la 𝐻0

Práctica 1
El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas
diferentes con el fin de adquirir la más veloz para su uso en una confección específica. Para esto observó
los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Con
un nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la misma velocidad por
unidad de confección.
M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


A) Procedimiento para realizar ANOVA con Calculadora

Formulación de hipótesis:
Hipótesis nula: Las maquinas utilizan la misma velocidad por unidad de confección (son homogéneas)
Hipótesis alterna: Las maquinas no utilizan la misma velocidad por unidad de confección

Nivel de significación: : 𝛼 = 0,05

Estadístico de prueba: Para determinar el valor de 𝐹𝑐𝑎𝑙 se requiere la siguiente información:

M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60

Suma 332 359 357 285 1333

𝟑𝟑𝟐𝟐 𝑻𝟐..(𝟏𝟑𝟑𝟑)𝟐
Suma2/n = 𝟏𝟖𝟑𝟕𝟎. 𝟔𝟕 21480.17 21241.50 13537.50 = = 𝟕𝟒𝟎𝟑𝟕. 𝟎𝟒
𝟔 𝒏 𝟐𝟒
𝒌
𝑻𝟐𝒊.
∑ = 𝟕𝟒𝟔𝟐𝟗. 𝟖𝟑
𝒏𝒊
𝒊=𝟏

Cada valor se eleva al cuadrado y se genera la siguiente tabla:

552 = 3025 3600 4096 1764

2116 3364 3844 2025

2025 4624 2601 2704

5329 3364 3249 1936

2500 3969 4225 1764

3969 2704 3364 3600


𝒌 𝒏𝒊

Suma 18964 21625 21379 13793 ∑ ∑ 𝑿𝒊𝒋𝟐 = 𝟕𝟓𝟕𝟔𝟏


𝒊=𝟏 𝒋=𝟏

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


En la suma de cuadrados, primero se calcula 𝑆𝐶𝐶, luego 𝑆𝐶𝑇 y por ultimo 𝑆𝐶𝐸

Fuente de Grados de Valor p


Suma de cuadrados Cuadrado de medias 𝑭𝒄𝒂𝒍 𝑭𝟎
variación libertad
𝑘
𝑇𝑖.2 𝑇..2 𝑆𝐶𝐶
Tratamientos 𝑆𝐶𝐶 = ∑ − = 74629.83 − 74037.04 = 592.792 𝑘−1 = 3 𝐶𝑀𝑇 = =197.597
𝑛𝑖 𝑛 𝑘−1
𝑖=1

𝑆𝐶𝐸 𝐶𝑀𝑇
Error 𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝐶 = 1723.958 − 592.792 = 1131.167 𝑛 − 𝑘 = 20 𝐶𝑀𝐸 = =56.558 𝐹𝑐𝑎𝑙 = =3.494 3.098 0,035 < 0,05
𝑛−𝑘 𝐶𝑀𝐸

𝑘 𝑛𝑖
𝑇..2
Total 𝑆𝐶𝑇 = ∑ ∑ 𝑋𝑖𝑗 2 − = 75761 − 74037.04 = 1723.958 𝑛 − 1 = 23
𝑛
𝑖=1 𝑗=1

Región crítica Conclusión:


𝐹0 = 𝐹[𝛼, (𝑘 − 1, 𝑛 − 𝑘)𝑔𝑙] = 𝐹[0,05(3,20)] Cola a la derecha Como 𝐹𝑐𝑎𝑙 > 𝐹0 se rechaza la hipótesis nula, es decir Al 95% de
Gráfica de distribución confianza se afirma que, las maquinas no utilizan la misma
F; df1=3; df2=20
0,8 velocidad por unidad de confección.
0,7
Conclusión: (Utilizando el valor p, de un software estadístico)
0,6

0,5
Regla de decisión:
Densidad

0,4 𝑝 < 0,05 se rechaza 𝐻0


0,3 𝑝 > 0,05 se acepta 𝐻0
0,2
Como 𝑝 = 0,035 < 0,05 se rechaza la hipótesis nula, es decir Al
0,1
0,05 95% de confianza se afirma que, las maquinas no utilizan la misma
0,0
0 3,098
X 𝐹𝑐𝑎𝑙 = 3.494 velocidad por unidad de confección.

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


B) Procedimiento para realizar ANOVA con Excel

Práctica 1
El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas
diferentes con el fin de adquirir la más veloz para su uso en una confección específica. Para esto observó
los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Con
un nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la misma velocidad por
unidad de confección.
M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60

1. Llevar los datos a una ventana de Excel


Archivo → Opciones → Complementos → Heramientas para análisis → Ir

Activar herramienta para análisis → Aceptar

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


En la pestaña Datos, se activa ANÁLISIS DE DATOS

Formulación de hipótesis:
Hipótesis nula: Las maquinas utilizan la misma velocidad por unidad de confección (son homogéneas)
Hipótesis alterna: Las maquinas no utilizan la misma velocidad por unidad de confección

Nivel de significación: : 𝛼 = 0,05

Estadístico de prueba:
Se lleva los datos a una ventana de Excel y en análisis de datos seleccionamos Análisis de varianza de
un factor

se selecciona el rango de entrada y se activa rótulos en la primera fila → Aceptar

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Los resultados se muestran en una nueva hoja de Excel
RESUMEN
Grupos Cuenta Suma Promedio Varianza
M1 6 332 55,3333333 118,666667
M2 6 359 59,8333333 28,9666667
M3 6 357 59,5 27,5
M4 6 285 47,5 51,1

ANÁLISIS DE VARIANZA
Origen de las Suma de Grados de Promedio de Valor crítico
Fcal Probabilidad
variaciones cuadrados libertad los cuadrados para F0
Entre grupos 592,791667 3 197,597222 3,49368892 0,03469183 3,09839121

Dentro de los grupos 1131,16667 20 56,5583333


Total 1723,95833 23

Región crítica
𝐹0 = 𝐹[𝛼, (𝑘 − 1, 𝑛 − 𝑘)𝑔𝑙] = 𝐹[0,05(3,20)] Cola a la derecha

Gráfica de distribución
F; df1=3; df2=20
0,8

0,7

0,6

0,5
Densidad

0,4

0,3

0,2

0,1
0,05
0,0
0 3,098
X 𝐹𝑐𝑎𝑙 = 3.494

Conclusión:

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Como 𝐹𝑐𝑎𝑙 > 𝐹0 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma que, las
maquinas no utilizan la misma velocidad por unidad de confección.

Conclusión: (Utilizando el valor p, de un software estadístico)


Regla de decisión:
𝑝 < 0,05 se rechaza 𝐻0
𝑝 > 0,05 se acepta 𝐻0

Como 𝑝 = 0,035 < 0,05 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma
que, las maquinas no utilizan la misma velocidad por unidad de confección.

C) Procedimiento para realizar ANOVA con Minitab

Práctica 1

El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas


diferentes con el fin de adquirir la más veloz para su uso en una confección específica. Para esto observó
los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Con
un nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la misma velocidad por
unidad de confección.
M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60

Se debe ingresar los datos en dos columnas

Máquina Velocidad
M1 55
M1 46
M1 45
M1 73
M1 50
M1 63
M2 60
M2 58
M2 68
M2 58
M2 63

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


M2 52
M3 64
M3 62
M3 51
M3 57
M3 65
M3 58
M4 42
M4 45
M4 52
M4 44
M4 42
M4 60

Primero se debe comprobar las condiciones en el análisis de varianza

SUPUESTOS EN EL ANOVA

NORMALIDAD
Formulación de hipótesis
Hipótesis nula: Los datos tienen el comportamiento de una distribución normal
Hipótesis alterna: Los datos NO tienen el comportamiento de una distribución normal

Regla de decisión

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Si p < 0.05 se rechaza la hipótesis nula
Si p > 0.05 se acepta la hipótesis nula

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Estadísticas → Estadísticas básicas → Prueba de normalidad

Conclusión
Como p = 0,100 > 0,05 se acepta la hipótesis nula, es decir, los datos tienen el comportamiento de una
distribución normal

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


HOMOGENEIDAD
Formulación de hipótesis
Hipótesis nula: Las varianzas de los tiempos empleados por maquina son homogéneos
Hipótesis alterna: Existe diferencia entre las varianzas de los tiempos empleados por maquina

Regla de decisión
Si p < 0.05 se rechaza la hipótesis nula
Si p > 0.05 se acepta la hipótesis nula

Estadísticas → ANOVA → Prueba de igualdad de varianzas

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Prueba de igualdad de varianzas: Velocidad vs. Máquina
Prueba de Bartlett

M1 Valor p 0,325

M2
quina

M3

M4

0 10 20 30 40
Intervalos de confianza de Bonferroni de 95% para Desv.Est.

Conclusión
Como p = 0,325 > 0,05 se acepta la hipótesis nula, es decir, Las varianzas de los tiempos empleados
por maquina son homogéneos

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE PROMEDIOS
Formulación de hipótesis:
Hipótesis nula: Las maquinas utilizan la misma velocidad por unidad de confección (son homogéneas)
Hipótesis alterna: Las maquinas no utilizan la misma velocidad por unidad de confección

Nivel de significación: : 𝛼 = 0,05

Estadístico de prueba:
Estadísticas → ANOVA → Un solo factor

En opciones indicar si las varianzas son iguales


En comparaciones activamos en procedimiento: TUKEY y en resultados: Pruebas
En gráficos activamos: Cuatro en uno
Aceptar

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Máquina 3 592,8 197,60 3,49 0,035
Error 20 1131,2 56,56
Total 23 1724,0

Región crítica
𝐹0 = 𝐹[𝛼, (𝑘 − 1, 𝑛 − 𝑘)𝑔𝑙] = 𝐹[0,05(3,20)] Cola a la derecha

Gráfica de distribución
F; df1=3; df2=20
0,8

0,7

0,6

0,5
Densidad

0,4

0,3

0,2

0,1
0,05
0,0
0 3,098
X 𝐹𝑐𝑎𝑙 = 3.494

Conclusión:
Como 𝐹𝑐𝑎𝑙 > 𝐹0 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma que, las
maquinas no utilizan la misma velocidad por unidad de confección.

Conclusión: (Utilizando el valor p, de un software estadístico)


Regla de decisión:
𝑝 < 0,05 se rechaza 𝐻0
𝑝 > 0,05 se acepta 𝐻0

Como 𝑝 = 0,035 < 0,05 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma
que, las maquinas no utilizan la misma velocidad por unidad de confección.

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


ESTADÍSTICOS DESCRIPTIVOS

Medias
Máquina N Media Desv.Est. IC de 95%
M1 6 55,33 10,89 (48,93; 61,74)

M2 6 59,83 5,38 (53,43; 66,24)

M3 6 59,50 5,24 (53,10; 65,90)

M4 6 47,50 7,15 (41,10; 53,90)


Desv.Est. agrupada = 7,52053

Gráfica de intervalos de Velocidad vs. Máquina


95% IC para la media

65

60
Velocidad

55

50

45

40
M1 M2 M3 M4
Máquina
La desviación estándar agrupada se utilizó para calcular los intervalos.

Interpretación:
Al 95 % de confianza se afirma que el tiempo promedio que emplea la máquina 1 en producir una unidad
de confección se encuentra entre 48.93 min a 61.74 min, la máquina 2 emplea un tiempo promedio entre
53.43 min a 66.24 min, la máquina 3 emplea un tiempo promedio entre 53.1 min a 65.9 min y la maquina
4 emplea en tiempo promedio entre 41.1 min a 53.9 min.

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


COMPARACIÓN MÚLTIPLE

Comparaciones en parejas de Tukey


Agrupar información utilizando el método de Tukey y una confianza de 95%
Máquina N Media Agrupación
M2 6 59,83 A

M3 6 59,50 A B

M1 6 55,33 A B

M4 6 47,50 B
Las medias que no comparten una letra son significativamente diferentes.

Se forman dos grupos homogéneos. Si se desea adquirir la maquina más veloz para el uso de una
confección se recomienda la máquina 4.

Pruebas simultáneas de Tukey para diferencias de las medias


Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
M2 - M1 4,50 4,34 (-7,66; 16,66) 1,04 0,731

M3 - M1 4,17 4,34 (-7,99; 16,32) 0,96 0,773

M4 - M1 -7,83 4,34 (-19,99; 4,32) -1,80 0,301

M3 - M2 -0,33 4,34 (-12,49; 11,82) -0,08 1,000

M4 - M2 -12,33 4,34 (-24,49; -0,18) -2,84 0,046 < 0.05

M4 - M3 -12,00 4,34 (-24,16; 0,16) -2,76 0,054


Nivel de confianza individual = 98,89%

Regla de decisión:
𝑝 < 0,05 se rechaza 𝐻0
𝑝 > 0,05 se acepta 𝐻0

Hipótesis nula: las medias son iguales


Hipótesis alterna: las medias son diferentes

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Mediante la prueba HSD de Tukey se afirma que existe diferencia significativa entre los tiempos
promedios empleados entre la Máquina 2 y la Maquina 4.

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Práctica 2
Una empresa seleccionó a 20 trabajadores y formo cuatro grupos de entrenamiento con el fin de mejorar
el tiempo de realización de una tarea utilizando las estrategias A, B, C y D. Al terminar el periodo de
entrenamiento, cada uno de los 20 empleados realizo la tarea y se obtuvieron los resultados siguientes:
A 51 42 35 65 49
B 30 48 44 56 54
C 80 75 85 73 40
D 53 47 45 50 71
¿Proporcionan estos datos evidencia suficiente para concluir que existe diferencia significativa entre las
estrategias consideradas para disminuir el tiempo promedio que necesitan los trabajadores?

Practica 3
Un promotor inmobiliario está considerando invertir en un centro comercial a construirse en Arequipa,
Cusco, Iquitos, Piura, en donde es muy importante el nivel de ingresos mensuales de las familias. Para
resolver este problema se diseñó una prueba de hipótesis de varias medias seleccionando una muestra
aleatoria de ingresos familiares en cada una de las ciudades, obteniéndose los siguientes ingresos en
cientos de dólares.
Ingresos mensuales
Arequipa Cusco Iquitos Piura
61 71 56 50
56 73 61 40
49 66 47 50
55 61 51 50
46 58 50

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

También podría gustarte