Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SEMESTRE 2022-I
1 Análisis de Varianza “ANOVA”
Temas a
3 ANOVA a dos Vías
Desarrollar
Es una técnica que se utiliza para decidir si las medias de dos o más poblaciones son
iguales. La prueba se basa en una muestra única, obtenida a partir de cada población.
El análisis de varianza puede servir para determinar si las diferencias entre las medias
muestrales revelan las verdaderas diferencias entre los valores medios de cada una de
las poblaciones, o si las diferencias entre los valores medios de la muestra son más
indicativas de una variabilidad de muestreo.
Supuestos
Existen tres supuestos básicos que se deben satisfacer antes de que se pueda utilizar
el análisis de variancia.
1) Las muestras deben ser de tipo aleatorio independiente.
2) Las muestras deben ser obtenidas a partir de poblaciones normales.
3) Las poblaciones deben tener variancias iguales
𝟐 𝟐
Es decir: 𝝈𝟏 = 𝝈𝟐
𝟐 = 𝝈 𝟐
𝟑 = ………….… = 𝝈𝒌
Análisis de Varianza (ANOVA)
ANOVA a una vía
• Como y por que funciona ANOVA
ANOVA esta diseñada específicamente para probar si dos o mas poblaciones tienen la
misma media. Aun cuando el propósito del ANOVA es hacer pruebas para hallar las
diferencias en las medias poblacionales, implica un examen de las varianzas muestrales,
de allí el termino Análisis de Varianza.
∑ 𝑥 𝑖𝑗
¿ ∀ : 𝑗=1
x21 x22 x23 x2k 𝑥1 =
𝑖 =1
𝑛1 𝑛1
𝑖 =1
𝑥𝑖𝑗
¿
𝑥1 𝑘 + 𝑥 2𝑘 + … .+ 𝑥𝑟𝑘
∀ : 𝑗=𝑘
𝑥 𝑘=
𝑛𝑐 𝑛𝑘
𝒓 𝒌
Gran Media ∑∑ 𝒙 𝒊𝒋
𝒊=𝟏 𝒋 =𝟏
´ =
𝒙
𝒏
𝑥 11 + 𝑥 1 2+ … .+ 𝑥 1𝑘 + 𝑥 21 + 𝑥 22 +… .+ 𝑥 2 𝑘+ … … ..+ 𝑥 𝑟 1 + 𝑥𝑟 2 +… .+ 𝑥 𝑟 𝑘
´=
𝑥
𝑛
Media del tratamiento:
Gran Media
𝑟 𝑘
Suma de Cuadrados Totales 𝑆 𝐶𝑇 =∑ ∑ ( 𝑥 𝑖𝑗 − 𝑥´ )2
𝑖=1 𝑗=1
++…………
…………+
𝑘
Suma de Cuadrados de los Tratamientos 𝑆 𝐶𝑇 𝑅= ∑ 𝑟 𝑗 ( 𝑥 𝑗 − 𝑥 )
´ 2
Numero de elementos de fila :
𝐽=1
++………………..+ ∀ : 𝑗=1 , 2 ,3 , … … … … , 𝑘
𝑟 𝑘
Suma de Cuadrados del Error 𝑆 𝐶 𝐸=∑ ∑ ( 𝑥 𝑖𝑗 − 𝑥 𝑗 ) 2
𝑖=1 𝑗=1
++…
…………+
ANOVA
SUMA DE GRADOS DE CUADRADOS F
FUENTE DE VARIABILIDAD
CUADRADOS LIBERTAD MEDIOS (FORMULA)
ENTRE MUESTRAS
(Tratamientos) SCTR k-1
DENTRO DE MUESTRAS
(Error) SCE n–k
VARIACION TOTAL SCT n–1
SUCURSALES
DEPOSITO
1 2 3 4
1 5,1 1,9 3,6 1,3
2 4,9 1,9 4,2 1,5
3 5,6 2,1 4,5 0,9
4 4,8 2,4 4,8 1,0
5 3,8 2,1 3,9 1,9
6 5,1 3,1 4,1 1,5
7 4,8 2,5 5,1 2,1
Cálculo de la Media del tratamiento
Media del tratamiento Media del tratamiento Sucursal 1
5 ,1+ 4 ,9 +5 , 6+ 4 ,8 +3 , 8+ 5 , 1+ 4 , 8
∑
𝑟
𝑥1 = =4 , 87
𝑖 =1
𝑥 𝑖𝑗
∀ : 𝑗=1 , 2 ,.. 𝑘 7
𝑥 𝑗=
𝑛
𝑺 𝑪𝑻 =𝟔𝟏.𝟎𝟎
Suma de Cuadrados de Tratamiento
´
𝒙=𝟑 , 𝟐𝟑 Gran Media
𝑺𝑪𝑻𝑹=𝟕 ( 𝟒,𝟖𝟕− 𝟑,𝟐𝟑 ) 𝟐+𝟕 ( 𝟐,𝟐𝟗− 𝟑,𝟐𝟑 ) 𝟐+𝟕 ( 𝟒 ,𝟑𝟏− 𝟑,𝟐𝟑 ) 𝟐+𝟕 (𝟏,𝟒𝟔−𝟑,𝟐𝟑 ) 𝟐
𝑺𝑪𝑻𝑹=𝟓𝟓,𝟑𝟑
Suma de Cuadrados de Error (SCE)
SUCURSAL
Suma de Cuadrados de Error
𝑟 𝑘 1 2 3 4
𝑆 𝐶 𝐸=∑ ∑ ( 𝑥 𝑖𝑗 − 𝑥 𝑗 ) 2
MEDIAS 4,87 2,29 4,31 1,46
𝑖=1 𝑗=1
𝑖=1 𝑗=1
𝑐
Suma de Cuadrados de los Tratamientos 𝑆 𝐶𝑇 𝑅= ∑ 𝑟 𝑗 ( 𝑥 𝑗 − 𝑥´ )2 𝑺𝑪𝑻𝑹=𝟓𝟓,𝟑𝟑
𝐽=1
𝑟 𝑘
Suma de Cuadrados del Error 𝑆 𝐶 𝐸=∑ ∑ ( 𝑥 𝑖𝑗 − 𝑥 𝑗 ) 2 𝑺 𝑪 𝑬=𝟓 , 𝟔𝟕
𝑖=1 𝑗=1
Tabla de Análisis de Varianza - ANOVA
FUENTE DE SUMA DE GRADOS DE CUADRADOS F
VARIABILIDAD CUADRADOS LIBERTAD MEDIOS (FORMULA)
ENTRE MUESTRAS
(Tratamientos) 55,33 4-1
DENTRO DE MUESTRAS
(Error) 5,67 28 – 4 78,14
VARIACION TOTAL 61,00 28 – 1
𝑭 𝜶− (𝒌 −𝟏 ) −𝒌(𝒏 −𝟏 )=¿
𝑭 𝟎, 𝟎𝟏− 𝟑− 𝟐𝟒 =𝟒. 𝟕𝟐
Como 78,14 es mayor que = 4.72; HO no se acepta, por lo tanto existen diferencias reales entre las
medias.
ANÁLISIS DE VARIANZA
GRADOS
FUENTE DE SUMA DE F
DE CUADRADOS MEDIOS
VARIABILIDAD CUADRADOS (FORMULA)
LIBERTAD
ENTRE MUESTRAS
(Tratamientos) SCTR k-1
ENTRE BLOQUES SCBL r–1
DENTRO DE MUESTRAS
(Error) SCE (r-1) (k-1)
Gerente
Empleado
1 2 3 4
1 31 35 46 38
2 29 32 45 36
3 13 17 35 20
4 28 38 52 39
5 14 20 40 20
Es decir que se desea saber si existe diferencias en las clasificaciones promedio de los cuatro
gerentes.
H o : µ 1 = µ2 = µ3 = µ4
H1 : No todas las medias de las filas son iguales
La Media de cada tratamiento () de todas las observaciones del experimento: =
Gerentes
Trabajadores 1 2 3 4 =
1 31 35 46 38 37.50
2 29 32 45 36 35.50
3 13 17 35 20 21.25
4 28 38 52 39 39.25
5 14 20 40 20 23.50
= 23.0 28.4 43.6 30.6 31.4
1
𝑥𝑖𝑗
31 35 46 38
2 29 32 45 36
3 13 17 35 20
4 28 38 52 39
5 14 20 40 20 = 31.4
5
𝑆𝐶𝑇𝑅=∑ 𝑟 𝑗 ( 𝑥 𝑗 − 𝑋´ )
2
352.8 45 744.2 3.2 1 145.2
Suma de Cuadrados de los Bloques
Suma de Cuadrados de los Bloques (SCBL) refleja la variación en las medias de la filas alrededor
de la gran media.
Gerentes
Trabajadores 1 2 3 4 =
1 31 35 46 38 37.50
𝑥𝑖
2 29 32 45 36 35.50
3 13 17 35 20 21.25
4 28 38 52 39 39.25
5 14 20 40 20 23.50 = 31.4
4
𝑆𝐶𝐵𝐿=∑ 𝑐 𝑖 ( 𝑥 𝑖 − 𝑋´ )
2
148.84 67.24 412.09 246.49 249.64 1 124.3
Como: SCT = 2 344.8 Siendo: SCE = SCT - SCTR - SCBL
SCTR = 1 145.2
SCBL = 1 124.3 Se tiene que: 75.3 = 2 344.8 - 1 145.2 - 1 124.3
glSCT = n – 1 = 20 – 1 = 19 glSCT = 19
glSCTR = k – 1 = 4 – 1 = 3 glSCTR = 3
glSCBL = r–1 = 5–1=4 glSCBL = 4
𝑆𝐶𝐸 𝟕𝟓 .𝟑
Cuadrado Medio Error: 𝐶𝑀𝐸 =
𝑔𝑙 𝑆𝐶𝐸
𝑪𝑴𝑬=
( 𝟓 −𝟏 ) ∗(𝟒 −𝟏)
=𝟔 . 𝟐𝟕𝟓
𝑆𝐶𝑇𝑅 𝟏𝟏𝟒𝟓 .𝟐
Cuadrado Medio del Tratamiento: 𝐶𝑀𝑇𝑅= 𝑪𝑴𝑻𝑹= =𝟑𝟖𝟏 . 𝟕𝟑
𝑔𝑙 𝑆𝐶𝑇𝑅 𝟒 −𝟏
𝑆𝐶𝐵𝐿 𝟏 𝟏𝟐𝟒 .𝟑
Cuadrado Medio del Bloque: 𝐶𝑀𝐵𝐿=
𝑔𝑙 𝑆𝐶𝐵𝐿
𝑪𝑴𝑩𝑳=
𝟓 −𝟏
=𝟐𝟖𝟏 . 𝟎𝟕𝟓
Los Cuadrados Medios de Tratamientos (CMTR) mide la variación entre tratamientos. Si los tratamientos
tienen efectos diferentes los CMTR lo reflejara a través de su incremento. Entonces la razón F en si misma
se incrementara. Por tanto, si la razón F se vuelve “significativamente” grande porque CMTR excede a
CME por una cantidad grande, se reconoce que los efectos del tratamiento probablemente existen. Es
probable que tratamientos diferentes tengan efectos diferentes en las medias de sus poblaciones
respectivas, y podría rechazarse la hipótesis nula, la cual indica que las medias de los tratamientos son
iguales.
TABLA DE ANALISIS DE VARIANZA GENERALIZADA
Suma de Grados de
FUENTE DE VARIACION Cuadrados Medios Valor F
Cuadrados Libertad
Entre Muestras (Tratamientos) SCTR k-1 CMTR = SCTR / k - 1 𝑪𝑴𝑻𝑹
𝑭=
𝑪𝑴𝑬
Entre Bloques SCBL r-1 CMBL = SCBL / r - 1 𝑭=
𝑪𝑴𝑩𝑳
𝑪𝑴𝑬
Dentro de Muestras (Error) SCE (k – 1)*(r-1) CME = SCE / n - 1
Variación Total SCT n–1
Ho : µ1= µ2= µ3 = µ4
H1 : No todas las medias de las filas son iguales
Prueba F de Fischer (tabla)
• Grados de libertad de la Suma de Cuadrados Totales (gl SCT ): glSCT = n - 1 = 20 – 1 = 19
• Grados de libertad de la Suma de Cuadrados de los Tratamientos (gl SCTR ): glSCTR = k - 1 =4–1=3
• Grados de libertad de la Suma de Cuadrados de los Bloques (gl SCBL ): glSCBL = r - 1 = 5–1=4
Como es mayor que = 5.95; HO no se acepta, por lo tanto existen diferencias reales entre las medias.
Conclusiones
Anova: Permite estudiar la asociación entre una variable cuantitativa y una variable
cualitativa de más de dos categorías, siempre que la cuantitativa siga una
distribución normal. Con el análisis de varianza comprobamos si existen diferencias
estadísticamente significativas entre más de dos grupos. Comprobamos si las
diversas muestras podemos considerarlas muestras aleatorias de la misma población.
Es el método apropiado cuando tenemos más de dos grupos en el mismo
planteamiento.
Test de Fisher: El test exacto de Fisher permite analizar si dos variables dicotómicas
están asociadas cuando la muestra a estudiar es demasiado pequeña (N<20), y no se
cumplen las condiciones necesarias para que la aplicación de la Chi sea adecuada.
Los valores esperados de al menos el 80% de las celdas en una tabla de contingencia
sean mayores de 5.
Origen de la t de Student: A finales del siglo XIX. En Dublín la fábrica Guinness
era la cervecería más grande del mundo: la Guinness se consumía en Irlanda y Gran
Bretaña y comenzaba a exportarse por todo el mundo a los dueños les preocupaba la
calidad de su producto fueron pioneros en establecer controles de calidad Contratan
al estadístico William Sealy Gosset (compañero de F. N) Con el objetivo de
optimizar el producto ya que analizar toda la producción es muy caro… y extraen
muestras y trata de establecer conclusiones para toda la producción.
Algunas baterías aconsejan la utilización de cantidades mas pequeñas de insumos y condimentos, ya que
los materiales utilizados y el diseño de la batería pueden hacer variar el tiempo necesario de cocción. Los
datos esta en unidades monetarias (u.m.).
Los gastos: Tecnologia y energía “X1” asi
como de insumos y condimentos “X2”.
BATERIAS
Tecnología y Energía “X1”
Pruebas A B C
Pruebas A B C
X1 X2 X1 X2 X1 X2 1 32 28 31
1 32 48 28 46 31 43 2 30 26 30
2 30 45 26 39 30 42
3 31 30 32
3 31 45 30 45 32 44
4 33 28 30
4 33 47 28 47 30 44
5 29 44 29 48 27 41 5 29 29 27
Pruebas A B C Pruebas A B C
1 80 74 74 1 48 46 43
2 75 75 72 2 45 39 42
3 76 75 76 3 45 45 44
4 80 75 74 4 47 47 44
5 73 77 68 5 44 48 41
Utilizando un análisis ANOVA ¿Qué puede inferirse a partir de los datos recabados?
TECNOLOGIA Y ENERGÍA “X1”
Pruebas A B C
1 32 28 31
2 30 26 30
3 31 30 32
4 33 28 30
5 29 29 27
1.- Calculo de las medias aritméticas de los TRATAMIENTOS (baterías): Tecnologia y energía “X 1”
Media Aritmética 32+30 +31+33 +29 155
𝒏 𝑥 𝐴= = =31
∑
𝒊 =𝟏
𝑿𝒊 5 5
𝒙𝑻=
𝒏 28+26 +30+ 28+29 141
𝑥𝐵= = =28 ,2
5 5
31+30+ 32+ 30+27 150
𝑥 𝐶= = =30
5 5
2.- Calculo de las Varianza Muestral de los TRATAMIENTOS (baterías): Tecnologia y energía “X 1”
𝑛
∑ ( 𝑋 ¿ ¿ 𝑖 − 𝑥 )2
Varianza Muestral 𝑆 2𝑇 = 𝑖 =1 ¿
𝑛−1
2 2 2 2 2
2 (32 −31) +(3 0 −31) +( 3 1− 31) +(3 3 − 31) +(29 −31) 10
𝑆 𝐴= = =2 , 5
5 −1 4
2 2 2 2 2
2 (28 − 28 , 2 ) +( 26 −28 ,2 ) +(3 0− 28 , 2 ) +(28 −28 ,2 ) +(29 −28 ,2 ) 8 , 8
𝑆 𝐵= = =2 , 2
5 −1 4
2 2 2 2 2
(31 − 30) +(3 0 −3 0) +(3 2 −3 0) +(3 0 −3 0) +(27 − 3 0) 10
2
𝑆 𝐶= = =3 , 5
5 −1 4
Tomando en cuenta los cálculos de las varianzas se evidencia que la Batería B es la que presenta
menos varianza, por lo que para el uso de tecnología y gasto de energía “X1”, es la mas
conveniente.
Estimación Interna de Varianza
𝟐 𝟐
𝑺𝟏 + 𝑺𝟐 + 𝑺𝟑+ … .+ 𝑺𝒌
𝟐 𝟐
𝟐 𝟐 ,𝟓+ 𝟐 ,𝟐+ 𝟑 ,𝟓 𝟖 , 𝟐
𝟐
𝑺 𝑾= 𝑺 𝑾 = = =𝟐 , 𝟕𝟑𝟑
𝒌 𝟑 𝟑
2 2
Estimación Intermediante de Varianzas 𝑆 𝑥 =𝑛 ∗ 𝑆 𝑥
𝟑𝟏+𝟐𝟖 ,𝟐+ 𝟑𝟎 𝟖𝟗 , 𝟐
´
𝒙= = =𝟐𝟗 , 𝟕𝟑𝟑
𝟑 𝟑
𝑘
𝟐 𝟐
Estimación Intermediante de Varianzas 𝑺 𝒙 =𝒏 ∗ 𝑺 𝒙
𝟐
𝑺 𝒙 =𝟐 , 𝟎𝟏𝟑
= 10,065
𝒏=𝟓
Planteamiento de Hipótesis HO: Todas las proporciones de la poblacion son iguales.
HA: No todas las proporciones de la poblacion son iguales.