Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El análisis de varianza es una técnica estadística que permite analizar cómo operan, sobre un conjunto de
unidades experimentales, los diferentes niveles de tratamiento de un factor de interés determinado. Para
responder a la pregunta:
Ho: 𝜇1 = 𝜇2 … . = 𝜇𝑎 contra
Dónde:
El análisis de varianza está diseñado para probar si dos o más niveles de tratamiento tienen la misma
respuesta media, de no ser así, esto implicaría que por lo menos uno de los “niveles de tratamiento” del factor
de interés, que está siendo sometido a prueba, está ejerciendo un impacto significativo en la variable de
respuesta.
Ejemplo Ilustrativo:
“El vicepresidente de mercadeo de First City Bank, quiere atraer nuevos clientes depositantes al banco. Para
ello, planea sortear algunos juegos y premios en cada una de las 4 sucursales del banco. El vicepresidente
piensa que diferentes tipos de premios atraerían a diferentes grupos de personas de acuerdo a sus ingresos
económicos. Por ello, el vicepresidente utiliza el monto de los depósitos de los clientes como una medida
representativa del ingreso de los mismos y con esto, determinar si existe una diferencia en el promedio de
depósitos entre las 4 sucursales del banco. Si halla alguna diferencia, el vicepresidente ofrecerá diferentes
premios promocionales”.
R: Los Niveles de Tratamiento del Factor de interés, son las 4 Sucursales del Banco. Es decir, el factor
“Sucursal” tiene 4 niveles, correspondientes a las 4 Sucursales del banco.
Sucursal 1.
Sucursal 2.
Sucursal 3.
Sucursal 4.
R: Las Unidades Experimentales son las 7 cuentas bancarias extraidas de cada una de las 4 sucursales.
d) ¿Cuál es la variable dependiente o de respuesta Y?
Es cuando varias unidades experimentales, son sometidas de manera aleatoria a diferentes niveles de un
Factor de interés.
Supongamos que queremos estudiar el efecto de un factor determinado, que tiene "𝒂" niveles de tratamiento,
sobre muestras aleatorias de "𝒏" unidades experimentales. Los datos de un experimento con un solo factor
aparecerán en una tabla como la siguiente:
𝑦̅.. Corresponde a la media global o gran media, de todas las observaciones que hay en la tabla de datos.
ILUSTRACIÓN:
Los datos de los depósitos, en miles de dólares, de una muestra de 7 cuentas seleccionadas al azar, en cada
una de las 4 sucursales del banco, se muestran en la Tabla 1.:
Tabla 1.
Sucursal 1 2 3 4 5 6 7 ̅𝒊.
𝒚
Sucursal 1 5.1 4.9 5.6 4.8 3.8 5.1 4.8 4.8714
Sucursal 2 1.9 1.9 2.1 2.4 2.1 3.1 2.5 2.2857
Sucursal 3 3.6 4.2 4.5 4.8 3.9 4.1 5.1 4.3143
Sucursal 4 1.3 1.5 0.9 1.0 1.9 1.5 2.1 1.4571
̅.. =3.232143
𝒚
Todos los datos que aparecen dentro de la tabla corresponden a los términos 𝑦𝑖𝑗 . Por ejemplo, el dato 2.1
que aparece en rojo dentro de la tabla, corresponde a la observación número 3 del nivel de tratamiento número
2. Es decir:
𝒚𝟐𝟑 = 𝟐. 𝟏
El promedio 4.3143 que aparece en la última columna de la tabla, corresponde al promedio del nivel de
tratamiento 3. Es decir:
̅𝟑. = 𝟒. 𝟑𝟏𝟒𝟑
𝒚
El promedio 3.232143 que aparece en la parte inferior de la última columna de la tabla, corresponde a la
media global o gran media de todos los datos de la tabla. Es decir:
̅.. = 𝟑. 𝟐𝟑𝟐𝟏𝟒𝟑
𝒚
Como pueden notar en la tabla de arriba, hay 4 niveles de tratamiento del Factor Sucursal, ese número de
niveles de tratamiento se representa con "𝒂", es decir que 𝒂 = 𝟒.
Por cada sucursal se escogió una muestra aleatoria de 7 cuentas de ahorros, que son las unidades
experimentales, ese número de unidades experimentales se representa con "𝒏", es decir que 𝒏 = 𝟕.
En total, en toda la tabla hay 28 datos, a la cantidad total de datos de la tabla se le representa con “𝑵”, es
decir que 𝑵 = 𝟐𝟖.
Para realizar la prueba de las hipótesis:
Ho: 𝜇1 = 𝜇2 … . = 𝜇𝑎 contra
El estadístico Calculado se halla con la construcción de la Tabla de Análisis de Varianza o Tabla ANOVA.
𝑆𝑆𝐸
ERROR SSE = SST - SSTRAT 𝑁−𝑎 𝐶𝑀𝐸 =
𝑁−𝑎
El valor de 𝑭𝑪 que parece al final de la tabla ANOVA, es el valor del Estadístico Calculado.
Pasos Para Construir la Tabla ANOVA
Para llevar a cabo el análisis de varianza lo primero que se debe calcular son las sumas de cuadrados. Cada
tipo de variación produce una suma de cuadrados, las cuales son:
Sumas De Cuadrados:
Suma de Cuadrados Total (SST)
Suma de Cuadrados de los Tratamientos (SStrat)
Suma de Cuadrados del Error (SSE).
c) Por último, el resultado hallado en el punto a) se resta con el resultado hallado en el punto b) y con esto
se obtiene la Suma de Cuadrados Total.
Suma de Cuadrados de los Tratamientos:
SSTRAT = 𝑛 ∑𝑎𝑖=1 𝑦̅𝑖.2 − 𝑁𝑦̅..2
𝑎
̅𝑖.2 , se elevan al cuadrado los promedios por fila de la tabla de datos, luego
a) Para hallar el término, 𝑛 ∑𝑖=1 𝑦
se suman y por último se multiplican por el tamaño de muestra n.
c) Por último el resultado hallado en el punto a) se resta con el resultado hallado en el punto b) y con esto se
obtiene la Suma de Cuadrados de los Tratamientos.
G.L.
SST: 𝑵−𝟏
SSTRAT: 𝒂−𝟏
SSERROR: 𝑵−𝒂
Dónde:
𝑵, Es el total de observaciones de la tabla de datos.
𝒂, Son los niveles de tratamiento del Factor.
Cuadrados Medios:
Cuadrado Medio de los Tratamientos (CMTRAT)
Cuadrado Medio del Error (CME)
Se divide la Suma de Cuadrados de los Tratamientos (SSTRAT) entre los Grados de Libertad (G.L.) 𝑎 − 1. El
resultado es el Cuadrado Medio de los Tratamientos (CMTRAT).
Se divide la Suma de Cuadrados del Error (SSE) entre los Grados de Libertad (G.L.) 𝑁 − 𝑎. El resultado es
el Cuadrado Medio del Error (CME).
Estadístico Calculado:
Al final, hallamos el estadístico calculado 𝑭𝑪 , dividiendo el Cuadrado Medio de los Tratamientos (CMTRAT)
entre el Cuadrado Medio del error (CME).
𝑪𝑴𝑻𝑹𝑨𝑻.
𝑭𝑪 = 𝑪𝑴𝑬
Estadístico Tabulado:
Por otro lado, hallamos el estadístico tabulado 𝑭(𝜶,𝒂−𝟏,𝑵−𝒂) con ayuda de la tabla de la distribución de
probabilidad 𝑭 𝒅𝒆 𝑭𝒊𝒔𝒉𝒆𝒓, con los grados de libertad 𝒂 − 𝟏 y 𝑵 − 𝒂 y con un nivel de significancia 𝜶 = 𝟎. 𝟎𝟓.
Comparamos los estadísticos 𝑭𝑪 y 𝑭𝜶 . Si 𝑭𝑪 > 𝑭(𝜶,𝒂−𝟏,𝑵−𝒂) , la hipótesis nula Ho se rechaza, con lo que se
concluye que hay diferencia significativa entre la media de los resultados debido a los tratamientos usados o,
los tipos de tratamiento están haciendo efecto sobre la respuesta. La variable Y depende de la variable X.
Pero si 𝑭𝑪 ≤ 𝑭(𝜶,𝒂−𝟏,𝑵−𝒂) , la hipótesis nula Ho se acepta, con lo que se concluye que el tipo de tratamiento
usado no está haciendo efecto sobre la respuesta o no hay diferencia significativa en la respuesta media
debido a los tratamientos usados. La variable Y no depende de la variable X.
EJEMPLO:
Tomando los datos de los montos de dinero ahorrado en las 4 sucursales bancarias, realiza lo siguiente:
Una vez rechazada la hipótesis nula Ho, se procede a probar la igualdad de todos los pares de medias con
las siguientes hipótesis.
Ho: 𝜇𝑖 = 𝜇𝑗 contra
Hi: 𝜇𝑖 ≠ 𝜇𝑗
Es decir, se trata de determinar cuáles de los tratamientos son los que realmente difieren entre sí. Existen
varios métodos, entre los cuales se destaca:
Dónde, 𝑦̅𝑖. 𝑦 𝑦̅𝑗. son los promedios de los tratamientos que se estan comparando.
De tal manera que, si quiero saber si hay diferencia significativa entre, por ejemplo, la media de los
tratamientos 𝑇1 𝑦 𝑇3 , las hipótesis nula y alternativa quedaran de la siguiente manera:
Ho: 𝜇1 = 𝜇3
vs.
Hi: 𝜇1 ≠ 𝜇3
Dónde, 𝑦̅𝑖. 𝑦 𝑦̅𝑗. son los promedios de los tratamientos que se estan comparando.
Ho: 𝜇1 = 𝜇3
vs.
Hi: 𝜇1 ≠ 𝜇3
Dónde, 𝑦̅𝑖. 𝑦 𝑦̅𝑗. son los promedios de los tratamientos que se estan comparando.
𝑀𝑆𝐸
𝐻𝑆𝐷 = (𝑞𝛼; 𝑎; 𝑁−𝑎 )√
𝑛
Dónde, 𝑞𝛼; 𝑎; 𝑁−𝑎 es el estadístico de la distribución de Rango Estudentizado de Tukey, con 𝑎, 𝑁 − 𝑎
grados de libertad y 𝛼 es el nivel de significancia con el cual se está trabajando.
La Ho se rechaza si,
̅ 𝑖. − 𝑦̅𝑗. | > 𝑞
𝑀𝑆𝐸
|𝑦 √
𝛼; 𝑎; 𝑁−𝑎 𝑛
De manera similar, si quiero saber si hay diferencia significativa entre, por ejemplo, la media de los
tratamientos 𝑇1 𝑦 𝑇3 , las hipótesis nula y alternativa quedaran de la siguiente manera:
Ho: 𝜇1 = 𝜇3
vs.
Hi: 𝜇1 ≠ 𝜇3
Ejercicio:
1) Muchas compañias de Estados Unidos iniciaron relaciones comerciales con Vietnam, despues de que se
retiró el embargo comercial, en el año 1994. Los datos que a continuación aparecen, corresponde a los
montos en miles de millones de dólares, para cuatro tipos de industrias que iniciaron relaciones comerciales
con el mencionado pais.
MONTOS
INDUSTRIA 1 2 3 4 5
PETRÓLEO 2.1 2.5 2.6 2.1 3.5
BEBIDAS CARBONATADAS 5.6 6.2 7.8 6.8 5.4
MAQUINARIA DE CONSTRUCCION 1.5 1.0 1.8 1.9 1.7
COMPUTADORES 4.5 4.2 4.1 4.6 4.2
a) Escribe las variables X y Y sometidas a estudio; Escribe la hipótesis nula y alternativa con respecto a los
montos en millones de dólares para los 4 tipos de industrias, en términos del problema.Construye la tabla
ANOVA, y realiza el respectivo análisis de varianza, para probar las hipótesis arriba escritas, con una
significancia del 5%. ¿Existe relación de dependencia entre las variables X y Y arriba escritas?
b) Si la Ho se rechaza, realiza la prueba entre los pares de medias correspondientes para determinar en cuál
de los 4 tipos de industrias, se registra diferencia significativa.