Está en la página 1de 18

PRUEBAS DE HIPÓTESIS PARA LAS MEDIAS DE MAS DE DOS POBLACIONES

ANÁLISIS DE VARIANZA (ANOVA)

El análisis de varianza es una técnica estadística que permite analizar cómo operan, sobre un conjunto de
unidades experimentales, los diferentes niveles de tratamiento de un factor de interés determinado. Para
responder a la pregunta:

¿La variable Y depende de la variable X?

Mediante la prueba de las hipótesis:

Ho: 𝜇1 = 𝜇2 … . = 𝜇𝑎 contra

Hi: 𝜇𝑖 ≠ 𝜇𝑗 para al menos un par " 𝑖, 𝑗"

Dónde:

X es la Variable Independiente o Factor y es Cualitativa.


Y es la Variable Dependiente o de Respuesta y es Cuantitativa

Si la Ho se rechaza, entonces la variable Y depende de la variable X.


Si la Ho se acepta, entonces la variable Y no depende de la variable X.

El análisis de varianza está diseñado para probar si dos o más niveles de tratamiento tienen la misma
respuesta media, de no ser así, esto implicaría que por lo menos uno de los “niveles de tratamiento” del factor
de interés, que está siendo sometido a prueba, está ejerciendo un impacto significativo en la variable de
respuesta.
Ejemplo Ilustrativo:
“El vicepresidente de mercadeo de First City Bank, quiere atraer nuevos clientes depositantes al banco. Para
ello, planea sortear algunos juegos y premios en cada una de las 4 sucursales del banco. El vicepresidente
piensa que diferentes tipos de premios atraerían a diferentes grupos de personas de acuerdo a sus ingresos
económicos. Por ello, el vicepresidente utiliza el monto de los depósitos de los clientes como una medida
representativa del ingreso de los mismos y con esto, determinar si existe una diferencia en el promedio de
depósitos entre las 4 sucursales del banco. Si halla alguna diferencia, el vicepresidente ofrecerá diferentes
premios promocionales”.

a) ¿Cuál es el Factor de interés o variable independiente X?

R: El Factor es la “Sucursal” del Banco.

b) ¿Cuales son los niveles de tratamiento del Factor de interés?

R: Los Niveles de Tratamiento del Factor de interés, son las 4 Sucursales del Banco. Es decir, el factor
“Sucursal” tiene 4 niveles, correspondientes a las 4 Sucursales del banco.

Sucursal 1.
Sucursal 2.
Sucursal 3.
Sucursal 4.

c) ¿Cuales son las unidades experimentales?

R: Las Unidades Experimentales son las 7 cuentas bancarias extraidas de cada una de las 4 sucursales.
d) ¿Cuál es la variable dependiente o de respuesta Y?

R: La variable dependiente Y es el monto de dinero ahorrado.

Análisis de Varianza (Diseño Unifactorial Completamente Aleatorizado)

Es cuando varias unidades experimentales, son sometidas de manera aleatoria a diferentes niveles de un
Factor de interés.

Supongamos que queremos estudiar el efecto de un factor determinado, que tiene "𝒂" niveles de tratamiento,
sobre muestras aleatorias de "𝒏" unidades experimentales. Los datos de un experimento con un solo factor
aparecerán en una tabla como la siguiente:

Niveles de Tratamiento Observaciones Promedios


∑𝑛
𝑗=1 𝑦1𝑗
1 𝑦11 𝑦12 … 𝑦1𝑗 . .. 𝑦1𝑛 𝑦̅1. = 𝑛
∑𝑛
𝑗=1 𝑦2𝑗
2 𝑦21 𝑦22 … 𝑦2𝑗 . .. 𝑦2𝑛 𝑦̅2. =
𝑛
. . . … . ... . .......
. . . ... . ... . .......
𝑖 𝑦𝑖1 𝑦𝑖2 … 𝑦𝑖𝑗 ... 𝑦𝑖𝑛 ..……
. . . . . .
. . . . . .
∑𝑛
𝑗=1 𝑦𝑎𝑗
𝑎 𝑦𝑎1 𝑦𝑎2 … 𝑦𝑎𝑗 . .. 𝑦𝑎𝑛 𝑦̅𝑎. =
𝑛
_____________
∑𝑎 𝑛
𝑖=1 ∑𝑗=1 𝑦𝑖𝑗
𝑦̅.. = 𝑁
La anterior es una notación matricial 𝑖𝑗. Dónde:

𝑖 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑙𝑎 𝑓𝑖𝑙𝑎 𝑜 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 𝑖 − é𝑠𝑖𝑚𝑜.


𝑗 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑒𝑙 𝑑𝑎𝑡𝑜 𝑗 − é𝑠𝑖𝑚𝑜.

𝑦𝑖𝑗 Corresponde a la observación 𝑗- ésima del 𝑖-ésimo tratamiento.

𝑦̅𝑖. Corresponde al promedio de las observaciones del 𝑖-ésimo tratamiento.

𝑦̅.. Corresponde a la media global o gran media, de todas las observaciones que hay en la tabla de datos.

ILUSTRACIÓN:

Los datos de los depósitos, en miles de dólares, de una muestra de 7 cuentas seleccionadas al azar, en cada
una de las 4 sucursales del banco, se muestran en la Tabla 1.:

Tabla 1.
Sucursal 1 2 3 4 5 6 7 ̅𝒊.
𝒚
Sucursal 1 5.1 4.9 5.6 4.8 3.8 5.1 4.8 4.8714
Sucursal 2 1.9 1.9 2.1 2.4 2.1 3.1 2.5 2.2857
Sucursal 3 3.6 4.2 4.5 4.8 3.9 4.1 5.1 4.3143
Sucursal 4 1.3 1.5 0.9 1.0 1.9 1.5 2.1 1.4571
̅.. =3.232143
𝒚
Todos los datos que aparecen dentro de la tabla corresponden a los términos 𝑦𝑖𝑗 . Por ejemplo, el dato 2.1
que aparece en rojo dentro de la tabla, corresponde a la observación número 3 del nivel de tratamiento número
2. Es decir:

𝒚𝟐𝟑 = 𝟐. 𝟏
El promedio 4.3143 que aparece en la última columna de la tabla, corresponde al promedio del nivel de
tratamiento 3. Es decir:

̅𝟑. = 𝟒. 𝟑𝟏𝟒𝟑
𝒚

El promedio 3.232143 que aparece en la parte inferior de la última columna de la tabla, corresponde a la
media global o gran media de todos los datos de la tabla. Es decir:
̅.. = 𝟑. 𝟐𝟑𝟐𝟏𝟒𝟑
𝒚
Como pueden notar en la tabla de arriba, hay 4 niveles de tratamiento del Factor Sucursal, ese número de
niveles de tratamiento se representa con "𝒂", es decir que 𝒂 = 𝟒.

Por cada sucursal se escogió una muestra aleatoria de 7 cuentas de ahorros, que son las unidades
experimentales, ese número de unidades experimentales se representa con "𝒏", es decir que 𝒏 = 𝟕.

En total, en toda la tabla hay 28 datos, a la cantidad total de datos de la tabla se le representa con “𝑵”, es
decir que 𝑵 = 𝟐𝟖.
Para realizar la prueba de las hipótesis:

Ho: 𝜇1 = 𝜇2 … . = 𝜇𝑎 contra

Hi: 𝜇𝑖 ≠ 𝜇𝑗 para al menos un par " 𝑖, 𝑗"

Se necesitan dos estadísticos: Un Estadístico Calculado y un Estadístico Tabulado.

La distribución de probabilidad con la que trabajaremos, es la Distribución de Probabilidad F de Fisher.

El estadístico Calculado se halla con la construcción de la Tabla de Análisis de Varianza o Tabla ANOVA.

El Estadístico Tabulado se halla en la Tabla de la Distribución de probabilidad F de Fisher.


TABLA ANOVA

Componentes de la Tabla ANOVA:

FUENTE DE SUMA DE G.L. CUADRADOS 𝑭𝑪


VARIACIÓN CUADRADOS MEDIO

TRATAMIENTOS 𝑆𝑆𝑇𝑅𝐴𝑇 𝐶𝑀𝑇𝑅𝐴𝑇


SSTRAT = 𝑛 ∑𝑎𝑖=1 𝑦̅𝑖.2 − 𝑁𝑦̅..2 𝑎−1 𝐶𝑀𝑇𝑅𝐴𝑇 = 𝑭𝑪 =
𝑎−1 𝐶𝑀𝐸

𝑆𝑆𝐸
ERROR SSE = SST - SSTRAT 𝑁−𝑎 𝐶𝑀𝐸 =
𝑁−𝑎

TOTAL SST = ∑𝑎𝑖=1 ∑𝑛𝑗=1 𝑦𝑖𝑗


2
− 𝑁𝑦̅..2 𝑁−1

El valor de 𝑭𝑪 que parece al final de la tabla ANOVA, es el valor del Estadístico Calculado.
Pasos Para Construir la Tabla ANOVA

Para llevar a cabo el análisis de varianza lo primero que se debe calcular son las sumas de cuadrados. Cada
tipo de variación produce una suma de cuadrados, las cuales son:

Sumas De Cuadrados:
Suma de Cuadrados Total (SST)
Suma de Cuadrados de los Tratamientos (SStrat)
Suma de Cuadrados del Error (SSE).

Suma de Cuadrados Total:


SST = ∑𝑎𝑖=1 ∑𝑛𝑗=1 𝑦𝑖𝑗
2
− 𝑁𝑦̅..2
𝑎 𝑛 2
a) Para hallar el término ∑𝑖=1 ∑𝑗=1 𝑦𝑖𝑗 , se elevan al cuadrado todas las observaciones de la tabla de datos
y luego se suman.

̅..2 , tomamos la media global, es decir, el promedio de todas las observaciones,


b) Para hallar el término 𝑁𝑦
lo elevamos al cuadrado y por último se multiplica por el total de observaciones N.

c) Por último, el resultado hallado en el punto a) se resta con el resultado hallado en el punto b) y con esto
se obtiene la Suma de Cuadrados Total.
Suma de Cuadrados de los Tratamientos:
SSTRAT = 𝑛 ∑𝑎𝑖=1 𝑦̅𝑖.2 − 𝑁𝑦̅..2

𝑎
̅𝑖.2 , se elevan al cuadrado los promedios por fila de la tabla de datos, luego
a) Para hallar el término, 𝑛 ∑𝑖=1 𝑦
se suman y por último se multiplican por el tamaño de muestra n.

̅..2 tomamos la media global, es decir, el promedio de todas las observaciones, lo


b) Para hallar el término, 𝑁𝑦
elevamos al cuadrado y por último se multiplica por el total de observaciones N.

c) Por último el resultado hallado en el punto a) se resta con el resultado hallado en el punto b) y con esto se
obtiene la Suma de Cuadrados de los Tratamientos.

Suma de Cuadrados del Error:


SSE = SST - SSTRAT
Se halla simplemente restando la Suma de Cuadrados Total (SST) menos la Suma de Cuadrados de los
Tratamientos (SSTRAT).

Grados de Libertad G.L.:

G.L.
SST: 𝑵−𝟏
SSTRAT: 𝒂−𝟏
SSERROR: 𝑵−𝒂
Dónde:
𝑵, Es el total de observaciones de la tabla de datos.
𝒂, Son los niveles de tratamiento del Factor.

Cuadrados Medios:
Cuadrado Medio de los Tratamientos (CMTRAT)
Cuadrado Medio del Error (CME)

Cuadrado Medio de Los Tratamientos:


CMTRAT = SSTRAT⁄𝑎 − 1

Se divide la Suma de Cuadrados de los Tratamientos (SSTRAT) entre los Grados de Libertad (G.L.) 𝑎 − 1. El
resultado es el Cuadrado Medio de los Tratamientos (CMTRAT).

Cuadrado Medio del Error


CME = SSE⁄𝑁 − 𝑎

Se divide la Suma de Cuadrados del Error (SSE) entre los Grados de Libertad (G.L.) 𝑁 − 𝑎. El resultado es
el Cuadrado Medio del Error (CME).
Estadístico Calculado:
Al final, hallamos el estadístico calculado 𝑭𝑪 , dividiendo el Cuadrado Medio de los Tratamientos (CMTRAT)
entre el Cuadrado Medio del error (CME).
𝑪𝑴𝑻𝑹𝑨𝑻.
𝑭𝑪 = 𝑪𝑴𝑬

Estadístico Tabulado:
Por otro lado, hallamos el estadístico tabulado 𝑭(𝜶,𝒂−𝟏,𝑵−𝒂) con ayuda de la tabla de la distribución de
probabilidad 𝑭 𝒅𝒆 𝑭𝒊𝒔𝒉𝒆𝒓, con los grados de libertad 𝒂 − 𝟏 y 𝑵 − 𝒂 y con un nivel de significancia 𝜶 = 𝟎. 𝟎𝟓.

Comparamos los estadísticos 𝑭𝑪 y 𝑭𝜶 . Si 𝑭𝑪 > 𝑭(𝜶,𝒂−𝟏,𝑵−𝒂) , la hipótesis nula Ho se rechaza, con lo que se
concluye que hay diferencia significativa entre la media de los resultados debido a los tratamientos usados o,
los tipos de tratamiento están haciendo efecto sobre la respuesta. La variable Y depende de la variable X.

Pero si 𝑭𝑪 ≤ 𝑭(𝜶,𝒂−𝟏,𝑵−𝒂) , la hipótesis nula Ho se acepta, con lo que se concluye que el tipo de tratamiento
usado no está haciendo efecto sobre la respuesta o no hay diferencia significativa en la respuesta media
debido a los tratamientos usados. La variable Y no depende de la variable X.

EJEMPLO:
Tomando los datos de los montos de dinero ahorrado en las 4 sucursales bancarias, realiza lo siguiente:

a) Escribe las hipótesis Nula y Alternativa en términos del problema.


b) Construye la tabla ANOVA.
c) A un nivel de significancia 𝛼 = 0.05, prueba las hipótesis planteadas y concluye en términos del problema.
Ejercicio en clase:
Comparación Entre Pares de Medias

Una vez rechazada la hipótesis nula Ho, se procede a probar la igualdad de todos los pares de medias con
las siguientes hipótesis.

Ho: 𝜇𝑖 = 𝜇𝑗 contra
Hi: 𝜇𝑖 ≠ 𝜇𝑗

Es decir, se trata de determinar cuáles de los tratamientos son los que realmente difieren entre sí. Existen
varios métodos, entre los cuales se destaca:

Diferencia Mínima Significativa (LSD) de Fisher

El estadístico calculado en este caso es:


̅ 𝑖. − 𝑦̅𝑗. |
|𝑦

Dónde, 𝑦̅𝑖. 𝑦 𝑦̅𝑗. son los promedios de los tratamientos que se estan comparando.

El estadístico tabulado es:


2𝑀𝑆𝐸
𝐿𝑆𝐷 = 𝑡(𝛼 √
⁄ ; 𝑁−𝑎)
2 𝑛

Dónde, 𝑡𝛼⁄2; 𝑁−𝑎


es el estadístico de la distribución de probabilidad 𝑡 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 con 𝑁 − 𝑎 grados de libertad,
el cual tiene una probabilidad a su derecha de 𝛼⁄2.

𝑀𝑆𝐸 es el Cuadrado Medio del Error y 𝑛 es el tamaño de muestra.


La Ho se rechaza si,
̅ 𝑖. − 𝑦̅𝑗. | > 𝑡(𝛼
|𝑦 √2𝑀𝑆𝐸⁄𝑛
2; 𝑁−𝑎)

De tal manera que, si quiero saber si hay diferencia significativa entre, por ejemplo, la media de los
tratamientos 𝑇1 𝑦 𝑇3 , las hipótesis nula y alternativa quedaran de la siguiente manera:

Ho: 𝜇1 = 𝜇3
vs.
Hi: 𝜇1 ≠ 𝜇3

Diferencia Significativa (BSD) de Bonferroni

El estadístico calculado en este caso es:


̅ 𝑖. − 𝑦̅𝑗. |
|𝑦

Dónde, 𝑦̅𝑖. 𝑦 𝑦̅𝑗. son los promedios de los tratamientos que se estan comparando.

El estadístico tabulado es:

𝐵𝑆𝐷 = 𝑡(𝛼⁄ √2𝑀𝑆𝐸⁄𝑛


2𝑀; 𝑁−𝑎)

Dónde, 𝑡(𝛼 es el estadístico de la distribución de probabilidad 𝑡 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 con 𝑁 − 𝑎 grados de


⁄ 2𝑀; 𝑁−𝑎)
libertad, el cual tiene una probabilidad a su derecha de 𝛼⁄2𝑀.
𝑀 es el número de todas las comparaciones que se pueden hacer entre las medias de los 𝑎 tratamientos,
tomándolas por parejas, es decir que:
𝑎
𝑀=( )
2
La Ho se rechaza si,

̅ 𝑖. − 𝑦̅𝑗. | > 𝑡(𝛼


|𝑦 √2𝑀𝑆𝐸⁄𝑛
⁄2𝑀; 𝑁−𝑎)
De manera análoga, si quiero saber si hay diferencia significativa entre, por ejemplo, la media de los
tratamientos 𝑇1 𝑦 𝑇3 , las hipótesis nula y alternativa quedaran de la siguiente manera:

Ho: 𝜇1 = 𝜇3
vs.
Hi: 𝜇1 ≠ 𝜇3

Honesta Diferencia Significativa (HSD) de Tukey

El estadístico calculado en este caso es:


̅ 𝑖. − 𝑦̅𝑗. |
|𝑦

Dónde, 𝑦̅𝑖. 𝑦 𝑦̅𝑗. son los promedios de los tratamientos que se estan comparando.

El estadístico tabulado es:

𝑀𝑆𝐸
𝐻𝑆𝐷 = (𝑞𝛼; 𝑎; 𝑁−𝑎 )√
𝑛
Dónde, 𝑞𝛼; 𝑎; 𝑁−𝑎 es el estadístico de la distribución de Rango Estudentizado de Tukey, con 𝑎, 𝑁 − 𝑎
grados de libertad y 𝛼 es el nivel de significancia con el cual se está trabajando.

𝑀𝑆𝐸 es el Cuadrado Medio del Error y 𝑛 es el tamaño de muestra.

La Ho se rechaza si,

̅ 𝑖. − 𝑦̅𝑗. | > 𝑞
𝑀𝑆𝐸
|𝑦 √
𝛼; 𝑎; 𝑁−𝑎 𝑛

De manera similar, si quiero saber si hay diferencia significativa entre, por ejemplo, la media de los
tratamientos 𝑇1 𝑦 𝑇3 , las hipótesis nula y alternativa quedaran de la siguiente manera:

Ho: 𝜇1 = 𝜇3
vs.
Hi: 𝜇1 ≠ 𝜇3
Ejercicio:
1) Muchas compañias de Estados Unidos iniciaron relaciones comerciales con Vietnam, despues de que se
retiró el embargo comercial, en el año 1994. Los datos que a continuación aparecen, corresponde a los
montos en miles de millones de dólares, para cuatro tipos de industrias que iniciaron relaciones comerciales
con el mencionado pais.
MONTOS
INDUSTRIA 1 2 3 4 5
PETRÓLEO 2.1 2.5 2.6 2.1 3.5
BEBIDAS CARBONATADAS 5.6 6.2 7.8 6.8 5.4
MAQUINARIA DE CONSTRUCCION 1.5 1.0 1.8 1.9 1.7
COMPUTADORES 4.5 4.2 4.1 4.6 4.2

a) Escribe las variables X y Y sometidas a estudio; Escribe la hipótesis nula y alternativa con respecto a los
montos en millones de dólares para los 4 tipos de industrias, en términos del problema.Construye la tabla
ANOVA, y realiza el respectivo análisis de varianza, para probar las hipótesis arriba escritas, con una
significancia del 5%. ¿Existe relación de dependencia entre las variables X y Y arriba escritas?

b) Si la Ho se rechaza, realiza la prueba entre los pares de medias correspondientes para determinar en cuál
de los 4 tipos de industrias, se registra diferencia significativa.

También podría gustarte