Está en la página 1de 11

PRUEBAS DE HIPÓTESIS PARA LAS MEDIAS DE MAS DE DOS POBLACIONES

ANÁLISIS DE VARIANZA (ANOVA)

El análisis de varianza es una técnica estadística que permite analizar cómo operan, sobre un conjunto de
unidades experimentales, los diferentes niveles de tratamiento de un factor de interés determinado. Para
responder a la pregunta:

¿La variable Y depende de la variable X?

Mediante la prueba de las hipótesis:

Ho: μ1=μ 2 … .=μ a contra

Hi: μi ≠ μ j para al menos un par "i , j"

Dónde:

X es la Variable Independiente o Factor y es Cualitativa.


Y es la Variable Dependiente o de Respuesta y es Cuantitativa

Si la Ho se rechaza, entonces la variable Y depende de la variable X.


Si la Ho se acepta, entonces la variable Y no depende de la variable X.

El análisis de varianza está diseñado para probar si dos o más niveles de tratamiento tienen la misma
respuesta media, de no ser así, esto implicaría que por lo menos uno de los “niveles de tratamiento” del
factor de interés, que está siendo sometido a prueba, está ejerciendo un impacto significativo en la variable
de respuesta.
Ejemplo Ilustrativo:
“El vicepresidente de mercadeo de First City Bank, quiere atraer nuevos clientes depositantes al banco.
Para ello, planea sortear algunos juegos y premios en cada una de las 4 sucursales del banco. El
vicepresidente piensa que diferentes tipos de premios atraerían a diferentes grupos de personas de acuerdo
a sus ingresos económicos. Por ello, el vicepresidente utiliza el monto de los depósitos de los clientes como
una medida representativa del ingreso de los mismos y con esto, determinar si existe una diferencia en el
promedio de depósitos entre las 4 sucursales del banco. Si halla alguna diferencia, el vicepresidente
ofrecerá diferentes premios promocionales”.

a) ¿Cuál es el Factor de interés o variable independiente X?

R: El Factor es la “Sucursal” del Banco.

b) ¿Cuales son los niveles de tratamiento del Factor de interés?

R: Los Niveles de Tratamiento del Factor de interés, son las 4 Sucursales del Banco. Es decir, el factor
“Sucursal” tiene 4 niveles, correspondientes a las 4 Sucursales del banco.

Sucursal 1.
Sucursal 2.
Sucursal 3.
Sucursal 4.

c) ¿Cuales son las unidades experimentales?

R: Las Unidades Experimentales son las 7 cuentas bancarias extraidas de cada una de las 4 sucursales.
d) ¿Cuál es la variable dependiente o de respuesta Y?

R: La variable dependiente Y es el monto de dinero ahorrado.

Análisis de Varianza (Diseño Unifactorial Completamente Aleatorizado)

Es cuando varias unidades experimentales, son sometidas de manera aleatoria a diferentes niveles de un
Factor de interés.

Supongamos que queremos estudiar el efecto de un factor determinado, que tiene a niveles de tratamiento,
sobre muestras aleatorias de n unidades experimentales. Los datos de un experimento con un solo factor
aparecerán en una tabla como la siguiente:

Niveles de Tratamiento Observaciones Promedios


n

1 y 11 y 12 … y 1 j . .. y 1 n ∑ y1 j
ý 1. = j=1
n
n

2 y 21 y 22 … y 2 j . .. y 2 n ∑ y2 j
ý 2. = j=1
n
. . . … . ... . .......
. . . ... . ... . .......
i yi1 y i 2 … y ij ... y ¿ ..……
. . . . . .
. . . . . .
n

a y a 1 y a 2 … y aj ... y an ∑ y aj
ý a . = j=1
n
_____________
a n

∑ ∑ y ij
ý ..= i=1 j=1
N
La anterior es una notación matricial ij. Dónde:

i representala fila o tratamientoi−ésimo .


j representa el dato j−ésimo .

y ij Corresponde a la observación j - ésima del i-ésimo tratamiento.

ý i . Corresponde al promedio de las observaciones del i-ésimo tratamiento.

ý .. Corresponde a la media global o gran media, de todas las observaciones que hay en la tabla de datos.

ILUSTRACIÓN:

Los datos de los depósitos, en miles de dólares, de una muestra de 7 cuentas seleccionadas al azar, en
cada una de las 4 sucursales del banco, se muestran en la Tabla 1.:

Tabla 1.
Sucursal 1 2 3 4 5 6 7 ý i .
Sucursal 1 5.1 4.9 5.6 4.8 3.8 5.1 4.8 4.8714
Sucursal 2 1.9 1.9 2.1 2.4 2.1 3.1 2.5 2.2857
Sucursal 3 3.6 4.2 4.5 4.8 3.9 4.1 5.1 4.3143
Sucursal 4 1.3 1.5 0.9 1.0 1.9 1.5 2.1 1.4571
ý ..=¿ 3.232143
Todos los datos que aparecen dentro de la tabla corresponden a los términos y ij. Por ejemplo, el dato 2.1
que aparece en rojo dentro de la tabla, corresponde a la observación número 3 del nivel de tratamiento
número 2. Es decir:

y 23=2.1
El promedio 4.3143 que aparece en la última columna de la tabla, corresponde al promedio del nivel de
tratamiento 3. Es decir:

ý 3 . =4.3143

El promedio 3.232143 que aparece en la parte inferior de la última columna de la tabla, corresponde a la
media global o gran media de todos los datos de la tabla. Es decir:
ý ..=3.232143

Como pueden notar en la tabla de arriba, hay 4 niveles de tratamiento del Factor Sucursal, ese número de
niveles de tratamiento se representa con a , es decir que a=4 .

Por cada sucursal se escogió una muestra aleatoria de 7 cuentas de ahorros, que son las unidades
experimentales, ese número de unidades experimentales se representa con n , es decir que n=7.

En total, en toda la tabla hay 28 datos, a la cantidad total de datos de la tabla se le representa con “ N ”, es
decir que N=28.

Para realizar la prueba de las hipótesis:


Ho: μ1=μ 2 … .=μ a contra

Hi: μi ≠ μ j para al menos un par "i , j"

Se necesitan dos estadísticos: Un Estadístico Calculado y un Estadístico Tabulado.

La distribución de probabilidad con la que trabajaremos, es la Distribución de Probabilidad F de Fisher.

El estadístico Calculado se halla con la construcción de la Tabla de Análisis de Varianza o Tabla ANOVA.

El Estadístico Tabulado se halla en la Tabla de la Distribución de probabilidad F de Fisher.

TABLA ANOVA
Componentes de la Tabla ANOVA:

FUENTE DE SUMA DE G.L. CUADRADOS FC


VARIACIÓN CUADRADOS MEDIO

a
TRATAMIENTOS SS TRAT CM TRAT
SSTRAT =n ∑ ý 2i . −N ý 2.. a−1 CM TRAT =
a−1
F C=
CM E
i=1

SSE
ERROR SSE = SST - SSTRAT N−a CME=
N −a

TOTAL a n

SST = ∑ ∑ y 2ij−N ý 2.. N−1


i=1 j=1

El valor de F C que parece al final de la tabla ANOVA, es el valor del Estadístico Calculado.
Pasos Para Construir la Tabla ANOVA

Para llevar a cabo el análisis de varianza lo primero que se debe calcular son las sumas de cuadrados.
Cada tipo de variación produce una suma de cuadrados, las cuales son:

Sumas De Cuadrados:
Suma de Cuadrados Total (SST)
Suma de Cuadrados de los Tratamientos (SStrat)
Suma de Cuadrados del Error (SSE).

Suma de Cuadrados Total:


a n

SST = ∑ ∑ y −N ý
i=1 j=1
2
ij
2
..

a n
a) Para hallar el término ∑ ∑ y 2ij ,se elevan al cuadrado todas las observaciones de la tabla de datos y
i=1 j=1
luego se suman.

b) Para hallar el término N ý 2.. ,tomamos la media global, es decir, el promedio de todas las observaciones, lo
elevamos al cuadrado y por último se multiplica por el total de observaciones N.

c) Por último, el resultado hallado en el punto a) se resta con el resultado hallado en el punto b) y con esto
se obtiene la Suma de Cuadrados Total.
Suma de Cuadrados de los Tratamientos:
a

SSTRAT = n ∑ ý 2i . −N ý 2..
i=1

a
2
a) Para hallar el término, n ∑ ý i . , se elevan al cuadrado los promedios por fila de la tabla de datos, luego se
i=1
suman y por último se multiplican por el tamaño de muestra n.

b) Para hallar el término, N ý 2..tomamos la media global, es decir, el promedio de todas las observaciones, lo
elevamos al cuadrado y por último se multiplica por el total de observaciones N.

c) Por último el resultado hallado en el punto a) se resta con el resultado hallado en el punto b) y con esto se
obtiene la Suma de Cuadrados de los Tratamientos.

Suma de Cuadrados del Error:


SSE = SST - SSTRAT
Se halla simplemente restando la Suma de Cuadrados Total (SST) menos la Suma de Cuadrados de los
Tratamientos (SSTRAT).

Grados de Libertad G.L.:

G.L.
SST: N−1
SSTRAT: a−1
SSERROR: N−a
Dónde:
N , Es el total de observaciones de la tabla de datos.
a , Son los niveles de tratamiento del Factor.

Cuadrados Medios:
Cuadrado Medio de los Tratamientos (CMTRAT)
Cuadrado Medio del Error (CME)

Cuadrado Medio de Los Tratamientos:


SS TRAT
CMTRAT ¿
a−1

Se divide la Suma de Cuadrados de los Tratamientos (SSTRAT) entre los Grados de Libertad (G.L.) a−1 . El
resultado es el Cuadrado Medio de los Tratamientos (CMTRAT).

Cuadrado Medio del Error


SS E
CME ¿
N −a

Se divide la Suma de Cuadrados del Error (SSE) entre los Grados de Libertad (G.L.) N−a . El resultado es el
Cuadrado Medio del Error (CME).
Estadístico Calculado:
Al final, hallamos el estadístico calculado F C, dividiendo el Cuadrado Medio de los Tratamientos ( CMTRAT)
entre el Cuadrado Medio del error (CME).
CMTRAT .
FC ¿
CME

Estadístico Tabulado:
Por otro lado, hallamos el estadístico tabulado F(α ,a−1 , N−a ) con ayuda de la tabla de la distribución de
probabilidad F de Fisher , con los grados de libertad a−1 y N−a y con un nivel de significancia α =0.05.

Comparamos los estadísticos F C y F α. Si F C ¿ F(α ,a−1 , N −a ), la hipótesis nula Ho se rechaza, con lo que se
concluye que hay diferencia significativa entre la media de los resultados debido a los tratamientos usados
o, los tipos de tratamiento están haciendo efecto sobre la respuesta. La variable Y depende de la variable X.

Pero si F C ≤ F(α , a−1 , N−a) , la hipótesis nula Ho se acepta, con lo que se concluye que el tipo de tratamiento
usado no está haciendo efecto sobre la respuesta o no hay diferencia significativa en la respuesta media
debido a los tratamientos usados. La variable Y no depende de la variable X.

EJEMPLO:
Tomando los datos de los montos de dinero ahorrado en las 4 sucursales bancarias, realiza lo siguiente:

a) Escribe las hipótesis Nula y Alternativa en términos del problema.


b) Construye la tabla ANOVA.
c) A un nivel de significancia α =0.05, prueba las hipótesis planteadas y concluye en términos del problema.

También podría gustarte