Está en la página 1de 9

ANÁLISIS DE VARIANZA

Análisis de varianza.

El análisis de varianza es una técnica estadística que consiste en


descomponer la variación total de un conjunto de datos en componentes
debidas a uno o más factores y una variación que puede deberse a distintas
causas no conocidas y que denominamos variación debida a un error
aleatorio.

𝐻0 : 𝜇𝐷 = 𝜇𝑃 = 𝜇𝐸 = 𝜇𝑅

Análisis de varianza en un sentido.

Para dar un ejemplo de una situación típica donde haríamos un análisis de


varianza en un sentido, suponga que queremos comparar la acción
limpiadora de 3 detergentes con base en las siguientes lecturas de blancura
en 15 muestras de tela blanca, que primero se mancharon con tinta china y
después se lavaron en una máquina tipo agitador con los detergentes
respectivos

Detergente A: 77, 81, 71, 76, 80

Detergente B: 72, 58, 74, 66, 79

Detergente C: 76, 85, 82, 80, 77

Las medias de estas muestras fueron 77, 68 y 80, y queremos saber si las
diferencias entre ellas son significativas, es decir, si las diferencias en la
blancura promedio observadas se deben a los detergentes, o se deben al
azar.

El análisis de varianza en un sentido es una generalización de la prueba t para


comparar dos medias.

En este diseño se quieren comparar dos o más poblaciones (a las que


llamamos tratamientos), en términos de sus medias. En general, tenemos
muestras aleatorias independientes de tamaño n de k poblaciones
(tratamientos). La respuesta observada es Y

Población 1: 𝑦11 , 𝑦12 , … , 𝑦1𝑛

Población 2: 𝑦21 , 𝑦22 , … , 𝑦2𝑛

Población k: 𝑦𝑘1 , 𝑦𝑘2 , … , 𝑦𝑘𝑛

Y supondremos que las variables aleatorias correspondientes 𝑌𝑖𝑗 son todas


independientes, tienen distribuciones normales con las medias respectivas 𝜇𝑖

Y la varianza común 𝜎 2

La hipótesis nula que queremos probar es que las medias de las poblaciones
son todas iguales, esto es,

𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘

Contra la hipótesis alternativa

𝐻1 : 𝑛𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

Por ejemplo, en el problema de los detergentes, los tratamientos son los


detergentes, la respuesta observada es la blancura de la ropa y la hipótesis
nula es que todos los tratamientos o detergentes proporcionan la misma
blancura promedio a la ropa, que tienen la misma eficacia

𝐻0 : 𝜇1 = 𝜇2 = 𝜇3

Mientras que la alternativa es que no todos los detergentes proporcionan la


misma blancura

𝐻1 : 𝑛𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

Notas:

En este tipo de diseños se busca que las condiciones en las que se aplican los
distintos tratamientos son las mismas. En el problema de los detergentes se
supone que otros factores que pudieran influir en la blancura están
controlados, como por ejemplo, el grado de suciedad, el tipo de tela, la
temperatura del agua, el tipo de lavadora y el tiempo de lavado son los
mismos, para no favorecer o perjudicar el desempeño de algún detergente.

Actividad

Conteste las siguientes preguntas:

1) ¿Para qué se usa el análisis de varianza en un sentido?


2) ¿Cuáles son las suposiciones del análisis de varianza?
3) ¿En qué consiste el análisis de varianza?

4) Los datos de la tabla siguiente representan el número de horas de


descanso proporcionadas por 5 diferentes tabletas para el dolor de
cabeza administradas a 25 sujetos que experimentaban fiebres de
38℃ o más.
Tableta # de horas de
descanso
A 5 4 8 6 3
B 9 7 8 6 9
C 3 5 2 3 7
D 2 3 4 1 4
E 7 6 9 4 7

a) ¿Cuáles son los tratamientos?


Las marcas de tabletas (A, B, C, D, E)
b) ¿Cuál es la variable respuesta, o la respuesta observada?
Las horas de descanso
c) ¿Cuáles son la hipótesis nula y alternativa?
𝐻0 : 𝜇𝐴 = 𝜇𝐵 = 𝜇𝐶 = 𝜇𝐷 = 𝜇𝐸
𝐻1 : 𝑛𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

Análisis de varianza en un sentido. (Continuación)


Para probar las hipótesis usamos que la variación total de los datos, que
denotamos como 𝑺𝑺𝑻 se puede descomponer como la suma de la
variación entre tratamientos (𝑺𝑺𝒕𝒓𝒂𝒕 ) y una variación del error aleatorio
(𝑺𝑺𝑬 )

Teorema. 𝑺𝑺𝑻 = 𝑺𝑺𝒕𝒓𝒂𝒕 + 𝑺𝑺𝑬

Para calcular las sumas de cuadrados, utilizaremos las siguientes


fórmulas:

𝐤 𝐧
𝐓..𝟐
𝐒𝐒𝐓 = ∑ ∑ 𝐲𝐢𝐣𝟐 −
𝐤𝐧
𝐢=𝟏 𝐣=𝟏
𝐤
𝟏 𝟐
𝐓..𝟐
𝐒𝐒𝐭𝐫𝐚𝐭 = ∑ 𝐓𝐢. −
𝐧 𝐤𝐧
𝐢=𝟏

𝐒𝐒𝐄 = 𝐒𝐒𝐓 − 𝐒𝐒𝐭𝐫𝐚𝐭


donde
𝑇𝑖. es la suma de los datos correspondientes al tratamiento i
𝑇.. es el total de los 𝑘𝑛 datos
k es el número de poblaciones o tratamientos a comparar
n es el número de datos que tenemos en cada tratamiento

Estimamos la varianza común 𝜎 2 con los siguientes cuadrados medios:


𝐒𝐒𝐭𝐫𝐚𝐭
Cuadrado medio de tratamientos 𝐌𝐒𝐭𝐫𝐚𝐭 =
𝐤−𝟏
𝐒𝐒𝐄
Cuadrado medio del error 𝐌𝐒𝐄 =
𝐤(𝐧−𝟏)
𝐌𝐒𝐭𝐫𝐚𝐭
y calculamos 𝐅 =
𝐌𝐒𝐄
Se rechaza la hipótesis nula en favor de la alternativa en un nivel de
significancia α si F ≥ Fα, k−1, k(n−1)

Fuente de Suma de Grados de Cuadrado medio F calculada F crítica


variación cuadrados libertad
Tratamientos SStrat k−1 SStrat MStrat Fα, k−1, k(n−1)
MStrat = F=
k−1 MSE
Error SSE k(n − 1) SSE
MSE =
k(n − 1)
Total SST kn − 1

Los resultados obtenidos se presentan en una tabla de análisis de


varianza.
Nota: al análisis de varianza se le conoce también como ANOVA
Tabla de análisis de varianza para el análisis de varianza en un sentido
Ejemplo: en el problema de la blancura proporcionada por 3 detergentes,
realice el análisis de varianza a un nivel de significancia 𝛼 = 05

Detergente A: 77, 81, 71, 76, 80


Detergente B: 72, 58, 74, 66, 79
Detergente C: 76, 85, 82, 80, 77
Solución

La hipótesis nula es

𝑯𝟎 : 𝝁𝟏 = 𝝁𝟐 = 𝝁𝟑

Contra la hipótesis alternativa

𝑯𝟏 : 𝒏𝒐 𝒕𝒐𝒅𝒂𝒔 𝒍𝒂𝒔 𝒎𝒆𝒅𝒊𝒂𝒔 𝒔𝒐𝒏 𝒊𝒈𝒖𝒂𝒍𝒆𝒔

Para este problema, 𝑘 = 3 tratamientos y𝑛 =5


Región crítica: F ≥ Fα, k−1, k(n−1)

F ≥ F.05, 2, 12

Región crítica: 𝑭 ≥ 𝟑. 𝟖𝟖𝟓

Calculamos los totales para cada uno de los tratamientos y para todos los
datos

Totales
Detergente A: 77, 81, 71, 76, 80 385
Detergente B: 72, 58, 74, 66, 79 349
Detergente C: 76, 85, 82, 80, 77 400
1134
k n
T..2
SST = ∑ ∑ yij2 −
nk
i=1 j=1

(1134)2
SST = (77)2 + (81)2 + (71)2 +⋯+ (80)2 + (77)2 −
(3)(5)
𝐒𝐒𝐓 = 𝟔𝟓𝟏. 𝟔
k
1 T..2
SStrat = ∑ Ti.2 −
n nk
i=1

1 2 2 2
(1134)2
SStrat = [(385) + (349) + (400) ] −
5 (3)(5)
𝐒𝐒𝐭𝐫𝐚𝐭 = 𝟐𝟕𝟒. 𝟖
SSE = SST − SStrat
SSE = 651.6 − 274.8

𝐒𝐒𝐄 = 𝟑𝟕𝟔. 𝟖
SStrat
MStrat =
k−1

𝟐𝟕𝟒. 𝟖
𝐌𝐒𝐭𝐫𝐚𝐭 = = 𝟏𝟑𝟕. 𝟒
𝟐

SSE
MSE =
k(n − 1)

𝟑𝟕𝟔. 𝟖
𝐌𝐒𝐄 = = 𝟑𝟏. 𝟒
𝟑(𝟒)

MStrat
F=
MSE

𝟏𝟑𝟕. 𝟒
𝐅= = 𝟒. 𝟑𝟕𝟔
𝟑𝟏. 𝟒

Los resultados los presentamos en la siguiente tabla:

Fuente de Suma de Grados de Cuadrado 𝐹 F crítica


variación cuadrados libertad medio calculada
Tratamientos 274.8 k-1=2 137.4 4.376 𝐹.05,2,12 =3.885

Error 376.8 k(n- 31.4


1)=12
Total 651.6 kn-1=14

Conclusión:

Como la F calculada es mayor que la F crítica, rechazamos la hipótesis


nula en favor de la alternativa en un nivel de significancia 0.05, eso quiere
decir que la blancura promedio de la ropa no es igual para todos los
detergentes.
Ejercicios
1. Los datos de la tabla siguiente representan el número de horas de
descanso proporcionadas por 5 diferentes tabletas para el dolor de
cabeza administradas a 25 sujetos que experimentaban fiebres de
38℃ o más.
Tableta # de horas de
descanso
A 5 4 8 6 3
B 9 7 8 6 9
C 3 5 2 3 7
D 2 3 4 1 4
E 7 6 9 4 7
Realice el análisis de varianza con un nivel de significancia 0.05

Solución

d) ¿Cuáles son los tratamientos?


Las marcas de tabletas (A, B, C, D, E)
e) ¿Cuál es la variable respuesta, o la respuesta observada?
Las horas de descanso
f) ¿Cuáles son la hipótesis nula y alternativa?
𝐻0 : 𝜇𝐴 = 𝜇𝐵 = 𝜇𝐶 = 𝜇𝐷 = 𝜇𝐸
𝐻1 : 𝑛𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

Tableta # de horas de Totales


descanso
A 5 4 8 6 3 26
B 9 7 8 6 9 39
C 3 5 2 3 7 20
D 2 3 4 1 4 14
E 7 6 9 4 7 33
132
𝑘 = 5 tratamientos (las marcas de tableta A, B, C, D, E)
𝑛 = 5 datos en cada tratamiento
Como F calculada es mayor que la crítica, se rechaza H0 en favor de H1
El número promedio de horas de descanso proporcionadas por las
tabletas no es igual para las cinco marcas
2 2 2 2
(132)2
𝑆𝑆𝑇 = (5) + (4) + (8) + ⋯ + (7) − = 834 − 696.96
5(5)
𝑆𝑆𝑇 = 137.04
1 2 2 2 2 2
(132)2
𝑆𝑆𝑡𝑟𝑎𝑡 = [(26) + (39) + (20) + (14) + (33) ] −
5 5(5)
𝑆𝑆𝑡𝑟𝑎𝑡 = 79.44
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑡𝑟𝑎𝑡 = 137.04 − 79.44 = 57.6

Fuente de Suma de Grados de Cuadrado medio F calculada F crítica


variación cuadrados libertad
Tratamientos 79.44 4 19.86 6.89> 2.866
Error 57.6 20 2.88
Total 137.04 24

Como la F calculada es mayor que la crítica, se rechaza la hipótesis nula 𝐻0 en


favor de 𝐻1 .

El número promedio de horas de alivio proporcionadas no es igual para todas


las marcas de tabletas.

También podría gustarte