Está en la página 1de 27

Tema 5

Análisis de la varianza:
1.1 Análisis de la varianza: Fundamentos

El análisis de la varianza (ANOVA) de un conjunto de muestras consiste en


contrastar la hipótesis nula “todas las medias poblacionales de las que
provienen las muestras son iguales”, contra la hipótesis alternativa “no todas
las medias son iguales” con un nivel de significación, , prefijado.

Es importante no confundir la media global con la media de las medias. Sólo


son lo mismo en caso de que las muestras tengan el mismo tamaño.
1.1 Análisis de la varianza

Tamaño Media Desviación


Cuasidesviación
Grupo Observaciones Distribución muestral
muestral muestral muestral
1 y11 y12 y1n1 N( 1 , ) n1 y1 sˆ1
2 y 21 y 22 y 2 n2 N( 2 , ) n2 y2 sˆ2



k y k1 y k 2 y k nk N( k , ) nk yk sˆk
N = n1 + n2 + + nk

Parámetros desconocidos
Las medias de los grupos La varianza
1, 2 , , k  2

Problema:

¿Son iguales las medias  1 ,  2 , ,  k ?


1.2 Estimación de los parámetros

Para cada grupo: ̂ i = y i


Estimación de las medias
ˆ i → (
N i , 
ni )

Estimación de la varianza
(ni − 1) sˆi2
→  n2i − 1
Variabilidad dentro de los grupos  2

k
VD =  (ni − 1) sˆi2 VD k
(ni − 1) sˆi2
= →  n2−k
i =1 2 i =1 2

VD
Varianza residual ˆ 2 = sˆR2 =
N −k
1.3 Descomposición de la variabilidad

La variabilidad de la muestra global: la suma de cuadrados


Vamos a ver a qué se deben las diferencias entre los valores de las observaciones
𝑥𝑖𝑗 y el valor de la media global 𝑥ҧ
Variabilidad: es la diferencia entre los valores observados, (𝑥𝑖𝑗 ) y la media (𝑥).
ҧ Se
debe a 2 factores: (𝑥𝑖𝑗 −𝑥)ҧ = (𝑥𝑖𝑗 −𝑥ഥ𝑗 ) + (𝑥ഥ𝑗 − 𝑥)ҧ
o Variabilidad dentro de cada grupo (𝑉𝐷 ): diferencia entre la observación y la
media de la muestra (𝑥𝑖𝑗 −𝑥ഥ𝑗 )
o Variabilidad entre los grupos (𝑉𝐸 ): diferencia entre la media de la muestra y la
media global (𝑥ഥ𝑗 − 𝑥)ҧ
Si existe mucha variabilidad entre las muestras, podremos pensar que se debe a
que se trata de muestras extraídas de poblaciones diferentes o debido al origen
aleatorio de las muestras.
1.3 Descomposición de la variabilidad
VT = VE + VD

Variabilidad total (SCT): Variabilidad entre los grupos (SCE):


k
VE =  ni ( y i − y )
k ni
VT =  ( y i j − y )
2 2

i =1 j =1 i =1

Variabilidad dentro de los grupos (SCD):


k ni k
VD =  ( y i j − y i ) =  (ni − 1) sˆi2
2

i =1 j =1 i =1

Suma de cuadrados totales (SCT)=Suma de cuadrados dentro de


los grupos (SCD) + Suma de cuadrados entre grupos (SCE)
1.3 Descomposición de la variabilidad

• SCT nos informa de la variabilidad de la muestra global.


• SCD es una medida de la variación dentro de los grupos.
• SCE es una medida de la variación entre los grupos; la calculamos a partir
de la diferencia entre las medias de los grupos y la media total. Si las medias
son muy diferentes, entonces esta cantidad es grande.
1.4 Contraste de Igualdad de medias

Para poder realizar un análisis ANOVA hay que tener en cuenta:


1) Las k muestras de cada grupo deben ser aleatorias e independientes entre sí.
2) Las poblaciones deben ser normales.
3) Las varianzas de las k poblaciones deben ser idénticas.

Si las medias poblacionales son todas iguales, las sumas de cuadrados SCE y
SCD se distribuyen según distribuciones 𝛘2 con (k - 1) y (n - k) grados de
libertad, respectivamente.
1.4 Contraste de igualdad de medias
Pasos para realizar el contraste:
1. Hipótesis del contraste:  H0 :  1 =  2 = =  k = 
 

 

 H 1 : no todas las  i son iguales 

2. Fijaremos un nivel significativo α


3. A partir de las sumas de cuadrados, calculamos el estadístico de
contraste F
ni ( y i − y )
2
k
VE
=
Estadístico de contraste:
=
 2
i =1  2

2 VE /(k − 1) H
k  y − y  H0 F= ⎯⎯⎯
0
→ F k −1,N −k
=  i →  k2−1
 ⎯⎯⎯ VD /(N − k )
i =1   / ni 

si se cumple H0 (igualdad de medias) sigue una


VD k
(ni − 1) sˆi2
= → N2 −k distribución F de Snedecor
 2
i =1  2
1.4 Contraste de igualdad de medias
4. Decidimos, o a través del p-valor o a partir del valor crítico.
a) A partir del p-valor. Este valor es: p= P(F > f):
• Si p ≤ α, se rechaza la hipótesis nula H0.
• Si p > α, no se rechaza la hipótesis nula H0.
b) A partir del valor crítico F,k−,n−k, que separa la región de aceptación
de la región de rechazo:
• Si f > F,k−,n−k, se rechaza la hipótesis nula H0.
• Si f  F,k−,n−k, no se rechaza la hipótesis nula H0.

)
F k −1,N − k f ( k −1,N −k ) , 
Región crítica:
 1−
1− 

 p-valor: P ( F k −1,N −k  Fobs )

( k −1,N −k )
f 1−
1.4 Contraste de igualdad de medias
Construcción de la Tabla ANOVA

Fuente de variación Suma de cuadrados g.l. Varianza F


Entre los grupos VE k −1 VE /(k − 1) VE /(k − 1)
F=
Dentro de los grupos VD N −k VD /(N − k ) VD /(N − k )

Total VT N −1

sˆR2 = VD /(N − k )
VE
r2=
VT Varianza residual
Coeficiente de determinación
1.5 Inferencias sobre los parámetros

  (n − k ) sˆR2
Ni ,  

VD
yi
 = →  N2 −k
 n i   2
 2

(y − y j ) − (i −  j )
yi −  i i
→ tN −k
→ tN −k 1 + 1
sˆR n i sˆR
ni n j

Intervalos de confianza y
Intervalos de confianza y
contrastes de hipótesis
contrastes de hipótesis
para diferencias entre
para cada media
pares de medias
2. Modelo de factor y bloque: Planteamiento

Bloques
Observaciones Medias
1 2 … b Modelo: Yi j =  +  i +  j + U i j
y 12 …
Tratamientos

1 y 11 y 1b y 1• Ui j → N( 0, )
2 y 21 y 22 … y 2b y 2•
a b
⁞ ⁞ ⁞ ⁞ ⁞ 
i =1
 i =0 
j =1
 i =0
a y a1 y a2 … y ab y a•
Medias y •1 y •2 … y •b y ••
Total de observaciones: a b = N

La media global 
Los efectos de los tratamientos  1 , 2 , ,  a
Parámetros desconocidos
Los efectos de los bloques  1, 2 , , b
La varianza  2

Problema:
¿Influye el tratamiento en la variable respuesta? Yi j
2.1. Modelo de factor y bloque: Estimación de los parámetros

Medias
Ui j → N( 0, )
a
Yi j =  +  i +  j + U i j 
i =1
 i =0
b

j =1
 i =0

Media global Medias por tratamientos Medias por bloques

ˆ = y •• ˆ i = y i • − y •• ˆ j = y • j − y ••
2.1. Modelo de factor y bloque: Estimación de los parámetros
Varianza
Ui j → N( 0, )
a

Yi j =  +  i +  j + U i j 
i =1
 i =0
b

j =1
 i =0

Residuos: ( )
r i j = y i j − yˆ i j = y i j − ˆ + ˆ i + ˆ j = y i j − ( y i • + y • j − y •• )
2
1 a b a b  y i j − ( ˆ + ˆ i + ˆ j ) 

 2 i =1
 r 2
ij =  
 


→ (2a −1)( b −1)
j =1 i =1 j =1
 

Estimación de la varianza:
a b
sˆ =
2
R
1

(a − 1)(b − 1) i =1

j =1
r 2
ij es insesgado para 
2

(Varianza residual)
2.1. Modelo de factor y bloque: Descomposición de la variabilidad

VT = VE ( ) + VE (  ) + VR

Variabilidad total:
a b
VT =  ( y i j − y •• )
2

i =1 j =1

Variabilidad entre los tratamientos: Variabilidad entre los bloques:


a a b b
VE ( ) =  b ( y i • − y •• ) = b ˆ VE (  ) =  a ( y • j − y •• ) = a ˆ j
2 2 2 2
i
i =1 i =1 j =1 i =1

Variabilidad residual:
a b
VR =   r 2
ij
i =1 j =1
2.1. Modelo de factor y bloque:
Construcción de la Tabla ANOVA
Fuente de variación Suma de cuadrados g.l. Varianza F
V ( ) sˆ
2

VE ( ) a −1 sˆ = E
2
Entre tratamientos F = 2
a −1 sˆR
sˆ
2
V ( )
VE (  ) b −1 sˆ = E
2
Entre bloques F = 2
b −1 sˆR
VR
(a − 1)( b − 1) sˆR =
2
Residual VR
(a − 1)(b − 1)
Total VT
ab − 1

Coeficientes de determinación
sˆR
2
VE ( ) VE (  ) Varianza residual
Parciales: r2 = r2 =
VT VT
Total: r 2 = r2 + r2
2.1. Modelo de factor y bloque: Contraste sobre los tratamientos

 H0 :  1 =  2 = =  a = 0 
  Nivel 
 1
H : No todos los  i son nulos 

(a − 1) sˆ2 VE ( ) a b ˆ 2i
=
H
= ⎯⎯⎯
0
→  a2−1 Estadístico de contraste
 2
 2
i =1  2

𝑠Ƹ𝛼2 H0
F𝛼 = 2 → 𝐹 𝑎−1,(𝑎−1)(𝑏−1)
𝑠Ƹ𝑅
2
(a − 1)(b − 1) sˆR2 VR a b
 ri j 
= =    → (2a −1)( b −1)
  j =1   
2 2
i =1

F a −1 ,( a −1)( b −1)

Región crítica: f (a−1 ,( a−1)( b−1)) , 


 1− ) 1− 


p-valor: P (F a −1 ,( a −1)( b −1)  Fobs )
( a −1 , ( a −1)( b −1) )
f 1−
2.1. Modelo de factor y bloque: Contraste sobre los bloques

 H0 :  1 =  2 = =  b = 0
 

  Nivel 
 H
 1 : No todos los  i son nulos 

(b − 1) sˆ2 VE (  ) b a ˆ 2j
=
H
= ⎯⎯⎯
0
→  b2−1 Estadístico de contraste
2 2 j =1 2
𝑠𝛽Ƹ 2 H0
F𝛽 = → F 𝑏−1,(𝑎−1)(𝑏−1)
𝑠Ƹ𝑅2
2
(a − 1)(b − 1) sˆR2 VR a b
 ri j 
= =    → (2a −1)( b −1)
2 2 i =1 j =1   

F b −1 ,( a −1)( b −1)

Región crítica: f ( b−1 ,( a−1)( b−1)) , 


 1− ) 1− 


p-valor: P (F b −1 ,( a −1)( b −1)  Fobs )
( b −1 , ( a −1)( b −1) )
f 1−
2.2. Modelo de dos factores con interacción: Planteamiento

Factor B y
Observaciones
1 2 b
1 y111 y112 y11n y121 y122 y12n … y1b1 y1b2 y1bn

Factor A

2 y 211 y 212 y 21n y 221 y 222 y 22n y 2b1 y 2b2 y 2bn

a y a11 y a12 y a1n y a21 y a 22 y a2n … y ab1 y ab2 y abn


Total de observaciones: a b n

Modelo: Parámetros desconocidos:


Yi j k =  +  i +  j + ( ) i j + U i j k
La media global 
Ui jk → N( 0, )
 1 , 2 , ,  a
Los efectos de los tratamientos
 1, 2 , , b
La interacción entre los tratamientos  ( ) ij i, j

La varianza  2
2. Modelo de dos factores con interacción: Estimación
Los diseños factoriales permiten conocer no solamente el efecto por separado de
cada uno de los factores, sino además la posible interacción entre ellos. Se dice que
existe interacción cuando el efecto de un factor sobre la variable dependiente
depende de los niveles que adopte el otro factor.

Yi j k =  +  i +  j + ( )i j + U i j k

Media global Medias para el factor A Medias para el factor B


ˆ = y ••• ˆ i = y i •• − y ••• ˆ j = y • j • − y •••

Interacción
( ) i j = y i j • − y i •• − y • j • + y •••
2. Modelo de dos factores con interacción: Planteamiento

Yi j k =  +  i +  j + ( )i j + U i j k

Residuos: r i j k = yi j k − yi j •
2
1 a b n a b n
 y − yi j • 
 2  r 2
i jk =   i j k
i =1 j =1 k =1    →  ab
2
( n −1)
i =1 j =1k =1 

a b n
sˆ = 1
  es insesgado para 
2 2 2
Estimación de la varianza: r
ab(n − 1) i =1
R i jk
j =1 k =1
(Varianza residual)
2. Modelo de dos factores con interacción
Descomposición de la variabilidad

VT = VE ( ) + VE (  ) + VE ( ) + VR

Variabilidad total: Variabilidad debida al factor A:


a b a
VT =  ( y i j k − y ••• ) VE ( ) = bn  ˆ i
n 2
2

i =1 j =1 k =1 i =1

Variabilidad debida al factor B: Variabilidad debida a la interacción:

a b
VE ( ) = n  ( )i j
a
VE (  ) = an  ˆ
2 2
j
i =1 i =1 j =1

Variabilidad residual:
a b n
VR =  r i 2j k
i =1 j =1 k =1
2. Modelo de dos factores con interacción: Tabla ANOVA
Fuente de variación Suma de cuadrados g.l. Varianza F
V ( ) sˆ
2

VE ( ) a −1 sˆ = E
2
Factor A F = 2
a −1 sˆR
sˆ
2
V ( )
VE (  ) b −1 sˆ = E
2
Factor B F = 2
b −1 sˆR
VE ( ) ˆ
s
2
VE ( ) (a − 1)( b − 1) s =
ˆ 2
Interacción F = 
(a − 1)(b − 1) 
sˆR
2

VR
sˆR =
2
Residual VR ab( n − 1)
ab(n − 1)
Total VT abn − 1

Coeficientes de determinación
sˆR
2
Varianza residual
VE ( ) V ( ) VE ( )
Parciales: r2 = r2 = E r2 =
VT VT VT
Total: r 2 = r2 + r2 + r2
2. Modelo de dos factores con interacción
Contraste sobre el factor A

 H0 :  1 =  2 = =  a = 0 
  Nivel 
 1
H : No todos los  i son nulos 

𝑎
(𝑎 − 1)𝑠𝛼Ƹ 2 VE (𝛼) 𝑏𝑛𝛼ො𝑖2 H0
2
𝜎2
=
𝜎2
=෍ 2
𝜎
𝜒𝑎−1 Estadístico de contraste
𝑖=1
𝑠Ƹ𝛼2 H0
F𝛼 = 2 → 𝐹 𝑎−1,𝑎𝑏(𝑛−1)
2 𝑠Ƹ𝑅
ab(n − 1) sˆR2 VR a b
 ri j k 
n
= 2 =    →  ab
2
( n −1)
2  i =1 j =1 k =1   

F a −1 , ab( n −1)

Región crítica: f (a−1 , ab( n −1)) , 


 1− ) 1− 


p-valor: P (F a −1 , ab ( n −1)  Fobs )
( a −1 , ab( n −1) )
f 1−
2. Modelo de dos factores con interacción
Contraste sobre el factor B

 H0 :  1 =  2 = =  b = 0 
  Nivel 
 1
H : No todos los  j son nulos 

𝑏
(𝑏 − 1)𝑠𝛽Ƹ 2 VE (𝛽) 𝑎𝑛𝛽෠𝑖2 H0
2 Estadístico de contraste
= =෍ 2 𝜒𝑏−1
𝜎2 𝜎2 𝜎 H0
𝑗=1 𝑠𝛽Ƹ 2
F𝛽 = → 𝐹 𝑏−1,𝑎𝑏(𝑛−1)
𝑠Ƹ𝑅2
𝑎 𝑏 𝑛
𝑎𝑏(𝑛 − 1)𝑠Ƹ𝑅2 VR 𝑟𝑖𝑗𝑘 2
2
= 2 = ෍෍෍ → 𝜒𝑎𝑏(𝑛−1)
𝜎2 𝜎 𝜎
𝑖=1 𝑗=1 𝑘=1
F b −1 , ab ( n −1)

Región crítica: f ( b−1 , ab( n −1)) , 


 1− ) 1− 


p-valor: P (F b −1 , ab ( n −1)  Fobs )
( b −1 , ab( n −1) )
f 1−
2. Modelo de dos factores con interacción
Contraste sobre la interacción

 H0 : ( ) i j = 0  i , j
 

  Nivel 
 H
 1 : No todos los (  ) ij son nulos 

𝑎 𝑏
2
(𝑎 − 1)(𝑏 − 1)𝑠Ƹ𝛼𝛽 VE (𝛼𝛽) 𝑛(𝛼𝛽)2𝑖𝑗 H0 2
= = ෍෍ → 𝜒(𝑎−1)(𝑏−1) Estadístico de contraste
𝜎2 𝜎2 𝜎2
𝑖=1 𝑗=1 2 H0
𝑠Ƹ𝛼𝛽
F𝛼𝛽 = 2 → 𝐹 (𝑎−1)(𝑏−1),𝑎𝑏(𝑛−1)
𝑠Ƹ𝑅
𝑎 𝑏 𝑛
𝑎𝑏(𝑛 − 1)𝑠Ƹ𝑅2 VR 𝑟𝑖𝑗𝑘 2
2
= = ෍ ෍ ෍ → 𝜒𝑎𝑏(𝑛−1)
𝜎2 𝜎2 𝜎
𝑖=1 𝑗=1 𝑘=1

F ( a −1)( b −1), ab ( n −1)

(𝑎−1(𝑏−1),𝑎𝑏(𝑛−1)
ቂ𝑓1−𝛼 , ∞ቁ
1− 
Región crítica:

p-valor: P F (𝑎−1)(𝑏−1),𝑎𝑏(𝑛−1) ≥ Fobs

( ( a −1)( b −1) , ab( n −1) )


f 1−

También podría gustarte