Presentacion Tema 5. Analsis de La Varianza

Tema 5
Análisis de la varianza:
1.1 Análisis de la varianza: Fundamentos
El análisis de la varianza (ANOVA) de un conjunto de muestras consiste en

contrastar la hipótesis nula “todas las medias poblacionales de las que
provienen las muestras son iguales”, contra la hipótesis alternativa “no todas
las medias son iguales” con un nivel de significación, , prefijado.
Es importante no confundir la media global con la media de las medias. Sólo

son lo mismo en caso de que las muestras tengan el mismo tamaño.
1.1 Análisis de la varianza
Tamaño Media Desviación

Cuasidesviación
Grupo Observaciones Distribución muestral
muestral muestral muestral
1 y11 y12 y1n1 N( 1 , ) n1 y1 sˆ1
2 y 21 y 22 y 2 n2 N( 2 , ) n2 y2 sˆ2
…
…
…
…
k y k1 y k 2 y k nk N( k , ) nk yk sˆk
N = n1 + n2 + + nk
Parámetros desconocidos
Las medias de los grupos La varianza
1, 2 , , k  2
Problema:
¿Son iguales las medias  1 ,  2 , ,  k ?

1.2 Estimación de los parámetros
Para cada grupo: ̂ i = y i

Estimación de las medias
ˆ i → (
N i , 
ni )
Estimación de la varianza
(ni − 1) sî2
→  n2i − 1
Variabilidad dentro de los grupos  2
k
VD =  (ni − 1) sî2 VD k
(ni − 1) sî2
= →  n2−k
i =1 2 i =1 2
VD
Varianza residual ˆ 2 = sˆR2 =
N −k
1.3 Descomposición de la variabilidad
La variabilidad de la muestra global: la suma de cuadrados

Vamos a ver a qué se deben las diferencias entre los valores de las observaciones
𝑥𝑖𝑗 y el valor de la media global 𝑥ҧ
Variabilidad: es la diferencia entre los valores observados, (𝑥𝑖𝑗 ) y la media (𝑥).
ҧ Se
debe a 2 factores: (𝑥𝑖𝑗 −𝑥)ҧ = (𝑥𝑖𝑗 −𝑥ഥ𝑗 ) + (𝑥ഥ𝑗 − 𝑥)ҧ
o Variabilidad dentro de cada grupo (𝑉𝐷 ): diferencia entre la observación y la
media de la muestra (𝑥𝑖𝑗 −𝑥ഥ𝑗 )
o Variabilidad entre los grupos (𝑉𝐸 ): diferencia entre la media de la muestra y la
media global (𝑥ഥ𝑗 − 𝑥)ҧ
Si existe mucha variabilidad entre las muestras, podremos pensar que se debe a
que se trata de muestras extraídas de poblaciones diferentes o debido al origen
aleatorio de las muestras.
VT = VE + VD
Variabilidad total (SCT): Variabilidad entre los grupos (SCE):

k
VE =  ni ( y i − y )
k ni
VT =  ( y i j − y )
2 2
i =1 j =1 i =1
Variabilidad dentro de los grupos (SCD):

k ni k
VD =  ( y i j − y i ) =  (ni − 1) sî2
2
i =1 j =1 i =1
Suma de cuadrados totales (SCT)=Suma de cuadrados dentro de

los grupos (SCD) + Suma de cuadrados entre grupos (SCE)
• SCT nos informa de la variabilidad de la muestra global.

• SCD es una medida de la variación dentro de los grupos.
• SCE es una medida de la variación entre los grupos; la calculamos a partir
de la diferencia entre las medias de los grupos y la media total. Si las medias
son muy diferentes, entonces esta cantidad es grande.
1.4 Contraste de Igualdad de medias
Para poder realizar un análisis ANOVA hay que tener en cuenta:

1) Las k muestras de cada grupo deben ser aleatorias e independientes entre sí.
2) Las poblaciones deben ser normales.
3) Las varianzas de las k poblaciones deben ser idénticas.
Si las medias poblacionales son todas iguales, las sumas de cuadrados SCE y
SCD se distribuyen según distribuciones 𝛘2 con (k - 1) y (n - k) grados de
libertad, respectivamente.
1.4 Contraste de igualdad de medias
Pasos para realizar el contraste:
1. Hipótesis del contraste:  H0 :  1 =  2 = =  k = 
 

 

 H 1 : no todas las  i son iguales 

2. Fijaremos un nivel significativo α

3. A partir de las sumas de cuadrados, calculamos el estadístico de
contraste F
ni ( y i − y )
2
k
VE
=
Estadístico de contraste:
=
 2
i =1  2
2 VE /(k − 1) H
k  y − y  H0 F= ⎯⎯⎯
0
→ F k −1,N −k
=  i →  k2−1
 ⎯⎯⎯ VD /(N − k )
i =1   / ni 
si se cumple H0 (igualdad de medias) sigue una

VD k
(ni − 1) sî2
= → N2 −k distribución F de Snedecor
 2
i =1  2
4. Decidimos, o a través del p-valor o a partir del valor crítico.
a) A partir del p-valor. Este valor es: p= P(F > f):
• Si p ≤ α, se rechaza la hipótesis nula H0.
• Si p > α, no se rechaza la hipótesis nula H0.
b) A partir del valor crítico F,k−,n−k, que separa la región de aceptación
de la región de rechazo:
• Si f > F,k−,n−k, se rechaza la hipótesis nula H0.
• Si f  F,k−,n−k, no se rechaza la hipótesis nula H0.
)
F k −1,N − k f ( k −1,N −k ) , 
Región crítica:
 1−
1− 
 p-valor: P ( F k −1,N −k  Fobs )
( k −1,N −k )
f 1−
Construcción de la Tabla ANOVA
Fuente de variación Suma de cuadrados g.l. Varianza F

Entre los grupos VE k −1 VE /(k − 1) VE /(k − 1)
F=
Dentro de los grupos VD N −k VD /(N − k ) VD /(N − k )
Total VT N −1
sˆR2 = VD /(N − k )
VE
r2=
VT Varianza residual
Coeficiente de determinación
1.5 Inferencias sobre los parámetros
  (n − k ) sˆR2
Ni ,  
→
VD
yi
 = →  N2 −k
 n i   2
 2
(y − y j ) − (i −  j )
yi −  i i
→ tN −k
→ tN −k 1 + 1
sˆR n i sˆR
ni n j
Intervalos de confianza y
Intervalos de confianza y
contrastes de hipótesis
contrastes de hipótesis
para diferencias entre
para cada media
pares de medias
2. Modelo de factor y bloque: Planteamiento
Bloques
Observaciones Medias
1 2 … b Modelo: Yi j =  +  i +  j + U i j
y 12 …
Tratamientos
1 y 11 y 1b y 1• Ui j → N( 0, )
2 y 21 y 22 … y 2b y 2•
a b
⁞ ⁞ ⁞ ⁞ ⁞ 
i =1
 i =0 
j =1
 i =0
a y a1 y a2 … y ab y a•
Medias y •1 y •2 … y •b y ••
Total de observaciones: a b = N
La media global 
Los efectos de los tratamientos  1 , 2 , ,  a
Parámetros desconocidos
Los efectos de los bloques  1, 2 , , b
La varianza  2
Problema:
¿Influye el tratamiento en la variable respuesta? Yi j
2.1. Modelo de factor y bloque: Estimación de los parámetros
Medias
Ui j → N( 0, )
a
Yi j =  +  i +  j + U i j 
i =1
 i =0
b

j =1
 i =0
Media global Medias por tratamientos Medias por bloques
ˆ = y •• ˆ i = y i • − y •• ˆ j = y • j − y ••
2.1. Modelo de factor y bloque: Estimación de los parámetros
Varianza
Ui j → N( 0, )
a
Yi j =  +  i +  j + U i j 
i =1
 i =0
b

j =1
 i =0
Residuos: ( )
r i j = y i j − yˆ i j = y i j − ˆ + ˆ i + ˆ j = y i j − ( y i • + y • j − y •• )
2
1 a b a b  y i j − ( ˆ + ˆ i + ˆ j ) 

 2 i =1
 r 2
ij =  
 


→ (2a −1)( b −1)
j =1 i =1 j =1
 
Estimación de la varianza:
a b
sˆ =
2
R
1

(a − 1)(b − 1) i =1

j =1
r 2
ij es insesgado para 
2
(Varianza residual)
2.1. Modelo de factor y bloque: Descomposición de la variabilidad
VT = VE ( ) + VE (  ) + VR
Variabilidad total:
a b
VT =  ( y i j − y •• )
2
i =1 j =1
Variabilidad entre los tratamientos: Variabilidad entre los bloques:

a a b b
VE ( ) =  b ( y i • − y •• ) = b ˆ VE (  ) =  a ( y • j − y •• ) = a ˆ j
2 2 2 2
i
i =1 i =1 j =1 i =1
Variabilidad residual:
a b
VR =   r 2
ij
i =1 j =1
2.1. Modelo de factor y bloque:
Construcción de la Tabla ANOVA
V ( ) sˆ
2
VE ( ) a −1 sˆ = E
2
Entre tratamientos F = 2
a −1 sˆR
sˆ
2
V ( )
VE (  ) b −1 sˆ = E
2
Entre bloques F = 2
b −1 sˆR
VR
(a − 1)( b − 1) sˆR =
2
Residual VR
(a − 1)(b − 1)
Total VT
ab − 1
Coeficientes de determinación
sˆR
2
VE ( ) VE (  ) Varianza residual
Parciales: r2 = r2 =
VT VT
Total: r 2 = r2 + r2
2.1. Modelo de factor y bloque: Contraste sobre los tratamientos
 H0 :  1 =  2 = =  a = 0 
  Nivel 
 1
H : No todos los  i son nulos 
(a − 1) sˆ2 VE ( ) a b ˆ 2i
=
H
= ⎯⎯⎯
0
→  a2−1 Estadístico de contraste
 2
 2
i =1  2
𝑠Ƹ𝛼2 H0
F𝛼 = 2 → 𝐹 𝑎−1,(𝑎−1)(𝑏−1)
𝑠Ƹ𝑅
2
(a − 1)(b − 1) sˆR2 VR a b
 ri j 
= =    → (2a −1)( b −1)
  j =1   
2 2
i =1
F a −1 ,( a −1)( b −1)
Región crítica: f (a−1 ,( a−1)( b−1)) , 

 1− ) 1− 

p-valor: P (F a −1 ,( a −1)( b −1)  Fobs )
( a −1 , ( a −1)( b −1) )
f 1−
2.1. Modelo de factor y bloque: Contraste sobre los bloques
 H0 :  1 =  2 = =  b = 0
 

  Nivel 
 H
 1 : No todos los  i son nulos 

(b − 1) sˆ2 VE (  ) b a ˆ 2j
=
H
= ⎯⎯⎯
0
→  b2−1 Estadístico de contraste
2 2 j =1 2
𝑠𝛽Ƹ 2 H0
F𝛽 = → F 𝑏−1,(𝑎−1)(𝑏−1)
𝑠Ƹ𝑅2
2
(a − 1)(b − 1) sˆR2 VR a b
 ri j 
= =    → (2a −1)( b −1)
2 2 i =1 j =1   
F b −1 ,( a −1)( b −1)
Región crítica: f ( b−1 ,( a−1)( b−1)) , 

 1− ) 1− 

p-valor: P (F b −1 ,( a −1)( b −1)  Fobs )
( b −1 , ( a −1)( b −1) )
f 1−
2.2. Modelo de dos factores con interacción: Planteamiento
Factor B y
Observaciones
1 2 b
1 y111 y112 y11n y121 y122 y12n … y1b1 y1b2 y1bn
…
Factor A
2 y 211 y 212 y 21n y 221 y 222 y 22n y 2b1 y 2b2 y 2bn
a y a11 y a12 y a1n y a21 y a 22 y a2n … y ab1 y ab2 y abn

Total de observaciones: a b n
Modelo: Parámetros desconocidos:

Yi j k =  +  i +  j + ( ) i j + U i j k
La media global 
Ui jk → N( 0, )
 1 , 2 , ,  a
Los efectos de los tratamientos
 1, 2 , , b
La interacción entre los tratamientos  ( ) ij i, j
La varianza  2
2. Modelo de dos factores con interacción: Estimación
Los diseños factoriales permiten conocer no solamente el efecto por separado de
cada uno de los factores, sino además la posible interacción entre ellos. Se dice que
existe interacción cuando el efecto de un factor sobre la variable dependiente
depende de los niveles que adopte el otro factor.
Yi j k =  +  i +  j + ( )i j + U i j k
Media global Medias para el factor A Medias para el factor B

ˆ = y ••• ˆ i = y i •• − y ••• ˆ j = y • j • − y •••
Interacción
( ) i j = y i j • − y i •• − y • j • + y •••
2. Modelo de dos factores con interacción: Planteamiento
Yi j k =  +  i +  j + ( )i j + U i j k
Residuos: r i j k = yi j k − yi j •
2
1 a b n a b n
 y − yi j • 
 2  r 2
i jk =   i j k
i =1 j =1 k =1    →  ab
2
( n −1)
i =1 j =1k =1 
a b n
sˆ = 1
  es insesgado para 
2 2 2
Estimación de la varianza: r
ab(n − 1) i =1
R i jk
j =1 k =1
(Varianza residual)
2. Modelo de dos factores con interacción
Descomposición de la variabilidad
VT = VE ( ) + VE (  ) + VE ( ) + VR
Variabilidad total: Variabilidad debida al factor A:

a b a
VT =  ( y i j k − y ••• ) VE ( ) = bn  ˆ i
n 2
2
i =1 j =1 k =1 i =1
Variabilidad debida al factor B: Variabilidad debida a la interacción:
a b
VE ( ) = n  ( )i j
a
VE (  ) = an  ˆ
2 2
j
i =1 i =1 j =1
Variabilidad residual:
a b n
VR =  r i 2j k
i =1 j =1 k =1
2. Modelo de dos factores con interacción: Tabla ANOVA
V ( ) sˆ
2
VE ( ) a −1 sˆ = E
2
Factor A F = 2
a −1 sˆR
sˆ
2
V ( )
VE (  ) b −1 sˆ = E
2
Factor B F = 2
b −1 sˆR
VE ( ) ˆ
s
2
VE ( ) (a − 1)( b − 1) s =
ˆ 2
Interacción F = 
(a − 1)(b − 1) 
sˆR
2
VR
sˆR =
2
Residual VR ab( n − 1)
ab(n − 1)
Total VT abn − 1
Coeficientes de determinación
sˆR
2
Varianza residual
VE ( ) V ( ) VE ( )
Parciales: r2 = r2 = E r2 =
VT VT VT
Total: r 2 = r2 + r2 + r2
Contraste sobre el factor A
 H0 :  1 =  2 = =  a = 0 
  Nivel 
 1
H : No todos los  i son nulos 
𝑎
(𝑎 − 1)𝑠𝛼Ƹ 2 VE (𝛼) 𝑏𝑛𝛼ො𝑖2 H0
2
𝜎2
=
𝜎2
=෍ 2
𝜎
𝜒𝑎−1 Estadístico de contraste
𝑖=1
𝑠Ƹ𝛼2 H0
F𝛼 = 2 → 𝐹 𝑎−1,𝑎𝑏(𝑛−1)
2 𝑠Ƹ𝑅
ab(n − 1) sˆR2 VR a b
 ri j k 
n
= 2 =    →  ab
2
( n −1)
2  i =1 j =1 k =1   
F a −1 , ab( n −1)
Región crítica: f (a−1 , ab( n −1)) , 

 1− ) 1− 

p-valor: P (F a −1 , ab ( n −1)  Fobs )
( a −1 , ab( n −1) )
f 1−
Contraste sobre el factor B
 H0 :  1 =  2 = =  b = 0 
  Nivel 
 1
H : No todos los  j son nulos 
𝑏
(𝑏 − 1)𝑠𝛽Ƹ 2 VE (𝛽) 𝑎𝑛𝛽෠𝑖2 H0
2 Estadístico de contraste
= =෍ 2 𝜒𝑏−1
𝜎2 𝜎2 𝜎 H0
𝑗=1 𝑠𝛽Ƹ 2
F𝛽 = → 𝐹 𝑏−1,𝑎𝑏(𝑛−1)
𝑠Ƹ𝑅2
𝑎 𝑏 𝑛
𝑎𝑏(𝑛 − 1)𝑠Ƹ𝑅2 VR 𝑟𝑖𝑗𝑘 2
2
= 2 = ෍෍෍ → 𝜒𝑎𝑏(𝑛−1)
𝜎2 𝜎 𝜎
𝑖=1 𝑗=1 𝑘=1
F b −1 , ab ( n −1)
Región crítica: f ( b−1 , ab( n −1)) , 

 1− ) 1− 

p-valor: P (F b −1 , ab ( n −1)  Fobs )
( b −1 , ab( n −1) )
f 1−
Contraste sobre la interacción
 H0 : ( ) i j = 0  i , j
 

  Nivel 
 H
 1 : No todos los (  ) ij son nulos 

𝑎 𝑏
2
(𝑎 − 1)(𝑏 − 1)𝑠Ƹ𝛼𝛽 VE (𝛼𝛽) 𝑛(𝛼𝛽)2𝑖𝑗 H0 2
= = ෍෍ → 𝜒(𝑎−1)(𝑏−1) Estadístico de contraste
𝜎2 𝜎2 𝜎2
𝑖=1 𝑗=1 2 H0
𝑠Ƹ𝛼𝛽
F𝛼𝛽 = 2 → 𝐹 (𝑎−1)(𝑏−1),𝑎𝑏(𝑛−1)
𝑠Ƹ𝑅
𝑎 𝑏 𝑛
𝑎𝑏(𝑛 − 1)𝑠Ƹ𝑅2 VR 𝑟𝑖𝑗𝑘 2
2
= = ෍ ෍ ෍ → 𝜒𝑎𝑏(𝑛−1)
𝜎2 𝜎2 𝜎
𝑖=1 𝑗=1 𝑘=1
F ( a −1)( b −1), ab ( n −1)
(𝑎−1(𝑏−1),𝑎𝑏(𝑛−1)
ቂ𝑓1−𝛼 , ∞ቁ
1− 
Región crítica:

p-valor: P F (𝑎−1)(𝑏−1),𝑎𝑏(𝑛−1) ≥ Fobs
( ( a −1)( b −1) , ab( n −1) )

f 1−

Presentacion Tema 5. Analsis de La Varianza

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Presentacion Tema 5. Analsis de La Varianza

Cargado por

Copyright:

Formatos disponibles

Tema 5

El análisis de la varianza (ANOVA) de un conjunto de muestras consiste en

Es importante no confundir la media global con la media de las medias. Sólo

Tamaño Media Desviación

¿Son iguales las medias  1 ,  2 , ,  k ?

Para cada grupo: ̂ i = y i

La variabilidad de la muestra global: la suma de cuadrados

Variabilidad total (SCT): Variabilidad entre los grupos (SCE):

Variabilidad dentro de los grupos (SCD):

Suma de cuadrados totales (SCT)=Suma de cuadrados dentro de

• SCT nos informa de la variabilidad de la muestra global.

Para poder realizar un análisis ANOVA hay que tener en cuenta:

2. Fijaremos un nivel significativo α

si se cumple H0 (igualdad de medias) sigue una

 p-valor: P ( F k −1,N −k  Fobs )

Fuente de variación Suma de cuadrados g.l. Varianza F

Media global Medias por tratamientos Medias por bloques

Variabilidad entre los tratamientos: Variabilidad entre los bloques:

Región crítica: f (a−1 ,( a−1)( b−1)) , 

Región crítica: f ( b−1 ,( a−1)( b−1)) , 

2 y 211 y 212 y 21n y 221 y 222 y 22n y 2b1 y 2b2 y 2bn

a y a11 y a12 y a1n y a21 y a 22 y a2n … y ab1 y ab2 y abn

Modelo: Parámetros desconocidos:

Media global Medias para el factor A Medias para el factor B

Variabilidad total: Variabilidad debida al factor A:

Variabilidad debida al factor B: Variabilidad debida a la interacción:

Región crítica: f (a−1 , ab( n −1)) , 

Región crítica: f ( b−1 , ab( n −1)) , 

F ( a −1)( b −1), ab ( n −1)

( ( a −1)( b −1) , ab( n −1) )

También podría gustarte