Tema 5. Analisis de La Varianza

ESCUELA POLITÉCNICA SUPERIOR DE BURGOS G.I.
I
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN
TEMA 5: ANÁLISIS DE LA VARIANZA:

1. Análisis de la varianza con un factor
1.1 Planteamiento del problema

Queremos estudiar la posible influencia de un factor sobre una variable. El factor
puede tomar varios niveles, lo que da lugar a varios grupos de población, en cada uno
de los cuales tenemos varias observaciones de la variable que estamos estudiando.
Puesto que la variabilidad de la variable respuesta se debe a multitud de factores, se
trata de dividir esa variabilidad en 2 partes, la originada por el factor bajo estudio y la
variación producida por el resto de factores “conocidos o no”, denominada error
experimental. El modelo ANOVA propuesto nos va a permitir decidir si los distintos
niveles del factor establecen diferentes subpoblaciones en la variable respuesta, o por
el contrario, el comportamiento de la variable respuesta es la misma para todos los
niveles y se tiene una única población.
El problema de averiguar si los distintos niveles del factor afectan de igual modo a la
variable respuesta, se plantea como un contraste de hipótesis.
Especificación del modelo
Se desea comparar los efectos de k tratamientos o niveles de un único factor sobre una
determinada variable.
En este modelo se distinguen la variable cuantitativa respuesta Y, y la variable
independiente o factor, δ, correspondiente a una variable cualitativa con k niveles
(𝛿1 , … , 𝛿𝑘 ).
La siguiente tabla recoge los 𝑁 = ∑𝑘𝑖=1 𝑛𝑖 valores obtenidos en la k muestras de
tamaños 𝑛1 , 𝑛2 , … , 𝑛𝑘
Grupo Tamaño muestral Suma de observaciones Media Media
o nivel muestral poblacional
1 y11 y12 … 𝑦1𝑛1 𝑛1 𝑦1∙ 𝑦1
̅̅̅ 𝜇1
2 y21 y22 … 𝑦2𝑛2 𝑛2 𝑦2∙ 𝑦2
̅̅̅ 𝜇2
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
k yk1 yk2 … 𝑦𝑘𝑛𝑘 𝑛𝑘 𝑦𝑘∙ 𝑦𝑘

̅̅̅ 𝜇𝑘
Valores globales 𝑁 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 𝑦.. = 𝑦1∙ + 𝑦2∙ + ⋯ + 𝑦𝑘∙ 𝑦̅.. 𝜇
Supondremos que las observaciones son independientes y que dentro de cada grupo
siguen una distribución normal de media μ i y con la misma varianza σ 2 para todos
1
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS G.I. I
los grupos: Y i → N(μ i , σ) , o bien y i j = μ i + u i j , con u i j independientes e igualmente
distribuidas con distribución N(0, σ) . Los parámetros μ i y σ son desconocidos;
trataremos de estimarlos a partir de los datos y de comparar las medias.
1.2 Estimación de los parámetros
Para cada grupo, definimos:

n
1 i
– Media de grupo: yi =  yi j . Este será el estimador de μ i .
ni j =1
Su distribución es î = yi → N( i , ni )
1 ni
 ( yij − yi )
2
– Varianza de grupo: sî2 =
ni − 1 j =1
Estimaremos la varianza común a todos los grupos mediante la expresión
( n1 − 1) sˆ12 + ( n 2 − 1) sˆ22 + L + ( nk − 1) sˆk2 1 k

( n1 − 1) + ( n 2 − 1) + L + ( nk − 1)
=  ( ni − 1) sî2
N − k i =1
1 k
Esto se llama varianza residual y se denota por sˆR2 : sˆR2 = 
N − k i =1
( ni − 1) sî2 ; será
el estimador de la varianza.
(𝑛𝑖 −1)𝑠̂𝑖2
Para cada grupo, la distribución de es 𝜒𝑛2𝑖 −1
𝜎2
Por tanto, la de la suma
(𝑛1 −1)𝑠̂12 +(𝑛 2 −1)𝑠̂22 + ⋯ +(𝑛𝑘 −1)𝑠̂𝑘2 1

= ∑𝑘𝑖=𝑖(𝑛𝑖 − 1)𝑠̂𝑖2 → χN2 −k .
𝜎2 𝜎2
Si llamamos variabilidad dentro del grupo i a la suma

ni
Vi =  ( yij − yi ) = ( ni − 1 ) sî2
2
j =1
y variabilidad dentro de los grupos (ó variabilidad residual) a la suma de todas las

variabilidades dentro de los grupos, tendremos:
k k
VD = V1 + V2 + + Vk =  Vi =  ( ni − 1) sî2 = ( N − k ) sˆR2
i =i i =i
y entonces:
VD 1 k
=  ( ni − 1) si =
ˆ2 ( N − k ) sˆR2
→ χN2 −k
σ 2 σ 2 i =1 σ2
2
1.3 Descomposición de la variabilidad

n
1 k i
Sea y =  yi j (la media global).
N i =1 j =1
Llamaremos variabilidad total, y lo denotaremos por VT , a la suma

𝑛 2
𝑉𝑇 = ∑𝑘𝑖=1 ∑𝑗=1
𝑖
(𝑦𝑖𝑗 − 𝑦̄ )
k ni k ni
VT =  ( yij − y ) =  ( yij − yi + yi − y ) =
2 2
Operando:
i =1 j =1 i =1 j =1
k ni
=  ( yij − yi ) + 2 ( yij − yi ) ( yi − y ) + ( yi − y )  =
2 2
i =1 j =1
 
k ni k ni k ni
=  ( yij − yi ) + 2 ( yij − yi ) ( yi − y ) +  ( yi − y ) =
2 2
i =1 j =1 i =1 j =1 i =1 j =1
k ni k ni k
=  ( yij − y ) + 2 ( yi − y )  ( yij − yi ) +  ni ( yi − y ) =
2 2
i =1 j =1 i =1 j =1 i =1
k ni k
 ni ni
 k
=  ( yij − y ) + 2 ( yi − y )  yij −  yi  +  ni ( yi − y ) =
2 2
i =1 j =1 i =1  j =1 j =1  i =1
k ni k k
=  ( yij − y ) + 2 ( yi − y )( ni yi − ni yi ) +  ni ( yi − y ) =
2 2
i =1 j =1 i =1 i =1
k k ni
=  ni ( yi − y ) +  ( yij − yi )
2 2
i =1 i =1 j =1
El segundo de estos dos sumandos ya lo conocemos: es la variabilidad dentro de los

k k ni
VD =  (ni − 1) sî2 =  ( yij − yi )
2
grupos:
i =1 i =1 j =1
k
VE =  ni ( yi − y )
2
Al primero lo llamaremos variabilidad entre los grupos:
i =1
Entonces, podemos poner: VT = VE + VD (la variabilidad total se descompone como la

suma de las variabilidades entre los grupos y dentro de los grupos).
1.4 Contraste de igualdad de medias
H0 : μ1 = μ2 = L = μk = μ 
Planteamos el siguiente contraste:  
H1 : no todas los μi son iguales 
Si la hipótesis nula es cierta: μ1 = μ2 = = μk = μ y Yi → N( μ, σ ni ) .
Entonces, resulta que:
3
( ) = k ( yi − y ) = k  yi − y
2

2 2
k n y −y
1 1 k
V = 2  ni ( yi − y ) =  i i 2  
2
2 E 2   → χk2−1
σ σ i =1 i =1 σ i =1 σ / ni i =1  σ / ni 
VD
Además, 2
→ χN2 −ktanto si la hipótesis nula es cierta como si no.
σ
VE ( k − 1)
Por tanto, bajo la hipótesis nula: → Fk −1,N −k
VD ( N − k )
Esto nos permite concluir el contraste: rechazaremos la hipótesis nula cuando
VE ( k − 1)
F=  f1−α
VD ( N − k )
donde α es el nivel que hayamos elegido para el contraste.
(También podríamos hallar el p-valor; sería P (Fk −1,N −k  F ) .
Esto se resume en la tabla de análisis de la varianza o tabla ANOVA:

Fuente de variación Suma de cuadrados Grados de libertad Varianza F
Entre los grupos VE k −1 VE / (k − 1) VE / (k − 1)
Dentro de los grupos VD N −k VD / (N − k) VD / (N − k)
Total VT = VE + VD N −1
(Observación: VD (N − k) = sˆR2 ).
El cociente r 2 = VE / VT se llama coeficiente de determinación.
Indica la proporción de variabilidad explicada por los grupos.
1.5 Inferencia sobre los parámetros
(a) Sobre cada media:

( N − k ) sˆR2
Según vimos al principio: î = yi → N( i , ni ) y → χ N2 − k .
σ2
y i − i
→ tN − k .
Entonces: sˆR ni
De aquí podemos obtener un intervalo de confianza de probabilidad 1- para μi :

sˆR
yi  t1−α 2
ni
Basándonos en esa distribución, también podemos hacer contrastes de hipótesis
sobre μi .
(b) Comparaciones entre pares de medias:
Razonando como en el apartado anterior:

(y − y ) − (μ − μ )
i j i j
→ tN − k
sˆR 1
ni + 1
nj
Entonces, un intervalo de confianza de probabilidad 1- para la diferencia de

medias μi − μj será:
( y − y )  sˆ
i j R  n1 + n1  t1−α 2
i j
4
H0 : μi = μj 
 
También podemos plantear el contraste  .
H1 : μi  μj 
 
Utilizando ese mismo estadístico: bajo la hipótesis nula, μi − μj = 0 , y por tanto
yi − y j
→ tN − k
sˆR 1
ni + n1j
La región crítica de este contraste (el de dos lados) al nivel  será |T | t1−α 2 .
1.6 Estudio de los residuos

Se llaman residuos, y se denotan por ri j , los valores ri j = yi j − yi . Su estudio nos
permite investigar si el modelo planteado (normalidad, independencia, igualdad de

varianzas) es correcto:
− Conviene dibujar un histograma de los residuos y hacer un contraste de
normalidad. La falta de normalidad no afecta mucho al contraste de la F, pero sí
a las inferencias sobre la varianza.
− El gráfico de residuos en función de las medias estimadas nos ayuda a ver si la
variabilidad es o no constante. En el caso de que no lo sea, el contraste de la F
sigue siendo válido si el número de observaciones en cada grupo es más o menos
el mismo, pero si hay grandes diferencias en el número de observaciones por
grupo, ya no.
2. Modelos de 2 factores
2.1 Modelo de factor y bloque
Queremos estudiar el comportamiento de un sistema sobre el que influyen ciertos

factores: observaremos para ello una variable respuesta para distintos niveles de estos
factores. Se supone que los niveles que tomen los factores son controlables en la
experimentación; aparte, puede haber otras causas que produzcan algún efecto en la
respuesta, y que si no se pueden controlar, darán lugar a una variación aleatoria
llamada error experimental.
El objetivo del diseño de experimentos es preparar un experimento que teniendo en
cuenta lo anteriormente expuesto nos permita detectar diferencias en la respuesta
debidas a la variación de los distintos factores, distinguir entre los efectos de cada uno
de éstos y estudiar las posibles interacciones entre ellos.
Llamaremos unidad experimental a cada elemento sobre el cual se realizará una

medida de la respuesta: a cada unidad experimental se le asigna una combinación de
5
niveles de los factores y se observa la respuesta. La selección de unidades

experimentales y la asignación de niveles debe ser aleatoria con el fin de eliminar
sesgos y dependencia entre las observaciones, y minimizar el efecto de causas externas
incontrolables.
2.1.1 Bloques aleatorizados
Llamaremos variable bloque a un factor que puede tener influencia sobre la respuesta,
pero en cuyo efecto no estamos especialmente interesados y que no tiene interacción
con el resto de los factores. Entonces, la población objeto de estudio se organiza en
bloques con arreglo a esta variable y dentro de cada bloque se seleccionan al azar
unidades experimentales a las cuales se asignan, también de forma aleatoria, los
distintos niveles de los factores.
Tomaremos una observación para cada combinación de niveles del factor (que se
suelen llamar tratamientos) y de la variable bloque.
Supongamos que hay a tratamientos y b bloques; y i j representa la observación
correspondiente al nivel i en el bloque j. En total hay 𝑁 = 𝑎 ∙ 𝑏 observaciones.
Las medias por filas y columnas son:

1 b 1 a
yi • =  yij y• j =  yij
b j =1 a i =1
1 a b
y la media global es y•• =   yij .
ab i =1 j =1
El modelo será 𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝑢𝑖𝑗 ; 𝑖 = 1,2, ⋯ , 𝑎 ; 𝑗 = 1,2, ⋯ , 𝑏 donde:

• 𝜇 es la media global para todas las unidades experimentales.
• 𝛼𝑖 mide el efecto del tratamiento i con relación a la media global.
(Impondremos ∑𝑎𝑖=1 𝛼𝑖 = 0).
• 𝛽𝑗 mide el efecto del bloque j con relación a la media global.
(Impondremos ∑𝑏𝑗=1 𝛽𝑗 = 0).
6
• 𝑢𝑖𝑗 es la variación aleatoria debida a otras posibles causas; se supone que

son independientes y normales de media 0 y desviación desconocida  .
2.1.2 Estimación de los parámetros

Estimaremos los parámetros del modelo mediante las expresiones:
𝜇̂ = 𝑦̄•• 𝛼̂𝑖 = 𝑦̄ 𝑖• − 𝑦̄•• 𝛽̂𝑗 = 𝑦̄ •𝑗 − 𝑦̄••
𝑎 𝑏 2 𝑎 𝑏
1 1
𝜎̂ 2 = ∑ ∑(𝑦𝑖𝑗 − 𝜇̂ − 𝛼̂𝑖 − 𝛽̂𝑗 ) = ∑ ∑ 𝑟𝑖𝑗2
𝑁 𝑁
𝑖=1 𝑗=1 𝑖=1 𝑗=1
2.1.3 Distribuciones de los estimadores
̂:
Distribución de 𝝁
𝑎 𝑏 𝑎 𝑏 𝑎 𝑏 𝑎
1 1 1 1 1
𝐸𝜇̂ = 𝐸 [ ∑ ∑ 𝑦𝑖𝑗 ] = ∑ ∑ 𝐸𝑦𝑖𝑗 = ∑ ∑(𝜇 + 𝛼𝑖 + 𝛽𝑗 ) = ∑(𝑏𝜇 + 𝑏𝛼𝑖 ) = 𝑎𝑏𝜇 = 𝜇
𝑁 𝑁 𝑁 𝑁 𝑁
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑖=1
𝑎 𝑏 𝑎 𝑏
1 1 1 𝜎2
VAR𝜇̂ = VAR ( ∑ ∑ 𝑦𝑖𝑗 ) = 2 ∑ ∑ VAR𝑦𝑖𝑗 = 2 𝑎𝑏𝜎 2 =
𝑁 𝑁 𝑁 𝑁
𝑖=1 𝑗=1 𝑖=1 𝑗=1
Además, ̂ es combinación lineal de variables normales, luego también será normal:
  
ˆ → N   , 
 N
Distribución de ̂ i :
𝑏 𝑏 𝑏
1 1 1 1
𝐸𝛼𝑖 = 𝐸𝑦̄ 𝑖• − 𝐸𝑦̄•• = 𝐸 [ ∑ 𝑦𝑖𝑗 ] − 𝜇 = ∑ 𝐸𝑦𝑖𝑗 − 𝜇 = ∑(𝜇 + 𝛼𝑖 + 𝛽𝑗 ) − 𝜇 = (𝑏𝜇 + 𝑏𝛼𝑖 ) − 𝜇 = 𝛼𝑖
𝑏 𝑏 𝑏 𝑏
𝑗=1 𝑗=1 𝑎 𝑗=1
1 1 1 1
VAR𝛼1 = VAR(𝑦̄ 1• − 𝑦̄•• ) = VAR (𝑦̄ 1• − ∑ 𝑦̄ 𝑖• ) = VAR (𝑦̄ 1• − 𝑦̄ 1• − 𝑦̄ 2• − ⋯ − 𝑦̄𝑎• ) =
𝑎 𝑎 𝑎 𝑎
𝑖=1
𝑎
1 1 1 2 1
= VAR ((1 − ) 𝑦̄ 1• ) + ∑ VAR ( 𝑦̄ 𝑖• ) = (1 − ) VAR𝑦̄ 1• + (𝑎 − 1) 2 VAR𝑦̄ 𝑖• =
𝑎 𝑎 𝑎 𝑎
𝑖=2
1 2 𝑎 − 1 𝜎2 𝑎 − 1 2 𝑎 − 1 2
= [(1 − ) + 2 ] = 𝜎 = 𝜎 (Vale para cualquier 𝛼̂𝑖 )
𝑎 𝑎 𝑏 𝑎𝑏 𝑁
 a −1 
Y como es combinación lineal de variables normales: î → N  i , 
 N 
Distribución de 𝛽̂𝑗 :
 b −1 
Se obtiene igual que la de ̂ i : ˆj → N  j ,  .
 N 
Distribución de :ˆ 2
Eσˆ 2 =
( a − 1)( b − 1) σ 2 ; N σˆ 2
→ χ(2a −1)(b −1) : ̂ 2 no es un estimador insesgado para  2 .
N σ2
Pero si definimos:
7
a b
N 1
sˆR2 =
( a − 1)( b − 1)
ˆ 2 =
( a − 1)( b − 1)  r
i =1 j =1
2
ij (varianza residual)
sí que tendremos un estimador insesgado para  2 , y además:

( a − 1)( b − 1) sˆR2 → χ(2a −1)(b −1) .
2
σ
2.1.4 Descomposición de la variablidad
Sean:
VT =   ( yij − y•• )
a b 2
la variabilidad total.
i =1 j =1
a
VE (α) = b  αî2 la variabilidad debida a los tratamientos.
i =1
b
VE (β) = a  βˆ j2 la variabilidad debida a los bloques.
j =1
a b
VR =   rij2 la variabilidad residual.
i =1 j =1
Se puede comprobar que VT = VE (α) + VE (β) + VR
2.1.5 Contraste F
Con los resultados anteriores construimos la siguiente tabla de análisis de la varianza:
Fuente de variación Suma de cuadrados G. libertad Varianza F
Entre tratamientos VE (α) a −1 sˆ = VE (α) / (a − 1)
2
α Fα = sˆα2 / sˆR2
Entre bloques VE (β) b −1 sˆ = VE ( β) / (b − 1)
2
β Fβ = sˆ β2 / sˆ R2
Residual VR (a − 1)(b − 1) sˆ R2 = VR /[(a − 1)(b − 1)]
Total VT = VE (α) + VE (β) + VR N −1
Se llama coeficiente de determinación al cociente
VE VE ( ) + VE ( ) VE ( ) VE ( ) 2 2
r2 = = = + = r + r
VT VT VT VT
Este número indica la proporción de variabilidad explicada por el modelo; los

sumandos en que se descompone indican respectivamente las proporciones de
variabilidad debidas al efecto tratamiento (𝑟𝛽2 ) y al efecto bloque (𝑟2 ) y se llaman
coeficientes de determinación parciales.
Para analizar esta tabla, reparemos en que:
• Si no hay efecto tratamiento, es decir, si αi = 0  i , entonces VE (α) σ 2 → χa2-1
independientemente de que haya o no efecto bloque.
• Si no hay efecto bloque, es decir, si βj = 0  j , entonces VE (β) σ 2 → χb2-1
independientemente de que haya o no efecto tratamiento.

• Y, en cualquier caso, VR σ 2 → χ(2a −1)(b-1) .
8
Nuestra intención es contrastar si hay efecto tratamiento: H01 : αi = 0  i . Bajo esta

hipótesis, F sigue una distribución Fa−1,(a−1)(b−1) ; la rechazaremos cuando F sea
significativamente grande.
Si queremos también contrastar el efecto bloque: H02 : βj = 0  j y bajo esta hipótesis
F sigue una distribución Fb−1,(a−1)(b−1) ; la rechazaremos cuando F sea
significativamente grande.
Si el efecto bloque es nulo o muy pequeño ( F próximo a 1), es más eficaz olvidar los
bloques y trabajar sólo con los tratamientos como en el análisis de la varianza con un
factor. Si no, este último diseño permite detectar mejor las posibles diferencias entre
tratamientos.
2.2. Modelo de dos factores con interacción

Cuando tengamos dos o más factores entre los cuales pueda haber interacción,
deberemos incluir y estimar más parámetros en el modelo. Estudiaremos ahora el caso
de dos factores; supongamos que el primero tiene a niveles y el segundo b. Tendremos
unos parámetros α i y βj que representan los efectos de cada factor por separado, más
otros parámetros (αβ)i j que indican el efecto combinado de los dos factores. El modelo
será similar al anterior (hacer todas las posibles combinaciones de niveles de los dos
factores), pero ahora, para poder estimar la posible interacción hay que tomar varias
observaciones en cada combinación; pongamos n:
Definimos a continuación las medias por casillas, filas y columnas; también la media
global y los residuos:
1
Media global : 𝑦̄••• = ∑𝑎𝑖=1 ∑𝑏𝑗=1 ∑𝑛𝑘=1 𝑦𝑖𝑗𝑘
𝑎𝑏𝑛
1
Media de la casilla i, j : 𝑦̄ 𝑖𝑗 = ∑𝑛𝑘=1 𝑦𝑖𝑗𝑘
𝑛
𝑎 𝑎 𝑛
1 1
Media de la columna 𝑗 : 𝑦̄ •𝑗• = ∑ 𝑦̄ 𝑖𝑗• = ∑ ∑ 𝑦𝑖𝑗𝑘
𝑎 𝑎𝑛
𝑖=1 𝑖=1 𝑘=1
1 1
Media de la fila i : 𝑦̄ 𝑖•• = ∑𝑏𝑗=1 𝑦̄ 𝑖𝑗• = ∑𝑏𝑗=1 ∑𝑛𝑘=1 𝑦𝑖𝑗𝑘
𝑏 𝑏𝑛
9
Residuos: rijk = yijk − yij •
El modelo es: yijk = μ + αi + βj + (α β)i j + uijk
Los estimadores de máxima verosimilitud para los parámetros son:

μ̂ = 𝑦̄••• ; α̂ 𝑖 = 𝑦̄ 𝑖•• − 𝑦̄••• ; ̂ 𝑖𝑗 = 𝑦̄ 𝑖𝑗• − 𝑦̄ 𝑖•• − 𝑦̄ •𝑗• + 𝑦̄•••
β̂ 𝑖 = 𝑦̄ •𝑗• − 𝑦̄••• ; (𝛼𝛽)
Descomponemos la variabilidad como en los casos anteriores:

VT = VE (α) + VE (β) + VE (α β) + VR
2
donde: 𝑉𝑇 = ∑𝑎𝑖=1 ∑𝑏𝑗=1 ∑𝑛𝑘=1(𝑦𝑖𝑗𝑘 − 𝑦̄••• ) es la variabilidad total.
𝑎
𝑉𝐸 (𝛼) = 𝑏𝑛 ∑ 𝛼̂𝑖2 es la variabilidad debida al factor A.

𝑖=1
𝑏
𝑉𝐸 (𝛽) = 𝑎𝑛 ∑ 𝛽̂𝑗2 es la variabilidad debida al factor B.

𝑗=1
2
̂)
𝑉𝐸 (𝛼𝛽) = 𝑛 ∑𝑎𝑖=1 ∑𝑏𝑗=1(𝛼𝛽 es la variabilidad debida a la interacción entre los
𝑖𝑗
dos factores.
𝑎 𝑏 𝑛
2
𝑉𝑅 = ∑ ∑ ∑ 𝑟𝑖𝑗𝑘 es la variabilidad residual.
𝑖=1 𝑗=1 𝑘=1
Con esta información construimos la tabla ANOVA:

Fuente de variación Suma de cuadrados G. libertad Varianza F
Factor A VE (α) a −1 sˆ α2 = VE (α) / (a − 1) Fα = sˆ α2 / sˆ R2
Factor B VE (β) b −1 sˆ β2 = VE (β) / (b − 1) Fβ = sˆ β2 / sˆ R2
Interacción VE (α β) (a − 1)(b − 1) sˆ α2β = VE (α β) /[(a − 1)(b − 1)] Fα β = sˆ α2β / sˆ R2
Residual VR ab (n − 1) sˆ R2 = VR /[ab (n − 1)]
Total VT = VE (α) + VE (β) + VR abn − 1
Los contrastes que nos interesan tienen como hipótesis nulas:

1. H01 : αi = 0  i
Bajo esta hipótesis, F sigue una distribución Fa −1, ab(n −1) ; la rechazaremos cuando
F sea significativamente grande.
2. H02 : βj = 0  j
Bajo esta hipótesis, F sigue una distribución Fb−1, ab(n −1) ; la rechazaremos cuando
F sea significativamente grande.
3. H03 :(αβ)ij = 0  i , j
Bajo esta hipótesis, F sigue una distribución F(a −1)(b−1), ab(n−1) ; la rechazaremos
cuando F sea significativamente grande.
10

Tema 5. Analisis de La Varianza

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 5. Analisis de La Varianza

Cargado por

Copyright:

Formatos disponibles

ESCUELA POLITÉCNICA SUPERIOR DE BURGOS G.I.

TEMA 5: ANÁLISIS DE LA VARIANZA:

1.1 Planteamiento del problema

k yk1 yk2 … 𝑦𝑘𝑛𝑘 𝑛𝑘 𝑦𝑘∙ 𝑦𝑘

los grupos: Y i → N(μ i , σ) , o bien y i j = μ i + u i j , con u i j independientes e igualmente

distribuidas con distribución N(0, σ) . Los parámetros μ i y σ son desconocidos;

trataremos de estimarlos a partir de los datos y de comparar las medias.

1.2 Estimación de los parámetros

Para cada grupo, definimos:

Estimaremos la varianza común a todos los grupos mediante la expresión

( n1 − 1) sˆ12 + ( n 2 − 1) sˆ22 + L + ( nk − 1) sˆk2 1 k

Por tanto, la de la suma

(𝑛1 −1)𝑠̂12 +(𝑛 2 −1)𝑠̂22 + ⋯ +(𝑛𝑘 −1)𝑠̂𝑘2 1

Si llamamos variabilidad dentro del grupo i a la suma

y variabilidad dentro de los grupos (ó variabilidad residual) a la suma de todas las

1.3 Descomposición de la variabilidad

Llamaremos variabilidad total, y lo denotaremos por VT , a la suma

El segundo de estos dos sumandos ya lo conocemos: es la variabilidad dentro de los

Entonces, podemos poner: VT = VE + VD (la variabilidad total se descompone como la

1.4 Contraste de igualdad de medias

Si la hipótesis nula es cierta: μ1 = μ2 = = μk = μ y Yi → N( μ, σ ni ) .

Entonces, resulta que:

Esto nos permite concluir el contraste: rechazaremos la hipótesis nula cuando

Esto se resume en la tabla de análisis de la varianza o tabla ANOVA:

1.5 Inferencia sobre los parámetros

(a) Sobre cada media:

De aquí podemos obtener un intervalo de confianza de probabilidad 1- para μi :

Razonando como en el apartado anterior:

Entonces, un intervalo de confianza de probabilidad 1- para la diferencia de

1.6 Estudio de los residuos

permite investigar si el modelo planteado (normalidad, independencia, igualdad de

Queremos estudiar el comportamiento de un sistema sobre el que influyen ciertos

Llamaremos unidad experimental a cada elemento sobre el cual se realizará una

niveles de los factores y se observa la respuesta. La selección de unidades

2.1.1 Bloques aleatorizados

correspondiente al nivel i en el bloque j. En total hay 𝑁 = 𝑎 ∙ 𝑏 observaciones.

Las medias por filas y columnas son:

El modelo será 𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝑢𝑖𝑗 ; 𝑖 = 1,2, ⋯ , 𝑎 ; 𝑗 = 1,2, ⋯ , 𝑏 donde:

• 𝑢𝑖𝑗 es la variación aleatoria debida a otras posibles causas; se supone que

2.1.2 Estimación de los parámetros

2.1.3 Distribuciones de los estimadores

Además, ̂ es combinación lineal de variables normales, luego también será normal:

sí que tendremos un estimador insesgado para  2 , y además:

2.1.4 Descomposición de la variablidad

Se puede comprobar que VT = VE (α) + VE (β) + VR

Este número indica la proporción de variabilidad explicada por el modelo; los

independientemente de que haya o no efecto tratamiento.

Nuestra intención es contrastar si hay efecto tratamiento: H01 : αi = 0  i . Bajo esta

F sigue una distribución Fb−1,(a−1)(b−1) ; la rechazaremos cuando F sea

2.2. Modelo de dos factores con interacción

Residuos: rijk = yijk − yij •

El modelo es: yijk = μ + αi + βj + (α β)i j + uijk

Los estimadores de máxima verosimilitud para los parámetros son:

Descomponemos la variabilidad como en los casos anteriores:

𝑉𝐸 (𝛼) = 𝑏𝑛 ∑ 𝛼̂𝑖2 es la variabilidad debida al factor A.

𝑉𝐸 (𝛽) = 𝑎𝑛 ∑ 𝛽̂𝑗2 es la variabilidad debida al factor B.

Con esta información construimos la tabla ANOVA:

Los contrastes que nos interesan tienen como hipótesis nulas:

F sea significativamente grande.

F sea significativamente grande.

cuando F sea significativamente grande.

También podría gustarte