Anova PDF

Diseo de experimentos: ANOVA
Elisa M Molanes Lpez
Un ejemplo introductorio
Un ingeniero de desarrollo de productos desea maximizar la resistencia a
la tensin de una nueva fibra sinttica que se utilizar para fabricar camisas.
Por experiencia, parece que la resistencia (o fortaleza) se ve influida por el
% de algodn presente en la fibra.
Tambin se sospecha que valores elevados de % de algodn repercuten
negativamente en otras cualidades de calidad que se desean (por ej. que la
fibra pueda recibir un tratamiento de planchado permanente).
Ante esta situacin, el ingeniero decide tomar cinco muestras para

diferentes niveles de % de algodn y medir la fortaleza de las fibras as
producidas.
Estos datos suman 49

y su media es 9.8
Media global de las

25 observaciones
Lo que obtiene se puede resumir en la siguiente tabla:

Observaciones (fortaleza de las 25 fibras
fabricadas)
% de
algodn
Total
Promedio
15%
15
11
49
9.8
20%
12
17
12
18
18
77
15.4
25%
14
18
18
19
19
88
17.6
30%
19
25
22
19
23
108
21.6
35%
10
11
15
11
54
10.8
376
15.04
Suma total de los 25 valores de fortaleza obtenidos
A la hora de fabricar las 25 fibras anteriores se debe seguir una secuencia
aleatorizada.
Esta aleatorizacin en la secuencia de fabricacin es necesaria para evitar que los
datos observados (la fortaleza de los tejidos), sean contaminados por el efecto de
otras variables que no conocemos y por tanto no podemos controlar.
Supongamos que se fabrican las 25 fibras sin un mecanismo aleatorizado, es decir,
siguiento el orden original (primero se fabrican las 5 fibras con un 15 % de algodn,
luego las 5 fibras con un 20% de algodn, y as sucesivamente).
En esta situacin, si la mquina que mide la fortaleza de la fibra presentase un
efecto de calentamiento de modo que a mayor tiempo de funcionamiento diese
menores lecturas de resistencia, entonces los datos se contaminaran. Por ese efecto
de calentamiento, la fortaleza de las fibras fabricadas con un 35% de algodn
resultaran negativamente muy contaminadas. No pasara lo mismo con las fabricadas
con un 15% de algodn.
Si aleatorizamos la fabricacin de las 25 fibras, se espera que este efecto est

presente por igual en todos los % de algodn, de modo que las comparaciones entre
los distintos niveles siguen siendo vlidos.
El anlisis de la varianza nos ayudar a responder las siguientes
cuestiones:
Influye el % de algodn en la fortaleza de la fibra fabricada?
Si es as, qu niveles de % de algodn son similares y
cules no?
Analysis Of Variance (ANOVA)

En general, tendremos:
Observaciones
(variable dependiente de inters, y)
Factor
Total
Promedio
Nivel o
grupo 1
y11
y12
y1n1
y1
y1
Nivel 2
y21
y22
y2n2
y2
y2
Nivel Isimo
yI1
yI2
yInI
yI
yI
y
Notacin
yij se refiere a la observacin j-sima de la variable y (fortaleza) en el
grupo i-simo del factor (% de algodn).
yi =
yi =
Pni
j=1 yij
yi
ni
El punto significa que sumamos sobre

el ndice que sustituye.
Es la suma de las ni observaciones
del grupo i
Es la media de la ni observaciones
del grupo i
n1 + n2 + . . . + nI = n
y =
y =
PI
i=1
Pni
j=1
y
n1 +n2 +...+nI
yij
El modelo terico
Las observaciones se describen segn el siguiente modelo lineal:
yij = + i + uij
Es la media global de y
Lo que se desva la media

de y en el grupo i-simo con
respecto a la media global
de y
Es el error aleatorio. Lo que se desva

la observacin yij de su media de
grupo. Es la pertubacin debida al
error experimental
i = + i Media de y en el grupo i-simo
Hiptesis del modelo

Los errores del modelo son variables aleatorias con distribucin
normal, de media cero y varianza 2
Esta varianza se supone constante para todos los niveles (o grupos)
del factor
Es importante comprobar que estas hiptesis se verifican para poder
sacar conclusiones fiables a partir de un anlisis de la varianza.
Ms adelante veremos con un ejemplo, cmo comprobar que los

datos cumplen las hiptesis del modelo.
Estimacin del modelo

En el modelo terico existen ciertos parmetros desconocidos que
estimaremos utilizando los datos observados.
Existen I+1 parmetros desconocidos, las I medias de grupo y la
varianza del error experimental.
Para estimar estos parmetros utilizaremos el mtodo de mxima
verosimilitud.
Para ello, primero necesitamos definir la funcin de verosimilitud L y
maximizarla.
Maximizar L ser equivalente a maximizar el logaritmo neperiano de L,
ln(L).
10
Para maximizar ln(L), derivamos con respecto a los I+1 parmetros

desconocidos, igualamos a cero las I+1 derivadas que obtenemos y
resolvemos el sistema de I+1 ecuaciones que resulta (en este sistema las
incgnitas son los parmetros desconocidos del modelo).
Estimacin por mxima verosimilitud

En base a las hiptesis del modelo se verifica que:
yij = + i + uij
Estos parmetros del

modelo se suponen fijos,
y por tanto, no aleatorios
yij N (i , 2 )
uij N (0, 2 )
La funcin de verosimilitud es: L(1 , . . . , I , ) =
donde:
f (yij ) =
11
1
2 2
exp
(yij i )2
22
QI
i=1
Qni
j=1
f (yij )
es la funcin de densidad de una normal con media i y varianza 2
Estimacin por mxima verosimilitud

Derivamos el logaritmo de L con respecto a los parmetros desconocidos
e igualamos a cero dichas derivadas.
2
ln(L(1 , . . . , I , )) =
ln(L(1 ,...,I , 2 ))
i
=0
i = yi
ln(L(
1 ,...,
I , 2 ))
2
12
n +
1
2
n2
i=1
1
2 2
PI
Pni
2
ln(2 )
i=1
j=1 (yij i )
Pni
ni
1
(y
)
=
yi i ) = 0
2
ij
i
j=1
2 (
Cada media de grupo se estima mediante la media muestral

de las observaciones y obtenidas en ese grupo
n
2 2
=0
PI
Pni
j=1 (yij
+
2
1
2(2 )2
i ) = 0
PI
i=1
Pni
j=1 (yij
PI
i=1
i ) = 0
Pni
i )2
j=1 (yij
n
Estimacin de la varianza
2
PI
i=1
Pni
i )2
j=1 (yij
n
Este estimador de la varianza presenta

un problema. Se trata de un estimador
sesgado.
Un buen estimador de la varianza debera ser insesgado, i.e. debera

verificar que su media fuese igual a la varianza (el parmetro que
estima). Sin embargo sucede que:
E(
2 ) = 2
Buscaremos otro estimador de la varianza que sea insesgado.
13
Pero antes de ello, definiremos los residuos y veremos cmo expresar

2
en funcin de los residuos.
De acuerdo con el modelo: uij = yij i
(Se sustituye por su estimacin)
ij = yij
i
As que podemos estimar los errores mediante: u
A estas estimaciones de los errores o perturbaciones del modelo, se les
llama residuos y los denotaremos por eij
eij = u
ij = yij yi
Estos residuos miden la variabilidad de y no explicada por el modelo.

2
Adems, sucede que:
e =
=
14
1
n
PI
i=1
1 PI
i=1
n
Pni
j=1 ei
=
1
n
PI
(yi ni yi ) =
i=1
1
n
1
n
PI
i=1
Pni
PI
Pni
j=1 (yij
i=1
2
j=1 eij
yi )
(yi yi ) = 0
1
n
PI
i=1
P ni
j=1 (eij
e)2
2 es la varianza de los residuos
Los residuos no son todos independientes entre s.
Ntese que los residuos satisfacen las I ecuaciones (vase pg. 12)
que nos permitieron obtener estimadores para la media de cada
grupo, i.e: Para cada i=1,,I, se verifica que:
Pni
j=1 (yij
Son los residuos
i ) = 0
Esto implica que si conocemos el valor de n-I residuos, podemos encontrar

los restantes I residuos resolviendo las I ecuaciones anteriores.
As que, slo n-I residuos son independientes entre s.
Para estimar la varianza del error, consideraremos una modificacin de 2
por grados de libertad, es decir, dividiremos entre el nmero de residuos
independientes en lugar de entre el total de residuos.
15
Esto dar lugar a la varianza residual:
s2R
1
nI
PI
i=1
Pni
2
j=1 eij
Como ya sucedi en otras ocasiones, utilizaremos entonces la varianza
residual para estimar la varianza del error, que es una correccin de
2
por grados de libertad.
s2R
Dividimos entre (n-I) en
lugar de n
1
nI
1
nI
PI
i=1
PI
Pni
2
j=1 eij
i=1 (ni
1)Si2
Se trata de una media ponderada de las cuasivarianzas de cada grupo
16
Si2 =
1
ni 1
Pni
(y
)
y
ij
i
j=1
Cuasivarianza de y en el grupo i-simo
2
Se puede comprobar que sR =
2
insesgado para
17
1
nI
PI
i=1
Pni
2
e
j=1 ij s es un estimador
Propiedades de los estimadores
i N (i , 2 /ni )
Si conocisemos sigma, un Intervalo de Confianza con nivel de confianza

1-alpha, para la media del grupo i, vendra dado por:
Es el valor de una normal

estndar que deja a su
derecha una probabilidad
de magnitud: /2
18
i z/2 ni
Es el valor de una t de Student con ni-1 g.l. que deja

a su derecha una probabilidad de magnitud: /2
Pero es desconocido, as
que se sustituye por la raz
cuadrada de la cuasivarianza
de y en el grupo i y lo que se
obtiene es el siguiente
Intervalo de Confianza:
i t/2,ni 1 Sni i
Propiedades de los estimadores

s2R =
1
nI
Se verifica que:
2
(ni 1)S
i
2
PI
i=1 (ni
1)Si2
Pni
yi )2
j=1 (yij
2
2ni 1
La suma de variables aleatorias chi cuadrado sigue una distribucin chi

cuadrado con g.l igual a la suma de los g.l de cada componente en la suma
(nI)
s2R
2
19
(nI)
s2R
2
PI
PI
2
i=1 (ni 1)Si
2
2
i=1 (ni 1)Si
2
2nI
2PI
i=1 (ni 1)
PI
Son los
grados de
libertad (g.l.)
i=1 (ni
1) = n I
Objetivo: Comparar los grupos

Una vez estimadas las medias de grupo y la varianza del error, a partir
de los datos, podremos realizar comparaciones entre grupos.
20
Mtodo de Fischer
ANOVA
Los grupos se compararn a travs de sus medias de grupo, pero

tambin teniendo en cuenta su variabilidad.
Nos interesar, contrastar en primer lugar si existen diferencias

estadsticamente significativas entre las medias de grupo.
Si este contraste nos indica que s existen diferencias, entonces en

segundo lugar nos interesar saber qu par de medias (es decir, qu par
de grupos) se diferencian entre s
Comparacin de medias cuando hay

dos niveles
Si slo hay dos grupos podemos utilizar los intervalos de confianza y
contrastes de hiptesis para comparar las medias de dos poblaciones
normales.
Un estimador puntual de 1 2 y1 y2
2
N 1 2 , n1 +
Consideremos la hiptesis nula de igualdad de medias: H0
2
n2
Interesa contrastar la hiptesis nula H0 : 1 = 2

frente a la hiptesis alternativa H1 : 1 = 2
Estandarizando y bajo H0
d=
21
y1
y2
q
n1 + n1
1
N (0, 1)

dos niveles (contraste de hiptesis)
d=
y1
y2
q
n1 + n1
1
2 es
N (0, 1) bajo H0
ST2 =
desconocida
2 +(n2 1)S
2
(n1 1)S
1
2
n1 +n2 2
(Se estima utilizando una media ponderada de las

cuasivarianzas de y en el grupo 1 y 2)
Se verifica que:
t=
22
2
(n1 +n2 2)S
T
2
y
q
y2
1
1
1
T
S
n +n
1
2n1 +n2 2
tn1 +n2 2
yq
Si 1 1 2 1 > t/2,n1 +n2 2

ST n1 + n2
se rechaza la hiptesis nula H0
Comparacin de medias cuando hay dos

niveles (IC para la diferencia de medias)
y1 y2
d=
2
N 1 2 , n1 +
y2 )(1 2 )
(
y1
q
n1 + n1
1
t=
N (0, 1)
y2 )(1 2 )
(
y1
q
1
T
S
+ 1
n1
23
2
n2
n2
Adems,
2
(n1 +n2 2)S
T
2
2n1 +n2 2
tn1 +n2 2
Intervalo de confianza para 1 2 con nivel de confianza 1
(
y1 y1 ) t/2,n1 +n2 2 ST
1
n1
1
n2

ms de dos niveles
24
Mtodo de Fischer
ANOVA
Cuando existen ms de dos grupos, la comparacin de medias se

har a travs del anlisis de la varianza
Primero contrastaremos la hiptesis nula de igualdad de las I medias
frente a la alternativa de que al menos una de las medias difiere de las
dems. Esto lo haremos a travs de la tabla ANOVA (en la que
veremos cmo se descompone la variabilidad total de los datos y).
Si este contraste nos indica que debemos rechazar la hiptesis nula,
entonces trataremos de ver qu par de medias difieren entre s, a travs
de un contraste conjunto en el que simultneamente se contrastar la
igualdad de todos los pares posibles de medias.
Existen varios mtodos para llevar a cabo este contraste simultneo.
Aqu veremos el mtodo de Fischer o LSD (least square deviation).
Descomposicin de la variabilidad de
la variable dependiente y
VT =
PI
i=1
Pni
2
(y
)
ij
j=1
yi y )
(yij y ) = (yij yi ) + (
(La distancia entre la observacin yij de la media

global se descompone en la suma de lo que la
observacin yij dista de su media de grupo i + lo
que dista la media de grupo i de la media global.)
(elevamos al cuadrado)
(yij y )2 = (yij yi )2 + (
yi y )2 + 2(yij yi )(
yi y )
PI
(sumamos en i y en j)
i=1
25
Pni
PI
i=1
j=1 (yij
y ) =
PI
i=1
Pni
j=1 (yij
yi ) +
(el trmino cruzado se anula)
Pni
j=1 (yij
yi )(
yi y ) = 2
PI
i=1
Pni
yi
j=1 (
y )2
Pni
yi y ) j=1 (yij yi )
i=1 (
PI
yi ni yi = yi yi = 0
Descomposicin de la variabilidad de
la variable dependiente y
PI
i=1
Pni
j=1 (yij
y ) =
VT = variabilidad total
Ntese que:
s2R
1
nI
PI
i=1
Pni
PI
i=1
Pni
j=1 (yij
yi ) +
VNE= variabilidad no
explicada o residual,
tambin conocida como
variabilidad intra grupos
2
e
j=1 ij =
PI
i=1
Pni
yi
j=1 (
Tambin se puede demostrar que:
VE
E( I1
)
NE
E( VnI
) = 2
2
= +
y )2
VE = variabilidad
explicada por el modelo,
tambin conocida como
variabilidad entre grupos
V NE
nI
Anteriormente vimos que: E(

s2R ) = 2
26
PI
ni i2
I1
i=1
ANOVA. Contraste de hiptesis

Estamos interesados en contrastar la hiptesis nula de igualdad de
medias: H0 : 1 = . . . = I =
frente a la alternativa: H1 : j = k , para algn j, k {1, . . . , I}
i = + i
Esto es equivalente a contrastar: H0 : 1 = . . . = I = 0

frente a la alternativa: H1 : j = 0, para algn j {1, . . . , I}
Bajo H0 tenemos dos estimadores
insesgados de la varianza.
Sabemos que:
NE
E( VnI
) = 2
VE
E( I1
)
27
= +
Si H0 es falsa, se espera que

PI
2
i=1 ni i
I1
Es un trmino >=0
V E/(I1)
V N E/(nI)
>1
Adems, cuanto ms grande sea

este cociente, ms evidencia habr
de que H1 es cierta y no H0.

V E/(I1)
V N E/(nI)
>1
Cunto de grande debe ser este cociente para

rechazar H0? Si es ligeramente mayor que 1,
no rechazaremos H0.
Para responder a esta pregunta necesitamos conocer la distribucin de

este cociente bajo H0.
Ya que valores grandes nos dan evidencia de que H0 es falsa, la regin
de rechazo habr que buscarla en la cola derecha de la distribucin de
ese cociente (que es la cola de la distribucin correspondiente a valores
ms grandes).
Ya vimos que: s2R =
28
(nI)
s2R
2
PI
1
nI
2
i=1 (ni 1)Si
2
PI
i=1
Pni
2nI
2
e
j=1 ij =
V NE
nI
V NE
2
2nI

Bajo H0 se verifica que:
VE
2
2I1
Una distribucin F de Snedecor sabemos que se obtiene a partir de

distribuciones chi cuadrado del siguiente modo:
2n /n
Fn,m = 2 /m
m
s2e
VE
2 (I1)
V NE
2 (nI)
V E/(I1)
V N E/(nI)
FI1,nI
s2R
Hay que ver dnde cae este valor
FI1,nI
29
s2e
= 2
sR
si en la regin de rechazo o en la de aceptacin.
Regin de aceptacin Regin de rechazo

s2e
s2R
En base a este valor y su p-valor asociado, podremos

rechazar o no, la hiptesis nula de igualdad de medias.
El p-valor asociado al
test F
s2e
test F = 2
sR
es la probabilidad que
queda a la derecha de
ese valor.
La regin de
rechazo tiene
probabilidad
alpha
30
Regin de aceptacin
Regin de rechazo
Si es menor que alpha,

el test F cae en la
regin de rechazo, as
que rechazamos H0.
En caso contrario,
aceptamos H0. No hay
evidencia suficiente
para recharzarla.
Tabla ANOVA: descomposicin de la

variabilidad
Fuentes de
variacin
Suma de
Cuadrados
Grados de
Libertad
(SC)
(g.l.)
Variabilidad explicada PI Pni

(
yi y )2
j=1
i=1
= variabilidad entre
P
grupos
= Ii=1 ni (
yi y )2
Variabilidad no
explicada =
Variabilidad intra
grupos
Variabilidad total
31
PI
Pni
PI
Pni
i=1
i=1
i )2
j=1 (yij y
j=1 (yij
y )2
I-1
n-I
n-1
Varianza
(cuadrado
medio)
(SC/g.l.)
s2e
s2R
Sy2
Test F
FI1,nI
s2e
s2R
Si el p-valor asociado al
test F es pequeo, se
rechaza H0.
Un p-valor pequeo
significa que el test F ha
cado muy a la derecha,
en la cola derecha de la
distribucin, y por tanto
el F test ha salido muy
grande.
Mtodo de Fischer o LSD (Least

significative distance)
Hemos visto anteriormente, que
para hacer un contraste de la
igualdad de dos medias,
podamos utilizar:
t=
(
y1
y2 )(1 2 )
q
1
T
S
+ 1
n1
ST2 =
n2
tn1 +n2 2
2 +(n2 1)S
2
(n1 1)S
1
2
n1 +n2 2
En el caso de que existan ms de dos grupos, como estamos trabajando bajo la

hiptesis de que en todos los grupos la variabilidad es la misma, es decir estamos
suponiendo que tienen la misma varianza 2, podremos entonces, utilizar la
informacin contenida en los datos de todos los grupos para estimar esa varianza,
en vez de usar simplemente los datos de los dos grupos, cuyas medias queremos
comparar.
As que, en vez de utilizar ST2 , utilizaremos la varianza residual s2R , en la t de Student
(con n1+n2-2 g.l.) que nos permite realizar el contraste.
32
En esto consiste el mtodo de Fischer o LSD. La ventaja es que se realizan las comparaciones
dos a dos de modo simultneo y se consiguen detectar diferencias ms pequeas.
Volviendo al ejemplo introductorio

Observaciones (fortaleza de las 25 fibras
fabricadas)
% de
algodn
33
Total
Promedio
15%
15
11
49
9.8
20%
12
17
12
18
18
77
15.4
25%
14
18
18
19
19
88
17.6
30%
19
25
22
19
23
108
21.6
35%
10
11
15
11
54
10.8
376
15.04
Analicmoslo con el Statgraphics
Introduccin de datos
34
Medias por cada grupo

Son todas las medias iguales?
25
A la vista de este
grfico de medias,
se ve que las
medias difieren
unas de otras.
fortaleza
22
19
16
13
10
7
15
35
20
25
30
% de algodn
35
Usando un 30% de
algodn parece que
se fabrican las
mejores fibras, es
decir, las de mayor
fortaleza
Tabla ANOVA
s2R
Variabilidad explicada por el modelo, tambin conocida
como variabilidad entre grupos.
Variabilidad no explicada por el modelo, tambin
conocida como variabilidad intra grupos
36
Estadstico o test F
Se detectan diferencias significativas entre las medias.
Comparacin simultnea de cada par

de medias (mtodo de Fischer o LSD)
Los niveles de 15% y

35% de algodn no
son significativamente
distintos.
En cambio, s se han
detectado diferencias
entre los niveles de
15% y 35% de
algodn
37
Diagnosis: Normalidad
Para comprobar la suposicin de normalidad podemos utilizar la grfica de probabilidad normal de
los residuos.
Si la distribucin de los errores es normal, esta grfica parecer una lnea recta.
Pasos a seguir
porcentaje
Grfico de Probabilidad Normal
38
99,9
99
95
80
50
20
5
1
0,1
Los residuos se ajustan

bastante bien a una recta,
as que se puede
considerar que la hiptesis
de normalidad no se viola
-3,8
-1,8
0,2
2,2
RESIDUALS
4,2
6,2
1.
Despus de haber realizado el anlisis

ANOVA de un factor, en el botn de
guardar resultados, le pediremos que
nos guarde los residuos (RESIDUALS).
Aparecer en la hoja de datos una nueva
columna con los residuos.
2.
Vamos a hacer un anlisis

unidimensional de los residuos: Men
Descripcin>Datos Numricos>Anlisis
unidimensional y metemos los residuos
(RESIDUALS) en Datos.
3.
En las opciones grficas del anlisis

unidimensional pedimos que nos
represente el grfico de probabilidad
normal.
Diagnosis: Normalidad
La grfica de probabilidad normal es una representacin grfica de la
distribucin acumulada de los residuos sobre papel de probabilidad normal.
Cuando hablamos de papel de probabilidad normal nos referimos a aquel en

el que la escala de ordenadas (el eje Y) es tal que si representamos la
distribucin acumulada de una normal lo que obtenemos es una recta.
Para obtener la grfica de probabilidad normal, se ordenan los n residuos de

menor a mayor y se representa el k-simo residuo ordenado contra su punto
de probabilidad acumulada: (k-0.5)/n, en papel de probabilidad normal.
39
Este proceso lo hace directamente el Statgraphics siguiente los pasos

descritos en la pgina anterior.
Diagnosis: linealidad y homocedasticidad

El grfico de residuos versus predichos puede ayudarnos a detectar desviaciones
de las hiptesis de linealidad y homocedasticidad.
Grfico de Residuos para fortaleza

6
residuo
4
2
0
-2
Despus de haber realizado

el anlisis ANOVA de un
factor, en el botn de
opciones grficas,
seleccionaremos la opcin
Residuo frente a predicho
para que nos represente
dicho grfico.
-4
-6
9
40
12
15
18
21
fortaleza predicho
24
En este grfico no se observa ningn patrn

ni forma de embudo, por lo que se puede
considerar que los datos satisfacen las
hiptesis de linealidad y homocedasticidad.
Diagnosis: linealidad y homocedasticidad

Es tambin interesante graficar los residuos frente a los valores ajustados (o predicciones). En esta
grfica no se deben revelar patrones obvios que, en el caso de aparecer, indicaran que la
suposicin de linealidad no se satisface.
Esta grfica tambin sirve para detectar una violacin de la hiptesis de homocedasticidad (o
igualdad de varianzas). En ciertas ocasiones ocurre que la variabilidad de los datos aumenta a
medida que aumenta la magnitud del dato. Esto suele suceder en instrumentos de medicin, el
error del instrumento de medicin es proporcional a la escala de lectura. En situaciones como esta,
la grfica de residuos frente a predichos se ensanchar como un embudo hacia la derecha.
Cuando se viola la hiptesis de homogeneidad, el test F se ve slo ligeramente afectado cuando se
han tomado el mismo nmero de observaciones por grupo (es decir cuando estamos ante un diseo
balanceado: n1 = n2 = = nI).
Sin embargo, en diseos no balanceados, el problema es ms importante, y especialmente si una
de las varianzas es mucho mayor que el resto.
El problema de heterocedasticidad (distintas varianzas) se puede corregir transformando
adecuadamente los datos mediante un logaritmo o una potencia. La transformacin adecuada
depender de cada conjunto de datos particular.
41
Diagnosis: Independencia
Para comprobar la suposicin de independencia de los datos, es interesante graficar los
residuos frente al orden temporal en el que stos han sido recopilados.
Si en este grfico se detecta una tendencia a tener rachas con residuos positivos y
negativos, esto nos indicar que los datos no son independientes.
Si se han tomados los datos mediante un procedimiento de aleatorizacin (como ya se
coment al comienzo de esta presentacin, vase pg. 4), entonces es de esperar que
hayamos asegurado la independencia de las observaciones y que no se observen esas
rachas.
Supongamos que a medida que avanza el proceso la habilidad del experimentador o
experimentadores cambia a medida que el experimento se desarrolla (se hace ms errtico,
debido al cansancio, o por el contrario, se hace ms experto,por la experiencia adquirida).
En situaciones como esta puede suceder que la varianza de los datos cambie con el tiempo.
Este tipo de problema se puede detectar en el grfico de residuos frente al tiempo, porque
se ver cmo la dispersin de los residuos se hace mayor o menor a medida que el tiempo
transcurre.
42
Es muy importante evitar este tipo de problemsa en el momento de la recogida de datos (en
el momento de la experimentacin). El anlisis de la varianza es vlido si, entre otros
supuestos, se cumple el de varianza constante e independencia.

Anova PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Anova PDF

Cargado por

Copyright:

Formatos disponibles

Diseo de experimentos: ANOVA

Elisa M Molanes Lpez

Ante esta situacin, el ingeniero decide tomar cinco muestras para

Estos datos suman 49

Media global de las

Lo que obtiene se puede resumir en la siguiente tabla:

Suma total de los 25 valores de fortaleza obtenidos

Si aleatorizamos la fabricacin de las 25 fibras, se espera que este efecto est

Analysis Of Variance (ANOVA)

El punto significa que sumamos sobre

Lo que se desva la media

Es el error aleatorio. Lo que se desva

i = + i Media de y en el grupo i-simo

Hiptesis del modelo

Ms adelante veremos con un ejemplo, cmo comprobar que los

Estimacin del modelo

Para maximizar ln(L), derivamos con respecto a los I+1 parmetros

Estimacin por mxima verosimilitud

Estos parmetros del

La funcin de verosimilitud es: L(1 , . . . , I , ) =

es la funcin de densidad de una normal con media i y varianza 2

Estimacin por mxima verosimilitud

Cada media de grupo se estima mediante la media muestral

Este estimador de la varianza presenta

Un buen estimador de la varianza debera ser insesgado, i.e. debera

Pero antes de ello, definiremos los residuos y veremos cmo expresar

(Se sustituye por su estimacin)

Estos residuos miden la variabilidad de y no explicada por el modelo.

Adems, sucede que:

2 es la varianza de los residuos

Son los residuos

Esto implica que si conocemos el valor de n-I residuos, podemos encontrar

Esto dar lugar a la varianza residual:

Se trata de una media ponderada de las cuasivarianzas de cada grupo

Cuasivarianza de y en el grupo i-simo

Propiedades de los estimadores

Si conocisemos sigma, un Intervalo de Confianza con nivel de confianza

Es el valor de una normal

Es el valor de una t de Student con ni-1 g.l. que deja

Propiedades de los estimadores

La suma de variables aleatorias chi cuadrado sigue una distribucin chi

Objetivo: Comparar los grupos

Los grupos se compararn a travs de sus medias de grupo, pero

Nos interesar, contrastar en primer lugar si existen diferencias

Si este contraste nos indica que s existen diferencias, entonces en

Comparacin de medias cuando hay

Consideremos la hiptesis nula de igualdad de medias: H0

Interesa contrastar la hiptesis nula H0 : 1 = 2

Comparacin de medias cuando hay

(Se estima utilizando una media ponderada de las

Si 1 1 2 1 > t/2,n1 +n2 2

Comparacin de medias cuando hay dos

Intervalo de confianza para 1 2 con nivel de confianza 1

Comparacin de medias cuando hay

Cuando existen ms de dos grupos, la comparacin de medias se

(La distancia entre la observacin yij de la media

(el trmino cruzado se anula)

Tambin se puede demostrar que:

Anteriormente vimos que: E(

ANOVA. Contraste de hiptesis

Esto es equivalente a contrastar: H0 : 1 = . . . = I = 0

Si H0 es falsa, se espera que

Adems, cuanto ms grande sea