Está en la página 1de 42

Diseo de experimentos: ANOVA

Elisa M Molanes Lpez

Un ejemplo introductorio
Un ingeniero de desarrollo de productos desea maximizar la resistencia a
la tensin de una nueva fibra sinttica que se utilizar para fabricar camisas.
Por experiencia, parece que la resistencia (o fortaleza) se ve influida por el
% de algodn presente en la fibra.
Tambin se sospecha que valores elevados de % de algodn repercuten
negativamente en otras cualidades de calidad que se desean (por ej. que la
fibra pueda recibir un tratamiento de planchado permanente).

Ante esta situacin, el ingeniero decide tomar cinco muestras para


diferentes niveles de % de algodn y medir la fortaleza de las fibras as
producidas.

Estos datos suman 49


y su media es 9.8

Un ejemplo introductorio

Media global de las


25 observaciones

Lo que obtiene se puede resumir en la siguiente tabla:


Observaciones (fortaleza de las 25 fibras
fabricadas)
% de
algodn

Total

Promedio

15%

15

11

49

9.8

20%

12

17

12

18

18

77

15.4

25%

14

18

18

19

19

88

17.6

30%

19

25

22

19

23

108

21.6

35%

10

11

15

11

54

10.8

376

15.04

Suma total de los 25 valores de fortaleza obtenidos

Un ejemplo introductorio
A la hora de fabricar las 25 fibras anteriores se debe seguir una secuencia
aleatorizada.
Esta aleatorizacin en la secuencia de fabricacin es necesaria para evitar que los
datos observados (la fortaleza de los tejidos), sean contaminados por el efecto de
otras variables que no conocemos y por tanto no podemos controlar.
Supongamos que se fabrican las 25 fibras sin un mecanismo aleatorizado, es decir,
siguiento el orden original (primero se fabrican las 5 fibras con un 15 % de algodn,
luego las 5 fibras con un 20% de algodn, y as sucesivamente).
En esta situacin, si la mquina que mide la fortaleza de la fibra presentase un
efecto de calentamiento de modo que a mayor tiempo de funcionamiento diese
menores lecturas de resistencia, entonces los datos se contaminaran. Por ese efecto
de calentamiento, la fortaleza de las fibras fabricadas con un 35% de algodn
resultaran negativamente muy contaminadas. No pasara lo mismo con las fabricadas
con un 15% de algodn.

Si aleatorizamos la fabricacin de las 25 fibras, se espera que este efecto est


presente por igual en todos los % de algodn, de modo que las comparaciones entre
los distintos niveles siguen siendo vlidos.

Un ejemplo introductorio
El anlisis de la varianza nos ayudar a responder las siguientes
cuestiones:
Influye el % de algodn en la fortaleza de la fibra fabricada?
Si es as, qu niveles de % de algodn son similares y
cules no?

Analysis Of Variance (ANOVA)


En general, tendremos:
Observaciones
(variable dependiente de inters, y)
Factor

Total

Promedio

Nivel o
grupo 1

y11

y12

y1n1

y1

y1

Nivel 2

y21

y22

y2n2

y2

y2

Nivel Isimo

yI1

yI2

yInI

yI

yI
y

Notacin
yij se refiere a la observacin j-sima de la variable y (fortaleza) en el
grupo i-simo del factor (% de algodn).

yi =
yi =

Pni

j=1 yij

yi
ni

El punto significa que sumamos sobre


el ndice que sustituye.
Es la suma de las ni observaciones
del grupo i

Es la media de la ni observaciones
del grupo i

n1 + n2 + . . . + nI = n

y =
y =

PI

i=1

Pni

j=1

y
n1 +n2 +...+nI

yij

El modelo terico
Las observaciones se describen segn el siguiente modelo lineal:

yij = + i + uij
Es la media global de y

Lo que se desva la media


de y en el grupo i-simo con
respecto a la media global
de y

Es el error aleatorio. Lo que se desva


la observacin yij de su media de
grupo. Es la pertubacin debida al
error experimental

i = + i Media de y en el grupo i-simo

Hiptesis del modelo


Los errores del modelo son variables aleatorias con distribucin
normal, de media cero y varianza 2
Esta varianza se supone constante para todos los niveles (o grupos)
del factor
Es importante comprobar que estas hiptesis se verifican para poder
sacar conclusiones fiables a partir de un anlisis de la varianza.

Ms adelante veremos con un ejemplo, cmo comprobar que los


datos cumplen las hiptesis del modelo.

Estimacin del modelo


En el modelo terico existen ciertos parmetros desconocidos que
estimaremos utilizando los datos observados.
Existen I+1 parmetros desconocidos, las I medias de grupo y la
varianza del error experimental.
Para estimar estos parmetros utilizaremos el mtodo de mxima
verosimilitud.
Para ello, primero necesitamos definir la funcin de verosimilitud L y
maximizarla.
Maximizar L ser equivalente a maximizar el logaritmo neperiano de L,
ln(L).

10

Para maximizar ln(L), derivamos con respecto a los I+1 parmetros


desconocidos, igualamos a cero las I+1 derivadas que obtenemos y
resolvemos el sistema de I+1 ecuaciones que resulta (en este sistema las
incgnitas son los parmetros desconocidos del modelo).

Estimacin por mxima verosimilitud


En base a las hiptesis del modelo se verifica que:

yij = + i + uij

Estos parmetros del


modelo se suponen fijos,
y por tanto, no aleatorios

yij N (i , 2 )

uij N (0, 2 )

La funcin de verosimilitud es: L(1 , . . . , I , ) =

donde:

f (yij ) =

11

1
2 2

exp

(yij i )2
22

QI

i=1

Qni

j=1

f (yij )

es la funcin de densidad de una normal con media i y varianza 2

Estimacin por mxima verosimilitud


Derivamos el logaritmo de L con respecto a los parmetros desconocidos
e igualamos a cero dichas derivadas.
2

ln(L(1 , . . . , I , )) =
ln(L(1 ,...,I , 2 ))
i

=0

i = yi
ln(L(
1 ,...,
I , 2 ))
2

12

n +

1
2

n2

i=1

1
2 2

PI

Pni

2
ln(2 )
i=1
j=1 (yij i )
Pni
ni
1
(y

)
=
yi i ) = 0
2
ij
i
j=1

2 (

Cada media de grupo se estima mediante la media muestral


de las observaciones y obtenidas en ese grupo

n
2 2

=0

PI

Pni

j=1 (yij

+
2

1
2(2 )2

i ) = 0

PI

i=1

Pni

j=1 (yij

PI

i=1

i ) = 0
Pni

i )2
j=1 (yij
n

Estimacin de la varianza
2

PI

i=1

Pni

i )2
j=1 (yij
n

Este estimador de la varianza presenta


un problema. Se trata de un estimador
sesgado.

Un buen estimador de la varianza debera ser insesgado, i.e. debera


verificar que su media fuese igual a la varianza (el parmetro que
estima). Sin embargo sucede que:

E(
2 ) = 2
Buscaremos otro estimador de la varianza que sea insesgado.

13

Pero antes de ello, definiremos los residuos y veremos cmo expresar


2
en funcin de los residuos.

Estimacin de la varianza
De acuerdo con el modelo: uij = yij i

(Se sustituye por su estimacin)

ij = yij
i
As que podemos estimar los errores mediante: u
A estas estimaciones de los errores o perturbaciones del modelo, se les
llama residuos y los denotaremos por eij

eij = u
ij = yij yi

Estos residuos miden la variabilidad de y no explicada por el modelo.


2

Adems, sucede que:

e =
=

14

1
n

PI

i=1
1 PI
i=1
n

Pni

j=1 ei

=
1
n

PI

(yi ni yi ) =

i=1
1
n

1
n

PI

i=1

Pni

PI

Pni

j=1 (yij

i=1

2
j=1 eij

yi )

(yi yi ) = 0

1
n

PI

i=1

P ni

j=1 (eij

e)2

2 es la varianza de los residuos

Estimacin de la varianza
Los residuos no son todos independientes entre s.
Ntese que los residuos satisfacen las I ecuaciones (vase pg. 12)
que nos permitieron obtener estimadores para la media de cada
grupo, i.e: Para cada i=1,,I, se verifica que:

Pni

j=1 (yij

Son los residuos

i ) = 0

Esto implica que si conocemos el valor de n-I residuos, podemos encontrar


los restantes I residuos resolviendo las I ecuaciones anteriores.
As que, slo n-I residuos son independientes entre s.
Para estimar la varianza del error, consideraremos una modificacin de 2
por grados de libertad, es decir, dividiremos entre el nmero de residuos
independientes en lugar de entre el total de residuos.

15

Esto dar lugar a la varianza residual:

s2R

1
nI

PI

i=1

Pni

2
j=1 eij

Estimacin de la varianza
Como ya sucedi en otras ocasiones, utilizaremos entonces la varianza
residual para estimar la varianza del error, que es una correccin de
2
por grados de libertad.

s2R
Dividimos entre (n-I) en
lugar de n

1
nI

1
nI

PI

i=1

PI

Pni

2
j=1 eij

i=1 (ni

1)Si2

Se trata de una media ponderada de las cuasivarianzas de cada grupo

16

Si2 =

1
ni 1

Pni

(y
)
y

ij
i
j=1

Cuasivarianza de y en el grupo i-simo

Estimacin de la varianza
2
Se puede comprobar que sR =
2
insesgado para

17

1
nI

PI

i=1

Pni

2
e
j=1 ij s es un estimador

Propiedades de los estimadores

i N (i , 2 /ni )

Si conocisemos sigma, un Intervalo de Confianza con nivel de confianza


1-alpha, para la media del grupo i, vendra dado por:

Es el valor de una normal


estndar que deja a su
derecha una probabilidad
de magnitud: /2

18

i z/2 ni

Es el valor de una t de Student con ni-1 g.l. que deja


a su derecha una probabilidad de magnitud: /2

Pero es desconocido, as
que se sustituye por la raz
cuadrada de la cuasivarianza
de y en el grupo i y lo que se
obtiene es el siguiente
Intervalo de Confianza:

i t/2,ni 1 Sni i

Propiedades de los estimadores


s2R =

1
nI

Se verifica que:
2
(ni 1)S
i
2

PI

i=1 (ni

1)Si2

Pni

yi )2
j=1 (yij
2

2ni 1

La suma de variables aleatorias chi cuadrado sigue una distribucin chi


cuadrado con g.l igual a la suma de los g.l de cada componente en la suma

(nI)
s2R
2

19

(nI)
s2R
2

PI

PI

2
i=1 (ni 1)Si
2

2
i=1 (ni 1)Si
2

2nI

2PI

i=1 (ni 1)

PI

Son los
grados de
libertad (g.l.)

i=1 (ni

1) = n I

Objetivo: Comparar los grupos


Una vez estimadas las medias de grupo y la varianza del error, a partir
de los datos, podremos realizar comparaciones entre grupos.

20

Mtodo de Fischer

ANOVA

Los grupos se compararn a travs de sus medias de grupo, pero


tambin teniendo en cuenta su variabilidad.

Nos interesar, contrastar en primer lugar si existen diferencias


estadsticamente significativas entre las medias de grupo.

Si este contraste nos indica que s existen diferencias, entonces en


segundo lugar nos interesar saber qu par de medias (es decir, qu par
de grupos) se diferencian entre s

Comparacin de medias cuando hay


dos niveles
Si slo hay dos grupos podemos utilizar los intervalos de confianza y
contrastes de hiptesis para comparar las medias de dos poblaciones
normales.
Un estimador puntual de 1 2 y1 y2

2
N 1 2 , n1 +

Consideremos la hiptesis nula de igualdad de medias: H0

2
n2

Interesa contrastar la hiptesis nula H0 : 1 = 2


frente a la hiptesis alternativa H1 : 1 = 2
Estandarizando y bajo H0

d=

21

y1
y2
q
n1 + n1
1

N (0, 1)

Comparacin de medias cuando hay


dos niveles (contraste de hiptesis)
d=

y1
y2
q
n1 + n1
1

2 es

N (0, 1) bajo H0
ST2 =

desconocida

2 +(n2 1)S
2
(n1 1)S
1
2
n1 +n2 2

(Se estima utilizando una media ponderada de las


cuasivarianzas de y en el grupo 1 y 2)

Se verifica que:

t=

22

2
(n1 +n2 2)S
T
2

y
q
y2
1
1
1
T
S
n +n
1

2n1 +n2 2

tn1 +n2 2

yq

Si 1 1 2 1 > t/2,n1 +n2 2


ST n1 + n2
se rechaza la hiptesis nula H0

Comparacin de medias cuando hay dos


niveles (IC para la diferencia de medias)
y1 y2

d=

2
N 1 2 , n1 +

y2 )(1 2 )
(
y1
q
n1 + n1
1

t=

N (0, 1)

y2 )(1 2 )
(
y1
q
1
T
S
+ 1
n1

23

2
n2

n2

Adems,

2
(n1 +n2 2)S
T
2

2n1 +n2 2

tn1 +n2 2

Intervalo de confianza para 1 2 con nivel de confianza 1

(
y1 y1 ) t/2,n1 +n2 2 ST

1
n1

1
n2

Comparacin de medias cuando hay


ms de dos niveles

24

Mtodo de Fischer

ANOVA

Cuando existen ms de dos grupos, la comparacin de medias se


har a travs del anlisis de la varianza
Primero contrastaremos la hiptesis nula de igualdad de las I medias
frente a la alternativa de que al menos una de las medias difiere de las
dems. Esto lo haremos a travs de la tabla ANOVA (en la que
veremos cmo se descompone la variabilidad total de los datos y).
Si este contraste nos indica que debemos rechazar la hiptesis nula,
entonces trataremos de ver qu par de medias difieren entre s, a travs
de un contraste conjunto en el que simultneamente se contrastar la
igualdad de todos los pares posibles de medias.
Existen varios mtodos para llevar a cabo este contraste simultneo.
Aqu veremos el mtodo de Fischer o LSD (least square deviation).

Descomposicin de la variabilidad de
la variable dependiente y
VT =

PI

i=1

Pni

2
(y

)
ij

j=1

yi y )
(yij y ) = (yij yi ) + (

(La distancia entre la observacin yij de la media


global se descompone en la suma de lo que la
observacin yij dista de su media de grupo i + lo
que dista la media de grupo i de la media global.)

(elevamos al cuadrado)

(yij y )2 = (yij yi )2 + (
yi y )2 + 2(yij yi )(
yi y )
PI

(sumamos en i y en j)

i=1

25

Pni

PI

i=1

j=1 (yij

y ) =

PI

i=1

Pni

j=1 (yij

yi ) +

(el trmino cruzado se anula)

Pni

j=1 (yij

yi )(
yi y ) = 2

PI

i=1

Pni

yi
j=1 (

y )2

Pni
yi y ) j=1 (yij yi )
i=1 (

PI

yi ni yi = yi yi = 0

Descomposicin de la variabilidad de
la variable dependiente y
PI

i=1

Pni

j=1 (yij

y ) =

VT = variabilidad total

Ntese que:

s2R

1
nI

PI

i=1

Pni

PI

i=1

Pni

j=1 (yij

yi ) +

VNE= variabilidad no
explicada o residual,
tambin conocida como
variabilidad intra grupos

2
e
j=1 ij =

PI

i=1

Pni

yi
j=1 (

Tambin se puede demostrar que:

VE
E( I1
)

NE
E( VnI
) = 2
2

= +

y )2

VE = variabilidad
explicada por el modelo,
tambin conocida como
variabilidad entre grupos

V NE
nI

Anteriormente vimos que: E(


s2R ) = 2

26

PI

ni i2
I1

i=1

ANOVA. Contraste de hiptesis


Estamos interesados en contrastar la hiptesis nula de igualdad de
medias: H0 : 1 = . . . = I =
frente a la alternativa: H1 : j = k , para algn j, k {1, . . . , I}

i = + i

Esto es equivalente a contrastar: H0 : 1 = . . . = I = 0


frente a la alternativa: H1 : j = 0, para algn j {1, . . . , I}
Bajo H0 tenemos dos estimadores
insesgados de la varianza.

Sabemos que:
NE
E( VnI
) = 2
VE
E( I1
)

27

= +

Si H0 es falsa, se espera que


PI

2
i=1 ni i

I1

Es un trmino >=0

V E/(I1)
V N E/(nI)

>1

Adems, cuanto ms grande sea


este cociente, ms evidencia habr
de que H1 es cierta y no H0.

ANOVA. Contraste de hiptesis


V E/(I1)
V N E/(nI)

>1

Cunto de grande debe ser este cociente para


rechazar H0? Si es ligeramente mayor que 1,
no rechazaremos H0.

Para responder a esta pregunta necesitamos conocer la distribucin de


este cociente bajo H0.
Ya que valores grandes nos dan evidencia de que H0 es falsa, la regin
de rechazo habr que buscarla en la cola derecha de la distribucin de
ese cociente (que es la cola de la distribucin correspondiente a valores
ms grandes).
Ya vimos que: s2R =

28

(nI)
s2R
2

PI

1
nI

2
i=1 (ni 1)Si
2

PI

i=1

Pni

2nI

2
e
j=1 ij =

V NE
nI
V NE
2

2nI

ANOVA. Contraste de hiptesis


Bajo H0 se verifica que:

VE
2

2I1

Una distribucin F de Snedecor sabemos que se obtiene a partir de


distribuciones chi cuadrado del siguiente modo:
2n /n
Fn,m = 2 /m
m

s2e
VE
2 (I1)
V NE
2 (nI)

V E/(I1)
V N E/(nI)

FI1,nI

s2R
Hay que ver dnde cae este valor

FI1,nI

29

s2e
= 2
sR

si en la regin de rechazo o en la de aceptacin.

Regin de aceptacin Regin de rechazo

ANOVA. Contraste de hiptesis


s2e
s2R

En base a este valor y su p-valor asociado, podremos


rechazar o no, la hiptesis nula de igualdad de medias.
El p-valor asociado al
test F
s2e
test F = 2
sR
es la probabilidad que
queda a la derecha de
ese valor.

La regin de
rechazo tiene
probabilidad
alpha

30

Regin de aceptacin

Regin de rechazo

Si es menor que alpha,


el test F cae en la
regin de rechazo, as
que rechazamos H0.
En caso contrario,
aceptamos H0. No hay
evidencia suficiente
para recharzarla.

Tabla ANOVA: descomposicin de la


variabilidad

Fuentes de
variacin

Suma de
Cuadrados

Grados de
Libertad

(SC)

(g.l.)

Variabilidad explicada PI Pni


(
yi y )2
j=1
i=1
= variabilidad entre
P
grupos
= Ii=1 ni (
yi y )2
Variabilidad no
explicada =
Variabilidad intra
grupos

Variabilidad total

31

PI

Pni

PI

Pni

i=1

i=1

i )2
j=1 (yij y

j=1 (yij

y )2

I-1

n-I

n-1

Varianza
(cuadrado
medio)

(SC/g.l.)

s2e
s2R
Sy2

Test F

FI1,nI

s2e
s2R
Si el p-valor asociado al
test F es pequeo, se
rechaza H0.
Un p-valor pequeo
significa que el test F ha
cado muy a la derecha,
en la cola derecha de la
distribucin, y por tanto
el F test ha salido muy
grande.

Mtodo de Fischer o LSD (Least


significative distance)
Hemos visto anteriormente, que
para hacer un contraste de la
igualdad de dos medias,
podamos utilizar:

t=

(
y1
y2 )(1 2 )
q
1
T
S
+ 1
n1

ST2 =

n2

tn1 +n2 2

2 +(n2 1)S
2
(n1 1)S
1
2
n1 +n2 2

En el caso de que existan ms de dos grupos, como estamos trabajando bajo la


hiptesis de que en todos los grupos la variabilidad es la misma, es decir estamos
suponiendo que tienen la misma varianza 2, podremos entonces, utilizar la
informacin contenida en los datos de todos los grupos para estimar esa varianza,
en vez de usar simplemente los datos de los dos grupos, cuyas medias queremos
comparar.
As que, en vez de utilizar ST2 , utilizaremos la varianza residual s2R , en la t de Student
(con n1+n2-2 g.l.) que nos permite realizar el contraste.

32

En esto consiste el mtodo de Fischer o LSD. La ventaja es que se realizan las comparaciones
dos a dos de modo simultneo y se consiguen detectar diferencias ms pequeas.

Volviendo al ejemplo introductorio


Observaciones (fortaleza de las 25 fibras
fabricadas)
% de
algodn

33

Total

Promedio

15%

15

11

49

9.8

20%

12

17

12

18

18

77

15.4

25%

14

18

18

19

19

88

17.6

30%

19

25

22

19

23

108

21.6

35%

10

11

15

11

54

10.8

376

15.04

Analicmoslo con el Statgraphics

Introduccin de datos

34

Medias por cada grupo


Son todas las medias iguales?
25

A la vista de este
grfico de medias,
se ve que las
medias difieren
unas de otras.

fortaleza

22
19
16
13
10
7
15

35

20

25

30

% de algodn

35

Usando un 30% de
algodn parece que
se fabrican las
mejores fibras, es
decir, las de mayor
fortaleza

Tabla ANOVA

s2R
Variabilidad explicada por el modelo, tambin conocida
como variabilidad entre grupos.
Variabilidad no explicada por el modelo, tambin
conocida como variabilidad intra grupos

36

Estadstico o test F

Se detectan diferencias significativas entre las medias.

Comparacin simultnea de cada par


de medias (mtodo de Fischer o LSD)

Los niveles de 15% y


35% de algodn no
son significativamente
distintos.

En cambio, s se han
detectado diferencias
entre los niveles de
15% y 35% de
algodn

37

Diagnosis: Normalidad
Para comprobar la suposicin de normalidad podemos utilizar la grfica de probabilidad normal de
los residuos.
Si la distribucin de los errores es normal, esta grfica parecer una lnea recta.
Pasos a seguir

porcentaje

Grfico de Probabilidad Normal

38

99,9
99
95
80
50
20
5
1
0,1

Los residuos se ajustan


bastante bien a una recta,
as que se puede
considerar que la hiptesis
de normalidad no se viola

-3,8

-1,8

0,2

2,2

RESIDUALS

4,2

6,2

1.

Despus de haber realizado el anlisis


ANOVA de un factor, en el botn de
guardar resultados, le pediremos que
nos guarde los residuos (RESIDUALS).
Aparecer en la hoja de datos una nueva
columna con los residuos.

2.

Vamos a hacer un anlisis


unidimensional de los residuos: Men
Descripcin>Datos Numricos>Anlisis
unidimensional y metemos los residuos
(RESIDUALS) en Datos.

3.

En las opciones grficas del anlisis


unidimensional pedimos que nos
represente el grfico de probabilidad
normal.

Diagnosis: Normalidad
La grfica de probabilidad normal es una representacin grfica de la
distribucin acumulada de los residuos sobre papel de probabilidad normal.

Cuando hablamos de papel de probabilidad normal nos referimos a aquel en


el que la escala de ordenadas (el eje Y) es tal que si representamos la
distribucin acumulada de una normal lo que obtenemos es una recta.

Para obtener la grfica de probabilidad normal, se ordenan los n residuos de


menor a mayor y se representa el k-simo residuo ordenado contra su punto
de probabilidad acumulada: (k-0.5)/n, en papel de probabilidad normal.

39

Este proceso lo hace directamente el Statgraphics siguiente los pasos


descritos en la pgina anterior.

Diagnosis: linealidad y homocedasticidad


El grfico de residuos versus predichos puede ayudarnos a detectar desviaciones
de las hiptesis de linealidad y homocedasticidad.

Grfico de Residuos para fortaleza


6

residuo

4
2
0
-2

Despus de haber realizado


el anlisis ANOVA de un
factor, en el botn de
opciones grficas,
seleccionaremos la opcin
Residuo frente a predicho
para que nos represente
dicho grfico.

-4
-6
9

40

12

15

18

21

fortaleza predicho

24

En este grfico no se observa ningn patrn


ni forma de embudo, por lo que se puede
considerar que los datos satisfacen las
hiptesis de linealidad y homocedasticidad.

Diagnosis: linealidad y homocedasticidad


Es tambin interesante graficar los residuos frente a los valores ajustados (o predicciones). En esta
grfica no se deben revelar patrones obvios que, en el caso de aparecer, indicaran que la
suposicin de linealidad no se satisface.
Esta grfica tambin sirve para detectar una violacin de la hiptesis de homocedasticidad (o
igualdad de varianzas). En ciertas ocasiones ocurre que la variabilidad de los datos aumenta a
medida que aumenta la magnitud del dato. Esto suele suceder en instrumentos de medicin, el
error del instrumento de medicin es proporcional a la escala de lectura. En situaciones como esta,
la grfica de residuos frente a predichos se ensanchar como un embudo hacia la derecha.
Cuando se viola la hiptesis de homogeneidad, el test F se ve slo ligeramente afectado cuando se
han tomado el mismo nmero de observaciones por grupo (es decir cuando estamos ante un diseo
balanceado: n1 = n2 = = nI).
Sin embargo, en diseos no balanceados, el problema es ms importante, y especialmente si una
de las varianzas es mucho mayor que el resto.
El problema de heterocedasticidad (distintas varianzas) se puede corregir transformando
adecuadamente los datos mediante un logaritmo o una potencia. La transformacin adecuada
depender de cada conjunto de datos particular.

41

Diagnosis: Independencia
Para comprobar la suposicin de independencia de los datos, es interesante graficar los
residuos frente al orden temporal en el que stos han sido recopilados.
Si en este grfico se detecta una tendencia a tener rachas con residuos positivos y
negativos, esto nos indicar que los datos no son independientes.
Si se han tomados los datos mediante un procedimiento de aleatorizacin (como ya se
coment al comienzo de esta presentacin, vase pg. 4), entonces es de esperar que
hayamos asegurado la independencia de las observaciones y que no se observen esas
rachas.
Supongamos que a medida que avanza el proceso la habilidad del experimentador o
experimentadores cambia a medida que el experimento se desarrolla (se hace ms errtico,
debido al cansancio, o por el contrario, se hace ms experto,por la experiencia adquirida).
En situaciones como esta puede suceder que la varianza de los datos cambie con el tiempo.
Este tipo de problema se puede detectar en el grfico de residuos frente al tiempo, porque
se ver cmo la dispersin de los residuos se hace mayor o menor a medida que el tiempo
transcurre.

42

Es muy importante evitar este tipo de problemsa en el momento de la recogida de datos (en
el momento de la experimentacin). El anlisis de la varianza es vlido si, entre otros
supuestos, se cumple el de varianza constante e independencia.

También podría gustarte