Está en la página 1de 20

-1-

T1
x11
!
x1n1

T2
x21
!
x2n2

Tr
xr1
"
!
x rnr

INTRODUCCIN AL
ANLISIS DE LA VARIANZA

Jos Luis Vicente Villardn


Departamento de Estadstica

-2-

ANALISIS DE LA VARIANZA
DISEO DE UNA VIA
Disponemos de r poblaciones, generalmente correspondientes a r
tratamientos experimentales. Cada uno de los tratamientos Ti, (i=1,
, r) se supone que tiene distribucin normal con media i y
varianza 2, comn a todos ellos, es decir se trata de poblaciones
normales y homoscedsticas. De cada una de las poblaciones (o
tratamientos), tomamos una muestra de tamao ni.
Las observaciones obtenidas se pueden recoger en una tabla de la
forma

T1
x11
!
x1n1

T2
x21
!
x2n2

Tr
xr1
"
!
x rnr

es decir xij es la observacin j del grupo experimental i.


Llamaos x1,, xr a las medias muestrales de los grupos y
media de todas las observaciones.

a la

Cuando se trata de un experimento diseado, es decir, cuando se


trata de la aplicacin de r tratamientos a un conjunto de unidades
experimentales, estas deben seleccionarse para que sean
homogneas, de forma que no se introduzcan factores de variacin
distintos del que se desea controlar. La asignacin de los
tratamientos a cada una de las unidades debe hacerse al azar. Es lo
que se conoce como diseo completamente al azar.
El modelo matemtico subyacente a este tipo de diseo es

-3-

xij = i + ! ij
xij = + ( i " ) + ! ij
xij = + # i + !ij
donde i = + ! i es la cantidad que depende del tratamiento
usado (descompuesta en una media global y un efecto del
tratamiento) y !ij es la cantidad que depende solamente de la
unidad experimental y que se identifica con el error experimental.
La hiptesis de que los distintos tratamientos no producen ningn
efecto (o la de que las medias de todas las poblaciones son iguales)
se contrasta mediante el anlisis de la varianza de una va,
comparando la variabilidad entre grupos con la variabilidad dentro
de los grupos.

H0 : 1 = = r =
Ha : !i, j / i " j
El anlisis de la varianza se basa en la descomposicin de la
variabilidad total en dos partes, una parte debida a la variabilidad
entre las distintas poblaciones o tratamientos (variabilidad entre
grupos o variabilidad explicada por el diseo) y otra parte que
puede considerarse como la variabilidad intrnseca de las
observaciones (variabilidad dentro de los grupos o residual).

Q = QE + QR
La variabilidad entre grupos

QE = " ni ( xi ! x ) 2
i=1

mide la discrepancia entre los grupos y la media global, de forma


que si no hay diferencias entre ellos (la hiptesis nula es cierta)
obtendremos variabilidades pequeas. Si, por el contrario, la

-4-

hiptesis nula es falsa, cabe esperar que la variabilidad entre grupos


sea grande.
La variabilidad dentro de los grupos

ni

QR = " " ( xij ! xi )2


i=1 j=1

mide la variabilidad intrnseca de las observaciones, es decir, si el


experimento est bien diseado y no se incluyen factores de
variacin distintos al estudiado, debe ser error puramente aleatorio
producido como resultado de la variabilidad biolgica del material
experimental.
El contraste del Anlisis de la varianza se basa en la comparacin de
la variabilidad entre y la variabilidad dentro, rechazaremos la
hiptesis nula siempre que la variabilidad entre sea grande, pero
utilizando como patrn de comparacin la variabilidad dentro. Es
decir, aceptaremos un efecto de los tratamientos siempre que estos
produzcan mayores diferencias en las unidades experimentales que
las que habra sin la aplicacin de los mismos.
Antes de proceder a la comparacin hemos de dividir las sumas de
cuadrados por sus correspondientes grados de libertad,
relacionados con el nmero de observaciones con las que se realiza
el clculo.
De esta forma obtenemos los cuadrados medios o estimadores de las
variabilidades.
La informacin completa se resume en la tabla siguiente. Es la que
se conoce como tabla de ANOVA y resume toda la informacin
necesaria para realizar el correspondiente contraste.

-5-

Fuente
Entre

Residua
l
Total

Suma de cuadrados
r
QE = " ni ( xi ! x ) 2
i=1

ni

QR = " " ( xij ! xi )

g.l.
r-1

Estimador Fexp
Q
SE2 = E F =
exp

r !1

n-r

SR2 =

i=1 j=1

ni

Q = " " ( xij ! x )

SE2
S2R

QR
n!r

n-1

i=1 j=1

El cociente entre la variabilidad entre y la variabilidad dentro,


una vez que se han hecho comparables, sigue una distribucin F de
Snedecor con r-1 y n-r grados de libertad. La distribucin nos sirve
para buscar el valor a partir del cual el cociente es lo suficientemente
grande como para declarar las diferencias entre grupos
estadsticamente significativas.
Los estimadores de los efectos de los tratamientos se estiman a
partir de

! i = i " = xi " x
y la parte propia de cada observacin (o residual)

!ij = xij " " # i = xij " xi


Los residuales pueden servirnos para la validacin de las hiptesis
bsicas.
Recurdese que, en realidad, un anlisis de la varianza de una va es
equivalente a un modelo de regresin en el que solo aparece una
regresora cualitativa con r categoras (mediante las correspondientes
variables ficticias). La validacin de las hiptesis bsicas puede

-6-

hacerse entonces de la misma manera que en un modelo re


regresin, utilizando grficos de residuales.

COMPARACIONES POR PAREJAS


Una vez determinada la significacin de las diferencias
procederemos a la comparacin de los tratamientos por parejas, es
decir, a contrastar la hiptesis

H 0 : i = j
H a : i ! j

para cada pareja de medias.


El estadstico de contraste que utilizaremos es:

i, j

xi ! x j

=
SR

1 1
+
ni n j

" t N !r

que sigue Una distribucin t de Student con N-r grados de libertad.


La realizacin directa de cada contraste para un nivel de
significacin incrementa la probabilidad de cometer un error de
tipo I para el contraste global de igualdad de todas las medias por lo
que, en general, el nivel de significacin de cada contraste particular
tiene que ser corregido.
Si no importa el incremento en el riesgo tipo I puede realizarse
directamente el contraste t de Student, asumiendo que
probablemente encontraremos ms diferencias de las que se
encuentran realmente en los datos.
Se rechaza la hiptesis nula si el estadstico de contraste supera el
valor crtico de la distribucin t de Student al nivel .

i, j
exp

xi ! x j

=
SR

o lo que es lo mismo,

1 1
+
ni n j

> t N !r,"

-7-

xi ! x j > t N !r," SR

1 1
+
ni n j

es decir, cuando la diferencia de medias supera el valor

#
1 1&
+ (
% t N !r," SR
ni n j '
$

que se denomina diferencia significativa

mnima (lest significant difference). Por esta razn, a veces al test se


le conoce como LSD.
Si se est interesado en mantener el nivel de significacin global por
debajo del nivel predeterminado, es necesario corregir el nivel que
se utilizar en cada contraste individual de forma que al aumentar el
riesgo, permanezca por debajo del fijado.
La correccin consiste en utilizar para cada contraste un nivel ,
ms pequeo que y que resulta de dividir ste por una constante
de penalizacin K.

!'=

!
K

Dependiendo de los valores que tomemos para K obtendremos


distintos procedimientos de contraste.
TEST DE BONFERRONI
K es el nmero de comparaciones posibles por parejas.

! r $ r(r ' 1)
K =# & =
2
" 2%
El test de Bonferroni es el que ms penaliza de forma que, el nivel
de significacin para el contraste global queda, en realidad, por
debajo del fijado. Se trata entonces de un test conservador que
detecta menos diferencias de las que hay realmente en los datos.
TEST DE TUKEY
Cuando los tamaos de muestra son todos iguales es posible utilizar
como penalizacin el propio nmero de grupos r.
El test de Tukey es menos conservador que el de Bonferroni.

-8-

Tukey

LSD
(1)

(2)

Bonferroni
(3)

(4)

-9-

ANALISIS DE DOS VIAS


En muchas situaciones prcticas la unidades experimentales no son
homogneas por lo que conviene agruparlas en distintos conjuntos
de observaciones homogneas. A tales conjuntos se les denomina
bloques.
Los tratamientos se aplican dentro de cada bloque siguiendo las
mismas tcnicas de aleatorizacin expuestas previamente.
Se procurar que los tratamientos estn representados de la misma
manera en todos los bloques.
Diseo en bloques al azar
Supongamos que se dispone de r tratamientos a comparar y que se
dividen las observaciones en
s
bloques con r unidades
experimentales cada uno.
Dentro de cada bloque se aplica una vez cada tratamiento utilizando
un procedimiento de aleatorizacin.
Los datos resultantes seran los siguientes

Tratamientos T1
B1
x11
Bloques
!
!
Bs
xs1

Tr
x1r
" !
xsr

El modelo matemtico es ahora

xij = ij + ! ij
xij = + " i + # j + !ij
i es el efecto debido al bloque, j es el efecto debido al
tratamiento y ij es el error experimental.
Donde

-10-

Obsrvese que solamente hemos sustrado del residual la parte


correspondiente a los bloques.
-Anlisis estadstico: Anlisis de la varianza de dos vas.
Las hiptesis de que los distintos tratamientos y los bloques no
producen ningn efecto se contrasta mediante el anlisis de la
varianza de dos vas, comparando la variabilidad entre bloques y la
variabilidad entre tratamientos con la variabilidad dentro de los
grupos.
Los resultados fundamentales se resumen en la tabla siguiente.
Suma de cuadrados
s
Entre
2
Q
=
r(
x
!
x
)
"
B
i
Bloques
i=1

g.l.
s-1

Estimador Fexp
Q F =
2
SB = B B
s ! 1 S2
B
SR2

r-1

ST =

Fuente

Entre
Tratam.

QT = " s(x j ! x )

j =1

QR =

Residual

(r-1)(s-1)

2
" " ( xij ! xi ! x j + x )

i=1 j=1
Total

Q = " " ( xij ! x )2

QT FT =
r ! 1 S2
T
SR2

SR2 =
QR
(r!1)(s!1)

n-1

i=1 j=1

Los estimadores de los efectos de los bloques y tratamientos se


estiman a partir de

-11-

= x
! i = xi " x
# j = x j " x
y la parte propia de cada observacin (o residual)

!ij = xij " xi " x j + x


Los residuales pueden servirnos para la validacin de las hiptesis
bsicas de la misma manera que en el diseo de una va.

-12-

IDEAS BASICAS SOBRE


EXPERIMENTOS FACTORIALES
-Definiciones generales y discusin
A cada uno de los tratamientos bsicos le denominaremos factor y a
cada una de sus posibles formas (o valores) la denominaremos nivel
del factor.
Una combinacin de un nivel de cada uno de los factores estudiados
determina un tratamiento.
El experimento en el que todas las combinaciones de niveles de los
factores son interesantes se denomina experimento factorial.

-Tipos de factores
-Factores cualitativos especficos.
Factores susceptibles de aplicacin
Factores de clasificacin
-Factores cuantitativos
-Factores cualitativos ordenados.
-Factores cualitativos muestreados.

-13-

Efectos principales e interaccin en un experimento de dos


factores.
Supongamos que tenemos un experimento de dos factores A y B con
cuatro niveles cada uno, y supongamos, para simplificar que no
existe variacin no controlada.

Factor A
nivel 1
nivel 2
nivel 3
nivel 4
media

nivel 1
9
12
10
13
11

Factor B
nivel 2
nivel 3
11
14
14
17
12
15
15
18
13
16

nivel 4
15
18
16
19
17

media
12.25
15.25
13.25
16.25

Tenemos varias formas de cacterizar esta tabla:


a)La diferencia entre las observaciones de dos niveles cualesquiera
de A es la misma para todos los niveles de B.
b)La diferencia entre las observaciones de dos niveles cualesquiera
de B es la misma para todos los niveles de A.
c) Los efectos de los dos factores son aditivos.
d) Los residuales al restar los efectos fila y columna son cero.
En este caso se dice que los factores no interactuan o que sus efectos
son aditivos.
Si estas condiciones no se verifican decimos que hay una interaccin
entre A y B.
Se dice que hay interaccin cuando las diferencias entre dos niveles
cualesquiera de uno de los factores dependen de los niveles del otro
factor.

Factor A
nivel 1
nivel 2
nivel 3
nivel 4
media

nivel 1
9
12
11
12
11

Factor B
nivel 2
nivel 3
11
14
14
17
11
14
16
19
13
16

nivel 4
15
18
17
18
17

media
12.25
15.25
13.25
16.25

-14-

Efectos principales: Efectos de cada uno de los niveles de los


factores por separado (promediando sobre el otro factor).
Interaccin: Efectos producidos por la aplicacin conjunta de los
niveles de los dos factores.
Grficos de interaccin
20
18
16
14
12
10
8
6
4
2
0

n1
n2
n3
n4

Efectos aditivos

20
18
16
14
12
10
8
6
4
2
0

n1
n2
n3
n4

Efectos no aditivos

-15-

Experimento factorial con dos factores de variacin y el mismo


nmero de observaciones por casilla.
Se dispone de un conjunto de observaciones homogneas y se
asigna los tratamientos (combinacin de niveles de los dos factores)
aleatoriamente a las unidades.
Los datos resultantes seran los siguientes

Factor A
B1
Factor B

!
Bs

A1
! x111 $
#
&
#! &
#x &
" 11t %
!
! x s11 $
#
&
!
#
&
#x &
" s1t %

Ar
! x1r1 $
#
&
#! &
#x &
" 1rt %
"
!
! x rs1 $
#
&
#! &
#x &
" rst %

El modelo matemtico es ahora

xijk = ij + !ijk
xijk = + " i + # j + ("# )ij + ! ijk
Donde i es el efecto debido al bloque, j es el efecto debido al
tratamiento, ()ij es el efecto conjunto (interaccin) y ij es el error.

-Anlisis estadstico: Anlisis de la varianza de dos vas.


Las hiptesis de que los distintos factores no producen ningn
efecto y de que no existe interaccin se contrastan mediante el
anlisis de la varianza de dos vas con interaccin, comparando la

-16-

variabilidad entre los niveles del factor A, la variabilidad entre los


niveles del factor B, y la variabilidad debida a la interaccin con la
variabilidad dentro de los grupos o residual.
Fuente
Filas

Columnas

Suma de cuadrados
s r
t
QF = " " " (xi ! x )2
i=1 j=1 k =1

g.l.
s-1

r-1

QC = " " " (x j ! x )2


i=1 j=1 k =1

QFC =

Interacc.

(r-1)(s-1)

" (xij ! xi ! x j + x )2

i, j,k

Resid.

(r!1)(s!1)
s

QR = " " " ( xijk ! xij )

rs(t-1)

i=1 j=1 k =1

Total

Estimador Fexp
2
Q
SF2 = F SF
s !1 S2
R
QC S 2
2
C
SC =
r ! 1 S2
R
2
2
SFC
SFC
=
SR2
QFC

Q = " " " (xij ! x )2

SR2 =
QR
rs(t !1)

rst-1

i=1 j=1 k =1

Los estimadores de los efectos de los bloques y tratamientos se


estiman a partir de

=x
! i = xi " x
# j = x j " x

(!#ij ) = xij " xi " x j + x


y la parte propia de cada observacin (o residual)

-17-

!ij = xijk " xij


Los residuales pueden servirnos para la validacin de las hiptesis
bsicas de la misma manera que en el diseo de una va.

-18-

EJEMPLO
Se est investigando cual es el efecto de tres tipos de abono sobre dos tipos de
suelo. Se espera que el efecto de los distintos abonos se manifieste de forma
diferente dependiendo del tipo de suelo. Para el presente estudio tomaremos
dos tipos de suelo, cido y alcalino y tres tipos de abono que denotaremos con
A, B y C. Tenemos as dos factores (suelo y abono) con 2 y 3 niveles
respectivamente, que resultan en 6 combinaciones. Tomaremos un diseo
factorial con dos factores y tres rplicas en cada una de las combinaciones de los
niveles de los dos factores. La respuesta es un ndice de abundancia de una
determinada especie tras la aplicacin de los distintos abonos. Los resultados se
muestran en la tabla siguiente.

cido
Alcalino

A
8
4
0
14
10
6

B
10
8
6
4
2
0

C
8
6
4
15
12
9

ANOVA Table for RESPUESTA


DF

Sum of Squares

Mean Square

F-Value

P-Value

Lambda

Power

SUELO

18,000

18,000

2,038

,1789

2,038

,248

ABONO

48,000

24,000

2,717

,1063

5,434

,428

144,000

72,000

8,151

,0058

16,302

,905

12

106,000

8,833

SUELO * ABONO
Residual

Means Table for RESPUESTA


Effect: SUELO * ABONO
Count

Mean

Std. Dev.

Std. Err.

ACIDO, A

4,000

4,000

2,309

ACIDO, B

8,000

2,000

1,155

ACIDO, C

6,000

2,000

1,155

ALCALINO, A

10,000

4,000

2,309

ALCALINO, B

2,000

2,000

1,155

ALCALINO, C

12,000

3,000

1,732

-19-

Interaction Line Plot for RESPUESTA


Effect: SUELO * ABONO
14
12

Cell Mean

10
A

4
2
0

ACIDO

ALCALINO
Cell

Bonferroni/Dunn for RESPUESTA


Effect: ABONO
Significance Level: 5 %

Fisher's PLSD for RESPUESTA


Effect: ABONO
Significance Level: 5 %
Mean Diff.

Crit. Diff

P-Value

Mean Diff.

Crit. Diff

P-Value

A, B

2,000

3,739

,2664

A, B

2,000

4,769

,2664

A, C

-2,000

3,739

,2664

A, C

-2,000

4,769

,2664

B, C

-4,000

3,739

,0380

B, C

-4,000

4,769

,0380

Comparisons in this table are not significant unless the


corresponding p-value is less than ,0167.
Tukey/Kramer for RESPUESTA
Effect: ABONO
Significance Level: 5 %
Mean Diff.

Crit. Diff

A, B

2,000

4,574

A, C

-2,000

4,574

B, C

-4,000

4,574

-20-

ANOVA Table for RESPUESTA


Split By: SUELO
Cell: ACIDO
DF

Sum of Squares

Mean Square

F-Value

P-Value

Lambda

Power

ABONO

24,000

12,000

1,500

,2963

3,000

,207

Residual

48,000

8,000

Tukey/Kramer for RESPUESTA


Effect: ABONO
Significance Level: 5 %
Split By: SUELO
Cell: ACIDO
Mean Diff.

Crit. Diff

A, B

-4,000

7,087

A, C

-2,000

7,087

B, C

2,000

7,087

ANOVA Table for RESPUESTA


Split By: SUELO
Cell: ALCALINO
DF

Sum of Squares

Mean Square

F-Value

P-Value

Lambda

Power

ABONO

168,000

84,000

8,690

,0169

17,379

,822

Residual

58,000

9,667

Tukey/Kramer for RESPUESTA


Effect: ABONO
Significance Level: 5 %
Split By: SUELO
Cell: ALCALINO
Mean Diff.

Crit. Diff

A, B

8,000

7,791

A, C

-2,000

7,791

B, C

-10,000

7,791

S
S

También podría gustarte