Está en la página 1de 40

Tema 1.

Modelo de dise
no de experimentos
(un factor)

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

Introducci
on
El objetivo del Analisis de la Varianza es estudiar si existe relacion
entre el valor medio de una variable respuesta o caracterstica (por
ej. el nivel de contaminaci
on) y una variable cualitativa, atributo o
factor (por ej. la localizaci
on del lugar de medida).
Ejemplo 1.1: Se mide la contaminaci
on de un ro analizando la
cantidad de oxgeno que contiene en disoluci
on el agua. Se toman
muestras en cuatro lugares diferentes del ro (a 10, 25, 50 y 100
km. del nacimiento), obteniendose:
A 100
A 50
A 25
A 10

km.
km.
km.
km.

4,8
6
5,9
6,3

5,2
6,2
6,1
6,6

5
6,1
6,3
6,4

4,7
5,8
6,1
6,4

5,1
6
6,5

Queremos averiguar si existen diferencias significativas en el nivel


medio de contaminaci
on a distintas alturas del cauce.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

Tenemos una muestra de n = 19 elementos que se diferencian en


un factor. En cada elemento de la muestra observamos una
caracterstica continua (Y ), que vara aleatoriamente de un
elemento a otro.
Otros posibles ejemplos:
Existe diferencia entre el salario medio mensual entre hombre

y mujer?
Existen diferencias entre las calificaciones medias de

estudiantes de la misma asignatura, pero de distintos grupos?


Diferencias entre el consumo medio de carburante en coches

de la misma categora pero distintas marcas.


Para determinar si hay diferencias significativas entre las respuestas
medias a distintos niveles del factor, el Analisis de la Varianza
descompone la variabilidad de un experimento en componentes
independientes que se asignan a causas distintas.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

El modelo
En el Ejemplo 1.1 el factor toma I = valores (los niveles, grupos
o tratamientos del factor). Se mide la cantidad de oxgeno en
disolucion n1 = veces a 100 km. del nacimiento del ro, n2 =
veces a 50 km., n3 = veces a 25 km. y n4 = veces a 10 km.
ni = no de observaciones de la respuesta para el nivel i del factor
Si n1 = n2 = . . . = nI se dice que el dise
no es equilibrado.
I
X
ni = no total de observaciones de Y
n=
i=1

yij = j-esimo valor observado de la respuesta en el nivel i,


i = 1, . . . , I , j = 1, . . . , ni
Ejemplo 1.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

Ejemplo 1.1 (cont.):


6.5

6
5.5
5
4.5

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

Suponemos que, en el nivel i del factor, la respuesta Y oscila


aleatoriamente en torno a un nivel desconocido i , la media de la
poblacion i-esima: E (Yij ) = i . Cada observaci
on yij resulta de
una perturbacion aleatoria uij en torno al valor medio i .
El modelo de Analisis de la Varianza (ANOVA) unifactorial es el
modelo lineal
Yij = i + Uij ,

para j = 1, . . . , ni , i = 1, . . . , I ,

con las siguientes hipotesis basicas del modelo:


a) E (Uij ) = 0 para todo i, j (linealidad)
b) Var(Uij ) = 2 para todo i, j (homocedasticidad)
c) E (Uij Ukl ) = 0 para todo i 6= k, j 6= l (independencia)
d) Uij Normal para todo i, j (normalidad)
A las Uij tambien se las llama error experimental.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

Las anteriores hipotesis equivalen a


a) E (Yij ) = i para todo i, j
b) Var(Yij ) = 2 para todo i, j
c) E (Yij Ykl ) = 0 para todo i 6= k, j 6= l
d) Yij Normal para todo i, j
Seg
un el modelo las ni observaciones yi1 , yi2 , . . . , yini de la
poblacion i son una muestra aleatoria de una N(i , 2 ).
Si estas hipotesis no se cumplen las conclusiones del Analisis de la
Varianza pueden ser incorrectas.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

Estimaci
on de los par
ametros del modelo
El modelo ANOVA con un factor depende de I + 1 parametros
desconocidos: las medias 1 ,. . . ,I y la varianza com
un 2 . Los
estimamos mediante el metodo de maxima verosimilitud (MV):

i =

ni
1 X
yij = yi
ni
j=1

y
I

2 =

i
X ni
1 XX
(yij yi )2 =
s 2,
n
n i

i=1 j=1

i=1

Pni

donde si2 = j=1 (yij yi )2 /ni es la varianza muestral en la


poblacion i-esima. Por tanto,
2 es la media de las si2 ponderada
por la proporcion de observaciones en cada nivel del factor.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

Ejemplo 1.1 (cont.):


i
1
2
3
4

4,8
6
5,9
6,3

5,2
6,2
6,1
6,6

yij
5
6,1
6,3
6,4

ni
4,7
5,8
6,1
6,4

si2

yi

5,1
6
6,5
n=

2 =

Los residuos del modelo son valores observados de las


perturbaciones Uij :
eij = yij yi
En general en todos los temas de esta asignatura se define
Residuo (eij ) = Valor observado (yij ) - Valor previsto (
yij )

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

Ejemplo 1.1 (cont.):


i
1

eij

2
3
4
Los n residuos del modelo verifican las ecuaciones de restriccion
ni
X
eij = 0, i = 1, . . . , I .
j=1

Es decir, de los n residuos s


olo n I son linealmente
independientes: los residuos tienen n I grados de libertad.
Grados de libertad (g.l.) de los residuos = N
umero total de residuos
N
umero de restricciones lineales entre ellos = n I
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

10

Propiedades de los estimadores de los par


ametros


ni
1 X
2
Yi =
Yij N i ,
ni
ni
j=1

n
2
2nI
2 no es centrado
2
Un estimador insesgado de 2 es la varianza residual
sR2 =

ni
I
1 XX
n

2,
eij2 =
nI
nI
i=1 j=1

que verifica
(n I )sR2
2nI .
2
Ejemplo 1.1 (cont.):
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

11

Usando estas propiedades obtenemos intervalos de confianza para


los parametros:
r 

1
IC1 (i ) =
yi tnI ;/2 sR
ni
!
2
(n I ) sR (n I ) sR2
2
IC1 ( ) =
,
2nI ;/2 2nI ;1/2
Ejemplo 1.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

12

El contraste de igualdad de medias

Bajo el modelo ANOVA unifactorial queremos contrastar


H0 :

1 = 2 = . . . = I =
(todas las medias son iguales, el factor no influye)

H1 :

i 6= j para alg
un par i 6= j.
(las medias difieren en al menos dos de los niveles,
el factor influye)

El contraste compara las diferencias entre medias muestrales con la


variabilidad experimental, medida por sR2 , para decidir si esta ha
podido generar esas diferencias o no.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

13

La descomposici
on de la variabilidad
Cada dato yij se puede expresar as
yij = y + (
yi y ) + eij
donde

i
1 XX
yij
y =
n

i=1 j=1

es la media global e yi y es la modificaci


on debida al grupo.
Esto permite descomponer la variabilidad entre los datos y la
media global en dos terminos: la variabilidad entre las medias por
grupos y la media general, y la variabilidad residual, o variabilidad
dentro del grupo.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

14

De hecho, se cumple que


VT = VE + VNE,
donde el termino de la izquierda es la variabilidad total
VT =

ni
I X
X
(yij y )2 ,
i=1 j=1

VE =

I
X

ni (
yi y )2

i=1

denota la variabilidad explicada por el modelo o por las diferencias


entre niveles del factor y
VNE =

ni
I X
X

eij2 = (n I )sR2

i=1 j=1

denota la variabilidad no explicada o residual.


Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

15

Las propiedades de los estimadores de los parametros implican que


VNE
2nI .
2
Ademas, cuando la hip
otesis nula H0 de igualdad de medias es
cierta, se verifica que
VE
2I 1
2
VNE VE
y 2 son independientes entre s.
y los terminos
2

Esto nos permite construir el siguiente contraste.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

16

La tabla ANOVA y el contraste


Los terminos de la descomposici
on de la variabilidad se disponen
en la tabla ANOVA
Fuentes de
variacion
Explicada

Suma de
cuadrados
I
X
VE =
ni (
yi y )2

Grados de
libertad
I 1

Varianzas
se2 =

i=1

Residual

ni
I X
X

eij2

nI

(yij y )2

n1

VNE =

VE
I 1

sR2

i=1 j=1

Total

ni
I X
X
i=1 j=1

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

sy2 =

VT
n1

Tema 1: Dise
no de experimentos (un factor)

17

Si la hipotesis nula de igualdad de medias H0 : 1 = 2 = . . . = I


es cierta entonces
s2
F = e2 FI 1,nI .
sR
Una region de rechazo para el contraste
H0 :

1 = 2 = . . . = I =

H1 :

i 6= j para alg
un par i 6= j.

al nivel de significacion es
R = {F > FI 1,nI , }.
Observemos que, para I = 2 poblaciones, este contraste es
matematicamente equivalente al contraste t de Student que
compara dos medias de distribuciones normales homocedasticas.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

18

Ejemplo 1.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

19

Ejemplo 1.2: Se examina el contenido de azufre en cinco


yacimientos de carbon en Texas. Se toman muestras aleatorias de
cada uno de los yacimientos y se analizan, obteniendose los
siguientes datos del porcentaje de azufre por muestra.
Yacimientos
Contenido
de
azufre

1
1.51
1.92
1.08
2.04
2.14
1.76
1.17

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

2
1.69
0.64
0.90
1.41
1.01
0.84
1.28
1.59

3
1.56
1.22
1.32
1.39
1.33
1.54
1.04
2.25
1.49

4
1.30
0.75
1.26
0.69
0.62
0.90
1.20
0.32

5
0.73
0.80
0.90
1.24
0.82
0.72
0.57
1.18
0.54
1.30

Tema 1: Dise
no de experimentos (un factor)

20

Ejemplo 1.2 (cont.): Contrastar la igualdad de niveles medios de


azufre en los cinco yacimientos.

1.5

0.5

i
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

21

El coeficiente de determinaci
on
Una medida relativa de la variabilidad explicada por los grupos o
niveles del factor es el coeficiente de determinaci
on
R2 =

VE
.
VT

Es la proporcion de variabilidad total de las observaciones y


explicada por el modelo lineal establecido.
Observaci
on: 0 R 2 1
Ejemplo 1.1 (cont.):
Ejemplo 1.2 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

22

An
alisis de las diferencias entre medias
Si aceptamos H0 en el contraste
H0 :

1 = 2 = . . . = I =

H1 :

i 6= j para alg
un par i 6= j.

entonces estimamos la media global mediante y . Bajo las


hipotesis basicas del modelo ANOVA unifactorial, un intervalo de
confianza para al nivel de confianza 1 es


sy
IC() = y tn1,/2 ,
n
Observaci
on: Bajo H0 un estimador insesgado de 2 = Var(Y ) es
sy2 .

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

23

Si se rechaza H0 queremos determinar que parejas de medias son


distintas entre s y estimar las diferencias i j . Utilizando que
yi yj (i j )
q
tnI ,
sR n1i + n1j
construimos un intervalo de confianza para i j
s
"
#
1
1
IC1 (i j ) = yi yj tnI ;/2 sR
+
.
ni
nj
Tambien podemos contrastar H0 : i = j frente a H1 : i 6= j a
nivel de significacion . La regi
on de rechazo es

y y ( )

i
j
i
j
q
>
t
.
R =
nI ;/2

1


s
+ 1
R

ni

nj

Esto equivale a rechazar H0 : i = j si 0


/ IC1 (i j ).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

24

Ejemplo 1.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

25

Contrastes m
ultiples
 
I
I!
=
parejas de medias
2
2!(I 2)!
distintas i , j . Luego podemos realizar c contrastes H0 : i = j .

Es posible formar c =

Ejemplo 1.1 (cont.):

Supongamos que tenemos I = 3 poblaciones y hemos rechazado


H0 : 1 = 2 = 3 = en el modelo Yij = i + Uij , para
i = 1, 2, 3, j = 1, . . . , ni . Entonces tenemos que decidir si 1 6= 2 ,
o si 2 6= 3 , o si 1 6= 3 .

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

26

Cuando tomo 100 muestras de Y puedo construir 100 intervalos de


confianza para 1 2 , para 3 2 y para 1 3 :
y1(1) , . . . , yn(1)
y1(2) , . . . , yn(2)
y1(3) , . . . , yn(3)
..
.

IC(1)
0.95 (1 2 )
IC(2)
0.95 (1 2 )
IC(3)
0.95 (1 2 )
..
.

IC(1)
0.95 (3 2 )
IC(2)
0.95 (3 2 )
IC(3)
0.95 (3 2 )
..
.

IC(1)
0.95 (1 3 )
IC(2)
0.95 (1 3 )
IC(3)
0.95 (1 3 )
..
.

y1(100) , . . . , yn(100) IC(100)


IC(100)
IC(100)
0.95 (1 2 )
0.95 (3 2 )
0.95 (1 3 )
Aprox. 95 de los 100
intervalos contienen
a 1 2 .

Aprox. 95 de los 100


intervalos contienen
a 3 2 .

Aprox. 95 de los 100


intervalos contienen
a 1 3 .

Puede que s
olo para 90 de las 100 muestras se verifique simult
aneamente
que 1 2 IC0.95 (1 2 ), 3 2 IC0.95 (3 2 )
y 1 3 IC0.95 (1 3 ).

Se puede razonar igual con los contrastes H0 : i =


6 j al nivel .
Utilizamos el metodo de Bonferroni para calcular intervalos de
confianza o contrastes m
ultiples.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

27

Buscamos el nivel individual tal que para el 95%(=1 T =nivel


global) de las muestras se verifique simultaneamente que
1 2 IC1 (1 2 ), 3 2 IC1 (3 2 ) y
1 3 IC1 (1 3 ).
En el metodo de Bonferroni se toma = T /c = 0.05/3, pues
1 T = P {1 2 IC1 (1 2 ),
3 2 IC1 (3 2 ), 1 3 IC1 (1 3 )}
T = P {1 2
/ IC1 (1 2 )
o 3 2
/ IC1 (3 2 )
o 1 3
/ IC1 (1 3 )}
P{1 2
/ IC1 (1 2 )}
+P{3 2
/ IC1 (3 2 )}
+P{1 3
/ IC1 (1 3 )} = c
Observaci
on: Quiza rechacemos H0 : 1 = 2 = . . . = I en
ANOVA y no encontremos diferencias entre ning
un i , j con
Bonferroni, pues es un metodo conservador si c es grande.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

28

Ejemplo 1.1 (cont.): Tomo T = 0.05. Como c =

tenemos que = 0.05


6 = 0.0083 2 = 0.0041.

I
2

= 6,

1 1
+ ]
5 4
= [1.3874, 0.7426] Rechazo H0 : 1 = 2

IC0.9917 (1 2 ) = [
y1 y2 t15,0.0041 0.0266

IC0.9917 (1 3 ) = [1.42, 0.82] Rechazo H0 : 1 = 3


IC0.9917 (1 4 ) = [1.78, 1.18] Rechazo H0 : 1 = 4
IC0.9917 (2 3 ) = [0.38, 0.27] No rechazo H0 : 2 = 3
IC0.9917 (2 4 ) = [0.74, 0.09] Rechazo H0 : 2 = 4
IC0.9917 (3 4 ) = [0.66, 0.06] Rechazo H0 : 3 = 4
Con un nivel global de confianza del 95% podemos afirmar que
1 < 2 , 3 < 4 , pero no rechazamos que 2 = 3 .

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

29

Diagnosis del modelo


Consiste en estudiar si los datos de nuestro problema son
coherentes con las hip
otesis basicas del modelo y que problemas se
derivan si no se verifica alguna.
La diagnosis se realiza a traves del analisis de los residuos eij .
Podemos obviar que los residuos no son independientes si el
tama
no total muestral n es grande comparado con el n
umero de
poblaciones, I .
Un primer paso en el analisis de los residuos consiste en la
representacion grafica de los mismos, por ejemplo, mediante
diagramas de puntos si el tama
no muestral n es peque
no (n < 20)
o, en caso contrario, mediante histogramas o diagramas de cajas.
Esto permite verificar si los residuos incumplen la hipotesis de
normalidad y si existen datos atpicos.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

30

Ejemplo 1.1 (cont.): Histograma de los residuos

3
2.5
2
1.5
1
0.5
0

0.3

0.2

0.1

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

0.1

0.2

0.3

Tema 1: Dise
no de experimentos (un factor)

31

Ejemplo 1.2 (cont.): Histograma de los residuos

1.5

0.5

0.5

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

0.5
Tema 1: Dise
no de experimentos (un factor)

32

Ejemplo 1.2 (cont.): Si retiramos el dato atpico 2.25 de la


poblacion 3,
Fuentes de
variacion
Explicada
Residual
Total

Suma de
cuadrados
VE = 3.4855
VNE = 3.7949
VT = 7.2804

g.l.
4
36
40

Varianzas
se2 = 0.8714
sR2 = 0.1026

F
F = 8.4958

F4,36,0.05 = 2.63 Seguimos rechazando la igualdad del contenido


medio de azufre en las cinco minas de carb
on.
Cuando existen datos atpicos (outliers, valores anormalmente
grandes o peque
nos comparados con el resto de observaciones), se
debe buscar la causa de esta discrepancia. Si es debido a un error
en la observacion de la muestra o por cambios inesperados en las
condiciones experimentales, quiza debamos eliminar el dato.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

33

Ejemplo 1.2 (cont.): Histograma de los residuos tras retirar el


dato atpico

0.15

0.1

0.05

0.6

0.4

0.2

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

0.2

0.4

0.6

Tema 1: Dise
no de experimentos (un factor)

34

Un grafico que permite evaluar la normalidad de los residuos es el


diagrama probabilstico normal, en el que se representan los
residuos ordenados de menor a mayor frente a los correspondientes
estadsticos de orden normales. Bajo la hip
otesis de normalidad los
puntos dibujados se ajustan aproximadamente a una lnea recta.
Ejemplo 1.1 (cont.): Grafico probabilstico normal de los residuos
0.98
0.95
0.90
0.75
0.50
0.25
0.10
0.05
0.02
0.2

0.1

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

0.1

0.2

Tema 1: Dise
no de experimentos (un factor)

35

Ejemplo 1.2 (cont.): Grafico probabilstico normal de los residuos


(sin retirar atpico)

0.99
0.98
0.95
0.90
0.75
0.50
0.25
0.10
0.05
0.02
0.01
0.5
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

0.5
Tema 1: Dise
no de experimentos (un factor)

36

Para comprobar la hip


otesis de normalidad de manera mas rigurosa
tambien podemos hacer alg
un contraste de bondad de ajuste.
El fallo de la hipotesis de normalidad afecta al calculo de intervalos
de confianza para 2 , aunque no al contraste de igualdad de
medias ni al analisis de las diferencias entre medias. El analisis de
la varianza es robusto frente a desviaciones de la normalidad.
Para comprobar la hip
otesis de homocedasticidad representamos
los residuos eij frente a los valores previstos yij = yi . As
comprobamos que la variabilidad no depende del nivel medio de la
respuesta.
La heterocedasticidad tambien influye en la estimacion de 2 .
Respecto a los contrastes de igualdad de medias, se consideran
validos si el dise
no es bastante equilibrado.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

37

Ejemplo 1.1 (cont.):


0.3
0.2

Residuos

0.1
0
0.1
0.2
0.3
0.4
4.5

5.5
6
Valores previstos

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

6.5

Tema 1: Dise
no de experimentos (un factor)

38

Ejemplo 1.2 (cont.):


0.8
0.6

Residuos

0.4
0.2
0
0.2
0.4
0.6
0.8

1.2
1.4
Valores previstos

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

1.6

1.8

Tema 1: Dise
no de experimentos (un factor)

39

Si las varianzas de los residuos varan marcadamente como funcion


del nivel medio de la respuesta, o se detectan desviaciones
importantes respecto a la normalidad, se puede probar a
transformar la variable respuesta.
Algunas transformaciones frecuentes son log(y ) o y k .
Entonces se contrastara que el nivel medio de la respuesta
transformada no depende del nivel del factor, pero ya no
H 0 : 1 = . . . = I .
Ver Ejemplo 5 de ANOVA con Excel.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 1: Dise
no de experimentos (un factor)

40

También podría gustarte