Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Un ejemplo introductorio
Un ingeniero de desarrollo de productos desea maximizar la resistencia a
la tensin de una nueva fibra sinttica que se utilizar para fabricar camisas.
Por experiencia, parece que la resistencia (o fortaleza) se ve influida por el
% de algodn presente en la fibra.
Tambin se sospecha que valores elevados de % de algodn repercuten
negativamente en otras cualidades de calidad que se desean (por ej. que la
fibra pueda recibir un tratamiento de planchado permanente).
Un ejemplo introductorio
Total
Promedio
15%
15
11
49
9.8
20%
12
17
12
18
18
77
15.4
25%
14
18
18
19
19
88
17.6
30%
19
25
22
19
23
108
21.6
35%
10
11
15
11
54
10.8
376
15.04
Un ejemplo introductorio
A la hora de fabricar las 25 fibras anteriores se debe seguir una secuencia
aleatorizada.
Esta aleatorizacin en la secuencia de fabricacin es necesaria para evitar que los
datos observados (la fortaleza de los tejidos), sean contaminados por el efecto de
otras variables que no conocemos y por tanto no podemos controlar.
Supongamos que se fabrican las 25 fibras sin un mecanismo aleatorizado, es decir,
siguiento el orden original (primero se fabrican las 5 fibras con un 15 % de algodn,
luego las 5 fibras con un 20% de algodn, y as sucesivamente).
En esta situacin, si la mquina que mide la fortaleza de la fibra presentase un
efecto de calentamiento de modo que a mayor tiempo de funcionamiento diese
menores lecturas de resistencia, entonces los datos se contaminaran. Por ese efecto
de calentamiento, la fortaleza de las fibras fabricadas con un 35% de algodn
resultaran negativamente muy contaminadas. No pasara lo mismo con las fabricadas
con un 15% de algodn.
Un ejemplo introductorio
El anlisis de la varianza nos ayudar a responder las siguientes
cuestiones:
Influye el % de algodn en la fortaleza de la fibra fabricada?
Si es as, qu niveles de % de algodn son similares y
cules no?
Total
Promedio
Nivel o
grupo 1
y11
y12
y1n1
y1
y1
Nivel 2
y21
y22
y2n2
y2
y2
Nivel Isimo
yI1
yI2
yInI
yI
yI
y
Notacin
yij se refiere a la observacin j-sima de la variable y (fortaleza) en el
grupo i-simo del factor (% de algodn).
yi =
yi =
Pni
j=1 yij
yi
ni
Es la media de la ni observaciones
del grupo i
n1 + n2 + . . . + nI = n
y =
y =
PI
i=1
Pni
j=1
y
n1 +n2 +...+nI
yij
El modelo terico
Las observaciones se describen segn el siguiente modelo lineal:
yij = + i + uij
Es la media global de y
10
yij = + i + uij
yij N (i , 2 )
uij N (0, 2 )
donde:
f (yij ) =
11
1
2 2
exp
(yij i )2
22
QI
i=1
Qni
j=1
f (yij )
ln(L(1 , . . . , I , )) =
ln(L(1 ,...,I , 2 ))
i
=0
i = yi
ln(L(
1 ,...,
I , 2 ))
2
12
n +
1
2
n2
i=1
1
2 2
PI
Pni
2
ln(2 )
i=1
j=1 (yij i )
Pni
ni
1
(y
)
=
yi i ) = 0
2
ij
i
j=1
2 (
n
2 2
=0
PI
Pni
j=1 (yij
+
2
1
2(2 )2
i ) = 0
PI
i=1
Pni
j=1 (yij
PI
i=1
i ) = 0
Pni
i )2
j=1 (yij
n
Estimacin de la varianza
2
PI
i=1
Pni
i )2
j=1 (yij
n
E(
2 ) = 2
Buscaremos otro estimador de la varianza que sea insesgado.
13
Estimacin de la varianza
De acuerdo con el modelo: uij = yij i
ij = yij
i
As que podemos estimar los errores mediante: u
A estas estimaciones de los errores o perturbaciones del modelo, se les
llama residuos y los denotaremos por eij
eij = u
ij = yij yi
e =
=
14
1
n
PI
i=1
1 PI
i=1
n
Pni
j=1 ei
=
1
n
PI
(yi ni yi ) =
i=1
1
n
1
n
PI
i=1
Pni
PI
Pni
j=1 (yij
i=1
2
j=1 eij
yi )
(yi yi ) = 0
1
n
PI
i=1
P ni
j=1 (eij
e)2
Estimacin de la varianza
Los residuos no son todos independientes entre s.
Ntese que los residuos satisfacen las I ecuaciones (vase pg. 12)
que nos permitieron obtener estimadores para la media de cada
grupo, i.e: Para cada i=1,,I, se verifica que:
Pni
j=1 (yij
i ) = 0
15
s2R
1
nI
PI
i=1
Pni
2
j=1 eij
Estimacin de la varianza
Como ya sucedi en otras ocasiones, utilizaremos entonces la varianza
residual para estimar la varianza del error, que es una correccin de
2
por grados de libertad.
s2R
Dividimos entre (n-I) en
lugar de n
1
nI
1
nI
PI
i=1
PI
Pni
2
j=1 eij
i=1 (ni
1)Si2
16
Si2 =
1
ni 1
Pni
(y
)
y
ij
i
j=1
Estimacin de la varianza
2
Se puede comprobar que sR =
2
insesgado para
17
1
nI
PI
i=1
Pni
2
e
j=1 ij s es un estimador
i N (i , 2 /ni )
18
i z/2 ni
Pero es desconocido, as
que se sustituye por la raz
cuadrada de la cuasivarianza
de y en el grupo i y lo que se
obtiene es el siguiente
Intervalo de Confianza:
i t/2,ni 1 Sni i
1
nI
Se verifica que:
2
(ni 1)S
i
2
PI
i=1 (ni
1)Si2
Pni
yi )2
j=1 (yij
2
2ni 1
(nI)
s2R
2
19
(nI)
s2R
2
PI
PI
2
i=1 (ni 1)Si
2
2
i=1 (ni 1)Si
2
2nI
2PI
i=1 (ni 1)
PI
Son los
grados de
libertad (g.l.)
i=1 (ni
1) = n I
20
Mtodo de Fischer
ANOVA
2
N 1 2 , n1 +
2
n2
d=
21
y1
y2
q
n1 + n1
1
N (0, 1)
y1
y2
q
n1 + n1
1
2 es
N (0, 1) bajo H0
ST2 =
desconocida
2 +(n2 1)S
2
(n1 1)S
1
2
n1 +n2 2
Se verifica que:
t=
22
2
(n1 +n2 2)S
T
2
y
q
y2
1
1
1
T
S
n +n
1
2n1 +n2 2
tn1 +n2 2
yq
d=
2
N 1 2 , n1 +
y2 )(1 2 )
(
y1
q
n1 + n1
1
t=
N (0, 1)
y2 )(1 2 )
(
y1
q
1
T
S
+ 1
n1
23
2
n2
n2
Adems,
2
(n1 +n2 2)S
T
2
2n1 +n2 2
tn1 +n2 2
(
y1 y1 ) t/2,n1 +n2 2 ST
1
n1
1
n2
24
Mtodo de Fischer
ANOVA
Descomposicin de la variabilidad de
la variable dependiente y
VT =
PI
i=1
Pni
2
(y
)
ij
j=1
yi y )
(yij y ) = (yij yi ) + (
(elevamos al cuadrado)
(yij y )2 = (yij yi )2 + (
yi y )2 + 2(yij yi )(
yi y )
PI
(sumamos en i y en j)
i=1
25
Pni
PI
i=1
j=1 (yij
y ) =
PI
i=1
Pni
j=1 (yij
yi ) +
Pni
j=1 (yij
yi )(
yi y ) = 2
PI
i=1
Pni
yi
j=1 (
y )2
Pni
yi y ) j=1 (yij yi )
i=1 (
PI
yi ni yi = yi yi = 0
Descomposicin de la variabilidad de
la variable dependiente y
PI
i=1
Pni
j=1 (yij
y ) =
VT = variabilidad total
Ntese que:
s2R
1
nI
PI
i=1
Pni
PI
i=1
Pni
j=1 (yij
yi ) +
VNE= variabilidad no
explicada o residual,
tambin conocida como
variabilidad intra grupos
2
e
j=1 ij =
PI
i=1
Pni
yi
j=1 (
VE
E( I1
)
NE
E( VnI
) = 2
2
= +
y )2
VE = variabilidad
explicada por el modelo,
tambin conocida como
variabilidad entre grupos
V NE
nI
26
PI
ni i2
I1
i=1
i = + i
Sabemos que:
NE
E( VnI
) = 2
VE
E( I1
)
27
= +
2
i=1 ni i
I1
Es un trmino >=0
V E/(I1)
V N E/(nI)
>1
>1
28
(nI)
s2R
2
PI
1
nI
2
i=1 (ni 1)Si
2
PI
i=1
Pni
2nI
2
e
j=1 ij =
V NE
nI
V NE
2
2nI
VE
2
2I1
s2e
VE
2 (I1)
V NE
2 (nI)
V E/(I1)
V N E/(nI)
FI1,nI
s2R
Hay que ver dnde cae este valor
FI1,nI
29
s2e
= 2
sR
La regin de
rechazo tiene
probabilidad
alpha
30
Regin de aceptacin
Regin de rechazo
Fuentes de
variacin
Suma de
Cuadrados
Grados de
Libertad
(SC)
(g.l.)
Variabilidad total
31
PI
Pni
PI
Pni
i=1
i=1
i )2
j=1 (yij y
j=1 (yij
y )2
I-1
n-I
n-1
Varianza
(cuadrado
medio)
(SC/g.l.)
s2e
s2R
Sy2
Test F
FI1,nI
s2e
s2R
Si el p-valor asociado al
test F es pequeo, se
rechaza H0.
Un p-valor pequeo
significa que el test F ha
cado muy a la derecha,
en la cola derecha de la
distribucin, y por tanto
el F test ha salido muy
grande.
t=
(
y1
y2 )(1 2 )
q
1
T
S
+ 1
n1
ST2 =
n2
tn1 +n2 2
2 +(n2 1)S
2
(n1 1)S
1
2
n1 +n2 2
32
En esto consiste el mtodo de Fischer o LSD. La ventaja es que se realizan las comparaciones
dos a dos de modo simultneo y se consiguen detectar diferencias ms pequeas.
33
Total
Promedio
15%
15
11
49
9.8
20%
12
17
12
18
18
77
15.4
25%
14
18
18
19
19
88
17.6
30%
19
25
22
19
23
108
21.6
35%
10
11
15
11
54
10.8
376
15.04
Introduccin de datos
34
A la vista de este
grfico de medias,
se ve que las
medias difieren
unas de otras.
fortaleza
22
19
16
13
10
7
15
35
20
25
30
% de algodn
35
Usando un 30% de
algodn parece que
se fabrican las
mejores fibras, es
decir, las de mayor
fortaleza
Tabla ANOVA
s2R
Variabilidad explicada por el modelo, tambin conocida
como variabilidad entre grupos.
Variabilidad no explicada por el modelo, tambin
conocida como variabilidad intra grupos
36
Estadstico o test F
En cambio, s se han
detectado diferencias
entre los niveles de
15% y 35% de
algodn
37
Diagnosis: Normalidad
Para comprobar la suposicin de normalidad podemos utilizar la grfica de probabilidad normal de
los residuos.
Si la distribucin de los errores es normal, esta grfica parecer una lnea recta.
Pasos a seguir
porcentaje
38
99,9
99
95
80
50
20
5
1
0,1
-3,8
-1,8
0,2
2,2
RESIDUALS
4,2
6,2
1.
2.
3.
Diagnosis: Normalidad
La grfica de probabilidad normal es una representacin grfica de la
distribucin acumulada de los residuos sobre papel de probabilidad normal.
39
residuo
4
2
0
-2
-4
-6
9
40
12
15
18
21
fortaleza predicho
24
41
Diagnosis: Independencia
Para comprobar la suposicin de independencia de los datos, es interesante graficar los
residuos frente al orden temporal en el que stos han sido recopilados.
Si en este grfico se detecta una tendencia a tener rachas con residuos positivos y
negativos, esto nos indicar que los datos no son independientes.
Si se han tomados los datos mediante un procedimiento de aleatorizacin (como ya se
coment al comienzo de esta presentacin, vase pg. 4), entonces es de esperar que
hayamos asegurado la independencia de las observaciones y que no se observen esas
rachas.
Supongamos que a medida que avanza el proceso la habilidad del experimentador o
experimentadores cambia a medida que el experimento se desarrolla (se hace ms errtico,
debido al cansancio, o por el contrario, se hace ms experto,por la experiencia adquirida).
En situaciones como esta puede suceder que la varianza de los datos cambie con el tiempo.
Este tipo de problema se puede detectar en el grfico de residuos frente al tiempo, porque
se ver cmo la dispersin de los residuos se hace mayor o menor a medida que el tiempo
transcurre.
42
Es muy importante evitar este tipo de problemsa en el momento de la recogida de datos (en
el momento de la experimentacin). El anlisis de la varianza es vlido si, entre otros
supuestos, se cumple el de varianza constante e independencia.