Documentos de Académico
Documentos de Profesional
Documentos de Cultura
An Ova
An Ova
Un ejemplo introductorio
Un ingeniero de desarrollo de productos desea maximizar la resistencia a la tensin de una nueva fibra sinttica que se utilizar para fabricar camisas. Por experiencia, parece que la resistencia (o fortaleza) se ve influida por el % de algodn presente en la fibra. Tambin se sospecha que valores elevados de % de algodn repercuten negativamente en otras cualidades de calidad que se desean (por ej. que la fibra pueda recibir un tratamiento de planchado permanente). Ante esta situacin, el ingeniero decide tomar cinco muestras para diferentes niveles de % de algodn y medir la fortaleza de las fibras as producidas.
Un ejemplo introductorio
Lo que obtiene se puede resumir en la siguiente tabla:
Observaciones (fortaleza de las 25 fibras fabricadas) % de algodn 15% 20% 25% 30% 35% 7 12 14 19 7 7 17 18 25 10 15 12 18 22 11 11 18 19 19 15 9 18 19 23 11
Un ejemplo introductorio
A la hora de fabricar las 25 fibras anteriores se debe seguir una secuencia aleatorizada. Esta aleatorizacin en la secuencia de fabricacin es necesaria para evitar que los datos observados (la fortaleza de los tejidos), sean contaminados por el efecto de otras variables que no conocemos y por tanto no podemos controlar. Supongamos que se fabrican las 25 fibras sin un mecanismo aleatorizado, es decir, siguiento el orden original (primero se fabrican las 5 fibras con un 15 % de algodn, luego las 5 fibras con un 20% de algodn, y as sucesivamente). En esta situacin, si la mquina que mide la fortaleza de la fibra presentase un efecto de calentamiento de modo que a mayor tiempo de funcionamiento diese menores lecturas de resistencia, entonces los datos se contaminaran. Por ese efecto de calentamiento, la fortaleza de las fibras fabricadas con un 35% de algodn resultaran negativamente muy contaminadas. No pasara lo mismo con las fabricadas con un 15% de algodn.
Si aleatorizamos la fabricacin de las 25 fibras, se espera que este efecto est presente por igual en todos los % de algodn, de modo que las comparaciones entre los distintos niveles siguen siendo vlidos.
Un ejemplo introductorio
El anlisis de la varianza nos ayudar a responder las siguientes cuestiones:
y1
y1
y2
y2
Nivel Isimo
yI1
yI2
yInI
yI y
yI y
Notacin
yij se refiere a la observacin j-sima de la variable y (fortaleza) en el grupo i-simo del factor (% de algodn).
yi = yi =
Pni
yi ni
j=1 yij
El punto significa que sumamos sobre el ndice que sustituye. Es la suma de las ni observaciones del grupo i
y = y =
n1 + n2 + . . . + nI = n
PI
i=1
y n1 +n2 +...+nI
Pni
j=1
yij
El modelo terico
Las observaciones se describen segn el siguiente modelo lineal:
yij = + i + uij
Es la media global de y Es el error aleatorio. Lo que se desva la observacin yij de su media de grupo. Es la pertubacin debida al error experimental
Ms adelante veremos con un ejemplo, cmo comprobar que los datos cumplen las hiptesis del modelo.
10
yij = + i + uij
uij N (0, 2 ) yij N (i , 2 )
2
QI
i=1
Qni
j=1
f (yij )
donde:
f (yij ) =
1 2 2
exp
(yij i )2 22
11
ln(L(1 , . . . , I , )) =
ln(L(1 ,...,I , 2 )) i
n 2
=0
i = yi
ln(L( 1 ,..., I , 2 )) 2
Cada media de grupo se estima mediante la media muestral de las observaciones y obtenidas en ese grupo
1 2 2
PI
Pni
=0
i=1
n 2 2
+
2
1 2(2 )2
12
n +
1 2
PI
Pni
j=1 (yij
i ) = 0
PI
i=1
Pni
2
j=1 (yij PI
i=1
i ) = 0
Pni 2 j=1 (yij i ) n
Estimacin de la varianza
=
2 PI
i=1
Pni
2 j=1 (yij i ) n
Un buen estimador de la varianza debera ser insesgado, i.e. debera verificar que su media fuese igual a la varianza (el parmetro que estima). Sin embargo sucede que:
E( 2 ) = 2
Buscaremos otro estimador de la varianza que sea insesgado. Pero antes de ello, definiremos los residuos y veremos cmo expresar 2 en funcin de los residuos.
13
Estimacin de la varianza
De acuerdo con el modelo: uij = yij i
(Se sustituye por su estimacin)
e= =
1 n
14
i=1 1 PI i=1 n
PI
Pni
j=1 ei
1 n
(yi ni yi ) =
PI
i=1 1 n
PI
Pni
j=1 (yij
PI
i=1
Pni
2 j=1 eij
1 n
yi )
PI
i=1
P ni
j=1 (eij
e)2
i=1
(yi yi ) = 0
Estimacin de la varianza
Los residuos no son todos independientes entre s. Ntese que los residuos satisfacen las I ecuaciones (vase pg. 12) que nos permitieron obtener estimadores para la media de cada grupo, i.e: Para cada i=1,,I, se verifica que:
Esto implica que si conocemos el valor de n-I residuos, podemos encontrar los restantes I residuos resolviendo las I ecuaciones anteriores. As que, slo n-I residuos son independientes entre s. Para estimar la varianza del error, consideraremos una modificacin de 2 por grados de libertad, es decir, dividiremos entre el nmero de residuos independientes en lugar de entre el total de residuos.
Pni
j=1 (yij
i ) = 0
15
s2 R
1 nI
PI
i=1
Pni
2 j=1 eij
Estimacin de la varianza
Como ya sucedi en otras ocasiones, utilizaremos entonces la varianza residual para estimar la varianza del error, que es una correccin de 2 por grados de libertad.
s2 R
Dividimos entre (n-I) en lugar de n
= =
1 nI 1 nI
PI
PI
i=1
i=1 (ni
Pni
2 j=1 eij
2 1)Si
16
2 Si =
1 ni 1
Pni
2 (yij yi ) j=1
Estimacin de la varianza
2 Se puede comprobar que sR = 2 insesgado para
1 nI
PI
i=1
Pni
e2 s es un estimador j=1 ij
17
Si conocisemos sigma, un Intervalo de Confianza con nivel de confianza 1-alpha, para la media del grupo i, vendra dado por:
Es el valor de una normal estndar que deja a su derecha una probabilidad de magnitud: /2
i z/2 i n
Pero es desconocido, as que se sustituye por la raz cuadrada de la cuasivarianza de y en el grupo i y lo que se obtiene es el siguiente Intervalo de Confianza:
Si i t/2,ni 1 ni
18
Es el valor de una t de Student con ni-1 g.l. que deja a su derecha una probabilidad de magnitud: /2
PI
i=1 (ni
2 1)Si 2 i 1 n
Pni
y 2 j=1 (yij i ) 2
La suma de variables aleatorias chi cuadrado sigue una distribucin chi cuadrado con g.l igual a la suma de los g.l de cada componente en la suma
(nI)2 sR 2
PI
19
(nI)2 sR 2
PI
P 2 I
i=1 (ni 1)
2 nI
PI
i=1 (ni
1) = n I
Mtodo de Fischer
Nos interesar, contrastar en primer lugar si existen diferencias estadsticamente significativas entre las medias de grupo.
Si este contraste nos indica que s existen diferencias, entonces en segundo lugar nos interesar saber qu par de medias (es decir, qu par de grupos) se diferencian entre s
20
Un estimador puntual de 1 2 y1 y2
Consideremos la hiptesis nula de igualdad de medias: H0 Interesa contrastar la hiptesis nula H0 : 1 = 2 frente a la hiptesis alternativa H1 : 1 = 2
2 N 1 2 , 1 + n
2 n2
Estandarizando y bajo H0
d=
21
y1 y q 2 1 1 n +n
1
N (0, 1)
N (0, 1) bajo H0 2 ST =
2 2 (n1 1)S1 +(n2 1)S2 n1 +n2 2
2 es
desconocida
Se verifica que:
t=
22
y1 2 q y 1 1 ST n + n
1
tn1 +n2 2
Comparacin de medias cuando hay dos niveles (IC para la diferencia de medias)
y1 y2 2 N 1 2 , 1 + n
2 n2
Adems,
2 (n1 +n2 2)ST 2
d=
y (1 2 )(1 2 ) y q 1 1 n +n
1 2
N (0, 1)
2 1 +n2 2 n
t=
y (1 2 )(1 2 ) y q 1 ST + 1
n1 n2
tn1 +n2 2
23
(1 y1 ) t/2,n1 +n2 2 ST y
1 n1
1 n2
24
Mtodo de Fischer
y (yij y ) = (yij yi ) + (i y )
(elevamos al cuadrado)
Pni
(yij y )2 j=1
(La distancia entre la observacin yij de la media global se descompone en la suma de lo que la observacin yij dista de su media de grupo i + lo que dista la media de grupo i de la media global.)
Pni
(sumamos en i y en j)
j=1 (yij
y ) =
PI
i=1
Pni
j=1 (yij
yi ) +
PI
i=1
Pni
y j=1 (i
y )2
25
PI
i=1
Pni
j=1 (yij
yi )(i y ) = 2 y
yi ni yi = yi yi = 0
PI
i=1
y ) =
PI
i=1
Pni
j=1 (yij
yi ) +
PI
i=1
Pni
y j=1 (i
y )2
VT = variabilidad total
VNE= variabilidad no explicada o residual, tambin conocida como variabilidad intra grupos
V NE nI
VE = variabilidad explicada por el modelo, tambin conocida como variabilidad entre grupos
Ntese que:
s2 R
1 nI
PI
i=1
Pni
e2 = j=1 ij
E( V N E ) = 2 nI = +
2 PI
i=1 2 ni i I1
26
VE E( I1 )
i = + i
E( V N E ) = 2 nI
VE E( I1 )
= +
V E/(I1) V N E/(nI)
>1
I1
27
Es un trmino >=0
Adems, cuanto ms grande sea este cociente, ms evidencia habr de que H1 es cierta y no H0.
>1
Cunto de grande debe ser este cociente para rechazar H0? Si es ligeramente mayor que 1, no rechazaremos H0.
Para responder a esta pregunta necesitamos conocer la distribucin de este cociente bajo H0. Ya que valores grandes nos dan evidencia de que H0 es falsa, la regin de rechazo habr que buscarla en la cola derecha de la distribucin de ese cociente (que es la cola de la distribucin correspondiente a valores ms grandes).
R Ya vimos que: s2 =
1 nI
28
(nI)2 sR 2
PI
2 nI
PI
i=1
Pni
e2 = j=1 ij
V NE nI V NE 2
2 nI
2 I1
Una distribucin F de Snedecor sabemos que se obtiene a partir de distribuciones chi cuadrado del siguiente modo: 2 /n Fn,m = 2n /m
m
s2 e
VE 2 (I1) V NE 2 (nI)
V E/(I1) V N E/(nI)
FI1,nI
s2 R
Hay que ver dnde cae este valor
FI1,nI
29
s2 e = 2 sR
30
Regin de aceptacin
Regin de rechazo
Fuentes de variacin
Suma de Cuadrados
Grados de Libertad
Test F
(SC)
(g.l.)
(SC/g.l.)
FI1,nI
Variabilidad explicada PI Pni 2 y j=1 (i y ) i=1 = variabilidad entre P grupos = I ni (i y )2 y i=1 Variabilidad no explicada = Variabilidad intra grupos
I-1
s2 e
s2 R 2 Sy
s2 e s2 R
Si el p-valor asociado al test F es pequeo, se rechaza H0. Un p-valor pequeo significa que el test F ha cado muy a la derecha, en la cola derecha de la distribucin, y por tanto el F test ha salido muy grande.
PI
PI
i=1
Pni
Pni
2 j=1 (yij yi )
n-I
Variabilidad total
31
i=1
j=1 (yij
y )2
n-1
t=
(1 2 )(1 2 ) y y q 1 ST + 1
n1 n2
tn1 +n2 2
2 ST =
En el caso de que existan ms de dos grupos, como estamos trabajando bajo la hiptesis de que en todos los grupos la variabilidad es la misma, es decir estamos suponiendo que tienen la misma varianza 2, podremos entonces, utilizar la informacin contenida en los datos de todos los grupos para estimar esa varianza, en vez de usar simplemente los datos de los dos grupos, cuyas medias queremos comparar.
2 R As que, en vez de utilizar ST , utilizaremos la varianza residual s2 , en la t de Student (con n1+n2-2 g.l.) que nos permite realizar el contraste.
32
En esto consiste el mtodo de Fischer o LSD. La ventaja es que se realizan las comparaciones dos a dos de modo simultneo y se consiguen detectar diferencias ms pequeas.
33
Introduccin de datos
34
fortaleza
19 16 13 10 7 15 20 25 30 35
A la vista de este grfico de medias, se ve que las medias difieren unas de otras. Usando un 30% de algodn parece que se fabrican las mejores fibras, es decir, las de mayor fortaleza
35
% de algodn
Tabla ANOVA
s2 R
Variabilidad explicada por el modelo, tambin conocida como variabilidad entre grupos. Variabilidad no explicada por el modelo, tambin conocida como variabilidad intra grupos Estadstico o test F
36
En cambio, s se han detectado diferencias entre los niveles de 15% y 35% de algodn
37
Diagnosis: Normalidad
Para comprobar la suposicin de normalidad podemos utilizar la grfica de probabilidad normal de los residuos. Si la distribucin de los errores es normal, esta grfica parecer una lnea recta. Pasos a seguir
1.
porcentaje
Despus de haber realizado el anlisis ANOVA de un factor, en el botn de guardar resultados, le pediremos que nos guarde los residuos (RESIDUALS). Aparecer en la hoja de datos una nueva columna con los residuos. Vamos a hacer un anlisis unidimensional de los residuos: Men Descripcin>Datos Numricos>Anlisis unidimensional y metemos los residuos (RESIDUALS) en Datos. En las opciones grficas del anlisis unidimensional pedimos que nos represente el grfico de probabilidad normal.
2. Los residuos se ajustan bastante bien a una recta, as que se puede considerar que la hiptesis de normalidad no se viola
3.
38
2,2
4,2
6,2
RESIDUALS
Diagnosis: Normalidad
La grfica de probabilidad normal es una representacin grfica de la distribucin acumulada de los residuos sobre papel de probabilidad normal.
Cuando hablamos de papel de probabilidad normal nos referimos a aquel en el que la escala de ordenadas (el eje Y) es tal que si representamos la distribucin acumulada de una normal lo que obtenemos es una recta.
Para obtener la grfica de probabilidad normal, se ordenan los n residuos de menor a mayor y se representa el k-simo residuo ordenado contra su punto de probabilidad acumulada: (k-0.5)/n, en papel de probabilidad normal.
39
Este proceso lo hace directamente el Statgraphics siguiente los pasos descritos en la pgina anterior.
2 0 -2 -4 -6 9 12 15 18 21 24
Despus de haber realizado el anlisis ANOVA de un factor, en el botn de opciones grficas, seleccionaremos la opcin Residuo frente a predicho para que nos represente dicho grfico.
En este grfico no se observa ningn patrn ni forma de embudo, por lo que se puede considerar que los datos satisfacen las hiptesis de linealidad y homocedasticidad.
residuo
40
fortaleza predicho
41
Diagnosis: Independencia
Para comprobar la suposicin de independencia de los datos, es interesante graficar los residuos frente al orden temporal en el que stos han sido recopilados. Si en este grfico se detecta una tendencia a tener rachas con residuos positivos y negativos, esto nos indicar que los datos no son independientes. Si se han tomados los datos mediante un procedimiento de aleatorizacin (como ya se coment al comienzo de esta presentacin, vase pg. 4), entonces es de esperar que hayamos asegurado la independencia de las observaciones y que no se observen esas rachas. Supongamos que a medida que avanza el proceso la habilidad del experimentador o experimentadores cambia a medida que el experimento se desarrolla (se hace ms errtico, debido al cansancio, o por el contrario, se hace ms experto,por la experiencia adquirida). En situaciones como esta puede suceder que la varianza de los datos cambie con el tiempo. Este tipo de problema se puede detectar en el grfico de residuos frente al tiempo, porque se ver cmo la dispersin de los residuos se hace mayor o menor a medida que el tiempo transcurre. Es muy importante evitar este tipo de problemsa en el momento de la recogida de datos (en el momento de la experimentacin). El anlisis de la varianza es vlido si, entre otros supuestos, se cumple el de varianza constante e independencia.
42