Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Anova PDF
Anova PDF
Muchas preguntas de investigacin en educacin, psicologa, negocios, industria y ciencias naturales tienen que ver con la
comparacin de varios grupos o tratamientos. Ya estudiamos como comparar diferencias entre dos tratamientos cuando las
poblaciones son independientes, ahora nos interesa comparar ms de dos poblaciones. La pregunta de inters del
investigador ser existen diferencias significativas entre las medias de los tratamientos? Si comprueba que existen
diferencias significativas, entonces le interesar saber cules de las poblaciones o tratamientos comparados son diferentes?
Primero necesitamos saber cmo contestar la pregunta general. El procedimiento para determinar si existen diferencias
significativas entre varias poblaciones o grupos se llama Anlisis de Varianza, y nos vamos a referir a l usando las letras
ANOVA por Analysis of Variance, en ingls. ANOVA es un nombre genrico y se usa para una variedad inmensa de
modelos de comparacin de medias, tambin conocido como diseo de experimentos. Por ahora slo hablaremos del
ANOVA simple, de un factor, o de una va (one way ANOVA), que se refiere a la comparacin de medias de dos o ms
tratamientos. Vamos a llamar factor a una variable cualitativa que usaremos para designar a los grupos o tratamientos a
comparar. Los niveles del factor sern el nmero de tratamientos o grupos.
El anlisis de varianza es similar al anlisis de regresin y en realidad los dos pertenecen a la gran familia de los modelos
lineales. Los modelos lineales se caracterizan por investigar la relacin entre una variable respuesta cuantitativa y una o ms
variables explicatorias. Sin embargo el anlisis de varianza difiere del anlisis de regresin en que en el ANOVA las
variables explicatorias son cualitativas o factores.
Lo que nos interesa en el anlisis de varianza de una va es extender el test t para dos muestras independientes, para
comparar ms de dos muestras.
ANOVA de una va
Caso 1: Un mdico quiere comparar la efectividad de tres tratamientos para reducir el colesterol de pacientes con altos
niveles de colesterol sanguneo. Se asignan aleatoriamente 60 individuos a los tres tratamientos (20 en cada uno) y se
registra la reduccin de colesterol de cada paciente.
Caso 2: Una ecloga est interesada en comparar la concentracin de cadmio en 5 ros. Recolecta 50 muestras de agua (10
muestras en cada ro) y mide la concentracin de cadmio.
Estos dos casos tienen similitudes. En ambos tenemos una variable respuesta cuantitativa (reduccin del colesterol,
concentracin de cadmio) medida en varias unidades (personas y muestras de agua). Esperamos que la respuesta sea Normal
en ambos casos. Queremos comparar varias poblaciones, tres tratamientos en el caso 1 y 5 ros en el caso 2. El caso 1 es un
experimento en el cual los pacientes son asignados aleatoriamente a los tratamientos. En el caso 2 es un estudio
observacional simplemente se toman muestras de distintos ros. En ambos casos podemos usar el ANOVA para analizar los
datos.
En el caso 1 usaremos un anlisis de varianza de un factor con 3 niveles. En el caso 2 usaremos un anlisis de varianza de
un factor con 5 niveles.
TOMATES
Porqu las plantas de tomate crecen con diferente tamao? Un tomatero quiere comparar el efecto de tres fertilizantes (A,
B y C) en el crecimiento de sus plantas de tomate. Seleccion 15 plantas de tomate de una semana y las plant en diferentes
maceteros. Asign aleatoriamente los 3 fertilizantes y se los administr a las plantas por 45 das. La figura muestra la altura
de las plantas (en cms).
Qu ocurri con la altura de estas plantas? Las plantas de tomate son todas de la misma variedad y de la misma edad.
Adems recibieron el mismo cuidado. Qu razones hay para que las plantas crezcan a diferente altura?
Es desarrollo de este tema de estudio se debe principalmente al trabajo de Sir Ronald Fisher, cuyas contribuciones a la
estadstica, desde 1912 hasta 1962, tuvieron una gran influencia en toda la estadstica moderna.
1
50
Altura (cms)
45
40
35
30
0
Fertilizantes
Datos:
Fertilizante
B
41
42
43
44
46
A
31
32
36
38
39
C
35
36
36
37
38
2!2!
1!2!
H0 : 1 = 2
H 0 : 1 = 3
H0 : 1 = 4
H1 : 1 2
H1 : 1 3
H1 : 1 4
=0,05
=0,05
=0,05
H0 : 2 = 3
H 0 : 2 = 4
H0 : 3 = 4
H1 : 2 3
H1 : 2 4
H1 : 3 4
=0,05
=0,05
=0,05
A medida que aumenta el nmero de grupos, no podemos garantizar que se mantenga el nivel de significacin. Para
solucionar este problema es que hacemos primero una pregunta global y dependiendo del resultados seguimos investigando
pares de grupos.
N ( k , )
N ( 2 , )
N (1 , )
m.a.s.
tamao
n1
m.a.s.
tamao
n2
m.a.s.
tamao
nk
...
Poblacin k
Poblacin 2
Poblacin 1
nk
(homocedasticidad).
HIPOTESIS GLOBAL
Usaremos i para representar la media del grupo i, entonces estaremos interesados en docimar la siguiente hiptesis:
H 0 : 1 = 2 = ... = k
H 1 : al menos dos medias no son iguales
Graficamente podemos representar esta hiptesis:
Normal
===
1 2 3
=
1 2
Normal
TOMATES continuacin
Hiptesis de inters:
H 0 : 1 = 2 = 3
H1 : al menos dos medias no son iguales.
Con un nivel de significacin =0,05
3
Datos:
35.20
Desviacin
tpica
3.564
43.20
1.924
36.40
1.140
15
38.27
4.284
Total
Media
ni
n1
n2
n3
yi
y1
y2
y3
si
s1
s2
s3
Fuentes de variacin
El anlisis de varianza se define como una tcnica en la que la variabilidad de un conjunto de datos se divide en varios
componentes y cada unos de ellos se asocia a una fuente especfica de variacin, de manera que durante el anlisis es
posible encontrar la magnitud con la que contribuye cada una de esas fuentes en la variacin total.
El nombre ANOVA es porque para comparar las medias de los grupos o tratamientos necesitamos identificar las distintas
fuentes de variabilidad.
La variabilidad de la variable respuesta, sin referencia a ningn factor que la pudiera estar afectando, se conoce como
variabilidad total.
La variabilidad de la variable respuesta que se atribuye a factores especficos se conoce como variabilidad explicada. Mide
la variabilidad entre los diferentes grupos.
La variabilidad de la variable respuesta de las unidades (experimentales) dentro de cada nivel del factor se conoce como
variabilidad no-explicada.
Se desprende que: Variabilidad total = variabilidad explicada + variabilidad no explicada
En el ejemplo de los tomates distinga las fuentes de variacin.
Para docimar la hiptesis global acerca de las medias usaremos el test estadstico F. Este test contrasta la variabilidad
entre los grupos con la variabilidad que ser natural dentro de los grupos.
F=
Pensemos
Caso A:
Case B:
Si las medias muestrales son exactamente iguales, cul ser el numerador del test F?
Si las medias muestrales son muy distintas entre los grupos, como ser la variabilidad entre comparada
con el caso A?
Qu valores puede tener el estadstico F? F puede ser negativo? Qu tipo de valores de F sern a favor de la hiptesis
alternativa?
Medias cuadrticas
El test estadstico del ANOVA es la razn entre dos medidas de variacin de los datos muestrales. El test estadstico F
compara la variacin entre los promedios de los grupos con la variacin natural dentro de los grupos. Formalmente estas
dos medidas de variacin se llaman medias cuadrticas, as en el numerador tendemos la media cuadrtica entre los
grupos (MCE) y en el denominador la media cuadrtica dentro de los grupos (MCD).
F=
Las dos medidas de variabilidad en ANOVA, MCE y MCD tienen la misma forma.
Media cuadrtica =
Entre ms grande sea la variacin entre las medias muestrales comparada con la variacin natural dentro de las muestras,
mayor evidencia a favor de diferencias entre las medias poblacionales. En vista de que slo valores grandes del test
estadstico nos sirven para rechazar la hiptesis nula, los test F de ANOVA son unilaterales (de una cola) con la direccin
del extremo hacia la derecha. El valor p ser la probabilidad de observar un test estadstico tan o ms grande.
Distribucin F de Fisher
Bajo H 0 el test estadstico F que se calcula en el ANOVA tiene una distribucin F de Fisher con (k-1, n-k) grados de
libertad. Caractersticas:
La distribucin es sesgada a la derecha
Sus valores son positivos, empiezan en cero y se extienden hasta infinito
La curva de la distribucin queda definida por los grados de libertad del numerador y del denominador
GRAFICOS
Se muestran dos grficos de caja. Cada uno representa el resultado de sacar 3 muestras aleatorias independientes de tres
poblaciones normales. En cul de los dos grficos cree usted que podemos rechazar la hiptesis nula
H 0 : 1 = 2 = 3 ?
Respuesta
Respuesta
Grupo 1
Grupo 2
Grupo 3
Grupo 1
Grupo 2
Grupo 3
Cmo calculamos F
Cuando tenemos una muestra aleatoria de una poblacin con varianza desconocida 2, vamos a estimar esta varianza con la
varianza muestral s2. La varianza muestral se calcula tomando la suma de los cuadrados de las desviaciones a la media y
dividiendo por los grados de libertad (n-1). En este caso cada muestra aleatoria, una por cada k poblaciones, tiene su media
muestral y su varianza muestral representados por:
y1 , y 2 ,..., y k
y=
n1 y1 + n 2 y 2 + L + n k y k
n
La media cuadrtica ENTRE los grupos o media cuadrtica de los tratamientos se calcula como:
MCE =
SCE
k 1
SCE = n1 ( y1 y ) + n2 ( y 2 y ) + L + nk ( y k y ) =
2
n (y
i
y)
grupos
grupos
MCD =
SCD
nk
(n
1)si2
grupos
grupos
Note que esta cantidad es una extensin de la estimacin combinada de la varianza empleada para la prueba t de 2 muestras:
s 2p =
1)s k2
n1 + n 2 + L + n k k
SCT =
(y
ij
observaciones
y) =
2
observaciones
La variacin total puede ser particionada entre las dos fuentes de variacin entre y dentro. La relacin entre las sumas de
cuadrados es:
SCT = SCE + SCD .
Si se tienen dos de las sumas de cuadrados, se obtiene la tercera fcilmente.
Tabla ANOVA
Todo esto se resume en la tabla de Anlisis de Varianza, en que se presentan las fuentes de variacin, los grados de libertad, las
sumas de cuadrados y las medias cuadrticas correspondientes:
TABLA DE ANALISIS DE VARIANZA
gl
Fuente de variacin Grados de libertad
Entre tratamientos
k 1
SC
Suma de Cuadrados
k
SCE = ni ( yi y )
MC
Medias cuadrticas
SCE
k 1
i =1
Dentro de tratamientos
nk
n 1
F=
MCE
MCD
SCD
nk
Total
SCT = ( y ij y )
n
i =1
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
186.133
Media
cuadrtica
93.067
70.800
12
5.900
256.933
14
gl
F
15.774
Sig.
.000
Realice los clculos para docimar la hipotesis de inters del tomatero. Compruebe sus resultados con tabla salida del
SPSS.
Compruebe la relacin entre las sumas de cuadrados y la de los grados de libertad.
Escriba su conclusin para el tomatero.
Los supuestos del ANOVA son exactamente los mismos que los de la prueba t para comparar dos grupos1.
1.
los grupos o tratamientos son independientes entre s, por ejemplo en un diseo experimental, los tratamientos son
asignados a grupos de personas asignados al azar. Este supuesto es parte del diseo experimental, o en caso de que el
estudio sea observaciones se verifica en los datos.
2.
H 0 : 12 = 22 = L = k2
Test Estadstico
Distribucin bajo Ho
En el libro de Hopkins & Hopkins & Glass aparece una discusin detallada sobre la verificacin de supuestos pag. 202207.
8
Para FERTIL= A
Para FERTIL= B
1.0
.5
.5
0.0
0.0
Normal esperado
Normal esperado
1.0
-.5
-1.0
30
32
34
36
38
-.5
-1.0
40
40
Valor observado
41
42
43
44
45
46
47
Valor observado
.5
Normal esperado
0.0
-.5
-1.0
34.5
35.0
35.5
36.0
36.5
37.0
37.5
38.0
38.5
Valor observado
ALTURA
FERTILIZ
A
A
Kolmogorov-Smirnov(a)
Estadstico
.215
gl
.141
Shapiro-Wilk
Sig.
.200(*)
Estadstico
.901
.200(*)
.200(*)
.237
5
* Este es un lmite inferior de la significacin verdadera.
a Correccin de la significacin de Lilliefors
gl
5
Sig.
.415
.979
.928
.961
.814
gl1
gl2
2
Sig.
12
.021
Estadstico(a)
22.565
gl1
2
gl2
6.942
Sig.
.001
a Distribuidos en F asintticamente.
Comparaciones mltiples
En el ANOVA estamos tratando de comparar varios promedios poblacionales, es decir estamos haciendo comparaciones
mltiples. El procedimiento nos indica que primero hacemos un test global para saber si existen diferencias en al menos uno
los promedios. Si la respuesta es negativa (es decir aceptamos la hiptesis de que las medias son iguales) no es necesario, ni
til, seguir haciendo comparaciones. Pero si los datos son estadsticamente significativos, entonces la pregunta siguiente es:
cules medias o grupos difieren?
El llamado problema de comparaciones mltiples se debe a que cuando tenemos ms de dos grupos a comparar, aumenta el
nmero de pares de comparaciones y el nivel de significacin establecido ya no es 0,05 sino mayor. Existe controversia
en este tema, pero las revistas de corriente principal en general requieren el uso de mtodos de comparaciones mltiples al
hacer un ANOVA en sus publicaciones.
Existen diferentes mtodos de comparaciones mltiples, primero lo ms simple sera realizar test t para cada par de medias,
esto se conoce como contrastes y "estn permitidos" cuando las comparaciones a realizar han sido pre-planeadas en el
diseo o protocolo del estudio. Sin embargo, a pesar de poder justificar como pre-planeadas o a- priori, los llamados
mtodos post-hoc son los ms seguros. Los mtodos de comparaciones mltiples o post-hoc nos permiten comparar las
medias con un nivel de significacin global de =0,05.
En este curso revisaremos los contrastes (a-priori) y el mtodo de Tukey (post-hoc), SPSS realiza muchos otros mtodos
que pudieran ser tiles y que siguen la misma filosofa de Tukey.
Contrastes
Realizar contrastes es equivalente a realizar test t para comparar medias de todos los posibles pares de combinaciones:
t=
yi y j
MCD
1
ni
1
nj
-1
-1
-1
:11 1 2 + 0 3 = 0 , es decir H 0 : 1 2 = 0
:11 + 0 2 1 3 = 0 , es decir H 0 : 1 3 = 0
: 0 1 + 1 2 1 3 = 0 , es decir H 0 : 2 3 = 0
10
ALTURA
Asumiendo
igualdad de
varianzas
Valor del
contraste
-8.00
Error tpico
1.536
t
-5.208
-1.20
1.536
6.80
1.536
Contraste
1
gl
12
Sig. (bilateral)
.000
-.781
12
.450
4.426
12
.001
Test de Tukey
El test de Tukey es bastante conocido y aceptado en la literatura. La prueba estadstica que utiliza el mtodo de Tukey es la
estadstica de rango estudentizado, q, donde
q=
yi y j
MCDq
~ q(k , n k )
Existen tablas para la estadstica de rango estudentizado pero no las vamos a necesitar, usaremos los resultados de SPSS.
Comparaciones mltiples
Intervalo de confianza al
95%
Diferencia de
medias (I-J)
-8.00(*)
-1.20
Error tpico
1.536
1.536
Sig.
.001
.721
Lmite inferior
-12.10
-5.30
Lmite
superior
-3.90
2.90
8.00(*)
1.536
.001
3.90
12.10
6.80(*)
C
A
1.20
B
-6.80(*)
* La diferencia entre las medias es significativa al nivel .05.
1.536
1.536
1.536
.002
.721
.002
2.70
-2.90
-10.90
10.90
5.30
-2.70
HSD de Tukey
(I) Fertilizante
A
(J) Fertilizante
B
C
A
C
Notar que el error estndar es el mismo, lo que cambia es la distribucin que estamos usando como referencia, y por lo tanto
cambia el valor- p.
Subconjuntos homogneos
Fertilizante
HSD de
Tukey(a)
35.20
36.40
Sig.
43.20
.721
1.000
Una manera de presentar los resultados es con el grfico que muestra las medias de cada grupo y sus intervalos de 95% de
confianza:
Nota final:
11
1.
Describir los grupos y verificar los supuestos, se recomienda una descripcin numrica (promedio y error estndar) y
descripcin grfica (box)
50
45
40
40
ALTURA
30
20
N=
95% IC ALTURA
35
30
25
20
N=
Fertilizante
Fertilizante
2.
2a) Si no se obtiene normalidad, se pueden trasformar los datos2 o usar mtodos no paramtricos (otro captulo).
2b) Si no se obtiene homogeneidad de varianza: se pueden trasformar los datos o usar mtodos no paramtricos o
realizar el Test de Welch (para comparar las medias)
3.
Tabla de ANOVA
3a) Si F grande, valor p menor a 0,05 entonces: Test de comparaciones mltiples
3b) Si valor p mayor a 0,05 quiere decir que no hay diferencias estadsticamente significativas entre los promedios y
por lo tanto no hay ms preguntas.