Documentos de Académico
Documentos de Profesional
Documentos de Cultura
clsico
Juan R Gonzlez
2002
Anlisis de la varianza
Comparacin de ms de dos medias
Variable dependiente Y variable independiente
X con k categoras
Hiptesis
La variable cuantitativa se distribuye normalmente en todos
los grupos
Las observaciones son independientes
La variable cuantitativa tiene la misma variancia en todos los
grupos (homocedasticidad)
Anlisis de la varianza
Idea intuitiva
Y es homocedastica
(misma varianza)
Anlisis de la varianza
Notacin: Yij medida j-sima (j=1,,n) observada en el
grupo i-simo (i=1,,k)
Grupo i obs.
1
2
3
.
.
k
n1
nk
Media
n1
y1 j
j =1
n1
y1 =
nk
ykj
j =1
nk
yk =
k
Total
y=
nk
y
i =1 j =1
ij
Anlisis de la varianza
Variabilidad total (SC total): Mide las desviaciones de cada observacin a
la media total
y ij y
ni
SCT = ( y ij y )2
i =1 j =1
yi y
SCE = ni ( y i y )2
i =1
y ij y i
ni
SCI = ( y ij y i )2
i =1 j =1
Anlisis de la varianza
Tabla de la varianza
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Media de
cuadrados
k-1
MCE=SCE/k-1
Intra grupos
SCI
n-k
MCI=SCI/n-k
Total
SCT
n-1
Comparar con una Fk-1,n-k
Estadstico
F
MCE
F=
MCI
Anlisis de la varianza
Ejemplo
Individuo
1
2
3
4
Grupo A
49,5
62,8
46,8
57
Grupo B
59,8
58,5
55,5
56
Grupo C
62,8
55,8
69,5
55
Grupo D
62
48,8
45,5
44,2
54,03
57,45
60,78
50,13
Media
ni
55,59
n1
n2
n3
n4
j =1
j =1
j =1
j =1
i =1 j =1
SCE = ni ( y i y )2 = 4 * [(54,03 55,59)2 + (57,45 55,59)2 + (60,78 55,59)2 + (50,13 55,59)2 ] = 250,63
i =1
ni
n1
n2
n3
n4
j =1
j =1
j =1
j =1
Anlisis de la varianza
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Media de
cuadrados
k-1=3
83,55
Intra grupos
508,65
n-k=12
Total
759,29
n-1=15
Comprobar
42,39
Estadstico
F
1,97
P(F3,12)>1,97=0,1722
Anlisis de la varianza
Ejemplo: Comparamos el pulso en reposo entre los
corredores de 5 equipos de ciclistas profesionales. hay
diferencias?
62
60
58
56
Media de PULSO
54
52
50
48
1,00
EQUIPO
2,00
3,00
4,00
5,00
6,00
Anlisis de la varianza
Descriptivos
PULSO
N
1,00
2,00
3,00
4,00
5,00
6,00
Total
4
4
4
4
4
4
24
Media
54,0250
57,4500
60,7750
50,1250
50,5250
56,3500
54,8750
Desviacin
tpica
7,2693
2,0437
6,7904
8,1500
1,4863
2,4352
6,1727
Error tpico
3,6346
1,0218
3,3952
4,0750
,7432
1,2176
1,2600
Mnimo
46,80
55,50
55,00
44,20
48,80
53,20
44,20
ANOVA
PULSO
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
343,295
533,070
876,365
gl
5
18
23
Media
cuadrtica
68,659
29,615
F
2,318
Sig.
,086
Mximo
62,80
59,80
69,50
62,00
52,00
59,00
69,50
Anlisis de la varianza
Ejercicio: Con los datos de hipertensin, comprobar
si hay un descenso en la PAD y PAS segn el
frmaco utilizado
Plantear la prueba de hiptesis
Representar grficamente el efecto medio para cada
frmaco
Obtener la tabla ANOVA
Anlisis de la varianza
Efectos fijos y aleatorios
Modelo de efectos fijos: Cuando los resultados
obtenidos slo son validos para esos determinados
valores del factor (factores constantes)
Sexo, edad, nivel de estudios,
Modelo de efectos aleatorios: Cuando los resultados
obtenidos son vlidos, sean cual sean los niveles de
factor empleado
Da, familia, mdico
Ambos: Dosis frmaco, test,
Anlisis de la varianza
Hiptesis:
Normalidad de los datos en todos los grupos
Si no se cumple no afecta demasiado al clculo de la
F (robustez)
Homocedasticidad
Si los tamaos muestrales son iguales, la presencia
de varianzas heterogneas, produce un efecto
mnimo en el contraste-F
Si los tamaos son diferentes y las varianzas
heterogneas produce un gran efecto en el
contraste-F
Anlisis de la varianza
Comprobar normalidad
Mismos test que en regresin lineal
Histograma
QQ,PP plot
Test de bondad de ajuste (Kolmogorov-Smirnov)
Anlisis de la varianza
Comprobar heterogeneidad de varianzas
Test de Levene que proporciona el SPSS
Anlisis de la varianza
Para el ejemplo de pulso
Prueba de homogeneidad de varianzas
PULSO
Estadstico
de Levene
3,507
gl1
gl2
5
18
Sig.
,022
Anlisis de la varianza
Si no se cumple
Generalmente una transformacin Box-Cox
soluciona el problema:
Raz cuadrada de la variable: y1/2
Raz cuadrada + de la variable: y1/2+
Logaritmo neperiano de la variable: ln(y)
Logaritmo neperiano de la variable + 1: ln(y+1)
Arcoseno de la raz cuadrada de la variable:
arcsen(y1/2 )
Anlisis de la varianza
cul escoger?
CON SPSS: Analizar, Estadsticos descriptivos,
Explorar
Obtendremos un valor p que si es 0 la
transformacin es logartmica y si es distinto de 0
ser xp
Ejercicio: Probar con los datos Cuadrticos
Anlisis de la varianza
Con SPSS tras poner variables Y e X
Anlisis de la varianza
Ejercicio: Con los datos de hipertensin, validar las
hiptesis del modelo
Normalidad
Homocedasticidad
En caso de necesitar una transformacin cul es la
adecuada?
Anlisis de la varianza
Comparaciones mltiples
Se han detectado diferencias mediante un ANOVA.
Pero, entre qu grupos hay diferencias?
Problema del pescador de p-valores
Problema de multiplicidad de contrastes
Anlisis de la varianza
Comparaciones mltiples
Mltiples contrastes aumentan el riesgo global:
r = 1-(1-)k
1
2
5
10
50
100
1000
0,05
0,08
0,14
0,19
0,32
0,37
0,53
Anlisis de la varianza
Comparaciones mltiples. Soluciones
Comparaciones simultneas (se utiliza el mismo
estadstico para cada par de comparaciones)
Procedimientos secuenciales (se comparan las
medias dos a dos ordenadas crecientemente)
Anlisis de la varianza
Mtodo de la menor diferencia significativa (LSD)
Similar a construir el IC mediante la t de Student
Necesita homogeneidad de varianzas (test de
Levene significativo)
El intervalo de confianza al nivel 1- para i-j se
construye como:
Anlisis de la varianza
Mtodo de Tukey (HSD)
Se aplica cuando se quieren comparar todos los
pares de posibles medias i j con ij
Cuando todos los n son iguales globalmente se
tiene 1- de confianza. Si no es superior.
Se calcula
1/ 2
Anlisis de la varianza
Mtodo de Tukey (HSD) (cont.)
q es una cota entre la comparacin de cualquier
media
Procedimiento: Para comparar i j con ij, se
determina la diferencia francamente ms significativa
(Honesty Significant Difference, HSD) entre y i e y j
SPSS da los valores de HSD y se puede construir
un IC como:
y i y j HSD
Anlisis de la varianza
Mtodo de Bonferroni
Correccin del total por el nmero de contrastes a
realizar
Recomendable con pocas comparaciones
Otros:
Scheff
Newman-Keuls
Duncan
,
Anlisis de la varianza
Con SPSS
Anlisis de la varianza
Comparaciones mltiples
Variable dependiente: PULSO
Bonferroni
(I) EQUIPO
1,00
2,00
3,00
4,00
5,00
6,00
(J) EQUIPO
2,00
3,00
4,00
5,00
6,00
1,00
3,00
4,00
5,00
6,00
1,00
2,00
4,00
5,00
6,00
1,00
2,00
3,00
5,00
6,00
1,00
2,00
3,00
4,00
6,00
1,00
2,00
3,00
4,00
5,00
Diferencia de
medias (I-J)
-3,4250
-6,7500
3,9000
3,5000
-2,3250
3,4250
-3,3250
7,3250
6,9250
1,1000
6,7500
3,3250
10,6500
10,2500
4,4250
-3,9000
-7,3250
-10,6500
-,4000
-6,2250
-3,5000
-6,9250
-10,2500
,4000
-5,8250
2,3250
-1,1000
-4,4250
6,2250
5,8250
Error tpico
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
Sig.
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
,190
,237
1,000
1,000
1,000
,190
1,000
1,000
1,000
1,000
,237
1,000
1,000
1,000
1,000
1,000
1,000
1,000
Intervalo de confianza al
95%
Lmite
Lmite inferior
superior
-16,4328
9,5828
-19,7578
6,2578
-9,1078
16,9078
-9,5078
16,5078
-15,3328
10,6828
-9,5828
16,4328
-16,3328
9,6828
-5,6828
20,3328
-6,0828
19,9328
-11,9078
14,1078
-6,2578
19,7578
-9,6828
16,3328
-2,3578
23,6578
-2,7578
23,2578
-8,5828
17,4328
-16,9078
9,1078
-20,3328
5,6828
-23,6578
2,3578
-13,4078
12,6078
-19,2328
6,7828
-16,5078
9,5078
-19,9328
6,0828
-23,2578
2,7578
-12,6078
13,4078
-18,8328
7,1828
-10,6828
15,3328
-14,1078
11,9078
-17,4328
8,5828
-6,7828
19,2328
-7,1828
18,8328
(I) EQUIPO
1,00
2,00
3,00
4,00
5,00
6,00
(J) EQUIPO
2,00
3,00
4,00
5,00
6,00
1,00
3,00
4,00
5,00
6,00
1,00
2,00
4,00
5,00
6,00
1,00
2,00
3,00
5,00
6,00
1,00
2,00
3,00
4,00
6,00
1,00
2,00
3,00
4,00
5,00
Diferencia de
Error tpico
medias (I-J)
-3,4250
3,8481
-6,7500
3,8481
3,9000
3,8481
3,5000
3,8481
-2,3250
3,8481
3,4250
3,8481
-3,3250
3,8481
7,3250
3,8481
6,9250*
3,8481
1,1000
3,8481
6,7500
3,8481
3,3250
3,8481
10,6500
3,8481
10,2500
3,8481
4,4250
3,8481
-3,9000
3,8481
-7,3250
3,8481
-10,6500
3,8481
-,4000
3,8481
-6,2250
3,8481
-3,5000
3,8481
-6,9250*
3,8481
-10,2500
3,8481
,4000
3,8481
-5,8250
3,8481
2,3250
3,8481
-1,1000
3,8481
-4,4250
3,8481
6,2250
3,8481
5,8250
3,8481
Sig.
1,000
,978
1,000
1,000
1,000
1,000
1,000
,938
,031
1,000
,978
1,000
,769
,563
,994
1,000
,938
,769
1,000
,979
1,000
,031
,563
1,000
,135
1,000
1,000
,994
,979
,135
Intervalo de confianza al
95%
Lmite
Lmite inferior
superior
-30,4128
23,5628
-30,0599
16,5599
-21,8060
29,6060
-25,0622
32,0622
-28,2142
23,5642
-23,5628
30,4128
-28,1511
21,5011
-23,6423
38,2923
,7055
13,1445
-6,4526
8,6526
-16,5599
30,0599
-21,5011
28,1511
-14,5857
35,8857
-16,1621
36,6621
-19,3310
28,1810
-29,6060
21,8060
-38,2923
23,6423
-35,8857
14,5857
-32,8980
32,0980
-36,0722
23,6222
-32,0622
25,0622
-13,1445
-,7055
-36,6621
16,1621
-32,0980
32,8980
-13,3070
1,6570
-23,5642
28,2142
-8,6526
6,4526
-28,1810
19,3310
-23,6222
36,0722
-1,6570
13,3070
Anlisis de la varianza
Ejercicio: Con los datos de hipertensin,
Anlisis de la varianza
Qu hacer si no podemos aplicar ANOVA?
Pruebas no parametricas Kruskal-Wallis, Friedman,