Está en la página 1de 32

Anlisis de la varianza

clsico
Juan R Gonzlez
2002

Anlisis de la varianza
Comparacin de ms de dos medias
Variable dependiente Y variable independiente
X con k categoras
Hiptesis
La variable cuantitativa se distribuye normalmente en todos
los grupos
Las observaciones son independientes
La variable cuantitativa tiene la misma variancia en todos los
grupos (homocedasticidad)

Testar H0: 1=......= k

Anlisis de la varianza
Idea intuitiva
Y es homocedastica
(misma varianza)

Medias iguales Variabilidad dentro de los grupos


(intra-grupos)

Medias diferentes Variabilidad entre los grupos


(inter-grupos)

ANOVA clsico: Descomposicin de la variabilidad


Variabilidad total= Variabilidad entre grupos + Variabilidad intra grupos
SC total= SC entre grupos + SC intra grupos

Anlisis de la varianza
Notacin: Yij medida j-sima (j=1,,n) observada en el
grupo i-simo (i=1,,k)
Grupo i obs.
1
2
3
.
.
k

n1

nk

Media
n1

y1 j

j =1

n1

y1 =
nk

ykj

j =1

nk

yk =
k

Total

y=

nk

y
i =1 j =1

ij

Anlisis de la varianza
Variabilidad total (SC total): Mide las desviaciones de cada observacin a
la media total

y ij y

ni

SCT = ( y ij y )2
i =1 j =1

Variabilidad entre grupos (SC entre grupos): Mide las desviaciones de


las medias en cada grupo a la media total

yi y

SCE = ni ( y i y )2
i =1

Variabilidad intra grupos (SC intra grupos): Mide las desviaciones de


cada observacin a la media del grupo correspondiente

y ij y i

ni

SCI = ( y ij y i )2
i =1 j =1

Anlisis de la varianza
Tabla de la varianza
Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Media de
cuadrados

Entre grupos SCE

k-1

MCE=SCE/k-1

Intra grupos

SCI

n-k

MCI=SCI/n-k

Total

SCT

n-1
Comparar con una Fk-1,n-k

Estadstico
F

MCE
F=
MCI

Anlisis de la varianza
Ejemplo
Individuo
1
2
3
4

Grupo A
49,5
62,8
46,8
57

Grupo B
59,8
58,5
55,5
56

Grupo C
62,8
55,8
69,5
55

Grupo D
62
48,8
45,5
44,2

54,03

57,45

60,78

50,13

Media

ni

55,59

n1

n2

n3

n4

j =1

j =1

j =1

j =1

SCT = ( y ij y ) = ( y1 j 55,59) + ( y 2 j 55,59) + ( y 3 j 55,59) + ( y 4 j 55,59) = 759,29


2

i =1 j =1

SCE = ni ( y i y )2 = 4 * [(54,03 55,59)2 + (57,45 55,59)2 + (60,78 55,59)2 + (50,13 55,59)2 ] = 250,63
i =1

ni

n1

n2

n3

n4

j =1

j =1

j =1

SCI = ( y ij y i ) = ( y1 j 54,03) + ( y 2 j 57,45) + ( y 3 j 60,78) + ( y 4 j 50,13) = 508,65


i =1 j =1

j =1

Anlisis de la varianza

Fuente de
variacin

Suma de
cuadrados

Entre grupos 260,64

Grados de
libertad

Media de
cuadrados

k-1=3

83,55

Intra grupos

508,65

n-k=12

Total

759,29

n-1=15

Comprobar

42,39

Estadstico
F

1,97

P(F3,12)>1,97=0,1722

Anlisis de la varianza
Ejemplo: Comparamos el pulso en reposo entre los
corredores de 5 equipos de ciclistas profesionales. hay
diferencias?
62

60

58

56

Media de PULSO

54

52

50
48
1,00

EQUIPO

2,00

3,00

4,00

5,00

6,00

Anlisis de la varianza
Descriptivos
PULSO

N
1,00
2,00
3,00
4,00
5,00
6,00
Total

4
4
4
4
4
4
24

Media
54,0250
57,4500
60,7750
50,1250
50,5250
56,3500
54,8750

Desviacin
tpica
7,2693
2,0437
6,7904
8,1500
1,4863
2,4352
6,1727

Intervalo de confianza para


la media al 95%
Lmite
Lmite inferior
superior
42,4579
65,5921
54,1980
60,7020
49,9700
71,5800
37,1565
63,0935
48,1599
52,8901
52,4751
60,2249
52,2685
57,4815

Error tpico
3,6346
1,0218
3,3952
4,0750
,7432
1,2176
1,2600

Mnimo
46,80
55,50
55,00
44,20
48,80
53,20
44,20

ANOVA
PULSO

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
343,295
533,070
876,365

gl
5
18
23

Media
cuadrtica
68,659
29,615

F
2,318

Sig.
,086

Mximo
62,80
59,80
69,50
62,00
52,00
59,00
69,50

Anlisis de la varianza
Ejercicio: Con los datos de hipertensin, comprobar
si hay un descenso en la PAD y PAS segn el
frmaco utilizado
Plantear la prueba de hiptesis
Representar grficamente el efecto medio para cada
frmaco
Obtener la tabla ANOVA

Anlisis de la varianza
Efectos fijos y aleatorios
Modelo de efectos fijos: Cuando los resultados
obtenidos slo son validos para esos determinados
valores del factor (factores constantes)
Sexo, edad, nivel de estudios,
Modelo de efectos aleatorios: Cuando los resultados
obtenidos son vlidos, sean cual sean los niveles de
factor empleado
Da, familia, mdico
Ambos: Dosis frmaco, test,

Anlisis de la varianza
Hiptesis:
Normalidad de los datos en todos los grupos
Si no se cumple no afecta demasiado al clculo de la
F (robustez)
Homocedasticidad
Si los tamaos muestrales son iguales, la presencia
de varianzas heterogneas, produce un efecto
mnimo en el contraste-F
Si los tamaos son diferentes y las varianzas
heterogneas produce un gran efecto en el
contraste-F

Anlisis de la varianza
Comprobar normalidad
Mismos test que en regresin lineal
Histograma
QQ,PP plot
Test de bondad de ajuste (Kolmogorov-Smirnov)

Anlisis de la varianza
Comprobar heterogeneidad de varianzas
Test de Levene que proporciona el SPSS

Anlisis de la varianza
Para el ejemplo de pulso
Prueba de homogeneidad de varianzas
PULSO
Estadstico
de Levene
3,507

gl1

gl2
5

18

Sig.
,022

Anlisis de la varianza
Si no se cumple
Generalmente una transformacin Box-Cox
soluciona el problema:
Raz cuadrada de la variable: y1/2
Raz cuadrada + de la variable: y1/2+
Logaritmo neperiano de la variable: ln(y)
Logaritmo neperiano de la variable + 1: ln(y+1)
Arcoseno de la raz cuadrada de la variable:
arcsen(y1/2 )

Anlisis de la varianza
cul escoger?
CON SPSS: Analizar, Estadsticos descriptivos,
Explorar
Obtendremos un valor p que si es 0 la
transformacin es logartmica y si es distinto de 0
ser xp
Ejercicio: Probar con los datos Cuadrticos

Anlisis de la varianza
Con SPSS tras poner variables Y e X

Anlisis de la varianza
Ejercicio: Con los datos de hipertensin, validar las
hiptesis del modelo
Normalidad
Homocedasticidad
En caso de necesitar una transformacin cul es la
adecuada?

Anlisis de la varianza
Comparaciones mltiples
Se han detectado diferencias mediante un ANOVA.
Pero, entre qu grupos hay diferencias?
Problema del pescador de p-valores
Problema de multiplicidad de contrastes

Anlisis de la varianza
Comparaciones mltiples
Mltiples contrastes aumentan el riesgo global:
r = 1-(1-)k

1
2
5
10
50
100
1000

0,05
0,08
0,14
0,19
0,32
0,37
0,53

Anlisis de la varianza
Comparaciones mltiples. Soluciones
Comparaciones simultneas (se utiliza el mismo
estadstico para cada par de comparaciones)
Procedimientos secuenciales (se comparan las
medias dos a dos ordenadas crecientemente)

Anlisis de la varianza
Mtodo de la menor diferencia significativa (LSD)
Similar a construir el IC mediante la t de Student
Necesita homogeneidad de varianzas (test de
Levene significativo)
El intervalo de confianza al nivel 1- para i-j se
construye como:

y i y j t / 2,n r (MCI (1 / ni + 1 / n j ))1 / 2

Anlisis de la varianza
Mtodo de Tukey (HSD)
Se aplica cuando se quieren comparar todos los
pares de posibles medias i j con ij
Cuando todos los n son iguales globalmente se
tiene 1- de confianza. Si no es superior.
Se calcula

q = (max y i min y j ) /(MCI / n )

1/ 2

Anlisis de la varianza
Mtodo de Tukey (HSD) (cont.)
q es una cota entre la comparacin de cualquier
media
Procedimiento: Para comparar i j con ij, se
determina la diferencia francamente ms significativa
(Honesty Significant Difference, HSD) entre y i e y j
SPSS da los valores de HSD y se puede construir
un IC como:

y i y j HSD

Anlisis de la varianza
Mtodo de Bonferroni
Correccin del total por el nmero de contrastes a
realizar
Recomendable con pocas comparaciones
Otros:
Scheff
Newman-Keuls
Duncan
,

Anlisis de la varianza
Con SPSS

Anlisis de la varianza
Comparaciones mltiples
Variable dependiente: PULSO
Bonferroni

(I) EQUIPO
1,00

2,00

3,00

4,00

5,00

6,00

(J) EQUIPO
2,00
3,00
4,00
5,00
6,00
1,00
3,00
4,00
5,00
6,00
1,00
2,00
4,00
5,00
6,00
1,00
2,00
3,00
5,00
6,00
1,00
2,00
3,00
4,00
6,00
1,00
2,00
3,00
4,00
5,00

Diferencia de
medias (I-J)
-3,4250
-6,7500
3,9000
3,5000
-2,3250
3,4250
-3,3250
7,3250
6,9250
1,1000
6,7500
3,3250
10,6500
10,2500
4,4250
-3,9000
-7,3250
-10,6500
-,4000
-6,2250
-3,5000
-6,9250
-10,2500
,4000
-5,8250
2,3250
-1,1000
-4,4250
6,2250
5,8250

Error tpico
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481
3,8481

Sig.
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
,190
,237
1,000
1,000
1,000
,190
1,000
1,000
1,000
1,000
,237
1,000
1,000
1,000
1,000
1,000
1,000
1,000

Intervalo de confianza al
95%
Lmite
Lmite inferior
superior
-16,4328
9,5828
-19,7578
6,2578
-9,1078
16,9078
-9,5078
16,5078
-15,3328
10,6828
-9,5828
16,4328
-16,3328
9,6828
-5,6828
20,3328
-6,0828
19,9328
-11,9078
14,1078
-6,2578
19,7578
-9,6828
16,3328
-2,3578
23,6578
-2,7578
23,2578
-8,5828
17,4328
-16,9078
9,1078
-20,3328
5,6828
-23,6578
2,3578
-13,4078
12,6078
-19,2328
6,7828
-16,5078
9,5078
-19,9328
6,0828
-23,2578
2,7578
-12,6078
13,4078
-18,8328
7,1828
-10,6828
15,3328
-14,1078
11,9078
-17,4328
8,5828
-6,7828
19,2328
-7,1828
18,8328

Si no hay homogeneidad de varianzas


Comparaciones mltiples
Variable dependiente: PULSO
Tamhane

(I) EQUIPO
1,00

2,00

3,00

4,00

5,00

6,00

(J) EQUIPO
2,00
3,00
4,00
5,00
6,00
1,00
3,00
4,00
5,00
6,00
1,00
2,00
4,00
5,00
6,00
1,00
2,00
3,00
5,00
6,00
1,00
2,00
3,00
4,00
6,00
1,00
2,00
3,00
4,00
5,00

Diferencia de
Error tpico
medias (I-J)
-3,4250
3,8481
-6,7500
3,8481
3,9000
3,8481
3,5000
3,8481
-2,3250
3,8481
3,4250
3,8481
-3,3250
3,8481
7,3250
3,8481
6,9250*
3,8481
1,1000
3,8481
6,7500
3,8481
3,3250
3,8481
10,6500
3,8481
10,2500
3,8481
4,4250
3,8481
-3,9000
3,8481
-7,3250
3,8481
-10,6500
3,8481
-,4000
3,8481
-6,2250
3,8481
-3,5000
3,8481
-6,9250*
3,8481
-10,2500
3,8481
,4000
3,8481
-5,8250
3,8481
2,3250
3,8481
-1,1000
3,8481
-4,4250
3,8481
6,2250
3,8481
5,8250
3,8481

*. La diferencia entre las medias es significativa al nivel .05.

Sig.
1,000
,978
1,000
1,000
1,000
1,000
1,000
,938
,031
1,000
,978
1,000
,769
,563
,994
1,000
,938
,769
1,000
,979
1,000
,031
,563
1,000
,135
1,000
1,000
,994
,979
,135

Intervalo de confianza al
95%
Lmite
Lmite inferior
superior
-30,4128
23,5628
-30,0599
16,5599
-21,8060
29,6060
-25,0622
32,0622
-28,2142
23,5642
-23,5628
30,4128
-28,1511
21,5011
-23,6423
38,2923
,7055
13,1445
-6,4526
8,6526
-16,5599
30,0599
-21,5011
28,1511
-14,5857
35,8857
-16,1621
36,6621
-19,3310
28,1810
-29,6060
21,8060
-38,2923
23,6423
-35,8857
14,5857
-32,8980
32,0980
-36,0722
23,6222
-32,0622
25,0622
-13,1445
-,7055
-36,6621
16,1621
-32,0980
32,8980
-13,3070
1,6570
-23,5642
28,2142
-8,6526
6,4526
-28,1810
19,3310
-23,6222
36,0722
-1,6570
13,3070

Anlisis de la varianza
Ejercicio: Con los datos de hipertensin,

Entre qu frmacos existen diferencias?

Anlisis de la varianza
Qu hacer si no podemos aplicar ANOVA?
Pruebas no parametricas Kruskal-Wallis, Friedman,

(Ver sesin 7 con Vctor Moreno)