Está en la página 1de 11

GRUPO 13

29 y 30 de abril.
TEMA 10: ANOVA, anlisis de varianza

INTRODUCCIN:
ANOVA o anlisis de varianza: mtodo para analizar la igualdad o diferencia entre los
parmetros media y varianza de una variable cuantitativa en ms de dos poblaciones.
Hasta ahora hemos estudiado cmo hacer contrastes de hiptesis sobre dos
poblaciones independientes. A continuacin, estudiaremos cmo hacer un contraste de
hiptesis cuando tenemos una variable respuesta CUANTITATIVA en ms de dos poblaciones.
Para ello usaremos el anlisis de varianza o ANOVA.
Imaginemos que queremos estudiar la variable edad (X) en tres poblaciones
independientes (K=3). Lo que nos interesa saber es cmo de diferentes son las tres
poblaciones en cuanto a dicha variable (Ej: edad a la que se diagnostica cncer de mama en
tres poblaciones con genotipos diferentes). Las diferencias entre las tres poblaciones se
pueden deber a diferencias entre sus medias o varianzas.
En medicina este anlisis es muy til cuando interesa estudiar el efecto de 3
tratamientos diferentes para una misma patologa (si esta puede medirse de forma
cuantitativa) y as determinar cul es el ms correcto.
Insistimos en que en principio, estas poblaciones pueden ser diferentes porque sean
diferentes sus medias o sus varianzas.
El anlisis de varianza o ANOVA es la herramienta que vamos a utilizar para realizar
este estudio y se basa en una serie de suposiciones:
1. Normalidad:
La variable respuesta X sigue distribuciones aproximadamente normales en
todas las poblaciones.
Esta suposicin no tiene que cumplirse siempre, ya que si la variable no sigue
una distribucin normal, se puede aproximar a ella. Adems, en general decimos que
el anlisis de varianza es robusto en cuanto a la separacin de la normalidad de la
distribucin de la variable respuesta, es decir, puede ser utilizado aunque haya
desviaciones en las suposiciones.
2. Homocedasticidad:
La variable respuesta tiene varianzas iguales en todas las poblaciones (tambin
lo sern las desviaciones estndar).
Esta condicin se pone porque si todas las varianzas son iguales, la nica
diferencia posible entre las poblaciones se debe obligatoriamente a que exista
diferencia entre las medias. Sin embargo, debido a que el ANOVA es un anlisis
robusto, puede ocurrir que estas varianzas no sean iguales (hay heterodasticidad) y el
anlisis se realizar de forma distinta.

a) HOMOCEDASTICIDAD: el ANOVA analiza la igualdad de medias entre


dichas poblaciones.
b) HETERODASTICIDAD: el ANOVA contrasta la igualdad de medias y
varianzas; la homogeneidad (igualdad) de las poblaciones en cuanto a
estos dos parmetros.
3. Contraste: si hay homocedasticidad contrasta la igualdad de medias.
La alternativa al ANOVA son los tests no paramtricos de Kruskal-Wallis, Wilcoxson o
Mann-Whitney que no hemos estudiado.
HIPTESIS NULA Y ALTERNATIVA PARA EL ANLISIS ANOVA
El anlisis de ANOVA se plantea como el contraste de igualdad de medias entre tres o
ms poblaciones independientes.
H0: todas las medias son iguales.
H1: al menos hay un par de estas medias que son diferentes.
Suponiendo que las varianzas son iguales, el ANOVA contrasta H0. Si las varianzas no
son iguales el ANOVA contrasta la homogeneidad en cuanto a medias y varianzas de las
poblaciones.
EJEMPLO STATA:
Vamos a estudiar cmo hacer un anlisis de varianza mediante un ejemplo en STATA. (Usamos
la base de datos que se encuentra en la carpeta Tema 10. Anlisis de varianza ANOVA en
egela: Polimorfismo.dta. Presenta el resultado de un estudio real).
VARIABLES:
1. Cualitativa: genotype. Poblaciones con diferentes alelos para el gen asociado al
cncer de mama.
-

POBLACIN 1: mujeres homocigotas para el alelo 1.6 (1.6/1.6)


POBLACIN 2: mujeres heterocigotas (1.6/0.7)
POBLACIN 3: mujeres homocigotas para el alelo 0.7 (0.7/0.7)

2. Cuantitativa: age. Edad diagnstico de cncer de mama.


Queremos estudiar la edad al diagnostico del cncer de mama en funcin al genotipo
de cada poblacin. Para ello vamos a representar la variable genotype en una tabla (Comando:
tab genotype).

. tab genotype
Genotipo

Freq.

Percent

Cum.

1.6/1.6
1.6/0.7
0.7/0.7

14
29
16

23.73
49.15
27.12

23.73
72.88
100.00

Total

59

100.00

En esta tabla se expresa el nmero de mujeres con cada genotipo (frecuencia


absoluta), el porcentaje y el porcentaje acumulado. El tamao de la muestra es de 59 mujeres.
A continuacin hacemos un diagrama de cajas (STATA: Graphics, box plot) horizontal
con la edad como variable, en el que haya un diagrama para cada variable categrica
(genotipos). Para ello, en la ventana de diseo de grfico, marcamos en Orientation:
Horizontal, en Variables elegimos age, y en la pestaa Categories tras marcar group 1,
elegimos genotype como Grouping variable (OK).

1.6/1.6

1.6/0.7

0.7/0.7

20

40

60
Edad al diagnostico

80

100

El grfico resultante representa la edad de diagnstico en el eje x, y el genotipo en el


eje y. Tras su interpretacin observamos que las mujeres con un genotipo homocigoto para el
alelo 0.7 son diagnosticadas a edades mucho ms tempranas que las otras dos.
Vamos a comparar las medias de edad de los tres grupos. Para ello, suponiendo que las
varianzas son iguales establecemos la hiptesis nula y la alternativa:
H0: todas las medias son iguales.
H1: al menos una de las medias es diferente.
Para analizar si la hiptesis nula es vlida o no, realizamos un anlisis de varianza. Para ello, en
STATA accedemos a:
Statistics, lineal models and ralated, ANOVA/MANOVA, one way ANOVA.

Elegimos One way ANOVA porque compara una variable continua con una o ms
categricas. Si tuvisemos ms variables continuas usaramos Analysis of variance and
covariance.
En la ventana de edicin de tabla introduciremos los siguientes datos:
Response variable (la variable continua): age
Factor variable (variable cualitativa): genotype.
Multiple-comparison tests: Bonferroni.
Output: Produce summary table

Obtenemos estas tres tablas con el propsito del anlisis de la varianza. En este
estudio, tomar especial importancia la segunda tabla, Analysis of variance.
1. La primera es el resumen de la edad al diagnstico en funcin al genotipo y se
expresan las medias, varianzas y frecuencias absolutas en funcin del genotipo de la
mujer.
. oneway age genotype, bonferroni tabulate

Genotipo

Summary of Edad al diagnostico


Mean
Std. Dev.
Freq.

1.6/1.6
1.6/0.7
0.7/0.7

64.642857
64.37931
50.375

11.181077
13.259535
10.638766

14
29
16

Total

60.644068

13.494268

59

2. En la segunda se expresa el anlisis de varianza:


SS: sumatorio de cuadrados.
df: grados de libertad.
MS: varianza (SS/df).
F: F de Snedecor (MS within groups/MS between groups)
Pob>F: nivel de significacin de los datos (p).

. oneway age genotype, bonferroni tabulate

Genotipo
Source

SS

1.6/1.6
Between 1.6/0.7
groups
Within 0.7/0.7
groups
Total

Summary of Edad al diagnostico


Mean ofStd.
Dev.
Freq.
Analysis
Variance

Total

df

64.642857
2315.73355
64.37931
8245.79187
50.375
10561.5254

60.644068

MS

11.181077
2
1157.86678
13.259535
56
147.246283
10.638766
58

182.095266

13.494268

Bartlett's test for equal variances:

chi2(2) =

0.0010

59
1.0798

Analysis of Variance
SS
df
MS

Source

Prob > F

14
7.86
29
16

Prob>chi2 = 0.583

Prob > F

3. La tercera tabla es el test de comparacin mltiple de Bonferroni. En l se realiza el


grado
de igualdad
de las diferentes
categoras
deduce cul es la7.86
variable diferente
Between
groups
2315.73355
2 y se
1157.86678
0.0010
a las Within
otras que
explica la existencia
de diferencia
entre las medias o varianzas de las
groups
8245.79187
56
147.246283
poblaciones. Se emplea una vez que sabemos que existe diferencia significativa entre
Total
182.095266
las medias
de edad de las10561.5254
poblaciones que58estudiamos
con el propsito de detectar
cul de estas medias difiere del resto.
Bartlett's test for equal variances:

chi2(2) =

1.0798

Prob>chi2 = 0.583

Comparison of Edad al diagnostico by Genotipo


(Bonferroni)
Row MeanCol Mean

1.6/1.6

1.6/0.7

-.263547
1.000

0.7/0.7

-14.2679
0.007

1.6/0.7

-14.0043
0.001

COMANDO: oneway age genotype, bonferroni tabulate


INTERPRETACIN DE LOS DATOS:
. oneway age genotype, bonferroni tabulate

1. PRIMERA TABLA
Genotipo

Source: genotipos
Summary of Edad al diagnstico

Summary of Edad al diagnostico


Mean
Std. Dev.
Freq.

1.6/1.6
1.6/0.7
0.7/0.7

64.642857
64.37931
50.375

11.181077
13.259535
10.638766

14
29
16

Total

60.644068

13.494268

59

Obtenemos las medias (Mean), varianzas (Std. Dev.) y frecuencias absolutas (Freq.) de
cada genotipo. As sabemos que hay 14 mujeres con un genotipo 1.6/1.6 a las que de media
se les diagnostic con 64.64 aos, 29 mujeres de genotipo heterocigoto 1.6/0.7 con una edad
diagnstico de media de 64.34 aos y 16 con genotipo 0.7/0.7 a las que se les diagnostic con
50.37 aos de media. Conclusin: parece ser que este genotipo hace que el diagnstico sea
ms precoz.
En la fila TOTAL obtenemos los mismos datos estadsticos pero sin tener en cuenta el
genotipo de las mujeres, es decir, la media, varianza y tamao de la muestra de todas las
mujeres a las que se les diagnostic cncer de mama, obteniendo una media de edad de 60.64
aos.

2. SEGUNDA TABLA:
Analysis of Variance
SS
df
MS

Source
Between groups
Within groups
Total

2315.73355
8245.79187

2
56

1157.86678
147.246283

10561.5254

58

182.095266

Bartlett's test for equal variances:

chi2(2) =

Prob > F

7.86

1.0798

0.0010

Prob>chi2 = 0.583

Source: Fuentes de variabilidad.


1. Within groups: dentro de los grupos, explica la diferencia de las medias.
2. Between groups: entre grupos, no explica la diferencia de las medias.

Analysis of Variance: SS, df, MS, F, Prob>F.


Vamos a comprobar mediante STATA cmo calcular estos datos:
1. SS: sumatorio de cuadrados

Analysis of Variance
SS
df
MS

Source
Between groups
Within groups
Total

2315.73355
8245.79187

2
56

1157.86678
147.246283

10561.5254

58

182.095266

test
for mediante
equal variances:
a) SS TOTAL: vamos Bartlett's
a crear la variable
SS total
el Comando

gen SS_total= (age-media total)^2

chi2(2) =

F
7.86

1.0798

(Siendo la media total 60.644068).

Para visualizar los datos de la nueva variable vamos a la ventana de edicin de datos

Para que se sumen todos los cuadrados de SS obtenidos, hacemos una nueva variable
que sea:
gen sumSS_total=sum(SS_total)
Volvemos a la ventana de edicin de datos. En la columna de sumSS_total, aparecen
los valores de SS que se van sumando. El valor de la suma de todos los SS totales, es el de la
ltima mujer (id 59): 10561.53. Vemos que este valor coincide con el de la segunda tabla
(columna SS, fila TOTAL).

Pr

Prob>ch

b) SS within groups: hay que realizar lo mismo que antes pero teniendo en cuenta que
existen tres poblaciones.
En vez de usar la media total, usamos primero la media de la poblacin 1 calculando
SS1. Hacemos lo mismo con las poblaciones 2 y 3.
gen SS_wg=(media total-media de la poblacin 1)^2/(n1-1)
A continuacin lo sumamos todo para calcular SS1, SS2 y SS3:
gen sum_SS_wg=sum(SS_wg)
Vamos a la ventana de edicin de datos, y vemos que el ltimo valor es 8245.792. Este
valor indica la varianza entre poblaciones, que en la segunda tabla aparece en la interseccin
entre la columna SS y la fila within groups. Esta es la parte de la variabilidad total que explica
que las tres medias sean diferentes.
c) SS between groups: resta de la SS total menos la SS entre grupos: 10561.5254 8245.79187 = 2315.73355.
2. GRADOS DE LIBERTAD, df
Source

Analysis of Variance
Analysis of Variance
Source SS
df
df SS
MS
FMS

Prob > F F

groups
Between groupsBetween2315.73355
groups
Within groups Within8245.79187

2315.73355
2
1157.86678 2
8245.79187
56
147.24628356

1157.86678
7.86
0.0010 7.86
147.246283

10561.5254
Total

58
182.09526658
10561.5254

182.095266

Total

Prob > F
0.0010

Bartlett's test
for equaltest
variances:
chi2(2)
=
Prob>chi2
= 0.583
Bartlett's
equal
variances:
chi2(2)
1.0798
Como
sabemos,
para
calcular
la for
varianza
debemos
de1.0798
conocer
el=valor
de
SS yProb>chi2
el grado
de libertad.

= 0.583

El grado de libertad total es 59-1, y es igual a la suma de los grados de libertad de las
fuentes de variabilidad (between groups y within groups). Por lo tanto, como en la fila within
groups tenemos en cuenta 3 medias tendremos 59-3 grados de libertad (56). Y en la ltima, los
que quedan: 2 (56+2=58). Estos datos los obtendremos de la tabla en la columna df.
3. VARIANZA: MS
Resultado de la divisin entre SS y los grados de libertad correspondientes. Obtenemos
la varianza dentro de poblaciones= 147.246283 (SS within groups/56), varianza entre
poblaciones (SS between groups/2)=1157.86678 y varianza total (SS total/58)= 182.095266.
Sabemos que cualquier varianza sigue una distribucin chi-cuadrado con n-1 grados de libertad
Source
Between groups
Within groups
Total

Analysis of VarianceAnalysis of Variance


SS
df
MS
Prob > F
Source
SS
df F
MS
2315.73355
Between
groups
8245.79187
Within groups
10561.5254
Total

2
56

1157.86678
2315.73355
147.246283
8245.79187

0.0010
27.86
1157.86678
56
147.246283

58

182.095266
10561.5254

58

Prob > F

7.86

0.0010

182.095266

test forchi2(2)
equal variances:
= = 1.0798
Bartlett's test for Bartlett's
equal variances:
=
1.0798 chi2(2)
Prob>chi2
0.583

Prob>chi2 = 0.583

4. F DE SNEDECOR
Analysis of Variance

Source lo hacemos sabiendo


SS
df la varianza
MS
F
Prob > F
Desde el punto de vista terico, el contraste
que
de
una muestra sigue una distribucin Chi-cuadrado
con n-1 grados
de libertad2 y que
la F de
Between groups
2315.73355
1157.86678
7.86
0.0010
Snedecor compara el MS entre grupos con
el MS
del error 8245.79187
(dentro de los 56
grupos)
bajo la
Within
groups
147.246283
hiptesis nula (H0). Los valores de ambos MS deberan ser muy similares ya que estiman el
Total
10561.5254
58
182.095266
mismo parmetro.
Se utiliza el cociente entre ambos
estadsticos,
razn
(F), como
medida
de
Bartlett's
test forlaequal
variances:
chi2(2)
=
1.0798 Prob>chi2 = 0
comparacin de modo que:
F=

Esta razn (F de Snedecor) es la que en la tabla tiene como resultado 7.86, lo que
quiere decir que la MS entre grupos es 7.86 veces mayor que la MS dentro de los grupos, lo
que nos resultara un valor muy raro si todas las medias fuesen iguales (no es el caso).
Este es el resultado de la razn entre dos distribuciones chi-cuadrado con dos grados
de libertad en el numerador y n-k= 56 grados de libertad en el denominador. Por tanto, este
valor 7.86 pertenece a una distribucin F de Snedecor con dos grados de libertad en el
numerador y 56 grados de libertad en el denominador
5. PROB>F
Por ltimo nos interesa conocer el valor de Prob>F es el valor p (nivel de significacin
de los datos) que expresa la probabilidad de que la distribucin F de Snedecor tome valores
mayores de 7,86 condicionado a que H0 es cierta.
Para calcular el valor que toma el nivel de significacin de los datos, en lugar de utilizar
STATA, tambin puedo hacer uso de las tablas de la F de Snedecor.

Tabla para = 0.05.


En la primera columna tenemos los grados de libertad del denominador y en la
primera fila los grados de libertad del numerador. En nuestro ejemplo, tenemos 2 grados de
libertad en el denominador y 56 en el denominador.
Como observamos el valor 56 no aparece en la tabla, por lo que nos aproximamos al
valor ms cercano, el 60. De este modo, acudo a la interseccin entre 2 y 60 y obtenemos el
valor 3.15. Esta cifra nos indica el valor de la distribucin F de Snedecor con grados de libertad
2 para el numerador y 56 para el denominador, aunque en realidad de acuerdo a las tablas es
2 y 60.
Si 3.15 deja por encima =0.05, 7.86 ha cado todava ms hacia la derecha en la
grfica, por lo que p es menor que .

Distribucin F de Snedecor con grados de libertad 2 y 60 y F = 3.15.

Esto quiere decir que a partir del punto F = 3.15 toda la probabilidad que queda en la
cola de la distribucin (en azul) es igual a = 0.05. Que esta probabilidad sea de = 0.05
queda indicado en la tabla de F de Snedecor.
Sabemos que para un = 0.05, F es igual a 3.15, que la razn de

es

7.86, y que el nivel de significacin P, es decir, la probabilidad de que la distribucin F de


Snedecor tome valores mayores de 7.86, condicionado a que H0 es cierto, toma el valor
0.0010.
Por tanto, P= 0.0010 es menor que a = 0.05 y concluimos que el valor 7.86 est
recogido en la zona de rechazo de H0, ya que est ms all de F = 3.15. Esto quiere decir que no
todas las medias de edad al diagnstico de las mujeres con distinto fenotipo son iguales.

Por tanto, P= 0.0010 es menor que = 0.05, por lo que rechazamos H0. Tambin
concluimos que el valor 7.86 est recogido en la zona de rechazo de H0, ya que est ms all de
F = 3.15.
Para buscarlo en STATA: di 1-F(2,56, 7.86). Da la funcin de distribucin acumulada.
Tambin podemos utilizar di Ftail(2,56,7.86) Da la funcin de supervivencia.

CONCLUSIN:
Como p = 0.0010< = 0.05, rechazamos la hipteisis nula (H0) por lo que s existe por lo
menos un par de poblaciones que tienen medias diferentes.
Si chi-cuadrado no es significativo, quiere decir que las varianzas son iguales y que por
tanto, las medias difieren.
TEST DE BARTLET
Bartlett's test for equal variances:

chi2(2) =

1.0798

Prob>chi2 = 0.583

El test de Bartlett contrasta la hiptesis nula H0 contra la hiptesis alternativa H1 de


que hay al menos una 2 que es diferente.
Esa hiptesis se contrasta mediante una chi-cuadrado con dos grados de libertad.
Tenemos dos grados de libertad ya que como vimos en nuestro caso k = 3 (tenemos en cuenta
las tres varianzas de las 3 posibilidades de edad al diagnstico en funcin de los 3 genotipos de
mujeres), y por tanto, k-1 = 2 grados de libertad.
El valor del estadstico test de Bartlett es de 1.0798 y la probabilidad de observar este
valor o valores todava ms extremos (Prob > chi2) es de 0.583. As que este es el nivel de
significacin de los datos (P) para el contraste de las varianzas. Fijando el valor = 0.05
(indicado en la tabla de la F de Snedecor), observamos que este valor de P = 0.583 es mayor
respecto a = 0.05, por lo tanto nuestros datos no contienen suficiente evidencia como para
rechazar la hiptesis de que todas las varianzas son iguales. En principio, no podemos
rechazar que todas las varianzas sean iguales, de modo que todos los estimadores de varianza
MS tendran que ser similares pero no lo son porque hay una diferencia muy grande entre MS
entre grupos y MS dentro de grupos.
Esto quiere decir que MS entre grupos es 7.86 veces mayor que MS dentro de
los grupos. Y esa condicin obtiene una probabilidad muy baja de ocurrir (Prob > F = 0.0010) si
todas las medias fueran iguales.
Para este caso, tanto si fijamos = 0.05 como si = 0.01, el valor de P = 0.0010 es
menos que . Y cuando P es menor que rechazamos la hiptesis nula H0 que en esta ocasin
es que todas las medias son iguales.
De modo que para interpretar un anlisis de varianza, primero atendemos al test de
Bartlett. Si no podemos rechazar que todas las varianzas sean iguales (Prob > chi2 es mayor
que ), entonces acudimos a Prob > F. Si P < , entonces es significativo y rechazamos la
hiptesis de igualdad de medias. Si no es significativo, es decir, P > , no podemos rechazar
que las medias sean iguales.
En el caso de que el test de Bartlett sea significativo (Prob > chi2 es menor que ),
podemos rechazar la hiptesis de que todas las varianzas son iguales. Si Prob > F es tambin
significativo, significa que no sabemos si es por la diferencias de las varianzas o por las
diferencias de las medias pero las poblaciones que estamos estudiando no son uniformes en
relacin con la edad de diagnstico

10

Source

SS

df

Between groups
Within groups

2315.73355
8245.79187

2
56

1157.86678
147.246283

10561.5254

58

182.095266

Total

Bartlett's test for equal variances:

3. TERCERA TABLA

MS

chi2(2) =

Prob > F

7.86

1.0798

0.0010

Prob>chi2 = 0.583

Comparison of Edad al diagnostico by Genotipo


(Bonferroni)
Row MeanCol Mean

1.6/1.6

1.6/0.7

-.263547
1.000

0.7/0.7

-14.2679
0.007

1.6/0.7

-14.0043
0.001

Una vez que sabemos que existe diferencia significativa entre las medias de edad de
las tres poblaciones (los 3 genotipos). Para detectar dnde se encuentra la diferencia acudimos
a la tercera tabla del comando oneway age genotype, bonferroni tabulate que se
corresponde con las comparaciones de Bonferroni dos a dos.
Vemos que la diferencia est cuando comparamos la media del grupo homocigoto
0.7/0.7 con las medias de edad del homocigoto 1.6/1.6 y las del heterocigoto. De modo que
hay una diferencia estadsticamente significativa entre la edad al diagnstico de las mujeres
con genotipo homocigoto 0.7/0.7 respecto a los otros dos genotipos

*Vamos a hacer una prctica de ordenador para aprender a usar el anlisis ANOVA

11

También podría gustarte