Está en la página 1de 48

Análisis de Varianza

ANOVA
(Analysis of Variation)
ANOVA – Asunto básico
• Dos Variables:
– Categórica (los grupos)
– Cuantitativa (lo medido)
• ¿Los promedios de la variable cuantitativa
varían entre los grupos (categorías)?
• Nota: si se trata solamente de dos grupos se hace test – t no pareado. Anova,
para más de dos grupos.
ANOVA
1. Muestras provienen de población con
distribución normal y con similares DS
(para hablar de similitud de DS siga la regla 2:1).

2. La varianza de cada grupo es un


estimativo de la varianza de la población.
3. La varianza mezclada (pooled) de los
grupos puede utilizarse para calcular IC
de la diferencia de pares de promedios.
Anova
• Cuando tenemos más de dos
grupos.
• Hipótesis nula:

xa  xb  xc ...
• Calcular valor de F (de Fisher).
• Distribución de F tiene sesgo
cuando se acepta hipótesis nula.
Que hace el ANOVA?
En su forma más simple ANOVA:
H0: Los promedios de todos los grupos son iguales.

Ha: No todos los promedios son iguales


• No dice cómo o cuáles son diferentes.
• Puede continuar con “múltiples comparaciones”

.
Ejemplos de utilización de ANOVA en odontología

1. Cinco tratamientos diferentes para


pacientes con herpes recurrente
2. Variación de ángulo goníaco en pctes con
ADM clase I, II, III
3. Resistencia al desgaste de tres resinas
diferentes
4. Grosor de la capa híbrida utilizando tres
adhesivos diferentes
Least Squares Means
Factor Level LS Mean Standard Error N
POSTGRADO Endo 6.100 0.127 10.000
POSTGRADO Orto 6.143 0.121 11.000
POSTGRADO Perio 6.286 0.107 14.000

Analysis of Variance
Source Type III SS df Mean F-ratio p-value
Squares
POSTGRADO 0.234 2 0.117 0.726 0.492
Error 5.145 32 0.161    

Case 11 is an Outlier (Studentized :-3.466)


Residual
Test de ANOVA, se asume que:

• Cada muestra debe ser independiente de las


otras.
• Cada muestra debe haber sido seleccionada
al azar de la pob de donde proviene.
• Las pob de donde provienen las muestras debe
tener dist normal.
• Las varianzas de cada pob deben ser iguales,
aunque los promedios sean diferentes, es decir
cuando los tratamientos tengan efecto.

Nota: si esto no se cumple, deberá ocupar otro test,


generalmente test de Kruskal-Wallis.
Cómo seleccionar muestra al azar?

• Asignando con la moneda (cara / sello)


(fácil solamente para dos grupos).
• Tablas de números aleatorios (ver libros de
bioestadística)
• Generar números aleatorios (función
random o aleatorio.entre en excel), u otro
software.
Anotación en ANOVA
• N: número de individuos en total
ANOVA – ANALISIS DE VARIANZA DE UNA VIA

Datos: 5 tratamientos con antivirales en 6 pctes (replicas)

(P) (2) (3) (4) (5)


5 4 6 7 9
8 6 4 4 3
7 6 4 6 5
7 3 5 6 7
10 5 4 3 7
8 6 3 5 6

f = 6, k = 5, N = 30
5 trat para infección herpética (valores indican días de
duración de las lesiones)

(P) (2) (3) (4) (5)


5 4 6 7 9
8 6 4 4 3
7 6 4 6 5
7 3 5 6 7
10 5 4 3 7
8 6 3 5 6
5 trat para infección herpética (valores indican días de
duración de las lesiones)

(P) (2) (3) (4) (5)


5 4 6 7 9
8 6 4 4 3
7 6 4 6 5
7 3 5 6 7
10 5 4 3 7
8 6 3 5 6

X 45 30 26 31 37
5 trat para infección herpética (valores indican días de
duración de las lesiones)
2
X
(P) (2) (3) (4) (5)
25 16 36 49 81
64 36 16 16 9
49 36 16 36 25
49 9 25 36 49
100 25 16 9 49
X 64 36 9 25 36
X
2
351 158 118 171 249
Suma total de cuadrados

Suma total de los cuadrados (SSC):

TSS   X 2   X 
Factor
de corrección
2
(CF): (x)2/n

n
TSS = (351+158+118+171+249) – (45+3026+31+37)2 /30
= 1047 – 28561/30
= 1047 – 952,03 Factor de corrección

TSS = 94,97
Suma total de los cuadrados
• Está basada en la suma de los cuadrados de las
diferencias de cada una de las observaciones del
promedio general. Se divide en:
– Suma de Cuadrados Entre los grupos basado en la
suma de los cuadrados de la diferencia entre el
promedio de cada grupo y el promedio general (SSB)

– Suma de Cuadrados Dentro de los grupos: calculado


como la suma de los cuadrados para la diferencia entre
cada observación y el promedio de su grupo (SSw)
SSB
• Variabilidad entre los grupos:
Variabilidad de los promedios de los
diferentes grupos alrededor del gran
promedio (calculado sin tomar en
cuenta la estructura del grupo)
SSw
• Variabilidad dentro del grupo: También
llamada variación NO explicada o
residual y se refiere a la variación al
azar entre los individuos dentro de cada
grupo.
Cuadrados dentro de los grupos
(Error)
Suma de cuadrados dentro de los grupos (Within Sum of Squareds)
(Donde k: número de grupos; f: número de individuos en cada grupo)

 X
2

SSW   X  
2  k 
 n 
 f
SSW = 1047 – ( 452/6 +302/6 +262/6 +312/6 + 372/6 )

= 1047 – 988,51
SSW = 58,49
SUMA DE CUADRADOS ENTRE LOS GRUPOS
Between sum of squares

Suma de cuadrados entre los grupos (between)

 Xk 2

SS B      CF
 n 
 f 
SSB = ( 452/6 +302/6 +262/6 +312/6 + 372/6 ) – 952,03
SSB = 988,51 – 952,03
SSB = 36,48
Cuadrados medios
• Cada suma de cuadrados se convierte en una
varianza estimada (Cuadrados Medios)
dividiendo por sus grados de libertad.
• GL entre los grupos: k – 1
• Dentro de los grupos: (n1 – 1 + n2 – 1 + n3 – 1)
De la hipótesis nula:

• Todos los grupos tienen el mismo GAUSS

promedio y la misma varianza, por lo


tanto la relación de las varianzas sería 1.
• Mediante el valor de F comparamos las
varianzas y obtenemos la relación de
ellas
Tabla de ANOVA
Construcción de la tabla de Análisis de Varianza:

Fuente de SC gl MS F
Variación

Between 36,48 4 9,12 3,897


Within 58,49 25 2,339

Total 94,97 29

= 2,75 Por lo tanto existen dif. signif. (P<0,05)


4; 25
F
0 , 05
Fcrítico
depende de
los gl de
CMentre y
CM dentro, y
elegir el
valor de 
Por lo tanto
P<0,05
P>0,01

0,05>P>0,01
Valores de F críticos según tabla
Valor de F obtenido = 3,897

4; 25
F
0 , 05 = 2,75

4; 25
F 0 , 025 = 3,35

4; 25
F 0 , 01
= 4,18

Por lo tanto: 0,05> P > 0,01


Valor de F

varianza de la población estimada


de la medias de las muestras
F
varianza de la población estimada como
promedio de varianzas de las muestras
GRADOS DE LIBERTAD EN TABLA DE ANOVA

Entre los grupos (between) (k-1):


n(úmero de grupos) – 1: (5 - 1) = 4

Dentro de los grupos (within)


k(n-1): 5(6-1) = 25

Total = n – 1; 30 - 1 = 29
VALOR DE F

Si F es un número grande,
2
S between la variabilidad entre las
F 2 medias de las muestras
S within es mayor que la
esperada a la
variabilidad dentro de las
muestras, y rechaza la
hipótesis nula de que
todas las muestras son
de la misma población.
Least Squares Means
Factor Level LS Mean Standard N
Error
Medicamento Placebo 7.500 0.624 6.000

Medicamento a 5.000 0.624 6.000

Medicamento b 4.333 0.624 6.000

Medicamento c 5.167 0.624 6.000

Medicamento d 6.167 0.624 6.000

Analysis of Variance
Source Type III df Mean F-ratio p-value
SS Squares
Medicame 36.467 4 9.117 3.896 0.014
nto
Error 58.500 25 2.340    
Gráficos para ANOVA
• Promedios y DS de cada grupo.
• Cajas.
• Puntos.
Tests para comparar medias
• Scheffé
– Si tamaño de los grupos es diferente
– Interesa además contrastes (Ej: grupo 1 y 2 vs 3)
• Tukey
– Si tamaño de los grupos es igual
– Interés prinicipal es comparar solo promedios de
grupos
• Bonferroni
– No se había previsto comparar grupos

Utilizar solamente si resultado en ANOVA es p<0,05


Test de Scheffé
• Dos promedios presentan diferencias
significativas si su diferencia excede el
valor calculado por:
1 1
(k  1) F0.05 *    * MSE
 n1 n2 
k = número de promedios.
F3,8;0.05 = 4,0662
MSE = 0,917 (de cuadrado medio, within)
Test de Scheffé
• Dos promedios presentan diferencias
significativas si su diferencia excede el
valor calculado por:
[(k-1)F0,05]1/2 [(1/n1 + 1/n2)*MSE]1/2
k = número de promedios.
F3,8;0,05 = 4,0662
MSE = 0,917 (de cuadrado medio, within)
Cálculo de Scheffé
1/ 2
 1 1  
 k  1 ( F 
4 , 25 1 / 2
0 , 05    * MSE 
 n1 n2  
1/ 2
 1 1  
 4 * 2,75    * 2,339
1/ 2

 6 6  
(3,316)(0,8829)  2,928

Existe diferencia entre dos grupos, si la diferencia de


sus promedios supera a 2,928
5 trat para infección herpética (valores indican días de
duración de las lesiones), última fila sus promedios

(P) (2) (3) (4) (5)


5 4 6 7 9
8 6 4 4 3
7 6 4 6 5
7 3 5 6 7
10 5 4 3 7
8 6 3 5 6
x 7,50 5,00 4,33 5,17 6,17
Promedios de cada grupo y sus diferencias
1. Entre Placebo y grupo (3) = 7,50 – 4,33 = 3,17
Valor supera al valor del test de Scheffé (2,928), por lo tanto
existen diferencias significativas entre esos dos grupos
2. Entre placebo y grupo (2) = 7,50 – 5,0 = 2,50
Valor del test de Scheffé es superior, por lo tanto NO existen
diferencias significatvas entre Placebo y grupo 2.

NO DEBE HACER MÁS COMPARACIONES…YA QUE TODAS


LAS OTRAS DIFERENCIAS SON MENORES A VALOR DE
SCHEFFÉ.
Promedios ordenados de mayor a menor (línea marca entre
qué grupos NO existe diferencias significativas):

(P) (5) (4) (2) (3)


7,50 6,17 5,17 5,00 4,33
Realización de Anova con software estadístico

• Dependiente: variable que desea examinar, debe


ser continua (por ejemplo: edad, recuento de
linfocitos, hematócrito, etc. D N !)
• Factor: una o más variables categóricas que tienen
agrupados datos en más de dos grupos (variables
de agrupar, ej.: NSE, Clase esq (I, II y III), etc.)
• Identificar si desea comparación entre
grupos(Tukey, Scheffé, etc.)
Least Squares Means
Factor Level LS Mean Standard N
Error
Medicamento Placebo 7.500 0.624 6.000

Medicamento a 5.000 0.624 6.000

Medicamento b 4.333 0.624 6.000

Medicamento c 5.167 0.624 6.000

Medicamento d 6.167 0.624 6.000

Analysis of Variance
Source Type III SS df Mean F-ratio p-value
Squares
Medicamento 36.467 4 9.117 3.896 0.014
Error 58.500 25 2.340    
Tukey o Scheffé
• Tukey. Uses the Studentized range statistic to
make all pairwise comparisons. This is the
default.
• Scheffé. The significance level of Scheffé’s test
is designed to allow all possible linear
combinations of group means to be tested, not
just pairwise comparisons available in this
feature. The result is that Scheffé’s test is more
conservative than other tests.
Tipos de Anova
• Con un factor
• Con dos factores:
– tres grupos (A, B, C)
– género (M, F)
– Interacción
• Con más de dos factores (NSE, género,
religión)
• De medidas repetidas (activ EMG)
Anova de dos vías
Categorical values encountered during processing are:
GRUPO$ (3 levels)
A, B, C
METODO$ (2 levels)
I, II

Dep Var: LIPIDOS N: 18 Multiple R: 0.998 Squared multiple R: 0.996

Analysis of Variance

Source Sum-of-Squares df Mean-Square F-ratio P

GRUPO$ 109.644 2 54.822 1372.854 0.000


METODO$ 0.027 1 0.027 0.670 0.429
GRUPO$*METODO$ 0.047 2 0.024 0.591 0.569

Error 0.479 12 0.040

-------------------------------------------------------------------------------
Desventajas de utilizar computador en estadística (Altman,
1999)

• Errores en los softwares


• Versatilidad (dada la disponibilidad de tantos
softwares y tests: tentación a usar el q no
corresponde)
• La caja negra le aleja de sus datos
• La basura se va con la basura (si ingresa datos en
forma equivocada los resultados serán
equivocados, ingreso de 0, 9, 99, 999)
Ventajas de utilizar computador en estadística
(Altman, 1999)

• Precisión y rapidez
• Versatilidad (gran cantidad de tests disponibles)
• Gráficos
• Flexibilidad
• Nuevas variables
• Volumen de datos
• Transferencia de datos
Estrategia para análisis de datos

• Recolección de datos (form codificados)


• Entrada de datos (Excel)
• Chequear datos (min, max, x, ds)
• Graficar antes de analizar
• Análisis de datos
• Chequear resultados
• Interpretar
Web Pages that Perform Statistical Calculations:

– http://members.aol.com/johnp71/javasta2.html#Demos

También podría gustarte