Tema4 14d

Tema 4: ANOVA de 1 factor completamente aleatorizado
Resumen tema Pardo et al.(2010)
M. Morales
Universidad de Sevilla
morales@us.es
M. Morales (Universidad de Sevilla morales@us.es) DAD-II 1 / 54

Contenidos
1 Introducción

Contenidos
1 Introducción
2 Modelos ANOVA

Contenidos
1 Introducción
2 Modelos ANOVA
3 Lógica del ANOVA 1 factor completamente aleatorizado

Contenidos
1 Introducción
2 Modelos ANOVA
4 Supuestos del modelo de ANOVA 1 factor completamente aleatorizado

Contenidos
1 Introducción
2 Modelos ANOVA
5 Tamaño del efecto

Contenidos
1 Introducción
2 Modelos ANOVA
6 Ejemplo

Contenidos
1 Introducción
2 Modelos ANOVA
6 Ejemplo
7 Diagnosis del modelo

Contenidos
1 Introducción
2 Modelos ANOVA
6 Ejemplo
8 Pruebas post hoc: Contrastes a posteriori

Contenidos
1 Introducción
2 Modelos ANOVA
6 Ejemplo
9 Potencia de la prueba

Contenidos
1 Introducción
2 Modelos ANOVA
6 Ejemplo
9 Potencia de la prueba
10 ANOVA en SPSS
Análisis de tendencias en el SPSS
Tamaño de efecto y potencia
ANOVA 1 FACTOR no paramétrico: Prueba de Kruskal-Wallis

Introducción
Definición
El ANOVA es un conjunto de técnicas que pretenden obtener información a partir de
una serie de modelos matemáticos. Estos modelos permiten valorar el comportamiento
de una variable dependiente y una o más variables independientes. También permite
controlar el efecto de variables extrañas incluyéndolas como covariables.

MODELOS ANOVA
Siempre que realicemos un ANOVA estamos interesados en determinar cuál de una

serie de modelos lineales se ajusta mejor a nuestros datos. Los modelos lineales tienen
la forma:
Yi = β0 + β1 X1 + . . . + βp Xp + i
donde Yi es la variable dependiente para el sujeto i y las X’s y las β 0 s son los
predictores y los parámetros respectivamente. El último elemento del modelo i es el
llamado error o término residual.
El procedimiento de análisis de este tipo de diseños se realiza mediante la función
“aov". En el caso de que el tratamiento resulte efectivo sería necesario realizar
algunas comparaciones a posteriori para determinar cuál es el tratamiento que resultó
ser efectivo.

Lógica del ANOVA 1 factor completamente aleatorizado
Suponemos que se tenemos varias muestras (más de dos). Todas ellas

procedentes de una población normal con la misma media y la misma varianza
Bajo la hipótesis nula de que todas las medias son iguales con la misma varianza
pueden obtenerse dos estimaciones de la varianza de la población a partir de los
valores muestrales
La primera estimación es promediando las varianzas existente dentro de cada una
de las muestras (varianza intrasujetos)
Su estimación se hace a partir de la media cuadrática intragrupos (media
ponderada de las varianzas dentro de los grupos). También se denomina media
cuadrática del error, MCE :

Una segunda estimación de la varianza de la población es a partir de de la

varianza que presentan las medias de cada una de las muestras (varianza
entresujetos). Se cuantifica a partir de la media cuadrática entresujetos, MCA :
Bajo el supuesto de la igualdad de medias y varianza, el cociente entre las dos

estimaciones debe ser 1. Mientras más se aleje este cociente de 1 menos probable
será que las muestras procedan de la misma población y, por tanto, sean iguales

Aunque las medias poblacionales sean iguales, lo más probable es que MCI y
MCE muestren algunas diferencias por efecto del azar. Debemos determinar la
cantidad que ese cociente puede alejarse de 1 por efecto del azar. Esto es lo que
hace el estadístico F:
El estadístico F informa del grado de parecido de las medias de los distintos

grupos. A medida que aumentan la diferencia entre el numerador y el
denominador menor probabilidad de que las medias sean iguales

Resumen del modelo ANOVA de 1 factor completamente
aleatorizado
Hipótesis:
H0 : µY1 = µY2 = · · · µYj (todas las medias son iguales)
H1 : µYi 6= µYj (i 6= j) (no todas las medias son iguales)
Supuestos:
Los supuestos del modelo son que las J muestras se han obtenido aleatoriamente
de J poblaciones normales con la misma varianza
Estadístico:
MCA
F= ∼ F(glMCA , glMCE )
MCE
Regla de decisión:
Se rechaza H0 si el estadístico F cae dentro de la región crtítica; en caso
contrario, se mantiene. Si se rechaza esta hipótesis se concluye que no todas las
medias son iguales

Independencia
Cada puntuación debe ser independiente de las demás. Esto se consigue con la
selección aleatoria de la muestra y/o la asignación aleatoria de los tratamientos a
los grupos
A veces resulta difícil conseguir este supuesto, ya que hay individuos (por
ejemplo, de la misma familia, estudiantes de la misma clase, etc), que tienden a
responder de la misma forma

Normalidad
Cada grupo constituye una muestra aleatoria procedente de una población normal
Si las poblaciones no son normales, pero son asimétricas positiva y leptocúrticas
todavia se puede seguir utilizando el estadístico F
Si tenemos muestras pequeñas procedentes de poblaciones normales es
recomendable utilizar pruebas no paramétricas (prueba de Kruskal-Wallis)

Homogeneidad de varianzas
Implica que las varianzas de los distintos grupos son iguales

Si las muestras son grandes y balanceadas puede aceptarse que la varianza entre
las condiciones sean distintas, pero la diferencia entre la mayor y la menor no
debe ser superior a 3

Medida f de Cohen
Los valores 0.10, 0.25 y 0.4 representan tamaños de efecto bajo, medio y grande
respectivamente

Eta cuadrado corregida
respectivamente

Omega cuadrado
Presenta la ventaja de que se puede aplicar a diseños más complejos que el

ANOVA 1F completamente aleatorizado
respectivamente

ESQUEMA: ANOVA 1 FACTOR COMPLETAMENTE
ALEATORIZADO

Ejemplo 1
EJEMPLO 1: El objetivo del estudio fue ver si algún método de tratamiento

nuevo (B,C ó D) permitía reducir el número de errores de los pacientes en
comparación con el método tradicional A. Las diferencias entre los métodos
consistió en incrementar el tiempo dedicado a la resolución de problemas en
clase. Así, en el grupo A fueron 20 min, en el B 30, en el C 40 y en el D 50
minutos. Los datos de este ejemplo se presentan en la siguiente tabla:
A B C D
s1 30.00 11.00 16.00 10.00
s2 35.00 25.00 5.00 7.00
s3 15.00 12.00 22.00 15.00
s4 21.00 9.00 23.00 6.00
s5 24.00 20.00 22.00 12.00
Tabla: Datos del ejemplo 1

Gráfica ejemplo 1
Figura 1
D
C
Métodos
B
A
5 10 15 20 25 30 35
Errores
Tabla ANOVA
Df Sum Sq Mean Sq F value Pr(>F)

metodo 3 579.60 193.20 4.35 0.0201
Residuals 16 710.40 44.40
Tabla: Tabla ANOVA del ejemplo 1

Supuestos del modelo
Con objeto de determinar la adecuación del modelo aplicado es necesario que se

cumplan los supuestos distribucionales de del estadístico F. Tres son los supuestos que
se deben verificar: 1) Los errores deben seguir una distribución normal, 2) las
varianzas de la población de la variable dependiente deben ser iguales en todos los
grupos (homogeneidad de varianzas), y 3) las puntuaciones deben ser independientes
unas de otras. Para comprobar gráficamente estos supuestos podemos ver como se
distribuyen los errores mediante los siguientes gráficos:

Residuales modelo
Residuales vs pronósticos
10
5
Residuales
0
−10
10 15 20 25
Valores pronóstico

Residuales modelo
Residuales vs grupos
D
C
B
A
−10 −5 0 5 10

Independencia observaciones
Asimismo, podemos estudiar la independencia de las observaciones con el

siguiente gráfico:
Residuales vs Indice
10
5
Residuales
0
−10
5 10 15 20
Indice

Normalidad de residuales
Normal Q−Q Plot
10
Sample Quantiles
5
0
−10
−2 −1 0 1 2
Cuantilas teóricas

Prueba de Shapiro-Wilks
No obstante, el test de Shapiro-Wilks nos permite obtener un p-valor para contrastar la

hipótesis de normalidad:
Shapiro-Wilk normality test
data: ANOVA2$residuals
W = 0.9612, p-value = 0.5681

Homogeneidad de varianzas: Prueba de Levene
Df F value Pr(>F)
group 3 0.31 0.8192
16
Tabla: Test de Levene

Post hoc: Método Tukey
diff lwr upr p adj

B-A -9.60 -21.66 2.46 0.14
C-A -7.40 -19.46 4.66 0.33
D-A -15.00 -27.06 -2.94 0.01
C-B 2.20 -9.86 14.26 0.95
D-B -5.40 -17.46 6.66 0.59
D-C -7.60 -19.66 4.46 0.31
Tabla: Comparaciones con el método de Tukey
Conclusiones normas APA

Se encontró que hubo diferencias significativas entre los distintos métodos (F(3,16) =
2
4.35, p = 0.02, ηparcial corregida = 0.1497 indicando un efecto grande). Los errores
fueron significativamente menores en el grupo D que en el grupo A (diferencia = -15,
p = 0.01)

Post hoc diferencia mínima significativa (DMS, LSD en
inglés
Estimación Std T P
B-A -9.60 4.21 -2.28 0.04
C-A -7.40 4.21 -1.76 0.10
D-A -15.00 4.21 -3.56 0.00
C-B 2.20 4.21 0.52 0.61
D-B -5.40 4.21 -1.28 0.22
D-C -7.60 4.21 -1.80 0.09
Tabla: Comparaciones usando LSD

Pruebas post hoc: Dunn Bonferroni
Estimación std T P
B-A -9.60 4.21 -2.28 0.22
C-A -7.40 4.21 -1.76 0.59
D-A -15.00 4.21 -3.56 0.02
C-B 2.20 4.21 0.52 1.00
D-B -5.40 4.21 -1.28 1.00
D-C -7.60 4.21 -1.80 0.54
Tabla: Comparaciones usando criterio Bonferroni

Prueba post hoc: Dunnet
Estimación std T P
B-A -9.60 4.21 -2.28 0.22
C-A -7.40 4.21 -1.76 0.59
D-A -15.00 4.21 -3.56 0.02
C-B 2.20 4.21 0.52 1.00
D-B -5.40 4.21 -1.28 1.00
D-C -7.60 4.21 -1.80 0.54
Tabla: Comparaciones usando criterio Dunnet

Comparaciones de tendencia
A veces puede resultar interesante conocer el tipo de relación entre la variable

independiente (VI)y la dependiente
Para realizar este estudio es necesario que la VI presente valores que puedan
ordenarse y que estén igualmente espaciados. Existen muchas posibilidades:

El contraste de una tendencia supone multiplicar cada media por un determinado

coeficiente. Estos coeficientes dependen del número de niveles del factor y de la
tendencia que se quiere contrastar
Tras asignar los coeficientes es posible contrastar hipótesis del tipo:
Esta hipótesis significa que no existe relación lineal

Concepto de potencia de la prueba
La potencia es la probabilidad de rechazar H0 siendo H1 cierta. Su valor es 1-β

Los valores que se suelen aceptar es a partir de 0.80. Una forma sencilla de
aumentar la potencia es aumentado el número de individuos

Potencia del ejemplo
varentre= var(c(25,15.5,17.6,10));
varintra=44.4;
power.anova.test(groups=4,n=5,between.var=varentre,
within.var=varintra);
Balanced one-way analysis of variance power calculation

groups = 4 n = 5 between.var = 38.54 within.var = 44.4 sig.level = 0.05 power =
0.7693
NOTE: n is number in each group

n para potencia de .9
Balanced one-way analysis of variance power calculation

groups = 4 n = 6.516 between.var = 38.54 within.var = 44.4 sig.level = 0.05 power =
0.9
NOTE: n is number in each group

Prueba de ANOVA 1 FACTOR con SPSS
Abrimos la ventana de Analizar + Comparar medias + ANOVA 1 FACTOR

Prueba de ANOVA 1 FACTOR con SPSS
Introducimos la variable dependiente en el cuadro de variables dependientes

Introducimos la variable independiente en el cuadro de factores (sexo)
En el botón de opciones existen muchas posibilidades
En el botón de posthoc se puede seleccionar la prueba a posteriori
En el botón de contrastes se pueden realizar comparaciones entre varias muestras

Prueba de ANOVA 1 FACTOR con SPSS: Posibilidades

Una forma de obtener este análisis es abriendo las ventanas Analizar + Comparar
medias+ ANOVA de un factor. Pulsando el botón de contrastes entramos en la
opción deseada:

Por defecto aparece la opción de contrastar la hipótesis de tendencia lineal

Los resultados indican que se acepta la hipótesis de que la relación sea de tipo
lineal

Otra forma de obtener este análisis es abriendo las ventanas Analizar + Modelo
lineal general+ Univariante. Pulsando el botón de contrastes entramos en la
opción deseada. Tenemos que elegir el contraste polinómico y darle al botón de
cambiar

Los resultados indican que se acepta la hipótesis de que los datos sigan una
tendencia lineal. En cambio, no se puede aceptar la hipótesis de que los datos
siguen una tendencia cuadrática o cúbica

Prueba de ANOVA 1 FACTOR con SPSS: Tamaño efecto
potencia
Seleccionamos Analizar + Modelo lineal general + Univariante

Prueba de ANOVA 1 FACTOR con SPSS: Tamaño efecto
potencia
Seleccionamos Analizar + Modelo lineal

Prueba de ANOVA 1 FACTOR con SPSS: Tamaño efecto y
potencia
Marcamos el botón de Opciones

potencia
Seleccionamos Estimación del tamaño del efecto y Potencia observada

potencia
Los resultados indican que la potencia fue de 1 y el valor de η 2 parcial fue de

0.111

Análisis de residuales
Al realizar el ANOVA marcamos el botón de guardar

ANOVA no paramétrico
Al realizar el ANOVA guardamos los residuales estudentizados

Si no se cumple el supuesto de normalidad aplicamos la prueba de Kruskal Wallis

Seleccionamos Analizar+Pruebas no paramétricas + K muestras independientes

Introducimos la variable dependiente

Indicamos los valores de la VI

Si se rechaza la hipótesis nula hay que hacer comparaciones dos a dos con la
prueba U de Mann-Whitney y aplicar la corrección de Bonferroni (en este caso
es 0.05/3 = 0.0167)

Conclusiones según normas APA

Se encontró que hubo diferencias significativas entre los distintos niveles educativos
(χ2 (2, 559) = 58,191, p < 0,001, rSpearman = 0.32 indicando un efecto medio). El
recuerdo fue significativamente menor cuando se tuvieron estudios primarios que
cuando se tuvo estudios superiores (Z = -7.23, p < 0.001) y que cuando se tuvieron
estudios secundarios (Z = -4.983, p < 0.001). Asimismo, se encontró diferencias
significativas en el recuerdo de palabras cuando se tuvieron estudios secundarios en
comparación con tener estudios superiores (Z = -2.539, p = 0.011).

Tema4 14d

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema4 14d

Cargado por

Copyright:

Formatos disponibles

Tema 4: ANOVA de 1 factor completamente aleatorizado

Resumen tema Pardo et al.(2010)

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 1 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 2 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 2 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 2 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 2 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 2 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 2 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 2 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 2 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 2 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 2 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 3 / 54

Siempre que realicemos un ANOVA estamos interesados en determinar cuál de una

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 4 / 54

Suponemos que se tenemos varias muestras (más de dos). Todas ellas

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 5 / 54

Una segunda estimación de la varianza de la población es a partir de de la

Bajo el supuesto de la igualdad de medias y varianza, el cociente entre las dos

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 6 / 54

El estadístico F informa del grado de parecido de las medias de los distintos

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 7 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 8 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 9 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 10 / 54

Implica que las varianzas de los distintos grupos son iguales

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 11 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 12 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 13 / 54

Presenta la ventaja de que se puede aplicar a diseños más complejos que el

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 14 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 15 / 54

EJEMPLO 1: El objetivo del estudio fue ver si algún método de tratamiento

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 16 / 54

Df Sum Sq Mean Sq F value Pr(>F)

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 18 / 54

Con objeto de determinar la adecuación del modelo aplicado es necesario que se

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 19 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 20 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 21 / 54

Asimismo, podemos estudiar la independencia de las observaciones con el

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 22 / 54

Normal Q−Q Plot

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 23 / 54

No obstante, el test de Shapiro-Wilks nos permite obtener un p-valor para contrastar la

Shapiro-Wilk normality test

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 24 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 25 / 54

diff lwr upr p adj

Conclusiones normas APA

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 26 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 27 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 28 / 54

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 29 / 54

A veces puede resultar interesante conocer el tipo de relación entre la variable

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 30 / 54

El contraste de una tendencia supone multiplicar cada media por un determinado

Tras asignar los coeficientes es posible contrastar hipótesis del tipo:

Esta hipótesis significa que no existe relación lineal

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 31 / 54

La potencia es la probabilidad de rechazar H0 siendo H1 cierta. Su valor es 1-β

M. Morales (Universidad de Sevilla morales@us.es) DAD-II 32 / 54