Está en la página 1de 5

Pontificia Universidad Católica de Chile

Escuela de Psicología
Curso: PSI2301
Ayudantes: Maximiliano Escaffi, Pedro Navarrete, Javiera Rosell.

Ayudantía 4: ANOVA simple (Análisis de Varianza de observación única)

Estadística inferencial

(inferir lo que pasa en la población


a partir de lo que pasa en la muestra)

Comparación
(muestra con población, entre
muestras)

2 muestras Más de 2 muestras

Z Prueba t ANOVA

(n>30, promedios o (n<30, promedios)


proporciones)

El análisis de varianza (ANOVA) nos permite hacer inferencias simultáneas sobre


parámetros de tres o más poblaciones (por ejemplo, comparar la efectividad de
más de dos terapias para la depresión), buscando diferencias entre varios grupos
de datos a través de un procedimiento aritmético donde observamos como varían
estos.

¿Por qué se llama “análisis de varianza”?

Sabemos, por nuestro conocimiento de estadística descriptiva, que cuando


queremos observar la variación de un grupo de datos muestrales, podemos utilizar
la varianza de la muestra. ANOVA compara la varianza de los datos intragrupo con
la varianza de las medias entre grupos (o intergrupos).

¿Por qué necesitamos usar una prueba estadística nueva para comparar más de
dos grupos si ya tenemos t? ¿Por qué no podríamos hacer varias pruebas t para
todas las combinaciones?

1
Pues bien, al hacer muchas comparaciones (pruebas t) para los distintos grupos no
controlamos el incremento en el riesgo de cometer un "error tipo 1" (TIP: El error
tipo 1 es rechazar la hipótesis nula -que no hay diferencias- cuando esta es cierta).
En otras palabras, hay un mayor riesgo de pensar que hemos encontrado un
resultado significativo cuando en realidad puede haberse debido al azar.

Una alternativa es aplicar el llamado "Ajuste de Bonferroni" al nivel del alfa que
usaremos para juzgar si hay diferencias estadísticamente significativas. Este
"ajuste" consiste en usar un alfa más severo para cada comparación, manteniendo
un alfa razonable en todos los test. Para hacer esto, se puede dividir el alfa que se
usará (por ejemplo, 0,05) por el número de comparaciones que se pretende hacer,
y luego usar este nuevo valor como el alfa para cada comparación. Por ejemplo, si
se pretende hacer tres comparaciones, el nuevo alfa sería 0,05 dividido por 3, lo
que resulta 0,017.

Otra alternativa es hacer ANOVA…

* Cabe aclarar que ANOVA sólo nos indica si hay o no diferencias entre grupos,
pero no dónde están esas diferencias. Por ello, tenemos que utilizar otras pruebas
POST-HOC, como por ejemplo: HSD de Tukey y Subconjuntos Homogéneos.

¿Para qué usamos ANOVA?

Básicamente ANOVA lo utilizamos para comparar muestras que estén distribuidas


en tres grupos o más. Un ejemplo de esto es si unos científicos desean realizar una
comparación entre la cantidad de bebidas energéticas consumidas v/s las notas
obtenidas en la prueba.

Para analizar el ANVOA, es necesario obtener por lo menos dos elementos


fundamentales. En primer lugar, es necesario contar con la tabla resumen del
modelo, que se ve más o menos así:

One-way analysis of means (not assuming equal


variances)

F (num df,denom df) p-value

NOTA 8.764528 (4,47.426) 2.213015e-05

¿Qué nos dice esta primera tabla? Básicamente con esta tabla aceptamos o
rechazamos nuestra hipótesis nula. En este sentido, la probabilidad de que la
Hipótesis Nula sea verdadera es de 0.0002213.

2
Pregunta para el curso, ¿aceptamos o rechazamos la hipótesis nula? ¿Por qué?

Ahora por sí sola esta tabla no es suficiente para analizar un ANOVA, ya que
únicamente nos dice si hay diferencias o no entre los distintos grupos de mi
muestra, pero… ¿cómo son estas diferencias?

Eso solo puede decirlo nuestro buen amigo Tukey con la siguiente tabla:

Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Tukey Contrasts

Fit: lm(formula = NOTA ~ as.factor(NBEB), data = energizante,


na.action = na.omit)

Linear Hypotheses:

Estimate Std. Error t value Pr(>|t|)

2 - 0 == 0 4.150 2.369 1.752 0.083025 .

4 - 0 == 0 5.750 2.369 2.427 0.017097 *

6 - 0 == 0 6.550 2.369 2.765 0.006839 **

8 - 0 == 0 -5.350 2.369 -2.258 0.026207 *

4 - 2 == 0 1.600 2.369 0.675 0.501052

6 - 2 == 0 2.400 2.369 1.013 0.313574

8 - 2 == 0 -9.500 2.369 -4.010 0.000121 ***

6 - 4 == 0 0.800 2.369 0.338 0.736328

8 - 4 == 0 -11.100 2.369 -4.686 9.30e-06 ***

8 - 6 == 0 -11.900 2.369 -5.023 2.38e-06 ***

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Univariate p values reported)

Esta tabla simplemente nos muestra todas las comparaciones posibles entre los
distintos grupos de mi muestra. En este sentido, mi muestra varía desde personas
que consumieron 0 energéticas hasta aquellas que consumieron 8 energéticas.

3
Al igual que en todos los análisis anteriores que hemos hecho, el p-value nos
muestra la probabilidad de rechazar nuestra Hipótesis Nula, por lo que si miramos
esta tabla, ¿en cuáles comparaciones rechazo la Hipótesis Nula?

(Una ayudita…la comparación entre 4 y 0 bebidas, entre 6 y 0, entre 8 y 0, entre 8


y 2, entre 8 y 4, entre 8 y 6).
Ahora…la pregunta del millón, ¿cómo concluimos al respecto?

Y….esto es ANOVA.

Ejercicio

Unos científicos desean establecer si existen diferencias significativas en relación a


la cantidad de años de estudios de los padres y las acciones de comunicación que
muestran sus hijos a los 18 meses de edad.

Realice un contraste de hipótesis, interprete las tablas y genere hipótesis acerca de


los resultados.

Tablas:
Response: COM18

Sum Sq Df F value Pr(>F)

neduc 1648 2 4.1666 0.01599 *

Residuals 110332 558

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Tukey Contrasts

Fit: lm(formula = COM18 ~ neduc, data = asq_18_data, na.action =


na.omit)

Linear Hypotheses:

4
Estimate Std. Error t value Pr(>|
t|)

entre 12 y 16 años - Menos de 12 años == 0 -3.6614 1.3341


-2.745 0.00625 **

Mas de 16 años - Menos de 12 años == 0 -0.7448 1.6933


-0.440 0.66022

Mas de 16 años - entre 12 y 16 años == 0 2.9166 1.6151


1.806 0.07148 .

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Univariate p values reported)

¿Qué conclusiones puede extraer al respecto?

También podría gustarte