Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Gustavo Ginabreda
ANOVA
ANOVA (Análisis de Varianza) se utiliza para efectuar comparaciones entre más de dos poblaciones. Recordar que
previamente se había analizado como efectuar comparaciones entre dos poblaciones con test de diferencia de medias,
varianza o proporción. Ahora, el problema radicará en averiguar si 3 (o más) poblaciones son similares.
Es así como, al comparar diversas poblaciones, no sería deseable hacer comparaciones tomando “de dos en dos” las
muestras de cada una de las poblaciones, lo adecuado es tomar simultáneamente todas las poblaciones y estudiarlas.
El método ANOVA (Analysis of Variance, por sus siglas en inglés) consistirá en la práctica en…
Descomponer en dos partes la cantidad de variación correspondiente a un conjunto de datos, una de las cuales puede
ser atribuidas al azar y la otra a causas específicas, luego comparar las dos cantidades.
En general, podría investigarse cualquier número de factores (causas) que influyen en la variable dependiente. Así, en
el ejemplo de “km por litro de nafta” de varios automóviles (siendo “km por litro de nafta” la variable dependiente)
puede estar influyendo la velocidad del auto (factor 1), la marca (factor 2), la potencia del motor (factor 3), la
experiencia de manejo del automovilista (factor 4), etc, etc.). Aquí, en esta explicación, se verá el modelo de 1 factor,
es decir que la causa será una sola, manteniendo todo lo demás constante.
• Testearemos
Ho: que las medias de las J poblaciones son todas iguales.
Ha: las medias de las J poblaciones NO son todas iguales.
• Tomaremos una muestra de cada una de las J poblaciones.
• Veremos la diferencia entre las medias de las poblaciones examinando
o La cantidad de variación dentro de cada una de las muestras, en relación a
o La cantidad de variación entre las muestras.
• Entonces, si analizamos “km por litro de nafta”, podríamos tomar una muestra de cada una de las J marcas
diferentes. Estas muestras provenientes de las J poblaciones recibirán el nombre de “tratamientos”
(originalmente ANOVA se habría empleado para estudiar las cosechas, las cuales se estudiaban “tratando”
los suelos con diferentes fertilizantes, de allí surge la palabra “tratamiento”).
ANOVA
1
Estadística II Mg. Gustavo Ginabreda
• Nj será el tamaño de la j-ésima población. Por lo cual, los valores dentro de la j-ésima población los
podremos caracterizar por i = 1, 2, 3….Nj
• yij será el i-ésimo valor de la j-ésima población que estamos investigando
• μj será el valor medio de y en la j-ésima población, o población jota
• μ será la media de todos los valores yij en las J columnas. (μ es la media principal de todos los valores μj, es
decir la media de las medias)
En ANOVA interesará observar la variación dentro de cada población y la variación entre las poblaciones, entonces…
1) Para la variación dentro de una población, se supondrá que los valores yij difieren de la media de esta población
(μj) sólo por efectos aleatorios. Esto es, existen influencias sobre yij que son inexplicables (son aleatorias) en este
modelo de un factor.
La diferencia entre cada valor de yij y μj se denotará por εij (“épsilon sub ij”), entonces
2) Para las diferencias entre las poblaciones, se supondrá que la diferencia entre la media de j-ésima población (μj) y
la media principal (μ) puede atribuirse al efecto tratamiento. Lo que es lo mismo decir μj ≠ μ a causa del j-ésimo
tratamiento. A este efecto se lo llamará τj (“tau sub jota”). Entonces..
τj = μj – μ o bien μj = τj + μ para j = 1, 2, …, J
1) yij = εij + μj
2) μj = τj + μ
Luego…
Según el modelo, cada valor yij estas formado por la suma de tres componentes o efectos:
• efecto común μ
• efecto tratamiento τj
• efecto aleatorio εij
2
Estadística II Mg. Gustavo Ginabreda
EJEMPLO – PROCEDIMIENTO
Se desea conocer si el rendimiento (en km x litro de nafta) de tres marcas de automóviles (denominadas marca 1, 2 y
3) son diferentes. Para ello se toma una muestra de 3 marcas diferentes de automóviles usados. En este sentido, se
destaca que se controló todas las influencias posibles, como ser “experiencia del conductor”, “tipo de recorrido”,
“tipo de combustible”, etc, etc., excepto la marca. Utilice α del 5%.
Procedimiento
3
Estadística II Mg. Gustavo Ginabreda
4
Estadística II Mg. Gustavo Ginabreda
5
Estadística II Mg. Gustavo Ginabreda
Luego,
6
Estadística II Mg. Gustavo Ginabreda
Fuente de la SC gl CM
Variación
Entre 128 2 64
Dentro 134 9 14,9
Total 262 11 ---------
⑧ En ANOVA se testea la Ho comparando CMB con el valor de CMW. Si la variabilidad ente las muestras (CMB) es
pequeña en relación a la variabilidad dentro de las muestras (CMW), entonces no puede rechazarse Ho. Si, por el
contrario, CMB es grande respecto a CMW, entonces se rechazará Ho (habrá diferencias entre las medias).
𝑱
𝑪𝑴𝑩
𝑭(𝑱 − 𝟏; ∑ 𝒏𝒋 − 𝑱) =
𝑪𝑴𝑾
𝒋=𝟏
La región de rechazo estará concentrada únicamente a la derecha, por lo que sólo RHo cuando los valores de F son
grandes.
7
Estadística II Mg. Gustavo Ginabreda
Entonces,
𝟔𝟒
𝑭𝒄𝒂𝒍𝒄 = = 𝟒, 𝟑𝟎
𝟏𝟒, 𝟗
El valor crítico de F, con α = 5%, será F(2,9) = 4,26 → Rho, existe diferencia entre los rendimientos de las tres
marcas de automóviles.