Está en la página 1de 8

Estadística II Mg.

Gustavo Ginabreda

ANOVA
ANOVA (Análisis de Varianza) se utiliza para efectuar comparaciones entre más de dos poblaciones. Recordar que
previamente se había analizado como efectuar comparaciones entre dos poblaciones con test de diferencia de medias,
varianza o proporción. Ahora, el problema radicará en averiguar si 3 (o más) poblaciones son similares.

Por ejemplo, se podría comparar:

• Los rendimientos de diversas acciones bursátiles.


• Los rendimientos (en km por litro de nafta) de varias marcas de automóviles.
• Los hábitos de distintos grupos de personas.

Es así como, al comparar diversas poblaciones, no sería deseable hacer comparaciones tomando “de dos en dos” las
muestras de cada una de las poblaciones, lo adecuado es tomar simultáneamente todas las poblaciones y estudiarlas.
El método ANOVA (Analysis of Variance, por sus siglas en inglés) consistirá en la práctica en…

Descomponer en dos partes la cantidad de variación correspondiente a un conjunto de datos, una de las cuales puede
ser atribuidas al azar y la otra a causas específicas, luego comparar las dos cantidades.

En general, podría investigarse cualquier número de factores (causas) que influyen en la variable dependiente. Así, en
el ejemplo de “km por litro de nafta” de varios automóviles (siendo “km por litro de nafta” la variable dependiente)
puede estar influyendo la velocidad del auto (factor 1), la marca (factor 2), la potencia del motor (factor 3), la
experiencia de manejo del automovilista (factor 4), etc, etc.). Aquí, en esta explicación, se verá el modelo de 1 factor,
es decir que la causa será una sola, manteniendo todo lo demás constante.

Ejemplo de modelo de 1 factor

• Testearemos
Ho: que las medias de las J poblaciones son todas iguales.
Ha: las medias de las J poblaciones NO son todas iguales.
• Tomaremos una muestra de cada una de las J poblaciones.
• Veremos la diferencia entre las medias de las poblaciones examinando
o La cantidad de variación dentro de cada una de las muestras, en relación a
o La cantidad de variación entre las muestras.
• Entonces, si analizamos “km por litro de nafta”, podríamos tomar una muestra de cada una de las J marcas
diferentes. Estas muestras provenientes de las J poblaciones recibirán el nombre de “tratamientos”
(originalmente ANOVA se habría empleado para estudiar las cosechas, las cuales se estudiaban “tratando”
los suelos con diferentes fertilizantes, de allí surge la palabra “tratamiento”).

ANOVA

• Denotar los diferentes tratamientos por la letra j, donde j = 1, 2, …, J

1
Estadística II Mg. Gustavo Ginabreda

• Nj será el tamaño de la j-ésima población. Por lo cual, los valores dentro de la j-ésima población los
podremos caracterizar por i = 1, 2, 3….Nj
• yij será el i-ésimo valor de la j-ésima población que estamos investigando
• μj será el valor medio de y en la j-ésima población, o población jota
• μ será la media de todos los valores yij en las J columnas. (μ es la media principal de todos los valores μj, es
decir la media de las medias)

En ANOVA interesará observar la variación dentro de cada población y la variación entre las poblaciones, entonces…

1) Para la variación dentro de una población, se supondrá que los valores yij difieren de la media de esta población
(μj) sólo por efectos aleatorios. Esto es, existen influencias sobre yij que son inexplicables (son aleatorias) en este
modelo de un factor.

La diferencia entre cada valor de yij y μj se denotará por εij (“épsilon sub ij”), entonces

εij = yij – μj o bien yij = εij + μj para j = 1, 2…,J e i = 1, 2, ….,Nj

2) Para las diferencias entre las poblaciones, se supondrá que la diferencia entre la media de j-ésima población (μj) y
la media principal (μ) puede atribuirse al efecto tratamiento. Lo que es lo mismo decir μj ≠ μ a causa del j-ésimo
tratamiento. A este efecto se lo llamará τj (“tau sub jota”). Entonces..

τj = μj – μ o bien μj = τj + μ para j = 1, 2, …, J

De 1) y 2) se formula el modelo ANOVA de un solo factor..

1) yij = εij + μj
2) μj = τj + μ

Luego…

yij = εij + τj + μ para j = 1, 2,…,J e i = 1, 2, ….Nj

Según el modelo, cada valor yij estas formado por la suma de tres componentes o efectos:

• efecto común  μ
• efecto tratamiento  τj
• efecto aleatorio  εij

Resumen de las suposiciones del modelo

• la media principal (μ) es una constante determinada


• los efectos tratamiento (τj) también son constantes determinadas
• los términos aleatorios (εij) son independientes
• para cada uno de los J poblaciones, los errores (εij) se distribuyen normalmente con media 0 y varianza σ2,
igual en todas las poblaciones

2
Estadística II Mg. Gustavo Ginabreda

EJEMPLO – PROCEDIMIENTO

(adaptación de ejercicio del libro “Introducción al Análisis Estadístico” de Harnett y Murphy).

Se desea conocer si el rendimiento (en km x litro de nafta) de tres marcas de automóviles (denominadas marca 1, 2 y
3) son diferentes. Para ello se toma una muestra de 3 marcas diferentes de automóviles usados. En este sentido, se
destaca que se controló todas las influencias posibles, como ser “experiencia del conductor”, “tipo de recorrido”,
“tipo de combustible”, etc, etc., excepto la marca. Utilice α del 5%.

Ho: μ1 = μ2 = μ3 = μ o bien Ho: τj = 0

Ha: no todos los tratamientos o poblaciones son iguales.

a) De cada una de las J poblaciones tomamos una muestra de tamaño nj


b) En cada muestra, calculamos la media.
c) Calculamos la media de la muestra total.

Se obtuvo el siguiente resultado

Procedimiento

3
Estadística II Mg. Gustavo Ginabreda

4
Estadística II Mg. Gustavo Ginabreda

5
Estadística II Mg. Gustavo Ginabreda

Luego,

Variación Total = Variación Entre + Variación Dentro

SCT = SCB + SCW

262 = 128 + 134

6
Estadística II Mg. Gustavo Ginabreda

Fuente de la SC gl CM
Variación
Entre 128 2 64
Dentro 134 9 14,9
Total 262 11 ---------

⑧ En ANOVA se testea la Ho comparando CMB con el valor de CMW. Si la variabilidad ente las muestras (CMB) es
pequeña en relación a la variabilidad dentro de las muestras (CMW), entonces no puede rechazarse Ho. Si, por el
contrario, CMB es grande respecto a CMW, entonces se rechazará Ho (habrá diferencias entre las medias).

Usamos el siguiente estadístico

𝑱
𝑪𝑴𝑩
𝑭(𝑱 − 𝟏; ∑ 𝒏𝒋 − 𝑱) =
𝑪𝑴𝑾
𝒋=𝟏

La región de rechazo estará concentrada únicamente a la derecha, por lo que sólo RHo cuando los valores de F son
grandes.

7
Estadística II Mg. Gustavo Ginabreda

Entonces,

𝟔𝟒
𝑭𝒄𝒂𝒍𝒄 = = 𝟒, 𝟑𝟎
𝟏𝟒, 𝟗

El valor crítico de F, con α = 5%, será F(2,9) = 4,26 → Rho, existe diferencia entre los rendimientos de las tres
marcas de automóviles.

También podría gustarte