Está en la página 1de 14

ANLISIS DE LA VARIANZA

(ANOVA)

Jos Vicns Otero


Ainhoa Herrarte Snchez
Eva Medina Moral

Enero 2005

1.- INTRODUCCIN
En mltiples ocasiones el analista o investigador se enfrenta al problema de determinar
si dos o ms grupos son iguales, si dos o ms cursos de accin arrojan resultados similares o
si dos o ms conjuntos de observaciones son parecidos. Pensemos por ejemplo en el caso de
determinar si dos niveles de renta producen consumos iguales o diferentes de un determinado
producto, si las notas de dos grupos en una asignatura son similares, si tres muestras de
anlisis qumico de una sustancia son iguales, o si los municipios de cuatro provincias
colindantes tienen el mismo nivel de paro.
Una aproximacin simple sera comparar las medias de estos grupos y ver si las
medias aritmticas de la variable estudiada son parecidas o diferentes. Pero tal aproximacin
no es vlida ya que la dispersin de las observaciones influir en la posibilidad de comparar
los promedios o medias de cada grupo. As, supongamos que tenemos una variable X
(consumo) y dos grupos (nivel de renta alto y medio) y que tenemos dos resultados distintos
correspondientes a dos provincias
PROVINCIA A

PROVINCIA B

RENTA
MEDIA

X11

X12

RENTA
ALTA

X 21

X 22

Es evidente que la conclusin de que con renta alta el consumo es mayor que con
renta media es ms rotundo en la provincia B que en la A. En la provincia A existen familias
de renta media con un consumo superior a otras familias de renta alta aunque en promedio
X 21 > X11 . Esta situacin no se produce en la provincia B donde todas las observaciones de

renta alta son superiores a las de renta media. En consecuencia la dispersin deber tenerse
en cuenta para realizar una comparacin de medias o de grupos y esto es lo que se pretende
con el Anlisis de la Varianza.
El Anlisis de la Varianza puede contemplarse como un caso especial de la
modelizacin economtrica, donde el conjunto de variables explicativas son variables ficticias
y la variable dependiente es de tipo continuo. En tales situaciones la estimacin del modelo
significa la realizacin de un anlisis de la varianza clsica (ANOVA), de amplia tradicin en
los estudios y diseos experimentales. Una ampliacin a este planteamiento es cuando se
dispone de una variable de control que nos permite corregir el resultado del experimento
mediante el anlisis de la covariacin con la variable a estudiar. En tal situacin nos
encontramos frente a un anlisis de la covarianza (ANCOVA). A continuacin se expondrn
ambos procedimientos, ANOVA, ANCOVA, precedidos de un ejemplo que facilita su
compresin.

2.- ANLISIS DE LA VARIANZA: ANOVA


Ejemplo: Pretendemos medir la influencia que tiene en la venta de un producto de
alimentacin, la posicin en que se exhibe al pblico dentro del establecimiento.
Las posiciones establecidas son:
- ALTA: por encima de los ojos.
- MEDIA: nivel de los ojos.
- BAJA: por debajo del nivel de los ojos.
Para la realizacin del experimento se han seleccionado 12 autoservicios de
dimensiones similares. Los autoservicios se agrupan en tres conjuntos de cuatro elementos
cada uno, procediendo de forma aleatoria en su asignacin. Con ello suponemos que los tres
conjuntos son de caractersticas similares, colocndose el producto en cada uno de ellos, de
una de las formas anteriormente descritas y registrando sus ventas durante veinte das. Las
ventas resultantes, en unidades, quedan recogidas en el cuadro I. Se pretende responder a las
siguientes preguntas:

1.Tiene alguna influencia el posicionamieno del producto en la venta del


mismo?.
2.Qu posicionamiento es ms eficaz?

3.Son estadsticamente significativas las diferencias obtenidas?

Cuadro I. Ventas en autoservicios por tipo de tratamiento


POSICIN
PRODUCTO
ALTA

MEDIA

BAJA

ESTABLECIMIENTO
A
B
C
D
E
F
G
H
I
J
K
L

VENTAS
(unidades)
663
795
922
1056
798
926
1060
1188
528
660
792
924

Este sencillo ejemplo nos presenta el caso de tener un nico factor a analizar (posicin
del producto) y tres niveles del factor (ALTO, MEDIO, BAJO). Sin embargo, podemos
encontrarnos con mltiples factores a estudiar simultneamente. Al mismo tiempo, podemos
distinguir tres tipos de modelos segn sean de:
-Efectos fijos: donde slo estudiamos determinados niveles del factor (es el caso de
las tres alturas) y nicamente perseguimos sacar conclusiones para stos.(Situacin ms
comn en las Ciencias Sociales).
-Efectos aleatorios: en este caso los niveles son infinitos y estudiamos una muestra de
los mismos. Sus resultados tambin sern aleatorios.
-Efectos mixtos: cuando nos encontramos con uno o ms factores de las clases
anteriores.
Como vemos, ANOVA ser especialmente til en aquellos supuestos en los que
queramos analizar distintas situaciones o alternativas de actuacin y donde de alguna forma
podemos intervenir en la realizacin del experimento. A diferencia del anlisis economtrico
habitual, donde las series histricas son dadas y no podemos repetir la situacin, ni modificar
alguna de las condiciones o variables (pensemos en el P.I.B., inflacin, etc.) para estudiar sus
efectos, en el contexto ANOVA y ANCOVA nos encontraremos la mayora de las veces
ante datos experimentales (controlables y/o repetibles en mayor o menor grado).

Si bien los desarrollos clsicos de ANOVA y ANCOVA se han efectuado desde el


anlisis de variacin de las variables y su descomposicin (variaciones entre - intragrupos),
podemos efectuar una sencilla aproximacin desde el anlisis de regresin mltiple, con
idnticos resultados.

Dado que suponemos al alumno familiarizado con la aproximacin tradicional de


ANOVA, en base a explicaciones de otras asignaturas, aqu nos limitaremos a un breve
recuerdo de la misma.
El modelo ANOVA tradicional tiene la expresin:

Yij = + j + ij

Yij =
=

j =

es la variable objeto de estudio y que en nuestro caso es la venta para el


establecimiento i del nivel j.
es una constante e indica la respuesta media de todos los niveles.
es el efecto diferencial del nivel j. Recoge la importancia de cada tratamiento y es el
objetivo del anlisis. Dado que los j son efectos diferenciales sobre tenemos que

ij =

= 0.

es un trmino de error, considerado como variable aleatoria N ( 0, 2 )

Por tanto, las ventas de un autoservicio, Yij se descomponen en una parte que es
comn a todos los tratamientos, (), o en otras palabras el efecto medio de todos ellos y otra
parte, (j ) que es el efecto diferencial de poner el producto a una determinada altura y que es
propio de ese nivel. Un tercer componente es lo no recogido por los dos anteriores y que
denominamos error.
No olvidemos que el subndice i nos indica el elemento o autoservicio:
i = 1,2,.........nj
para cada nivel j.
j = 1,2,.........g

En nuestro ejemplo, g es igual a tres niveles (ALTO, MEDIO Y BAJO) y nj es igual a


cuatro para cualquier nivel j (cuatro establecimientos para cada nivel).
El ANOVA tradicional parte de descomponer la variacin total de la muestra, en dos
componentes:
VARIACIN
TOTAL

VARIACIN
ENTRE

VARIACIN
INTRA

Esta igualdad bsica nos indica que la variacin total es igual a la suma de la variacin
o dispersin entre los grupos, ms la variacin o dispersin dentro de cada grupo. Los grupos
estn definidos por los niveles de factor.
La anterior igualdad puede expresarse por:
g

nj

(Y
j =1 i =1

ij

nj

Y ) = n j (Y j Y ) + (Yij Y j ) 2
2

V. TOTAL

j =1

V. ENTRE

j =1 i =1

V. INTRA

Correspondiendo cada trmino de la suma a las anteriores variaciones y siendo Y la


media total e Y j la media de grupo o nivel j.
Los grados de libertad (nmero de observaciones parmetros a estimar)
correspondientes a cada uno de los componentes de la variacin total son:

Variacin ENTRE: g 1
Variacin INTRA: n g
Variacin TOTAL: n 1

Dado que a travs del Anlisis de la Varianza se persigue saber si los distintos niveles
de un factor influye en los valores de una variable continua (en nuestros ejemplo queremos
saber si la posicin de un producto en una estantera influye en las ventas de ese producto),
para que efectivamente s haya diferencias en los valores de la variable continua segn el nivel
del factor, se tiene que dar simultneamente que el comportamiento de la variable continua sea
lo ms distinto posible para los distintos niveles del factor, y a su vez, que dentro de cada

grupo (determinado por los niveles del factor) los valores sean lo ms homogneos posibles.
En otras palabras, se tiene que dar que la variacin intragrupos sea mnima, y que la variacin
entre-grupos sea mxima.
Por tanto el anlisis de la varianza se va a basar no slo en la descomposicin de la
variacin total, sino adems en la comparacin de la variacin ENTRE-grupos y la variacin
INTRA-grupos, teniendo en cuenta sus correspondientes grados de libertad.
Se demuestra que:

VARIACIN ENTRE / g 1
E
Fg 1,n g

VARIACIN INTRA / n g
Por tanto, un valor elevado de este cociente significar que mayores son las
diferencias entre los distintos grupos (niveles del factor), cumplindose asimismo que la
variacin dentro de cada grupo sea mnima, y por tanto la probabilidad de que los niveles del
factor influyan en los valores de la variable continua ser mayor.
Dado que dicho cociente se distribuye como una F de Snedecor con g-1,n-g grados
de libertad, el valor para el cual podremos asumir que s existen efectos diferenciales entre los
niveles depender del valor de tablas de la funcin F para un nivel de significacin de al menos
el 5%. Si el valor calculado es mayor que el valor de tablas significar que s hay efectos
diferenciales entre los grupos y por tanto aceptaremos la hiptesis de que existe dependencia
entre las variables.
Por el contrario, si el valor calculado es inferior al valor de tablas de una Fg-1,n-g
aceptaremos que no existen efectos diferenciales entre los grupos, o en otras palalabras:
1 = 2 = K = n = 0
As, la hiptesis nula a contrastar a travs del Anlisis de la Varianza puede ser
establecida como igualdad de efectos:
H 0 = 1 = 2 = K = g = 0

siendo la hiptesis alternativa (H1) que alguno de los efectos diferenciales sea distinto de cero.

Resumiendo diremos:
Si F > Fg-1,n-g H1 (Existen diferencias entre los tratamientos)
Si F = Fg-1,n-g H0 (No existen diferencias entre los tratamientos)
En nuestro ejemplo los resultados de la aproximacin tradicional se presentan en el
cuadro adjunto. Recordemos que la fuente de variacin explicada corresponde a la entre
grupos y la residual a la intra grupos. Los grados de libertad correspondientes son:
g- 1 = 2
n- g=9

(g = 3 niveles)
(n = 12 establecimientos)

Corregido por los grados de libertad podemos obtener por cociente el ratio F que en
este caso es 2,492. Si comparamos este valor con el obtenido en las tablas, encontramos que
para un 95% de probabilidad F = 4,26 luego aceptaramos la hiptesis nula de que todos los
efectos del factor altura son iguales.

VARIACIN

ENTRE
(Explicada)
INTRA
(Residual)
TOTAL

SUMA DE
CUADRADOS

GRADOS DE
LIBERTAD

MEDIA
CUADRTICA

142578.667

71289.333

2.492

257438.000

28604.222

400016.667

11

36365.152

3.- UTILIZACIN DEL PROGRAMA SPSS


A continuacin se describirn cuales son los pasos necesarios para realizar el Anlisis
de la Varianza utilizando la aplicacin del SPSS para Windows. Para nuestra aplicacin
utilizaremos el ejemplo en el que se intenta determinar si el posicionamiento del producto
influye o no en sus ventas, por lo que generamos una nueva variable que denominaremos
posicin y que diferencia los niveles del factor.
Establecimiento
A
B
C
D
E

Ventas
663
795
922
1056
798

Posicionamiento del Producto


1
1
1
1
2

F
G
H
I
J
K
L

926
1060
1188
528
660
792
924

2
2
2
3
3
3
3

Anlisis de la Varianza con un solo factor


Opcin recomendable cuando deseamos aplicar un Anlisis de la Varianza en el que
utilizamos un slo factor como variable explicativa. Para ello, una vez abierto nuestro archivo
de datos e introducidas las variables posicin y ventas, nos introducimos en la opcin de
"Analizar" y pinchamos en Comparar Medias, seleccionando la opcin "ANOVA de
un factor" que nos permitir realizar el Anlisis de la Varianza.

Una vez seleccionada esta opcin aparece el cuadro de dilogo del Anova de un
Factor, donde debemos especificar cul es la variable dependiente (Ventas) y el Factor o
variable independiente (Posicin). Inicialmente las variables aparecern en el cuadro blanco de
la parte izquierda de la imagen; nosotros deberemos desplazar dichas variables a su casilla
correspondiente utilizando los iconos de las flechas. En nuestro ejemplo deberemos introducir
la variable "Ventas" en la casilla correspondiente a "Variables dependientes", y la variable
"Posicin" en la casilla que dice "Factor", tal y como se muestra en la imagen.

A continuacin podemos seleccionar una serie de opciones, pulsando en cada uno de


los tres botones del cuadro de dialogo inicial (Contrastes, Post hoc y Opciones).
Pulsando el botn Contrastes permite dividir la suma de cuadrados entre-grupos en
componentes de tendencia o especificar contrastes a priori para que se contrasten mediante el
estadstico t.
Cuando el ANOVA rechace la hiptesis nula (es decir cuando aceptemos la hiptesis
de que los niveles del factor influyen sobre la variable endgena) ser interesante realizar un
anlisis ex-post. Este tipo de anlisis se basa en comparaciones mltiples por parejas entre las
medias de los distintos grupos, para as conocer a qu grupos exactamente se deben las
diferencias observadas entre ellos. El botn Post Hoc nos permite seleccionar distintas
pruebas para realizar este tipo de anlisis, entre las que se encuentran el test de la Diferencia
Mnima Significativa (DMS), Bonferroni, Sidak, etc...

Pulsando el botn Opciones aparece la siguiente pantalla, cuyas distintas alternativas


se explican a continuacin:

Descriptivos: Muestra el nmero de


casos, la media, la desviacin tpica, el error
tpico, los valores mnimo y mximo y el
intervalo de confianza al 95% para cada
variable dependiente en cada grupo.
Homogeneidad
de
varianzas:
Contrastan las violaciones del supuesto de
igualdad de varianzas utilizando la prueba
de Levene.
Excluir casos segn anlisis: Excluye los casos que tienen valores perdidos en la variable
implicada en esa prueba.
Excluir casos segn lista: Excluye los casos que tienen valores perdidos en cualquiera de
las variables utilizadas en cualquiera de los anlisis.

Una vez seleccionadas todas las opciones que consideremos necesarias para nuestro
anlisis ya estaremos en condiciones para realizar al anlisis de la varianza (ANOVA),
pulsando la tecla Aceptar. Los resultados del ANOVA aparecern en el Navegador de
resultados de SPSS.
A continuacin se muestran la salida de SPSS correspondiente al Anlisis de la
Varianza con los datos propuestos en el ejemplo habiendo seleccionado nicamente las
opcin de Estadsticos descriptivos en el botn de Opciones:

ANOVA de un factor
Descriptivos
Intervalo de confianza
para la media al 95%
N
VENTAS

POSICION ALTA
MEDIA
BAJA
Total

Media

Desviacin
tpica

Error
tpico

Lmite
inferior

Lmite
superior

Mnimo

Mximo

859,0000

168,6120

84,3060

590,7046 1127,2954

663,00

1056,00

993,0000

168,3528

84,1764

725,1170 1260,8830

798,00

1188,00

4
12

726,0000
859,3333

170,4113
190,6965

85,2056
55,0493

454,8416
738,1706

528,00
528,00

924,00
1188,00

997,1584
980,4961

ANOVA

VENTAS

Inter-grupos

Suma de
cuadrados
142578,67

Intra-grupos
Total

257438,00
400016,67

gl
2
9
11

Media
cuadrtica
71289,333

F
2,492

Sig.
,138

28604,222

La primera tabla muestra la media, la desviacin tpica, el error tpico, y los valores
mximo y mnimo para cada uno de los grupos. Los valores de esta tabla nos permiten
conocer en qu posicin sobre la estantera, las ventas del producto son mayores. Dados

estos resultados se puede observar a primera vista que las ventas en la posicin media son
mayores que las ventas en las posiciones baja y alta, y que cuando el producto se coloca en la
posicin baja las ventas del producto son las menores.
La siguiente tabla es la salida bsica de un Anlisis de la Varianza: a travs de los
datos que muestra podremos saber si realmente existe una relacin de dependencia entre las
variables objeto de estudio o no, podremos saber si los distintos niveles de la variables
cualitativa o factor (posicin del producto sobre la estantera) determinan el valor de la
variable cuantitativa (ventas del producto).
Lo que en la tabla aparece como Inter-grupos es el valor de la VARIACIN
ENTRE, y el valor de Intra-grupos, es la VARIACIN INTRA. Tambin aparece el valor
de la VARIACIN TOTAL. A continuacin, la salida muestra los grados de libertad, que
para el caso de la Variacin Entre son g 1 = 2 y en el caso de la Variacin Intra son n
g = 9. La columna Media cuadrtica muestra los valores del cociente de la Variacin Entre
y la Variacin Intra por sus correspondientes grados de libertad. Recordemos que cuanto ms
se aproximen la media cuadrtica factorial (Variacin Entre/g-1) y la media cuadrtica residual
(Variacin Intra/n-g) mayor ser la probabilidad de aceptar la hiptesis nula (H0) o no
influencia del factor.
Por ltimo la salida del SPSS nos muestra el valor calculado del estadstico F y su
nivel de significacin. El nivel de significacin nos va a permitir aceptar o rechazar la hiptesis
nula (independencia entre las variables) sin necesidad de tener que comparar el valor de la F
con su valor real de las tablas estadsticas de una F de Snedecor.
El valor que nos sirve de referencia a la hora de aceptar o rechazar la hiptesis nula es
el nivel de significacin. Si el nivel de significacin es mayor que 0,05, aceptaremos la
hiptesis nula de independencia entre las variables (no existen efectos diferenciales entre los
tratamientos). Si el nivel de significacin es menor que 0,05 rechazaremos la hiptesis nula y
aceptaremos la hiptesis alternativa, es decir, concluiremos que existe una relacin de
dependencia entre las variables, y en este caso podremos decir que los distintos niveles del
factor s influyen sobre los valores de la variable cuantitativa. El nivel de significacin como se
expuso en el captulo anterior es la probabilidad de rechazar la hiptesis nula siendo cierta.
En nuestro caso, dado que el valor del nivel de significacin es 0,138 y este valor es
mayor que 0,05 aceptaremos la hiptesis nula de que no existen efectos diferenciales entre los
tratamientos. Esto querr decir que la posicin del producto sobre la estantera no hace que
las ventas del mismo sean estadsticamente diferentes.

También podría gustarte