Está en la página 1de 26

MODULO 3

3.- ANLISIS DE VARIANZA (PRUEBA ANOVA)


Bibliografa bsica:
Berenson y Levine (1996) Estadstica para Administracin y Economa. 6. Ed.
Prentice Hall Hispanoamericana. Madrid.
Captulos: 14 (Apartados 14.1, 14.2, 14.3, 14.4), 15 (Apartado 15.6)

4. PRUEBAS DE VARIABLES CATEGRICAS


Hasta ahora, cuando trabajbamos con datos categricos, nos concentramos en el
parmetro proporcin. En muchas ocasiones debemos abordar algunas de las
siguientes situaciones:
a) Considerar toda una distribucin de valores de una variable categrica (y no
slo una variable dicotmica)
b) Tener en cuenta la distribucin bivariada de dos variables categricas (es decir,
analizar las ocurrencias de categoras de ambas dimensiones al mismo tiempo)
Para el primer tipo de situacin desarrollaremos una prueba denominada de bondad
de ajuste, que sirve para sacar una conclusin acerca de la distribucin que
efectivamente sigue una determinada variable.
El segundo tipo de problema, en el que nos auxiliaremos con tablas de contingencia,
es abordado por las pruebas denominadas de independencia.
Ambas pruebas utilizan estadsticos con distribucin chi cuadrado.

4.1. Prueba de bondad de ajuste


La prueba de bondad de ajuste sirve para determinar si una poblacin tiene una
distribucin terica especfica, ya sea una distribucin conocida o una distribucin ad
hoc.
La prueba se basa en qu tan buen ajuste o concordancia se tiene entre las
frecuencias de ocurrencia de las observaciones en una muestra observada y las
frecuencias esperadas que se obtienen a partir de la distribucin hipottica.
El estadstico de prueba tiene distribucin chi cuadrado con (k-1) grados de libertad,
donde k es la cantidad total de valores que tiene la distribucin analizada.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-1-

( fe fo )2
=
fe
i =1
k

2
k 1

En este caso las hiptesis nula y alternativa que se consideran en la prueba de


hiptesis son:
Hiptesis nula:
Ho: La variable tiene la distribucin supuesta (en este lugar se especifican los aspectos
a probar, ya sea una descripcin de cmo distribuye, o con el nombre de la
distribucin conocida y sus parmetros correspondientes)
Hiptesis alternativa:
H1: La variable no sigue la distribucin supuesta
En las pruebas chi cuadrado de bondad de ajuste, siempre se coloca el riesgo de no
aceptar la hiptesis nula siendo sta cierta (el nivel de significacin, ) en el extremo
superior de valores de la distribucin chi cuadrado, como muestra la siguiente figura.
Figura Prueba chi cuadrado de bondad de ajuste-Ubicacin de la zona de rechazo

Fuente: elaboracin propia, con captura de imagen de distribucin chi cuadrado de


http://media.photobucket.com/image/distribuci%2525C3%2525B3n%20chi%20cuadrad
o/BlogAqueronte/Estadistica/Tablas/Ji%20Cuadrado/JiCuadrado.gif

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-2-

Como puede observarse en el estadstico de prueba, el valor que surja a partir de los
datos mustrales ser elevado cuando difieran sistemticamente las frecuencias
observadas de las esperadas (que se construyen teniendo en cuenta la distribucin
hipottica indicada en la hiptesis nula). Por ello es que valores elevados del
estadstico caern en la zona de rechazo.
Veamos una aplicacin completa de esta prueba.
Se supone que el nmero de defectos en un dispositivo para pagos
electrnicos sigue una distribucin Poisson.
Toma una muestra aleatoria de 43 dispositivos y se observa el nmero
de defectos. Los resultados obtenidos fueron los siguientes:
Nmero de
defectos

Frecuencia
observada

25

10

3 ms

En primer lugar, explicitaremos las hiptesis de la prueba.


Ho: El nmero de defectos en el dispositivo tiene una distribucin de
Poisson.
H1: El nmero de defectos en el dispositivo no tiene una distribucin de
Poisson.
Si trabajamos con un =0,05, el valor crtico de chi cuadrado con 3
grados de libertad ser 7,83.
La regla de decisin quedar entonces:
Si el estadstico muestral es inferior a 7,83, no se rechaza Ho.
Si el estadstico muestral es mayor o igual a 7,83, se rechaza Ho.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-3-

A los fines de construir la tabla de distribucin terica, o frecuencias


esperadas, deberemos estimar en primer lugar el valor de , ya que no
nos ha sido proporcionado. Calcularemos entonces, el valor esperado
con los datos de la muestra:

0.25 + 1.10 + 2.6 + 3.2


43

28
43

= 0,65
Podemos utilizar ahora el parmetro estimado l=0,93, para calcular con
la frmula de la distribucin de Poisson o con la tabla las frecuencias
esperadas:

e x
P( x) =
x!
Con esta frmula obtuvimos las siguientes probabilidades, que luego
aplicaremos al tamao total de la muestra para calcular las frecuencias
esperadas.
Defectos

Probabilidad

0,52205

0,33933

0,10519

3 ms

0,03343

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-4-

Frecuencias esperadas:
Defectos

Frecuencia
Esperada

0
1
2
3 o ms
Total

22,44815
14,59119
4,52317
1,43749
43

Ahora aplicaremos la frmula del estadstico de prueba.

Defectos

( fe fo )2
=
fe
i =1
k

2
k 1

Frecuencia Frecuencia fe-fo


(fe-fo)2
(fe-fo)/fe
esperada observada
0 22,44815
25
-2,55185 6,51193842 0,29008798
1

14,59119

10

4,59119 21,0790256 1,44464061

4,52317

-1,47683 2,18102685 0,48218989

3 ms

1,43749

-0,56251

43

43

Total

0,3164175 0,22011805
2,43703653

Teniendo en cuenta la regla de decisin, no se rechaza la hiptesis


nula.
En sntesis, con la evidencia aportada por la muestra, no podemos
descartar, con una significacin de 0,05, que el nmero de defectos se
distribuye Poisson.

Tenga en cuenta que este tema (prueba de bondad de ajuste) no se encuentra


desarrollado en la bibliografa bsica de la materia.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-5-

4.2. Prueba de independencia de dos variables categricas


La prueba de independencia permite establecer si existe o no relacin entre variables
categricas, cuando cada una de las cuales posee dos o ms categoras.
Veamos un ejemplo.
Se llev a cabo una encuesta de expectativas econmicas vinculada con la confianza
de los consumidores, y se toma como referencia, la evolucin previa de la situacin
econmica que percibieron los encuestados. En particular, se distinguen en las
respuestas quienes mejoraron su situacin, quienes la mantuvieron igual y quienes
empeoraron en el ltimo ao.
Interesa considerar la posible relacin de la evolucin de la situacin econmica
percibida para diferentes segmentos de edad de la poblacin.
Se distinguieron los encuestados de acuerdo con los siguientes grupos:
De 18 a 29 aos: Jvenes
De 30 a 59 aos: Adultos plenos
De 60 aos y ms: Adultos mayores.
Se consideraron de manera conjunta ambas variables en una tabla de contingencia,
donde en las celdas se indica cuntos individuos renen al mismo tiempo las
caractersticas reflejadas en la fila y columna correspondientes. Los resultados
arrojados por el estudio son los siguientes:
Tabla: Encuestados segn cambio en la situacin econmica personal y grupos de
edad

Edades

Cambios en la situacin econmica personal en el ltimo


ao
Mejor
Se mantuvo igual
Empeor

Jvenes

180

150

90

Adultos plenos

120

180

70

Adultos mayores

70

100

130

Fuente: elaboracin propia


La prueba Chi cuadrado que presentaremos permite establecer si existe relacin entre
escalas como las planteadas en el ejemplo.
La prueba Chi cuadrada es una prueba de carcter general que se utiliza cuando se
desea determinar si las frecuencias absolutas obtenidas en la observacin (como en la
tabla del ejemplo previo), difieren significativamente o no de las que se esperaran bajo

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-6-

cierta hiptesis planteada de interrelacin de las categoras de las variables


consideradas.
Tabla cruzada: Datos observados, frecuencias absolutas, porcentajes totales, en filas y
en columnas
Tabla cruzada: cambio en la situacin econmica * grupo de edad

Cambios en la situacin
econmica personal en el ltimo
ao
Mejor
Se mantuvo
Empeor
igual
Grupo

Jvenes

Total

180

150

90

420

42,9%

35,7%

21,4%

100,0%

% en cambio

48,6%

34,9%

31,0%

38,5%

% del total

16,5%

13,8%

8,3%

38,5%

120

180

70

370

32,4%

48,6%

18,9%

100,0%

% en grupo de

de edad

Total

edad

Adultos

Total

plenos

% en grupo de
edad
% en cambio

32,4%

41,9%

24,1%

33,9%

% del total

11,0%

16,5%

6,4%

33,9%

Adultos

Total

mayores

% en grupo de

70

100

130

300

23,3%

33,3%

43,3%

100,0%

18,9%

23,3%

44,8%

27,5%

6,4%

9,2%

11,9%

27,5%

370

430

290

1090

33,9%

39,4%

26,6%

100,0%

100,0%

100,0%

100,0%

100,0%

33,9%

39,4%

26,6%

100,0%

edad
% en cambio
% del total

Total

Total
% en grupo de
edad
% en cambio
% del total

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-7-

Considerando los datos de la tabla previa, se puede observar que entre los que
mejoraron, es ms elevada la proporcin de jvenes, respecto del total, en tanto, entre
los que se mantuvieron, la proporcin que se destaca es la de Adultos plenos.
Finalmente, entre los individuos que vieron desmejorar su situacin econmica,
presentan proporcionalmente una mayor presencia de Adultos mayores que el resto.
A los fines de corroborar si tal observacin puede sostenerse, o bien si se trata slo de
una casualidad presente en los datos de la muestra, la prueba Chi cuadrado permite
someter a contraste las siguientes hiptesis:

Ho:
Las variables son independientes entre s (es decir, no tienen relacin)
H1:
Las variables no son independientes.
Observe que si bien estamos interesados en considerar la vinculacin entre las
variables, la hiptesis nula parte del supuesto neutral de no relacin o independencia.
En el caso de rechazar la hiptesis nula, detectaremos la relacin que suponemos que
existe, que motiv el estudio.
El estadstico justamente considerar esta situacin, en la cual, si los valores
observados se distancian significativamente del valor esperado bajo el supuesto de
independencia, el estadstico resultar en un valor elevado (ubicado en la zona de
rechazo), y se rechazar la hiptesis nula. El estadstico Chi cuadrado est dado por:

2 =

( fo fe )2
fe

Este estadstico se distribuye Chi cuadrado con (c-1).(f-1) grados de libertad.


Donde
fo: frecuencias observadas
fe: frencuencias esperadas
c= nmero de columnas
f= nmero de filas
Tambin en la prueba chi cuadrado de independencia se localizaa el riesgo de no
aceptar la hiptesis nula siendo sta cierta (el nivel de significacin, ) en el extremo
superior de valores de la distribucin chi cuadrado, como muestra la siguiente figura.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-8-

Figura Prueba chi cuadrado de independencia -Ubicacin de la zona de rechazo

Fuente: elaboracin propia, con captura de imagen de distribucin chi cuadrado de


http://media.photobucket.com/image/distribuci%2525C3%2525B3n%20chi%20cuadrad
o/BlogAqueronte/Estadistica/Tablas/Ji%20Cuadrado/JiCuadrado.gif

Nuevamente puede observarse que si las frecuencias esperadas (bajo la hiptesis nul
cierta de independencia o no relacin entre variables), difieren sistemticamente de las
observadas, tendremos elementos como para descartar la independencia, y
concluiremos que existe relacin entre las variables. En tal caso, el valor del
estadstico asumir valores elevados. De lo contrario, si en general, las frecuencias
esperadas (bajo la hiptesis de no relacin) no difieren de las observadas, no
tendremos elementos para descartar la independencia.
Continuemos ahora con el ejemplo, obteniendo las frecuencias esperadas y
completando el test.
Suponiendo una significacin de 0,05, dado que se trabaja con 4 grados de libertad
(tres filas y tres columnas), el valor crtico del estadstico chi cuadrado es: 9,5.
La regla de decisin ser:
Si el estadstico obtenido con datos muestrales es inferior a 9,5, no se rechazar la
hiptesis nula.
Si el estadstico basado en los datos muestrales es mayor a 9,5, se rechazar la
hiptesis nula de independencia, y se concluir que existe relacin entre las variables.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-9-

Para calcular las frecuencias esperadas de cada celda de la tabla de contingencia, se


debe multiplicar la frecuencia marginal de la fila de la celda por la frecuencia marginal
de la columna de la celda, y luego dividir ese resultado por el tamao total de la
muestra. Por ejemplo, para calcular la frecuencia esperada de la celda Jvenes que
mejoraron su situacin econmica, realizamos la siguiente operacin:

fe =

420.370
1090

La siguiente tabla sintetiza las frecuencias marginales para poder calcular las
frecuencias esperadas de todas las celdas interiores de la tabla.

Tabla de contingencia: frecuencias marginales


Cambios en la situacin
econmica personal en el
ltimo ao
Edades

Mejor

Se
mantuvo
igual

Empeor

Jvenes
Adultos plenos
Adultos
mayores
Total

370

430

290

Total
420

370

300

1090

Con el procedimiento descripto, la tabla de frecuencias esperadas resulta:

Frecuencias esperadas

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 10 -

Cambios en la situacin econmica


personal en el ltimo ao
Mejor
Se mantuvo
Empeor
igual

Edades

142,569

Jvenes

Adultos
plenos
Adultos
mayores

165,688

Total

111,743

420

125,596

145,963

98,440

370

101,835

118,349

79,817

300

Total

370

430

290

1090

La siguiente tabla surge de comparar los valores observados y esperados:


Cambios en la situacin econmica
personal en el ltimo ao
Mejor
Se mantuvo
Empeor
igual

Edades

37,431

Jvenes

Adultos
plenos
Adultos
mayores

15,688

5,596

34,037

31,835

21,743
28,440

18,349

50,183

Finalmente los valores que suman de cada celda para construir el estadstico muestral.
El valor del estadstico basado en datos muestrales es: 76,3, que cae en la zona de
rechazo, por lo tanto se concluye las variables grupo de edad de los encuestados se
relaciona con la percepcin de cambio en su situacin econmica en el ltimo ao.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 11 -

Tabla con los valores que se suman para obtener el estadsitico muestral, cada
( f fe )2
celda contiene los valores de o
, para la celda ij, respectivamente.
fe

ij
Cambios en la situacin econmica
personal en el ltimo ao
Mejor
Se mantuvo igual
Empeor

Edades

Jvenes

9,827

1,485

4,231

Adultos
plenos

0,249

7,937

8,217

Adultos
mayores

9,952

2,845

31,552

5. ANLISIS DE VARIANZA

5.1. Anlisis de varianza de un factor


El anlisis de varianza o como es ms conocido, ANOVA, sus siglas de la
denominacin en ingls: ANalysis Of VAriance, examina dos o ms conjuntos de
datos, en particular sus varianzas, e intenta detectar diferencias estadsticamente
representativas entre las medias de dichos conjuntos.
El propsito del ANOVA es comprobar si existen diferencias significativas entre las
medias de c grupos (c3).
Si slo comparamos dos medias, el ANOVA producir el mismo resultado que la
prueba t para muestras independientes (si estamos comparando dos grupos diferentes
de casos u observaciones) o la prueba t para muestras dependientes (si estamos
comparando dos variables en un conjunto de casos u observaciones). El problema de
aplicar la metodologa de comparacin de a pares cuando la cantidad de grupos
estudiados es superior a dos, es que, en cada comparacin se est sujeto a la
probabilidad de cometer el error tipo I (con riesgo ), y en consecuencia la
significacin real de la prueba no ser la comprometida.
El mtodo de anlisis de varianza se basa en el hecho de que hay una diferencia entre
los grupos slo si la varianza intergrupos es mayor que la varianza intra-grupo.
El anlisis se inicia calculando la varianza intra-grupo para cada grupo, y la media de
todas estas varianzas de grupo.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 12 -

La separacin de la suma de cuadrados


La idea bsica del ANOVA es el hecho de que las varianzas pueden ser divididas, es
decir separadas. Se debe recordar que la varianza se calcula como la suma de
desviaciones al cuadrado respecto de la media general (o gran media), dividida por n-1
(el tamao de la muestra menos uno). Por eso, para una muestra de tamao n, la
varianza es una funcin de las sumas de cuadrados (de desvos), a la cual
denominaremos SS. La particin de la varianza funciones como mostraremos a
continuacin:
Figura. Descomposicin de la suma de cuadrados

Fuente. Elaboracin propia


La nomenclatura que usaremos en este tema difiere levemente de la empleada en el
texto de la bibliografa bsica. Todos los valores correspondientes a las sumas de
cuadrados entre grupo se identificarn en este caso con una letra E (mientras que en
el texto se utiliza una A, por among). Todos los valores correspondientes a las sumas
de cuadrados dentro grupo se identificarn en este caso con una letra D (mientras que
en el texto se utiliza una W, por within).

Lgica bsica del ANOVA


El propsito del anlisis de varianza es probar si son estadsticamente significativas
las diferentes en las medias para tres ms grupos de casos.
Para ello se analiza la varianza, particionando la varianza total en sus componentes:
el que se debe al error aleatorio (Suma de cuadrados dentro de los grupos) y el que se
debe a las diferencias entre las medias (Suma de cuadrados entre los grupos).

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 13 -

Estos componentes de la varianza son sometidos a la prueba de significacin


estadstica, y si resulta significativa, se rechaza la hiptesis nula referida a la no
existencia de diferencia entre las medias y se concluye que hasta nueva evidencia se
mantiene como vlida la hiptesis alternativa referida a que las medias de la poblacin
son diferentes entre s (o ms precisamente, que al menos una de las medias
consideradas lo es).
Analizaremos un problema especfico para presentar todos los conceptos y
procedimientos de la prueba.
Una cadena de supermercados posee tres sucursales en una ciudad, cada una
ubicada en zonas con caractersticas diferenciadas, que determinan una aparente
distinta frecuencia mensual de compra por parte de los clientes. Interesa saber si
efectivamente las zonas presentan diferencia en este aspecto, para lo cual se llev a
cabo un seguimiento de tres clientes seleccionados al azar en cada sucursal durante
el ltimo mes, y se registr el nmero de veces que realizaron compras en la sucursal
respectiva. La siguiente tabla resume lo observado.
Tabla: Frecuencia mensual de concurrencia a la sucursal correspondiente
Zona 1

Zona 2

Observacin 1

Zona 3
8

Observacin 2

Observacin 3

Media del grupo

7,67

En la prueba ANOVA, las hiptesis se explicitan de la siguiente manera:


Hiptesis nula:
Ho: Las medias de los c grupos son iguales

Hiptesis alternativa:
Al menos una de las medias de los grupos es diferente a las dems.
En el ejemplo planteado, quedaran expresadas de la siguiente manera.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 14 -

Hiptesis nula:
Ho: Las medias de frecuencia mensual de compra de las 3 zonas son iguales
Hiptesis alternativa:
Al menos una de las medias de las zonas es diferente a las dems.

5.1.1. Dispersin total


La variacin total (SST) est dada por la suma de cuadrados de todos los valores
respecto de la media del total de datos o gran media.

nj

SST = ( xij x ) 2
j =1 i =1

Donde

x es la gran media
xij

es la i-sima observacin del grupo j

nj indica la cantidad de casos del grupo j


c es la cantidad de grupos
Tabla: Clculo de la gran media y de la SST
Zona 1
Observacin 1

Zona 3
8

Observacin 2

Observacin 3

Media del grupo

7,67

Gran Media
Suma de cuadrados totales

Zona 2

5,2
55,56

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 15 -

5.1.2. Dispersin entre grupos


La variacin o dispersin entre grupos se resume a travs de la suma de cuadrados
entre grupos (SSE), que considera las diferencias entre las medias de cada grupo y la
gran media.

SSA = n j ( x j x ) 2
j =1

Donde

xj

es la media del grupo j

5.1.3. Dispersin dentro de grupos


La variacin o dispersin dentro grupos considera la suma de cuadrados dentro de
grupos (SSD), que tiene en cuenta las diferencias entre cada uno de los valores
observados en cada grupo y la media correspondiente a su grupo.

SSD =
j =1

nj

(x
i =1

ij

x j )2

Donde

xj

es la media del grupo j

Veamos los resultados de las SSE y SSD para los datos del ejemplo:

Observacin 1

Zona 1
2

Zona 2
6

Zona 3
8

Observacin 2

Observacin 3

Media del grupo

7,67

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 16 -

Zona 1
Suma de cuadrados
(dentro)

Zona 2
2

Zona 3
0,67

4,67

Suma de cuadrados
entre
Gran Media
Suma de cuadrados
totales

50,86

5,2
55,56

Las medias de los tres grupos, parecen ser bastante diferentes. Las sumas de
cuadrados en cada grupo son relativamente reducidas. En total suma 4,56. Por otra
parte, si analizamos la SS total, obtenemos 55,56. En definitiva, calcular la varianza
(suma de cuadrados) basados en la variabilidad en los grupos conduce a una
estimacin mucho menor de la varianza que calcularla basada sobre la variabilidad
total. La razn para ello en este ejemplo es que hay una gran diferencia entre las
medias, y esta diferencia genera la diferencia entre las SS.
Cada una de las sumas de cuadrados descriptas tiene asociados grados de libertad
diferentes:

La SST tiene n-1 grados de libertad, ya que pierde un grado de libertad


respecto del total de datos de la muestra, por el clculo de la gran media

La SSE tiene c-1 grados de libertad, tambin debido a que si se conoce la gran
media, al menos uno de los valores de las medias de los grupos quedar
automticamente determinado.

La SSD tiene n-c grados de libertad, ya que en cada uno de los c grupos
resultan (nj -1) grados de libertad, ya que en cada grupo se pierde un grado de
libertad por el clculo de la media muestral de ese grupo.

Suma de cuadrados del Error (Suma de Cuadrados Dentro) y Suma de


cuadrados del Efecto (Suma de Cuadrados Entre)
La variabilidad dentro de los grupos es generalmente denominada Varianza de Error.
Este trmino denota el hecho de que no podemos realmente explicarlo o tenerlo en
cuenta en este diseo que estamos considerando. Sin embargo, la variabilidad entre
grupos (Efecto), puede ser explicada. Como su nombre lo indica, esta variabilidad se
debe a las diferencias en las medias entre los grupos. Explicado de otra forma, ser
miembro de un grupo explica esta variabilidad ya que conocemos que esto se asocia
con las diferencias en las medias.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 17 -

El ANOVA es otro ejemplo de prueba en la que se desea conocer la significacin


estadstica. En este caso el test o prueba se basa en la comparacin de la varianza
debida a la variabilidad entre grupos (Cuadrados medios entre, CME) con la
variabilidad dentro de los grupos (Cuadrados medios dentro, CMD, o Cuadrados
medios del error). Bajo hiptesis nula (que se expresa como: no hay diferencias entre
las medias de los grupos de la poblacin), la varianza estimada basada en la
variabilidad dentro de los grupos debera ser aproximadamente la misma que la
varianza debida a variabilidad entre grupos. Podemos entonces comparar estas dos
estimaciones de la varianza a travs de la prueba F, la cual somete a prueba si el
cociente de dos varianzas es significativamente mayor que 1.
En el ejemplo, el test es elevadamente significativo, por lo cual se concluye que en
efecto las medias de los grupos (al menos una de ellas) son significativamente
diferentes entre s.
Considerando las sumas de cuadrados y sus respectivos grados de libertad podemos
obtener las tres varianzas que caracterizan al problema:

Los cuadrados medios totales (o trminos cuadrticos medios totales) se


obtienen de la siguiente manera:

CMT =

Los cuadrados medios entre (o trminos cuadrticos medios entre) se obtienen


de la siguiente manera:

CME =

SST
n 1

SSE
c 1

Los cuadrados medios dentro (o trminos cuadrticos medios dentro) se


obtienen de la siguiente manera:

CMD =

SSD
nc

El texto de la bibliografa bsica denota con MS a los Cuadrados medios.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 18 -

Contraste de hiptesis en el ANOVA


El estadstico de prueba tiene distribucin F, y se construye en base a los datos de la
muestra de la siguiente manera:

F=

CME
CMD

La distribucin, que corresponde a un cociente de varianzas, tiene asociados grados


de libertad del numerador iguales a los de los CME, que son c-1, y grados de libertad
en el denominador iguales a los de los CMD, que son n-c.
La zona de rechazo en las pruebas ANOVA se establece determinando un valor crtico
en la distribucin F, con los grados de libertad mencionados, de manera que resulte
por encima de este valor, una probabilidad igual al nivel de significacin elegido. En
este caso tambin, la zona de rechazo se ubica en los valores elevados de la
distribucin. Este hecho se relaciona con la relacin mencionada previamente de los
cuadrados medios dentro y entre como estimadores de la varianza. En trminos
intuitivos, puede observarse que un valor elevado del estadstico muestral, proviene de
una situacin en la cual los CME son ms elevados (predominantes en cuanto a la
fuente de variacin de los datos). En tal situacin, la variabilidad de los datos se asocia
principalmente con el grupo al cual pertenece el individuo, y en consecuencia resulta
sospechosa la hiptesis de igualdad de todas las medias poblacionales de los grupos.
El valor crtico de la prueba en el ejemplo, de una distribucin F, con 2 grados de
libertad en el numerador y 6 grados de libertad en el denominador, con una
significacin de 0,05, es 5,14.
La regla de decisin queda determinada de la siguiente manera:

Si el estadstico muestral F es mayor o igual a 5,14, se rechaza la hiptesis


nula (y en consecuencia no puede afirmarse que las medias de todos los
grupos son iguales).

Si el estadstico muestral F es menor a 5,14, no se rechaza la hiptesis nula (y


en consecuencia no disponemos de evidencia para descartar que las medias
de todos los grupos sean iguales).

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 19 -

El siguiente grfico muestra dnde se ubica la zona de rechazo en las pruebas


ANOVA.
Figura

Fuente: elaboracin propia, con captura de imagen de distribucin tomada de


http://media.photobucket.com/image/distribuci%2525C3%2525B3n%20f/BlogAqueront
e/Estadistica/Tablas/f.gif
Toda la informacin requerida para un ANOVA se sintetiza en una tabla ANOVA. Para
el ejemplo, la siguiente tabla ANOVA, nos permite llevar a cabo la prueba:
Tabla de ANOVA
Fuente de Suma de
variacin
cuadrados
Entre
50,89
grupos
(Efecto)
Dentro
grupos
(Error)
Total

de

Grados de
libertad
2

Cuadrados
medios
25,44

32,71

4,67

0,778

55,56

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 20 -

El valor de estadstico muestral F es 32,71, superior al valor crtico, por lo tanto, en


base a la evidencia obtenida, podemos afirmar que al menos una de las zonas donde
estn implantadas las sucursales del supermercado, posee una frecuencia promedio
de compra de los clientes distinta al resto.

Comparaciones Post hoc


El hecho de rechazar la hiptesis nula de un ANOVA no nos dice nada acerca de las
diferencias de las medias entre s, slo nos permite asegurar que tal diferencia es
significativa, en al menos una de las medias consideradas.
Nos preguntamos en el ejemplo, cul o cules de las sucursales difieren
significativamente en cuanto a sus frecuencias promedio de compra?
Para poder identificar cul o cules medias difieren se realizan pruebas como el test
de Tuckey, que posibilitan su deteccin.
Dado que estas pruebas se realizan una vez que ha sido rechazada la hiptesis nula
del ANOVA, a posteriori, se denominan post hoc.
Para llevar a cabo esta prueba se sigue el siguiente procedimiento:
1. En primer lugar se calculan las diferencias de a pares de todos los grupos

x j x j'
Para todo

j j'
Es decir, para todas las medias de diferentes grupos.

En total sern necesarias

c(c 1)
2
Comparaciones de medias de a pares.

2. En segundo lugar, se debe obtener el alcance crtico, con la siguiente frmula:

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 21 -

ac = QU ( c , n c )

CMD 1
1
.
+
2 n j n j '

Si los tamaos de las muestras de cada grupo son diferentes debe calcularse
el ac para cada par de medias de muestra.
El valor de Q se obtiene de la tabla correspondiente a la tabla de Tuker Kramer.
3. Finalmente se comparar las diferencias obtenidas en (1) con el ac que le
corresponde.
Si la diferencia obtenida excede al ac, pueden considerarse distintas las
medias respectivas.

Supuestos del ANOVA


Para poder realizar la prueba ANOVA debe verificarse el cumplimiento de los
supuestos, que garantizan la validez.
1. Aleatoriedad o independencia de errores
Es imprescindible garantizar la aleatoriedad en la asignacin de los casos a los
diferentes niveles del tratamiento, ya que de lo contrario, no ser posible arribar a
conclusiones correctas acerca del efecto del nivel del tratamiento o grupo al cual
est asignado el caso, sobre la variable dependiente.
Este aspecto debe ser garantizado desde el propio diseo del estudio experimental
del cual provenga la muestra de anlisis.
2. Normalidad
La segunda condicin que debe cumplirse se relaciona con la distribucin de los
datos de cada uno de los grupos. Los datos deben distribuirse de manera normal
en torno de la media de cada grupo.
En general, la prueba ANOVA es robusta (en el sentido de resistir an si no se
cumple de manera estricta esta propiedad), siempre que las distribuciones no sean
demasiado sesgadas.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 22 -

3. Homogeneidad de varianzas
Las varianzas de todos los grupos deben ser iguales. Este supuesto es crtico, y
puede verificarse su cumplimiento a travs de un test de Levene de igualdad de
varianzas.
Si las muestras tienen igual tamao, no se ver afectado el resultado del ANOVA
por la falta de cumplimiento de este supuesto.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 23 -

Ejercicios
Resolver los siguientes ejercicios con las tcnicas aprendidas.
1. Supongamos que un frmaco que se administra a 3 grupos de personas y se
les realiza cierta medicin del efecto causado:

Resultado de la medicin
Gripe (nivel 1) 5 3 2 5 4 3
Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10 5
Sanos (nivel 3) 2 3 2 1 2 3 2
En este caso los factores que influyen en las observaciones son tres: el que la persona
padezca la gripe, apendicitis, o que est sana.
a. Plantee las hiptesis del problema.
b. Utilice una significacin de 0,05.
c. Escriba una conclusin

2. Se aplican 4 tratamientos distintos a 4 grupos de 5 pacientes, obtenindose los


resultados de la tabla que se adjunta. Queremos saber si se puede concluir
que todos los tratamientos tienen el mismo efecto.
Tratamientos

Observaciones

Tratamiento 1 -1

-1

Tratamiento 2 -2 -4 -5 -4 -7

Tratamiento 3

-1 -2 -4 -1

Tratamiento 4

ni

a. Plantee las hiptesis del problema.


b. Utilice una significacin de 0,05.
c. Escriba una conclusin

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 24 -

3. La tabla siguiente presenta la distribucin de frecuencia del nmero de defectos


encontrados en el anlisis de los ltimos 200 artculos producidos en un
proceso de produccin. Usando un nivel de confianza del 5% se desea verificar
mediante una prueba chi cuadrado si dichos valores proceden de una
distribucin de Poisson con una media de3.5 defectos por artculo.

4. Se realiz una encuesta para caracterizar a los lectores de diarios en ciudades


pequeas, en reas rurales y en granjas. La respuesta acerca de si lean o no
algn diario, result en la siguiente tabla:
Comunidad

Lectores?
Si
529
373
237
1139

Urbana
Rural
Granja
Total

Total
No
121
137
89
347

650
510
326
1486

a) Con =0.05 brindan los datos evidencia suficiente para indicar que las
proporciones de lectores difieren entre los distintos grupos de
comunidades?
b) Encuentre el valor p para la prueba.
5.

Se realiz un estudio de las decisiones de tres administradores de carteras de


acciones, para comparar las ganancias obtenidas. Proporcionan los datos
suficiente evidencia para indicar que hay diferencias en las compras exitosas
entre los administradores (=0.05)?

Resultado
Con ganancia
Sin ganancia
Total

A
63
37
100

Administrador
B
71
29
100

Total
C
55
45
100

189
111
300

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 25 -

6. Ante la sospecha de que el hbito de fumar de una embarazada puede influir


en el peso de su hijo al nacer, se tomaron dos muestras, una de fumadoras y
otra de no fumadoras, y se clasific a sus hijos en tres categoras en funcin de
su peso en relacin con los percentiles P10 y P90 de la poblacin. El resultado
se expresa en la tabla siguiente:
Peso del nio
Madre fumadora? Menor de P10 Entre P10 y P90 Mayor de P90
Si

117

529

19

No

124

1147

117

Hay una evidencia significativa a favor de la sospecha teniendo en cuenta los


resultados de la muestra?

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 26 -

También podría gustarte