Está en la página 1de 24

ANLISIS DE VARIANZA

Dra. Nidelvia del Jess Bolvar Fernndez

EJEMPLOS Y EJERCICIOS
Ejemplo 1

Se han aplicado cuatro mtodos distintos para el aprendizaje del concepto de nmero primo a cuatro grupos de alumnos y alumnas elegidos aleatoriamente. Posteriormente se les ha pasado la misma prueba para valorar la adquisicin del concepto, con los siguientes resultados: Mtodo A 8 12 11 15 7 9 10 11 17 12 Mtodo B 16 12 13 15 19 16 13 10 6 11 Mtodo C 16 15 13 17 13 9 19 16 14 13 Mtodo D 11 9 8 8 9 12 10 9 5 10

Se supone poblacin normal y que las muestras son independientes entre s. Hay alguna evidencia, al 95% de Nivel de Confianza, de que exista un efecto en la aplicacin de los distintos mtodos?

Aunque se haya expresado con otras palabras, lo que interesa en esta situacin es averiguar si las medias de las cuatro poblaciones representadas por la aplicacin de los mtodos se pueden considerar iguales o no, es decir: La hiptesis nula es H0: m1 = m2 = m3 = m4 Para averiguar esto se acude a analizar la varianza. La razn es que si las medias son iguales, la varianza total disminuye, pero si las medias son muy diferentes, aumenta. Es una idea intuitiva que podemos expresar con estas imgenes:

En esta otra, al separarse los grupos, En esta situacin, los cuatro grupos la varianza total aumentar, porque estn muy cercanos. Su varianza total hay ms dispersin, pero la varianza no ser grande. Cada grupo tiene su interna de cada grupo es la misma. Lo propia varianza interna. que ha aumentado es la variabilidad Intergrupos.

Observando las imgenes se puede entender que si la varianza total aumenta, esto puede deberse a dos causas, o a que haya aumentado la varianza interna de cada grupo, o, lo que es ms probable, que se hayan separado las medias y eso ha aumentado la varianza total. El Anlisis de la varianza (ANOVA) nos permite aceptar o rechazar la hiptesis nula

H0: m1 = m2 = m3 = m4
descomponiendo la varianza total en dos sumandos: Intragrupos e Intergrupos. Segn sean estas cantidades se tomar una decisin u otra.
Cuando las medias de varios grupos relacionados se separan entre s, aumenta la varianza total.

En la prctica se forman tres sumas de cuadrados distintas y despus se restan adecuadamente. S1: Consiste en sumar todos los cuadrados de los datos. Su valor es, en este ejemplo 6207. S2: Se suman los cuadrados de las sumas de los distintos niveles dividido cada uno entre el nmero de datos. En el ejemplo su valor es de 5901.1

S3: Se obtiene dividiendo el cuadrado de la suma total de todos los niveles dividido entre el nmero total de datos. En este caso vale 5736.03
Una vez obtenidas estas sumas, se van restando y resultarn las sumas de cuadrados Intergrupos, Intragrupos y Total:

S1: Consiste en sumar todos los cuadrados de los datos


Mtodo A 64 144 Mtodo B 256 144 Mtodo C 256 225 Mtodo D 121 81 Sumatorias

697
594 523 803 660 562

121
225 49 81 100 121

169
225 361 256 169 100

169
289 169 81 361 256

64
64 81 144 100 81

730
558 546 534 6207 6207

289
144 1338

36
121 1837

196
169 2171

25
100 861

S2: Se suman los cuadrados de las sumas de los distintos niveles dividido cada uno entre el nmero de datos.
Mtodo A
8 12 11 15 7 9 10 11 17 12 112 12544 1254.4

Mtodo B
16 12 13 15 19 16 13 10 6 11 131 17161 1716.1

Mtodo C
16 15 13 17 13 9 19 16 14 13 145 21025 2102.5

Mtodo D
11 9 8 8 9 12 10 9 5 10 91 8281 828.1 479 59011 5901.1 Sumatorias Cuadrado de Sumatorias Cuadrado de Sumatorias entre 10

S3: Se obtiene dividiendo el cuadrado de la suma total de todos los niveles dividido entre el nmero total de datos. En este caso vale 5736.03
Mtodo A
8 12 11 15 7 9 10 11 17 12 112

Mtodo B
16 12 13 15 19 16 13 10 6 11 131

Mtodo C
16 15 13 17 13 9 19 16 14 13 145

Mtodo D
11 9 8 8 9 12 10 9 5 10 91 479 229441 5736.025

Cuadrado de la sumatoria
Cuadrado de la sumatoria entre el nmero total de datos (N)

Suma de cuadrados INTRA: S1-S2 = 6207 - 5901,1 = 305,9 Es la suma de cuadrados que corresponde al interior de los niveles, sin tener en cuenta su diferencia de medias. Sus grados de libertad se obtienen restando el nmero total (40) menos el nmero de niveles (4), es decir, 36. Su cociente es el mejor estimador de la varianza de la poblacin, en este caso 8,5 Suma de cuadrados TOTAL: S1-S3 = 6207 5736.03 = 470.98 Es la suma total de cuadrados. Sus grados de libertad son N-1, que en este caso son 39, con lo que la varianza total ser 470.98/39 = 12.08 Suma de cuadrados INTER: S2-S3 = 5901.1 5736.03 = 165.08 Esta suma refleja los desniveles en las medias. Si es alta, puede indicar que las diferencias entre medias son significativas. Sus grados de libertad equivalen al nmero de niveles menos 1, en el ejemplo sera 3. La varianza INTER ser entonces igual a 55.03

ANOVA

Fuente de variacin Suma de cuadrados Inter

Suma de cuadrados S2-S3 = 5901.1 5736.03 = 165.08

Grados de libertad 4 -1 = 3

Cuadrado Medio 165.08 3 = 55.03

F (Fisher) Calculada 55.03 8.5 = 6.48

Suma de cuadrados INTRA: Suma de cuadrados TOTAL

S1-S2 = 6207 5901,1 = 305.9 S1-S3 = 6207 5736.03 = 470.98

40-4 =36

305.9 36 = 8.5 470.98 39 = 12.08

40 -1 = 39

F tablas 4. 313

Contraste El punto importante del ANOVA es el contraste entre unas varianzas y otras, que se realiza mediante la prueba F.

Al dividir nos resulta un valor de F=6.48, muy grande, con un p-valor de 0,001 en tablas, que la convierte en significativa, luego las medias de los distintos niveles no se pueden considerar iguales.

Como resultado del ANOVA podremos afirmar que en nuestro ejemplo el mtodo de enseanza ha influido en los resultados.

Ejemplo Se ha recogido la valoracin de un lder poltico en dos ciudades distintas A y B, dividida cada una en tres barrios segn su nivel adquisitivo (Alto, Medio y Bajo), obtenindose los siguientes resultados:

Nivel alto Ciudad A 6, 5, 6, 7, 4, 8, 9 4, 4, 6, 8 8,8,3, 10

Nivel medio 6, 7, 8, 5, 4, 5, 10, 6, 7,7, 4, 7, 6, 8

Nivel bajo 3, 2, 3, 3, 4, 5, 4, 1, 0, 4, 6, 2, 5, 4, 4

Ciudad B

6, 6, 5, 6, 4, 5, 2, 4, 2, 8, 6, 4, 4, 5, 1, 4, 3, 3, 3, 6, 5 4, 6, 3, 2, 3, 2, 3, 5, 4, 4, 3 4, 2, 2, 6, 3, 1 1, 6 4, 2, 2, 3, 1

Suponiendo que se cumplen los supuestos del ANOVA para dos factores, podemos afirmar si la poblacin presenta diferencias significativas en la apreciacin del poltico segn la ciudad o segn su nivel adquisitivo?

S2: Se suman los cuadrados de las sumas de los distintos niveles dividido cada uno entre el nmero de datos.

Nivel alto Ciudad A

Nivel medio

Nivel bajo

6, 5, 6, 7, 4, 8, 9 6, 7, 8, 5, 4, 5, 3, 2, 3, 3, 4, 5, 4, 4, 6, 8 8,8,3, 10, 6, 7,7, 4, 7, 4, 1, 0, 4, 6, 2, 10 6, 8 5, 4, 4 6, 6, 5, 6, 4, 5, 2, 4, 4, 5, 1, 4, 3, 5 4, 6, 3, 2, 3, 4, 2, 8, 6, 5, 4, 4, 3, 3, 6, 4, 2, 2, 2, 3, 1, 6 4, 2, 3 6, 3, 1 2, 3, 1

Ciudad B

Este sera un ejemplo de Anlisis de Varianza con dos factores (ciudad y nivel). Toda la teora y consideraciones hechas para el caso de un factor siguen sirviendo en ste, pero con ms sumas de cuadrados y ms contrastes F.

Fuente variacin Factor A Factor B Interaccin AB

SC 83.83 59.13 30.12

G.L. 2 1 2

CM 41.92 59.13 15.06

F 14.55 20.53 5.23

Error
TOTAL

239.03
412.11

83
88

2.88

P-valor de FA

0,182

P-valor de FB

0,045 Significativa al 5%

P-valor de FAB

0,007 Significativa al 5%

Observa que ahora se pueden considerar cinco sumas de cuadrados: Factor A: SCA=83.83. Representa la variabilidad propia del factor Nivel adquisitivo. Sus grados de libertad son 2, que equivalen al nmero de niveles menos 1, y su cuadrado medio 41.92 Factor B:SCB=59.13. Es la suma correspondiente al factor Ciudad. Como slo hay dos ciudades, sus grados de libertad equivalen a 1, y su cuadrado medio 59.13, muy alto respecto al estimador 2.88. Interaccin: SCAB=30.12 Este factor no se considera si existen motivos para creer que no existe influencia mutua entre el factor Ciudad y el factor Nivel adquisitivo. Aqu lo consideraremos porque no tenemos suficiente informacin. Sus grados de libertad son 2, producto de los G.L. anteriores. Error:SCE=239.03. Es la variabilidad de la encuesta si se prescinde de la influencia de los factores. Su cuadrado medio es el mejor estimador de la varianza de la poblacin: 2.88. Total: SCT=412.11. Nos sirve para ver si cuadran bien todos los clculos de sumas de cuadrados y grados de libertad, o para calcular SCE mediante la operacin de restar.

Si dividimos cada cuadrado medio entre 2,88 obtenemos la F de cada factor, Y, aplicando el contraste correspondiente obtenemos que son significativas al 5% tanto la influencia de la Ciudad como de la Interaccin, no siendo significativa la influencia del Nivel adquisitivo.

Ejercicio 1 Se est estudiando el tiempo de coccin de un alimento antes de lanzarlo al mercado. Se han formado cuatro grupos y se les ha pedido que midan el tiempo transcurrido hasta que, segn su juicio, el alimento quede a punto. Como esta sensacin es subjetiva, se usa un ANOVA para estimar la varianza que presenta el experimento. Todos los grupos usan fuentes de calor y utensilios similares. Si la tabla siguiente recoge los resultados redondeados en minutos, a) qu estimacin podramos hacer de la varianza de la poblacin de estos alimentos? b) Se observan diferencias entre los grupos?

Grupo A 7 7 8 7 9 8 11 12 9 10 10

Grupo B 11 11 13 7 9 9 9 10 10 9 9

Grupo C 11 11 11 12 11 12 10 10 11 11 9

Grupo D 9 9 10 9 10 8 10 10 12 9 9

Resultados probables: Obtendrs que las medias de los grupos son 8.91 9.73 10.82 y 9.55, algo dispersas, y como la F tiene un p-valor de 0.016, se puede catalogar de significativa su diferencia al 5%, luego podemos afirmar que existen diferencias entre los grupos.

Quizs haya influido algn otro factor, como la presin atmosfrica o los gustos personales.
La estimacin de la varianza de la poblacin es de 1.79, y su desviacin tpica de 1.34, algo alta para un experimento que poda haber sido ms preciso.

Ejercicio 2 Se puede afirmar que la siguiente tabla de doble entrada contiene una interaccin significativa entre sus dos factores? Nivel 1 Nivel A 121234345 Nivel 2 2434543231

Nivel B

356545346 4767876654

Nivel C

465789686 6899876789

Vaca estos datos en el modelo de ANOVA para dos factores y obtendrs estos resultados: La interaccin presenta una F cuyo p-valor es 0.398, claramente no significativo.

Fuente variacin Factor A Factor B


Interaccin AB Error TOTAL

SC 13.38 169.3
3.2 87 272.88

G.L. 1 2
2 51 56

CM 13.38 84.65
1.6 1.71

F 7.84 49.62
0.94

Ejercicio 3 Para estudiar el efecto del cansancio en una tarea rutinaria, se han contado el nmero de realizaciones de varios operarios a lo largo del da, con estos resultados: Se puede afirmar que el tiempo de trabajo transcurrido influye en el rendimiento? Usa el modelo de un factor. Analiza los resultados: La F=19.67 es claramente significativa. S existe una influencia del cansancio.
En el inicio del trabajo A las cuatro horas A las siete horas 12 12 13 14 11 15 9 9 8 10 11 11 10 9 8 10 10 9 9 9 10 9 7 6 6 9 12 11 10 8 6 9 6 7 9676677887996566798

Fuente variacin INTER INTRA TOTAL

SC 115 146.17 261.17

G.L. 2 50 52

CM 57.5 2.92 5.02

F 19.67