Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANÁLISIS DE VARIANZA
El análisis de la varianza es un método para comparar más de dos medias, que es necesario porque cuando se quiere comparar más de dos medias es
incorrecto utilizar repetidamente el contraste basado en la T-Student.
El análisis de la varianza permite contrastar la hipótesis nula de que las medias de p poblaciones (p >2) son iguales, frente a la hipótesis alternativa de que
por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado.
H 0 :µ1=µ2=µ3 =…=µ p
H a :∃ µi ≠ µ j ∀ i ≠ ji , j=1,2 , ⋯ , p
Se entiende por diseño experimental, el proceso de planeamiento de un experimento, tal que se tomen datos apropiados con la mayor realidad posible, los
cuales deben ser analizados mediante métodos estadísticos que deriven conclusiones válidas y objetivas. Podemos decir que la filosofía del diseño
experimental es la obtención de información con una alta fidelidad sobre el mensaje de la naturaleza a un costo mínimo.
Definiciones importantes:
¿Qué es una investigación no experimental?: Es la que se realiza sin manipular deliberadamente las variables independientes, se basa en variables que
ya ocurrieron o se dieron en la realidad sin la intervención directa del investigador.
Un factor: es una variable independie4nte cuyos valores controlados y variados por el experimentador.
Existen varios diseños experimentales dependiendo de ciertas características estructurales, uno de los diseños experimentales más sencillos es el Diseño
Completamente Aleatorio (DCA), en el que muestras aleatorias se seleccionan de manera independiente de cada una de p poblaciones. Este diseño
comprende sólo un factor, la población de donde proviene la medición, de aquí la designación como una clasificación en una dirección.
Repetició TRATAMIENTO
n
T1 T2 T3 …… TP
SCTotal=SCT + SCE
p ni
SCTotal=∑ ∑ X 2ij – CM
i =1 j=1
p ni 2
CM =
(∑ ∑ )
i=1 j=1
X ij
n
T 2ip
SCT=∑ −CM
i=1 ni
SCE=SCTotal – SCT
TABLA ANOVA
FUENTE DE VARIACION GRADOS DE LIBERTAD SUMA DE CUADRADOS CUADRADO MEDIO F calculado
El valor Fcalculado se compara contra un F(p-1;n-p) ,si el Fcalculado es mayor al F(p-1;n-p) se acepta Ha, de lo contrario se acepta Ho.
El análisis de procedimiento de varianza provee una prueba general para juzgar la igualdad de las p medias poblacionales. Una vez que haya determinado si
hay en realidad una diferencia en las medias, se puede usar otro procedimiento para averiguar dónde están las diferencias.
Una vez que se ha determinado que existen diferencias entre las medias, los contrastes de comparaciones múltiples post hoc, o comparaciones a posteriori,
permiten determinar entre qué medias existen diferencias significativas.
Uno de los métodos que nos responde a esta inquietud, es el método de Tukey para comparaciones pareadas, hace que la probabilidad de manifestar que
existe una diferencia entre por lo menos un par de medias en un conjunto de p medias de tratamiento.
Existen varios métodos para cumplir con este objetivo, uno de ellos, el método de Tukey para hacer comparaciones pareadas está basado en el análisis usual
de suposiciones de varianza.
El procedimiento de ANOVA es robusto cuando los tamaños muestrales son iguales y cuando existe un comportamiento Normal en los datos. Violar el
supuesto de igualdad de varianzas es muy serio, en especial cuando los tamaños muestrales no son cercanamente iguales.
Ejemplo 1:Qué tipo de comerciales de televisión captan mejor la atención de los niños? Para dar respuesta a la pregunta anterior, se observó la actitud de 15
niños; 5 niños fueron observados mientras veían comerciales de juguetes y juegos, 5 mientras veían comerciales sobre comida y goma de mascar y 5
mientras veían comerciales relacionados con ropa para niños. Todos los comerciales tenían 60 segundos de duración. En la siguiente tabla aparecen los
tiempos de atención a los comerciales para los 15 niños:
JUGUETES COMIDA ROPA μ
45 50 25
40 25 15
30 55 22
25 45 27
45 50 35
Si se desea probar si existe diferencia entre los tiempos medios de atención de los niños a las tres clases de comerciales. Se debe usar la prueba de Tukey.
Realícela.
¿Diseño experimental?
JUGUETES COMID ROPA μ
A
45 50 25
40 25 15
30 55 22
25 45 27
45 50 35
ni 5 5 5
μi 37 45 24.8 35.6
40 35. (37-35.6)=1.4 3
6
30 35. (37-35.6)=1.4 -7
6
45 35. (37-35.6)=1.4 8
6
50 35. (45-35.6)=9.4 5
6
45 35. (45-35.6)=9.4 0
6
50 35. (45-35.6)=9.4 5
6
2. Homocedasticidad o igualdad de las varianzas de los diferentes tratamientos: Existen varias pruebas para demostrar esto, usaremos la prueba de Levene.
Ho: σ 2J =σ 2C =σ 2R
Ha: σ 2i ≠ σ 2j ∀i ≠ ji , j=J ,C , R
Verificación de Varianza
Prueba Valor-P
Levene' 0.43348 0.6580
s 9
µJ =µC =µ R
H0 :
Ha:∃ µi ≠ µ j i,j=J,C,R
2. Nivel de significancia α=0.05
3. Estadística de prueba:
Para calcular la estadística de prueba es necesario seguir estos pasos.
p ni
SCTotal=∑ ∑ X 2ij – CM=452 +40 2+30 2+ …..+27 2+ 352 – CM=21138−19010.4=( n−1 ) ( S 2n−1 ) =( 15−1 ) ( 151.9714 )=2127.5996
i =1 j=1
p ni
2
( ∑ ∑ X ij )
i=1 j=1 (534)2 2
CM = =
=n(x́) =19010.4
n 15
p
T 2i 1852 2252 124 2
SCT=∑ −CM = + + – CM =20045.2 – 19010.4=1034.8
i=1 ni 5 5 5
SCE=SCTotal – SCT =2127.5996−1034.8=1092.7996
TABLA ANOVA
FUENTE DE GRADOS DE SUMA DE CUADRADO MEDIO F calculado
VARIACION LIBERTAD CUADRADOS
Ejemplo 2: Los Bifenilos Policlorados (PCB) empleados en la fabricación de transformadores y condensadores eléctricos de gran tamaño, son contaminantes
extremadamente peligrosos cuando se liberan en el medio ambiente. Se tomaron muestras de peces de cinco ríos y se analizaron para determinar la
concentración de PCB (en ppm).
2 4 12 7 13
3 6 9 5 9
1 3 11 5 15
5 5 8 9 10
7 11
ni 4 5 4 4 6
Suma 11 25 40 26 65
Los datos proporcionan pruebas suficientes que indiquen diferencias en la concentración media de PCB entre los peces de los cinco ríos con un α=0.01. Se
debe usar la prueba de Tukey. Realícela.
2. Homocedasticidad o igualdad de las varianzas de los diferentes tratamientos: Existen varias pruebas para demostrar esto, usaremos la prueba de Levene.
Verificación de Varianza
3. Estadística de prueba:
p ni
2
( ∑ ∑ X ij )
(167)2
i=1 j=1
CM = =1212.5652 =
n 23
p
T 2i 112 252 402 262 65 2
SCT=∑ −CM = + + + + – CM =1428.4167 – 1212.5652=215.8515
i=1 ni 4 5 4 4 6
SCE=SCTotal – SCT =80.5833
TABLA ANOVA
FUENTE DE GRADOS DE SUMA DE CUADRADO MEDIO F calculado
VARIACION LIBERTAD CUADRADOS
Tabla ANOVA
Fuente Suma de Cuadrados Gl Cuadrado Razón-F Valor-P
Medio
Entre 215.851 4 53.9629 12.05 0.0001
grupos
Intra grupos 80.5833 18 4.47685
Total (Corr.) 296.435 22
Con un nivel de significancia del 1% existen razones para creer que hay diferencias entre en la concentración media de PCB entre los peces de los cinco
ríos.
Ejemplo 3: Una compañía planea promover un nuevo producto por medio de una de tres campañas de publicidad. Para investigar la magnitud de
reconocimiento del producto con estas tres campañas se seleccionaron 15 zonas de mercado y se asignaron al azar cinco a cada campaña de publicidad. Al
final de las campañas publicitarias se seleccionaron muestras aleatorias de 400 adultos en cada zona y se registraron las proporciones de quienes estaban
familiarizados con el nuevo producto.
Campaña Campaña Campaña
1 2 3
0.33 0.28 0.21
Analice este diseño completamente al azar. ¿Se violó alguno de los supuestos del análisis de varianza en este experimento? ¿Diseño experimental?
2. Homocedasticidad o igualdad de las varianzas de los diferentes tratamientos: Existen varias pruebas para demostrar esto, usaremos la prueba de Levene.
H0 :µ1=µ 2=µ 3
H1:∃ µi ≠ µ j i,j=1,2,3
3. Estadística de prueba:
Tabla ANOVA
Fuente Suma de Cuadrados Gl Cuadrado Razón-F Valor-P
Medio
Entre 0.01084 2 0.00542 1.86 0.1978
grupos
Intra grupos 0.03496 12 0.00291333
Total (Corr.) 0.0458 14
Con un nivel de significancia del 5% existen razones para creer que no hay diferencias entre las proporciones promedio de quienes estaban familiarizados
con el nuevo producto.
Se debe realizar la prueba de Tukey: No, debido a que no se encontraron diferencias entre los promedios de acuerdo al ANOVA.
¿Se violó algún supuesto? No. Cuando no se cumplen los supuestos del ANOVA a menudo se remedia transformando los datos de la respuesta. Es decir, en
lugar de usar los datos originales, se podrían usar raíces cuadradas, logaritmos, o alguna otra función de la respuesta. Las transformaciones tienden a
estabilizar la varianza de la respuesta. Cuando no se logra nada con las transformaciones, se debe utilizar la estadística no paramétrica.
Ejemplo 4: Cuatro grupos de estudiantes se sometieron a técnicas de enseñanza diferentes y se examinaron al final de un periodo específico de tiempo.
Debido a las bajas en los grupos experimentales (por enfermedad, transferencias, etc.), el número de estudiantes en los grupos no fue el mismo. Presentan
los siguientes datos suficiente evidencia para concluir que hay diferencias en el rendimiento medio correspondiente a las cuatro técnicas?.
TECNICAS ( i )
J 1 2 3 4
1 65 75 59 94
2 87 69 78 89
3 73 83 67 80
4 79 81 62 88
5 81 72 83
6 69 79 76
7 90
ni 6 7 6 4
Supuestos:
1. Homocedasticidad o igualdad de las varianzas de los diferentes tratamientos: En la misma ruta para realizar el ANOVA, se escoge la opción de
“verificación de la varianza”, Existen varias pruebas para demostrar esto, usaremos
la prueba de Levene.
Ha: σ 2i ≠ σ 2j ∀i ≠ ji , j=1,2,3,4
Verificación de Varianza
Prueba Valor-P
Levene' 1.21784 0.3304
s
Comparació Sigma1 Sigma2 F-Ratio P-Valor
n
1-2 8.16497 7.11471 1.31703 0.7379
1-3 8.16497 9.57949 0.72648 0.7344
1-4 8.16497 5.79511 1.98511 0.6075
2-3 7.11471 9.57949 0.55160 0.4892
6
2-4 7.11471 5.79511 1.50727 0.7916
3-4 9.57949 5.79511 2.73251 0.4375
Con un nivel de significancia del 0.05, existe evidencia para pensar que las varianzas del rendimiento de las diferentes técnicas son iguales.
3. Estadística de prueba:
Para calcular la estadística de prueba es necesario seguir estos pasos.
p ni
SCTotal=∑ ∑ X 2ij – CM=652+ 872 +732 +… ..+882 – CM =1909.2174
i =1 j=1
p ni
2
( ∑ ∑ X ij )
(1779)2
i=1 j=1
CM = =
=137601.7826
n 23
p
T 2i 454 2 5492 425 2 3512
SCT=∑ −CM = + + + – CM =138314.369 – 137601.7826=712.586448
i=1 ni 6 7 6 4
TABLA ANOVA
FUENTE DE GRADOS DE SUMA DE CUADRADO MEDIO F calculado
VARIACION LIBERTAD CUADRADOS
TECNICAS p-1= 4-1=3 SCT = 712.586448 CMT = 712.586448/3 = 237.528816 CMT/CME = 3.771461449
Ruta en Statgraphics para análisis de varianza: CompararVarias muestrasComparación de varias muestrasMultiples columnas de datosAceptarSe seleccionan todas
las columnas y se asignan en “Muestras”Aceptar. Se escogen las siguientes opciones: Tabla ANOVA, Prueba de Múltiples rangos, Verificación de la varianza Aceptar.
RENDIMIENTO TECNICA
65 1
87 1
73 1
79 1
81 1
69 1
. .
. .
94 4
89 4
80 4
88 4
Ruta en Statgraphics: Compararanálisis de varianzaANOVA simpleVariable: Rendimiento; Factor: Técnica, AceptarTabla ANOVA, Prueba de múltiples rangos.
Tabla ANOVA
Fuente Suma de Cuadrados Gl Cuadrado Razón-F Valor-P
Medio
4. Región de rechazo: La prueba solo se hace hacia la cola derecha. Se usa la distribución F. Valores de la estadística de prueba superiores a 3.13 se
rechaza la H0.
5. Decisión: En este caso el valor de 3.771461449 es superior a 3.13, entonces se rechaza Ho, con un nivel de significancia del 0.05 existe evidencia para
pensar que el rendimiento medio correspondiente a las cuatro técnicas de enseñanza es diferente.
Dado que se encontraron diferencias entre los promedios, entonces se debe aplicar la prueba de Tukey para saber cuáles promedios son diferentes. Se
deben seguir los siguientes pasos:
Ho=μi =μ j
Ha=μi ≠ μ j
∀ i≠j i,j=1,2,3,4
√ 2
( + )
ni n j
Luego existen diferencias entre el rendimiento medio de las técnicas 3 y 4 con un nivel de significancia del 0.05.
3 6 70.833 X
3
1 6 75.666 XX
7
2 7 78.428 XX
6
4 4 87.75 X
Se han identificado dos grupos homogéneos, según la alineación de las X´s, en este caso el rendimiento de la la técnica 1,2,y 3 son homogéneas y 1,2 y 4
pertenecen a otros grupo homogéneo. No existen diferencias estadísticamente significativas entre los promedios de rendimiento de las técnicas que
compartan una misma columna de X's.
1-2 - 12.41
2.7619 93
1-4 - 14.40
12.083 94
3
2-4 - 13.99
9.3214 16
3
3-4 * - 14.40
16.916 94
7
LOCALIDAD
A B C
ni 5 5 5
Existen diferencias entre las cantidades promedio de ozono por localidad. Se debe usar la prueba de Tukey. Realícela.
Supuestos:
1. Homocedasticidad o igualdad de las varianzas de los diferentes tratamientos: En la misma ruta para realizar el ANOVA, se escoge la opción de
“verificación de la varianza”, Existen varias pruebas para demostrar esto, usaremos la prueba de Levene.
Ha: σ 2i ≠ σ 2j ∀ i ≠ ji , j=1,2,3
Verificación de Varianza
Prueba Valor-
P
Levene' 0.75340 0.4918
s 8
Prueba
Estadístico W de Shapiro-Wilk
Estadístic Valor-P
o
0.958206 0.631153
Con un nivel de significancia del 0.05, existen razones para pensar que los residuos son Normales o siguen una distribución Normal. Luego el
procedimiento de ANOVA es válido.
3. Estadística de prueba:
Para calcular la estadística de prueba es necesario seguir estos pasos.
p ni
SCTotal=∑ ∑ X 2ij – CM=0.092+ 0.102+ 0.082 +… ..+0.092 – CM =0.0159
i =1 j=1
p ni
2
( ∑ ∑ X ij )
(1.7)2
i=1 j=1
CM = =0.1927 =
n 15
p
T 2i 0.462 0.76 2 0.482
SCT=∑ −CM = + + – CM =0.20392 – 0.1927=0.0112
i=1 ni 5 5 5
TABLA ANOVA
FUENTE DE VARIACION GRADOS DE LIBERTAD SUMA DE CUADRADO MEDIO F calculado
CUADRADOS
TECNICAS p-1= 3-1=2 SCT = 0.0112 CMT = 0.0112/2 = 0.0056 CMT/CME = 14.3590
Tabla ANOVA
Fuente Suma de Cuadrados Gl Cuadrado Razón-F Valor-P
Medio
4. Región de rechazo: La prueba solo se hace hacia la cola derecha. Se usa la distribución F con 2 grados de libertad en el numerador y 12 en el
denominador con ɑ=0.05, el valor critico es 6.93. Valores de la estadística de prueba superiores a 6.93 se rechaza la H0.
5. Decisión: En este caso el valor de 14.3590 es superior a 6.93, entonces se rechaza Ho, con un nivel de significancia del 0.05 existe evidencia para pensar
que las cantidades promedio de ozono son diferentes en las tres localidades.
Dado que se encontraron diferencias entre los promedios, entonces se debe aplicar la prueba de Tukey para saber cuáles promedios son diferentes. Se
deben seguir los siguientes pasos:
Ho=μi =μ j
Ha=μi ≠ μ j
∀ i≠j i,j=A,B,C
1. Se calculan los promedios de cada tratamiento:
Técnicas 1 2 3
X́ B− X́ C 5,5 |0.152−0.096|=0.0520.0333 SI μ B ≠ μC
Luego existen diferencias entre las cantidades promedio de ozono en las localidades A y B y entre las B y C con un nivel de significancia del 0.05.
A 5 0.092 X
C 5 0.096 X
B 5 0.152 X
Se han identificado dos grupos homogéneos, según la alineación de las X´s, en este caso la cantidad de ozono de la localidad A y son homogéneas y la
localidad B difiere de las localidades anteriores. No existen diferencias estadísticamente significativas entre aquellas localidades que compartan una misma
columna de X's.