Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de Varianza Lab
Analisis de Varianza Lab
(ANOVA)
0 B J E T IVOS
1 Introducción
Panorama General
En las -secciones anteriores dedujimos procedimientos para probar la hipótesis de que dos
medias de población son iguales (Ho:µ1=µ2) presentaremos un procedimiento para probar
que tres o más medias de población son iguales. (Los métodos también pueden servir para
probar si dos media población son iguales pero los métodos del capítulo anterior son más
eficientes.) una hipótesis nula típica será Ho:µ1=µ2=µ3=µ4; la hipótesis alternativa Al
menos una media es diferente. El método que usaremos se basa en un análisis de las
varianzas de muestra.
La distribución F
La distribución de probabilidad que se utiliza en este capítulo es la distribución F. Recibió
este nombre en honor a sir Ronald Fisher, uno de los fundadores de la estadística moderna.
Esta distribución de probabilidad se usa como estadística de prueba en varias situaciones.
Se emplea para probar si dos muestras provienen de poblaciones que poseen varianzas
iguales, y también se aplica cuando se trata de comparar simultáneamente varias medias
poblacionales. La comparación simultánea de varias medias poblacional se conoce como
análisis de varianza (ANOVA). En ambas situaciones, las poblaciones deben ser normales y
los datos tener al menos la escala de los intervalos.
En esta sección se utiliza la distribución F para probar la hipótesis de que la varianza de una
población normal es igual a la varianza de otra población normal. Así, esta prueba es útil
para determinar si una población normal tiene una mayor variación que otra. Los ejemplos
siguientes ilustran el uso de esta prueba:
1- Se calibran dos máquinas para producir barras de acero de la misma longitud. Por
lo tanto, las barras deben tener la misma longitud media. Se desea asegurar que,
además de tener la misma longitud media, tienen una variación similar.
2- La tasa media de infecciones de dos tipos de gusanos puede ser la misma, pero
puede haber mayor variación en un tipo que en otro. Una muestra de diez
infecciones de gusanos conocidos y otros diez gusanos no conocidos, revelará la
misma tasa de infección, pero es probable que haya mayor variación en la tasa de
infección de gusanos conocidos.
Del mismo modo, la distribución F se usa para validar suposiciones de ciertas pruebas
estadísticas. Como ejemplo, recordar que la prueba t que se describió anteriormente se
emplea para determinar si las medias de dos poblaciones independientes son diferentes.
Para emplear esa prueba, es necesario suponer que las dos varianzas de la población son
iguales.
Independientemente de que se desee determinar si una población tiene mayor variación que
otra, o bien para validar una suposición para una prueba estadística, primero se establece la
hipótesis nula. En este caso, la hipótesis nula es que la varianza de un población normal,
s12 es igual a la varianza de la otra población normal, s 22 . La hipótesis alterna podría ser
que las varianzas fueran distintas. Esta prueba de hipótesis se escribe:
H o :
1
2
2
2
Ha :
1
2
2
2
Ejemplo 1:
Taxi “20 Negro” ofrecen un servicio de transporte desde el edificio de rectoría, al
aeropuerto. Liliana, gerente, considera dos rutas. Una es por la carretera a palestina y la
otra por la Av. Juan Pablo. Liliana desea estudiar el tiempo que se requiere para llegar al
aeropuerto utilizando ambas rutas y luego comparar los resultados. Para ello, recolectó los
siguientes datos de muestra. Utilizando el nivel de significancia de 0.10, ¿existe diferencia
en la variación en los tiempos de recorrido utilizando las dos rutas?
Ruta Tiempo Medio Desviación estándar Tamaño de la
(minutos) muestra
Palestina 56 12 7
Juan Pablo 58 5 8
Solución
Liliana observó que los tiempos medios parecen ser muy similares, pero hay mayor
variación, medida por la desviación estándar, en la ruta Palestina que por la Av. Juan Pablo.
Esto en cierto modo es consecuente, con el conocimiento que tiene Liliana de las dos rutas;
la ruta Palestina tiene más semáforos, en tanto que la Av. Juan Pablo es una carretera mas
libre Sin embargo, la Av. Juan Pablo es varias millas más larga. Es importante que el
servicio que se ofrece sea oportuno y consistente, por lo que decide realizar una prueba
estadística para determinar si existe una diferencia real en la variación en ambas rutas.
Se empleará el procedimiento habitual de prueba de hipótesis de cinco pasos.
Paso 1: Se comienza estableciendo las hipótesis nula y alterna. La prueba tiene dos colas,
porque se busca una diferencia en la variación en ambas rutas, No se trata de demostrar que
una ruta tiene una mayor variación que la otra.
H o :
1
2
2
2
Ha :
1
2 2
2
Paso 5: Determine el valor estadístico de prueba tomando la relación de las dos varianzas
muestrales.
S 2
S 2
2
F 1
5.76
S 52
2
2
H o : 2
1 2
2
Ha :
1
2 2
2
s12
La estadística de prueba se calcula como a razón F será mayor que 1.00, de modo
s 22
que es posible utilizar la cola superior de la distribución F Bajo estas condiciones no es
necesario dividir a la mitad el nivel de significancia. Debido a que la tabla sólo da los
niveles de significancia 0.05 y 0.01, se está limitado a esos niveles para las pruebas de una
cola 0.10 y 0.02 para las pruebas de dos colas, a menos que se consulte una tabla más
completa.
El valor de P es igual a .037 lo que significa que es menor al nivel de significancia del .10,
esto indica que es significativo que si hay diferencia en las rutas al aeropuerto.
Ejemplo 2:
ALTEC Chihuahua ensambla componentes eléctricos. Durante los últimos 10 días, Mario
Duarte ha tenido un promedio de 9 rechazos con desviación estándar de 2 rechazos. El
mismo lapso, Mónica Méndez promedió 8.5 rechazos con desviación estándar de 1.5
rechazos. Con un nivel de significancia de 0.05, ¿es posible concluir que hay más variación
en el número de rechazos por día que se atribuye a Mario Duarte.
Solución:
Ha :
2
1
2
2
gl1=10-1=9
gl2=10-9=9
Ho se rechaza si F>3.18
S 2.0
2 2
F 1
1.78
S 1.5
2
2
2
SUPOSICIONES DE ANOVA
Ejemplo 1:
La Facultad de Zootecnia en su rancho desea utilizar la marca de fertilizante que produzca
el máximo rendimiento de trigo por unidad de superficie. La facultad puede elegir entre tres
tipos de fertilizantes A, B, C para empezar el experimento el campo de siembra se divide
en 12 parcelas de igual tamaño, sembrándose al mismo tiempo y del mismo modo. La única
diferencia en las parcelas es que la Facultad asigna al azar la marca A cuatro de ellas,
cuatro a B y cuatro a C. al final de la temporada de cultivo la Facultad registra la cantidad
de trigo que se produjeron en cada parcela.
Numero de tratamientos = 3 ( A, B, C)
Resultados en Toneladas.
A B C
55 66 47
54 76 51
59 67 46
56 71 48
A B C Total
55 66 47 168
54 76 51 168
59 67 46 336
56 71 48 672
Total 224 280 192 1344
Hipótesis:
Ho: μ1 = μ2 = μ3
Ha: μ1 ≠ μ2 ≠ μ3
CM Fc
Fuente gl SC (Suma de Cuadrados)
(Cuadrados Medios) (F calculada)
Tratamiento k-1=3-1 Tc2 x 224 2 280 2 192 2 (55 54 59 66.... 48) 2 SCTratamient o CM Tratamient o
2
=2 n n
glTratamient o CM error
c 4 4 4 12
992 492
(12544 19600 9216) (40368) (41360 40368) 992 492 4.92
2 10
992
Error (n-1)-(k- 1082-992=90 SC Error
1)=11- gl Error
2=9 90 90
10
9
Total n-1=12- x 2
(55 54 59 66.... 48) 2
1=11 x 2
n
(55 2 54 2 59 2 66 2......... 48 2 )
12
(696) 2 484416
(41450) (41450) (41450 40368) 1082
12 12
1082
K = numero de tratamientos
n = Numero de datos
Tc2 = Total de la Columna al cuadrado
nc = numero de datos de la columna
Buscar en la Tabla de F de .05
1(grados de libertad del
4.92 5.12 Tratamiento) en el numerador y
9 (grados de libertad del
Error)en el denominador
4.92 cae en la zona de aceptación de Ho por lo que las medias son iguales.
Conclusión: Se encontró evidencia estadística para concluir que no hay diferencia en el numero medio de toneladas de trigo que se
produjeron por la aplicación de los diferentes tipos de fertilizantes
Ejercicio 1:
Determine:
1) Determine la hipótesis
2) Determine el Cuadro de ANOVA
3) Grafique la decisión
4) Conclusión
Ejercicio 2:
Ubicación Ventas
Cerca del Pan 20 15 24 18
Cerca de la
12 18 10 15
Cerveza
Con los Demás
25 28 30 32
Limpiadores
Determine:
1) Determine la hipótesis
2) Determine el Cuadro de ANOVA
3) Grafique la decisión
4) Conclusión
Ejercicio 3:
La información siguiente pertenece a una muestra. Pruebe la hipótesis de que las medias de
los tratamientos son iguales. Utilice el nivel de significancia de .05
Determine:
1) Determine la hipótesis
2) Determine el Cuadro de ANOVA
3) Grafique la decisión
4) Conclusión
Ejercicio 4:
Se desea saber como varia la absorción media de humedad en el concreto de entre cinco
diferentes mezclas de concreto.
Mezcla %
1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Determine:
1) Determine la hipótesis
2) Determine el Cuadro de ANOVA
3) Grafique la decisión
4) Conclusión
Diseño de Bloques Completos Aleatorizados
Ejemplo 1:
Operador
Maquina 1 2 3 4 5 6 Total
1 42.5 39.3 39.6 39.9 42.9 43.6
2 39.8 40.1 40.5 42.3 42.5 43.1
3 40.2 40.5 41.3 43.4 44.9 45.1
4 41.3 42.2 43.5 44.2 45.9 42.3
Total
Ejercicio 1:
El personal forestal utiliza arsénico orgánico como pesticida. La cantidad de arsénico que
toma el cuerpo cuando se expone a estos pesticidas constituye un grave problema de salud.
Es importante determinar con rapidez la cantidad de exposición de tal forma que se pueda
cambiarse de tarea a un trabajador con un alto nivel de arsénico. Se realizo un estudio con
los siguientes datos:
Analista
Individuo
Empleado Químico Laboratorista
1 .05 .05 .04
2 .05 .05 .04
3 .04 .04 .03
4 .15 .17 .10
Determine:
1) Determine la hipótesis
2) Determine el Cuadro de ANOVA
3) Grafique la decisión
4) Conclusión
Ejercicio 2:
Una planta de energía nuclear produce una gran cantidad de calor el cual en general se descarga en
sistemas acuáticos. Este calor aumenta la temperatura del sistema acuático, lo que resultan una
mayor concentración de clorofila a, lo cual, a su vez, extiende la estación de crecimiento. Para
estudiar este efecto, se tomaron muestras de agua, cada mes, en tres diferentes estaciones durante un
periodo de 12 meses. La estación A se ubico lo mas cerca posible de un punto de descarga de agua
potencialmente caliente, y la estación C, lo mas lejos posible de la descarga, y la B en el punto
medio entre las dos estaciones A y C. Se registraron las siguientes concentraciones de clorofila a:
Estación
Mes A B C
Enero 9.87 3.72 4.41
Febrero 14.03 8.41 11.1
Marzo 10.70 20.72 4.47
Abril 13.85 9.61 8.10
Mayo 7.06 4.77 34.08
Junio 11.67 9.15 8.99
Julio 7.35 8.46 3.35
Agosto 3.35 4.08 4.50
Septiembre 4.21 4.23 6.83
Octubre 3.60 2.32 5.80
Noviembre 2.95 3.84 3.48
Diciembre 2.64 3.61 3.02
Ejercicio 3:
Los siguientes datos representan las calificaciones finales obtenidas por 5 estudiantes
Materia
Estudiante Matemáticas Ingles Computación Biología
1 68 57 73 61
2 83 94 91 86
3 72 81 63 59
4 55 73 77 66
5 92 68 75 87
Utilice un nivel de significancia de .05 para probar la hipótesis de que los cursos presentan
la misma dificultad.
Ejercicio 4:
Científicos idearon un experimento en el cual se aplicaron 5 diferentes tratamientos en 6
diferentes ubicaciones en un huerto de manzanas para determinar si existían diferencias
significativas de crecimiento entre los tratamientos. El periodo de crecimiento medido en
centímetros se registraron como sigue:
Ubicaciones
Tratamiento 1 2 3 4 5 6
1 455 61 215 695 72 501
2 622 444 170 437 82 134
3 695 50 443 701 56 373
4 607 493 257 490 650 262
5 388 185 103 518 263 622
Utilice un nivel de significancia de .01 y pruebe la hipótesis de que no hay diferencias entre
las medias de tratamiento
Determine:
1) Determine la hipótesis
2) Determine el Cuadro de ANOVA
3) Grafique la decisión
4) Conclusión
Análisis de Varianza de Dos Factores
Ejemplo 1:
Tipo de Impulsor
Sistema de B1 B2 B3 B4
Misiles
A1 34 30.1 29.8 29
32.7 32.8 26.7 28.9
A2 32 30.2 28.7 27.6
33.2 29.8 28.1 27.8
A3 28.4 27.3 29.7 28.8
29.3 28.9 27.3 29.1
Ejercicio 1:
Se llevo a cabo un experimento para estudiar el efecto de la temperatura y del tipo de horno
en la vida de un componente en particular que esta probándose. Se están utilizando cuatro
tipos de hornos y tres niveles de temperaturas. Se asignan aleatoria mente 24 piezas y se
registran los siguientes datos.
Horno
Temperatura 1 2 3 4
500 227 214 225 260
221 259 236 229
550 187 181 232 246
208 179 198 273
600 174 198 178 206
202 194 213 219
Ejercicio 2:
Con objeto de averiguar la estabilidad de la vitamina C en concentrado de jugo de naranja
congelado reconstituido que se almacena en un refrigerador por un periodo de hasta una
semana. Tres tipos de concentrado de jugo de naranja congelado se probaron utilizando tres
periodos diferentes de tiempo. Estos últimos se refieren al numero de días que transcurren
desde que el jugo de naranja se mezcla hasta que se somete a la prueba. Los resultados, en
miligramos de ácido ascórbico por litro, se registraron de la siguiente manera:
Tiempo (días)
Marca 0 3 7
52.6 49.4 42.7
49.8 42.8 40.4
Lala
54.2 49.2 48.8
46.5 53.2 47.6
56 48.8 49.2
49.6 44 42
Jumex
48 44 44
48.4 42.4 43.2
52.5 48 48.5
51.8 48.2 45.2
Paupau
52 47 43.4
53.6 49.6 47.6
a) No existe diferencia en los contenidos de ácido ascórbico entre las diferentes marcas
de concentrado de jugo de naranja: SEEEPC queno existe tal diferencia (Pv=0.193)
b) No existe diferencia en los contenidos de ácido debido a los diferentes periodos de
tiempo:SEEEPC que sí existe diferencia en los contenidos de Ac. Ascórbico debido
a las diferencias en el tiempo.
c) Las marcas de concentrado de jugo de naranja y el numero de días que transcurre
desde que el jugo se mezcla hasta que se somete a la prueba no interactúan.:
SEEEPC que no existe interacción.
Source DF SS MS F P
marca 2 32.962 16.481 1.75 0.193
tiempo 2 226.676 113.338 12.04 0.000
Interaction 4 17.301 4.325 0.46 0.765
Error 27 254.140 9.413
Total 35 531.079