Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Un investigador aplica esta distribución para determinar que tan diferentes son las
poblaciones analizadas y aplicar el método adecuado.
1) Existe una familia de distribuciones “F”, esta queda determinada por dos
parámetros: grados de libertad (gl) en el numerador y grados de libertad (gl) en
el denominador.
2) La distribución es continua: puede tomar una cantidad infinita de valores entre 0
(cero) y +∞.
3) La distribución no puede ser negativa. El menor valor que se asume es 0 (cero).
4) La distribución “F” es positivamente sesgada, es decir que la cola larga de la
distribución se encentra a la derecha, y, conforme el número de grados de
libertad: aumenta. La distribución “F” se aproxima a la “Distribución Normal”.
5) La función F es asintótica, es decir que, conforme los valores de X aumentan, la
curva de la distribución F se aproxima al eje de las X, pero nunca se tocan.
La distribución F, se forma por la razón entre dos variables muestrales, así: F = S22 / S12,
y tiene como parámetros los grados de libertad k y la probabilidad α. El cálculo de
Página 2 de 20
Para controlar que varianza más alta está en el numerador, la razón siempre
tendrá que ser mayor que 1.
La distribución F no es simétrica, por ello permite un solo tipo de prueba, por lo tanto,
para probar que F > 1, se asume la hipótesis H0: σ12 = σ22 como si fuera de una cola.
Se rechaza si F0 > X2α/2, n1-1, n2-1 o F0 < X21-α/2, n1-1, n2-2, donde n1-1 son los g. l. del
denominador, y n2-1 los g. l. del numerador.
Ejemplo: dos cizallas Barth se ajustan para producir elementos de acero de la misma
longitud. Se desea estar seguro que además de tener la misma longitud, tengan una
varianza similar.
La distribución F también se utiliza para validar los supuestos para algunas pruebas
estadísticas.
Primero se establece una hipótesis nula, esta hipótesis es que la varianza (σ2) de una
población normal es igual a la varianza (σ2) de otra población normal.
Página 3 de 20
El valor estadístico de prueba para comparar dos varianzas de una muestra es:
F = S22 / S12
Realicemos un ejercicio donde se pueda analizar y visualizar el procedimiento.
Una compañía de transporte ofrece el servicio desde el edificio Toledo (Ohio), hasta el
aeropuerto “Metro” en Detroit. El representante de la compañía está considerando dos
rutas:
• Ruta 1: US 25
• Ruta 2: Interestatal 75
Desea estudiar el tiempo necesario para llegar al aeropuerto por cada uno de estos
caminos, y después comparar los resultados. Obtuvo los siguientes datos de muestra en
minutos. Utilizó el nivel de significancia de 0,10.
¿Existe alguna diferencia en la variación de los tiempos de recorrido para ambas rutas?
INTERESTA
RUTA US 25 TAL 75
52 59
67 60
56 61
45 51
70 56
54 63
64 57
65
Media
Desv. Estándar
N1 = 7
N2 = 8
DESARROLLO:
1) Se determinan las diferentes Varianzas de las dos rutas.
2) Se establecen las hipótesis nula y alternativa.
H0: S12 = S22
H1: S12 ≠ S22
Por lo tanto esta es una hipótesis bilateral, es decir de las dos colas, porque se
trata de demostrar la diferencia entre las dos rutas.
No se trata de demostrar que una ruta tiene más variación que otra.
Página 4 de 20
Por ejemplo se pueden estudiar los sueldos promedio (Parámetro de interés) de los
empleados, tomando en cuenta la influencia del cargo (Factor o fuente de variación).
Cuando se estudia la Varianza, tomando en cuenta un solo factor, el análisis se llama
ANOVA de un factor o “diseño completamente aleatorio”.
¿Por qué es necesario estudiar ANOVA? ¿Por qué no sólo se emplea la prueba de las
diferencias en medias poblacionales?
La asignación de cada uno de los 40 prospectos en el grupo este año es aleatoria para
cada uno de los cuatro métodos.
Página 5 de 20
Al final del programa de capacitación, a los 4 grupos se les administra una prueba
común para medir la comprensión de las técnicas contra incendios. La pregunta es:
¿Existe una diferencia entre las calificaciones medias del examen entre los 4 grupos?
Para encontrar la probabilidad que al menos tenga un error debido al muestreo, reste
este resultado a 1. Por tanto la probabilidad de al menos una decisión incorrecta debida
al muestreo es de 1 – 0,735 = 0,265
Ejemplo:
Solución:
Página 6 de 20
Una de las suposiciones para el análisis ANOVA es que desviación estándar de las
diversas poblaciones normales tenían que ser las mismas. Se aprovecha este requisito en
la prueba ANOVA.
Para iniciar se debe determinar la media global de las observaciones, en nuestro caso 12.
55+54+59+56+66+76+67+71+47+51+46+48 = 696
Si este número se divide para 12, que es el número total de muestras, se tiene una media
de: 58
Después, para cada una de las 12 observaciones se encuentra la diferencia entre el valor
particular y la media global.
Cada una de esas diferencias se eleva al cuadrado y estos cuadrados se suman. Este
término se denomina variación total.
Luego se divide esta variación total en dos componentes: la que se debe a los
tratamientos y la que es aleatoria.
Si existe una variación considerable entre las medias de los tratamientos, es lógico que
este término sea grande. Si las medias de los tratamientos son similares, este término
será un valor bajo.
Página 7 de 20
En el ejemplo este término es la suma de las diferencias al cuadrado entre cada valor y
la media para ese empleado en particular.
Estimado de la Varianza poblacional basado en las diferencias entre las medias muestrales
F=
Estimado de la Varianza poblacional basado en la variación dentro de la muestra
Este es 992/2
¿Por qué se dividió para 2? Porque hay que recordar que para encontrar una varianza
poblacional se divide para n – 1. En este caso hay 3 tratamientos.
992/2
F= = 49,6
90/9
Como esta razón es muy distinta a 1, se concluye que las medias de los tratamientos no
son iguales. Hay una diferencia en el número medio de clientes atendidos por los tres
empleados.
Ejemplo:
Desde hace algún tiempo las aerolíneas han reducido sus servicios, como alimentos y
bocadillos durante sus vuelos y empezaron a cobrar un precio adicional por alguno
servicios, como llevar sobrepeso de equipaje, cambios de vuelo de último momento y
por mascotas que viajan en la cabina.
Sin embargo, aún están muy preocupadas por el servicio que ofrecen. Hace poco un
grupo de cuatro aerolíneas contrató a Brunner Marketing Research Inc., para encuestar a
sus pasajeros sobre la adquisición de boletos, abordaje, servicio durante el vuelo,
manejo del equipaje, comunicación del piloto, etc.
¿Hay alguna diferencia en el nivel de satisfacción medio entre las cuatro aerolíneas?
Use el nivel de significancia 0,01
Página 9 de 20
Solución:
Paso 1: Formule las hipótesis nula y alternativa. La hipótesis nula es que las
calificaciones medias son iguales para las cuatro aerolíneas.
H0 = μ1 = μ2 = μ3 = μ4
La hipótesis alternativa es que no todas las calificaciones medias son iguales para las
cuatro aerolíneas.
La hipótesis alternativa también se considera como “al menos dos calificaciones medias
no son iguales”.
Paso 5: Seleccione la muestra, realice los cálculos y tome una decisión. Es conveniente
resumir los cálculos del estadístico “F” en una tabla ANOVA.
Tabla ANOVA
Fuente de Suma de Grados de Media cuadrática F
variación cuadrados libertad
Tratamientos SST k–1 SST / (k-1)=MST MST / MSE
Error SSE n–k SSE / (n-k)=MSE
Total SS total n-1
Hay tres valores, o suma de cuadrados para calcular el estadístico de prueba F. Estos
valores se determinan al obtener SS total y SSE, después SST mediante una resta. El
término SS total es la variación total, SST es la variación debida a los tratamientos, Y
SSE es la variación dentro de los tratamientos o el error aleatorio.
Donde:
X es cada observación de la muestra
ẌG es la media global o total
Donde:
Ẍc es la media muestral para el tratamiento c
A continuación se presentan los cálculos detallados de SS total y SSE para este ejemplo.
Para determinar los valores SS total y SSE se comienza por calcular la media global o
total. Hay 22 observaciones y el total es 1.664, por tanto la media total es: 75,64
Después se eleva al cuadrado cada una de estas diferencias y se suman todos los valores.
El valor SS total es: 1.485,0910
Por último, se determina SST, la suma de los cuadrados debida a los tratamientos, con
la resta:
En este ejemplo:
El valor calculado de F es 8,99, el cual es mayor que el valor crítico de 5,09, por tanto la
hipótesis nula se rechaza. La conclusión es que no todas las medias poblacionales son
iguales. Las calificaciones medias no son iguales para las cuatro aerolíneas. Es
preferible que las calificaciones de los pasajeros se relacionen con una aerolínea
particular. En este punto sólo es posible concluir que hay una diferencia en las medias
del tratamiento. No se puede determinar cuáles ni cuántos grupos de tratamiento
difieren.
La solución que da el programa Excel, permite observar a la Tabla ANOVA, para que
se determine la decisión a tomar.
Si se desea conocer la relación de las medias se debe realizar la inferencia sobre pares
de medias de tratamiento.
RESUMEN
Grupos Cuenta Suma Promedio VarianzaDesviación Estándar
Eastern 4 349 87,25 36,91666667 6,075908711
TWA 5 391 78,2 58,7 7,661592524
Allegheny 7 510 72,85714286 30,14285714 5,4902511
Ozark 6 414 69 13,6 3,687817783
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Entre grupos 890,6837662 3 296,8945887 8,990643302 0,000742769 3,15990759
Dentro de los grupos 594,4071429 18 33,02261905
Total 1485,090909 21
Ejercicio a realizar:
Los siguientes datos son las colegiaturas por semestre (en miles de dólares) de una
muestra de universidades privadas en varias regiones de Estados Unidos. Con un nivel
de confianza del 95% ¿Se puede concluir que hay una diferencia en las colegiaturas
medias de las diversas regiones?
Estos factores pueden incluir, por ejemplo: la estación del año, el aeropuerto, el número
de pasajeros en el vuelo, etc.
El beneficio al considerar otros factores es que se reduce la Varianza del error, es decir:
si se reduce el denominador del estadístico F (al reducir la Varianza del error, o de
manera más directa el término SSE), el valor de F será mayor, ocasionando el rechazo
de la hipótesis de medias de tratamiento iguales.
Ejemplo:
El Director realizó varias pruebas para determinar si había una diferencia en los tiempos
de recorrido medios por las cuatro rutas.
Como habrá muchos conductores distintos, la prueba se diseñó para que cada conductor
manejara a lo largo de las 4 rutas.
Para iniciar, realice una prueba de hipótesis de ANOVA de una vía. Es decir sólo
considere las cuatro rutas. Con esta condición, la variación en los tiempos del recorrido
se debe a los tratamientos o es aleatoria.
La hipótesis nula y alternativa para comparar el tiempo del recorrido medio por las
cuatro rutas son:
H0: μ1 = μ2 = μ3 = μ4
H1: no todas las medias de los tratamientos son iguales
Hay cuatro rutas, por tanto los grados de libertad del numerador son: k -1 = 4 – 1 = 3
De acuerdo a la tabla, con el nivel de significancia 0,05 el valor crítico de F es: 3,24
RESUMEN
Grupos Cuenta Suma Promedio Varianza Desviación
Carretera 6 5 103 20,6 13,3 3,6469
West End 5 107 21,4 7,3 2,7019
Hickory ST. 5 127 25,4 11,3 3,3615
Ruta 59 5 119 23,8 7,2 2,6833
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Entre grupos 72,8 3 24,26666667 2,482523444 0,098105022 3,238871517
Dentro de los grupos 156,4 16 9,775
Total 229,2 19
Concluye que no hay una diferencia en el tiempo de recorrido medio a lo largo de las 4
rutas.
No hay una razón para seleccionar una de las rutas como la más rápida que las demás.
En un ANOVA de dos vías, la suma de los cuadrados debida a los bloques se determina
mediante la siguiente fórmula.
Donde:
k es el número de tratamientos
b es el número de Bloques
Ẍb es la media muestral del Bloque b
ẌG es la media global o total
A partir de los siguientes cálculos, las medias para los conductores respectivos son:
SSB = 119,7
Se utiliza el mismo formato en la Tabla ANOVA de dos vías, como en el caso de una
vía, excepto que hay una fila adicional para la variable de bloque.
SS total y SST se calculan como se hizo antes, y SSB se determina con la fórmula:
SSB=k ∑(Ẍb - ẌG)^2.
Los valores para los varios componentes de la tabla ANOVA se calculan como sigue:
Se resuelve la tabla:
Aplicando la fórmula:
Es decir, si el objetivo era reducir el término MSE, no se debe probar una hipótesis
respecto de la variable de bloque. Por otro lado, quizás se desee dar a los bloques la
misma condición que a los tratamientos y realizar una prueba de hipótesis.
Este último caso, cuando los bloques son los bastantes importantes para considerarse un
segundo factor, se conoce como un EXPERIMENTO DE DOS FACTORES
La hipótesis nula de los tiempos medios para las cuatro rutas son iguales, se rechaza si
la razón es mayor que 3,49.
F = MST / MSE
F = 24,27 / 3,06
F = 7,93
Se concluye que el tiempo de recorrido medio no es el mismo para todas las rutas.
Sería recomendable que WARTA realizara algunas pruebas para determinar cuales
medias de tratamiento difieren.
La hipótesis nula de que las medias de lo bloques son iguales se rechaza si, la razón F es
mayor es mayor que 3,26
F = MSB / MSE
F = 29,93 / 3,06
F = 9,78
Así la gerencia de WARTA puede concluir, con base en los resultados de la muestra,
que hay una diferencia en las rutas y en los conductores.
Página 20 de 20
Análisis de varianza de dos factores con una sola muestra por grupo
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Filas 119,7 4 29,925 9,784741144 0,000933574 3,259166727
Columnas 72,8 3 24,26666667 7,934604905 0,003507913 3,490294819
Error 36,7 12 3,058333333
Total 229,2 19