Está en la página 1de 20

ANÁLISIS DE LA VARIANZA

Análisis de la Distribución de Fisher o Distribución “F”

Esta es la distribución de probabilidades de la razón de dos varianzas provenientes de


dos poblaciones diferentes. Por medio de esta distribución es posible determinar la
probabilidad de ocurrencia de una razón específica con: V1 = n1 – 1 y V2 = n2 – 1 grados
de libertad en muestras de tamaño n1 y n2.

Es la distribución más importante en experimentación, pues permite hacer cálculos


sobre varianzas diseminadas, determinando, si las diferencias mostradas son
significativas y por lo tanto atribuibles a cambios importantes en el comportamiento de
las poblaciones de estudio.

Un investigador aplica esta distribución para determinar que tan diferentes son las
poblaciones analizadas y aplicar el método adecuado.

La Distribución “F” es continua y tiene dos variables fundamentales para su resolución:


la función de densidad y el grado de libertad.

Características de la Distribución “F”

1) Existe una familia de distribuciones “F”, esta queda determinada por dos
parámetros: grados de libertad (gl) en el numerador y grados de libertad (gl) en
el denominador.
2) La distribución es continua: puede tomar una cantidad infinita de valores entre 0
(cero) y +∞.
3) La distribución no puede ser negativa. El menor valor que se asume es 0 (cero).
4) La distribución “F” es positivamente sesgada, es decir que la cola larga de la
distribución se encentra a la derecha, y, conforme el número de grados de
libertad: aumenta. La distribución “F” se aproxima a la “Distribución Normal”.
5) La función F es asintótica, es decir que, conforme los valores de X aumentan, la
curva de la distribución F se aproxima al eje de las X, pero nunca se tocan.

Comparación de dos varianzas poblacionales

En la prueba de hipótesis sobre la diferencia de medias, se pueden presentar dos casos:


varianzas iguales y varianzas diferentes. La prueba sobre la igualdad de las varianzas se
realiza previamente con la ayuda de la distribución “F” (Sir A. Ronald Fisher 1802 –
1862)

La distribución F, se forma por la razón entre dos variables muestrales, así: F = S22 / S12,
y tiene como parámetros los grados de libertad k y la probabilidad α. El cálculo de
Página 2 de 20

probabilidades y puntos críticos en la tabla de distribución, es manejo similar a lo


realizado en la distribución t – student. Entre más exceda S22 a S12, memos probable es
que σ12 = σ22 y más grande será la razón F.

Por tanto una F grande conduce a un rechazo de H0: σ12 = σ22.

Para controlar que varianza más alta está en el numerador, la razón siempre
tendrá que ser mayor que 1.

La distribución F no es simétrica, por ello permite un solo tipo de prueba, por lo tanto,
para probar que F > 1, se asume la hipótesis H0: σ12 = σ22 como si fuera de una cola.

En esta prueba estadística, el estadístico de prueba es F0 = S22 / 2


S1 , y la regla de
decisión es: H0

Se rechaza si F0 > X2α/2, n1-1, n2-1 o F0 < X21-α/2, n1-1, n2-2, donde n1-1 son los g. l. del
denominador, y n2-1 los g. l. del numerador.

Nota: para el caso de pruebas unilaterales, las reglas de decisión son:

Prueba unilateral superior: H0 se rechaza, si F0 > Fα, n1–1, n2–1


Prueba unilateral inferior: H0 se rechaza, si F0 < F1-α, n1-1, n2-1

La distribución F se utiliza para probar la hipótesis de que la Varianza (σ2) de una


población normal, es igual a la varianza de otra población normal.

Ejemplo: dos cizallas Barth se ajustan para producir elementos de acero de la misma
longitud. Se desea estar seguro que además de tener la misma longitud, tengan una
varianza similar.

También es útil para comparar simultáneamente varias medias (μ) poblacionales.

La distribución F también se utiliza para validar los supuestos para algunas pruebas
estadísticas.

La distribución F proporciona un medio para realizar pruebas respecto a la varianza de


dos poblaciones normales.

Primero se establece una hipótesis nula, esta hipótesis es que la varianza (σ2) de una
población normal es igual a la varianza (σ2) de otra población normal.
Página 3 de 20

H0: σ12 = σ22


H1: σ12 ≠ σ22
Para realizar la prueba, se toma, de una población una muestra aleatoria de n
observaciones, y una muestra de n observaciones de otra población.

El valor estadístico de prueba para comparar dos varianzas de una muestra es:
F = S22 / S12
Realicemos un ejercicio donde se pueda analizar y visualizar el procedimiento.

Una compañía de transporte ofrece el servicio desde el edificio Toledo (Ohio), hasta el
aeropuerto “Metro” en Detroit. El representante de la compañía está considerando dos
rutas:

• Ruta 1: US 25
• Ruta 2: Interestatal 75

Desea estudiar el tiempo necesario para llegar al aeropuerto por cada uno de estos
caminos, y después comparar los resultados. Obtuvo los siguientes datos de muestra en
minutos. Utilizó el nivel de significancia de 0,10.
¿Existe alguna diferencia en la variación de los tiempos de recorrido para ambas rutas?

INTERESTA
RUTA US 25 TAL 75
52 59
67 60
56 61
45 51
70 56
54 63
64 57
65
Media
Desv. Estándar

N1 = 7
N2 = 8

DESARROLLO:
1) Se determinan las diferentes Varianzas de las dos rutas.
2) Se establecen las hipótesis nula y alternativa.
H0: S12 = S22
H1: S12 ≠ S22
Por lo tanto esta es una hipótesis bilateral, es decir de las dos colas, porque se
trata de demostrar la diferencia entre las dos rutas.
No se trata de demostrar que una ruta tiene más variación que otra.
Página 4 de 20

3) Se selecciona 0,10 como nivel de significancia. N. S. = 0,10


4) El estadístico de prueba escogido es la distribución de Fisher.
5) Se determinan los grados de libertad.
6) Se busca el valor de la relación de los grados de libertad y se decide: si la
relación entre las dos varianzas es mayor que el valor obtenido en la tabla, se
acepta la hipótesis alternativa, caso contrario se acepta la hipótesis nula.

ANÁLISIS DE LA VARIANZA ANOVA

A diferencia de las pruebas anteriores, se pueden presentar casos donde se deben


establecer comparaciones entre más de dos poblaciones o dos o más factores. Estas
comparaciones se las puede estudiar sobre la base del análisis de la Varianza llamado
ANOVA.

Por ejemplo se pueden estudiar los sueldos promedio (Parámetro de interés) de los
empleados, tomando en cuenta la influencia del cargo (Factor o fuente de variación).
Cuando se estudia la Varianza, tomando en cuenta un solo factor, el análisis se llama
ANOVA de un factor o “diseño completamente aleatorio”.

El análisis de la Varianza compara la cantidad de variación de cada uno de los


tratamientos. Si la variación es significativa, los tratamientos tienen efectos diferentes
en las poblaciones. Para realizar el ANOVA, se deben hallar las sumas de los
cuadrados, el estadístico de prueba y puntos críticos de la distribución “F”.

SUPOSICIONES EN EL ANÁLISIS DE LA VARIANZA ANOVA

Otro uso de la distribución “F” es el análisis de la técnica de la Varianza (ANOVA), en


la cual se comparan tres o más medias poblacionales para determinar si pueden ser
iguales. Para emplear ANOVA, se supone lo siguiente:

1. Las poblaciones siguen la distribución normal


2. La poblaciones tienen desviaciones estándar iguales
3. La poblaciones son independientes

Cuándo se cumplen estas condiciones, “F” se emplea como la distribución del


estadístico de prueba.

¿Por qué es necesario estudiar ANOVA? ¿Por qué no sólo se emplea la prueba de las
diferencias en medias poblacionales?

Se puede comparar dos muestras poblacionales a la vez. La razón más importante es la


acumulación indeseable del error tipo I. Para ampliar la explicación, suponga 4 métodos
distintos (A, B, C, D) para capacitar personal para ser bomberos.

La asignación de cada uno de los 40 prospectos en el grupo este año es aleatoria para
cada uno de los cuatro métodos.
Página 5 de 20

Al final del programa de capacitación, a los 4 grupos se les administra una prueba
común para medir la comprensión de las técnicas contra incendios. La pregunta es:
¿Existe una diferencia entre las calificaciones medias del examen entre los 4 grupos?

La respuesta a esta pregunta permitirá comparar los 4 métodos de capacitación.

Si se emplea la distribución t para comparar las cuatro medias poblacionales, tendría


que efectuarse 6 pruebas t distintas. Es decir, necesitaría comparar las calificaciones
medias de los cuatro métodos como sigue: A contra B; A contra C; A contra D; B contra
C; B contra D y por último C contra D.

Si determina el nivel de significancia en 0,05, la probabilidad de una decisión


estadística correcta es de 0,95, calculada de 1 – 0,05. Como se realizaron seis pruebas
separadas (independientes), la probabilidad de que no se tome una decisión incorrecta
debido al error de muestreo en cualquiera de las seis pruebas independientes es:

P(Todas correctas) = (0,95)(0,95)(0,95)(0,95)(0,95)(0,95) = 0,735

Para encontrar la probabilidad que al menos tenga un error debido al muestreo, reste
este resultado a 1. Por tanto la probabilidad de al menos una decisión incorrecta debida
al muestreo es de 1 – 0,735 = 0,265

En resumen, si se realizan seis pruebas independientes con la distribución t, la


probabilidad de rechazar una hipótesis nula verdadera debido al error de muestreo, se
incrementa de 0,05 a un nivel de insatisfactorio de 0,265.

Es obvio que necesita un mejor método para realizar 6 pruebas t.

ANOVA permitirá comparar las medias de tratamiento de forma simultánea y evitar la


acumulación del error Tipo I.

Ejemplo:

Joyce Kuhlman es la gerente de un centro financiero regional y desea comparar la


productividad, medida por el número de clientes atendidos entre tres empleados.
Selecciona 4 días de manera aleatoria y registra el número de clientes atendidos por
cada empleado. Los resultados son:

Wolfe White Korosa


55 66 47
54 76 51
59 67 46
56 71 48

¿Hay alguna diferencia en el número medio de clientes atendidos?

Solución:
Página 6 de 20

Una de las suposiciones para el análisis ANOVA es que desviación estándar de las
diversas poblaciones normales tenían que ser las mismas. Se aprovecha este requisito en
la prueba ANOVA.

Para iniciar se debe determinar la media global de las observaciones, en nuestro caso 12.

55+54+59+56+66+76+67+71+47+51+46+48 = 696

Si este número se divide para 12, que es el número total de muestras, se tiene una media
de: 58

Después, para cada una de las 12 observaciones se encuentra la diferencia entre el valor
particular y la media global.

Cada una de esas diferencias se eleva al cuadrado y estos cuadrados se suman. Este
término se denomina variación total.

VARIACIÓN TOTAL: suma de las diferencias elevadas al cuadrado entre cada


observación y la media global.

En el ejemplo la variación total es: 1.082

Variación total = (55-58)^2+(54-58)^2+(59-58)^2 hasta completar las 12 observaciones

Luego se divide esta variación total en dos componentes: la que se debe a los
tratamientos y la que es aleatoria.

Para encontrar estos dos componentes se determina la media de cada tratamiento. La


primera fuente de variación se debe a los tratamientos.

VALOR DE LOS TRATAMIENTOS: Suma de las diferencias elevadas al cuadrado


entre la media de cada tratamiento y la media total o global.

En el ejemplo la variación debida a los tratamientos es la suma de las diferencias al


cuadrado entre la media de cada empleado y la media global.

Este valor es de 992

La media de Wolfe: (55+54+59+56)/4 = 56


La media de White: 70
La media de Korosa: 48

Variación de tratamiento = 4*(56 – 58)^2 + 4*(70 – 58)^2 + 4*(48 – 58)^2 = 992

Si existe una variación considerable entre las medias de los tratamientos, es lógico que
este término sea grande. Si las medias de los tratamientos son similares, este término
será un valor bajo.
Página 7 de 20

A la otra fuente de variación se la conoce como componente aleatorio, o componente de


error.

VARIACIÓN ALEATORIA: Suma de las diferencias elevadas al cuadrado entre cada


observación y su media de tratamiento.

En el ejemplo este término es la suma de las diferencias al cuadrado entre cada valor y
la media para ese empleado en particular.

La variación del error es = 90

Variación del error = (55 -56)^2 + (54-56)^2+(59-56)^2+(56-56)^2 + (66-70)^2 … (48-


48)^2 = 90

El estadístico de prueba, que es la razón de los dos estimados de la Varianza


poblacional, se determina a partir de la siguiente ecuación:

Estimado de la Varianza poblacional basado en las diferencias entre las medias muestrales
F=
Estimado de la Varianza poblacional basado en la variación dentro de la muestra

El primer estimado de la Varianza poblacional parte de los tratamientos, es decir, de la


diferencia entre las medias.

Este es 992/2

¿Por qué se dividió para 2? Porque hay que recordar que para encontrar una varianza
poblacional se divide para n – 1. En este caso hay 3 tratamientos.

El estimado de la Varianza dentro de los tratamientos es la variación aleatoria dividida


entre el número total de observaciones, menos el número de tratamiento.

Es decir 90/(12-3). De aquí el segundo estimado de la Varianza poblacional es 90 / 9

El paso final es tomar la razón de estos dos estimados:

992/2
F= = 49,6
90/9

Como esta razón es muy distinta a 1, se concluye que las medias de los tratamientos no
son iguales. Hay una diferencia en el número medio de clientes atendidos por los tres
empleados.

Ejercicio para desarrollar:


Página 8 de 20

Citrus Clean es un nuevo limpiador multiuso a prueba en el mercado, y se han colocado


exhibidores en tres lugares diferentes, dentro de varios supermercados. A continuación
se reporta la cantidad de botellas de 12 oz., vendidas en cada lugar del supermercado.

Cerca del pan 18 14 19 17


Cerca de la cerveza 12 18 10 16
Cerca de otros limpiadores 26 28 30 32

Con un nivel de significancia de 0,05 ¿Hay alguna diferencia en el número medio de


botellas vendido en los tres lugares?

a) Formule la hipótesis nula y alternativa


b) ¿Cuál es la regla de decisión?
c) Calcule los tres valores de SS total; SST y SSE
d) Elabore una tabla ANOVA
e) ¿Cuál es su decisión respecto de la hipótesis nula?

Ejemplo:
Desde hace algún tiempo las aerolíneas han reducido sus servicios, como alimentos y
bocadillos durante sus vuelos y empezaron a cobrar un precio adicional por alguno
servicios, como llevar sobrepeso de equipaje, cambios de vuelo de último momento y
por mascotas que viajan en la cabina.

Sin embargo, aún están muy preocupadas por el servicio que ofrecen. Hace poco un
grupo de cuatro aerolíneas contrató a Brunner Marketing Research Inc., para encuestar a
sus pasajeros sobre la adquisición de boletos, abordaje, servicio durante el vuelo,
manejo del equipaje, comunicación del piloto, etc.

Hicieron 25 preguntas con diversas respuestas posibles: excelente, bueno, regular o


deficiente.

Una respuesta de excelente tiene una calificación de 4, bueno 3, regular 2 y deficiente 1.


Estas respuestas se sumaron, de modo que la calificación final fue una indicación de la
satisfacción con el vuelo. Entre mayor la calificación, mayor el nivel de satisfacción con
el servicio.

La calificación mayor posible fue 100.

Brunner seleccionó y estudió al azar pasajeros de las cuatro aerolíneas. A continuación


se muestra la información.

¿Hay alguna diferencia en el nivel de satisfacción medio entre las cuatro aerolíneas?
Use el nivel de significancia 0,01
Página 9 de 20

EASTERN TWA ALLEGHENY OZARK


94 75 70 68
90 68 73 70
85 77 76 72
80 83 78 65
88 80 74
68 65
65

Utilice el procedimiento de prueba de hipótesis de 5 pasos.

Solución:
Paso 1: Formule las hipótesis nula y alternativa. La hipótesis nula es que las
calificaciones medias son iguales para las cuatro aerolíneas.

H0 = μ1 = μ2 = μ3 = μ4

La hipótesis alternativa es que no todas las calificaciones medias son iguales para las
cuatro aerolíneas.

H1 = no todas las calificaciones medias son iguales.

La hipótesis alternativa también se considera como “al menos dos calificaciones medias
no son iguales”.

Si no se rechaza la hipótesis nula, se concluye que: no hay una diferencia en las


calificaciones medias para las 4 aerolíneas. Si se rechaza H0 concluye que hay una
diferencia en al menos un par de calificaciones medias, pero en este punto no se sabe
cual par o cuantos pares difieren.

Paso 2: Seleccione el nivel de significancia. Seleccionó el nivel de significancia 0,01

Paso 3: Determine el estadístico de prueba. El estadístico de prueba sigue la


distribución.

Paso 4: Formule la regla de decisión. Para determinar la regla de decisión necesito el


valor crítico. El valor crítico para el estadístico “F” está en las copias de las tablas
dadas. Los valores críticos que se deben encontrar son dados para el nivel de
significancia 0,01. Para utilizar esta tabla se necesita conocer los grados de libertad en el
numerador son iguales al número de tratamientos designados k, menos 1.

Los grados de libertad en el denominador son el número total de observaciones, n,


menos el número de tratamientos.

Para este ejemplo hay 4 tratamientos y un total de 22 observaciones.

Grados de libertad en el numerador = k – 1 = 4 – 1 = 3


Página 10 de 20

Grados de libertad en el denominador = n – k = 22 – 4 = 18

Consulte la tabla de la distribución “F” con un nivel de significancia 0,01. Muévase


horizontalmente por la parte superior de la tabla a 3 grados de libertad en el numerador.
Después vaya hacia abajo por esa columna hasta la fila con 18 grados de libertad.

El valor en esa intersección es 5,09. Por tanto, la regla de decisión es rechazar H0 si el


valor calculado de “F” es mayor que 5,09.

Paso 5: Seleccione la muestra, realice los cálculos y tome una decisión. Es conveniente
resumir los cálculos del estadístico “F” en una tabla ANOVA.

El formato para una tabla ANOVA es el siguiente.

Tabla ANOVA
Fuente de Suma de Grados de Media cuadrática F
variación cuadrados libertad
Tratamientos SST k–1 SST / (k-1)=MST MST / MSE
Error SSE n–k SSE / (n-k)=MSE
Total SS total n-1

Hay tres valores, o suma de cuadrados para calcular el estadístico de prueba F. Estos
valores se determinan al obtener SS total y SSE, después SST mediante una resta. El
término SS total es la variación total, SST es la variación debida a los tratamientos, Y
SSE es la variación dentro de los tratamientos o el error aleatorio.

En general el proceso se inicia al determinar SST total: la suma de las diferencias


elevadas al cuadrado entre cada observación y la media global. La fórmula para
determinar SS total es:

SStotal = ∑(X - ẌG)^2

Donde:
X es cada observación de la muestra
ẌG es la media global o total

Enseguida se determina SSE la suma de los errores elevados al cuadrado: la suma de


las diferencias elevadas al cuadrado entre cada observación y su respectiva media de
tratamiento. La fórmula para encontrar SSE es:

SSE = ∑(X - Ẍc)^2

Donde:
Ẍc es la media muestral para el tratamiento c

A continuación se presentan los cálculos detallados de SS total y SSE para este ejemplo.
Para determinar los valores SS total y SSE se comienza por calcular la media global o
total. Hay 22 observaciones y el total es 1.664, por tanto la media total es: 75,64

XG = 1664 / 22 = 75, 634


Página 11 de 20

EASTERN TWA ALLEGHENY OZARK TOTAL


94 75 70 68
90 68 73 70
85 77 76 72
80 83 78 65
88 80 74
68 65
65
Total de la 349 391 510 414 1664
columna
n 4 5 7 6 22
Media 87,25 78,20 72,86 69,00 75,64

Luego se encuentra la desviación de cada observación a la media total: se eleva al


cuadrado estas desviaciones y se suma este resultado para las 22 observaciones. Por
ejemplo, el primer pasajero encuestado tenía una calificación de 94, y la media global o
total es 75,64. Por tanto (X - ẌG) = 94 – 75,64 = 18,63. Para el último pasajero, (X -
ẌG)= 65 – 75,64 = -10,64. Los cálculos para los otros pasajeros son:

EASTERN TWA ALLEGHENY OZARK


18,36 -0,64 -5,64 -7,64
14,36 -7,64 -2,64 -5,64
9,36 1,36 0,36 -3,64
4,36 7,36 2,36 -10,64
12,36 4,36 -1,64
-7,64 -10,64
-10,64

Después se eleva al cuadrado cada una de estas diferencias y se suman todos los valores.
El valor SS total es: 1.485,0910

EASTERN TWA ALLEGHENY OZARK


337,09 0,41 31,81
206,21 58,37 6,97
87,61 1,85 0,13
19,01 54,17 5,57
152,77 19,01
58,37
113,21
Total 649,92 267,57 235,07 332,54
1.485,10

Para calcular el término SSE se encuentra la desviación entre cada observación y su


media de tratamiento. En el ejemplo la media de tratamiento (es decir los pasajeros de
Eastern Airlines) es 87,25, determinada mediante ẌE = 394 / 4
Página 12 de 20

EASTERN TWA ALLEGHENY OZARK


6,75 -3,2 -2,86 .1
2,75 -10,2 0,14 1
-2,25 -1,2 3,14 3
-7,25 4,8 5,14 -4
9,8 7,14 5
-4,86 -4
-7.86

Cada uno de estos valores se eleva al cuadrado y después se suman las 22


observaciones. Los valores se muestran en la siguiente tabla.

EASTERN TWA ALLEGHENY OZARK


45,5625 10,24 8,18 1
7,5625 104,04 0,02 1
5,0625 1,44 9,86 9
52,5625 23,04 26,42 16
96,04 50,98 25
23,62 16
61,78
Total 110,75 234,80 180,86 68
594,41

Por tanto el valor SSE es 594,41, Es decir ∑(X - Ẍc)^2 = 594,41

Por último, se determina SST, la suma de los cuadrados debida a los tratamientos, con
la resta:

SST = SS total – SSE

En este ejemplo:

SST = SS total – SSE = 1.485,10 – 594,41 = 890,69

Para determinar el valor calculado de F, se consulta la tabla ANOVA. Los grados de


libertad para el numerador y el denominador son los mismos que en el paso 4, que se
explicó al inicio de este ejercicio, donde se determinó el valor crítico de F.

El término media cuadrática es otra expresión para un estimado de la varianza. La


media cuadrática para tratamientos es SST dividido entre sus grados de libertad. El
resultado es la media cuadrática para tratamientos, y se escribe MST. Calcule el error
medio cuadrático de una manera similar. Para ser preciso, divida SSE entre sus grados
de libertad. Para completar el proceso y obtener F, divida MST entre MSE.

Sustituya los valores particulares de F en una Tabla ANOVA y calcule el valor de F,


como se muestra a continuación.
Página 13 de 20

Fuente de Suma de Grados de Media F


variación cuadrados libertad cuadrática
Tratamientos 890,69 3 296,90 8,99
Error 594,41 18 33,02
Total 1.485,10 21

El valor calculado de F es 8,99, el cual es mayor que el valor crítico de 5,09, por tanto la
hipótesis nula se rechaza. La conclusión es que no todas las medias poblacionales son
iguales. Las calificaciones medias no son iguales para las cuatro aerolíneas. Es
preferible que las calificaciones de los pasajeros se relacionen con una aerolínea
particular. En este punto sólo es posible concluir que hay una diferencia en las medias
del tratamiento. No se puede determinar cuáles ni cuántos grupos de tratamiento
difieren.

La solución que da el programa Excel, permite observar a la Tabla ANOVA, para que
se determine la decisión a tomar.

Si se desea conocer la relación de las medias se debe realizar la inferencia sobre pares
de medias de tratamiento.

Análisis de varianza de un factor

RESUMEN
Grupos Cuenta Suma Promedio VarianzaDesviación Estándar
Eastern 4 349 87,25 36,91666667 6,075908711
TWA 5 391 78,2 58,7 7,661592524
Allegheny 7 510 72,85714286 30,14285714 5,4902511
Ozark 6 414 69 13,6 3,687817783

ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Entre grupos 890,6837662 3 296,8945887 8,990643302 0,000742769 3,15990759
Dentro de los grupos 594,4071429 18 33,02261905

Total 1485,090909 21

Ejercicio a realizar:
Los siguientes datos son las colegiaturas por semestre (en miles de dólares) de una
muestra de universidades privadas en varias regiones de Estados Unidos. Con un nivel
de confianza del 95% ¿Se puede concluir que hay una diferencia en las colegiaturas
medias de las diversas regiones?

Noreste Sureste Oeste


(miles de dólares) (miles de dólares) (miles de dólares)
10 8 7
11 9 8
12 10 6
10 8 7
12 6
Página 14 de 20

a) Formule las hipótesis nula y alternativa


b) ¿Cuál es la regla de decisión?
c) Elabore una Tabla ANOVA ¿Cuál es el valor del estadístico de prueba?
d) ¿Cuál es su decisión acerca de la hipótesis nula?

ANÁLISIS DE LA VARIANZA DE DOS VÍAS

En el ejemplo de las calificaciones de los pasajeros de las dos aerolíneas, la variación


total se dividió en dos categorías: la variación entre los tratamientos y la variación
dentro de los tratamientos.

También se denominó la variación dentro de los tratamientos como error o variación


aleatoria. En otras palabras, sólo se consideraron dos fuentes de variación, la debida a
los tratamientos y las diferencias aleatorias.

En el ejemplo de las calificaciones de las aerolíneas puede haber otras causas de


variación.

Estos factores pueden incluir, por ejemplo: la estación del año, el aeropuerto, el número
de pasajeros en el vuelo, etc.

El beneficio al considerar otros factores es que se reduce la Varianza del error, es decir:
si se reduce el denominador del estadístico F (al reducir la Varianza del error, o de
manera más directa el término SSE), el valor de F será mayor, ocasionando el rechazo
de la hipótesis de medias de tratamiento iguales.

En otras palabras, si se puede explicar más la variación, habrá menos “error”.

Ejemplo:

El Director de WARTA, Warren Area Transit Authority, considera ampliar el servicio


de autobuses del suburbio Starbrick al centro de Warren.

Se consideran 4 rutas de Starbrick a al centro de Warren:


1. Por la carretera 6
2. Por el West End
3. Por el Hickory Street Bridge, y
4. Por la ruta 59

El Director realizó varias pruebas para determinar si había una diferencia en los tiempos
de recorrido medios por las cuatro rutas.

Como habrá muchos conductores distintos, la prueba se diseñó para que cada conductor
manejara a lo largo de las 4 rutas.

A continuación el tiempo del recorrido, de cada combinación: conductor ruta.

Tiempo de recorrido de Starbrick a Warren (minutos)


Página 15 de 20

Conductor Carretera 6 West End Hickory st. Ruta 59


Deans 18 17 21 22
Snaverly 16 23 23 22
Ormson 21 21 26 22
Zollaco 23 22 29 25
Filbeck 25 24 28 28

Con un nivel de significancia de 0,05 ¿Hay una diferencia en el tiempo de recorrido


medio a lo largo de las 4 rutas?

Si elimina el efecto de conductores ¿Hay alguna diferencia?

Para iniciar, realice una prueba de hipótesis de ANOVA de una vía. Es decir sólo
considere las cuatro rutas. Con esta condición, la variación en los tiempos del recorrido
se debe a los tratamientos o es aleatoria.

La hipótesis nula y alternativa para comparar el tiempo del recorrido medio por las
cuatro rutas son:

H0: μ1 = μ2 = μ3 = μ4
H1: no todas las medias de los tratamientos son iguales

Hay cuatro rutas, por tanto los grados de libertad del numerador son: k -1 = 4 – 1 = 3

Hay 20 observaciones, por consiguiente: g. l. del denominador son: n – k = 20 – 4 = 16

De acuerdo a la tabla, con el nivel de significancia 0,05 el valor crítico de F es: 3,24

La regla de decisión es rechazar la hipótesis nula si el valor calculado de F es mayor


que 3,24

Realice los cálculos


Página 16 de 20

ANÁLISIS DE VARIANZA DE UN FACTOR

RESUMEN
Grupos Cuenta Suma Promedio Varianza Desviación
Carretera 6 5 103 20,6 13,3 3,6469
West End 5 107 21,4 7,3 2,7019
Hickory ST. 5 127 25,4 11,3 3,3615
Ruta 59 5 119 23,8 7,2 2,6833

ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Entre grupos 72,8 3 24,26666667 2,482523444 0,098105022 3,238871517
Dentro de los grupos 156,4 16 9,775

Total 229,2 19

El valor calculado de F es igual a 2,483, por lo que la decisión es aceptar la hipótesis


nula.

Concluye que no hay una diferencia en el tiempo de recorrido medio a lo largo de las 4
rutas.

No hay una razón para seleccionar una de las rutas como la más rápida que las demás.

De la pantalla de Excel, y el cálculo realizado los tiempos de recorrido medio a lo largo


de las rutas fueron:
1. 20,6 minutos por la carretera 6
2. 21,4 minutos por la West End
3. 25,4 por Hickory Street
4. 23,8 por la ruta 59

Se concluye que es razonable atribuir estas diferencias a la casualidad.

De la Tabla ANOVA se observa que:


• SST es 72,8
• SSE es 156,4
• SS total es 229,2

La variación se ha considerado debido a los tratamientos (rutas) y se tomó toda


variación restante como aleatoria.

Si se pudiera considerar el efecto de los diversos conductores, esto permitirá reducir el


término SSE, lo cual generaría un valor mayor de F.

A la segunda variable de tratamiento, en este caso, los conductores, se le conoce como


variable de bloque
Página 17 de 20

VARIABLE DE BLOQUE: Una segunda variable de tratamiento que, cuando se


incluye en el análisis ANOVA, tendrá el efecto de reducir el término SSE.

En este caso se asignan los conductores como la variable de bloque, y al eliminar el


efecto de los conductores del término SSE: cambiará la razón de F para la variable de
tratamiento.

Primero es determinar la suma de los cuadrados debido a los bloques.

En un ANOVA de dos vías, la suma de los cuadrados debida a los bloques se determina
mediante la siguiente fórmula.

SSB = k ∑(Ẍb - ẌG)^2

Donde:

k es el número de tratamientos
b es el número de Bloques
Ẍb es la media muestral del Bloque b
ẌG es la media global o total

A partir de los siguientes cálculos, las medias para los conductores respectivos son:

Conductor Carretera 6 West End Hickory st. Ruta 59 Media


Deans 18 17 21 22 19,5
Snaverly 16 23 23 22 21
Ormson 21 21 26 22 22,5
Zollaco 23 22 29 25 24,75
Filbeck 25 24 28 28 26,25
La Media del Bloque es: 22,8
Al introducir esta información en la fórmula de: Variable de Bloque, se determina SSB,
y la suma de los cuadrados debida a los conductores (la variable de bloque) es: 119,7

SSB = k ∑(Ẍb - ẌG)^2

= 4(19,5-22,8)^2 + 4(21,0-22,8)^2 + 4(22,5-22,8)^2 + 4(24,75-22,8)^2 + 4(26,25-


22,8)^2

SSB = 119,7

Se utiliza el mismo formato en la Tabla ANOVA de dos vías, como en el caso de una
vía, excepto que hay una fila adicional para la variable de bloque.

SS total y SST se calculan como se hizo antes, y SSB se determina con la fórmula:
SSB=k ∑(Ẍb - ẌG)^2.

El término SSE se calcula mediante una resta:


Página 18 de 20

SUMA DE ERRORES CUADRÁTICOS DE DOS VÍAS:


SSE = SS total – SST - SSB

Los valores para los varios componentes de la tabla ANOVA se calculan como sigue:

Fuente de Suma de los Grados de Medias cuadráticas F


variación cuadrados libertad
Tratamientos SST k–1 SST/(k-1)=MST MST/MSE
Bloques SSB b-1 SSB/(b-1)=MSB MSB/MSE
Error SSE (k-1)(b-1) SSE/(k-1)(b-1)=MSE
Total SS total n–1

Se resuelve la tabla:

Fuente de Suma de los Grados de Medias cuadráticas F


variación cuadrados libertad
Tratamientos 72,8 3 24,27 MST/MSE
Bloques 119,7 4 29,93 MSB/MSE
Error 36,7 12 3,06
Total 229,2 19

Aplicando la fórmula:

SSE = SS total – SST - SSB


SSE = 229,2 – 72,8 – 119,7 = 36,7

En este punto hay un desacuerdo. Si el objetivo de la variable de bloque (los


conductores en este ejemplo) fue sólo reducir la variación del error, no se debe realizar
una prueba de hipótesis para la diferencia en las medias de los bloques.

Es decir, si el objetivo era reducir el término MSE, no se debe probar una hipótesis
respecto de la variable de bloque. Por otro lado, quizás se desee dar a los bloques la
misma condición que a los tratamientos y realizar una prueba de hipótesis.

Este último caso, cuando los bloques son los bastantes importantes para considerarse un
segundo factor, se conoce como un EXPERIMENTO DE DOS FACTORES

En muchos casos la decisión no es clara. En este ejemplo lo importante es la diferencia


del tiempo de recorrido de los diversos conductores, por lo que se realizará la prueba de
hipótesis.

Los dos conjuntos de hipótesis son:

H0: Las medias de tratamiento son iguales (μ1 = μ2 = μ3 = μ4)


H1: Las medias de tratamiento no son iguales

H0: Las medias de los bloques son iguales (μ1 = μ2 = μ3 = μ4 = μ5)


Página 19 de 20

H1: Las medias de los bloque no son iguales

Primero se pondrá a prueba la hipótesis respecto de las medias de tratamiento.

Hay k-1 = 4 – 1 = 3 grados de libertad en el numerador, y


(b-1)(k-1) = (5 – 1)(4 – 1) = 12 grados de libertad en el denominador

Con el nivel de significancia de 0,05, el valor crítico de F es: 3,49

La hipótesis nula se rechaza y se acepta la hipótesis alternativa.

La hipótesis nula de los tiempos medios para las cuatro rutas son iguales, se rechaza si
la razón es mayor que 3,49.

F = MST / MSE

F = 24,27 / 3,06

F = 7,93

La hipótesis nula se rechaza y se acepta la hipótesis alternativa.

Se concluye que el tiempo de recorrido medio no es el mismo para todas las rutas.

Sería recomendable que WARTA realizara algunas pruebas para determinar cuales
medias de tratamiento difieren.

Enseguida se prueba si el tiempo de recorrido es el mismo para los diversos


conductores.

Los grados de libertad en el numerador para los bloques son:


b-1 = 5 – 1 = 4
Los grados de libertad para el denominador son los mismos que antes:
(b-1)(k-1) = (5 – 1)(4 – 1) = 12.

La hipótesis nula de que las medias de lo bloques son iguales se rechaza si, la razón F es
mayor es mayor que 3,26

F = MSB / MSE

F = 29,93 / 3,06

F = 9,78

Se rechaza la hipótesis nula y se acepta la hipótesis alternativa. El tiempo medio no es el


mismo para los conductores.

Así la gerencia de WARTA puede concluir, con base en los resultados de la muestra,
que hay una diferencia en las rutas y en los conductores.
Página 20 de 20

En la hoja de cálculo Excel se puede realizar el procedimiento ANOVA de dos factores.

Análisis de varianza de dos factores con una sola muestra por grupo

RESUMEN Cuenta Suma Promedio Varianza


Deans 4 78 19,5 5,666666667
Snaverly 4 84 21 11,33333333
Ormson 4 90 22,5 5,666666667
Zollaco 4 99 24,75 9,583333333
Filbeck 4 105 26,25 4,25

Carretera 6 5 103 20,6 13,3


West End 5 107 21,4 7,3
Hickory st. 5 127 25,4 11,3
Ruta 59 5 119 23,8 7,2

ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Filas 119,7 4 29,925 9,784741144 0,000933574 3,259166727
Columnas 72,8 3 24,26666667 7,934604905 0,003507913 3,490294819
Error 36,7 12 3,058333333

Total 229,2 19

También podría gustarte