Está en la página 1de 8

Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA

Notas de Clase Alberto Boada Rodríguez, Ph.D.

Una de las distribuciones de probabilidad más utilizada es la F, denominada así en honor de Sir Ronald
Fisher, uno de los fundadores y propulsores del estudio de la ciencia estadística.

Esta distribución sirve entre otras, para probar si dos muestras provienen de poblaciones con varianzas
iguales o para comparar simultáneamente varias medias poblacionales, está comparación simultanea se
denomina análisis de varianza (ANOVA), acrónimo que proviene del idioma inglés “Analysis of variance” o
también como una técnica usada ampliamente en el diseño de experimentos donde tiene su origen en la
agricultura.

El análisis de la varianza parte de los conceptos de regresión lineal. Un análisis de la varianza permite
determinar si diferentes tratamientos o experimentos presentan diferencias significativas entre ellos o por el
contrario puede suponerse que sus medias poblacionales no difieren. El análisis de la varianza permite superar
las limitaciones de hacer contrastes bilaterales por parejas que son un mal método para determinar si un
conjunto de variables con n > 2 difieren entre sí, cuando se trabaja con pruebas de hipótesis para dos muestras

Existen tres clases conceptuales de modelos en el análisis de varianza o diseño de experimentos:

 El Modelo de efectos fijos asume que los datos provienen de poblaciones normales las cuales podrían
diferir únicamente en sus medias.
 El Modelo de efectos aleatorios asume que los datos describen una jerarquía de diferentes poblaciones
cuyas diferencias quedan restringidas por la jerarquía. Ejemplo: El experimentador ha aprendido y ha
considerado en el experimento sólo tres de muchos más métodos posibles, el método de enseñanza
es un factor aleatorio en el experimento, y
 El Modelo de efectos mixtos describen situaciones que éste puede tomar. Ejemplo: Si el método de
enseñanza es analizado como un factor que puede influir donde están presentes ambos tipos de
factores: fijos y aleatorios.

Suposiciones del ANOVA

En el estudio del análisis de varianza se debe considerar y cumplir lo siguiente:


1. La variable dependiente debe medirse al menos a nivel de intervalo
2. Las poblaciones están distribuidas normalmente
3. Las poblaciones tienen desviaciones estándar iguales - homocedasticas
4. Las muestras se seleccionan de modo independiente - Independencia de las observaciones.
5. La distribución de los residuales debe ser normal.

Cuando se cumplen las anteriores condiciones la distribución de Fisher, F, se utiliza como un valor
estadístico de prueba.

En el ANOVA, uno de los términos más usados es Tratamiento, que se emplea para identificar las
poblaciones que se examinan o determina la causa o fuente específica de variación en un conjunto de
datos.

El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la media global
(SCT), que bajo el supuesto de que H0 es cierta es una estimación obtenida a partir de toda la información
muestral, en dos fuentes: Variación dentro de las muestras (SCE) o Intra-grupos, que cuantifica la
dispersión de los valores de cada muestra con respecto a sus correspondientes medias. Variación entre
muestras (SEt) o Inter-grupos, cuantifica la dispersión de las medias de las muestras con respecto a la
media global.

Análisis de variancia a una vía:

El siguiente ejemplo mostrara que es un análisis de varianza a una vía. Abrahán Tirado propietario de un
cultivo de yuca desea fertilizar su terreno con un producto que produzca el máximo rendimiento de yuca por
hectárea. Para ello tiene tres marcas de fertilizantes A, B y C; las cuales aplica en su terreno, el cual
previamente lo divide en 12 lotes de igual tamaño. Después siembra la yuca al mismo tiempo y de la misma
forma.

1
Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA
Notas de Clase Alberto Boada Rodríguez, Ph.D.

La única diferencia en las parcelas es que asigna al azar la marca A del fertilizante para cuatro lotes, el B
para otros cuatro y el C a los cuatro restantes lotes. Al momento de la cosecha se registra la producción de
yuca (en arrobas) en cada lote. Para este ejemplo hay 3 tratamientos, esto es las tres clases de fertilizantes
A, B y C. El resultado de la producción de yuca en miles de arrobas es:

TRATAMIENT
OS
A B C
5 66 47
5
5 76 51
4
5 67 46
9
5 71 48
6

La pregunta es: ¿existen diferencias significativas entre los tratamientos? . Para responder está pregunta se
plantea la siguiente hipótesis:

H0: µ1 = µ2 = µ3 Vs H1: AI menos un tratamiento es diferente o H1: µ1 # µ2 # µ3


Para probar o refutar dicha hipótesis se debe construir la siguiente tabla de ANOVA:

Fuente de Suma de Grados de Cuadrado medio F


variación cuadrados libertad calculada
Tratamientos SCt K-1 SCt / K – 1
Error SCE n-k SCE / n – k SCMt /
SCME
Total SC N -1
T

2
Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA
Notas de Clase Alberto Boada Rodríguez, Ph.D.

Donde:

SCE = SCT – SCt

Cuando la hipótesis nula es cierta la SCt/k-1 y SCE/n-k son dos estimadores insesgados de la varianza
poblacional y el cociente entre ambos se distribuye según una distribución F de Snedecor con k-1 grados
de libertad en el numerador y n - k grados de libertad en el denominador. Por lo tanto, si H0 es cierta es de
esperar que el cociente entre ambas estimaciones será aproximadamente igual a 1, de forma que se
rechazará H0 si dicho cociente difiere significativamente de 1. Es decir, a valores extremos existirán
diferencias para rechazar H0.

La distribución F
La distribución de probabilidad que se utiliza en ANAVA es la distribución F. Recibió este nombre en honor a sir
Ronald Fisher, uno de los fundadores de la estadística moderna. Esta distribución de probabilidad se usa como
estadística de prueba en varias situaciones. Se emplea para probar si dos muestras provienen de poblaciones
que poseen varianzas iguales, y también se aplica cuando se trata de comparar simultáneamente varias
medias poblacionales. La comparación simultánea de varias medias poblacionales se conoce como análisis de
varianza (ANOVA). En ambas situaciones, las poblaciones deben ser normales y los datos tener al menos la
escala de los intervalos.

¿Cuáles son las características de la distribución F?


1. Existe una "familia" de distribuciones F. Un miembro específico de la familia determina por dos
parámetros: los grados de libertad en el numerador y en el de denominador. La forma de la distribución
es asimétrica.
2. La distribución F es una distribución continua.
3. F no puede ser negativa.
4. La distribución F tiene un sesgo positivo.
5. A medida que aumentan los valores, la curva se aproxima al eje X, pero nunca lo toca.

Análisis de variancia a dos vías


En el análisis de varianza a una vía se dividía la variación total en dos fuentes entre tratamientos y la
variación dentro de los mismos (error aleatorio). Es decir, se consideraron dos fuentes de variación la
causada por los tratamientos y la debida al azar. Pero pueden existir otras fuentes de variación. Por
ejemplo: La organización Transmilenio, está ampliando el servicio de Alimentadores de la estación A, a los
sectores cercanos. Se consideran cuatro rutas de la estación A a la B. Transmilenio realizó recorridos de
prueba para determinar si había diferencia en los tiempos del trayecto entre las cuatro rutas. Debido a que
habrá muchos conductores, se estableció la prueba para que cada uno manejara por las cuatro vías. A
continuación, se muestran los tiempos del recorrido, en minutos, para cada una de las combinaciones
conductor-ruta.
Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA
Notas de Clase Alberto Boada Rodríguez, Ph.D.

Tiempo del recorrido de la estación A - B (minutos)

Conductor Ruta 1 Ruta 2 Ruta 3 Ruta 4 Suma filas Br


Abraham Tirado Rico 18 20 20 22 80
Dolores de Barriga 21 22 24 24 91
Armando Torres 20 23 25 23 91
Zoila Pérez Sosa 25 21 28 25 99
Emma Madera de Gallo 26 24 28 25 103
Total de los Ti. 11 110 12 119 464
0 5
Suma de cuadrados 24 2430 31 2839 109
66 69 04

AI nivel de significancia de 0.05, ¿existe una diferencia en el tiempo medio de viaje a lo largo de las cuatro
rutas? Si se elimina el efecto de los conductores, ¿habrá una diferencia en el tiempo promedio del trayecto?

Para comenzar, se realiza una prueba de hipótesis usando un ANOVA en una dirección. Es decir, se
consideran sólo las cuatro rutas. En estas condiciones la variación se debe a los tratamientos o al azar. La
hipótesis nula y la hipótesis alternativa para comparar el tiempo medio del recorrido a lo largo de las cuatro
rutas son: H0: µ1 = µ2 = µ3 Vs H1: AI menos una es diferente. Existen cuatro rutas, así que los grados de
libertad en el numerador es k - 1 = 4 - 1 = 3. Hay 20 observaciones; de este modo los grados de libertad en
el denominador son n - k = 20 - 4 = 16. En la tabla de Fisher se ve que con el nivel de significancia de 0.05,
el valor crítico de F es 3.24. La regla de decisión es rechazar la hipótesis nula si el valor F calculado es
mayor que 3.24. Los elementos para la tabla ANOVA se calculan como sigue. Primero, usando SCT, se
determina la variación total: SCT = 10904 – (464)²/20 = 139.2

Después, mediante SCt se calcula la variación de tratamiento: (110²+ ….+119²)/5 – 464²/20 = 32.4
Por último, por substracción, se determina la variación de error.
SSE = SCT - SCt = 139.2 - 32.4 = 106.8. AI introducir estos valores en una tabla ANOVA y calculando el
valor de F, resulta:

Fuente de Suma de Grados de Cuadrado medio F


variación cuadrados libertad calculada
Tratamientos 32.4 3 1
0.
8
Error 10 16 6.675 1.618
6.8
Total 139.2 19

Debido a que el valor F calculado de 1 .618 es menor que el valor crítico de 3.24, no se rechaza la hipótesis
nula. Transmilenio puede concluir que no hay diferencia en el tiempo medio del recorrido entre las cuatro
rutas. No hay razón para seleccionar una de ellas como más rápida que las otras.

En el ejemplo anterior se consideró la variación causada por los tratamientos (rutas) y se supuso que la
variación restante era aleatoria. Sin embargo, se establecieron pruebas para que cada uno de los cinco
conductores manejara por las cuatro vías. Si se pudiera considerar el efecto de los diversos conductores,
esto permitiría reducir término SCE, lo que podría llevar a un valor de F más grande. La segunda variable --
los conductores en este caso- se conoce como variable de bloqueo.

Variable de bloqueo: Una segunda variable de tratamiento que cuando se, incluye en el ANOVA, tendrá el
efecto de reducir SCE. En este caso se dejó que los conductores fueran la variable de bloqueo, y al eliminar
del SCE el efecto de aquéllos, cambiará la razón F para la variable de tratamiento.
Primero se necesita determinar la suma de cuadrados debida a los bloques. La ecuación para evaluar los
bloques de suma de cuadrados es muy similar a la ecuación para la suma de cuadrados para tratamientos.
BLOQUES DE SUMA CUADRADOS SCB =  B²r /k – T..²/n
Donde B, se refiere al total de bloque, esto es, el total para la fila, y k es el número de elementos en cada
bloque. Se utiliza el mismo formato en la tabla ANOVA de dos direcciones, que, en el caso de dicha tabla
para una dirección, con la excepción de que hay una fila adicional para la variable de bloqueo. Se tiene que
Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA
Notas de Clase Alberto Boada Rodríguez, Ph.D.

SCt y SST se calculan como antes, y SCB se evalúa con se indicó antes. El término SCE se encuentra por
substracción. ERROR DE SUMA DE CUADRADOS, SSE = SS total - SST – SSB. Los valores para los
diversos componentes de la tabla ANOVA se calculan como sigue.

Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio F


Tratamientos SC k- 1 SCT/(k- 1) = SCMt F
Bloques t b- 1 SCB/(b- 1) = SCMB 1
S
C F
B 2
Error S (k- 1)(b- SCE/(k- 1)(b- 1) = SCME
C 1)
E
Total S n-1
C
T

SCB = (80² + 91² + 91² + 99² + 103²)/4 – 464²/20 = 78.2


SCE = SCT - SCt - SCB = 139.2 - 32.4 - 78.2 = 28.6

Existe un desacuerdo en este punto. Si el propósito de la variable de bloqueo (los conductores, en este
ejemplo) era sólo reducir la variación de error, no se debe realizar una prueba de hipótesis para la
diferencia en las medias de bloques. Es decir, sí el objetivo es disminuir el valor de SCME, entonces no se
debe probar una hipótesis con relación a la variable de bloqueo. Por otra parte, tal vez se desearía dar a los
bloques el mismo status que a los tratamientos, y realizar una prueba de hipótesis. En el último caso,
cuando los bloques son lo suficientemente importantes para ser considerados como un segundo factor, esto
se conoce como experimento de dos factores.

En muchos casos, la decisión no es clara. En el ejemplo existe la preocupación acerca de las diferencias
en el tiempo del recorrido para los diferentes conductores, así que se realizará la prueba de hipótesis.

Los dos conjuntos de hipótesis son:

1. Ho: Las medias de tratamiento son iguales (H0: µ1 = µ2 =


µ3 ) H1: Las medias de tratamiento no son iguales.
2. Ho: Las medías de bloque son iguales (H0: µ1 = µ2 =
µ3 ) H1: Las medias de bloque no son iguales.

Primero se probará la hipótesis referente a las medias de tratamiento. Existen k- 1 = 4 - 1 = 3 grados de


libertad (gl) en el numerador, y (b- 1)(k- 1 ) = (5 - 1 )(4 - 1 ) = 12 gl en el denominador. Utilizando el nivel de
significancia de 0.05, el valor crítico de F es 3.49. La hipótesis nula de que son iguales los tiempos medios
para las cuatro rechaza si la relación F es mayor que 3.49.

La hipótesis nula se rechaza y se acepta la alternativa. Se concluye que el medio de viaje no es el mismo
para todas las rutas. Así que Transmilenio deseará realizar algunas pruebas para determinar qué media de
tratamiento difieren.

A continuación, se hace una prueba para determinar si el tiempo del trayecto es igual para los diferentes
conductores. Los grados de libertad en el numerador correspondiente a bloques es b - 1 = 5 - 1 = 4. Los
grados de libertad para el denominador son los mismos que antes (b- 1 )(k- 1 ) = (5 -1 )(4 - 1 ) = 12. Las
hipótesis nulas de medias de bloque son iguales se rechaza si la razón F es mayor que 3.26.

Se rechaza la hipótesis nula y se acepta la alternativa. El tiempo medio no es igual los diversos
conductores. Así que la gerencia de Transmilenio puede con base en los resultados maestrales indicar, que
existe una diferencia en las rutas y en los conductores.
Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA
Notas de Clase Alberto Boada Rodríguez, Ph.D.

Taller No. 2

1. ¿Existen diferencias entre las cuatro semillas? Se desea comparar el rendimiento de cuatro
semillas A, B, C y D. Un terreno se divide en 24 parcelas similares y se asigna al azar cada semilla
a 6 parcelas.

2. El gerente de un supermercado quiere medir la influencia que tiene en la venta de un producto de


alimentación a partir, la posición en que se exhibe al público dentro del establecimiento.

Las posiciones establecidas de los productos son las siguientes:


 ALTA: por encima de los ojos.
 MEDIA: nivel de los ojos.
 BAJA: por debajo del nivel de los ojos.

Para la realización del experimento se seleccionaron 12 autoservicios de dimensiones similares. Los


autoservicios se agruparon en tres conjuntos de cuatro elementos cada uno, procediendo de forma aleatoria en
su asignación. Con ello se supone que los tres conjuntos son de características similares, colocándose el
producto en cada uno de ellos, de una de las formas anteriormente descritas y registrando sus ventas durante
veinte días.

Las ventas resultantes, en unidades, son las que se presentan en la siguiente tabla.

POSICIÓN LOCA Ventas


PRODUCTO L (unidades)
Alta A 663
B 795
C 922
D 1056
Media E 798
F 926
G 1060
H 1188
Baja I 528
J 660
K 792
L 924

Responder a las siguientes preguntas:


Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA
Notas de Clase Alberto Boada Rodríguez, Ph.D.

1. ¿Tiene alguna influencia la ubicación del producto en la venta del mismo?


2. ¿Qué ubicación es más eficiente?
3. ¿Son estadísticamente significativas las diferencias obtenidas?

4. En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos distintos
(A,B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha realizado un control de
calidad a una muestra tomada para cada modelo. El número de defectos encontrados para cinco
vehículos del modelo A son 5,4,6,6 y 7; para seis vehículos del modelo B son 7,8,6,7,6 y 5; y para ocho
vehículos del modelo C: 9,7,8,9,10,11,10 y 10. Contrastar si existen diferencias en el tratamiento que
se da a los distintos modelos.

5. Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan con métodos
diferentes. El primer grupo realiza largos recorridos a ritmo pausado, el segundo grupo realiza series
cortas de alta intensidad y el tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de
alta frecuencia. Después de un mes de entrenamiento se realiza una prueba de rendimiento
consistente en un recorrido cronometrado de 9 Km. Los tiempos empleados fueron los siguientes:

Método I Método II Método III


16 15 14
17 14 13
15 16 12
16 17 15
18 15 12

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen resultados
equivalentes? O por el contrario ¿Hay algún método superior a los demás?

6. A continuación, se muestran los datos obtenidos en un experimento en el que se comprobaron las


habilidades de dos grupos de conductores, los inexpertos y los expertos. Doce conductores de cada
grupo tomaron parte en el experimento. Se usaron tres tipos de carreteras: autopista, nacional y
veredal. Mediante un proceso aleatorio, se asignaron a cada tipo de carretera cuatro conductores
expertos y cuatro inexpertos. Cada conductor estuvo al volante durante 2 kilómetros, en los cuales se
registraron los siguientes “errores de conducción” cometidos.
Plantee un ANOVA a dos vías para probar, para cada uno de los dos factores, la hipótesis nula de que
el número de errores de conducción cometidos no depende del factor.

Conductor Tipo carretera Errores


Inexperto Autopista 4
Inexperto Autopista 18
Inexperto Autopista 8
Inexperto Autopista 10
Experto Autopista 6
Experto Autopista 4
Experto Autopista 13
Experto Autopista 7
Inexperto Nacional 23
Inexperto Nacional 15
Inexperto Nacional 21
Inexperto Nacional 13
Experto Nacional 2
Experto Nacional 6
Experto Nacional 8
Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA
Notas de Clase Alberto Boada Rodríguez, Ph.D.

Experto Nacional 12
Inexperto Veredal 16
Inexperto Veredal 27
Inexperto Veredal 23
Inexperto Veredal 14
Experto Veredal 20
Experto Veredal 15
Experto Veredal 8
Experto Veredal 17

También podría gustarte