Está en la página 1de 27

Tema 6.

 Análisis de la varianza de 


un factor (ANOVA)

DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN 
OPERATIVA APLICADAS Y CALIDAD

Métodos Estadísticos en Economía MEE FADE-UPV


Contenido
6.1. Introducción
6.2. La tabla ANOVA
6.3. Ejecución práctica de los cálculos
6.4. Ejemplo mediante R
6.5. Ejemplo mediante Statgraphics
6.6. Validación del modelo: análisis de residuos
6.7. Ejercicios

Métodos Estadísticos en Economía MEE FADE-UPV


6.1.  Introducción
o En temas anteriores, se han estudiado técnicas para comparar las medias de
dos poblaciones mediante contrastes de hipótesis, tanto paramétricos como
no paramétricos.
o Desventaja: no podemos hacer comparaciones con más de dos poblaciones

o En este tema estudiamos técnicas que nos permitirán comparar las medias
de más de dos poblaciones: Análisis de la varianza (ANOVA)
o ANOVA más sencillo: tenemos una variable respuesta Y, cuya media
depende de los niveles de un único factor cualitativo.
o Ejemplos:
o Y = Estatura. El factor cualitativo puede ser X = Sexo, con dos niveles: hombre y mujer.
o Y = Ingresos. El factor cualitativo puede ser la zona geográfica de trabajo, con varios
niveles, uno para cada zona.

o Objetivo: estudiar si los valores medios de la variable Y son distintos según


los distintos niveles del factor X.

Métodos Estadísticos en Economía MEE FADE-UPV


6.1.  Introducción
o El modelo de análisis de la varianza con un factor es un modelo
paramétrico, por tanto se asumen algunas hipótesis:
o Normalidad de los datos.
o Independencia de las observaciones.
o Homocedasticidad o igualdad de varianzas en las distintas poblaciones estudiadas.

o Formulación teórica del modelo:


o Yij = µ + αi + εij i=1,…,k; j=1,…,n
Siendo:
Yij: la variable respuesta
µ: la media general
αi: efecto del nivel i del factor cualitativo
εij: residuo, perturbación o error cometido
Si los efectos son distintos, la variable respuesta en cada nivel del factor será distinta.

Métodos Estadísticos en Economía MEE FADE-UPV


6.1.  Introducción
o Se debe cumplir:
o Σ αi = 0
o εij ˜ N(0,σ), siendo éstos independientes.
o Estas condiciones representan a las hipótesis de normalidad,
independencia y homocedasticidad.
o Por tanto, el contraste de hipótesis será el siguiente:
H0: µ1 = µ2 = µ3 = ...= µk
H1: al menos una de las igualdades no se cumple

o Para comprobar la hipótesis se basa:


o Variabilidad de los datos entre grupos
o Variabilidad de los datos dentro del grupo
o Si estas dos variabilidades son parecidas  no habrá diferencias importantes
o En caso contrario, habrá diferencias debidas a los distintos niveles del factor

Métodos Estadísticos en Economía MEE FADE-UPV


6.2  Tabla ANOVA
o La comparación de variabilidades se realiza a través de unos cálculos que se
pueden resumir en una tabla, la tabla del análisis de la varianza o tabla ANOVA

Origen de la  Suma de  Grados  Cuadrados F‐Ratio


varianza cuadrados libertad medios
k
Factor (entre  SCE=  (ni ( yi  y ) 2 k‐1 CME = SCE/(k‐1) Fm = CME/CMR
i 1
grupos)
k ni
Residual SCR =   ( yij  yi ) 2 n‐k CMR = SCR/(n‐k)
i 1 j 1
(dentro 
grupos)
k ni
Total SCT =  ( yij  y ) 2 n‐1
i 1 j 1 S y2  SCT /(n  1)

o Si H0 se cumple:
CME/CMR ˜ Fk-1, n-k

Métodos Estadísticos en Economía MEE FADE-UPV


6.2  Tabla ANOVA
o Aceptación de la hipótesis nula: comparar el valor obtenido para Fm (tabla
ANOVA) con la región de aceptación , R.A. = {Fm < Fk-1, n-k}. Es decir, si el valor
Fm obtenido es menor que el valor de la tabla F, aceptamos H0, en caso
contrario, rechazamos.
o También podemos fijarnos en el valor-p, especialmente si trabajamos con
programas informáticos, que nos calculan el valor-p:
o Si el valor-p <= α, se rechaza la hipótesis nula, es decir, los valores medios de la
variable respuesta dependen del nivel del factor utilizado. Existen diferencias
estadísticamente significativas entre las medias de los distintos niveles del factor.
o Si el valor-p > α, se acepta la hipótesis nula, es decir, las diferencias observadas
entre las medias de los distintos niveles no son significativas. Los niveles del factor
considerado, no afectan a los valores medios de la variable respuesta.

Métodos Estadísticos en Economía MEE FADE-UPV


6.3  Ejecución práctica de los cálculos
Ejemplo 1 pág. 142 del libro MEE
Supóngase que se ha analizado el rendimiento (variable respuesta)
midiendo el número de piezas diarias fabricadas por tres máquinas que se
presupone son igual de eficientes, para comprobar si efectivamente son
igual de productivas. Los datos obtenidos han sido los siguientes:

Máquina = 1 Máquina = 2 Máquina =3


47 55 48
50 54 50
49 58 51
50 51 51
46 52 49
y1  48,4 y2  54 y3  49,8
¿Son las diferencias que observamos entre las máquinas tan grandes como
para afirmar que trabajan de modo distinto? ¿o más bien se trata de
diferencias aleatorias e inevitables aún en el caso de que las máquinas
fueran igual de eficientes?
Métodos Estadísticos en Economía MEE FADE-UPV
6.3  Ejecución práctica de los cálculos
Ejemplo 1 pág. 142 del libro MEE

Definimos la variable Y = número de piezas fabricadas


Definimos el factor X = máquina, con tres niveles

H0: µ1 = µ2 = µ3
H1: al menos una de las igualdades no se cumple

Métodos Estadísticos en Economía MEE FADE-UPV


6.3  Ejecución práctica de los cálculos
Ejemplo 1 pág. 142 del libro MEE

1. Calcular T = suma de todas las observaciones


T = 47 + 50 +49 + … + 49 = 761

2. Calcular Ti = suma de las observaciones del nivel i del factor


T1 = 47 +50 + … + 46 =242
T2 = 270
T3 = 249
3. Calcular la media de las observaciones para cada nivel i
𝑦1 = 48,4; 𝑦2 = 54; 𝑦3 = 49,8
4. Calcular Sustraendo General (SG)
SG = T2 / n = 7612 / 15 = 38.608,07
5. Calcular la Suma de Cuadrados Total (SCT)
SCT = ∑ 𝑦𝑖𝑗2) – SG = (472 + 552 + …+ 492) – 38.608,07 = 134,93

6. Calcular Suma de Cuadrados entre grupos (SCE)


SCE = (T1* 𝑦1 + T2* 𝑦2 + T3 * 𝑦3 ) –SG = 84,93

Métodos Estadísticos en Economía MEE FADE-UPV


6.3  Ejecución práctica de los cálculos
Ejemplo 1 pág. 142 del libro MEE

6. Calcular Suma de Cuadrados Residual (SCR)


SCT = SCE + SCR  SCR = SCT – SCE = 134,93 – 84,93 = 50

7. Grados de libertad:
SCE  k-1 = 3-1 = 2 grados de libertad
SCR  n –k = 15 – 3 = 12 grados de libertad
SCT  n – 1 = 15 – 1 = 14 grados de libertad

8. Tabla Resumen
Origen Suma de Cuadr. Grados Libertad Cuadrados Medios Fratio (Fm)

Entre grupos  84,93 2 84,93/2 = 42,465 42,465/4,17 = 


(máquina) 10,18
Dentro grupos  50 12 50/12=4,17 ‐‐‐
(residual)
Total 134,93 14 134,93/14=9,64 ‐‐‐‐

Métodos Estadísticos en Economía MEE FADE-UPV


6.3  Ejecución práctica de los cálculos
Ejemplo 1 pág. 142 del libro MEE

Si H0 se cumple  Fm = CME/CMR ~ Fk-1;n-k

Si α = 5%  F2;12 = 3,89

Como Fm = 10,18 > 3,89  Rechazamos H0, si que existen diferencias


estadísticamente significativas entre el rendimiento medio de las tres
máquinas

Factor R2 = SCE / SCT = 84,93 / 134,93 = 0,6294

Es un indicador de lo bueno que es el modelo, un 62,94% de la variabilidad


de Y = número de piezas es debida al factor X = máquina. El 37,06%
restante es debido a otros factores que no están incluidos en el modelo

Métodos Estadísticos en Economía MEE FADE-UPV


6.4  Ejemplo mediante R
o R nos calcula la tabla ANOVA incluyendo el p-valor.
o La tabla ANOVA nos indica si el factor controlado influye o no en los valores
medios de la variable respuesta. No nos informa de entre qué niveles del factor
se presentan las diferencias estadísticamente significativas.
o Será conveniente estudiar entre qué niveles se presentan las diferencias.
o Para ello existen varios tests entre los que destacan aquellos que construyen
intervalos para cada diferencia de medias. Por ejemplo LSD, Bonferroni,
Tukey, etc.

Métodos Estadísticos en Economía MEE FADE-UPV


6.4  Ejemplo mediante R
o Comando en R:
o aov(lm(X~as.factor(f)))
- X es el vector con los valores de las observaciones
- f es el vector con el nivel al que pertenece cada
observación

summary(aov(lm(X~as.factor(f)))  Tabla del Anova

Métodos Estadísticos en Economía MEE FADE-UPV


6.4  Ejemplo mediante R

 X=c(47,50,49,50,46,55,54,58,51,52,48,50,51,51,49)
 f=c(1,1,1,1,1,2,2,2,2,2,3,3,3,3,3)
 summary(aov(lm(X~as.factor(f))))
Df Sum Sq Mean Sq F value Pr(>F)
as.factor(f) 2 84.93 42.47 10.19 0.00259 **
Residuals 12 50.00 4.17

Métodos Estadísticos en Economía MEE FADE-UPV


6.4  Ejemplo mediante R

 fm=aov(lm(X~as.factor(f)))
 intervalos=TukeyHSD(fm) 95% family-wise confidence level

 plot(intervalos)

2-1
3-1
3-2

-5 0 5

Differences in mean levels of as.factor(f)

Métodos Estadísticos en Economía MEE FADE-UPV


6.5  Ejemplo mediante Statgraphics

Métodos Estadísticos en Economía MEE FADE-UPV


6.6  Validación del modelo: análisis de residuos
o El modelo del ANOVA con un solo factor es:
Yij = µ + αi + εij i=1,…,k; j=1,…,n
Donde como hemos dicho, εij son las perturbaciones o errores del modelo. Esta variable recoge el
efecto de factores no controlados y la variabilidad natural de los datos.
Hipótesis asumidas por el modelo:
-Independencia: las perturbaciones o errores son aleatorias e independientes.
- Normalidad: las perturbaciones o errores se distribuyen como una Normal, con media cero y
desviación típica σ.
- Homocedasticidad: la varianza de las perturbaciones o errores es constante.
o Las perturbaciones se calculan a partir de los residuos, calculados como la diferencia entre cada
valor y la media muestral del nivel correspondiente. Por tanto, para validar el modelo deberemos
realizar un análisis de residuos. Los programas informáticos calculan de manera automática los
residuos.
o La técnica ANOVA es robusta ante el incumplimiento de las hipótesis de normalidad y
homocedasticidad pero no ante el incumplimiento de la independencia.

Métodos Estadísticos en Economía MEE FADE-UPV


6.6  Validación del modelo: análisis de residuos (independencia)

Métodos Estadísticos en Economía MEE FADE-UPV


6.6  Validación del modelo: análisis de residuos (normalidad)

Métodos Estadísticos en Economía MEE FADE-UPV


6.6  Validación del modelo: análisis de residuos (homocedasticidad)

Métodos Estadísticos en Economía MEE FADE-UPV


6.8  Prueba de Kruskal‐Wallis
- Modelo no paramétrico
- Equivalente a la prueba ANOVA de un factor
- Comparar más de dos poblaciones
- No requiere supuesto de normalidad
- No requiere supuesto de homocedasticidad (igualdad
de varianzas)
- Requiere supuesto de independencia
- Basado en rangos

Métodos Estadísticos en Economía MEE FADE-UPV


6.8  Ejercicios
Ejemplo 2 pág. 142 del libro MEE
Se pretende estudiar el efecto de la temperatura de conservación de los
zumos naturales, sobre la valoración que los consumidores hacen de los
mismos. Tras recoger la opinión dada por una muestra de 20 personas, se
obtuvieron los siguientes resultados:

T=0 T=5 T=10 T=15


9 8 7,5 6
7,8 8,5 6 7
8,5 8,4 7 6,5
8,1 7,9 6,5 5,7
8,7 8 6,8 5,9
y1  8,42 y2  8,16 y3  6,76 y4  6,22

Realizar un análisis de la varianza para comprobar si existen diferencias


estadísticamente significativas entre las valoraciones medias según los valores de la
temperatura. Resolver el ejercicio mediante la técnica de Kruskal-Wallis

Métodos Estadísticos en Economía MEE FADE-UPV


6.8  Ejercicios
Ejercicio 2 pág. 156 del libro MEE
Se desea estudiar si la estrategia publicitaria seguida para presentar un
nuevo producto al mercado, influye en el número medio de unidades
vendidas semanalmente. Se decidió utilizar 5 estrategias distintas en
diferentes zonas geográficas, observando el número de unidades vendidas
durante 4 semanas consecutivas.
Estrat.1 Estrat.2 Estrat.3 Estrat.4 Estrat.5
198 182 197 173 198
201 174 203 164 199
203 172 195 180 168
219 176 205 148 184

¿Son las diferencias estadísticamente significativas si trabajamos con un


nivel de significación del 1%? En caso afirmativo, ordenar las estrategias
seguidas respecto al éxito de las mismas. Resolver el ejercicio mediante la
técnica ANOVA y mediante la técnica de Kruskal-Wallis.

Métodos Estadísticos en Economía MEE FADE-UPV


6.8  Ejercicios
Ejercicio4 pág. 176 del libro MEE
Tres máquinas idénticas se ajustan para llenar una cantidad específica de
un producto en recipientes de igual tamaño. Con el propósito de verificar la
igualdad de las cantidades promedio llenadas por cada máquina, se
tomaron muestras aleatorias, obteniéndose los resultados siguientes:
Maq=A Maq=B Maq=C
16 18 19
15 19 20
15 19 18
14 20 20
19 19 19

¿Existen diferencias estadísticamente significativas en las cantidades


promedio llenadas por las tres máquinas con un nivel de significación de
0,1? Resolver el ejercicio mediante la técnica ANOVA y mediante la técnica
de Kruskal-Wallis

Métodos Estadísticos en Economía MEE FADE-UPV


6.8  Ejercicios
Una determinada cooperativa agrícola dedicada a la producción y
comercialización de fresas se plantea hacer un estudio para explicar el
volumen de sus ventas, expresadas en miles de euros. Para ello, a partir de
los datos semestrales obtenidos desde la creación de la cooperativa, se
plantea un modelo lineal usando como variables explicativas el gasto en
publicidad, expresado en miles de euros, y el número de supermercados
que comercializan sus productos. Tras realizar el análisis de regresión
múltiple obtenemos los siguientes resultados:
Análisis de Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 2964,71 2 1482,35 33,38 0,0003
Residuo 310,894 7 44,4134
-----------------------------------------------------------------------------
Total (Corr.) 3275,6 9

R-cuadrado = 90,5088 porcentaje


Error estándar de est. = 6,66433

Métodos Estadísticos en Economía MEE FADE-UPV


6.8  Ejercicios
Análisis de Regresión Múltiple
-----------------------------------------------------------------------------
Variable dependiente: Ventas
-----------------------------------------------------------------------------
Error Estadístico
Parámetro Estimación estándar T P-Valor
-----------------------------------------------------------------------------
CONSTANTE -1,95844 5,90356 -0,331739 0,7498
GastosPub 5,42293 1,9701 2,75261 0,0284
NSuper 0,910992 0,316776 2,87583 0,0238

- Especificar los contrastes de hipótesis que hay detrás de cada uno de los análisis.

- Especificar la ecuación del modelo de regresión, ¿son significativas todas las


variables para un nivel de significación del 5%?

- ¿Qué proporción de la variabilidad de las ventas es explicada por el modelo


propuesto?

Métodos Estadísticos en Economía MEE FADE-UPV

También podría gustarte