Está en la página 1de 20

El análisis El análisis

de la varianza de la varianza
(ANOVA) (ANOVA)
Josep Gibergans Bàguena Josep Gibergans Bàguena

P03/75057/01015 P03/75057/01015
 FUOC • P03/75057/01015 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 El análisis de la varianza (ANOVA)

Índice Índice

Sesión 1 Sesión 1
El análisis de la varianza (ANOVA) ...................................................... 5 El análisis de la varianza (ANOVA) ...................................................... 5
1. Introducción ............................................................................................ 5 1. Introducción ............................................................................................ 5
2. La información muestral ......................................................................... 6 2. La información muestral ......................................................................... 6
3. La variabilidad de la muestra global: las sumas de cuadrados ................ 9 3. La variabilidad de la muestra global: las sumas de cuadrados ................ 9
4. Hipótesis sobre los datos para llevar a cabo el ANOVA ........................... 10 4. Hipótesis sobre los datos para llevar a cabo el ANOVA ........................... 10
5. El ANOVA es un contraste de hipótesis ................................................... 11 5. El ANOVA es un contraste de hipótesis ................................................... 11
6. Construcción de la tabla del ANOVA ...................................................... 12 6. Construcción de la tabla del ANOVA ...................................................... 12
7. Resumen ................................................................................................... 14 7. Resumen ................................................................................................... 14
Ejercicios ....................................................................................................... 15 Ejercicios ....................................................................................................... 15
 FUOC • P03/75057/01015 5 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 5 El análisis de la varianza (ANOVA)

El análisis de la varianza (ANOVA) El análisis de la varianza (ANOVA)

1. Introducción 1. Introducción

Supongamos que nos planteamos el problema de comparar la vida media de dos Supongamos que nos planteamos el problema de comparar la vida media de dos
clases de bombillas A y B; cogemos una muestra de bombillas de la clase A y me- clases de bombillas A y B; cogemos una muestra de bombillas de la clase A y me-
dimos los tiempos de vida. Hacemos lo mismo con una muestra de bombillas dimos los tiempos de vida. Hacemos lo mismo con una muestra de bombillas
de la clase B. de la clase B.

Normalmente, las medias de los tiempos de vida x A y x B no serán iguales. La Normalmente, las medias de los tiempos de vida x A y x B no serán iguales. La
diferencia puede ser debida al azar o al hecho de que las bombillas de una clase diferencia puede ser debida al azar o al hecho de que las bombillas de una clase
son de calidad superior a las de la otra. Precisamente es eso lo que queremos sa- son de calidad superior a las de la otra. Precisamente es eso lo que queremos sa-
ber, si hay una diferencia de calidad o si no la hay. ber, si hay una diferencia de calidad o si no la hay.

La técnica del contraste de hipótesis sirve para comprobar si una determinada La técnica del contraste de hipótesis sirve para comprobar si una determinada
hipótesis sobre un hecho vinculado a un experimento aleatorio se puede acep- hipótesis sobre un hecho vinculado a un experimento aleatorio se puede acep-
tar o se tiene que rechazar. tar o se tiene que rechazar.

Establecemos las hipótesis: Establecemos las hipótesis:

• Hipótesis nula: las bombillas de la marca A tienen una vida media igual a • Hipótesis nula: las bombillas de la marca A tienen una vida media igual a
la vida media de las bombillas de la marca B: la vida media de las bombillas de la marca B:

H0 : µA = µB (H0 : µA − µB = 0) H0 : µA = µB (H0 : µA − µB = 0)

• Hipótesis alternativa: las bombillas de la marca A y las de la marca B no tie- • Hipótesis alternativa: las bombillas de la marca A y las de la marca B no tie-
nen la misma vida media: nen la misma vida media:

H1 : µ A ≠ µ B (H1 : µA − µB ≠ 0) H1 : µ A ≠ µ B (H1 : µA − µB ≠ 0)

Ahora podemos hacer un contraste de la diferencia de medias para decidir si Ahora podemos hacer un contraste de la diferencia de medias para decidir si
los dos tipos de bombillas provienen de poblaciones de bombillas con vidas los dos tipos de bombillas provienen de poblaciones de bombillas con vidas
medias iguales. medias iguales.

Sin embargo, imaginemos que en lugar de comparar dos clases de bombillas, Sin embargo, imaginemos que en lugar de comparar dos clases de bombillas,
queremos comparar cuatro. Si queremos utilizar el contraste de diferencias de queremos comparar cuatro. Si queremos utilizar el contraste de diferencias de
medias, es preciso contrastar dos a dos estas clases y, por tanto, tenemos: medias, es preciso contrastar dos a dos estas clases y, por tanto, tenemos:

 4   4 
  = 6   = 6
 2   2 

contrastes, es decir, seis comparaciones de dos medias. Después hay que analizar contrastes, es decir, seis comparaciones de dos medias. Después hay que analizar
y comparar todos los resultados. Evidentemente, no es una tarea fácil. y comparar todos los resultados. Evidentemente, no es una tarea fácil.
 FUOC • P03/75057/01015 6 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 6 El análisis de la varianza (ANOVA)

Todo esto nos indica que esta manera de proceder no es la más adecuada para Todo esto nos indica que esta manera de proceder no es la más adecuada para
tratar este tipo de problemas. Utilizaremos una nueva técnica que se conoce tratar este tipo de problemas. Utilizaremos una nueva técnica que se conoce
como el análisis de la varianza, que sirve para estudiar la generalización de este como el análisis de la varianza, que sirve para estudiar la generalización de este
problema en caso de que tengamos más de dos muestras. problema en caso de que tengamos más de dos muestras.

Teoría del análisis Teoría del análisis


El análisis de la varianza (ANOVA) de un conjunto de muestras con- de la varianza El análisis de la varianza (ANOVA) de un conjunto de muestras con- de la varianza

siste en contrastar la hipótesis nula “todas las medias poblacionales La abreviatura ANOVA provie- siste en contrastar la hipótesis nula “todas las medias poblacionales La abreviatura ANOVA provie-
ne del inglés ANalysis Of VA- ne del inglés ANalysis Of VA-
de las que provienen las muestras son iguales”, contra la hipótesis riance (‘análisis de la varianza’).
de las que provienen las muestras son iguales”, contra la hipótesis riance (‘análisis de la varianza’).
alternativa “no todas las medias son iguales” con un nivel de signi- La teoría y metodología del alternativa “no todas las medias son iguales” con un nivel de signi- La teoría y metodología del
análisis de la varianza fueron análisis de la varianza fueron
ficación α prefijado. desarrolladas e introducidas ficación α prefijado. desarrolladas e introducidas
por R.A. Fisher durante los pri- por R.A. Fisher durante los pri-
meros años de la segunda dé- meros años de la segunda dé-
cada del siglo xx. cada del siglo xx.
El número de análisis de la El número de análisis de la
Ejemplos de experimentos con el ANOVA varianza que utiliza ANOVA Ejemplos de experimentos con el ANOVA varianza que utiliza ANOVA
proviene del hecho de que, proviene del hecho de que,
a pesar de que comparamos a pesar de que comparamos
A continuación presentamos algunos ejemplos de experimentos en los que se utiliza el medias, el estadístico de con- A continuación presentamos algunos ejemplos de experimentos en los que se utiliza el medias, el estadístico de con-
ANOVA: traste que utiliza ANOVA se ANOVA: traste que utiliza ANOVA se
basa en el cociente de dos basa en el cociente de dos
a) Comparaciones de vidas medias de todo tipo de dispositivos para diferentes marcas. estimadores de la varianza. a) Comparaciones de vidas medias de todo tipo de dispositivos para diferentes marcas. estimadores de la varianza.

b) Comparaciones entre el número de conexiones a un servidor en diferentes franjas ho- b) Comparaciones entre el número de conexiones a un servidor en diferentes franjas ho-
rarias. rarias.

c) Comparación de las cualificaciones entre estudiantes que han cursado una asignatura c) Comparación de las cualificaciones entre estudiantes que han cursado una asignatura
con profesores diferentes. con profesores diferentes.

d) Comparación del número medio de accidentes para diferentes intervalos de edad de d) Comparación del número medio de accidentes para diferentes intervalos de edad de
los conductores. los conductores.

e) Comparación entre las ventas medias mensuales de diferentes grandes almacenes. e) Comparación entre las ventas medias mensuales de diferentes grandes almacenes.

Se dan muchas situaciones experimentales en las que hay dos o más factores Se dan muchas situaciones experimentales en las que hay dos o más factores
de interés al mismo tiempo. Por ejemplo, se podrían analizar tres tipos de ga- de interés al mismo tiempo. Por ejemplo, se podrían analizar tres tipos de ga-
solina fijándonos en dos factores: el consumo y el nivel de contaminación. Para solina fijándonos en dos factores: el consumo y el nivel de contaminación. Para
tratar este problema se utiliza el análisis de la varianza con factores múltiples, tratar este problema se utiliza el análisis de la varianza con factores múltiples,
pero aquí no lo estudiaremos. pero aquí no lo estudiaremos.

En esta sesión nos ocuparemos de la situación en la que queremos comparar un En esta sesión nos ocuparemos de la situación en la que queremos comparar un
número k de muestras (o grupos) a partir de una única característica del indivi- número k de muestras (o grupos) a partir de una única característica del indivi-
duo observado (variable o factor). duo observado (variable o factor).

2. La información muestral 2. La información muestral

La tabla siguiente registra la notación que utilizaremos a lo largo de la sesión: La tabla siguiente registra la notación que utilizaremos a lo largo de la sesión:

Población 1 Población 2 ... Población j ... Población k Población 1 Población 2 ... Población j ... Población k

Media µ1 µ2 ... µj ... µk Media µ1 µ2 ... µj ... µk


2 2 2 2 2 2 2 2
Varianza σ 1 σ 2 ... σ j ... σ k Varianza σ 1 σ 2 ... σ j ... σk
 FUOC • P03/75057/01015 7 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 7 El análisis de la varianza (ANOVA)

Muestra 1 Muestra 2 ... Muestra J ... Muestra k Muestra 1 Muestra 2 ... Muestra J ... Muestra k

x11 x12 x1j x1k x11 x12 x1j x1k

x21 x22 x2j x2k x21 x22 x2j x2k

... ... ... ... ... ... ... ...

... ... xij ... ... ... xij ...

... ... xn k ... ... xn k


k k

xn 1 ... Subíndices xn 1 ... Subíndices


1 1

xn 2 xn j Cada observación xij lleva dos xn 2 xn j Cada observación xij lleva dos
2 j 2 j
subíndices que nos informan subíndices que nos informan
Media x1 x2 xj xk de que se trata de la observa- Media x1 x2 xj xk de que se trata de la observa-
2 2 2 2 ción i-ésima de la muestra 2 2 2 2 ción i-ésima de la muestra
Varianza s 1 s 2 s j s k j-ésima. Varianza s 1 s 2 s j sk j-ésima.

No existe ningún motivo para que las muestras tengan el mismo tamaño, de No existe ningún motivo para que las muestras tengan el mismo tamaño, de
manera que con nj indicaremos el tamaño de la muestra j-ésima. Calcularemos manera que con nj indicaremos el tamaño de la muestra j-ésima. Calcularemos
la media de la muestra j-ésima mediante la expresión siguiente: la media de la muestra j-ésima mediante la expresión siguiente:

nj nj

∑ xij
i=1 x 1j + x 2j + … + x nj j ∑ xij
i=1 x 1j + x 2j + … + x nj j
x j = -------------- = ---------------------------------------------- x j = -------------- = ----------------------------------------------
nj nj nj nj

La varianza muestral de esta muestra j-ésima vendrá dada por: La varianza muestral de esta muestra j-ésima vendrá dada por:

nj nj
2 2
∑ ( xij – xj )
i=1
∑ ( xij – xj )
i=1
2 2
s j = -------------------------------- s j = --------------------------------
nj – 1 nj – 1

Si ahora consideramos el conjunto de todas las observaciones formado por los Si ahora consideramos el conjunto de todas las observaciones formado por los
individuos de todas las muestras, éste estará formado por un número de indi- individuos de todas las muestras, éste estará formado por un número de indi-
viduos igual a la suma de los individuos de todas las muestras, es decir: viduos igual a la suma de los individuos de todas las muestras, es decir:

n = n1 + n2 + ... + nk n = n1 + n2 + ... + nk

Y de este conjunto global también podemos calcular la media global: Y de este conjunto global también podemos calcular la media global:
Media global y media Media global y media
de las medias de las medias

k nj n Es importante no confundir la k nj n Es importante no confundir la


∑ ∑ xij j∑
j=1 i=1 =1
nj xj media global con la media de
las medias. Sólo son lo mismo
∑ ∑ xij j∑
j=1 i=1 =1
nj xj media global con la media de
las medias. Sólo son lo mismo
x = -----------------------
- = ------------------
- en caso de que las muestras x = -----------------------
- = ------------------
- en caso de que las muestras
n n n n
tengan el mismo tamaño. tengan el mismo tamaño.

así como la varianza global: así como la varianza global:

k nj k nj
2 2
∑ ∑ ( xij – x )
j=1 i=1
∑ ∑ ( xij – x )
j=1 i=1
2 2
s = ---------------------------------------- s = ----------------------------------------
n–1 n–1
 FUOC • P03/75057/01015 8 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 8 El análisis de la varianza (ANOVA)

Ejemplo de las tres marcas de ordenadores Ejemplo de las tres marcas de ordenadores

Consideremos que se lleva a cabo un experimento para comparar el tiempo que tardan Consideremos que se lleva a cabo un experimento para comparar el tiempo que tardan
tres marcas de ordenadores de diferente marca en cargar un mismo sistema operativo. tres marcas de ordenadores de diferente marca en cargar un mismo sistema operativo.

Se toma una muestra de cuatro ordenadores de la marca A, es decir, se mide el tiempo (en Se toma una muestra de cuatro ordenadores de la marca A, es decir, se mide el tiempo (en
segundos) que tardan en cargar el sistema operativo cuatro ordenadores de esta marca. segundos) que tardan en cargar el sistema operativo cuatro ordenadores de esta marca.
De la marca B se toman seis medidas y cinco de la marca C. La tabla siguiente registra los De la marca B se toman seis medidas y cinco de la marca C. La tabla siguiente registra los
resultados del experimento: resultados del experimento:

Marca A 10,7 11,2 12,0 15,5 Marca A 10,7 11,2 12,0 15,5

Marca B 13,4 11,5 11,2 15,1 13,3 12,9 Marca B 13,4 11,5 11,2 15,1 13,3 12,9

Marca C 11,5 12,7 15,4 16,1 15,2 Marca C 11,5 12,7 15,4 16,1 15,2

Utilizando la notación que hemos presentado anteriormente, tenemos: Utilizando la notación que hemos presentado anteriormente, tenemos:

Muestra j = 1 Muestra j = 2 Muestra j = 3 Muestra j = 1 Muestra j = 2 Muestra j = 3

x 11 = 10,7 x12 = 13,4 x13 = 11,5 x 11 = 10,7 x12 = 13,4 x13 = 11,5

x 21 = 11,2 x22 = 11,5 x23 = 12,7 x 21 = 11,2 x22 = 11,5 x23 = 12,7

x31 = 12,0 x32 = 11,2 x33 = 15,4 x31 = 12,0 x32 = 11,2 x33 = 15,4

x41 = 15,5 x42 = 15,1 x43 = 16,1 x41 = 15,5 x42 = 15,1 x43 = 16,1

x52 = 13,3 x53 = 15,2 x52 = 13,3 x53 = 15,2

x62 = 12,9 x62 = 12,9

Media x 1 = 12,35 x 2 = 12,90 x 3 = 14,18 Media x 1 = 12,35 x 2 = 12,90 x 3 = 14,18


2 2 2 2 2 2
Varianza s 1 = 4,70 s 2 = 2,02 s 3 = 3,90 Varianza s 1 = 4,70 s 2 = 2,02 s 3 = 3,90

Observando estos resultados, podemos pensar que las muestras de los ordenadores A y B Observando estos resultados, podemos pensar que las muestras de los ordenadores A y B
pueden provenir de poblaciones con la misma media, dado que las medias muestrales pueden provenir de poblaciones con la misma media, dado que las medias muestrales
12,35 y 12,90, respectivamente, son bastante cercanas. La media muestral de la marca C 12,35 y 12,90, respectivamente, son bastante cercanas. La media muestral de la marca C
es 14,18; ésta está más alejada de las otras, pero presenta una mayor dispersión que las es 14,18; ésta está más alejada de las otras, pero presenta una mayor dispersión que las
anteriores; no es tan fácil, pues, pensar si esta muestra proviene de una población con la anteriores; no es tan fácil, pues, pensar si esta muestra proviene de una población con la
misma media que los ordenadores de las marcas A y B. misma media que los ordenadores de las marcas A y B.

Es posible representar esta situación mediante los diagramas de caja de las tres muestras: Es posible representar esta situación mediante los diagramas de caja de las tres muestras:

Observación Observación

La tarea de comparar más La tarea de comparar más


de dos muestras no es fácil. de dos muestras no es fácil.
 FUOC • P03/75057/01015 9 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 9 El análisis de la varianza (ANOVA)

3. La variabilidad de la muestra global: las sumas de cuadrados 3. La variabilidad de la muestra global: las sumas de cuadrados

Hemos visto que podemos considerar el conjunto global formado por todos los Hemos visto que podemos considerar el conjunto global formado por todos los
elementos de las muestras y, después, calcular la media de este conjunto global. elementos de las muestras y, después, calcular la media de este conjunto global.
A continuación intentaremos explicar a qué se deben las diferencias entre los A continuación intentaremos explicar a qué se deben las diferencias entre los
valores de las observaciones xij y el valor de la media global x . Entenderemos valores de las observaciones xij y el valor de la media global x . Entenderemos
por variabilidad la diferencia entre los valores observados y la media. Vere- por variabilidad la diferencia entre los valores observados y la media. Vere-
mos que esta variabilidad se debe a dos factores: mos que esta variabilidad se debe a dos factores:

(xij − x ) = (xij − x j ) + ( x j − x ) (xij − x ) = (xij − x j ) + ( x j − x )

1) Variabilidad dentro de cada muestra: diferencia entre la observación y la 1) Variabilidad dentro de cada muestra: diferencia entre la observación y la
media de la muestra (xij − x j ). media de la muestra (xij − x j ).

2) Variabilidad entre las muestras: diferencia entre la media de la muestra y la 2) Variabilidad entre las muestras: diferencia entre la media de la muestra y la
media global ( x j − x ). media global ( x j − x ).

Si existe mucha variabilidad entre las muestras, podremos pensar que este he- Si existe mucha variabilidad entre las muestras, podremos pensar que este he-
Observación Observación
cho se debe a que se trata de muestras extraídas de poblaciones diferentes o sim- cho se debe a que se trata de muestras extraídas de poblaciones diferentes o sim-
plemente al origen aleatorio de las muestras. A continuación veremos cómo Las medias muestrales pueden plemente al origen aleatorio de las muestras. A continuación veremos cómo Las medias muestrales pueden
ser diferentes por el hecho de ser diferentes por el hecho de
podemos separar estos dos efectos provocados por la variabilidad dentro de cada que provienen de poblaciones podemos separar estos dos efectos provocados por la variabilidad dentro de cada que provienen de poblaciones
con medias diferentes o sim- con medias diferentes o sim-
muestra y por la variabilidad entre las muestras. plemente por el origen aleato- muestra y por la variabilidad entre las muestras. plemente por el origen aleato-
rio de las muestras. rio de las muestras.

Si sumamos al cuadrado la última expresión, todas las observaciones mediante Si sumamos al cuadrado la última expresión, todas las observaciones mediante
un doble sumatorio, uno para las muestras y otro para las observaciones de un doble sumatorio, uno para las muestras y otro para las observaciones de
cada muestra, tenemos: cada muestra, tenemos:

k nj k nj k nj k nj k nj k nj k nj k nj
2 2 2 2 2 2
∑ ∑ ( x ij – x ) = ∑ ∑ ( x ij – x j ) + ∑ ∑ ( xj – x ) + 2 ∑ ∑ ( x ij – x j ) ( x j – x ) ∑ ∑ ( xij – x ) = ∑ ∑ ( xij – xj ) + ∑ ∑ ( xj – x ) +2∑ ∑ ( xij – xj ) ( xj – x )
j = 1i = 1 j = 1i = 1 j = 1i = 1 j = 1i = 1 j = 1i = 1 j = 1i = 1 j = 1i = 1 j = 1i = 1

donde podemos ver que el último sumando es cero: donde podemos ver que el último sumando es cero:

k nj k nj k nj k nj

∑ ∑ ( xij – xj ) ( xj – x ) = ∑ ( xj – x ) ∑ ( x ij – xj ) = 0 ∑ ∑ ( xij – xj ) ( xj – x ) = ∑ ( xj – x ) ∑ ( x ij – xj ) = 0
j = 1i = 1 j=1 i=1 j = 1i = 1 j=1 i=1

ya que: ya que:

nj nj

∑ ( xij – xj ) = nj xj – nj xj = 0 ∑ ( xij – xj ) = nj xj – nj xj = 0
i=1 i=1

Con todo, la variabilidad de la muestra global se puede descomponer en dos Con todo, la variabilidad de la muestra global se puede descomponer en dos
partes: partes:

k nj k nj k nj k nj k nj k nj
2 2 2 2 2 2
∑ ∑ ( x ij – x ) = ∑ ∑ ( x ij – x j ) + ∑ ∑ ( xj – x ) ∑ ∑ ( x ij – x ) = ∑ ∑ ( x ij – x j ) + ∑ ∑ ( xj – x )
j = 1i = 1 j = 1i = 1 j = 1i = 1 j = 1i = 1 j = 1i = 1 j = 1i = 1
 FUOC • P03/75057/01015 10 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 10 El análisis de la varianza (ANOVA)

SCT = SCD + SCE SCT = SCD + SCE

Suma de cuadrados totales (SCT) = Suma de cuadrados totales (SCT) =


= suma de cuadrados dentro de las muestras (SCD) + = suma de cuadrados dentro de las muestras (SCD) +
+ suma de cuadrados entre muestras (SCE) + suma de cuadrados entre muestras (SCE)

Consideramos cada uno de estos sumandos: Consideramos cada uno de estos sumandos:
Obtención de la varianza Obtención de la varianza
de la muestra global de la muestra global

• La Suma de Cuadrados Totales (SCT) nos informa de la variabilidad de la Es inmediato ver que si dividi- • La Suma de Cuadrados Totales (SCT) nos informa de la variabilidad de la Es inmediato ver que si dividi-
mos SCT/(n − 1), tenemos la mos SCT/(n − 1), tenemos la
muestra global. varianza de la muestra global. muestra global. varianza de la muestra global.

• La Suma de Cuadrados Dentro de las muestras (SCD) es una medida de la • La Suma de Cuadrados Dentro de las muestras (SCD) es una medida de la
variación dentro de las muestras. variación dentro de las muestras.

• La Suma de Cuadrados Entre muestras (SCE) es una medida de la variación • La Suma de Cuadrados Entre muestras (SCE) es una medida de la variación
entre las muestras; la calculamos a partir de la diferencia entre las medias entre las muestras; la calculamos a partir de la diferencia entre las medias
de las muestras y la media total. Si las medias son muy diferentes, entonces de las muestras y la media total. Si las medias son muy diferentes, entonces
esta cantidad es grande. esta cantidad es grande.

Si dividimos SCD y SCE por n − k y k − 1, respectivamente, obtenemos los es- Si dividimos SCD y SCE por n − k y k − 1, respectivamente, obtenemos los es-
tadísticos siguientes: tadísticos siguientes:

SCD SCE SCD SCE


MCD = ------------ ; MCE = ------------ MCD = ------------ ; MCE = ------------
n–k k–1 n–k k–1

que, como veremos a continuación, son necesarios para llevar a cabo el ANOVA. que, como veremos a continuación, son necesarios para llevar a cabo el ANOVA.

4. Hipótesis sobre los datos para llevar a cabo el ANOVA 4. Hipótesis sobre los datos para llevar a cabo el ANOVA

Para poder llevar a cabo un análisis de este tipo, hay que tener las hipótesis si- Para poder llevar a cabo un análisis de este tipo, hay que tener las hipótesis si-
guientes: guientes:

1) Las k muestras deben ser aleatorias e independientes entre sí. 1) Las k muestras deben ser aleatorias e independientes entre sí.

2) Las poblaciones deben ser normales. 2) Las poblaciones deben ser normales.

3) Las varianzas de las k poblaciones deben ser idénticas: 3) Las varianzas de las k poblaciones deben ser idénticas:

2 2 2 2 2 2 2 2
σ1 = σ2 = … = σk = σ σ1 = σ2 = … = σk = σ

Bajo estas hipótesis y cuando se cumple µ1 = µ2 = ... = µk = µ, es decir, si las Bajo estas hipótesis y cuando se cumple µ1 = µ2 = ... = µk = µ, es decir, si las
medias poblacionales son todas iguales, las sumas de cuadrados SCE y SCD se medias poblacionales son todas iguales, las sumas de cuadrados SCE y SCD se
distribuyen según distribuciones χ2 con (k − 1) y (n − k) grados de libertad, res- distribuyen según distribuciones χ2 con (k − 1) y (n − k) grados de libertad, res-
pectivamente. pectivamente.
 FUOC • P03/75057/01015 11 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 11 El análisis de la varianza (ANOVA)

Para muestras de una población normal N(µ, σ) siempre se cumple que: Para muestras de una población normal N(µ, σ) siempre se cumple que:

n n
1 2 1 2
-----2- ∑ ( x i – x ) -----2- ∑ ( x i – x )
σ i=1 σ i=1

tiene una distribución χ2 con n − 1 grados de libertad. tiene una distribución χ2 con n − 1 grados de libertad.

Y dado que son independientes, una importante consecuencia es que el cocien- Y dado que son independientes, una importante consecuencia es que el cocien-
Cociente de variables Cociente de variables
te entre estos estadísticos: aleatorias te entre estos estadísticos: aleatorias

Si X es una variable aleatoria Si X es una variable aleatoria


MCE SCE ⁄ ( k – 1 ) que tiene una distribución χ2 MCE SCE ⁄ ( k – 1 ) que tiene una distribución χ2
f = -------------- = --------------------------------- f = -------------- = ---------------------------------
MCD SCD ⁄ (n – k ) con n grados de libertad, Y es MCD SCD ⁄ (n – k ) con n grados de libertad, Y es
otra variable aleatoria que tie- otra variable aleatoria que tie-
ne una distribución χ2 con m ne una distribución χ2 con m
se distribuye según una distribución F de Snedecor con (k – 1) grados de liber- grados de libertad y X e Y son se distribuye según una distribución F de Snedecor con (k – 1) grados de liber- grados de libertad y X e Y son
tad en el numerador y (n – k) en el denominador. independientes, entonces la tad en el numerador y (n – k) en el denominador. independientes, entonces la
variable: variable:
X⁄n X⁄n
Z = ------------ Z = ------------
A continuación veremos cómo podemos utilizar esta descomposición de la va- Y⁄m A continuación veremos cómo podemos utilizar esta descomposición de la va- Y⁄m
se distribuye según una F de se distribuye según una F de
riabilidad de los datos muestrales para construir un contraste de hipótesis que Snedecor con n y m grados riabilidad de los datos muestrales para construir un contraste de hipótesis que Snedecor con n y m grados
nos permita tomar una decisión sobre la igualdad de las medias de las poblacio- de libertad en el numerador nos permita tomar una decisión sobre la igualdad de las medias de las poblacio- de libertad en el numerador
y denominador, respectiva- y denominador, respectiva-
nes de procedencia de las muestras del estudio. mente. nes de procedencia de las muestras del estudio. mente.

5. El ANOVA es un contraste de hipótesis 5. El ANOVA es un contraste de hipótesis

El estadístico de contraste que utilizaremos en el análisis de la varianza se basa El estadístico de contraste que utilizaremos en el análisis de la varianza se basa
en el hecho de comparar los dos orígenes de la variabilidad de las muestras que en el hecho de comparar los dos orígenes de la variabilidad de las muestras que
hemos encontrado en el apartado anterior: la variación entre las muestras y la hemos encontrado en el apartado anterior: la variación entre las muestras y la
variación dentro de las muestras. Supondremos que se cumplen las hipótesis del variación dentro de las muestras. Supondremos que se cumplen las hipótesis del
modelo. Una vez hechos estos supuestos, procederemos de la manera siguiente: modelo. Una vez hechos estos supuestos, procederemos de la manera siguiente:

1) Plantearemos nuestras hipótesis: 1) Plantearemos nuestras hipótesis:

• Hipótesis nula: H0: todas las medias son iguales: • Hipótesis nula: H0: todas las medias son iguales:

µ1 = µ2 = ... = µk = µ µ1 = µ2 = ... = µk = µ

• Hipótesis alternativa: H1: no todas las medias son iguales. • Hipótesis alternativa: H1: no todas las medias son iguales.

2) Fijaremos un nivel significativo α. 2) Fijaremos un nivel significativo α.

3) Calcularemos el estadístico de contraste a partir de las sumas de cuadrados: 3) Calcularemos el estadístico de contraste a partir de las sumas de cuadrados:

SCE ⁄ ( k – 1 ) SCE ⁄ ( k – 1 )
f = --------------------------------- f = ---------------------------------
SCD ⁄ (n – k ) SCD ⁄ (n – k )

que, como hemos visto en el apartado anterior, si se cumple la hipótesis nula que, como hemos visto en el apartado anterior, si se cumple la hipótesis nula
(igualdad de medias) es una observación de una distribución F de Snedecor con (igualdad de medias) es una observación de una distribución F de Snedecor con
n − k grados de libertad en el numerador y k − 1 grados de libertad en el deno- n − k grados de libertad en el numerador y k − 1 grados de libertad en el deno-
minador. minador.
 FUOC • P03/75057/01015 12 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 12 El análisis de la varianza (ANOVA)

4) Finalmente, podemos actuar de dos maneras: 4) Finalmente, podemos actuar de dos maneras:
El p-valor El p-valor

a) A partir del p-valor. Este valor es: p = P(F > f): El p-valor es la probabilidad del a) A partir del p-valor. Este valor es: p = P(F > f): El p-valor es la probabilidad del
resultado observado o de otro resultado observado o de otro
más alejado si la hipótesis nula más alejado si la hipótesis nula
es cierta. es cierta.
• Si p ≤ α, se rechaza la hipótesis nula H0. • Si p ≤ α, se rechaza la hipótesis nula H0.

• Si p > α, no se rechaza la hipótesis nula H0. • Si p > α, no se rechaza la hipótesis nula H0.

b) A partir del valor crítico Fα, n−k,k−1, que separa la región de aceptación de la b) A partir del valor crítico Fα, n−k,k−1, que separa la región de aceptación de la
No rechazar o rechazar No rechazar o rechazar
región de rechazo: la H0 región de rechazo: la H0

No rechazar la H0 no significa No rechazar la H0 no significa


• Si f > Fα,n−k,k−1, se rechaza la hipótesis nula H0. exactamente que aceptemos • Si f > Fα,n−k,k−1, se rechaza la hipótesis nula H0. exactamente que aceptemos
la hipótesis, sino simplemente la hipótesis, sino simplemente
que nada se opone a pensar que nada se opone a pensar
que la H0 pueda ser cierta. que la H0 pueda ser cierta.
• Si f ≤ Fα,n−k,k−1, no se rechaza la hipótesis nula H0. • Si f ≤ Fα,n−k,k−1, no se rechaza la hipótesis nula H0.
Rechazar la H0 no significa Rechazar la H0 no significa
necesariamente que todas las necesariamente que todas las
medias sean diferentes, sino medias sean diferentes, sino
que significa que alguna (quizá que significa que alguna (quizá
todas) es diferente de otra. todas) es diferente de otra.

Si queremos determinar cuáles son los grupos que presentan unas diferencias Si queremos determinar cuáles son los grupos que presentan unas diferencias
lo bastante significativas, haremos pruebas t de Student para aparatos de me- lo bastante significativas, haremos pruebas t de Student para aparatos de me-
dias, tal como se planteaba al inicio de la sesión. dias, tal como se planteaba al inicio de la sesión.

6. Construcción de la tabla del ANOVA 6. Construcción de la tabla del ANOVA

En este apartado estamos interesados en plantear una forma conveniente y En este apartado estamos interesados en plantear una forma conveniente y
habitual de presentar los cálculos y resultados del análisis de la varianza. habitual de presentar los cálculos y resultados del análisis de la varianza.
Esta manera de sintetizar estos cálculos es en forma de tabla, llamada tabla Esta manera de sintetizar estos cálculos es en forma de tabla, llamada tabla
del ANOVA. Podemos llevar a cabo todos los cálculos de la tabla a partir de del ANOVA. Podemos llevar a cabo todos los cálculos de la tabla a partir de
2 2
las medias x j y varianzas sj de las diferentes muestras o de la media x de la las medias x j y varianzas s j de las diferentes muestras o de la media x de la
muestra global. muestra global.

Podemos escribir las sumas de cuadrados que necesitamos para calcular el es- Podemos escribir las sumas de cuadrados que necesitamos para calcular el es-
tadístico de contraste de la manera siguiente: tadístico de contraste de la manera siguiente:
 FUOC • P03/75057/01015 13 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 13 El análisis de la varianza (ANOVA)

k nj k k nj k
2 2 2 2
SCE = ∑ ∑ ( xj – x ) = ∑ nj ( xj – x ) SCE = ∑ ∑ ( xj – x ) = ∑ nj ( xj – x )
j = 1i = 1 j=1 j = 1i = 1 j=1

k nj k k nj k
2 2 2 2
SCD = ∑ ∑ ( xij – xj ) = ∑ ( nj – 1 )sj SCD = ∑ ∑ ( xij – xj ) = ∑ ( nj – 1 )sj
j = 1i = 1 j=1 j = 1i = 1 j=1

SCT = SCD + SCE SCT = SCD + SCE

Regla Regla
Tabla del análisis de la varianza Tabla del análisis de la varianza
de decisión de decisión

Media Media
Fuente de Suma Grados Estadístico Fuente de Suma Grados Estadístico
de de
variación de cuadrados de libertad de prueba variación de cuadrados de libertad de prueba
cuadrados cuadrados

SCE ⁄ ( k – 1 ) SCE ⁄ ( k – 1 )
∑j n j ( x j – x ) ∑j n j ( x j – x )
2 2
Entre grupos SCE = k–1 SCE/(k – 1) f = --------------------------------- Entre grupos SCE = k–1 SCE/(k – 1) f = ---------------------------------
SCD ⁄ (n – k ) SCD ⁄ (n – k )

Dentro de los Dentro de los


∑j ∑i ( x ij – xj ) ∑j ∑i ( x ij – xj )
2 2
SCD = n–k SCD/(n − k) SCD = n–k SCD/(n − k)
grupos grupos

∑j ∑i ( x ij – x ) ∑j ∑i ( x ij – x )
2 2
Total SCT = n–1 - Total SCT = n–1 -

k = número de muestras, n = tamaño de la muestra total k = número de muestras, n = tamaño de la muestra total

Ejemplo de las tres marcas de ordenadores (II) Ejemplo de las tres marcas de ordenadores (II)

Volvamos al ejemplo de la comparación de tiempo de carga de un sistema operativo para Volvamos al ejemplo de la comparación de tiempo de carga de un sistema operativo para
tres marcas diferentes de ordenadores. tres marcas diferentes de ordenadores.

Haremos un análisis de la varianza con nivel significativo α = 0,05 para determinar si Haremos un análisis de la varianza con nivel significativo α = 0,05 para determinar si
podemos considerar que las medias de los tiempos de los tres ordenadores son iguales. podemos considerar que las medias de los tiempos de los tres ordenadores son iguales.

Hipótesis nula: H0 : µ1 = µ2 = µ3. Hipótesis nula: H0 : µ1 = µ2 = µ3.

Hipótesis alternativa: H1: no todas las medias son iguales. Hipótesis alternativa: H1: no todas las medias son iguales.

Ya habíamos calculado: Ya habíamos calculado:

A B C A B C
Muestra Muestra
j = 1 j = 2 j = 3 j = 1 j = 2 j = 3
Tamaño n1 = 4 n2 = 6 n3 = 5 Tamaño n1 = 4 n2 = 6 n3 = 5
Media x 1 = 12,35 x 2 = 12,90 x 3 = 14,18 Media x 1 = 12,35 x 2 = 12,90 x 3 = 14,18
2 2 2 2 2 2
Varianza s = 4,70
1 s = 2,02
2 s = 3,90
3 Varianza s = 4,70
1 s = 2,02
2 s 3 = 3,90

De manera que la media de la muestra global es: De manera que la media de la muestra global es:

x1 n 1 + x2 n2 + x3 n 3 12,35 ⋅ 4 + 12,90 ⋅ 6 + 14,18 ⋅ 5 x1 n 1 + x2 n2 + x3 n 3 12,35 ⋅ 4 + 12,90 ⋅ 6 + 14,18 ⋅ 5


x = ------------------------------------------------ = ------------------------------------------------------------------------------------ = 13,18 x = ------------------------------------------------ = ------------------------------------------------------------------------------------ = 13,18
n 1 + n2 + n 3 4+6+5 n 1 + n2 + n 3 4+6+5

A continuación podemos encontrar las sumas de cuadrados: A continuación podemos encontrar las sumas de cuadrados:

k n k k n k
j j
∑ ∑ ( xij – xj ) ∑ ( n j – 1 )s j ∑ ∑ ( xij – xj ) ∑ ( n j – 1 )s j
2 2 2 2
• SCD = = = (4 – 1)4,70 + (6 – 1)2,02 + (5 – 1)3,90 = 39,80 • SCD = = = (4 – 1)4,70 + (6 – 1)2,02 + (5 – 1)3,90 = 39,80
j = 1i = 1 j=1 j = 1i = 1 j=1

k k

∑ nj ( xj – x ) = 4(12,35 – 13,18)2 + 6(12,90 – 13,18) 2 + 5(14,18 – 13,18) 2 = ∑ nj ( xj – x ) = 4(12,35 – 13,18)2 + 6(12,90 – 13,18) 2 + 5(14,18 – 13,18) 2 =
2 2
• SCE = • SCE =
j=1 j=1

= 8,226 = 8,226
 FUOC • P03/75057/01015 14 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 14 El análisis de la varianza (ANOVA)

Y construir la tabla del ANOVA: Y construir la tabla del ANOVA:

Regla Regla
Tabla del análisis de la varianza Tabla del análisis de la varianza
de decisión de decisión

Grados Grados
Fuente de Suma Media de Estadístico Fuente de Suma Media de Estadístico
de de
variación de cuadrados cuadrados de prueba variación de cuadrados cuadrados de prueba
libertad libertad

Entre 4,113 Entre 4,113


SCE = 8,226 3–1 = 2 8,226/2 = 4,113 f = --------------- = 1,24 SCE = 8,226 3–1 = 2 8,226/2 = 4,113 f = --------------- = 1,24
grupos 3,32 grupos 3,32

Dentro de 15 – 3 = Dentro de 15 – 3 =
SCD = 39,80 39,80/12 = 3,32 SCD = 39,80 39,80/12 = 3,32
los grupos 12 los grupos 12

SCT = 15 – 1 = SCT = 15 – 1 =
Total - Total -
48,026 14 48,026 14

SCE ⁄ ( k – 1 ) 4,113 SCE ⁄ ( k – 1 ) 4,113


Estadístico de contraste: f = ---------------------------------- = --------------- = 1,24 Estadístico de contraste: f = ---------------------------------- = --------------- = 1,24
SCD ⁄ (n – k ) 3,32 SCD ⁄ (n – k ) 3,32

Este estadístico sigue una distribución F de Snedecor con k – 1 = 2 y n – k = 12 grados de Este estadístico sigue una distribución F de Snedecor con k – 1 = 2 y n – k = 12 grados de
libertad en el numerador y en el denominador, respectivamente. libertad en el numerador y en el denominador, respectivamente.

1) A partir del p-valor: 1) A partir del p-valor:

P(F > f) = P(F > 1,24) = 0,3239 > 0,05 P(F > f) = P(F > 1,24) = 0,3239 > 0,05

Por tanto, no rechazamos la hipótesis nula. Por tanto, no rechazamos la hipótesis nula.

2) A partir del valor crítico: 2) A partir del valor crítico:

Para un nivel significativo α = 0,05, tenemos un valor crítico: Para un nivel significativo α = 0,05, tenemos un valor crítico:

F0,05;2;12 = 3,89 F0,05;2;12 = 3,89

Si comparamos este valor con el estadístico de contraste, f = 1,24, tenemos que 1,24 < Si comparamos este valor con el estadístico de contraste, f = 1,24, tenemos que 1,24 <
3,89 y, por tanto, no rechazamos la hipótesis nula. 3,89 y, por tanto, no rechazamos la hipótesis nula.

Así pues, podemos concluir que no hay una diferencia significativa entre los tiempos que Así pues, podemos concluir que no hay una diferencia significativa entre los tiempos que
tardan las tres marcas de ordenadores en cargar el sistema operativo. tardan las tres marcas de ordenadores en cargar el sistema operativo.

7. Resumen 7. Resumen

En esta sesión hemos presentado la técnica de análisis de la varianza (ANOVA) En esta sesión hemos presentado la técnica de análisis de la varianza (ANOVA)
para la comparación de las medias para más de dos muestras. Hemos compro- para la comparación de las medias para más de dos muestras. Hemos compro-
bado que la variación de las observaciones se debe a dos factores: la variabilidad bado que la variación de las observaciones se debe a dos factores: la variabilidad
dentro de cada muestra y la variabilidad entre las muestras. Hemos expresado dentro de cada muestra y la variabilidad entre las muestras. Hemos expresado
estas variaciones de forma numérica mediantre sumas de cuadrados. Con las su- estas variaciones de forma numérica mediantre sumas de cuadrados. Con las su-
mas de cuadrados hemos podido encontrar un estadístico de prueba para con- mas de cuadrados hemos podido encontrar un estadístico de prueba para con-
trastar la igualdad de las medias de las muestras. Finalmente, hemos aprendido trastar la igualdad de las medias de las muestras. Finalmente, hemos aprendido
a resumir todos los cálculos en la llamada tabla del ANOVA. a resumir todos los cálculos en la llamada tabla del ANOVA.
 FUOC • P03/75057/01015 15 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 15 El análisis de la varianza (ANOVA)

Ejercicios Ejercicios

1. Consideremos cuatro compañías (A, B, C y D), cuyas acciones cotizan en bol- 1. Consideremos cuatro compañías (A, B, C y D), cuyas acciones cotizan en bol-
sa. Seleccionamos de forma aleatoria las cotizaciones de estas acciones durante sa. Seleccionamos de forma aleatoria las cotizaciones de estas acciones durante
diferentes instantes de tiempo a lo largo de un mes. Así pues, para la compañía diferentes instantes de tiempo a lo largo de un mes. Así pues, para la compañía
A se observa la cotización en cinco instantes aleatorios, para la B se observa en A se observa la cotización en cinco instantes aleatorios, para la B se observa en
cuatro, para la C se observa en seis y, finalmente, para la compañía D, en cinco. cuatro, para la C se observa en seis y, finalmente, para la compañía D, en cinco.

En la tabla siguiente se da la cotización en pesetas de las diferentes acciones En la tabla siguiente se da la cotización en pesetas de las diferentes acciones
en los instantes de tiempo seleccionados: en los instantes de tiempo seleccionados:

A 670, 840, 780, 610, 900 A 670, 840, 780, 610, 900

B 600, 800, 690, 650 B 600, 800, 690, 650

C 800, 810, 730, 690, 750, 720 C 800, 810, 730, 690, 750, 720

D 970, 840, 930, 790, 920 D 970, 840, 930, 790, 920

Contrastad el nivel del 5% si las cotizaciones medias de las acciones de cada Contrastad el nivel del 5% si las cotizaciones medias de las acciones de cada
una de las cuatro compañías se pueden considerar iguales. Confeccionad la ta- una de las cuatro compañías se pueden considerar iguales. Confeccionad la ta-
bla de análisis de la varianza. bla de análisis de la varianza.

2. Los estudiantes de segundo curso de una escuela universitaria de ingeniería es- 2. Los estudiantes de segundo curso de una escuela universitaria de ingeniería es-
tuvieron repartidos de forma aleatoria en tres grupos. En cada grupo se enseñó es- tuvieron repartidos de forma aleatoria en tres grupos. En cada grupo se enseñó es-
tadística con una estrategia docente diferente. Al final del curso todos los alumnos tadística con una estrategia docente diferente. Al final del curso todos los alumnos
hicieron el mismo examen. Se seleccionaron de forma aleatoria algunas cualifica- hicieron el mismo examen. Se seleccionaron de forma aleatoria algunas cualifica-
ciones obtenidas por algunos alumnos de los tres grupos. Los resultados son los ciones obtenidas por algunos alumnos de los tres grupos. Los resultados son los
siguientes: siguientes:

Grupo 1: n = 5 ∑ xi = 116 ∑ xi
2
= 2.728 Grupo 1: n = 5 ∑ xi = 116 ∑ xi
2
= 2.728

Grupo 2: n = 5 ∑ xi = 126 ∑ xi
2
= 3.294 Grupo 2: n = 5 ∑ xi = 126 ∑ xi
2
= 3.294

Grupo 3: n = 7 ∑ xi = 171 ∑ xi
2
= 4.193 Grupo 3: n = 7 ∑ xi = 171 ∑ xi
2
= 4.193

a) ¿Sobre qué supuestos podréis hacer un análisis de la varianza? a) ¿Sobre qué supuestos podréis hacer un análisis de la varianza?

b) Haced un análisis de la varianza e indicad si podéis asegurar a un nivel sig- b) Haced un análisis de la varianza e indicad si podéis asegurar a un nivel sig-
nificativo del 0,05 que el resultado obtenido depende de la técnica de enseñanza nificativo del 0,05 que el resultado obtenido depende de la técnica de enseñanza
utilizada. utilizada.

Solucionario Solucionario

1. En este problema estamos interesados en comparar cuatro poblaciones, y 1. En este problema estamos interesados en comparar cuatro poblaciones, y
utilizaremos un análisis de la varianza o ANOVA. Sabemos que el ANOVA nos utilizaremos un análisis de la varianza o ANOVA. Sabemos que el ANOVA nos
permite comparar las medias de varios grupos. permite comparar las medias de varios grupos.

Hipótesis nula: H0: las medias son iguales: µ1 = µ2 = µ3 = µ4 Hipótesis nula: H0: las medias son iguales: µ1 = µ2 = µ3 = µ4
Hipótesis alternativa: H1: las medias no son iguales. Hipótesis alternativa: H1: las medias no son iguales.
 FUOC • P03/75057/01015 16 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 16 El análisis de la varianza (ANOVA)

Para construir la tabla del análisis de la varianza: Para construir la tabla del análisis de la varianza:

Primero calculamos las medias y las varianzas de cada muestra: Primero calculamos las medias y las varianzas de cada muestra:

Media Varianza Media Varianza


J nj 2 J nj 2
xj sj xj sj

A 1 5 760,00 14.250,00 A 1 5 760,00 14.250,00

B 2 4 685,00 7.233,33 B 2 4 685,00 7.233,33

C 3 6 750,00 2.200,00 C 3 6 750,00 2.200,00

D 4 5 890,00 5.350,00 D 4 5 890,00 5.350,00

Y la media total de las muestras: Y la media total de las muestras:

x 1 n 1 + x 2 n 2 + x3 n 3 + x4 n 4- x 1 n 1 + x 2 n 2 + x3 n 3 + x4 n 4-
x = ---------------------------------------------------------------------- = 774,50 x = ---------------------------------------------------------------------- = 774,50
n 1 + n 2 + n3 + n 4 n 1 + n 2 + n3 + n 4

A continuación podemos encontrar las sumas de cuadrados: A continuación podemos encontrar las sumas de cuadrados:

n 4 n 4
k j k k j k
2 2
∑ ( nj – 1 ) sj = ∑ ( n j – 1 )s j = ∑ ( n j – 1 )s j
2 2 2 2
• SCD = ∑ ∑ ( xij – xj ) = • SCD = ∑ ∑ ( xij – xj ) = ∑ ( nj – 1 ) sj
j = 1i = 1 j=1 j = 1 j = 1i = 1 j=1 j = 1

= (5 − 1) 14.250,00 + (4 − 1) 7.233,33 + (6 − 1) 2.200,00 + (5 − 1) 5.350,00 = = (5 − 1) 14.250,00 + (4 − 1) 7.233,33 + (6 − 1) 2.200,00 + (5 − 1) 5.350,00 =


= 111.100,00 = 111.100,00

nj nj
1 - ( x – x )2 1 - ( x – x )2
n j – 1 i∑ n j – 1 i∑
En esta expresión hemos tenido en cuenta que: s 2j = -------------- ij j En esta expresión hemos tenido en cuenta que: s 2j = -------------- ij j
=1 =1

k k
• SCE = ∑ nj ( xj – x )
2
= 5(760,00 − 774,50)2 + 4(685,00 − 774,50)2 + 6(750,00 − • SCE = ∑ nj ( xj – x )
2
= 5(760,00 − 774,50)2 + 4(685,00 − 774,50)2 + 6(750,00 −
j=1 j=1

− 774,50)2 + + 5(890,00 − 774,50)2 = 103.395,00 − 774,50)2 + + 5(890,00 − 774,50)2 = 103.395,00

Ahora ya podemos construir la tabla: Ahora ya podemos construir la tabla:

Tabla del análisis de la varianza Tabla del análisis de la varianza

Fuente de Grados Fuente de Grados


Suma de cuadrados Media de cuadrados Suma de cuadrados Media de cuadrados
variación de libertad variación de libertad

∑j nj ( xj – x ) ∑j nj ( xj – x )
2 2
Entre SCE = k−1 SCE / ( k − 1) = Entre SCE = k−1 SCE / ( k − 1) =
grupos 4 −1 = 3 = 103.395,00/3 = 34.465,00 grupos 4 −1 = 3 = 103.395,00/3 = 34.465,00
SCE = 103.395,00 SCE = 103.395,00

∑j ∑i ( xij – xj ) ∑j ∑i ( xij – xj )
2 2
Dentro de SCD = n−k SCD/(n − k) = 111.100,00/16 = Dentro de SCD = n−k SCD/(n − k) = 111.100,00/16 =
los grupos 20 − 4 = 16 = 6.943,75 los grupos 20 − 4 = 16 = 6.943,75
SCD = 111.100,00 SCD = 111.100,00

∑j ∑i ( x ij – x ) ∑j ∑i ( x ij – x )
2 2
Total SCT = 20 − 1 = 19 - Total SCT = 20 − 1 = 19 -

k = número de grupos = 4, n = tamaño de la muestra total = 20 k = número de grupos = 4, n = tamaño de la muestra total = 20
 FUOC • P03/75057/01015 17 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 17 El análisis de la varianza (ANOVA)

SCE ⁄ ( k – 1 ) 34.465,00 SCE ⁄ ( k – 1 ) 34.465,00


Estadístico de contraste: f = -------------------------------------- = --------------------------- = 4,96 Estadístico de contraste: f = -------------------------------------- = --------------------------- = 4,96
( SCD ) ⁄ ( n – k ) 6.943,75 ( SCD ) ⁄ ( n – k ) 6.943,75

El estadístico sigue una distribución F de Snedecor con k − 1 = 3 y n − k = 16 El estadístico sigue una distribución F de Snedecor con k − 1 = 3 y n − k = 16
grados de libertad. grados de libertad.

Calculamos el p-valor: Calculamos el p-valor:

P(F > f) = P(F > 4,96) = 0,0127 < 0,05 P(F > f) = P(F > 4,96) = 0,0127 < 0,05

de manera que rechazamos H0. Con una confianza del 95%, existe diferencia de manera que rechazamos H0. Con una confianza del 95%, existe diferencia
significativa entre las cuatro compañías. significativa entre las cuatro compañías.

2. 2.
a) Para poder aplicar esta técnica con fiabilidad, son necesarias las restriccio- a) Para poder aplicar esta técnica con fiabilidad, son necesarias las restriccio-
nes previas que presentamos a continuación: nes previas que presentamos a continuación:

1. Las muestras deben ser independientes. 1. Las muestras deben ser independientes.

2. Las poblaciones (o subpoblaciones) siguen distribuciones normales; por 2. Las poblaciones (o subpoblaciones) siguen distribuciones normales; por
otra parte, la muestra elegida debe ser lo bastante grande (más de treinta ob- otra parte, la muestra elegida debe ser lo bastante grande (más de treinta ob-
servaciones en cada submuestra). En nuestro caso, las muestras son menores servaciones en cada submuestra). En nuestro caso, las muestras son menores
que treinta. Por tanto, para poder aplicar el ANOVA, debemos suponer que las que treinta. Por tanto, para poder aplicar el ANOVA, debemos suponer que las
poblaciones siguen distribuciones normales. poblaciones siguen distribuciones normales.

3. La varianza para cada población (o subpoblación) es la misma. 3. La varianza para cada población (o subpoblación) es la misma.

b) En este problema estamos interesados en comparar tres poblaciones y uti- b) En este problema estamos interesados en comparar tres poblaciones y uti-
lizaremos un análisis de la varianza o ANOVA. Sabemos que el ANOVA nos lizaremos un análisis de la varianza o ANOVA. Sabemos que el ANOVA nos
permite comparar las medias de varios grupos. permite comparar las medias de varios grupos.

Hipótesis nula: H0: las medias son iguales: µ1 = µ2 = µ3 Hipótesis nula: H0: las medias son iguales: µ1 = µ2 = µ3
Hipótesis alternativa: H1: las medias no son iguales. Hipótesis alternativa: H1: las medias no son iguales.

Para realizar la tabla del análisis de la varianza, en primer lugar calculamos las Para realizar la tabla del análisis de la varianza, en primer lugar calculamos las
medias y las varianzas de cada muestra: medias y las varianzas de cada muestra:

Media Varianza Media Varianza


nj 2 nj 2
xj sj xj sj

Grupo 1 (j = 1) 5 23,2 9,2 Grupo 1 (j = 1) 5 23,2 9,2

Grupo 2 (j = 2) 5 25,6 4,3 Grupo 2 (j = 2) 5 25,6 4,3

Grupo 3 (j = 3) 7 24,4 4,25 Grupo 3 (j = 3) 7 24,4 4,25

∑ x1i 116
x1 = -------------- = ---------- = 23,2
∑ x1i 116
x1 = -------------- = ---------- = 23,2
n1 5 n1 5
 FUOC • P03/75057/01015 18 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 18 El análisis de la varianza (ANOVA)

2 2
∑ ( x1 i – x 1 ) 1 1 ∑ ( x1 i – x 1 ) 1 1
n1 – 1 ∑ n1 – 1 ∑
s 21 = --------------------------------- = --------------- 2 2 2
[ x 1i – n ( x 1 ) ] = ------------ [ 2.728 – 5 ⋅ 23,2 ] = 9,2 s 21 = --------------------------------- = --------------- 2 2 2
[ x 1i – n ( x 1 ) ] = ------------ [ 2.728 – 5 ⋅ 23,2 ] = 9,2
n1 – 1 5–1 n1 – 1 5–1

∑ x2i 128
x2 = -------------- = ---------- = 25,6
∑ x2i 128
x2 = -------------- = ---------- = 25,6
n2 5 n2 5

2 2
∑ ( x2 i – x 2 ) 1
s 22 = --------------------------------- = --------------- 2 2 1 ∑ ( x2 i – x 2 ) 1
s 22 = --------------------------------- = --------------- 2 2 1
n2 – 1 ∑ n2 – 1 ∑
2 2
[ x 2i – n ( x 2 ) ] = ------------ [ 3.294 – 5 ⋅ 25,6 ] = 4,3 [ x 2i – n ( x 2 ) ] = ------------ [ 3.294 – 5 ⋅ 25,6 ] = 4,3
n2 – 1 5–1 n2 – 1 5–1

∑ x3i 171
x3 = -------------- = ------------ = 24,4
∑ x3i 171
x3 = -------------- = ------------ = 24,4
n3 7 n3 7

2 2
∑ ( x3i – x3 ) 1
s 23 = --------------------------------- = --------------- 2 2 1 ∑ ( x3i – x3 ) 1
s 23 = --------------------------------- = --------------- 2 2 1
n3 – 1 ∑ n3 – 1 ∑
2 2
[ x 3i – n ( x 3 ) ] = ------------ [ 4.193 – 7 ⋅ 24,6 ] = 4,25. [ x 3i – n ( x 3 ) ] = ------------ [ 4.193 – 7 ⋅ 24,6 ] = 4,25.
n3 – 1 7–1 n3 – 1 7–1

A continuación podemos encontrar las sumas de cuadrados mediante estas ex- A continuación podemos encontrar las sumas de cuadrados mediante estas ex-
presiones: presiones:

k n k 3 k n k 3
j 2 2 j 2 2
∑ ∑ ( xij – xj ) ∑ ( n j – 1 ) sj ∑ ( n j – 1 )s j ∑ ∑ ( xij – xj ) ∑ ( n j – 1 ) sj ∑ ( n j – 1 )s j
2 2
SCD = = = = SCD = = = =
j = 1i = 1 j=1 j = 1 j = 1i = 1 j=1 j = 1

(5 – 1) 9,2 + (5 – 1) 4,3 + (7 – 1) 4,25 = 79,50 (5 – 1) 9,2 + (5 – 1) 4,3 + (7 – 1) 4,25 = 79,50

En esta expresión hemos tenido en cuenta que: En esta expresión hemos tenido en cuenta que:

n n
j j
1
s 2j = -------------- 2 1
s 2j = -------------- 2

n j – 1 i∑ n j – 1 i∑
( x ij – x j ) ( x ij – x j )
=1 =1

k k
= 5(23,2 − 24,4)2 + 5(25,6 − 24,4)2 + 7(24,4 − 24,4)2 = 14,40 = 5(23,2 − 24,4)2 + 5(25,6 − 24,4)2 + 7(24,4 − 24,4)2 = 14,40
2 2
SCE = ∑ n j ( xj – x ) SCE = ∑ n j ( xj – x )
j=1 j=1

Ahora ya podemos calcular el estadístico de contraste. Primero construimos la Ahora ya podemos calcular el estadístico de contraste. Primero construimos la
tabla de análisis de la varianza: tabla de análisis de la varianza:

Tabla del análisis de la varianza Tabla del análisis de la varianza

Fuente de Grados Fuente de Grados


Suma de cuadrados Media de cuadrados Suma de cuadrados Media de cuadrados
variación de libertad variación de libertad

∑ nj ( xj – x ) ∑ nj ( xj – x )
2 2
Entre SCE = k–1 Entre SCE = k–1
SCE/( k − 1) = 14,40 / 2 = 7,202 SCE/( k − 1) = 14,40 / 2 = 7,202
grupos j=1 3–1=2 grupos j=1 3–1=2
SCE = 14,40 SCE = 14,40

∑j ∑i ( xij – xj ) ∑j ∑i ( xij – xj )
2 2
Dentro de SCD = n–k Dentro de SCD = n–k
SCD/(n – k) = 79,5 / 14 = 5,679 SCD/(n – k) = 79,5 / 14 = 5,679
los grupos 17 – 3 = 14 los grupos 17 – 3 = 14
SCD = 79,50 SCD = 79,50

∑j ∑i ( x ij – x ) ∑j ∑i ( x ij – x )
2 2
Total SCT = n – 1 = 16 - Total SCT = n – 1 = 16 -

k = número de grupos = 3, n = tamaño de la muestra total = 17 k = número de grupos = 3, n = tamaño de la muestra total = 17
 FUOC • P03/75057/01015 19 El análisis de la varianza (ANOVA)  FUOC • P03/75057/01015 19 El análisis de la varianza (ANOVA)

SCE ⁄ ( k – 1 ) SCE ⁄ ( k – 1 )
Estadístico de contraste: f = -------------------------------------- = 1,268 Estadístico de contraste: f = -------------------------------------- = 1,268
( SCD ) ⁄ ( n – k ) ( SCD ) ⁄ ( n – k )

El estadístico sigue una distribución F de Snedecor con k − 1 = 2 y n − k = 14 El estadístico sigue una distribución F de Snedecor con k − 1 = 2 y n − k = 14
grados de libertad. Tenemos un p-valor: grados de libertad. Tenemos un p-valor:

P(F > f) = P(F > 1,268) = 0,3118 > 0,05 P(F > f) = P(F > 1,268) = 0,3118 > 0,05

No rechazamos H0, de manera que podemos asegurar a un nivel significati- No rechazamos H0, de manera que podemos asegurar a un nivel significati-
vo del 0,05 que el resultado obtenido no depende de la estrategia docente vo del 0,05 que el resultado obtenido no depende de la estrategia docente
utilizada. utilizada.

También podría gustarte