Está en la página 1de 11

18/05/2007

Análisis de la varianza (ANOVA)


Valencia, febrero de 2007

Análisis de la varianza (ANOVA)

1. Introducción
2. Condiciones para la aplicación del
ANOVA
3. Suma de cuadrados
4. Grados de libertad
5. Cuadrado medio
6. Prueba de hipótesis

1
18/05/2007

1. Introducción
En un curso los alumnos de 3 grupos obtuvieron las siguientes
calificaciones:

GRUPO 1 GRUPO 2 GRUPO 3

4.3 5.1 8.6 PREGUNTA:

3.2 6.1 7.2 ¿Tiene algún efecto


sobre la calificación del
1.6 7.0 6.9 alumno el hecho de
pertenecer a uno u
4.5 3.2 9.3
otro grupo?
5.0 4.8 8.9

2.3 5.2 7.8

1. Introducción
¿Es adecuado trabajar con la media de todos los
alumnos?
Modelo completo:

yij = μ + eij
µ

¿O es preferible calcular la media de cada grupo?

Modelo reducido:

yij = μi + eij

2
18/05/2007

2. Condiciones para la aplicación del ANOVA

1. Normalidad de los residuos


2. Homocedasticidad
µ

3. Linealidad
p
4. Independencia

2. Condiciones para la aplicación del ANOVA


1. Normalidad de los residuos
Residuo = Diferencia entre el valor predicho y el realmente
observado
La distribución de los residuos sigue la distribución normal.
Implica que hay pocos estudiantes
µ con calificaciones que se
desvían más de dos desviaciones típicas de la media de la
asignatura.
0,2

0,16

0,12

0,08

0,04

0
0 2 4 6 8 10
x

Esta hipótesis suele ser cierta cuando la variable respuesta


depende de muchos factores.

3
18/05/2007

2. Condiciones para la aplicación del ANOVA


2. Homocedasticidad

La varianza de las perturbaciones es homogénea.

σ 1 = σ 2 µ= ... = σ k
Esto implica que la variabilidad de las calificaciones respecto a la
media es la misma en todos los grupos.
grupos

Esta hipótesis debe comprobarse en la mayoría de los casos ya


que suelen influir en la variabilidad las características propias de
cada grupo o el hecho de que se correspondan con distintos
periodos de tiempo.

2. Condiciones para la aplicación del ANOVA


3. Independencia de los residuos

No existe ninguna relación entre los residuos de las


muestras. Implica que losµ datos se seleccionan según un
muestreo aleatorio.

El hecho de que un estudiante obtenga una calificación


con un determinado residuo no condiciona la calificación
que puedan obtener los otros.

4
18/05/2007

2. Condiciones para la aplicación del ANOVA


4. Linealidad

La media de los residuos es nula. En el ejemplo las


desviaciones positivas sobre
µ
la media se compensan con
las negativas.

Esta condición es poco exigente pero es necesario


imponerla para que el modelo quede identificado

2. Condiciones para la aplicación del ANOVA


4. Linealidad
S
Supongamos que:
La media de los residuos de las calificaciones para el grupo 1
es b (no nula)
µ
La media de las calificaciones para el grupo 1 es µ1
Cada una de las calificaciones observadas es para el grupo 1
es u1j

Puede definirse la variable: e1 j = u1 j − b

El modelo para el grupo 1 queda: y1 j = μ1 + b + e1 j

5
18/05/2007

2. Condiciones para la aplicación del ANOVA


4. Linealidad
E ttall caso se iincluiría
En l i í ell parámetro
á t b en la
l media
di µ1 de
d forma
f
que:
μ1 ' = μ1 + b
µ
De esta forma la ecuación del modelo resulta:
y1 j = μ1 '+ e1 j

3. Suma de cuadrados
2

= ∑∑ ( y −μˆ i ) SCEentre = ∑ (μi −μ̂ )


k r k
SCEdentro ij
i =1 j =1 i =1

SCEtotal = ∑∑ ( yij −μˆ )


k r

i =1 j =1

SCtotal = SCentre + SCdentro


SCdentro = Representa la r = número de muestras
varianza dentro de cada grupo k = número de poblaciones
SCentre = Representa la µ yij = muestra i perteneciente a la población j
varianza entre grupos
µ = media del total de muestras
SCtotal = Representa la
varianza total de la muestra. µi = media de la población i

6
18/05/2007

3. Suma de cuadrados

GRUPO 1 GRUPO 2 GRUPO 3

4.3 5.1 8.6 μˆ1 = 3.48


3.2 6.1 7.2
μˆ 2 = 5.23
1.6 7.0 6.9

4.5 3.2 9.3 μˆ 3 = 8.11


5.0 4.8 8.9 μˆ = 5.61
2.3 5.2 7.8

3.48 5.23 8.11 5.61

3. Suma de cuadrados
GRUPO 1 GRUPO 2 GRUPO 3
μˆ1 = 3.48
4.3 5.1 8.6

3.2 6.1 7.2 μˆ 2 = 5.23


1.6 7.0 6.9 μˆ 3 = 8.11
4.5 3.2 9.3
μˆ = 5.61
5.0 4.8 8.9

2.3 5.2 7.8

Modelo completo:
= (4.3 − 3.48) + ... + (5.1 − 5.23) + ... + (8.6 − 8.11) + ... = 21.91
2 2 2
SCd
SCdentro

Modelo reducido:
SCtotal = (4.3 − 5.61) + ... + (5.1 − 5.61) + ... + (8.6 − 5.61) + ... = 87.59
2 2 2

Despejando:
SCentre = SCtotal − SCdentro = 87.59 − 21.91 = 65.68

7
18/05/2007

4. Grados de libertad

Fuente de variación Suma de cuadrados Grados de libertad

Entre SC entre t–1=3–1=2

Dentro SC dentro N – t = 18 – 3 = 15

Total SC total N – 1 = 18 – 1 =17

5. Cuadrado medio
El cuadrado medio CM dentro se calcula como una
media pponderada de las varianzas muestrales de cada
grupo.
Es una estimación de la varianza común σ2.

El cuadrado medio CM entre:


1. Es también un estimador de la varianza común σ2: Si
las medias de los todos los grupos son iguales
2. Es un estimador de la varianza común σ2 más las
variaciones entre las medias de los grupos: Si las
medias de los grupos no son iguales

8
18/05/2007

5. Cuadrado medio
Se calcula como el cociente entre la suma de cuadrados y los grados de
libertad.
I di la
Indica l variabilidad
i bilid d en las
l observaciones
b i del
d l experimento
i t

Fuente de Suma de Grados de Cuadrados


variación cuadrados libertad medios

SCentre
Entre SC entre t–1 CMentre =
t −1

SCdentro
Dentro SC dentro N–t CMdentro =
N −t

Total SC total N–1

5. Cuadrado medio

Fuente de Suma de Grados de Cuadrados


variación
i ió cuadrados
d d lib t d
libertad medios
di

Entre 65.68 2 CMentre =


65.68
= 32.84
2

Dentro 21.91 15 CMdentro =


21.91
= 1.46
15

Total 87.59 17

9
18/05/2007

6. Prueba de hipótesis
El contraste de hipótesis planteado es:

H 0 : μ1 = μ 2 = μ 3 Hipótesis nula: Las medias de los


Hα : μi ≠ μ k , i ≠ k grupos son similares

α = 0.05
El estadístico de prueba para probar la hipótesis nula es:

CMentre
F0 =
CMdentro
F0 compara la variabilidad entre los grupos con la variabilidad
dentro de ellos.

6. Prueba de hipótesis
CMentre
F0 =
CMdentro
• Si F0 = 1: No hay diferencia de variabilidad entre los grupos y
dentro de ellos. Por tanto las medias de los grupos son similares

• Si F0 > 1: Hay más diferencias en la variabilidad cuanto


mayores sean las diferencias entre las medias de los grupos.

La hipótesis nula se rechazará cuando:

F0 > Fα ,( t −1),( N −t )
Cuanto mayor sea F0 más probable será que la hipótesis nula se
rechace

10
18/05/2007

6. Prueba de hipótesis
Fuente de Grados de Suma de Cuadrados
variación libertad cuadrados medios

Entre 2 65.68
65.68
CMentre = = 32.84
2

Dentro 15 21.91 CMdentro =


21.91
= 1.46
15

Total 17 87.59

CMentre 32.84
F0 = =
CMdentro 1.46
= 22.49 F0.05, 2,15 = 3.68

F0 = 22.49 > Fα ,( t −1),( N −t ) = 3.68


Se descarta la hipótesis nula y se concluye que las calificaciones de los
alumnos difieren según el grupo al que pertenezcan

6. Prueba de hipótesis
Tabla de distribución F de Fisher con probabilidad de 0.05
F ≥ Fα ,v1,v 2

v2 \ v1 1 2 3 4 5 6 7
1 161.45 199.50 215.71 224.58 230.16 233.99 236.77

2 18.513 19.000 19.164 19.247 19.296 19.329 19.353

3 10.128 9.552 9.277 9.117 9.013 8.941 8.887

4 7.709 6.944 6.591 6.388 6.256 6.163 6.094

5 6.608 5.786 5.409 5.192 5.050 4.950 4.876

6 5.987 5.143 4.757 4.534 4.387 4.284 4.207

7 5.591 4.737 4.347 4.120 3.972 3.866 3.787

8 5.318 4.459 4.066 3.838 3.688 3.581 3.500

9 5.117 4.256 3.863 3.633 3.482 3.374 3.293

10 4.965 4.103 3.708 3.478 3.326 3.217 3.135

11 4.844 3.982 3.587 3.357 3.204 3.095 3.012

12 4.747 3.885 3.490 3.259 3.106 2.996 2.913

13 4.667 3.806 3.411 3.179 3.025 2.915 2.832

14 4.600 3.739 3.344 3.112 2.958 2.848 2.764

15 4.543 3.682 3.287 3.056 2.901 2.790 2.707

16 4.494 3.634 3.239 3.007 2.852 2.741 2.657

17 4.451 3.592 3.197 2.965 2.810 2.699 2.614

18 4.414 3.555 3.160 2.928 2.773 2.661 2.577

11

También podría gustarte