Está en la página 1de 25

1 El Análisis de Varianza

Objetivo: Explicar (controlar) las variaciones de una v.a. Y continua


(numérica), mediante factores (variables cualitativas que definen categorı́as)
que controlamos (no aleatorios). Este análisis permite poner en evidencia
eventuales relaciones entre Y y estos factores.

1.1 Análisis con un solo factor

1.1.1 Un ejemplo
Queremos estudiar la influencia de la operadora sobre el importe de nuestra
factura anual de teléfono (Y ).
Denotamos:

m1 el valor medio de Y con la operadora 1.

m2 el valor medio de Y con la operadora 2.

m3 el valor medio de Y con la operadora 3.

PREGUNTA: ¿ m1 = m2 = m3 ?Disponemos de datos que corresponden


al gasto anual de teléfono en Euros (Y ) de 15 clientes:

Operadora 1 Operadora 2 Operadora 3


750 800 950
800 850 850
810 880 820
815 890 900
815 900 820
Medias 798 864 868

Vocabulario:

• Y =”Gasto anual de teléfono” es una variable cuantitativa.

• La Operadora es una variable cualitativa con la cual queremos explicar


las variaciones de Y : un factor.

1
• Los factores tienen un cierto número de niveles. El factor Operadora
tiene aquı́ 3 niveles.

Notaciones:

• yij valor observado de Y para el j esimo cliente de la iesima operadora,


i = 1, . . . , I, j = 1, . . . , ni = 5; y13 = 810.

• y i• media observada de Y para la iesima operadora; y 2• = 864.

• y •• media global observada de Y (media de las medias); y •• = 13 (y 1• + y 2• + y 3• ) =


843.3.

Indicios para medir la variabilidad:


Variabilidad explicada por el factor:
I
X
VE = ni (y i• − y •• )2
i=1

Variabilidad no explicada:
ni
I X
X
V NE = (yij − y i• )2
i=1 j=1

Descomposición de la variabilidad total:


ni
I X
X
VT = (yij − y •• )2
i=1 j=1
= V E + V NE

Con los datos precedentes, obtenemos los valores

V E = 22230, V N E = 15453.33
V T = 22230 + 15453.33 = 37683.33

2
1.1.2 El Modelo
Para contestar a nuestra pregunta (¿m1 = m2 = m3 ?) consideramos que
cada dato observado yij es igual al valor medio en el nivel del factor que le
corresponde (mi ) más una desviación aleatoria εij (o perturbación) respecto
a este valor medio: Para i = 1, . . . , I y j = 1, . . . , ni tenemos

yij = mi + εij

Supondremos que las desviaciones εij = yij − mi , verifican las hipótesis sigu-
ientes:

• Las desviaciones están centradas: E(εij ) = 0, para cualquier i, j.

• Homocedasticidad: Var(εij ) = σ 2 , para cualquier i, j.

• No correlación: E(εij εik ) = 0, para cualquier i, j, k.

• Normalidad: εij tiene una distribución normal, para cualquier i, j.

Otra formulación del modelo:

yij = µ + αi + εij ,

donde
1
PI
• µ= n i=1 ni mi es el efecto global (o medio).

• αi = mi − µ es el efecto del iesimo nivel del factor.


P
• Necesariamente i ni αi = 0.

Con esta nueva formulación nuestra pregunta se puede escribir:

¿α1 = α2 = α3 = 0?

3
1.1.3 Estimación de los parámetros del modelo
El modelo depende de I + 1 parámetros: Las I medias mi , y la varianza
común σ 2 .
Para estimar estos parámetros utilizamos el criterio de mı́nimos cuadrados
(minimizar las desviaciones): Para cada i = 1, . . . , I,
ni
X
m
b i valor de mi que mı́nimiza (yij − mi )2 ,
j=1

Obtenemos:

• m
b i = y i•

Deducimos que

• µ
b = y ••

• α
bi = m b = y i• − y •• (en el ejemplo: α
bi − µ b 1 = −45.33 y α
b 2 = 20.66)

Propiedad de los estimadores: Bajo las hipótesis del modelo, tenemos


 2

b i = y i• sigue una distribución normal N mi , σni .
que m
Prueba:
 P 
• E(y i• ) =E n1i nj=1 yij = n1i nj=1
i
P i
E(yij ) = mi
 P 
σ2
• var(y i• ) =var n1i nj=1
i 1
Pni
yij = n2i j=1 var(yij ) = ni

• y i• es una combinación lineal de variables normales, por tanto es también


normal.
2
 
Deducimos que µ b i una normal N αi , (I−1)
b sigue una normal N (µ, σn ) y α n
σ 2
.

4
Estimación de los residuos: Las desviaciones observadas eij (residuos
del modelo) se calculan por:

eij = yij − m
bi
= yij − y i•

Por tanto, tenemos que

I
X
VE = b 2i
ni α
i=1
XI Xni
V NE = e2ij
i=1 j=1

Grados de libertad:
Definición: Número de variables linealmente independientes utilizadas
para describir una dispersión..
Utilidad: Números con los cuales es necesario dividir los indicios de
variabilidad (VE;VNE) para

• compararlos.

• obtener las varianzas.

Estimación de las varianzas:

calculada con I − 1 variables linealmente independientes, puesto


V E está P
que Ii=1 ni αb i = 0. Por tanto, si α1 = . . . = αI = 0, σ12 V E sigue,
Bajo H0 , una distribución del χ2 con I − 1 grados de libertad.

V N E estáPcalculada con n − I variables linealmente independientes, puesto


ni 1
que j=1 eij = 0, para cada i. Por tanto, σ 2 V N E sigue una dis-
tribución del χ2 con n − I grados de libertad.

Además se puede demostrar que V E y V N E son independientes.

Por consiguiente,

5
• La varianza explicada por el modelo σ 2e (o varianza inter-niveles) está
estimada por
VE
s2e =
I −1
• La varianza no explicada por el modelo σ 2R (o varianza residual) está
estimada por
V NE
s2R =
n−I

1.1.4 El contraste de igualdad de medias


Queremos contrastar las hipótesis:
 
”Las mi son iguales”:
H0 :
m1 = m2 = . . . = mI .
 frente a 
”No todas las mi son iguales”:
H1 :
Existe i, k, tal que mi 6= mk .

O de manera equivalente,
H0 : {α1 = α2 = . . . = αI = 0}
frente a
H1 : {Existe i, tal que αi 6= 0.}

Rechazaremos H0 cuando el factor explica “poca” variabilidad. Basamos


nuestra decisión sobre el ratio
s2e
F = ,
s2R

y rechazaremos H0 cuando F es “grande”.

Pero ¿Cómo de grande?

Bajo las condiciones sobre las desviaciones εij (independencia, homo-


cedasticidad, normalidad), tenemos que si H0 es cierto el estadı́stico F sigue
una distribución de Fisher con (I − 1, n − I) grados de libertad.

6
Por tanto rechazamos H0 si
1−α
F > f(I−1,n−I) ,
 
α 1−α
donde α es el nivel (o tamaño) del test y f(I−1,n−I) el valor tal que P F > f(I−1,n−I) |H0 es cierto =
α.

Tabla ADEVA: Se resume la descomposición de la variabilidad de los


datos en la tabla siguiente:

Fuentes de
Suma de cuad. Gr. de lib. Varianzas F
Variaciones
Entre VE s2e
VE I −1 s2e = I−1
F = s2R
niveles
Interna V NE
V NE n−I s2R = n−I
o residual
VT
Total VT n−1 s2y = n−1

Con los datos anteriores obtenemos:

Fuentes de
Suma de cuad. Gr. de lib. Varianzas F
Variaciones
Entre
15453.33 2 7726.66 4.17
niveles
Interna
22230.00 12 1852.50
o residual
Total 37683.33 14 2691.66

0.05
Para α = 5%, consultando la tabla de la Fisher(2, 12) , obtenemos f(I−1,n−I) =
3.885, por tanto rechazamos H0 .

7
El p−valor: Medida de la credibilidad de H0 , en nuestro ejemplo: pb =
 
P F > F |H0 ' .0.04
b

Coeficiente de determinación: Una medida relativa de la variabilidad


explicada por el modelo es el cociente: R = VV ET y por tanto, 0 ≤ R ≤ 1.

Análisis de las diferencias entre medias Si la hipótesis de igualdad de


medias (H0 ) se rechaza, tiene interés estimar las diferencias entre las cat-
egorı́as.. Se puede construir un intervalo de confianza para la diferencia
mi − mj mediante
 la distribución
 de
 m b j = y i• − y j• . Tenemos que
bi − m
1 1
y i• − y j• ∼ N mi − mj , σ 2 ni
+ nj
, por tanto:

y i• − y j• − (mi − mj )
r   ∼ t(n − I)
2 1 1
sR ni + nj

Por consiguiente, deducimos el intervalo de confianza 1 − α de la diferencia


(mi − mj ): s 
" #
 (n−I) 1 1
y i• − y j• ± tα/2 s2R +
ni nj

1.2 Análisis con dos factores


1.2.1 Un ejemplo
Estudio de la cantidad de cerveza bebida (Y ) por los alumnos durante la
fiesta de fin de año, en función del sexo y del curso.
Las Preguntas:

• ¿Los chicos beben mas que las chicas?

• ¿Los alumnos de Economı́a y Derecho beben mas que los alumnos de


Administración y Empresa?

• ¿Existe una ”interacción” entre sexo y curso?

8
Datos (n = 18 alumnos) cantidad en litro.

Derecho Economı́a Ad. & Emp.


(i = 1) (i = 2) (i = 3)
1.8 0.9 1.5
Chico
1.5 1.2 1.2
(j = 1)
1.1 0.6 0.9
0.1 0.9 0.9
Chica
0.2 0.6 0.6
(j = 2)
0.2 0.7 0.6

Derecho Economı́a Ad. & Emp.


Medias
(i = 1) (i = 2) (i = 3)
Chico
1.47 0.90 1.20 1.19
(j = 1)
Chica
0.17 0.73 0.70 0.53
(j = 2)
Medias 0.82 0.82 0.95 0.86

Notaciones: Para i = 1, . . . , I, j = 1, . . . , J, k = 1, . . . , K (I = 3, J = 2,

K = 3) :

• yijk valor observado de Y del k esimo alumno del curso i y del sexo j, ;
y121 = 0.1.

• y ij• media observada de Y en la categorı́a de los alumnos del curso i y


del sexo j; y 12• = 0.17.

• y i•• media observada de Y en la categorı́a de los alumnos del curso i ;


y 3•• = 0.95.

• y •j• media observada de Y en la categorı́a de los alumnos del sexo j;


y •2• = 0.53

• y ••• media global de Y ; y ••• = 0.86

9
1.2.2 El Modelo
Consideramos que cada dato observado yijk es igual al valor medio en su
categorı́a (mij ) más una desviación aleatoria εijk : Para i = 1, . . . , I, j =
1, . . . , I y k = 1 . . . , K, tenemos
yijk = mij + εijk (Modelo 0)
Supondremos que las desviaciones εijk = yijk − mij son independientes y
siguen una distribución normal N (0, σ 2 ). Por tanto tenemos que las obser-
vaciones yijk son independientes e yijk ∼ N (mij , σ 2 ).

Este modelo es útil para describir los datos pero no permite contestar a
nuestro problema:

¿Cómo varia mij con i y j?

Varios modelos:
Suponemos que
yijk = µ + αi + εijk (Modelo 1)
donde mij = µ + αi .
Con el Modelo 1, estamos suponiendo que el factor Sexo no tiene un efecto
sobre Y (no explica sus variaciones).

Suponemos que
yijk = µ + β j + εijk (Modelo 2)
donde mij = µ + β j .
Con el Modelo 2, estamos suponiendo que el factor Curso no tiene un efecto
sobre Y .

Ahora, suponemos el modelo aditivo siguiente


yijk = µ + αi + β j + εijk (Modelo 3)
donde mij = µ + αi + β j .
Con el Modelo 3, estamos suponiendo que ambos factores, Sexo y Curso,
tienen un efecto sobre Y. Pero, suponiendo que el efecto de un factor
es constante en cualquier nivel del otro factor (El efecto del Sexo no
cambia con el Curso y recı́procamente, el efecto del Curso no cambia con el
Sexo).

10
Modelo con interacciones: Suponemos que

yijk = µ + αi + β j + γ ij + εijk (Modelo 4)

donde mij = µ + αi + β j + γ ij .
Los términos de interacción γ ij se denotan también γ ij = (αβ)ij .

1.2.3 Estimación de los parámetros del modelo


Hay IJ (IJ = 6 en el ejemplo) parámetros mij que estimamos mediante el
criterio de mı́nimos cuadrados : Para cada i, j
K
X
m
b ij valor de mij que mı́nimiza (yijk − mij )2 ,
k=1

Obtenemos mb ij = y ij• .
Los parámetros αi , β j y γ ij verifican las restricciones:
PI PJ
i=1 αi = 0. β j = 0.
PI Pj=1
J
i=1 γ ij = 0, para cada j. j=1 γ ij = 0, para cada i.

Por tanto, el número de parámetros linealmente independientes es:

1
|{z} + (I − 1) + (J − 1) + (I − 1)(J − 1) = |{z}
IJ
| {z } | {z } | {z }
µ αi βj γ ij mij

Los estimadores de αi , β j y γ ij son:

• µ
b = y •••

• α
b i = y i•• − y •••

• β
bj = y •j• − y •••

• γ
bij = y ij• − y i•• − y •j• + y •••

11
Aplicación numérica:

Derecho Economı́a Ad. & Emp.


m
b ij Medias
(i = 1) (i = 2) (i = 3)
Chico
1.47 0.90 1.20 1.19
(j = 1)
Chica
0.17 0.73 0.70 0.53
(j = 2)
Medias 0.82 0.82 0.95 0.86

Por tanto, tenemos que

γ b21 = −0.24 γ
b11 = 0.32 γ b31 = −0.08 β
b = 0.33
1
b12 = −0.32 γ
γ b22 = 0.24 γ
b32 = 0.08 b2 = −0.33
β
b 1 = −0.04 α
α b 2 = −0.04 α
b 3 = 0.08 µ
b = 0.86

Propiedad de los estimadores: Bajo las hipótesis del modelo, tenemos


que
 2

b ij sigue una normal N mij , σK .
• m
 2

b sigue una normal N µ, σn .
• µ
 2

• α
b i sigue una normal N αi , (I−1)σ
n
.
 
(J−1)σ 2
• β j sigue una normal N β j , n
b
 2

• γ
bij sigue una normal N γ ij , (I−1)(J−1)σ
n

Indicios de variabilidad Deducimos la distribución de cada indicios de


variabilidad

• V E (α) = JK Ii=1 α b 2i y bajo la hipótesis H0 : {αi = 0, ∀i}, V E (α)/ σ 2


P
sigue un χ2 (I − 1).

12
P b2
• V E (β) = IK Jj=1 β

i y bajo la hipótesis H0 : β j = 0, ∀j , V E (β)/ σ 2
sigue un χ2 (J − 1).

• V E (γ) = K Ii=1 Jj=1 γ b2ij y bajo la hipótesis H0 : γ ij = 0, ∀i, j ,


P P 

V E (γ)/ σ 2 sigue un χ2 ((I − 1) (J − 1)).

• V N E = i,j,k e2ijk , y V N E/ σ 2 sigue un χ2 (n − IJ).


P

X
VT = (yijk − y ••• )2
i,j,k
= V E(α) + V E(β) + V E(γ) + V N E

En el ejemplo, obtenemos que

V E (α) = 0.0711 gdlα = 2


V E (β) = 1.934 gdlβ = 1
V E (γ) = 1.0178 gdlγ = 2
V N E = 0.720 gdlResidual = 12

Calculo de las varianzas Obtenemos las varianzas dividiendo cada indi-


cio por el número de grados de libertad asociado:

• s2α = V E (α) /(I − 1)

• s2β = V E (β) /(J − 1)

• s2γ = V E (γ) / [(I − 1)(J − 1)]

• s2R = V N E/(n − IJ).

1.2.4 Contraste sobre los efectos


Test de interacción ¿Hay un riesgo de llegar a una conclusión falsa sobre
la influencia de cada factor si existe interacción!
Queremos contrastar las hipótesis

H0 : “No
 hay interacciones” H1 : 
“Hay interacciones”
frente a
γ ij = 0, ∀i, j ∃i, j, γ ij 6= 0

13
Bajo H0 , el estadı́stico
s2γ
F = s2R

sigue una distribución de Fisher F ((I − 1)(J − 1), n − IJ).


1−α
Por tanto, para un riesgo de tipo I α, rechazaremos H0 si F > f(I−1)(J−1),n−IJ .
• Si “la interaction no es significativa” (el test acepta H0 ) podemos con-
trastar los efectos de cada factor.
• Si en cambio “la interaction es significativa” (el test rechaza H0 ) ten-
emos que contentarnos con análizar las diferencias en cada categoria.

Test sobre cada factor Basamos el test del contraste de la hipótesis H0 :


2
{αi = 0, ∀i} frente a su alternativa, sobre el estadı́stico F = ss2α que sigue
R
bajo H0 , una Fisher F ((I −1), n−IJ). Para un riesgo I α, la regla de decisión
será entonces:
1−α
Rechazar H0 si F > f(I−1),n−IJ

El test del contraste de la hipótesis H0 : β j = 0, ∀j frente a su alter-
s2
nativa, está basado sobre el estadı́stico F = s2β que sigue bajo H0 , una Fisher
R
F ((J − 1), n − IJ). Para un riesgo I α, la regla de decisión será entonces:
1−α
Rechazar H0 si F > f(J−1),n−IJ

Tabla ADEVA (dos factores con interacción): Resume de la descom-


posición de la variabilidad:

Fuentes de P
de cuad. gdl Varianzas F
Variaciones
V E(α) s2α
Efecto α V E(α) I-1 s2α = I−1
Fb = s2R
V E(β) s2β
Efecto β V E(β) J-1 s2β = J−1
Fb = s2R
Efecto de V E(γ) s2γ
V E(γ) (I-1)(J-1) s2γ = (I−1)(J−1)
Fb = s2R
interacción
Interna V NE
V NE n-IJ s2R = n−IJ
o residual
VT
Total VT n-1 s2y = n−1

14
 
p-valor: pb = P F > Fb |H0

Cuanto más pequeño sea pb, menor será la credibilidad de H0 .

Comentario: gdlR = n−(número total de parámetros).

Tabla ADEVA (dos factores sin interacción): Si aceptamos la hipótesis


H0 : “No hay interacciones”, podemos volver a estimar los parámetros uti-
lizando el modelo (3). Se obtiene la tabla ADEVA:

Fuentes de P
de cuad. gdl Varianzas F
Variaciones
V E(α) s2α
Efecto α V E(α) I-1 s2α = I−1
Fb = s2R
V E(β) s2β
Efecto β V E(β) J-1 s2β = J−1
Fb = s2R
Interna V NE
V NE n-(I+J)+1 s2R = n-(I+J)+1
o residual
VT
Total VT n-1 s2y = n−1

Aquı́ gdlR = n − (I + J) + 1. Por tanto, los tests para contrastar los efectos
de cada factor son:

• Rechazamos H0 : {αi = 0, ∀i}


2
si Fb = ss2α > f(I−1),n−(I+J)+1
1−α
R

• Rechazamos H0 : β j = 0, ∀j
s2
si Fb = 2β > f 1−α
sR (J−1),n−(I+J)+1

1.2.5 Intervalos de confianza (I.C.)


IC para la varianza residual Utilizamos que
V NE
2
∼ χ2(gdlR ) .
σ
donde por ejemplo gdlR = n − IJ en el modelo 4. Podemos hallar aα y bα
tal que    
P χ2(gdlR ) ≤ aα = P χ2(gdlR ) ≥ bα = α/2.

15
El I.C. con nivel α para σ 2 será entonces:
VNE VNE
≥ σ2 ≥
bα aα

I.C. para las medias Utilizamos que


y ij• − mij
T = p 2 ∼ t (gdlR )
sR /K
 
(gdl ) (gdl )
Utilizando el cuantil tα/2 R de la distribución de Student: P T ≥ tα/2 R =
α/2, obtenemos el I.C. con nivel α para la media mij :
q q
(gdl ) (gdl )
y ij• + tα/2 R s2R /K ≥ mij ≥ y ij• − tα/2 R s2R /K

1.2.6 Contraste múltiples: método de Bonferroni


Suponemos que I = 3 y queremos hacer los tres contrastes siguiente sobre
las medias mi2 (cantidad media de cerveza bebida por las chicas del curso
i) :
H01 : m12 = m22 frente a H11 : m12 6= m22
H02 : m12 = m32 frente a H12 : m12 6= m32
H03 : m22 = m32 frente a H13 : m22 6= m32

Para cada uno de esos contrastes, construimos un test con nivel α = 5% (ver
sección “Análisis de las diferencias entre medias”).

Para r = 1, 2, 3, Sea Cr el suceso “Rechazar H0r cuando H0 es cierto”, por


construcción del test, tenemos:
P (Cr ) = α

Por tanto, la probabilidad de que se acepte conjuntamente la tres hipótesis


cuando H0 es cierto será (caso independiente):

P C1 ∩ C2 ∩ C3
= P (C1 )P (C2 )P (C3 )
= (1 − α)3 = 0.953 ' ¡0.85!

16
Método de Bonferoni: Denotamos C el suceso “Rechazar al menos una
hipótesis nula H0r cuando H0 es cierto”. Entonces C será la unión:

C = C1 ∪ C2 ∪ C3

Puesto que las regiones de rechazo Cr no son necesariamente incompati-


bles, tenemos que

αT = P (C) = P (C1 ∪ C2 ∪ C3 )
≤ P (C1 ) + P (C2 ) + P (C3 ) = 3α

Por tanto, si se pretende garantizar un riesgo αT = 5%, tendremos que fijar


α tal que α = αT /3.

De manera general, si hacemos un contraste múltiple con p contrastes


tendremos que elegir
αT
α=
p

Comentario: ¡Este método es muy conservador! : α puede ser muy pequeño.

1.3 Modelos en Bloques


Objetivo: Reducir la varianza residual para mejorar la “visibilidad” de los
efectos de los factores de interés, introduciendo un factor cuyo efecto sobre
la variable Y no es de interés. Llamamos este tipo de factor: variable bloque.
Comentarios: En el modelo, se supone que no hay interacción entre las
variables bloques y los factores.de interés
Ejemplo: Supongamos que el importe de la factura de telefono mensual
(en Euros) utilizando dos operadoras distintas (O1 y O2). Disponemos de
los datos siguientes:

O1 O2
120; 230; 45; 65; 200; 100 20; 105; 40; 180; 155; 75

La varianza residual es tán grande (σ 2 ' 3000), que será muy dificil rechazar
la hipótesis H0 : m1 = m2 cuando es falsa. De hecho, obtenemos la tabla

17
ADEVA siguiente:

Fuentes de
Suma de cuad. Gr. de lib. Varianzas Fb pb
Variaciones
Operadora 2852.08 1 2852.08 0.60 0.45
Residual 47254.17 10 4725.41

Para reducir la varianza residual, introducimos la variable bloque ”taza diaria


de llamadas” con 3 niveles: baja,media,alta. Obtenemos la tabla de datos
siguiente donde las diferencias entre operadoras son más visibles:

O1 O2
Baja 45; 65 20; 40
Media 100; 120 75; 105
Alta 200; 230 155; 180

Vemos en la tabla ADEVA siguiente, que el factor Operadora es ahora sig-


nificativo
Fuentes de
Suma de cuad. Gr. de lib. Varianzas Fb pb
Variaciones
Operadora 2852.08 1 2852.08 10.18 0.013
Taza 45012.5 2 22506.25 80.32 5.10−6
Residual 2241.67 8 280.21

1.4 Modelos con efectos aleatorios.


En los modelos anteriores con uno o dos factores, los efectos fueron prefijados.
Si queremos alcanzar un grado de generalidad superior para un cierto factor
tenemos que suponer que sus efectos son aleatorios. Ası́ en el estudio sobre la
cantidad de cerveza consumida por los alumnos, podemos considerar que los
cursos han sido elegidos al azar. Con este tipo de diseño podremos extender
nuestra interpretación a cualquier curso.
La formulación del modelo es idéntica, pero en el modelo de efectos fijos,
estimamos medias, y en el de efectos aleatorios, varianzas. En el primero,
los efectos αi , β j , γ ij ..., etc representan la respuesta media, y son parámetros
fijos a estimar; en el de efectos aleatorios, son variables aleatorias normales
independientes de media cero y varianza σ 2α , σ 2β , σ 2γ , siendo estas varianzas el
parámetro a estimar.

18
Efectos fijos Efectos aleatorios
yP
ij = µ + αi + εij yij = µ + αi + εij
Modelo
αi = 0 αi ∼ N (0, σ 2α )
Los efectos parámetros variables
αi son desconocidos aleatorias
Los efectos en la respuesta
en la varianza
influyen media
Se pretende estimar los αi Estimar σ 2α
se fijan se selecionan
Los niveles αi
arbitrariamente al azar
La hipotesis
αi = 0 σ 2α = 0
H0 es

La descomposición de la variabilidad en fuentes de variaciones y la tabla


ADEVA se realiza igual en ambos tipos de modelos y, si no existe interacción,
los tests de que un factor no influye son idénticos..

ADEVA

P
Fuente cuadrados gdl varianza F P
Sexo 1.933 1 1.933 32.231 0.0001
Curso 0.071 2 0.035 0.592 0.568
Curso*Sexo 1.017 2 0.508 8.481 0.005
residual 0.720 12 0.060

Test de interacción: H0 : σ 2Curso∗Sexo = 0


El estadı́stico utilizado para el test es el mismo que en el modelo con
efectos fijos. Por tanto, F = 0.508
0.060
= 8.481 conviene para contrastar la inter-
acción.
Dos casos:

• La interacción es significativa (es el caso aquı́ P < 0.05) y seguimos la


análisis

• La interacción no es significativa, entonces quitamos la interacción y


volvemos a estimar los parámetros.

19
Test del efecto Curso: H0 : σ 2Curso = 0
Igual que en el modelo con efectos fijos, calculamos el F correspondiente
. En nuestro ejemplo, este efecto no es significativo.

Test del efecto sexo: H0 : β 1 = β 2


¡ El estadı́stico utilizado aquı́ no es el bueno !
Dos casos:
s2
- la interacción es significativa: F = s2 Sexo que comparamos con
Curso∗Sexo
1−α
f(J−1,(I−1)(J−1)) .
- la interacción no es significativa, utilizamos el F habitual en el modelo
estimado sin interacción.

Comparación de modelos con interacciones


Esperanza var.
Fuente S.C. gdl Varianza
α, β fijos
P 2
2 JK α
Factor α VE(α) I − 1 sα σ 2 + I−1i i
IK j β 2j
P
Factor β VE(β) J −1 s2β σ2 + J−1
K i,j γ 2ij
P
factor γ VE(γ) (I − 1)(J − 1) s2γ σ2 + (I−1)(J−1)
residual VNE n − IJ s2R σ2
Total VT n−1

Esperanza Esperanza
α, β aleat. α aleat, β fijo
σ 2 + JKσ 2α + Kσ 2γ σ 2 + JKσ 2α
σ 2 + IKσ 2β + Kσ 2γ σ 2 + IKσ 2β + Kσ 2γ
σ 2 + Kσ 2γ σ 2 + Kσ 2γ
σ2 σ2

20
1.5 Dos ejemplos
1.5.1 Análisis con un solo factor (Alturas de árboles)

Bosque 1 Bosque 2 Bosque 3


24.73 24.88 24.58
28.22 27.40 24.33
27.22 27.76 21.99
25.11 26.67 22.76
26.12 26.96 22.91
26.16 25.39 21.16
24.08 26.09 23.67
26.49 26.13 23.17
25.84 25.17 25.49
26.78 25.44 23.72
27.33 26.43
25.93 24.83
27.35 24.21
25.30
Pnni i 13 14 10
yij 341.36 362.66 233.78
Pj=1
ni 2
j=1 yij 8979.74 9408.65 5479.81
Donde yij es la altura del j esimo árbol en el iesimo bosque. Sea mi la altura
media en el iesimo bosque.
Preguntas:
1. ¿La altura media de un árbol depende del bosque al cual pertenece?
Contrastar la hipótesis de igualdad de medias: H0 : m1 = m2 = m3
con un nivel de significación igual al 5%.
2. Dar un intervalo de confianza del 99% para la altura media en cada
bosque.
Soluciones:
1. El modelo que aquı́ consideramos es: para i = 1, . . . , 3 y j = 1, . . . , ni
yij = mi + εij
= µ + αi + εij ,

21
donde εij ∼ N (0, σ 2 ).

(a) Validación del modelo: Verificamos que la hipótesis de homocedas-


ticidad (la varianza residual es constante en cada bosque) es ra-
zonable. Sea
ni
1 X
b2i
σ = (yij − y i• )2
ni j=1
ni
!
1 X
= y 2 − y 2i•
ni j=1 ij

es el estimador de la varianza de las alturas en iesimo bosque.


Obtenemos que σ b21 = 1.24, σ
b22 = 1.02, σ
b23 = 1.45. Estas varianzas
son semejantes, aceptamos la hipótesis de homocedasticidad: σ 21 =
σ 22 = σ 23 = σ 2 .
(b) Estimación de los parámetros del modelo: Obtenemos que µ b = 25.35,
P3
α
b 1 = 0.91, α b 3 = −1.97, y la restricción i=1 ni α
b 2 = 0.56, α bi = 0
se cumple.
(c) Calculo de los indicios de variabilidad: Tenemos que
3
X
VE = ni (y i• − y •• )2
i=1
X3
= b 2i
ni α
i=1
= 53.89
y
V NE = V T − V E
donde
ni
3 X
X
VT = (yij − y •• )2
i=1 j=1
ni
3 X
!
X
= yij2 − ny 2••
i=1 j=1
= 98.81

22
Deducimos que V N E = 44.93.
(d) Tabla Adeva

Fuentes de P
de cuad.. gdl Varianzas F
Variaciones
Factor α 53.89 2 s2α = 26.94 Fb = 20.39
Residual 44.93 34 s2R = 1.32
Total 98.81 36
95% 95%
Puesto que f2,34 = 4.1, tenemos que Fb > f2,34 , por tanto rechaz-
amos H0 para un nivel α = 5%.

2. Sabemos que para cada i = 1, 2, 3, y i• sigue una normal N (mi , σ 2 /ni ).


Por tanto, el estadı́stico
y i• − mi
T = p
s2R /ni
sigue una distribución de Student t(n − I). Consultando la tabla de la
Student, obtenemos que t34 0.005 ' 2.72, deducimos que:

• Con probabilidad 99%, m1 ∈ [25.39, 27.12]


• Con probabilidad 99%, m2 ∈ [25.07, 26.74]
• Con probabilidad 99%, m3 ∈ [22.39, 24.37]

Observamos que la tercera media es significativamente diferente de las


demás (nivel de significación α ≤ 3%, ver metódo de Bonferoni).

1.5.2 Análisis con dos factores


Modelo sin replicación (K = 1)

1a clase 2a clase 3a clase


Hombres 0.33 0.08 0.16 0.19
Mujeres 0.97 0.86 0.48 0.77
0.65 0.47 0.32 0.48

Proporción de supervivientes de la catástrofe del Titanic

Preguntas:

23
1. Contrastar el efecto del factor Sexo y del factor Clase (nivel α = 10%),
suponiendo que no hay interacción

2. Dar un intervalo de confianza del 95% para la varianza residual.

Soluciones:

1. El modelo es para i = 1, . . . , 3, j = 1, . . . , 2

yij = mij + εij


= µ + αi + β j + εij

donde α es el factor clase y β el factor sexo. Obtenemos la tabla


ADEVA
Fuentes de P
de cuad. gdl. Varianzas F
Variaciones
Factor α 0.1092 2 s2α = 0.0546 Fb = 1.964
Factor β 0.5046 1 s2β = 0.5046 Fb = 18.151
Residual 0.0556 2 s2R = 0.0278
Total 0.6694 5
90% 90%
tenemos que f2,2 = 9 y f1,2 = 8.526 por tanto aceptamos H0 : αi = 0
y rechazamos H0 : β j = 0.

2. Puesto que χ22,0.025 = 7.378 y χ22,0.975 = 0.051 deducimos que el intervalo


de confianza del 95% para σ 2 es [0.0075, 1.09] .

Modelo con replicación (K > 1)

Africa oriental Europa Asia Central


46 74 46
Hombres 45 75 59
44 75 58
47 81 44
Mujeres 48 81 59
48 83 57

Esperanza de vida

24
Preguntas:

1. Contrastar la interacción entre el factor sexo y continente (nivel α =


10%).
2. Dar un intervalo de confianza del 95% para la varianza residual.

Solución

1. El modelo es para i = 1, . . . , 3, j = 1, . . . , 2

yij = mij + εij


= µ + αi + β j + γ ij + εij

donde α es el factor continente, β el factor sexo, y γ el factor de inter-


acción

(a) Estimación

m
b ij Africa oriental Europa Asia Central
Hombres 45 74.67 54.33 58
Mujeres 47.66 81.67 53.33 60.89
46.33 53.83 78.17 59.44

(b) Obtenemos la tabla ADEVA

Fuentes de P
de cuad. gdl. Varianzas F
Variaciones
Factor α 3323.44 2 s2α = 1661.72 Fb = 81.95
Factor β 37.56 1 s2β = 37.56 Fb = 1.85
Factor γ 48.11 2 s2γ = 24.05 Fb = 1.19
2
Residual 243.33 12 sR = 20.29
Total 3642.44 17
95% 95%
tenemos que f2,12 = 3.88 y f1,12 = 4.74 por tanto aceptamos
H0 : γ ij = 0: el factor de interacción no es significativo. Luego,
aceptamos H0 : β j = 0 y rechazamos H0 : αi = 0, o sea, el
factor sexo no tiene un efecto significativo y en cambio, el factor
continente si.

25

También podría gustarte