Analisis

1 El Análisis de Varianza
Objetivo: Explicar (controlar) las variaciones de una v.a. Y continua

(numérica), mediante factores (variables cualitativas que definen categorı́as)
que controlamos (no aleatorios). Este análisis permite poner en evidencia
eventuales relaciones entre Y y estos factores.
1.1 Análisis con un solo factor
1.1.1 Un ejemplo
Queremos estudiar la influencia de la operadora sobre el importe de nuestra
factura anual de teléfono (Y ).
Denotamos:
m1 el valor medio de Y con la operadora 1.
PREGUNTA: ¿ m1 = m2 = m3 ?Disponemos de datos que corresponden

al gasto anual de teléfono en Euros (Y ) de 15 clientes:
Operadora 1 Operadora 2 Operadora 3

750 800 950
800 850 850
810 880 820
815 890 900
815 900 820
Medias 798 864 868
Vocabulario:
• Y =”Gasto anual de teléfono” es una variable cuantitativa.
• La Operadora es una variable cualitativa con la cual queremos explicar

las variaciones de Y : un factor.
1
• Los factores tienen un cierto número de niveles. El factor Operadora
tiene aquı́ 3 niveles.
Notaciones:
• yij valor observado de Y para el j esimo cliente de la iesima operadora,

i = 1, . . . , I, j = 1, . . . , ni = 5; y13 = 810.
• y i• media observada de Y para la iesima operadora; y 2• = 864.
• y •• media global observada de Y (media de las medias); y •• = 13 (y 1• + y 2• + y 3• ) =

843.3.
Indicios para medir la variabilidad:

Variabilidad explicada por el factor:
I
X
VE = ni (y i• − y •• )2
i=1
Variabilidad no explicada:
ni
I X
X
V NE = (yij − y i• )2
i=1 j=1
Descomposición de la variabilidad total:

ni
I X
X
VT = (yij − y •• )2
i=1 j=1
= V E + V NE
Con los datos precedentes, obtenemos los valores
V E = 22230, V N E = 15453.33
V T = 22230 + 15453.33 = 37683.33
2
1.1.2 El Modelo
Para contestar a nuestra pregunta (¿m1 = m2 = m3 ?) consideramos que
cada dato observado yij es igual al valor medio en el nivel del factor que le
corresponde (mi ) más una desviación aleatoria εij (o perturbación) respecto
a este valor medio: Para i = 1, . . . , I y j = 1, . . . , ni tenemos
yij = mi + εij
Supondremos que las desviaciones εij = yij − mi , verifican las hipótesis sigu-
ientes:
• Las desviaciones están centradas: E(εij ) = 0, para cualquier i, j.
• Homocedasticidad: Var(εij ) = σ 2 , para cualquier i, j.
• No correlación: E(εij εik ) = 0, para cualquier i, j, k.
• Normalidad: εij tiene una distribución normal, para cualquier i, j.
Otra formulación del modelo:
yij = µ + αi + εij ,
donde
1
PI
• µ= n i=1 ni mi es el efecto global (o medio).
• αi = mi − µ es el efecto del iesimo nivel del factor.

P
• Necesariamente i ni αi = 0.
Con esta nueva formulación nuestra pregunta se puede escribir:
¿α1 = α2 = α3 = 0?
3
1.1.3 Estimación de los parámetros del modelo
El modelo depende de I + 1 parámetros: Las I medias mi , y la varianza
común σ 2 .
Para estimar estos parámetros utilizamos el criterio de mı́nimos cuadrados
(minimizar las desviaciones): Para cada i = 1, . . . , I,
ni
X
m
b i valor de mi que mı́nimiza (yij − mi )2 ,
j=1
Obtenemos:
• m
b i = y i•
Deducimos que
• µ
b = y ••
• α
bi = m b = y i• − y •• (en el ejemplo: α
bi − µ b 1 = −45.33 y α
b 2 = 20.66)
Propiedad de los estimadores: Bajo las hipótesis del modelo, tenemos

2

b i = y i• sigue una distribución normal N mi , σni .
que m
Prueba:
P
• E(y i• ) =E n1i nj=1 yij = n1i nj=1
i
P i
E(yij ) = mi
P
σ2
• var(y i• ) =var n1i nj=1
i 1
Pni
yij = n2i j=1 var(yij ) = ni
• y i• es una combinación lineal de variables normales, por tanto es también

normal.
2

Deducimos que µ b i una normal N αi , (I−1)
b sigue una normal N (µ, σn ) y α n
σ 2
.
4
Estimación de los residuos: Las desviaciones observadas eij (residuos
del modelo) se calculan por:
eij = yij − m
bi
= yij − y i•
Por tanto, tenemos que
I
X
VE = b 2i
ni α
i=1
XI Xni
V NE = e2ij
i=1 j=1
Grados de libertad:
Definición: Número de variables linealmente independientes utilizadas
para describir una dispersión..
Utilidad: Números con los cuales es necesario dividir los indicios de
variabilidad (VE;VNE) para
• compararlos.
• obtener las varianzas.
Estimación de las varianzas:
calculada con I − 1 variables linealmente independientes, puesto

V E está P
que Ii=1 ni αb i = 0. Por tanto, si α1 = . . . = αI = 0, σ12 V E sigue,
Bajo H0 , una distribución del χ2 con I − 1 grados de libertad.
V N E estáPcalculada con n − I variables linealmente independientes, puesto

ni 1
que j=1 eij = 0, para cada i. Por tanto, σ 2 V N E sigue una dis-
tribución del χ2 con n − I grados de libertad.
Además se puede demostrar que V E y V N E son independientes.
Por consiguiente,
5
• La varianza explicada por el modelo σ 2e (o varianza inter-niveles) está
estimada por
VE
s2e =
I −1
• La varianza no explicada por el modelo σ 2R (o varianza residual) está
estimada por
V NE
s2R =
n−I
1.1.4 El contraste de igualdad de medias

Queremos contrastar las hipótesis:

”Las mi son iguales”:
H0 :
m1 = m2 = . . . = mI .
frente a
”No todas las mi son iguales”:
H1 :
Existe i, k, tal que mi 6= mk .
O de manera equivalente,
H0 : {α1 = α2 = . . . = αI = 0}
frente a
H1 : {Existe i, tal que αi 6= 0.}
Rechazaremos H0 cuando el factor explica “poca” variabilidad. Basamos

nuestra decisión sobre el ratio
s2e
F = ,
s2R
y rechazaremos H0 cuando F es “grande”.
Pero ¿Cómo de grande?
Bajo las condiciones sobre las desviaciones εij (independencia, homo-

cedasticidad, normalidad), tenemos que si H0 es cierto el estadı́stico F sigue
una distribución de Fisher con (I − 1, n − I) grados de libertad.
6
Por tanto rechazamos H0 si
1−α
F > f(I−1,n−I) ,

α 1−α
donde α es el nivel (o tamaño) del test y f(I−1,n−I) el valor tal que P F > f(I−1,n−I) |H0 es cierto =
α.
Tabla ADEVA: Se resume la descomposición de la variabilidad de los

datos en la tabla siguiente:
Fuentes de
Suma de cuad. Gr. de lib. Varianzas F
Variaciones
Entre VE s2e
VE I −1 s2e = I−1
F = s2R
niveles
Interna V NE
V NE n−I s2R = n−I
o residual
VT
Total VT n−1 s2y = n−1
Con los datos anteriores obtenemos:
Fuentes de
Suma de cuad. Gr. de lib. Varianzas F
Variaciones
Entre
15453.33 2 7726.66 4.17
niveles
Interna
22230.00 12 1852.50
o residual
Total 37683.33 14 2691.66
0.05
Para α = 5%, consultando la tabla de la Fisher(2, 12) , obtenemos f(I−1,n−I) =
3.885, por tanto rechazamos H0 .
7
El p−valor: Medida de la credibilidad de H0 , en nuestro ejemplo: pb =

P F > F |H0 ' .0.04
b
Coeficiente de determinación: Una medida relativa de la variabilidad

explicada por el modelo es el cociente: R = VV ET y por tanto, 0 ≤ R ≤ 1.
Análisis de las diferencias entre medias Si la hipótesis de igualdad de

medias (H0 ) se rechaza, tiene interés estimar las diferencias entre las cat-
egorı́as.. Se puede construir un intervalo de confianza para la diferencia
mi − mj mediante
la distribución
de
m b j = y i• − y j• . Tenemos que
bi − m
1 1
y i• − y j• ∼ N mi − mj , σ 2 ni
+ nj
, por tanto:

y i• − y j• − (mi − mj )
r ∼ t(n − I)
2 1 1
sR ni + nj
Por consiguiente, deducimos el intervalo de confianza 1 − α de la diferencia

(mi − mj ): s
" #
(n−I) 1 1
y i• − y j• ± tα/2 s2R +
ni nj
1.2 Análisis con dos factores

1.2.1 Un ejemplo
Estudio de la cantidad de cerveza bebida (Y ) por los alumnos durante la
fiesta de fin de año, en función del sexo y del curso.
Las Preguntas:
• ¿Los chicos beben mas que las chicas?
• ¿Los alumnos de Economı́a y Derecho beben mas que los alumnos de

Administración y Empresa?
• ¿Existe una ”interacción” entre sexo y curso?
8
Datos (n = 18 alumnos) cantidad en litro.
Derecho Economı́a Ad. & Emp.

(i = 1) (i = 2) (i = 3)
1.8 0.9 1.5
Chico
1.5 1.2 1.2
(j = 1)
1.1 0.6 0.9
0.1 0.9 0.9
Chica
0.2 0.6 0.6
(j = 2)
0.2 0.7 0.6

Medias
(i = 1) (i = 2) (i = 3)
Chico
1.47 0.90 1.20 1.19
(j = 1)
Chica
0.17 0.73 0.70 0.53
(j = 2)
Medias 0.82 0.82 0.95 0.86
Notaciones: Para i = 1, . . . , I, j = 1, . . . , J, k = 1, . . . , K (I = 3, J = 2,
K = 3) :
• yijk valor observado de Y del k esimo alumno del curso i y del sexo j, ;
y121 = 0.1.
• y ij• media observada de Y en la categorı́a de los alumnos del curso i y

del sexo j; y 12• = 0.17.
• y i•• media observada de Y en la categorı́a de los alumnos del curso i ;

y 3•• = 0.95.
• y •j• media observada de Y en la categorı́a de los alumnos del sexo j;

y •2• = 0.53
• y ••• media global de Y ; y ••• = 0.86
9
1.2.2 El Modelo
Consideramos que cada dato observado yijk es igual al valor medio en su
categorı́a (mij ) más una desviación aleatoria εijk : Para i = 1, . . . , I, j =
1, . . . , I y k = 1 . . . , K, tenemos
yijk = mij + εijk (Modelo 0)
Supondremos que las desviaciones εijk = yijk − mij son independientes y
siguen una distribución normal N (0, σ 2 ). Por tanto tenemos que las obser-
vaciones yijk son independientes e yijk ∼ N (mij , σ 2 ).
Este modelo es útil para describir los datos pero no permite contestar a
nuestro problema:
¿Cómo varia mij con i y j?
Varios modelos:
Suponemos que
yijk = µ + αi + εijk (Modelo 1)
donde mij = µ + αi .
Con el Modelo 1, estamos suponiendo que el factor Sexo no tiene un efecto
sobre Y (no explica sus variaciones).
Suponemos que
yijk = µ + β j + εijk (Modelo 2)
donde mij = µ + β j .
Con el Modelo 2, estamos suponiendo que el factor Curso no tiene un efecto
sobre Y .
Ahora, suponemos el modelo aditivo siguiente

yijk = µ + αi + β j + εijk (Modelo 3)
donde mij = µ + αi + β j .
Con el Modelo 3, estamos suponiendo que ambos factores, Sexo y Curso,
tienen un efecto sobre Y. Pero, suponiendo que el efecto de un factor
es constante en cualquier nivel del otro factor (El efecto del Sexo no
cambia con el Curso y recı́procamente, el efecto del Curso no cambia con el
Sexo).
10
Modelo con interacciones: Suponemos que
yijk = µ + αi + β j + γ ij + εijk (Modelo 4)
donde mij = µ + αi + β j + γ ij .
Los términos de interacción γ ij se denotan también γ ij = (αβ)ij .
1.2.3 Estimación de los parámetros del modelo

Hay IJ (IJ = 6 en el ejemplo) parámetros mij que estimamos mediante el
criterio de mı́nimos cuadrados : Para cada i, j
K
X
m
b ij valor de mij que mı́nimiza (yijk − mij )2 ,
k=1
Obtenemos mb ij = y ij• .
Los parámetros αi , β j y γ ij verifican las restricciones:
PI PJ
i=1 αi = 0. β j = 0.
PI Pj=1
J
i=1 γ ij = 0, para cada j. j=1 γ ij = 0, para cada i.
Por tanto, el número de parámetros linealmente independientes es:
1
|{z} + (I − 1) + (J − 1) + (I − 1)(J − 1) = |{z}
IJ
| {z } | {z } | {z }
µ αi βj γ ij mij
Los estimadores de αi , β j y γ ij son:
• µ
b = y •••
• α
b i = y i•• − y •••
• β
bj = y •j• − y •••
• γ
bij = y ij• − y i•• − y •j• + y •••
11
Aplicación numérica:

m
b ij Medias
(i = 1) (i = 2) (i = 3)
Chico
1.47 0.90 1.20 1.19
(j = 1)
Chica
0.17 0.73 0.70 0.53
(j = 2)
Medias 0.82 0.82 0.95 0.86
Por tanto, tenemos que
γ b21 = −0.24 γ
b11 = 0.32 γ b31 = −0.08 β
b = 0.33
1
b12 = −0.32 γ
γ b22 = 0.24 γ
b32 = 0.08 b2 = −0.33
β
b 1 = −0.04 α
α b 2 = −0.04 α
b 3 = 0.08 µ
b = 0.86
Propiedad de los estimadores: Bajo las hipótesis del modelo, tenemos

que
2

b ij sigue una normal N mij , σK .
• m
2

b sigue una normal N µ, σn .
• µ
2

• α
b i sigue una normal N αi , (I−1)σ
n
.

(J−1)σ 2
• β j sigue una normal N β j , n
b
2

• γ
bij sigue una normal N γ ij , (I−1)(J−1)σ
n
Indicios de variabilidad Deducimos la distribución de cada indicios de

variabilidad
• V E (α) = JK Ii=1 α b 2i y bajo la hipótesis H0 : {αi = 0, ∀i}, V E (α)/ σ 2

P
sigue un χ2 (I − 1).
12
P b2
• V E (β) = IK Jj=1 β

i y bajo la hipótesis H0 : β j = 0, ∀j , V E (β)/ σ 2
sigue un χ2 (J − 1).
• V E (γ) = K Ii=1 Jj=1 γ b2ij y bajo la hipótesis H0 : γ ij = 0, ∀i, j ,

P P
V E (γ)/ σ 2 sigue un χ2 ((I − 1) (J − 1)).
• V N E = i,j,k e2ijk , y V N E/ σ 2 sigue un χ2 (n − IJ).

P
X
VT = (yijk − y ••• )2
i,j,k
= V E(α) + V E(β) + V E(γ) + V N E
En el ejemplo, obtenemos que
V E (α) = 0.0711 gdlα = 2

V E (β) = 1.934 gdlβ = 1
V E (γ) = 1.0178 gdlγ = 2
V N E = 0.720 gdlResidual = 12
Calculo de las varianzas Obtenemos las varianzas dividiendo cada indi-

cio por el número de grados de libertad asociado:
• s2α = V E (α) /(I − 1)
• s2β = V E (β) /(J − 1)
• s2γ = V E (γ) / [(I − 1)(J − 1)]
• s2R = V N E/(n − IJ).
1.2.4 Contraste sobre los efectos

Test de interacción ¿Hay un riesgo de llegar a una conclusión falsa sobre
la influencia de cada factor si existe interacción!
Queremos contrastar las hipótesis
H0 : “No
hay interacciones” H1 :
“Hay interacciones”
frente a
γ ij = 0, ∀i, j ∃i, j, γ ij 6= 0
13
Bajo H0 , el estadı́stico
s2γ
F = s2R
sigue una distribución de Fisher F ((I − 1)(J − 1), n − IJ).

1−α
Por tanto, para un riesgo de tipo I α, rechazaremos H0 si F > f(I−1)(J−1),n−IJ .
• Si “la interaction no es significativa” (el test acepta H0 ) podemos con-
trastar los efectos de cada factor.
• Si en cambio “la interaction es significativa” (el test rechaza H0 ) ten-
emos que contentarnos con análizar las diferencias en cada categoria.
Test sobre cada factor Basamos el test del contraste de la hipótesis H0 :

2
{αi = 0, ∀i} frente a su alternativa, sobre el estadı́stico F = ss2α que sigue
R
bajo H0 , una Fisher F ((I −1), n−IJ). Para un riesgo I α, la regla de decisión
será entonces:
1−α
Rechazar H0 si F > f(I−1),n−IJ

El test del contraste de la hipótesis H0 : β j = 0, ∀j frente a su alter-
s2
nativa, está basado sobre el estadı́stico F = s2β que sigue bajo H0 , una Fisher
R
F ((J − 1), n − IJ). Para un riesgo I α, la regla de decisión será entonces:
1−α
Rechazar H0 si F > f(J−1),n−IJ
Tabla ADEVA (dos factores con interacción): Resume de la descom-

posición de la variabilidad:
Fuentes de P
de cuad. gdl Varianzas F
Variaciones
V E(α) s2α
Efecto α V E(α) I-1 s2α = I−1
Fb = s2R
V E(β) s2β
Efecto β V E(β) J-1 s2β = J−1
Fb = s2R
Efecto de V E(γ) s2γ
V E(γ) (I-1)(J-1) s2γ = (I−1)(J−1)
Fb = s2R
interacción
Interna V NE
V NE n-IJ s2R = n−IJ
o residual
VT
Total VT n-1 s2y = n−1
14

p-valor: pb = P F > Fb |H0
Cuanto más pequeño sea pb, menor será la credibilidad de H0 .
Comentario: gdlR = n−(número total de parámetros).
Tabla ADEVA (dos factores sin interacción): Si aceptamos la hipótesis

H0 : “No hay interacciones”, podemos volver a estimar los parámetros uti-
lizando el modelo (3). Se obtiene la tabla ADEVA:
Fuentes de P
de cuad. gdl Varianzas F
Variaciones
V E(α) s2α
Efecto α V E(α) I-1 s2α = I−1
Fb = s2R
V E(β) s2β
Efecto β V E(β) J-1 s2β = J−1
Fb = s2R
Interna V NE
V NE n-(I+J)+1 s2R = n-(I+J)+1
o residual
VT
Total VT n-1 s2y = n−1
Aquı́ gdlR = n − (I + J) + 1. Por tanto, los tests para contrastar los efectos
de cada factor son:
• Rechazamos H0 : {αi = 0, ∀i}

2
si Fb = ss2α > f(I−1),n−(I+J)+1
1−α
R

• Rechazamos H0 : β j = 0, ∀j
s2
si Fb = 2β > f 1−α
sR (J−1),n−(I+J)+1
1.2.5 Intervalos de confianza (I.C.)

IC para la varianza residual Utilizamos que
V NE
2
∼ χ2(gdlR ) .
σ
donde por ejemplo gdlR = n − IJ en el modelo 4. Podemos hallar aα y bα
tal que
P χ2(gdlR ) ≤ aα = P χ2(gdlR ) ≥ bα = α/2.
15
El I.C. con nivel α para σ 2 será entonces:
VNE VNE
≥ σ2 ≥
bα aα
I.C. para las medias Utilizamos que

y ij• − mij
T = p 2 ∼ t (gdlR )
sR /K

(gdl ) (gdl )
Utilizando el cuantil tα/2 R de la distribución de Student: P T ≥ tα/2 R =
α/2, obtenemos el I.C. con nivel α para la media mij :
q q
(gdl ) (gdl )
y ij• + tα/2 R s2R /K ≥ mij ≥ y ij• − tα/2 R s2R /K
1.2.6 Contraste múltiples: método de Bonferroni

Suponemos que I = 3 y queremos hacer los tres contrastes siguiente sobre
las medias mi2 (cantidad media de cerveza bebida por las chicas del curso
i) :
H01 : m12 = m22 frente a H11 : m12 6= m22
H02 : m12 = m32 frente a H12 : m12 6= m32
H03 : m22 = m32 frente a H13 : m22 6= m32
Para cada uno de esos contrastes, construimos un test con nivel α = 5% (ver
sección “Análisis de las diferencias entre medias”).
Para r = 1, 2, 3, Sea Cr el suceso “Rechazar H0r cuando H0 es cierto”, por

construcción del test, tenemos:
P (Cr ) = α
Por tanto, la probabilidad de que se acepte conjuntamente la tres hipótesis

cuando H0 es cierto será (caso independiente):

P C1 ∩ C2 ∩ C3
= P (C1 )P (C2 )P (C3 )
= (1 − α)3 = 0.953 ' ¡0.85!
16
Método de Bonferoni: Denotamos C el suceso “Rechazar al menos una
hipótesis nula H0r cuando H0 es cierto”. Entonces C será la unión:
C = C1 ∪ C2 ∪ C3
Puesto que las regiones de rechazo Cr no son necesariamente incompati-

bles, tenemos que
αT = P (C) = P (C1 ∪ C2 ∪ C3 )
≤ P (C1 ) + P (C2 ) + P (C3 ) = 3α
Por tanto, si se pretende garantizar un riesgo αT = 5%, tendremos que fijar

α tal que α = αT /3.
De manera general, si hacemos un contraste múltiple con p contrastes

tendremos que elegir
αT
α=
p
Comentario: ¡Este método es muy conservador! : α puede ser muy pequeño.
1.3 Modelos en Bloques

Objetivo: Reducir la varianza residual para mejorar la “visibilidad” de los
efectos de los factores de interés, introduciendo un factor cuyo efecto sobre
la variable Y no es de interés. Llamamos este tipo de factor: variable bloque.
Comentarios: En el modelo, se supone que no hay interacción entre las
variables bloques y los factores.de interés
Ejemplo: Supongamos que el importe de la factura de telefono mensual
(en Euros) utilizando dos operadoras distintas (O1 y O2). Disponemos de
los datos siguientes:
O1 O2
120; 230; 45; 65; 200; 100 20; 105; 40; 180; 155; 75
La varianza residual es tán grande (σ 2 ' 3000), que será muy dificil rechazar
la hipótesis H0 : m1 = m2 cuando es falsa. De hecho, obtenemos la tabla
17
ADEVA siguiente:
Fuentes de
Suma de cuad. Gr. de lib. Varianzas Fb pb
Variaciones
Operadora 2852.08 1 2852.08 0.60 0.45
Residual 47254.17 10 4725.41
Para reducir la varianza residual, introducimos la variable bloque ”taza diaria

de llamadas” con 3 niveles: baja,media,alta. Obtenemos la tabla de datos
siguiente donde las diferencias entre operadoras son más visibles:
O1 O2
Baja 45; 65 20; 40
Media 100; 120 75; 105
Alta 200; 230 155; 180
Vemos en la tabla ADEVA siguiente, que el factor Operadora es ahora sig-

nificativo
Fuentes de
Suma de cuad. Gr. de lib. Varianzas Fb pb
Variaciones
Operadora 2852.08 1 2852.08 10.18 0.013
Taza 45012.5 2 22506.25 80.32 5.10−6
Residual 2241.67 8 280.21
1.4 Modelos con efectos aleatorios.

En los modelos anteriores con uno o dos factores, los efectos fueron prefijados.
Si queremos alcanzar un grado de generalidad superior para un cierto factor
tenemos que suponer que sus efectos son aleatorios. Ası́ en el estudio sobre la
cantidad de cerveza consumida por los alumnos, podemos considerar que los
cursos han sido elegidos al azar. Con este tipo de diseño podremos extender
nuestra interpretación a cualquier curso.
La formulación del modelo es idéntica, pero en el modelo de efectos fijos,
estimamos medias, y en el de efectos aleatorios, varianzas. En el primero,
los efectos αi , β j , γ ij ..., etc representan la respuesta media, y son parámetros
fijos a estimar; en el de efectos aleatorios, son variables aleatorias normales
independientes de media cero y varianza σ 2α , σ 2β , σ 2γ , siendo estas varianzas el
parámetro a estimar.
18
Efectos fijos Efectos aleatorios
yP
ij = µ + αi + εij yij = µ + αi + εij
Modelo
αi = 0 αi ∼ N (0, σ 2α )
Los efectos parámetros variables
αi son desconocidos aleatorias
Los efectos en la respuesta
en la varianza
influyen media
Se pretende estimar los αi Estimar σ 2α
se fijan se selecionan
Los niveles αi
arbitrariamente al azar
La hipotesis
αi = 0 σ 2α = 0
H0 es
La descomposición de la variabilidad en fuentes de variaciones y la tabla

ADEVA se realiza igual en ambos tipos de modelos y, si no existe interacción,
los tests de que un factor no influye son idénticos..
ADEVA
P
Fuente cuadrados gdl varianza F P
Sexo 1.933 1 1.933 32.231 0.0001
Curso 0.071 2 0.035 0.592 0.568
Curso*Sexo 1.017 2 0.508 8.481 0.005
residual 0.720 12 0.060
Test de interacción: H0 : σ 2Curso∗Sexo = 0

El estadı́stico utilizado para el test es el mismo que en el modelo con
efectos fijos. Por tanto, F = 0.508
0.060
= 8.481 conviene para contrastar la inter-
acción.
Dos casos:
• La interacción es significativa (es el caso aquı́ P < 0.05) y seguimos la

análisis
• La interacción no es significativa, entonces quitamos la interacción y

volvemos a estimar los parámetros.
19
Test del efecto Curso: H0 : σ 2Curso = 0
Igual que en el modelo con efectos fijos, calculamos el F correspondiente
. En nuestro ejemplo, este efecto no es significativo.
Test del efecto sexo: H0 : β 1 = β 2

¡ El estadı́stico utilizado aquı́ no es el bueno !
Dos casos:
s2
- la interacción es significativa: F = s2 Sexo que comparamos con
Curso∗Sexo
1−α
f(J−1,(I−1)(J−1)) .
- la interacción no es significativa, utilizamos el F habitual en el modelo
estimado sin interacción.
Comparación de modelos con interacciones

Esperanza var.
Fuente S.C. gdl Varianza
α, β fijos
P 2
2 JK α
Factor α VE(α) I − 1 sα σ 2 + I−1i i
IK j β 2j
P
Factor β VE(β) J −1 s2β σ2 + J−1
K i,j γ 2ij
P
factor γ VE(γ) (I − 1)(J − 1) s2γ σ2 + (I−1)(J−1)
residual VNE n − IJ s2R σ2
Total VT n−1
Esperanza Esperanza
α, β aleat. α aleat, β fijo
σ 2 + JKσ 2α + Kσ 2γ σ 2 + JKσ 2α
σ 2 + IKσ 2β + Kσ 2γ σ 2 + IKσ 2β + Kσ 2γ
σ 2 + Kσ 2γ σ 2 + Kσ 2γ
σ2 σ2
20
1.5 Dos ejemplos
1.5.1 Análisis con un solo factor (Alturas de árboles)
Bosque 1 Bosque 2 Bosque 3

24.73 24.88 24.58
28.22 27.40 24.33
27.22 27.76 21.99
25.11 26.67 22.76
26.12 26.96 22.91
26.16 25.39 21.16
24.08 26.09 23.67
26.49 26.13 23.17
25.84 25.17 25.49
26.78 25.44 23.72
27.33 26.43
25.93 24.83
27.35 24.21
25.30
Pnni i 13 14 10
yij 341.36 362.66 233.78
Pj=1
ni 2
j=1 yij 8979.74 9408.65 5479.81
Donde yij es la altura del j esimo árbol en el iesimo bosque. Sea mi la altura
media en el iesimo bosque.
Preguntas:
1. ¿La altura media de un árbol depende del bosque al cual pertenece?
Contrastar la hipótesis de igualdad de medias: H0 : m1 = m2 = m3
con un nivel de significación igual al 5%.
2. Dar un intervalo de confianza del 99% para la altura media en cada
bosque.
Soluciones:
1. El modelo que aquı́ consideramos es: para i = 1, . . . , 3 y j = 1, . . . , ni
yij = mi + εij
= µ + αi + εij ,
21
donde εij ∼ N (0, σ 2 ).
(a) Validación del modelo: Verificamos que la hipótesis de homocedas-

ticidad (la varianza residual es constante en cada bosque) es ra-
zonable. Sea
ni
1 X
b2i
σ = (yij − y i• )2
ni j=1
ni
!
1 X
= y 2 − y 2i•
ni j=1 ij
es el estimador de la varianza de las alturas en iesimo bosque.

Obtenemos que σ b21 = 1.24, σ
b22 = 1.02, σ
b23 = 1.45. Estas varianzas
son semejantes, aceptamos la hipótesis de homocedasticidad: σ 21 =
σ 22 = σ 23 = σ 2 .
(b) Estimación de los parámetros del modelo: Obtenemos que µ b = 25.35,
P3
α
b 1 = 0.91, α b 3 = −1.97, y la restricción i=1 ni α
b 2 = 0.56, α bi = 0
se cumple.
(c) Calculo de los indicios de variabilidad: Tenemos que
3
X
VE = ni (y i• − y •• )2
i=1
X3
= b 2i
ni α
i=1
= 53.89
y
V NE = V T − V E
donde
ni
3 X
X
VT = (yij − y •• )2
i=1 j=1
ni
3 X
!
X
= yij2 − ny 2••
i=1 j=1
= 98.81
22
Deducimos que V N E = 44.93.
(d) Tabla Adeva
Fuentes de P
de cuad.. gdl Varianzas F
Variaciones
Factor α 53.89 2 s2α = 26.94 Fb = 20.39
Residual 44.93 34 s2R = 1.32
Total 98.81 36
95% 95%
Puesto que f2,34 = 4.1, tenemos que Fb > f2,34 , por tanto rechaz-
amos H0 para un nivel α = 5%.
2. Sabemos que para cada i = 1, 2, 3, y i• sigue una normal N (mi , σ 2 /ni ).

Por tanto, el estadı́stico
y i• − mi
T = p
s2R /ni
sigue una distribución de Student t(n − I). Consultando la tabla de la
Student, obtenemos que t34 0.005 ' 2.72, deducimos que:
• Con probabilidad 99%, m1 ∈ [25.39, 27.12]

Observamos que la tercera media es significativamente diferente de las

demás (nivel de significación α ≤ 3%, ver metódo de Bonferoni).
1.5.2 Análisis con dos factores

Modelo sin replicación (K = 1)
1a clase 2a clase 3a clase

Hombres 0.33 0.08 0.16 0.19
Mujeres 0.97 0.86 0.48 0.77
0.65 0.47 0.32 0.48
Proporción de supervivientes de la catástrofe del Titanic
Preguntas:
23
1. Contrastar el efecto del factor Sexo y del factor Clase (nivel α = 10%),
suponiendo que no hay interacción
2. Dar un intervalo de confianza del 95% para la varianza residual.
Soluciones:
1. El modelo es para i = 1, . . . , 3, j = 1, . . . , 2
yij = mij + εij

= µ + αi + β j + εij
donde α es el factor clase y β el factor sexo. Obtenemos la tabla

ADEVA
Fuentes de P
de cuad. gdl. Varianzas F
Variaciones
Factor α 0.1092 2 s2α = 0.0546 Fb = 1.964
Factor β 0.5046 1 s2β = 0.5046 Fb = 18.151
Residual 0.0556 2 s2R = 0.0278
Total 0.6694 5
90% 90%
tenemos que f2,2 = 9 y f1,2 = 8.526 por tanto aceptamos H0 : αi = 0
y rechazamos H0 : β j = 0.
2. Puesto que χ22,0.025 = 7.378 y χ22,0.975 = 0.051 deducimos que el intervalo

de confianza del 95% para σ 2 es [0.0075, 1.09] .
Modelo con replicación (K > 1)
Africa oriental Europa Asia Central

46 74 46
Hombres 45 75 59
44 75 58
47 81 44
Mujeres 48 81 59
48 83 57
Esperanza de vida
24
Preguntas:
1. Contrastar la interacción entre el factor sexo y continente (nivel α =

10%).
2. Dar un intervalo de confianza del 95% para la varianza residual.
Solución
1. El modelo es para i = 1, . . . , 3, j = 1, . . . , 2
yij = mij + εij

= µ + αi + β j + γ ij + εij
donde α es el factor continente, β el factor sexo, y γ el factor de inter-

acción
(a) Estimación
m
b ij Africa oriental Europa Asia Central
Hombres 45 74.67 54.33 58
Mujeres 47.66 81.67 53.33 60.89
46.33 53.83 78.17 59.44
(b) Obtenemos la tabla ADEVA
Fuentes de P
de cuad. gdl. Varianzas F
Variaciones
Factor α 3323.44 2 s2α = 1661.72 Fb = 81.95
Factor β 37.56 1 s2β = 37.56 Fb = 1.85
Factor γ 48.11 2 s2γ = 24.05 Fb = 1.19
2
Residual 243.33 12 sR = 20.29
Total 3642.44 17
95% 95%
tenemos que f2,12 = 3.88 y f1,12 = 4.74 por tanto aceptamos
H0 : γ ij = 0: el factor de interacción no es significativo. Luego,
aceptamos H0 : β j = 0 y rechazamos H0 : αi = 0, o sea, el
factor sexo no tiene un efecto significativo y en cambio, el factor
continente si.
25

Analisis

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis

Cargado por

Copyright:

Formatos disponibles

1 El Análisis de Varianza

Objetivo: Explicar (controlar) las variaciones de una v.a. Y continua

1.1 Análisis con un solo factor

m1 el valor medio de Y con la operadora 1.

m2 el valor medio de Y con la operadora 2.

m3 el valor medio de Y con la operadora 3.

PREGUNTA: ¿ m1 = m2 = m3 ?Disponemos de datos que corresponden

Operadora 1 Operadora 2 Operadora 3

• Y =”Gasto anual de teléfono” es una variable cuantitativa.

• La Operadora es una variable cualitativa con la cual queremos explicar

• yij valor observado de Y para el j esimo cliente de la iesima operadora,

• y i• media observada de Y para la iesima operadora; y 2• = 864.

• y •• media global observada de Y (media de las medias); y •• = 13 (y 1• + y 2• + y 3• ) =

Indicios para medir la variabilidad:

Descomposición de la variabilidad total:

Con los datos precedentes, obtenemos los valores

• Las desviaciones están centradas: E(εij ) = 0, para cualquier i, j.

• Homocedasticidad: Var(εij ) = σ 2 , para cualquier i, j.

• No correlación: E(εij εik ) = 0, para cualquier i, j, k.

• Normalidad: εij tiene una distribución normal, para cualquier i, j.

Otra formulación del modelo:

• αi = mi − µ es el efecto del iesimo nivel del factor.

Con esta nueva formulación nuestra pregunta se puede escribir:

Propiedad de los estimadores: Bajo las hipótesis del modelo, tenemos

• y i• es una combinación lineal de variables normales, por tanto es también

Por tanto, tenemos que

• obtener las varianzas.

Estimación de las varianzas:

calculada con I − 1 variables linealmente independientes, puesto

V N E estáPcalculada con n − I variables linealmente independientes, puesto

Además se puede demostrar que V E y V N E son independientes.

1.1.4 El contraste de igualdad de medias

Rechazaremos H0 cuando el factor explica “poca” variabilidad. Basamos

y rechazaremos H0 cuando F es “grande”.

Pero ¿Cómo de grande?

Bajo las condiciones sobre las desviaciones εij (independencia, homo-

Tabla ADEVA: Se resume la descomposición de la variabilidad de los

Con los datos anteriores obtenemos:

Coeficiente de determinación: Una medida relativa de la variabilidad

Análisis de las diferencias entre medias Si la hipótesis de igualdad de

Por consiguiente, deducimos el intervalo de confianza 1 − α de la diferencia

1.2 Análisis con dos factores

• ¿Los chicos beben mas que las chicas?

• ¿Los alumnos de Economı́a y Derecho beben mas que los alumnos de

• ¿Existe una ”interacción” entre sexo y curso?

Derecho Economı́a Ad. & Emp.

Derecho Economı́a Ad. & Emp.

• y ij• media observada de Y en la categorı́a de los alumnos del curso i y

• y i•• media observada de Y en la categorı́a de los alumnos del curso i ;

• y •j• media observada de Y en la categorı́a de los alumnos del sexo j;

• y ••• media global de Y ; y ••• = 0.86

¿Cómo varia mij con i y j?

Ahora, suponemos el modelo aditivo siguiente

yijk = µ + αi + β j + γ ij + εijk (Modelo 4)

1.2.3 Estimación de los parámetros del modelo

Por tanto, el número de parámetros linealmente independientes es:

Los estimadores de αi , β j y γ ij son:

Derecho Economı́a Ad. & Emp.

Por tanto, tenemos que

Propiedad de los estimadores: Bajo las hipótesis del modelo, tenemos

Indicios de variabilidad Deducimos la distribución de cada indicios de

• V E (α) = JK Ii=1 α b 2i y bajo la hipótesis H0 : {αi = 0, ∀i}, V E (α)/ σ 2

• V E (γ) = K Ii=1 Jj=1 γ b2ij y bajo la hipótesis H0 : γ ij = 0, ∀i, j ,