Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis
Analisis
1.1.1 Un ejemplo
Queremos estudiar la influencia de la operadora sobre el importe de nuestra
factura anual de teléfono (Y ).
Denotamos:
Vocabulario:
1
• Los factores tienen un cierto número de niveles. El factor Operadora
tiene aquı́ 3 niveles.
Notaciones:
Variabilidad no explicada:
ni
I X
X
V NE = (yij − y i• )2
i=1 j=1
V E = 22230, V N E = 15453.33
V T = 22230 + 15453.33 = 37683.33
2
1.1.2 El Modelo
Para contestar a nuestra pregunta (¿m1 = m2 = m3 ?) consideramos que
cada dato observado yij es igual al valor medio en el nivel del factor que le
corresponde (mi ) más una desviación aleatoria εij (o perturbación) respecto
a este valor medio: Para i = 1, . . . , I y j = 1, . . . , ni tenemos
yij = mi + εij
Supondremos que las desviaciones εij = yij − mi , verifican las hipótesis sigu-
ientes:
yij = µ + αi + εij ,
donde
1
PI
• µ= n i=1 ni mi es el efecto global (o medio).
¿α1 = α2 = α3 = 0?
3
1.1.3 Estimación de los parámetros del modelo
El modelo depende de I + 1 parámetros: Las I medias mi , y la varianza
común σ 2 .
Para estimar estos parámetros utilizamos el criterio de mı́nimos cuadrados
(minimizar las desviaciones): Para cada i = 1, . . . , I,
ni
X
m
b i valor de mi que mı́nimiza (yij − mi )2 ,
j=1
Obtenemos:
• m
b i = y i•
Deducimos que
• µ
b = y ••
• α
bi = m b = y i• − y •• (en el ejemplo: α
bi − µ b 1 = −45.33 y α
b 2 = 20.66)
4
Estimación de los residuos: Las desviaciones observadas eij (residuos
del modelo) se calculan por:
eij = yij − m
bi
= yij − y i•
I
X
VE = b 2i
ni α
i=1
XI Xni
V NE = e2ij
i=1 j=1
Grados de libertad:
Definición: Número de variables linealmente independientes utilizadas
para describir una dispersión..
Utilidad: Números con los cuales es necesario dividir los indicios de
variabilidad (VE;VNE) para
• compararlos.
Por consiguiente,
5
• La varianza explicada por el modelo σ 2e (o varianza inter-niveles) está
estimada por
VE
s2e =
I −1
• La varianza no explicada por el modelo σ 2R (o varianza residual) está
estimada por
V NE
s2R =
n−I
O de manera equivalente,
H0 : {α1 = α2 = . . . = αI = 0}
frente a
H1 : {Existe i, tal que αi 6= 0.}
6
Por tanto rechazamos H0 si
1−α
F > f(I−1,n−I) ,
α 1−α
donde α es el nivel (o tamaño) del test y f(I−1,n−I) el valor tal que P F > f(I−1,n−I) |H0 es cierto =
α.
Fuentes de
Suma de cuad. Gr. de lib. Varianzas F
Variaciones
Entre VE s2e
VE I −1 s2e = I−1
F = s2R
niveles
Interna V NE
V NE n−I s2R = n−I
o residual
VT
Total VT n−1 s2y = n−1
Fuentes de
Suma de cuad. Gr. de lib. Varianzas F
Variaciones
Entre
15453.33 2 7726.66 4.17
niveles
Interna
22230.00 12 1852.50
o residual
Total 37683.33 14 2691.66
0.05
Para α = 5%, consultando la tabla de la Fisher(2, 12) , obtenemos f(I−1,n−I) =
3.885, por tanto rechazamos H0 .
7
El p−valor: Medida de la credibilidad de H0 , en nuestro ejemplo: pb =
P F > F |H0 ' .0.04
b
8
Datos (n = 18 alumnos) cantidad en litro.
Notaciones: Para i = 1, . . . , I, j = 1, . . . , J, k = 1, . . . , K (I = 3, J = 2,
K = 3) :
• yijk valor observado de Y del k esimo alumno del curso i y del sexo j, ;
y121 = 0.1.
9
1.2.2 El Modelo
Consideramos que cada dato observado yijk es igual al valor medio en su
categorı́a (mij ) más una desviación aleatoria εijk : Para i = 1, . . . , I, j =
1, . . . , I y k = 1 . . . , K, tenemos
yijk = mij + εijk (Modelo 0)
Supondremos que las desviaciones εijk = yijk − mij son independientes y
siguen una distribución normal N (0, σ 2 ). Por tanto tenemos que las obser-
vaciones yijk son independientes e yijk ∼ N (mij , σ 2 ).
Este modelo es útil para describir los datos pero no permite contestar a
nuestro problema:
Varios modelos:
Suponemos que
yijk = µ + αi + εijk (Modelo 1)
donde mij = µ + αi .
Con el Modelo 1, estamos suponiendo que el factor Sexo no tiene un efecto
sobre Y (no explica sus variaciones).
Suponemos que
yijk = µ + β j + εijk (Modelo 2)
donde mij = µ + β j .
Con el Modelo 2, estamos suponiendo que el factor Curso no tiene un efecto
sobre Y .
10
Modelo con interacciones: Suponemos que
donde mij = µ + αi + β j + γ ij .
Los términos de interacción γ ij se denotan también γ ij = (αβ)ij .
Obtenemos mb ij = y ij• .
Los parámetros αi , β j y γ ij verifican las restricciones:
PI PJ
i=1 αi = 0. β j = 0.
PI Pj=1
J
i=1 γ ij = 0, para cada j. j=1 γ ij = 0, para cada i.
1
|{z} + (I − 1) + (J − 1) + (I − 1)(J − 1) = |{z}
IJ
| {z } | {z } | {z }
µ αi βj γ ij mij
• µ
b = y •••
• α
b i = y i•• − y •••
• β
bj = y •j• − y •••
• γ
bij = y ij• − y i•• − y •j• + y •••
11
Aplicación numérica:
γ b21 = −0.24 γ
b11 = 0.32 γ b31 = −0.08 β
b = 0.33
1
b12 = −0.32 γ
γ b22 = 0.24 γ
b32 = 0.08 b2 = −0.33
β
b 1 = −0.04 α
α b 2 = −0.04 α
b 3 = 0.08 µ
b = 0.86
12
P b2
• V E (β) = IK Jj=1 β
i y bajo la hipótesis H0 : β j = 0, ∀j , V E (β)/ σ 2
sigue un χ2 (J − 1).
X
VT = (yijk − y ••• )2
i,j,k
= V E(α) + V E(β) + V E(γ) + V N E
H0 : “No
hay interacciones” H1 :
“Hay interacciones”
frente a
γ ij = 0, ∀i, j ∃i, j, γ ij 6= 0
13
Bajo H0 , el estadı́stico
s2γ
F = s2R
Fuentes de P
de cuad. gdl Varianzas F
Variaciones
V E(α) s2α
Efecto α V E(α) I-1 s2α = I−1
Fb = s2R
V E(β) s2β
Efecto β V E(β) J-1 s2β = J−1
Fb = s2R
Efecto de V E(γ) s2γ
V E(γ) (I-1)(J-1) s2γ = (I−1)(J−1)
Fb = s2R
interacción
Interna V NE
V NE n-IJ s2R = n−IJ
o residual
VT
Total VT n-1 s2y = n−1
14
p-valor: pb = P F > Fb |H0
Fuentes de P
de cuad. gdl Varianzas F
Variaciones
V E(α) s2α
Efecto α V E(α) I-1 s2α = I−1
Fb = s2R
V E(β) s2β
Efecto β V E(β) J-1 s2β = J−1
Fb = s2R
Interna V NE
V NE n-(I+J)+1 s2R = n-(I+J)+1
o residual
VT
Total VT n-1 s2y = n−1
Aquı́ gdlR = n − (I + J) + 1. Por tanto, los tests para contrastar los efectos
de cada factor son:
15
El I.C. con nivel α para σ 2 será entonces:
VNE VNE
≥ σ2 ≥
bα aα
Para cada uno de esos contrastes, construimos un test con nivel α = 5% (ver
sección “Análisis de las diferencias entre medias”).
16
Método de Bonferoni: Denotamos C el suceso “Rechazar al menos una
hipótesis nula H0r cuando H0 es cierto”. Entonces C será la unión:
C = C1 ∪ C2 ∪ C3
αT = P (C) = P (C1 ∪ C2 ∪ C3 )
≤ P (C1 ) + P (C2 ) + P (C3 ) = 3α
O1 O2
120; 230; 45; 65; 200; 100 20; 105; 40; 180; 155; 75
La varianza residual es tán grande (σ 2 ' 3000), que será muy dificil rechazar
la hipótesis H0 : m1 = m2 cuando es falsa. De hecho, obtenemos la tabla
17
ADEVA siguiente:
Fuentes de
Suma de cuad. Gr. de lib. Varianzas Fb pb
Variaciones
Operadora 2852.08 1 2852.08 0.60 0.45
Residual 47254.17 10 4725.41
O1 O2
Baja 45; 65 20; 40
Media 100; 120 75; 105
Alta 200; 230 155; 180
18
Efectos fijos Efectos aleatorios
yP
ij = µ + αi + εij yij = µ + αi + εij
Modelo
αi = 0 αi ∼ N (0, σ 2α )
Los efectos parámetros variables
αi son desconocidos aleatorias
Los efectos en la respuesta
en la varianza
influyen media
Se pretende estimar los αi Estimar σ 2α
se fijan se selecionan
Los niveles αi
arbitrariamente al azar
La hipotesis
αi = 0 σ 2α = 0
H0 es
ADEVA
P
Fuente cuadrados gdl varianza F P
Sexo 1.933 1 1.933 32.231 0.0001
Curso 0.071 2 0.035 0.592 0.568
Curso*Sexo 1.017 2 0.508 8.481 0.005
residual 0.720 12 0.060
19
Test del efecto Curso: H0 : σ 2Curso = 0
Igual que en el modelo con efectos fijos, calculamos el F correspondiente
. En nuestro ejemplo, este efecto no es significativo.
Esperanza Esperanza
α, β aleat. α aleat, β fijo
σ 2 + JKσ 2α + Kσ 2γ σ 2 + JKσ 2α
σ 2 + IKσ 2β + Kσ 2γ σ 2 + IKσ 2β + Kσ 2γ
σ 2 + Kσ 2γ σ 2 + Kσ 2γ
σ2 σ2
20
1.5 Dos ejemplos
1.5.1 Análisis con un solo factor (Alturas de árboles)
21
donde εij ∼ N (0, σ 2 ).
22
Deducimos que V N E = 44.93.
(d) Tabla Adeva
Fuentes de P
de cuad.. gdl Varianzas F
Variaciones
Factor α 53.89 2 s2α = 26.94 Fb = 20.39
Residual 44.93 34 s2R = 1.32
Total 98.81 36
95% 95%
Puesto que f2,34 = 4.1, tenemos que Fb > f2,34 , por tanto rechaz-
amos H0 para un nivel α = 5%.
Preguntas:
23
1. Contrastar el efecto del factor Sexo y del factor Clase (nivel α = 10%),
suponiendo que no hay interacción
Soluciones:
1. El modelo es para i = 1, . . . , 3, j = 1, . . . , 2
Esperanza de vida
24
Preguntas:
Solución
1. El modelo es para i = 1, . . . , 3, j = 1, . . . , 2
(a) Estimación
m
b ij Africa oriental Europa Asia Central
Hombres 45 74.67 54.33 58
Mujeres 47.66 81.67 53.33 60.89
46.33 53.83 78.17 59.44
Fuentes de P
de cuad. gdl. Varianzas F
Variaciones
Factor α 3323.44 2 s2α = 1661.72 Fb = 81.95
Factor β 37.56 1 s2β = 37.56 Fb = 1.85
Factor γ 48.11 2 s2γ = 24.05 Fb = 1.19
2
Residual 243.33 12 sR = 20.29
Total 3642.44 17
95% 95%
tenemos que f2,12 = 3.88 y f1,12 = 4.74 por tanto aceptamos
H0 : γ ij = 0: el factor de interacción no es significativo. Luego,
aceptamos H0 : β j = 0 y rechazamos H0 : αi = 0, o sea, el
factor sexo no tiene un efecto significativo y en cambio, el factor
continente si.
25