Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Regresión
Felipe Osorio
Departamento de Matemática, Universidad Técnica Federico Santa Marı́a
Índice general
Prefacio v
Capı́tulo 1. Preliminares 1
1.1. Vectores Aleatorios 1
1.2. Operadores de esperanza y covarianza 3
1.3. Independencia de vectores aleatorios 8
1.4. Cambios de variable 9
1.5. Distribución normal multivariada 9
1.6. Alternativas a la distribución normal multivariada 16
1.7. Algunas distribuciones no centrales 21
1.8. Distribución de formas cuadráticas 24
Ejercicios 31
Bibliografı́a 117
Prefacio
Felipe Osorio
Valparaı́so, Agosto 2021.
v
Capı́tulo 1
Preliminares
Sea F la función de distribución del vector aleatorio X. Entonces, existe una función
no-negativa f tal que
Z x
F (x) = f (u) du, x ∈ Rn ,
−∞
en este caso decimos que X es un vector aleatorio contı́nuo con función de densidad
f . Por el teorema fundamental del Cálculo, tenemos que
∂ n F (x)
f (x) = .
∂x1 · · · ∂xn
Además, considere R̄ = R ∪ {±∞}, para x, y vectores en R̄n , entonces
x≤y esto es, xi ≤ yi , para i = 1, . . . , n.
1
2 1. PRELIMINARES
I = (a, b] = {x ∈ Rn : a < x ≤ b}
para todo a, b ∈ R̄n . Entonces, también por el teorema fundamental del Cálculo,
tenemos que si
∂ n F (x)
f (x) = .
∂x1 · · · ∂xn
existe y es continua (casi en toda parte) sobre un rectángulo I, entonces
Z
P(x ∈ A) = f (x) dx, ∀A ⊂ I.
A
Note que, las funciones de distribución marginal pueden ser recuperadas desde la
distribución conjunta mediante
de este modo
m X
n
!
X
E(AZB + C) = (E(Yij )) = air E(Zrs )bsj + cij
r=1 s=1
= A E(Z)B + C.
Suponga que Z es una matriz aleatoria n × p cuyas filas son vectores aleatorios
independientes p × 1, cada uno con la misma matriz de covarianza Σ. Considere la
partición
Z > = (Z 1 , . . . , Z n ),
donde Cov(Z i ) = Σ, para i = 1, . . . , n. Tenemos que
Z1
> ..
vec(Z ) = . ,
Zn
y dado que todos los Z i son independientes con la misma matriz de covarianza,
podemos escribir
Σ 0 ... 0
0 Σ . .. 0
Cov(vec(Z > )) = . .. = I n ⊗ Σ.
.. . .
.. . . .
0 0 ... Σ
Ahora suponga que llevamos a cabo la transformación lineal Y = AZB, donde
A ∈ Rr×n , B ∈ Rp×q son matrices de constantes. Entonces E(Y ) = A E(Z)B,
mientras que
vec(Y > ) = (A ⊗ B > ) vec(Z > ),
de modo que
E(vec(Y > )) = (A ⊗ B > ) E(vec(Z)> ).
Lo que lleva a calcular fácilmente la matriz de covarianza
Cov(vec(Y > )) = (A ⊗ B > ) Cov(vec(Z > ))(A ⊗ B > )>
= (A ⊗ B > )(I n ⊗ Σ)(A> ⊗ B)
= AA> ⊗ B > ΣB.
R = D −1/2 ΣD −1/2 .
Cada elemento de la diagonal de R es igual a 1, mientras que sus elementos fuera
de la diagonal están entre −1 y 1. Además se desprende desde la definición que R
es una matriz semidefinida positiva.
Resultado 1.12. Sea X vector aleatorio p-dimensional con E(X) = µ y Cov(X) =
Σ. Sea A una matriz p × p. Entonces
E(X > AX) = tr(AΣ) + µ> Aµ.
1.2. OPERADORES DE ESPERANZA Y COVARIANZA 7
Demostración. Tenemos
E(X > AX) = E(tr X > AX) = E(tr AXX > )
= tr E(AXX > ) = tr A E(XX > )
= tr A(Σ + µµ> ) = tr(AΣ) + µ> Aµ.
Ejemplo 1.13. Sea 1n = (1, . . . , 1)> vector n-dimensional cuyos componentes son
todos 1. Note que, 1> >
n 1n = n. Considere el vector aleatorio X = (X1 , . . . , Xn ) ,
entonces
X n Xn
X >X = Xi2 , 1> X = Xi .
i=1 i=1
De este modo, tenemos
n n 1 2
X X 2
(Xi − X)2 = Xi2 − nX = X > X − n 1> X
i=1 i=1
n
1 1 1 > >
= X > X − n 1> X 1> X = X > X − X 11 X
n n n
1
= X > I − J n X, J n = 1n 1>
n
n
Llamaremos a C = I − n1 J n la matriz de centrado. Suponga que X1 , . . . , Xn son
variables aleatorias independientes e idénticamente distribuı́das con media µ y va-
rianza σ 2 . Sigue que,
E(X) = µ1n , Σ = σ2 I n ,
pues Cov(Xi , Xj ) = 0 (i 6= j). Por tanto, podemos usar el Resultado (1.12) para
calcular la esperanza de la variable aleatoria,
n
X
Q= (Xi − X)2 = X > CX,
i=1
obteniendo
E(Q) = σ 2 tr(C) + µ2 1> C1.
Es fácil verificar que
1 1 1
tr(C) = tr I − 11> = tr(I) − tr(11> ) = n − 1> 1 = n − 1,
n n n
1 1
C1 = I − 11> 1 = 1 − 11> 1 = 1 − 1 = 0,
n n
de donde sigue que E(Q) = σ 2 (n − 1).
en cuyo caso escribimos Z ∼ N(0, 1). Más generalmente una variable aleatoria
Y ∈ R tiene distribución normal con media µ ∈ R y varianza σ 2 ≥ 0 si
d
Y = µ + σZ, Z ∼ N(0, 1),
en cuyo caso escribimos Y ∼ N(µ, σ 2 ). Cuando σ 2 = 0, la distribución N(µ, σ 2 ) se
interpreta como una distribución degenerada en µ. Si Y ∼ N(µ, σ 2 ), entonces su
función caracterı́stica adopta la forma
ϕ(t) = exp itµ − 21 σ 2 t2 , t ∈ R.
10 1. PRELIMINARES
Considere
X = µ + BZ,
donde B ∈ R p×r
con rg(B) = r, tal que Σ = BB > y µ ∈ Rp . De este modo, X
tiene función caracterı́stica
ϕX (t) = E{exp(it> X)} = E{exp(it> (µ + BZ))}
= exp(it> µ) E{exp(it> BZ)} = exp(it> µ)ϕZ (h), h = B>t
= exp(it> µ) exp(− 12 t> BB > t) = exp(it> µ − 12 t> Σt).
1.0
0.15 0.16
0.14
0.8
0.12
0.10
8
0.0
0.12 0.10
0.6
0.14
0.1
0.08
0.4
0.06
0.05
0.06
0.04
0.04
0.2
0.02
0.02
0.00
0.0
0.18
0.15
0.16
0.8
0.14
0.06
2
0.0
0.0
0.12
8
4
0.0
0.6
0.14
0.10
0.10
6
0.1
0.08
0.4
0.1
0.12
0.06
0.05
0.04
0.2
0.02
0.00
0.0
0.25 0.28
0.26
0.24
0.8
0.18 0.18
0.6
2
0.0
0.15 0.22
0.24
0.16
6
0.1
0.14
0.2
0.12
0.4
4
0.0
0.10
0.10
0.1
0.1
4
0.12
0.08
0.06
0.2
0.05
0.04
0.02
0.0
0.00
0.00
0.0 0.2 0.4 0.6 0.8 1.0
U>
1 (Y − µ) ∼ Nr (0, Λ1 ).
sigue que Σ12 B > = BΣ22 B > (y análogamente BΣ21 = BΣ22 B > ). Esto es, si B es
escogida como B = Σ12 Σ− 22 , entonces Y 1 y Y 2 son independientes con distribución
conjunta
X 1 − Σ12 Σ− µ1 − Σ12 Σ−
Y1 22 X2 22 µ2 Σ11·2 0
= ∼ Np , .
Y2 X2 µ2 0 Σ22
Esto muestra la parte (a). Para notar la parte (b), note que las densidades de Y 1
y Y 2 están dadas por
g(y 1 ; δ 1·2 , Σ11·2 ) = |2πΣ11·2 |−1/2 exp{− 12 (y 1 − δ 1·2 )> Σ−1
11·2 (y 1 − δ 1·2 )}
Este resultado permite obtener una condición para la independencia entre dos for-
mas lineales en variables aleatorias normales, estos es Y 1 y Y 2 serán independientes
si y sólo si A1 ΣA>
2 = 0.
Resultado 1.43. Sea ψ(t> t) la función caracterı́stica del vector aleatorio X. En-
tonces X tiene representación estocástica
d
X = R U,
donde U ∼ U(Sp ) y R ∼ F (X) son independientes.
d
Resultado 1.44. Suponga que X = R U ∼ Sp (ψ) (P(X = 0) = 0), entonces
d X d
kXk = R, = U.
kXk
Además kXk y X/kXk son independientes.
18 1. PRELIMINARES
0.15
0.07
0.06
0.10 0.05
0.04
0.05 0.03
0.02
0.5
0.14
0.12 0.4
0.10
0.3
0.08
0.06 0.2
0.04
0.1
0.02
0.0
En este caso, tenemos que h(w) = νwν−1 , para w ∈ (0, 1) y ν > 0. Es decir
W ∼ Beta(ν, 1).
Observación 1.57. Un vector aleatorio X ∼ SMNp (µ, Σ; H) admite la represen-
tación
d
X = µ + W −1/2 Z,
donde Z ∼ Np (0, Σ) y W ∼ H(ν) son independientes. También podemos utilizar
la siguiente estructura jerárquica:
X|W ∼ Np (µ, Σ/W ), W ∼ H(ν).
1.7. ALGUNAS DISTRIBUCIONES NO CENTRALES 21
La representación en (1.6) es muy útil para obtener los momentos de una variable
aleatoria con distribución chi-cuadrado no central. En efecto, el valor esperado de
U ∼ χ2 (p; λ) es dado por
E(U ) = E{E(U |Z)} = E{p + 2Z} = p + 2 E(Z) = p + 2λ,
mientras que la varianza de U puede ser calculada como
var(U ) = E{var(U |Z)} + var{E(U |Z)}
= E{2(p + 2Z)} + var(p + 2Z)
= 2p + 4λ + 4λ = 2p + 8λ.
que sigue una distribución chi-cuadrado con k grados de libertad. Para el parámetro
de no centralidad θ, note que
E{χ2 (k; θ)} = k + 2θ = E(X > AX) = tr(E(XX > )A)
= tr((I + µµ> )A) = k + µ> Aµ,
y de ahı́ que θ = 21 µ> Aµ.
1.8. DISTRIBUCIÓN DE FORMAS CUADRÁTICAS 25
Ahora, suponga que X > AX ∼ χ2 (k; θ). Si A tiene rango r, entonces para P matriz
ortogonal p × p,
Λ1 0
P > AP = ,
0 0
con Λ1 = diag(λ1 , . . . , λr ), donde λ1 , . . . , λr son los valores propios no nulos de A.
Sea Y = P > X, entonces
X r
X > AX = Y > P > AP Y = λj Yj2 = U.
j=1
>
Tenemos que Y ∼ Np (δ, I) con δ = P µ, de modo que Yj2 ∼ χ2 (1; δj2 /2) con
función caracterı́stica
itδ 2
j
ϕYj2 (t) = (1 − 2it)−1/2 exp ,
1 − 2it
por la independencia de Y1 , . . . , Yr sigue que
r itλj δ 2
j
Y
ϕU (t) = (1 − 2itλj )−1/2 exp
j=1
1 − 2itλ j
r r
X λj δj2 Y
= exp it (1 − 2itλj )−1/2 .
j=1
1 − 2itλj j=1
>
Como X AX ∼ χ2k (θ) tiene función caracterı́stica
2itθ
ϕX > AX (t) = (1 − 2it)−k/2 exp ,
1 − 2it
entonces desde las dos expresiones anteriores debemos tener r = k, λj = 1, ∀j y
θ = j δj2 /2. Consecuentemente P > AP tiene la forma
P
> Ik 0
P AP = ,
0 0
que es idempotente. Luego
P > AP = (P > AP )(P > AP ) = P > A2 P =⇒ A2 = A.
Resultado 1.69. Si X ∼ Np (µ, Σ) donde Σ es no singular y X, µ y Σ son
particionados como
X1 µ1 Σ11 Σ12
X= , µ= , Σ= ,
X2 µ2 Σ21 Σ22
donde X 1 , µ1 son k × 1 y Σ11 es k × k. Entonces
U = (X − µ)> Σ−1 (X − µ) − (X 1 − µ1 )> Σ−1 2
11 (X 1 − µ1 ) ∼ χ (p − k).
El Resultado 1.68 se puede generalizar al caso que X tiene una matriz de covarianza
arbitraria. Suponga que X ∼ Np (0, Σ). Una condición para que X > AX tenga una
distribución chi-cuadrado es
ΣAΣA = ΣA,
en cuyo caso los grados de libertad son k = rg(AΣ). Si Σ es no singular, la condición
resulta AΣA = A.
Resultado 1.70. Si X ∼ Np (0, Σ) donde Σ tiene rango k (≤ p) y si A es una
inversa generalizada de Σ (ΣAΣ = Σ), entonces X > AX ∼ χ2 (k).
Demostración. Considere Y = BX donde B es una matriz no singular p × p tal
que
> Ik 0
BΣB = .
0 0
Particionando Y = (Y > > >
1 ,Y 2 ) donde Y 1 es un vector k × 1 sigue que Y 1 ∼
Nk (0, I) y Y 2 = 0 con probabilidad 1. Es decir, tenemos que
Y = (Y > >
1 , 0) , con probabilidad 1.
Ahora, note que
Ik 0
= BΣB > = BΣAΣB >
0 0
pues A es una inversa generalizada de Σ. De este modo,
Ik 0
= BΣB > B −> AB −1 BΣB >
0 0
Ik 0 −> −1 I k 0
= B AB .
0 0 0 0
Luego, con probabilidad uno,
−1 Y 1
X > AX = Y > B −> AB −1 Y = (Y >1 , 0)B −>
AB
0
Ik 0 Ik 0 Y1
= (Y >
1 , 0) B −> AB −1
0 0 0 0 0
Ik 0 Y1
= (Y >
1 , 0) =Y> 2
1 Y 1 ∼ χ (k).
0 0 0
1.8. DISTRIBUCIÓN DE FORMAS CUADRÁTICAS 27
O equivalentemente,
X 0 0
Bj = .
0 I m−r
j6=h
Claramente, dado que Aj es simétrica e idempotente, sigue que B j también lo es.
De modo que, sus elementos diagonales son no negativos. Además, (B j )ll = 0, para
l = 1, . . . , r. Ası́, sigue que B j debe ser de la forma
0 0
Bj = ,
0 Cj
donde C j es matriz (m−r)×(m−r), simétrica e idempotente. Ahora, para cualquier
j 6= h
> > > Ir 0 0 0
P Ah Aj P = (P Ah P )(P Aj P ) = = 0,
0 0 0 Cj
lo que es verdad, sólo si Ah Aj = 0, pues P es no singular. Notando que h es
arbitrareo, la prueba es completa.
Lema 1.77. Sean A1 , . . . , Ak matrices simétricas de orden m × m y defina
A = A1 + A2 + · · · + Ak .
Considere las siguientes afirmaciones,
(a) Ai es idempotente, para i = 1, . . . , k.
(b) A es idempotente.
(c) Ai Aj = 0, para i 6= j.
Entonces, si dos condiciones son satisfechas, la tercera condición debe ser verdadera.
Demostración. Primero mostraremos que (a) y (b) implica (c). Como A es
simétrica e idempotente, existe una matriz ortogonal P tal que
> > Ir 0
P AP = P (A1 + · · · + Ak )P = , (1.7)
0 0
donde r = rg(A).
Sea B i = P > Ai P , para i = 1, . . . , k, y note que B i es simétrica e idempotente. Es
decir, B i debe ser de la forma
Ci 0
Bi = ,
0 0
donde la matriz r × r, C i debe ser simétrica e idempotente. Por (1.7), tenemos
C1 + · · · + Ck = Ir.
30 1. PRELIMINARES
Resultado 1.79 (Teorema de Cochran). Sea X ∼ Np (µ, Σ), con Σ > 0. Suponga
que Ai , es una matriz simétrica de orden p × p con rango ri , para i = 1, . . . , k, y
A = A1 + A2 + · · · + Ak ,
es de rango r. Considere las condiciones:
(a) Ai Σ es idempotente, para i = 1, . . . , k.
(b) AΣ es idempotente.
(c) Ai ΣAj = 0, para i 6= j.
Pk
(d) r = i=1 ri .
si dos de (a), (b) y (c) se satisfacen, o si (b) y (d) son satisfechas. Entonces,
(i) X > Ai X ∼ χ2 (ri ; λi ), con λi = µ> Aµ/2, para i = 1, . . . , k.
(ii) X > AX ∼ χ2 (r; λ), con λ = µ> Aµ/2.
(iii) X > A1 X, X > A2 X, . . . , X > Ak X son mutuamente independientes.
EJERCICIOS 31
Ejercicios
1.1 Sean X 1 , . . . , X n vectores aleatorios independientes con X i ∼ Np (µ, Σ),
para i = 1, . . . , n. Obtenga la distribución de
Xn
αi X i ,
i=1
con α1 , . . . , αn constantes fijas.
1.2 Si X 1 , . . . , X n son independientes cada uno con X i ∼ Np (µ, Σ). Muestre
que la distribución del vector de medias
n
1X
X= X i,
n i=1
es Np (µ, n1 Σ).
1.3 Demuestre el Resultado 1.20, usando la función caracterı́stica de un vector
aleatorio normal.
1.4 Sean X1 , . . . , Xn variables aleatorias independientes e idénticamente distri-
buı́das N(µ, σ 2 ) y defina
n−1
1 X
Q= (Xi+1 − Xi )2 ,
2(n − 1) i=1
¿Es Q un estimador insesgado de σ 2 ?
1.5 Sea X ∼ Nn (µ, Σ) y defina
Y = T > Σ−1/2 (X − µ), u = T > Σ1/2 Aµ.
con T ortogonal y A = A> . Obtenga la distribución de Y y calcule
var(u> Y ).
32 1. PRELIMINARES
35
36 2. INFERENCIA EN EL MODELO LINEAL
Note que la definición anterior puede ser expresada de forma equivalente como:
Y = Xβ + ,
con
K
X
E() = 0, Cov() = φ r Σr .
r=1
Supuesto 2. Considere:
A4? : El vector aleatorio satisface ∼ Nn (0, σ 2 I n ), o equivalentemente
Y ∼ Nn (Xβ, σ 2 I n ).
1Es decir, bajo normalidad estos dos modelos son equivalentes. En efecto, esto no es verdad en
general.
2.2. ESTIMACIÓN DE PARÁMETROS EN EL MODELO DE REGRESIÓN LINEAL 37
σ 2 − kY − X βk
nb b 2 = 0.
cuya solución, β
b es llamado estimador mı́nimos cuadrados (LS), dado por:
n
b −→2nd
Esto implica que β n β. Es decir, β
b es un estimador consistente de β.
n
X >X β
b = X >Y . (2.7)
b 2 = Y >Y − Y >X β
RSS = kY − X βk b >X >Y + β
b −β b > X > X β.
b
Tenemos,
Y >X β
b = Y > X(X > X)−1 X > Y = Y > H 2 Y = β b > X > X β.
b > Yb = β b
X >X = U >U ,
con U matrix triangular superior. De este modo, debemos resolver los sistemas
triangulares:
U >z = X >Y , y Uβ b = z.
Adicionalmente,
U −1 U −> = (X > X)−1 ,
es proporcional a la matriz de covarianza de β.
b
U ← U −1 ,
sigue que (X > X)−1 = U U > lo que permite ahorrar espacio de almacenamiento y
puede ser eficientemente calculado usando rutinas desde BLAS.
2.3. ASPECTOS NUMÉRICOS DE ESTIMACIÓN LS EN REGRESIÓN LINEAL 43
donde A11 ∈ Rr×r (r < p). Suponga que se aplica el operador Sweep sobre los
elementos diagonales de A11 . De este modo,
r
Y B 11 B 12
B= Sweep(i)A = ,
B 21 B 22
i=1
con
B 11 = A−1
11 , B 12 = A−1
11 A12 ,
B 21 = −A21 A−1
11 , B 22 = A22 − A21 A−1
11 A12 .
Algoritmo 2: Descomposición QR
Entrada: Matriz A ∈ Rn×p .
Salida : Factores Q y R, matrices ortogonal y triangular superior,
respectivamente.
1 begin
2 Hacer Q = I n y R = A
3 for i = 1 to p do
4 x = (R1i , . . . , Rpi )>
I i−1 0
5 Qi =
0 M (x)
/* M (x) obtenido usando reflexiones Householder */
6 Q = Qi Q
7 R = Qi R
8 end
9 Q = Q>
10 R = (Rij ) para i, j = 1, . . . , p.
11 end
Z = Dα + η, η = U > ,
donde
E(η) = 0, Cov(η) = σ 2 U > U = σ 2 I p .
Es decir, podemos el modelo canónico satisface las condiciones A1 a A4. Esto lleva
al estimador LS de α en el modelo canónico,
b = D −1 Z,
α ⇒ β
b = V α.
b
Además,
b 2 = kY − U DV > βk
kY − X βk b 2 = kZ − D αk
b 2.
Finalmente,
b = σ 2 (X > X)−1 = σ 2 (V D 2 V > )−1 = σ 2 V D −2 V > .
Cov(β)
Observación 2.24. Interesantemente, la SVD permite manipular problemas de
rango deficiente. En efecto, cuando rg(X) < p podemos considerar
b = D − Z,
α
con D − una inversa generalizada de D por ejemplo
D − = diag(1/δ1 , . . . , 1/δr , 0, . . . , 0), r = rg(X),
y luego obtener β
b = V α.
b
El último procedimiento de estimación que revisaremos en esta sección corresponde
al método de Gradientes Conjugados (CG), el que permite optimizar la siguiente
función objetivo:
1 1
φ(β) = kY − Xβk2 = (Y − Xβ)> (Y − Xβ).
2 2
El algoritmo básico produce la secuencia de estimaciones,
β (k+1) = β (k) + λk pk , k = 0, 1, . . . .
48 2. INFERENCIA EN EL MODELO LINEAL
p>
k gk
λk = , g k = X > (Y − Xβ (k) ).
pk X > Xpk
>
g>
k+1 pk
pk+1 = g k+1 + δk pk , δk = − >
.
p>
k X Xpk
hk = X > Xpk ,
= (X r − X q G−1 −1
q Gr )β r + X q Gq g
Por otro lado, el vector de coeficientes estimados bajo las restricciones lineales en
(2.8)
! !
β
e
r βe
r
β= e
e =
βq G−1
q (g − Gr β r )
e
0 I
= + βe , (2.10)
G−1q g −G −1
q Gr
r
de este modo
QR (β e k2 = kY − X βk
e ) = kY R − X R β e 2 = Q(β).
e (2.11)
r r
donde
>
I I
e = σ2
Cov(β) (X >
R X R)
−1
.
−G−1
q Gr −G−1
q Gr
Mientras que
1 e ) = 1 Q(β),
s2r = QR (β r
e
n−r n−r
donde
(n − r)s2r
∼ χ2 (n − r),
σ2
y β,
e Q(β)
e son independientes.
(n − r)s2r QR (β
e )
r Y>
R (I − H R )Y R
2
= 2
= ∼ χ2 (n − r).
σ σ σ2
Ası́, por (2.10), tenemos
0 Ir
E(β)
e = + E(β
e )
G−1
q g −G−1 q Gr
r
βr βr
= = =β
G−1
q (g − G r β r ) βq
2.4. ESTIMACIÓN BAJO RESTRICCIONES LINEALES 51
Además,
>
Ir Ir
Cov(β)
e = Cov(β r )
−G−1 −G−1
e
q Gr q Gr
>
Ir > −1 Ir
= σ2 (X X ) .
−G−1
q Gr
R R
−G−1
q Gr
como β
e es una función lineal de β
e la normalidad sigue. La independencia entre β
e
y Q(β)
e es consecuencia del Resultado 2.7.
= (X > X)−1 X > Y + (X > X)−1 G> (G(X > X)−1 G> )−1 (g − Gβ)
b
b + (X > X)−1 G> (G(X > X)−1 G> )−1 (g − Gβ).
=β b
Que puede ser reorganizado como:
β
e = Aβ b − B(Gβ
b + Bg = β b − g),
donde β
b corresponde al MLE no restringido para β, con
B = (X > X)−1 G> (G(X > X)−1 G> )−1 (2.15)
A = I − BG (2.16)
2
y el estimador insesgado para σ es dado por
1
s2r = Q(β).
e
n−r
Para estudiar las propiedades de este MLE restringido, considere primeramente el
siguiente lema.
con distribución
e ∼ Np (β, A(X > X)−1 A> ).
β
Mientras que el estimador insesgado de σ 2 es
1
s2r = Q(β),
e
n−r
donde
Q(β)
e
2
∼ χ2 (n − r),
σ
yβ
e es independiente de Q(β).
e
Demostración. La normalidad de β
e sigue desde la linealidad con relación a β.
b
Ahora,
E(β) b + Bg = (I − BG)β + Bg = β − B(Gβ − g) = β,
e = A E(β)
y
Cov(β) b > = σ 2 A(X > X)−1 A> .
e = A Cov(β)A
Notando que
β b + Bg = A(X > X)−1 X > Y + Bg
e = Aβ
= A(X > X)−1 X > (Xβ + ) + Bg
= Aβ + A(X > X)−1 X > + Bg
= β + A(X > X)−1 X >
lo que permite escribir
e = Y − Xβ − XA(X > X)−1 X >
Y − Xβ
= − XA(X > X)−1 X >
= (I − XA(X > X)−1 X > ),
por la parte (ii) del Lema 2.26, sigue que
Q(β)
e > (I − XA(X > X)−1 X > )
= ∼ χ2 (n − r).
σ2 σ2
54 2. INFERENCIA EN EL MODELO LINEAL
b n/2
n Q(β) o
= ,
Q(β)
e
y de acuerdo con el principio de verosimilitud rechazamos H0 : Gβ = g si Λ es
pequeño.
Alternativamente, podemos considerar
Q(β)
b
Λ2/n = .
Q(β)
e
Y − Xβ
e = Y − X(β
b − B(Gβ
b − g)) = Y − X β b − g).
b + XB(Gβ
Además,
e 2 = kY − β
e = kY − X βk
Q(β) b − g)k2
b − B(Gβ
b 2 + kXB(Gβ
= kY − X βk b − g)k2
b > XB(Gβ
+ (Y − X β) b − g)> B > X > (Y − X β).
b − g) + (Gβ b
Sin embargo,
X > (Y − X β)
b = X > (I − H)Y = 0
lo que nos lleva a:
Q(β)
e = Q(β) b − g)> B > X > XB(Gβ
b + (Gβ b − g)
≥ Q(β)
b
Ahora considere
b − g) = G E(β)
E(Gβ b − g = Gβ − g
b > = σ 2 G(X > X)−1 G> .
b − g) = G Cov(β)G
Cov(Gβ
Note que
n1 o−1
(G(X > X)−1 G> )−1 = Cov(G β)
b .
σ2
De esta forma
(Gβb − g)> (G(X > X)−1 G> )−1 (Gβ
b − g)
2
∼ χ2 (q; δ),
σ
pues σ −2 (G(X > X)−1 G> )−1 Cov(Gβ)b = I, es matriz idempotente, y
1
δ= (Gβ − g)> (G(X > X)−1 G> )−1 (Gβ − g)
2σ 2
Por otro lado, sabemos que
Q(β)
b
2
∼ χ2 (n − p; 0)
σ
Para notar la independencia, considere β ∗ cualquier vector que satisface la condición
Gβ ∗ = g. Entonces,
b = (I − H)Y = (I − H)(Y − Xβ ∗ ),
Y − Xβ
pues (I − H)X = 0 y
b − g = G(X > X)−1 X > Y − Gβ ∗ = G{(X > X)−1 X > Y − β ∗ }
Gβ
= G{(X > X)−1 X > Y − (X > X)−1 X > Xβ ∗ }
= G(X > X)−1 X > (Y − Xβ ∗ ).
En nuestro caso,
d
Y − Xβ ∗ ∼ Nn (Xβ − Xβ ∗ , σ 2 I) = Nn (X(β − β ∗ ), σ 2 I).
De este modo,
b 2 = (Y − Xβ ∗ )> (I − H)(Y − Xβ ∗ ),
b = kY − X βk
Q(β)
mientras que
b = (Y − Xβ ∗ )> X(X > X)−1 G> (G(X > X)−1 G> )−1
e − Q(β)
Q(β)
× G(X > X)−1 X > (Y − Xβ ∗ ).
Como
(I − H)X(X > X)−1 G> (G(X > X)−1 G> )−1 G(X > X)−1 X > = 0,
sigue la independencia y permite construir la estadı́stica
{Q(β)
e − Q(β)}/q
b
F = ∼ F (q, n − p; δ).
Q(β)/(n
b − p)
Esto lleva al siguiente resultado.
2.5. TEST DE HIPÓTESIS LINEALES 57
= X > (Y − X β)
b + X > XB(Gβ
b − g)
= X > XB(Gβ
b − g).
58 2. INFERENCIA EN EL MODELO LINEAL
Sigue que,
e > X(X > X)−1 X > (Y − X β)
(Y − X β) e
b − g)> B > X > X(X > X)−1 X > XB(Gβ
= (Gβ b − g)
b − g)> B > X > XB(Gβ
= (Gβ b − g)
b − g)> (G(X > X)−1 G> )−1 (Gβ
= (Gβ b − g).
Finalmente,
(Gβ b − g)> (G(X > X)−1 G> )−1 (Gβ b − g)
R=
σ2
ne
Por otro lado, el estadı́stico gradiente es dado por:
T = U > (β)(
e β b − β)
e = (Gβ b − g)> B > X > X(β
b − β)
e
Sabemos que β
e=βb − B(Gβb − g), esto lleva a
b − g)> B > X > X(β
T = (Gβ b −β b − g))
b + B(Gβ
b − g)> B > X > XB(Gβ
= (Gβ b − g)
b − g)> (G(X > X)−1 G> )−1 (Gβ
= (Gβ b − g)
Notando que
a> β
b − a> β
q ∼ t(n − p), a ∈ Rp ,
s a> (X > X)−1 a
corresponde a una cantidad pivotal, podemos escribir un intervalo de confianza para
la combinación lineal τ = a> β. Esto es,
h q i
τ ∈ a> βb ∓ t1−α/2 (n − p)s a> (X > X)−1 a ,
Ejercicios
2.1 Sean Y1 , . . . , Yn variables aleatorias independientes con Yi ∼ N(αP +θzi , σ 2 ),
n
i = 1, . . . , n, donde {zi } son constantes conocidas, tales que i=1 zi =
>
0. Obtenga el estimador ML de β = (α, θ) y determine su matriz de
covarianza. ¿Son α b y θb independientes?
2.2 Sea Yij , para i = 1, 2, 3 y j = 1, . . . , m variables aleatorias independientes
con distribución normal, tales que E(Yij ) = µij , var(Yij ) = σ 2 , y
µ1j = τ, µ2j = τ + θ, µ3j = τ − θ.
a) Determine la matriz de diseño X.
b) Obtener el estimador ML de (τ, θ)> y var(θ). b
c) Derive el estadı́stico F para probar la hipótesis H0 : θ = 0.
Pn
2.3 Sea xj = n1 i=1 xij y zij = xij − xj , para todo i = 1, . . . , n; j = 1, . . . , k
y considere Z = (zij ), β = (β1 , . . . , βk )> . En cuyo caso, tenemos el modelo
centrado:
α
Y = α1 + Zβ + = (1, Z) + ,
β
donde E() = 0 y Cov() = σ 2 I n . Muestre que los BLUE de α y β son
independientes.
2.4 Considere las regresiones de Y sobre x para los datos a continuación, espe-
cificadas por:
M1 : E(Y ) = β0 x y M2 : E(Y ) = β1 x + β2 x2 .
Obtenga βb0 , βb1 y βb2 . ¿Cuál de esos modelos es preferido?
Y 5 7 7 10 16 20
x 1 2 3 4 5 6
60 2. INFERENCIA EN EL MODELO LINEAL
3.1. Colinealidad
Considere el modelo
Y = Xβ + ,
donde E() = 0 y Cov() = σ I con X ∈ Rn×p tal que rg(X) = p. Es bien conocido
2
61
62 3. CHEQUEO DEL MODELO Y ALTERNATIVAS A MÍNIMOS CUADRADOS
(b) Factores de inflación de varianza: Suponga que los datos han sido centrados
y escalados, entonces
>
R−1 = (X f −1 ,
f X) f = (xij − xj ),
X
y los elementos diagonales de R−1 son llamados factores de inflación de
varianza VIFj . Se puede mostrar que
1
VIFj = ,
1 − Rj2
donde Rj2 es el coeficiente de correlación multiple de X j “regresado” sobre
el resto de variables explicativas y de ahı́ que un VIFj “alto” indica Rj2
cercano a 1 y por tanto presencia de colinealidad.
(c) Examinar los valores/vectores propios (o componentes principales) de la
matriz de correlación R.
(d) Número condición: Desde la SVD de X podemos escribir
X = U DV > ,
donde U ∈ Rn×p , U > U = I p , D = diag(δ1 , . . . , δp ) y V ∈ Op . La detección
de colinealidad puede ser llevada a cabo usando
δ1
κ(X) = kXkkX + k = ,
δp
y κ(X) “grande” (κ > 30) es un indicador de colinealidad.
Note que, el caso de deficiencia de rango puede ser manipulado sin problemas
usando SVD. En efecto,
> D1 0
X = U DV = U V>
0 0
donde D 1 ∈ Rr×r , rg(X) = r < p. De este modo
D1 0 D1 0
XV = U ⇒ X(V 1 , V 2 ) = (U 1 , U 2 ) ,
0 0 0 0
desde donde sigue que
XV 1 = U 1 D 1 , XV 2 = 0.
Es decir, SVD permite “detectar” la dependencia lineal.
Una vez que hemos detectado que estamos en presencia de colinealidad, podemos
sobrellevarla usando, por ejemplo, métodos de estimación sesgados. A continua-
ción revisaremos dos procedimientos, regresión por componentes principales y el
estimador ridge.
Resultado 3.2 (Estimador componentes principales). Bajo los supuestos del mo-
delo lineal en A1-A4? , el estimador componentes principales para β puede ser escrito
como
βb = U 1 (U > X > XU 1 )−1 U > X > Y = U 1 Λ−1 U > X > Y .
r 1 1 1 1
y U>
1 U 2 = 0. Ahora,
U> >
2 (X X)
−1
U2 = U> −1 > −1 > −1
2 (U 1 Λ1 U 1 + U 2 Λ2 U 2 )U 2 = ∆2
= U 2 Λ−1 >
2 U2 .
Es decir,
(X > X)−1 − (X > X)−1 U 2 [U > >
2 (X X)
−1
U 2 ]−1 U > >
2 (X X)
−1
= U 1 Λ−1 >
1 U1 .
= U 1 (U > >
1 X XU 1 )
−1 >
U 1 X >Y ,
lo que concluye la prueba.
Observación 3.3. El estimador PC es un caso particular del estimador restringido
con respecto a:
U>2 β = 0.
En efecto, β
b depende del ‘parámetro’ r, basta notar que
r
b = (X > X)−1 X > Y = (U 1 Λ−1 U > + U 2 Λ−1 U > )X > Y .
β 1 1 2 2
De este modo podemos interpretar β r como una modificación del estimador OLS
b
que desconsidera U 2 Λ−1 >
2 U2 .
= σ 2 V (D 2 + kI)−2 D 2 V > .
De este modo,
p
b ) = σ 2 tr(D 2 + kI)−2 D 2 = σ 2
X δi2
tr Cov(β k ,
i=1
(δi2 + k)2
donde δ1 , . . . , δp son los valores singulares de X. Finalmente,
p
X δi2
MSE = σ 2 + k 2 β > (X > X + kI)−2 β.
i=1
(δi2 + k)2
3.1. COLINEALIDAD 65
lı́m β = 0.
b
k (3.3)
k→∞
Además,
b = U DV > β
Yb (k) = X β b = U Dα
b k.
k k
Lo que permite escribir
1 b k2
kY − X β kY − U D α b k k2 /n
k
V (k) = = .
n {tr(I − H(k))/n}2 (1 − edf /n)2
3.1. COLINEALIDAD 67
Call :
ridge ( formula = y ~ x1 + x2 + x3 + x4 , data = portland ,
lambda = 10 , method = " grid " )
Coefficients :
( Intercept ) x1 x2 x3 x4
0.08568 2.16549 1.15860 0.73845 0.48948
La función ridge desde el paquete fastmatrix, permite también obtener los estima-
dores sugeridos por Hoerl, Kennard y Baldwin (1975) y Lawless y Wang (1976).
Para el caso de los datos de cemento, tenemos:
kHKB = 0.0077,
b kLW = 0.0032,
b
mientras que el valor óptimo de k obtenido mediante minimizar el criterio de va-
lidación cruzada generalizada, es b
kopt = 1.9598. En la siguiente figura, se presenta
evaluación de la función V (k) para una grilla de valores de k. Se ha indicado el
mı́nimo b kopt como una lı́nea segmentada en color rojo,
8.70
8.65
8.60
GCV
8.55
8.50
8.45
0 2 4 6 8 10
Desde la tabla se aprecia que la elección del parámetro ridge usando el método de
validación cruzada lleva a un número condición bastante pequeño, y en efecto, los
resultados de estimación son muy cercanos al modelo homogéneo.
3.2. ERRORES CORRELACIONADOS 69
Además, el estimador β
b
WLS resuelve las siguientes ecuaciones de estimación
X > W (Y − Xβ) = 0,
o equivalentemente
n
X
ωi (Yi − x>
i β)xi = 0.
i=1
Mientras que el estimador ML para σ 2 asume la forma:
n
1X
σ 2
bWLS = ωi (Yi − x> 2
i β WLS ) .
b
n i=1
y hacemos k ← 0.
3 Construir pesos
(k) (k) (k)
ωi = 1/g 2 (z i ; µi , φ), µi = x>
i β
(k)
.
4 Actualizar β (k+1) , resolviendo
n
(k)
X
ωi (Yi − x>
i β)xi = 0,
i=1
hacer k ← k + 1 y volver a Paso 3.
5 end
Evidentemente el Paso 4 del Algoritmo 4, debe ser resuelta usando mı́nimos cua-
drados ponderados.
En el algoritmo anterior σ 2 puede ser estimado por analogı́a a WLS. Especı́fica-
mente, podemos considerar
n
1X
b2 =
σ bi (Yi − x>
ω b 2
i β) ,
n i=1
donde ωbi (i = 1, . . . , n) y β
b representan los valores de ωi y β a la convergencia del
Algoritmo 4.
72 3. CHEQUEO DEL MODELO Y ALTERNATIVAS A MÍNIMOS CUADRADOS
n
X
2
log |σ G| = log σ 2 g 2 (z i ; µi , φ).
i=1
Esto permite escribir la función de log-verosimilitud como:
n n
1X 1 X (Yi − x> i β)
2
`n (θ) = − log σ 2 g 2 (z i ; µi , φ) − 2
2 i=1 2σ i=1 g 2 (z i ; µi , φ)
n
1 X n (Yi − x> i β)
2
2 2
o
=− + log σ g (z i ; µi , φ)
2 i=1 σ 2 g 2 (z i ; µi , φ)
La estimación de parámetros se puede desarrollar alternando las siguientes dos
etapas:
1. Para una estimación preliminar β (k) de β minimizar con relación a φ y σ 2 ,
la función de log-verosimilitud perfilada:
n (k) 2
1 X n (Yi − x> i β ) (k)
o
`∗ (β (k) , σ 2 , β) = − + log σ 2 2
g (z i ; µi , φ) ,
2 i=1 σ 2 g 2 (z i ; µ(k) , φ)
i
(k) (k)
con µi = x> i β . Diferenciando con relación a φ y σ 2 lleva a las ecuacio-
nes de estimación:
n
X 1 (k) (k)
(k)
{ri2 − σ 2 g 2 (z i ; µi , φ)} q(µi , σ, φ) = 0, (3.4)
g 4 (z ; µ , φ)
i=1 i i
donde
(k) (k) 1/σ
q(µi , σ, φ) = g 2 (µi , φ) (k) ,
u(µi , φ)
3.3. TRANSFORMACIONES ESTABILIZADORAS DE VARIANZA 73
(k)
y u(µi , φ) representa el vector de derivadas de log g(z i , µi , φ) con relación
(k)
a φ, mientras que ri = Yi − x>i β .
2. Actualizar β (k+1) como la solución del problema mı́nimos cuadrados pon-
derados
X > G−1 (Y − Xβ) = 0,
donde G = G(β (k) , φ(k+1) ).
Inspección de la Ecuación (3.4) permite notar que la estimación de σ y φ corres-
(k)
ponde a WLS con respuesta ri2 , función de regresión σ 2 g 2 (z i ; µi , φ), parámetros
> > (k)
de regresión (σ, φ ) , pesos g −4 (z i , µi , φ) y gradiente (matriz de diseño cuyas
(k)
filas están dadas por) q(µi , σ, φ).
Detalles sobre las propiedades estadı́sticas del estimador obtenido por este proce-
dimiento pueden ser hallados en Davidian y Carroll (1987) (ver también Carroll y
Ruppert, 1988).
h(µ) z Descripción
µ4 1/y recı́proco
µ2 log y logarı́tmico
√
µ y raı́z cuadrada
√
µ(1 − µ) sin−1 ( y) seno inverso
1+y
(1 − µ2 )2 log( 1−y ) correlación
Box y Cox (1964) sugirieron llevar a cabo la estimación ML para una clase general
de transformaciones. El supuesto fundamental es que Y > 0 y que existe alguna
74 3. CHEQUEO DEL MODELO Y ALTERNATIVAS A MÍNIMOS CUADRADOS
obteniendo el valor λ
b se lleva a cabo el ajuste E(Z) = Xβ con Z = Z(λ).
b
Observación 3.13. Note que λ = 1 implica que el modelo no debe ser transfor-
mado.
Para llevar a cabo la estimación de parámetros usando el procedimiento de Box-Cox,
podemos considerar el siguiente fragmento de código en R:
boxcox . lm <- function (x , y , lambda ) {
boxcox <- function (y , lambda ) {
n <- length ( y )
lambda <- rep ( lambda , n )
z <- ifelse ( lambda ! = 0. , ( y ^ lambda - 1.) / lambda , log ( y ))
z
}
n <- nrow ( x )
p <- ncol ( x )
k <- length ( lambda )
RSS <- rep (0 , k )
logLik <- rep (0 , k )
for ( i in 1: k ) {
geom <- geomean ( y )
z <- boxcox (y , lambda = lambda [ i ])
z <- z / geom ^( lambda [ i ] - 1.)
fm <- ols . fit (x , z , method = " sweep " )
RSS [ i ] <- fm $ RSS
logLik [ i ] <- -.5 * n * log (2 * pi )
- .5 * n * log ( RSS [ i ] / n ) - .5 * n
}
idx <- order ( RSS )[1]
opt <- lambda [ idx ]
obj <- list ( lambda = lambda , RSS = RSS , logLik = logLik ,
opt = opt )
obj
}
Ejemplo 3.14. Para los datos de Forbes (ver Weisberg, 2005), llevamos a cabo
selección de λ ∈ [−2, 2] usando la transformación Box-Cox. Considere,
# carga datos desde biblioteca MASS
> library ( MASS )
> data ( forbes )
# ajuste preliminar
> library ( fastmatrix )
> fm <- ols ( pres ~ bp , data = forbes , x = TRUE , y = TRUE )
El valor óptimo basado en una grilla de valores para λ ∈ {−2.00, −1.99, . . . , 1.99, 2.00},
se obtuvo λopt = 0.37. Los siguientes gráficos presentan las funciones RSSZ (λ) y la
log-verosimilitud perfilada:
4
3.0
2
2.5
0
log−likelihood
2.0
−2
RSS
−4
1.5
−6
1.0
−8
−2 −1 0 1 2 −2 −1 0 1 2
lambda lambda
# removiendo dato 12
> y12 <- y [ -12]
> x12 <- x [ -12 ,]
> z <- boxcox . lm ( x12 , y12 , lambda )
Parámetro λ
— 0.00 0.10 0.37
β0 -81.0637 -0.9709 -1.9885 -7.6462
β1 0.5229 0.0206 0.0285 0.0681
σ2 0.0542 0.0001 0.0001 0.0008
RSS 0.8131 0.0011 0.0021 0.0114
`(θ)
b 1.7186 57.5378 52.3791 37.9802
es decir el valor predicho es una combinación lineal de las respuestas observadas con
pesos dados por los elementos de la matriz de proyección H. A continuación llama-
remos a los elementos diagonales hii , i = 1, . . . , n, como leverages. A continuación
revisamos algunas de las propiedades fundamentales de la matriz H:
Propiedad 3.15. H es simétrica e idempotente con rg(H) = tr(H) = p.
Propiedad 3.16. Los elementos diagonales de H están acotados, en efecto:
0 ≤ hii ≤ 1, i = 1, . . . , n.
Demostración. Sabemos que
Yb ∼ N(Xβ, σ 2 H), e ∼ N(0, σ 2 (I − H)).
De este modo,
var(Ybi ) = σ 2 hii , var(ei ) = σ 2 (1 − hii ),
de ahı́ sigue el resultado.
Para otra demostración, ver Resultado A.6 desde el Apéndice A.
Propiedad 3.18. Sea X f la matriz de datos centrados. En este caso, los elementos
diagonales de H
f están dados por
>
hii = (xi − x)> (X
e f X)f −1 (xi − x), i = 1, . . . , n.
Luego e
hii es la distancia ponderada desde xi al centroide x.
Hoaglin y Welsch (1978) sugirieron que aquellas observaciones que exceden dos
veces su promedio
hii > 2p/n (= 2h)
indican un alto leverage. Mientras que Huber (1981) sugirió identificar observaciones
tal que
hii > 0.5,
independiente de n o p. En la práctica se debe prestar atención a casos inusualmente
grandes con relación al resto de hii ’s.
Propiedad 3.19. Desde Ecuación (3.5), sigue que
∂ Yb
= H,
∂Y >
y en particular ∂ Ybi /∂Yi = hii , para i = 1, . . . , n.
Propiedad 3.20. Si el modelo tiene intercepto, entonces H1 = 1.
Demostración. Considere X = (1, X 1 ). Sabemos que HX = X, y de ahı́ que
H(1, X 1 ) = (1, X 1 ),
y el resultado sigue.
Sabemos que
!
(X > X)−1 + 1−h
1
(X > X)−1 xi x> >
i (X X)
−1 1
− 1−h (X > X)−1 xi
(Z > Z)−1 = 1
ii
> > −1
ii
1 ,
− 1−hii xi (X X) 1−hii
luego
n
b = (X > X)−1 + 1 > >
o Yi
β ∗ (X X) −1
x i x >
i (X X) −1
X >Y − (X > X)−1 xi
1 − hii 1 − hii
n 1 o Yi
= I+ (X > X)−1 xi x>i (X > X)−1 X > Y − (X > X)−1 xi
1 − hii 1 − hii
b + Yi (X > X)−1 xi − Yi (X > X)−1 xi = β
b
=β b ,
(i)
1 − hii 1 − hii
lo que termina la prueba.
b − β)
(β b > X > X(β
b − β)b r2 hi
(i) (i)
Di = 2
= i ,
ps p 1 − hi
Ybi − Ybi(i) h
ii
1/2 e
DFFITSi = √ = √i
s(i) hii 1 − hii s(i) 1 − hii
h 1/2
ii
= ti .
1 − hii
Por otro lado, Atkinson (1981) sugirió usar una versión modificada de la distancia
de Cook, como
s
n − p h e
ii
AKi = √i
p 1 − hii s(i) 1 − hii
s
n − p h
ii
= |ti |
p 1 − hii
r
n−p
= | DFFITSi |.
p
Cuando hii = p/n, ∀i, tenemos AKi = |ti | debido a esto se recomienda hacer el
gráfico de AKi vs. |ti |. Además podemos identificar la i-ésima observación como
influyente si AKi > 2.
Observación 3.23. AKi puede considerarse como una medida de influencia con-
b y s2 simultáneamente.
junta sobre β
Como un intento de fundamentar las técnicas para llevar a cabo diagnóstico por
eliminación de casos, Cook y Weisberg (1980) propusieron considerar medidas ge-
nerales de influencia, basadas en la función de influencia empı́rica, lo que los llevó
a definir:
(β b )> M (β
b −β b −βb )
(i) (i)
Di (M , c) = , i = 1, . . . , n,
c
donde M es matriz definida positiva p × p y c > 0 es un factor de escala. En efec-
to, podemos escribir diversas medidas bajo esta perspectiva, considere la siguiente
tabla:
M c Medida Referencia
X >X ps2 Di Cook (1977)
X >X ps2(i) (DFFITSi )2 Welsch y Kuh (1977)
X >X (n − 1)2 ps2(i) /(n − p) AKi Atkinson (1981)
o análogamente,
n
X
(xi − θ) = 0.
i=1
Mientras que la mediana, denotada como me(x), que es robusta contra outliers, es
solución del problema
n
X
mı́n |xi − θ|,
θ
i=1
En los gráficos a continuación se presenta las funciones ρ(·) para cada uno de los
ejemplos anteriores,
6
35
30
5
25
4
20
rho
rho
3
15
2
10
1
5
0
0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
z z
10
5
4
8
3
6
rho
rho
2
4
1
2
0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
z z
Tenemos que ψ(z) = ∂ρ(z)/∂z, ası́ W (z) = ψ(z)/z. Por tanto el M -estimador de
β es solución del sistema de ecuaciones
n Y − x> β x
i ij
X
i
ψ = 0, j = 1, . . . , p,
i=1
σ σ
X > W (Y − Xβ) = 0.
Sin embargo, debemos resaltar que los pesos Wi dependen de zi , los que a su
vez dependen de β y por tanto se requiere métodos iterativos para obtener el M -
estimador, β
b .
M
Usando una estimación inicial β (0) podemos considerar el siguiente esquema itera-
tivo
β (r+1) = (X > W (r) X)−1 X > W (r) Y , (3.14)
con
(r) (r) (r) (r)
W (r) = diag(W1 , . . . , Wn(r) ), Wi = ψ(ei /σ)/(ei /σ),
y
e(r) = Y − Xβ (r) .
Desde el punto de vista computacional es preferible usar
β (r+1) = β (r) + pr ,
con
pr = (X > W (r) X)−1 X > W (r) e(r) .
Observación 3.30. El procedimiento delineado en (3.14) es conocido como mı́ni-
mos cuadrados iterativamente ponderados (IRLS). Debemos destacar que la conver-
gencia del proceso iterativo en (3.14) sólo es garantizada para funciones ρ convexas
ası́ como para funciones de redescenso. Además, una serie de autores han propuesto
métodos refinados para obtener M -estimadores basados en IRLS (ver, por ejemplo
O’Leary, 1990).
Existe una gran variedad de funciones ρ(·) o ψ(·) para definir M -estimadores, por
ejemplo:
• Tukey’s biweight
2
ψ(z) = z 1 − (t/k) + , k = 4.685.
3.6. PROCEDIMIENTOS PARA ESTIMACIÓN ROBUSTA 87
• Hampel’s ψ
|z|,
0 < |z| ≤ a,
a, a < |z| ≤ b,
ψ(z) = sign(z)
a(c − |z|)/(c − b), b < |z| ≤ c,
0, c < |z|,
2
1
1
psi
psi
0
0
−1
−1
−2
−2
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
z z
2
1
1
psi
psi
0
0
−1
−1
−2
−2
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
z z
0
−1
−2
−6 −4 −2 0 2 4 6
Sin embargo este procedimiento ha sido fuertemente criticado por una gran cantidad
de autores (ver discusión en Capı́tulo 4 de Björck, 1996), por no ser capaz de
identificar las observaciones básicas que definen el estimador.
Una perspectiva diferente fue adoptada por Charnes et al. (1955) quienes mostraron
que problema de regresión L1 ,
n
X
mı́n Q1 (β), Q1 (β) = |Yi − x>
i β|,
β
i=1
90 3. CHEQUEO DEL MODELO Y ALTERNATIVAS A MÍNIMOS CUADRADOS
ind
• Normal: Y1 , . . . , Yn ∼ N(x> 2
i β, σ ), tenemos:
Wi (θ) = 1, i = 1, . . . , n.
ind
• t-Student: Y1 , . . . , Yn ∼ t(x> 2
i β, σ ; ν), ν > 0,
ν+1
Wi (θ) = , i = 1, . . . , n,
ν + ui
la distribución Cauchy(x> 2
i β, σ ), es obtenida para ν = 1.
ind
• Normal contaminada: Y1 , . . . , Yn ∼ CN(x> 2
i β, σ ; , γ), con ∈ [0, 1), γ > 0,
Wi (θ) = λuλ−1
i , i = 1, . . . , n.
2
1
1
0
0
y
y
−1
−1
−2
−2
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
z z
2
1
1
0
0
y
y
−1
−1
−2
−2
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
z z
(k)
con ωi = E(ωi |xi ; θ (k) ) para i = 1, . . . , n. En general, la forma para la esperanza
condicional requerida en el Paso-E del algoritmo EM es dada por:
R ∞ 3/2
ω exp(−ωi ui /2) dH(δ)
E(ωi |xi ; θ) = R0∞ i1/2 ,
0
ω i exp(−ω i ui /2) dH(δ)
con ui = (Yi − x> 2 2
i β) /σ , i = 1, . . . , n.
A continuación algunos ejemplos de funciones de pesos para miembros en la familia
de mezclas de escala normal,
ind
• t-Student: Yi ∼ t(x> 2
i β, σ , ν), i = 1, . . . , n, en cuyo caso
ν+1
E(ωi |Yi ; θ) = .
ν + ui
ind
• Slash: Yi ∼ Slash(x> 2
i β, σ , ν), para i = 1, . . . , n. De este modo,
2ν + 1 P (ν + 3/2, u /2)
1 i
E(ωi |Yi ; θ) = ,
ui P1 (ν + 1/2, ui /2)
donde Z z
ba
Pz (a, b) = ta−1 e−bt dt,
Γ(a) 0
es la función gama incompleta (regularizada).
ind
• Exponencial Potencia: Yi ∼ PE(x> 2
i β, σ , λ), i = 1, . . . , n, donde
n-upla
x1
..
x = . ,
xn
de números reales. Note que x está orientado como un vector “columna”, y por
tanto la transpuesta de x es un vector fila,
x = (x1 , . . . , xn )> .
Una matriz A ∈ Rm×n es un arreglo de números reales
a11 a12 · · · a1n
a21 a22 · · · a2n
A= . .. ,
..
.. . .
am1 am2 · · · amn
y escribimos A = (aij ). Los números reales aij son llamados elementos de A.
Una matriz cuyos elementos son todos cero se denomina matriz nula y se denota
por 0. Tenemos que
A + (−1)A = 0.
Si A y B son matrices m × n y n × p, respectivamente, se define el producto de A
y B como
Xn
AB = C, donde, cij = aik bkj ,
k=1
para i = 1, . . . , m y j = 1, . . . , p.
Resultado A.2 (Propiedades del producto de matrices). Sean A, B y C matrices
de órdenes apropiados. Entonces:
(a) (AB)C = A(BC),
(b) A(B + C) = AB + AC,
(c) (A + B)C = AC + BC.
Note que la existencia de AB no implica la existencia de BA y cuando ambos
productos existen, en general no son iguales.
La transpuesta de una matriz A = (aij ) ∈ Rm×n es la matriz n × m, A> cuyo
elemento ij está dado por aji , esto es
A> = (aji ).
Resultado A.3 (Propiedades de la transpuesta). Tenemos
(a) (A> )> = A,
(b) (A + B)> = A> + B > ,
(c) (AB)> = B > A> .
Definimos el producto interno entre dos vectores x, y ∈ Rn como
Xn
hx, yi = x> y = xi yi .
i=1
Por tanto, aii ≥ a2iiy de este modo (b) es satisfecha. Si aii = 0 o bien aii = 1,
2
entonces aii = aii y debemos tener
X
a2ji = 0,
j6=i
A.2.3. Matriz inversa. Sea A una matriz cuadrada de orden n×n. Decimos
que A es no singular si rg(A) = n, y que A es singular si rg(A) < n. De este modo,
si A es no singular, entonces existe una matriz no singular B tal que
AB = BA = I n .
−1
La matriz B, denotada A es única y se denomina inversa de A.
Resultado A.11 (Propiedades de la inversa). Siempre que todas las matrices in-
versas involucradas existan, tenemos que
(a) (A−1 )> = (A> )−1 .
(b) (AB)−1 = B −1 A−1 .
(c) (λA)−1 = λ1 A−1 .
(d) P −1 = P > , si P es matriz ortogonal.
(e) Si A > 0, entonces A−1 > 0.
(f) (Teorema de Sherman-Morrison-Woodbury)
(A + BCD)−1 = A−1 − A−1 B(C −1 + DA−1 B)−1 DA−1 ,
donde A, B, C y D son matrices m × m, m × n, n × n y n × m, respecti-
vamente.
(g) Si 1 ± v > A−1 u 6= 0, entonces
A−1 uv > A−1
(A ± uv > )−1 = A−1 ∓ ,
1 ± v > A−1 u
es conocida como laPfórmula de Sherman-Morrison.
∞
(h) (I + λA)−1 = I + i=1 (−1)i λi Ai .
A.2.4. Determinante de una matriz. El determinante de una matriz co-
rresponde a la función det : Rn×n → R, denotada comúnmente como |A| = det(A)
y definida como
X n
Y
σ(j1 ,...,jn )
|A| = (−1) aiji
i=1
donde la sumatoria es tomada sobre todas las permutaciones (j1 , . . . , jn ) del conjun-
to de enteros (1, . . . , n), y σ(j1 , . . . , jn ) es el número de transposiciones necesarias
para cambiar (1, . . . , n) en (j1 , . . . , jn ) (una transposición consiste en intercambiar
dos números).
Una submatriz de A es un arreglo rectangular obtenido mediante eliminar filas y
columnas de A. Un menor es el determinante de una submatriz cuadrada de A. El
menor asociado al elemento aij es el determinante de la submatriz de A obtenida
por eliminar su i-ésima fila y j-ésima columna. El cofactor de aij , digamos cij es
(−1)i+j veces el menor de aij . La matriz C = (cij ) se denomina matriz cofactor de
A. La transpuesta de C es llamada adjunta de A y se denota A# . Tenemos que
Xn Xn
|A| = aij cij = ajk cjk , para i, k = 1, . . . , n.
j=1 j=1
Diferenciación matricial
Andrews, D.F., Mallows, C.L. (1974). Scale mixtures of normal distributions. Jour-
nal of the Royal Statistical Society, Series B 36, 99-102.
Arellano, R. (1994). Distribuições Elı́pticas: Propriedades, Inferência e Aplicações
a Modelos de Regressão. (Unpublished doctoral dissertation). Department of Sta-
tistics, University of São Paulo, Brazil.
Atkinson, A.C. (1981). Two graphical displays for outlying and influential observa-
tions in regression. Biometrika 68, 13-20.
Atkinson, A.C. (1985). Plots, Transformations and Regressions. Oxford University
Press, Oxford.
Barlow, J.L. (1993). Numerical aspects of solving linear least squares problems. En
Handbook of Statistics, Vol. 9, C.R. Rao (Ed.). Elsevier, Amsterdam, pp. 303-376.
Barrodale, I., Roberts, F.D.K. (1973). An improved algorithm for discrete L1 linear
approximations. SIAM Journal of Numerical Analysis 10, 839-848.
Barrodale, I., Roberts, F.D.K. (1974). Solution of an overdetermined system of
equations in the L1 norm. Communications of the ACM 17, 319-320.
Belsley, D.A., Kuh, E., Welsh, R.E. (1980). Regression Diagnostics: Identifying
Influential Data and Sources of Collinearity. Wiley, New York.
Björck, A. (1996). Numerical Methods for Least Squares Problems. Society for Ins-
dustrial and Applied Mathematics, Philadelphia.
Box, G.E.P., Cox, D.R. (1964). An analysis of transformations. Journal of the Royal
Statistical Society, Series B 26, 211-252.
Carroll, R.J., Ruppert, D. (1988). Transformation and Weighting in Regression.
Chapman and Hall, New York.
Charnes, A., Cooper, W.W., Ferguson, R.O. (1955). Optimal estimation of execu-
tive compensation by linear programming. Management Science 1, 138-151.
Chatterjee, S., Hadi, A.S. (1988). Sensitivity Analysis in Linear Regression. Wiley,
New York.
Christensen, R. (2011). Plane Answers to Complex Questions: The Theory of Linear
Models, 4th Ed. Springer, New York.
Cook, R.D. (1977). Detection of influential observation in linear regression. Tech-
nometrics 19, 15-18.
Cook, R.D., Weisberg, S. (1980). Characterizations of an empirical influence fun-
ction for detecting influential cases in regression. Technometrics 22, 495-508.
Cook, R.D., Weisberg, S. (1982). Residuals and Influence in Regression. Chapman
& Hall, New York.
Daniel, C., Wood, F.S. (1980). Fitting Equations to Data: Computer Analysis of
Multifactor Data, 2nd Ed. Wiley, New York.
Davidian, M. Carroll, R.J. (1987). Variance function estimation. Journal of the
American Statistical Association 82, 1079-1091.
117
118 BibliografÍa
Dempster, A.P., Laird, N.M., Rubin, D.B. (1977). Maximum likelihood from in-
complete data via the EM algorithm. Journal of the Royal Statistical Society,
Series B 39, 1-38.
Dı́az-Garcı́a, J.A., Gutiérrez-Jáimez, R. (1999). Cálculo Diferencial Matricial y Mo-
mentos de Matrices Aleatorias Elı́pticas. Universidad de Granada.
Dobson, A.J. (2002). An Introduction to Generalized Linear Models, 2nd Ed. Chap-
man & Hall, Boca Raton.
Fahrmeir, L., Kneib, T., Lang, S., Marx, B. (2013). Regression: Models, Methods
and Applications. Springer, Berlin.
Fang, K.T., Kotz, S., Ng, K.W. (1990). Symmetric Multivariate and Related Dis-
tributions. Chapman & Hall, London.
Galea, M. (1990). Técnicas de diagnóstico en regresión lineal. Revista de la Sociedad
Chilena de Estadı́stica 7, 23-44.
Gentle, J.E. (2007). Matrix Algebra: Theory, Computation and Applications in Sta-
tistics. Springer, New York.
Gómez, E., Gómez-Villegas, M.A., Marı́n, J.M. (1988). A multivariate generaliza-
tion of the power exponential family of distributions. Communications in Statis-
tics - Theory and Methods 27, 589-600.
Golub, G.H., Heath, M., Wahba, G. (1979). Generalized cross-validation as a met-
hod for choosing a good ridge parameter. Technometrics 21, 215-223.
Goodnight, J.H. (1979). A tutorial on the SWEEP operator. The American Statis-
tician 33, 149-158.
Gorman, J.W., Toman, R.J. (1966). Selection of variables for fitting equations to
data. Technometrics 8, 27-51.
Graybill, F.A. (1961). An Introduction to Linear Statistical Models. McGraw-Hill,
New York.
Graybill, F.A. (1976). Theory and Application of the Linear Model. Wadsworth &
Brooks, Pacific Grove, CA.
Graybill, F.A. (1983). Matrices with Applications in Statistics, 2nd Ed. Wadsworth,
Belmont, CA.
Groß, J. (2003). Linear Regression. Springer, Berlin.
Gruber, M.H.J. (1998). Improving Efficiency by Shrinkage. Marcel Dekker, New
York.
Hald, A. (1952). Statistical Theory with Engineering Applications. Wiley, New York.
Harville, D.A. (1997). Matrix Algebra from a Statistician’s Perspective. Springer,
New York.
Hoaglin, D.C., Welsch, R.E. (1978). The hat matrix in regression and ANOVA. The
American Statistician 32, 17-22.
Hocking, R. (1996). Methods and Applications of Linear Models. Wiley, New York.
Hoerl, A.E., Kennard, R.W. (1970). Ridge regression: Biased estimation for nonort-
hogonal problems. Technometrics 12, 55-67.
Hoerl, A.E., Kennard, R.W. (1970). Ridge regression: Applications to nonorthogo-
nal problems. Technometrics 12, 69-82.
Hoerl, A.E., Kennard, R.W., Baldwin, K.F. (1975). Ridge regression: Some simu-
lations. Communications in Statistics: Theory and Methods 4, 105-123.
Huber, P.J. (1981). Robust Statistics. Wiley, New York.
Kariya, T., Kurata, H. (2004). Generalized Least Squares. Wiley, Chichester.
Lange, K. (1999). Numerical Analysis for Statisticians. Springer, New York.
BibliografÍa 119
Lange, K.L., Little, R.J.A., Taylor, J.M.G. (1989). Robust statistical modeling using
the t distribution. Journal of the American Statistical Association 84, 881-896.
Lange, K., Sinsheimer, J.S. (1993). Normal/independent distributions and their ap-
plications in robust regression. Journal of Computational and Graphical Statistics
2, 175-198.
Lawless, J.F., Wang, P. (1976). A simulation study of ridge and other regression
estimators. Communications in Statistics: Theory and Methods 5, 307-323.
Lindley, D.V., Smith, A.F.M. (1972). Bayes estimates for the linear model Journal
of the Royal Statistical Society, Series B 34, 1-41.
Little, R.J.A. (1988). Robust estimation of the mean and covariance matrix from
data with missing values. Applied Statistics 37, 23-38.
Louis, T.A. (1982). Finding the observed information matrix when using the EM
algorithm. Journal of the Royal Statistical Society, Series B 44, 226-233.
Magnus, J.R., Neudecker, H. (1985). Matrix differential calculus with applications
to simple, Hadamard and Kronecker products. Journal of Mathematical Psycho-
logy 29, 474-492.
Magnus, J.R., Neudecker, H. (2007). Matrix Differential Calculus with Applications
in Statistics and Econometrics, 3rd Ed. Wiley, New York.
Magnus, J.R. (2010). On the concept of matrix derivative. Journal of Multivariate
Analysis 101, 2200-2206.
McIntosh, A. (1982). Fitting Linear Models: An Application of Conjugate Gradients
Algorithms. Springer, New York.
McLachlan. G.J., Krishnan, T. (2008). The EM Algorithm and Extensions, 2nd Ed.
Wiley, New York.
O’Leary, D.P. (1990). Robust regression computation using iteratively reweighted
least squares. SIAM Journal on Matrix Analysis and Applications 11, 466-480.
Osborne, M.R. (1985). Finite Algorithms in Optimization and Data Analysis. Wiley,
New York.
Osorio, F., Ogueda, A. (2021). fastmatrix: Fast computation of some matrices useful
in statistics. R package version 0.3-819. URL: faosorios.github.io/fastmatrix
Paula, G.A. (2013). Modelos de Regressão, com Apoio Computacional. Instituto de
Matemática e Estatı́stica, Univeridade de São Paulo, Brasil.
R Core Team (2020). R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria. URL: www.R-project.org
Rao, C.R., Toutenburg, H., Shalabh, Heumann, C. (2008). Linear Models and Ge-
neralizations: Least Squares and Alternatives. Springer, New York.
Ravishanker, N., Dey, D.K. (2002). A First Course in Linear Model Theory. Chap-
man & Hall, London.
Ruppert, D., Wand, M.P., Carroll, R.J. (2003). Semiparametric Regression. Cam-
bridge University Press, Cambridge.
Schlossmacher, E.J. (1973). An iterative technique for absolute deviations curve
fitting. Journal of the American Statistical Association 68, 857-859.
Searle, S.R. (1971). Linear Models. Wiley, New York.
Searle, S.R. (1982). Matrix Algebra Useful for Statistics. Wiley, New York.
Seber, G.A.F., Lee, A.J. (2003). Linear Regression Analysis, 2nd Ed. Wiley, New
York.
Sen, A., Srivastava, M. (1990). Regression Analysis: Theory, Methods and Applica-
tions. Springer, New York.
120 BibliografÍa
Tong, Y.L. (1990). The Multivariate Normal Distribution. Springer, New York.
Velleman, P.F., Welsch, R.E. (1981). Efficient computing of regression diagnostics.
The American Statistician 35, 234-242.
Venables, W.N., Ripley, B.D. (2002). Modern Applied Statistics with S, 4th Ed.
Springer, New York.
Weisberg, S. (2005). Applied Linear Regression, 3rd Ed. Wiley, New York
Welsch, R.E., Kuh, E. (1977). Linear regression diagnostics. Massachusetts Institute
of Technology and National Bureau of Economics, Cambridge. Working paper
No. 173.
Woods, H., Steinour, H.H., Starke, H.R. (1932). Effect of composition of Portland
cement on heat evolved during hardening. Industrial and Engineering Chemistry
24, 1207-1214.
Wu, C.F.J. (1983). On the convergence properties of the EM algorithm. The Annals
of Statistics 11, 95-103.