Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Oscar Melo
2 de abril de 2020
1 BIBLIOGRAFÍA
2 INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NORMAL
3 ESTIMACIÓN POR MÍNIMOS CUADRADOS
Propiedades Geométricas
Propiedades Básicas de Inferencia
Estructura Ortogonal de la matriz de Diseño
Mı́nimos Cuadrados Generalizados
Mı́nimos Cuadrados con Restricciones Lineales
4 CONTRASTES DE HIPÓTESIS EN MODELOS NORMALES
Cálculo de Regiones e Intervalos de Confianza
5 EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE
Propiedades del Coeficiente de Correlación Múltiple
R 2 -Adjusted
Referencias Básicas
McCullagh, P., Nelder, J.A.: Generalized Linear Models. Chapman and Hall, 1989.
Dobson, A. J.: An Introduction to Generalized Linear Models. Chapman and
Hall, 1990.
Agresti, A.: Categorical Data Analysis. Wiley Interscience, 1990.
Fahrmeir, L., Tutz, G.: Multivariate statistical modeling based on generalized linear
models. Springer- Verlag,New York, 1994.
Lindsey, J. K.: Applying Generalized Linear Models. Springer, 1997.
donde a(·), b(·) y c(·) son funciones especı́ficas con φ conocido y donde se
denomina al único parámetro θ: parámetro canónico.
En la distribución normal:
" #
1 (y − µ)2
fY (y , θ, φ) = √ exp −
2πσ 2 2σ 2
( " #)
y µ − µ2 /2 1 y 2
= exp − + log(2πσ 2 )
σ2 2 σ2
θ2 µ2
donde a(φ) = φ = σ 2 , b(θ) = = (es decir θ = µ) y
" #2 2
1 y2
c(y , φ) = − + log(2πφ) .
2 φ
Oscar Melo (UNAL) MLG 2 de abril de 2020 8 / 95
En la distribución normal:
y θ − b(θ)
`(θ, φ, y ) = logfY (y , θ, φ) = + c(y , φ)
a(φ)
y θ − θ2 /2 1 y 2
= − + log(2πφ)
φ 2 φ
Y = µ + ε = X β + ε,
β ) =kεεk2 = ε t ε = (Y
S(β β)t (Y
Y − Xβ Y − Xβ
β)
X
= (Yk − x tk β )2 = Y t Y + β t X t X β − 2β
β tX tY
k
β ) son:
Las condiciones de primer orden de mı́nimo de S(β
β)
∂S(β
∇β S(β
β ) = 0 ←→ = 0 j = 1, ..., p
∂βj
X t X β =2X
2X X tY
h i
X t X )−1X t Y + I − (X
b =βb = (X X t X )−1X t X w , w ∈ <p
A − = (X
X t X )− es una g-inversa o inversa generalizada y satisface AA −A = A . A −
siempre existe, pero no es única. Si además satisface:
1. A −AA − = A − AA− )t = AA −
2. (AA A−A )t = A −A
3. (A
∂ 2 S(β
β)
∇β2 S(β
β) > 0 ↔ X TX > 0
= 2X i, j = 1, ..., p
∂βi ∂βj
Si la matriz de diseño X es no singular entonces la hessiana es definida positiva y
el punto que satisfaga las condiciones de primer orden es un mı́nimo global.
Propiedades geométricas
Sea <(XX ) el espacio generado por las columnas de X , <(XX ) = {ηη | η = X β
β,
β ∈ <p } ⊂ <n . Sea µb la solución del problema de minimización
mı́nµ kY − µk2 = µ b.
Y X T X )−1X T Y = PY .
b = Xb = X (X
Y = PY + (II − P )Y
Y =µ Y −µ
b + (Y b)
S(βb ) =kee k2 = e T e = (Y b )T (Y
Y −µ Y −µ
b)
Y − X βb )T (Y
=(Y Y − X βb )
T T
Y T Y + βb X T X βb − 2βb X T Y
=Y
T T
Y T Y + βb (X
=Y X T X βb − X T Y ) − βb X T Y
T
Y T Y − βb X T X βb = ESS(= SCE )
=Y
Y = µ + ε = X β + ε,
donde Y , µ son nx 1, X es nxp de rango p y β es px 1 y los errores no son
sesgados: E (εε) = 0.
X T X )−1X T Y ,
El estimador lineal no sesgado de mı́nima varianza de β es βb = (X
estimador por mı́nimos cuadrados.
eTe Y − X βb )T (Y
(Y Y − X βb ) SCE
s2 = = =
n−p n−p n−p
Y = µ + ε = X β + ε,
X T X )−1 .
1 βb ∼ Np β , σ 2 (X
T T −1
2 βb − β V −1 βb βb − β = βb − β X TX βb − β /σ 2 ∼ χ2p .
3 X T X )−1X T Y es independiente de s 2 .
βb = (X
4 SCE /σ 2 = (n − p)s 2 /σ 2 ∼ χ2p .
Y = µ + ε = X β + ε,
Entonces, los estimadores por mı́nimos cuadrados tienen una estructura especial
que les hace depender únicamente del bloque correspondiente, de manera que
cambios en la configuración de los otros bloques no afectan a la estimación
(supresión de ellos tampoco).
Oscar Melo (UNAL) MLG 2 de abril de 2020 21 / 95
Estimación MC. Estructura de la matriz de diseño
Supóngase que la matriz de diseño X se puede dividir en k grupos de
columnas X = (X X 1 , ..., X k ), mútuamente ortogonales por grupo.
X T X )−1X T Y
βb =(X
T −1 T
X1 X1 0 ··· 0 X1 Y
T X T
0 X 2 X2 ··· 0 2Y
= .
.. .. .. ..
.. . . . .
0 0 ··· XT k Xk XT
kY
T −1 T
X 1 X 1) X 1 Y
(X β̂1
(XX T −1 T
2 2 X ) X 2 Y β̂2
= .. = .
. ..
T −1
X k X k) X k Y T
(X β̂k
La suma de cuadrados residual toma la forma en este caso particular de,
k
T X T
SCE = ESS = Y T Y − βb X T X βb = Y T Y − βb r X T
r Y
r =1
β) son: ∇β S(β
Las condiciones de primer orden de mı́nimo de S(β) β ) = 0 si y
solo si
β)
∂S(β X
= 0 = −2 (Yk − β1 − β2 xk )xk
∂β2
k
X X X
Yk xk =βb1 xk + βb2 xk2
k k k
β)
∂S(β X
= 0 = −2 (Yk − β1 − β2 xk )xk
∂β1
k
X X
Yk =nβb1 + βb2 xk
k k
Y =βb1 + βb2 x
σ2
V (βb2 ) =
nsx2
σ2 x2
V (βb1 ) = 1+
nsx2 sx2
1 Ye = K −1Y .
2 e = K −1X .
X
3 ε = K −1ε .
e
4 K −1Y = K −1η + K −1ε = K −1X β + K −1ε ↔ Ye = X
eβ + e
ε.
e β) = e
S(β
T
ε eε = (Ye − Xβ e β ) = Ye T Ye + β T X
e β )T (Ye − X eTX e T Ye
βT X
e β − 2β
e β ) son:
Las condiciones de primer orden de mı́nimo de S(β
e β)
e β ) = 0 ↔ ∂ S(β
∇β S(β =0 i = 1, ..., p
∂βi
T −1 −1 T −1
X W X) X W Y
E (βe ) =E (X
T −1 −1 T −1
X W X ) X W Xβ = β
=E (X
eTX
−1 T −1 −1
V (βe ) =σ 2 (X e )−1 = σ 2 (K
K X) K X
T −1
−1
2
X T W −1X )−1
T
=σ (X X (KK
KK ) X = σ 2 (X
T T T T
SCE =Ye Ye − βe X
e X K −1Y )T K −1Y − βe (K
e βe = (K K −1X )T K −1X βe
T
KK T )−1Y − βe X T (KK
Y T (KK
=Y KK T )−1X βe = (Y
Y − X βe )T W −1 (Y
Y − X βe )
Oscar Melo (UNAL) MLG 2 de abril de 2020 30 / 95
Un caso particular de los mı́nimos cuadrados generalizados se da ante errores no
correlacionados, pero de varianza no constante. Por tanto la matriz W es diagonal
(con valores positivos) y simétrica.
Este caso es de especial interés en el curso de modelos lineales, puesto que los
procedimientos habituales de estimación MLG emplean métodos iterativos donde a
cada iteración hay que resolver unos mı́nimos cuadrados ponderados. Veamos con
detalle este caso cuando existe un solo regresor más un término independiente,
p = 2.
Si
1/w1 0 ··· 0
0 1/w2 ··· 0
D=
... .. .. ..
. . .
0 0 ··· 1/wn
entonces es simétrica y wi > 0, ∀i entonces puede calcularse una matriz no
singular K triangular inferior de dimensión n × n tal que D = KK T = D 1/2D 1/2 .
1 Ye = K −1Y = D −1/2Y .
2 e = K −1X = D −1/2X .
X
3 ε = K −1ε = D −1/2ε .
e
4 D −1/2Y = D −1/2η + D −1/2ε = D −1/2X β + D −1/2ε ↔ Ye = X
eβ + e
ε.
V (Ye ) = σ 2I n
e β ) son:
Las condiciones de primer orden de mı́nimo de S(β
e β)
∂ S(β
=0
β
∂β
T
V (βe ) =σ 2 (Xe Xe )−1 = σ 2 (X
X T D −1X )−1
σ2
V (βe2 ) = Pn 2
i=1 wi xi
T T T
SCE =Ye Ye − βe Xe Xe βe
=(Y β )T D −1 (Y
Y − X β̃ Y − X β̃
β)
n
X 2
= wi Yi − β̃1 − xi β̃2
i=1
β ) sujeto a un conjunto de
Supongase que se desea calcular el mı́nimo de S(β
restricciones lineales Aβ = c donde A es una matriz q × p de rango q < p.
El método de los mı́nimos cuadrados no requiere de ninguna hipótesis sobre
la distribución de las observaciones, la función objetivo a minimizar se suele
denominar S(β β ) y se define como,
β ) = ε T ε = Y T Y + β T X T X β − 2β
mı́n S(β βT X T Y
sujeto a
Aβ = c
El resultado es un programa de optimización cuadrático con restricciones
lineales de igualdad, a cada una de las cuales se le asocia un multiplicador
de Lagrange λi , cuyo valor es único si la matriz A es de rango completo.
Oscar Melo (UNAL) MLG 2 de abril de 2020 36 / 95
La formulación de la función lagrangiana de manera vectorial es,
β ) − λ T (Aβ
β , λ ) =S(β
L(β Aβ − c )
Y T Y + β T X T X β − 2β
=Y β T X T Y − λ T (Aβ
Aβ − c )
Sea βbi los estimadores por mı́nimos cuadrados con restricciones y sea βb los
estimadores ordinarios por mı́nimos cuadrados.
Las condiciones de primer orden de mı́nimo con restricciones son:
β , λ)
∂L(β
∇β L(β
β , λ) = 0 ↔ =0 i = 1, ..., p
∂βi
β , λ)
∂L(β
∇λ L(β
β , λ) = 0 ↔ =0 i = 1, ..., q
∂λi
β , λ)
∂L(β
∇β L(β
β , λ) = 0 ↔ X T X β − 2X
= 2X X T Y − AT λ = 0
β
∂β
β , λ)
∂L(β
∇λ L(β
β , λ) = 0 ↔ = −(Aβ
Aβ − c ) = 0
∂λλ
1
X T X )−1A T λ − c = 0
Aβb + A (X
2
−1
X T X )−1A T
λ = 2 A (X c − Aβb
Por lo tanto,
−1
X T X )−1A T A (X
X T X )−1A T
βb R =βb − (X Aβb − c
∂ 2 S(β
β)
∇2β S(β
β) = = 2X X T X , i, j = 1, . . . , p. Si la matriz de diseño X es
∂βi ∂βj
no singular, entonces la hessiana proyectada es definida positiva:
Z T ∇2β S(β Z = Z T (2X
β )Z X T X )Z
Z > 0. Por tanto, las condiciones de primer
orden de mı́nimo con restricciones, son condiciones suficientes.
Desde un punto de vista formal, la extensión al cálculo de estimadores por
mı́nimos cuadrados con restricciones de igualdad y/o desigualdad no
presenta ningún problema técnico: se formarı́a la función lagrangiana
correspondiente y se determinarı́a el mı́nimo por planteo de las condiciones
de optimalidad de K-T-T.
El cálculo de estimadores por mı́nimos cuadrados con restricciones de
igualdad es fundamental en estadı́stica, puesto que los contrastes de
hipótesis suelen resolverse por esa técnica o sencillamente la comparación
entre modelos jerárquicos habitual en las tablas ANOVA o ANODE.
Y = µ + ε = X β + ε,
Y = µ + ε = Xβ + ε
SH2
F =
s2
toma un valor alrededor de 1. H es rechazada si el estadı́stico F toma
valores significativamente grandes.
Consideración
Un problema habitual en estadı́stica reside en el cálculo de intervalos de confianza
bilaterales para k combinaciones lineales de los parámetros con una probabilidad
1 − α en cada intervalo por separado, implica una probabilidad global simultanea
de veracidad que no es 1 − α, sinó más pequeña del orden 1 − kα.
βbi − βi
t= ∼ t(n−p)
σ
bb
β
i
Por lo tanto,
βbi ± t(n−p),α/2 σ
bb
β
i
s
q
SCE
donde σ β
X T X )−1
b b = s (X ii y s = σ
b= .
i n−p
Además, t(n−p),α/2 es el valor correspondiente al estadı́stico t de
Student para el cálculo de un intervalo de confianza bilateral a un
nivel α con los grados de libertad correspondientes a la estimación de
varianza del modelo (n − p).
Una medida de la bondad del modelo ajustado a los datos, en los modelos
lineales normales, es el coeficiente de correlación múltiple, R, definido como
el coeficiente de correlación muestral entre los datos yk y los valores
ajustados ybk : P
k (yk − y )(byk − yb)
R=h i1/2
P 2
P 2
k (yk − y ) k (b
y k − y
b )
ya que
X X 2
(yk − y )2 = (yk − b yk − y )
yk ) + (b
k k
X X X
= yk − y )2 +
(b yk )2 + 2
(yk − b (yk − b yk − y )
yk )(b
k k k
X X
= yk − y )2 +
(b yk )2
(yk − b
k k
donde,
X X X
(yk − b yk − y ) =
yk )(b (yk − b yk − y
yk )b (yk − b
yk )
k k k
X
= (yk − b
yk )b
yk = (Y b )T Yb
Y −Y
k
Y − PY )T PY = Y T (II − P )PY
=(Y PY = 0
yk − y )2
P
2 (b SCM SCE
R = Pk = =1−
k
(yk − y )
2 SCT SCT
n − p (R 2 − RH2 ) 0
F = ∼ F(p−1,n−p,λ)
p − 1 (1 − R 2 )
1 bk ] = E [xx T βb ] = x T β .
E [Y k k
1 E [e] = E [Y − Y
b ] = E [Y ] − E [X β]
b = Xβ − Xβ = 0
2 V [e] = V [(I − P)Y ] = (I − P)T V [Y ](I − P) = σ 2 (I − P)2 = σ 2 (I − P)
βb = (X T X )−1 X T Y
, entonces:
(X T X )−1 + B x
βb 2 e T e −1 2
V = σ (X X ) = σ
γ
b x x
Los residuos son las diferencias entre los valores observados y los valores
ajustados por el modelo:
e = Y −Yb = (I − P)Y = (I − P)(X β + ε) = X β − PX β + (I − P)ε = (I − P)ε y de ahı́
que a veces se les denomine errores observados, término que únicamente
debiera emplearse si el modelo es correcto.
1 E [e] = E [Y − Y
b ] = E [Y ] − E [X βb] = X β − X β = 0
2 V [e] = V [(I − P)Y ] = (I − P)T V [Y ](I − P) = σ 2 (I − P)2 = σ 2 (I − P)
Aunque los errores ε sean independientes y de varianza constante, los residuos e noson
independientes, ni tienen la misma varianza: V [e] = σ 2 (I − P) I − X (X T X )−1 X T o
bien individualmente, la varianza del residuo i-ésimo es V [ei ] = σ 2 (1 − pii ), donde pii es el
elemento diagonal i-ésimo de la matriz de proyección P.
Para comparar los residuos entre sı́, suele ser más ilustrativo transformarlos, encontrándose
en la literatura y los paquetes estadı́sticos diversas posibilidades:
ei
3 El residuo estudentizado di se define como ri = √ donde
s(i) 1 − pii
2 =
(n − p)s 2 − ei2 /(1 − pii )
s(i) Los residuos estudentizados siguen una distribución t de
n−p−1
Student con n − p − 1 grados de libertad bajo modelos de respuesta continua sujetos a las
hipótesis ordinarias.
λ
Y −1
La familia Box − Cox es una familia de
λ 6= 0
transformaciones de variables aleatorias h(Y ) = λ
que se emplean para conseguir
normalidad o homocedasticidad: logY λ 6= 0
La justificación de la definición viene de una propiedad básica que relaciona
las varianzas de transformaciones de la variables aleatorias y que trasladada
a la notación empleada en la presente sección es:
1
1 ≤ pii ≤ 1
n
2 Al tratarse de una matriz
P idempotente y simétrica:
dim(P) = traza(P) = i pii = p
P
pii p
Lo que permite determinar su media p = i = y a partir de otros
n n
estadı́sticos descriptivos calculables, los resultados de Belsley et al., indican
que si las variables explicativas proceden de una distribución normal indican
que pueden considerarse valores influyentes a priori aquellos puntos con
pii > 2p
2
(βb − βb(i) )T X T X (βb − βb(i) )
ei pii 1
Di = = √ ≈ Fp,n−p
ps 2 s 1 − pii 1 − pii p
1 La ecuación tiene que ser útil para finalidades predictivas, de manera que se
incluı́ran tantos regresores como sea necesario para que los valores ajustados
sean fiables.
2 Los modelos con muchos regresores tienen un alto coste de obtención y
mantenimiento de la información, de manera que el modelo debe incluir el
mı́nimo de regresores necesario.
SCRp AICp
El Cp Mallows se define como Cp = − (n − 2p) = 2 − n, donde SCRp
s2 s
es la suma de cuadrados residual de un modelo con p regresores y el estimador de
la varianza del modelo procede del modelo maximal (se intenta garantizar ası́ la
ausencia de sesgo).