Eyp2425 2015ABC

MODELOS LINEALES: UN ENFOQUE
FUNCIONAL
Guido del Pino.M,
Departamento de Estadı́stica
Pontificia Universidad Catolica of Chile
Abstract
Estos apuntes preliminares constituyen la primera parte de un
texto para el curso EYP2425: Análisis de Varianza y Diseño de Exper-
imentos de la Licenciatura en Estadı́stica de la Pontificia Universidad
Católica de Chile. Después de una discusión general sobre la nat-
uraleza de las funciones de regresión se discute la especificación de
dichos modelos en términos funcionales, describiéndose someramente
algunos métodos de estimación de estas funciones. Se parte enun-
ciando un enfoque no paramétrico para la estimación de funciones de
regresión, introduciendo los modelos paramétricos, lineales o no, como
una forma de disminuir la dimensionalidad del problemaa. Finalmente
se entrega la especificación funcional de los modelos lineales.
Se muestra a continuación como deducir la formulación geométrica
del modelo, una vez que se dispone de las observaciones. Se deduce el
estimador de mı́nimos cuadrados en términos de proyecciones ortogo-
nales, y de aquı́ las fórmulas matriciales.
1 Los problemas de asociación, predicción y

estimación
1.1 Asociación
El estudio de la asociación entre dos variables tiene una larga historia:
• Galton, en el siglo XIX estudió la relación entre las estaturas dentre las
mediciones de los ı́ndices de contaminación en 10 estaciones distintas.
1
• Asociación en el tiempo, por ejemplo los precios del cobre en 10 dı́as
consecutivos.
Hoy en dı́a, la asociación entre m variables aleatorias continuas se expresa
matemáticamente a través de la densidad conjunta f (x) = f (x1 , . . . , xm ).
Esta función está completamente determinada por la familia de conjuntos
de nivel {x : f (x) = c} para todo c > 0, que son curvas en el caso de dos
variables aleatorias X e Y. Un logro sorprendente de Galton es que a partir de
datos empı́ricos conjeturó que las curvas de nivel eran las elipses concéntricas
{(x, y) : Q(x, y) = c}, donde Q es cierta forma cuadrática definida positiva.
El centro de la elipse es la solución de Q(x, y) = 0, mientras que los ejes están
dados por los vectores propios de la matriz que define la forma cuadrática.
Todo esto se puede extender a k variables, en cuyo caso las elipses pasan a ser
elipsoides. Una densidad multivariada, con conjuntos de nivel de esta forma
se denomina distribución elı́ptica, siendo la más conocida la de la distibución
normal multivariada, cuya densidad es
1 1
f (x) = m exp(− Q(x − µ)), (1.1)
(2π det(V )) 2 2
donde Q(z) = z t V −1 z. Se puede demostrar que el vector µ es la me-
dia del vector aleatorio y que V es su matriz de covarianza. Aunque hay
infinitas distribuciones elı́pticas, la normal multivariada es la única tal que
V diagonal es equivalente a la independencia de las variables aleatorias. En
otras palabras, este es un caso muy especial en que correlación 0 implica
independencia. La normal bivariada es el caso particular m = 2 y ella está
determinada por el vector de parámetros θ = (µx , µy , σx , σy , ρ), donde ρ de-
nota la correlación. Estandarizando las variables, es decir restando la media
y dividiendo por la desviación estándar, se obtiene el vector de parámetros
θ = (0, 0, 1, 1, ρ), de modo que la distribución conjunta de las variables es-
tandarizadas está determinada por 0 < ρ < 1. Se puede demostrar que para
cualquier valor de ρ, X e Y tienen distribución N(0, 1). Aplicando (1.1) con
m = 2 se obtiene la densidad conjunta:
1 1
f (x, y) = p exp( Q(x, y)), (1.2)
2π (1 − ρ2 ) 2
con
x2 + y 2 − 2ρxy
Q(x, y) = .
1 − 2ρ2
El parámetro −1 < ρ < 1 determina la orientación de la elipse.
2
1.2 Predicción y estimación
La asociación entre m variables aleatorias es un concepto que las trata de
manera simétrica, por ejemplo, estudiar la asociación entre X e Y lequivale
a estudiar la asociación entre Y y X. Esta simetrı́a se rompe cuando se desea
predecir el valor de una de ellas, Y , denominada variable respuesta en función
de los valores x = (x1 , . . . xk ) de un vector aleatorio de dimensión k = m − 1.
Es importante distinguir dos casos:
(a) x es el valor observado de un vector aleatorio X.
(b) x no es aleatorio, sino que está fijo por diseño, por ejemplo cuando él
está bajo control de un experimentador.
Especificar la distribución conjunta equivale a especificar la familia de dis-

tribuciones condicionales de Y dado X = x y la distribución marginal de
X. En el caso (a) se puede argumentar que esta última es irrelevante, de
modo que basta especificar las distribuciones condicionales. En el caso (b)
no tiene sentido hablar de una distribución condicional, sino que se trata
simplemente de una distribución univariada Qx de Y, indexada por el valor
x. En términos operativos no hay ninguna diferencia entre ambas interpreta-
ciones y usaremos (b) por ser la más simple conceptualmente.
Es bien conocido que si se desea predecir una variable Z utilizando una

constante c, de tal forma que se minimice el error cuadrático medio E(Z −c)2 ,
el valor optimo es c = E(Z). En el caso de una variable respuesta Y con dis-
tribución Qx . esto sugiere usar la media µx de Qx para predecir el valor de
Y, lo que coincide con la esperanza condicional E(Y |X = x) en la formu-
lación (a). Escribiendo h(x) = µx se obtiene una función h, a la que se le
llama función de regresión. Cuando uno se ve enfrentado a un único valor
x, el valor w = h(x) se determina normalmente utilizando algún algoritmo
numérico. Sin embargo, la función completa es importante, al menos para
analizar su comportamiento cualitativo, y en el mejor de los casos se puede
encontrar una fórmula analtica, lo que simplifica mucho el cálculo de h(x).
Como h(x) se usa también para predecir Y, se le denomina al algoritmo o a
la fórmula regla de predicción.
Aunque el problema de la mejor predicción se reduzca a encontrar la

función de regresión, esta última es desconocida y debe ser estimada a partir
3
de los datos. Obtener la mejor predicción de Y cuando se conoce x se reduce
a encontrar la estimación puntual de h(x), la que se puede interpretar como
el valor de la función de regresión estimada ĥ evaluada en x, sobre la base de
n observaciones y1 , . . . , yn . Por otra parte, más allá de la predicción puntual
hay que preocuparse de la variabilidad, cuya descripción completa está dada,
justamente, Qx , distribución que es desconocida, a menos que se impongan
fuertes restricciones. Una descripción parcial es la varianza v(x) = σ 2 (x),
pero nuevamente la función v es desconocida y aún más difı́cil de estimar que
h. En todo caso, esta estimación es mucho más factible que la de la familia
de todas las distribuciones condicionales, a menos que se suponga que ellas
corresponden a una familia paramétrica particular. Cuando X es una vari-
able aleatoria y la distribución de (X, Y ) normalizada es normal bivariada,
h(x) = E(Y |X = x) = ρx, que es una función lineal. Estimar h equivale a
estimar ρ. Además v(x) = 1 − ρ2 .
Nota 1: Aunque nos concentraremos en la media, el uso de la mediana

se puede justificar en términos de la minimización del error absoluto medio
E(|Z − c|). La preferencia por la media es principalmente la conveniencia
matemática. Hay situaciones prácticas en que lo más relevante es estimar un
percentil, lo que también se puede vincular a la minimización de otro criterio
en que la sobre y la subestimación no tengan la mismma importancia.
Nota 2: En el caso muy popular Qx = N(h(x), v(x)), es difı́cil estimar v a

menos que se hagan supuestos adicionales. Casos particulares son:
• v(x) está dada por una fórmula en que aparece muy pocas constantes
desconocidas, por ejemplo, v(x) = α + βx. El caso más sencillo es
β = 0, es decir, la función v es constante, condición que se denomina
homocedasticidad.
• σ 2 = V (µ) para cierta función de varianza V. Para la distribución

de Poisson, V (µ) = µ, mientras que para la distribución de Bernoulli
V (µ) = µ(1 − µ).
4
2 El enfoque funcional
2.1 Enfoque no paramétrico
Denotemos por xi el valor asociado con yi y por X0 = {x1 , . . . , xn } al con-
junto de valores asociados con los yi . Claramente Yi es un estimador ins-
esgado de h(xi ) y cuando hay r observaciones y1 , . . . , yr asociadas con un
valor x ∈ X0 , el estimador natural es el promedio de estas observaciones. Se
puede demostrar que este promedio es el estimador lineal insesgado de var-
ianza uniformemente mı́nima, importante concepto que será retomado más
adelante. En lo que resta de esta sección consideraremos esencialmente solo
el caso univariado, aunque las extensiones al caso de multiples predictores
es inmediata. Más precisamente, X será un intervalo en IR , que contiene
infinitos puntos, mientras que X0 contiene a lo más n puntos. Aunque la es-
timación de h parece un problema insoluble, existe un sinnúmero de métodos
estadı́sticos para llevar esto a cabo. La idea principal es borrowing strength,
es decir , estimar h(x) pidiendo información prestada a lo que se observa en
otros puntos que sı́ estén disponibles.
Suavidad:
En el análisis esploratorio de datos se utiliza el diagrama de dispersión para
analizar la asociación entre las observaciones. A partir de este diagrama se
busca detectar una tendencia, lo que equivale a adivinar la forma de la función
de regresión. Esto se representa geométricamente por la superposición de
una curva a la nube de puntos (xi , yi ), i = 1, . . . , n. En la práctica esta curva
no pasa por todos los puntos, lo que es claramente imposible cuando hay
dos observaciones distintas para un mismo valor de x. Si esta situación no
ocurre, hay infinitas funciones ĥ, cuyo gráfico pase por todos los puntos,
pero esto no tiene, en general, utilidad alguna. Por ejemplo, la tendencia
aparente corresponde a una función de regresión estrictamente creciente y
serı́a muy excepcional que una curva que pasa por todos los puntos satisfaga
esta propiedad. Por otra parte, razones del contexto sugieron normalmente
que la verdadera función de regresión es relativamente suave, e.g., infinita-
mente diferenciable, mientras que tal ĥ es tı́picamente muy irregular.
Pese a que nos concentraremos en métodos paramétricos una multiplicidad

de métodos no paramétricos, que son muy utilizados en la práctica. La idea
general es lograr un compromiso adecuado entre ajuste (la curva pasa cerca
5
de los puntos) y la suavidad de la curva. Un método en que la búsqueda
de este compromiso resulta evidente es el de mı́nimos cuadrados penalizados,
para el cual ĥ minimiza
S(h) + λG(h),
Pn
donde S(h) = i=1 (yi − h(xi ))2 , G(h) mide la no suavidad de la función h y
λ es un número positivo. Cuanto mayor sea λ la curva será más suave, pero
el ajuste será peor (la suma de cuadrados será mayor). Un ejemplo particular
R b ′′
es G(h) = a (h (x))2 dx. Hay muchos otros métodos que están disponibles en
diversos paquetes estadı́sticos y que también buscan el compromiso señalado.
2.2 Enfoque paramétrico

El conjunto H de todas las funciones definidas en un intervalo es un espacio
vectorial, cuya dimensión es infinita, lo que genera complicaciones teóricas
y prácticas. Este curso solo se concentra en estudiarán los denominados
métodos paramétricos, para los cuales se supone que h pertenece a un sub-
conjunto H0 , que está en correspondencia uno a uno con cierto subconjunto
Θ, que se denomina espacio paramétrico y que está contenido en un espacio
euclidiano de dimensión k. Las componentes θ1 , . . . , θk de θ ∈ Θ se denomi-
nan parámetros. La función que asocia a cada vector θ la función h, se de-
nomina una parametrización de la función de regresión, la cual escribiremos
como h(x, θ) o, más precisamente, h(x, ·). Se dice que la familia paramétrica
tiene dimensión k cuando se cumple una condición técnica sencilla de lograr
en la práctica. Expresiones alternativas equivalentes de esta condición son:
(a) Los parámetros θi puedan variar libremente en ciertos intervalos, por

pequeños que ellos sean.
(b) Θ tiene interior no vacı́o.
(c) Los parámetros son funcionalmente independientes.
Para comprender la necesidad de la condición considere (θ1 , θ2 ) = (ω, ω 2), ω ∈

IR . En este caso Θ es una parábola contenida en IR 2 e intuitivamente una
curva tiene dimensión 1. El problema se resuelve fácilmente eliminando el
parámetro θ2 , que es redundante.
6
En el caso paramétrico no es necesario introducir un término de penel-
ización para lograr la suavidad, pues ella está asegurada por la fórmula
analı́tica de h(x, ·). Basta entonces minimizar la suma de cuadrados, es decir,
encontrar θ̂, que minimice
n
X
S (h(x, θ)) = (yi − h(xi , θ))2 . (2.1)
i=1
La función de regresión estimada es simplemente h(·, θ̂). Cuando ella tiene

derivadas parciales de segundo orden se puede buscar el mı́nimo igualando
las derivadas parciales a 0 y verificando que el hessiano sea definido positivo.
Como en la práctica esto se calcula numéricamente a través de métodos recur-
sivos, una dificultad seria es la posible presencia de muchos mı́nimos locales,
por lo que no hay garantı́a de que el mı́nimo encontrado sea efectivamente
global.
3 Modelos lineales
3.1 Formulación funcional
En este curso nos concentraremos en el importante caso del modelo lineal:
k
X
h(x, θ) = θj hj (x), (3.1)
j=1
donde las funciones hj son conocidas y los parámetros θj son desconocidos.

La especificación del modelo de regresión corresponde a la elección de estas
funciones . Le enorme ventaja matemática de los modelos lineales es que S(θ
es automáticamente una función cuadrática y definida positiva. Existe en-
tonces una solución analı́tica sencilla, la que se puede obtenere resolviendo el
sistema de ecuaciones lineales que se obtiene al igualar las derivadas parciales
con respecto a los θj a 0. En un modelo lineal los parámetros se denominan
normalmente coeficientes y se usa βj en vez de θj .
Si bién h(xi ) es la media de Yi , no se produce la igualdad yi = h(xi ).

Un supuesto fundamental, que justifica parcialmente el uso en estadı́stica del
método de mı́nimos cuadrados, es que las observaciones sean independientes.
7
Una formulación alternativa, pero equivalente, es
k
X
Yi = βj hj (xi ) + ǫi , i = 1, . . . , I, (3.2)
j=1
donde los errores ǫi son independientes. Es importante destacar que estos

errores no son observables,ya que los coeficientes son desconocidos. Reem-
plazando a los coeficientes por sus observaciones se obtienen los residuos
k
βˆj hj (xi ),
X
ǫi = yi − (3.3)
j=1
los que evidentemente son conocidos, pues se pueden calcular, a partir, de

los datos. Lo mismo ocurre con la suma de cuadrados residual S(β̂). Cabe
destacar que, a diferencia de los errores, los residuos están correlacionados y
por tanto no son independientes.
3.2 Estimador máximo verosı́mil y el estimador de mı́nimos

cuadrados
Consideremos el modelo
Y ∼ Nn (µ, σ 2 I), µ ∈ M, (3.4)
cuya densidad es

1 1 2
fY (y) = n exp − 2 ky − µk
(2πσ 2 ) 2 2σ
De acá se puede encontrar la función de log-verosimilitud y maximizarla.

Para σ 2 fijo, la maximización con respecto a µ genera el estimador PM Y ,
el cual coincide con el estimador de mı́nimos cuadrados. Si e = y − PM Y ,
se define SCE (M) = kek2 . Para encontrar el MLE de λ = σ 2 encontramos
la log-verosimilitud y la calculamos con kY − µk2 reemplazado por SCE:
− n2 log λ − SCE
2λ
. Derivando con respecto a λ e igualando a 0 se encuentra
− λ + λ2 , es decir σˆ2 = SCE
n SCE
n
8
4 Enfoque geométrico y la formulación ma-
tricial
4.1 Proyecciones ortogonales y el estimador de mı́nimos
cuadrados
Sea Y un vector aleatorio en IRn , µ = E(Y ). Si M es un subespacio vectorial
de E = IR n , con dim M = r, la formulación geométrica del modelo lineal es
µ ∈ M, (4.1)
Para obtener una formulación matricial, se busca una matriz “de diseño”
X de n × k, tal que sus columnas X j , j = 1, . . . , k generen M. Se dice que
M coincide con el espacio columna de la matriz X, al que se le denota por
col (X). Esto quiere decir que para todo t ∈ M existen coeficientes βj , no
necesariamente únicos, tales que
k
X
t= βj X j (4.2)
j=1
Escribiendo el vector columna β = (βj , j = 1, . . . , k)t se obtiene la repre-

sentación matricial
Xβ = t (4.3)
En estos apuntes (4.3) se utilizarán dos reemplazos de t :
• Si t = µ los coeficientes βj son los verdaderos, pero son desconocidos

dado que µ también lo es.
• Si t = µ̂ los coeficientes correspondientes se denotan por β̂j . Ellos

tienem sentido solo si (4.3) tiene una solución única.
Una deficiencia de la formulación matricial es que hay un número infinito

de matrices X, con k ≥ r, tales que M = col (X) y que para cada una
el vector de coeficientes (estimados o no), puede carecer de sentido por no
estar definido de manera única. Algebráicamente, la condición requerida es
que la transformación lineal que a β le asigna Xβ, sea biyectiva ( en otras
palabras, “se puede despejar β en términos de t”). Usando resultados de
álgebra lineal, la inyectividad equivale a la independencia lineal de las X j .
9
Por definición, el rango r(X) de la matriz X es dim col (X), y una condición
equivalente es r(X) = k (se dice que X es de rango completo. Volviendo a
la geometrı́a, el cuadrado de la distancia euclideana entre dos puntos u y t
en IR n es
SC (u, t) = kt − uk2 (4.4)
Definiendo
S(β) = SC (y, Xβ), (4.5)
el método de mı́nimos cuadrados consiste en minimizar S(β).
Intuición geométrica: Dado un punto cualquiera t (en el plano o en el espa-

cio) y una recta L que pasa por el origen, existe un único punto z ∈ L que
está a una mı́nima distancia de y. Del mismo modo, dado un hiperplano H
que pasa por el origen, existe un único punto z ∈ H que está a distancia
mı́nima de t. En estos casos, es factible hacer un dibujo y convencerse que
t − z debe ser ortogonal a L o a H, según corresponda. Las propiedades
de ortogonalidad y distancia mı́nima son equivalentes y corresponden al con-
cepto de proyección ortogonal.
Definición 4.1 La proyección ortogonal del vector t sobre el subespacio M,

denotada por PM t, es el único vector z ∈ M, tal que
t − z ⊥ M, es decir, t − z ⊥ u, para todo u ∈ M . (4.6)
Se puede demostrar que PM existe y es única. Por otra parte, el Teorema de

Pitagoras implica que
SC (t, u) = SC (t, z) + SC (u, z) (4.7)
Como SC (u, z) ≥ 0 y SC (u, z) = 0, si, y solo si, u = z, esto demuestra el

importante teorema:
Teorema 4.2 La proyección ortogonal t̂ = PM t, de t sobre M es el único

punto de M,que está a distancia mı́nima de t.
Es habitual que el interés se concentre en β, βj o una combinación lineal

t
c β. A menos que se diga lo conrario supondremos que Por Cabe hacer notar
que el significado de βj depende de la matriz X completa, y no solo de la
columna X j . Por ahora nos concentramos en el caso r(X) = k, para el cual
10
µ determina β y µ̂ determina los coeficientes estimados βˆj . Utilizando (4.6)
con t = y y z = PM y,
µ ∈ M y (y − µ) ⊥ u para todo u ∈ M (4.8)
Un resultado de álgebra lineal indica que basta probar la ortogonalidad para

un conjunto generador (u1 , . . . , um ) de M, siendo el más natural el de las
columnas de X. Se obtiene ası́ X t (y − Xβ) = 0, y de aquı́
(X t X)β = X t y. (4.9)
La solución es única si X t X es invertible, o bien, r(X) = k. Ambas condi-

ciones son equivalentes pues r(X t X) = r(X). Bajo estas condiciones se ob-
tiene las solución explı́cita
β̂ = (X t X)−1 X t Y . (4.10)
4.2 Dos propiedades de las proyecciones ortogonales

Intuitivamente, proyectar dos veces un vector sobre un subespacio M, equiv-
ale a proyectarlo una sola vez: PM (PM (t)) = PM t para todo t, es decir,
2
PM = PM . La matriz P que representa PM es idempotente:
P 2 = P. (4.11)
Sin embargo, una matriz idempotente P representa un proyector ortogo-

nal, si, y solo si, P es simétrica. En caso contrario, ella corresponde a una
proyección “oblicua” (piense en un lápiz y un foco de luz). Técnicamente,
esta última coincide con una proyección ortogonal con respecto al producto
interno alternativo < a, b >= at W b, donde W es simétrica y definida posi-
tiva.
Ejercicio teórico: Verifique que las ecuaciones normales adecuadas para el

nuevo producto interno son
(X t W X)β = X t W y (4.12)
y que si X es de rango completo y Q está dada por
Qy = X(X t W X)−1 X t W, (4.13)
11
Q es, efectivamente , idempotente, pero no simétrica. Para hacer demostra-
ciones, el siguiente resultado es útil:
Teorema 4.3 Para todo subespacio M y vectores a y d cualesquiera, se

cumple la propiedad
< PM a , d >=< a , PM d > (4.14)
Demostración (sin usar matrices).

Sea M2 = M1⊥ y Pi = PMi , i = 1, 2, Todo vector a se puede descomponer de
manera única como a = a1 + a2 , donde ai ∈ Mi , i = 1, 2. Aplicando esto con
a = c y a = d, se obtiene
P1 c = P1 (c1 +c2 ) = P1 c1 , < P1 c , d >=< P1 (c1 +c2 ) , d1 +d2 >=< c1 , d1 > .
De aquı́, el resultado buscado se obtiene por un argumento de simetrı́a. A

partir de este teorema es trivial demostrar
Teorema 4.4 La matriz P representa una proyección ortogonal, si , y solo

si, P es idempotente y simétrica.
Demostración: Sea P la matriz que representa PM . Entonces at P d es un

escalar y su transpuesto coincide con él. Por lo tanto, (P d)t a = dP t a para
todo a y d, de modo que P es simétrica.
Ya sabemos que una matriz P idempotente y simétrica representa la

proyección ortogonal PM para cierto subespacio M, cuya dimensión denom-
inamos por r. Para diagonalizar P, podemos elegir una base ortonormal
(e1 , . . . , er ) de M y una base (er+1 , . . . , en ) de M ⊥ . Hay dos valores pro-
pios distintos:
(a) Un valor propio 1, con multiplicidad dim M, cuyo subespacio propio es

M.
(b) Un valor propio 0, con multiplicidad n − r, cuyo subespacio propio es

M ⊥.
Como la suma de los valores propios es r, la traza de la matriz PM coincide

con dim M.
12
5 Descomposiciones ortogonales
5.1 Sumas directas
La suma directa de subespacios generaliza el concepto de base:
Definición 5.1 Sea (E1 , . . . Er ) una colección ordenada de subespacios y
E = E1 + · · ·+ Er . Esta colecciónPes una suma directa de subespacios si tiene
una descomposición única z = rj=1 z j , con z j ∈ Ej . Un caso importante
ocurre cuando los subespacios tienen dimensión 1 y Ej = span(ej ). Se aprecia
que (e1 , . . . , er ) es una base de E. Se dice que E = E1 + · · · + Er es una
suma directa. Se puede demostrar que una condición necesaria y suficiente
para que la descomposición sea una suma directa es
Ej ∩ Es = {0} para todo j 6= s. . (5.1)
5.2 Suma o descomposición ortogonal

Definición 5.2 Una suma E = E1 + · · · + Er de subespacios es una suma
ortogonal de estos subespacios, o bien una descomposición ortogonal de E, si
Ej ⊥ Es para todo j 6= s. (5.2)
Ciertamente, una descomposición ortogonal es L una suma directa, pero la

recı́proca no es válida. Utilizaremos el sı́mbolo para denotar una suma
ortogonal, de modo que
M r
E= Ej . (5.3)
j=1
A una base ortogonal (e1 , . . . , em ) de E, se le asocia la descomposición or-

togonal con Ej = span(ej ), j = 1, . . . , m. En el lenguaje de proyecciones
ortogonales y simplificando la notación a Pj = PEj y P = PE (7.4) equivale
a r
X
Pj = P donde Pj Ps = 0 para todo j 6= s (5.4)
j=1
Con la notación Sj = kPj yk2 y S = kP yk2 , el Teorema de Pitagoras implica

que
Xr
S= Sj (5.5)
j=1
13
Notación: Para un subespacio M y un vector u arbitrario usamos la notación
SC (u, M) = kPM uk2 y SCE (u, M) = SC (u, M ⊥ ). Con esta notación
SCE (u, M) = SC (u, M ⊥ ) = kuk2 − SC (u, M). (5.6)
TTTTTTTTTTTTTTTTTTTTTTTTTTTTT
5.3 Representaciones canónicas

Un enfoque alternativa en que solo se usan colecciones de variables no cor-
relacionadas se presenta a continuación: Una ventaja es que no se requiere
tener mayores conocimientos de matrices e interpretaciones geométricas.
Teorema: Sea E un subespacio de dimensión m y considere s subespacios

ortogonales Ej , j = 1, . . . , s con dim Ej = rj . Entonces, existe una base or-
togonal (e1 , . . . , em ) de E y una partición (A1 , . . . , As ) de {1, . . . , m}, con
card (Aj ) = rj , tal que (Ej = span(ei , i ∈ Aj ), j = 1, . . . , s es una descom-
posición ortogonal.
Utilizando la base ortogonal en

Xeste teorema, todo vector en Ej se puede
escribir de manera única, como zi ei . Por otro lado, (zi , i ∈ Aj ) está en
i∈Aj
correspondencia uno a uno con PEj t.
Definiendo el vector aleatorio Z = (Z1 , . . . , Zn , con Zi =< ei , Y >, i =
1, . . . , n, X
kPEj Y k2 = Zi2 ., (5.7)
i∈Aj
En el caso s = 2, E1 = M, E2 = M ⊥ , se obtiene
r
X
2
kPM Y k = Zi2 . (5.8)
i=1
y
n
X
2
kPM ⊥ Y k = Zi2 . (5.9)
i=r+1
14
6 Subespacios anidados y descomposiciones
ortogonales
Sea N0 ⊂ N1 ⊂ Mr ⊂ Mr + 1 = IR n una sucesión de subespacios anidados,
con dim Mj = sj , j = 0, . . . , r + 1, con sr+1 = n. La idea es que si m > j, el
modelo Mod m: µ ∈ Mm , es más complejo que el modelo Mod j: µ ∈ Mj .
Preguntas estadı́sticas naturales son
• ¿Vale la pena complejizar Mod j ?
• ¿ Es justificable simplificar Mod m a Mod j?
La clave está en medir la calidad del modelo a través de las SCE . Denotando
a SCE (y, Mk ) por SCE k , la idea es comparar SCE m con SCE j . Si todas
las observaciones yi se multiplican por una constante d, la SCE se multiplica
por d2 . Esto sugiere calcular incrementos o decrementos porcentuales. La
diferencia absoluta es DIF = SCEj − SCE m ( no SCEm − SCE j , que
es negativo). Si Mm es el modelo más complejo que por ahora queremos
considerar, el vector de residuos asociado con Mm es ortogonal a Mm y, por
ende, a Mj ; el vector de residuos asociado con Mj , no es, en general, ortogonal
a Mm . La idea es, entonces, analizar:
SCEj − SCE m
R= (6.10)
SCE m
La disminución porcentual de la SCE cuando se complejiza el modelo es
SCEj − SCE m
R= (6.11)
SCE j
y el aumento porcentual cuando se simplifica el modelo es

SCEj − SCE m R
= , (6.12)
SCE j 1−R
que es una función estrictamente creciente de R, con g(0) = 0 y g(x) → ∞,

cuando x → 0.
Volvamos ahora a la sucesión de subespacios. Un resultado de álgebra

lineal muy relevante para nuestros propósitos es
15
Teorema Para 0 ≤ j ≤ r, existe un subespacios Ej tal que
M
Ej+1 ⊥ Mj y Mj+1 = Mj Ej+1 (6.13)
Procediendo recursivamente se obtiene la descomposición ortogonal

" m #
M M
Mm = Mj Ek . (6.14)
r=j+1
6.1 Efecto de una variable

Si Mk = span(X 1 , . . . X k ), suele interesar el efecto de agregar una columna
X k+1 a la matriz de diseño, es decir, el efecto de agregar el coeficiente βk+1 .
Si
u = X k+1 − Pk X k+1 = (I − PMk )X k+1, (6.15)
entonces Ek+1 = spanu. Si aplicamos el resultado general, vemos que
(< u, y >)2
SCE k − SCE k+1 = ,
kuk2
de donde
ˆ )2 = (< u, y >)2 SCE k − SCE k+1
(βk+1 = (6.16)
kuk4 kuk2
FFFFFFFFFFFFFFFFFFFFFFFFFF
7 Subespacios anidados y descomposiciones

ortogonales
Sea M0 ⊂ M1 ⊂ Mr ⊂ Mr + 1 = IR n una sucesión de subespacios anidados,
con dim Mj = sj , j = 0, . . . , r + 1, con sr+1 = n. La idea es que si m > j, el
modelo Mod m: µ ∈ Mm , es más complejo que el modelo Mod j: µ ∈ Mj .
Preguntas estadı́sticas naturales son
• ¿Vale la pena complejizar Mod j ?
• ¿ Es justificable simplificar Mod m a Mod j?
16
La clave está en medir la calidad del modelo a través de las SCE . Denotando
a SCE (y, Mk ) por SCE k , la idea es comparar SCE m con SCE j . Si todas
las observaciones yi se multiplican por una constante d, la SCE se multiplica
por d2 . Esto sugiere calcular incrementos o decrementos porcentuales. La
diferencia absoluta es DIF = SCEj − SCE m ( no SCEm − SCE j , que
es negativo). El vector de residuos asociado con Mm es ortogonal a Mm y,
por ende, a Mj ; notar que el vector de residuos asociado con Mj , no es, en
general, ortogonal a Mm . La idea es, entonces, analizar el incremento relativo
de la SCE al pasar de m a j :
SCE j − SCE m
w= (7.1)
SCE m
La disminución porcentual de la SCE cuando se complejiza el modelo es
SCEj − SCE m
t= (7.2)
SCE j
w
Interesa que w y t sean grandes. Como t = 1−w es estrictamente creciente
ambos criterios son equivalentes.
Volvamos ahora a la sucesión de subespacios. Un resultado de álgebra
lineal muy relevante para nuestros propósitos es
Teorema Para 0 ≤ j ≤ r, existe un subespacios Ej tal que
M
Ej+1 ⊥ Mj y Mj+1 = Mj Ej+1 (7.3)
Procediendo recursivamente se obtiene la descomposición ortogonal

" m #
M M
Mm = Mj Ek . (7.4)
r=j+1
7.1 Efecto de una variable

Si Mk = span(X 1 , . . . X k ), suele interesar el efecto de agregar una columna
X k+1 a la matriz de diseño, es decir, el efecto de agregar el coeficiente βk+1 .
Si
u = X k+1 − Pk X k+1 = (I − PMk )X k+1, (7.5)
entonces Ek+1 = spanu. Si aplicamos el resultado general, vemos que
(< u, y >)2
SCE k − SCE k+1 = ,
kuk2
17
de donde
2
ˆ )2 = (< u, y >) = SCE k − SCE k+1
(βk+1 (7.6)
kuk4 kuk2
8 Formulación geométrica y estimación

Considere el modelo lineal
µ = E(Y ) = Xβ ∈ M, Cov (Y ) = V. (8.1)
E(AY ) = Aµ, Cov (AY ) = AV At (8.2)

En estadı́stica, rara vez se conoce V, que para n observaciones es equivalente
a un vector de n(n+1
2
parámetros. En estos apuntes solo consideramos el caso
V = σ 2 I, (8.3)
De (8.3) se deduce Cov (Y ) = AAt .
Definición Q es una matriz ortogonal si Q−1 = Qt . aplicando nuevamente

(8.3) se deduce que
Cov (QY ) = σ 2 I, (8.4)
para toda Q ortogonal. Geométricamente la transformación lineal que a
y ∈ IR n le asocia Qy ∈ IR n , es una rotación , seguida posiblemente de una
reflección. Notar que 1 = det I = det(QQt ) = det(Q) det(Qt ) = (det(Q)2 , de
modo que | det(Q) = 1|. Geométricamente, hay una reflección si, y solo si,
det(Q) = −1. En la teorı́a de modelos lineales son importantes también las
proyecciones ortogonales Z = PN (Y ). Tenemos
Var (Z) = σ 2 (PN (PN )t ).
Como la matriz PN es simétrica,
Var (PN Y ) = σ 2 PN (8.5)
También
E(kPN Y k2 = E(PN Y )t PN Y = E(Y t PN Y )
Usamdo la identidad tr(ABC) = tr(BCA) = tr(CAB) tenemos
E(kPN Y k2 = tr(PN E(Y Y t )) = σ 2 tr(PN ) = dim(N). (8.6)
18
Una demostración alternativa es aplicar la base canónica. Para simplificar la
notación, podemos considerar T = Y − µ, que tiene media 0. En la primera
parte de la discusión es conveniente suponer directamente que E(Y ) = 0.
P 2 = P, (8.7)
Una matriz P que satisface (8.7) se dice idempotente. Si bien la matriz que
representa una proyección ortogonal es idempotente, la afirmación recı́proca
no es válida. La idea intuitiva es que la proyección puede ser “oblicua”
(piense en un lápiz y un foco de luz). La propiedad clave es
Teorema: Sea P una matriz con espacio columna M. Entonces P = PM si,

y solo si, P es idempotente y P es simétrica.
Existe un enfoque a la teorı́a de modelos lineales que se basa en este tipo

de matrices, la cual tiende a esconder los conceptos geométricos.
8.1 Estimación de combinaciones lineales

El método de sustitución en la teorı́a de estimación se puede escribir como:
Si Γ = G(Λ), entonces Γ̂ = G(Λ̂). (8.8)

A. Combinaciones lineales de las medias.
Estimar at µ por at µ̂ = at PM Y . Por (4.14), la solución se puede escribir
también como (PM a)t y.
B. Combinaciones lineales de los parámetros.
Si X es de rango completo (k), β̂ existe y para ω = ct β
ω̂ = ct (X t X)−1 X t Y . (8.9)
En estadı́stica los estimadores puntuales deben ir acompañados de una idea

de su variablidad, siendo el indicador más simple su varianza. Como esta es,
en general, desconocida, es necesario estimarla a partir de los datos. En el
iid
caso de una muestra aleatoria Yi ∼ con media µ y varianza σ 2 , el estimador
usual de la varianza es
n
2 1 X
s = (Yi − ȳ)2 ,
n − 1 i=1
19
el cual es insesgado, es decir, E(s2 ) = σ 2 . Veremos más abajo como gener-
alizar esto a los modelos lineales. Por analogı́a con este caso, parece razonable
examinar estimadores de σ 2 con la estructura: (Y − µ)t A(Y − µ̂. En todo el
curso supondremos que las observaciones son independientes, de modo que
Cov (Y ) = V es diagonal, con elementos σi2 = Var (Yi ). No parece razonable
estimar n varianzas con n observaciones. El caso más sencillo y, a su vez, el
más utilizado, es
V = Cov (Y ) = σ 2 I, (8.10)
donde I denota la matriz identidad en dimensión n. En otras palabras, las
observaciones no están correlacionadas y ellas tienen una varianza común σ 2 .
Bajo (8.10),la varianza del estimador de mı́nimos cuadrados (EMC) es
Cov (β̂) = σ 2 (X t X)−1 (8.11)
y cuando ω = ct β,
Var (ω̂) = d2 σ 2 , donde d2 = ct (X t X)−1 c. (8.12)
Es importante destacar que la constante d puede ser precalculada, es decir,
no depende de las observaciones. En problemas concretos puede ser preferi-
ble obtener d2 directamente. Notar también que a la desviación estandard
estimada se la suele llamar error estándar (en inglés statndard error (s.e,),
para enfatizar que no corresponde a la desviación estándar σ 2 de las ob-
servaciones. En la práctica, σ 2 es desconocida, y ds es, en realidad, una
estimación del error estándar. Lo que los paquetes computacionales entre-
gan no es s.e.(ω̂) = dσ, sino una estimación, aue es simplemente ds.
El vector e = y − ŷ se denomina vector de residuos (no confundir con el
vector de errores ǫ). Se tiene que e satisface
e = y − PM y = (I − PM )y. (8.13)
y es la proyección de y sobre el espacio ortogonal N = M ⊥ .
9 Descomposiciones ortogonales
9.1 Sumas directas
En la teorı́a de modelos lineales, la descomposición de un subespacio E en r
subespacios E1 , . . . Er , ortogonales entre sı́, es de enorme importancia. Con-
sideramos en primer lugar un el concepto más general de suma directa de
20
subespacios. la cual generaliza el concepto de base.
Definición: Sea (E1 , . . . Er ) una colección ordenada
Pr de subespacios, tal que
z ∈ E tiene una descomposición única z = j=1 z j , con z j ∈ Ej . Se dice
que E = E1 + · · · + Er es una suma directa.
Una condición necesaria y suficiente para que la descomposición sea una suma
directa es
Ej ∩ Es = {0} para todo j 6= s. . (9.1)
Si Ej = span(ej ) (e1 , . . . , em ) es una base de E.
Cuando los vectores z j son ortogonales entre sı́, la suma directa se de-
nomina descomposición ortogonal de E y (9.1) es equivalente a
Ej ⊥ Es para todo j 6= s. (9.2)
. Utilizaremos la notación es
r
X r
M
E= Er = Ej .
j=1 j=1
Un caso particular importante es nuevamente Ej = span(ej ) con (e1 , . . . , em )

una base ortogonal de E.de E.
r
X
Pj = P Pj Ps = 0 para todo j 6= s (9.3)
j=1
Si Sj = kPj yk2 y S = kP yk2 , el Teorema de Pitagoras implica que

r
X
S= Sj (9.4)
j=1
En la próxima sección demostraremos la ecuación:
E(Sj ) = kPj µk2 + νj σ,2 (9.5)
Para un subespacio E y un vector u, denotemos por SC(u, E) a kPE uk2 y

SCE(u, E) = kuk2 − SC(u, E). El caso más importante es
E(SCE(Y , M) = (n − ν)σ 2 , donde, dim(M) = ν (9.6)
21
SCE(Y , M)
s2 = (9.7)
n−ν
es un estimador insesgado de σ 2 .
Nota. La validez de (9.31) solo depende de V = σ 2 I, pero no de la dis-
tribución de los ǫi , por ejemplo, de un supuesto de normalidad. n − ν es el
número de grados de libertad del error.
9.2 Representaciones canónicas

En vez de utilizar directamente la interpretación geométrica, una opción es
trabajar con una representación en términos de variables aleatorias no cor-
relacionadas y de igual varianza.
Teorema: Existe una base ortogonal (e1 , . . . , em ) de E y una partición
(A1 , . . . , Ap ) de {1, . . . , m}, tal que Ei = span(ej , i ∈ Aj ), j = 1, . . . , r.
Se satisface rj = card (Aj ) = dim Ej = r(Pj ). Denotando a kej k por mj ,

las variables aleatorias < ej , Y >, no están correlacionadas y con varianzas
m2j . Para nuestros efectos es preferible considerar mj = m para todo j y, a
menos que se diga lo contrario, se impone la condición m = 1, es decir qu las
bases son ortonormales. En términos de las proyecciones la descomposición
ortogonal corresponde a
r
X
Pj = P, donde los proyectores satisfacen Pj Ps = 0 para todo j 6= s
j=1
(9.8)
2 2
Si Sj = kPj yk y S = kP yk , el Teorema de Pitagoras implica que
r
X
S= Sj (9.9)
j=1
E(Sj ) = kPj µk2 + E(kPj ǫk2 k (9.10)

Se puede demostrar que E(kPj ǫk2 = σ 2 νj , con
νj = dim(Ej ) = r(Pj ) = rj = card (Aj ).
En el modelo lineal µ ∈ M se tienen dos vectores importantes:
22
(a) ŷ : El vector de valores predichos ŷ.
(b) e = y − ŷ : El vector de residuos.
En el caso clave r = 2, E = IRn , E1 = M, dim(M) = ν, E2 = M ⊥ , P2 = I−PM

y SC2 se denomina suma de cuadrados del error y se denota por SCE.
En este caso, S2 se denomina suma de cuadrados del error o suma de
cuadrados residual, a la que la denotaremos por SCE.
9.3 Normalidad
Recordar que si Y tiene media µ y matriz de covarianza V, se tiene
E(AY ) = Aµ, Var (AY ) = AV At . (9.11)
Si X ∼ Nn (µ, V ), es decir una distribución normal multivariada n dimen-

sional (DNM), se sabe que la familia de distribuciones multivariadas (aún con
distintas dimensiones) es cerrada bajo transformaciones lineales, es decir, si
X es DNM, AX tambén lo es, para cualquier matriz A. Más precisamente,
AX ∼ Nn (Aµ, AV At ) (9.12)
Consideremos ahora el caso µ = 0 (que se puede obtener analizando Y − µ,

y V = I, donde I es la matriz identidad en dimensión n, y una matriz A = P,
donde P es una matriz ortogonal, es decir P −1 = P t . Si Z = P X,
Var (Z) = P Var (X)P t = P P t = I. (9.13)
Desde el punto de vista geométrico, la matriz P representa una rotación

(det(P ) = 1), eventualmente seguida de una reflexión ( det(P ) = −1). Si
Y ∼ N(0, σ 2 I), se puede ”representar” a Y por σZ. (a) es el caso general,
pero (b) es el que se utiliza para encontrar distribuciones útiles en inferencia.
Se deduce facilmente que
Y ∼ Nn (0, σ 2 I) implica que P Y y Y tienen la misma distribución (9.14)
Notación:
(a) Denominaremos a Nn (0, σ 2 I distribución normal esférica. Es equiva-

lente a Y1 , . . . , Yn i.i.d. N(0, σ 2 ).
23
(b) Denominaremos a Nn (0, I) distribución normal esférica standard. Es
equivalente a Y1 , . . . , Yn i.i.d. N(0, 1).
Evidentemente (a) y (b) están relacionadas por un simple cambio de escala

(multiplicar o dividir por σ. Si Y tiene media µ, se puede trabajar con
Y − µ, o representar a Y por µ + σZ, donde Z sigue una distribución
esférica standard.
9.4 Distribución de prouycciones

Geométricamnte, si proyectamos Y ortogonalmente en el subespacio M, se
obtiene el vector ω = Ŷ . Claramente, si proyectamos ω en el subespacio,
el resultado es , simplemente, ω. Si P representa la transformación lineal o
la matriz correspondiente, se obtiene P (P (Y ) = P Y , para todo Y , lo que
equivale a
P 2 = P, (9.15)
Se dice que la matriz P es idempotente.
• En general, P representa una proyección oblicua.
• La proyección es ortogonal si, y sólo si, la matriz P es simétrica.
• Si el subespacio M tiene dimensión r, existe una base ortonormal de

IR n ,
(e1 , . . . , er , er+1 , . . . , en ),
tal que
P ei = 1, . . . , r; P ei = 0, i = r + 1, . . . , n.
Esto muestra que P es diagonalizable, que los valores propios son 1 y 0,

habiendo r unos y n − r ceros. Esto implica que el rango y la traza de P son
iguales a la dimensión del espacio M. Los vectores propios asociados al valor
propio 1, son todos los vectores en M; aquellos asociados al valor propio 0
generan el subespacio ortogonal a M, que denotamos por M ⊥ .
Let Zi =< ei , Y >, i = 1, . . . , n. Geométricamente
r
X
2
kPM Y k = Zi2 ., (9.16)
i=1
24
y
n
X
2
kPM ⊥ Y k = Zi2 . (9.17)
i=r+1
Por invarianza bajo transformaciones ortogonales, Z ∼ Nn (0, I), es decir,

Zi , i = 1, . . . , n son i.i.d. N(0, 1).
Definición: Si X1 , . . . , Xk son i.i.d. N(0, 1), la distribución de S = ki=1 Xi2

P
se denomina distribución chi cuadrado con k grados de libertad y se denota
por χ2 (k).
Recordar que si Y tiene media µ y matriz de covarianza V, se tiene
E(AY ) = Aµ, Var (AY ) = AV At . (9.18)
Si X ∼ Nn (µ, V ), es decir una distribución normal multivariada n dimen-

sional (DNM), se sabe que la familia de distribuciones multivariadas (aún con
distintas dimensiones) es cerrada bajo transformaciones lineales, es decir, si
X es DNM, AX tambén lo es, para cualquier matriz A. Más precisamente,
AX ∼ Nn (Aµ, AV At ) (9.19)
Consideremos ahora el caso µ = 0 (que se puede obtener analizando Y − µ,

y V = I, donde I es la matriz identidad en dimensión n, y una matriz A = P,
donde P es una matriz ortogonal, es decir P −1 = P t . Si Z = P X,
Var (Z) = P Var (X)P t = P P t = I. (9.20)
Desde el punto de vista geométrico, la matriz P representa una rotación

(det(P ) = 1), eventualmente seguida de una reflexión ( det(P ) = −1). Si
Y ∼ N(0, σ 2 I), se puede ”representar” a Y por σZ. (a) es el caso general,
pero (b) es el que se utiliza para encontrar distribuciones útiles en inferencia.
Se deduce facilmente que
Y ∼ Nn (0, σ 2 I) implica que P Y y Y tienen la misma distribución (9.21)
Notación:
(a) Denominaremos a Nn (0, σ 2 I distribución normal esférica. Es equiva-

lente a Y1 , . . . , Yn i.i.d. N(0, σ 2 ).
25
(b) Denominaremos a Nn (0, I) distribución normal esférica standard. Es
equivalente a Y1 , . . . , Yn i.i.d. N(0, 1).
Evidentemente (a) y (b) están relacionadas por un simple cambio de escala

(multiplicar o dividir por σ. Si Y tiene media µ, se puede trabajar con
Y − µ, o representar a Y por µ + σZ, donde Z sigue una distribución
esférica standard.
9.5 Distribución de prouecciones

Geométricamnte, si proyectamos Y ortogonalmente en el subespacio M, se
obtiene el vector ω = Ŷ . Claramente, si proyectamos ω en el subespacio,
el resultado es , simplemente, ω. Si P representa la transformación lineal o
la matriz correspondiente, se obtiene P (P (Y ) = P Y , para todo Y , lo que
equivale a
P 2 = P, (9.22)
Se dice que la matriz P es idempotente.
• En general, P representa una proyección oblicua.
• La proyección es ortogonal si, y sólo si, la matriz P es simétrica.
• Si el subespacio M tiene dimensión r, existe una base ortonormal de

IR n ,
(e1 , . . . , er , er+1 , . . . , en ),
tal que
P ei = 1, . . . , r; P ei = 0, i = r + 1, . . . , n.
Esto muestra que P es diagonalizable, que los valores propios son 1 y 0,

habiendo r unos y n − r ceros. Esto implica que el rango y la traza de P son
iguales a la dimensión del espacio M. Los vectores propios asociados al valor
propio 1, son todos los vectores en M; aquellos asociados al valor propio 0
generan el subespacio ortogonal a M, que denotamos por M ⊥ .
Let Zi =< ei , Y >, i = 1, . . . , n. Geométricamente
r
X
2
kPM Y k = Zi2 ., (9.23)
i=1
26
y
n
X
2
kPM ⊥ Y k = Zi2 . (9.24)
i=r+1
Por invarianza bajo transformaciones ortogonales, Z ∼ Nn (0, I), es decir,

Zi , i = 1, . . . , n son i.i.d. N(0, 1).
Definición: Si X1 , . . . , Xk son i.i.d. N(0, 1), la distribución de S = ki=1 Xi2

P
se denomina distribución chi cuadrado con k grados de libertad y se denota
por χ2 (k).
Nota técnica: La distribución χ2 (k) coincide con la Gama( k2 , 12 ).
Ejercicio:
• Se sabe que si Y ∼ Gama(α, λ), E(Y ) = αλ , y Var (Y ) = α
λ2
.
• Aplique esto con α = k
2
y y λ = 12 .
• Aplique las propiedades generales de sumas de v.a. independientes para
obtener el resultado anterior (usar E(X14 = 3).
Definición:
Sean Z ∼ N(0, 1), Sk independiente de Z con distribución χ2 (k) y Rk = Skk .
Entonces la distribución t de Student con k grados de libertad, denotada por
t(k) es la distribución de la variable aleatoria Tk = √ZRk .
Nota técnica: La ley de los grandes números implica √que Rk tiende en

probabilidad a 1 y, por continuidad, lo propio ocurre con Rk . Aplicando el
Teorema de Slutzky, se encuentra que Tk converge en distribución a N(0, 1).
En términos prácticos, esto justifica utilizar la distribución N(0, 1) como una
aproximación a t(k) cuando el numero k de grados de libertad alto (se ha
verificado que la aproximación es muy buena para k ≥= 30.
9.6 Extensión a grados de libertad no enteros

Definición. Para todo ν > 0, la distribución χ2 con ν grados de libertad,
denotada por χ2 (ν) se define por χ2 (ν) = Gama( ν2 , 12 ).
27
Usando la media y varianza de la distribución Gama (α, λ) con λ = 12 se
obtiene µ = 2α y σ 2 = 4α. Notar que para ν = k se recupera el caso anterior.
La distribución t(ν) se obtiene como t(k), con k reemplazado por ν y
S ∼ χ2 (k) por S ∼ χ2 (k).
Definición. Sean S1 y S2 variables aleatorias independientes tales que
Si ∼ χ2 (νi ), i = 1, 2. Sean Ri = Sνii , i = 1, 2. Entonces, la distribución de
R1
R2
se denomina F, con ν1 grados de libertad en el numerador y ν2 grados
de libertad en el denominador. Se la denota por F (ν1 , nu2 ). Aunque los val-
ores esperados del numerador y del denominador son ambos iguales a 1, el
valor esperado de la distribución siempre excede 1 (usar la la desigualdad de
Jensen.
9.7 Pivote para ω = ct β con σ 2 conocido

Consideremos el estimador lineal ω̂ de ω = ct β. Su varianza toma la forma
d2 σ 2 , donde d está determinado por X y c. De hecho d2 = c( X t X)−1 c, pero
este detalle es irrelevante para lo que sigue. Tenemos
(ω t − ω)
∼ N(0, 1) (9.25)
dσ
A partir de esto se pueden obtener intervalos de confianza y tests de hipótesis,
usando procedimientos casi idénticos a los empleados para la media de una
distribución normal con varianza constante. Denotemos por zγ al cuantil β
de la distribución N(0, 1). Entonces
• El intervalo de confianza de nivel 1 − α es
ω̂ + / − z1− 1 dσ (9.26)
2
• Si la hipótesis nula es ω = 0 y la alternativa es ω 6= 0, la hipótesis nula

se rechaza si
|ω̂|
r= > z1− 1 . (9.27)
dσ 2
• El valor-P es
P (|Z| > r) = 2P (Z > r), donde Z ∼ N(0, 1) (9.28)
28
9.8 Pivote para ω = ct β con σ 2 conocido
Desde el punto de vista aplicado queremos hacer tests y tests de hipótesis
cuando σ 2 es desconocido. La mecánica es reemplazar σ por s y N(0, 1) por
t(ν). Necesitamos encontrar los valores adecuados para s y ν.
Teorema: Sea SCE la suma de cuadrados del error k(Y − µ̂)k2 . Usando la
simetrı́a esférica y un cambio de base se obtiene la representación
n−k
X
SCE = Zi2 , donde las variables tienen media 0 y varianza σ 2 , k = r(X) = dim(M),
i=1
(9.29)
y las variables no están correlacionadas. De esta manera, E(SCE) = (n−k)σ 2 .
Si X es de rango completo k coincide con el número de componentes del
vector β. Evidentemente
SCE
s2 = (9.30)
n−k
es un estimador insesgado de σ 2 . Bajo el supuesto de normalidad, el estimador
máximo verosı́mil (MLE), es
SCE
u2 = , (9.31)
n
de tal forma que el MLE tiene siempre un sesgo negativo. En la teorı́a de
modelos lineales se usa s2 universalmente.
10 Mejor estimador lineal insesgado

Consideremos un subespacio M, el modelo µ ∈ M y la clase L de estadı́sticos
de la forma dt Y , con d ∈ IR n . El estadı́stico dt Y es, obviamente, un esti-
mador insesgado de dt . Para minimizar la varianza, hacemos la descom-
posición ortogonal d = a + b, con a = PM d. Se tiene
E(dt Y ) = at µ y b = PM ⊥ d.
29
Teorema de Gauss Markov En el modelo lineal µ ∈ M, el estimador
lineal insesgado de varianza mı́nima es
dt Ŷ = dt PM Y .
Demostración. Para cada vector d consideremos la descomposición ortog-

onal d = a + b, con a = PM d y b = PM ⊥ d. Entonces,
E(dt Y ) = dt µ = at µ + bµ = at µ. (10.1)
Por otra parte,
Var (dt Y ) = Var (at Y ) + Var (bt Y ) = σ 2 kak2 + σ 2 kak2 (10.2)
De (10.1) y (10.2), el estimador lineal insesgado de varianza mı́nima se ob-

tiene para a = PM d. Pero, at Y = (PM d)t Y = dt PM Y = dt Ŷ . De esta
manera, hemos demostrado el famoso
Teorema de Gauss Markov. El estimador lineal insesgado de varianza

mı́nima coincide con el estimador de mı́nimos cuadrados.
Nota:
• El teorema es válido aún si (X t X) no es invertible. El problema es que

si r(X) < k, Xβ = µ no determina β.
• Sea ω = ct β, con c ∈ col (X t ). Entonce ω̂ coincide con el estimador

de mı́nimos cuadrados.
30

Eyp2425 2015ABC

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Eyp2425 2015ABC

Cargado por

Copyright:

Formatos disponibles

MODELOS LINEALES: UN ENFOQUE

1 Los problemas de asociación, predicción y

(a) x es el valor observado de un vector aleatorio X.

Especificar la distribución conjunta equivale a especificar la familia de dis-

Es bien conocido que si se desea predecir una variable Z utilizando una

Aunque el problema de la mejor predicción se reduzca a encontrar la

Nota 1: Aunque nos concentraremos en la media, el uso de la mediana

Nota 2: En el caso muy popular Qx = N(h(x), v(x)), es difı́cil estimar v a

• σ 2 = V (µ) para cierta función de varianza V. Para la distribución

Pese a que nos concentraremos en métodos paramétricos una multiplicidad

2.2 Enfoque paramétrico

(a) Los parámetros θi puedan variar libremente en ciertos intervalos, por

(b) Θ tiene interior no vacı́o.

(c) Los parámetros son funcionalmente independientes.

Para comprender la necesidad de la condición considere (θ1 , θ2 ) = (ω, ω 2), ω ∈

La función de regresión estimada es simplemente h(·, θ̂). Cuando ella tiene

donde las funciones hj son conocidas y los parámetros θj son desconocidos.

Si bién h(xi ) es la media de Yi , no se produce la igualdad yi = h(xi ).

donde los errores ǫi son independientes. Es importante destacar que estos

los que evidentemente son conocidos, pues se pueden calcular, a partir, de

3.2 Estimador máximo verosı́mil y el estimador de mı́nimos

Y ∼ Nn (µ, σ 2 I), µ ∈ M, (3.4)

De acá se puede encontrar la función de log-verosimilitud y maximizarla.

Escribiendo el vector columna β = (βj , j = 1, . . . , k)t se obtiene la repre-

• Si t = µ los coeficientes βj son los verdaderos, pero son desconocidos

• Si t = µ̂ los coeficientes correspondientes se denotan por β̂j . Ellos

Una deficiencia de la formulación matricial es que hay un número infinito

Intuición geométrica: Dado un punto cualquiera t (en el plano o en el espa-

Definición 4.1 La proyección ortogonal del vector t sobre el subespacio M,

t − z ⊥ M, es decir, t − z ⊥ u, para todo u ∈ M . (4.6)

Se puede demostrar que PM existe y es única. Por otra parte, el Teorema de

SC (t, u) = SC (t, z) + SC (u, z) (4.7)

Como SC (u, z) ≥ 0 y SC (u, z) = 0, si, y solo si, u = z, esto demuestra el

Teorema 4.2 La proyección ortogonal t̂ = PM t, de t sobre M es el único

Es habitual que el interés se concentre en β, βj o una combinación lineal

µ ∈ M y (y − µ) ⊥ u para todo u ∈ M (4.8)

Un resultado de álgebra lineal indica que basta probar la ortogonalidad para

La solución es única si X t X es invertible, o bien, r(X) = k. Ambas condi-

4.2 Dos propiedades de las proyecciones ortogonales

Sin embargo, una matriz idempotente P representa un proyector ortogo-

Ejercicio teórico: Verifique que las ecuaciones normales adecuadas para el

y que si X es de rango completo y Q está dada por

Qy = X(X t W X)−1 X t W, (4.13)

Teorema 4.3 Para todo subespacio M y vectores a y d cualesquiera, se

< PM a , d >=< a , PM d > (4.14)

Demostración (sin usar matrices).

P1 c = P1 (c1 +c2 ) = P1 c1 , < P1 c , d >=< P1 (c1 +c2 ) , d1 +d2 >=< c1 , d1 > .

De aquı́, el resultado buscado se obtiene por un argumento de simetrı́a. A

Teorema 4.4 La matriz P representa una proyección ortogonal, si , y solo

Demostración: Sea P la matriz que representa PM . Entonces at P d es un

Ya sabemos que una matriz P idempotente y simétrica representa la

(a) Un valor propio 1, con multiplicidad dim M, cuyo subespacio propio es

(b) Un valor propio 0, con multiplicidad n − r, cuyo subespacio propio es

Como la suma de los valores propios es r, la traza de la matriz PM coincide

Ej ∩ Es = {0} para todo j 6= s. . (5.1)

5.2 Suma o descomposición ortogonal

Ej ⊥ Es para todo j 6= s. (5.2)

Ciertamente, una descomposición ortogonal es L una suma directa, pero la

A una base ortogonal (e1 , . . . , em ) de E, se le asocia la descomposición or-

Con la notación Sj = kPj yk2 y S = kP yk2 , el Teorema de Pitagoras implica

SCE (u, M) = SC (u, M ⊥ ) = kuk2 − SC (u, M). (5.6)

5.3 Representaciones canónicas