Está en la página 1de 30

MODELOS LINEALES: UN ENFOQUE

FUNCIONAL
Guido del Pino.M,
Departamento de Estadı́stica
Pontificia Universidad Catolica of Chile

Abstract
Estos apuntes preliminares constituyen la primera parte de un
texto para el curso EYP2425: Análisis de Varianza y Diseño de Exper-
imentos de la Licenciatura en Estadı́stica de la Pontificia Universidad
Católica de Chile. Después de una discusión general sobre la nat-
uraleza de las funciones de regresión se discute la especificación de
dichos modelos en términos funcionales, describiéndose someramente
algunos métodos de estimación de estas funciones. Se parte enun-
ciando un enfoque no paramétrico para la estimación de funciones de
regresión, introduciendo los modelos paramétricos, lineales o no, como
una forma de disminuir la dimensionalidad del problemaa. Finalmente
se entrega la especificación funcional de los modelos lineales.
Se muestra a continuación como deducir la formulación geométrica
del modelo, una vez que se dispone de las observaciones. Se deduce el
estimador de mı́nimos cuadrados en términos de proyecciones ortogo-
nales, y de aquı́ las fórmulas matriciales.

1 Los problemas de asociación, predicción y


estimación
1.1 Asociación
El estudio de la asociación entre dos variables tiene una larga historia:
• Galton, en el siglo XIX estudió la relación entre las estaturas dentre las
mediciones de los ı́ndices de contaminación en 10 estaciones distintas.

1
• Asociación en el tiempo, por ejemplo los precios del cobre en 10 dı́as
consecutivos.
Hoy en dı́a, la asociación entre m variables aleatorias continuas se expresa
matemáticamente a través de la densidad conjunta f (x) = f (x1 , . . . , xm ).
Esta función está completamente determinada por la familia de conjuntos
de nivel {x : f (x) = c} para todo c > 0, que son curvas en el caso de dos
variables aleatorias X e Y. Un logro sorprendente de Galton es que a partir de
datos empı́ricos conjeturó que las curvas de nivel eran las elipses concéntricas
{(x, y) : Q(x, y) = c}, donde Q es cierta forma cuadrática definida positiva.
El centro de la elipse es la solución de Q(x, y) = 0, mientras que los ejes están
dados por los vectores propios de la matriz que define la forma cuadrática.
Todo esto se puede extender a k variables, en cuyo caso las elipses pasan a ser
elipsoides. Una densidad multivariada, con conjuntos de nivel de esta forma
se denomina distribución elı́ptica, siendo la más conocida la de la distibución
normal multivariada, cuya densidad es
1 1
f (x) = m exp(− Q(x − µ)), (1.1)
(2π det(V )) 2 2
donde Q(z) = z t V −1 z. Se puede demostrar que el vector µ es la me-
dia del vector aleatorio y que V es su matriz de covarianza. Aunque hay
infinitas distribuciones elı́pticas, la normal multivariada es la única tal que
V diagonal es equivalente a la independencia de las variables aleatorias. En
otras palabras, este es un caso muy especial en que correlación 0 implica
independencia. La normal bivariada es el caso particular m = 2 y ella está
determinada por el vector de parámetros θ = (µx , µy , σx , σy , ρ), donde ρ de-
nota la correlación. Estandarizando las variables, es decir restando la media
y dividiendo por la desviación estándar, se obtiene el vector de parámetros
θ = (0, 0, 1, 1, ρ), de modo que la distribución conjunta de las variables es-
tandarizadas está determinada por 0 < ρ < 1. Se puede demostrar que para
cualquier valor de ρ, X e Y tienen distribución N(0, 1). Aplicando (1.1) con
m = 2 se obtiene la densidad conjunta:
1 1
f (x, y) = p exp( Q(x, y)), (1.2)
2π (1 − ρ2 ) 2
con
x2 + y 2 − 2ρxy
Q(x, y) = .
1 − 2ρ2
El parámetro −1 < ρ < 1 determina la orientación de la elipse.

2
1.2 Predicción y estimación
La asociación entre m variables aleatorias es un concepto que las trata de
manera simétrica, por ejemplo, estudiar la asociación entre X e Y lequivale
a estudiar la asociación entre Y y X. Esta simetrı́a se rompe cuando se desea
predecir el valor de una de ellas, Y , denominada variable respuesta en función
de los valores x = (x1 , . . . xk ) de un vector aleatorio de dimensión k = m − 1.
Es importante distinguir dos casos:

(a) x es el valor observado de un vector aleatorio X.

(b) x no es aleatorio, sino que está fijo por diseño, por ejemplo cuando él
está bajo control de un experimentador.

Especificar la distribución conjunta equivale a especificar la familia de dis-


tribuciones condicionales de Y dado X = x y la distribución marginal de
X. En el caso (a) se puede argumentar que esta última es irrelevante, de
modo que basta especificar las distribuciones condicionales. En el caso (b)
no tiene sentido hablar de una distribución condicional, sino que se trata
simplemente de una distribución univariada Qx de Y, indexada por el valor
x. En términos operativos no hay ninguna diferencia entre ambas interpreta-
ciones y usaremos (b) por ser la más simple conceptualmente.

Es bien conocido que si se desea predecir una variable Z utilizando una


constante c, de tal forma que se minimice el error cuadrático medio E(Z −c)2 ,
el valor optimo es c = E(Z). En el caso de una variable respuesta Y con dis-
tribución Qx . esto sugiere usar la media µx de Qx para predecir el valor de
Y, lo que coincide con la esperanza condicional E(Y |X = x) en la formu-
lación (a). Escribiendo h(x) = µx se obtiene una función h, a la que se le
llama función de regresión. Cuando uno se ve enfrentado a un único valor
x, el valor w = h(x) se determina normalmente utilizando algún algoritmo
numérico. Sin embargo, la función completa es importante, al menos para
analizar su comportamiento cualitativo, y en el mejor de los casos se puede
encontrar una fórmula analtica, lo que simplifica mucho el cálculo de h(x).
Como h(x) se usa también para predecir Y, se le denomina al algoritmo o a
la fórmula regla de predicción.

Aunque el problema de la mejor predicción se reduzca a encontrar la


función de regresión, esta última es desconocida y debe ser estimada a partir

3
de los datos. Obtener la mejor predicción de Y cuando se conoce x se reduce
a encontrar la estimación puntual de h(x), la que se puede interpretar como
el valor de la función de regresión estimada ĥ evaluada en x, sobre la base de
n observaciones y1 , . . . , yn . Por otra parte, más allá de la predicción puntual
hay que preocuparse de la variabilidad, cuya descripción completa está dada,
justamente, Qx , distribución que es desconocida, a menos que se impongan
fuertes restricciones. Una descripción parcial es la varianza v(x) = σ 2 (x),
pero nuevamente la función v es desconocida y aún más difı́cil de estimar que
h. En todo caso, esta estimación es mucho más factible que la de la familia
de todas las distribuciones condicionales, a menos que se suponga que ellas
corresponden a una familia paramétrica particular. Cuando X es una vari-
able aleatoria y la distribución de (X, Y ) normalizada es normal bivariada,
h(x) = E(Y |X = x) = ρx, que es una función lineal. Estimar h equivale a
estimar ρ. Además v(x) = 1 − ρ2 .

Nota 1: Aunque nos concentraremos en la media, el uso de la mediana


se puede justificar en términos de la minimización del error absoluto medio
E(|Z − c|). La preferencia por la media es principalmente la conveniencia
matemática. Hay situaciones prácticas en que lo más relevante es estimar un
percentil, lo que también se puede vincular a la minimización de otro criterio
en que la sobre y la subestimación no tengan la mismma importancia.

Nota 2: En el caso muy popular Qx = N(h(x), v(x)), es difı́cil estimar v a


menos que se hagan supuestos adicionales. Casos particulares son:

• v(x) está dada por una fórmula en que aparece muy pocas constantes
desconocidas, por ejemplo, v(x) = α + βx. El caso más sencillo es
β = 0, es decir, la función v es constante, condición que se denomina
homocedasticidad.

• σ 2 = V (µ) para cierta función de varianza V. Para la distribución


de Poisson, V (µ) = µ, mientras que para la distribución de Bernoulli
V (µ) = µ(1 − µ).

4
2 El enfoque funcional
2.1 Enfoque no paramétrico
Denotemos por xi el valor asociado con yi y por X0 = {x1 , . . . , xn } al con-
junto de valores asociados con los yi . Claramente Yi es un estimador ins-
esgado de h(xi ) y cuando hay r observaciones y1 , . . . , yr asociadas con un
valor x ∈ X0 , el estimador natural es el promedio de estas observaciones. Se
puede demostrar que este promedio es el estimador lineal insesgado de var-
ianza uniformemente mı́nima, importante concepto que será retomado más
adelante. En lo que resta de esta sección consideraremos esencialmente solo
el caso univariado, aunque las extensiones al caso de multiples predictores
es inmediata. Más precisamente, X será un intervalo en IR , que contiene
infinitos puntos, mientras que X0 contiene a lo más n puntos. Aunque la es-
timación de h parece un problema insoluble, existe un sinnúmero de métodos
estadı́sticos para llevar esto a cabo. La idea principal es borrowing strength,
es decir , estimar h(x) pidiendo información prestada a lo que se observa en
otros puntos que sı́ estén disponibles.

Suavidad:
En el análisis esploratorio de datos se utiliza el diagrama de dispersión para
analizar la asociación entre las observaciones. A partir de este diagrama se
busca detectar una tendencia, lo que equivale a adivinar la forma de la función
de regresión. Esto se representa geométricamente por la superposición de
una curva a la nube de puntos (xi , yi ), i = 1, . . . , n. En la práctica esta curva
no pasa por todos los puntos, lo que es claramente imposible cuando hay
dos observaciones distintas para un mismo valor de x. Si esta situación no
ocurre, hay infinitas funciones ĥ, cuyo gráfico pase por todos los puntos,
pero esto no tiene, en general, utilidad alguna. Por ejemplo, la tendencia
aparente corresponde a una función de regresión estrictamente creciente y
serı́a muy excepcional que una curva que pasa por todos los puntos satisfaga
esta propiedad. Por otra parte, razones del contexto sugieron normalmente
que la verdadera función de regresión es relativamente suave, e.g., infinita-
mente diferenciable, mientras que tal ĥ es tı́picamente muy irregular.

Pese a que nos concentraremos en métodos paramétricos una multiplicidad


de métodos no paramétricos, que son muy utilizados en la práctica. La idea
general es lograr un compromiso adecuado entre ajuste (la curva pasa cerca

5
de los puntos) y la suavidad de la curva. Un método en que la búsqueda
de este compromiso resulta evidente es el de mı́nimos cuadrados penalizados,
para el cual ĥ minimiza
S(h) + λG(h),
Pn
donde S(h) = i=1 (yi − h(xi ))2 , G(h) mide la no suavidad de la función h y
λ es un número positivo. Cuanto mayor sea λ la curva será más suave, pero
el ajuste será peor (la suma de cuadrados será mayor). Un ejemplo particular
R b ′′
es G(h) = a (h (x))2 dx. Hay muchos otros métodos que están disponibles en
diversos paquetes estadı́sticos y que también buscan el compromiso señalado.

2.2 Enfoque paramétrico


El conjunto H de todas las funciones definidas en un intervalo es un espacio
vectorial, cuya dimensión es infinita, lo que genera complicaciones teóricas
y prácticas. Este curso solo se concentra en estudiarán los denominados
métodos paramétricos, para los cuales se supone que h pertenece a un sub-
conjunto H0 , que está en correspondencia uno a uno con cierto subconjunto
Θ, que se denomina espacio paramétrico y que está contenido en un espacio
euclidiano de dimensión k. Las componentes θ1 , . . . , θk de θ ∈ Θ se denomi-
nan parámetros. La función que asocia a cada vector θ la función h, se de-
nomina una parametrización de la función de regresión, la cual escribiremos
como h(x, θ) o, más precisamente, h(x, ·). Se dice que la familia paramétrica
tiene dimensión k cuando se cumple una condición técnica sencilla de lograr
en la práctica. Expresiones alternativas equivalentes de esta condición son:

(a) Los parámetros θi puedan variar libremente en ciertos intervalos, por


pequeños que ellos sean.

(b) Θ tiene interior no vacı́o.

(c) Los parámetros son funcionalmente independientes.

Para comprender la necesidad de la condición considere (θ1 , θ2 ) = (ω, ω 2), ω ∈


IR . En este caso Θ es una parábola contenida en IR 2 e intuitivamente una
curva tiene dimensión 1. El problema se resuelve fácilmente eliminando el
parámetro θ2 , que es redundante.

6
En el caso paramétrico no es necesario introducir un término de penel-
ización para lograr la suavidad, pues ella está asegurada por la fórmula
analı́tica de h(x, ·). Basta entonces minimizar la suma de cuadrados, es decir,
encontrar θ̂, que minimice
n
X
S (h(x, θ)) = (yi − h(xi , θ))2 . (2.1)
i=1

La función de regresión estimada es simplemente h(·, θ̂). Cuando ella tiene


derivadas parciales de segundo orden se puede buscar el mı́nimo igualando
las derivadas parciales a 0 y verificando que el hessiano sea definido positivo.
Como en la práctica esto se calcula numéricamente a través de métodos recur-
sivos, una dificultad seria es la posible presencia de muchos mı́nimos locales,
por lo que no hay garantı́a de que el mı́nimo encontrado sea efectivamente
global.

3 Modelos lineales
3.1 Formulación funcional
En este curso nos concentraremos en el importante caso del modelo lineal:
k
X
h(x, θ) = θj hj (x), (3.1)
j=1

donde las funciones hj son conocidas y los parámetros θj son desconocidos.


La especificación del modelo de regresión corresponde a la elección de estas
funciones . Le enorme ventaja matemática de los modelos lineales es que S(θ
es automáticamente una función cuadrática y definida positiva. Existe en-
tonces una solución analı́tica sencilla, la que se puede obtenere resolviendo el
sistema de ecuaciones lineales que se obtiene al igualar las derivadas parciales
con respecto a los θj a 0. En un modelo lineal los parámetros se denominan
normalmente coeficientes y se usa βj en vez de θj .

Si bién h(xi ) es la media de Yi , no se produce la igualdad yi = h(xi ).


Un supuesto fundamental, que justifica parcialmente el uso en estadı́stica del
método de mı́nimos cuadrados, es que las observaciones sean independientes.

7
Una formulación alternativa, pero equivalente, es
k
X
Yi = βj hj (xi ) + ǫi , i = 1, . . . , I, (3.2)
j=1

donde los errores ǫi son independientes. Es importante destacar que estos


errores no son observables,ya que los coeficientes son desconocidos. Reem-
plazando a los coeficientes por sus observaciones se obtienen los residuos
k
βˆj hj (xi ),
X
ǫi = yi − (3.3)
j=1

los que evidentemente son conocidos, pues se pueden calcular, a partir, de


los datos. Lo mismo ocurre con la suma de cuadrados residual S(β̂). Cabe
destacar que, a diferencia de los errores, los residuos están correlacionados y
por tanto no son independientes.

3.2 Estimador máximo verosı́mil y el estimador de mı́nimos


cuadrados
Consideremos el modelo

Y ∼ Nn (µ, σ 2 I), µ ∈ M, (3.4)

cuya densidad es
 
1 1 2
fY (y) = n exp − 2 ky − µk
(2πσ 2 ) 2 2σ

De acá se puede encontrar la función de log-verosimilitud y maximizarla.


Para σ 2 fijo, la maximización con respecto a µ genera el estimador PM Y ,
el cual coincide con el estimador de mı́nimos cuadrados. Si e = y − PM Y ,
se define SCE (M) = kek2 . Para encontrar el MLE de λ = σ 2 encontramos
la log-verosimilitud y la calculamos con kY − µk2 reemplazado por SCE:
− n2 log λ − SCE

. Derivando con respecto a λ e igualando a 0 se encuentra
− λ + λ2 , es decir σˆ2 = SCE
n SCE
n

8
4 Enfoque geométrico y la formulación ma-
tricial
4.1 Proyecciones ortogonales y el estimador de mı́nimos
cuadrados
Sea Y un vector aleatorio en IRn , µ = E(Y ). Si M es un subespacio vectorial
de E = IR n , con dim M = r, la formulación geométrica del modelo lineal es

µ ∈ M, (4.1)

Para obtener una formulación matricial, se busca una matriz “de diseño”
X de n × k, tal que sus columnas X j , j = 1, . . . , k generen M. Se dice que
M coincide con el espacio columna de la matriz X, al que se le denota por
col (X). Esto quiere decir que para todo t ∈ M existen coeficientes βj , no
necesariamente únicos, tales que
k
X
t= βj X j (4.2)
j=1

Escribiendo el vector columna β = (βj , j = 1, . . . , k)t se obtiene la repre-


sentación matricial
Xβ = t (4.3)
En estos apuntes (4.3) se utilizarán dos reemplazos de t :

• Si t = µ los coeficientes βj son los verdaderos, pero son desconocidos


dado que µ también lo es.

• Si t = µ̂ los coeficientes correspondientes se denotan por β̂j . Ellos


tienem sentido solo si (4.3) tiene una solución única.

Una deficiencia de la formulación matricial es que hay un número infinito


de matrices X, con k ≥ r, tales que M = col (X) y que para cada una
el vector de coeficientes (estimados o no), puede carecer de sentido por no
estar definido de manera única. Algebráicamente, la condición requerida es
que la transformación lineal que a β le asigna Xβ, sea biyectiva ( en otras
palabras, “se puede despejar β en términos de t”). Usando resultados de
álgebra lineal, la inyectividad equivale a la independencia lineal de las X j .

9
Por definición, el rango r(X) de la matriz X es dim col (X), y una condición
equivalente es r(X) = k (se dice que X es de rango completo. Volviendo a
la geometrı́a, el cuadrado de la distancia euclideana entre dos puntos u y t
en IR n es
SC (u, t) = kt − uk2 (4.4)
Definiendo
S(β) = SC (y, Xβ), (4.5)
el método de mı́nimos cuadrados consiste en minimizar S(β).

Intuición geométrica: Dado un punto cualquiera t (en el plano o en el espa-


cio) y una recta L que pasa por el origen, existe un único punto z ∈ L que
está a una mı́nima distancia de y. Del mismo modo, dado un hiperplano H
que pasa por el origen, existe un único punto z ∈ H que está a distancia
mı́nima de t. En estos casos, es factible hacer un dibujo y convencerse que
t − z debe ser ortogonal a L o a H, según corresponda. Las propiedades
de ortogonalidad y distancia mı́nima son equivalentes y corresponden al con-
cepto de proyección ortogonal.

Definición 4.1 La proyección ortogonal del vector t sobre el subespacio M,


denotada por PM t, es el único vector z ∈ M, tal que

t − z ⊥ M, es decir, t − z ⊥ u, para todo u ∈ M . (4.6)

Se puede demostrar que PM existe y es única. Por otra parte, el Teorema de


Pitagoras implica que

SC (t, u) = SC (t, z) + SC (u, z) (4.7)

Como SC (u, z) ≥ 0 y SC (u, z) = 0, si, y solo si, u = z, esto demuestra el


importante teorema:

Teorema 4.2 La proyección ortogonal t̂ = PM t, de t sobre M es el único


punto de M,que está a distancia mı́nima de t.

Es habitual que el interés se concentre en β, βj o una combinación lineal


t
c β. A menos que se diga lo conrario supondremos que Por Cabe hacer notar
que el significado de βj depende de la matriz X completa, y no solo de la
columna X j . Por ahora nos concentramos en el caso r(X) = k, para el cual

10
µ determina β y µ̂ determina los coeficientes estimados βˆj . Utilizando (4.6)
con t = y y z = PM y,

µ ∈ M y (y − µ) ⊥ u para todo u ∈ M (4.8)

Un resultado de álgebra lineal indica que basta probar la ortogonalidad para


un conjunto generador (u1 , . . . , um ) de M, siendo el más natural el de las
columnas de X. Se obtiene ası́ X t (y − Xβ) = 0, y de aquı́

(X t X)β = X t y. (4.9)

La solución es única si X t X es invertible, o bien, r(X) = k. Ambas condi-


ciones son equivalentes pues r(X t X) = r(X). Bajo estas condiciones se ob-
tiene las solución explı́cita

β̂ = (X t X)−1 X t Y . (4.10)

4.2 Dos propiedades de las proyecciones ortogonales


Intuitivamente, proyectar dos veces un vector sobre un subespacio M, equiv-
ale a proyectarlo una sola vez: PM (PM (t)) = PM t para todo t, es decir,
2
PM = PM . La matriz P que representa PM es idempotente:

P 2 = P. (4.11)

Sin embargo, una matriz idempotente P representa un proyector ortogo-


nal, si, y solo si, P es simétrica. En caso contrario, ella corresponde a una
proyección “oblicua” (piense en un lápiz y un foco de luz). Técnicamente,
esta última coincide con una proyección ortogonal con respecto al producto
interno alternativo < a, b >= at W b, donde W es simétrica y definida posi-
tiva.

Ejercicio teórico: Verifique que las ecuaciones normales adecuadas para el


nuevo producto interno son

(X t W X)β = X t W y (4.12)

y que si X es de rango completo y Q está dada por

Qy = X(X t W X)−1 X t W, (4.13)

11
Q es, efectivamente , idempotente, pero no simétrica. Para hacer demostra-
ciones, el siguiente resultado es útil:

Teorema 4.3 Para todo subespacio M y vectores a y d cualesquiera, se


cumple la propiedad

< PM a , d >=< a , PM d > (4.14)

Demostración (sin usar matrices).


Sea M2 = M1⊥ y Pi = PMi , i = 1, 2, Todo vector a se puede descomponer de
manera única como a = a1 + a2 , donde ai ∈ Mi , i = 1, 2. Aplicando esto con
a = c y a = d, se obtiene

P1 c = P1 (c1 +c2 ) = P1 c1 , < P1 c , d >=< P1 (c1 +c2 ) , d1 +d2 >=< c1 , d1 > .

De aquı́, el resultado buscado se obtiene por un argumento de simetrı́a. A


partir de este teorema es trivial demostrar

Teorema 4.4 La matriz P representa una proyección ortogonal, si , y solo


si, P es idempotente y simétrica.

Demostración: Sea P la matriz que representa PM . Entonces at P d es un


escalar y su transpuesto coincide con él. Por lo tanto, (P d)t a = dP t a para
todo a y d, de modo que P es simétrica.

Ya sabemos que una matriz P idempotente y simétrica representa la


proyección ortogonal PM para cierto subespacio M, cuya dimensión denom-
inamos por r. Para diagonalizar P, podemos elegir una base ortonormal
(e1 , . . . , er ) de M y una base (er+1 , . . . , en ) de M ⊥ . Hay dos valores pro-
pios distintos:

(a) Un valor propio 1, con multiplicidad dim M, cuyo subespacio propio es


M.

(b) Un valor propio 0, con multiplicidad n − r, cuyo subespacio propio es


M ⊥.

Como la suma de los valores propios es r, la traza de la matriz PM coincide


con dim M.

12
5 Descomposiciones ortogonales
5.1 Sumas directas
La suma directa de subespacios generaliza el concepto de base:
Definición 5.1 Sea (E1 , . . . Er ) una colección ordenada de subespacios y
E = E1 + · · ·+ Er . Esta colecciónPes una suma directa de subespacios si tiene
una descomposición única z = rj=1 z j , con z j ∈ Ej . Un caso importante
ocurre cuando los subespacios tienen dimensión 1 y Ej = span(ej ). Se aprecia
que (e1 , . . . , er ) es una base de E. Se dice que E = E1 + · · · + Er es una
suma directa. Se puede demostrar que una condición necesaria y suficiente
para que la descomposición sea una suma directa es

Ej ∩ Es = {0} para todo j 6= s. . (5.1)

5.2 Suma o descomposición ortogonal


Definición 5.2 Una suma E = E1 + · · · + Er de subespacios es una suma
ortogonal de estos subespacios, o bien una descomposición ortogonal de E, si

Ej ⊥ Es para todo j 6= s. (5.2)

Ciertamente, una descomposición ortogonal es L una suma directa, pero la


recı́proca no es válida. Utilizaremos el sı́mbolo para denotar una suma
ortogonal, de modo que
M r
E= Ej . (5.3)
j=1

A una base ortogonal (e1 , . . . , em ) de E, se le asocia la descomposición or-


togonal con Ej = span(ej ), j = 1, . . . , m. En el lenguaje de proyecciones
ortogonales y simplificando la notación a Pj = PEj y P = PE (7.4) equivale
a r
X
Pj = P donde Pj Ps = 0 para todo j 6= s (5.4)
j=1

Con la notación Sj = kPj yk2 y S = kP yk2 , el Teorema de Pitagoras implica


que
Xr
S= Sj (5.5)
j=1

13
Notación: Para un subespacio M y un vector u arbitrario usamos la notación
SC (u, M) = kPM uk2 y SCE (u, M) = SC (u, M ⊥ ). Con esta notación

SCE (u, M) = SC (u, M ⊥ ) = kuk2 − SC (u, M). (5.6)

TTTTTTTTTTTTTTTTTTTTTTTTTTTTT

5.3 Representaciones canónicas


Un enfoque alternativa en que solo se usan colecciones de variables no cor-
relacionadas se presenta a continuación: Una ventaja es que no se requiere
tener mayores conocimientos de matrices e interpretaciones geométricas.

Teorema: Sea E un subespacio de dimensión m y considere s subespacios


ortogonales Ej , j = 1, . . . , s con dim Ej = rj . Entonces, existe una base or-
togonal (e1 , . . . , em ) de E y una partición (A1 , . . . , As ) de {1, . . . , m}, con
card (Aj ) = rj , tal que (Ej = span(ei , i ∈ Aj ), j = 1, . . . , s es una descom-
posición ortogonal.

Utilizando la base ortogonal en


Xeste teorema, todo vector en Ej se puede
escribir de manera única, como zi ei . Por otro lado, (zi , i ∈ Aj ) está en
i∈Aj
correspondencia uno a uno con PEj t.
Definiendo el vector aleatorio Z = (Z1 , . . . , Zn , con Zi =< ei , Y >, i =
1, . . . , n, X
kPEj Y k2 = Zi2 ., (5.7)
i∈Aj

En el caso s = 2, E1 = M, E2 = M ⊥ , se obtiene
r
X
2
kPM Y k = Zi2 . (5.8)
i=1

y
n
X
2
kPM ⊥ Y k = Zi2 . (5.9)
i=r+1

14
6 Subespacios anidados y descomposiciones
ortogonales
Sea N0 ⊂ N1 ⊂ Mr ⊂ Mr + 1 = IR n una sucesión de subespacios anidados,
con dim Mj = sj , j = 0, . . . , r + 1, con sr+1 = n. La idea es que si m > j, el
modelo Mod m: µ ∈ Mm , es más complejo que el modelo Mod j: µ ∈ Mj .
Preguntas estadı́sticas naturales son

• ¿Vale la pena complejizar Mod j ?

• ¿ Es justificable simplificar Mod m a Mod j?

La clave está en medir la calidad del modelo a través de las SCE . Denotando
a SCE (y, Mk ) por SCE k , la idea es comparar SCE m con SCE j . Si todas
las observaciones yi se multiplican por una constante d, la SCE se multiplica
por d2 . Esto sugiere calcular incrementos o decrementos porcentuales. La
diferencia absoluta es DIF = SCEj − SCE m ( no SCEm − SCE j , que
es negativo). Si Mm es el modelo más complejo que por ahora queremos
considerar, el vector de residuos asociado con Mm es ortogonal a Mm y, por
ende, a Mj ; el vector de residuos asociado con Mj , no es, en general, ortogonal
a Mm . La idea es, entonces, analizar:
SCEj − SCE m
R= (6.10)
SCE m
La disminución porcentual de la SCE cuando se complejiza el modelo es
SCEj − SCE m
R= (6.11)
SCE j

y el aumento porcentual cuando se simplifica el modelo es


SCEj − SCE m R
= , (6.12)
SCE j 1−R

que es una función estrictamente creciente de R, con g(0) = 0 y g(x) → ∞,


cuando x → 0.

Volvamos ahora a la sucesión de subespacios. Un resultado de álgebra


lineal muy relevante para nuestros propósitos es

15
Teorema Para 0 ≤ j ≤ r, existe un subespacios Ej tal que
M
Ej+1 ⊥ Mj y Mj+1 = Mj Ej+1 (6.13)

Procediendo recursivamente se obtiene la descomposición ortogonal


" m #
M M
Mm = Mj Ek . (6.14)
r=j+1

6.1 Efecto de una variable


Si Mk = span(X 1 , . . . X k ), suele interesar el efecto de agregar una columna
X k+1 a la matriz de diseño, es decir, el efecto de agregar el coeficiente βk+1 .
Si
u = X k+1 − Pk X k+1 = (I − PMk )X k+1, (6.15)
entonces Ek+1 = spanu. Si aplicamos el resultado general, vemos que

(< u, y >)2
SCE k − SCE k+1 = ,
kuk2

de donde
ˆ )2 = (< u, y >)2 SCE k − SCE k+1
(βk+1 = (6.16)
kuk4 kuk2
FFFFFFFFFFFFFFFFFFFFFFFFFF

7 Subespacios anidados y descomposiciones


ortogonales
Sea M0 ⊂ M1 ⊂ Mr ⊂ Mr + 1 = IR n una sucesión de subespacios anidados,
con dim Mj = sj , j = 0, . . . , r + 1, con sr+1 = n. La idea es que si m > j, el
modelo Mod m: µ ∈ Mm , es más complejo que el modelo Mod j: µ ∈ Mj .
Preguntas estadı́sticas naturales son

• ¿Vale la pena complejizar Mod j ?

• ¿ Es justificable simplificar Mod m a Mod j?

16
La clave está en medir la calidad del modelo a través de las SCE . Denotando
a SCE (y, Mk ) por SCE k , la idea es comparar SCE m con SCE j . Si todas
las observaciones yi se multiplican por una constante d, la SCE se multiplica
por d2 . Esto sugiere calcular incrementos o decrementos porcentuales. La
diferencia absoluta es DIF = SCEj − SCE m ( no SCEm − SCE j , que
es negativo). El vector de residuos asociado con Mm es ortogonal a Mm y,
por ende, a Mj ; notar que el vector de residuos asociado con Mj , no es, en
general, ortogonal a Mm . La idea es, entonces, analizar el incremento relativo
de la SCE al pasar de m a j :
SCE j − SCE m
w= (7.1)
SCE m
La disminución porcentual de la SCE cuando se complejiza el modelo es
SCEj − SCE m
t= (7.2)
SCE j
w
Interesa que w y t sean grandes. Como t = 1−w es estrictamente creciente
ambos criterios son equivalentes.
Volvamos ahora a la sucesión de subespacios. Un resultado de álgebra
lineal muy relevante para nuestros propósitos es
Teorema Para 0 ≤ j ≤ r, existe un subespacios Ej tal que
M
Ej+1 ⊥ Mj y Mj+1 = Mj Ej+1 (7.3)

Procediendo recursivamente se obtiene la descomposición ortogonal


" m #
M M
Mm = Mj Ek . (7.4)
r=j+1

7.1 Efecto de una variable


Si Mk = span(X 1 , . . . X k ), suele interesar el efecto de agregar una columna
X k+1 a la matriz de diseño, es decir, el efecto de agregar el coeficiente βk+1 .
Si
u = X k+1 − Pk X k+1 = (I − PMk )X k+1, (7.5)
entonces Ek+1 = spanu. Si aplicamos el resultado general, vemos que
(< u, y >)2
SCE k − SCE k+1 = ,
kuk2

17
de donde
2
ˆ )2 = (< u, y >) = SCE k − SCE k+1
(βk+1 (7.6)
kuk4 kuk2

8 Formulación geométrica y estimación


Considere el modelo lineal

µ = E(Y ) = Xβ ∈ M, Cov (Y ) = V. (8.1)

E(AY ) = Aµ, Cov (AY ) = AV At (8.2)


En estadı́stica, rara vez se conoce V, que para n observaciones es equivalente
a un vector de n(n+1
2
parámetros. En estos apuntes solo consideramos el caso

V = σ 2 I, (8.3)

De (8.3) se deduce Cov (Y ) = AAt .

Definición Q es una matriz ortogonal si Q−1 = Qt . aplicando nuevamente


(8.3) se deduce que
Cov (QY ) = σ 2 I, (8.4)
para toda Q ortogonal. Geométricamente la transformación lineal que a
y ∈ IR n le asocia Qy ∈ IR n , es una rotación , seguida posiblemente de una
reflección. Notar que 1 = det I = det(QQt ) = det(Q) det(Qt ) = (det(Q)2 , de
modo que | det(Q) = 1|. Geométricamente, hay una reflección si, y solo si,
det(Q) = −1. En la teorı́a de modelos lineales son importantes también las
proyecciones ortogonales Z = PN (Y ). Tenemos

Var (Z) = σ 2 (PN (PN )t ).

Como la matriz PN es simétrica,

Var (PN Y ) = σ 2 PN (8.5)

También
E(kPN Y k2 = E(PN Y )t PN Y = E(Y t PN Y )
Usamdo la identidad tr(ABC) = tr(BCA) = tr(CAB) tenemos

E(kPN Y k2 = tr(PN E(Y Y t )) = σ 2 tr(PN ) = dim(N). (8.6)

18
Una demostración alternativa es aplicar la base canónica. Para simplificar la
notación, podemos considerar T = Y − µ, que tiene media 0. En la primera
parte de la discusión es conveniente suponer directamente que E(Y ) = 0.

P 2 = P, (8.7)
Una matriz P que satisface (8.7) se dice idempotente. Si bien la matriz que
representa una proyección ortogonal es idempotente, la afirmación recı́proca
no es válida. La idea intuitiva es que la proyección puede ser “oblicua”
(piense en un lápiz y un foco de luz). La propiedad clave es

Teorema: Sea P una matriz con espacio columna M. Entonces P = PM si,


y solo si, P es idempotente y P es simétrica.

Existe un enfoque a la teorı́a de modelos lineales que se basa en este tipo


de matrices, la cual tiende a esconder los conceptos geométricos.

8.1 Estimación de combinaciones lineales


El método de sustitución en la teorı́a de estimación se puede escribir como:

Si Γ = G(Λ), entonces Γ̂ = G(Λ̂). (8.8)


A. Combinaciones lineales de las medias.
Estimar at µ por at µ̂ = at PM Y . Por (4.14), la solución se puede escribir
también como (PM a)t y.
B. Combinaciones lineales de los parámetros.
Si X es de rango completo (k), β̂ existe y para ω = ct β

ω̂ = ct (X t X)−1 X t Y . (8.9)

En estadı́stica los estimadores puntuales deben ir acompañados de una idea


de su variablidad, siendo el indicador más simple su varianza. Como esta es,
en general, desconocida, es necesario estimarla a partir de los datos. En el
iid
caso de una muestra aleatoria Yi ∼ con media µ y varianza σ 2 , el estimador
usual de la varianza es
n
2 1 X
s = (Yi − ȳ)2 ,
n − 1 i=1

19
el cual es insesgado, es decir, E(s2 ) = σ 2 . Veremos más abajo como gener-
alizar esto a los modelos lineales. Por analogı́a con este caso, parece razonable
examinar estimadores de σ 2 con la estructura: (Y − µ)t A(Y − µ̂. En todo el
curso supondremos que las observaciones son independientes, de modo que
Cov (Y ) = V es diagonal, con elementos σi2 = Var (Yi ). No parece razonable
estimar n varianzas con n observaciones. El caso más sencillo y, a su vez, el
más utilizado, es
V = Cov (Y ) = σ 2 I, (8.10)
donde I denota la matriz identidad en dimensión n. En otras palabras, las
observaciones no están correlacionadas y ellas tienen una varianza común σ 2 .
Bajo (8.10),la varianza del estimador de mı́nimos cuadrados (EMC) es
Cov (β̂) = σ 2 (X t X)−1 (8.11)
y cuando ω = ct β,
Var (ω̂) = d2 σ 2 , donde d2 = ct (X t X)−1 c. (8.12)
Es importante destacar que la constante d puede ser precalculada, es decir,
no depende de las observaciones. En problemas concretos puede ser preferi-
ble obtener d2 directamente. Notar también que a la desviación estandard
estimada se la suele llamar error estándar (en inglés statndard error (s.e,),
para enfatizar que no corresponde a la desviación estándar σ 2 de las ob-
servaciones. En la práctica, σ 2 es desconocida, y ds es, en realidad, una
estimación del error estándar. Lo que los paquetes computacionales entre-
gan no es s.e.(ω̂) = dσ, sino una estimación, aue es simplemente ds.
El vector e = y − ŷ se denomina vector de residuos (no confundir con el
vector de errores ǫ). Se tiene que e satisface
e = y − PM y = (I − PM )y. (8.13)
y es la proyección de y sobre el espacio ortogonal N = M ⊥ .

9 Descomposiciones ortogonales
9.1 Sumas directas
En la teorı́a de modelos lineales, la descomposición de un subespacio E en r
subespacios E1 , . . . Er , ortogonales entre sı́, es de enorme importancia. Con-
sideramos en primer lugar un el concepto más general de suma directa de

20
subespacios. la cual generaliza el concepto de base.
Definición: Sea (E1 , . . . Er ) una colección ordenada
Pr de subespacios, tal que
z ∈ E tiene una descomposición única z = j=1 z j , con z j ∈ Ej . Se dice
que E = E1 + · · · + Er es una suma directa.
Una condición necesaria y suficiente para que la descomposición sea una suma
directa es
Ej ∩ Es = {0} para todo j 6= s. . (9.1)
Si Ej = span(ej ) (e1 , . . . , em ) es una base de E.

Cuando los vectores z j son ortogonales entre sı́, la suma directa se de-
nomina descomposición ortogonal de E y (9.1) es equivalente a

Ej ⊥ Es para todo j 6= s. (9.2)

. Utilizaremos la notación es
r
X r
M
E= Er = Ej .
j=1 j=1

Un caso particular importante es nuevamente Ej = span(ej ) con (e1 , . . . , em )


una base ortogonal de E.de E.
r
X
Pj = P Pj Ps = 0 para todo j 6= s (9.3)
j=1

Si Sj = kPj yk2 y S = kP yk2 , el Teorema de Pitagoras implica que


r
X
S= Sj (9.4)
j=1

En la próxima sección demostraremos la ecuación:

E(Sj ) = kPj µk2 + νj σ,2 (9.5)

Para un subespacio E y un vector u, denotemos por SC(u, E) a kPE uk2 y


SCE(u, E) = kuk2 − SC(u, E). El caso más importante es

E(SCE(Y , M) = (n − ν)σ 2 , donde, dim(M) = ν (9.6)

21
SCE(Y , M)
s2 = (9.7)
n−ν
es un estimador insesgado de σ 2 .
Nota. La validez de (9.31) solo depende de V = σ 2 I, pero no de la dis-
tribución de los ǫi , por ejemplo, de un supuesto de normalidad. n − ν es el
número de grados de libertad del error.

9.2 Representaciones canónicas


En vez de utilizar directamente la interpretación geométrica, una opción es
trabajar con una representación en términos de variables aleatorias no cor-
relacionadas y de igual varianza.
Teorema: Existe una base ortogonal (e1 , . . . , em ) de E y una partición
(A1 , . . . , Ap ) de {1, . . . , m}, tal que Ei = span(ej , i ∈ Aj ), j = 1, . . . , r.

Se satisface rj = card (Aj ) = dim Ej = r(Pj ). Denotando a kej k por mj ,


las variables aleatorias < ej , Y >, no están correlacionadas y con varianzas
m2j . Para nuestros efectos es preferible considerar mj = m para todo j y, a
menos que se diga lo contrario, se impone la condición m = 1, es decir qu las
bases son ortonormales. En términos de las proyecciones la descomposición
ortogonal corresponde a

r
X
Pj = P, donde los proyectores satisfacen Pj Ps = 0 para todo j 6= s
j=1
(9.8)
2 2
Si Sj = kPj yk y S = kP yk , el Teorema de Pitagoras implica que
r
X
S= Sj (9.9)
j=1

E(Sj ) = kPj µk2 + E(kPj ǫk2 k (9.10)


Se puede demostrar que E(kPj ǫk2 = σ 2 νj , con

νj = dim(Ej ) = r(Pj ) = rj = card (Aj ).

En el modelo lineal µ ∈ M se tienen dos vectores importantes:

22
(a) ŷ : El vector de valores predichos ŷ.

(b) e = y − ŷ : El vector de residuos.

En el caso clave r = 2, E = IRn , E1 = M, dim(M) = ν, E2 = M ⊥ , P2 = I−PM


y SC2 se denomina suma de cuadrados del error y se denota por SCE.
En este caso, S2 se denomina suma de cuadrados del error o suma de
cuadrados residual, a la que la denotaremos por SCE.

9.3 Normalidad
Recordar que si Y tiene media µ y matriz de covarianza V, se tiene

E(AY ) = Aµ, Var (AY ) = AV At . (9.11)

Si X ∼ Nn (µ, V ), es decir una distribución normal multivariada n dimen-


sional (DNM), se sabe que la familia de distribuciones multivariadas (aún con
distintas dimensiones) es cerrada bajo transformaciones lineales, es decir, si
X es DNM, AX tambén lo es, para cualquier matriz A. Más precisamente,

AX ∼ Nn (Aµ, AV At ) (9.12)

Consideremos ahora el caso µ = 0 (que se puede obtener analizando Y − µ,


y V = I, donde I es la matriz identidad en dimensión n, y una matriz A = P,
donde P es una matriz ortogonal, es decir P −1 = P t . Si Z = P X,

Var (Z) = P Var (X)P t = P P t = I. (9.13)

Desde el punto de vista geométrico, la matriz P representa una rotación


(det(P ) = 1), eventualmente seguida de una reflexión ( det(P ) = −1). Si
Y ∼ N(0, σ 2 I), se puede ”representar” a Y por σZ. (a) es el caso general,
pero (b) es el que se utiliza para encontrar distribuciones útiles en inferencia.
Se deduce facilmente que

Y ∼ Nn (0, σ 2 I) implica que P Y y Y tienen la misma distribución (9.14)

Notación:

(a) Denominaremos a Nn (0, σ 2 I distribución normal esférica. Es equiva-


lente a Y1 , . . . , Yn i.i.d. N(0, σ 2 ).

23
(b) Denominaremos a Nn (0, I) distribución normal esférica standard. Es
equivalente a Y1 , . . . , Yn i.i.d. N(0, 1).

Evidentemente (a) y (b) están relacionadas por un simple cambio de escala


(multiplicar o dividir por σ. Si Y tiene media µ, se puede trabajar con
Y − µ, o representar a Y por µ + σZ, donde Z sigue una distribución
esférica standard.

9.4 Distribución de prouycciones


Geométricamnte, si proyectamos Y ortogonalmente en el subespacio M, se
obtiene el vector ω = Ŷ . Claramente, si proyectamos ω en el subespacio,
el resultado es , simplemente, ω. Si P representa la transformación lineal o
la matriz correspondiente, se obtiene P (P (Y ) = P Y , para todo Y , lo que
equivale a
P 2 = P, (9.15)
Se dice que la matriz P es idempotente.

• En general, P representa una proyección oblicua.

• La proyección es ortogonal si, y sólo si, la matriz P es simétrica.

• Si el subespacio M tiene dimensión r, existe una base ortonormal de


IR n ,
(e1 , . . . , er , er+1 , . . . , en ),
tal que
P ei = 1, . . . , r; P ei = 0, i = r + 1, . . . , n.

Esto muestra que P es diagonalizable, que los valores propios son 1 y 0,


habiendo r unos y n − r ceros. Esto implica que el rango y la traza de P son
iguales a la dimensión del espacio M. Los vectores propios asociados al valor
propio 1, son todos los vectores en M; aquellos asociados al valor propio 0
generan el subespacio ortogonal a M, que denotamos por M ⊥ .
Let Zi =< ei , Y >, i = 1, . . . , n. Geométricamente
r
X
2
kPM Y k = Zi2 ., (9.16)
i=1

24
y
n
X
2
kPM ⊥ Y k = Zi2 . (9.17)
i=r+1

Por invarianza bajo transformaciones ortogonales, Z ∼ Nn (0, I), es decir,


Zi , i = 1, . . . , n son i.i.d. N(0, 1).

Definición: Si X1 , . . . , Xk son i.i.d. N(0, 1), la distribución de S = ki=1 Xi2


P
se denomina distribución chi cuadrado con k grados de libertad y se denota
por χ2 (k).

Recordar que si Y tiene media µ y matriz de covarianza V, se tiene

E(AY ) = Aµ, Var (AY ) = AV At . (9.18)

Si X ∼ Nn (µ, V ), es decir una distribución normal multivariada n dimen-


sional (DNM), se sabe que la familia de distribuciones multivariadas (aún con
distintas dimensiones) es cerrada bajo transformaciones lineales, es decir, si
X es DNM, AX tambén lo es, para cualquier matriz A. Más precisamente,

AX ∼ Nn (Aµ, AV At ) (9.19)

Consideremos ahora el caso µ = 0 (que se puede obtener analizando Y − µ,


y V = I, donde I es la matriz identidad en dimensión n, y una matriz A = P,
donde P es una matriz ortogonal, es decir P −1 = P t . Si Z = P X,

Var (Z) = P Var (X)P t = P P t = I. (9.20)

Desde el punto de vista geométrico, la matriz P representa una rotación


(det(P ) = 1), eventualmente seguida de una reflexión ( det(P ) = −1). Si
Y ∼ N(0, σ 2 I), se puede ”representar” a Y por σZ. (a) es el caso general,
pero (b) es el que se utiliza para encontrar distribuciones útiles en inferencia.
Se deduce facilmente que

Y ∼ Nn (0, σ 2 I) implica que P Y y Y tienen la misma distribución (9.21)

Notación:

(a) Denominaremos a Nn (0, σ 2 I distribución normal esférica. Es equiva-


lente a Y1 , . . . , Yn i.i.d. N(0, σ 2 ).

25
(b) Denominaremos a Nn (0, I) distribución normal esférica standard. Es
equivalente a Y1 , . . . , Yn i.i.d. N(0, 1).

Evidentemente (a) y (b) están relacionadas por un simple cambio de escala


(multiplicar o dividir por σ. Si Y tiene media µ, se puede trabajar con
Y − µ, o representar a Y por µ + σZ, donde Z sigue una distribución
esférica standard.

9.5 Distribución de prouecciones


Geométricamnte, si proyectamos Y ortogonalmente en el subespacio M, se
obtiene el vector ω = Ŷ . Claramente, si proyectamos ω en el subespacio,
el resultado es , simplemente, ω. Si P representa la transformación lineal o
la matriz correspondiente, se obtiene P (P (Y ) = P Y , para todo Y , lo que
equivale a
P 2 = P, (9.22)
Se dice que la matriz P es idempotente.

• En general, P representa una proyección oblicua.

• La proyección es ortogonal si, y sólo si, la matriz P es simétrica.

• Si el subespacio M tiene dimensión r, existe una base ortonormal de


IR n ,
(e1 , . . . , er , er+1 , . . . , en ),
tal que
P ei = 1, . . . , r; P ei = 0, i = r + 1, . . . , n.

Esto muestra que P es diagonalizable, que los valores propios son 1 y 0,


habiendo r unos y n − r ceros. Esto implica que el rango y la traza de P son
iguales a la dimensión del espacio M. Los vectores propios asociados al valor
propio 1, son todos los vectores en M; aquellos asociados al valor propio 0
generan el subespacio ortogonal a M, que denotamos por M ⊥ .
Let Zi =< ei , Y >, i = 1, . . . , n. Geométricamente
r
X
2
kPM Y k = Zi2 ., (9.23)
i=1

26
y
n
X
2
kPM ⊥ Y k = Zi2 . (9.24)
i=r+1

Por invarianza bajo transformaciones ortogonales, Z ∼ Nn (0, I), es decir,


Zi , i = 1, . . . , n son i.i.d. N(0, 1).

Definición: Si X1 , . . . , Xk son i.i.d. N(0, 1), la distribución de S = ki=1 Xi2


P
se denomina distribución chi cuadrado con k grados de libertad y se denota
por χ2 (k).

Nota técnica: La distribución χ2 (k) coincide con la Gama( k2 , 12 ).

Ejercicio:
• Se sabe que si Y ∼ Gama(α, λ), E(Y ) = αλ , y Var (Y ) = α
λ2
.
• Aplique esto con α = k
2
y y λ = 12 .
• Aplique las propiedades generales de sumas de v.a. independientes para
obtener el resultado anterior (usar E(X14 = 3).
Definición:
Sean Z ∼ N(0, 1), Sk independiente de Z con distribución χ2 (k) y Rk = Skk .
Entonces la distribución t de Student con k grados de libertad, denotada por
t(k) es la distribución de la variable aleatoria Tk = √ZRk .

Nota técnica: La ley de los grandes números implica √que Rk tiende en


probabilidad a 1 y, por continuidad, lo propio ocurre con Rk . Aplicando el
Teorema de Slutzky, se encuentra que Tk converge en distribución a N(0, 1).
En términos prácticos, esto justifica utilizar la distribución N(0, 1) como una
aproximación a t(k) cuando el numero k de grados de libertad alto (se ha
verificado que la aproximación es muy buena para k ≥= 30.

9.6 Extensión a grados de libertad no enteros


Definición. Para todo ν > 0, la distribución χ2 con ν grados de libertad,
denotada por χ2 (ν) se define por χ2 (ν) = Gama( ν2 , 12 ).

27
Usando la media y varianza de la distribución Gama (α, λ) con λ = 12 se
obtiene µ = 2α y σ 2 = 4α. Notar que para ν = k se recupera el caso anterior.
La distribución t(ν) se obtiene como t(k), con k reemplazado por ν y
S ∼ χ2 (k) por S ∼ χ2 (k).
Definición. Sean S1 y S2 variables aleatorias independientes tales que
Si ∼ χ2 (νi ), i = 1, 2. Sean Ri = Sνii , i = 1, 2. Entonces, la distribución de
R1
R2
se denomina F, con ν1 grados de libertad en el numerador y ν2 grados
de libertad en el denominador. Se la denota por F (ν1 , nu2 ). Aunque los val-
ores esperados del numerador y del denominador son ambos iguales a 1, el
valor esperado de la distribución siempre excede 1 (usar la la desigualdad de
Jensen.

9.7 Pivote para ω = ct β con σ 2 conocido


Consideremos el estimador lineal ω̂ de ω = ct β. Su varianza toma la forma
d2 σ 2 , donde d está determinado por X y c. De hecho d2 = c( X t X)−1 c, pero
este detalle es irrelevante para lo que sigue. Tenemos
(ω t − ω)
∼ N(0, 1) (9.25)

A partir de esto se pueden obtener intervalos de confianza y tests de hipótesis,
usando procedimientos casi idénticos a los empleados para la media de una
distribución normal con varianza constante. Denotemos por zγ al cuantil β
de la distribución N(0, 1). Entonces
• El intervalo de confianza de nivel 1 − α es

ω̂ + / − z1− 1 dσ (9.26)
2

• Si la hipótesis nula es ω = 0 y la alternativa es ω 6= 0, la hipótesis nula


se rechaza si
|ω̂|
r= > z1− 1 . (9.27)
dσ 2

• El valor-P es

P (|Z| > r) = 2P (Z > r), donde Z ∼ N(0, 1) (9.28)

28
9.8 Pivote para ω = ct β con σ 2 conocido
Desde el punto de vista aplicado queremos hacer tests y tests de hipótesis
cuando σ 2 es desconocido. La mecánica es reemplazar σ por s y N(0, 1) por
t(ν). Necesitamos encontrar los valores adecuados para s y ν.
Teorema: Sea SCE la suma de cuadrados del error k(Y − µ̂)k2 . Usando la
simetrı́a esférica y un cambio de base se obtiene la representación
n−k
X
SCE = Zi2 , donde las variables tienen media 0 y varianza σ 2 , k = r(X) = dim(M),
i=1
(9.29)
y las variables no están correlacionadas. De esta manera, E(SCE) = (n−k)σ 2 .
Si X es de rango completo k coincide con el número de componentes del
vector β. Evidentemente
SCE
s2 = (9.30)
n−k
es un estimador insesgado de σ 2 . Bajo el supuesto de normalidad, el estimador
máximo verosı́mil (MLE), es

SCE
u2 = , (9.31)
n
de tal forma que el MLE tiene siempre un sesgo negativo. En la teorı́a de
modelos lineales se usa s2 universalmente.

10 Mejor estimador lineal insesgado


Consideremos un subespacio M, el modelo µ ∈ M y la clase L de estadı́sticos
de la forma dt Y , con d ∈ IR n . El estadı́stico dt Y es, obviamente, un esti-
mador insesgado de dt . Para minimizar la varianza, hacemos la descom-
posición ortogonal d = a + b, con a = PM d. Se tiene

E(dt Y ) = at µ y b = PM ⊥ d.

29
Teorema de Gauss Markov En el modelo lineal µ ∈ M, el estimador
lineal insesgado de varianza mı́nima es

dt Ŷ = dt PM Y .

Demostración. Para cada vector d consideremos la descomposición ortog-


onal d = a + b, con a = PM d y b = PM ⊥ d. Entonces,

E(dt Y ) = dt µ = at µ + bµ = at µ. (10.1)

Por otra parte,

Var (dt Y ) = Var (at Y ) + Var (bt Y ) = σ 2 kak2 + σ 2 kak2 (10.2)

De (10.1) y (10.2), el estimador lineal insesgado de varianza mı́nima se ob-


tiene para a = PM d. Pero, at Y = (PM d)t Y = dt PM Y = dt Ŷ . De esta
manera, hemos demostrado el famoso

Teorema de Gauss Markov. El estimador lineal insesgado de varianza


mı́nima coincide con el estimador de mı́nimos cuadrados.
Nota:

• El teorema es válido aún si (X t X) no es invertible. El problema es que


si r(X) < k, Xβ = µ no determina β.

• Sea ω = ct β, con c ∈ col (X t ). Entonce ω̂ coincide con el estimador


de mı́nimos cuadrados.

30

También podría gustarte