Capitulo 3 PDF

Captulo 3
TEORA GENERAL DEL MODELO

LINEAL
57
58
3.1.
Introduccin.
Un problema muy frecuente en estadstica consiste en buscar y estimar interdependencias entre variables. En
efecto, cuando un par de variables aleatorias (X,Y ) no son independientes, el conocimiento del valor por X
cambia nuestro incertidumbre con respecto a la realizacin de Y : disminuye en general esta incertidumbre,
ya que la distribucin de Y dado X = x tiene una varianza que en promedio es menor que la varianza marginal
de Y :
Var(Y ) = EX {Var(Y |X)} +VarX {E(Y |X)}
Demostracin: Observamos en primer lugar que EX (E(Y |X)) = E(Y ).
Consideramos
Z
(y E(Y ))2 dIPY (y)
Var(Y ) =
Como y E(Y ) = y E(Y |X) + E(Y |X) E(Y ), se tiene que

(y E(X))2 = (y E(Y |X))2 + (E(Y |X) E(Y ))2 + 2(y E(Y |X))(E(Y |X) E(Y ))
Adems dIP(x, y) = dIPY |X (y)dIPX (x), en donde IPY |X es la distribucin condicional de Y dado X y IPX es la
distribucin marginal de X. Luego
Z Z
Var(Y ) =
Y |X
(y E(Y |x)) dIP

Z
+2

Z Z
X
2
Y |X
(y) dIP (x) +
(E(Y |x) E(Y )) dIP (y) dIPX (x)
(E(Y |x) E(Y ))
Z
Y |X
(y E(Y |x))dIP

(y) dIPX (x)
Pero por definiciones y algunos desarrollos vemos que:

EX (Var(Y |X)) =
VarX (E(Y |X)) =

Z
Z Z
Z Z
Y |X
(y E(Y |x)) dIP

(y) dIPX (x)
Y |X
(E(Y |x) E(Y )) dIP

(y) dIPX (x)
(y E(Y |x))dIPY |X (y) = 0
Luego Var(Y ) = EX {Var(Y |X)} +VarX {E(Y |X)}.

Se deduce que EX {Var(Y |X))} Var(Y ). Es un resultado promedio, eso no impide que para algunos valores
de X, Var(Y |X) sea el mayor que Var(Y ).
Cuando se puede aceptar que el fenmeno aleatorio representado por una variable o un vector X puede servir
para predecir aquel representado por Y , hay que buscar una frmula de prediccin. Algunas relaciones son
fciles de plantear y verificar, como las relaciones planteadas a partir de leyes fsicas o mecnicas, pero
59
cuando la aleatoriedad juega un papel importante, el estudio se hace ms difcil.

Se busca aqu descubrir como un conjunto de variables X1 , X2 , Xp influye sobre una o varias otras variables
Y . Para este propsito, se busca una funcin f que permita reconstruir los valores obtenidos sobre una
muestra de la variables respuesta Y :
Y = f (X1 , X2 , . . . Xp }.
Las variables {X1 , X2 , Xp } se llaman variables explicativas o variables independientes o variables exgenas y la variables Y se llama variable a explicar o variable respuesta o variables dependiente o variable
endgena.
Daremos algunos ejemplos, en que se ocupan estos modelos:
Ejemplo 3.1 La distancia que una partcula recorre en el tiempo t est dada por la frmula:
d = + t
en que es la velocidad promedio y la posicin de la parttula en el tiempo inicial t = 0. Si y
son desconocidos, observando la distancia d en dos pocas distintas, la solucin del sistema de las dos
ecuaciones lineales obtenidas permite obtener y . Sin embargo es difcil obtener en general una distancia
sin error de medicin. Por lo cual se observa una variable aleatoria: Y = d + en vez de d, en que (ruido
blanco") es de tipo aleatorio. En ese caso no basta tener dos ecuaciones sino valores de la distancia para
varios valores del tiempo. Los mtodos estadsticos basados en la aleatoriedad del error permiten estimar a
, y d sobre la base de una relacin funcional de tipo lineal.
Ejemplo 3.2 Si consideramos el peso P y la talla T de las mujeres chilenas adultas, est claro que no
existe una relacin funcional entre P y T , pero existe una tendencia. Considerando que P y T son variables
aleatorias de ditribucin conjunta normal bivariada:
P = f (T ) +
con
f (T ) = E(P|T )
en que refleja la variabilidad del peso P entre las chilenas de la misma talla con respecto a la media. El
tipo de funcional f no es evidente.
Ejemplo 3.3 Para decidir la construccin de la nueva central elctrica, ENDESA busca prever el consumo
total de electricidad en Chile despus del ao 2002. Se construye un modelo que liga el consumo de electricidad con variables econmicas, demogrficas y metereolgicas, y este modelo estima en base a datos
obtenidos en el pasado. Se aplica entonces el modelo para predecir el consumo de electricidad segn ciertas
evoluciones econmicas, metereolgicas y demogrficas.
60
Ejemplo 3.4 Para establecer una determinada publicidad en la televisin, se cuantifica el efecto de variables culturales y socio-econmicas en la audiencia de los diferentes programas. Sobre la base de una
encuesta telespectadores se construye un modelo que determina los efectos de las variables culturales y
socio-econmicas en la audiencia.
Ejemplo 3.5 Ajuste polinmial. El modelo lineal puede ser generalizado tomando funciones de las variables explicativas y/o de la variable a explicar. Es el caso cuando se tiene una variables respuesta Y a partir
de una sola variable X en un modelo polinomial: Y = a0 + a1 X 2 + + a p X p en donde X j es la potencia j
de X.
Ejemplo 3.6 Se quiere estimar la constante g de la gravitacin. Se toman los tiempos de cada t de un objeto
1
desde la altura h dada del suelo: d = gt 2 .
2
Observamos en los distintos ejemplos que las variables pueden ser aleatorias o no, las relaciones lineales o
no y que cuando no son lineales pueden eventualmente existir transformaciones de las variables que llevan
a relaciones lineales.
Se presenta a modo de introduccin un enfoque terico de la regresin funcional, para presentar despus el
caso lineal sobre valores muestrales.
Se usaran dos mtodos de estimacin:
El mtodo matemtico de ajuste de los mnimos cuadrados, que permite estimar los coeficientes del
modelo lineal a partir de valores observados. En este caso no se toma en cuenta la aleatoriedad de las
variables en la estimacin del modelo.
El mtodo de mxima verosimilitud basado en un modelo probabilstico normal, que permite justificar
el mtodo de mnimos cuadrdos y discutir las propiedades de los estimadores y la precisin del ajuste.
Finalmente se usar el modelo lineal para predecir. Se enfatizar los aspectos geomtricos del problema y
como hacer una crtica de los supuestos probabilsticos usuales.
3.2.
Modelo terico condicional.
Proposicin 3.1 Sean la v.a. Y IR y el vector aleatorio X IR p . El mnimo de E{(Y f (X))2 } se alcanza
en f (X) = E(Y |X).
Demostracin: Geomtricamente, en el espacio de Hilbert L2p+1 de dimensin p + 1 tomando como producto escalar
< U,V >= E(UV t )
61
E(Y |X) es la proyeccin ortogonal de Y sobre el subespacio LX2 generado por las funciones de X.
El criterio para minimizar es el error cuadrtico medio
E{(Y g(X))2 }
Si f (X) = E(Y |X), entonces para toda funcin g(X), se tiene:
E{(Y g(X))2 } = E{(Y f (X))2 } + E{( f (X) g(X))2 } E{(Y f (X))2 }.
En efecto
E{(Y f (X))( f (X) g(X))} = E{( f (X) g(X))E{(Y f (X))|X}}
dado que f (X) g(X) es independiente de Y y E{(Y f (X)|X) = 0 se obtiene el resultado.
Un ndice para medir la calidad del modelo est dado pro el coeficiente de correlacin entre Y y E(Y |X)
cuyo cuadrado es:
Var{E(Y |X)}
Var()
= 1
Var(Y )
Var(Y )
Y2 |X = Cor2 (Y, E(Y |X)) =

donde = Y E(Y |X), y entonces
Var() = (1 Y2 |X )Var(Y ).
En efecto:
Cov(Y, E(Y |X)) = E[(y E(Y ))(E(Y |X) E(Y ))]

Como E((X,Y ))) = EX {EY |X ((X,Y )|X)}
Cov(Y, E(Y |X)) = EX E{(Y E(Y ))(E(Y |X) E(Y ))|X}
Ahora bien:
E{(Y E(Y ))(E(Y |X) E(Y ))|X} = (E(Y |X) E(Y ))(E(Y |X) E(Y )) = (E(Y |X) E(Y ))2
y
Cov(Y, E(Y |X)) = EX {(E(Y |X) E(Y ))2 } = Var(E(Y |X))
Finalmente
Cor2 (Y, E(Y |X)) =
Var(E(Y |X))
Var(E(Y |X))2
=
Var(Y )Var(E(Y |X))
Var(Y )
En el caso lineal f (X) = E(Y |X) = T X y E() = 0.

62
Minimizar Var() equivale a tomar Cov(, X) = 0. Luego Cov(Y, X) = Var(X) en donde = (Var(X))1Cov(Y, X):
Var(Y ) = Var{E(Y |X)} +Var().
3.3.
Estimacin de los parmetros del modelo lineal
Sean {(yi , xi,1 , xi,2 , . . . , xi,p )|i = 1, 2, . . . , n} los valores obtenidos sobre una muestra aleatoria simple de
tamao n del vector (Y, X1 , X2 , . . . , Xp ) de IR p+1 . Se plante el modelo lineal:
E(Y |X = (xi,1 , xi,2 , . . . , xi,p )) = 0 + 1 xi,1 + 2 xi,2 + + p xi,p .
Consideraremos aqu el vector X como no aleatorio.
Denotamos i = 1, 2, . . . , n : xi = (xi,1 , xi,2 , . . . , xi,p ) y hacemos los siguientes supuestos sobre los errores:
i = yi E(Y ) N(0, 2 ), independientes entre si e independientes de los xi . Tenemos entonces p + 2
parmetros a estimar, que son 0 , 1 , . . . , p y 2 . Dos tipos de mtodos de estimacin se pueden usar aqu:
el mtodo de ajuste de los mnimos cuadrados y el mtodo de mxima verosimilitud.
3.3.1.
Solucin de los mnimos cuadrados
Se busca minimizar una funcin de los errores, como por ejemplo:

p
2i ,
i=1
|i |,
max{i }
i
i=1
El criterio de los mnimos cuadrados toma como funcin
2i cuya solucin es fcil de obtener y que
i=1
tiene una interpretacin geomtrica simple. Escribiremos matricialmente el modelo aplicado a la muestra de
observaciones.
y1
Sea Y =
y2
..
.
1 x1,1 x1,2 . . .
x1,p
X =
1 x2,1 x2,2 . . .
..
..
..
..
.
.
.
.
x2,p
..
.
1 xn,1 xn,2 . . .
xn,p
yn
1
..
.
2
..
.
Entonces el modelo se escribe

Y = X + .
El criterio de los mnimos cuadrados consiste en buscar el punto del subespacio vectorial W = Im(X) de IRn
generado por las columnas de la matriz X ms cercano al punto Y . La solucin es la proyeccin ortogonal
63
del punto Y sobre W y esta es obtiene de las ecuaciones normales con la mtrica usual:
X t X = X t Y
Este sistema de ecuaciones lineales tiene una solucin nica cuando las columnas de X son lineales independientes, es decir que forman una base del subespacio vectorial de W , o sea que la dimensin del rango
de X es igual a p + 1. En este caso la solucin de los mnimos cuadrados es igual a:
= (X t X)1 X t Y.
Se deduce que el operador de proyeccin ortogonal sobre W , que es un operador lineal idempotente de orden
2 y simtrico, se escribe matricialmente como:
P = X(X t X)1 X t
Si el rango de X es inferior a p + 1, basta encontrar una base de W entre las columnas de X, y reemplazar X
por X1 la matriz formada por estas columnas linealmente independientes. Se observar que si bien no es
necesariamente nico, Y = X = PY y = Y X = (I P)Y lo son. El mtodo no permite estimar a 2 .
3.3.2.
Solucin de mxima verosimilitud
En el prrafo anterior, para estimar los coeficientes j se us un criterio ma temtico que permite ajustar un
hiperplano afin de IR p+2 . Aqu usaremos el mtodo de mxima verosimilitud para estimarlos. El modelo
probabilstico se basa en los errores. El modelo
E(Y ) = 0 + 1 X1 + + p Xp = X
con Y = E(Y ) + = X + en donde se supone Nn (0, 2 In ). La funcin de verosimilitud utilizada es la
densidad conjunta de los errores:

f (1 , 2 , . . . , n ) =
f (1 , 2 , . . . , n ; , ) =
1
22
1
22
n2

1 t
exp 2
2

1
exp 2 (Y X)t (Y X)
2
Calculemos el estimador de mxima verosimilitud de :

XTY
n2
(Ecuaciones normales).
64
ln f
(Y X)t (Y X)
=0
= 0 (X t X) =
Calculemos el estimador de mxima verosimilitud de 2 :

t (Y X )
ln f
(Y X )
2
=
0
=
2
n
entonces
y si = Y X ,
2 =
1 n 2
i
n i=1
Es decir que la funcin de verosimilitud es mxima cuando se cumplen las ecuaciones normales: (X t X) =
1 n
i ; en
X t Y y adems 2 = 2i llamado la varianza residual dado que es la varianza emprica de los
n i=1
efecto ya que Y = X + , Im(X) y
n
X (Im(X)) 1n 2i = 0
i=1
El estimador de los mnimos cuadrados es igual entonces al estimador de mxima verosimilitud cuando se
tiene el supuesto de normalidad Nn (0, 2 In ).
3.4.
Propiedades del estimador
Las propiedades del estimador solucin de las ecuaciones normales estn ligadas a los supuestos hechos
sobre los errores i . Supondremos aqu que X es de rango completo (p + 1).
Propiedades:
El estimador es un estimador insesgado de :
=
E() = 0 E(Y ) = X E()
El estimador Y = PY = X es un estimador insesgado de X.
Nn (0, 2 In ) Y Nn (X, 2 P) donde P era el proyector ortogonal sobre W en IRn .
Nn (0, 2 In ) Nn (o, 2 (In P)), con ortogonal a W o independiente de X.
Np+1 (, 2 (X t X)1 ).
1 n 2
i es un estimador sesgado para 2 . En efecto:
n i=1
!

2
i X = (n p 1)2 ;
i=1
n
65
luego 2 =
n
1
2i es un estimador insesgado para 2 . En efecto,
n p 1 i=1
= (In P)Y = (In P)X + (In P) = (In P).

Luego
t = t (In P) = Traza((In P)t )
y
E( t ) = 2 Traza((In P)) = (n p 1)2
es independiente de
2i .
i=1
es un estimador consistente para y 2 =
n
1
2 es consistente para 2 .
n p 1 i=1 i
El estimador es ptimo con respecto a la varianza (ver el teorema de Gauss Markov a continuacin).
Consideremos la siguiente definicin:
Definicin 3.1 Sean A, B Mn (IR). Se dice que A B si y solamente si B = A + C, en donde C es
semi-definida positiva
Teorema 3.1 Teorema de Gauss-Markov: si E() = 0 y E(T ) = 2 In , entonces tiene varianza entre
los estimadores insesgados de , lineales en Y . Adems si Nn (0, 2 In ), entonces tiene mnima
varianza entre los estimadores insesgados de .
Demostracin: Si entre los estimadores insesgados de y lineales en Y , tiene la varianza ms pequea,
hay que mostrar que:
Var( ).
= GY : E( ) = Var()
Sea = AY una solucin de las ecuaciones normales, entonces = + DY , en que D = G A.
= E(DY ) = 0 y como Y = X + entonces DX = 0.
Como los dos estimadores son insesgados, E( )
Calculemos la varianza de :
+Var(DY ) + 2Cov(,
DY )
Var( ) = Var()
en donde
DY ) = E(( )(DY )t ) = E(Y
t Dt ) = E((X t X)1 X t YY t Dt ) =
Cov(,
(X t X)1 X t E(YY t )Dt = (X t X)1 [Var(Y ) + E(Y )E(Y )t ]Dt = 0
+ 2 DDt en donde DDt es semi-definida positiva.
Finalmente Var( ) = Var()
66
Si adems los errores siguen una distribucin normal, el estimador es de mnima varianza entre todos
los estimadores insesgados de . En efecto la cantidad de informacin de la muestra multivariada para el
parmetro es igual a
In () =
1 t
XX
2
y el estimador tiene una matriz de varianza igual a 2 (X t X)1 . Luego se obtiene la igualdad en la desigualdad de Cramer-Rao.
Se obtiene faclmente una generalizacin de este teorema cuando Var() = , que supondremos invertible.
El estimador de mnima varianza es entonces:
= (X t 1 X)1 X t 1Y
Es decir que estamos proyectando ortogonalmente en el sentido de la mtrica 1 .
3.5.
Calidad del modelo
Para ver si el modelo es vlido, hay que realizar varios estudios: la verificacin de los puestos sobre los
errores, la forma y significacin de las dependencias, el aporte de cada variable explicativa. Lo que se har
estudiando, mediante grficos, ndices y test, no solamente la calidad del modelo global y el aporte individual
de cada variable explicativa, sino que el aporte de un grupo de m variables explicativas tambin.
3.5.1.
Calidad global del modelo.
Los residuos i dan la calidad del ajuste para cada observacin de la muestra. Pero es una medida individual
que depende de la unidad de medicin. Un ndice que evita este problema est dado por:
n
y2i
i=1
n
y2i
i=1
que representa el cuadrado del coseno del ngulo del vector Y con el vector Y en IRn (Figura ??).
Se puede comparar las siguientes varianzas:
Varianza residual:
1 n 2
i .
n i=1
Varianza explicada por el modelo:
1 n
(yi y) 2 .
n i=1
67
Varianza total:
1 n
(yi y) 2 .
n i=1
Figura 3.1: Proyeccin del vector Y en W

Un ndice estadsticamente ms interesante es el coeficiente de correlacin mltiple R o su cuadrado, el
coeficiente de determinacin:
(yi y) 2
IR2 =
i=1
n
(yi y) 2
i=1
que compara la varianza explicada por el modelo con la varianza total. El coeficiente de correlacin mltiple
R es el coeficiente de correlacin lineal entre Y e Y . El valor de R est comprendido entre 0 y 1. Cuando
R = 0, el modelo obtenido es i : yi = y,
la media muestral de los valores yi y en consecuencia las variables
no explican nada en el modelo. En cambio cuando R es igual a 1, el vector Y pertenece al subespacio
vectorial W , es decir que existe un modelo lineal que permite escribir las observaciones yi exactamente
como combinacin de las variables explicativas. Cuando R es cercano a 1, el modelo es bueno siendo que
los valores estimados yi ajustan bien los valores observados yi .
Para el caso general se tiene:
Corr(Y, Y ) =
kY y1
nk
= max Corr(Y, Z)
kY y1
n k Z=X
en donde 1n es el valor de la bisectriz de IRn de componentes todas iguales a 1.

Si se plantea la hiptesis global H0 : 1 = 2 = = p = 0 H0 : E(Y ) = 0 1n , esta hiptesis significa
que los valores de las p variables explicativas no influyen en los valores de Y . Como Nn (0, 2 (In P))
68
e Y Nn (X, 2 P), si r es el rango de la matriz X, se tiene:

n
2i
i=1
(n r) 2
nr .
2
Como Y |H0 Nn (1 1n , 2 P) 0 = y,
se tiene:
n
i=1
yi 0
2
i=1
yi y
2
2r1
y2i
Adems
i=1
i=1
yi y
2
son independientes. Se tiene entonces que bajo la hiptesis nula H0 :
n
(yi y) 2 /(r 1)
F=
i=1
Fr1,nr
2i /(n r)
i=1
en donde Fr1,nr sigue una distribucin de Fisher a r 1 y n r grados de libertad. Se puede expresar F
en funcin del coeficiente de correlacin mltiple R:
F
(n r)R2
.
(r 1)(1 R2 )
La regin crtica para la hiptesis nula H0 : E(Y |X) = 0 1n contra la hiptesis alternativa H1 : E(Y |X) = X
con un nivel de significacin est definida por
IP(Fr1,nr > c ) = .
Se rechaza H0 , por lo tanto se declara el modelo globalmente significativo cuando se encuentra un valor F
en la muestra mayor que c .
En la prctica, se define la probabilidad crtica o p-valor que es el valor pc tal que IP(Fr1,nr > F) = pc .
Si el valor de la probabilidad crtica pc es alta, no se rechaza H0 , es decir que se declara el modelo como
poco significativo.
3.5.2.
Medicin del efecto de cada variable en el modelo
Cuando las variables explicativas son independientes, el efecto asociado a l variable X j se mide con X j j .
Se observar que el modelo lineal es invariante por el cambio de escalas de mediciones.
69
Consideramos la hiptesis nula H0 : j = 0. Como j N( j , 2j ) en donde 2j = Var( j ) (2j = 2 (X t X)1

j, j
j j
(n r)
2nr , se
en el caso del modelo con rango completo), j N(0, 1). Por otra parte, como
2
deduce que
j j
tnr .
j
Bajo la hiptesis nula H0 : j = 0,
j
tnr .
j

j
Si la probabilidad crtica o P-valor IP |tnr | >
= pc es grande, no se rechaza H0 y si es pequea se
j
rechaza H0 , lo que en este caso muestra un efecto significativo de la variables X j sobre Y .
Estos test individuales sobre los efectos tienen validez cuando las variables explicativas son relativamente
independientes. Cuando no es el caso, es decir cuando una variable X j puede tener un efecto sobre Y distinto
cuando se combina con otras variables, hay entonces que eliminar los efectos de las otras variables. Para eso
se puede usar el coeficiente de correlacin parcial.
3.5.3.
Coeficiente de correlacin parcial
El efecto de una variable X sobre la variable Y puede estar afectado por una tercera variable Z cuando Z
tiene efecto sobre X tambin. El estudio se basa entonces en las dos relaciones del tipo lineal:
X = Z +
Y = Z + .
Una vez eliminada la influencia de la variable Z sobre las variables X e Y se mide solamente a partir de los
restos:
X Z =
Y Z = .
Definicin 3.2 El coeficiente de correlacin parcial entre X e Y bajo Z constante es el coeficiente de
correlacin entre los errores y :
(X,Y |Z) = Corr(, )
Se observa que si X y Z son muy correlacionados entonces la correlacin parcial entre X e Y es muy pequea.
En efecto X aporta casi ninguna informacin nueva sobre Y (o vice-versa) cuando Z es conocida.
Se usa el grfico de los errores para medir los efectos y el tipo de efecto (lineal o no). Del grfico3.2(a)
podemos decir que la variable X2 no tiene efecto sobre la variable Y en presencia de la variable X1 . Pero en
70
el grfico3.2(b) la variable X2 aporta a la explicacin de la variable Y an si la variable X1 es presente en el

modelo.
Figura 3.2: Interpretacin de los errores y del coeficiente de correlacin parcial

Se puede generalizar a ms de 2 variables Z j , j = 1, 2, . . . , q. Si
q
X=
jZ j + Y =
j=1
Zj +
j=1
entonces se define el coeficiente de correlacin parcial entre X e Y , dadas las variables Z j , por:
(X,Y |Z1 , Z2 , . . . , Zq ) = Corr(, ).
Si las variables Z j no tienen efecto sobre X e Y , es decir que las correlaciones Corr(X, Z j ) y Corr(Y, Z j ) son
todas nulas, entonces (X,Y |Z1 , Z2 , . . . , Zq ) = Corr(X,Y ).
Se generaliza tambin la matriz de correlacin parcial con mas de dos variables. Definimos para eso la
matriz de varianza-covarianza del vector X dado el vector Z fijo:
Var(X|Z) = XX XZ 1
ZZ ZX .
Se tiene una intertretacin geomtrica del coeficiente parcial (X,Y |Z) mediante los tringulos esfricos: El
ngulo (A) del tringulo esfrico(ABC) est definido por el ngulo entre las dos tangentes en A a los lados
del tringulo esfrico (Grfico3.3). El ngulo (A) es entonces igual a la proyeccin del ngulo entre OX y
OY sobre el plano ortogonal a OZ. Los ngulos siendo relacionados a los arcos, se tiene:
cos(A) =
cos(a) cos(b) cos(c)

.
sin(b) sin(c)
Luego:
71
Figura 3.3: Representacin esfrica del coeficiente de correlacin parcial
Figura 3.4: (a) (X,Y |Z) = 1
(b) Corr(X, Z) = 0, Corr(Y, Z) = 0, 01, (X,Y |Z) = 1.
Corr(X,Y ) Corr(X,
q Z)Corr(Y, Z)
(X,Y |Z) = q
1 Corr2 (X, Z) 1 Corr2 (Y, Z)
En la figura3.4a, el ngulo A = 2 , el coeficiente de correlacin parcial es 1. Pero puede haber un efecto
escondido de la variable X sobre la variable Z como se ilustra en la figura3.4b: el coeficiente de correlacin
mltiple de X e Y sobre Z es igual a 1, a pesar que el coeficiente de correlacin entre X y Z es nulo y el
coeficiente de correlacin entre Y y Z es muy pequeo aquel entre X e Y cercano a 1. El coeficiente de
correlacin parcial es igual a 1 tambin.
3.5.4.
Efecto de un grupo de variables
Vimos que el efecto global de todas las variables explicativas y los efectos individuales. Veremos aqu el
efecto de un grupo de k variables, sean X j1 , X j2 , . . . , X jk (k p), entre las p variables. El efecto de estas
72
variables se mide considerando la hiptesis nula H0 : j1 = j2 = = jk = 0 contra H1 : E(Y ) = 0 +

1 X1 + + p Xp .
Sean X jk+1 , X jk+2 , . . . , X j p el restante de las P variables. Bajo H0 , el modelo se escribe: Y = 0 + jk+1 X jk+1 +
+ j p X j p + o . Se tiene la varianza residual bajo H1 menor que la varianza residual bajo H0 :
2i 2oi
i
Se puede estudiar el cociente de las dos varianzas residuales
2oi
i
2i
o su complemento
y2oi
i
2i
en donde
yoi = yi 2oi son las componentes del estimador E(Y |X) bajo H0 .
Bajo la hiptesis H0
(yi yoi )2 /k
Q=
2i /(n r)
Fk,nr .
Lo que conduce a un test de regin crtica de la forma Q c .

Considerando otra forma de escribir el problema. Sea la hiptesis nula H0 : E(Y ) = X0 W0 , con X0 de
rango s, contra H1 = X W .
La hiptesis H0 equivale a (X X0 ) = 0 lo que corresponde a k = p s + 1 ecuaciones independientes
D = 0, en que D es de rango k. Para que el test tenga sentido, D tiene que ser estimable, es decir que
|{z}
k(p+1)
el estimador D no debe depender de una solucin particular de las ecuaciones normales.

Sean Y e Y las proyecciones Y sobre W y W0 respectivamente y E(Y ) = 0 bajo H0 y E(Y ) = bajo H1 .
kY 0 k2 = kY Y +Y 0 k2 = kY Y k2 + kY 0 k2
kY k2 = kY Y k2 + kY k2
2
kY Y k2
2 = kY Y k . Bajo H , se tiene n p 1 R2 F
y
R
0
k,nr . La regin crtica es de la
k
kY Y k2
kY Y k2
nr 2
forma
R > C.
k
Sean S2 =
max L
H
Se puede plantear el test de razn de verosimilitudes tambin: = ma0x L . La regin crtica se escribe S > C0
Este test coincide con el test F.
Se observar que
kY Y k2 kY Y k2
y
son ambos estimadores insesgados de 2 bajo H0 .
ns
k
73
Cuando la varianza 2 es conocida, la razn de verosimilitudes es igual a:

max L

1
2
=
= exp 2 kY y k .
max L
2
H0
La regin crtica del test se escribe entonces kY Y k2 > 2 2k .

t Dt 1 D
Se puede construir un test a partir de D N(D, 2 ) cuando N (0, 2 ). Bajo H0 ,
2k .
2
Pero este test no equivale en general al test de razn de verosimilitudes basado en kY Y k2 .
3.5.5.
Caso de una hiptesis lineal general
Sea la hiptesis nula H0 : A = c contra la hiptesis alternativa H1 : A 6= c, en donde A Mk,p+1 es conocida

y de rango k. A tiene que ser estimable, es decir no debe depender de una solucin de las ecuaciones
normales. Se supondr aqu un modelo de rango completo.
Sea = (X t X)1 X t Y el estimador de mxima verosimilitud sin restriccin y 0 el estimador bajo H0 : A =
c. Se obtiene 0 usando los multiplicadores de Lagrange:
Q = (Y X)t (Y X) + 2(A c)
Q
= 0 X t X 0 = X t Y + At 0 = (X t X)1 (X t Y + At ) = + (X t X)1 At .
Utilizando la restriccin A 0 = c, obtenemos que = [A(X t X)1 At ]1 (c A)
0 = + (X t X)1 At [A(X t X)1 At ]1 (c A)

es decir tales que P0Y = X 0 y Py = X .
Sean P0 y P los proyectores asociados respectivamente a X 0 y X ,

Entonces
P0Y = PY + X(X t X)1 At [A(X t X)1 At ]1 (c A).

t (Y X )
y la varianza residual bajo
Sea la varianza residual del modelo sin restriccin: V = (Y X )
t
H0 : T = (Y X 0 ) (Y X 0 ). Como T V ,consideramos U = T V que compararemos a V .
Proposicin 3.2 La diferencia de las varianzas residuales con y sin restriccin es:
U = (A c)t [A(X t X)1 At ]1 (A c)
y bajo la hiptesis nula
Demostracin:
U
2k .
2
t (Y X )
= Y t (P P0 )Y.
U(Y X 0 )t (Y X 0 ) (Y X )
t [A(X t X)1 At ]1 (A
y U = Y t (PP0 )t (PP0 )Y U = (Ac)
Como P0Y = PY +X(X t X)1 At [A(X t X)1 At ]1 (cA)
74
c).
U
Por otro lado como A es de rango igual a k, A Nk (A, 2 A(X t X)1 At ), luego 2 2k .
Como es independiente de V = 2i (ver ejercicio 1.7b), el estadstico del test es:

i
U/k
Fk,np .
V /(n p)
3.5.6.
Anlisis de los residuos
Se supone que el efecto de numerosas causas no identificadas est contenido en los errores, lo que se traduce
como una perturbacin aleatoria. De aqu los supuestos sobre los errores, que condicionan las propiedades
del estimador. Es importante entonces comprobar si los supuestos se cumplen.
La mejor forma de chequear si los errores son aleatorios de medias nulas, independientes y de la misma
varianza, consiste en estudiar los residuos
i = 1, 2, . . . , n : i = yi j xi, j
j
considerndolos como muestra i.i.d. de una distribucin normal.

Se puede usar el grfico (Yi , i ), que debera mostrar ninguna tendencia de los puntos, o bien construir
test de hiptesis sobre los errores. En el grfico de la izquierda ( 3.5) se puede ver los residuos aleatorios
independientes de Y, lo que no es el caso de los residuos del grfico de la derecha.
Si el supuesto que los errores son N(0, 2 ) no se cumple, tenemos que estudiar el efecto que esto tiene sobre
la estimacin de los parmetros y sobre los tests de hiptesis, adems tenemos que detectar si este supuesto
es cierto o no y corregir eventualmente la estimacin de los parmetros y tests.
Vimos donde interviene el supuesto de normalidad en la estimacin de los parmetros del modelo y en los
tests de hiptesis para verificar la significacin de las variables en el modelo. Este tema se relaciona con el
concepto de la robustez (ver MILLER R.G. (1986), Beyond ANOVA, Basics of Applied Statistics).
La teora de estimacin y de test de hiptesis se basa en supuestos sobre la distribucin de poblacin. Por lo
tanto si estos supuestos son inexactos, la estimacin o la conclusin del test sera distorsionada. Se buscan
entonces mtodos que sean lo menos sensibles a la inexactitud de los supuestos. Se habla entonces de
robustez del mtodo.
Se divide el estudio en tres partes: la normalidad, la independencia y la igualdad de las varianzas de los
errores.
75
Figura 3.5: Grficos de residuos

Estudio de la normalidad de los errores
Si no se cumple la normalidad de los errores, los efectos sobre la estimacin o tests relativos a los parmetros
son pequeos, pero son ms importantes sobre los tests relativos a coeficiente de correlacin. El problema
es ms agudo en presencia de observaciones atpicas.
Tenemos entonces que verificar la hiptesis nula Ho : i N(0, 2 ) o sea si ui = i , Ho : ui N(0, 1). Esto
sugiere de comparar la funcin de distribucin emprica Fn de los residuos normalizados con la funcin de
distribucin de la N(0, 1). Sea F la funcin de distribucin de la N(0, 1), que es invertible.
Entonces si los ui provienen de N(0, 1), F 1 (Fn (ui )) ui . Consideramos entonces los estadsticos de orden
de los ui , que son los residuos normalizados ordenados de menor a mayor: sea u(1) u(2) ... u(n) . La
funcin de distribucin emprica es entonces:
Fn (u) =
card{u(i) u}
n
Se define los cuantiles empricos qi = F 1 (Fn (u(i) ). Notemos que Fn (u(i) ) = Fn ((i) ).
Si Fn se parece a F, los puntos (ui , qi ) deberan ser colineales (sobre la primera bisectriz). Este grfico se
llama probit o recta de Henri ( grfico 3.6).
Si los puntos en ell grfico probit aparecen como no lineal, se rechaza la normalidad de los errores y se
puede corregir utilizando la regresin no paramtrica basada o bien otras alternativas segn la causa de la
no normalidad (no simetra, observaciones atpicas, etc..
76
Figura 3.6: Recta de Henri

Test de Durbin y Watson
Test para la igualdad de las varianzas
3.6.
Prediccin.
Si se tiene una nueva observacin para la cual se conocen los valores de las variables explicativas, sean
x0,1 , x0,2 , . . . , x0,p , pero se desconoce el valor Y0 de la variables respuesta, se puede entonces usar el modelo
para inferir un valor para Y0 a travs de su modelo esperado:
0 = E(y0 ) = xt0
en que xt0 = (x0,1 x0,2 . . . x0,p ).
Si es el estimador de obtenido sobre las antiguas observaciones, se estima 0 dados los valores tomados
por las variables explicativas por:
0 = E(y0 ) = xt0 .
Se puede calcular un intervalo de confianza para 0 : la distribucin de y0 es N(0 , 2 xt0 (X t X)1 x0 ), luego
y 0
p t0
tnp1 . Se usa este estadstico para construir un intervalo de confianza de nivel 1
x0 (X t X)1 x0
para 0 :

q
q
/2
/2
t
t
t
1
t
1
IP y0 tnp1 x0 (X X) x0 0 y0 + tnp1 x0 (X x) x0 = 1
Un problema distinto es de estimar un intervalo para y0 . Hablamos de un intervalo para la prediccin. En
77
este caso hay que tomar en cuenta de la varianza aleatoria y0 :

y0 = y0 + 0 .
La varianza de 0 es igual a: 2 + 2 xt0 (X t X)1 x0 , dado que y0 . Un intervalo de prediccin para y0 se obtiene
y0 y0
entonces a partir de p
tnp1
1 + (xt0 (X t X)1 x0 )
El intervalo es entonces definido por:

q
q
/2
/2
t
t
t
1
t
1
IP y0 tnp1 1 + x0 (X X) x0 yo y0 + tnp1 1 + x0 (X X) x0 = 1 .
3.7.
Caso de modelo de rango incompleto.
Vimos que en el caso de una matriz X de rango r menor que p + 1, la solucin de las ecuaciones normales
no es nica. se habla en este caso de modelo de rango incompleto. Construyendo una solucin de las
ecuaciones normales a partir de una inversa generalizada A = (X t X) no se obtiene necesariamente un
estimador insesgado de . En efecto, si b es una solucin de las ecuaciones normales:
(X t X)b = X t Y
entonces b = AX t Y E(b) = AX t E(Y ) = AX t X. Si H = AX t X, entonces E(b) = H H 6= en general:
b es un estimador insesgado de H y no de .
Sin embargo, Y = Xb = (XAX t )Y es nico, dado que XAX t no depende de la inversa generalizada A. Luego
E(Y ) = E(Xb) = (XAX t )X = X. Los vectores Y de las predicciones y de los residuos son invariantes e
Y t (1 XAX t )Y
insesgados y 2 =
el estimador de 2 lo es tambin.
nr
Se presentan tres enfoques para estudiar estos modelos de rango incompleto
mediante un modelo reducido;
a partir de funciones estimables;
mediante restricciones identificables sobre los coeficientes del modelo.
Veremos las relaciones que existen entre estos mtodos.
3.7.1.
El modelo reducido.
Sea X de rango r (< p + 1), entonces U Mr,p+1r tal que X = (X1 |X2 ) con X1 de rango completo r
78
X2 = X1U. Entonces, si =
!
:
2
X = X1 1 + X2 2 = X1 (1 +U2 ) = X1 +
El modelo se escribe entonces: Y = X + = X1 + + , que es un modelo de rango completo sobre X1

equivalente al modelo de rango incompleto:
1 t
t
+
= 1 +U 2 = (X1 X1 ) X1Y
E( + ) = +
Var(+ ) = 2 (X1t X1 )1
3.7.2.
Funciones vectoriales estimables
Definicin 3.3 Sea E = R p+1 el espacio vectorial de los parmetros y G = Rk . Una aplicacin
lineal H : E G es estimable si existe una aplicacin lineal L : IRn G (L l(IRn , IRk )) tal que
E(LY ) = H.
Cuando G = IR, se habla de funcin estimable.
Veamos a continuacin algunas condiciones para que H sea estimable.
Teorema 3.2 Una condicin necesaria y suficiente para que H : E G sea estimable es que existe L
l(IRn , IRk ) (o L Mk,n ) tal que LX = H.
Demostracin: Si H es estimable L l(IRn , IRk ) tal que E(LY ) = H E(L(X+)) = H
LX = H.
Figura 3.7: Esquema de funciones

Teorema 3.3 Una condicin necesaria y suficiente para que H sea estimable es que Ker(X)Ker(H).
Demostracin: () Si H es estimable L l(IRn , IRk ) tq
LX = H; si Xb = 0 Hb = 0, luego
Ker(X)Ker(H).
() Si Ker(X)Ker(H), luego si Xb = 0 Hb = 0 L Mk,n : LXb = Hb = 0. Sea IR p+1 = Ker(X)F,
entonces X es un isomorfismo sobre W = Im(X) = X(IR p+1 ) = X(F). Entonces a todo Y W corresponde
79
a un solo b F tal que Y = Xb. Si se toma LY = Hb, lo que define L de manera nica, se tiene Y W :
LY = Hb, es decir que b F : LXb = Hb. Se deduce entonces que H es estimable.
Consecuencias del teorema:
Sea b una solucin de las ecuaciones normales. Si H es estimable, entonces Hb no depende de la
solucin particular b elegida. En efecto, b = b0 +b1 en que b0 Ker(X), b1 nico. Luego b0 Ker(H)
y Hb = Hb0 + Hb1 = Hb1 que es invariante. Adems LXb = Hb no depende de L. Adems Hb es
insesgado para H.
Si se busca un estimador insesgado de , como se tiene q = p + 1, H es la identidad en IR p+1 y como
Ker(H) = {0} Ker(X) = {0}. El modelo tiene que ser de rango completo.
En conclusin, en un modelo de rango completo, toda funcin vectorial de X es estimable.
3.7.3.
Aplicacin al modelo de rango incompleto.
Sea X de rango r y X = (X1 |X2 ) en que X1 es de rango completo r y X2 = X1U. Sea =
la
2
descomposicin de tal que X = X1 1 + X2 2 . Sea 1 L1 de dimensin r y 2 L2 de dimensin
p + 1 r. Entonces + = 1 +U2 L1 .
Figura 3.8:
Teorema 3.4 Una condicin necesaria y suficiente para que H l(IR p+1 , IRk ) sea estimable es que H2 =
H1U, en donde H1 y H2 son las restricciones de H a L1 y L2 .
Demostracin:
Si H es estimable, existe L tal que LX = H y adems LX1 = H1 y LX2 = H2 .
LX = L(X1 1 + X2 2 ) = LX1 1 + LX2 2 = H1 1 + H2 2 . Pero LX2 = LX1U, por lo tanto H2 = H1U.
Recprocamente, si H2 = H1U, mostramos que se puede construir L tal que LX = H.
Observemos que basta construir L, sobre Im(X). Adems X1 es de rango completo, luego Y Im(X) !b1
L1
tq Y = X1 b1 . Existe L tal que LY = LX1 b1 . Entonces H2 = LX1U = LX2 .

80
Figura 3.9:
Finalmente IR p+1 : LX = L(X1 1 + X2 2 ) = H1 1 + H2 2 = H. Luego H es estimable.
Consecuencias: el teorema de Gauss-Markov, que vimos para el caso de modelo de rango completo, puede
aplicarse al caso de un modelo de rango incompleto para estimadores de funciones estimables:
Teorema 3.5 Si H es una funcin vectorial estimable, el nico estimador lineal insesgado de mnima
varianza de H es H en donde es cualquiera solucin de las ecuaciones normales.
Demostracin:
H = H1 1 + H2 2 = H1 +
H = H1 +
= Var(H1 + ) = 2 H1 (X t X1 )1 H t
Var(H )
1
1
que no depende de la particin X en X1 y X2 .
3.7.4.
Estudio imponiendo restricciones.
Se
Si el rango de X es igual a r < p + 1, se tiene p + 1 r grados de indeterminacin en la eleccin de .
de
puede levantar esta indeterminacin imponiendo p + 1 r restricciones lineales independientes sobre ,
manera que conociendo Y , se obtenga un nico estimador de tal que Y = X .
Las restricciones son de la forma
K = 0
con K M p+1r,p+1 , K es de rango s = p + 1 r.
Se tiene entonces que estimar con tal que
Y = X con la restriccin K = 0.
(1)
Veamos que esta condicin nos asegura de obtener la unicidad con cualquier K de rango s.
81
Teorema 3.6 Considerando K1 y K2 las restricciones de K a L1 y L2 , la condicin necesaria y suficiente

para que (1) tenga una solucin nica es que K2 K1U sea invertible.
Demostracin: La ecuacin (1) puede escribirse usando la particin X = (X1 , X2 );
(
+ = 1 +U 2 = (X1t X1 )1 X1t Y
K1 1 + K2 2 = 0
1 = + U 2
(K2 K1U) 2 = K1 +
(2)
este sistema de ecuaciones (2) tiene una solucin nica si y solo si K2 K1U es invertible.
Notas:
K no puede ser estimable en este caso. Si lo fuera K2 = K1U y 2 no es nico.
Si H es estimable, H no depende del estimador solucin de las ecuaciones normales por lo tanto
de las restricciones elegidas.
Dos maneras de encontrar la solucin de (2):
Como Kb = 0, se puede escribir las ecuaciones normales de la forma:
(X t X + MK)K = X t Y
en donde M es una matriz tal que X t X + MK invertible. El problema es de encontrar esta matriz M.
La otra manera , ms operativa, consiste en construir el modelo aumentado:
"
Si la matriz aumentada A =
XtX
Kt
XtX
Kt
!
=
X tY
0
!
.
!
es invertible, su inversa se escribe: A1 =
C Pt
P
!
,
entonces = CX t Y .
3.8.
Intervalos y regiones de confianza.
Vimos que los test de hiptesis sobre los parmetros individualmente no son adecuados en general. Por
la misma razn, no se construye en general intervalo de confianza para cada parmetro por separado. Se
propone construir regiones de confianza o intervalos simultneos de confianza.
82
3.8.1.
Regiones de confianza.
Vemos aqu intervalos o regiones de confianza para parmetros individualmente o para funciones de los
parmetros.
Para cada parmetro j del modelo lineal, se puede construir un intervalos de confianza utilizado:
j j
tnr
j
2j (X t X)1
en donde 2j es la estimacin de Var( j ) = 2 (X t X)1
j, j ; es decir
j, j . El intervalo de confianza de
nivel de confianza igual a 1 es:
h
i
/2
/2
j t j , j + t j
nr
nr
at at
Para una combinacin lineal del vector : q
tnr , luego el intervalo de confianza es:
at (X t X)1 a

q
q
/2
/2
at tnr at (X t X)1 a, at + tnr at (X t X)1 a
Para un vector A IRk con A Mk,p+1 , sabemos de 2.5.5 que
t At [A(X t X)1 At ]1 A( )
2 2
( )
k
y
1
2 2nr
2 i
i
son independientes.
Luego
t At [A(X t X)1 At ]1 A( )

( )
define una regin de confianza elipsoidal para A.
k 2
Fk,nr
nr

Ejemplo 3.7 Sean p = 3, n = 18, (X t X)1 = 1n 0 2 1 , 2 2 = n y = 2 .
0 1 2
1
Las varianzas de 1 y 2 son: 21 = 1 y 22 = 1. Los intervalos de confianza individuales con 1 = 0, 95
para 1 y 2 son: 1 [0, 13; 4, 13] y 2 [1, 13; 3, 13].
= 3 1 2 [2, 691; 4, 691].
El intervalo para 1 2 : at = ( 0 1 1 ); Var(at )
= 1 1 + 2 [0, 891; 5, 131].
El intervalo para 1 + 2 : at = ( 0 1 1 ); Var(at )
83
En la figura3.10a se represent los dos intervalos de confianza individuales para 1 y 2 y en la figura3.10b,

las regiones de confianza para 1 2 y 1 + 2 .
(b) Intervalo para 1 2 y 1 + 2
Figura 3.10: (a) Intervalo para 1 y 2
3.8.2.
Intervalos simultneos de confianza.
Vimos que par un vector A IRk con A Mk,p+1 , la regin de confianza elipsoidal es tal que

t At [A(X t X)1 At ]1 A( )
IP(( )
k 2
Fk,nr ) = 1 .
nr
Ahora bien, si representamos esta regin, por ejemplo, con los k intervalos asociados a los atj , j = 1, 2, . . . k
es donde atj es la fila j de A, tomando la interseccin de los k intervalos:
"
atj
k
at +
Var(atj ),
F
j
n r nr
#
k
Var(atj )
F
n r nr
obtenemos una regin ms amplia que la definida por el elipsoide. En efecto:

t 2
(u b)
= bt C1 b.
Proposicin 3.3 Si C es invertible, entonces sup
t Cu
u
u6=0
Demostracin:

ht v 2
(ht v)2
kv hk = khk 2h v + kvk = khk
+ kvk2
0.
khk
khk2
2
84
Para h 6= 0 kvk2 khk2 (ht v)2 . Luego

h = C1/2 b obtenemos
t 2
(ht v)2
2 sup (h v) = khk2 . Tomando v = C 1/2 u y
khk
2
kvk2
v6=0 kvk
(bt u)2
bt C1 b.
ut Cu
Aplicando este resultado a la regin de confianza de A:

t At [A(X t X)1 At ]1 A( )

IP ( )
k 2
Fk,nr
nr

= 1 .
k 2 F , obtenemos
y tomando = A, C = [A(X t X)1 At ] y q = n
k,nr
r

(ut ( )2 )
IP(( )t C1 ( ) q) = 1 IP u 6= 0 :
q
= 1 .
ut Cu
Ahora bien, cuando se quiere un intervalo para A, es equivalente a pedir k intervalos I j al mismo tiempo
para los atj , j = 1, 2, . . . , k en donde atj es la fila j de A. De lo anterior deducimos que el elipsoide obtenido
para A es ms que lo que pedimos que es para j I j :
IP(I j ) 1 .
Para A = I, Scheff propone proyectar el elipsoide asociado a sobre los ejes de coordenadas. En general
puede ser demasiado pesimista dado que
IP(I j ) 1 .
Bonferroni propone simplemente que cada I j sea tal que IP(I j ) = 1
k ( j = 1, 2, . . . , k). Aqu tambin se
tiene que IP(I j ) 1 . En efecto

IP(I j ) = 1 IP I j = 1 IP I j 1 IP I j = 1 j = 1 .
j
3.9.
Ejercicios.
1. Cuatro mdicos estudian los factores que explican porque hacen esperar a sus pacientes en la consulta.
Toman una muestra de 200 pacientes y consideran el tiempo de espera de cada uno el da de la
consulta, la suma de los atrasos de los mdicos a la consulta este mismo da, el atraso del paciente a la
consulta este da (todos estos tiempos en minutos) y el nmeros de mdicos que estn al mismo tiempo
es la consulta este da. Se encuentra un tiempo promedio de espera de 32 minutos con una desviacin
tpica de 15 minutos. Se estudia el tiempo de espera en funcin de las otras variables mediante un
modelo lineal cuyos resultados estn dados a continuacin:
85
Variable
Coeficiente Desv. tpica
Constante
22,00
4,42
Atraso mdico
0,09
0,01
Atraso paciente
-0,02
0,05
Nmero de mdicos
-1,61
0,82
Coef. determinacin=0,72 F de Fisher=168
t-Student IP(|X| > t)

4,98
0,00
9,00
0,00
0,40
0,66
1,96
0,05
IP(X > F) = 0, 000
Cuadro 3.1: Resultados de la regresin
a) Interprete los resultados del modelo lineal. Comente su validez global y la influencia de cada
variable sobre el tiempo de espera. Especifique los grados de libertad de las t de Student y la F
de Fisher.
b) Muestre que se puede calcular la F de Fisher a partir del coeficiente de determinacin. Si se
introduce una variable explicativa suplementaria en el modelo, el coeficiente de determinacin
sar ms elevado?
c) D un intervalo de confianza a 95
d) Predecir el tiempo de espera, con un intervalo de confianza a 95que llega a la hora un da que el
consultorio funciona con 4 mdicos que tienen respectivamente 10, 30, 0, 60 minutos de atraso.
2. Suponga que tenemos un modelo lineal Y = X + con Nn (0, 2 In ), IR p+1 , XMn,p+1 (IR).
a) Escribamos X como: X = (X1 , X2 ), con X1 y X2 submatrices de X tales que X1t X2 = 0!(la matriz
1
nula). El modelo inicial Y = X + se escribe Y = X1 1 + X2 2 + con =
. Si 1 es
2
el estimador de mxima verosimilitud de 1 !
en el modelo Y = X1 1 + y 2 es el estimador de
1
mxima verosimilitud de es igual a
.
2
(Indicacin:" se usar el siguiente
resultado: si A Mn,n (IR) es una matriz diagonal por bloque,
#
1
A1
0
i.e. A1 =
, con las submatrices A1 y A2 invertibles , entonces A es invertible, y
0 A1
2
"
#
A
0
1
A1 =
).
0 A2
!
1
como estimador de , que propiedad pierde bajjo el
b) Si X1t X2 6= 0 y si se toma =
2
supuesto usual E() = 0.
3. Consideremos tres variables Y , X, Z observadas sobre una muestra de tamao n = 40, {(yi , xi , zi ) tq
1, . . . , 40}. Se busca explicar Y linealmente a partir de X y Z.
86
i=
Variable Medias Desv. tpica

Y
11,68
3,46
X
5,854
2,74
Constante Estimacin Dev. tpica estimacin t-Student IP(|X| > t)
7,06
1,03
6,84
0,00
0,79
0,16
4,94
0,00
Coef. determinacin=0,39
F de Fisher=24,44
IP(X > F) = 0, 000
a) Se representan los resultados de modelo lineal: yi = + xi + i , i = 1, . . . , 40: Interprete estos
resultados y efecte el test de hiptesis H0 : = 0.
b) D una estimacin insesgada para 2 la varianza de los errores de este modelo.
c) Comente el grfico de los residuos en funcin de los yi .
d) Se tiene una nueva observacin que toma sobre la variable X el valor x0 = 6, 50. D una estimacin y0 del valor y0 que toma sobre la variable Y .
e) Se presentan los resultados del modelo lineal: yi = + zi + i :
Variable Medias Desv. tpica
Y
11,68
3,46
Z
0,00
2,65
Constante Estimacin Dev. tpica estimacin t-Student IP(|X| > t)
11,68
0,36
32,54
0,00
1,00
0,14
7,27
0,00
Coef. determinacin=0,58
F de Fisher=52,78
IP(X > F) = 0, 000
Se tiene xi zi = 0 y zi = 0.
i
Muestre que si X1 = (1n |X) es una matriz formada del vector de unos y del vector de los xi y
X2 Z el vector formado de los zi , se tiene X1t X2 = 0. Usando los resultados del ejercicio 2 deduzca
las estimaciones de los parmetros del modelo yi = 0 + 1 X + 2 Z + .
4. Se requiere ajustar una funcin escaln y = f (t) con f constante en los intervalos en que j = 0, . . . , K
y a0 < a1 < . . . < aK . Para ello se observan datos {(ti , yi ) i = 1, . . . , n}. Se asume que los yi son
mutuamente independientes y que la distribucin de los yi es N( f (ti ), 2 ).
a) Formule el problema anterior como modelo lineal.
b) Obtenga la funcin ajustada por mnimos cuadrados.
87
Z aK
f (t)dt.
c) Concluya un intervalo de confianza para

a0
5. Sea Y IRn un vector aleatorio con E(Y ) = y Var(Y ) = 2 In . Se considera el modelo lineal Y =
X + , en que X Mn,p es de rango completo. Llamaremos W al subespacio de IRn conjunto imagen
de X e Y al estimador de mnimos cuadrados de = E(Y ).
a) Sea a W y a la recta generada por a. Se define H0 = {z W
tq
at z = 0} el suplemento
ortogonal de a en W . Se tiene entonces la descomposicin en suma directa ortogonal de W :

W = Ha a . Muestre
que el estimador de mnimos cuadrados Y de en Ha se escribe como:

t
Y = Y a tY a.
aa
t
(b b)
b) Si b IRn , muestre que Var(bt Y ) = Var(bt Y ) 2 t .
aa
2
i
c) Suponiendo que los errores son normales, d la distribucin de
, en que i = Yi Yi .
Yi2 /p
d) Se considera el caso particular a = In . D la distribbucin de
2
i /(n p)
. Muestre que si las
variables son centradas, Y = Y .

6. Teorema de Gauss-Markov generalizado.
Si Var(Y ) = , invertible, entonces el estimador insesgado de mnima varianza entre los estimadores lineales insesgados de es aquel que minimiza kY Xk21 .
a) Encuentre el estimador de mxima verosimilitud de y .
b) Demuestre el teorema.
88
c) Si el rango de X es igual a r, muestre que la norma del vector de residuos de un modelo lineal
kY Y k21 2nr
en donde Y la proyeccin 1 -ortogonal de Y sobre Im(X).
7. Sea el modelo lineal: yi = 0 + 1 xi,1 + + p xi,p + i , i = 1, 2, . . . , n. Matricialmente Y = X + ,
con rango(X) = p + 1, E() = 0, Var()2 In .
#
"
t
n
a
. D las expresiones de a y V . Muestre que V es definida positiva.
a) Se escribe X t X =
a V
n
Muestre que a es un vector nulo cuando las variables explicativas estn centradas j : xi, j = 0 .
i=1
Relacione los valores propios de V con los de V 1 .

b) Muestre que
sujeto a j :
Var()
j
xi, j = 0 y j :
i=1
xi,2 j = c (c es una constante positiva)
i=1
alcanza su mnimo cuando X t X es diagonal.

c) En qu difieren de las propiedades optimales obtenidas en el teorema de Gauss-Markov?
n
d) Se supone que X t X es diagonal con j : xi, j = 0 y j : xi,2 j = c. Deducir las expresiones de

i=1
i=1
Var(),
Y . Exprese el coeficiente de correlacin mltiple R2 en funcin de los coeficientes de
,
correlacin lineal de Y con las variables explicativas X.
8. Sea el modelo lineal Y = X + , con X de rango completo pero X t X no diagonal.
a) D la expresin de una prediccin de la variable respuesta Y y un intervalo de confianza asociado.
b) Se hace un cambio de base de las columnas de X, sea Z la matriz de las nuevas columnas,
de manera que Im(X) = Im(Z) y que Z t Z sea diagonal. Muestre que el cambio de variables
explicativas no cambia las predicciones de Y . Deduzca la expresin del intervalo de confianza
en funcin de Z.
9. Concluye el test de razn de verosimilitudes para la hiptesis nula H0 : A = c para los supuestos
usuales. Muestre que es equivalente al test F de Fisher dado en 2.5.5.
10. Sea el modelo lineal Y = X + con Nn (0, 2 In ), X Mnp de rango incompleto. Sea A una
funcin vectorial estimable de , con A Msp de rango completo s. Muestre que A(X t X) At es
invertible.
89

Capitulo 3 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 3 PDF

Cargado por

Copyright:

Formatos disponibles

Captulo 3

TEORA GENERAL DEL MODELO

(y E(Y ))2 dIPY (y)

Como y E(Y ) = y E(Y |X) + E(Y |X) E(Y ), se tiene que

(y E(Y |x)) dIP

(E(Y |x) E(Y ))

Pero por definiciones y algunos desarrollos vemos que:

VarX (E(Y |X)) =

(y E(Y |x)) dIP

(E(Y |x) E(Y )) dIP

(y E(Y |x))dIPY |X (y) = 0

Luego Var(Y ) = EX {Var(Y |X)} +VarX {E(Y |X)}.

cuando la aleatoriedad juega un papel importante, el estudio se hace ms difcil.

Modelo terico condicional.

Y2 |X = Cor2 (Y, E(Y |X)) =

Cov(Y, E(Y |X)) = E[(y E(Y ))(E(Y |X) E(Y ))]

En el caso lineal f (X) = E(Y |X) = T X y E() = 0.

Estimacin de los parmetros del modelo lineal

Solucin de los mnimos cuadrados

Se busca minimizar una funcin de los errores, como por ejemplo:

El criterio de los mnimos cuadrados toma como funcin

2i cuya solucin es fcil de obtener y que

Entonces el modelo se escribe

Solucin de mxima verosimilitud

Calculemos el estimador de mxima verosimilitud de :

Calculemos el estimador de mxima verosimilitud de 2 :

Propiedades del estimador

= (In P)Y = (In P)X + (In P) = (In P).

es un estimador consistente para y 2 =

Calidad del modelo

Calidad global del modelo.

Varianza explicada por el modelo:

Figura 3.1: Proyeccin del vector Y en W

en donde 1n es el valor de la bisectriz de IRn de componentes todas iguales a 1.

e Y Nn (X, 2 P), si r es el rango de la matriz X, se tiene:

Medicin del efecto de cada variable en el modelo

Consideramos la hiptesis nula H0 : j = 0. Como j N( j , 2j ) en donde 2j = Var( j ) (2j = 2 (X t X)1

Coeficiente de correlacin parcial

el grfico3.2(b) la variable X2 aporta a la explicacin de la variable Y an si la variable X1 es presente en el

Figura 3.2: Interpretacin de los errores y del coeficiente de correlacin parcial

cos(a) cos(b) cos(c)

Figura 3.3: Representacin esfrica del coeficiente de correlacin parcial

Figura 3.4: (a) (X,Y |Z) = 1

(b) Corr(X, Z) = 0, Corr(Y, Z) = 0, 01, (X,Y |Z) = 1.

Efecto de un grupo de variables

variables se mide considerando la hiptesis nula H0 : j1 = j2 = = jk = 0 contra H1 : E(Y ) = 0 +

Se puede estudiar el cociente de las dos varianzas residuales

Lo que conduce a un test de regin crtica de la forma Q c .

el estimador D no debe depender de una solucin particular de las ecuaciones normales.

Cuando la varianza 2 es conocida, la razn de verosimilitudes es igual a:

La regin crtica del test se escribe entonces kY Y k2 > 2 2k .

Caso de una hiptesis lineal general

Sea la hiptesis nula H0 : A = c contra la hiptesis alternativa H1 : A 6= c, en donde A Mk,p+1 es conocida

Utilizando la restriccin A 0 = c, obtenemos que = [A(X t X)1 At ]1 (c A)

0 = + (X t X)1 At [A(X t X)1 At ]1 (c A)

Sean P0 y P los proyectores asociados respectivamente a X 0 y X ,

P0Y = PY + X(X t X)1 At [A(X t X)1 At ]1 (c A).

Como P0Y = PY +X(X t X)1 At [A(X t X)1 At ]1 (cA)

Como es independiente de V = 2i (ver ejercicio 1.7b), el estadstico del test es:

Anlisis de los residuos

considerndolos como muestra i.i.d. de una distribucin normal.

Figura 3.5: Grficos de residuos

Figura 3.6: Recta de Henri