Está en la página 1de 20

Captulo 7

REGRESI

ON LINEAL
7.1. PORQUE MODELAR?
Estudiamos en el captulo anterior como detectar una asociaci on entre dos variables; ge-
neralmente los roles entre las variables no son simetricos - una variable puede inuir sobre la
otra y la recproca no es necesariamente cierta - incluso m as de una variable pueden intervenir
en esta relacion. En este caso nos interesaremos no solamente en evaluar la intensidad de la
asociaci on, sino que tambien en describirla.
Algunas relaciones son conocidas y deterministas como ciertas leyes de la fsica o de la
mecanica, y, dependen de constantes desconocidas que hay que determinar. Estas constantes
pueden obtenerse a partir de experimentos que se utilizar an en el modelo ya planteado. El
problema que surge entonces en la determinaci on de las constantes esta en los errores de
mediciones.
En otros problemas las relaciones no son conocidas y hay que determinar completamente
el modelo. En ciencias sociales o economa, por ejemplo, los modelos no son deterministas
y contienen una componente aleatoria, lo que diculta la b usqueda de las relaciones. En
este caso se busca descubrir como un conjunto de variables X
1
, X
2
, ..., X
p
inuye sobre
otra variable Y . Seg un el contexto, las variables X
j
son llamadas variables explicativas,
variables independientes o variables ex ogenas y la variable Y es llamada variable a
explicar, variable repuesta, variable dependiente o variable end ogena. Cuando las
variables son cuantitativas, se busca una funci on real f que permita reconstituir los valores
obtenidos sobre una muestra:
Y = f(X
1
, X
2
, ..., X
p
)
Por una r azon hist orica, este modelo se llama regresion. El mayor descubrimiento de Galton
(parrafo ??) fueron sus formulaciones sobre la regresi on simple y su relaci on con la distribu-
cion normal bivariada. Hizo un estudio que mostr o que la altura de los ni nos nacidos de
padre altos tiende a retroceder o regresar hacia la altura promedio de la poblaci on. Por lo
que utilizo entonces la palabra regresi on para referirse a este fen omeno.
106 CAP

ITULO 7. REGRESI

ON LINEAL
Ejemplo 7.1.1 La distancia d que una partcula recorre en un tiempo t esta dada por la
formula:
d = + t
en que es la velocidad promedio y es la posici on de la partcula en t = 0. Si y
son desconocidos, observando la distancia d en dos tiempos distintos, la soluci on del sistema
de 2 ecuaciones lineales permite obtener y . Sin embargo es difcil obtener en general la
distancia sin error de medicion el que es de tipo aleatorio. Por lo cual se observa una variable
aleatoria: Y = d + en vez de d, en donde es el error de medicion. En este caso no basta
tener dos ecuaciones, sino que observar los valores de la distancia recorrida en varios periodos
de tiempo y metodos estadsticos basados en la aleatoriedad del error, los que permitir an
estimar , y d sobre la base de una relaci on de tipo lineal.
Ejemplo 7.1.2 Si consideramos el peso y la talla de las mujeres chilenas, es obvio que no
existe una relaci on lineal ni funcional entre la talla y el peso, pero parece existir una cierta
tendencia. Considerando que el peso P y la talla T son variables aleatorias de distribuci on
conjunta normal bivariada, se plantea el modelo lineal:
E(P|T) = + T
en que y dependen de los parametros de la distribuci on conjunta de P y T. El peso se
escribe entonces:
P = + T +
en que reeja la variabilidad del peso P entre las chilenas de la misma talla con respecto
a la media.
Ejemplo 7.1.3 Para decidir de la construci on de una nueva central electrica, ENDESA
busca estimar el consumo total de electricidad en Chile despues del a no 2002. Por lo tanto,
se construye un modelo que liga el consumo de electricidad con variables econ omicas y
demogr acas, estimado a partir de datos de los a nos anteriores. Se aplica entonces el modelo
para predecir el consumo de electricidad seg un ciertas evoluciones econ omicas y demogr acas.
Ejemplo 7.1.4 Para establecer una determinada publicidad a la televisi on, se cuantica el
efecto de variables culturales y socio-economicas sobre la audiencia de los diferentes progra-
mas.
Ejemplo 7.1.5 El modelo lineal puede ser generalizado tomando funciones de las variables
explicativas y/o de la variable a explicar. En particular para un ajuste polinomial se tiene
una variable Y y la variable X con algunas de sus potencias:
Y = a
o
+ a
1
X
1
+ ... + a
p
X
p
en donde X
j
es la potencia j de X.
7.2. LOS M

INIMOS CUADRADOS 107


Ejemplo 7.1.6 Se quiere estimar la constante g de la gravitaci on; para eso se toman los
tiempos de cada t de un objeto desde una altura d dada del suelo.
d =
1
2
gt
2
Dados los errores de mediciones, varias observaciones son necesarias y se puede considerar
este modelo como lineal tomando como variable t
2
.
Nos limitaremos en este texto a los modelos lineales, es decir: la variable repuesta se escribe
como combinaci on lineal de las variables explicativas.
Presentaremos dos metodos para estimar las constantes de un modelo lineal. Conside-raremos
el problema como un problema de ajuste y se propondr an el metodo de los mmimos cuadra-
dos, que permite estimar los coecientes del modelo lineal a partir de valores observados
y el modelo normal para los errores que permite estimar las constantes a partir del meto-
do de maxima verosimilitud lo que permite estudiar las propiedades de los estimadores de
las constantes y dar una precisi on del ajuste. Finalmente se usar a el modelo para hacer
predicciones.
7.2. LOS M

INIMOS CUADRADOS
Sean {(y
i
, x
1
i
, x
2
i
, ..., x
p
i
)|i = 1, ..., n} los valores obtenidos sobre una muestra p+1 dimensional
de tama no n. Se plantea el modelo lineal:
y
i
=
o
+
1
x
1
i
+ ... +
p
x
p
i
i
donde
o
,
1
, ...,
p
son las constantes desconocidas o sea los par ametros del modelo.
Como generalmente no existen constantes que cumplan exactamente esta relaci on para todas
las observaciones, se escribe:
y
i
=
o
+
1
x
1
i
+ ... +
p
x
p
i
+
i
i
en donde
i
es el error para la observaci on i debido al modelo. Se buscar entonces minimizar
una funci on de los errores, por ejemplo,

2
i

i
|
i
|

i
Max{
i
}
El criterio de los mnimos cuadrados toma la funci on cuadr atica

2
i
cuya soluci on es facil
de obtener y que tiene una interpretaci on geometrica simple.
Escribamos matricialmente el modelo aplicado a la muestra de observaciones.
Sea y =
_
_
_
_
_
_
y
1
y
2
.
.
y
n
_
_
_
_
_
_
, X =
_
_
_
_
1 x
1
1
x
2
1
... x
p
1
1 x
1
2
x
2
2
... x
p
2
... ... ...
1 x
1
n
x
2
n
... x
p
n
_
_
_
_
, =
_
_
_
_

1
...

p
_
_
_
_
, =
_
_
_
_

2
...

n
_
_
_
_
108 CAP

ITULO 7. REGRESI

ON LINEAL
Entonces, el modelo se escribe:
y = X +
El criterio de los mnimos cuadrados consiste entonces en buscar el punto del subespacio
vectorial W = Im(X) de IR
n
generado por las columnas de la matriz X lo m as cercano al
punto y. La soluci on es la proyecci on ortogonal del punto y sobre W.
En efecto,

2
i
es igual a
2
el cuadrado de la norma del vector , es decir el cuadrado
de la distancia entre los vectores y y X, siendo X un vector del subespacio vectorial
W. El vector de W solucion es entonces la proyeccion ortogonal de Y sobre W. Si P es el
operador lineal de proyecci on ortogonal sobre el subespacio vectorial W, entonces la solucion
es X

= Py. La expresi on matricial de P se puede obtener en funcion de la matriz X: El


vector y Py es ortogonal a W o sea que y X

es ortogonal a cada columna de X; si se


denotan X
o
, X
1
, ..., X
p
las p + 1 columnas de X, se expresa la ortogonalidad en termino de
p + 1 productos escalares:
< y X, X
j
> (j = 0, 1, ...p)
Matricialmente se escribe: X
t
j
(y X) = 0 (j), y juntando las p + 1 ecuaciones se obtiene
las Ecuaciones Normales:
X
t
X = X
t
y
Este sistema de ecuaciones lineales tiene una soluci on unica cuando las columnas de X son
linealmente independientes o sea si forman una base del subespacio vectorial de W, lo que
ocurre cuando X es de rango igual a p+1. En este caso la soluci on de los mnimos cuadrados
es igual a:

= (X
t
X)
1
X
t
y
Se puede obtener el resultado por derivaci on matricial tambien.
Observamos que el estimador

de es lineal en Y .
El operador de proyecci on ortogonal sobre W se escribe matricialmente como:
P = X(X
t
X)
1
X
t
Este operador lineal P es idempotente de orden 2 (P
2
= P) y simetrico (P
t
= P).
Si la matriz X es de rango incompleto (rango inferior a p + 1), basta encontrar una base
de W entre las columnas de X, y reemplazar X por la matriz formada de estas columnas
linealmente independientes.
7.3. M

AXIMA VEROSIMILITUD
En el parrafo anterior, se uso un criterio matem atico para estimar los coecientes
j
. Aqu us-
aremos un modelo probabilstico y el metodo de m axima verosimilitud para estimarlos. El
modelo consiste en la esperanza condicional de la variable repuesta Y dadas las variables
explicativas X
1
, X
2
, ..., X
p
:
7.4. PROPIEDADES DE LOS ESTIMADORES 109
E(Y ) =
0
+
1
X
1
+ +
p
X
p
= X
con Y = E(Y )+ = X+ en donde se supone N
n
(0,
2
I
n
). La funci on de verosimilitud
utilizada es la densidad conjunta de los errores:
f(
1
,
2
, . . . ,
n
) =
_
1
2
2
_n
2
exp
_

1
2
2

_
f(
1
,
2
, . . . ,
n
; ,
2
) =
_
1
2
2
_n
2
exp
_

1
2
2
(Y X)
t
(Y X)
_
El estimador de m axima verosimilitud de verica las Ecuaciones Normales:
ln f

= 0
(Y X)
t
(Y X)

= 0 (X
t
X)

= X
T
Y
Calculemos el estimador de m axima verosimilitud de
2
:
ln f

2
= 0
2
=
(Y X

)
t
(Y X

)
n
y si = Y X

, entonces

2
=
1
n
n

i=1

2
i
Es decir que la funcion de verosimilitud es m axima cuando se cumplen las ecuaciones nor-
males: (X
t
X)

= X
t
Y y adem as
2
=
1
n
n

i=1

2
i
llamado la varianza residual dado que es la
varianza emprica de los

i
; en efecto ya que Y = X

+ , Im(X) y
X

(Im(X))

1
n

n

i=1

2
i
= 0
El estimador de los mnimos cuadrados es igual entonces al estimador de m axima verosimil-
itud cuando se tiene el supuesto de normalidad N
n
(0,
2
I
n
).
7.4. PROPIEDADES DE LOS ESTIMADORES
Las propiedades del estimador

estan ligadas a los supuestos hechos sobre los errores
i
.
Supondremos aqu que X es de rango p + 1 o sea

= (X
t
X)
1
X
t
y.
El estimador es insesgado: E() = 0 =E(

) =
El estimador es consistente.
110 CAP

ITULO 7. REGRESI

ON LINEAL
El estimador tiene mnima varianza: Teorema de GAUSS MARKOV:
Teorema 7.4.1 Si E() = 0 y E(
t
) =
2
I
n
, entonces toda combinaci on lineal a
t

de

tiene mnima varianza entre los estimadores insesgados lineales en y de a


t
. Adem as
si N
n
(0,
2
I
n
), entonces

tiene mnima varianza entre todos los estimadores
insesgados de .
Demostracion Hay que comparar las varianzas de a
t

y a
t

en que

es un estimador
insesgado de la forma Cy.

=

+ Dy, en que D = C (X
t
X)
1
X
t
.
Como los dos estimadores son insesgados, E(Dy) = 0 y luego DX = 0.
V ar(

) = V ar(

) + V ar(Dy) + 2Cov(

, Dy)
Cov(

, Dy) =
2
(X
t
X)
1
X
t
D
t
= 0
V ar(

) = V ar(

) +
2
DD
t
Luego, V ar(a
t

) = a
t
V ar(

)a +
2
a
t
DD
t
a
Como
2
a
t
DD
t
a > 0, V ar(

) > V ar(

).
Si adem as los errores siguen una distribuci on normal, el estimador

es de mnima va-
rianza entre todos los estimadores insesgados de . En efecto la cantidad de informaci on
de la muestra multivariada para el par ametro es igual a
I
n
() =
1

2
X
t
X
y el estimador

tiene una matriz de varianza igual a
2
(X
t
X)
1
. Luego se obtiene la
igualdad en la desigualdad de Cramer-Rao.
La estimaci on de
2
obtenida por m axima verosimilitud es sesgada:

i
= y
i

1
x
1
i
...

p
x
p
i
. Entonces, si Q = I P = Qy = Q


2
i
=

t
=
t
Q
t
Q =
t
Q = Traza(Q
t
) Luego E(
t
) = Traza(QE(
t
)) =
2
Traza(Q)
Traza(Q) = Traza(I X(X
t
X)
1
X
t
) = n Traza(I
p+1
) = n p 1
Es decir que E(
t
) = (n p 1)
2
Se obtiene entonces un estimador insesgado de
2
tomando:

2
=

t

n p 1
=
1
n p 1
(y X

)
t
(y X

)
7.5. INTERVALO DE CONFIANZA PARA LOS COEFICIENTES 111
7.5. INTERVALO DE CONFIANZA PARA LOS CO-
EFICIENTES
Para cada par ametro
j
del modelo lineal, se puede construir un intervalos de conanza
utilizado:

j

j
t
nr
en donde
2
j
es la estimacion de V ar(

j
) =
2
(X
t
X)
1
jj
; es decir
2
j
(X
t
X)
1
jj
. El intervalo de
conanza de nivel de conanza igual a 1 es:
_

j
t
/2
nr

j
,

j
+ t
/2
nr

j
_
7.6. CALIDAD DEL MODELO
Para ver si el modelo es v alido, hay que realizar varios estudios: la vericaci on de los supuestos
sobre los errores, la forma y signicaci on de las dependencias y el aporte de cada variable
explicativa. Lo que se har a estudiando, mediante gr acos, ndices y test, no solamente la
calidad del modelo global y el aporte individual de cada variable explicativa, sino que el
aporte de un grupo de m variables explicativas tambien.
7.6.1. Calidad global del modelo
Los residuos
i
dan la calidad del ajuste para cada observaci on de la muestra. Pero es una
medida individual que depende de la unidad de medici on. Un ndice que evita este problema
esta dado por:
n

i=1
y
2
i
n

i=1
y
2
i
que representa el cuadrado del coseno del angulo del vector Y con el vector

Y en IR
n
(Figu-
ra ??).
Se pueden comparar las siguientes varianzas:
Varianza residual:
1
n
n

i=1

2
i
.
Varianza explicada por el modelo:
1
n
n

i=1
( y
i
y)
2
.
112 CAP

ITULO 7. REGRESI

ON LINEAL
W
0
Y
P (Y )
En R
n
W
Figura 7.1: Proyecci on del vector Y en W
Varianza total:
1
n
n

i=1
(y
i
y)
2
.
Un ndice estadsticamente m as interesante es el coeciente de correlaci on m ultiple R
o su cuadrado, el coeciente de determinaci on:
R
2
=
n

i=1
( y
i
y)
2
n

i=1
(y
i
y)
2
que compara la varianza explicada por el modelo con la varianza total. El coeciente de
correlaci on m ultiple R es el coeciente de correlacion lineal entre Y e

Y . El valor de R
esta comprendido entre 0 y 1.
Cuando R = 0, el modelo obtenido es: y
i
= y (i) ( y es la media muestral de los valores y
i
),
y en consecuencia las variables no explican nada en el modelo. En cambio cuando R es igual
a 1, el vector Y pertenece al subespacio vectorial W, es decir que existe un modelo lineal
que permite escribir las observaciones y
i
exactamente como combinaci on de las variables
explicativas. Cuando R es cercano a 1, el modelo es bueno siendo que los valores estimados
y
i
ajustan bien los valores observados y
i
.
Para el caso general se tiene:
Corr(Y,

Y ) =

Y y1
n

Y y1
n

= m ax
Z=X
Corr(Y, Z)
en donde 1
n
es el valor de la bisectriz de IR
n
de componentes todas iguales a 1.
Si se plantea la hip otesis global H
0
:
1
=
2
= =
p
= 0 H
0
: E(y
i
) =
0
(i), esta
hip otesis signica que los valores de las p variables explicativas no inuyen en los valores de
7.6. CALIDAD DEL MODELO 113
Y . Como N
n
(0,
2
(I
n
P)) e

Y N
n
(X,
2
P), si r es el rango de la matriz X, se
tiene:
n

i=1

2
i

2
=
(n r)
2

2

nr
.
Como

Y |
H
0
N
n
(
0
1
n
,
2
P)

0
= y, se tiene:
n

i=1
_
y
i

_
2

2
r1
y
n

i=1
_
y
i
y

_
2

2
r1
Ademas
n

i=1
y
2
i

2
y
n

i=1
_
y
i
y

_
2
son independientes. Se tiene entonces que bajo la hipotesis
nula H
0
:
F =
n

i=1
( y
i
y)
2
r 1
n

i=1

2
i
n r
F
r1,nr
en donde F
r1,nr
sigue una distribuci on de Fisher a r 1 y n r grados de libertad. Se
puede expresar F en funcion del coeciente de correlacion m ultiple R:
F
(n r)R
2
(r 1)(1 R
2
)
.
La regi on crtica para la hip otesis nula H
0
: E(Y |X) =
0
1
n
contra la hip otesis alternativa
H
1
: E(Y |X) = X con un nivel de signicaci on esta denida por
IP(F
r1,nr
> c

) = .
Se rechaza H
0
, por lo tanto se declara el modelo globalmente signicativo cuando se encuentra
un valor F en la muestra mayor que c

.
En la practica, se dene la probabilidad crtica o p-valor que es el valor p
c
tal que
IP(F
r1,nr
> F) = p
c
. Si el valor de la probabilidad crtica p
c
es alta, no se rechaza H
0
, es
decir que se declara el modelo como poco signicativo.
7.6.2. Medici on del efecto de cada variable en el modelo
Cuando las variables explicativas son independientes, el efecto asociado a una variable X
j
se
mide con X
j

j
. Se observar a que el modelo lineal es invariante ante el cambio de las escalas
de medicion.
114 CAP

ITULO 7. REGRESI

ON LINEAL
Consideremos la hip otesis nula H
0
:
j
= 0. Como

j
N(
j
,
2
j
) en donde
2
j
= V ar(

j
)
(
2
j
=
2
(X
t
X)
1
j,j
en el caso del modelo con rango completo),

j
N(0, 1). Por otra
parte, como
(n r)

2

2
nr
, se deduce que

j

j
t
nr
.
Bajo la hip otesis nula H
0
:
j
= 0,

j

j
t
nr
.
Si la probabilidad crtica o p valor IP
_
|t
nr
| >

j

j
_
= p
c
es grande, no se rechaza H
0
y si
es peque na se rechaza H
0
, lo que en este caso muestra un efecto signicativo de la variables
X
j
sobre Y .
Estos tests individuales sobre los efectos tienen validez cuando las variables explicativas son
relativamente independientes. Cuando esto ocurre, es decir, cuando una variable X
j
puede
tener un efecto sobre Y distinto combinado con otras variables, hay entonces que eliminar
los efectos de las otras variables. Para eso se puede usar el coeciente de correlaci on
parcial.
7.6.3. Coeciente de correlaci on parcial
El efecto de una variable X sobre la variable Y puede estar afectado por una tercera variable
Z cuando Z tiene efecto sobre X tambien. El estudio se basa entonces en las dos relaciones
del tipo lineal:
X = Z +
Y = Z + .
Una vez eliminada la inuencia de la variable Z sobre las variables X e Y se mide solamente
a partir de los restos:
X Z =
Y Z = .
Denici on 7.6.1 El coeciente de correlaci on parcial entre X e Y bajo Z constante es
el coeciente de correlacion entre los errores y :
(X, Y |Z) = Corr(, )
Se observa que si X y Z son muy correlacionados entonces la correlaci on parcial entre X e Y
es muy peque na. En efecto X aporta casi ninguna informaci on nueva sobre Y (o vice-versa)
cuando Z es conocida.
7.6. CALIDAD DEL MODELO 115
Se puede generalizar a m as de 2 variables Z
j
, j = 1, 2, . . . , q. Si
X =
q

j=1

j
Z
j
+ Y =
q

j=1
Z
j
+
entonces se dene el coeciente de correlacion parcial entre X e Y , dadas las variables Z
j
,
por:
(X, Y |Z
1
, Z
2
, . . . , Z
q
) = Corr(, ).
Si las variables Z
j
no tienen efecto sobre X e Y , es decir, las correlaciones Corr(X, Z
j
) y
Corr(Y, Z
j
) son todas nulas, entonces (X, Y |Z
1
, Z
2
, . . . , Z
q
) = Corr(X, Y ).
Se generaliza tambien la matriz de correlaci on parcial con m as de dos variables. Denimos
para eso la matriz de varianza-covarianza del vector X dado el vector Z jo:
V ar(X|Z) =
XX

XZ

1
ZZ

ZX
.
Se tiene una intertretaci on geometrica del coeciente parcial (X, Y |Z) mediante los tri angu-
los esfericos: El angulo (A) del tri angulo esferico(ABC) esta denido por el angulo entre las
dos tangentes en A a los lados del tri angulo esferico (Gr aco ??). El angulo (A) es entonces
igual a la proyecci on del angulo entre OX y OY sobre el plano ortogonal a OZ. Los angulos
siendo relacionados a los arcos, se tiene:
cos(A) =
cos(a) cos(b) cos(c)
sin(b) sin(c)
.
Luego:
(X, Y |Z) =
Corr(X, Y ) Corr(X, Z)Corr(Y, Z)
_
1 Corr
2
(X, Z)
_
1 Corr
2
(Y, Z)
Figura 7.2: Representaci on esferica del coeciente de correlacion parcial
116 CAP

ITULO 7. REGRESI

ON LINEAL
7.6.4. Efecto de un grupo de variables
Vimos que el efecto global de todas las variables explicativas y los efectos individuales.
Veremos aqu el efecto de un grupo de k variables, sean X
j
1
, X
j
2
, . . . , X
j
k
(k p), entre las
p variables. El efecto de estas variables se mide considerando la hip otesis nula H
0
:
j
1
=

j
2
= =
j
k
= 0 contra H
1
: E(Y ) =
0
+
1
X
1
+ +
p
X
p
.
Sean X
j
k+1
, X
j
k+2
, . . . , X
j
p
el restante de las P variables. Bajo H
0
, el modelo se escribe:
Y =
0
+
j
k+1
X
j
k+1
+ +
j
p
X
j
p
+
0
. Se tiene la varianza residual bajo H
1
menor que la
varianza residual bajo H
0
:

i

2
i

i

2
0,i
Se puede estudiar el cociente de las dos varianzas residuales

i

2
0,i

i

2
i
o su complemento

i
y
2
0,i

i

2
i
en donde y
0,i
= y
i

2
0,i
son las componentes del estimador E(Y |X) bajo H
0
.
Bajo la hip otesis H
0
Q =

i
( y
i
y
0,i
)
2
k

i

2
i
n r
F
k,nr
.
Lo que conduce a un test de regi on crtica de la forma Q c

.
Considerando otra forma de escribir el problema. Sea la hip otesis nula H
0
: E(Y ) = X
0

W
0
, con X
0
de rango s, contra H
1
= X W.
La hip otesis H
0
equivale a (X X
0
) = 0 lo que corresponde a k = p s + 1 ecuaciones
independientes D
..
k(p+1)
= 0, en que D es de rango k. Para que el test tenga sentido, D
tiene que ser estimable, es decir que el estimador D no debe depender de una soluci on
particular

de las ecuaciones normales.
Sean

Y e Y

las proyecciones Y sobre W y W


0
respectivamente y E(Y ) =
0
bajo H
0
y
E(Y ) = bajo H
1
.
Y
0

2
= Y Y

+ Y

2
= Y Y

2
+Y

2
Y
2
= Y

Y
2
+

Y
2
Sean S
2
=
Y Y

2
Y

Y
2
y R
2
=

Y Y

2
Y

Y
2
. Bajo H
0
, se tiene
n p 1
k
R
2
F
k,nr
. La
regi on crtica es de la forma
n r
k
R
2
> C.
Se puede plantear el test de razon de verosimilitudes tambien: =
max
H
0
L
max L
. La regi on crtica
se escribe S > C

Este test coincide con el test F.


7.7. HIP

OTESIS LINEAL GENERAL 117


Se observar a que
Y Y

2
n s
y

Y Y

2
k
son ambos estimadores insesgados de
2
bajo H
0
.
Cuando la varianza
2
es conocida, la raz on de verosimilitudes es igual a:
=
max
H
0
L
max L
= exp
_

1
2
2

Y y

2
_
.
La regi on crtica del test se escribe entonces

Y Y

2
>
2

2
k
. Se puede construir un
test a partir de D

N(D,
2
), en que depende solamente de D y X. Bajo H
0
,

t
D
t

1
D

2

2
k
. Pero este test no equivale en general al test de raz on de verosimilitudes
basado en

Y Y

2
.
7.7. HIP

OTESIS LINEAL GENERAL


Sea la hip otesis nula H
0
: A = c contra la hip otesis alternativa H
1
: A = c, en donde
A M
k,p+1
es conocida y de rango k. A tiene que ser estimable, es decir no debe depender
de una soluci on de las ecuaciones normales. Se supondr a aqu un modelo de rango completo.
Sea

= (X
t
X)
1
X
t
Y el estimador de maxima verosimilitud sin restricci on y

0
el estimador
bajo H
0
: A = c. Se obtiene

0
usando los multiplicadores de Lagrange:
Q = (Y X)
t
(Y X) + 2(A c)
Q

= 0 X
t
X

0
= X
t
Y + A
t

0
= (X
t
X)
1
(X
t
Y + A
t
) =

+ (X
t
X)
1
A
t
.
Utilizando la restricci on A

0
= c, obtenemos que = [A(X
t
X)
1
A
t
]
1
(c A

0
=

+ (X
t
X)
1
A
t
[A(X
t
X)
1
A
t
]
1
(c A

)
Sean P
0
y P los proyectores asociados respectivamente a X

0
y X

, es decir tales que


P
0
Y = X

0
y Py = X

. Entonces
P
0
Y = PY + X(X
t
X)
1
A
t
[A(X
t
X)
1
A
t
]
1
(c A

).
Sea la varianza residual del modelo sin restricci on: V = (Y X

)
t
(Y X

) y la varianza
residual bajo H
0
: T = (Y X

0
)
t
(Y X

0
). Como T V ,consideramos U = T V que
compararemos a V .
Proposici on 7.7.1 La diferencia de las varianzas residuales con y sin restircci on es:
U = (A

c)
t
[A(X
t
X)
1
A
t
]
1
(A

c)
y bajo la hipotesis nula
U

2

2
k
.
118 CAP

ITULO 7. REGRESI

ON LINEAL
Demostracion
U(Y X

0
)
t
(Y X

0
) (Y X

)
t
(Y X

) = Y
t
(P P
0
)Y.
Como P
0
Y = PY +X(X
t
X)
1
A
t
[A(X
t
X)
1
A
t
]
1
(c A

) y U = Y
t
(P P
0
)
t
(P P
0
)Y
U = (A

c)
t
[A(X
t
X)
1
A
t
]
1
(A

c).
Por otro lado como A es de rango igual a k, A

N
k
(A,
2
A(X
t
X)
1
A
t
), luego
U

2

2
k
.

Como

es independiente de V =

i

2
i
, el estadstico del test es:
U/k
V/(n p)
F
k,np
7.8. AN

ALISIS DE LOS RESIDUOS


Se supone que el efecto de numerosas causas no identicadas est a contenido en los errores,
lo que se traduce como una perturbaci on aleatoria. De aqu los supuestos sobre los errores,
que condicionan las propiedades del estimador. Es importante entonces comprobar si los
supuestos se cumplen.
La mejor forma de chequear si los errores son aleatorios de medias nulas, independientes y
de la misma varianza, consiste en estudiar los residuos
i = 1, 2, . . . , n :
i
= y
i

j
x
i,j
considerndolos como muestra i.i.d. de una distribuci on normal.
Se puede usar el gr aco (Y
i
,
i
), que debera mostrar ninguna tendencia de los puntos, o
bien construir test de hip otesis sobre los errores. En el graco de la izquierda (gr aco 7.3)
se puede ver los residuos aleatorios independientes de Y, lo que no es el caso de los residuos
del gr aco de la derecha.
Si el supuesto que los errores son N(0,
2
) no se cumple, tenemos que estudiar el efecto
que esto tiene sobre la estimaci on de los par ametros y sobre los tests de hip otesis, adem as
tenemos que detectar si este supuesto es cierto o no y corregir eventualmente la estimaci on
de los par ametros y tests.
Vimos donde interviene el supuesto de normalidad en la estimaci on de los par ametros del
modelo y en los tests de hip otesis para vericar la signicaci on de las variables en el modelo.
Este tema se relaciona con el concepto de la robustez (ver MILLER[9]).
La teora de estimaci on y de test de hipotesis se basa en supuestos sobre la distribuci on de
poblaci on. Por lo tanto si estos supuestos son inexactos, la estimaci on o la conclusi on del test
sera distorsionada. Se buscan entonces metodos que sean lo menos sensibles a la inexactitud
de los supuestos. Se habla entonces de robustez del metodo.
Se divide el estudio en tres partes: la normalidad, la independencia y la igualdad de las
varianzas de los errores.
7.9. PREDICCI

ON 119
0 10 20 30 40 50 60 70 80 90 100
3
2
1
0
1
2
3
Independencia de los residuos e Y
y
r
e
s
id
u
o
s
0 20 40 60 80 100 120
4
3
2
1
0
1
2
3
4
Dependencia de los residuos e Y
Y
R
e
s
id
u
o
s
Figura 7.3: Gr acos de residuos
7.8.1. Estudio de la normalidad de los errores
Si no se cumple la normalidad de los errores, los efectos sobre la estimaci on o tests relativos
a los par ametros son pequeos, pero son m as importantes sobre los tests relativos a coeciente
de correlaci on. El problema es m as agudo en presencia de observaciones atpicas.
Tenemos entonces que vericar la hiptesis nula H
o
:
i
N(0,
2
) o sea si u
i
=

i

, H
o
: u
i

N(0, 1). Esto sugiere de comparar la funci on de distribucion emprica F
n
de los residuos
normalizados con la funci on de distribucion de la N(0, 1). Sea F la funcion de distribucion
de la N(0, 1), que es invertible.
Entonces si los u
i
provienen de N(0, 1), F
1
(F
n
(u
i
)) u
i
. Consideramos entonces los es-
tadsticos de orden de los u
i
, que son los residuos normalizados ordenados de menor a mayor:
sea u
(1)
u
(2)
... u
(n)
. La funci on de distribucion emprica es entonces:
F
n
(u) =
card{u
(i)
u}
n
Se dene los cuantiles empricos q
i
= F
1
(F
n
(u
(i)
. Si F
n
se parece a F, los puntos (u
i
, q
i
)
deberan ser colineales (sobre la primera bisectriz). Este gr aco se llama probit o recta de
Henri ( gr aco 7.4).
Si los puntos en ell gr aco probit aparecen como no lineal, se rechaza la normalidad de
los errores y se puede corregir utilizando la regresi on no parametrica basada o bien otras
alternativas seg un la causa de la no normalidad (no simetra, observaciones atpicas, etc..
7.9. PREDICCI

ON
Si se tiene una nueva observaci on para la cual se conocen los valores de las variables explica-
tivas, sean x
0,1
, x
0,2
, . . . , x
0,p
, pero se desconoce el valor Y
0
de la variables respuesta, se puede
120 CAP

ITULO 7. REGRESI

ON LINEAL
4 3 2 1 0 1 2 3
4
3
2
1
0
1
2
3
Cuantiles normal
C
u
a
n
t
ile
s

o
b
s
e
r
v
a
d
o
s
Figura 7.4: Recta de Henri
entonces usar el modelo para inferir un valor para Y
0
a traves de su modelo esperado:

0
= E(y
0
) = x
t
0

en que x
t
0
= (x
0,1
x
0,2
. . . x
0,p
).
Si

es el estimador de obtenido sobre las antiguas observaciones, se estima
0
dados los
valores tomados por las variables explicativas por:

0
= E(y
0
) = x
t
0

.
Se puede calcular un intervalo de conanza para
0
: la distribuci on de y
0
es N(
0
,
2
x
t
0
(X
t
X)
1
x
0
),
luego
y
0

0

_
x
t
0
(X
t
X)
1
x
0
t
np1
. Se usa este estadstico para construir un intervalo de con-
anza de nivel 1 para
0
:
IP
_
y
0
t
/2
np1

_
x
t
0
(X
t
X)
1
x
0

0
y
0
+ t
/2
np1

_
x
t
0
(X
t
x)
1
x
0
_
= 1
Un problema distinto es de estimar un intervalo para y
0
. Hablamos de un intervalo para la
prediccion. En este caso hay que tomar en cuenta de la varianza aleatoria y
0
:
y
0
= y
0
+
0
.
La varianza de
0
es igual a:
2
+
2
x
t
0
(X
t
X)
1
x
0
, dado que y
0
. Un intervalo de predicci on
para y
0
se obtiene entonces a partir de
y
0
y
0

_
1 + (x
t
0
(X
t
X)
1
x
0
)
t
np1
El intervalo es entonces denido por:
IP
_
y
0
t
/2
np1

_
1 + x
t
0
(X
t
X)
1
x
0
y
o
y
0
+ t
/2
np1

_
1 + x
t
0
(X
t
X)
1
x
0
_
= 1 .
7.10. EJERCICIOS 121
7.10. EJERCICIOS
1. Cuatro medicos estudian los factores que explican la espera de los pacientes en la consulta.
Toman una muestra de 200 pacientes y consideran el tiempo de espera de cada uno el da de
la consulta, la suma de los atrasos de los medicos a la consulta este mismo da, el atraso del
paciente a la consulta este da (todos estos tiempos en minutos) y el n umeros de medicos que
estan al mismo tiempo es la consulta este da. Se encuentra un tiempo promedio de espera
de 32 minutos con una desviaci on tpica de 15 minutos. Se estudia el tiempo de espera en
funcion de las otras variables mediante un modelo lineal cuyos resultados est an dados a
continuaci on:
Variable Coeciente Desv. tpica t-Student IP(|X| > t)
Constante 22,00 4,42 4,98 0,00
Atraso medico 0,09 0,01 9,00 0,00
Atraso paciente -0,02 0,05 0,40 0,66
N umero de medicos -1,61 0,82 1,96 0,05
Coef. determinacion=0,72 F de Fisher=168 IP(X > F) = 0, 000
a) Interprete los resultados del modelo lineal. Comente su validez global y la inuencia de
cada variable sobre el tiempo de espera. Especique los grados de libertad de las t de Student
y la F de Fisher.
b) Muestre que se puede calcular la F de Fisher a partir del coeciente de determinaci on. Si
se introduce una variable explicativa suplementaria en el modelo, el coeciente de determi-
nacion sera m as elevado?
c) De un intervalo de conanza a 95 % para el coeciente del atraso medico.
d) Predecir el tiempo de espera, con un intervalo de conanza a 95 %, para un nuevo paciente
que llega a la hora un da que el consultorio funciona con 4 medicos que tienen respectiva-
mente 10, 30, 0, 60 minutos de atraso.
2. Consideramos el modelo lineal Y = X + con N
n
(0,
2
I
n
), IR
p+1
, XM
n,p+1
(IR).
a) Escribamos X como: X = (X
1
X
2
), con X
1
y X
2
submatrices de X tales que X
t
1
X
2
= 0
(la matriz nula). El modelo inicial Y = X + se escribe Y = X
1

1
+ X
2

2
+ con
=
_

1

2
_
. Si
1
es el estimador de maxima verosimilitud de
1
en el modelo Y = X
1

1
+
y
2
es el estimador de maxima verosimilitud de es igual a
_

1

2
_
.
(Indicaci on: se usar a el siguiente resultado: si A M
n,n
(IR) es una matriz diagonal por
bloque, i.e. A
1
=
_
A
1
1
0
0 A
1
2
_
, con las submatrices A
1
y A
2
invertibles , entonces A es
invertible, y A
1
=
_
A
1
0
0 A
2
_
).
b) Si X
t
1
X
2
= 0 y si se toma

=
_

1

2
_
como estimador de , que propiedad pierde

bajo
el supuesto usual E() = 0.
3. Consideremos tres variables Y , X, Z observadas sobre una muestra de tama no n = 40,
{(y
i
, x
i
, z
i
) tq i = 1, . . . , 40}. Se busca explicar Y linealmente a partir de X y Z.
122 CAP

ITULO 7. REGRESI

ON LINEAL
4 6 8 10 12 14 16 18 20
2
1
0
1
2
y
e
a) Se representan los resultados de modelo lineal: y
i
= + x
i
+
i
, i = 1, . . . , 40:
Variable Medias Desv. Estimacion Dev. tp. t-Student IP(|X| > t)
tpica estimacion
Y 11,68 3,46
Constante 7,06 1,03 6,84 0,00
X 5,854 2,74 0,79 0,16 4,94 0,00
Coef. determinacion=0,39 F de Fisher=24,44 IP(X > F) = 0, 000
Interprete estos resultados y efect ue el test de hipotesis H
0
: = 0.
b) De una estimaci on insesgada para
2
la varianza de los errores de este modelo.
c) Comente el gr aco de los residuos en funci on de los y
i
.
d) Se tiene una nueva observaci on que toma sobre la variable X el valor x
0
= 6, 50. De una
estimacion y
0
del valor y
0
que toma sobre la variable Y .
e) Se presentan los resultados del modelo lineal: y
i
= + z
i
+
i
:
Variable Medias Desv. Estimacion Dev. tp. t-Student IP(|X| > t)
tpica estimacion.
Y 11,68 3,46
Y 11,68 3,46
Constante 11,68 0,36 32,54 0,00
Z 0,00 2,65 1,00 0,14 7,27 0,00
Coef. determinacion=0,58 F de Fisher=52,78 IP(X > F) = 0, 000
Se tiene

i
x
i
z
i
= 0 y

i
z
i
= 0.
Muestre que si X
1
= (1
n
|X) es una matriz formada del vector de unos y del vector de los x
i
y X
2
Z el vector formado de los z
i
, se tiene X
t
1
X
2
= 0. Usando los resultados del ejercicio 2
deduzca las estimaciones de los par ametros del modelo y
i
=
0
+
1
X +
2
Z + .
4. Se requiere ajustar una funci on escalon y = f(t) con f constante en los intervalos en que
j = 0, . . . , K y a
0
< a
1
< . . . < a
K
. Para ello se observan datos {(t
i
, y
i
) i = 1, . . . , n}.
Se asume que los y
i
son mutuamente independientes y que la distribucion de los y
i
es
N(f(t
i
),
2
).
7.10. EJERCICIOS 123
a) Formule el problema anterior como modelo lineal.
b) Obtenga la funci on ajustada por mnimos cuadrados.
c) Concluya un intervalo de conanza para
_
a
K
a
0
f(t)dt.
5. Sea Y IR
n
un vector aleatorio con E(Y ) = y V ar(Y ) =
2
I
n
. Se considera el modelo
lineal Y = X +, en que X M
n,p
es de rango completo. Llamaremos W al subespacio de
IR
n
conjunto imagen de X e

Y al estimador de mnimos cuadrados de = E(Y ).
a) Sea a W y
a
la recta generada por a. Se dene H
0
= {z W tq a
t
z = 0} el
suplemento ortogonal de
a
en W. Se tiene entonces la descomposici on en suma directa
ortogonal de W: W = H
a

a
. Muestre que el estimador de mnimos cuadrados Y

de
en H
a
se escribe como: Y

=

Y
_
a
t

Y
a
t
a
_
a.
b) Si b IR
n
, muestre que V ar(b
t
Y

) = V ar(b
t

Y )
2
(b
t
b)
2
a
t
a
.
c) Suponiendo que los errores son normales, de la distribuci on de

2
i

2
, en que

i
= Y
i
Y

i
.
d) Se considera el caso particular a = I
n
. De la distribbucion de

i
Y
2
i
/p

2
i
/(n p)
. Muestre
que si las variables son centradas,

Y = Y

.
6. Teorema de Gauss-Markov generalizado. Si V ar(Y ) = ,
invertible, entonces el estimador

insesgado de mnima varianza entre los estimadores
lineales insesgados de es aquel que minimiza Y X
2

1
.
a) Encuentre el estimador de m axima verosimilitud de y .
b) Demuestre el teorema.
c) Si el rango de X es igual a r, muestre que la norma del vector de residuos de un modelo
lineal
Y

Y
2

1
2
nr
en donde

Y la proyeccion
1
-ortogonal de Y sobre Im(X).
7. Sea el modelo lineal: y
i
=
0
+
1
x
i,1
+ +
p
x
i,p
+
i
, i = 1, 2, . . . , n. Matricialmente
Y = X + , con rango(X) = p + 1, E() = 0, V ar()
2
I
n
.
a) Se escribe X
t
X =
_
n a
t
a V
_
. De las expresiones de a y V . Muestre que V es denida
positiva. Muestre que a es un vector nulo cuando las variables explicativas est an centradas
_
j :
n

i=1
x
i,j
= 0
_
. Relacione los valores propios de V con los de V
1
.
b) Muestre que

j
V ar(

) sujeto a j :
n

i=1
x
i,j
= 0 y j :
n

i=1
x
2
i,j
= c (c es una constante
positiva) alcanza su mnimo cuando X
t
X es diagonal. c) En que dieren de las propiedades
optimales obtenidas en el teorema de Gauss-Markov?
124 CAP

ITULO 7. REGRESI

ON LINEAL
d) Se supone que X
t
X es diagonal con j :
n

i=1
x
i,j
= 0 y j :
n

i=1
x
2
i,j
= c. Deducir las
expresiones de

, V ar(

),

Y . Exprese el coeciente de correlaci on m ultiple R
2
en funcion de
los coecientes de correlacion lineal de Y con las variables explicativas X.
8. Sea el modelo lineal Y = X + , con X de rango completo pero X
t
X no diagonal.
a) De la expresion de una predicci on de la variable respuesta Y y un intervalo de conanza
asociado.
b) Se hace un cambio de base de las columnas de X, sea Z la matriz de las nuevas columnas,
de manera que Im(X) = Im(Z) y que Z
t
Z sea diagonal. Muestre que el cambio de variables
explicativas no cambia las predicciones de Y . Deduzca la expresion del intervalo de conanza
en funcion de Z.

También podría gustarte