Está en la página 1de 8

Demostraciones de Rgresin mltiple

El modelo que se plantea en regresin mltiple es:


y i = 0 + 1 x 1i + 2 x 2i + + k x ki + u i

donde x 1 , x 2 , , x k son las variables independientes o explicativas. La variable respuesta depende


de las variables explicativas y de una componente de error, u i que se distribuye como una normal
de media cero y varianza constante.
u i N0, 2

El ajuste del modelo se realiza por mnimos cuadrados o mxima verosimilitud. En el caso
de distribucin normal de errores ambos mtodos coinciden como ya se vi en Regresin
Simple.
Denominando y i = 0 + 1 x 1i + 2 x 2i + + k x ki al valor que el modelo estimado predice
para la observacin y i , el error cometido en esa previsin es:
e i = y i y i = y i 0 + 1 x 1i + 2 x 2i + + k x ki
donde 0 , 1 , , k son los valores estimados del modelo. El criterio de mnimos cuadados
asigna a 0 , 1 , , k el valor que minimiza la suma de errores al cuadrado de todas las
observaciones. Vamos a trabajar en forma matricial.
Notaciones

y1
Y=

y2

Y=

yn
1

y1

y2

yn
1

e1
e=

e2

en

X es la denominada matriz de diseo, de dimensin n k + 1.

X=

x 11 x 21 x k1

x 12 x 22 x k2

= 1, X 1 , X 2 , X k

x 1n x 2n x kn
x 11

X1 =

Siendo

x 12

x 1n

El modelo puede escribirse en forma matricial como:


Y = X + U

Y= X+e

Y el modelo estimado

Ajuste por mnimos cuadrados


e i = y i y i = y i 0 + 1 x 1i + 2 x 2i + + k x ki
donde 0 , 1 , , k son los valores estimados del modelo. El criterio de mnimos cuadados
asigna a 0 , 1 , , k el valor que minimiza la suma de errores al cuadrado de todas las
observaciones. La suma de errores es:
S=

i=1

i=1

e 2i = y i 0 + 1 x 1i + 2 x 2i + + k x ki 2

Para calcular el mnimo de esta ecuacin, hay que derivar respecto de 0 , 1 , , k . La solucin
que se obtiene debe expresarse en trminos matriciales y es:
S = X Y X Y + 2X X
#

#
X Y = X X

= X X 1 X Y

donde representa un vector columna de dimensin k + 1 que contiene los parmetros. Es

importante notar que X X es una matriz simtrica y para que sea invertible su rango (que
coincide con el rango de X debe ser mximo, es decir k+1.
1

La varianza residual tiene la expresin.


n

i=1 e 2i
2
sR =
nk1
No vamos a demostrar que este estimador es centrado para 2 .

Relaciones entre las variables.

= X X 1 X Y

Y = X= XX X 1 X Y = HY

#
#

Donde la matriz H es idempotente, simtrica y del mismo rango que X, k + 1.

H = XX X 1 X

H.H = XX X X XX X X = H

e = Y Y= Y HY = I HY

La relacin Y= HY indica que la matriz H (que es idempotente) transforma el vector de


observaciones Y en el vector de valores ajustados Y. Una matriz idempotente realiza una
proyeccin, por lo que la regresin va a ser una proyeccin. Para entender mejor cmo es esa
proyeccin vamos estudiar las relaciones entre e, Y e Y.
En primer lugar, vamos a demostrar que el vector de residuos e es perpenticular al vector de
valores ajustados Y y a la matriz X.
Para demostrar que e Y debemos demostrar que e Y = 0
e Y = I HY HY = Y I HHY = Y HY Y HHY = 0
ya que HH = H por la propiedad de idempotencia. Adems (I-H) es simtrica y se puede
demostrar que es tambin idempotente.

Para demostrar que e X debemos demostrar que e X = 0


e X = I HY X = Y I HX = Y X XX X 1 X X = 0
#
La interpretacin geomtrica es clara. Un matriz idempotente es una matriz de proyeccin.
El modelo de regresin Y = HY proyecta el vector de observaciones sobre el subespacio
vectorial de las columnas de la matriz X. Es decir sobre el subespacio de las variables
independientes. El vector de residuos es perpenticular a las X y al vector Y . El grfico muestra
la proyeccin:

Distribucin de

= X X 1 X Y = AY. El vector de observaciones Y se distribuye como una normal


multivariante de media X y de matriz de varianzas y covarianzas 2 I n .
Y N n X, 2 I n

Como es una combinacin lineal de las variables Y, podemos concluir que se distribuye
como una variable normal. Tendremos que calcular su esperanza y su varianza:

#
E = EX X 1 X Y = X X 1 X EY = X X 1 X X =

Por tanto es un estimador centrado de .


var = varAY = A.varYA = X X 1 X VarYXX X 1 =
#

X X X XX X
2

= X X X XX X
2

= X X
2

N k+1 , 2 X X 1
Una correspondiente a una de las variables tendr la distribucin:

i N i , 2 q ii

donde q ii es elemento deiagonal correspondiente de la matriz XX 1


q 00
q 11
XX

q 22

q kk

La estimacin de 2 se hace mediante la varianza residual que es


n

i=1 e 2i
2
sR =
nk1

de manera que vamos a estimar la varianza de i N i , 2 q ii mediante s 2R q ii

Al producto s 2R q ii se le denomian Error Estndar en la estimacin del coeficiente i y lo


proporciona el ordenador.
2

SE i = s 2R q ii

Se puede demostrar que

n k 1 s 2R
2nk1
2

Contraste t
Hemos demostrado que
i N i , 2 q ii

por tanto
i i
N0, 1
q ii
La definicin de una t de k grados de libertad es:

N0, 1
1 2

k k

tk =

La normal la tenemos en la distribucin de i y la 2nk1 la obtenemos de la distribucin de


s 2R .
i i
q ii

t nk1 =

1
nk1

nk1 2
sR
2

i
= i
s R q ii

Como ya se ha visto al trmino

s R q ii = SEi

se le denomina error estndar de i. Es el valor del error estndar que proporciona el ordenador.
El contraste t va a testear la posibilidad de que i = 0. Es decir que el valor de verdad de
la poblacin sea realmente cero. Si esto fuera cierto la variable X i no influira sobre la variable
Y.
H 0 : i = 0
H 1 : i 0
Habamos demostrado que

i i
= t nk1
SE i
Si se cumple la hiptesis nula de que 1 = 0 resultar que

1
1 0
=
= t nk1
SE 1
SE 1
Por tanto si se cumple H 0 el valor de

SE i

deber ser de una t nk1 . Esta distribucin si n>30

deja entre 2; +2 el 95% de probabilidad. Por tanto si obtenenemos un nmero en ese rango es
posible que efectivamente i = 0. Si por el contrario el nmero es mayor que 2 en valor absoluto
pensaremos que i 0 y, consecuentemente, diremos que la varible influye.
Este es el fundamento terico del contraste t que proporciona el ordenador.

Intervalo de confianza

Como sabemos que

i i

SE i

t nk1 podemos establecer


i i
t /2 = 1
SE i

P i t /2 SE i i i + t /2 SE i = 1
Pt /2

#
#

Por tanto

i i t /2 SE i

con confianza 1-. Si trabajamos con = 0.05 y n>30, el intervalo se convierte en

i i 2SE i

Descomposicin de variabilidad

yi = y i + ei

restando y y elevando al cuadrado:

y i y 2 = y i y 2 + e i 2 + 2 y i ye i

sumando para todas las observaciones


n

y i y 2 =
i=1

i=1

i=1

i=1

y i y 2 + e i 2 + 2 y i ye i

El ltimo trmino es cero como se demostr en regresin simple.


Por tanto
n

i=1

i=1

y i y = y i y 2 + e i 2
2

i=1

VT = VE + VNE

#
#

VT =

y i y 2

y i y 2

ei 2

i=1
n

VE =

i=1
n

VNE =

i=1

Donde VT es la variacin total VE es laVariacin explciada y VNE es la variacin no


explicada.

Coefeiciente de Determinacin y
coeficiente de determinacin corregido por

grados de libertad.
El coeficiente de determinacin, R 2 , proporciona la cantidad de variabilidad de y que explica
la x. Se define
n

R 2 = VE =
VT

y i y 2
i=1
n

y i y 2

y i y 2
i=1

ns 2y

i=1

Sin embargo, el coeficiente de determinacin as definido tiene el problema de que al incluir


nuevas variable aumenta su valor, incluso cuando esas variables no sean significativas. Este
problema hace que R 2 no se pueda utilizar como criterio vlido para incluir o excluir variables.
Para evitar este problema se define el Coeficiente de Determinacin corregido por grados de
2
2
libertad, R . Se define R como
2

R = 1 1 R 2

n1
nk+1

Este coeficiente R no tiene los inconvenientes de R 2 ya que al introducir ms variables en el


modelo no aumenta necesariamente su valor.

Contraste de regresin F.
El contraste de regresin en regresin mltiple sirve para comprobar si el modelo explica una
parte significativa de la variabilidad de y.
Se puede demostrar que si 1 = 2 = = k = 0, el cociente
n

VE/k 1
=
VNE/n k 1

y i y 2
i=1

1
n2

e 2i

=F

i=1

se distribuye como una F k1,nk1 .Si el valor obtenido es un valor probable para una F k1,nk1
llegaremos a la conclusin de que el modelo no explica conjuntamente nada. Si por el contrario
el test indica que el valor obtenido no puede razonablemente provenir de una F, entonces el
modelo explica una parte significativa de y.

También podría gustarte