Está en la página 1de 8

Modelo de Regresión Lineal Normal Clásico

MODELO DE REGRESIÓN LINEAL MULTIPLE

1. ESPECIFICACIÓN DEL MODELO

El modelo de regresión lineal normal clásico, que se va a estudiar, considera que la relación entre
la variable dependiente (Y) y las independientes (X1 ,X2, ... , Xk) se puede formular matricialmente
a partir de la siguiente expresión lineal:

Y  X ·  u
Donde:

 Y1   1 X 11 ... X 1K   1   u1 
       
 Y2   1 X 21 ... X 2 K   2  u 
Y   , X    ,    , u   2 
... ... ... ... ... ... ...
       
Y  1 X     
 n  n1 ... X nK   K   un 

que desarrollando se formularía:

Yi   0  1 X i1  ...   K X iK  ui i=1,2,..., n

si se considera que en el modelo existe término independiente, la matriz X se puede expresar


como:

X  1 X1 X2 ... Xk 

Esta relación funcional se conoce como hipótesis de linealidad. Además se establecen, en


relación con el modelo, otro conjunto de hipótesis referidas a la variable de perturbación y a la
matriz de regresores:

Hipótesis

1. Y  X  u
2. E(u)  0 , vector de orden nx1
3. E (uu' )   U2 ·I , matriz de orden nxn
4. X matriz de regresores independientes y no estocástica
5. X   k
6. u  N (0, u2 )

En el modelo estudiado en este capítulo se supone que se verifican las 6 hipótesis anteriores, por
lo que siempre se trabajará bajo el supuesto de un modelo de regresión lineal, normal, clásico.

2. ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO

En el modelo de regresión especificado existe un conjunto de parámetros desconocidos (j y


 u2 ). Por ello, en primer lugar, se tratará de su estimación.
Existen diversos métodos para estimar los parámetros del modelo, muchos de los cuales se
basan en los residuos o errores, que se definen como la diferencia entre el valor real de variable
dependiente y el estimado por el modelo para dicha variable.

e i  Yi  Ŷi i=1,2,...,n

1
Modelo de Regresión Lineal Normal Clásico

Entre los métodos que estiman los parámetros del modelo a partir de los residuos, el más sencillo
es el método de Mínimos Cuadrados Ordinarios (MCO), que hace mínima la suma de los
cuadrados de los residuos.
n
Partiendo de Minimizar  ei2
i1
Se obtiene un sistema de ecuaciones (ecuaciones normales) X T X ·̂  X T Y

que permite obtener los estimadores mínimo cuadrático ordinarios (EMCO) de los parámetros j
a partir de la expresión:

 b0   ˆ 0 
   
 b   ˆ 
b   X ' X  X 'Y   1    1 
1

. .
   
 b   ˆ 
 k  k

 n n
  n 
 n

 X i1
i 1
...  X ik
i 1


  Yi 
 i 1 
 n n n
  n 
donde X ' X    i1 X
X 2
i1 ...  X i1 X ik  X `Y    X i1Yi 
 i 1 i 1 i 1
  i 1 
 n..... n
..... ...
n
.....   n
.... 
 X   X Y
  ik X ik X i1 ...  X ik2    ik i 
 i 1 i 1 i 1   i 1 

Cada uno de los coeficientes bj representa el efecto de la variable independiente sobre la variable
explicada; es decir el valor estimado de bj indica la variación que experimenta la variable
dependiente cuando la variable independiente Xj varía en una unidad y todas las demás
permanecen constantes.

Estos estimadores MCO son estimadores lineales, insesgados y óptimos (ELIO) en el modelo de
regresión lineal, normal, clásico.

El estimador de la varianza de la perturbación no se deduce del sistema de ecuaciones normales;


se calcula a partir de la fórmula:
SCE
Su2 
n  k 1
 
y se puede comprobar que es el estimador insesgado E Su2  u2 - de la varianza del error.

3. ANÁLISIS DEL MODELO

3.1. DESCOMPOSICIÓN DE LA SUMA DE CUADRADOS

El modelo de regresión se plantea para explicar el comportamiento de la variable dependiente


(Y). En dicho estudio será interesante analizar la variación que experimenta esta variable y,
dentro de esta variación, estudiar qué parte está siendo explicada por el modelo de regresión y
qué parte es debida a los errores o residuos.
Para ello y, a partir de los residuos, se puede obtener la expresión

Y' Y  Ŷ' Ŷ  e' e


En el supuesto que exista término independiente en el modelo de regresión, la descomposición
anterior, se expresaría como:
2
Modelo de Regresión Lineal Normal Clásico

SCT  SCR  SCE


donde:

SCT: es la Suma de Cuadrados Totales y representa una medida de la variación de la


variable dependiente
SCR es la Suma de Cuadrados Explicados por el modelo de regresión
SCE es la Suma de Cuadrados de Residuos

Cada una de estas sumas viene dada por las expresiones:


n
SCT  Y 'Y  nY 2   Y 2  nY 2
i 1
k n
SCR  b' X ' Y  nY 2  SCR   ˆ j S jY donde S jY   xij Yi  nx j Y
j 1 i 1

SCE  SCT  SCR  Y 'Y  b' X 'Y

Análisis de la varianza

Una forma complementaria de presentar algunos de los contrastes de hipótesis anteriores


consiste en realizar un análisis de la varianza de Y, tal como se recoge en el cuadro siguiente:

Fuente de Variación Suma de Cuadrados Grados de libertad Cuadrados Medios


Regresión SCR k SCR/k
Residuos SCE  e' e n-k-1 SCE/(n-k-1)

Total SCT  Y ' Y  nY 2 n-1

SCR
Estadístico experimental: Fexp  k
SCE
n  k 1

Estadístico teórico Ftco  F k , n  k  1,  

Regla de decisión: si Fexp  Ftco Se rechaza la hipótesis nula


H 0 : 1   2  ...   K  0

3.2. COEFICIENTE DE DETERMINACIÓN

Una vez estimado el modelo es conveniente obtener una medida acerca de la bondad del ajuste
realizado. Un estadístico que facilita esta medida es el coeficiente de determinación (R2), que se
define:
SCE
R2  1
SCT
SCR
y en el caso particular de modelo con término independiente: R 2 
SCT

3
Modelo de Regresión Lineal Normal Clásico

Este coeficiente permite, además, seleccionar entre modelos clásicos que tengan el mismo
número de regresores, ya que la capacidad explicativa de un modelo es mayor cuanto más
elevado sea el valor que tome este coeficiente.

Por otra parte el valor coeficiente de determinación crece con el número de regresores del
modelo. Por ello, si los modelos que se comparan tienen distinto número de regresores, no
puede establecerse comparación entre sus R2. En este caso debe emplearse el coeficiente de
determinación corregido R 2 , que depura el incremento que experimenta el coeficiente de
determinación cuando el número de regresores es mayor.

SCE n  k  1 n 1
R 2  1
SCT n  1
 1
n  k 1
1  R2  
3.3 INFERENCIA ACERCA DE LOS ESTIMADORES

El método de estimación expuesto permite obtener estimaciones puntuales de los parámetros del
modelo. La inferencia permite completar esta estimación puntual, mediante la estimación por
intervalos y los contrastes de hipótesis.

Los primeros posibilitan la obtención de un intervalo dentro del cual, con un determinado nivel de
confianza, oscilará el verdadero valor de un parámetro.
 Intervalo de confianza para el parámetro  j

Su cálculo se realiza mediante: 


IC j : b j  Sb j tnk 1 
donde S b j es la desviación típica estimada para el coeficiente bj que se obtiene de la matriz de
varianzas y covarianzas de los estimadores expresada como:
.
  b20 b b ...  b0 bK 
 0 1 
b b  b2 ...  b21bK 
 bb   0 1 1

 ... ... ... ... 
 b b b b ...  b2K 
 K0 K 1

 c00 c01 ... c0 n 


 
2  01
c c11 ... c1n 
S bb  S 2  X ' X 
1
obtenidos a partir de la expresión: S 
... ... ... ... 
 
c ... c nn 
 n0 c n1

donde ci j identifica el elemento de la fila i, columna j, de la matriz (X’X)-1

 Intervalo de confianza para la varianza del error

 2   
 S (n  k  1) S 2 (n  k  1)   SCR SCR 
IC : 
2 
;
2    2 ; 2 
2    1  
1
u
 2 2   2 2 

4
Modelo de Regresión Lineal Normal Clásico

donde  representa el nivel de significación del contraste y generalmente se utiliza un 5% de


significación
A través de los contrastes de hipótesis pueden extraerse consecuencias del modelo,
averiguando si existe, o no, evidencia acerca de una serie de conjeturas que pueden plantearse
sobre sus parámetros.

Los contrastes de hipótesis pueden clasificarse en distintas categorías según la naturaleza de la


hipótesis planteada.

 Contraste individual sobre un parámetro

Formulación de la hipótesis: H0 :  j   *j
H1 :  j   *j

b j   *j
Estadístico experimental t exp 
Sb j
Estadístico teórico t tco  t nk 1 ( / 2)

Regla de decisión: si t exp  t tco Se rechaza la hipótesis nula

 Contraste de significación individual

Formulación de la hipótesis: H0 :  j  0
H1 :  j  0

bj
Estadístico experimental T0 j 
Sbj

Estadístico teórico t tco  t nk 1 (1   / 2)

Regla de decisión: si T0 j  t tco Se rechaza la hipótesis nula

 Contrastes para conjuntos de hipótesis lineales

Formulación de la hipótesis: H0 : k t   m
H 0 : k11 0  k121  ...  k1k  K  m1
k21 0  k221  ...  k2 k  K  m2
o alternativamente
.............
kq1 0  kq 2 1  ...  kqk  K  mq

k ' ˆ  m ·k ·X X   ·k ˆ  ms


t 1 1
t t t
k
Estadístico experimental Fexp 
SCE
n  k 1
5
Modelo de Regresión Lineal Normal Clásico

donde s representa el número de ecuaciones de la hipótesis nula

Estadístico teórico Ftco  F  s, n  k  1,  

Regla de decisión: si Fexp  Ftco Se rechaza la hipótesis nula

 Contraste de significación global

Formulación de la hipótesis H 0 : 1   2  ...   K  0

SCR R2
Fexp  k  k
Estadístico experimental
SCE
n  k 1
1  R 
2

n  k 1

Estadístico teórico Ftco  F k , n  k  1,  

Regla de decisión: si Fexp  Ftco Se rechaza la hipótesis nula

 Contraste de significación para un grupo de variables independientes

Formulación de la hipótesis H 0 :  m1   m2  ...   K  0

SCE R  SCE c
Estadístico experimental Fexp  k m
SCE c
n  k 1

Estadístico teórico Ftco  F k  m, n  k  1,  

Regla de decisión: si Fexp  Ftco Se rechaza la hipótesis nula

4. PREDICCIÓN EN EL MODELO DE REGRESIÓN

Una vez estimado y validado el modelo, una de sus aplicaciones más importantes consiste en
poder realizar predicciones acerca del valor que tomaría la variable dependiente en el futuro o
para una unidad extramuestral.

Esta predicción se puede realizar tanto para un valor individual como para un valor medio, o
esperado, de la variable dependiente, siendo posible efectuar una predicción puntual o por
intervalos. Su cálculo se realiza mediante las expresiones que figuran a continuación.

 Intervalo de confianza al 100(1-α)% para el valor medio de Y dado un x  ( x1 , x2 ,...xk ) t

Yˆ  t
 x ( n  k 1,1 / 2 ) 
S at X t X 
1
a ; Yˆx  t ( nk 1,1 / 2) S 
at X t X 
1
a

6
Modelo de Regresión Lineal Normal Clásico

 Intervalo de predicción al 100(1-α)% de un valor particular de Y dado x  ( x1 , x2 ,...xk ) t

Yˆ  t
 x ( n  k 1,1 / 2 )
1
   1

S e 1  a t X t X a ; Yˆx  t ( nk 1,1 / 2) S e 1  a t X t X a 


En ambos casos con Se es el error estándar de estimación y a representa el vector columna


a  1 x1 ... xk 
t
x2
Contribución relativa de las variables independientes
La contribución de una variable xj en la estimación del valor medio de Y se mide en
apariencia por  j . Sin embargo, a pesar de trabajarse con un modelo de efectos fijos,
uno debe ser cuidadoso pues  j presenta el inconveniente de verse afectada por las
unidades de medición de xj y la no conmensurabilidad de las distintas variables
involucradas en el modelo. Por esta razón es recomendable, cuando exista tal
incompatibilidad, medir la contribución real de xj en E(Y) mediante los
 j ' s estandarizados
S xj
bˆ j  ̂ j Estos b̂ j ’s no son otros que los coeficientes estimados en el modelo, pero
SY
de trabajarse con las variables estandarizadas.
Y Y xij  x j
zYi  i zX ji  j  (1,2,..k )
Sy Ssj
Si el modelo es de efectos aleatorios ( es decir, si los Xj son variables aleatorias )
entonces la contribución de Xj sobre y se mide a través de la correlación parcial entre Xj
e Y. esta se define como sigue :
T02j
rYX j  el signo de correlación es el mismo que el de T0j
T02j  n  k  1
X 1 ....X j 1 X j 1 ...X k

Análisis de correlación

Coeficiente de Correlación Simple Poblacional: 


Cov( X , Y )

 x y
Prueba de hipótesis para probar H o :   0
r n2
Estadístico de contraste: t   t( n  2 )
1 r2
Cuando (X1,Y1) …(Xn,Yn) es una muestra de una distribución normal bivariada la variable
aleatoria
1 1 r
V  ln( )
2 1 r
Tiene aproximadamente una distribución normal con media y varianza
1 1  1
v  ln( )  v2 
2 1  n3

H o :   0

7
Modelo de Regresión Lineal Normal Clásico

V  ln(1  0 ) /(1  0 ) 
1
Estadístico de contraste: Z  2
1/ n  3
Ejemplo
La gerente de la cadena de supermercados ABC quiere saber si existe una relación entre el
tiempo que tarda una cliente en pasar por caja y el monto de la compra que hace. Elige dos
variables de predicción: el monto de la compra y el número de artículos comprados. El gerente
recoge los datos de 12 clientes:

m t o e
dlpa eo
acr p
u
a
X
X 1 2(
1
5
8 1
1
4
6 2
u
4
4
2 3
4
8
3 4 E
u8
1
2 5 t s
q
q
R m6aM
4
6
8
1
4
5
4 1
9
1
1 7
a
P
9
6
2 8
1
2
6 9
9
4
2 1 0
8
2
3 1 1
3
9
9 1 2
2
2
2 T
N o

b
O

e
m a
d
uF
ai
M g
f
a
1
R a
9
2
9
2
0
1
9
3 R
9
1 T
a
P
b
D

a
i c

n d
e
f
d f i
t
i s
c
SB
eME
i
t g
2
83
91
( C
2
7
00
4M
7
1
26
2N
a
D

También podría gustarte