Documentos de Académico
Documentos de Profesional
Documentos de Cultura
+
=
M
,
1
2
N
=
M
Entonces, el modelo de regresin lineal mltiple puede ser expresado como:
Y X = +
donde, Y es un vector N1, X es una matriz de orden N(1+k), es un vector (1+k) 1 y es un vector
N1.
Funcin de regresin muestral
La idea bsica de la regresin consiste en estimar los parmetros poblacionales 1 2 1
, , ,
k
+
K
a partir de una muestra
dada.
La FRM, que es una estimacin de la FRP, viene dada por
1 2 1 3 2 1
i i i k ki
Y X X X
+
= + + + + L
1, 2, , i N = K
Permite calcular el valor ajustado
i
Y correspondiente a cada
i
Y
observado
. El residuo se define como la diferencia
entre estos dos valores
i i i
Y Y =
.
Obtencin de estimadores MCO
Denominando S a la suma de los cuadrados de los residuos se tiene:
3
( )
2
2
1 2 1 3 2 1
1 1
N N
i i i i k ki
i i
S Y X X X
+
= =
= =
L
Para aplicar el criterio de mnimos cuadrados en el modelo de regresin lineal mltiple, calculamos la primera
derivada de S con respecto a cada
j
en la expresin anterior e igualamos a cero:
( )( )
1 2 1 3 2 1
1
1
2 1 0
N
i i i k ki
i
S
Y X X X
+
=
= =
L
( )( )
1 2 1 3 2 1 1
1
2
2 0
N
i i i k ki i
i
S
Y X X X X
+
=
= =
L
( )( )
1 2 1 3 2 1 2
1
3
2 0
N
i i i k ki i
i
S
Y X X X X
+
=
= =
L
M
( )( )
1 2 1 3 2 1
1
1
2 0
N
i i i k ki ki
i
k
S
Y X X X X
+
=
+
= =
L
1 1 2 2 3 1
1 1 1 1
2
1 1 1 2 1 2 3 1 1 1
1 1 1 1 1
2 1 2 1
1
N N N N
i i ki k i
i i i i
N N N N N
i i i i i ki k i i
i i i i i
N
i i i
i i
N X X X Y
X X X X X X X Y
X X X
+
= = = =
+
= = = = =
=
+ + + + =
+ + + + =
+
L
L
2
2 2 3 2 1 2
1 1 1 1
2
1 1 2 2 3 1
1 1 1 1 1
N N N N
i i ki k i i
i i i
N N N N N
ki ki i ki i ki k ki i
i i i i i
X X X X Y
X X X X X X X Y
+
= = = =
+
= = = = =
+ + + =
+ + + + =
L
M
L
1
1 1 1
1
2
1 1 1 1 2
1 1 1 1
1
2
1
1 1 1 1
N N N
i ki i
i i i
N N N N
i i i ki i i
i i i i
N N N N
k
ki ki i ki ki i
i i i i
N X X Y
X X X X X Y
X X X X X Y
= = =
= = = =
+
= = = =
=
L
M
M M O M M
L
En forma matricial, se tiene el sistema de ecuaciones normales:
t t
X X X Y =
( )
1
t t
X X X Y
=
Como la matriz de segundas derivadas, 2X
t
X , es una matriz definida positiva, la conclusin es que S
presenta un mnimo en
4
Ejemplo: Gastos de los computadores personales segn su antigedad y las horas diarias de trabajo
Supongamos que estamos interesados en explicar los gastos (en miles de pesos) de los computadores personales de un
departamento comercial a partir de su edad (en aos) y del nmero de horas diarias que trabajan (horas/da). Se ha tomado una
muestra de cinco computadores personales y de las cuales se han obtenido los resultados siguientes:
Gastos Y (miles de pesos ) Antigedad X
1
( aos) Horas de trabajo X
2
(horas/da)
24,6 1 11
33,0 3 13
36,6 4 13
39,8 4 14
28,6 2 12
Se quiere encontrar un modelo de regresin de la forma:
1 2 1 3 2
Y X X = + + +
A partir de las observaciones de la muestra se quiere encontrar una ecuacin de regresin lineal mltiple estimada que predice
la variable dependiente, Y, en funcin de las variables independientes observadas X
j
. Tal modelo tiene la forma siguiente:
1 2 1 3 2
Y X X = + + +
Los estimadores se obtienen resolviendo el sistema de ecuaciones:
t t
X X X Y =
( )
1
t t
X X X Y
=
Donde
24.6
33.0
36.6
39.8
28.6
Y
=
,
1 1 11
1 3 13
1 4 13
1 4 14
1 2 12
X
=
,
1
2
3
=
,
1 1 11
1 1 1 1 1 5 14 63 1 3 13
1 3 4 4 2 14 46 182 1 4 13
11 13 13 14 12 63 182 799 1 4 14
1 2 12
t
X X
= =
( )
1
181.5 14 17.5
14 1.3 1.4
17.5 1.4 1.7
t
X X
=
,
24.6
1 1 1 1 1 162.6 33.0
1 3 4 4 2 486.4 36.6
11 13 13 14 12 2075.8 39.8
28.6
t
X Y
= =
( )
1
181.5 14 17.5 162.6 5
1
2
3
2.6
2.4
=
=
=
El modelo de regresin ajustado queda:
1 2
5 2.6 2.4 Y X X = + +
1 2 1 3 2
Y X X = + +
Y X =
1
2
3
4
5
1 1 11 24.0
5 1 3 13 34.0
2.6 1 4 13 36.6
2.4 1 4 14 39.0
1 2 12 29.0
Y
Y
Y
Y
Y
= =
5
Suma Total de los Cuadrados:
( ) ( )
1
2
2
1 2 3 4 5 3
1
4
5
147.97
N
i
i
Y Y
Y Y
STC Y Y Y Y Y Y Y Y Y Y Y Y Y Y
Y Y
Y Y
=
= =
Suma Explicada de los Cuadrados:
( ) ( )
1
2
2
1 2 3 4 5 3
1
4
5
145.81
N
i
i
Y Y
Y Y
SEC Y Y Y Y Y Y Y Y Y Y Y Y Y Y
Y Y
Y Y
=
= =
Suma de los Cuadrados de los Residuos:
( ) ( )
1 1
2 2
2
1 2 2 3 3 4 4 5 5 3 3
1
4 4
5 5
2.16
N
i
i
Y Y
Y Y
SCR Y Y Y Y Y Y Y Y Y Y Y Y Y Y
Y Y
Y Y
=
= =
( )
( )
2
2 1
2
1
145.81
0.9854
147.97
N
i
i
N
i
i
Y Y
R
Y Y
=
=
= = =
R cuadrado ajustado
Un problema delicado aparece cuando los dos modelos a comparar tienen un nmero distinto de variables explicativas. Se
puede demostrar que cuando se aade una variable al modelo, entonces la suma residual siempre disminuye. Por tanto, si uno
de los dos modelos contiene las mismas variables que el otro y alguna ms (en cuyo caso los dos modelos se dicen anidados)
entonces este modelo amplio siempre ser preferido de acuerdo con el criterio del mayor R
2
. Se hace preciso en esta situacin
utilizar un concepto similar al del coeficiente de determinacin, pero teniendo en cuenta el nmero de variables explicativas
que un modelo utiliza.
R cuadrado:
( )
( ) ( )
2
2
2 1 1
2 2
1 1
1
N N
i i
i i
N N
i i
i i
Y Y
R
Y Y Y Y
= =
= =
= =
R cuadrado ajustado:
( )
2 2
1
1 1
1
N
R R
N k
=
Cuando el nmero de variables explicativas k aumenta, la fraccin
1
1
N
N k
tambin aumenta, mientras que
2
1 R
disminuye, ya
que el coeficiente de determinacin R
2
aumenta. Como en la definicin del R cuadrado ajustado aparece el producto de estos
dos factores, la idea es que ambos efectos, el creciente y el decreciente, se compensen aproximadamente, por lo que este
6
estadstico sea una medida de la bondad de ajuste de un modelo de regresin con la propiedad de ser neutral frente a la
introduccin de variables adicionales. Este estadstico est concebido, por tanto, para la comparacin de modelos anidados.
En sntesis, para evitar la tentacin de introducir ms al modelo para aumentar el R
2
se utiliza el R cuadrado ajustado.
( ) ( )
2 2
1 5 1
1 1 1 1 0.9854 0,9708
1 5 2 1
N
R R
N k
= = =