Está en la página 1de 11

Notas de clase

Modelo de regresión lineal múltiple

MODELO DE REGRESIÓN LINEAL CON VARIAS VARIABLES

Se habla de regresión múltiple cuando se relaciona la variable dependiente con más de una variable
explicativa:
Y i= β^ 1 + ^β 2 X 1 ,i + ^β 3 X 2 , i+ ^β 4 X 3 ,i +…+ β^ k X m, i+ μ^ i

Lo cual indica que tiene:


- m−variables independientes
- i−observaciones que varían desde 1 hasta n
- k − parámetros.

MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (M.C.O.)

El modelo de regresión lineal estimado en k variables está definido de manera matricial:

[ ][ ][ ] [ ]
Y1 1 X 21 X 31 … X k 1 ^β1 ^μ1
Y2 1 X 22 X 32 … X k 2 ^β 2 ^μ
= + 2
⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ ⋮
Yn 1 X2n X 3 n … X kn ^β ^
μ n
k

y nx 1=¿ X nxk ^β + ^μnx 1


kx 1

y:= representa el vector columna de n observaciones (nx1). Es la variable dependiente o explicada.


X:= es la matriz de información de n observaciones por k – 1 variables, ya que la primera columna hace
referencia al intercepto.
β ≔ es el vector de los parámetros k – desconocidos y que son los de estimar mediante algoritmos en
el programa econométrico.
μ ≔ vector de errores, residuos o perturbaciones de las n – observaciones.

De manera compacta se puede escribir:


y nx 1=X nxk ^β kx 1+ μ^ nx 1

Sin perder la idea sobre las dimensiones de las matrices y vectores, simplemente:
y= X ^β+ μ^

Donde ^
β es el vector columna compuesto por los estimadores de Mínimos Cuadrados Ordinarios (MCO).

Para el caso de las k variables, los estimadores de MCO se hayan solucionando el siguiente problema de
optimización:

mínimo de ∑ μ^ 2i =∑ ( Y i− ^β 1− ^β 2 X 2i −…− β^ k X ki ) EC .1
2

Donde ∑ μ^ 2i es la suma de los errores al cuadrado.


De lo anterior se obtiene la forma compacta:

^μ= y−X ^β
El método de MCO consiste en hallar los estimadores de cada β i, para i = 1…k; de tal manera que la
suma de los errores al cuadrado ∑ 2
μ^ i sea lo más pequeña posible. Este problema de optimización se
soluciona diferenciando parcialmente la ecuación 1 (EC. 1) con respecto a cada uno de los parámetros (
β ), luego se igualan las derivadas a cero y se despejan los β i. El proceso matemático expuesto presenta
k ecuaciones con k incógnitas, sistema que se conoce como las ecuaciones normales de Gauss, en honor
al matemático, físico y astrónomo alemán Johann Carl Friedrich Gauss (1777 – 1855).

Las ecuaciones son:


n ^β 1+ ^β2 ∑ X 2 i + ^β 3 ∑ X 3 i+ …+ ^β k ∑ X ki =∑ Y i
^β ∑ X + β^ ∑ X 2 + ^β ∑ X X +…+ ^β ∑ X X =∑ X Y
1 2i 2 2i 3 2i 3 i k 2i ki 2i i
^β ∑ X + ^β ∑ X X + ^β ∑ X 2 +…+ ^β ∑ X X =∑ X Y
1 3i 2 3i 2i 3 3i k 3i ki 3i i
………………………… …………………………………………………………
^β ∑ X + ^β ∑ X X + ^β ∑ X X +…+ ^β ∑ X 2 =∑ X Y
1 ki 2 ki 2 i 3 ki 3 i k ki ki i

De forma matricial se pueden expresar:

[ ][ ] [ ][ ]
n ∑ X2i ∑ X 3 i ⋯ ∑ X ki ^β 1 Y1
1 1 ⋯ 1
∑ X2i ∑ X 2 i ∑ X 2 i X 3 i ⋯ ∑ X 2i X ki
2 ^β 2 X 21 X 22 ⋯ X2n Y2
∑ X3i ∑ X 3 i X 2i ∑ X 23 i ⋯ ∑ X 3 i X ki ^β3 = X 31 X 32 ⋯ X3n Y3
… … … … ⋯ ⋮ ⋯ ⋯ ⋯ ⋯ ⋮
∑ X 2ki ^β Xk 1 Xk 2 ⋯ X kn Yn
∑ X ki ∑ X ki X 2 i ∑ X ki X 3 i … k

(X' X) ^β = X
'
y
En forma compacta:
( X ' X ) ^β= X ' y
X’ es la matriz transpuesta1 de la matriz original X.

Despejando el vector ^
β , teniendo en cuenta las propiedades de las matrices se multiplica por la inversa
−1
(X' X) :
−1
^ ( X' X ) X y
( X ' X ) ( X ' X ) β=
−1 '

−1
Dado que ( X ' X ) ( X ' X ) =I , que es la matriz idéntica, entonces:
^β=( X ' X )−1 X ' y

Con el fin de establecer intervalos de confianza y probar hipótesis estadísticas, se calcula la matriz de
varianzas:
Var ( ^β )= σ^ 2 ( X ' X )
−1

Donde
T ^T T
^σ 2= y y− β X y
n−k

Ejemplo teórico:

1
También se escribe como X’ = XT. Se llama la matriz transpuesta X T de una matriz X, cuando las
columnas de X pasan a ser filas y las filas columnas.
Para un modelo múltiple de importaciones, inversión, población económicamente activa y desempleo
nacional:

DE i= ^
β1+ ^
β 2 PEA i + ^
β 3 INV i + ^
β 4 IMPi + μi

D Ei: desempleo.
PEA i: población económicamente activa.
IMP i: importaciones.
INV i : inversión.

Estimar el modelo para los siguientes datos:

Año Desempleo PEA Inversión Importaciones


2000 7 21 20 13
2001 4 15 25 9
2002 5 19 21 7
2003 5 21 25 8
2004 9 23 19 15

Mostrar el procedimiento paso a paso.

Respuesta:

Lo primero es notar que nuestro modelo se relaciona con el modelo general como:

^ + ^β X + ^β X + ^β X + ^μ
Modelo general: Y i= β 1 2 1 ,i 3 2, i 4 3 ,i i
Modelo nuestro: DE i= ^
β1+ ^
β 2 PEA i + ^
β 3 INV i + ^
β 4 IMPi + μi

Es decir que
- Y =DE =desempleo
- X 1 =PEA = población económicamente activa
- X 2 =INV =inversión
- X 3 =IMP=importaciones

Teniendo en cuenta que


^β=( X ' X )−1 X ' y

Debemos ubicar las matrices para estimar los betas.

Primero saber cuál es la matriz X y el vector y . Como se dijo anteriormente, X hace referencia a los
datos de las variables independientes incluido el vector de 1’s en la primer columna e y el vector que
hace referencia a los datos de la variable dependiente.

Luego,

[ ]
1 21 20 13
1 15 25 9
X= 1 19 21 7
1 21 25 8
1 23 19 15
[]
7
4
y= 5
5
9
Identificadas la matriz y el vector, se procede a realizar los siguientes cálculos:

−1
- (X' X) . Observe que se debe calcular la matriz inversa del producto X ' X , lo cual algunas
veces se vuelve complicado si se hace con lápiz y papel, así como dependiendo del tamaño de
la matriz analíticamente también es complicado llegar a una solución, por lo tanto se debe
programar en un software para que la matriz inversa sea calculada de manera iterativa.

En esta guía no vamos a considerar las maneras de calcular la matriz inversa de una matriz
dada, para ello el lector puede buscar cualquier texto de álgebra matricial donde se explican
dichos procedimientos.

En adelante consideramos una matriz inversa aproximada a la original a fin de que los
resultados sean coherentes y sin cálculos exhaustivos. De esta manera

[ ]
88,34 −1,380767 −2,359021 −0,85599
( X ' X ) = −1,380767 0,04931 0,023950 −0,01178
−1

−2,359021 0,02395 0,0720410 0,02882


−0,85599 −0,01178 0,028820 0,04370
'
- X : matriz transpuesta de X

[ ]
1 1 1 1 1
X ' = 21 15 19 21 23
20 25 21 25 19
13 9 7 8 15

Identificando las matrices procedemos a estimar los betas 2

^β −1
(4∗1)=( X X ) (4∗4) X (4∗5) y (5∗1 )
' '

[ ][ ][]
7
88,34 −1,380767 −2,359021 −0,85599 1 1 1 1 1
4
^β= −1,380767 0,04931 0,023950 −0,01178 21 15 19 21 23
∗ ∗5
−2,359021 0,02395 0,0720410 0,02882 20 25 21 25 19
5
−0,85599 −0,01178 0,028820 0,04370 13 9 7 8 15
9

Aplicando el producto de matrices llegamos a lo siguiente

2
Recuérdese que para multiplicar matrices debe cumplirse la condición de que las columnas de primera
matriz debe ser iguales al número de filas de la segunda matriz. Tener en cuenta los fundamentos
matemáticos sobre multiplicación de matrices.
[ ][]
7
1,03 0,94 6,57 −6,48 −1,08
4
^β= −0,02 −0,15 −0,02 0,16 0,03
∗5
−0,04 0,06 −0,19 0,18 −0,01
5
0,04 0,08 −0,17 −0,03 0,08
9

Luego

[ ]
1,7
^β= 0,23
−0,18
0,32

Finalmente el modelo estimado con papel y lápiz es:

^
DE i=1,7+ 0,23 PEA i−0,18 INV i +0,32 IMP i

Por ser un ejemplo teórico y para entender el método de estimación, consideraremos solamente que los
signos correspondan con la teoría económica y por lo tanto tengan justificación.

De esta manera:
- El signo positivo de la PEA indica que cuando ésta crece el desempleo también lo hace; si
consideramos el valor del parámetro diremos que por cada 100 personas que entran a la PEA,
23 no consiguen empleo, manteniendo las demás variables constantes.
- Al crecer la inversión se demanda mano de obra y por lo tanto el desempleo disminuye,
justificando así el signo negativo del parámetro asociado a la variable inversión. Por lo tanto, si
la inversión crece en 100 unidades monetarias, el desempleo disminuye en 18 personas,
manteniendo las demás variables constantes.
- El signo de las importaciones es justificado siempre y cuando sean sustitutas de aquellos bienes
que se producen en el interior del país, las cuales al crecer provocan aumento del desempleo
nacional. Si las importaciones crecen en 100 unidades monetarias, el desempleo crece en 32
personas, manteniendo las demás variables constantes.

Cálculo de ^
DE i:

Si quisiéramos hallar el vector ^


DE i de valores estimados tendríamos que reemplazar cada valor de
PEA i , INV i e IMP i. De esta manera tendríamos la recta estimada para tres variables independientes.

Partimos por lo tanto de la ecuación estimada


^
DE i=1,7+ 0,23 PEA i−0,18 INV i +0,32 IMP i

Y se debe reemplazar cada observación i de cada variable explicativa y multiplicarla por el parámetro
estimado asociado a esa variable:

- Año 2000: ^
DE 2000=1,7+0,23 PEA 2000−0,18 INV 2000 + 0,32 IMP 2000

^
DE 2000=1,7+0,23 ( 21 )−0,18 ( 20 ) +0,32(13)
^
DE 2000=7,09

- Año 2001: ^
DE 2001=1,7 +0,23 PEA 2001−0,18 INV 2001 +0,32 IMP 2001
^
DE 2001=1,7 +0,23 ( 15 )−0,18 ( 25 ) +0,32( 9)
^
DE 2001=3,53

Y así sucesivamente para todas las observaciones. Por lo tanto el vector de observaciones estimadas
^
DE i queda

Año ^Desempleo PEA Inversión Importaciones


2000 7,09 21 20 13
2001 3,53 15 25 9
2002 4,53 19 21 7
2003 4,59 21 25 8
2004 8,47 23 19 15

Vector de errores estimados


Para calcular las desviaciones del modelo estimado y los datos observados en la vida real debemos
considerar:
u^i=Y i−Y^i

Téngase en cuenta que este despeje se aprendió y se justificó cuando analizamos el método de Mínimos
Cuadrados Ordinarios (MCO), tanto para regresión simple como para regresión múltiple.

Calculemos el vector de errores para los datos hasta el momento tratados. Tomemos en cuenta los
datos observados de la variable dependiente Desempleo y los datos estimados para la variable
dependiente ^
Desempleo

Año Desempleo ^
Desempleo
2000 7 7,09
2001 4 3,53
2002 5 4,53
2003 5 4,59
2004 9 8,47

^i=Y i−Y^i
Por lo tanto, haciendo uso de u

Año Desempleo ^
Desempleo u^t
2000 7 7,09 - 0,09
2001 4 3,53 0,47
2002 5 4,53 0,47
2003 5 4,59 0,41
2004 9 8,47 0,63

Ahora planteamos el mismo modelo con datos reales para Colombia en el periodo 1991 – 2006

DE i= ^
β1+ ^
β 2 PEA i + ^
β 3 INV i + ^
β 4 IMPi + μi

Donde,
D Ei: desempleo nacional medido en personas.
PEA i: población económicamente activa medido en personas.
INV i : inversión nacional en miles de millones de pesos constantes de 1994.
IMP i: importaciones en miles de millones de pesos constantes de 1994.

Al realizar la estimación llegamos al siguiente modelo

^
DE i=−1' 481.304+ 0,258 PEA i +94,44 IMP i−167,76 INV i

Interpretación del modelo estimado

 ^β 2: durante el periodo analizado, cuando la PEA creció en 1 persona, el desempleo aumentó en


0,258 personas, o mejor dicho, como la PEA creció en 1.000 personas el desempleo creció en
promedio en 258 personas, manteniendo las demás variables constantes.
 ^β 3: durante el periodo analizado, cuando las importaciones reales en base 1994 crecieron en $
1.000 millones, el desempleo aumentó en 94 personas aproximadamente, manteniendo las
demás variables constantes.
 ^β 4 : durante el periodo analizado, cuando la inversión nacional creció en $ 1.000 millones
constantes de 1994, el desempleo disminuyó en 168 personas anualmente en promedio,
manteniendo las demás variables constantes.

TABLA ANOVA: ANÁLISIS DE VARIANZA DE REGRESIÓN MÚLTIPLE

El modelo de regresión lineal múltiple se escribe como:

ln ( PIB )i= β^ 1 + ^β 2 INM 1 ,i + ∑ ^β X ❑ + ^μi

Y i= β^ 1 + ^β 2 X 1 ,i + ^β 3 X 2 , i+ ^β 4 X 3 ,i +…+ β^ k X m, i+ μ^ i

La fórmula como vimos anteriormente para hallar los betas son:

^β=( X ' X )−1 X ' y

La tabla ANOVA para el modelo regresión lineal múltiple es:

Tabla ANOVA

Causa de Grados de Suma de cuadrados Cuadrados Estadístico F


variación libertad medios

SCM= β^ X y−n y
T T 2 CMM =
Modelo k–1 SCM
k −1
CMM
F=
SCE CME
Error n–k SCE= y T y− β^ T X T y CME =
n– k

Total n–1 SCT = y T y −n y 2 es la sumade SCM + SCE

k: número de parámetros incluyendo la constante. n: número de observaciones


SCM n−1
=1−( 1−R )
2 2 2
R= R ajustado
SCT n−k

Observe que los conceptos son los mismos de la tabla ANOVA de regresión simple, con la diferencia que
ahora los cálculos se realizan de forma matricial.

EJERCICIO

Con los datos del modelo


DE i= ^
β1+ ^
β 2 PEA i + ^
β 3 IMP i+ ^
β 4 INV i + μi

Estimado anteriormente calcular

1. El estadístico F
2
2. La bondad de ajuste R ajustado

Los datos que se necesitan para llenar la tabla ANOVA son:

- k=4
- n=5

Para el cálculo de la ANOVA vamos hacer uso de los parámetros estimados en el Software:

^
DE i=1,80624+ 0,23637 PEA i−0,16902 INV i +0,31078 IMP i

^
DE i=1,7+ 0,23 PEA i−0,18 INV i +0,32 IMP i

Donde el vector de parámetros estimados fue

[ ][ ]

1,80624
1

^β= 2 = 0,23637
^β −0,16902
3

β^ 4 0,31078

[ ]
1 1 1 1 1
T 21 15 19 21 23
X =
20 25 21 25 19
13 9 7 8 15

[]
7
4
y= 5
5
9

Con esta información, podemos hacer los respectivos cálculos para llenar la tabla ANOVA.

 k–1= 4–1=3
 n–k=5–4=1
 n–1=5–1=4
 SCM = ^ T T
β X y −n y
2

^β T =[ 1,80624 0,23637 −0,16902 0,31078 ]

[ ]
1 1 1 1 1
X T = 21 15 19 21 23
20 25 21 25 19
13 9 7 8 15

[]
7
4
y= 5
5
9

n=5

2 2
y =6 =36

Por lo tanto

[ ][]
7
1 1 1 1 1
4
21 15 19 21 23
SCM= [ 1,80624 0,23637 −0,16902 0,31078 ]∗ ∗ 5 −5∗(36)
20 25 21 25 19
5
13 9 7 8 15
9

(1,80624 *1) + (0,23637 *21) + (-0,16902 * 20) + (0,31078 * 13) = 7,42975 (Primer calculo)

[]
7
4
SCM= [ 7,42975 3,92331 4,92331 5,03075 8,69307 ]∗ 5 −5∗(36)
5
9
SCM=195,70942−180

SCM=15,70942

 SCE = y T y− ^
βT X T y

Obsérvese que la segunda parte de esta fórmula ya se calculó

[ ][]
7
1 1 1 1 1
4
^β T X T y =[ 1,80624 0,23637 −0,16902 0,31078 ]∗ 21 15 19 21 23
∗ 5 =195,70942
20 25 21 25 19
5
13 9 7 8 15
9
Ahora solo faltaría calcular la primera parte
[]
7
4
T
y y= [ 7 4 5 5 9 ] 5 =196
5
9
Por lo tanto
SCE= y T y− β^ T X T y=196−195,70942=0,29058

SCE=0,29058

 SCT = y T y−n y 2= SCM + SCE

De esta manera, SCT = 15,70942+0,29058=16

SCT = 16

SCM
 CMM =
k −1
SCM 15,70942
CMM = = =5,2364733
k −1 3

SCE
 CME =
n−k
SCE 0,29058
CME= = =0,29058
n−k 1

CMM
 F=
CME
5,2364733
F= =18,021
0,29058

Al pasar los cálculos anteriores a la tabla

Tabla ANOVA
Causa de Grados de Suma de cuadrados Cuadrados medios Estadístico F
variación libertad
Modelo 3 SCM=15,70942 CMM =5,2364733
Error 1 SCE=0,29058 CME=0,29058 F=18,021
Total 4 SCT = 16
k: número de parámetros incluyendo la constante.
n: número de observaciones

De esta manera ya calculamos el estadístico F, que nos dará la significancia global del modelo.

2
2. Ahora calculemos el R ajustado

Recordemos que la fórmula es:


SCM n−1
=1−( 1−R )
2 2 2
R= R ajustado
SCT n−k
2 15,71 (4)
R= =0,982 R
2
=1−( 1−0,982 )
16 ajustado
(1)
2
R ajustado =0 , 9275
2
La interpretación del R ajustado =92,75 % es: la variación de las variables PEA, INV e IMP explican
conjuntamente la variación del desempleo en un 92,75%.

Prueba de hipótesis de significancia global


Ho: ^
β 2= ^
β 3= β^4 =0
Ha: ^
β2≠ ^
β3≠ ^
β4 ≠ 0

Variable Parámetros
PEA 0,257 ***
(0,043)
IMPO 94,43987 **
(34,54262)
INV -167,7641 ***
(31,95063)
Constante -1481304 *
(738439)
*** Significativo al 1%; ** Significativo al 5%; * Significativo al 10%

También podría gustarte