Documentos de Académico
Documentos de Profesional
Documentos de Cultura
T01 Reg Lineal Multiple PDF
T01 Reg Lineal Multiple PDF
ESQUEMA DE CONTENIDOS
Hiptesis sobre el
trmino de perturbacin
________________________
Estimacin MV
Modelo de Regresin
Lineal Mltiple (MRLM)
Estimacin MCO
Introduccin a la Inferencia
en el modelo lineal
Caso prctico con Minitab
Contrastes de significacin
Prediccin
INTRODUCCIN
___________________
Todo estudio economtrico se centra en dos pilares bsicos: la teora y los hechos. La teora
permite derivar un modelo (el modelo econmico) que sintetiza la incgnita relevante sobre el
fenmeno (la variable endgena) objeto del anlisis y del cual deriva el modelo economtrico
que permite medirlo y contrastarlo empricamente. Los hechos se concretan en una serie de
datos que denominaremos informacin muestral. La muestra, a su vez, consiste en una lista
ordenada de valores numricos de las variables objeto de estudio. En una muestra de corte
transversal, diversos agentes econmicos de una naturaleza similar proporcionan informacin
solicitada en un mismo instante de tiempo. Alternativamente, el investigador econmico trabaja
en ocasiones con datos de series temporales, en las que se dispone de informacin acerca de
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
OBJETIVOS
________________________
Conocer los mtodos de estimacin del MRLM, el mtodo de mnimos cuadrados ordinarios
(MCO) y el de mxima verosimilitud (MV).
CONOCIMIENTOS PREVIOS
___________________________________
Aparte de estar iniciado en el uso del paquete estadstico Minitab, resulta muy conveniente haber
ledo con profundidad los siguientes math-blocks relacionados con Estadstica:
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
CONCEPTOS FUNDAMENTALES
______________________________
Y = 1 + 2 X 2 + ... + k X k + U
Para determinar el modelo anterior, es necesario hallar (estimar) el valor de los coeficientes
1, 2, ..., k. La linealidad en parmetros posibilita la interpretacin correcta de los
parmetros del modelo. Los parmetros miden la intensidad media de los efectos de las
variables explicativas sobre la variable a explicar y se obtienen al tomar las derivadas
parciales de la variable a explicar respecto a cada una de as variables explicativas:
j =
Y
; j = 1,..., k .
X j
Y1 = 1 + 2 X 21 + ... + k X k1 + u1
Y = + X + ... + X + u
2
1
2
22
k
k2
2
...
Yn = 1 + 2 X 2 n + ... + k X kn + u n
o, en forma matricial: Y = XB + U, donde:
Y1
1 X 21
Y
1 X
22
2
, X =
Y=
...
... ...
1 X 2n
Yn
X k1
1
u1
... X k 2
2
2
, B=
,U =
...
...
... ...
... X kn
k
u n
...
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
En estas condiciones, las hiptesis del MRLM se resumen en la esfericidad del trmino de
perturbacin, i.e.:
E [u i ] = 0
i = 1,..., n
[ ]
Var [u i ] = Var u j = 2
i j
Var [U ] =
...
...
... ...
... 2
...
...
1 2
0
Var [U ] =
...
22
...
0
2
... n
...
...
...
0
0
...
0
Var [U ] =
...
...
0
0
= 2 In
... ...
... 2
...
...
U N 0 n , 2 I n
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
a) La nica hiptesis que haremos acerca de los parmetros del modelo es la hiptesis de
permanencia estructural, lo cual quiere decir que los parmetros poblacionales, j, se
mantienen constantes a lo largo de toda la muestra.
[]
1
Var B = 2 ( X X )
u2 =
e e
nk
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
u2 , es tambin insesgado.
u2
exp i 2 , i = 1,..., N .
2
2
f (u i ) =
f (U ) = f (u i ) =
i =1
(2 )
2 n2
u i2
exp
2
2
Como U sigue una distribucin Normal Multivariante de orden k, la variable Y, al ser una
combinacin lineal de las perturbaciones aleatorias, tambin se distribuir con una
distribucin Normal Multivariante. As pues, para que la funcin de densidad conjunta sea una
funcin de verosimilitud, el vector aleatorio U ha de expresarse en funcin del vector Y, es
decir:
L(Y ; , 2 ) =
(2 )
2 n2
(Y X )' (Y X )
exp
2 2
(Y X )' (Y X )
n
n
ln L(Y ; , 2 ) = ln (2 ) ln (2 2 )
2
2
2 2
Derivando la funcin de verosimilitud con respecto de B y 2, e igualando las derivadas a
cero, obtenemos los resultados:
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
1
Var [B MV ] = 2 ( X X ) .
e e
,
n
i =1
i =1
i =1
i =1
i =1
i =1
Yi 2 = Yi 2 + ei2 .
n Y , obtenemos:
2
2
(Yi Y )2 = (Yi Y ) + ei2 .
i =1
i =1
i =1
otra
Y 'Y n Y
parte,
si
el
modelo
tiene
trmino
independiente,
la
cantidad
2
= (Yi Y ) se le denomina suma de cuadrados de la regresin (SCR) .
i =1
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
R 2 = 1
SCE
.
SCT
Si el modelo tiene trmino independiente, entonces se cumple la igualdad SCT = SCR + SCE,
y el coeficiente de determinacin podr expresarse de la siguiente manera alternativa:
R2 =
SCR
.
SCT
R 2 = 1
n 1
(
1 R 2 )
nk
n 1
[7].
nk
Significacin econmica
Significacin econmica nos permite comprobar si las estimaciones obtenidas son
coherentes con la teora econmica. Segn especificacin del modelo, la interpretacin y
significacin de los parmetros puede variar. Si el modelo est especificado en niveles, el
parmetro refleja el efecto medio que tiene una variacin unitaria de la variable explicativa
sobre la variable endgena:
j =
Y
.
X j
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
j =
ln Y
.
ln X j
Significacin estadstica
El anlisis economtrico pretende analizar, por medio una serie de contrastes, la significacin
(o significatividad) estadstica individual y conjunta de los parmetros del modelo. En
concreto, para contrastar las hiptesis de significatividad individual, tenemos:
H0 : j = 0
HA : j 0.
El estadstico t-Student que se utiliza para realizar el test es el siguiente:
tj =
donde
u2 a jj
l
u2 a jj
~ t nk .
Si |tj| tn-k,/2, el estadstico cae fuera de la regin de aceptacin, por lo que rechazamos
la hiptesis nula. Concluimos, por tanto, que el parmetro es significativamente diferente
de cero.
Si |tj| < tn-k,/2, el estadstico cae dentro de la regin de aceptacin, por lo que no
podemos rechazar la hiptesis nula. Por tanto, el parmetro no es individualmente
significativo.
Nota: si en vez de realizar el contraste bilateral deseamos hacer un contraste unilateral (en el
cual la hiptesis alternativa sera H1 : j > 0 H1 : j < 0), deberemos sustituir en la frmula
anterior /2 por (ya que ahora trabajaremos con una nica cola de la distribucin).
En cambio, si queremos contrastar la significacin conjunta, las hiptesis especificamos de la
manera siguiente:
H0 : 2 = 3 = ... = k =0
HA : No H0.
Nota: el trmino independiente no contribuye en explicar la variabilidad de la variable
endgena, con lo cual no lo incluimos en la restriccin.
El estadstico F de Snedecor que se utiliza para realizar el test es el siguiente:
F0 =
nk
R2
~ Fk 1,n k .
2
1 R n 1
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Prediccin
Una vez hemos especificado, estimado y validado un modelo, podemos utilizarlo con
objetivos diferentes.
Cuando trabajamos con una serie temporal, podemos estar interesados en predecir el
comportamiento futuro de la variable endgena. Si, por otro lado, trabajamos con un corte
transversal (o una seccin cruzada), podemos utilizar el modelo ajustado para predecir el
comportamiento de un individuo (o una unidad) no incluido en la muestra.
No obstante, para realizar las predicciones, hemos de suponer que todas las hiptesis que
hemos formulado sobre X, B y U se mantendrn tambin para las observaciones fuera de la
muestra. En particular, es fundamental suponer que se cumple la hiptesis de permanencia
estructural del modelo.
Cuando realizamos predicciones, podemos optar por predecir el valor puntual que tomar la
variable endgena, o bien, determinar un intervalo de posibles valores. El primer caso se
denomina prediccin puntual, y el segundo prediccin por intervalo.
Prediccin puntual
Supongamos que la variable endgena ajustada para una determinada observacin i es igual
a:
Yi = 1 + 2 X 2i + ... + k X ki .
Si queremos predecir el valor de la variable endgena, para una observacin n + h, podemos
utilizar la siguiente expresin:
Yn + h = 1 + 2 X 2,n + h + ... + k X k ,n + h .
Prediccin por intervalo
La fiabilidad de prediccin se caracteriza por el intervalo de prediccin. Distinguimos entre la
prediccin por intervalo sobre Yn+h y la prediccin por intervalo sobre su valor esperado,
E(Yn+h).
En primer lugar, para obtener el intervalo del valor esperado de la variable endgena para la
observacin n+h, E(Yn+h), utilizaremos la siguiente expresin:
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
10
1
Pr ob E (Y n + h ) Yn + h < t u2 X n + h ( X ' X ) X n + h
nk ,
] = 1 ,
1
2
Yn + h t
nk ,
2
u
1
2
Yn + h + t
X n + h ( X ' X ) X n + h
nk ,
2
u
X n + h ( X ' X ) X n + h
1
1
2
1
Pr ob Y n + h Yn + h < t u 1 + X n + h ( X ' X ) X n + h
n k ,
] = 1
1
2
De forma anloga al caso anterior, la expresin indica que la probabilidad de que Yn+h se
encuentre dentro del intervalo de
Yn + h t
nk ,
u 1 + X n + h ( X ' X ) X n + h
n k ,
1
2
Yn + h + t
[1 + X
1
2
n + h ( X ' X ) X n + h ]
1
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
11
Yi = 1 + 2 X i + u i ;i = 1,..., n
Como ya hemos dicho, nuestro objetivo es asignar valores numricos a los parmetros
desconocidos, en este caso, 1 y 2, y as poder cuantificar la relacin de dependencia que
hay entre las dos variables. Determinar estos valores equivale a determinar una recta que
pasa por la nube de puntos que resultan al representar las observaciones correspondientes a
las variables endgena y explicativa.
Consideremos los siguientes datos anuales correspondientes al perodo 1960-1990 de la
economa de los Estados Unidos:
Observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Ao
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
Y (inversin real)
14,2226
13,9336
15,5040
16,3105
17,4936
19,8906
21,4803
20,4046
21,4776
22,6821
20,9722
23,3538
26,1040
29,1101
27,2418
23,0096
27,6116
32,1111
36,1788
37,5671
33,5069
36,6088
31,1554
32,7752
41,1886
39,9715
39,6866
40,2991
40,9538
41,9323
39,8393
X (PIB real)
95,065
97,281
103,159
107,607
113,860
121,153
129,102
132,340
138,663
142,856
143,120
147,928
155,955
164,946
163,921
163,426
172,485
180,519
190,509
196,497
196,024
200,832
196,769
205,341
220,230
228,703
236,500
244,560
254,771
263,683
268,304
Estos datos en el espacio bidimensional constituyen una nube de puntos, para los cuales
trazaremos la recta de regresin caracterizada por el mejor ajuste. Para ello, seguiremos los
siguientes pasos en el entorno de Minitab:
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
12
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
13
Inversin real
45
35
25
15
100
150
200
250
La recta en rojo es la que mejor se ajusta, segn el criterio de MCO, a la nube de puntos que
tenemos. Es decir, es la recta que hace que el error de estimacin, definido como la distancia
entre el valor observado y el valor estimado de la variable endgena (en el grfico, es la
distancia vertical sealada por la flecha en azul), sea la mnima para cada una de las
observaciones. La pendiente de la recta presenta signo positivo, pues es de esperar que el
un auge en el PIB genere una mayor cantidad de inversiones y viceversa. Encima de la
recta, se aparece la ecuacin de MCO con el coeficiente de determinacin, R2. Podemos
apreciar que el modelo se ajusta buenamente a los datos, explicando un 93,7% de la
variabilidad de la variable endgena. En consecuencia, el estadstico de significacin global
del modelo se calcula de la siguiente manera:
F0 = (R2/(1 R2)).(n k)/(n-1) = (0,937/0,063)*29/30 = 14,377
Sabemos que en el modelo de regresin lineal simple se cumple que F0 = t22, siendo t2 el
estadstico de contraste de significacin individual. De modo que t2 = F0 = 3,792.
Para contrastar la significacin individual de la variable explicativa, a partir de las tablas
extraemos tn-k,/2 = t29;0,025 = 2,0452. Dado que t2 = 3,792 > t29;0,025 = 2,0452, rechazamos la
hiptesis nula. En conclusin, el PIB real es individualmente significativo para explicar la
variabilidad de la inversin real en la economa de los Estados Unidos.
Ejemplo 2: Una empresa de investigacin de mercados est interesada en realizar un
estudio para el gobierno sobre la industria aeronutica de los Estados Unidos. Para ello, va a
estimar la funcin de produccin Cobb-Douglas estocstica aumentada por la variable el
avance tecnolgico:
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
14
Observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
Ao
1958
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
log(Y)
8,7700
8,8260
8,6861
8,6995
8,7332
8,7509
8,7924
8,8750
9,1050
9,3129
9,4738
9,4291
9,3468
9,2124
9,0802
9,2748
9,3644
9,4094
9,5044
9,6047
9,7440
10,0222
10,1955
10,3034
10,2417
10,3262
10,2560
10,4624
10,5502
10,5737
10,6333
10,6768
10,8468
10,9698
11,0506
10,9173
10,8390
10,7585
10,7645
Log(L)
7,75803
7,79136
7,64248
7,69871
7,81145
7,77039
7,75307
7,82740
8,07770
8,18004
8,27055
8,31059
8,15047
7,91517
7,96106
8,02597
8,10119
8,14297
8,17836
8,28801
8,46720
8,65232
8,80499
8,98153
8,95546
8,93089
8,91690
8,98805
9,10319
9,17777
9,21186
9,25614
9,32587
9,24224
9,35001
9,28638
9,24362
9,12033
9,19414
Log(K)
9,3214
9,3502
9,2551
9,2588
9,2779
9,2977
9,3311
9,3657
9,5809
9,8358
9,9564
10,0004
9,9534
9,8486
9,8342
9,8140
9,8716
9,9271
9,9131
9,9559
10,1037
10,3419
10,5113
10,6039
10,7125
10,6632
10,7302
10,7732
10,8743
10,9206
11,0444
11,1949
11,2812
11,3309
11,3281
11,2780
11,1210
11,0568
11,1375
Log(A)
-0,44229
-0,67441
-0,04824
-0,07823
0,02132
0,06255
0,23289
0,43465
0,60064
0,77948
0,84076
1,00189
1,04609
0,95128
0,97795
1,19855
1,37927
1,21982
1,50437
1,71540
1,92360
2,16460
2,26792
2,42746
2,49750
2,47373
2,61771
2,44101
2,53751
2,85079
2,82018
2,82289
2,72615
2,54905
2,55048
2,50060
2,62398
2,77913
2,79638
La primera etapa del estudio consiste en estimar el modelo por MCO mediante el Minitab.
Para ello, seleccionamos Stat > Regression > Regression :
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
15
Regression Analysis
The regression equation is
log(Y) = - 1,17 + 0,559 log(L) + 0,601 log(K) + 0,0329 log(A)
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
16
Predictor
Constant
log(L)
log(K)
log(A)
Coef
-1,1666
0,5585
0,6014
0,03291
S = 0,06750
StDev
0,4613
0,1237
0,1018
0,03229
R-Sq = 99,3%
T
-2,53
4,51
5,91
1,02
P
0,016
0,000
0,000
0,315
R-Sq(adj) = 99,3%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
3
35
38
SS
23,5977
0,1595
23,7572
MS
7,8659
0,0046
F
1726,58
P
0,000
eY , L = 2 =
log(Y )
;
log(L )
eY , K = 3 =
log(Y )
;
log(K )
eY , A = 4 =
log(Y )
.
log( A)
Una vez estimado el modelo, procedemos a analizar la validez estadstica del modelo. Por
ejemplo, para contrastar la significacin individual del la variable log(A), especificamos la
hiptesis nula H0: 4 = 0 frente a la hiptesis alternativa bilateral HA: 4 0. El contraste de
hiptesis realizaremos en base del estadstico de contraste t y el p-valor asociado.
Suponiendo cierta la hiptesis nula, el estadstico de contraste se calcula t4 = B4/SE(B4),
siendo SE(B4) la desviacin tpica del estimador B4. A partir de los resultados de estimacin,
tenemos que t4 = 1,02 con p-valor = 0,315. Recordemos que p-valor = Prob(t > t4 = 1,02).
Como p-valor = 0,315 > = 0,05, no podemos rechazar la hiptesis nula para el nivel de
significacin de 5%. Tambin, haciendo el uso del valor crtico tn-k;/2 = t35;0,025 = 2,0301 a
partir de las tablas de una distribucin t-Student, queda t4 = 1,02 (-2,0301; 2,0301) lo cual
nos conduce a la misma conclusin. Por tanto, la variable el avance tecnolgico resulta
estadsticamente no significativa. La evidencia emprica parece indicar que el desarrollo
tecnolgico no ha sido decisivo para la industria aeronutica. En cambio, los resultados de
los contrastes de significacin individual de log(L) y de log(K) nos llevan a rechazar la
hiptesis nula; concluimos, por tanto, que tanto el capital humano como el capital fsico son
significativos a la hora de explicar la variacin de la produccin en el sector aeronutico.
Una vez analizada la relevancia individual de las variables explicativas, pasamos a contrastar
la significacin conjunta del modelo. Utilizando el estadstico F0 a partir del cuadro de
estimacin y comparndolo con el valor crtico Fk-1;n-k; a partir de las tablas de una
distribucin F de Snedecor queda:
F0 = 1726,58 > F3;35;0,05 = 2,8742.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
17
Predicted Values
Fit StDev Fit
95,0% CI
95,0% PI
10,8678
0,0677
( 10,7304; 11,0052) ( 10,6738; 11,0619) XX
X denotes a row with X values away from the center
XX denotes a row with very extreme X values
Los resultados indican que la prediccin de la produccin en el sector aeronutico (prediccin
puntual) es:
log(Y97) = -1,17 + 0,559.log(L97) + 0,601.log(K97) + 0,0329.log(A97) = -1,17 + 0,559.9,0 +
0,601.11,5 + 0,0329.2,80 = 10,865.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
18
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
19
BIBLIOGRAFA
______________________________________________
[1]
Arts, M.; Suriach, J.; et al (2002): Econometra. Ed. Fundaci per a la Universitat Oberta de
Catalunya. Barcelona.
[2]
Carter, R.; Griffiths, W.; Judge, G. (2000): Using Excel for Undergraduate Econometrics.
ISBN: 0-471-41237-6
[3]
Doran, H. (1989): Applied Regression Analysis in Econometrics. Ed. Marcel Dekker, Inc.
ISBN: 0-8247-8049-3
[4]
[5]
[6]
[7]
[8]
[9]
Uriel, E. (1990): Econometra: el modelo lineal. Ed. AC. Madrid. ISBN 84-7288-150-4
[10]
ENLACES
___________________________________
http://www.feweb.vu.nl/econometriclinks/index.html
The Econometrics Journal On-Line
http://www.elsevier.com/hes/books/02/menu02.htm
Libro on-line: Handbook of Econometrics Vols. 1-5
http://elsa.berkeley.edu/users/mcfadden/discrete.html
Libro on-line: Structural Analysis of Discrete Data and Econometric Applications
http://www.oswego.edu/~kane/econometrics/stud_resources.htm
Online Resources for Econometric Students
http://www.econ.uiuc.edu/~morillo/links.html
Econometric Sources: a collection of links in econometrics and computing. University of Illinois
http://www.econometrics.net/
Econometrics, Statistics, Mathematics, and Forecasting
http://ideas.uqam.ca/EDIRC/ectrix.html
Economics Departments, Institutes and Research Centers in the World: Econometrics,
Mathematical Economics
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
20