Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Lineal Multiple PDF
Regresion Lineal Multiple PDF
Modelo de Regresin
Lineal Mltiple (MRLM) Estimacin MCO
Introduccin a la Inferencia
en el modelo lineal
INTRODUCCIN ___________________
Todo estudio economtrico se centra en dos pilares bsicos: la teora y los hechos. La teora
permite derivar un modelo (el modelo econmico) que sintetiza la incgnita relevante sobre el
fenmeno (la variable endgena) objeto del anlisis y del cual deriva el modelo economtrico
que permite medirlo y contrastarlo empricamente. Los hechos se concretan en una serie de
datos que denominaremos informacin muestral. La muestra, a su vez, consiste en una lista
ordenada de valores numricos de las variables objeto de estudio. En una muestra de corte
transversal, diversos agentes econmicos de una naturaleza similar proporcionan informacin
solicitada en un mismo instante de tiempo. Alternativamente, el investigador econmico trabaja
en ocasiones con datos de series temporales, en las que se dispone de informacin acerca de
Proyecto e-Math 1
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
unidad econmica, como puede ser un pas, una empresa, a lo largo de tiempo; estas muestras
pueden tener frecuencia diaria, mensual, anual, segn frecuencia de observacin de los datos.
Una vez que se especifica el modelo y se dispone de la informacin estadstica
convenientemente tratada, se llega a la etapa siguiente del trabajo economtrico: la etapa de
estimacin. Los resultados de esta etapa de estimacin permiten medir y contrastar las
relaciones sugeridas por la teora econmica.
OBJETIVOS ________________________
Conocer los mtodos de estimacin del MRLM, el mtodo de mnimos cuadrados ordinarios
(MCO) y el de mxima verosimilitud (MV).
Aparte de estar iniciado en el uso del paquete estadstico Minitab, resulta muy conveniente haber
ledo con profundidad los siguientes math-blocks relacionados con Estadstica:
Proyecto e-Math 2
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
Para determinar el modelo anterior, es necesario hallar (estimar) el valor de los coeficientes
1, 2, ..., k. La linealidad en parmetros posibilita la interpretacin correcta de los
parmetros del modelo. Los parmetros miden la intensidad media de los efectos de las
variables explicativas sobre la variable a explicar y se obtienen al tomar las derivadas
parciales de la variable a explicar respecto a cada una de as variables explicativas:
Y
j = ; j = 1,..., k .
X j
A fin de poder determinar las propiedades de los estimadores obtenidos al aplicar distintos
mtodos de estimacin y realizar diferentes contrastes, hemos de especificar un conjunto de
hiptesis sobre el MRLM que hemos formulado. Existen tres grupos de hiptesis siguientes:
las hiptesis sobre el trmino de perturbacin, las hiptesis sobre las variables explicativas, y
las hiptesis sobre los parmetros del modelo.
Para una muestra de n observaciones (cada observacin estar formada por una tupla con
los valores de X2, X3, ..., Xk y el valor de Y asociado), tendremos el siguiente sistema de n
ecuaciones lineales:
Y1 = 1 + 2 X 21 + ... + k X k1 + u1
Y = + X + ... + X + u
2 1 2 22 k k2 2
...
Yn = 1 + 2 X 2 n + ... + k X kn + u n
Y1 1 X 21 ... X k1 1 u1
Y 1 X
... X k 2
2 u
Y= 2
, X =
22
, B= ,U =
2
Proyecto e-Math 3
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
En estas condiciones, las hiptesis del MRLM se resumen en la esfericidad del trmino de
perturbacin, i.e.:
[ ]
Var [u i ] = Var u j = 2 i j
2 ...
2
Var [U ] =
...
... ... ... ...
... 2
1 2 0 ... 0
22
Var [U ] =
0 ... 0
... ... ...
...
2
0 0 ... n
2 0 ... 0
2
Var [U ] =
0 ... 0
= 2 In (In es la matriz identidad de orden n)
... ... ... ...
0 0 ... 2
(
U N 0 n , 2 I n )
Proyecto e-Math 4
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
d) Adems, supondremos que las variables explicativas son medidas sin error.
a) La nica hiptesis que haremos acerca de los parmetros del modelo es la hiptesis de
permanencia estructural, lo cual quiere decir que los parmetros poblacionales, j, se
mantienen constantes a lo largo de toda la muestra.
B = ( X X ) X Y
1
e e
u2 =
nk
donde n es el nmero de observaciones y k es el nmero de elementos del vector B.
Bajo la hiptesis de perturbaciones esfricas, el estimador MCO del vector B cumple una
serie de propiedades que le convierten en un insesgado (el valor esperado del estimador
coincide con el valor real del parmetro), eficiente (de varianza mnima), y consistente [4].
Proyecto e-Math 5
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
El mtodo de estimacin por MCO consiste en asignar valores numricos a los parmetros
desconocidos de manera que la suma cuadrtica de errores sea mnima y slo requiere que
la matriz XX sea invertible. A continuacin veremos un mtodo de estimacin alternativo, el
mtodo de mxima verosimilitud.
u2
f (u i ) =
1
exp i 2 , i = 1,..., N .
2 2
Maximizar la probabilidad de obtener la muestra ya disponible equivale maximizar la funcin
de densidad conjunta del vector aleatorio, u. Para ello, hemos de suponer homoscedasticidad
y ausencia de autocorrelacin. Por tanto, la expresin de la funcin de densidad conjunta es
la siguiente:
n u i2
f (U ) = f (u i ) =
1
exp 2
i =1 (2 )
2 n2
2
Como U sigue una distribucin Normal Multivariante de orden k, la variable Y, al ser una
combinacin lineal de las perturbaciones aleatorias, tambin se distribuir con una
distribucin Normal Multivariante. As pues, para que la funcin de densidad conjunta sea una
funcin de verosimilitud, el vector aleatorio U ha de expresarse en funcin del vector Y, es
decir:
(Y X )' (Y X )
L(Y ; , 2 ) =
1
exp
(2 )2 n2
2 2
ln L(Y ; , 2 ) = ln (2 ) ln (2 2 )
n n (Y X )' (Y X )
2 2 2 2
Derivando la funcin de verosimilitud con respecto de B y 2, e igualando las derivadas a
cero, obtenemos los resultados:
Proyecto e-Math 6
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
B MV = ( X X ) X Y
1
Var [B MV ] = 2 ( X X ) .
1
cuya varianza es la siguiente:
e e
MV
2
= ,
n
donde n es el nmero de observaciones y k es el nmero de elementos del vector B.
Observamos que el estimador de MV de B coincide con el MCO, con lo que tendr las
mismas propiedades: ser lineal, insesgado, ptimo y consistente.
Las estimaciones por MCO y MV que hemos realizado todava no nos permite evaluar la
calidad de ajuste del modelo. Para ello, de aqu a delante iremos viendo las medidas de
bondad de ajuste.
Comenzaremos por la suma de los cuadrados de errores, SCE, que puede expresarse de
varias formas:
n n n
e'e = ei2 = Y 'Y B X 'Y = Y 'Y Y 'Y = Yi 2 Yi 2 .
i =1 i =1 i =1
n n n
Y 'Y = Y 'Y + e'e , o bien, Yi 2 = Yi 2 + ei2 .
i =1 i =1 i =1
i =1 i =1 i =1
i =1
Proyecto e-Math 7
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
SCE
R 2 = 1 .
SCT
Si el modelo tiene trmino independiente, entonces se cumple la igualdad SCT = SCR + SCE,
y el coeficiente de determinacin podr expresarse de la siguiente manera alternativa:
SCR
R2 = .
SCT
El coeficiente de determinacin indica que proporcin de variabilidad total queda explicada
por la regresin. Si el modelo tiene trmino independiente, entonces R2 toma valores entre 0
y 1.
n 1
R 2 = 1
nk
(1 R 2 )
Significacin econmica
Y
j = .
X j
Proyecto e-Math 8
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
ln Y
j = .
ln X j
Significacin estadstica
El anlisis economtrico pretende analizar, por medio una serie de contrastes, la significacin
(o significatividad) estadstica individual y conjunta de los parmetros del modelo. En
concreto, para contrastar las hiptesis de significatividad individual, tenemos:
H0 : j = 0
HA : j 0.
l
tj = ~ t nk .
u2 a jj
Dado un nivel de significacin , las tablas de distribuciones nos proporcionan la cantidad tn-
k,/2 que es el valor asociado a una t-Student con n-k grados de libertad que deja a su
derecha un rea de /2 (o, equivalentemente, deja a su izquierda un rea de 1 - /2). La
regla de decisin que utilizaremos para determinar si el parmetro asociado a la variable Xj
es individualmente significativo o no es la siguiente:
Si |tj| tn-k,/2, el estadstico cae fuera de la regin de aceptacin, por lo que rechazamos
la hiptesis nula. Concluimos, por tanto, que el parmetro es significativamente diferente
de cero.
Si |tj| < tn-k,/2, el estadstico cae dentro de la regin de aceptacin, por lo que no
podemos rechazar la hiptesis nula. Por tanto, el parmetro no es individualmente
significativo.
Nota: si en vez de realizar el contraste bilateral deseamos hacer un contraste unilateral (en el
cual la hiptesis alternativa sera H1 : j > 0 H1 : j < 0), deberemos sustituir en la frmula
anterior /2 por (ya que ahora trabajaremos con una nica cola de la distribucin).
H0 : 2 = 3 = ... = k =0
HA : No H0.
R2 nk
F0 = ~ Fk 1,n k .
1 R n 1
2
Proyecto e-Math 9
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
El estadstico se distribuye bajo la hiptesis nula con una distribucin F de Snedecor con k-1
grado de libertad en el numerador y n-k grados de libertad en el denominador. La regla de
decisin utilizada para contrastar la significacin global del modelo es la siguiente:
Prediccin
Una vez hemos especificado, estimado y validado un modelo, podemos utilizarlo con
objetivos diferentes.
Cuando trabajamos con una serie temporal, podemos estar interesados en predecir el
comportamiento futuro de la variable endgena. Si, por otro lado, trabajamos con un corte
transversal (o una seccin cruzada), podemos utilizar el modelo ajustado para predecir el
comportamiento de un individuo (o una unidad) no incluido en la muestra.
No obstante, para realizar las predicciones, hemos de suponer que todas las hiptesis que
hemos formulado sobre X, B y U se mantendrn tambin para las observaciones fuera de la
muestra. En particular, es fundamental suponer que se cumple la hiptesis de permanencia
estructural del modelo.
Cuando realizamos predicciones, podemos optar por predecir el valor puntual que tomar la
variable endgena, o bien, determinar un intervalo de posibles valores. El primer caso se
denomina prediccin puntual, y el segundo prediccin por intervalo.
Prediccin puntual
Supongamos que la variable endgena ajustada para una determinada observacin i es igual
a:
Yi = 1 + 2 X 2i + ... + k X ki .
Yn + h = 1 + 2 X 2,n + h + ... + k X k ,n + h .
En primer lugar, para obtener el intervalo del valor esperado de la variable endgena para la
observacin n+h, E(Yn+h), utilizaremos la siguiente expresin:
Proyecto e-Math 10
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
[ ] = 1 ,
1
Pr ob E (Y n + h ) Yn + h < t u2 X n + h ( X ' X ) X n + h
1 2
nk ,
2
[ ]
1
X n + h ( X ' X ) X n + h
1
Yn + h t
2
u
2
nk ,
2
a
[ ]
1
X n + h ( X ' X ) X n + h
1
Yn + h + t
2
u
2
nk ,
2
Nota: el intervalo de prediccin para E(YN+h) coincide con el intervalo de confianza. Es decir,
el intervalo de prediccin del valor esperado no es sino el intervalo de confianza del
parmetro Xn+hB.
En segundo lugar, para obtener la prediccin por intervalo del valor observado de la variable
endgena para la observacin n + h, Yn+h, utilizaremos la siguiente expresin:
[ ] = 1
1
Pr ob Y n + h Yn + h < t u 1 + X n + h ( X ' X ) X n + h
1 2
n k ,
2
De forma anloga al caso anterior, la expresin indica que la probabilidad de que Yn+h se
encuentre dentro del intervalo de
[ ]
1
u 1 + X n + h ( X ' X ) X n + h
1
Yn + h t
2
nk ,
2
a
[1 + X n + h ( X ' X ) X n + h ]
1
1
Yn + h + t u 2
n k ,
2
Nota: A la hora de realizar las predicciones, se puede ver que el intervalo de prediccin para
el valor observado de la variable endgena resulta ms grande que el intervalo de prediccin
para el valor esperado de la variable endgena. El caso es que, al predecir E(Yn+h),
pretendemos prever slo componente explicada por Xn+h, y la componente puramente
aleatoria, un+h, no forma parte del objetivo de prediccin. En cambio, cuando el objetivo es
predecir Yn+h, hemos de prever tambin la perturbacin aleatoria un+h la cual incrementa la
varianza del trmino de error.
Proyecto e-Math 11
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
Yi = 1 + 2 X i + u i ;i = 1,..., n
Como ya hemos dicho, nuestro objetivo es asignar valores numricos a los parmetros
desconocidos, en este caso, 1 y 2, y as poder cuantificar la relacin de dependencia que
hay entre las dos variables. Determinar estos valores equivale a determinar una recta que
pasa por la nube de puntos que resultan al representar las observaciones correspondientes a
las variables endgena y explicativa.
Estos datos en el espacio bidimensional constituyen una nube de puntos, para los cuales
trazaremos la recta de regresin caracterizada por el mejor ajuste. Para ello, seguiremos los
siguientes pasos en el entorno de Minitab:
Proyecto e-Math 12
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 13
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
Regression Plot
Y = -1,92133 + 0,175617X
R-Sq = 93,7 %
45
Inversin real
35
25
15
La recta en rojo es la que mejor se ajusta, segn el criterio de MCO, a la nube de puntos que
tenemos. Es decir, es la recta que hace que el error de estimacin, definido como la distancia
entre el valor observado y el valor estimado de la variable endgena (en el grfico, es la
distancia vertical sealada por la flecha en azul), sea la mnima para cada una de las
observaciones. La pendiente de la recta presenta signo positivo, pues es de esperar que el
un auge en el PIB genere una mayor cantidad de inversiones y viceversa. Encima de la
recta, se aparece la ecuacin de MCO con el coeficiente de determinacin, R2. Podemos
apreciar que el modelo se ajusta buenamente a los datos, explicando un 93,7% de la
variabilidad de la variable endgena. En consecuencia, el estadstico de significacin global
del modelo se calcula de la siguiente manera:
Sabemos que en el modelo de regresin lineal simple se cumple que F0 = t22, siendo t2 el
estadstico de contraste de significacin individual. De modo que t2 = F0 = 3,792.
Proyecto e-Math 14
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
La primera etapa del estudio consiste en estimar el modelo por MCO mediante el Minitab.
Para ello, seleccionamos Stat > Regression > Regression :
Proyecto e-Math 15
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
Regression Analysis
Proyecto e-Math 16
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
Analysis of Variance
Source DF SS MS F P
Regression 3 23,5977 7,8659 1726,58 0,000
Residual Error 35 0,1595 0,0046
Total 38 23,7572
log(Y )
eY , L = 2 = ;
log(L )
log(Y )
eY , K = 3 = ;
log(K )
log(Y )
eY , A = 4 = .
log( A)
Una vez estimado el modelo, procedemos a analizar la validez estadstica del modelo. Por
ejemplo, para contrastar la significacin individual del la variable log(A), especificamos la
hiptesis nula H0: 4 = 0 frente a la hiptesis alternativa bilateral HA: 4 0. El contraste de
hiptesis realizaremos en base del estadstico de contraste t y el p-valor asociado.
Suponiendo cierta la hiptesis nula, el estadstico de contraste se calcula t4 = B4/SE(B4),
siendo SE(B4) la desviacin tpica del estimador B4. A partir de los resultados de estimacin,
tenemos que t4 = 1,02 con p-valor = 0,315. Recordemos que p-valor = Prob(t > t4 = 1,02).
Como p-valor = 0,315 > = 0,05, no podemos rechazar la hiptesis nula para el nivel de
significacin de 5%. Tambin, haciendo el uso del valor crtico tn-k;/2 = t35;0,025 = 2,0301 a
partir de las tablas de una distribucin t-Student, queda t4 = 1,02 (-2,0301; 2,0301) lo cual
nos conduce a la misma conclusin. Por tanto, la variable el avance tecnolgico resulta
estadsticamente no significativa. La evidencia emprica parece indicar que el desarrollo
tecnolgico no ha sido decisivo para la industria aeronutica. En cambio, los resultados de
los contrastes de significacin individual de log(L) y de log(K) nos llevan a rechazar la
hiptesis nula; concluimos, por tanto, que tanto el capital humano como el capital fsico son
significativos a la hora de explicar la variacin de la produccin en el sector aeronutico.
Una vez analizada la relevancia individual de las variables explicativas, pasamos a contrastar
la significacin conjunta del modelo. Utilizando el estadstico F0 a partir del cuadro de
estimacin y comparndolo con el valor crtico Fk-1;n-k; a partir de las tablas de una
distribucin F de Snedecor queda:
Proyecto e-Math 17
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
Puesto que el estadstico de contraste muestral es muy superior al valor crtico a partir de las
tablas, rechazamos la hiptesis nula de no significacin global del modelo.
A continuacin, a base del modelo estimado, pasaremos a realizar la prediccin, tanto del
valor esperado como del valor observado, de la variable endgena para el ao 1997,
teniendo en cuenta la siguiente informacin sobre las variables explicativas para el ao 1997:
Volvemos a seleccionar Stat > Regression > Regresin y completamos los campos
en la ventana Regresin tal y como hemos hecho para estimar el modelo de regresin. A
continuacin, dentro de la misma ventana seleccionamos Options y introducimos los valores
de predictores, especificando el 95% nivel de confianza. Por ltimo, marcamos las opciones
Fits, SDs of fits, Confidence limits y Prediction limits para mostrar el ajuste de
prediccin, la desviacin tpica de prediccin, los intervalos de confianza y los intervalos de
prediccin, respectivamente:
Predicted Values
Proyecto e-Math 18
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
Proyecto e-Math 19
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple
BIBLIOGRAFA ______________________________________________
[1] Arts, M.; Suriach, J.; et al (2002): Econometra. Ed. Fundaci per a la Universitat Oberta de
Catalunya. Barcelona.
[2] Carter, R.; Griffiths, W.; Judge, G. (2000): Using Excel for Undergraduate Econometrics.
ISBN: 0-471-41237-6
[3] Doran, H. (1989): Applied Regression Analysis in Econometrics. Ed. Marcel Dekker, Inc.
ISBN: 0-8247-8049-3
[6] Kennedy, P. (1998): A Guide to Econometrics. Ed. MIT Press. ISBN: 0262611406
[8] Pulido, A. (2001): Modelos economtricos. Ed. Pirmide. Madrid. ISBN 84-368-1534-3
[9] Uriel, E. (1990): Econometra: el modelo lineal. Ed. AC. Madrid. ISBN 84-7288-150-4
ENLACES ___________________________________
http://www.feweb.vu.nl/econometriclinks/index.html
The Econometrics Journal On-Line
http://www.elsevier.com/hes/books/02/menu02.htm
Libro on-line: Handbook of Econometrics Vols. 1-5
http://elsa.berkeley.edu/users/mcfadden/discrete.html
Libro on-line: Structural Analysis of Discrete Data and Econometric Applications
http://www.oswego.edu/~kane/econometrics/stud_resources.htm
Online Resources for Econometric Students
http://www.econ.uiuc.edu/~morillo/links.html
Econometric Sources: a collection of links in econometrics and computing. University of Illinois
http://www.econometrics.net/
Econometrics, Statistics, Mathematics, and Forecasting
http://ideas.uqam.ca/EDIRC/ectrix.html
Economics Departments, Institutes and Research Centers in the World: Econometrics,
Mathematical Economics
Proyecto e-Math 20
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)