Está en la página 1de 17

CAPITULO 1

EL MODELO DE REGRESIN LINEAL

1.1. EL ANLISIS DE REGRESIN


1.1.1 Interpretacin
El ingls Francis Galton1 (1822 - 1911) fue el primero en introducir el trmino regresin.
Cuando estudiaba la relacin entre las estaturas de los hijos y los padres observ que la estatura
de los hijos era alta o baja cuando los padres eran altos o bajos, respectivamente. Sin embargo,
la estatura promedio de los hijos cuyos padres tenan una estatura dada, tenda a moverse o
converger hacia el promedio de la poblacin. As, determin una regresin de la estatura de los
hijos hacia el promedio o, en trminos de Galton, una regresin hacia la mediocridad.
La Ley de Regresin Universal de Galton fue confirmada, aos despus, por Karl Pearson,
quien realiz un estudio similar utilizando ms de mil observaciones. Con el estudio de Pearson
se confirm que la estatura promedio de los hijos de un grupo de padres altos era menor que la
estatura de sus padres y la estatura promedio de los hijos de padres de estatura baja era mayor
que la de sus padres. As, se observa que los hijos de estatura alta o baja, regresan en forma
similar hacia la estatura promedio de la poblacin.
En este sentido, la regresin de una variable aleatoria Y sobre otra variable X fue entendida
como la media de Y condicional en X, a travs de una relacin funcional entre X e Y. El
estimador de los coeficientes involucrados en esta forma funcional fue hallado utilizando el
criterio de estimacin de Mnimos Cuadrados Ordinarios (MCO), que ser estudiado en el
siguiente captulo, y las observaciones muestrales de X e Y.

Francis Galton, Family Likeness in Stature, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.

Econometra Moderna

El Modelo de Regresin Lineal

Una interpretacin ms moderna de regresin indica que la misma es cualquier aproximacin


de la distribucin de probabilidad de Y condicionada a los valores de las observaciones de X,
siendo Y una funcin de X. En otras palabras, el anlisis de regresin estudia la relacin
existente entre una variable endgena o dependiente (Y) y una o ms variables exgenas o
independientes (X), con el objeto de estimar la media o valor promedio poblacional de la
primera en trminos de los valores conocidos o fijos de las ltimas. Ahora, resulta ms clara la
relacin entre el estudio de Galton y la definicin moderna del trmino regresin.
A menudo se confunden los trminos regresin y correlacin, los cuales estn estrechamente
ligados a pesar de que existen diferencias substanciales entre ellos. Por un lado el anlisis de
correlacin pretende medir el grado de asociacin lineal entre dos variables a travs del
coeficiente de correlacin2. Por ejemplo, se puede estar interesado en conocer la correlacin
entre la cuenta de capitales y la tasa de inters, entre los trminos de intercambio y la balanza
comercial, entre la tasa de encaje y crditos del sistema bancario, etc. En cambio, cuando se
analiza una regresin se trata de estimar o de predecir el valor promedio de una variable
(llamada explicada, dependiente o endgena) utilizando valores fijos3 de las variables
explicativas (tambin llamadas independientes o exgenas) . Utilizando el ejemplo anterior,
puede ser que se desee predecir el saldo de la cuenta de capitales teniendo informacin muestral
de la tasa de inters o que se desee predecir el monto total de crditos conociendo la tasa de
encaje bancaria. As, y conociendo la relacin existente entre estas variables a travs de un
anlisis de regresin, ser posible predecir valores de la variable dependiente utilizando
realizaciones de las independientes.

1.1.2 Cmo se conecta el anlisis econmico con el anlisis de regresin?


El anlisis econmico toma en consideracin diversas variables en conjunto. La relacin
entre las tasas de inflacin y el desempleo, la relacin intertemporal entre las tasas de inters y
el consumo o la relacin entre ste y los precios de los bienes relacionados de un bien, son
algunos de los tantos ejemplos que se encuentran en el anlisis emprico en economa. Como
ejemplo concreto, se puede citar la Ley de Okun4, la cual afirma que por cada punto porcentual
que caiga la tasa de desempleo el producto tiende a crecer 3 puntos porcentuales. Esto significa
que existe una relacin negativa entre las dos variables y, para contrastar el modelo, se
necesitar utilizar simultneamente datos de ambas variables.
Para ello, se deben utilizar distribuciones de probabilidad conjuntas o multivariadas5. Se sabe
por nociones bsicas de estadstica que la funcin de probabilidad conjunta se puede plantear de
la siguiente forma:
f( y/ x1 , x2 , x3 ) = F ( y/ x1 , x2 , x3 ) * f (x1 , x2 , x3 )

(1.1)

El coeficiente de correlacin entre dos variables aleatorias expresa el grado de dependencia entre el comportamiento
de dichas variables. Formalmente: = Cov (Y , X )
( x )( y )

Se debe resaltar que las variables explicativas pueden ser de naturaleza estocstica, pero por simplicidad para el
anlisis de regresin se asume que los valores de X no cambian en diversas muestras, es decir son fijos en el muestreo
repetido. De hecho este supuesto deber imponerse al momento de querer obtener estimados de los verdaderos
parmetros. El problema asociado a la presencia de regresores (variables exgenas) estocsticos, ser abordado en
otro captulo.
4
Se puede expresar matemticamente de la siguiente manera: 3(un u+1) = (Q+1 Q f ) , donde un y Qf indican que el
producto est en pleno empleo y por tanto la tasa de desempleo (u) es la natural.
5
Son las funciones de probabilidad generadas por el comportamiento aleatorio conjunto de dos o ms variables y se
utilizan en el estudio de las relaciones existentes entre stas.

10

Econometra Moderna

El Modelo de Regresin Lineal

Siendo la primera la funcin de probabilidad condicional y la segunda la marginal. En el


anlisis economtrico, y tal como se indic anteriormente, se busca estimar la distribucin
condicional mientras que la marginal no se utilizar, por el momento.
De esta manera, si se tiene la siguiente funcin conjunta: C = f (r, Yd, w, Yp), sta nos
indica que el consumo es una funcin de la tasa de inters, el ingreso disponible, el salario y el
ingreso permanente. La funcin anterior expresa nicamente una relacin matemtica, sin
embargo, y tal como se indic en la introduccin del libro, uno de los objetivos de la
econometra es formular un modelo economtrico a partir de un modelo econmico, para luego
proceder a la estimacin y comprobacin del mismo a partir de los datos muestrales. En
consecuencia, se debe transformar la funcin anterior en un modelo economtrico, por ejemplo
consideremos el siguiente modelo de regresin lineal6:
C = 0 + 1 r + 2 Yd + 3 w + 4 Yp +

(1.2)

donde u es el componente estocstico o aleatorio, que recoge los efectos de variables no


incluidas en el modelo que no afectan de manera sistemtica a la variable endgena o explicada
(el consumo). Se supone que u es una variable aleatoria y tiene una distribucin de probabilidad
conocida que ser materia de estudio en un captulo posterior. El otro miembro de la ecuacin
indica la relacin exacta entre la variable explicada (C) y las dems variables llamadas
explicativas, es decir, es el componente determinstico (o predecible) del modelo. Los son
conocidos como parmetros y recogen los efectos ocasionados por las variaciones de las
variables r, Yd, w, y Yp sobre la variable C que se desea explicar. En trminos matemticos7,
cada parmetro indica la sensibilidad de la variable dependiente ante un cambio unitario en la
variable independiente.
El modelo economtrico especificado en la expresin (1.2), tiene como objetivo estimar el
valor del consumo sobre la base de valores fijos de las variables explicativas, utilizando un
conjunto de datos muestrales. Por tanto, una regresin de C sobre las dems variables se
interpreta como el valor esperado de la distribucin de probabilidad de C dado los valores de las
variables r, Yd, w y Yp, es decir, y tal como se dijo en la primera parte de este captulo, una
regresin puede interpretarse como la media condicional de Y dado X. Formalmente:
E (C /r, Yd, w, Yp ) = f (Xi)

(1.3)

Un punto importante que debe notarse es que la estructura de la relacin entre la variable
explicada y las variables explicativas se supone que es lineal lo cual puede ser un aproximacin
muy gruesa de la realidad porque de hecho muchos eventos o fenmenos que se pretenden
explicar son de naturaleza no lineal. En todo caso el modelo de regresin lineal puede pensarse
como una aproximacin lineal de Taylor de un problema no lineal.

1.1.3

Definiciones Bsicas

Una vez que hemos entendido el concepto de regresin como la modelacin de la media
condicional de una distribucin de probabilidades es deseable realizar algunas definiciones
bsicas que vamos a utilizar a lo largo del libro.
El modelo de regresin lo podemos plantear de manera general de la siguiente forma:
6

Este modelo ser estudiado en el Captulo III.


Formalmente: Y = es decir, cada parmetro representa la derivada parcial de la variable dependiente con
i
X i
respecto a cada variable explicativa.
7

11

Econometra Moderna

El Modelo de Regresin Lineal

y t = 1 + 2 x 2t + 3 x3t + ............. + k x kt + t
La variable Y que es aquella que condicionamos a los valores que adopte las dems variables
(X) recibe indistintamente le nombre de variable explicada, endgena o dependiente. Las
variables a la derecha del modelo reciben el nombre de variables explicativas, exgenas o
independientes. Como vemos el modelo es un modelo lineal el cual supone que los efectos de
cada una de las variables explicativas se pueden agrupar de manera separada y el efecto
conjunto se da de manera aditiva. El plantear el modelo de esta manera nos permite decir que lo
que estamos haciendo es separar a la variable explicada en dos conjuntos:

La parte sistemtica o determinstica que viene representada por :

1 + 2 x 2t + 3 x3t + ............. + k x kt
Esta es la parte que es sugerida por el investigador y establece una relacin sistemtica
y de dependencia entre la variable explicada y las variables explicativas. Dado el
concepto de media condicional de la regresin, la parte sistemtica representa lo que en
promedio se dar cuando los valores de las X estn dados. Esta ser la parte explicada
por nuestro modelo de los valores de Y. Otra forma de apreciar esta parte es que
representa lo que nosotros podremos predecir con nuestro modelo. Dado el carcter de
media condicional, la prediccin ser aquel valor que esperamos tenga nuestra variable
dependiente con mayor probabilidad.

La parte aleatoria o estocstica que viene representada por el trmino de error ( ).


Dado que la economa busca estudiar el comportamiento econmico de las personas no
podemos pensar en encontrar relaciones exactas que gobiernen el comportamiento de
los agentes econmicos. Las personas, empresas o el Estado se desenvuelven en un
contexto estocstico debido a que existen muchos factores no controlables como los
estados de la naturaleza, movimientos bruscos en el mercado, factores polticos o los
descubrimientos de nuevos productos y tecnologas que pueden afectar de manera
inesperada cualquier relacin que queramos estimar. Estos factores pueden ser
importantes en un momento determinado pero no afectan de manera permanente a la
variable dependiente. Un ejemplo de ello puede ser la presencia del fenmeno del nio.
Como sabemos, este fenmeno aparece de manera inesperada y no se sabe cada qu
tiempo afecta al Per. As, en un determinado ao podramos tener que todas las
variables que afectan la producto de manera sistemtica (incluidas en la parte explicada
de la regresin) tengan un determinado valor. Si utilizamos nuestra relacin estimada
podramos obtener algn resultado esperado, pero si se produce el fenmeno del nio,
nos podramos alejar considerablemente del valor que el modelo nos arroja como el ms
probable.

Otro concepto que debemos utilizar es el referido al tipo de datos que podemos encontrar en la
realizacin de trabajos empricos. Los datos pueden clasificarse de la siguiente manera:

Datos de Series de Tiempo: En este caso podemos pensar que el individuo sobre el cual
se mide la variable es el mismo y se observa ste a lo largo del tiempo. Un ejmplo
podra ser el individuo PERU para el cual se miden a lo largo del tiempo los valores del
producto bruto interno.

Datos de Corte Transversal: En este caso lo fijo es la unidad de tiempo y lo que varan
son los individuos. Un ejemplo de esto son las encuestas que se hacen en un momento
determinado del tiempo. En el Per tenemos varios casos de encuestas realizadas como
la Encuesta Nacional de Niveles de Vida (ENNIV) que sirve para analizar la calidad de

12

Econometra Moderna

El Modelo de Regresin Lineal

vida de las personas a travs de la medicin de ingresos y acceso a servicios bsicos


como la salud, educacin, nutricin. Etc.

Datos Longitudinales: Esta tercera categora es una combinacin de las dos anteriores.
Podramos pensar en encuestas o mediciones que se hacen a distintos individuos en
diferentes perodos de tiempo. Esto implica construir un panel de datos cuya realizacin
es costosa porque implica hacer un seguimiento a los individuos a fin de poder ubicarlos
para realizar la recoleccin de la informacin a lo largo del tiempo. En el Per son
pocos los casos en donde se han construido estos paneles de datos. Sin embargo,
empresas privadas han invertido en la construccin de estos paneles dado que proveen
muy buena informacin acerca de cambios en los patrones de consumo e ingresos de las
personas.

Una vez realizada esta definicin de conceptos bsicos es de suma utilidad iniciar el estudio
de los mtodos y formas que se encuentran disponibles para la obtencin de los parmetros de
los modelos que pretendamos estimar.

1.1.4 Cmo obtener los parmetros?


Si analizamos nuestro modelo, veremos que dada una muestra determinada, conocemos los
valores muestrales tanto de la variable dependiente como de la dependiente. Sin embargo, los
parmetros verdaderos (los s) son desconocidos. Por ello, debemos desarrollar una estrategia
que nos permita realizar una estimacin adecuada de los mismos. En este punto es conveniente
tener claro el concepto de estimacin. Un estimador se define como cualquier frmula o funcin
de los datos que permite obtener estimaciones de los parmetros desconocidos. As, se deduce
que una estimacin es el valor numrico que resulta de la aplicacin de esta funcin a un
conjunto de datos muestrales especficos.8
Segn los expuesto, antes de proceder a explicar el proceso de estimacin debemos hacer
ciertas aclaraciones. El modelo planteado por el investigador sobre la base de consideraciones
tericas o apreciaciones intuitivas es un modelo desconocido al cual llamaremos modelo
terico. El modelo con el cual trabajaremos en la prctica implicar que se reemplazar los
parmetros desconocidos por los estimadores correspondientes. Como estos no son los
verdaderos sino aproximaciones que esperamos cumplan con ciertas condiciones deseables que
veremos ms adelante, los errores tampoco sern los verdaderos sino aproximaciones. Lo ideal
es que exista cierta conexin entre el modelo terico y el emprico. Esto lo podemos ilustrar con
las siguientes expresiones:
Y = X + u

modelo
terico

Y = X + e

(1.4)

modelo
emprico

En este caso hemos optado por expresar el modelo de manera general donde X es una matriz
que contiene todos los datos de las variables explicativas. Denotaremos al nmero de variables
explicativas como k y tendremos n datos. Por lo tanto, el orden de la matriz X ser nxk. es
un vector columna que contiene a los k parmetros del modelo. De manera similar el orden del
vector Y y del vector de errores (sean tericos o empricos) ser de nx1 y .Como se puede
apreciar, en el modelo emprico se ha reemplazado al parmetro verdadero y desconocido ( )
8

Esto implica que para otra muestra (la cual puede variar debido al mtodo de muestreo) puedo obtener distintos
estimados de los parmetros a pesar de que el estimador (funcin donde se reemplazan los datos) sea el mismo para
todas las muestras posibles.

13

Econometra Moderna

El Modelo de Regresin Lineal

por su estimador ( ). De igual manera ocurre con los errores tericos ( ) y los errores
empricos (e). Si bien son dos las magnitudes desconocidas en este modelo (los parmetros y
los errores) debe notarse que una vez que obtenemos los estimados de los parmetros quedan
determinados los errores empricos. Por ello, el nfasis estar centrado en la estimacin de los
parmetros.
La estimacin de los parmetros se deriva de un problema de prediccin condicional. En
dicho problema se observa la realizacin de un vector aleatorio X y se desea predecir la
realizacin de una variable aleatoria Y.
En este punto debemos introducir el concepto de funcin de prdida, la cual recibe este
nombre debido a que la presencia de un estimador implica que existe un predictor que trata de
explicar o aproximarse lo ms posible al verdadero valor de Y. As, el planteamiento de una
funcin de prdida tiene como objetivo lograr que el modelo sujeto a estimacin se parezca lo
ms posible a lo observado en la realidad. En consecuencia, el mejor predictor ser aqul que
minimice la prdida esperada de una funcin de prdida especfica. Dicho predictor resuelve un
problema de minimizacin de la siguiente forma:
Min E [L (Y - P) / X]
P

(1.5)

Observado Estimado
Siendo la funcin de prdida L, P denota un predictor de Y y E (L (Y P) / X ) es la prdida
esperada, condicional en X, cuando P es usado para predecir Y. Esta funcin debe satisfacer la
siguiente condicin:
0<u<v
0=L(0)L(u) L(v)

(1.6)

0 = L(0) L(-u ) L(-v )

(1.7)

Evidentemente, la idea es que la funcin de prdida sea lo ms pequea posible, donde u y v


son los valores para el error de prediccin (Y P). Si la funcin de prdida es fija, el valor del
mejor predictor depende slo de la distribucin de probabilidad de Y condicional en X. En
otras palabras, la estructura de la funcin es elegida por el investigador y lo que vara es el error
de prediccin para cada observacin muestral de X e Y. En consecuencia, el valor del mejor
predictor o estimador depender slo de la distribucin de probabilidad mencionada. En este
sentido, y recordando que la regresin es el valor esperado de la distribucin condicional de Y
dado X, deducimos que el mejor predictor se obtiene mediante una regresin. Algo que no debe
perderse de vista es que la proximidad entre el valor predicho y el valor verdadero depender de
la eleccin del estimador. Por ello, deber elegirse aquel estimador que haga mnima la
diferencia dada una funcin de prdida.
En la prctica, los mejores predictores son los que se estudian ms detalladamente en el
anlisis de regresin. Ellos describen brevemente la manera cmo vara Y ante cambios en los
regresores (X). Sin embargo, existen distintas funciones de prdida interesantes y, a su vez,
muchas maneras de interpretar formalmente la posicin de una variable aleatoria. A
continuacin se presentan algunas funciones de prdida conocidas y los distintos predictores
que se derivan de ellas.

i) Prdida cuadrtica: La funcin de prdida cuadrtica es:


14

Econometra Moderna

El Modelo de Regresin Lineal

L (u) u2

(1.8)

En este caso, el mejor predictor resulta la media condicional de Y en X. Este resultado se


obtiene mediante el mtodo de estimacin de Mnimos Cuadrados Ordinarios, como veremos en
el siguiente captulo.

ii) Prdida absoluta: Cuya funcin de prdida es la siguiente:


L (u) u

(1.9)

Si tomamos esta funcin de prdida, el mejor predictor es la mediana de Y condicional en X.

iii) Prdida discreta: Dada una constante positiva , la funcin de prdida discreta sera:
L( * , )
L ( u ) 0 si u <
L ( u ) 1 si u

(1.10)
(1.11)

En este caso, el mejor predictor es el punto medio del intervalo de longitud 2 que tiene la
ms alta probabilidad de contener a Y. En la medida en que se aproxime a cero, el mejor
predictor se aproximar a la moda de Y condicional en X.
En general, la media, la mediana y la moda de la regresin de Y en X difieren entre s. La
media como regresin puede ser lineal en X mientras que la mediana puede no serlo, o ambas
pueden ser lineales pero con diferentes pendientes. Por otro lado, puede ser posible que una
regresin aumente con X mientras la otra decrezca, o viceversa .
En el problema de prediccin descrito, la funcin de prdida escogida determina la regresin
sujeta a anlisis. Dicha funcin debe reflejar las prdidas asociadas al error de prediccin, en
otras palabras, debe reflejar cun cerca estn las predicciones del modelo con respecto a las
observaciones reales. En ello radica la importancia de escoger una adecuada funcin de prdida
aunque dicha necesidad disminuye slo si uno cuenta con alguna informacin acerca de la
distribucin, lo que implica que distintos predictores se comporten similarmente.

1.2

Mtodos de estimacin de los parmetros

Cuando se efecta una regresin se puede seleccionar el mtodo de estimacin ms


adecuado, dependiendo de la informacin previa a la que el investigador tiene acceso. Por
ejemplo, si no se cuenta con informacin acerca de la forma de la regresin o no es de inters la
estimacin de un forma particular y slo se quiere haceruna aproximacin general de la funcin
de densidad, se puede realizar una estimacin no paramtrica, concepto que est fuera del
alcance del presente libro9. De otro modo, si se quiere trabajar con un modelo de regresin
paramtrica existen distintos mtodos de estimacin que se pueden entre los cuales se puede n
mencionar los siguientes: El mtodo de Mnimos Cuadrados Ordinarios, el de Momentos
Muestrales o el de Mxima Verosimilitud, los cuales se definirn a continuacin y
9

El lector interesado puede revisar el trabajo de Pagan y Ullah (1999) Nonparametric Econometrics Cambridge
University Press.

15

Econometra Moderna

El Modelo de Regresin Lineal

posteriormente se discutirn en detalle. Esos mtodos son los ms utilizados y responden a


diferentes criterios con sus respectivas funciones de prdida pero debe tenerse en cuenta que son
arbitrarios. Su utilizacin generalizada obedece a que cumplen con una serie de propiedades
deseables que facilitan su aplicacin.
i) Mnimos Cuadrados Ordinarios (MCO)
El mtodo de Mnimos Cuadrados es uno de los ms usados, eficaces y conocidos del
anlisis de regresin debido al contenido de las propiedades estadsticas que posee. El principio
sobre el cual descansa esta metodologa consiste en hacer mnimos la norma del vector de
errores o perturbaciones del modelo10. Formalmente este criterio de puede establecer de la
siguiente forma:
n

Min

e = (y
2
i

x i ) 2

(1.12)

i =1

La minimizacin de los errores al cuadrado presenta una ventaja con respecto a la


minimizacin de la suma de errores sin elevar al cuadrado dado que sta puede verse afectada
por los signos de los errores. As, podemos tener errores positivos muy grandes y errores
negativos muy grandes que se compensan por lo que la suma podra ser cero pero ello no
implicara que la regresin estimada sera buena dado que los errores tendran una magnitud
considerable.
ii) Mtodo de Momentos
El objetivo de este mtodo consiste en aproximar lo ms posible los momentos muestrales a
los poblacionales. Recordemos que un momento es un estadstico que resume algunas
caractersticas de una distribucin de probabilidad, tal como un valor esperado o una desviacin
estndar. Las ecuaciones a partir de las cuales se determinan los parmetros se obtienen al
reemplazar los supuestos poblacionales por sus contrapartes muestrales. Si la funcin de prdida
est fijada en trminos de la distancia entre los momentos poblacionales y los muestrales la
eleccin de los parmetros ser aquella que minimice esta distancia. Este mtodo ha sido
generalizado por Hansen y Singleton (1982) en donde podemos utilizar ms de un momento
para la estimacin de cada parmetro de un modelo.
iii) Mxima Verosimilitud
Este mtodo consiste en maximizar la probabilidad de que una muestra dada pertenezca a
determinada distribucin. Para ello se plantea como supuesto que la variable Y tiene una
distribucin de probabilidad y se desea lograr que dicho supuesto inicial sea lo ms verosmil
posible, si slo se cuenta con la muestra. Es decir, los coeficientes estimados son aquellos que
hacen mxima la probabilidad de que la muestra pertenezca a la distribucin supuesta.

1.3

Significado de la lnea de regresin

Cuando se define la regresin como la media condicional de Y dado los valores de las
observaciones de X, de hecho podemos representar geomtricamente este concepto a travs de
una lnea o curva de regresin.
De este modo, una curva de regresin llamada poblacional, es aquella que muestra el lugar
geomtrico de las medias condicionales o esperanzas de la variable endgena para los valores
fijos de la(s) variable(s) exgena(s). Esto se puede apreciar en la siguiente figura:
10

Debe tenerse en cuenta que la minimizacin de la norma de un vector implica la minizacin de la raz cuadrada de
la sumatoria de cada uno de los elementos del vector elevados al cuadrado.

16

Econometra Moderna

El Modelo de Regresin Lineal

Figura 1.1
Lnea de regresin poblacional

La figura muestra cmo para cada X existen valores poblacionales de Y, y una media
condicional correspondiente. Precisamente, la lnea o curva de regresin pasa por las medias
condicionales de la variable Y, y denota alguna funcin de la variable dependiente X. As, se
define formalmente la regresin como:
E(Y/X ) = f (Xi)

(1.13)

y, en el modelo de regresin lineal simple (donde slo se incluye una variable explicativa) se
puede tener la siguiente funcin lineal de X:
E( Y/X ) = 0 + 1Xi

(1.14)

Los parmetros o coeficientes de regresin son los de la ecuacin anterior. Asimismo,


0 es el llamado intercepto y 1 es el coeficiente de la pendiente.
En el anlisis de regresin lo que se busca es estimar los parmetros desconocidos teniendo
como base las observaciones de X e Y. Sin embargo, se debe tomar en cuenta que a cada valor
de X no necesariamente le corresponde un valor de Y que se encuentre sobre la lnea de
regresin. En otras palabras, el valor de una variable explicada para una observacin en
particular se encuentra alrededor de su esperanza condicional. De este modo, se puede expresar
la desviacin o perturbacin de un valor de Y alrededor de su media o esperado de la siguiente
forma:
i = Yi E (Y / X i )

(1.15)

Despejando la ecuacin, queda:

17

Econometra Moderna

El Modelo de Regresin Lineal


Yi = E(Y / X i ) + i

(1.16)

y reemplazando la ecuacin (1.14) en (1.16) resulta:


Yi = 0 + 1 X i + i

i=1,2, ... , n

(1.17)

Como se mencion en la seccin anterior, i es llamado perturbacin estocstica o


estructural e introduce el elemento aleatorio a la ecuacin de regresin, pudiendo tomar valores
positivos o negativos para cada observacin muestral.
Cabe mencionar que en la mayora de casos, no es posible disponer de todas las
observaciones de la poblacin, dado que en la prctica solamente se cuenta con una muestra de
valores de Y que corresponden a los valores fijos de X. Con dicha informacin muestral se
deber estimar la funcin de regresin anterior, de modo que cuando se reemplacen los valores
estimados para 0 y 1 se hallar la siguiente ecuacin, tambin llamada funcin de regresin
muestral:
Yi = 0 + 1 X i

(1.18)

La ecuacin muestra las estimaciones de los coeficientes de regresin. Esta funcin es una
aproximacin a la ecuacin de regresin poblacional, por eso se dice, en algunos casos, que Yi
sobreestima o subestima la verdadera E(Y/X). Es decir, el valor estimado de Y puede hallarse
sobre la lnea de regresin poblacional y como consecuencia presentar un error positivo o el
valor estimado de Y puede encontrarse bajo la lnea de regresin poblacional, y por lo tanto
presentar un error negativo. En este sentido, lo importante en el anlisis de regresin consiste en
disear una regla o mtodo que consiga que dicha aproximacin se acerque lo ms posible a los
verdaderos valores de los parmetros, an cuando nunca se llegue a conocerlos.
El siguiente captulo se ocupar de abordar dicho problema empezando con el anlisis de un
modelo de regresin lineal simple. Sin embargo, es importante advertir que en los procesos
econmicos, por lo general, se precisa de ms de una causa para explicar de forma adecuada el
comportamiento de una variable aleatoria, o bien se utilizan formas ms complicadas que la
lineal. A pesar de ello, es conveniente realizar una primera aproximacin analizando la
especificacin ms sencilla, de modo que luego se podr comprender con menor dificultad el
modelo de regresin lineal mltiple o general, cuyo estudio detallado ser materia del Captulo
3.

SUPUESTOS DEL MODELO DE REGRESIN LINEAL

El objetivo de un anlisis de regresin no slo consiste en estimar los coeficientes de


regresin, sino tambin en hacer inferencia acerca de los verdaderos valores de los parmetros
( 0, 1). En otras palabras, se desea saber cun cerca estn los estimadores de sus contrapartes
poblacionales, o cun cerca est el valor estimado de Y de la verdadera E(Y/X). Por ello, resulta
necesario plantear ciertos supuestos sobre el proceso generador de las variables endgenas (Y).
As y debido a que la funcin de regresin poblacional de Y, depende de las variables X y de i,
es necesaria una especificacin de la forma como se generan las variables explicativas y los
errores. En este sentido, los supuestos que se plantean a continuacin resultan crticos para
interpretar en forma vlida los estimadores de una regresin lineal.

18

Econometra Moderna

El Modelo de Regresin Lineal

Antes de proceder con la descripcin de los supuestos, cabe mencionar que el modelo clsico
de regresin lineal se atribuye al matemtico alemn Carl Friedrich Gauss, por quien tambin
recibe el nombre de Modelo de Gauss. Este matemtico plante diez supuestos, vlidos tanto
para el anlisis de regresin simple como para el modelo de regresin lineal mltiple, o de ms
de un regresor.
Primer supuesto: El modelo es estocstico
Esto se debe a la inclusin de un componente aleatorio en el modelo, expresado por el
trmino de error (i). La inclusin del trmino de error se debe a las siguientes razones:

Las respuestas humanas son impredecibles, puesto que las personas no tienen un patrn
preestablecido de preferencias, hbitos de consumo, etc.

Omisin de variables explicativas que deberan incluirse en el modelo. Pretender que las
variables independientes pueden explicar la estructura o predecir exactamente el
comportamiento de la variable dependiente es una ilusin, debido a que en la realidad
existen otros factores que afectan el comportamiento de la variable explicada que no son
incluidos en el modelo. En efecto, puede suceder que las variables explicativas sean muy
difciles de medir. Por ejemplo, consideremos un modelo donde se busca explicar la
demanda a travs de la utilidad que brinda el consumo de un determinado bien. De hecho, la
cuantificacin y medicin de la variable utilidad resulta una tarea bastante difcil debido al
carcter subjetivo de la misma. En este sentido, la falta de informacin muestral conducira
a una mala medicin o a la omisin de una variable relevante. Por otro lado, si dichas
variables pueden medirse pero su impacto sobre Y no es significativo, entonces no amerita
su inclusin.

Errores de medicin en la variable endgena (Y). Esto ocurre frecuentemente debido a que
las estimaciones de Y se realizan sobre la base de muestras finitas, adems de que dicha
variable puede no ajustarse a la teora econmica que el investigador desea contrastar. Por
ello, el investigador debe decidir con cuidado el papel que desempea cada variable, es
decir, debe definir adecuadamente las variables exgenas y la endgena.

Agregacin de variables. En muchos casos, la relacin existente entre la variable endgena


y las exgenas es un intento por resumir un conjunto de observaciones individuales en un
agregado econmico. Por ejemplo, el gasto agregado intenta resumir un conjunto de
decisiones individuales de gasto. En este sentido, y debido a que las relaciones individuales
son probablemente distintas entre individuos, cualquier intento de relacionar el gasto
agregado con el consumo agregado es una aproximacin. As, la diferencia se le atribuye al
trmino de error.

Como ya se mencion existe una distincin entre el error terico o poblacional (i) y el error
de estimacin o emprico. El primero responde a la necesidad de introducir un elemento
aleatorio en el modelo por razones antes expuestas mientras que el error de estimacin se define
como la diferencia entre el estimado de la variable dependiente (X ) y la verdadera E (Y/X).
Segundo supuesto: La esperanza matemtica del trmino de error o perturbacin es cero.
Esto se expresa de la siguiente manera:
E(i) = 0

(1.19)

Este supuesto indica que el valor de la media condicional del trmino de error para cualquier
variable explicativa X dada, es idntico a cero. De este modo, este supuesto garantiza que las

19

Econometra Moderna

El Modelo de Regresin Lineal

variables que no estn incluidas en el modelo (y que por tanto estn incorporadas en i), no
trasmiten ningn efecto sistemtico sobre la media condicional de Y dado X. En trminos ms
sencillos, los valores negativos de i se compensan con sus realizaciones positivas. Por ello, en
promedio no presentan ningn efecto sobre la variable dependiente del modelo. Aquellas
variables no incluidas en el modelo pero que afectan de manera sistemtica son recogidas por el
intercepto del modelo.
Tercer supuesto: La varianza del error es constante (el error es homocedstico).
Formalmente:
Var(i) = 2

i = 1,2,3,...,n

(1.20)

Esto implica que el trmino de error tiene igual(homo) dispersin(cedasticidad). Aqu


debemos mencionar que un supuesto implcito en el modelo de regresin lineal es que cada uno
de los errores proviene de una distribucin de probabilidades. El valor que observamos del error
para cada observacin es la realizacin de la variable aleatoria ante la ocurrencia de un
determinado evento. Entonces una forma de entender le presente supuesto es que implica que la
varianza de cada una de las distribuciones de los distintos errores aplicables para cada
observacin es la misma. En otras palabras, y dados los valores de X, la varianza del error no
cambia para distintas observaciones11. El siguiente grfico ilustra los conceptos que hemos
mencionado hasta el momento:

Figura 1.2

11

Evidentemente, cada trmino de error representa la realizacin de un proceso estocstico y lo que se asume a travs
de este supuesto es que las distribuciones de donde son extrados estos errores presentan igual dispersin.

20

Econometra Moderna

El Modelo de Regresin Lineal

Como podemos apreciar, en el eje de la variable X suponemos que sus distintos valores estn
fijos lo que se refleja en las lneas discontinuas que parten de los valores x1 y x2 . Ante estos
valores fijos de la variable explicativa tenemos diversas posibilidades de que ocurran diversos
eventos lo que se refleja en todas la posibilidades de valores que puede tomar la variable
dependiente (y). Estas distintas posibilidades (y sus probabilidades respectivas) determinan la
funcin de distribucin de los errores.
Cuando no se verifica este supuesto, se dice que el trmino de perturbacin es
heterocedstico, es decir, posee una dispersin diferente para cada observacin. Formalmente:
Var(i) = i2

i = 1,2,3,..., n

(1.21)

El subndice i indica que la varianza del trmino de error no es constante ya que presenta un
valor distinto para cada observacin de X. En consecuencia, no todos los valores de Y, que
corresponden a distintos valores de X, sern de igual importancia y confianza como indicadores
de la posicin de la lnea de regresin. Se dicen que son confiables cuando poseen menor
dispersin, es decir, se mide la confiabilidad por la cercana con la cual se distribuyen los
valores de Y alrededor de sus medias, esto es, sobre la lnea de regresin poblacional. Si
analizamos con cuidado la expresin (1.12) notaremos que el error que se minimiza es la
diferencia entre el valor observado (Yi) y el estimado , de este modo se requiere que los valores
observados sean indicadores confiables de la posicin de la lnea de regresin poblacional, esto
es, E(Y/X).
Cuarto supuesto: Ausencia de autocorrelacin entre los errores.
Formalmente:

Cov(i, j) = 0 i j

(1.22)

Lo anterior implica que no existe autocorrelacin o correlacin serial entre los trminos de
error i y j, dadas las observaciones xi y xj. En este sentido, podemos definir el trmino
autocorrelacin como la correlacin entre miembros de series de observaciones ordenadas en el
tiempo (informacin de series de tiempo) o en el espacio (en informacin de corte tranversal).
En otras palabras, si disponemos de datos de series de tiempo, se dice que un error t para un
periodo de tiempo t, est correlacionado con los trminos de error t+1, t+2, .. y t-1, etc.
Un ejemplo tpico donde se detecta la presencia de autocorrelacin positiva ocurre bajo el
modelo de expectativas adaptativas. Supongamos que los agentes econmicos realizan su
pronstico de la inflacin futura basados en la inflacin pasada, solamente. Formalmente:
P e +1 = P e + v( P P e )

(1.23)

Esta ecuacin implica que la expectativa de la inflacin de maana es una combinacin


lineal de la expectativa para el perodo actual y el error de prediccin registrado en este periodo.
En este sentido, y en la medida en que los errores cometidos en el periodo actual se trasmiten al
prximo a travs del mecanismo descrito en (1.23), el pronstico de la inflacin evidenciar
cierta inercia, es decir, estar autocorrelacionado con el error de prediccin registrado en este
periodo.
En cambio, si se considera un modelo de expectativas racionales sabemos que los agentes
econmicos utilizan eficientemente toda la informacin disponible, ya sea porque conocen y
entienden el modelo que esta utilizando el Estado para hacer poltica econmica o simplemente
conocen al modelo que explica la economa. Por lo tanto, al plantear sus expectativas de
inflacin futura lo hacen sobre la base de expectativas sobre las futuras polticas econmicas.
De lo anterior se puede inferir que los errores no son sistemticos o no presentan correlacin

21

Econometra Moderna

El Modelo de Regresin Lineal

alguna.
Los supuestos tercero y cuarto pueden resumirse en uno solo si pensamos en el moelo
planteado de forma matricial. El vector de errores del modelo es de dimensin Nx1 o Tx1, si se
habla de informacin muestral de corte transversal o de series de tiempo, respectivamente. Por
consiguiente su matriz de varianza y covarianzas es simtrica y definida positiva, de dimensin
NxN o TxT, para cada caso. Esto se ilustra con la siguiente expresin:
Var ( 1 )
Cov( 1 , 2 ) ... Cov( 1 , n )

Cov( 2, 1 )
Var ( 2 )
...

E ( ' ) = Var ( ) =

...
...
...

Var ( n )
Cov( n, 1 ) Cov ( n , 2 )

En trminos de esta matriz el tercer supuesto implica que todos los elementos de la diagonal
principal son iguales. Por otro lado, el supuesto de ausencia de autocorrelacin, determina que
los elementos fuera de la diagonal principal son cero. De este modo, y de verificarse los dos
supuestos antes analizados, la matriz anterior se puede escribir como:
Var()=2In

(1.24)

Esto usualmente se conoce como el supuesto general de que los errores del modelo son
esfricos.
Quinto supuesto: Las variables explicativas y los errores son ortogonales entre s.
Formalmente:
Cov(xi,i) = 0

(1.25)

Este supuesto implica que los errores y las variables independientes no presentan
correlacin. Como ya hemos mencionado el anlisis de regresin lo que hace es descomponer a
la variable dependiente en dos partes: una explicada o determinstica y otra aleatoria o no
explicada. Por tanto, este supuesto implica que si no existe relacin entre las variables
explicativas (que son el componente esencial de la parte explicada) y aquella parte no explicada,
podemos descomponer el espacio donde est definida la variable dependiente en dos
subespacios que son ortogonales entre s12. En otras palabras, cuando se especifica el modelo,
se supone que las variables exgenas y los errores son dos partes separadas y aditivas de la
variable a explicar (Y).

Parte aleatoria
Parte determinstica

i
0 + 1Xi

Yi = 0 + 1Xi +i

Los supuestos 2, 3, 4 y 5, son tambin conocidos como las condiciones de Gauss-Markov.


12
Podemos ampliar el concepto utilizando conceptos de teora de conjuntos. Si tomamos que Y representa un
conjunto, el supuesto que estamos presentando implica que se puede descomponer dicho conjunto en dos
subconjuntos disjuntos (es decir, que no presentan interseccin).

22

Econometra Moderna

El Modelo de Regresin Lineal

Estos garantizan que el estimador de mnimos cuadrados ordinarios es eficiente propiedad que
analizaremos en los captulos 3 y 4. Por otro lado, los supuestos 2, 3 y 4 garantizan que los
errores del modelo son ruidos blancos.
Sexto supuesto: El modelo es lineal en los parmetros.
Se dice que un modelo tiene una especificacin lineal cuando la variable endgena Y, o
alguna transformacin monotnica de la misma, se puede expresar como una funcin lineal de
X o de alguna transformacin de ella. Al respecto, consideremos las siguientes relaciones:
Y = + X +

(1.26)

Y = 0 + 1 X + 2 X2 + 3 X3 +

(1.27)

Y = 0 + 21 X1+ 2 X2 +

(1.28)

La ecuacin (1.26) muestra una relacin lineal simple, mientras que la (1.27) es un modelo
lineal en parmetros, ms no en las variables. Por otro lado, la ecuacin (1.28) no es lineal en
parmetros, ni tampoco puede reducirse a una funcin que exprese una relacin lineal.
Ahora se considera el siguiente modelo que busca predecir la cantidad demandada(Q) dadas
las observaciones muestrales de la variable explicativa precio(P). El anlisis de este modelo
implica la estimacin de los parmetros y , sin embargo, y de acuerdo al supuesto de
linealidad, el modelo deber ser transformado de la siguiente manera:
Q = P e

(1.29)

LnQ = ln + lnP +

(1.30)

La linealiadad en los parmetros es relevante para el anlisis de regresin, por consiguiente, de


ahora en adelante cuando se diga que una regresin es lineal se referir a una regresin que es
lineal en los parmetros. Sin que esto necesariamente implique que tambin lo sea en las
variables explicativas (X).
Sptimo supuesto: Los parmetros son constantes entre observaciones.
Conocido tambin como el supuesto de estabilidad temporal, ste implica que los
coeficientes del modelo de regresin lineal son constantes en el tiempo. Igualmente, se supone
que el modelo es idntico para todas las observaciones de la muestra. De hecho, este supuesto
resulta esencial no slo si se pretende modelar la estructura que gobierna el comportamiento de
la variable dependiente sobre la base de las independientes, sino principalmente si se busca que
el modelo realice predicciones confiables. As, si la estructura que modela la variable
dependiente se mantiene inalterada a lo largo de todo el intervalo muestral, podemos asumir que
esta misma estructura se mantiene para periodos fuera del intervalo de la muestra y utilizar la
misma para predecir, este procedimiento es conocido como extrapolacin.

Octavo supuesto: Causalidad unidireccional.


El anlisis de regresin supone la existencia de una relacin causal desde las variables
independientes (X) hacia la variable dependiente (Y).
Cabe mencionar que desde un punto de vista meramente estadstico, el modelo de regresin
no necesariamente tiene una connotacin de causalidad. Es decir, de la misma manera como se

23

Econometra Moderna

El Modelo de Regresin Lineal

puede estimar una regresin de una variable dependiente Y sobre otra variable independiente X,
se puede estimar una regresin de modo inverso.
En cambio, al plantear un modelo economtrico se debe tener cuidado al especificar las
variables, y definir tanto las explicativas (consideradas fijas), como la variable a explicar
(considerada aleatoria). As, el investigador debe decidir el papel que le otorga a las diferentes
variables de modo que slo exista una direccin en la relacin de causalidad. A manera de
ejemplo, recordemos que la teora cuantitativa del dinero afirma que el volumen de
transacciones en una economa es igual a la cantidad de dinero que rota en la misma.
Formalmente:
P.Q=M.V

(1.31)

donde:
P= precio
Q= producto
M= dinero
V= velocidad de circulacin constante.
En la ecuacin anterior existe una relacin causal que va de M hacia P, es decir, el nivel de
precios es explicado por la cantidad de dinero en la economa. Sin embargo, no se cumple lo
contrario, puesto que el nivel de precios es una variable aleatoria (endgena), mientras que M es
fija o determinstica (exgena).
Sin duda, en trminos estadsticos podramos estimar una relacin de este tipo, esto es, una
regresin de la cantidad de dinero sobre el nivel de precios, sin embargo, esta especificacin no
tendra ningn sustento terico. En este sentido, el investigador debe decidir a priori cul es la
especificacin que va a utilizar sobre la base de la teora que busca verificar y una vez decidida,
se supone una nica direccin causal
Noveno supuesto: Las variables explicativas son linealmente independientes.
Este supuesto implica que ninguna de las variables explicativas involucradas en el modelo
puede expresarse en trminos de una combinacin lineal exacta de las dems. Si alguna de las
variables explicativas fuera una combinacin lineal de otra significara que la primera no aporta
nada adicional al modelo o que los efectos individuales que sta puede tener sobre la variable
dependiente se confunden con los de la segunda. Este problema es conocido como
multicolinealidad, el cul ser abordado con detalle en el Captulo (9)
Dcimo supuesto: Las variables independientes son fijas o determinsticas (no aleatorias)
Si revisamos con cuidado el anlisis hasta ahora expuesto, notaremos que este supuesto ha
estado implcito desde el inicio del captulo. Este supuesto implica que de poderse repetir el
proceso de muestreo numerosas veces, los valores observados de las variables exgenas no
deben cambiar.
Cuando se trabaja con datos de series temporales, es comn la aparicin de valores
retardados de la variable explicada (Y) como variables explicativas, ya que a veces las variables
econmicas no toman de inmediato el valor esperado por los agentes, y de ese modo incorporan
cierta inercia. De este modo, cuando los retardos (o rezagos) son incluidos en el modelo de
regresin como variables explicativas, se dice que son predeterminadas o en trminos ms
formales, que son realizaciones del proceso que gobierna el comportamiento de la variable
explicada. Este caso especfico se analizar en un captulo posterior.

3. A MODO DE RESUMEN
24

Econometra Moderna

El Modelo de Regresin Lineal

En este captulo hemos revisado los conceptos bsicos que estn detrs del anlisis de regresin
as como aquellos relevantes respecto a las variables incluidas en el modelo. De la misma
manera hemos revisado los principales supuestos que se realizan con respecto al modelo lineal
general que analizaremos en buena parte del libro. Debe entenderse que estos supuestos son, en
algunos casos, muy restrictivos y ser interesante analizar cules son los efectos de la relajacin
de los mismos sobre los distintos estimadores que estudiaremos ms adelante. Habiendo
establecido el lenguaje comn que utilizaremos a partir de ahora es importante iniciar la
exploracin de los distintos caminos con los que contamos para a obtencin de los parmetros
desconocidos de nuestro modelo. En primer lugar, analizaremos el estimador de mnimos
cuadrados ordinarios que es uno de los ms analizados y el mejor cuando trabajamos con
modelos lineales.

25

También podría gustarte