Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cap 01
Cap 01
Francis Galton, Family Likeness in Stature, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.
Econometra Moderna
(1.1)
El coeficiente de correlacin entre dos variables aleatorias expresa el grado de dependencia entre el comportamiento
de dichas variables. Formalmente: = Cov (Y , X )
( x )( y )
Se debe resaltar que las variables explicativas pueden ser de naturaleza estocstica, pero por simplicidad para el
anlisis de regresin se asume que los valores de X no cambian en diversas muestras, es decir son fijos en el muestreo
repetido. De hecho este supuesto deber imponerse al momento de querer obtener estimados de los verdaderos
parmetros. El problema asociado a la presencia de regresores (variables exgenas) estocsticos, ser abordado en
otro captulo.
4
Se puede expresar matemticamente de la siguiente manera: 3(un u+1) = (Q+1 Q f ) , donde un y Qf indican que el
producto est en pleno empleo y por tanto la tasa de desempleo (u) es la natural.
5
Son las funciones de probabilidad generadas por el comportamiento aleatorio conjunto de dos o ms variables y se
utilizan en el estudio de las relaciones existentes entre stas.
10
Econometra Moderna
(1.2)
(1.3)
Un punto importante que debe notarse es que la estructura de la relacin entre la variable
explicada y las variables explicativas se supone que es lineal lo cual puede ser un aproximacin
muy gruesa de la realidad porque de hecho muchos eventos o fenmenos que se pretenden
explicar son de naturaleza no lineal. En todo caso el modelo de regresin lineal puede pensarse
como una aproximacin lineal de Taylor de un problema no lineal.
1.1.3
Definiciones Bsicas
Una vez que hemos entendido el concepto de regresin como la modelacin de la media
condicional de una distribucin de probabilidades es deseable realizar algunas definiciones
bsicas que vamos a utilizar a lo largo del libro.
El modelo de regresin lo podemos plantear de manera general de la siguiente forma:
6
11
Econometra Moderna
y t = 1 + 2 x 2t + 3 x3t + ............. + k x kt + t
La variable Y que es aquella que condicionamos a los valores que adopte las dems variables
(X) recibe indistintamente le nombre de variable explicada, endgena o dependiente. Las
variables a la derecha del modelo reciben el nombre de variables explicativas, exgenas o
independientes. Como vemos el modelo es un modelo lineal el cual supone que los efectos de
cada una de las variables explicativas se pueden agrupar de manera separada y el efecto
conjunto se da de manera aditiva. El plantear el modelo de esta manera nos permite decir que lo
que estamos haciendo es separar a la variable explicada en dos conjuntos:
1 + 2 x 2t + 3 x3t + ............. + k x kt
Esta es la parte que es sugerida por el investigador y establece una relacin sistemtica
y de dependencia entre la variable explicada y las variables explicativas. Dado el
concepto de media condicional de la regresin, la parte sistemtica representa lo que en
promedio se dar cuando los valores de las X estn dados. Esta ser la parte explicada
por nuestro modelo de los valores de Y. Otra forma de apreciar esta parte es que
representa lo que nosotros podremos predecir con nuestro modelo. Dado el carcter de
media condicional, la prediccin ser aquel valor que esperamos tenga nuestra variable
dependiente con mayor probabilidad.
Otro concepto que debemos utilizar es el referido al tipo de datos que podemos encontrar en la
realizacin de trabajos empricos. Los datos pueden clasificarse de la siguiente manera:
Datos de Series de Tiempo: En este caso podemos pensar que el individuo sobre el cual
se mide la variable es el mismo y se observa ste a lo largo del tiempo. Un ejmplo
podra ser el individuo PERU para el cual se miden a lo largo del tiempo los valores del
producto bruto interno.
Datos de Corte Transversal: En este caso lo fijo es la unidad de tiempo y lo que varan
son los individuos. Un ejemplo de esto son las encuestas que se hacen en un momento
determinado del tiempo. En el Per tenemos varios casos de encuestas realizadas como
la Encuesta Nacional de Niveles de Vida (ENNIV) que sirve para analizar la calidad de
12
Econometra Moderna
Datos Longitudinales: Esta tercera categora es una combinacin de las dos anteriores.
Podramos pensar en encuestas o mediciones que se hacen a distintos individuos en
diferentes perodos de tiempo. Esto implica construir un panel de datos cuya realizacin
es costosa porque implica hacer un seguimiento a los individuos a fin de poder ubicarlos
para realizar la recoleccin de la informacin a lo largo del tiempo. En el Per son
pocos los casos en donde se han construido estos paneles de datos. Sin embargo,
empresas privadas han invertido en la construccin de estos paneles dado que proveen
muy buena informacin acerca de cambios en los patrones de consumo e ingresos de las
personas.
Una vez realizada esta definicin de conceptos bsicos es de suma utilidad iniciar el estudio
de los mtodos y formas que se encuentran disponibles para la obtencin de los parmetros de
los modelos que pretendamos estimar.
modelo
terico
Y = X + e
(1.4)
modelo
emprico
En este caso hemos optado por expresar el modelo de manera general donde X es una matriz
que contiene todos los datos de las variables explicativas. Denotaremos al nmero de variables
explicativas como k y tendremos n datos. Por lo tanto, el orden de la matriz X ser nxk. es
un vector columna que contiene a los k parmetros del modelo. De manera similar el orden del
vector Y y del vector de errores (sean tericos o empricos) ser de nx1 y .Como se puede
apreciar, en el modelo emprico se ha reemplazado al parmetro verdadero y desconocido ( )
8
Esto implica que para otra muestra (la cual puede variar debido al mtodo de muestreo) puedo obtener distintos
estimados de los parmetros a pesar de que el estimador (funcin donde se reemplazan los datos) sea el mismo para
todas las muestras posibles.
13
Econometra Moderna
por su estimador ( ). De igual manera ocurre con los errores tericos ( ) y los errores
empricos (e). Si bien son dos las magnitudes desconocidas en este modelo (los parmetros y
los errores) debe notarse que una vez que obtenemos los estimados de los parmetros quedan
determinados los errores empricos. Por ello, el nfasis estar centrado en la estimacin de los
parmetros.
La estimacin de los parmetros se deriva de un problema de prediccin condicional. En
dicho problema se observa la realizacin de un vector aleatorio X y se desea predecir la
realizacin de una variable aleatoria Y.
En este punto debemos introducir el concepto de funcin de prdida, la cual recibe este
nombre debido a que la presencia de un estimador implica que existe un predictor que trata de
explicar o aproximarse lo ms posible al verdadero valor de Y. As, el planteamiento de una
funcin de prdida tiene como objetivo lograr que el modelo sujeto a estimacin se parezca lo
ms posible a lo observado en la realidad. En consecuencia, el mejor predictor ser aqul que
minimice la prdida esperada de una funcin de prdida especfica. Dicho predictor resuelve un
problema de minimizacin de la siguiente forma:
Min E [L (Y - P) / X]
P
(1.5)
Observado Estimado
Siendo la funcin de prdida L, P denota un predictor de Y y E (L (Y P) / X ) es la prdida
esperada, condicional en X, cuando P es usado para predecir Y. Esta funcin debe satisfacer la
siguiente condicin:
0<u<v
0=L(0)L(u) L(v)
(1.6)
(1.7)
Econometra Moderna
L (u) u2
(1.8)
(1.9)
iii) Prdida discreta: Dada una constante positiva , la funcin de prdida discreta sera:
L( * , )
L ( u ) 0 si u <
L ( u ) 1 si u
(1.10)
(1.11)
En este caso, el mejor predictor es el punto medio del intervalo de longitud 2 que tiene la
ms alta probabilidad de contener a Y. En la medida en que se aproxime a cero, el mejor
predictor se aproximar a la moda de Y condicional en X.
En general, la media, la mediana y la moda de la regresin de Y en X difieren entre s. La
media como regresin puede ser lineal en X mientras que la mediana puede no serlo, o ambas
pueden ser lineales pero con diferentes pendientes. Por otro lado, puede ser posible que una
regresin aumente con X mientras la otra decrezca, o viceversa .
En el problema de prediccin descrito, la funcin de prdida escogida determina la regresin
sujeta a anlisis. Dicha funcin debe reflejar las prdidas asociadas al error de prediccin, en
otras palabras, debe reflejar cun cerca estn las predicciones del modelo con respecto a las
observaciones reales. En ello radica la importancia de escoger una adecuada funcin de prdida
aunque dicha necesidad disminuye slo si uno cuenta con alguna informacin acerca de la
distribucin, lo que implica que distintos predictores se comporten similarmente.
1.2
El lector interesado puede revisar el trabajo de Pagan y Ullah (1999) Nonparametric Econometrics Cambridge
University Press.
15
Econometra Moderna
Min
e = (y
2
i
x i ) 2
(1.12)
i =1
1.3
Cuando se define la regresin como la media condicional de Y dado los valores de las
observaciones de X, de hecho podemos representar geomtricamente este concepto a travs de
una lnea o curva de regresin.
De este modo, una curva de regresin llamada poblacional, es aquella que muestra el lugar
geomtrico de las medias condicionales o esperanzas de la variable endgena para los valores
fijos de la(s) variable(s) exgena(s). Esto se puede apreciar en la siguiente figura:
10
Debe tenerse en cuenta que la minimizacin de la norma de un vector implica la minizacin de la raz cuadrada de
la sumatoria de cada uno de los elementos del vector elevados al cuadrado.
16
Econometra Moderna
Figura 1.1
Lnea de regresin poblacional
La figura muestra cmo para cada X existen valores poblacionales de Y, y una media
condicional correspondiente. Precisamente, la lnea o curva de regresin pasa por las medias
condicionales de la variable Y, y denota alguna funcin de la variable dependiente X. As, se
define formalmente la regresin como:
E(Y/X ) = f (Xi)
(1.13)
y, en el modelo de regresin lineal simple (donde slo se incluye una variable explicativa) se
puede tener la siguiente funcin lineal de X:
E( Y/X ) = 0 + 1Xi
(1.14)
(1.15)
17
Econometra Moderna
(1.16)
i=1,2, ... , n
(1.17)
(1.18)
La ecuacin muestra las estimaciones de los coeficientes de regresin. Esta funcin es una
aproximacin a la ecuacin de regresin poblacional, por eso se dice, en algunos casos, que Yi
sobreestima o subestima la verdadera E(Y/X). Es decir, el valor estimado de Y puede hallarse
sobre la lnea de regresin poblacional y como consecuencia presentar un error positivo o el
valor estimado de Y puede encontrarse bajo la lnea de regresin poblacional, y por lo tanto
presentar un error negativo. En este sentido, lo importante en el anlisis de regresin consiste en
disear una regla o mtodo que consiga que dicha aproximacin se acerque lo ms posible a los
verdaderos valores de los parmetros, an cuando nunca se llegue a conocerlos.
El siguiente captulo se ocupar de abordar dicho problema empezando con el anlisis de un
modelo de regresin lineal simple. Sin embargo, es importante advertir que en los procesos
econmicos, por lo general, se precisa de ms de una causa para explicar de forma adecuada el
comportamiento de una variable aleatoria, o bien se utilizan formas ms complicadas que la
lineal. A pesar de ello, es conveniente realizar una primera aproximacin analizando la
especificacin ms sencilla, de modo que luego se podr comprender con menor dificultad el
modelo de regresin lineal mltiple o general, cuyo estudio detallado ser materia del Captulo
3.
18
Econometra Moderna
Antes de proceder con la descripcin de los supuestos, cabe mencionar que el modelo clsico
de regresin lineal se atribuye al matemtico alemn Carl Friedrich Gauss, por quien tambin
recibe el nombre de Modelo de Gauss. Este matemtico plante diez supuestos, vlidos tanto
para el anlisis de regresin simple como para el modelo de regresin lineal mltiple, o de ms
de un regresor.
Primer supuesto: El modelo es estocstico
Esto se debe a la inclusin de un componente aleatorio en el modelo, expresado por el
trmino de error (i). La inclusin del trmino de error se debe a las siguientes razones:
Las respuestas humanas son impredecibles, puesto que las personas no tienen un patrn
preestablecido de preferencias, hbitos de consumo, etc.
Omisin de variables explicativas que deberan incluirse en el modelo. Pretender que las
variables independientes pueden explicar la estructura o predecir exactamente el
comportamiento de la variable dependiente es una ilusin, debido a que en la realidad
existen otros factores que afectan el comportamiento de la variable explicada que no son
incluidos en el modelo. En efecto, puede suceder que las variables explicativas sean muy
difciles de medir. Por ejemplo, consideremos un modelo donde se busca explicar la
demanda a travs de la utilidad que brinda el consumo de un determinado bien. De hecho, la
cuantificacin y medicin de la variable utilidad resulta una tarea bastante difcil debido al
carcter subjetivo de la misma. En este sentido, la falta de informacin muestral conducira
a una mala medicin o a la omisin de una variable relevante. Por otro lado, si dichas
variables pueden medirse pero su impacto sobre Y no es significativo, entonces no amerita
su inclusin.
Errores de medicin en la variable endgena (Y). Esto ocurre frecuentemente debido a que
las estimaciones de Y se realizan sobre la base de muestras finitas, adems de que dicha
variable puede no ajustarse a la teora econmica que el investigador desea contrastar. Por
ello, el investigador debe decidir con cuidado el papel que desempea cada variable, es
decir, debe definir adecuadamente las variables exgenas y la endgena.
Como ya se mencion existe una distincin entre el error terico o poblacional (i) y el error
de estimacin o emprico. El primero responde a la necesidad de introducir un elemento
aleatorio en el modelo por razones antes expuestas mientras que el error de estimacin se define
como la diferencia entre el estimado de la variable dependiente (X ) y la verdadera E (Y/X).
Segundo supuesto: La esperanza matemtica del trmino de error o perturbacin es cero.
Esto se expresa de la siguiente manera:
E(i) = 0
(1.19)
Este supuesto indica que el valor de la media condicional del trmino de error para cualquier
variable explicativa X dada, es idntico a cero. De este modo, este supuesto garantiza que las
19
Econometra Moderna
variables que no estn incluidas en el modelo (y que por tanto estn incorporadas en i), no
trasmiten ningn efecto sistemtico sobre la media condicional de Y dado X. En trminos ms
sencillos, los valores negativos de i se compensan con sus realizaciones positivas. Por ello, en
promedio no presentan ningn efecto sobre la variable dependiente del modelo. Aquellas
variables no incluidas en el modelo pero que afectan de manera sistemtica son recogidas por el
intercepto del modelo.
Tercer supuesto: La varianza del error es constante (el error es homocedstico).
Formalmente:
Var(i) = 2
i = 1,2,3,...,n
(1.20)
Figura 1.2
11
Evidentemente, cada trmino de error representa la realizacin de un proceso estocstico y lo que se asume a travs
de este supuesto es que las distribuciones de donde son extrados estos errores presentan igual dispersin.
20
Econometra Moderna
Como podemos apreciar, en el eje de la variable X suponemos que sus distintos valores estn
fijos lo que se refleja en las lneas discontinuas que parten de los valores x1 y x2 . Ante estos
valores fijos de la variable explicativa tenemos diversas posibilidades de que ocurran diversos
eventos lo que se refleja en todas la posibilidades de valores que puede tomar la variable
dependiente (y). Estas distintas posibilidades (y sus probabilidades respectivas) determinan la
funcin de distribucin de los errores.
Cuando no se verifica este supuesto, se dice que el trmino de perturbacin es
heterocedstico, es decir, posee una dispersin diferente para cada observacin. Formalmente:
Var(i) = i2
i = 1,2,3,..., n
(1.21)
El subndice i indica que la varianza del trmino de error no es constante ya que presenta un
valor distinto para cada observacin de X. En consecuencia, no todos los valores de Y, que
corresponden a distintos valores de X, sern de igual importancia y confianza como indicadores
de la posicin de la lnea de regresin. Se dicen que son confiables cuando poseen menor
dispersin, es decir, se mide la confiabilidad por la cercana con la cual se distribuyen los
valores de Y alrededor de sus medias, esto es, sobre la lnea de regresin poblacional. Si
analizamos con cuidado la expresin (1.12) notaremos que el error que se minimiza es la
diferencia entre el valor observado (Yi) y el estimado , de este modo se requiere que los valores
observados sean indicadores confiables de la posicin de la lnea de regresin poblacional, esto
es, E(Y/X).
Cuarto supuesto: Ausencia de autocorrelacin entre los errores.
Formalmente:
Cov(i, j) = 0 i j
(1.22)
Lo anterior implica que no existe autocorrelacin o correlacin serial entre los trminos de
error i y j, dadas las observaciones xi y xj. En este sentido, podemos definir el trmino
autocorrelacin como la correlacin entre miembros de series de observaciones ordenadas en el
tiempo (informacin de series de tiempo) o en el espacio (en informacin de corte tranversal).
En otras palabras, si disponemos de datos de series de tiempo, se dice que un error t para un
periodo de tiempo t, est correlacionado con los trminos de error t+1, t+2, .. y t-1, etc.
Un ejemplo tpico donde se detecta la presencia de autocorrelacin positiva ocurre bajo el
modelo de expectativas adaptativas. Supongamos que los agentes econmicos realizan su
pronstico de la inflacin futura basados en la inflacin pasada, solamente. Formalmente:
P e +1 = P e + v( P P e )
(1.23)
21
Econometra Moderna
alguna.
Los supuestos tercero y cuarto pueden resumirse en uno solo si pensamos en el moelo
planteado de forma matricial. El vector de errores del modelo es de dimensin Nx1 o Tx1, si se
habla de informacin muestral de corte transversal o de series de tiempo, respectivamente. Por
consiguiente su matriz de varianza y covarianzas es simtrica y definida positiva, de dimensin
NxN o TxT, para cada caso. Esto se ilustra con la siguiente expresin:
Var ( 1 )
Cov( 1 , 2 ) ... Cov( 1 , n )
Cov( 2, 1 )
Var ( 2 )
...
E ( ' ) = Var ( ) =
...
...
...
Var ( n )
Cov( n, 1 ) Cov ( n , 2 )
En trminos de esta matriz el tercer supuesto implica que todos los elementos de la diagonal
principal son iguales. Por otro lado, el supuesto de ausencia de autocorrelacin, determina que
los elementos fuera de la diagonal principal son cero. De este modo, y de verificarse los dos
supuestos antes analizados, la matriz anterior se puede escribir como:
Var()=2In
(1.24)
Esto usualmente se conoce como el supuesto general de que los errores del modelo son
esfricos.
Quinto supuesto: Las variables explicativas y los errores son ortogonales entre s.
Formalmente:
Cov(xi,i) = 0
(1.25)
Este supuesto implica que los errores y las variables independientes no presentan
correlacin. Como ya hemos mencionado el anlisis de regresin lo que hace es descomponer a
la variable dependiente en dos partes: una explicada o determinstica y otra aleatoria o no
explicada. Por tanto, este supuesto implica que si no existe relacin entre las variables
explicativas (que son el componente esencial de la parte explicada) y aquella parte no explicada,
podemos descomponer el espacio donde est definida la variable dependiente en dos
subespacios que son ortogonales entre s12. En otras palabras, cuando se especifica el modelo,
se supone que las variables exgenas y los errores son dos partes separadas y aditivas de la
variable a explicar (Y).
Parte aleatoria
Parte determinstica
i
0 + 1Xi
Yi = 0 + 1Xi +i
22
Econometra Moderna
Estos garantizan que el estimador de mnimos cuadrados ordinarios es eficiente propiedad que
analizaremos en los captulos 3 y 4. Por otro lado, los supuestos 2, 3 y 4 garantizan que los
errores del modelo son ruidos blancos.
Sexto supuesto: El modelo es lineal en los parmetros.
Se dice que un modelo tiene una especificacin lineal cuando la variable endgena Y, o
alguna transformacin monotnica de la misma, se puede expresar como una funcin lineal de
X o de alguna transformacin de ella. Al respecto, consideremos las siguientes relaciones:
Y = + X +
(1.26)
Y = 0 + 1 X + 2 X2 + 3 X3 +
(1.27)
Y = 0 + 21 X1+ 2 X2 +
(1.28)
La ecuacin (1.26) muestra una relacin lineal simple, mientras que la (1.27) es un modelo
lineal en parmetros, ms no en las variables. Por otro lado, la ecuacin (1.28) no es lineal en
parmetros, ni tampoco puede reducirse a una funcin que exprese una relacin lineal.
Ahora se considera el siguiente modelo que busca predecir la cantidad demandada(Q) dadas
las observaciones muestrales de la variable explicativa precio(P). El anlisis de este modelo
implica la estimacin de los parmetros y , sin embargo, y de acuerdo al supuesto de
linealidad, el modelo deber ser transformado de la siguiente manera:
Q = P e
(1.29)
LnQ = ln + lnP +
(1.30)
23
Econometra Moderna
puede estimar una regresin de una variable dependiente Y sobre otra variable independiente X,
se puede estimar una regresin de modo inverso.
En cambio, al plantear un modelo economtrico se debe tener cuidado al especificar las
variables, y definir tanto las explicativas (consideradas fijas), como la variable a explicar
(considerada aleatoria). As, el investigador debe decidir el papel que le otorga a las diferentes
variables de modo que slo exista una direccin en la relacin de causalidad. A manera de
ejemplo, recordemos que la teora cuantitativa del dinero afirma que el volumen de
transacciones en una economa es igual a la cantidad de dinero que rota en la misma.
Formalmente:
P.Q=M.V
(1.31)
donde:
P= precio
Q= producto
M= dinero
V= velocidad de circulacin constante.
En la ecuacin anterior existe una relacin causal que va de M hacia P, es decir, el nivel de
precios es explicado por la cantidad de dinero en la economa. Sin embargo, no se cumple lo
contrario, puesto que el nivel de precios es una variable aleatoria (endgena), mientras que M es
fija o determinstica (exgena).
Sin duda, en trminos estadsticos podramos estimar una relacin de este tipo, esto es, una
regresin de la cantidad de dinero sobre el nivel de precios, sin embargo, esta especificacin no
tendra ningn sustento terico. En este sentido, el investigador debe decidir a priori cul es la
especificacin que va a utilizar sobre la base de la teora que busca verificar y una vez decidida,
se supone una nica direccin causal
Noveno supuesto: Las variables explicativas son linealmente independientes.
Este supuesto implica que ninguna de las variables explicativas involucradas en el modelo
puede expresarse en trminos de una combinacin lineal exacta de las dems. Si alguna de las
variables explicativas fuera una combinacin lineal de otra significara que la primera no aporta
nada adicional al modelo o que los efectos individuales que sta puede tener sobre la variable
dependiente se confunden con los de la segunda. Este problema es conocido como
multicolinealidad, el cul ser abordado con detalle en el Captulo (9)
Dcimo supuesto: Las variables independientes son fijas o determinsticas (no aleatorias)
Si revisamos con cuidado el anlisis hasta ahora expuesto, notaremos que este supuesto ha
estado implcito desde el inicio del captulo. Este supuesto implica que de poderse repetir el
proceso de muestreo numerosas veces, los valores observados de las variables exgenas no
deben cambiar.
Cuando se trabaja con datos de series temporales, es comn la aparicin de valores
retardados de la variable explicada (Y) como variables explicativas, ya que a veces las variables
econmicas no toman de inmediato el valor esperado por los agentes, y de ese modo incorporan
cierta inercia. De este modo, cuando los retardos (o rezagos) son incluidos en el modelo de
regresin como variables explicativas, se dice que son predeterminadas o en trminos ms
formales, que son realizaciones del proceso que gobierna el comportamiento de la variable
explicada. Este caso especfico se analizar en un captulo posterior.
3. A MODO DE RESUMEN
24
Econometra Moderna
En este captulo hemos revisado los conceptos bsicos que estn detrs del anlisis de regresin
as como aquellos relevantes respecto a las variables incluidas en el modelo. De la misma
manera hemos revisado los principales supuestos que se realizan con respecto al modelo lineal
general que analizaremos en buena parte del libro. Debe entenderse que estos supuestos son, en
algunos casos, muy restrictivos y ser interesante analizar cules son los efectos de la relajacin
de los mismos sobre los distintos estimadores que estudiaremos ms adelante. Habiendo
establecido el lenguaje comn que utilizaremos a partir de ahora es importante iniciar la
exploracin de los distintos caminos con los que contamos para a obtencin de los parmetros
desconocidos de nuestro modelo. En primer lugar, analizaremos el estimador de mnimos
cuadrados ordinarios que es uno de los ms analizados y el mejor cuando trabajamos con
modelos lineales.
25