Está en la página 1de 28

El modelo de regresin lineal simple

Alfonso Novales
Departamento de Economa Cunatitativa
Universidad Complutense
Septiembre 2008
Contents
1 El modelo de regresin lineal 1
1.1 El modelo de regresin lineal simple. . . . . . . . . . . . . . . . . 3
1.2 Componentes del modelo de regresin . . . . . . . . . . . . . . . 4
1.3 Supuestos del modelo de regresin lineal . . . . . . . . . . . . . . 8
2 El estimador de Mnimos Cuadrados Ordinarios 11
2.1 Esperanza matemtica . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Matriz de covarianzas . . . . . . . . . . . . . . . . . . . . . . . . 19
3 El modelo de regresin lineal en desviaciones respecto de la
media 21
4 Estimacin de la varianza del trmino de error o perturbacin
aleatoria del modelo 22
5 Eciencia 24
6 Propiedades adicionales del coeciente de determinacin 28
6.1 Expresin alternativa: . . . . . . . . . . . . . . . . . . . . . . . . 28
6.2 Relacin con el coeciente de correlacin lineal en un modelo de
regresin lineal simple: . . . . . . . . . . . . . . . . . . . . . . . . 28
1 El modelo de regresin lineal
El objeto bsico de la Econometra consiste en especicar y estimar un
modelo de relacin entre las variables econmicas relativas a una determinada
cuestin conceptual. Por ejemplo, para conocer en profundidad el compor-
tamiento del consumo privado agregado de un pas, ser preciso especicar y es-
timar un modelo de relacin entre observaciones temporales de consumo privado
y renta disponible. De modo similar, para analizar si la expansin monetaria
1
en un pas ha sido inacionista, ser preciso especicar y estimar un modelo de
relacin entre las tasas de inacin y las tasas de crecimiento histricas de algn
agregado monetario. En su forma ms general y, por tanto, ms abstracta, tal
modelo de relacin puede representarse como:
1 = )(A
1
, A
2
, A
3
, ..., A
k
; ,)
donde 1 es la variable cuyo comportamiento se pretende explicar, y A
1
, A
2
, ..., A
k
son las distintas variables que se suponen potencialmente relevantes como fac-
tores explicativos de la primera. El vector denota una lista de parmetros que
recogen la magnitud con que las variaciones en los valores de las variables A
i
se
transmiten a variaciones en la variable 1 .
Vamos a limitarnos aqu al estudio de modelos de relacin o modelos de
regresin lineales, es decir, del tipo:
1 = ,
0
+,
1
A
1
+,
2
A
2
+,
3
A
3
+... +,
k
A
k
en el que resulta evidente que los parmetros transmiten directamente efectos
inducidos por los valores de las variables A
i
sobre la variable 1 , que se pretende
explicar.
La estimacin de tales relaciones se efecta a partir de informacin
muestral acerca de los valores tomados por 1, A
1
, A
2
, ..., A
k
, y trata de cuan-
ticar la magnitud de la dependencia entre ellas.
Con objeto de ganar precisin y aprender ms acerca del proceso de relacin
entre las variables consideradas querremos evaluar crticamente la validez de las
hiptesis propuestas por la Teora Econmica acerca de las relaciones estimadas
que, en ocasiones, consistirn en si determinada variable explicativa entra o no
en la relacin que se analiza, o si aparece con un determinado coeciente, por
ejemplo, 1 -1. Ejemplos del primer tipo son las cuestiones:
1) Inuye el dcit sobre los tipos de inters?
2) Afecta el precio de la competencia a la demanda de nuestro producto?
mientras que ejemplos del segundo tipo son:
3) Es el crecimiento monetario neutral, es decir, incide con coeciente
unitario sobre la inacin?
4) Tiene la demanda de nuestro producto elasticidad-precio unitaria?
es decir, el efecto de un aumento de un 10% en el precio es una cada del 10%
en la demanda?
Estos son problemas de inferencia estadstica, similares a los que resolvi-
mos para contrastar hiptesis acerca de la esperanza o la varianza, desconocidas,
de una determinada distribucin de probabilidad. Por ltimo, especialmente en
cuestiones macroeconmicas, estaremos interesados en efectuar un ejercicio de
seguimiento coyuntural y de previsin de las variables analizadas. Todo ello
puede realizarse de modo riguroso mediante la utilizacin de procedimientos
economtricos que vamos a estudiar en ste y en los dos prximos captulos.
As, mediante mtodos economtricos, el analista econmico puede tratar
de responder a preguntas como:
1) cules son los determinantes de la tasa de inacin?
2
2) sobre la base de la informacin histrica disponible, cul es la im-
portancia cuantitativa de cada uno de dichos determinantes?
3) podemos contrastar algunas de las implicaciones de la Teora Econmica
acerca del efecto que variables como el crecimiento monetario tienen sobre la
tasa de inacin?
4) qu sugiere el modelo que hemos estimado para la tasa de inacin
acerca del comportamiento de esta variable durante el prximo ao?
Es crucial que el analista econmico:
a) comience delimitando muy claramente la cuestin terica que va a ser
el centro de su ejercicio emprico,
b) a continuacin, debe tratar de identicar cul es la variable cuyo
comportamiento pretende explicar, y cules son sus determinantes potenciales.
Denominamos a este proceso especicacin de un modelo de relacin entre vari-
ables econmicas. Como parte del proceso de especicacin, el investigador
toma posicin acerca de qu variable inuye sobre cul, es decir, propone una
relacin causal. A diferencia del anlisis que pudo efectuarse mediante un co-
eciente de correlacin, que no descansa en una determinada direccin en la
relacin entre dos variables, un anlisis de regresin en Econometra supone que
una variable A inuye sobre otra variable 1 , y no al revs;
c) luego, el analista debe escoger cuidadosamente la informacin estads-
tica relevante para cuanticar tal relacin, y
d) debe proceder a su cuanticacin, es decir, debe estimar los parmet-
ros desconocidos que aparecen en la relacin antes especicada;
e) por ltimo, utilizar el modelo de relacin estimado, ya sea a efectos
de contrastacin de algn supuesto terico, mediante un proceso de inferencia,
o como elemento de anlisis y seguimiento de la variable cuyo comportamiento
escogi explicar.
1.1 El modelo de regresin lineal simple.
Vamos a limitarnos inicialmente al estudio del denominado modelo de re-
gresin lineal simple, que considera una sola variable explicativa A:
1 = ,
0
+,
1
A (1)
En aplicaciones prcticas disponemos de una muestra de observaciones de
ambas variables, y el modelo anterior sugiere que la relacin entre las dos vari-
ables se satisface para cada una de las observaciones correspondientes. En al-
gunas ocasiones especicaremos modelos de relacin como (1) con el objeto de
estimar el comportamiento de determinados agentes econmicos. Un ejemplo
importante consiste en entender la evolucin del consumo agregado del sector
privado de una economa real. En algunos casos se tratar de una muestra de
datos temporales, y tendremos una relacin del tipo (1) para cada instante de
tiempo. Para ello, consideraramos el modelo:
C
t
= ,
0
+,
1
1
t
, t = 1, 2, ..., T
3
donde 1
t
denota el PIB del pas, o la renta disponible del sector privado
(renta total, menos impuestos, ms transferencias), segn el alcance que se
quiera dar al anlisis. Los subndices t hacen clara referencia al hecho de que
ste ser un modelo a estimar con datos de series temporales. El coeciente
,
1
indica la variacin que experimenta el consumo privado del pas al variar, a
lo largo del ciclo econmico, la variable renta que hayamos incorporado como
variable explicativa en (1).
En otros casos se dispondr de una muestra de seccin cruzada o de
datos transversales, y tendremos una relacin como (1) para cada una de las
unidades muestrales que, en datos transversales, estn constituidas por familias,
empresas, pases, comunidades autnomas, etc.. Por ejemplo, si disponemos de
datos de observaciones de consumo y renta disponible de un conjunto de familias,
podramos especicar:
C
i
= ,
0
+,
1
1
i
, i = 1, 2, ..., : (2)
siendo ste un modelo en que la interpretacin del coeciente ,
1
sera ahora
diferente de la que hicimos con datos de series temporales; en tal caso, ,
1
nos
proporciona el incremento que se produce en el gasto en consumo de una familia
cuando aumenta su renta. No tendra ninguna connotacin temporal, pues no
hemos utilizado datos de tal tipo. De hecho, si dispusisemos de dos muestras de
seccin cruzada, de las mismas familias, pero obtenidas en distintos momentos
de un ciclo econmico, bien podra ocurrir que la estimacin del coeciente ,
1
variase signicativamente entre ambas muestras.
En otras ocasiones, se pretende estimar una relacin que no es de com-
portamiento, sino que reeja, ms bien, un determinado proceso econmico,
como pueda ser la produccin de bienes. As, un modelo como:
C
t
= ,
0
+,
1
1
t
+,
2
1
t
, t = 1, 2, ..., T
podra interpretarse como la linealizacin de una funcin de produccin agre-
gada del tipo Cobb-Douglas para una determinada economa real, en la que
los coecientes ,
1
y ,
2
seran las elasticidades de produccin de ambos inputs.
En este caso, necesitaramos un modelo de regresin algo ms complejo que el
modelo de regresin simple, que incluya varias variables explicativas.
El problema que nos interesa en economa estriba en la estimacin de los
valores numricos de los dos coecientes del modelo de regresin, por ejemplo,
,
0
y ,
1
en (2), as como en la posibilidad de contrastar hiptesis acerca de sus
verdaderos valores numricos, que son desconocidos.
1.2 Componentes del modelo de regresin
Por razones de exposicin, y sin prdida alguna de generalidad, suponemos
en lo sucesivo que disponemos de una muestra de seccin cruzada, y manten-
emos el criterio notacional que venimos utilizando, designando con maysculas
las variables genricas con las que trabajamos: 1, A, y por minsculas las obser-
vaciones numricas incluidas en las muestras: j
1
, j
2
, ..., j
n
, r
1
, r
2
, ..., r
n
. Deno-
4
tamos el modelo de regresin, como relacin entre las variables: 1 = ,
0
+,
1
A,
mientras que denotamos la relacin entre cada par de observaciones por: j
i
=
,
0
+ ,
1
r
i
. Resulta evidente que es imposible que una relacin como (1) se
satisfaga para todas y cada una de las observaciones: i = 1, 2, ..., :. Si ello ocur-
riese, podramos sustituir las dos primeras observaciones muestrales de ambas
variables en (1), y determinar exactamente los valores de los coecientes ,
0
y
,
1
:
j
1
= ,
0
+,
1
r
1
j
2
= ,
0
+,
1
r
2
obteniendo las estimaciones de dichos coecientes con tan slo estas dos
observaciones muestrales. Sin embargo, no debe sorprendernos que al incorporar
los valores numricos de ambos coecientes, junto con los de las variables 1 y
A correspondientes a la tercera observacin en (1), j
3
= ,
0
+,
1
r
3
, la relacin
no se cumpla, salvo por una enorme casualidad.
Queda claro, por tanto, que no es obvio cmo obtener estimaciones de
los coecientes del modelo lineal simple a partir de una determinada muestra
de T observaciones temporales, o n observaciones de seccin cruzada. A ello
dedicaremos algunas de las siguientes secciones. En cualquier caso, nos en-
frentamos a una aparente paradoja: el modelo (1) no se satisfar para todas
las observaciones muestrales, no importa qu valores numricos asignemos a sus
coecientes ,
0
y ,
1
. Por ello, no consideramos exactamente el modelo (1), sino
una variante del mismo:
j
i
= ,
0
+,
1
r
i
+n
i
, i = 1, 2, 3, ..., :
donde la ltima variable, n
i
, denominada perturbacin estructural o trmino
de error del modelo de regresin no es observable, y permite explicar las diferen-
cias entre los dos miembros de la igualdad en (1). El problema de inters estriba
en la estimacin de los dos coecientes en el modelo (2), cuando se dispone de
una muestra de observaciones para las variables 1
i
y A
i
, aunque sin disponer
de observaciones de la variable n
i
.
La variable cuyo comportamiento se pretende explicar, 1
i
, recibe el
nombre de variable dependiente, mientras que la variable A
i
recibe el nombre
de variable independiente. En ocasiones, tambin se denomina a 1
i
variable
endgena o variable a explicar, mientras que a A
i
se le denomina variable
exgena o explicativa. Los coecientes ,
0
y ,
1
se denominan trmino constante
y pendiente del modelo de regresin simple, respectivamente.
La perturbacin aleatoria, variable no observable para la que, en conse-
cuencia, no dispondremos nunca de observaciones muestrales, se supone incor-
relacionada con la variable A
i
. Su interpretacin es diversa:
a) en primer lugar, puede contener otras variables explicativas que, aun
siendo relevantes, no acertamos a especicar;
b) tambin pudiera ser que, aun siendo conscientes de la existencia de
tales variables, no dispusiramos de observaciones muestrales para las mismas;
5
c) por ltimo, el trmino de error puede estar reejando errores de me-
dida en la variable dependiente 1
i
, que suelen surgir porque las variables que
utilizamos en la estimacin reejan aproximadamente, pero no exactamente, los
conceptos que querramos incorporar en el modelo.
En el caso de la funcin de consumo anterior, es difcil en la prctica
disponer de datos precisos acerca de los gastos en consumo de una determinada
familia: en primer lugar, el consumo es un ujo, y la recogida de datos en un
determinado instante de tiempo puede producir todo tipo de distorsiones en
dicha variable. Para evitar este tipo de dicultades, en ocasiones, se utiliza
como variable de consumo el resultado de sustraer de los ingresos declarados
por la familia, el ahorro realizado durante el perodo.
Una vez estimados los coecientes ,
0
y ,
1
en (2), tendramos una
ecuacin lineal, una recta, entre el gasto en consumo y la renta de un conjunto
de familias, denominada recta de regresin.
La recta de regresin proporciona la mejor relacin existente entre las
variables 1 y A, en el caso de una regresin simple, o entre la variable dependi-
ente, 1 y el conjunto de variables explicativas, en una regresin lineal mltiple.
Es tentador interpretar la recta de regresin como si nos proporcionase el valor
esperado de 1 condicional en los valores que pueda tomar la variable A. El
concepto de esperanza condicional es, desde luego, muy importante en el anli-
sis estadstico de datos econmicos. Por ejemplo, un banco central puede estar
interesado en un determinado momento en estimar la trayectoria que seguira
la tasa de inacin condicional a que dicho banco siga una poltica monetaria
restrictiva. Querra asimismo caracterizar la trayectoria esperada de la inacin
condicional a que se ponga en prctica una poltica monetaria expansiva, y as
comparar ambas trayectorias esperadas, y escoger la poltica monetria acorde
a la senda de inacin preferible. De modo simple, este es un ejemplo del im-
portante problema de diseo de poltica monetaria. Los modelos economtricos
pueden ayudar en este tipo de situaciones. Una vez estimados los coecientes
,, disponemos de valores numricos para ellos, y jando una senda numrica
para A (tasa de crecimiento monetario) podemos calcular una senda numrica
para 1 (tasa de inacin). Este ejercicio tambin se conoce como prediccin
por escenarios. Se trata de establecer sendas o escenarios alternativos para A,
cuyos efectos se quieren comparar entre s, estimar la senda de 1 bajo cada uno
de dichos escenarios, y calcular el resultado econmico o de cualquier otro tipo.
El mismo esquema aplica a la gestin de la empresa, o en muchos con-
textos nancieros. Por ejempo, una empresa se est planteando la conveniencia
de dos polticas de publicidad alternativa, una de bajo y otra de alto coste.
Si, utilizando datos histricos, estima un modelo de regresin que explique las
cifras de ventas (1 ) utilizando el gasto en publicidad (A) durante los ltimos
40 aos, puede utilizar el modelo estimado para calcular aproximadamente las
ventas que puede esperar bajo cada una de las dos polticas de publicidad. A
continuacin, un sencillo clculo, aplicando los mrgenes con que opera a las
cifras de ventas estimadas y sustrayendo el coste de la campaa publicitaria,
podr decidir la preferencia por una u otra de las dos campaas.
6
Existe una limitacin, sin embargo, y es que si recordamos el concepto de
esperanza condicional, sabemos que dicha esperanza condicional es, en general,
una funcin no lineal. Es decir, para calcular el valor esperado de 1 para un
determinado valor numrico de A, deberamos utilizar la esperanza de la dis-
tribucin de 1 condicional en A , y sta es, en general, una funcin no lineal.
Cuando ambas variables, 1 y A, tienen una distribucin conjunta Normal, en-
tonces, la esperanza condicional es una funcin lineal, pero no lo es en cualquier
caso. Si no aceptamos la Normalidad de la distribucin conjunta, entonces la
regresin slo se puede entender como una aproximacin a la esperanza condi-
cional de 1, dado A.
Por tanto, en este captulo imponemos una forma funcional lineal para la
dependencia de 1 respecto de A y no hay ningn razn para pensar que la recta
de regresin es una esperanza condicional. Para cada nivel de renta concreto
como j

, la recta estimada nos proporciona una estimacin o prediccin de gasto


en consumo. Si hay alguna familia en la muestra con dicha renta, su gasto en
consumo observado no coincidir, salvo por casualidad, con el nivel previsto por
la recta estimada. La diferencia:
^ n
i
= C
i
(
^
,
0

^
,
1
A
i
),
que puede ser positiva, si el gasto en consumo excede del estimado por la recta,
o negativa, si el gasto observado es inferior al estimado, se conoce como residuo
de dicha observacin muestral, denotado por ^ n
i
y, como veremos en la seccin
2, juega un papel fundamental en la estimacin del modelo de regresin. Es
importante observar que la recta de regresin estimada proporciona el nivel
de consumo que deberamos prever para cualquier nivel de renta, incluso si j

no coincide con el de ninguna familia en la muestra. En tal caso tenemos un


verdadero ejercicio de prediccin.
En resumen, cuando se lleva a cabo un ejercicio emprico como la esti-
macin del modelo de consumo (2), se tiene en mente un argumento del siguiente
tipo: con el modelo (2) no se pretende explicar el comportamiento de la renta
disponible de las familias, sino de su nivel de gastos en consumo. Para ello, con-
sideramos las observaciones de la variable explicativa, la renta 1
i
, como jas:
es decir, creemos que si hubisemos entrevistado a otras : familias, hubiramos
generado los mismos datos para dicha variable. Sin embargo, las observaciones
muestrales de la variable dependiente, el consumo C
i
, habran sido diferentes,
como consecuencia de: a) aspectos especcos, no observables, de las familias en-
cuestadas, b) errores de medida de diferente cuanta a aquellos en los que hemos
incurrido en la muestra actualmente disponible, etc., y que aparecen recogidos
en la perturbacin aleatoria. El trmino de error es una variable aleatoria, difer-
ente para cada observacin muestral, y su realizacin no es observable. Por el
contrario, el residuo es observable, puesto que se construye a partir de las esti-
maciones y de los datos de las variables dependiente e independiente. Trmino
de error y residuo son entes de diferentes naturaleza.
Desde el punto de vista puramente estadstico, el modelo de regresin
no tiene necesariamente una connotacin de causalidad en la relacin entre
7
variables. Del mismo modo que podemos estimar una regresin de una variable
1 sobre otra variable A, podemos estimar una regresin en el orden inverso.
Sin embargo, el anlisis de este modelo elemental no trata a ambas variables
de igual modo: las variables explicativas se consideran deterministas, mientras
que la variable dependiente se considera aleatoria. El papel que juega cada una
de las variables debe decidirse en funcin del aspecto terico que est siendo
objeto de estudio. En el ejemplo de consumo y renta, es evidente que queremos
explicar los gastos en consumo en funcin de la renta, y no al revs; el consumo
es la variable dependiente, y la renta es la variable independiente. Por eso, el
investigador debe decidir de antemano el papel que juega cada una de estas dos
variables, porque el tratamiento estadstico del modelo de regresin no concluye
nada a este respecto. Sin embargo, su utilizacin en Econometra se efecta
condicional en una determinada hiptesis acerca de la direccin de la relacin,
y no al revs.
El modelo de regresin presupone que los valores numricos de la vari-
able dependiente gastos de consumo, C
i
, se generan, en la realidad, a partir
de los valores tomados por la variable renta 1
i
y precisamente a travs de la
relacin (2). En general, creemos que los procesos econmicos son algo ms
complejos, y que se precisa ms de una causa para explicar adecuadamente el
comportamiento de una variable como el consumo, C
i
, o bien formas funcionales
ms complicadas que la lineal. Sin embargo, el modelo de regresin simple es
tambin una herramienta til, al menos en una primera aproximacin, desde la
que no es muy complejo pasar al anlisis del modelo de regresin lineal mltiple,
cuyo estudio en profundidad dejamos para el captulo siguiente, as como para
cursos superiores.
Comentemos un poco ms en detalle estos aspectos:
1.3 Supuestos del modelo de regresin lineal
1. Linealidad en las variables: en algunos casos, el supuesto de que la deter-
minacin de los valores del gasto en consumo, C
i
, a partir de los de la renta,
1
i
, se produce a travs de un modelo lineal es excesivamente restrictiva,
pues creemos que el modelo de relacin es ms bien no lineal. Examinare-
mos en el prximo captulo una variedad de modelos alternativos al lineal
que aqu analizamos. Sin embargo, en la mayora de estos casos, el mod-
elo lineal es nuevamente una buena aproximacin al verdadero modelo,
no lineal, de relacin entre variable dependiente e independiente. El caso
quiz ms paradigmtico de no linealidad, surge cuando se cree que el por-
centaje de aumento en renta disponible que se transmite a consumo, no
es constante, sino que decrece con el nivel de renta. Ntese que el modelo
lineal tiene la propiedad de que el cociente de incrementos consumo/renta
disponible o, si se preere, la derivada del consumo con respecto a la renta
disponible, es 1, constante y, por ello, independiente del nivel de renta. Se
tendra una relacin muy distinta con un modelo del tipo:
C
i
= ,
0
+,
1
1
i
,
2
1
2
+n
i
, i = 1, 2, ..., :
8
Este tipo de no linealidad en las variables puede incorporarse al anlisis
sin gran dicultad, del modo que veremos en el prximo captulo,
2. Linealidad en los parmetros: muy diferente es la situacin en que los
parmetros entran en la relacin entre variable dependiente e independi-
entes de modo no lineal. El tratamiento que requieren tales modelos, con
excepcin de algunos casos sencillos, es sustancialmente ms complejo, por
lo que no es discutido en este texto,
3. Esperanza matemtica nula: suponemos que la esperanza matemtica del
trmino de error n
i
del modelo es cero: 1(n
i
) = 0, i = 1, 2, ..., :. Si,
por el contrario, tuvisemos: 1(n
i
) = a 6= 0 , ste sera un efecto con-
stante sobre 1
i
y, por ello, determinista, y debera incluirse como parte
del trmino constante ,
0
en (1). Una situacin en que este supuesto no
se cumplira es cuando el investigador, por error, omite del modelo una
variable explicativa relevante. As, supongamos que en vez de especicar
el modelo:
j
t
= ,
0
+,
1
r
t
+,
2
r
2t
+n
t
, t = 1, 2, 3, ..., T
se especica el modelo:
j
t
= ,
0
+,
1
r
t
+
t
, t = 1, 2, 3, ..., T
en el que, inadvertidamente, se ha omitido la variable explicativa A
2
.
En este ltimo modelo, errneamente especicado, el trmino de error

t
sera igual a:
t
= ,
2
r
2t
+ n
t
, y su esperanza matemtica: 1(
t
) =
1(,
2
r
2t
+n
t
) = 1(,
2
r
2t
)+1(n
t
) = ,
2
1(r
2t
)+0, donde 1(A
2
) denota la
esperanza matemtica de los valores que toma la variable omitida, A
2
, que
suponemos constante a travs del tiempo. Como consecuencia, 1(
t
)ser
distinta de cero en general,
4. Varianza constante del trmino de error (Homocedasticidad): suponemos
que la varianza del trmino de error, que denotamos por \ ar(n
i
) = o
2
u
para todo i = 1, 2, ..., :, es la misma para todas las observaciones mues-
trales, ya sean stas de naturaleza temporal o de seccin cruzada,
5. Ausencia de autocorrelacin: adems, suponemos que los trminos de er-
ror correspondientes a dos observaciones muestrales cualesquiera, que son
dos variables aleatorias diferentes, son estadsticamente incorrelacionadas
(autocorrelacin espacial en un corte transversal de datos ordenados ge-
ogrcamente).
6. Estabilidad temporal: otro supuesto incorporado en el modelo es que sus
coecientes, ,
0
y ,
1
, son constantes en el tiempo; igualmente, creemos
que el modelo es el mismo para todas las observaciones muestrales. Si
disponemos de datos de series temporales, no hay submuestras de tiempo
en las cuales los modelos sean diferentes; si estamos explicando los hbitos
9
de consumo de las familias espaolas, creemos que la dependencia con-
sumo/renta es igual para familias de renta alta y renta baja, o para fa-
milias que habitan en un medio rural y para las que viven en un medio
urbano,
7. Causalidad unidireccional: tambin suponemos que existe una relacin
causal desde la variable explicativa A hacia la variable endgena 1 , es de-
cir, cambios en A inuyen sobre cambios en 1 , pero no al revs. Ello debe
basarse en la naturaleza de la cuestin conceptual que se est analizando,
y el investigador siempre debe tener buenos argumentos al respecto, pues
sta no es una cuestin emprica, sino terica. De aqu surge la denomi-
nacin de variable exgena para A, es decir, determinada fuera del modelo,
y variable endgena, es decir, determinada dentro del modelo, para 1 .
En el ejemplo de relacin entre inacin y crecimiento monetario, si du-
rante el perodo muestral se ha seguido una poltica monetaria consistente
en jar un determinado crecimiento anual para la cantidad de dinero y
seguirlo estrictamente, el crecimiento monetario ser una variable ex-
gena en el modelo que pretende explicar la tasa de inacin. Si, por el
contrario, se ha seguido una poltica monetaria en la que el crecimiento
monetario se ha decidido en cada perodo como funcin de las tasas de
inacin que hasta entonces se han registrado, entonces, no estara justi-
cado calicar de exgeno al crecimiento monetario a la inacin de end-
gena; quiz ambas deberan ser consideradas variables endgenas, para lo
que necesitamos otro tipo de modelos
8. Variables explicativas deterministas: el modelo incorpora el supuesto,
claramente restrictivo, acerca de que la variable explicativa Aes deter-
minista. La variable endgena 1 no lo es, pues depende de la evolucin
de una variable aleatoria: el trmino de error del modelo, n.
En el ejemplo de relacin entre expansin monetaria e inacin, este
supuesto signica la creencia de que, si pudisemos volver al ao inicial
en las mismas condiciones econmicas entonces existentes, y recoger otra
muestra para el mismo perodo, obtendramos los mismos valores del crec-
imiento monetario. Desde este punto de vista, las tasas de crecimiento de
la oferta monetaria que se han observado en este perodo son las nicas
que pudieron haber ocurrido, con independencia de la informacin de que
dispuso la autoridad monetaria, y de los objetivos de poltica econmica
que se trazaron. Sin embargo, ntese que, en esta hipottica situacin,
las tasas de inacin observadas para el perodo seran diferentes entre
distintas muestras, debido a su componente estocstica n
t
.
Enlazando con la discusin que mantuvimos en el punto anterior, podra
tener sentido mantener el supuesto de una tasa de crecimiento monetario
determinista bajo una poltica monetaria de jacin de una tasa de crec-
imiento constante todos los aos; por el contrario, no podra mantenerse
dicho supuesto bajo una poltica en que el crecimiento de la oferta mone-
taria se hace depender del "estado" de la economa y, en particular, de la
10
evolucin de la tasa de inacin. De este modo, la clasicacin de las vari-
ables explicativas en "exgenas" o endgenas" est ligada a que podamos
mantener el supuesto de que son de naturaleza determinista.
En un anlisis ms general del modelo de regresin, que precisa de un
instrumental tcnico ms complejo que el que presentamos en este texto, se
considera que las variables explicativas son tambin estocsticas, como sin duda
queremos creer en la realidad. En estas condiciones ms generales, el modelo de
regresin lineal simple est plenamente justicado bajo el supuesto de que las
dos variables que en l aparecen, A e 1 , tienen una distribucin de probabilidad
conjunta de carcter Normal o Gaussiano. En efecto, ya vimos al estudiar esta
familia de distribuciones que la esperanza de la variable 1 condicional en la
variable A, es una expresin del tipo (1), donde las constantes ,
0
y ,
1
estn
relacionadas con los momentos de primer y segundo orden de la distribucin
bivariante Normal. De hecho, en tal caso, trabajamos generalmente bajo el
supuesto de distribucin Normal conjunta de todas las variables que aparecen
en el modelo de regresin, e interpretamos ste como la esperanza condicional
ya mencionada, lo cual puede extenderse al caso de varias variables explicativas.
2 El estimador de Mnimos Cuadrados Ordinar-
ios
Supongamos que queremos estimar el modelo:
j
i
= ,
0
+,
1
r
i
+n
i
, i = 1, 2, 3, ..., :
donde suponemos que: 1) n
i
es una variable aleatoria con 1(n
i
) = 0 y
\ ar(n
i
) = o
2
u
para todo i, 2) los valores r
i
son jos, 3) ,
0
y ,
1
son constantes
desconocidas. Esta es la especicacin del modelo de regresin lineal simple.
Para ello, el investigador dispone de una muestra de 16 observaciones acerca de
dos variables A e 1 , la ltima de las cuales queremos explicar por medio de la
primera:
11
Cuadro 1
Producto de
Desviaciones Desviaciones
Valor Residuo en X al en X e Y respecto
explicado Residuo cuadrado cuadrado de sus medias
n Y X X2 XY Y-ajustada u Xu u2 (X-mX)2 (Y-mY)(X-mX)
1 16 15 225 240 16.3 -0.33 -5.0 0.11 20.8 15.1
2 18 13 169 234 14.7 3.26 42.4 10.66 6.6 13.6
3 8 11 121 88 13.1 -5.14 -56.5 26.39 0.3 -2.6
4 9 8 64 72 10.7 -1.74 -13.9 3.03 5.9 9.0
5 9 6 36 54 9.1 -0.14 -0.9 0.02 19.7 16.4
6 10 8 64 80 10.7 -0.74 -5.9 0.55 5.9 6.6
7 12 9 81 108 11.5 0.46 4.1 0.21 2.1 1.0
8 14 12 144 168 13.9 0.06 0.8 0.00 2.4 2.1
9 13 10 100 130 12.3 0.66 6.6 0.44 0.2 -0.1
10 10 5 25 50 8.3 1.66 8.3 2.75 29.6 14.6
11 7 9 81 63 11.5 -4.54 -40.9 20.60 2.1 8.2
12 15 12 144 180 13.9 1.06 12.8 1.13 2.4 3.6
13 16 13 169 208 14.7 1.26 16.4 1.60 6.6 8.5
14 18 18 324 324 18.7 -0.73 -13.1 0.53 57.2 40.2
15 15 10 100 150 12.3 2.66 26.6 7.09 0.2 -1.0
16 13 8 64 104 10.7 2.26 18.1 5.11 5.9 -0.8
Sumas : 203 167 1911 2253 203.00 0.00 0.00 80.22 167.94 134.19
Medias : 12.69 10.44 119.44 140.81 12.69 0.00 0.00 5.01 10.50 8.39
Varianzas: 11.71 10.50 6.70 5.01
11
As, tenemos un sistema de ecuaciones:
16 =
^
,
0
+
^
,
1
A
1
+ ^ n
1
,
18 =
^
,
0
+
^
,
1
A
2
+ ^ n
2
,
8 =
^
,
0
+
^
,
1
A
3
+ ^ n
3
,
...
13 =
^
,
0
+
^
,
1
A
16
+ ^ n
16
que no puede resolverse, pues contiene 18 incgnitas, ,
0
y ,
1
, junto con
los 16 residuos ^ n
i
pero slo 16 ecuaciones. Podramos jar los residuos igual
a cero en dos ecuaciones y utilizarlas para obtener estimaciones
^
,
0
y
^
,
1
. Pero
dichas estimaciones dependern del par de ecuaciones seleccionadas, por lo que
tal procedimiento no es adecuado. El mtodo apropiado consiste en obtener
valores numricos para ,
0
y ,
1
que satisfagan de la manera ms aproximada
posible, simultneamente, las 16 ecuaciones del sistema anterior.
12
Una vez estimados los coecientes , se puede calcular para cada obser-
vacin i:
^ j
i
=
^
,
0
+
^
,
1
A
i
(3)
en el que las estimaciones
^
,
0
y
^
,
1
han sustituido a los verdaderos valores,
desconocidos. La expresin (3) representa la estimacin, de acuerdo con el
modelo economtrico, del valor que deba haber tomado la variable dependiente
1 . Habr siempre una discrepancia entre el valor realmente observado j
i
y la
estimacin anterior, el residuo correspondiente a dicha observacin muestral:
^ n
i
= j
i
(
^
,
0

^
,
1
r
i
),
Grco 1
Nube de puntos, recta de regresin,
valores ajustados, residuos
0

Y
0 0 0 0

( ) u Y Y Y X = = +
0 0
( , ) Y X
*
*
*
*
*
*
*
*
X
Y
0
Y
0
X

( ) Y X = +
0
Y
*
*
*
*
Parece razonable que un posible criterio que dena a un estimador sea
la minimizacin de la magnitud de los residuos que dicho estimador genera. Tal
idea es correcta, pero hay varias dicultades para hacerla prctica: en primer
lugar, tenemos no un residuo, sino un conjunto de n residuos, por lo que no
se trata de minimizar un residuo determinado, sino una medida conjunta del
tamao global de todos ellos.
Una vez obtenidas unas estimaciones numricas de los coecientes, po-
dra pensarse en sumar los : residuos generados:

n
i=1
^ n
i
, y escoger como es-
timacin el par de valores
^
,
0
y
^
,
1
que produce la menor suma de residuos.
Una dicultad con tal procedimiento es la cancelacin de residuos negativos con
13
residuos positivos. Adems, si realmente se pretendiese minimizar la suma de
residuos, bastara generar residuos de tamao muy grande, pero negativos, lo
cual no es adecuado.
El estimador de mnimos cuadrados que introducimos en esta seccin
utiliza como criterio la minimizacin de la Suma de los Cuadrados de los Resid-
uos (oC1), o tambin Suma Residual, aunque hay que recordar que es una suma
de cuadrados. Se trata, por tanto, de seleccionar valores de los coecientes ,
0
y ,
1
que resuelvan el problema:
'i:i:i.ar
^

0
;
^

1
oC1 =
n

i=1
^ n
2
i
Ntese que el residuo asociado a cada observacin i, i = 1, 2, ..., :, depende
de los valores de los coecientes escogidos, porque:
^ n
i
= j
i
(
^
,
0
+
^
,
1
r
i
)
de modo que el problema anterior puede escribirse:
'i:i:i.ar
^

0
;
^

1
o1 =
n

i=1
_
j
i

^
,
0

^
,
1
r
i
_
2
La solucin a este problema de optimizacin se denota por:
^
,
0
,
^
,
1
, y se
denomina estimador de Mnimos Cuadrados Ordinarios (que abreviaremos como
MCO) de los coecientes del modelo de regresin lineal simple. El estimador
MCO escoge, de entre todas las posibles, la recta que minimiza la suma de
los cuadrados de las distancias entre cada punto de la nube generada por las
observaciones muestrales y el asignado por la recta.
Derivando o1 con respecto a ambas variables (,
0
y ,
1
) e igualando
dichas derivadas a cero, tenemos:
0o1
0,
0
= 2
n

i=1
_
j
i

^
,
0

^
,
1
r
i
_
= 0 (4)
0o1
0,
1
= 2
n

i=1
_
j
i

^
,
0

^
,
1
r
i
_
r
i
= 0 (5)
con matriz de derivadas segundas:
0
2
o1
0,
0
0,
1
=
2: 2

n
i=1
r
i
2

n
i=1
r
i
2

n
i=1
r
2
i
que tiene por determinante:
11T = 4
_
_
:
n

i=1
r
2
i

_
n

i=1
r
i
_
2
_
_
= :
2
_
n
i=1
r
2
i
:
r
2
_
= :
2

n
i=1
(r
i
r)
2
:
= :
2
o
2
x
14
que es positiva. Como el primer menor, el elemento (1,1) de esta matriz,
que es 2:, es tambin positivo, podemos armar que la solucin al sistema de
ecuaciones (4) y (5) sern, los valores numricos de los coecientes ,
0
y ,
1
que,
efectivamente, alcanzan un mnimo de la Suma Residual.
Si resolvemos dicho sistema, obtenemos:
n

i=1
j
i
= :
^
,
0

^
,
1
n

i=1
r
i
(6)
n

i=1
j
i
r
i
=
^
,
0
n

i=1
r
i

^
,
1
n

i=1
r
2
i
(7)
que constituyen un par de ecuaciones simultneas en las incgnitas,
^
,
0
,
^
,
1
.
Este sistema se conoce como sistema de ecuaciones normales.
Utilizando los estadsticos que aparecen en la ltima la del Cuadro 1,
tendramos:
203 = 16,
0
+ 167,
1
134, 2 = 167,
0
+,
1
que resuelto, proporciona las estimaciones MCO:
^
,
0
= 4, 35;
^
,
1
= 0, 799
con dichos datos. La sexta columna del cuadro presenta los valores previstos
por el modelo para la variable dependiente. La columna siguiente muestra los
residuos, es decir, la diferencia entre los valores de 1 y los valores previstos por
el modelo.
En general, si primero despejamos
^
,
0
en (6), tenemos:
^
,
0
=

n
i=1
j
i

^
,
1

n
i=1
r
i
:
= j
^
,
1
r (8)
que podremos utilizar para obtener el estimador MCO de ,
0
, una vez que
tengamos el estimador de 1. Substituyendo en (7), tenemos:
^
,
1
=

n
i=1
j
i
r
i

1
n
(

n
i=1
r
i
) (

n
i=1
j
i
)

n
i=1
r
2
i

1
n
(

n
i=1
r
i
)
2
=

n
i=1
(r
i
r) (j
i
j)

n
i=1
(r
i
r)
2
=
o
xy
o
2
x
= j
xy
o
y
o
x
(9)
donde o
xy
, o
2
x
, o
2
y
, o
x
, o
y
, denotan, respectivamente, la covarianza, varian-
zas y desviaciones tpicas muestrales de A e 1 . Las expresiones (8) y (9) son
tiles, pues proporcionan directamente las estimaciones MCO como funcin de
estadsticos muestrales, sin necesidad de resolver el sistema de ecuaciones nor-
males. Primero se calcula
^
,
1
y, luego, se obtiene:
^
,
0
= j
^
,
1
r. Ello demuestra
una propiedad del estimador MCO: la recta estimada pasa por el punto ( j, r).
15
Ntese que las ecuaciones anteriores pueden escribirse tambin:
n

i=1
^ n
i
= 0
n

i=1
r
i
^ n
i
= 0
que son dos propiedades del estimador de mnimos cuadrados:
1) la suma de los residuos que genera el estimador de mnimos cuadrados
es igual a cero, lo que no necesariamente ocurre con otro procedimiento de
estimacin [ver suma de la columna 7 del Cuadro 1], y
2) los residuos de mnimos cuadrados estn incorrelacionados con la vari-
able explicativa del modelo. Cuando se considera un modelo de regresin lineal
general o mltiple, que incluye no una, sino / variables explicativas, los residuos
de mnimos cuadrados estn incorrelacionados con todas las variables explicati-
vas del modelo [ver suma de la columna 8 del Cuadro 1].
2.1 Esperanza matemtica
La expresin del estimador MCO de la pendiente del modelo de regresin lineal
simple puede escribirse:
^
,
1
=

n
i=1
(r
i
r) (j
i
j)

n
i=1
(r
i
r)
2
=

n
i=1
(r
i
r) j
i

n
i=1
(r
i
r)
2
=
n

i=1
_
r
i
r

n
i=1
(r
i
r)
2
_
j
i
=
n

i=1
c
i
j
i
(10)
como una combinacin lineal ponderada de las observaciones de la variable
endgena, con ponderaciones:
c
i
=
r
i
r

n
i=1
(r
i
r)
2
En esta cadena de igualdades hemos utilizado el hecho de que la suma de las
desviaciones de una variable con respecto a su media muestral, es siempre igual
a cero. Las ponderaciones en esta expresin suman cero:
n

i=1
c
i
=
n

i=1
_
r
i
r

n
i=1
(r
i
r)
2
_
=

n
i=1
(r
i
r)

n
i=1
(r
i
r)
2
=
0

n
i=1
(r
i
r)
2
= 0
Adems:
n

i=1
c
i
r
i
=
n

i=1
_
r
i
r

n
i=1
(r
i
r)
2
_
r
i
=

n
i=1
(r
i
r) r
i

n
i=1
(r
i
r)
2
=

n
i=1
r
2
i
r

n
i=1
r
i

n
i=1
(r
2
i
2 rr
i
+ r
2
)
=
=

n
i=1
r
2
i
: r
2

n
i=1
r
2
i
2 r(: r) +: r
2
=

n
i=1
r
2
i
: r
2

n
i=1
r
2
i
: r
2
= 1
16
Recordemos que estamos suponiendo que los valores r
1
,r
2
,... tomados por
la variable A son jos, es decir, no estn sujetos a ninguna incertidumbre, de
modo que, si volvisemos a tomar otra muestra de igual tamao, tendramos
para dicha variable las mismas observaciones numricas, una por una, que las
que ya disponemos. Tan slo las observaciones j
1
, j
2
,... de la variable end-
gena 1 diferiran de las actualmente disponibles, debido a que las realizaciones
muestrales de la perturbacin aleatoria n
i
, el nico componente aleatorio de
1 , seran diferentes de las actuales. Vamos a utilizar ahora repetidamente el
carcter determinista no aleatorio, de la variable A.
Si sustituimos en (10) j
i
por su expresin a travs del modelo de regre-
sin, tenemos:
^
,
1
=
n

i=1
c
i
(,
0
+,
1
r
i
+n
i
) =
n

i=1
c
i
,
0
+
n

i=1
c
i
,
1
r
i
+
n

i=1
c
i
n
i
= (11)
= ,
0
n

i=1
c
i
+,
1
n

i=1
c
i
r
i
+
n

i=1
c
i
n
i
= ,
0
.0 +,
1
.1 +
n

i=1
c
i
n
i
=
= ,
1
+
n

i=1
c
i
n
i
donde hemos utilizado las dos propiedades antes demostradas. Esta es una
representacin muy til, que presenta el estimador de mnimos cuadrados de la
pendiente como una combinacin lineal de las perturbaciones del modelo, con
coecientes c
i
, ms una constante desconocida, el verdadero valor de dicha pen-
diente. Los coecientes c
i
en dicha combinacin lineal varan de una muestra a
otra con los valores de la variable explicativa, A, por lo que el valor numrico del
estimador de mnimos cuadrados tambin variara si dispusiramos de distintas
muestras recogidas en distintos perodos de tiempo, por ejemplo.
Es importante recordar que suponemos que la variable explicativa es deter-
minista. Es decir, que los valores numricos observados en la muestra para dicha
variable son los nicos posibles, dadas las unidades de observacin muestral,
sean individuos, empresas, familias, o un conjunto de observaciones de detemri-
nada frecuencia (diaria, mensual, trimestral anual) a lo largo de un determinado
intervalo de tiempo. Recordemos que de una muestra a otra, cambiaran los val-
ores observados de la variable dependiente, j
i
porque cambiara la realizacin
numrica de las perturbaciones n
i
, pero no porque cambiasen los valores de la
variable explicativa r
i
, que seran los mismos entre distintas muestras extradas
de las mismas unidades de observacin.
A continuacin, vamos a obtener la esperanza matemtica y la varianza de
los estimadores de mnimos cuadrados de
^
,
0
y
^
,
1
. Esto es necesario para poder
proceder a contrastar hiptesis acerca de sus verdaderos valores que, recordemos,
son desconocidos. Disponemos de una estimacin numrica, obtenida con la
muestra disponible, que sera diferente si pudisemos calcularla con otra muestra
distinta.
Tomando esperanzas, y notando que:
17
1 (c
i
n
i
) = c
i
0 = 0
tenemos:
1
_
^
,
1
_
= ,
1
+1
_
n

i=1
c
i
n
i
_
= ,
1
+
n

i=1
1 (c
i
n
i
) = ,
1
+
n

i=1
c
i
1 (n
i
) = ,
1
lo que prueba que el estimador MCO del parmetro ,
1
es insesgado, puesto
que su esperanza matemtica coincide con el verdadero valor del parmetro que
se pretende estimar, que es desconocido.
Notemos que el supuesto de que la variable explicativa no es aleatoria es
crucial para probar la ausencia de sesgo del estimador de mnimos cuadrados. En
las expresiones anteriores nos hemos encontrado con 1 (c
i
n
i
) , y cada c
i
depende
de todas las observaciones r
j
, , = 1, 2, ..., :. Si fuese aleatoria, no sabramos
decir nada acerca de la esperanza matemtica 1(r
i
n
i
), salvo haciendo supuestos
especciaos acerca de la covarianza entre ambas variables aleatorias, r
i
y n
i
,
pero mucho menos acercad ela esperanza 1 (c
i
n
i
) .
Recordando que la expresin del estimador MCO del trmino independiente
,
0
es:
^
,
0
= j
^
,
1
r
notemos que:
1 ( j) = ,
0
+1
_
^
,
1
r
_
+1 ( n) = ,
0
+,
1
r
por lo que:
1
_
^
,
0
_
= 1( j) 1(
^
,
1
r) = (,
0
+,
1
r) 1(
^
,
1
). r = (,
0
+,
1
r) ,
1
r = ,
0
de modo que, al igual que ocurra con la estimacin de ,
1
, el estimador MCO
de ,
0
es tambin insesgado.
La recta de regresin estimada pasa por el punto ( r, j) . Es decir, el valor
numrico que la recta de regresin estimada asocia a la variable dependiente 1
cuando A = r es, precisamente, 1 = j. En efecto:
j =
^
,
0
+
^
,
1
r =
_
j
^
,
1
r
_
+
^
,
1
r = j
El punto ( r, j) se conoce en ocasiones como el centro de gravedad de la nube
de puntos (r
i
, j
i
), i = 1, 2, ..., .
18
2.2 Matriz de covarianzas
Todo estimador puntual debe ir siempre acompaado de una medida de
dispersin del mismo, generalmente su varianza, de modo que podamos juzgar
el grado en que se aproxima al verdadero valor del parmetro que pretendemos
estimar. Pero adems, para poder llevar a cabo un anlisis de inferencia es-
tadstica, es decir, para poder contrastar si alguno de los coecientes ,
0
,
1
, o
ambos, toman determinados valores tericos, es preciso disponer de desviaciones
tpicas de sus estimaciones. Estos no son sino un caso particular de los proble-
mas de estimacin e inferencia estadsticos, y los resolvemos de modo similar,
mediante la construccin de intervalos de conanza, al nivel deseado, alrededor
del valor hipottico que se pretende contrastar.
Recordemos el supuesto de que las perturbaciones aleatorias del modelo cor-
respondientes a todas las unidades muestrales tienen la misma varianza, o
2
u
. Por
tanto, si partimos de la expresin (11) que antes obtuvimos para el estimador
de ,
1
, tenemos:
\ ar(c
i
n
i
) = c
2
i
\ ar(n
i
) = c
2
i
o
2
u
para cualquier i = 1, 2, ... . Entonces, puesto que la covarianza entre n
i
y n
j
es igual a cero, se tiene:
1
_
n

i=1
c
i
n
i
_
=
n

i=1
1 (c
i
n
i
) =
n

i=1
c
i
1 (n
i
) =
n

i=1
c
i
0 = 0
\ ar
_
n

i=1
c
i
n
i
_
=
n

i=1
\ ar(c
i
n
i
) =
n

i=1
c
2
i
\ ar(n
i
) = o
2
u
_
n

i=1
c
2
i
_
Si calculamos la suma de los cuadrados de las ponderaciones:
n

i=1
c
2
i
=
n

i=1
_
r
i
r

n
i=1
(r
i
r)
2
_
2
=

n
i=1
(r
i
r)
2
_

n
i=1
(r
i
r)
2
_
2
=
1

n
i=1
(r
i
r)
2
=
1
:o
2
x
siendo o
2
x
la varianza muestral de A : o
2
x
=

n
i=1
(r
i
r)
2
,:.
Como el estimador
^
,
1
es la suma de una constante (el verdadero valor ,
1
)
y una variable aleatoria (la suma ponderada de las perturbaciones) [ver (11)],
la varianza de
^
,
1
ser igual tan slo a la varianza de esta ltima suma:
\ ar
_
^
,
1
_
= \ ar
_
n

i=1
c
i
n
i
_
= o
2
u
_
n

i=1
c
2
i
_
=
o
2
u

n
i=1
(r
i
r)
2
=
o
2
u
:o
2
x
Para obtener la varianza del estimador MCO de
^
,
0
, notemos que:
19
\ ar
_
^
,
0
_
= \ ar( j)+\ ar(
^
,
1
r)2Co( j,
^
,
1
r) = \ ar( j)+ r
2
\ ar(
^
,
1
)2 rCo( j,
^
,
1
)
donde aparece la varianza de la media muestral de la variable endgena, que
podemos calcular, del siguiente modo: si sumamos la expresin (1) del modelo
lineal simple para todas las observaciones muestrales, tenemos:
n

i=1
j
i
=
n

i=1
(,
0
+,
1
r
i
) +
n

i=1
n
i
= :,
0
+,
1
n

i=1
r
i
+
n

i=1
n
i
y, dividimos por el tamao muestral, ::
j = ,
0
+,
1
r + n
lo que puede utilizarse para probar que:
\ ar( j) = \ ar(,
0
+,
1
r + n) = \ ar(,
0
) +\ ar(,
1
r) +\ ar( n) = 0 + 0 +
o
2
u
:
=
o
2
u
:
Co ( j, n
i
) = Co (,
0
+,
1
r + n, n
i
) = Co (,
0
, n
i
) + rCo (,
1
, n
i
) +Co ( n, n
i
) =
= 0 + 0 +
1
:
n

j=1
Co(n
j
, n
i
) =
1
:
o
2
u
Co
_
j,
^
,
1
_
= Co
_
j, ,
1
+
n

i=1
c
i
n
i
_
= Co ( j, ,
1
) +
n

i=1
c
i
Co ( j, n
i
) = 0 +
1
:
o
2
u
n

i=1
c
i
= 0
por lo que tenemos:
\ ar
_
^
,
0
_
= \ ar( j) + r
2
\ ar(
^
,
1
) 2 rCo( j,
^
,
1
) =
o
2
u
:
+ r
2
o
2
u

n
i=1
(r
i
r)
2
=
= o
2
u
_
1
:
+
r
2

n
i=1
(r
i
r)
2
_
= o
2
u

n
i=1
r
i
2

n
i=1
(r
i
r)
2
y, por tanto:
Co
_
^
,
0
,
^
,
1
_
= Co
_
j
^
,
1
r,
^
,
1
_
= rCo
_
j,
^
,
1
_
r\ ar
_
^
,
1
_
=
= 0 r
o
2
u

n
i=1
(r
i
r)
2
=
ro
2
u

n
i=1
(r
i
r)
2
Argumento alternativo:
20
^
,
0
= j
^
,
1
r = (,
0
+,
1
r + n)
^
,
1
r = ,
0
+
_
,
1

^
,
1
_
r + n
^
,
0
1
^
,
0
=
_
,
1

^
,
1
_
r + n
\ ar
_
^
,
0
_
= 1
__
^
,
1
1
^
,
1
_
r + n
_
2
= 1
_
_
,
1

^
,
1
_
2
r
2
_
+1
_
n
2
_
+ 21
__
^
,
1
1
^
,
1
_
r n
_
=
= r
2
\ ar
_
^
,
1
_
+
o
2
u
:
2 r1
__
^
,
1
1
^
,
1
_
n
_
Pero : 1
__
^
,
1
1
^
,
1
_
n
_
= 1
_
_
_
n

i=1
c
i
n
i
_
_
_
1
:
n

j=1
n
j
_
_
_
_
=
o
2
u
:
n

i=1
c
i
= 0
Luego : \ ar
_
^
,
0
_
= r
2
\ ar
_
^
,
1
_
+
o
2
u
:
= o
2
u
_
1
:
+
r
2

n
i=1
(r
i
r)
2
_
= o
2
u

n
i=1
r
i
2

n
i=1
(r
i
r)
2
Co
_
^
,
0
,
^
,
1
_
= 1
__
^
,
0
,
0
__
^
,
1
,
1
__
= 1
__
n
_
^
,
1
,
1
_
r
__
^
,
1
,
1
__
=
= 1
_
n
_
^
,
1
,
1
__
r1
_
_
^
,
1
,
1
_
2
_
= 0 r\ ar
_
^
,
1
_
=
ro
2
u

n
i=1
(r
i
r)
2
que indica, entre otras cosas, que el signo de la covarianza entre
^
,
0
y
^
,
1
es
el opuesto al signo de la media muestral de la variable A.
Supongamos que dicha media fuese positiva, y tambin que el error de esti-
macin de ,
1
fuese asimismo positivo, es decir, que hubisemos estimado (sin
saberlo), un valor
^
,
1
superior al terico. Su producto por la media de A gener-
ara, en promedio, una contribucin positiva del error de estimacin a la expli-
cacin de la variable 1 :
j = ,
0
+,
1
r + n = [,
0
+,
1
r] +
__
^
,
0
,
0
_
+
_
^
,
1
,
1
_
r
_
donde en el corchete de la derecha, el segundo sumando est teniendo una
contribucin positiva. Para compensarlo, la estimacin MCO de ,
0
estara por
debajo de su valor verdadero: ,
0

^
,
0
. Es decir, si el estimador de Mnimos
Cuadrados sobreestima ,
1
, entonces infraestima ,
1
. Si infraestimamos ,
1
, en-
tonces sobreestimamos ,
0
. Lo contrario ocurrira si la media muestral de A
fuese negativa.
3 El modelo de regresin lineal en desviaciones
respecto de la media
Como hemos visto en la seccin anterior, a partir del modelo de regresin lineal:
j
i
= ,
0
+,
1
r
i
+n
i
, i = 1, 2, 3, ..., :
se deduce que:
21
j = ,
0
+,
1
r + n
y, restando, teneos un modelo en el que cada variable aparece en desviaciones
respecto de su media muestral:
j
i
j = ,
1
(r
i
r) + (n
i
n) , i = 1, 2, 3, ..., :
Ntese que la primera y tercera ecuaciones son vlidas para cada observacin
muestral y tenemos, en cada una de ellas, tantas relaciones como observaciones
muestrales, mientras que la segunda ecuacin aplica slo a las medias muestrales
y constituye, por tanto, una nica relacin.
En el modelo en desviaciones no hay trmino independiente, y el trmino de
error es distinto del trmino de error del modelo original.
Si estimamos este modelo en diferencias por mnimos cuadrados, tendremos
el mismo estimador de ,
1
que en el modelo original, ya que:
\ ar (r
i
r) = \ ar (r
i
)
Co [(r
i
r) , (j
i
j)] = Co (r
i
, j
i
)
Aunque no habremos estimado ,
0
, puesto que dicho parmetro ha desapare-
cido del modelo, podemos utilizar la relacin que obtuvimos antes para calcular
^
,
0
= j
^
,
1
r.
La varianza del trmino de error del modelo en diferencias es ligeramente
distinta del modelo original, puesto que:
\ ar (n
i
n) = 1 [n
i
(n
i
n)] = 1(n
2
i
) 1 (n
i
n) =
= 1(n
2
i
) 1
_
n
i
n

i=1
n
i
:
_
= o
2
u

1
:
o
2
u
=
: 1
:
o
2
u
Los residuos del modelo estimado con las variables en desviaciones respecto
de la media son:
^
i
= (j
i
j)
^
,
1
(r
i
r) = j
i
( j
^
,
1
r)
^
,
1
r
i
y, por tanto, coinciden numricamente, con los que se obtienen estimando el
modelo con las variables originales.
4 Estimacin de la varianza del trmino de error
o perturbacin aleatoria del modelo
Conociendo las expresiones analticas de las varianzas de ambos estimadores,
as como tambin de su covarianza, podremos contrastar hiptesis acerca de val-
ores tericos para alguno de los dos coecientes, y tambin contrastar hiptesis
22
conjuntas, acerca de ambos simultneamente. Pero en ellas aparece la vari-
anza del trmino de error o
2
u
, que es desconocida. Debemos, por tanto, estimar
este parmetro, y utilizar su estimacin en lugar de su verdadero valor, que es
desconocido.
Por similitud, parece razonable utilizar la varianza muestral de los residuos
como un estimador de la varianza poblacional o
2
u
. Los residuos de mnimos
cuadrados tienen media cero, como muestra la primera ecuacin normal, por lo
que su varianza muestral es: o
2
^ u
=
1
n

n
i=1
^ n
2
i
= oC1,:. Pero estimamos con
una pequea correccin:
^ o
2
u
=
1
: 2
n

i=1
^ n
2
i
=
:
: 2
o
2
^ u
Tomamos :2 y no simplemente : en el denominador, pero que el estimador
^ o
2
u
sea insesgado [ver Apndice]. Una vez que se dispone de una estimacin de
la varianza, puede utilizarse en las expresiones de la varianza de los estimadores
de los coecientes, de manera que tenemos as estimaciones de las varianzas de
los coecientes estimados, lo que indicaremos con un circunejo encima de la
palabra "Varianza".
Ejemplo.- Con los datos del Cuadro 1, tenemos una Suma Residual, es decir,
una suma de cuadrados de residuos, de 80,2. Ello nos lleva a la estimacin de
la varianza del trmino de error:
^ o
2
u
=
1
: 2
n

i=1
^ n
2
i
=
80, 2
16 2
= 5, 729 ) ^ o
u
= 2, 393
1
2
= 1
on:a Cnadrado: Re :idno:
on:a Tota|
= 1
5, 014
11, 715
= 1 0, 428 = 0, 572
Podemos utilizar ahora la estimacin de o
2
u
en las expresiones de las varianzas
de los estimadores de Mnimos Cuadrados:
\ ar
_
^
,
1
_
=
o
2
u

n
i=1
(r
i
r)
2
=
5, 729
167, 9
= 0, 03417 )1T
_
^
,
1
_
= 0, 185
\ ar
_
^
,
0
_
= o
2
u

n
i=1
r
i
2

n
i=1
(r
i
r)
2
=
5, 729
16
1911
167, 9
= 4, 075 )1T
_
^
,
2
_
= 2, 02
Co
_
^
,
0
,
^
,
1
_
=
ro
2
u

n
i=1
(r
i
r)
2
=
5, 729
167, 9
(10, 4) = 0, 354
Finalmente, el modelo estimado se representa escribindolo como la funcin
lineal que es, anotando debajo de los coecientes estimados sus desviaciones tpi-
cas que son, asimismo, estimadas, como acabamos de ver, pues sus verdaderos
valores dependen de o
2
u
:
23
j
i
= 4, 35
(2;02)
+ 0.799
(0;185)
r
i
+n
i
, 1
2
= 0, 572; ^ o
u
= 2, 393
Ejemplo.- Consideremos un modelo muy sencillo:
j
i
= ,
0
+n
i
,
en el que aparece una constante como nica variable explicativa, por lo que se
denoomina modelo constante de regresin. El estimador MCO ser el estadstico
muestral que minimice la suma de los residuos, que en este caso es:
oC1 =
n

i=1
^ n
2
i
=
n

i=1
(j
i
,
0
)
2
,
por lo que se trata de minimizar la suma de las desviaciones al cuadrado
entre los valores muestrales de la variable Y y un estadstico. La solucin a
dicho problema de minimizacin est dada por la media muestral, y el valor
minimizado es, por tanto, la varianza muestral. En consecuencia, el estimador
del modelo constante de regresin es la media muestral. Ello signica que la
media muestral es el estimador ptimo, cuando no se dispone de informacin
acerca de ninguna otra variable. En tal situacin, lo mejor que podemos hacer
es aproximar cada valor potencialmente observable de la variable Y por la me-
dia muestral de que dispongamos. Es, desde luego, un estimador algo pobre,
pero nos sirve de referencia a la que hay que mejorar; es decir, contando con
informacin muestral acerca de alguna otra variable, hemos de conseguir esti-
maciones MCO de un modelo de regresin tales que la Suma de Cuadrados de
Residuos que generan sea inferior a la varianza muestral de Y. Pero ello va a
ocurrir siempre. Cuando se estima el modelo constante, la Suma de Cuadrados
de Residuos, que es la varianza de Y, coincide con la Suma Total, por lo que
el coeciente de determinacin es igual a cero. Ningn otro modelo tendr un
coeciente de determinacin inferior.
5 Eciencia
En el modelo de regresin, la aleatoriedad proviene del trmino de error,
de quien suponemos que tiene esperanza matemtica nula y varianza o
2
u
. La
aleatoriedad se transmite a la variable j
i
, que tiene esperanza 1(j
i
) = ,
0
+,
1
r
i
y varianza o
2
u
, igual a la de n
i
, de quien se diferencia en una constante, ,
0
+,
1
r
i
.
Por otra parte, (10) muestra que el estimador MCO de ,
1
depende linealmente
de las observaciones de la variable aleatoria 1 . Tambin
^
,
0
es una combinacin
lineal de las observaciones j
i
:
24
^
,
0
= j
^
,
1
r = j
_
,
1
+
n

i=1
c
i
n
i
_
r = j ,
1
r r
_
n

i=1
c
i
(j
i
,
0
,
1
r
i
_
=
= j ,
1
r r
n

i=1
c
i
j
i
+,
0
r
n

i=1
c
i
+,
1
r
n

i=1
c
i
r
i
= j ,
1
r r
n

i=1
c
i
j
i
+,
0
r.0 +,
1
r.1 =
= j r
n

i=1
c
i
j
i
=
1
:
n

i=1
j
i
r
n

i=1
c
i
j
i
=
n

i=1
_
1
:
rc
i
_
j
i
Pues bien, el estimador MCO es de mnima varianza dentro de la clase de
estimadores lineales:
Theorem 1 (Teorema de Gauss-Markov).- Bajo los supuestos del modelo llineal
de regresin, el estimador MCO es el estimador lineal insesgado de mnima var-
ianza de los coecientes del modelo de regresin.
Proof. Consideremos un estimador lineal de la pendiente del modelo de regre-
sin:
~
,
1
=
n

i=1
c
i
j
i
que supondremos distinto del estimador de mnimos cuadrados, es decir,
que no todas las constantes c
i
son iguales a las c
i
. Para que este estimador sea
insesgado ha de cumplirse:
1
_
~
,
1
_
= 1
_
n

i=1
c
i
j
i
_
= 1
_
n

i=1
c
i
(,
0
+,
1
r
i
+n
i
)
_
= 1
_
,
0
n

i=1
c
i
_
+,
1
1
n

i=1
c
i
r
i
+1
n

i=1
c
i
n
i
=
= ,
0
n

i=1
c
i
+,
1
n

i=1
r
i
+ 0
que ser igual a ,
1
y, con ello, el estimador
~
,
1
ser insesgado slo si se
cumple, simultneamente:
n

i=1
c
i
= 0
n

i=1
c
i
r
i
= 1
Suponemos, por tanto, que las constantes c
i
satisfacen ambas condiciones.
Teniendo en cuenta que tanto

n
i=1
c
i
como

n
i=1
c
i
r
i
son constantes, la vari-
anza de este estimador es:
\ ar
_
~
,
1
_
= \ ar
_
n

i=1
c
i
n
i
_
=
n

i=1
\ ar (c
i
n
i
) = o
2
u
n

i=1
c
2
i
25
de modo que, para probar que el estimador de mnimos cuadrados tiene
menor varianza que este estimador lineal insesgado genrico, habremos de probar
que:
1

n
i=1
(r
i
r)
2

n

i=1
c
2
i
con independencia de cules sean las constantes c
i
, i = 1, 2, ..., :.
Para ello, consideremos la expresin:
n

i=1
_
c
i

r
i
r

n
i=1
(r
i
r)
2
_
2
=
n

i=1
c
2
i
2
n

i=1
c
i
r
i
r

n
i=1
(r
i
r)
2
+
n

i=1
_
r
i
r

n
i=1
(r
i
r)
2
_
2
=
=
n

i=1
c
2
i
2
1

n
i=1
(r
i
r)
2
+
n

i=1
(r
i
r)
2
_

n
i=1
(r
i
r)
2
_
2
=
n

i=1
c
2
i
2
1

n
i=1
(r
i
r)
2
+

n
i=1
(r
i
r)
2
_

n
i=1
(r
i
r)
2
_
2
=
=
n

i=1
c
2
i

1

n
i=1
(r
i
r)
2
0
donde la ltima desigualdad proviene del hecho de que el punto de partida
es una suma de cuadrados y por tanto, necesariamente positiva.
Pero esto signica que, como queramos mostrar:
n

i=1
c
2
i

1

n
i=1
(r
i
r)
2
El teorema de Gauss-Markov es importante, por cuanto que arma que
la matriz de covarianzas del estimador MCO es inferior a la de cualquier otro
estimador lineal e insesgado. Es decir, la diferencia entre ambas matrices, en el
orden citado, es semidenida negativa. Ello tiene implicaciones ms tiles: la
varianza del estimador MCO de ,
0
es inferior a la de cualquier otro estimador
lineal e insesgado de dicho coeciente, y lo mismo ocurre con la varianza del
estimador MCO de ,
1
.
Cuando el trmino de error del modelo tiene una distribucin Normal,
tenemos un resultado an ms importante, que arma que el estimador MCO
es eciente, es decir, tiene la menor varianza posible (la menor matriz de covar-
ianzas), dentro de la clase de los estimadores insesgados, sean estos lineales o
no.
Theorem 2 Teorema de Rao.- Si se cumplen las condiciones de la Seccin 13.1
y, adems, el trmino de error del modelo tiene distribucin Normal, entonces el
estimador MCO es el estimador insesgado de mnima varianza de los coecientes
del modelo de regresin.
26
Proof. La demostracin se basa en probar que, cuando el trmino de error del
modelo de regresin tiene distribucin Normal, n
i
(0, o
2
u
), entonces el esti-
mador de Mnimos Cuadrados coincide con el estimador de Mxima Verosimili-
tud. Como este ltimo es siempre (bajo condiciones muy generales y, por tanto,
fciles de satisfacer) el estimador de mnima varianza o eciente, habremos
probado que, en este caso especial, el estimador de mnimos cuadrados tambin
lo es.
Consideremos el modelo de regresin con trmino de error Normal:
j
i
= ,
0
+,
1
r
i
+n
i
n
i
(0, o
2
u
)
del que escribimos la funcin de verosimilitud:
1(,
0
, ,
1
, o
2
u
,j
1
, r
1
, j
2
, r
2
, ..., j
n
, r
n
) =
n

i=1
1
o
u
p
2
c
u
2
i
=2
2
u
y su logaritmo:
ln1(,
0
, ,
1
, o
2
u
,j
1
, r
1
, ..., j
n
, r
n
) =
:
2
lno
2
u

:
2
ln(2)
n

i=1
n
2
i
2o
2
u
=
=
:
2
lno
2
u

:
2
ln(2)
n

i=1
(j
i
,
0
,
1
r
i
)
2
2o
2
u
El estimador de Mxima Verosimilitud se obtiene derivando en la expresin
anterior con respecto a los parmetros desconocidos: ,
0
, ,
1
, o
2
u
, e igualando a
cero dichas derivadas.
Pero sin necesidad siquiera de hacer dicho clculo, ya apreciamos que los
valores numricos de ,
0
y ,
1
que maximizan ln1 son los mismos que minimizan
la Suma de Cuadrados de los Residuos, ya que sta entra con signo menos
en la expresin de ln1. Por tanto, los estimadores de Mnimos Cuadrados y
de Mxima Verosimilitud de ambos parmetros coinciden, y el teorema quda
probado.
Este resultado es importante, porque justica el uso del estimador de Mni-
mos Cuadrados, dadoq ue es un estimador eciente. Pero, como con cualquier
teormea, es preciso entender el conjunto de ocndiciones bajo las que puede ar-
marse la conclusin que se ha obtenido. En nuestro caso, es especilamente
importante recordar que la eciencia del estimador de Mnimos Cuadrados se
obtiene si el trmino de error del modelo sigue una distribucin Normal, pero
no necesariamente en otro caso.
El estimador de Mxima verosimilitud de la varianza del trmino de error
es:
^ o
2
MV
=
1
:
n

i=1
^ n
2
i
27
que es parecido, aunque no idntico, al estimador MCO de dicho parmetro.
De hecho, como sabemos [ver Apndice] que el estimador MCO de o
2
u
es inses-
gado, podemos asegurar que el estimador de mxima verosimilitud es sesgado:
1
_
^ o
2
MV
_
= 1
_
: 2
:
^ o
2
MCO
_
=
: 2
:
1
_
^ o
2
MCO
_
=
: 2
:
o
2
u
Sin embargo, su sesgo desaparece al aumentar el tamao muestral por cuanto
que el factor (: 2),: tiende a uno. El estimador MV de la varianza es, por
tanto, asintticamente insesgado.
6 Propiedades adicionales del coeciente de
determinacin
6.1 Expresin alternativa:
1
2
= 1

n
i=1
^ n
2
i

n
i=1
(j
i
j)
2
=

n
i=1
(^ j
i
j)
2

n
i=1
(j
i
j)
2
6.2 Relacin con el coeciente de correlacin lineal en un
modelo de regresin lineal simple:
Comenzamos obteniendo una expresin para la Suma de Cuadrados de los Resid-
uos de la estimacin de mnimos cuadrados:
oC1 =
n

i=1
^ n
2
i
=
n

i=1
(j
i
^ j
i
)
2
=
n

i=1
_
j
i

_
j +
o
xy
o
2
x
(r
i
r)
__
2
=
=
n

i=1
(j
i
j)
2
+
_
o
xy
o
2
x
_
2 n

i=1
(r
i
r)
2
2
o
xy
o
2
x
n

i=1
(j
i
j) (r
i
r) =
= :o
2
y
+:
o
2
xy
o
2
x
2:
o
2
xy
o
2
x
= :
_
o
2
y

o
2
xy
o
2
x
_
por lo que el coeciente de correlacin lineal puede escribirse:
1
2
= 1
oC1
:o
2
y
= 1
o
2
y

S
2
xy
S
2
x
o
2
y
=
o
2
xy
o
2
x
o
2
y
= j
2
xy
28

También podría gustarte