Está en la página 1de 63

Notas de Clases - Econometra Aplicada

Christian Ferrada

Esta versin: 4 de enero de 2014


1 Introduccin
Este apunte cubre parte importante del material visto en las clases de Econometra Aplicada
(ENMES 300) durante el semestre de verano de 2014.
El objeto del apunte es complementar las clases, especialmente en cuanto a las derivaciones
algebraicas y a las aplicaciones realizadas con el programa STATA. Para ello, se demuestran
la mayora de resultados expuestos y tambin se ejempican con datos de libre disposicin en
la web mediante el uso de rutinas que se describen en el texto y que los estudiantes puedan
fcilmente replicar.
Los conceptos analizados en este documento tienen relacin con aplicaciones de Econometra,
que es la ciencia que analiza los datos mendiante tcnicas matemticas y estadsticas para
vericar la teora econmica. Esta ciencia tambin sirve para realizar predicciones y recomen-
daciones de poltica a partir de los modelos estimados.

Estas notas de clases contaron con la valiosa colaboracin de Mariana Letelier y Juan-Andrs Castro.
1
2 Regresin lineal
Una regresin lineal establece una relacin entre dos o ms variables. Por un lado estn las
variables explicativas, que asumimos exgenas y que usualmente se denotan como un vector
A (en el caso de una sola variable explicativa, A corresponde a un escalar); y por otro lado
est la variable dependiente, la cual es nuestro objeto de anlisis y que denotamos como 1 .
La regresin lineal la podemos escribir como:
1
i
= ,
0
+,
1
A
i
+n
i
(1)
donde ,
0
y ,
1
son los parmetros a estimar y el sub-ndice i se asocia a la observacin i. Esta
regresin lineal asume un trmino de error n
i
. Las propiedades estadsticas de este trmino
de error las estableceremos ms adelante.
Es muy importante diferenciar entre relaciones poblacionales y relaciones muestrales. Las
relaciones poblacionales las asumimos que resultan de la teora (econmica por ejemplo) y por
lo tanto se pueden asumir como vlidas ante cualquier supuesto. Por ejemplo, una relacin
poblacional que da origen a una recta poblacional es la siguiente:
1
i
= 1
)
+,
i
(1
n
1
)
)
donde el retorno de un activo 1
i
est explicado por la tasa de inters libre de riesgo 1
)
ms
un coeciente ,
i
que mide la sensibilidad del activo al premio de mercado (que corresponde a
la diferencia entre el retorno de mercado 1
n
y la tasa de inters libre de riesgo) multiplicado
por este premio de mercado. Esta relacin la podemos estimar con una muestra de datos, lo
que da origen a una relacin muestral y a una recta muestral:
1
i
= ,
0
+,
1
(1
n
1
)
) +n
i
En este caso, condicional a una muestra particular de datos, el estimador

,
0
debiese
ser aproximadamente igual a la tasa de inters libre de riesgo 1
)
y el estimador

,
1
debiese
capturar la sensibilidad del activo al premio de mercado.
La funcin de regresin poblacional tiene la particularidad que corresponde a los prome-
dios de la variable dependiente condicionales a valores dados de la variable independiente.
Esta funcin la podemos denotar como:
1[1
i
[A
i
] = ,
0
+,
1
A
i
El error estimado se dene como la diferencia entre el valor asociado a la funcin de
regresin poblacional y el asociado a la funcin de regresin poblacional:
n
i
= 1
i


1
i
Para calcular los estimadores de ,
0
y ,
1
que minimicen la suma de los errores estimados
al cuadrado (que corresponde a los estimadores

,
0
y

,
1
de Mnimos Cuadrados Ordinarios)
resolvemos el siguiente problema de minimizacin:
min
b
o
0
,
b
o
1
.

i=1
n
2
i
= min
b
o
0
,
b
o
1
.

i=1
_
1
i


1
i
_
2
= min
b
o
0
,
b
o
1
.

i=1
_
1
i

,
0

,
1
A
i
_
2
(2)
2
La solucin a este problema la desarrollamos en clases (obteniendo dos condiciones de
primer orden y combinndolas entre s), resultando en que los estimadores de Mnimos
Cuadrados Ordinarios satisfacen:

,
1
=

.
i=1
A
i
1
i
:A1

.
i=1
A
2
i
:A
2
=

.
i=1
_
A
i
A
_ _
1
i
1
_

.
i=1
_
A
i
A
_
2
(3)

,
0
=1

,
1
A
Estas ecuaciones las podemos llevar a la prctica con los siguientes datos:
1
i
(ventas) A
i
(publicidad)
10 3
26 4
30 8
En este ejemplo, pensamos en las ventas de una empresa, que han sido observadas en
3 perodos y en la publicidad que ha gastado esta empresa. Mediante una regresin lineal
podemos encontrar una relacin estable que relacione estas dos variables y que nos permita
responder preguntas como por ejemplo cul sera la venta esperada si es que en la empresa
se gasta 10 en publicidad.
Otra forma en que podemos obtener la ecuacin dada por la Ecuacin (3) es a travs de
las desviaciones respecto a la media de la regresin poblacional. Para eso, primero sumamos
sobre todos los i y dividimos por en la expresin dada por (1) para obtener:
1 = ,
0
+,
1
A +n
Luego, restamos a la Ecuacin (3) lo que acabamos de derivar para llegar a:
1
i
1 = ,
1
_
A
i
A
_
+n
i
En la expresin anterior asumimos que n = 0, lo cual resulta de una de las condiciones de
primer orden de la derivacin a partir de la Ecuacin (2). La otra condicin de primer orden
nos dice que el error estimado n
i
y los datos dados por A
i
son vectores ortogonales (estos dos
resultados se dejan propuestos como tarea para el estudiante). Denotando con minsculas las
desviaciones respecto a la media tenemos que el problema de Mnimos Cuadrados Ordinarios
lo podemos establecer como:
min
b
o
1
.

i=1
n
2
i
= min
b
o
1
.

i=1
_
j
i

,
1
r
i
_
2
Este problema es ms fcil de derivar puesto que comprende solo una incgnita. La
solucin de este problema es la misma que la expresada en la Ecuacin (3) y que podemos
escribir como

,
1
=

.
i=1
r
i
j
i
,

.
i=1
r
2
i
.
El clculo y las frmulas asociadas en Excel se muestran en la Figura 1, en donde fabri-
camos las desviaciones respecto a la media para las variables A e 1 . En este ejemplo, tambin
calculamos la varianza muestral de los errores o
2
y la varianza muestral de los estimadores,

Var[

,
0
] y

Var[

,
1
], expresiones que veremos como derivar ms adelante.
3
Figura 1: Clculos de los estimadores

,
0
y

,
1
.
Estos resultados los podemos contrastar con los obtenidos directamente mediante una
regresin en STATA, para lo cual utilizamos el siguiente cdigo:
Los resultados de esta regresin se muestran en la Figura 2, donde comprobamos que
los coecientes asociados a la variable publicidad (que corresponde a

,
1
) y a la variable
_cons (que es igual a

,
0
) son iguales a los de la Figura 1.
Figura 2: Output de STATA de la regresin c:ta:
i
= ,
0
+,
1
jn/|icidad
i
+n
i
.
Hasta este punto, hemos mostrado cmo obtener los estimadores de Mnimos Cuadrados
Ordinarios

,
0
y

,
1
. Estos estimadores cumplen con las siguientes propiedades:
4
Propiedad 1 Sesgo: Es la diferecia entre el valor esperado del estimador y el valor ver-
dadero.
oc:qo = E[

,] ,
Un estimador es insesgado si E[

,] = ,.
Propiedad 2 Varianza mnima (o eciencia): Si no hay otro estimador insesgado con var-
ianza menor.
Propiedad 3 Consistencia: Si

, converge en probabilidad en el lmite al valor del verdadero
parmetro.
lim
a!1
Var[

,] = 0
Lo anterior tambin se escribe como plim

, = ,. Formalmente,
\- 0, lim
a!1
Pr[[

, ,[ < -] = 1
En el desarrollo de la estimacin mediante Mnimos Cuadrados Ordinarios debemos hacer
una serie de supuestos, los que detallaremos a continuacin:
Supuesto 4 Debe ser un modelo de regresin lineal.
Supuesto 5 Los valores de A
i
son jos, no estocsticos. La parte aleatoria viene de n
i
e j
i
.
Supuesto 6 El valor medio del error es igual a cero: E[n
i
[A
i
] = 0.
Supuesto 7 Homocedasticidad: La variaza de los errores es constante, Var[n
i
[A
i
] = o
2
,
para todo i.
Supuesto 8 No existe correlacin entre los errores:
Cov[n
i
, n
)
[A
i
, A
)
] =0
E[n
i
E[n
i
][A
i
]E[n
)
E[n
)
][A
)
] =0
E[n
i
[A
i
]E[n
)
[A
)
] =0
Supuesto 9 La covarianza entre el error y la variable explicativa es cero:
E[n
i
A
i
] = 0
Supuesto 10 El nmero de observaciones : debe ser mayor al nmero de parmetros a
estimar /.
Supuesto 11 Los valores de la variable explicativa deben variar en la muestra.
Supuesto 12 El modelo de regresin est correctamente especicado. Este supuesto asume
que no tenemos presencia de los siguientes problemas:
Omisin de variable relevante.
5
Eleccin de la forma funcional inadecuada.
Incusin de variable irrelevante.
Supuestos estocsticos inadecuados.
El estimador de Mnimos Cuadrados Ordinarios es por construccin insesgado. Para esto,
notemos que:

,
1
=

.
i=1
_
A
i
A
_ _
1
i
1
_

.
i=1
_
A
i
A
_
2
=

.
i=1
r
i
j
i

.
i=1
r
i
2
=

.
i=1
r
i
(,
1
r
i
+n
i
)

.
i=1
r
i
2
=

.
i=1
,
1
r
2
i
+r
i
n
i

.
i=1
r
i
2
Lo anterior implica que, en esperanza:
E[

,
1
] = ,
1
+ E
_

.
i=1
r
i
n
i

.
i=1
r
i
2
_
= ,
1
+

.
i=1
r
i
E[n
i
]

.
i=1
r
i
2
= ,
1
donde usamos los supuestos 5 y 6 mencionados anteriormente.
La varianza del estimador de Mnimos Cuadrados Ordinarios satisface que:
Var[

,
1
] =
o
2

.
i=1
r
i
2
(4)
Esta derivacin usa diversos supuestos de los que mencionamos anteriormente y se deja
propuesta como tarea para el estudiante. Es importante notar que en la expresin de la
varianza del estimador, debemos conocer el valor de o
2
, el cual sin embargo, no conocemos. Lo
que s podemos hacer, es usar la estimacin insesgada de la varianza de los errores muestrales,
la que est dada por:
o
2
=

.
i=1
n
i
2
2
donde en el denominador consideramos como grados de libertad, el nmero de datos consid-
erado, ajustado por el nmero de parmetros (que hasta ahora hemos asumido que son dos,
,
0
y ,
1
, es decir, / = 2).
La varianza del estimador

,
0
se puede obtener a partir de la Ecuacin (4):
Var[

,
0
] = Var[1

,
1
A] = A
2
Var[

,
1
] =
A
2
o
2

.
i=1
r
i
2
6
3 Modelo de regresin mltiple
Para lograr llevar a cabo un anlisis acorde a la realidad, el modelo lineal anterior es demasi-
ado restrictivo al ser analizado nicamente con dos variables. Justamente, en esta seccin,
nos centraremos en generalizar el modelo lineal simple a un modelo de regresin mltiple de
/ + 1 variables (incluida la constante).
El modelo de regresin mltiple ser representado del siguiente modo:
1
i
= ,
0
+,
1
A
1i
+,
2
A
2i
+,
3
A
3i
+... +,
I
A
Ii
+n
i
donde ,
I
son los parmetros a estimar, los cuales son / ms la constante. El sub-ndice i se
asocia a la observacin i 1, 2, ..., y el sub-ndice / se asocia al regresor / 0, 1, 2, ..., /.
La regresin descrita asume un trmino de error n
i
para todo i. Podemos extender el modelo
a una forma vectorial:
_
_
_
_
1
1
1
2
...
1
a
_
_
_
_
= ,
0
_
_
_
_
1
1
...
1
_
_
_
_
+,
1
_
_
_
_
A
11
A
12
...
A
1a
_
_
_
_
+... +,
I
_
_
_
_
A
I1
A
I2
...
A
Ia
_
_
_
_
+
_
_
_
_
n
1
n
2
...
n
a
_
_
_
_
Ahora escribiremos en forma matricial el modelo:
_
_
_
_
1
1
1
2
...
1
a
_
_
_
_
=
_
_
_
_
1 A
11
... A
I1
1 A
12
... A
I2
... ... ... ...
1 A
1a
... A
Ia
_
_
_
_
_
_
_
_
,
0
,
1
...
,
I
_
_
_
_
+
_
_
_
_
n
1
n
2
...
n
a
_
_
_
_
Finalmente anotaremos la forma matricial del siguiente modo:
1
a1
= A
a(I+1)
,
(I+1)1
+l
a1
En donde : indica el nmero de observaciones, / + 1 es el nmero de parmetros del
modelo y los sub-ndices son las dimensiones de las matrices. Hay que sealar que estas
dimensiones sern tomadas en cuenta para las derivaciones y demotraciones siguientes.
Nos resta observar la notacin de los errores en forma matricial. Para ello recordemos
que los supuestos utilizados para un error bien comportado (o ruido blanco) son:
Supuesto 13 El valor medio del error es igual a cero: E[n
i
[A
i
] = 0.
Supuesto 14 Homocedasticidad: La variaza de los errores es constante, Var[n
i
[A
i
] = o
2
,
para todo i.
Supuesto 15 No existe correlacin entre los errores: Cov[n
i
, n
)
[A
i
, A
)
] = 0.
El vector de errores en forma matricial se traduce en:
l
a1
=
_
_
_
_
n
1
n
2
...
n
a
_
_
_
_
7
Analizando, bajo los supuestos anteriores, el valor medio del vector de errores es:
E[l
a1
] = E
_

_
_
_
_
_
n
1
n
2
...
n
a
_
_
_
_
_

_
=
_
_
_
_
E[n
1
]
E[n
2
]
...
E[n
a
]
_
_
_
_
=

0
a1
Luego, la matriz varianza-covarianza se puede expresar del siguiente modo:
E
_
l
a1
l
0
1a

=E
_

_
_
_
_
_
n
1
n
2
...
n
a
_
_
_
_
_
n
1
n
2
... n
a
_
_

_
= E
_

_
_
_
_
_
n
2
1
n
1
n
2
... n
1
n
a
n
2
n
1
n
2
2
... n
2
n
a
... ... ... ...
n
a
n
1
n
a
n
2
... n
2
a
_
_
_
_
_

_
=
_
_
_
_
E
_
n
2
1

E[n
1
n
2
] ... E[n
1
n
a
]
E[n
2
n
1
] E
_
n
2
2

... E[n
2
n
a
]
... ... ... ...
E[n
a
n
1
] E[n
a
n
2
] ... E
_
n
2
a

_
_
_
_
=
_
_
_
_
o
2
0 ... 0
0 o
2
... 0
... ... ... ...
0 0 ... o
2
_
_
_
_
= o
2
I
aa
Es decir, el vector de primeros momentos es un vector de ceros de dimensin : 1,
mientras que la matriz de segundos momentos es una matriz diagonal de varianza del error
constante, tal que o
2
I
aa
. Debemos sealar que tanto el vector de primeros momentos como
la matriz de segundos momentos fueron establecidos bajos los supuestos realizados sobre la
distribucin del error. Por lo tanto, si cualquiera de los supuestos anteriores se ve afectado,
el vector de primer momento y la matriz varianza-covarianza tendrn una forma funcional
diferente.
Para realizar la derivacin de los betas por el mtodo Mnimos Cuadrados Ordinarios,
debemos seguir la misma intuicin que en el modelo de regresin lineal simple. El error
estimado del modelo de regresin mltiple se dene como el vector diferencia entre el vector
asociado a la funcin de regresin poblacional y muestral

l
a1
= 1
a1


1
a1
Lo que el mtodo de Mnimos Cuadrados Ordinarios realiza es minimizar la suma de los
errores al cuadrado. Para esto, se busca elegir el vector de parmetros

, que minimice los
errores muestrales. En el modelo de regresin simple con dos parmetros realizbamos la
siguiente minimizacin:
min
b
o
0
,
b
o
1
.

i=1
n
2
i
De forma anloga, la minimizacin del modelo de regresin mltiple se traduce en:
min
b
o
(k+1)1

l
0
1a

l
a1
La forma descrita anteriormente, es una forma funcional que describe en dimensin ma-
tricial la suma de los errores muestrales al cuadrado. Notemos que el vector

l
0

l es de
dimensin 1 1, lo que equivale a un escalar.
8
Desarrollaremos la expresin antes de derivar:
min
b
o

l
0

l =min
b
o
(1 A

,)
0
(1 A

,)
=min
b
o
(1
0

,
0
A
0
)(1 A

,)
=min
b
o
1
0
1

,
0
A
0
1 1
0
A

, +

,
0
A
0
A

,
=min
b
o
1
0
1 21
0
A

, +

,
0
A
0
A

, (5)
donde notamos que

,
0
A
0
1 y 1
0
A

, poseen los mismos elementos en orden distinto, pero


dado que son escalares (el estudiante puede chequear esto), asumimos que son iguales y por
lo tanto podemos sumarlas, lo que da origen a 21
0
A

,. En la derivacin anterior usamos las


siguientes tres propiedades:
Propiedad 16 Regla de matriz traspuesta: Para toda matriz denida, se cumple que:
_

0
_
0
=
Propiedad 17 Regla de producto de matrices traspuesto: Si el producto entre matrices y
1 se encuentra denido, entonces:
_

0
1
_
0
= 1
0

Propiedad 18 Regla de matriz inversa: Sea una matriz cuadrada de dimensin :: no


singular. Se dice que tiene inversa por la izquierda y por la derecha cuando existe una matriz

1
tal que:

1
=
1
= 1
Para que sea no singular, debe tener vectores columna y la linealmente independientes.
Para resolver el problema dado por la Ecuacin (5) usamos las siguientes dos propiedades:
Propiedad 19 Regla de derivacin matricial con vectores: Sea a y r dos vectores pertenecientes
a R
a
, entonces:
0a
0
r
0r
= a
Propiedad 20 Regla de derivacin matricial en una forma cuadrtica: Sea r un vector
perteneciente a R
a
y una matriz simtrica cualquiera de dimensiones : :. Entonces,
0r
0
r
0r
= 2
0
(r
0
)
0
= 2
0
r = 2r
Con todas las herramientas anteriores, podemos realizar el ejercicio de Mnimos Cuadra-
dos Ordinarios, deniendo Q como Q = 1
0
1 21
0
A

, +

,
0
A
0
A

,. Entonces, la condicin de
primer orden respecto a

, es:
0Q
0

,
= 2A
0
1 + 2A
0
A

, = 0
=(A
0
A)

, = A
0
1
=

,
ACO
= (A
0
A)
1
A
0
1
9
Es importante recalcar que se necesita una condicin de invertibilidad para obtener los
estimadores

,
ACO
. La condicin evidente es que la matriz A
0
A tenga inversa. Cuando esta
condicin no se cumple, estamos en presencia de un problema de multicolinealidad.
Por otro lado, constatamos que, de la ecuacin normal obtenida en la derivacin anterior:
(A
0
A)

, = A
0
1
=A
0
(A

, 1 ) = 0
=A
0

l = 0
La ecuacin encontrada nos dice que los errores estimados y los datos asociados a la
variable independiente del modelo son ortogonales. Es importante entender que la relacin
de ortogonalidad anterior se deriva y explica por construccin del mtodo MCO.
Nos resta estudiar las propiedades del estimador MCO que hemos derivado. En primer
lugar, estudiaremos el sesgo:

,
ACO
= A(A
0
A)
1
A
0
1
El estimador MCO derivado, se encuentra en funcin de parmetros determinsticos y de
la variable dependiente 1 . La ltima, es una variable aleatoria poblacional. Recordemos que
hemos denido la regresin poblacional como 1 = A,+l en donde l es un vector de errores
poblacionales con una distribucin de ruido blanco. Reemplazando lo ltimo en la ecuacin
anterior y aplicando el operador Esperanza:
E[

,
ACO
] =E
_
(A
0
A)
1
A
0
(A, +l)

=E
_
(A
0
A)
1
A
0
A, + (A
0
A)
1
A
0
l

=E[,] + E
_
(A
0
A)
1
A
0
l

Teniendo presente que las variables independientes son determinsticas y que el error
poblacional se distribuye bajo los supuestos descritos al principio de esta seccin:
E[

,
ACO
] = , + (A
0
A)
1
A
0
E[l] = ,
Deniendo sesgo como:
Sesgo = 1[

,] ,
En el caso particular de MCO, tenemos que el sesgo es cero, es decir, el estimador de
MCO es insesgado. Sin embargo, debemos tener presente que el estimador es insesgado por
los supuestos. Ahora, observemos cmo se comporta la varianza:
Var[

,
ACO
] =E[(

,
ACO
E[

,
ACO
])(

,
ACO
E[

,
ACO
])
0
]
=E[
_
, + (A
0
A)
1
A
0
l ,
_ _
, + (A
0
A)
1
A
0
l ,
_
0
]
=E[(A
0
A)
1
A
0
l
_
(A
0
A)
1
A
0
l
_
0
]
=E
_
(A
0
A)
1
A
0
ll
0
A(A
0
A)
1

=(A
0
A)
1
A
0
E
_
ll
0

A(A
0
A)
1
=o
2
(A
0
A)
1
La expresin anterior es la varianza del estimador de MCO.
10
Matricialmente, podemos estimar los coecientes de MCO usando las propiedades de
matrices en STATA. El siguiente cdigo dene primero una matrix 1 con 3 las y una
columna y despus una matrix A con dos columnas: la primera asociada a la constante
del modelo (donde los valores de la variable independiente son todos iguales a cero) y una
segunda asociada a los datos de publicidad utilizados en las Figuras 1 y 2. Notamos que
las operaciones en matrices son bastante intuitivas: la multiplicacin se realiza mediante el
comando +, la transpuesta mediante
0
y la inversa de una matriz mediante inv().
Figura 3: Clculos de los estimadores

,
0
y

,
1
mediante operaciones matriciales.
11
4 Variables dummy
Las variables dummy tambin se conocen como variables binarias o categricas. Su utilidad
reside en que permiten separar grupos de observaciones y de esta forma considerar que estos
grupos se comportan de manera distinta a pesar de compartir un modelo comn.
Supogamos que estamos interesados en estudiar las remuneraciones de los trabajadores
en base al tipo de propiedad de las empresas (nacional si es que el 100% de su propiedad
pertenece a capitales nacionales y extranjera en caso contrario). Estimamos entonces una
regresin del tipo:
n
i
= ,
0
+,
1
j
i
+n
i
(6)
donde n
i
es igual a 1 si el 100% de la propiedad es nacional y es igual a 0 en caso contrario.
Observamos entonces que la media condicional para el caso de las empresas no nacionales (o
extranjeras) satisface:
E[n
i
[j
i
=0] = E[,
0
+,
1
j
i
+n
i
[j
i
= 0]
E[n
i
[j
i
=0] = ,
0
+ E[,
1
j
i
[j
i
= 0] + E[n
i
[j
i
= 0]
E[n
i
[j
i
=0] = ,
0
En cambio, en el caso de las empresas nacionales:
E[n
i
[j
i
=1] = E[,
0
+,
1
j
i
+n
i
[j
i
= 1]
E[n
i
[j
i
=1] = ,
0
+ E[,
1
j
i
[j
i
= 1] + E[n
i
[j
i
= 1]
E[n
i
[j
i
=1] = ,
0
+,
1
El siguiente comando de STATA calcula en base a datos de la Segunda Encuesta Lon-
gitudinal de Empresas la regresin lineal descrita en la Ecuacin (6), donde notamos que el
coeciente asociado a la constante corresponde a las remuneraciones promedio de las empresas
extranjeras (categora base de la variable dummy, j
i
= 0).
Figura 4: Output de STATA de la regresin n
i
= ,
0
+,
1
j
i
+n
i
.
12
En el comando anterior utilizamos la opcin e(sample)==1, la cual restringe los datos
a los efectivamente utilizados en la ltima regresin estimada en el programa STATA. De esta
forma, se calcula el promedio de las remuneraciones sobre la muestra utilizada en la regresin
y no sobre un conjunto posiblemente mayor.
Adicionalmente, encontramos que las remuneraciones promedio de las empresas nacionales
estn dadas por la suma de la constante y el coeciente asociado a la variable dummy,

,
0
+

,
1
= (5, 1 4, 21)c9 = 8.9c8, lo que comprobamos en nuestros datos muestrales:
Figura 5: Remuneraciones promedio de las empresas nacionales en la muestra considerada.
Denamos ahora una variable dummy que sea la opuesta a la variable j
i
, es decir, una
variable que sea igual a 1 si la empresa es extranjera e igual a 0 si es nacional, variable que
denimos como c
i
. En este caso, la regresin que estimamos tiene la siguiente forma:
n
i
=
0
+
1
c
i
+n
i
(7)
Podemos demostrar entonces que:
E[n
i
[c
i
=1] =
0
+
1
= E[n
i
[j
i
= 0] = ,
0
E[n
i
[c
i
=0] =
0
= E[n
i
[j
i
= 1] = ,
0
+,
1
Es decir, la estimacin de la Ecuacin (6) y de la Ecuacin (7) arroja resultados que son
comparables y en cierta forma consistentes entre s, siendo ambas estimaciones anlogas.
Combinando en una misma ecuacin el impacto de una variable dummy y una variable
continua, podemos considerar por ejemplo el efecto del ingreso operacional de la empresa, el
cual denimos como r
i
:
n
i
= ,
0
+,
1
j
i
+,
2
r
i
+n
i
En este caso, notamos que la esperanza de las remuneraciones de las empresas nacionales
y extranjeras responden de la misma forma respecto a cambios en la variable r
i
:
E[n
i
[j
i
=0, r
i
] = ,
0
+,
2
r
i
E[n
i
[j
i
=1, r
i
] = ,
0
+,
1
+,
2
r
i
Por lo que:
0E[n
i
[j
i
= 0, r
i
]
0r
i
=
0E[n
i
[j
i
= 1, r
i
]
0r
i
= ,
2
Los resultados de la estimacin que incorpora la variable ingreso de operacin de la
empresa son:
13
Figura 6: Output de STATA de la regresin n
i
= ,
0
+,
1
j
i
+,
2
r
i
+n
i
.
En este caso, podemos decir que las remuneraciones pagadas por las empresas aumentan
en promedio en $11,4 cuando el ingreso de operacin de la empresa aumenta en $1.000, siendo
este efecto el mismo tanto para empresas nacionales como extranjeras. Grcamente:
Figura 7: Remuneraciones promedio en funcin del ingreso operacional de las empresas.
El comando en STATA para generar el grco anterior es el siguiente:
Los interceptos tambin nos dicen que las empresas extranjeras pagan ms que las na-
cionales cuando reciben cero ingresos operacionales y esta diferencia se mantiene ante varia-
ciones en este tipo de ingresos. Este ltimo supuesto puede ser un tanto restrictivo ya que
14
podramos relajarlo y dejar que el impacto de los ingresos operacionales sobre las remunera-
ciones sean distintos segn el tipo de propiedad de las empresas. Esto podemos incorporarlo
mediante un trmino de interaccin entre la variable dummy y la variable continua:
n
i
= ,
0
+,
1
j
i
+,
2
r
i
+,
3
j
i
r
i
+n
i
Ahora las pendientes de las rectas de regresin muestral sern distintas segn el tipo de
propiedad de las empresas:
E[n
i
[j
i
=0, r
i
] = ,
0
+,
2
r
i
=
0E[n
i
[j
i
= 0, r
i
]
0r
i
= ,
2
E[n
i
[j
i
=1, r
i
] = ,
0
+,
1
+ (,
2
+,
3
)r
i
=
0E[n
i
[j
i
= 1, r
i
]
0r
i
= ,
2
+,
3
La estimacin de este nuevo modelo y el grco asociado son (donde comprobamos tam-
bin que las empresas extranjeras pagan proporcionalmente ms en remuneraciones que las
empresas nacionales a medida que el ingreso operacional aumenta):
Figura 8: Output de STATA de la regresin n
i
= ,
0
+,
1
j
i
+,
2
r
i
+,
3
j
i
r
i
+n
i
.
Figura 9: Remuneraciones promedio en funcin del ingreso operacional de las empresas, incluyendo
un trmino de interaccin entre la variable dummy de propiedad y el ingreso operacional.
15
5 Inferencia estadstica
En la seccin anterior, derivamos el estimador de Mnimos Cuadrados Ordinarios (MCO).
Luego, estudiamos las principales propiedades de los estimadores que encontramos; con-
cluyendo, gracias al Teorema de Gauss-Markov, que los estimadores encontrados son los
Mejores Estimadores Lineales Insesgados, o MELI, por sus iniciales. Un punto importante
a recalcar es que los resultados encontrados se basaron en supuestos de errores bien comporta-
dos. En esta seccin, conservaremos dichos supuestos y por lo tanto los resultados anteriores.
Ms adelante se discutirn las repercusiones que podra resultar del incumplimiento de estos
supuestos.
Esta seccin abordar el tpico de Inferencia Estdistica en el contexto de MCO. La
relevancia de la Inferencia Estadstica adquiere importancia en la medida que permite al
investigador realizar y vericar hiptesis realizadas sobre el modelo estimado y bajo la muestra
utilizada. En primer lugar, un test importante para el investigador es el test de signicancia
que permite evaluar si la inuencia de los parmetros es estadsticamente diferente de cero
sobre la variable dependiente. Por otro lado, existen tests que permiten responder alguna
pregunta del investigador en forma de combinacin lineal.
Continuaremos trabajando con la forma matricial desarrollada en la seccin anterior. De
este modo, la forma matricial que utilizaremos para representar una restriccin lineal bajo
un test particular ser la siguiente:
1
q(I+1)
,
(I+1)1
= r
q1
donde, 1 es una matriz funcional de escalares conocidos que determina el tipo de restric-
ciones lineales aplicadas a los estimadores y r es una matriz formada que en conjunto con
1 nos permite denir las restricciones. En esta notacin, es el nmero de restricciones
y / + 1 contina siendo el nmero de parmetros del modelo (incluida la constante). La
forma matricial anterior, nos permite trabajar con mltiples restricciones a la vez, lo que es
importante cuando utilizamos modelos de regresin mltiples.
Como primera aproximacin al objetivo de la presente seccin, estudiaremos los Tests de
Hiptesis de una sola restriccin, es decir = 1.
5.1 Test de signicancia
Este test consiste en vericar si un estimador en particular es estadscticamente distinto de
cero. Denimos la hiptesis nula como H
0
y la hiptesis alternativa como H

:
H
0
: ,
)
= 0
H

: ,
)
,= 0
para un , 0, 1, 2, ..., /. Un test de este tipo, plantea si el regresor tiene o no algn impacto
sobre la variable dependiente que sea estadsticamente signicativo. En otras palabras, veri-
ca si el regresor explica la variable dependiente. Al rechazar H
0
se establece que el regresor
s es signicativo. Para traducir a la forma matricial descrita anteriormente, denimos las
matrices 1
1(I+1)
y r
11
tal que:
1
1(I+1)
=
_
0 ... 0 1 0 ... 0
_
r
11
=0
11
16
es decir, en el vector 1 tenemos un valor igual a 1 en la posicin , para considerar que el
coeciente ,
)
es igual a cero (lo que identicamos por r). Nuestra hiptesis nula se representa
por 1, = r, lo que matricialmente es:
_
0 ... 0 1 0 ... 0
_
_
_
_
_
_
_
_
_
_
_
_
_
,
0
.
.
.
0
,
)
0
.
.
.
,
I
_
_
_
_
_
_
_
_
_
_
_
_
= 0
Constatemos que la matriz 1
1(I+1)
se encuentra constituida por ceros y solamente un 1
en la posicin ,-sima. Por lo tanto, la forma matricial representa este test en particular.
5.2 Tests que describen algn impacto especco
5.2.1 Un regresor A
)
tiene un impacto c sobre la variable dependiente
En este caso las hiptesis nula y alternativa son:
H
0
: ,
)
= c
H

: ,
)
,= c
para un , 0, 1, 2, ..., /. En este caso, observamos que la matriz r
11
es la que cambia
respecto al test anterior. De hecho, tenemos que:
1
1(I+1)
=
_
0 ... 0 1 0 ... 0
_
r
11
=c
Matricialmente, la hiptesis nula 1, = r es:
_
0 ... 0 1 0 ... 0
_
_
_
_
_
_
_
_
_
_
_
_
_
,
0
.
.
.
0
,
)
0
.
.
.
,
I
_
_
_
_
_
_
_
_
_
_
_
_
= c
17
5.2.2 La suma de los regresores A
i
y A
)
tiene un impacto de magnitud unitaria
sobre la variable dependiente
En este caso las hiptesis nula y alternativa son:
H
0
: ,
i
+,
)
= 1
H

: ,
i
+,
)
,= 1
para i, , 0, 1, 2, ..., / 0, 1, 2, ..., /. Las matrices de este test deberan tomar la forma:
1
1I
=
_
0 ... 0 1 0 ... 0 1 0 ...
_
r
11
=1
Luego, la forma general queda:
_
0 ... 0 1 0 ... 0 1 0 ...
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
,
0
.
.
.
,
i1
,
i
,
i+1
.
.
.
,
)1
,
)
,
)+1
.
.
.
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
= 1
Tambin hay que constatar, que la matriz 1
1(I+1)
es un vector la de ceros excepto en
la posicin i-sima y ,-sima, en donde hay unos.
5.2.3 Los regresores A
i
y A
)
tienen el mismo impacto sobre la variable depen-
diente
En este caso las hiptesis nula y alternativa son:
H
0
: ,
i
= ,
)
H

: ,
i
,= ,
)
para i, , 0, 1, 2, ..., /0, 1, 2, ..., /. Para respetar la forma general descrita, se establece
el siguiente test:
H
0
: ,
i
,
)
= 0
H

: ,
i
,
)
,= 0
Entonces, las matrices toman la siguiente forma:
1
1(I+1)
=
_
0 ... 0 1 0 ... 0 1 0 ...
_
r
11
=0
11
18
Finalmente:
_
0 ... 0 1 0 ... 0 1 0 ...
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
,
0
.
.
.
,
i1
,
i
,
i+1
.
.
.
,
)1
,
)
,
)+1
.
.
.
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
= 0
Notemos que el vector 1
1(I+1)
es un vector la de ceros que tiene un 1 en la posicin
i-sima y un 1 en la posicin ,-sima.
Cuando trabajamos con un test de este tipo (es decir, con una sola restriccin lineal,
= 1), es conveniente realizar un test t por la simplicidad de los clculos. A modo de
ejemplo, propondremos la ecuacin de Mincer (1958) que establece el retorno a la educacin:
ln(n
i
) = ,
0
+,
1
cdnc
i
+,
2
crj
i
+,
3
crj
2
i
+,
4
qc:cro
i
+,
5
.o:a
i
+n
i
(8)
Es decir, una relacin entre ingreso y capital humano, en donde la variable dependiente es
el ingreso del individuo i medido en logaritmo y las variables independientes son educacin,
experiencia, experiencia al cuadrado, gnero (dummy igual a 1 si es hombre) y zona (dummy
igual a 1 si la persona vive en una zona urbana e igual a 0 si vive en una zona rural). Entonces,
proponemos un test que verique si la variable aos de educacin es signicativa:
H
0
: ,
1
= 0
H

: ,
1
,= 0
Este test de signicancia se puede desarrollar a travs de un test t con : / grados de
libertad, el cual derivaremos algebraicamente ms adelante:
t =

,
1
,
1
_

Var
_

,
1
_
v t
a6
(9)
La distribucin t-Student es muy similar a la distribucin normal estndar (de media
cero y varianza unitaria). As por ejemplo, a continuacin construimos un grco con ambas
distribuciones considerando un parmetro igual a 10 para la distribucin t-Student. El cdigo
en STATA asociado y el grco asociado son los siguientes:
19
Figura 10: Distribuciones t-Student (parmetro igual a 10) y normal estndar.
Notamos que la distribucin t-Student posee colas ms gruesas en comparacin a la dis-
tribucin normal estndar. A medida que el parmetro de la distribucin t-Student aumenta,
ms se asemeja a la distribucin normal estndar.
La estimacin de la Ecuacin (8) la llevamos a cabo con el siguiente comando en STATA:
Los resultados de la estimacin son los siguientes:
Figura 11: Output de STATA de la regresin
ln(n
i
) = ,
0
+,
1
cdnc
i
+,
2
crj
i
+,
3
crj
2
i
+,
4
qc:cro
i
+,
5
.o:a
i
+n
i
.
20
La regresin anterior est restringida a los jefes de hogar encuestados (condicin if
pco1==1) y no hemos considerado pesos muestrales (lo que podramos haber incluido
con la opcin [fw=expr2]). Los aos de escolaridad poseen un t-Student calculado igual
a 96, 89, que siguiendo lo escrito en la Ecuacin (9) fue obtenido a partir del clculo de
0,1143305/0,00118 (en STATA podemos calcular este coeciente usando el comando display
0.1143305/0.00118). Utilizando una tabla asociada a la distribucin t-Student, sabemos que
el valor crtico de esta distribucin con : / = 37517 6 = 37511 grados de libertad y una
regin de rechazo de dos colas de un 5% es 1, 96. Ms formalmente, este valor crtico satisface
que Pr[t 1, 96] = 0, 025 y que Pr[t < 1, 96] = 0, 025. Notemos que STATA nos entrega
directamente este valor crtico con el siguiente comando:
Donde el comando invtail(n,p) retorna la distribucin acumulada inversa (cola superior)
de la distribucin t-Student. Como nuestro estadstico calculado es mayor al valor crtico,
rechazamos la hiptesis nula H
0
: ,
1
= 0 versus la alternativa H

: ,
1
,= 0, ya que t
co|c&|ooc
=
96, 89 t
cvvticc
= 1, 96. Por qu es este criterio el utilizado para rechazar la hiptesis nula?
El siguiente grco nos puede ser til para contestar a dicha pregunta:
Figura 12: Distribucin t-Student (parmetro igual a 37511) y colas de 2,5%.
Observamos que nuestro estadstico t
co|c&|ooc
= 96, 89 yace muy a la derecha en la dis-
tribucin, ms all de la regin delimitada por el t
cvvticc
= 1, 96 que abarca un 2, 5% de
la distribucin. Por lo tanto, que nuestro estimador ,
1
sea cercano a cero es muy improb-
able, siendo en este caso su probabilidad de ocurrencia igual a cero (determinado por el
j a|nc = 0 entregado en el output de STATA). Ms formalmente, el j a|nc satisface:
Pr[j a|nc] = Pr[[t[ [t
co|c&|ooc
[] = 2(1 ([t
co|c&|ooc
[))
El j a|nc asociado a la variable experiencia es igual a 0, 114 , el que podramos haber
obtenido directamente a travs del comando:
21
En el comando anterior, multiplicamos por dos puesto que el j a|nc considera el rea
donde el estadstico t es mayor al [t
co|c&|ooc
[ y a la vez donde t es menor a [t
co|c&|ooc
[.
Otra pregunta que podra contestar el investigador es sobre la diferencia en los retornos
de educacin y de experiencia laboral. Por ejemplo, observar si un ao invertido en educacin
tiene el mismo retorno que un ao extra en experiencia laboral. Este test tendra la siguiente
forma en la ecuacin ln(n
i
) = ,
0
+,
1
cdnc
i
+,
2
crj
i
+,
3
qc:cro
i
+,
4
.o:a
i
+n
i
:
H
0
: ,
1
= ,
2
H

: ,
1
,= ,
2
donde eliminamos el termino cuadrtico de la experiencia pues est vinculado al efecto lineal
de la experiencia que estamos comparando con el efecto de la educacin. Este test podemos
escribirlo como:
H
0
: ,
1
,
2
= 0
H

: ,
1
,
2
,= 0
donde el estadgrafo tiene la siguiente forma:
t =

,
1

,
2
_

Var[

,
1
] +

Var[

,
2
] 2

Cov[

,
1
;

,
2
]
v t
a5
Nos resta estudiar los test de hiptesis sobre un conjunto de restricciones. En las secciones
anteriores, pudimos establecer que:

, v A
_
,; o
2
(A
0
A)
1
_
Este resultado es producto de los supuestos establecidos sobre el error y debido a que

,
es combinacin lineal del error. De este modo, construimos un estimador que distribuye de la
forma anterior. Sin embargo, debemos preguntarnos cual es la distribucin de las restricciones
lineales que hemos planteado, es decir 1, = r. Tambin podemos observar, que lo que nos
interesa es estudiar el vector discrepancia : = 1, r en donde el foco de inters es estudiar
si : es diferente de cero. Dado que

, es distribuido normal y : es combinacin lineal de

,,
entonces : distribuye normal Ahora, teniendo encuenta que :
E[1

,] = 1,
y que,
Var[1

,] = 1o
2
(A
0
A)
1
1
0
podemos establecer que:
1

, v A(1,; 1o
2
(A
0
A)
1
1
0
)
luego, normalizando:
1

, r
_
1o
2
(A
0
A)
1
1
0
v A(0; 1)
22
Propiedad 21 Estructura de Distribucin Chi-Cuadrado: Sean Z
1
,Z
2
,...,Z
q
variables aleato-
rias distribuidas de forma normal estandarizada e independientes entre ellas, entonces:
X = Z
2
1
+ Z
2
2
+... + Z
2
q
Luego:
X v
2
q
En donde son los grados de libertad.
Propiedad 22 Estructura de Distribucin Fisher: Sean X
1
y X
2
variables aleatorias dis-
tribuidas chi-cuadrado con
1
y
2
grados de libertad respectivamente. Adems son muestras
independientes. Entonces:
1 =
X
1
,
1
X
2
,
2
Luego:
1 v 1(
1
;
2
)
Entonces, con la estructura de distribucin de chi-cuadrado presente, el estadstico para
estimar el vector : = 1

, r es :
(1

, r)(1o
2
(A
0
A)
1
1
0
)
1
(1

, r)
0
v
2
q
Sin embargo, una dicultad con la que nos cruzamos es que el estadstico descrito no se
puede utilizar debido a que no conocemos o
2
. Por lo tanto, el estadstico muestral conveniente
en este caso es mediante un 1. Primero, observamos que se puede demostrar:

l
0

l
o
2
v
2
(aI)
Luego, con la estructura de distribucin Fisher presente, podemos establecer que:
1 =
(1

, r)(1o
2
(A
0
A)
1
1
0
)
1
(1

, r)
0
,
b
l
0 b
l
o
2
,(: /)
v 1
(q;aI)
Simplicando algunos trminos, llegamos a:
1 =
(1

, r)(1(A
0
A)
1
1
0
)
1
(1

, r)
0
,

l
0
l,(: /)
v 1
(q;aI)
23
6 Regresin Particionada
Esta tcnica resulta til para determinar el efecto de omitir una variable relevante o incluir
una variable irrelevante en una regresin.
En esta seccin derivaremos la regresin particionada de la siguiente regresin:
1 = A, +n
Antes de realizar esta derivacin, se debe considerar las deniciones de las proyecciones
de 1 en el plano conformado por los vectores A y por el plano perpendicular a ste. La
primera proyeccin est dada por 11 y la segunda por '1 , las que resultan de la siguiente
derivacin:
1 = A

, + n
Donde reemplazamos

, a partir de la solucin al problema de Mnimos Cuadrados Ordi-
narios:

, =
_
A
0
A
_
1
A
0
1 (10)
de lo cual se obtiene:
1 = A
_
A
0
A
_
1
A
0
1 + n = 11 + n
En la expresin anterior, 1 es una funcin que depende slo de la matriz A y que satisface
1 = A (A
0
A)
1
A
0
. Usando esta misma ecuacin, llegamos a que:
n = 1 11 = (1 1) 1 = '1
La regresin particionada consiste en separar la ecuacin 1 = A,+n en dos componentes,
asociados a las submatrices de A dadas por A
1
y A
2
. Notar que la matriz A es de dimensin
: / y las submatrices A
1
y A
2
son de dimensin : /
1
y : /
2
, respectivamente (donde
/ = /
1
+/
2
). La ecuacin del modelo de regresin se puede escribir entonces como:
1 =
_
A
1
A
2
_
_
,
1
,
2
_
+n = A
1
,
1
+A
2
,
2
+n
Para obtener los coecientes

,
1
y

,
2
se resuelven las ecuaciones normales, las que estn
dadas por:
A
0
A

, =A
0
1
_
A
0
1
A
0
2
_
_
A
1
A
2
_
_

,
1

,
2
_
=
_
A
0
1
A
0
2
_
1
Las dos ecuaciones normales resultantes son:
A
0
1
A
1

,
1
+A
0
1
A
2

,
2
=A
0
1
1
A
0
2
A
1

,
1
+A
0
2
A
2

,
2
=A
0
2
1
Estas dos ecuaciones se combinan para encontrar expresiones para

,
1
y

,
2
en funcin de
los datos conocidos asociados a las matrices A
1
, A
2
e 1 . Estas soluciones estn dadas por
24
(es un buen ejercicio derivar estas ecuaciones, el cual se deja propuesto como tarea para el
estudiante):

,
1
=
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
1

,
2
=
_
A
0
2
'
1
A
2
_
1
A
0
2
'
1
1
Las matrices 1 y ' cumplen las propiedades de idempotencia (11 = 1 y '' = ') y
simetra (1 = 1
0
y ' = '
0
). Usando estas propiedades en la solucin anterior (para el caso
de

,
2
el desarrollo es anlogo):

,
1
=
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
1
=
_
A
0
1
'
2
'
2
A
1
_
1
A
0
1
'
2
'
2
1
=
_
A
0
1
'
0
2
'
2
A
1
_
1
A
0
1
'
0
2
'
2
1
=
_
('
2
A
1
)
0
('
2
A
1
)
_
1
('
2
A
1
)
0
'
2
1 (11)
Notando que '
2
A
1
es el error muestral en la regresin A
1
= A
2
+n

y que '
2
1 es el
error muestral en la regresin 1 = A
2
c +n
c
, se puede inferir que el estimador

,
1
se obtiene
a partir de dos procedimientos:
Estimando 1 = A
1
,
1
+A
2
,
2
+n
Estimando tres regresiones:
La primera: A
1
= A
2
+n

, de donde n

= '
2
A
1
.
La segunda: 1 = A
2
c +n
c
, de donde n
c
= '
2
1 .
La tercera (que utiliza los resultados de la primera y segunda regresiones): n
c
= n

j +
n
j
.
A partir de la tercera regresin (y recordando la solucin de MCO dada por la Ecuacin
(10)), se obtiene que:
j =
_
n
0

_
1
n

n
c
que satisface la misma expresin escrita para

,
1
en la Ecuacin (11).
Para determinar la varianza de la regresin particionada, primero determinamos si los
parmetros son insesgados:
1[

,
1
] =1[
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
1 ]
=1[
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
(A
1
,
1
+A
2
,
2
+n)]
=1[
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
A
1
,
1
+
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
A
2
,
2
+
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
n] (12)
=,
1
donde utilizamos que (A
0
1
'
2
A
1
)
1
A
0
1
'
2
A
1
= 1, que '
2
A
2
= 0 (puesto que '
2
A
2
=
(1 1
2
) A
2
= (1 A
2
(A
0
2
A
2
)
1
A
0
2
)A
2
= A
2
A
2
= 0) y que 1[(A
0
1
'
2
A
1
)
1
A
0
1
'
2
n] =
(A
0
1
'
2
A
1
)
1
A
0
1
'
2
1 [n] = 0.
25
Por lo tanto, el parmetro

,
1
es insesgado. Anlogamente, lo mismo pasa con el parmetro

,
2
. La varianza est dada por:
Var[

,
1
] =1[(

,
1
1[

,
1
])(

,
1
1[

,
1
])
0
]
=1[(

,
1
,
1
)(

,
1
,
1
)
0
] (13)
A partir de la Ecuacin (12) podemos escribir que:

,
1
,
1
=
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
A
2
,
2
+
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
n
=
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
n
donde nuevamente usamos la propiedad que '
2
A
2
= 0. Reemplazando la expresin anterior
en la Ecuacin (13):
Var[

,
1
] =1[
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
n(
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
n)
0
]
=1[
_
A
0
1
'
2
A
1
_
1
A
0
1
'
0
2
nn
0
'
0
2
A
1
_
A
0
1
'
2
A
1
_
1
]
=
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
1
_
nn
0

'
0
2
A
1
_
A
0
1
'
2
A
1
_
1
=o
2
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
'
0
2
A
1
_
A
0
1
'
2
A
1
_
1
=o
2
_
A
0
1
'
2
A
1
_
1
(14)
Para ilustrar el mtodo de regresin particionada estimaremos el retorno a la educacin
utilizando el salario por hora de los jefes de hogar observados en la encuesta CASEN 2011:
ln(salario_hora
i
) = ,
1
esc
i
+,
2
casado
i
+n
i
El comando de STATA que obtiene esta regresin es:
26
Los resultados de la regresin son:
Figura 3: Output de STATA regresionando el salario por hora sobre la escolaridad y una dummy de
casado.
Ahora estimaremos las ecuaciones auxiliares:
esc
i
=casado
i
+n
,i
ln(salario_hora
i
) =ccasado
i
+n
c,i
A partir de las cuales recuperamos los errores muestrales y regresionamos el error de la
segunda ecuacin sobre el de la primera:
n
c,i
= j n
,i
+n
j,i
El comando de STATA asociado es:
Los resultados de estas regresiones son:
Figura 4: Output de STATA regresionando la escolaridad sobre la dummy de casado.
27
Figura 5: Output de STATA regresionando el salario por hora sobre la dummy de casado.
Figura 6: Output de STATA regresionando los errores de las regresiones anteriores.
Comprobamos entonces que el coeciente asociado a esta ltima regresin es el mismo
que el asociado a la escolaridad en la Figura 3.
28
7 Omisin de Variables Relevantes
En este caso asumimos que el modelo verdadero est dado por:
1 = A
1
,
1
+A
2
,
2
+n (15)
pero que el modelo que est siendo estimado es:
1 = A
1
,
1
+n
Al estimar

,
1
en la expresin anterior, tenemos que:

,
1
=
_
A
0
1
A
1
_
1
A
0
1
1
=
_
A
0
1
A
1
_
1
A
0
1
(A
1
,
1
+A
2
,
2
+n)
=
_
A
0
1
A
1
_
1
A
0
1
A
1
,
1
+
_
A
0
1
A
1
_
1
A
0
1
A
2
,
2
+
_
A
0
1
A
1
_
1
A
0
1
n
=,
1
+
_
A
0
1
A
1
_
1
A
0
1
A
2
,
2
+
_
A
0
1
A
1
_
1
A
0
1
n (16)
Por lo tanto, la estimacin de

,
1
ser sesgada ya que 1[

,
1
] = ,
1
+ (A
0
1
A
1
)
1
A
0
1
A
2
,
2
.
La magnitud del sesgo es difcil de determinar en el caso donde / 2. Sin embargo, en el
caso que / = 2 los ,
1
y ,
2
son escalares y la Ecuacin (16) en esperanzas se reduce a:
1[

,
1
] = ,
1
+
Cov [A
1
, A
2
]
Var [A
1
]
,
2
(17)
De esta forma, la magnitud del sesgo depender de la relacin entre las variables A
1
y
A
2
y de la magnitud y signo del estimador ,
2
.
En cuanto a la varianza, sta es:
Var[

,
1
] =Var[,
1
+
_
A
0
1
A
1
_
1
A
0
1
A
2
,
2
+
_
A
0
1
A
1
_
1
A
0
1
n]
=Var [,
1
] + Var[
_
A
0
1
A
1
_
1
A
0
1
A
2
,
2
] + Var[
_
A
0
1
A
1
_
1
A
0
1
n]
=Var[
_
A
0
1
A
1
_
1
A
0
1
n]
=o
2
_
A
0
1
A
1
_
1
Si hubisemos estimado la varianza considerando que el modelo estimado est dado por
el modelo verdadero expresado en la Ecuacin (15) llegaramos a la expresin derivada en la
Ecuacin (14), es decir:
Var[

,
1
] = o
2
_
A
0
1
'
2
A
1
_
1
La varianza bajo variables omitidas o
2
(A
0
1
A
1
)
1
es menor que la varianza sin este prob-
lema (para lo que necesitamos que la matriz 1
2
sea semidenida positiva):
o
2
_
A
0
1
A
1
_
1
<o
2
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
A
1
<A
0
1
A
1
1 1
2
<1
0 <1
2
En resumen, bajo variable omitida:
29
Los parmetros son sesgados.
La varianza de los parmetros es menor.
Para ilustrar el efecto de considerar una variable omitida, estimaremos el retorno a la
educacin utilizando el salario por hora de los jefes de hogar observados en la encuesta
CASEN 2011 usando como variables explicativas el gnero (medido por una variable dummy
hombre que es igual a 1 si la persona es hombre e igual a 0 en caso contrario), los aos de
escolaridad y una variable dummy de casado:
ln(salario_hora
i
) = ,
1
hombre
i
+,
2
esc
i
+,
3
casado
i
+n
i
(18)
El comando de STATA que obtiene esta regresin es:
Los resultados son:
Figura 7: Output de STATA regresionando el salario por hora sobre una dummy de gnero, la
escolaridad y una dummy de casado.
Ahora estimaremos la misma Ecuacin (18), pero omitiendo la variable relevante hom-
bre:
ln(salario_hora
i
) = ,
1
esc
i
+,
2
casado
i
+n
i
Cuyo comando de STATA es:
Los resultados de esta regresin son:
30
Figura 8: Output de STATA regresionando el salario por hora sobre la escolaridad y una dummy de
casado.
Notamos que el coeciente asociado a la escolaridad aumenta en la regresin que omite la
variable relevante hombre. Cuantitativamente, el coeciente asociado sube desde 0,471 a
0,503. En otras palabras, la omisin de variable relevante resulta en una sobre-estimacin del
coeciente asociado a la escolaridad. Esta sobre-estimacin la podemos anticipar al utilizar
el resultado expuesto en la Ecuacin (17) puesto que la covarianza entre la variable de inters
(escolaridad) y la variable omitida (hombre) es positiva, lo que corresponde al trmino
Cov[A
1
, A
2
] en la ecuacin, y el coeciente omitido ,
2
esperaramos que sea positivo (un
mayor retorno salarial para los hombres en comparacin a las mujeres).
31
8 Inclusin de Variables Irrelevantes
En este caso asumimos que el modelo verdadero est dado por:
1 = A
1
,
1
+n (19)
pero que el modelo que est siendo estimado es:
1 = A
1
,
1
+A
2
,
2
+n
Al estimar

,
1
en la expresin anterior, tenemos que es igual a la expresin dada por la
Ecuacin (11):

,
1
=
_
A
0
1
'
2
A
1
_
1
A
0
1
'
2
1
Como vimos en la Ecuacin (12) este estimador es insesgado. En cuanto a la varianza,
sta es igual a o
2
(A
0
1
'
2
A
1
)
1
(ver Ecuacin (14)).
Si hubisemos estimado la varianza considerando que el modelo estimado est dado por
el modelo verdadero expresado en la Ecuacin (19) obtenemos:
Var[

,
1
] =Var[
_
A
0
1
A
1
_
1
A
0
1
1 ]
=Var[
_
A
0
1
A
1
_
1
A
0
1
(A
1
,
1
+n)]
=Var[
_
A
0
1
A
1
_
1
A
0
1
A
1
,
1
] + Var[
_
A
0
1
A
1
_
1
A
0
1
n]
=0 +
_
A
0
1
A
1
_
1
A
0
1
o
2
(
_
A
0
1
A
1
_
1
A
0
1
)
0
=o
2
_
A
0
1
A
1
_
1
A
0
1
A
1
_
A
0
1
A
1
_
1
=o
2
_
A
0
1
A
1
_
1
Siguiendo los mismos pasos desarrollados bajo omisin de variable relevante, se comprueba
que la varianza bajo inclusin de variable irrelevante o
2
(A
0
1
'
2
A
1
)
1
es mayor que la bajo
el modelo verdadero o
2
(A
0
1
A
1
)
1
.
En resumen, bajo la inclusin de variable irrelevante tenemos que:
Los parmetros son insesgados.
La varianza de los parmetros es mayor.
Mostrar el impacto producto de la inclusin de una variable irrelevante es un buen ejercicio
aplicado y se deja propuesto para el estudiante.
32
9 Coeciente de Determinacin y Descomposicin de Varianza
La principal medida de ajuste de una regresin est dada por el coeciente de determinacin
1
2
, el cual resume cun bien se ajusta la lnea de regresin muestral a los datos estimados.
Matemticamente, deniremos por maysculas a las variables observadas que estn dadas
por el vector de datos (A, 1 ) y por minsculas a sus desviaciones respecto a la media. Para
derivar estas desviaciones, partimos con la regresin con dos parmetros en la Ecuacin (20)
y la transformamos en sus valores medios en la Ecuacin (21):
1
i
=,
1
+,
2
A
i
+n
i
(20)
1 =,
1
+,
2
A +n (21)
Restando las ecuaciones (20) y (21):
1
i
1 =,
2
_
A
i
A
_
+n
i
j
i
=,
2
r
i
+n
i
donde asumimos que la media de los errores es igual a cero. A partir de esta ecuacin podemos
escribir que:
j
i
= j
i
+ n
i
Elevando al cuadrado y aplicando sumatorias:
.

i=1
j
2
i
=
.

i=1
j
2
i
+ 2
.

i=1
j
i
n
i
+
.

i=1
n
2
i
(22)
donde el trmino intermedio

.
i=1
j
i
n
i
es igual a cero (es buen ejercicio para el estudiante
saber el porqu de este resultado). En la Ecuacin (22) el trmino de la izquierda se conoce
como Too (suma total de cuadrados, por sus siglas en ingls), el primer trmino de la derecha
como 1oo (suma explicada de los cuadrados) y el ltimo trmino de la derecha como 1oo
(suma de los residuos cuadrados).
Para calcular el porcentaje de la variacin en la variable dependiente que se explica por
la variacin del modelo explicado, usamos la denicin del coeciente de determinacin 1
2
:
1
2
=
1oo
Too
= 1
1oo
Too
= 1

n
2
i

j
2
i
(23)
Tambin podemos escribir la ecuacin anterior como:
1
2
=

j
2
i

j
2
i
=

,
2
2
r
2
i,2
+

,
2
3
r
2
i,3
+... +

,
2
I
r
2
i,I

j
2
i
(24)
Es importante notar que en esta expresin no aparece el trmino asociado a la constante
(puesto que estamos trabajando con desviaciones respecto a la media) y que a medida que
aumentemos el nmero de variables (y de sus respectivos parmetros) el 1
2
aumenta por
construccin, ya que aumenta el valor asociado al numerador, mientras que el denominador
33
permanece inalterado. La Ecuacin (24) es la base para la descomposicin de varianza,
conocida como tcnica ANOVA por sus siglas en ingls.
Para ilustrar el clculo del 1
2
y de la descomposicin de varianza, consideramos la esti-
macin del retorno a la educacin visto anteriormente y cuyo comando de STATA es:
La primera estimacin muestra la descomposicin de varianza usando como variables ex-
plicativas el gnero, la escolaridad y el estado civil (Figura 7). Sin embargo, como vemos,
al recuperar las estimaciones de la regresin mediante MCO resulta que la variable escolari-
dad est considerada en la descomposicin como una variable dummy para cada una de las
escolaridades (Figura 8). Para considerar que efectivamente la escolaridad es una variable
continua, se escribe en el comando anova como c.esc (Figura 9). La estimacin asociada
mediante MCO se muestra en la Figura 10.
Figura 7: Output de STATA de la descomposicin de varianza del salario por hora sobre el gnero,
la escolaridad y la dummy de casado.
34
Figura 8: Output de STATA de la regresin considerada en la descomposicin de varianza del salario
por hora sobre el gnero, la escolaridad y la dummy de casado.
Figura 9: Output de STATA de la descomposicin de varianza del salario por hora sobre el gnero,
la escolaridad y la dummy de casado, considerando la variable escolaridad como continua.
Notemos que en la Figura 9 el 1
2
es igual a 0,2765, que es igual al resultado de la Ecuacin
(23)
1
2
= 1

n
2
i

j
2
i
= 1
1.777.505, 21
2.456.730, 97
= 0, 2765
La descomposicin de varianza descrita en la Ecuacin (24) nos permite determinar qu
variable explica de mejor forma la variabilidad observada en la variable dependiente (salario
de los jefes de hogar). A partir del 1
2
calculado podemos decir que todas las variables que
consideramos explican el 27,7% de la variabilidad del salario por hora.
35
Este 27,7% podemos descomponerlo en la contribucin a esta explicabilidad de la varianza
en cada una de las variables explicativas consideradas en la regresin. Como esperbamos, la
escolaridad es la variable que explica en mayor proporcin la variabilidad del salario (94,4%
del 27,7% calculado anteriormente, versus un 5,0% asociado a la variable gnero y un 0,0%
asociado al estado civil de la persona - es un buen ejercicio para el estudiante ver cmo se
obtienen estos porcentajes). En otras palabras, la estimacin mediante MCO nos permite
decir la relacin existente entre cambios de las variables explicativas y la variable dependiente.
Por ejemplo, podemos decir que en promedio los jefes de hogar muestran un aumento igual
a 10,9% en su salario por hora por cada ao adicional de escolaridad. En cambio, el anlisis
ANOVA nos permite encontrar cmo la variacin en las variables explicativas se asocian a
las variaciones en la variable dependiente. La escolaridad es efectivamente una variable que
explica un porcentaje elevado de la variabilidad observada en los salarios por hora de los jefes
de hogar.
Figura 10: Output de STATA de la regresin considerada en la descomposicin de varianza del
salario por hora sobre el gnero, la escolaridad y la dummy de casado, considerando la variable
escolaridad como continua.
Los coecientes estimados por el modelo ANOVA se muestran en la Figura 10. Los
comparamos con los resultados de estimar MCO directamente (Figura 11), comprobando que
los resultados son exactamente los mismos.
Figura 11: Output de STATA regresionando el salario por hora sobre el gnero, la escolaridad y una
dummy de casado.
36
10 Errores No Esfricos: Heterocedasticidad.
Si los errores de un modelo de regresin lineal no son idntica e independientemente distribui-
dos seguirn siendo insesgados pero su varianza ya no estar consistentemente estimada por
o
2
(A
0
A)
1
. Existen dos posibilidades sobre la forma de los errores, stos pueden ser hetero-
cedsticos o poseer autocorrelacin serial (esta segunda propiedad la veremos con ms detalle
en la seccin de series de tiempo). Recordemos que los parmetros estimados por Mnimos
Cuadrados Ordinarios satisfacen

, =(A
0
A)
1
A
0
1
=(A
0
A)
1
A
0
(A, +n)
=, + (A
0
A)
1
A
0
n
En la expresin anterior, la nica condicin necesaria para que los estimadores

, sean
insesgados es que E[n[A] = 0. Ahora, la matriz de varianzas-covarianzas de los errores ya
no est dada por o
2
1, sino que es igual a E[nn
0
[A] =
&
, que satisface la condicin se ser
simtrica y semidenida positiva. Si los errores son heterocedsticos
&
,= o
2
1 tenemos que el
estimador de , ser insesgado, consistente y distribuido normal, pero no eciente. Se puede
demostrar que la varianza de los coecientes satisface (es un buen ejercicio para el estudiante
demostrar tal resultado):
Var[

,] = (A
0
A)
1
A
0

&
A(A
0
A)
1
Como consecuencia de la ineciencia de los parmetros, los test de hiptesis y los intervalos
de conanza no son conables.
Para estimar de forma robusta la varianza de los parmetros bajo la presencia de hetero-
cedasticidad en los errores, se puede utilizar la metodologa de Huber y White, que establece
que la siguiente matriz:

o
0
=
1

i=1
n
2
i
r
0
i
r
i
corresponde a un estimador consistente de la matriz A
0
1[nn
0
[A]A, donde r
i
es de dimensin
1 /. Esta estimacin se obtiene al considerar la opcin robust de STATA. Este resultado
es importante, puesto que nos permite hacer inferencia estadstica sin especicar la forma
de heterocedasticidad en los errores, mediante el clculo de errores consistentes. Volviendo
a nuestro ejemplo de retorno a la educacin, tenemos que la estimacin mediante MCO con
varianza constante de los errores se muestra en la Figura 12, mientras que la misma estimacin
con errores consitentes mediante el uso de la tcnica Huber-White se documenta en la Figura
13.
Como mencionamos anteriormente, los coecientes estimados con errores no esfricos
debiesen ser insesgados. Comprobamos que los coecientes asociados a las guras 12 y 13
son los mismos y que las varianzas de los coecientes son mayores bajo el clculo de errores
robustos. Es un buen ejercicio la discusin sobre esta ltima diferencia y se deja propuesta
para que la desarrolle el estudiante.
37
Figura 12: Output de STATA de la regresin del salario por hora sobre el gnero, la escolaridad y la
dummy de casado.
Figura 13: Output de STATA de la regresin del salario por hora sobre el gnero, la escolaridad y la
dummy de casado. Errores estndar calculados de forma robusta.
Podemos realizar un test estadstico para determinar la existencia de heterocedasticidad
antes de estimar el modelo con errores robustos. El test ms conocido es el de Breusch-
Pagan, el cual se basa en la existencia de errores heterocedsticos que siguen la siguiente
forma funcional:
o
2
i
= o
2
/
2
(.
0
i
c) (25)
donde la funcin /() es desconocida, continuamente diferenciable, independiente de i y sat-
isface que /() 0 y /(0) = 1. Esta funcin puede ser por ejemplo la funcin exponencial, es
decir, /
2
(.
0
i
c) = exp(.
0
i
c). Los trminos .
i
corresponden a un subconjunto 7 de las variables
explicativas A. Bajo la hiptesis nula de este test no existe heterocedasticidad, es decir,
H
0
: c = 0, mientras que en la hiptesis alternativa ste no es el caso, H

: c ,= 0. Este test
tiene la lgica de asumir que la heterocedasticidad es una funcin particular de las variables
explicativas (por ejemplo, la varianza es mayor para las personas con mayor ingreso, lo cual
es esperable si estamos estudiando el gasto en bienes de lujo). El estadstico de este test
es igual a = 1
2
y se distribuye asintticamente como una
2
con J grados de libertad
(donde J es el nmero de variables en el vector 7).
Este test se obtiene a partir del siguiente comando de STATA (note que el test hettest
se estima despus de la regresin por MCO sin considerar errores robustos):
38
El resultado del test es:
Figura 14: Resultados del test de heterocedasticidad de Breusch-Pagan.
Por lo que demostramos en este caso la existencia de errores heterocedasticos (se rechaza
la hiptesis nula donde c = 0), lo que motiva la estimacin de los errores robustos mediante
la tcnica de Huber y White (opcin robust en STATA).
En el clculo de los errores robustos, asumimos que la forma funcional de estos errores
es desconocida. Podemos tambin asumir que conocemos esta forma funcional. En dicho
caso, podemos obtener estimadores ms ecientes mediante el mtodo de Mnimos Cuadrados
Generalizados (MCG). Dado que la matriz
&
es simtrica y semidenida positiva, se puede
escribir como
1
&
= 1
0
1 , o anlogamente, como
&
= 1
1
1
01
. Partiendo del modelo de
regresin lineal y premultiplicando por 1 a ambos lados de la ecuacin tenemos que:
1 =A, +n
11 =1A, +1n
1

=A

, +n

La varianza de este nuevo error n

= 1n es:
Var[n

] = E[n

n
0
] = E[1nn
0
1
0
] = 1
&
1
0
= 11
1
1
01
1
0
= 1
Es decir, acabamos de demostrar que la varianza de este nuevo trmino es homocedstica.
En otras palabras, regresionar 1

en A

es asintticamente eciente, a partir de lo cual


escribimos estos nuevos estimadores de Mnimos Cuadrados Generalizados como:

,
ACG
= (A
0
A

)
1
A
0
1

que satisfacen que la varianza de los estimadores es (queda su derivacin propuesta para el
estudiante):
Var[

,
ACG
] = (A
0

1
&
A)
1
En la derivacin anterior asumimos que la forma funcional de los errores es conocida (e
igual a la matriz
&
). En caso que no conozcamos la forma funcional de los errores, esta
matriz debe ser estimada, con lo que se obtiene

&
, que da origen a la estimacin mediante
Mnimos Cuadrados Factibles.
A continuacin estimaremos el retorno a la educacin (el cual obtuvimos anteriormente
mediante MCO) pero ahora a travs de MCG. Sabemos a partir de los resultados expuestos
39
en la Figura 14 que los errores asociados a la estimacin MCO son heterocedsticos. Para la
estimacin mediante MCG asumiremos que la heterocedasticidad posee forma multiplicativa
(como la descrita en la Ecuacin (25)), es decir, tenemos que:
o
2
i
=o
2
/
2
(.
0
i
c)
o
2
i
=o
2
exp(.
0
i
c)
log o
2
i
=log o
2
+.
0
i
c (26)
Escribiendo que los errores estimados n
i
satisfacen log o
2
i
= log n
2
i
-
i
y reemplazando
en la Ecuacin (26) tenemos que:
log n
2
i
= log o
2
+.
0
i
c +-
i
(27)
es decir, los errores estimados al cuadrado estn relacionados con el trmino de varianza
constante y con las desviaciones respecto de sta. Luego, podemos estimar la regresin con
la varianza corregida considerando que:
1
i
=A
0
i
, +n
i
1
i
/(.
0
i
c)
=
A
0
i
,
/(.
0
i
c)
+
n
i
/(.
0
i
c)
(28)
de donde tenemos que la varianza del nuevo error satisface:
Var[n

i
] = Var
_
n
i
/(.
0
i
c)
_
=
o
2
i
/
2
(.
0
i
c)
=
o
2
/
2
(.
0
i
c)
/
2
(.
0
i
c)
= o
2
La estimacin de la Ecuacin (27) requiere primero la construccin de los errores n
i
.
Asumimos que el vector 7 = A, es decir, usamos las mismas variables explicativas del log-
aritmo del salario por hora como determinantes de la varianza de los errores individuales.
Luego, se estima la Ecuacin (27), a partir de lo cual podemos construir /
2
(.
0
i
c), que sirve
para constuir el modelo dado por la Ecuacin (28), donde la varianza de los errores es homo-
cedstica (estimacin mediante Mnimos Cuadrados Generalizados).
El comando de STATA que realiza este procedimiento es el siguiente:
La primera parte del comando estima mediante MCO el retorno a la educacin. Luego,
se obtiene los errores predichos por el modelo asociados a la muestra empleada en la regre-
sin (restringiendo a los datos de la regresin mediante el comando if e(sample)==1. Se
construye el logaritmo del error al cuadrado predicto por el modelo. Este trmino log n
2
i
se
regresiona sobre las variables que creemos estn relacionadas con la varianza de los errores.
El resultado de esta ltima regresin se muestra en la Figura 15, donde vemos que la varianza
40
de los errores es mayor para los hombres, aumenta con la escolaridad y es menor para los
casados y convivientes:
Figura 15: Regresin del logaritmo del error predicho al cuadrado sobre variables explicativas.
Por ltimo, se obtiene la estimacin del log n
2
i
, el cual corresponde a la estimacin de
/
2
(.
0
i
c) y es la que utilizamos para obtener los Mnimos Cuadrados Ponderados, dividiendo
la ecuacin de regresin por /(.
0
i
c), como mostramos en la Ecuacin (28):
Figura 16: Estimacin del retorno a la educacin mediante Mnimos Cuadrados Generalizados.
Observamos que los coecientes estimados disminuyen para la dummy de gnero y para la
escolaridad, mientras que el efecto del estado civil deja de ser estadsticamente signicativo.
Esto pues la varianza de la variable estado civil aumenta considerablemente. Se evidencia
adems que la varianza de la dummy de gnero disminuye levemente y la de la escolaridad
aumenta.
41
11 Variable Dependiente Discreta: Probit
Este modelo surge de la eleccin de un individuo entre opciones nitas. Las variables discretas
toman valores usualmente iguales a 0 1 (a diferencia de las variables limitadas que nacen
cuando la variable est acotada, por ejemplo, el salario de las personas es siempre positivo y
est normalmente acotado). Estos modelos no se estiman por Mnimos Cuadrados Ordinarios
principalmente por dos razones:
Las predicciones del modelo bajo MCO pueden estar fuera del intervalo [0, 1], que es el
que captura los posibles valores discretos.
La varianza de los errores bajo MCO puede ser negativa y es heterocedstica.
Para demostrar estos dos resultados, asumimos un modelo lineal donde la variable 1
i
puede tomar valores en el conjunto 0, 1. El modelo satisface:
1
i
= A
0
i
, +n
i
Entonces, bajo este modelo se predice un valor para la variable dependiente igual a 1[1 ] =
1 + Pr[1
i
= 1] +0 + Pr[1
i
= 0] = A
0
i
,, donde asumimos que 1[n] = 0. Es directo ver que para
que este valor est dentro del intervalo [0, 1] se deben cumplir ciertas restricciones sobre los
parmetros , y sobre los valores del vector A
i
, las que en general difcilmente se cumplen.
La varianza del error del modelo es:
\ ar[n] =

i
(n
i
1[n])
2
)(n
i
)
Notemos que el error del modelo puede tomar dos valores: el primero es n
i
= 1 A
0
i
,
(cuando 1
i
= 1, lo que ocurre con probabilidad A
0
i
,), y el segundo es n
i
= A
0
i
, (cuando
1
i
= 0, lo que ocurre con probabilidad 1 A
0
i
,). La esperanza del error es igual a 1[n] =
(1 A
0
i
,) A
0
i
,A
0
i
, (1 A
0
i
,) = 0, que es efectivamente la esperanza que habamos supuesto
anteriormente.
La varianza del error es igual a:
\ ar[n] =
_
1 A
0
i
,
_
2
A
0
i
, +
_
A
0
i
,
_
2
_
1 A
0
i
,
_
=
_
1 A
0
i
,
_
A
0
i
,
_
1 A
0
i
, +A
0
i
,
_
=A
0
i
,
_
1 A
0
i
,
_
A partir de esta expresin vemos que para valores altos de A
0
i
, la varianza del error toma
valores negativos. Adems, se comprueba que esta varianza depende de la observacion i, es
decir, los errores son heterocedsticos.
De lo anterior, se motiva la estimacin de los modelos binarios mediante otra estrategia
que no sea Mnimos Cuadrados Ordinarios. Los modelos ms comunes son los llamados probit
o logit. En un modelo probit el error del modelo sigue una distribucin normal, mientras que
en un modelo logit el error sigue una distribucin logstica. Para entender de mejor forma
estos modelos introduciremos primero el concepto de variable latente.
42
Denicin 23 Modelo de variable latente: Es un modelo del tipo 1

i
= A
0
i
, + n
i
, donde
1

i
no es observado pero est asociado a la utilidad recibida por algn evento en particular.
Si esta utilidad es positiva, el evento bajo anlisis ocurre, pero si es negativa, no ocurre.
Matemticamente: 1
i
= 1 si 1

i
_ 0 y 1
i
= 0 si 1

i
< 0.
Entonces, denimos la probabilidad que el evento ocurra como:
Pr[1
i
= 1] = Pr[1

i
_ 0] = Pr[n _ A
0
i
,] = Pr[n _ A
0
i
,] = (A
0
i
,) (29)
En la Ecuacin (29) usamos que la distibrucin () es simtrica. La probabilidad de
ocurrencia de un cierto evento 1
i
es:
Pr[1
i
] = (A
0
i
,)
Y
i
_
1 (A
0
i
,)
_
1Y
i
(30)
para 1
i
0, 1. El modelo probit o logit se estima mediante mxima verosimilitud. La
contribucin de la observacin i a la funcin de verosilimilitud asociada a la Ecuacin (30)
es:
|
i
(,) = log(Pr[1
i
]) = 1
i
log (A
0
i
,) + (1 1
i
) log
_
1 (A
0
i
,)
_
Finalmente, la funcin de verosimilitud es igual a 1(,) =

.
i=1
|
i
(,). Para estimar los
parmetros del modelo, se maximiza esta funcin con respecto a los parmetros ,.
En el caso del modelo probit, la funcin (.) es igual a la distribucin acumulada de una
normal con media j y varianza o
2
:
(.) =
_
:
1
1
_
2o
2
c

(x)
2
2
2
dr
Por otra parte, en el caso del modelo logit, la funcin (.) es igual a la distribucin
acumulada de una logstica con media j y varianza o
2
:
(.) =
1
1 +c

(z)

p
3
43
12 Series de Tiempo: Estacionariedad
Una serie estacionaria cumple con la condicin de tener sus momentos constantes en el tiempo.
Considerando la variable aleatoria 1
t
, la serie es estacionaria si:
Su esperanza es constante en el tiempo: 1[1
t
] = j.
Su varianza es constante en el tiempo: \ ar[1
t
] = o
2
Y
.
Sus convarianzas temporales son constantes en el tiempo: Co[1
t
, 1
tI
] =
I
.
Denicin 24 Ruido blanco: Es un proceso que satisface 1
t
= n
t
, donde n
t
~ (0, o
2
).
El siguiente comando de STATA fabrica una serie ruido blanco:
En este comando, generamos una base de datos de 500 las con dos variables. La primera
se llama tiempo y va desde 1 hasta 500 con incrementos de 1 unidad y la segunda se llama
ruido_blanco, que usando corridas de una distribucin uniforme (con posibles valores entre
0 y 1) entrega los valores correspondientes al inverso de la distribucin normal acumulada
que posee media 0 y varianza 1.
El histograma resultante es:
Figura 17: Histograma de una distribucin normal estndar.
El grco de las realizaciones de la distribucin normal en 500 perodos es:
44
Figura 18: Realizaciones de una distribucin normal en el tiempo.
Esta serie tiene la particularidad que la informacin del pasado no entrega informacin
til para hacer ms exacto el pronstico futuro de esta misma serie.
Denicin 25 Camino aleatorio sin desfase: Es un proceso que satisface 1
t
= 1
t1
+ n
t
,
donde n
t
~ (0, o
2
).
Asumiendo que 1
0
es un valor inicial dado, se cumple que en un camino aleatorio sin
desfase (es un buen ejercicio para el estudiante) se cumple que 1[1
t
] = 1
0
y que \ ar[1
t
] = to
2
.
El siguiente comando de STATA fabrica una serie camino aleatorio sin desfase (notando
que usamos la serie ruido blanco que construimos anteriormente):
El grco del camino aleatorio sin desfase en el tiempo es:
Figura 19: Camino aleatorio sin desfase en el tiempo.
45
Denicin 26 Camino aleatorio con desfase: Es un proceso que satisface 1
t
= c +1
t1
+n
t
,
donde n
t
~ (0, o
2
).
Asumiendo que 1
0
es un valor inicial dado, se puede demostrar que en un camino aleatorio
con desfase (es un buen ejercicio para el estudiante) se cumple que 1[1
t
] = 1
0
+ tc y que
\ ar[1
t
] = to
2
.
El siguiente comando de STATA fabrica una serie camino aleatorio con desfase (notando
que usamos la serie ruido blanco que construimos anteriormente):
El grco del camino aleatorio sin desfase en el tiempo es:
Figura 20: Camino aleatorio con desfase en el tiempo.
Si un proceso satisface la relacin 1
t
= c +j1
t1
+n
t
y es estacionario, podemos calcular
su esperanza y varianza, las que satisfacen (es un buen ejercicio para el estudiante derivar
estos resultados):
1[1
t
] =j =
c
1 j
\ ar[1
t
] =o
2
Y
=
o
2
1 j
2
Lo anterior sirve de motivacin para el test de raz unitaria (conocido tambin como test
de Dickey-Fuller), puesto que bajo estacionariedad, la esperanza se indene en el caso que
j = 1, lo que tambin ocurre con la varianza cuando [j[ _ 1.
En el test de Dickey-Fuller (o de estacionariedad), la hiptesis nula es H
0
: 0 = 0 en la
siguiente regresin:
d1
t
= c +01
t1
+n
t
46
donde denimos el operador d (conocido tambin como 1) como el que toma primera difer-
encia a una serie. Del mismo modo, el operado 1 rezaga en un perodo la serie, es decir,
d1
t
=11
t
= 1
t
1
t1
11
t
=1
t1
De esta forma, si la hiptesis nula no se rechaza, estamos en el caso donde 1
t
= c+1
t1
+n
t
,
o sea, recuperamos una serie del tipo camino aleatorio con desfase y la serie no es estacionaria.
Si la hiptesis nula se rechaza, entonces podemos decir que la serie es estacionaria. A con-
tinuacin aplicaremos este test sobre las series que construimos anteriormente. El comando
de STATA que realiza este test es:
Los resultados de estos tests son:
Figura 21: Output de STATA del test de raz unitaria sobre una serie ruido blanco.
Observamos que en este test el coeciente estimado es

0 = 1, 02. El p-value es igual
a cero y nos indica que con una probabilidad igual a 0% el coeciente es igual a cero. De
la misma manera, vemos que el intervalo de conanza no incluye el cero dentro de l. Por
ltimo, vemos que el estadstico asociado a la hiptesis nula es igual a 22, 8 que es menor
que el valor crtico de 2, 87. Estos 4 resultados nos llevan a decir que la hiptesis nula se
rechaza y por lo tanto estamos ante una serie que es estacionaria.
El resultado del test de Dickey-Fuller para una serie camino aleatorio presenta los resul-
tados opuestos (es un buen ejercicio para el estudiante comprobar este resultado) y por lo
tanto esta serie no es estacionaria.
47
Figura 22: Output de STATA del test de raz unitaria sobre una serie camino aleatorio.
48
13 Series de Tiempo: Metodologa Box-Jenkins
En esta metodologa, el nfasis est en analizar las propiedades probabilsticas (estocsticas)
de los datos. Se basa en la losofa de dejar que los datos hablen por s solos, donde la variable
de inters 1
t
(que asumimos estocstica) se explica por valores pasados de 1
t
y por trminos
estocsticos de error n
t
. Esta metodologa se conoce como ateortica porque no est derivada
de ningn tipo de teora. Antes de introducir la metodologa propiamente tal, mostraremos
deniciones importantes que se utilizan en esta metodologa.
Denicin 27 Proceso autoregresivo de primer orden AR(1): En este proceso, la variable de
inters se relaciona con la misma variable rezagada en un perodo 1
t1
y por un trmino de
error (donde c es la media de la serie 1
t
y el trmino de error no correlacionado y aleatorio
con media cero y varianza constante o
2
se denota como n
t
). Algebricamente:
1
t
c = c
1
(1
t1
c) +n
t
Siguiendo la misma lgica podemos denir un proceso autoregresivo de orden j AR(j),
en cuyo caso consideramos un total de j rezagos de la variable dependiente.
Denicin 28 Proceso autoregresivo de orden j AR(j): En este proceso, la variable de
inters se relaciona con la misma variable rezagada en un perodo y en ms perodos hasta el
perodo j. Algebricamente:
1
t
c =
j

)=1
c
)
(1
t)
c) +n
t
Denicin 29 Proceso media mvil de orden MA():
1
t
c =
q

)=0
,
)
n
t)
Por otra parte, un proceso ARMA considera aspectos del proceso AR como del proceso
MA. Por ejemplo, un modelo ARMA(j = 1, = 1) es:
1
t
= c +c
1
(1
t1
c) +,
0
n
t
+,
1
n
t1
El modelo ARIMA(j, d, ) asume que la serie de tiempo se diferencia d veces para que
sea estacionaria y luego de esto se le aplica el modelo ARMA(j, ).
Antes de detallar la metodologa Box-Jenkins, deniremos dos funciones que son tiles en
la determinacin de los parmetros p y q que mejor se ajustan a los datos analizados. Estas
son la funcin de autocorrelacin y la funcin de autocorrelacin parcial.
Denicin 30 La funcin de autocorrelacin de una serie se dene como j
I
=

k

0
=
Cov[Yt,Y
tk
]
Var[Yt]
.
49
Denicin 31 La funcin de autocorrelacin parcial se dene como el coeciente j
II
resul-
tante de regresionar
1
t
= c +
I

)=1
j
))
1
t)
+n
t
es decir, esta funcin en el rezago / mide la correlacin entre 1
t
y 1
tI
despus de que los
efectos asociados a las variables 1
t1
, 1
t2
, ... , 1
tI+1
ya han sido removidos.
En general, las autocorrelaciones (AC) y autocorrelaciones parciales (PAC) cumplen las
siguientes propiedades.
Para un proceso AR(j):
La AC cae exponencialmente o con un patrn sinusoidal (o ambos).
La PAC cae fuerte despus del rezago j.
Para un proceso MA():
La AC cae fuerte despus del rezago .
La PAC cae exponencialmente o con un patrn sinusoidal (o ambos).
Por ltimo, para un proceso ARMA(j,):
Tanto la AC como la PAC caen exponencialmente o con un patrn sinusoidal (o
ambos).
Con estas deniciones, podemos describir la metodologa Box-Jenkins como la que de-
termina cules son los valores de j, d y que mejor se ajustan a una serie de tiempo,
determinando si el proceso es AR, MA, ARMA o ARIMA. Esta metodologa consiste en 4
pasos:
Paso 1: Identicacin. Encontrar los valores de j, d y . Primero se determina el valor
de d usando el test de Dickey-Fuller sobre la serie original y luego los valores de j y
mediante el uso de correlogramas y correlogramas parciales sobre la serie estacionaria.
Paso 2: Estimacin. Usando principalmente Mnimos Cuadrados Ordinarios o Mxima
Verosimilitud.
Paso 3: Diagnstico. La forma ms fcil es comprobar que los errores estimados del
modelo se comportan como ruido blanco.
Paso 4: Proyeccin. ARIMA es popular por su uso para realizar proyecciones, especial-
mente de corto plazo.
A continuacin mostraremos las funciones de autocorrelacin y autocorrelacin parcial
para un proceso ruido blanco.
El cdigo en STATA que fabrica la serie y las respectivas funciones es:
50
Figura 23: Output de STATA del correlograma de una serie ruido blanco.
Figura 24: Funcin de autocorrelacin (izquierda) y funcin de autocorrelacin parcial (derecha) de
una serie ruido blanco.
En este caso, las funciones de autocorrelacin y de autocorrelacin parcial son iguales a
cero para los distintos rezagos. Note que el rea gris de la Figura 24 corresponden al intervalo
de conanza para valores iguales a cero, es decir, en estos correlogramas los valores no son
estadsticamente distintos de cero.
El mismo ejercicio para una serie camino aleatorio se muestra a continuacin (el cdigo
de STATA se omite pues es anlogo al del ruido blanco).
Figura 25: Output de STATA del correlograma de una serie camino aleatorio.
51
Figura 24: Funcin de autocorrelacin (izquierda) y funcin de autocorrelacin parcial (derecha) de
una serie camino aleatorio.
En una serie camino aleatorio tenemos que la autocorrelacin es igual a 1 para el primer
rezago y evidencia una cada leve a medida que los rezagos aumentan. La funcin de auto-
correlacin parcial es igual a 1 slo para el primer rezago, luego de lo cual es igual a cero.
A continuacin gracamos la serie y su respectivo correlograma en el caso de un proceso
AR(2) del tipo 1
t
= c + 0, 51
t1
+ 0, 31
t2
+n
t
.
El cdigo en STATA que fabrica la serie, los grcos de la serie y sus respectivas funciones
de autocorrelacin y de autocorrelacin parcial son:
Figura 25: Serie (izquierda), funcin de autocorrelacin (centro) y funcin de autocorrelacin parcial
(derecha) de un proceso AR(2).
52
En este caso observamos que la funcin de autocorrelacin decae exponencialmente y
la funcin de autocorrelacin parcial cae fuerte despus del rezago 2. Tal como discutimos
anteriormente, este comportamiento est en lnea con un proceso AR(2).
Por ltimo, gracamos la serie y su respectivo correlograma en el caso de un proceso
MA(2) del tipo 1
t
= c +n
t
+ 0, 5n
t1
+ 0, 3n
t2
.
El cdigo en STATA que fabrica la serie, los grcos de la serie y sus respectivas funciones
de autocorrelacin y de autocorrelacin parcial son:
Figura 26: Serie (izquierda), funcin de autocorrelacin (centro) y funcin de autocorrelacin parcial
(derecha) de un proceso MA(2).
En este caso observamos que la funcin de autocorrelacin cae fuerte despus del rezago
2 y la funcin de autocorrelacin parcial decae con un patrn sinusoidal.
53
14 Series de Tiempo: Estimacin ARIMA
Luego de utilizar la metodologa Box-Jenkins para determinar los rezagos j y de una serie,
debemos estimarla. En general, esta estimacin se puede realizar por MCO o por Mx-
ima Verosimilitud (esta ltima tcnica la describimos en la seccin de variable dependiente
discreta.
A continuacin, estimaremos el proceso ARIMA(j, d, ) que mejor se ajusta a la serie del
nmero de pasajeros que viajan en vuelos areos en Chile. Esta serie se puede obtener de la
pgina web de la Junta de Aronutica Civil (JAC), www.jac-chile.cl.
El cdigo en STATA que prepara los datos es el siguiente:
En este caso, generamos una variable fecha que considera como insumos el mes y el ao.
El comando ym le dice a STATA que la fecha generada se fabrica en base a dos variables,
primero el ao y despus el mes. Al jar el formato como %tm, asumimos que la fecha es
mensual (m) mientras que la t se asocia a que estamos en el ambiente de series de tiempo
del programa. El declarar los datos como series de tiempo se logra mediante el comando
tsset que utiliza como insumo la variable de fecha que declaramos anteriormente. Una vez
que estamos en el ambiente de series de tiempo, gracamos la serie en el tiempo mediante el
comando tsline, cuyo grco es:
Figura 27: Serie mensual de pasajeros areos en Chile.
Al analizar esta serie lo primero que debemos hacer es determinar si es estacionaria o
no. Tal como vimos anteriormente, esto lo determinamos mediante el test de raz unitaria de
Dickey-Fuller, cuyo comando en STATA es:
54
El resultado de los test se muestran para la serie original y para la serie en su primera
diferencia:
Figura 28: Output de STATA del test de raz unitaria sobre la serie de pasajeros areos nacionales.
En este caso, no podemos rechazar la hiptesis nula de raz unitaria (por qu?) y por lo
tanto la serie no es estacionaria. El mismo test sobre la serie diferenciada una vez s permite
decir que la serie diferenciada es estacionaria.
Figura 29: Output de STATA del test de raz unitaria sobre la serie de pasajeros areos nacionales
diferenciada una vez.
El grco de la serie en su primera diferencia (y que sabemos que es estacionaria) es el
siguiente:
55
Figura 30: Primera diferencia de la serie mensual de pasajeros areos en Chile.
Una vez que sabemos que estamos trabajando con una serie estacionaria, calculamos las
funciones de autocorrelacin y de autocorrelacin parcial. Estos grcos son:
Figura 31: Funcin de autocorrelacin (izquierda) y funcin de autocorrelacin parcial (derecha) de
la serie de pasajeros areos nacionales en su primera diferencia.
A partir de estos grcos no es claro el proceso que sigue la serie. Probablemente es un
proceso del tipo AR(12), MA(12) o ARMA(12, 12). Una forma de determinar el tipo de
proceso es eligiendo la especicacin que posea el menor valor para el criterio de informacin
de Akaike. Este criterio evala el ajuste del modelo castigndolo en base al nmero de
parmetrios estimado y se dene como:
1C = 2 ln1 +
j + + 1
T
(31)
donde ln1 es el valor de la funcin de verosimilitud, el cual representa el grado de ajuste del
modelo a los datos: mientras mayor sea este valor, mejor es el ajuste del modelo a los datos.
La fraccin en el trmino de la derecha de la Ecuacin (31) mide el nmero de parmetros
56
estimados en el modelo (los coecientes asociados a los trminos AR, a los trminos MA y la
constante). A menor valor 1C es mejor el ajuste del modelo.
En nuestro ejemplo de los pasajeros areos nacionales, podemos calcular el criterio de
informacin para un set de distintas especicaciones ARIMA(j, d, ) mediante el siguiente
comando de STATA:
Notemos en el comando anterior que usamos la opcin #delimit ; que hace que el salto
de lnea se asocie al texto ;. El output de STATA corresponde a los valores para los criterios
de informacin de Akaike para los distintos modelos estimados:
Figura 31: Output de STATA del criterio de informacin de Akaike para distintos modelos ARIMA
estimados.
En este caso, el menor valor del criterio de informacin se asocia al proceso ARIMA(12,
1, 0). La estimacin del modelo arroja los siguientes coecientes:
57
Figura 32: Output de STATA de la estimacin del modelo ARIMA(12, 1, 0) en la serie de datos de
los pasajeros nacionales areos.
58
15 Series de Tiempo: Promedio Mvil, Suavizamiento Exponencial y Fil-
tro Holt-Winters
Una serie suavizada captura el comportamiento de la serie pero oculta parcialmente las varia-
ciones de corto plazo que existen en ella mediante un promedio de la serie. Este promedio
puede considerar distintos aspectos que veremos en orden creciente de dicultad. El promedio
ms sencillo corresponde al promedio mvil, luego se puede complejizar aadiendo pondera-
ciones distintas para cada observacin, tendencia y estacionalidad. A continuacin veremos
las deniciones para distintos mtodos de suavizamiento:
Denicin 32 Un promedio mvil con ventana 1 satisface:
'
t
=

t
)=t1+1
1
)
1
donde 1
t
es la serie que deseamos suavizar. Este promedio mvil considera las 1 1 ob-
servaciones anteriores a t y la observacin contempornea y calcula el promedio entre estas
observaciones. El promedio mvil ponderado se dene como:
'
t
=

t
)=t1+1
n
)
1
)
1
donde asumimos que

t
)=t1+1
n
)
= 1.
Al hacer una proyeccin usando el promedio calculado con el mtodo de suavizamiento
denimos la proyeccin como:
1
t+1
= '
t
es decir, el promedio mvil calculado hasta la fecha t se usa para hacer la proyeccin para el
prximo perodo.
Denicin 33 El suavizamiento exponencial se dene como:
1
t+1
=1
t
+c(1
t
1
t
)
=c1
t
+ (1 c) 1
t
donde el parmetro de suavizamiento es c. La proyeccin para el prximo perodo est dado
por 1
t+1
.
Se puede demostrar (es un buen ejercicio para el estudiante) que el suavizamiento expo-
nencial satisface:
1
t+1
= c1
t
+c(1 c) 1
t1
+c(1 c)
2
1
t2
+...
es decir, la serie suavizada pondera las observaciones contemporneas y pasadas con pesos
que caen exponencialmente con el nmero de rezagos considerado.
59
Denicin 34 El suavizamiento exponencial con tendencia se dene como:

t
=c1
t
+ (1 c) (
t1
+T
t1
)
T
t
=, (
t

t1
) + (1 ,) T
t1
1
t+1
=
t
+T
t
donde existen dos parmetros de suavizamiento: c y ,, el primero para la serie suavizada y
el segundo para la tendencia suavizada.
Notemos en la denicin anterior que la tendencia suavizada se compone de la suma de (1)
el crecimiento de la serie suavizada (la cual est ponderada por el factor ,) y (2) la tendencia
que observamos el perodo pasado.
Denicin 35 La serie suavizada con el ltro de Holt-Winters satisface simultneamente
que:

t
=c
_
1
t
1
t1
_
+ (1 c) (
t1
+T
t1
)
T
t
=, (
t

t1
) + (1 ,) T
t1
1
t
=
_
1
t

t
_
+ (1 ) 1
t1
1
t+1
=(
t
+1T
t
) 1
t1+1
es decir, consideramos adems un suavizamiento para la estacionalidad, la cual est capturada
por el trmino 1
t
y donde 1 corresponde al nmero de perodos que abarca un ciclo de
estacionalidad.
La expresin para nuestra proyeccin en 1 perodos hacia adelante considera que la
tendencia se mantendr en esos perodos, pero adems captura el ajuste estacional dado por
el trmino 1
t1+1
.
A continuacin ejemplicaremos estas tcnicas con los datos de pasajeros nacionales areos
en Chile. El comando en STATA que crea las series de promedio mvil es:
El comando base para realizar el suavizamiento mediante promedio mvil es tssmooth,
el cual requiere que hayamos hecho un tsset de los datos. Este comando posee distintas
opciones, entre las que destacan ma para el promedio mvil, e para el suavizamiento
exponencial y shw para el ltro Holt-Winters con estacionalidad. La opcin window
posee 3 insumos dentro del parntesis, que segn la documentacin de STATA podemos
60
escribir como window(#l[#c[#f]]), donde el primer trmino l es obligatorio y corresponde
al nmero de rezagos a incluir en el promedio mvil, el segundo trmino c es opcional y
especica si consideramos la observacin contempornea en el ltro (un 0 indica exclusin
y un 1, inclusin), y el tercer trmino f tambin es opcional y representa el nmero de
trminos hacia adelante a incluir en el ltro.
En nuestro ejemplo, en el primer promedio mvil, que resulta en una nueva variable
denominada ma3, STATA entrega el siguiente output una vez ejecutado el comando:
Este output nos indica que el promedio mvil considera 3 rezagos, no considera la obser-
vacin contempornea 1
t
y no incluye trminos hacia adelante.
El resto del programa genera los errores cuadrticos medios, una medida que sirve para
medir el ajuste del modelo y que deniremos a contiuacin:
Denicin 36 El error cuadrtico medio se dene como:
ECM
T
=

T
t=1
_
1
t


1
t
_
2
T
Denicin 37 La suma de los errores de proyeccin totales es:
STE
T
=

T
t=1
1
t


1
t
T
Ambas medidas miden cun cercanas son las estimaciones en relacin a los valores ver-
daderos. La primera (ECM
T
) castiga ms las proyecciones ms lejanas, independiente de
si estn por arriba o por abajo el valor verdadero. En cambio, la segunda medida (STE
T
)
captura la tendencia de estimacin. Por ejemplo, si sta es positiva indica que los valores
verdaderos estn en su mayora por sobre los estimados, indicando una subestimacin en
nuestro modelo de proyeccin.
El resultado de los errores de proyeccin resultantes son:
Notamos que en este caso (donde no hemos dividido por el nmero total de observaciones,
pero que al comparar entre estos modelos es irrelevante), el ltro ms cercano a los datos
reales es el que considera el promedio de las observaciones hasta 3 rezagos.
El grco de la serie original y de las tres promedios mviles es el siguiente:
61
Figura 33: Serie original de pasajeros nacionales areos y 3 promedios mviles asociados.
Los comandos de STATA para realizar el promedio mvil ponderado, suavizamiento ex-
ponencial y ltro de Holt-Winters es el siguiente:
Se propone como ejercicio el comparar distintos modelos de promedio mvil, suaviza-
miento exponencial, Holt-Winters y ARIMA en cuanto al error cudratico medio. De esta
forma se puede responder a la pregunta de cul es el modelo que mejor se ajusta a los datos
en el pasado.
Una extensin del modelo ARIMA considera la inclusin estacionalidad multiplicativa en
la serie mediante la opcin sarima(#P,#D,#Q,s). Se deja propuesto a los alumnos el uso
de este comando para ver el impacto en la mejora del ajuste a los datos.
62
16 Vectores Autoregresivos
Los vectores autoregresivos (VAR) permiten incorporar en el modelamiento el efecto de vari-
ables explicativas y no slo usar la dinmica de la variable dependiente y del trmino de error
(como es el caso en el modelamiento ARIMA). Una estructura bsica del modelo VAR es la
siguiente:
_
1
t
A
t
_
=
_
c
1
c
2
_
+
_
0
11
0
12
0
21
0
22
__
1
t1
A
t1
_
+
_
-
t1
-
t2
_
En este caso consideramos slo un rezago en la variable dependiente e independiente
dentro del lado derecho de la ecuacin. Es importante notar que en esta expresin, tanto la
variable 1
t
como A
t
pueden ser vectoriales y no slo escalares. Adems, de esta forma se
est modelando el comportamiento conjunto de un sistema de dos ecuaciones, lo que permite
considerar la posible endogenedidad entre dos variables del modelo.
En el caso que 0
12
= 0 recuperamos un modelo ARMA(1, 0) en la primera ecuacin
(donde modelamos 1
t
). Descomponiendo las dos ecuaciones anteriores tenemos que:
1
t
=c
1
+0
11
1
t1
+0
12
A
t1
+-
t1
A
t
=c
2
+0
21
1
t1
+0
22
A
t1
+-
t2
Estas dos ecuaciones se pueden combinar para llegar a:
1
t
= c +01
t1
+c
0
A
t
+c
1
A
t1
+-
t
Cules son las condiciones que deben satisfacer los parmetros c, 0, c
0
y c
1
?
A partir de esta expresin podemos calcular el efecto multiplicador de un aumento en A
t
sobre 1
t
, el cual es igual a c
0
(por qu?). De la misma manera, el multiplicador de largo
plazo es igual a

0
+
1
10
(por qu?).
Un comando bsico que calcula un VAR en STATA es el siguiente:
A partir de estas proyecciones podemos calcular los errores cuadrticos medios y ver
qu modelo se comporta mejor. Tambin podemos recuperar el error asociado al modelo
y determinar si es estacionario o no mediante un test de Dickey-Fuller. Si este error es
estacionario, entonces podemos decir que el modelo es estable y sirve para hacer proyecciones.
El comando en STATA para hacer proyecciones es fcast compute, el cual necesita como
insumos el nmero de perodos que deseamos considerar para las proyecciones futuras (por
ejemplo, step(12)) y el dato base sobre el que se calcularn estas proyecciones (por ejemplo,
dynamic(tm(2012m12))).
63

También podría gustarte