Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Jose Miguel Benavente - Apuntes de Econometria Intermedia
Jose Miguel Benavente - Apuntes de Econometria Intermedia
Apuntes de Clases
21 de septiembre de 2011
1 Escuela
de Negocios. Universidad Adolfo Ibanez. e-mail : jmbenavente@uai.cl. Notas
basadas en Benavente (2010). Todos los errores son responsabilidad del autor.
Capítulo 1
Introducción al Curso
1.1. Resumen
1. Conceptos y Metodología en Econometría
2. Una Nota de Precaución
1.1.1. Referencias
D.F. Hendry Dynamic Econometrics (1995) Capítulo 1.
J. Kmenta Elements of Econometrics (1986) Parte 1.
P. Kennedy A Guide to Econometrics (1997) Capítulo 1.
C. Mukherjee, H. White, M. Wuyts Econometrics and Data Analysis for
Developimng Countries (1998).
Dos artículos útiles:
C.L. Gilbert "Professor Hendryťs Methodology". Oxford Bulletin of Eco-
nomics and Statistics (1986, Vol 48).
D.N. McCloskey y S.T.Ziliak "The Standard Error of Regresions". Journal
of Economic Literature (Vol 34, Marzo 1996)
1
ca. POr su lado, la economía matemática está relacionada con la formalización
de la teoría económica sin preocuparse de los problemas estadísticos asociados a
la inferencia a partir de los datos. La econometría pretende principalmente cerrar
la brecha que existe entre la teoría económica y los sistemas económicos reales
los que son pueden ser representados por datos.
Una Nota de Precaución : Teoría y datos están íntimamente ligados ; los he-
chos no existen en el vacío, estos son distinguidos e interpretados por la teoría.
Los "hechos"en este caso son representados por los datos que podemos recolec-
tar. La manera en que los recolectamos, cómo medimos el fenómeno económico
inevitablemente está condicionado o guiado por la teoría, aquella que utilizamos
para especificar los modelos econométricos.
2
Esto produce una gran tensión dentro de la econometría dado que uno de
los objetivos es el uso de modelos econométricos y los datos para evaluar teoría
rivales como si los datos fueran independientes de la teoría. La pregunta que
continuamente los investigadores se hacen es: ¿cuál es el rol que tiene los datos en
el proceso de la comprensión económica?, ¿cómo podemos mantener el balance
entre ser fieles a la a la teoría y usar datos para “calibrar” el modelo teórico, por
una parte, y por la otra, mantenerse agnóstico acerca de la teoría y usar los datos
para refinar (o incluso definir) nuestra visión teórica del mundo?. Está tensión
está en el centro del debate metodológico en esta rama científica y aún no ha sido
resuelto.
Background. Los primeros años de la econometría (entre los 30s y los 50s)
estuvieron concentrados principalmente en asuntos relacionados con la obtención
de los estimadores, lo que , antes de la llegada de los computadores personales,
era una tarea monumental. De tal forma, la metodología econométrica de ese en-
tonces trabajaba bajo el supuesto que el modelo a estimar era conocido y además
era el correcto. La pobre performance de estos modelos sumado al hecho de la
fragilidad de los estimadores econométricos y las inferencias obtenidas de ellos,
representó un desafío significativo a la econometría y proveyó un estímulo para
la re-examinación de la metodología econométrica. Ya a los comienzos de los 70s
se observa un creciente cuestionamiento acerca de la metodología utilizada en la
econometría.
La filosofía subyacente a los acercamientos contemporáneos de la econometría
comienzan por revisar los cuestionamientos acerca de la “computación” al notar
que, en general, la estimación del modelo es fácil, pero que la especificación y
evaluación del modelo es difícil. De esta manera, la econometría es mas bien un
proceso de descubrimiento mas que uno de estimación y el debate econométrico
consiste en el desarrollo de un proceso eficiente de descubrimiento, diseño y eval-
3
uación.
Para formalizar un poco mas esta metodología distinguiremos cuatro niveles de
información disponible al investigador (Hendry, 1995, Capítulo 1)
Nivel B Teoría de Estimación donde la forma general del DGP es conocida pero
su calibración (i.e. valores de los parámetros) es desconocida. Aquí, la verosimil-
itud de todos los posibles eventos puede ser sólo inferida a partir de las observa-
ciones empíricas (datos) con la ayuda de la teoría desarrollada en el Nivel A.
4
(consistencia teórica) y que también describe las características de los datos en
forma estadísticamente robusta (admisible por los datos). Este approach es referi-
do normalmente como un modelamiento del tipo general-a-específico (general-to-
specific).
5
factorizado en sus procesos condicionales y marginales para cada t.
DV (Vt |Vt−1 , Θ) = DX|W (Xt |wt , Vt−1 , φ1 )DW (wt |Vt−1 , φ2 ) (1.4)
DX (yt , zt |Xt−1 , φ) = Dy|z (yt |zt , Xt−1 , λ1 )Dz (zt |Xt−1 , λ2 ) (1.5)
6
4. Testeo Diagnóstico. En el cual la validez estadística del condicionamiento
está sujeta a un testeo riguroso. La falla en los tests implementados entrega
evidencia acerca de la invalidez de las condiciones de exogeneidad asumidas.
Estos aspectos serán analizados entre la quinta y séptima semana de clases.
Un modelo “congruente” es aquel que : a) es interpretable en términos de los
parámetros estructurales de interés; b) coherente con los datos ; c) donde
exista estabilidad en los parámetros de tal forma que el modelo puede ser
generalizable para muestras alternativas.
Si los modelos resultantes no son congruentes (los cuales suele ser la regla al
comienzo de la investigación) el proceso de reducción general-a-específico, al
considerar el condicionamiento, el proceso de simplificación, la especificación
dinámica, etc deberán ser repetidos. La búsqueda de modelos congruentes
es, como se mencionó, un proceso iterativo.
7
de que “ordinariamente en economía, la significancia estadística se considera como
similar a la significancia económica”.
Consideremos el siguiente ejemplo derivado de la teoría de tasas de cambio, en
forma particular, la condición de paridad de poder de compra (PPP):
P P P : P = α + β(EP ∗ ) + % (1.6)
donde H0 : β = 1.
Suponga que derivamos una estimación puntual de 0.95 para β. Bajo que condi-
ciones podemos rechazar / no rechazar la hipótesis nula?. La respuesta es simple
ya que disponemos de metodologías estandarizadas para construir intervalos de
confianza. Sin embargo, que significa decir que β = 0.95 no es diferente de la
unidad si T = 100 pero lo contrario si T = 1000?. Es realmente diferente de la
unidad?
Pruebas de significancia tratan solamente con errores muestrales (i.e. la precisión
de una estimación) pero altas o bajas significancias estadísticas no necesariamente
determinan cuan importante es la variable. Un valor de β = 0.95 puede ser “sufi-
cientemente cercano” para un economista que investiga, por ejemplo, índices de
estándar de vida entre países. Es claramente diferente de uno para un trader en
los mercados internacionales de divisas.
8
Capítulo 2
2.1. Resumen
1. Estimación: Conceptos Básicos
2.1.1. Referencias
Gujarati: Parte 1
Greene: Capítulos 3 y 4
Kennedy: Capítulo 2
Mukherjee:Capítulo 2
2.2. Introducción
En esta y la clase siguiente nos preocuparemos de revisar dos importantes
actividades de la econometría:
9
Estimación: el uso de información muestral para obtener estimadores de parámet-
ros poblacionales (basados en supuestos sobre la DGP-Nivel B).
Estos dos componentes serán revisados a la luz del modelo clásico de regresión
lineal, piedra angular en la econometría moderna.
2.3. Estimación
Dejaremos para la siguiente clase métodos específicos de estimación donde ex-
aminaremos el método de Máxima Verosimilitud así como el ya conocido método
de Mínimos Cuadrados o el mas novedoso método de los Momentos. Por ahora
nos concentraremos en las propiedades deseables de un estimador general.
Supongamos que el parámetro de interés es Θ (el que puede ser la media, varianza,
skewness u otro momento mayor), nos referiremos al estimador como Θ̂. Cada
observación individual se denomina como una estimación de dicho estimador.
Sesgo = [E(Θ̂) − Θ]
10
que pudiera tener una varianza menor.
Convergencia en Probabilidad
Una variable aleatoria x converge en probabilidad si:
lı́m x = plimx = x∗
n→∞
donde x∗ es un valor arbitrario dado, el que se lee “el valor límite en proba-
bilidad es x estrella”. La probabilidad en el límite puede ser reescrita como
sigue:
lı́m P r(x∗ − % ≤ x ≤ x∗ + %) = 1
n→∞
El Teorema de Slutsky
Si g(x) es una función continua de x entonces:
11
El límite de la función es la función en el límite. Notar que esta no es una
propiedad general de las funciones (p.e. Desigualdad de Jensen)1 .
El teorema de Slutsky aplicado a vectores (matrices) aleatorias como tam-
bién a escalares aleatorios es como sigue.
Si plim Wn = Ω, entonces, plim Wn−1 = Ω−1 .
d d
Si xn −→ x y plimyn = c entonces xn yn −→ cx
d d
Si xn −→ x y g(x) es cóncava entonces g(xn ) −→ g(x)
Distribución Asintótica.
1
La desigualdad de Jensen sugiere que, en general, E[g(x)] $= g[E(x)]. Mas específicamente,
cuando g(x) es una función convexa, E[g(x)] ≥ g[E(x)].
12
Distribuciones límites son de poco uso directo cuando estamos preocupados
por las propiedades de los estimadores derivadas a partir de muestras finitas
de observaciones. En tales circunstancias haremos uso de aproximaciones a
la verdadera (pero desconocida o no computable) distribución mediante el
análisis de la distribución del estadístico a medida en que el tamaño de la
muestra tiende a infinito.
a
xn −→ f (x, n)
lı́m E(θ̂) = θ
n→∞
Teorema 1
Si x1 , .., xn son una muestra aleatoria y sabiendo que estas variales son idéntica e
independientemente distribuidas cada una teniendo la misma media µ y varianza
σ 2 , entonces cualquiera que sea la forma de la distribución de X , la distribución
muestral de la variable aleatoria X̄ tendrá una media igual a la media poblacional
2
µ pero con una varianza igual a σn .
13
donde X1 , .., Xn son n variables obtenidas de la misma muestra. Se asume que
Xi son i.i.d. Dado que n es constante, se tiene que :
n n
1! 1 !
E(X̄) = E Xi ⇒ E(X̄) = E Xi
n i=1 n i=1
sabemos que en el caso de una función lineal, el valor esperado de una suma es
igual a la suma de los valores esperados. Dado que la media de cada Xi es µ,
entonces:
1 1 nµ
E(X̄) = [E(X1 ) + ... + E(Xn )] = [µ + ... + µ] =
n n n
así, la media de la distribución muestral es igual a la media poblacional. POr otra
parte, la varianza de la media muestral es:
" n # n
1 ! 1 !
2
σX̄ = V ar(X̄) = V ar Xi = 2 V ar[ Xi ]
n i=1 n i=1
dado$que las $
variables son independientes, sus covarianzas son cero, entonces,
V ar[ Xi ] = V ar(Xi ).
2 1 σ2
σX̄ = [V ar(X1 ) + ... + V ar(Xn )] =
n2 n
2
En resumen: si X ∼ (µ, σ 2 ) entonces X̄ ∼ (µ, σn ).
14
Finalmente, el teorema central del límite también se puede aplicar en un contexto
multivariado:
el que dice que la distribución límite de la media muestral es una Normal (mul-
tivariada).
Los teoremas central del límite nos entregan una indicación acerca de las propiedades
de la distribución límite de la media muestral. Existe un último teorema funda-
mental:
El teorema central del límite es una piedra angular en la econometría pues nos
permite basar nuestras inferencias acerca de las propiedades de la muestra bajo
el supuesto que su distribución puede ser aproximada por una Normal indepen-
dientemente de la distribución de la población. Ya que la gran mayoría de los
estimadores que se usan en econometría están basados en el TLC, observarán
estas expresiones asintóticas a menudo.
15
2.5. El Modelo Clásico de Regresión Lineal
Comenzaremos con el modelo simple de regresión lineal bivariado el cual puede
ser derivado como una esperanza condicionada de una distribución normal bivari-
ada (ver ayudantía).
Yi = α + βXi + %i (2.1)
donde Y es la variable dependiente y X es la variable independiente, α y β son los
parámetros de la regresión y % es un término de error estocástico. Los subindices
se refieren a las observaciones muestrales i los que pueden ser referidas al tiempo,
a un individuo o una firma.
Una característica central de estos cuatro primeros supuestos consiste en que el er-
ror es una secuencia de eventos independientes e individualmente insignificantes.
El término de error no contiene información sistemática sobre Y.
16
manera de que para cualquier muestra de tamaño n:
n
1!
(Xi − X̄)2 $= 0
n i=1
y su límite, a medida que n tiende a infinito es finito. Ello implica de que (i)
los valores de X en la muestra no puede ser iguales y que no pueden aumentar
o decrecer sin límite a medida de que la muestra crece. De ser así, entonces su
varianza no podría ser definida (£por qué? ).
17
Capítulo 3
3.1. Resumen
1. Estimación de los parámetros en el modelo CLR
2. Inferencia en el CLR
3.1.1. Referencias
Gujarati. Parte 1
Kmenta. Capítulo 6
Greene. Capítulos 4 y 5
Yi = α + βXi + %i (3.1)
18
Como principal objetivo deseamos estimar y realizar inferencias acerca de la (de-
sconocida) relación entre X e Y (i.e., los parámetros de la distribución condicional
(Y|X). Los primeros dos momentos de la distribución son:
para la media y:
Dados los supuestos sobre los errores en el CLR, existen sólo tres parámetros
de interés : los parámetros que describen la media condicional de Y - en este
caso α y β - y los parámetros del término de error. Dado, que por definición,
% ∼ n.i.i.d(0, σ 2 ) el único parámetros desconocido es σ 2 . De esta forma, deseamos
estimar estos tres parámetros a partir de la información muestral. Examinaremos
sólo dos métodos de estimación en detalle : máxima verosimilitud (MLE) y mín-
imos cuadrados ordinarios (OLS). El tercer método de estimación, el método de
los momentos (MM), será revisado brevemente pero lo veremos mas en detalle al
final del curso.
19
Si las observaciones son independientes, entonces la distribución de probabilidad
conjunta de las n observaciones es:
Esta distribución de probabilidad conjunta asume que los parámetros son conoci-
dos y que los datos son variables aleatorias. Suponga que notamos que para una
muestra dada, los valores x1 son conocidos y los parámetros desconocidos. La
distribución conjunta dada la muestra puede ser expresada en términos de los
parámetros desconocidos dado los datos, de la siguiente forma:
En la función de verosimilitud, los valores de X son fijos - ellos son los que se ob-
serva en la muestra. El método de ML consiste simplemente en escoger los valores
de los parámetros que maximizan su valor. En otras palabras, el investigador se
pregunta “que valores de los parámetros para esta (clase de ) distribución puede
ser la mas probable de haber generado esta muestra de datos?”
Ejemplo
La muestra de observaciones X1 , X2 , ..., X10 pudo haber sido creada por cualquier
distribución de probabilidades dado que el rango se extiende desde −∞ a +∞.
Sin embargo, la probabilidad de que X1 , X2 , ..., X10 haya sido generada por la
distribución A o la distribución C es muy baja. Por otra parte, la probabilidad
de que las observaciones hayan sido generadas por la distribución B es muy alta.
20
Decimos que B es la distribución de máxima verosimilitud (aquella mas proba-
ble) para esta muestra de datos y que los parámetros estimados (de los momentos
) de B son los estimadores máximo verosímiles.
A B
C
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
- infinito +infinito
21
Dado que %i = yi − α − βXi entonces la derivada de y con respecto a % es igual
a uno y , en consecuencia f (yi ) = f (%i ). Por otra parte, sabemos que la forma
funcional general de una distribución Normal con media µ y desviación estándar
σ es:
1 (X−µ)2
f (X|µ, σ) = √ e− 2σ2 (3.7)
2πσ
Con esto y el teorema de cambio de variables podemos inferir que, bajo los
supuestos del CLR, los valores de Y están normalmente distribuidos y son in-
dependientes. De esta manera, podemos escribir la función de verosimilitud como
sigue:
L = f (y1 ) · f (y2 ) · · · f (yn ) (3.8)
Dado que es mas fácil trabajar con expresiones aditivas, y dado que la función
logaritmo es monótona , entonces la expresión en (8) es equivalente a la siguiente
expresión:
!n
log(L) = logf (yi ) (3.9)
i=1
Por otra parte, dado que cada yi es normalmente distribuido con media α + βXi
y varianza σ 2 entonces podemos expresar cada f (yi ) (en logaritmos) como:
( )2
1 1 yi − α − βXi
2
logf (yi ) = − log(2πσ ) − (3.10)
2 2 σ
22
Resolviendo estas tres condiciones de primer orden encontramos los estimadores
máximo verosímil de los parámetros para el caso de una distribución normal
conjunta. Específicamente, de (12) y (13) podemos obtener:
n
! n
!
yi = nα̂ + β̂ Xi (3.15)
i=1 i=1
n
! n
! n
!
Xi yi = α̂ Xi + β̂ Xi2 (3.16)
i=1 i=1 i=1
Multiplicando (16) por n y sustituyendo α̂n de (15) tenemos:
$ $ $ $
ˆ n( Xi yi ) − ( Xi )( yi ) (Xi − X̄)(yi − ȳ)
βM L = $ 2 $ 2
= $ (3.17)
n( Xi ) − ( Xi ) (Xi − X̄)2
y de (15) tenemos:
n n
1! ˆL 1
!
ˆ L X̄
αM
ˆL = yi + βM Xi = ȳ − βM (3.18)
n i=1 n i=n
Como veremos mas abajo, estos son precisamente los mismos estimadores que los
obtenidos por OLS para el CLR.
23
3.2.2. Estimación II : Mínimos Cuadrados Ordinarios
La estimación por OLS ( o MCO) - la mas popular de las técnicas de esti-
mación - es un caso especial de la estimación por ML cuando el modelo es lineal
en los parámetros. El principio subyacente en la estimación OLS está rela-
cionado con la selección de aquellos parámetros de la distribución (desconocida),
específicamente α y β, los parámetros de la media en un modelo de regresión
lineal con el fin de minimizar la suma de las desviaciones cuadradas de los datos
observados de yi con respecto a su media E(yi ). Formalmente, lo que se desea es
minimizar: n n
! !
mı́n S = [yi − E(yi )]2 = (yi − α − βXi )2 (3.21)
α,β
i=1 i=1
Las condiciones de primer orden vienen dadas por:
n n
∂S ! ∂(yi − α − βXi )2 !
= = 2(yi − α − βXi )(−1) = 0 (3.22)
∂α i=1
∂α i=1
y también por:
n n
∂S ! ∂(yi − α − βXi )2 !
= = 2(yi − α − βXi )(−Xi ) = 0 (3.23)
∂β i=1
∂β i=1
las que son exactamente iguales a las condiciones de primer orden de los esti-
madores ML. No obstante, esto no es un resultado general : es una característica
del CLR. Mas tarde veremos casos donde los estimadores OLS no son los mismos
que aquellos MLE.
24
un CLR tiene este conjunto de propiedades. Particularmente demostraremos que
este estimador es MELI ( o BLUE en inglés). Por “mejor” entenderemos aquel
que tiene la mínima varianza y por lineal el que requiere que el estimador sea una
función lineal de la muestra de observaciones.(ver notas adjuntas)
Algunas aplicaciones donde este estimador es muy útil son las siguientes:
Modelos donde existe autocorelación/ heteroscedasticidad en el término de
error
Modelos autoregresivos con datos de panel
Modelos con selección de muestras
Estos modelos los revisaremos en la segunda mitad del curso. Mientras tanto,
una introducción a nivel intuitivo. Primero, algo de notación. En general, nos
referiremos al k-ésimo momento de una variable aleatoria como:
n
1! k
mk = X
n i=1 i
25
La pregunta que surge naturalmente es cómo estimamos µ. De la ecuación anterior
podemos construir una “condición de momento”:
E(yi − µ) = 0 (3.26)
Una característica general del método de los momentos es que deben existir a
lo menos el mismo número de condiciones (independientes) de momentos (i.e.
ecuaciones) como el número de parámetros desconocidos a estimar. Suponga que
tenemos mas ecuaciones de momentos que el número de parámetros a estimar.
Si es ese el caso requeriremos un método que combine eficientemente las condi-
ciones de momentos. Este es el llamado Estimador General de Momentos
(estimador GMM) que los discutiremos en detalle mas adelante.
2. Dado que los estimadores son insesgados, entonces la media del estimador
es igual al verdadero valor del parámetro.
26
3. De la derivación de las propiedades BLUE de los estimadores, conocemos
la varianza de α y β. Además sabemos que:
( % &)
1 X̄ 2
α̂ ∼ N α, σ 2
+$ 2 (3.29)
n xi
( )
σ2
β̂ ∼ N β, $ 2 (3.30)
xi
Características de la Varianza de α y β
1. La varianza aumenta con σ 2 . Mientras mayor la varianza de Y, dado los
valores de X, la estimación de los parámetros es menos precisa.
2. La varianza de α y β decrece con aumentos en la variación de X. En otra
palabras, mientras mayor variación exista en “el lado derecho” ceteris paribus
mas precisa será la estimación de los parámetros α y β. En el límite, si todos
los valores de X toman el mismo valor, la varianza será infinita.
3. La covarianza entre α y β, la cual mide la relación entre los errores mues-
trales de los dos estimadores, viene dada por la siguiente expresión:
% 2 &
σ
2
Cov(α̂, β̂) = E(α̂ − α)(β̂ − β) = −X̄E(β̂ − β) = −X̄ $ 2 (3.31)
xi
Un resultado clave de la relación anterior es el hecho que si la media de X
es positiva, entonces los errores muestrales de α y β están correlacionados
negativamente.
Intervalos de confianza para α y β: una aplicación de la distribución t-student
De lo anterior, sabemos que:
β̂ − β
β̂ ∼ N [β, σβ2 ] ⇒ ∼ N (0, 1) (3.32)
σβ
lo que dice simplemente que el estimador de β se distribuye normal, lo que im-
plica que puede ser expresado como una normal estándar. Pero ello asume que
la varianza de β es conocida....pero esto no es así y necesita en consecuencia ser
estimada. Procederemos de la siguiente forma:
27
Ahora, dividiendo (32) por la raíz de (33) obtenemos una expresión la cual genera
una expresión para la distancia en que el valor estimado para β se desvía de su
verdadero valor. Esta expresión tienen una distribución bien definida, conocida
como t-student, la que puede ser usada para calcular intervalos de confianza para
el estimador.
(β̂ − β)/σβ̂ β̂ − β
* = ∼ tn−2 (3.34)
(n − 2)S 2 /(n − 2)σ 2 Sβ̂
β̂ β̂
(n − 2)S 2
∼ χ2n−2 (3.36)
σ2
y de esta forma un intervalo de confianza puede ser construido a partir de la
distribución Chi-cuadrado notando que existen en este caso v = n − 2 grados de
libertad.
28
(Xi,Yi)
Yi
error
recta
ajustada
(Yi - media de Y)
media de Y
predicción media de Y
media de X Xi
Del gráfico podemos observar que para una observación en particular Yi = Ŷi + %i
y (Yi − Ȳ ) = (Ŷi − Ȳ ) + %i .
Si sumamos sobre el cuadrado de esta expresión para todas las observaciones (el
elevar al cuadrado considera en forma análoga tanto los errores positivos como
los negativos), tendremos que:
n
! n
! n
! n
! n
!
(Yi − Ȳ ) =2
([Ŷi − Ȳ ]+%i ) = 2 2
(Ŷi − Ȳ ) + %2i +2 (Ŷi − Ȳ )%i (3.37)
i=1 i=1 i=1 i=1 i=1
Ahora bien, dado que el tercer término puede ser expresado como:
n
! n
! n
! n
! n
!
(Ŷi − Ȳ )%i = (α̂ + β̂ X̄ − Ȳ )%i = α̂ %i + β̂ Xi %i − Ȳ %i = 0 (3.38)
i=1 i=1 i=1 i=1 i=1
entonces: n n n
! ! !
2
(Yi − Ȳ ) = 2
(Ŷi − Ȳ ) + %2i (3.39)
i=1 i=1 i=1
el que sugiere que la Suma de Cuadrados Totales (TSS) es la suma de los Suma de
los Cuadrados Explicados (ESS) mas la Suma de los Cuadrados de los Residuos
(RSS).
Finalmente, notar que:
n
! n
! n
!
ESS = (Yi − Ȳ )2 = (α̂ + β̂Xi − Ȳ )2 = [(Ȳ − β̂ X̄) + β̂Xi − Ȳ ]2 (3.40)
i=1 i=1 i=1
29
n
! n
!
ESS = [β̂(Xi − X̄)]2 = β̂ 2 x2i (3.41)
i=1 i=1
donde 0 ≤ R2 ≤ 1.
ANOVA y el uso del estadístico F para la evaluación de Modelos
El problema con el R2 es que es una estadístico descriptivo el que no tiene una dis-
tribución bien definida. Podemos testear la hipótesis de no existencia de relación
alguna entre X e Y mas formalmente de la siguiente manera:
n
! n
! n
!
E(ESS) = E(βˆ2 x2i ) = E[(β̂ − β) + β]2
x2i 2
=σ +β 2
x2i (3.43)
i=1 i=1 i=1
30
variable explicativa). En el ejemplo anterior, existía una sola restricción hipotéti-
ca: β = 0. Generalmente, podemos considerar cualquier forma de restricción, por
ejemplo denotada por r y estimar el modelo bajo esta restricción o conjunto de
restricciones. Lo que haremos después es comparar este modelo restringido con
aquel sin ninguna restricción. El estadístico general que nos permite realizar esta
prueba viene dado por la siguiente expresión:
Todo test puede ser pensado como una restricción sobre los valores de los parámet-
ros. Las pruebas significan simplemente examinar si al imponer la restricción (θR )
implica una “significativa pérdida de verosimilitud” relativa al valor del parámetro
bajo la situación “no restrictiva” θM L . Del diagrama es claro que puede ser medido
de tres forma diferentes.
31
L(theta)
L(theta ML)
L(theta R)
C(theta)
LM
Wald
32
donde I(θ) es la covarianza de θ evaluada a los valores restringidos de los parámet-
ros.
Prueba de Wald.
Esta prueba es similar a la prueba LM y explota la característica de continuidad
de la función de verosimilitud. Supongamos que existe una función C(θ) continua,
monotónica en θ y definida de tal manera de que tenga un valor igual a cero para
los valores restringidos de los parámetros. Esta función tendrá un valor distinto
de cero para cualquier otro valor de los parámetros incluidos aquellos máximo
verosímiles sin restricción. Entonces el test de Wald se define de la siguiente
manera:
W = C(θM L )% [V (R(θM L ))]−1 C(θM L ) → χ2R (3.49)
Donde V (R(θM L )) es una estimación consistente de la covarianza de θ evaluada
en los valores máximo verosímiles sin restringir.
Notar que:
3. Todas las pruebas que veremos mas adelante están basados en alguno de
estos tres tests.
33
Capítulo 4
4.1. Resumen
1. Modelos Lineales versus no-lineales
3. Multicolinealidad
4.1.1. Referencias
Gujarati. Secciones 6.2, 8.9 y 10
34
Kmenta. Secciones 11, 10.3
1. Modelos polinomiales
35
donde:
∂E(Yi )
= g(X3i )
∂X2i
y:
∂E(Yi )
= h(X2i )
∂X3i
Esto puede ser manejado usando una variable de interacción no lineal:
∂E(Yi )
= β1 + β3 X3i
∂X2i
y:
∂E(Yi )
= β2 + β3 X2i
∂X3i
La ecuación (2) es no lineal pero puede ser redefinida como lineal si Z =
X2i X3i . Notar que al contestar la pregunta “cuál es la consecuencia de un
cambio en Y como resultado de un cambio en X2 ?” puede ser sólo respondida
al escoger explícitamente un valor de X3 (a menudo en su media a en un
valor interesante en particular).
Y ∗ = A + β1 Z1 + β2 Z2 + % (4.5)
36
4. Modelos lineales Semi-log.
Dos formas de modelos semi-log existen:
log(Y ) = α + βX + % (4.6)
Y = α + βlog(X) + % (4.7)
Notar que la semi-elasticidad de Y con respecto a X es β(X) en la ecuación
(6) y β(1/Y ) para la ecuación (7). A diferencia del modelo log-lineal, la
semi-elasticidad no es constante.
5. Modelo Recíproco.
Y = α + β(1/X) + % (4.8)
donde la elasticidad es :
β
− (4.9)
XY
Todos estos resultados se resumen en la siguiente tabla.
Cuadro 1: Forma funcional y elasticidad
37
Esto significa que no podemos utilizar el método de OLS para estimar (10).
No obstante podemos utilizar un método de estimación no lineal como los
Mínimos Cuadrados No-Lineales (NLS) o nuestro ya conocido MLE.
Una discusión del NLS se presenta en el apéndice, mientras que aquí nos
concentraremos en el MLE:
Dado que la función de verosimilitud en logaritmo de (10) puede ser escrita
como :
n
n n 1 !
2
log(L) = − log(2π) − log(σ ) − 2 (Yi − αX1β1 X2β2 )2 (4.11)
2 2 2σ i=1
es claro que esta puede ser resuelta para los cuatro parámetros del problema,
a saber α, β1 , β2 y σ 2 . Dado que (11) es no lineal, la solución puede ser sólo
derivada al usar un algoritmo maximizador lo que no trae problemas
computacionales de magnitud.
Funciones de Producción tipo CES y la Expansión de Taylor
Las funciones de producción tipo CES son ampliamente utilizadas en economía.
Tiene la siguiente forma:
ν
Q = A[δK −ρ + (1 − δ)L−ρ ]− ρ eε (4.12)
A menudo, sin embargo, podemos hacer nuestra tarea mas fácil aún al
aproximar (13) usando una expansión de Taylor de segundo orden de Q
alrededor del valor de ρ = 0. Esto queda como sigue:
1
log(Q) = log(A)+νδlog(K)+ν(1−δ)log(L)− ρνδ(1−δ)[log(K)−log(L)]2 +ε
2
(4.14)
Esta ecuación es ahora intrínsicamente lineal la cual puede ser re escrita
como sigue:
38
donde:
β1
A = eβ 0 , δ= , ν = (β1 + β2 )
(β1 + β2 )
y:
2β4 (β1 + β2 )
ρ=−
β1 β2
La ecuación (15) puede ser generalizada un paso mas al expandir el com-
ponente cuadrático y dar finalmente lo siguiente:
Pruebas de Linealidad
H0 : Y = α + βX + %1 (4.17)
39
autores proponen la siguiente aproximación. Reescribiendo (19) tenemos
que:
Esta es una forma muy general, pero todas las formas particulares discutidas
anteriormente pueden ser derivadas de (22) dependiendo de los valores de
λ y µ.
40
a) Caso en que λ = µ = 0
Pareciera como si las expresiones en Y y X fueran cero bajo esta re-
stricción, pero al usar la regla de L’Hopital tenemos que:
% λ & % &
Yi − 1 d(Yiλ − 1)/dλ
lı́m = lı́m = lı́m Yiλ log(Yi ) = log(Yi )
λ→0 λ λ→0 1 λ→0
b) Caso donde λ = µ = 1
En este caso (22) colapsa en la siguiente expresión:
(Yi − 1) = λ + β(Xi − 1) + % ⇒ Yi = α∗ + βXi + % (4.24)
donde α∗ = α − β + 1. El cual es el modelo de regresión lineal simple.
Debería ser claro ahora la forma en que opera este procedimiento. Por ex-
tensión tenemos que:
λ = 1 y µ = 0 genera un modelo semi logarítmico: Y = α + βlog(X) + %
λ = 0 y µ = 1 genera un modelo semi logarítmico: log(Y ) = α + βX + %
λ = 1 y µ = −1 genera un modelo recíproco.
Cómo podemos determinar los valores de λ y µ? La respuesta es simple-
mente estimar estos parámetros junto con los demás parámetros del mod-
elo en (22) mediante el uso de MLE y testear el valor de los parámetros
utilizando pruebas del tipo LM discutidas anteriormente (ver Davidson y
Maclinnon, 1993 capítulo 14).
41
pero nosotros estimamos el siguiente modelo:
El Valor Esperado de β2 .
Si (26) fuera correcto, entonces los estimadores de β1 y β2 serían insesgados y
eficientes. Ahora consideremos que el modelo (26) es el incorrecto y que el correcto
es (25). De (26) podemos estimar β2 (y también β1 ) como:
($n )
ˆ i=1 (Xi2 − X̄2 )(Yi − Ȳ )
E(β2 ) = E $n 2
(4.27)
i=1 (Xi2 − X̄2 )
con: $n
i=1 (Xi2 − X̄2 )(Xi3 − X̄3 )
d32 = $n 2
i=1 (Xi2 − X̄2 )
el cual sugiere que si el segundo término β3 d32 es cero, entonces el estimador
obtenido en (26) sería insesgado. El mismo método se puede aplicar para el esti-
mador del intercepto β1 . Así :
con:
d31 = X̄3 + d32 X̄2
Notar que las expresiones d31 y d32 son, de hecho, los coeficientes mínimo cuadráti-
cos en la regresión de Xi3 (la variable omitida) sobre la variable incluida Xi2 .
σ2
V ar(βˆ2 ) = E(βˆ2 − β2 ) = $n 2
(4.32)
i=1 (Xi2 − X̄2 )
42
Sin embargo, dado el modelo incorrecto, la verdadera ecuación para la varianza
es estimada incorrectamente. Específicamente, a partir del modelo incorrecto la
varianza de β2 es:
$
s2 [(Yi − Ȳ ) − βˆ2 (Xi2 − X̄2 )]2 /(n − 2)
2
sβˆ2 = $n 2
= $ (4.33)
i=1 (Xi2 − X̄2 ) (Xi2 − X̄2 )2
Implicaciones:
43
Cuadro 2: Sesgo
β3 d32 sesgo
+ + +
+ - -
- - +
- + -
3. Los valores estimados para los parámetros serán, eso sí, ineficientes. En
otras palabras, la varianza de los parámetros cuando son obtenidas a partir
de modelos sobreparametrizados serán mayores que aquellos resultantes del
modelo verdadero.
σ2 σ2
V ar(βˆ2 ) = $n 2
y V ar(β2
∗
) = $n 2 2
(4.36)
i=1 (Xi2 − X̄i2 ) i=1 (Xi2 − X̄i2 ) (1 − r23 )
44
al incluir todas las variables posibles (incluso algunas irrelevantes) tiene la con-
secuencia de incrementar la varianza de los estimadores de los parámetros.
4.4. Multicolinealidad
Suponga que hemos escogido la forma funcional “correcta” y también el con-
junto “correcto” de variables, ahora veremos lo que puede suceder si las variables
escogidas son colineales. Aunque no lo hemos visto formalmente, el CLR asume
que los regresores X no están perfectamente correlacionados entre ellos (ya sea
en un sentido bivariado o en una combinación lineal).
Y = β1 + β2 X2 + β3 X3 + % (4.37)
σ2 σ2
V ar(βk ) = 2
$n = 2
(4.38)
(1 − rjk ) i=1 (Xik − X̄k )2 (1 − rjk )Skk
donde, para e caso de dos variables independientes (I.e. k = 2), r12 es la coeficiente
de correlación entre X1 y X2 , y Skk es la suma de las desviaciones al cuadrado
para la variable Xk .
45
Si la colinealidad entre X1 y X2 es perfecta, entonces r12
2
= 1 y la varianza de βk
es infinita. De esta manera, el modelo no puede ser interpretable dado que una
varianza infinita significa que no podemos rechazar ninguna hipótesis acerca del
verdadero valor de βk . Este es un problema en la especificación del modelo.
Síntomas de la Multicolinealidad
46
Es, en consecuencia, fácil observar que si agregamos una variable al modelo la
que es altamente colineal con xk , entones esto puede :
1. Dejar el valor de Skk sin alterar.
2. No alterar σ 2 (ya que si xk y la nueva variable están altamente correla-
cionadas y entonces xk ella misma ha explicado ya bastante de la variación
en Y que la nueva variable se supone debería explicar).
3. Aumente el valor de Rk2 .
En consecuencia, la varianza de βk (V ar(βk )) aumentará. Una varianza mas alta
para el estimador de βk es consistente con los tres síntomas descritos anterior-
mente.
47
El estimador de Ridge es el siguiente :
br = [X % X + rD]−1 X % y
La cual es menor que la varianza del estimador OLS ante la presencia de multi-
colinealidad. La elección de r dependerá si el estimador de Ridge tendrá un Error
Cuadrático Medio (MSE)menore que el de OLS.
48
Capítulo 5
1. Normalidad [ Clase 5 ]
2. Homoscedasticidad [ Clase 6 ]
49
Parte I No-Normalidad
5.1. Resumen
1. Las consecuencias de que e $∼ N.i.i.d para la estimación e inferencias
3. Soluciones al problema
5.1.1. Referencias
Kmenta Capítulo 8
Greene Capítulo 10
5.2. No Normalidad
El supuesto de normalidad en el término de error es una piedra angular en el
resultado de que los estimadores OLS fueran eficientes (el teorema de cota mínima
de Cramer-Rao). También es necesario para construir intervalos de confianza
correctos para los estimadores de parámetros. Sin el supuesto de normalidad en
el término de error, los estadísticos mas utilizados como t, F y chi-cuadrado
no tienen estas distribuciones y en consecuencia, no pueden ser utilizados para
realizar inferencias.
50
2. Gracias al Teorema del Límite Central, a pesar de que el error no esté
distribuido normal, los estimadores del parámetros si lo estarán en muestras
grandes. De esta manera, la distribución normal de los estimadores lineales
puede ser utilizada para inferencia.
Pero.....
3. El estimador OLS puede que no sea eficiente o asintóticamente eficiente. En
otras palabras, el estimador OLS no será ya BLUE.
Es esta tercera implicancia la que debería llamarnos la atención. Si los errores
no están normalmente distribuidos entonces existen otros estimadores, a parte de
los OLS, que nos puedan entregar con una estimación eficiente de los parámetros
del modelo ?. Examinaremos tres de estos estimadores, la desviación absoluta
mínima (MAD), su colega cercano, el estimador robusto y el estimador por
regresión cuantil. Pero antes, debemos analizar la forma de determinar si el
término de error, es efectivamente normal.
5.2.2. Detección
En el Apéndice de estas notas se discuten métodos para la identificación y el
análisis de no normalidad usando herramientas estadísticas basadas en series or-
denadas. Estos métodos son sólo aplicables si los datos no tiene un orden natural
como sería en el caso de datos de serie de tiempo. Si estos tiene un orden natural,
estaremos un poco mas restringidos en cuanto a los métodos de detección que
podremos implementar.
51
Por otra parte, la medida estándar de kurtosis, la cual es una medida de la anchura
de las colas de la distribución, tiene la siguiente fórmula :
E(ε4 )
b2 = (5.2)
(σ 2 )2
Algunos ejemplos
52
distribución. En otras palabras, este estimador le da demasiado peso a los eventos
que ocurren con baja probabilidad. Ello debido a que el OLS está basado en la
suma de las desviaciones al cuadrado de la regresión. Es por ello que este esti-
mador es ineficiente bajo situaciones de no normalidad.
Estimadores Robustos
Si el estimador OLS funciona bien en los casos de normalidad pero ineficien-
temente en casos de exceso de kurtosis, se ha propuesto el diseño de un estimador
el que entregue diferentes métodos de estimación dependiendo de la estructura
del término de error. Esta es la noción de estimador robusto. Este tipo de
estimador puede ser descrito de la siguiente forma :
n
!
mı́n µ = Θ(Y − Xβ) (5.6)
β
i=1
53
Regresión Cuantil
El estimador MAD es un caso espacial de un estimador mas general denom-
inado regresión cuantil (quantile regression) el cual es particularmente útil en
el análisis de datos de encuestas donde hay presencia de hetersocedasticidad.
Este estimador lo discutiremos en la siguiente clase.
54
que pueden presentar los datos. Veamos algunas medidas de ouliers, leverage e
influencia.
Para identificar un outlier podríamos ordenar los residuos por sus errores es-
tándar en el modelo (εi /S). Sin embargo, si existe un outlier este incrementará s
y en consecuencia, la desviación de ε de S se verá reducida. Para salvar este prob-
lema podemos utilizar un residuo “studientizado” el cual se define de la siguiente
manera :
εˆ
ti = +i ∼ t1
S(i) (1 − hi )
Donde hi es igual como se definió anteriormente y S(i) es la ecuación para el error
estándar al borrar la observación i-ésima.
bj − bj (i)
DF βji =
Se(bj )(i)
55
5.4. Apéndice
Identificación de No normalidad mediante el
uso de Estadísticas de series ordenadas
El análisis basado en orden puede ser sólo posible si los datos pueden ser re
ordenados, por ejemplo en términos creciente de acuerdo al tamaño. Esto es posi-
ble en el caso de datos de corte transversal pero no así en series de tiempo. En
estos casos podemos utilizar medidas “resistentes” como la mediana.
Outliers
Outliers como vimos, pueden afectar aquellas estadísticas que están basadas en la
media pero no así necesariamente en aquellos estadísticos mas resistentes. Existen
variadas formas de definir un outliers, pero en general podemos clasificarlas como
sigue :
Y0 es un outlier si : Y0 < Ql − 1,5IQR o bien Y0 > QU + 1,5IQR
Y0 es un outlier extremo si : Y0 < Ql − 3,0IQR o bien Y0 > QU + 3,0IQR
56
con −1 ≤ bS ≤ 1.
Tanto el IQR como la desviación estándar miden el grado de tendencia central
en una distribución. Si una variable está normalmente distribuida entonces el
IQR = 1,35σ.
Sp = IQR/1,35
con s (la desviación estándar de la serie). Pueden ocurrir entonces, tres posibili-
dades :
Sp < S Distribución mas ancha que las colas normales
Sp ≈ S Distribución normal
Sp > S Distribución mas angosta que colas normales
57
Capítulo 6
6.1. Resumen
Errores no esféricos y el Modelo de Regresion Generalizado
Heterocedasticidad-Consecuencias
Heterocedasticidad-Detección
Heterocedasticidad-Soluciones
6.1.1. Referencias
Gujarati Capítulo 11
Grenne Capítulos 14
y = xβ + % E[%] = 0 (6.1)
E[%%] = Ω ⇒ % ∼ N (0, Ω)
58
donde Ω es una matriz cuadrada n × n positiva definida referida normalmente
como la matriz de varianza covarianza.
El modelo de regresión clásico asume que las distribuciones son esféricas.
Esto implica que E[%] = 0 y:
σ2 0 . . . 0 1 0 ... 0
0 σ2 . . . 0 0 1 ... 0
2
% 2
E[%% ] = σ I = .. = σ .. (6.2)
0 0 ... . 0 ... ... .
0 0 . . . σ2 0 0 ... 1
59
Sabemos que este estimador es insesgado:
2 = E(X % X)−1 (X % (xβ + %)) = β + E(X % X)−1 X % % = β
E(β)
P % P = Ω−1
P Y = P Xβ + P % (6.5)
Esta transformación asegura que (5) satisface todos los supuestos del modelo
clásico. En particular, el estimador GLS viene dado por:
β2GLS = (X % P % P X)−1 (X % P % P Y )
E(β2GLS − β)(β2GLS − β)% = E(X % Ω−1 X)−1 X % Ω−1 %%% Ω−1% X(X % Ω−1 X)−1
60
el cual es el valor BLUE para la matriz de varianza- covarianzas para cualquier
matriz de varioanza-covarianza arbitraria.
GLS Factible
Si el verdadero valor o estructura de Ω es conocida (como suele suceder en la
practica), debemos entonces estimarla. Tipicamente podemos estimar la matriz
de varianza-covarianzas como una funcion de un pequeño conjunto de parametros
2 y en
2 = Ω(θ)
Ω = Ω(θ) Con el fin de hacer el GLS factible, nesecitamos de que Ω
consecuencia, el Estimador GLS Factible (o admisible) viene dado por:
β2GLS = (X % Ω
2 −1 X)−1 X % Ω−1Y
2 (6.10)
6.3. Heterocedasticidad
El modelo de regresión clásico asume que:
V ar(%2i ) = σ 2 ∀i
Dado que la medida de %i es cero, esto implica que E(%2i ) = σ 2 para todos los i.
Violaciones de este supuesto se denominan Heterocedasticidad, y es un problema
muy recurrente en datos de corte transversal (cross-section data).
6.3.1. Consecuencias
En lo que sigue ilustraremos las consecuencias de la Heterocedasticidad de un
modelo simple bivariado donde asumiremos que todos los demas supuestos del
modelo de regresión clásico siguen siendo válidos.
Yi = α + βXi + %i (6.11)
Sesgo
Si el termino de error en la regresión es Heterocedástico tenemos que:
61
El valor esperado de este estimador es entonces:
$n $n
3
x % y=1 x3i
2 = β + E[ $i=1
E(β) n
i i
] = β + $ n E(%i ) (6.14)
32i
i=1 x 32i
i=1 x
=β
Resultado 1.El estimador mínimo cuadrático para β (α también) son insesgados
aún en presencia de Heterocedasticidad en término de error. BLUE
Podemos transformar la ecuacion de Heterocedasticidad (10) en una homoscedás-
tica al dividir la regresión por σi para obtener la siguiente estructura:
Yi 1 Xi %i
= α( ) + β( ) + ( ) (6.15)
σi σi σi σi
la cual puede ser re escrita como:
Se sigue que E(%∗i ) = E(%i )/σi = 0 ; V ar(%∗i ) = V ar(%i )/σ 2 = 1 el cual es ahora
constante (i.e homoscedastico).
La ecuación (16) ahora satisface todas las propiedades del modelo de regresión
clásico. Si definimos wi = 1/σi2 entonces podemos definir los estimadores BLUE
como: $n 3 i − Y3 )
wi (Xi − X)(Y
β3 = i=1$n y 3 = Y3 − β3X
α 3 (6.17)
3 2
wi (Xi − X)
i=1
donde: $n $n
i=1 (wi Xi )
3= $ i=1 (wi Yi )
X n ∧ Y3 = $ n
i=1 wi i=1 wi
En el caso de la regresión heteroscedastica, esta formula entrega los estimadores
BLUE. En consecuencia, el estimador OLS no puede ser BLUE dado que bajo la
estimacion OLS, wi = 1 en vez de 1/σi2 .
Resultado 2.
El estimador OLS es una regresión heteroscedastica no es BLUE. Dado que los
estimadores son lineales e insesgados, se sigue que los estimadores OLS son ine-
ficientes. Los estimadores BLUE para el caso de las regresiones heteroscedasticas
son aquellos presentados en la ecuación (16) los que se conocen como estimadores
mínimos cuadráticos ponderados (WLS). Algo de intuición
OLS, por definicion entrega cada error al cuadrado una misma ponderacion (lo
cual es correcto en un mundo homoscedastico). Si existe heteroscedasticidad, el
estimador OLS entre u otorga "demasiado"peso a los errores grandes. [Sabemos
de lo anterior que el peso verdadero que deberá otorgársele a cada error es 1/wi y
a medida de que σi2 aumenta de valor 1/wi deberia disminuir. Pero OLS entrega
62
a todos los errores el mismo peso]. Para corregir por este problema deberiamos
darle mayor importancia a los errores menores. El estimador WLS usa informa-
cion muestral para definir estos pesos. Propiedades Asintóticas
Para probar de que los estimadores son consistentes frente al problema de la
heteroscedasticidad, necesitamos solo que chequear que la varianza del OLS de-
saparece a medida de que la muestra crece. La varianza del estimador OLS se
define como sigue:
$n 3
2 = E(β − β)
V ar(β) 2 = E( $i=1 Xi %i )2
2
(6.18)
n 32
i=1 Xi
Dado que E(%2i ) = σi2 ∧ E(%i %j ) = 0 entonces (15) puede ser re escrito como:
$n 3 2 2
2 Xi σi
V ar(β) = $i=1 (6.19)
n
( i=1 X3 2)
i
63
Usando la notación anterior podemos re escribir el valor esperado de (21) como
sigue:
$ 32
S2 σ2 Xi θi
2
E(Sβ2) = E( $ )= $ − $ 32 2 (6.22)
3
X 2
X3 2
(n − 2)( X )
i i i
Estas dos expresiones son claramente diferentes. De hecho, el sesgo (de la varianza
estimada) puede ser calculada como sigue:
$ 32 $ 32 $ 32
2 = X θ i X θ i (u − 1) Xi θi
2
E(Sβ2) − V ar(β) i
$ 32 2 − $ 32 2 =
i
$ 32 2 (6.24)
(u − 2)( Xi ) ( Xi ) (u − 2)( Xi )
La ecuación (24) muestra que el sesgo en la varianza estimada dependerá del
$ 32 3 2 y los terminos de varianza
valor de Xi θi /n el cual es la varianza entre X i
individuales. Si esta covarianza es positiva entonces tendremos un sesgo negativo,
2 Esto significa que los errores estándar en los coeficientes
ya que E(Sβ22) < V ar(β).
estimados por OLS en la presencia de heteroscedasticidad serán muy pequeños,
implicando que el modelo presenta una precisión mayor de la que realmente tiene.
Resultado 4.
La varianza estimada para los estimadores OLS está sesgada. Si los errores het-
eroscedasticos están positivamente correlacionados con las variables entonces el
sesgo será hacia abajo implicando un falso sentido de precisión en el modelo.
Existe una variada gama de tests, cada uno con diferentes fortalezas dependiendo
de las circuntancias.
Test de Goldfeld-Quandt
Esta prueba puede ser usada solamente con datos de corte transversal. La intu-
ición detras de esta prueba es si pudiéramos ordenar todos los datos en orden
creciente dependiendo de la varianza de sus errores asociados y escogiéramos sub
64
muestras de diferentes partes de esta muestra, entonces las varianzas al interi-
or de cada submuestras debería ser diferente solamente en fluctuaciones bajo la
nula. Sin embargo, si la muestra es heteroscedastica entonces las varianzas entre
submuestras deberian ser significativamente diferentes.
El test de GQ se define de la siguiente manera:
S22
GQ = ∼ Fn2 −2,n1 −2 (6.25)
S12
donde $n1
−α 21 − β21 Xi )2
i=1 (Yi
S12 = ∀i = 1, .....n1
n1 − 2
$n1 +p+n2
21 − β21 Xi )2
i=n1 +p (Yi − α
2
S2 = ∀n1 + p + 1.....n1 + p + n2 (6.26)
n2 − 2
Prueba de Breush-Pagan
La prueba de BP es una aplicacion directa de la clase de test de Multiplicadores
de Lagrange introducidas en la clase 4. Aplicando la logica del LM test, si la
hipótesis nula (la restrictiva) es valida entonces la derivada de L no será signi-
ficativamente diferente de cero.
donde g es una función continua y donde las variables Z son no estocásticas, típi-
camente las variables explicaivas del modelo.
65
Para calcular la prueba de BP el investigador deberá estimar la siguiente
regresión auxiliar usando mínimos cuadrados:
%2i
= γ0 + γ1 z1i + γ2 z2i + ....γγ zpi + vi (6.27)
22
σ
donde %i son los residuos de la regresión mínimo cuadrática de Y sobre X y donde
además u
! epsilon2i
22 =
σ
i=1
n
Si definimos ESSBP como la suma de cuadrados explicada de la regresión auxiliar
entonces si la nula es válida ESSBP será pequeña y en consecuencia:
ESSBP 32
BP = ∼X [p] (6.28)
2
Debería ser claro que si la regresión auxiliar explica la evolución de %2i (lo que
implica que los residuos no son constantes) entonces ESS será alta y BP no se
distribuirá como chi-cuadrado y en consecuencia rechazaremos la hipótesis nula
de homocedasticidad.
Prueba de White
La prueba de White es conceptualmente similar a la prueba de BP (y es la prueba
principal ofrecida en la mayoría de los softwares). La prueba de White define la
hipótesis nula igual que el resto de las pruebas y donde la alternativa es:
HA : %2i = δ0 + δ1 X1i + δ2 X2i + ....δp Xi Xj + ui ∀ i, j
donde las variables Xi son aquellas del modelo original de Y regresionado sobre
X. Notar que la prueba de White incluye los X individualmente, el cuadrado de
cada Xi , y el producto conjunto de todas las variables Xi Xj entre sí.
66
6.3.3. Soluciones para la Heteroscedasticidad
Hemos concluido que la heteroscedasticidad presenta problemas en la eficien-
cia de la estimación mínimo cuadrática pero mas seriamente, induce sesgo en la
varianza del estimador. Inferencia entonces es un elemento que está afectado ante
este problema. £Qué soluciones podemos implementar?
Hemos visto que los Mínimos Cuadrado Ponderados (WLS) son BLUE dado
que escalamos todas las variables por la ecuación conocida del error estándar.
Sin embargo, WLS como se ha presentado, asume que el verdadero valor de σi
para todos los i, es conocido. En general esto no es conocido. Es necesario, en
consecuencia, estimar el valor σi a partir de la muestra de datos disponible.
Heteroscedasticididad Multiplicativa
La heteroscedasticidad multiplicativa se refiere a aquella forma de heteroscedas-
ticidad que tiene la siguiente estructura:
σi2 = σ 2 ziδ (6.30)
la cual es una función de dos parámetros. Típicamente asumiremos que δ toma
valores pequeños, por ejemplo 1 o 2. Obviamente el caso en que δ = 0 es aquel
de homoscedasticidad. En este caso, el modelo completo queda expresado de la
siguiente manera:
Yi = α + βXi + %i
%i = N (0, σi2 ) (6.31)
σi2 = σ 2 Ziδ (σ > 0, Z > 0)
Esto reduce el número de parámetros del modelo a ser estimados lo que lo hace
un estimador factible. En el caso especial en que δ = 2 y Zi = Xi , el modelo se
reduce a:
σi2 = σ 2 Xi2 (6.32)
La ecuación de regresión se hace homoscedástica al dividir el modelo por Xi lo
que resulta en la siguiente especificación:
Yi 1 %i
( ) = α( ) + β + ( ) (6.33)
Xi Xi Xi
67
La ecuación (31) es ahora un modelo de regresión clásico.
Heteroscedasticidad Aditiva
Suponga que permitimos que la heteroscedasticidad tenga una forma mas
general, como la que sigue:
donde los %2i son los residuos cuadrados de la regresion original (pero heteroscedas-
tica) entre Y y X y en consecuencia, vi = %2i − σi2 . Esto nos entrega la "primera
ronda"de estimación de a,b y c.
a + 2bXi + 2
2i2 = 2
σ cXi2 (6.36)
Estos estimadores no son, sin embargo, eficientes dado que vi son heteroscedas-
ticos. En consecuencia, nesecitamos re estimar a,b y c al ajustar (35) por los
estimadores consistentes pero ineficientes de σi2 .
%2i 1 Xi Xi2
( 2 ) = a( 2 ) + b( 2 ) + c( 2 ) + vi∗ (6.37)
2i
σ 21
σ 2i
σ 2i
σ
Estos estimadores revisados"son asintóticamente eficientes y son denotados por
un tilde (∼) y de esta manera podemos definir la "segunda ronda"en la estimación
de
a + 3bXi + 3
3i2 = 3
σ cXi2 (6.38)
el cual puede ser luego aplicado a la regresión heteroscedástica.
Yi 1 Xi
( ) = α( ) + β( ) + %∗i (6.39)
3i
σ 3i
σ 3i
σ
la que asintóticamente eficiente y consistente.
68
Podemos aplicar una versión modificada del WLS al estimar el siguiente modelo:
Yi 1 Xi
( ) = α( ) + β( ) + %∗i (6.41)
Y2i Y2i Y2i
En todos los casos anteriores, dado que σi2 no es conocido y debe por tanto ser
estimado, existe una pérdida en la eficiencia en los estimadores. Estos estimadores
todos tienen propiedades asintóticamente deseables y a pesar de que estos esti-
madores son insesgados en muestras pequeñas, estamos menos seguros acerca de
la pérdida de eficiencia en tamaños de muestras pequeños.
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
- infinito +infinito
69
valor de X.
(Xi,Yi)
Yi
error
recta
ajustada
(Yi - media de Y)
media de Y
predicción media de Y
media de X Xi
En este caso, en vez de ajustar una línea (i.e. estimar una regresión) utilizando
todos los datos, podemos ajustar línes a percentiles diferentes.
el cual es igual a:
n
!
Qq = [q − f (y ≤ x%i β)] − (yi − x%i β) (6.44)
i=1
70
Capítulo 7
7.1. Resumen
1. Consecuencias del supuesto de independencia
2. Autocorrelación - Detección
3. Autocorrelación - Soluciones
7.1.1. Referencias
Gujarati Capítulo 12
J. Kmenta Capítulo 8
Grenne Capítulo 15
Y = Xβ + % (7.1)
E[%] = 0 E[%%% ]% = Ω
donde Ω es una matriz cuadrada nxn positiva definida. El caso de autocorrelación
aparece cuando :
71
σ2 cov(%1 %2 ) ··· · · · cov(%2 %1 )
cov(%1 %n ) σ2 ··· · · · cov(%2 %n )
.. ..
%
E[%% ] = Ω = . ··· ··· ··· . = (7.2)
.. .. .. ..
. . . ··· .
cov(%2 %1 ) ··· ··· ··· σ2
1 ρ1 ρ2 . . . ρn−1
..
ρ1 1 ... ... .
2 ..
σ ρ2 ... 1 ... .
. .. .. ..
.. . . ... .
ρn−1 ... ... ... 1
La forma de la autocorrelación será determinada por el número de elementos no
cero fuera de la diagonal en la matriz. En el caso de autocorrelación de primer
orden (la cual domina la literatura) la matriz de varianza-covarianzas tiene la
siguiente forma :
1 ρ1 0 . . . 0
.
ρ1 1 . . . . . . ..
..
Ω = σ2 0 . . . 1 . . . .
(7.3)
. . . .
.. .. .. . . . ..
0 ... ... ... 1
Como ya se había mencionado en la clase anterior, si la verdadera forma de Ω es
conocida, entonces el estimador de Mínimos Cuadrados Generallizados (GLS) es
aquel de estimador lineal insesgado de mínima varianza y tiene la siguiente forma
:
β2GLS = (X % Ω−1 X)−1 X % Ω−1 y (7.4)
Si el verdadero valor de Ω es desconocido será necesario estimarlo en función de
un reducido conjunto de parámetros Ω = Ω(θ) . Con el fin de hacer GLS un
estimador factible requeriremos que Ω 2 , y en consecuencia, el estimador
2 = Ω(θ)
GLS factible será el siguiente :
β2F GLS = (X % Ω
2 −1 X)−1 X % Ω
2 −1 y (7.5)
el cual es insesgado, consistente y asintóticamente eficiente, no obstante, no efi-
ciente en muestras finitas. Una vez mas, está falta de eficiencia proviene del hecho
que no podemos utilizar toda la información disponible para estimar Ω.
72
7.3. Proceso Autocorrelacionado y Autoregresivo:
algunas definiciones
En general, estamos acostumbrados a describir la evolución de variables en
términos de su relación sistemática con otras variables. No obstante, también es
instructivo examinar la evolución de las variables en términos de sus propios val-
ores pasados.
%t = ρ%t−1 + µt (7.6)
donde µ ∼ N (0, σ 2 ) . El proceso mas general de orden p de una serie puede ser
representado por la siguiente expresión [AR(p)] :
%t = µt − θµt−1 (7.8)
donde, de nuevo, µ ∼ N (0, σ ). Por extensión, el proceso de medias móviles mas
2
En los análisis de series de tiempo nos referiremos a los términos de error como
innovaciones con el fin de reflejar el hecho de que la única información nueva
que entra al proceso está contenida en los shocks estocásticos µt que ocurren en
cada período.
73
autoregresión y q términos de promedio móvil.
74
aleatorio o random walk.
Debería quedar claro que la distinción entre series de memoria corta o larga está
directamente relacionado con el valor de ρ en el proceso AR. Esta es la principal
distinción entre una serie estacionaria de una no estacionaria, conceptos que
discutiremos en un par de clases.
yt = α + βxt + %t (7.15)
donde
%t = ρ%t−1 + µt
y
E(µt , µs ) = 0; E(µt , %t−1 ) = 0; con µt ∼ N (0, σµ2 )
POr otra parte, la varianza viene dada por :
cov(%t , %t−1 ) = ρσ 2
75
7.4. Estimación Minimo Cuadrática y Errores Au-
tocorrelacionados
En seguida derivaremos las propiedades del los estimadores mínimo cuadráti-
cos ante la presencia de autocorelación. Una vez mas es mas simple trabajar con
un proceso AR(1) en los errores.
Resultado 2: Dado que los estimadores OLS son insesgados para todos tipo
de tamaño de muestra finita, sabemos que el estimador será consistente.
7.4.2. Eficiencia
Para examinar la pregunta acerca de la eficiencia primero debemos trans-
formar el modelo AR(1) en una forma que tenga un error independiente. Ello
lo haremos al multiplicar la regresión por el coeficiente de autocorrelación, luego
rezagando la regresión en un período y finalmente restando la expresión resultante
de la ecuación original. Esta transformación se denomina Cochrane Orcutt.
76
donde x∗t = (xt − xt−1 ) y x∗t−1 = (xt−1 − xt−1 ). El punto central acerca de este
estimador es que es función de ρ . Dado que el estimador OLS no es función de
este parámetro, podemos deducir fácilmente que este último, ante la presencia de
autocorrelación no es eficiente.
Entonces podemos derivar una expresión para el sesgo de la varianza del estimador
OLS como sigue :
4 T T
5
σ2 2σ 2 ! !
s = $T 2 =− $
− V ar(β) ρ xt xt−1 + ρ2 xt xt−2 + .....
2 T 2 2
t=1 xt ( t=1 xt ) t=2 t=3
(7.24)
77
Resultado 5: Cuando ρ > 0 y existe una correlación positiva entre los Xs en la
muestra el sesgo es negativo. En este caso subestimamos la verdadera varianza y
en consecuencia sobreestimamos la precisión de los estimadores.
Resumen
Las consecuencias para la estimación bajo OLS ante la presencia de autocor-
relaciónn en los errores son las mismas que en la situación de heteroscedasticidad.
Es, de hecho, un resultado general de tener errores no esféricos : el estimador OLS
es insesgado y consistente pero son ineficientes y asintóticamente ineficientes. Mas
aún, la varianza del estimador es sesgada y puede inducir precisión espurea en
los parámetros estimados.
donde la nula :
H0 : α1 = α2 = ..... = αp = 0
78
La prueba LM se calcula al regresionar los residuos de la ecuación original sobre
sus propios valores rezagados hasta un orden p (con p < n). El estadístico deriva-
do del R2 de la regresión auxiliar se distribuye chi-cuadrado bajo la nula de la
siguiente forma :
Esta es una prueba general de autocorrelación y puede ser usada como una prue-
ba diagnóstica también. Su uso se recomienda pues se puede estudiar la presencia
de autocorrelación de cualquier orden.
79
Podemos expandir esta expresión de la siguiente manera :
$T 2 $T 2 $T
t=2 2
%t t=2 2
%t−1 t=2 2
%t 2
%t−1
d = $T 2 + $T 2 − 2 $ T
t=1 2
%t t=1 2
%t t=1 2%2t
Si tomamos el límite de esta última expresión podemos notar que los dos primeros
términos tienden a la unidad y el tercer término es simplemente 2ρ. En conse-
cuencia,
plimd = 2(1 − ρ)
Bajo la nula, a medida que rho tiende a cero, el valor de d tiende a dos. En
muestras finitas, sin embargo, el DW tiene una distribución compleja la cual se
ilustra en la siguiente figura.
80
El estadístico DW entrega los valores, dependientes de la muestra, dl y dr los
cuales se ilustran en el gráfico.
Resumen
La pruebas anteriores todas tienen propiedades asintóticas bien definidas. Sin
embargo, sus propiedades en muestras pequeñas o finitas no son tan buenas. En
particular, la prueba de DW tiene relativamente bajo poder mientras que la prue-
ba de LM puede ser ineficiente en muestras pequeñas. No obstante, en general la
prueba del tipo LM es preferible dado que el DW es una prueba sólo aplicable a
situaciones en que los errores tiene una autocorelación de primer orden.
81
7.6. Soluciones para la Autocorrelación
Como en el caso de la heteroscedasticidad, lo que hacemos en presencia de
autocorrelación depende de cuánto sabemos acerca de la estructura del proceso
que la genera. En ambos casos utilizaremos una forma del estimador minimo
cuadrado generalizado (GLS).
β2F GLS = (X % Ω
2 −1 X)−1 X % Ω
2 −1 y
La forma mas común de FGLS para el caso de autocorrelación son los esti-
madores mínimo cuadrático autoregresico iterativos donde el mas cono-
cido entre ellos es el Método de Cochrane Orcutt.
82
que µ∗t es autocorrelacionado (lo que puede ser testeado). Es posible entonces
repetir el proceso CO al re estimar el parámetro de autocorrelación de (36) de la
secuencia de errores de (37). Y de esta manera usarlo para estimar una versión
mejorada de (37). Si los valores de α y β no cambian entre cada iteración entonces
estaremos seguros de que la regresión tiene un error independiente. Este es un
proceso estándar de convergencia y los estimadores de α y β de la iteración final
se considerarán los mejores estimadores FGLS.
yt = α + βxt + %t
donde :
%t = ρ%t−1 + µt
con µt ∼ N (0, σµ2 ), E(µt , µs ) = 0, E(µt , %) = 0
Suponga que estimamos el modelo utilizando el método de CO el que tiene la
siguiente forma :
yt∗ = α 2 ∗+µ
2∗ + βx 2∗t
t
donde µ
2∗t es un término de error independiente y yt∗ , x∗t son las transformaciones
de Cochrane Orcutt de Y y X según la ecuación (37). Sin embargo, si recordamos
de que :
2t
µ
%2t =
(1 − ρ2L)
donde L es el operador rezago, entonces podremos re escribir (38) de la siguiente
manera :
(1 − ρ2L)yt = α 2 − ρ2L)xt + µ
2∗ + β(1 2∗
o bien
yt − ρ2yt−1 = α 2 t − β2ρ2xt−1 + µ
2∗ + βx 2∗t
El aspecto clave acerca de esta relación dinámica es que impone la restricción de
que la relación (autoregresiva) condicional entre yt y yt−1 es idéntica a la relación
(autoregresiva) condicional entre xt y xt−1 y esa relación está definida por la
relación autoregresiva entre %t y %t−1 . Esto es conocido como la restricción de
factor común.
Debería ser obvio que esta es una restricción muy fuerte. Pero debería también
83
quedar claro que es una condición que puede ser testeable. Para ver esto último
mas en detalle podemos re escribir el modelo en (40) en forma mas general de la
siguiente manera :
yt = α0 + α1 + β1 yt−1 + β0 xt + β1 xt−1 + µt
84
Capítulo 8
Regresores Estocásticos,
Exogeneidad y Estimación por
Variables Instrumentales
8.1. Resumen
1. Violación del supuesto de regresores no estocásticos
8.1.1. Referencias
Kmenta Capítulo 8, Capítulo 9.1, 13.4
Hendry Capítulo 5
8.2. Introducción
El último supuesto del modelo de regresión lineal clásico asume que las vari-
ables independientes en el modelo son no estocásticas, es decir que tienen valores
85
fijos en muestras repetidas y las que satisfacen la condición de que :
n
1!
(xi − x)
n i=1
En la práctica, con datos reales, estos dos últimos requerimientos no son par-
ticularmente interesantes. El primero no puede ser evaluado dado que rara vez
tenemos muestras repetidas mientras que el segundo simplemente requiere que
los Xs no sean todos iguales.
Nota : generalmente asumimos que una ( y sólo una) de las Xs toma el mis-
mo valor a través de la muestra. Este es el caso de la constante.
El requerimiento clave en términos prácticos es la condición de que las vari-
ables X puedan ser tratadas como si fueran no estocásticas lo que requiere sim-
plemente que se cumpla lo siguiente :
yt = α + βxt + %t (8.2)
86
Notar que dado que ahora xt es estocástica, no es posible sacar esta variable fuera
del valor esperado como una constante. Sin embargo, dado que asumimos inde-
pendencia entre xt e % sabemos que E(xt %t ) = E(xt )E(%t ) Dado que E(%t ) = 0
entonces el valor esperado del estimador es el verdadero valor del parámetro (i.e.
es insesgado).
4$ 52 4$ 5 4$ 5
T T 2 2 T
2 =E x i %i t=1 xi %t t=1 xt xj %t %j
V ar(β) $t=1
T
=E $ + 2E $ (8.8)
t=1 xi
2
( Tt=1 x2t )2 ( Tt=1 x2t )2
4 5
2 = σ2E $ 1
V ar(β) T
t=1 x2t
87
Dado que xt y %t son independientes
$T entonces la covarianza entre ellos será cero, y
al cancelar el término t=1 xt del numerador y denominador nos quedamos con
2
Para ilustrar este caso, considere un modelo autoregresivo, es decir uno con vari-
able dependiente rezagada.
yt = α + βyt−1 + %t (8.10)
En este caso asumimos que la variable xt es yt−1 . Si asumimos que |β| < 1
entonces podemos sustituir reiteradamente para el valor rezagado de yt y llegar
a una expresión como la siguiente :
88
Dado que yt−1 está definido como :
1
yt−1 = yt−1 − (y0 + y1 + ..... + yt + ..... + yT −1 ) (8.14)
T
podemos notar que es una función de yt , el cual, por definición, no es independi-
ente de %t . De esta manera, yt−1 y %t ya no son independientes. En forma similar
%t , no es independiente de yt−1
2
. Consecuentemente no podemos separar al tomar
el valor esperado en (13). En consecuencia, no podemos decir que si el estimador
OLS es insesgado.
Así, el estimador es sesgado para muestras finitas. Mas aún, dado que la covari-
anza poblacional entre xt y %t no es cero ( por definición) entonces se sigue que
: $
2 plim Tt=2 xt %t /T
plimβ = β + $ $= β (8.17)
plim Tt=2 x2t /T
89
Resultado 3 Cuando la covarianza entre xt y %t no es cero entonces el estimador
OLS no es insesgado ni consistente. Asi la estimación uniecuacional por OLS no
es válida.
En este caso, las implicaciones para el modelamiento son que para obtener una
estimación consistente y eficiente ante este problema, se requiere de un estimador
alternativo. Los dos métodos de estimación más comunes son la Estimación por
Variables Instrumentales (vea sección 4 de estas notas) y Estimación por
Sistemas de Ecuaciones (tales como Mínimos Cuadrados en Dos Etapas, MC
en Tres Etapas, Maxima Verosimilitud con Información Completa FIML). Estos
últimos estimadores serán revisados mas adelante.
8.4. Exogeneidad
Antes de repasar las formas de estimación de loscasos revisados anteriormente,
en esta sección consideraremos la importancia de este supuesto de la exogeneidad
para el modelamiento econométrico. Recodemos de la primera clase que podemos
considerar un sistema económico, referido como DGP, como una distribución con-
junta multivariada compleja denotada como D(zt |Zt−1 , Λ) .
Todos los modelos econométricos son modelos condicionales del tipo de (18).
El aspecto de exogeneidad simplemente concierne a la pregunta de si la simplifi-
cación en el proceso de modelamiento logrado mediante la marginalización de la
variables no modeladas es válido. Específicamente, la esencia de la exogeneidad
radica en que si existe alguna pérdida de información cuando se explica yt por xt
sin necesariamente explicar xt al mismo tiempo. Si ocurre una pérdida de infor-
mación, entonces es inválido definir un modelo que condiciona en Xt ; y así xt no
es exógeno para los parámetros λ1 .
90
sistemática entre el error estocástico del modelo condicional y los parámetros del
mismo modelo.
En las tres últimas clases hemos examinado casos en los cuales el término de
eror contiene "información.acerca de la evolución de yt . Cuando la fuente de esta
"información"surge de la covarianza entre xt y %t nos referiremos a esta situación
como violación de la exogeneidad. Dependiendo del tipo de análisis condi-
cional que ha sido llevado a cabo, pueden existir tres tipos de exogeneidad.
Definición.
xt es debilmente exógena para los parámetros si yt |xt es función solamente de
λ1 y donde λ1 y λ2 son libres de variación. Exogeneidad débil es una condi-
ción necesaria para la estimación válida y eficiente de los valores desconocidos
de los parámetros en el modelo condicional. Exogeneidad débil es entonces una
condición necesaria para la econometría de ecuaciones simples o modelos uniecua-
cioinales, y la falla en establecer exogeneidad débil requiere que el investigador
utilice otros métodos para la estimación ya sea por variables instrumentales o
bien por sistemas de ecuaciones simultaneas.
Definición.
La no causalidad según Granger existe si y solo si :
91
8.4.3. Superexogeneidad
Si los parámetros del modelo condicional son invariantes ante cualquier cambio
en la distribución marginal de xt y si además xt es exógena débil para λ1 ,entonces
se dice que xt es super-exógena.
Definición
La superexogeneidad requiere que los parámetros estimados del modelo condi-
cional sean independientes de las variaciones en el proceso marginal que produce
xt , así:
∂λ1
=0 (8.19)
∂D(xt |Xt−1 ; λ2 )
La ausencia de superexogeneidad en econometría es análogo a la Critica de
Lucas, la que dice que cambios en los gobiernos o en el las políticas o en el régi-
men de control serán incorporadas en el proceso de formación de expectativas de
los agentes los que no sólo alterarán su proceso marginal pero también la forma
condicional de su conducta. Como resultado, estudios empíricos que consideren
las respuestas en la conducta de los agentes ante cambios en la política económica
como invariantes colapsarán y en consecuencia, simulación acerca del impacto de
políticas serán erróneos, especialmente en el contexto cuando las simulaciones son
realizadas condicionales en el supuesto de expectativas invariantes departe de los
agentes económicos. En consecuencia, superexogeneidad es una condición
necesaria para simulación de políticas.
Considere, por ejemplo, un modelo donde la demanda por activos reales está
condicionada por el nivel de precios. Suponga que los precios están determinados
por el control que tiene el gobierno sobre la oferta monetaria, y bajo un cambio en
las autoridades, la autoridad monetaria a cambiado su política (i.e. el nuevo go-
bierno instituye los regímenes de crédito del FMI) y en consecuencia la conducta
de los agentes cambia como resultado de este cambio en el régimen político: Así,
los precios en este modelo no son superexógenos para los parámetros del modelo
condicional.
92
con respecto a una variable en particular. La hipótesis alternativa es que ex-
iste una gran pérdida de información (verosimilitud) como consecuencia de la
marginalización.
93
8.5. Estimación por Variables Instrumentales
El propósito de esta sección es la de examinar una solución ampliamente
utilizada para el problema donde el supuesto de que cov(xt , %t ) = 0 es violado.
Y = Xβ + % (8.21)
Z % Y = Z % Xβ + Z % % (8.25)
94
En una manera análoga al OLS, definiremos el estimador IV como :
E((Z % X)−1 Z % %) $= 0
Notar que si pensamos el modelo en (21) como una regresión múltiple donde
el supuesto de Cov(X, %) = 0 se mantiene para alguna de las variables, entonces
esos elementos de X no necesitarán instrumentos. Ellos son sus propios instru-
mentos.
95
(i) datos sobre consumo y ahorro son medidos típicamente como residuos de
datos de ingreso nacional y en consecuencia, contiene errores en la medida
de otros componentes.
(ii) En datos sobre balanza de pagos, los flujos de capital son usualmente me-
didos parcialmente pero también incluye errores en la medidas de cuentas
de comercio (las que son producto, por ejemplo, de declaraciones mal real-
izadas) .
(iv) En encuestas las firmas pueden sub reportar ganancias y sobre exagerara
impuestos pagados respondiendo de manera de satisfacer al encuestador.
Adicionalmente, ellos a menudo responderán en una forma que ellos piensen
que puedan influir en reformas a la política económica en forma beneficiosa
para ellos.
Todos estos factores sugieren que el tema del error en la medida de variables es
un aspecto muy común en los trabajos prácticos.
Y = βX ∗ + % + ν (8.33)
96
E(%) = E(ν) = 0
Cov(x∗i , %i ) = 0
Cov(x∗i , νi ) = 0
Cov(%i , νi ) = 0
entonces (34) es un modelo de regresión clásico y la estimación de β será insesgada.
Sin embargo, la varianza del β estimado será mayor que el caso de inexistencia
de error en la medición ya que :
2
2 = $nσ$∗ (σ 2 + σν2 )
V ar(β) = $$n ∗2 (8.35)
i=1 x∗2
i i=1 xi
Y = βX ∗ + % (8.36)
Y = βX + (% − βµ) = βX + ω (8.37)
donde ω = [% − βµ]
97
Así, dado que la covarianza entre ω y X es no cero, el modelo ya no es del tipo
clásico y el estimador OLS de β será sesgado. Mas aún, los estimadores serán
inconsistentes dado que se mantendrán sesgados a pesar de que el tamaño de la
muestra aumente indefinidamente. Para ver esto calcularemos la probabilidad en
el límite para β2 :
$n $ $n ∗ $ $
2 yi xi β ni=1 x∗2
i +β xi %i + β ni=1 x∗i µi + ni=1 %i µi
i=1
β = $n 2 = $n ∗2 i=1 $n ∗ $n 2
(8.39)
i=1 xi i=1 xi + 2 i=1 xi µi + i=1 µi
y por tanto
β
plimβ2 = 7 σ2
8
1 + σµ2
x
Dado que hemos supuesto de que a medida de que n tiende a infinito, no existe
correlación entre los términos de error % y µ y entre % y µ y el verdadero valor de
X, es decir X ∗ . Si σµ2 > 0 entonces β2 es inconsistente y el sesgo es hacia abajo.
98
ganancias (W) por educación (E) donde no medimos educación directamente sino
aproximadamente por los años de colegio (S). Así :
W = α + βE + % (8.43)
Sin embargo, suponga que la relación entre educación y escolaridad puede ser
descrita como sigue :
E =S+µ (8.44)
así, la ecuación estimada será :
W = α + βS + υ (8.45)
donde υ = [% − βµ]
El aspecto importante de este modelo es que a pesar de que µ tenga media cero,
varianza constante, serialmente independiente y no correlacionado con el error
compuesto υ, este error no es independiente de S. Para ver esto, asumiendo de
que E(υ) = 0 podemos examinar la covarianza entre υ y S:
donde % = ρ%t−1 + νt
99
Estos modelos entregan estimadores sesgados e inconsistentes dado que yt−1 está
estocásticamente relacionada con el término de error ya que :Cov(yt−1 , %t−1 ) $= 0
La estimación IV puede entregar estimadores que aunque sesgados son consis-
tentes. En este caso particular, existe una elección obvia de instrumento: el valor
rezagado del regresor exógeno (i.e. no estocástico) en el modelo,xt−1 .
100
No obstante, notar de que :
101
Así, resulta relativamente simple construir una prueba en torno a este hecho.
En consecuencia, deseamos probar la nula de que :
H = plim[β2OLS − β2IV ] = 0 (8.53)
Dada la inconsistencia de β2OLS ante la presencia del problema de regresión es-
tocástica, entonces H no será cero. Un valor significativo de H generará el rechazo
de la nula.
Sobreidentificación
Si hay menos instrumentos que variables explicativas endógenas entonces el mod-
elo está sub-identificado (i.e. el estimador IV no existe). Si existe el mismo
número de instrumentos que las variables problema, el modelo está identifica-
do exactamente. Si hay mas instrumentos que los necesarios, el modelo está
102
sobre-identificado. Esta última situación es muy atractiva. Sobre identificación
entregará generalmente un mayor grado de precisión en los estimadores pero
también entrega la oportunidad de llevar adelante pruebas sobre la validez de los
instrumentos.
Multiples Instrumentos
Si Z es un instrumento válido y W también es un instrumento válido entonces
una combinación lineal entre Z y W también será un instrumento válido. Dado
que, a partir de (29) la varianza del estimador IV es menor mientras mayor es el
grado de correlación entre el instrumento y la variable que se está instrumentan-
do, entonces debería resultar claro de que deberíamos elegir aquella combinación
lineal que tenga la mas alta correlación con X. Este instrumento es simplemente
el valor ajustado de X regresionado sobre Z y W
Pruebas de Sobre-identificación
Suponga que tenemos Z (n x k’) instrumentos donde X es una matriz (n x k) con
k’>k. Si definimos la matriz de proyección como :
Pz = Z(Z % Z)−1 Z %
Entonces el estimador IV es :
103
IV (es decir los residuos 2SLS de la segunda etapa) sobre la matriz de instru-
mentos. El estadístico T R2 (donde T es el tamaño de la muestra) tiene una
distribución chi-cuadrado con k % − k grados de libertad bajo la nula de que los
instrumentos sólo afectan la variable dependiente a través de su rol en la predic-
ción los regresores (endógenos).
Si la nula es rechazada ello implica que los instrumentos juegan un rol directo so-
bre Y , en vez de simplemente a través de su rol de predecir X y en consecuencia,
deberían ser regresores en el modelo en vez de ser tratados simplemente como
instrumentos.
104
Capítulo 9
Sistemas de Ecuaciones:
Endogeneidad y Modelos de
Sistemas de Ecuaciones
9.1. Resumen
1. Introducción a los Sistemas de Ecuaciones
2. El Problema de la Identificación
3. Sistemas Especiales:
Modelo de Regresión Aparentemente no Relacionadas (SUR)
Sistemas Recursivos
4. Estimación
Métodos de Estimación con Información Limitada (ILS y 2SLS)
Métodos de Estimación con Información Completa (3SLS y FIML)
9.1.1. Referencias
Kmenta Capítulo 13
Bernt Capítulo 10
Gujarati Capítulo 17
Grenne Capítulo 20
105
9.2. Introducción
Hasta el momento nos hemos concentrado en ecuaciones individuales sobre la
conducta económica. En la practica, sin embargo, muchos fenómenos económicos
se describen utilizando modelos los que consisten en ecuaciones simultáneas. Ello
pues dado el hecho de la violación del supuesto de exogeneidad débil, no podemos
realizar una descripción acerca de la evolución de las variables de interés en el
vector z mediante el uso de modelos uniecuacionales sin la pérdida de información.
106
9.3. Introducción a los Sistemas de Ecuaciones
El sistema de ecuaciones mas general puede ser descrito de la siguiente forma
genérica :
β11 yt1 + β21 yt2 + ........ + βm1 ytm + γ11 xt1 + ..... + γk1 xtk = %t1
β12 yt1 + β22 yt2 + ........ + βm2 ytm + γ12 xt1 + ..... + γk2 xtk = %t2
.. .
. = .. (9.1)
β1m yt1 + β21 yt2 + ........ + βtm ytm + γ1m xt1 + ..... + γkm xtk = %tm
La segunda forma bajo la cual el sistema en (1) puede ser expresado es referi-
da como la forma reducida la cual expresa la variables endógenas del modelo
solamente en función de las variables exógenas y el término de error. La forma
reducida se deriva al premultiplicar (2) por B −1 y al rearreglar obtenemos :
yt = −B −1 Γxt + B −1 %t
yt = Πxt + υt (9.3)
107
la cual es la matriz de varianzas-covarianzas de la forma reducida del
sistema en (1).
Existen a lo menos tres situaciones que podemos encontrar con respecto al sistema
que estamos estimando. Una ecuación puede estar :
1. No Identificada (o sub identificada)
2. Exactamente Identificada ( o completamente identificada)
3. Sobre Identificada
Por analogía con el concepto en matemáticas, un sistema de ecuaciones simultáneas
sólo puede ser resuelto si dichas ecuaciones están completamente determinadas.
La identificación es el problema análogo en estadística. Es importante notar que
el concepto de identificación se aplica ecuación por ecuación y así se puede en-
contrar el caso de que una ecuación esté completamente identificada y que otras
ecuaciones del mismo sistema no lo estén.
108
9.4.1. Cuatro Ejemplos
Caso A : Sub Identificaión Considere el siguiente modelo estructural
qd = α0 + α1 p + %d (9.5)
qs = β0 + β1 p + %s
p = π0 + υt (9.6)
q = π1 + ωt
(β0 −α0 ) ($s −$d ) (α1 β0 −α0 β1 ) (α1 $s −β1 $d )
donde π0 = (α1 −β1 )
, υt = (α1 −β1 )
, π1 = (α1 −β1 )
y ωt = (α1 −β1 )
qd = α0 + α1 p + α2 y + %d
qs = β0 + β1 p + %s (9.7)
p = π0 + π1 y + υt
q = π2 + π3 y + ωt (9.8)
(β0 −α0 ) (α1 β0 −α0 β1 )
donde π0 = (α1 −β1 )
, π1 = α2
(α1 −β1 )
, π2 = (α1 −β1 )
, π3 = α2 β 1
(α1 −β1 )
,
($s −$d ) (α1 $t −β1 $d )
υt = (α1 −β1 )
, y ωt = (α1 −β1 )
109
Caso C : Identificación Exacta de las Funciones de Oferta y Demanda
Llevando el argumento un paso mas allá podemos notar que un sistema de la
forma :
qd = α0 + α1 p + α2 y + %d (9.9)
qs = β0 + β1 p + β2 pt−1 + %s
p = π0 + π1 y + π2 pt−1 + υt (9.10)
q = π3 + π4 y + π5 pt−1 + ωt
qd = α0 + α1 p + α2 y + α3 R + %d
qs = β0 + β1 p + β2 pt−1 + %s (9.11)
p = πo + π1 y + π2 pt−1 + π3 R + υt
q = π4 + π5 y + π6 pt−1 + π7 R + ωt (9.12)
110
Para un sistema cualquiera podemos asumir :
M: número de variables endógenas en el sistema
m: número de variables endógenas en la ecuación
K: número de variables pre-determinadas (exógenas y endógenas rezagadas) en
el sistema.
k: número de variables pre-determinadas (exógenas y endógenas rezagadas) en la
ecuación.
Caso A : K = 0
Caso B K = 1
Caso C K = 2
Caso D K = 3
111
Función Oferta : m-1=1 y K-k=2 Sobre identificado
Así en un sistema con sólo dos variables endógenas, una ecuación estará identifi-
cada si dicha ecuación excluye una o mas variables las cuales están presentes en
otra parte en el modelo. La condición de orden es, no obstante, una condición
necesaria pero puede que no sea suficiente. Lo anterior pues las variables pre-
determinadas excluidas de la ecuación en análisis pero presente en otra aparte
del sistema puede que no sea independiente. Una forma de chequear esto es me-
diante el uso de la condición de rango.
Ejemplo
y1t − β10 − β12 y2t − β13 y3t − γ11 x1t = µ1t (9.13)
y2t − β20 − β23 y3t − γ21 x1t − γ22 x2t = υ2t (9.14)
y3t − β30 − β31 y3t − γ31 x1t − γx2t = υ3t (9.15)
yt4 − β40 − β41 y1t − β42 y2t − γ43 x3t = υ4t (9.16)
No es tan obvio al solo mirar el sistema si las cada una de las ecuaciones están
identificadas o nó. Veamos la condición de orden. Notar que M=4 y K=3.
112
un poco diferentes. Para facilitar el análisis es conveniente escribir el sistema bajo
esta otra forma.
Ecuación 1 y1 y2 y3 y4 x1 x2 x3
(13) −β10 1 −β12 −β13 0 −γ11 0 0
(14) −β20 0 1 −β23 0 −γ21 −γ22 0
(15) −β30 −β31 0 1 0 −γ31 −γ32 0
(16) −β40 −β41 −β42 0 1 0 0 −γ43
Consideremos la primera ecuación (13). Esta ecuación excluye y4 , x2 yx3 . De esta
manera deberemos calcular el determinante a partir de los coeficientes de esta
variables en las demás ecuaciones.
113
1. Ignorar el problema y concentrarse sólo en la estimación de la forma reduci-
da. Esto puede ser satisfactoria pero dependerá de las circunstancia de la
investigación
114
modelo. Un estadístico de LR puede ser utilizado para medir si las restricciones
impuestas para la identificación reducen significativamente la verosimilitud de los
parámetros de la forma estructural .
LR = −2(log Lr − log Lu) ∼ χ2[k]
donde Lr es la verosimilitud del modelo con las restricciones de identificación
impuestas y K es el número de restricciones impuestas sobre el modelo.
σ11 0 0 0 0
0 σ22 0 0 0
.. ..
0 0 . 0 . = σi2 I
. .. .. .. ..
.. . . . .
0 0 0 0 σmm
115
No obstante, si existe una restricción entre ecuaciones entonces la estimación OLS
del sistema no es aplicable y debemos utilizar un FGLS. El estimador FGLS que
se utiliza en este caso se denomina Estimador de Ecuaciones Aparentemente NO
Relacionadas (SURE).
β2sure = [X % Σ
3 −1 X]−1 X % Σ
3 −1 y (9.21)
y2t = β20 + β21 y1t + γ21 x1t + γ22 x2t + n2t (9.23)
y3t = β30 + β31 y1t + β32 y2t + γ31 x1t + γ32 x2t + u3t (9.24)
Asumiremos lo siguiente :
Dado que (22) contiene sólo variables exógenas las cuales no están correlacionadas
con el término de error, el modelo está acorde con uno de regresión clásico y puede
ser estimado por OLS. Ahora bien, dado que (23) solo contiene a y1t y x vari-
ables, entonces también puede ser estimado por OLS si y solo sí Cov(y1t , u2t ) = 0
. Esto es de hecho verdadero ya yit que está correlacionado con u1t pero ( por
116
definición)u1t no está correlacionado con u2t . Así, podemos decir que y1t está
pre-determinado con respecto a y2t . En este caso, podemos también utilizar OLS.
La misma lógica se aplica a (24) pues podemos mostrar que y1t , y2t ambos están
pre-determinados con respecto a y3t .
9.7. Estimación
Una vez estudiado el tema de la identificación procederemos ahora al tema de
la estimación de un sistema de ecuaciones. Existen dos grandes formas de estimar
el sistema. La primera incluye la estimación de cada ecuación en forma separa-
da. Esta forma se conoce como Estimación con Información Limitada. La forma
alternativa sugiere la estimación de todas las ecuaciones del sistema en forma
simultánea, la que se conoce como Estimación con Información Completa.
(i) muchos modelos son extremadamente grandes. Por ejemplo, el modelo del
Banco Central Inglés (UK Treasury Model) tiene alrededor de 300 ecuaciones, así
la estimación del sistema completo es un poco compleja tanto del punto de vista
estadístico como también del computacional.
(iii) Si una de las ecuaciones está mal especificada, el uso de métodos con in-
formación limitada no permite que este error se propague al resto de las estima-
ciones. Por el contrario, si se utilizan métodos con información completa, un error
de especificación en una ecuación se propagará a todo el sistema.
117
Este método sólo se puede aplicar a modelos que están exactamente identifi-
cados. El método de ILS es muy simple y sigue la discusión del problema de la
identificación. Si una ecuación está exactamente identificada entonces podemos
encontrar los estimadores de la forma reducida los que son insesgados y luego
consistentes. A partir de ellos podremos obtener los parámetros estructurales los
que serán, sin embargo, segados pero consistenmtes. El procedimiento es como
sigue :
(i) Obtenga las ecuaciones de la forma reducida del modelo donde cada ecuación
para las variables endógenas son función solamente de las variables exógenas.
(ii) Estime las ecuaciones de la forma reducida por OLS en forma individual.
Dado que todas las variables independientes de la forma reducida son exógenas,
por definición plimcov(X, u) = 0, y así el estimador por ILS entregará estimadores
consistentes de los coeficientes de la forma reducida (asumiendo que otros prob-
lemas de especificación están ausentes).
(iii) Dado que las ecuaciones están exactamente identificadas, los coeficientes
estructurales pueden ser recuperados directamente de los coeficientes de la forma
reducida.
Paso 1
Las ecuaciones de la forma reducida son las siguientes :
Pt = Π0 + Π1 Xt + ωt (9.27)
Qt = Π2 + Π3 Xt + vt (9.28)
donde :
β0 − α0 (α1 β0 − α0 β1 )
Π0 = Π2 =
(α1 − β1 ) (α1 − β1 )
−α2 −α2 β1
Π1 = Π3 = (9.29)
(α1 − β1 ) (α1 − β1 )
118
A partir de estos coeficientes podemos derivar los coeficientes de la función de
oferta donde :
Π3
β0 = Π2 − β1 Π0 β1 =
Π1
No obstante, no es posible derivar valores únicos para α0 , α1 , α2
Paso 2
A partir de (27) y (28) los parámetros de la forma reducida pueden ser estimados
como sigue :
$
Π2 1 = $Xt Pt lo que implica −→ Π 20 = P − Π2 1X (9.30)
Xt2
$
Π2 3 = $Xt Qt lo que implica −→ Π 22 = Q − Π2 3X (9.31)
Xt2
Estos coeficientes son consistentes los que pueden ser utilizados para derivar esti-
madores consistentes de los coeficientes estructurales (sólo de la función de oferta).
Es importante notar que a pesar de que los estimadores ILS son consistentes
ellos son sesgados. Veamos esto para el caso de β21 . De (30) y (31) después de un
poco de algebra tenemos que :
23 $
2 Π Qt Xt
β1 = = $ (9.32)
21
Π Pt Xt
2 1 Xt + (ωt − ω)
Pt = Π 2 3 Xt + (vt − v)
Qt = Π
Si las ecuaciones del sistema están sobre identificadas (recuerden que esto puede
ser bastante posible), ILS no puede ser usado dado que no existirá un único
método para derivar las ecuaciones estructurales. Obviamente OLS no puede ser
utilizado pues los estimadores serán inconsistentes. Un estimador alternativo es
119
el estimador mínimo cuadrático en dos etapas (2SLS) el cual es una versión de el
Estimador por Variables Instrumentales.
y1t = β10 + β12 y2t + γ11 x1t + γ12 x2t + u1t (9.34)
y2t = β20 + β21 y1t + u2t (9.35)
Paso 1
Para superar el problema de la correlación entre y1t y u2t regresionamos y1t so-
bre todas las variables exógenas y pre determinadas del sistema. Así corremos la
siguiente regresión :
y1t = Π0 + Π1 x1t + Π2 x2t + et (9.36)
Esto produce :
20 + Π
y21t = Π 2 1 x1t + Π
2 2 x2t (9.37)
A partir de (36) y (37) tenemos que :
Paso 2
Ahora podemos sustituir el lado derecho de (38) en la ecuación original, sobre
identificada (35) de tal manera que tenemos lo siguiente :
120
= β20 + β21 y21t + e∗t
Así entonces, aunque y1t está correlacionada con u2t , su instrumento y21t está
asintóticamente no correlacionado con el término de error e∗t . Una estimación
mínimo cuadrática de (39) entregará estimadores sesgados pero consistentes de
β20 y β21 . Note que el estimador OLS aplicado directamente a la forma reducida
entrega también valores sesgados pero inconsistentes.
Primero, a pesar de ser consistentes, los estimadores 2SLS son sesgados en mues-
tras finitas y en consecuencia, inferencia realizada a partir de ellos para sistemas
con pequeñas muestras puede ser problemático. Segundo, dado que los coeficientes
de la forma estructural son estimados directamente usando 2SLS, los errores es-
tándar de las ecuaciones estructurales son obtenidos de la misma forma. Sin
embargo, debe notarse que :
y en consecuencia,
V ar(e∗t ) $= V ar(u2t )
Específicamente, a menos de que Cov(β21 , et ) sea cero, entonces la varianza del
error en el estimador por dos etapas será V ar(e∗t ) > V ar(u2t ) . Y así, la varianza
del estimador 2SLS es consistente pero asintóticamente ineficiente.
121
un trade-off entre los estimadores con información competa y aquellos con infor-
mación limitada.
2. Usar los estimadores 2SLS para estimar los errores de las ecuaciones es-
tructurales y luego utilizar estos errores para estimar la matriz de varianza-
covarianza de todos los errores de cada ecuación estructural. La matriz de
varianza-covarianza representa los errores entre ecuaciones (cruzados) del
sistema. La matriz de varianza-covarianza se calcula a partir de los errores
estimados para cada ecuación en forma separada utilizando las formulas de
calculo estándar.
122
en la aplicación usual del principio de máxima verosimilitud para todas las ecua-
ciones estocásticas del sistema en forma simultánea. De esta manera, si tenemos
un sistema descrito de la siguiente forma:
123
Capítulo 10
10.1. Resumen
1. Datos Cualitativos en Economía : el uso de Variables Mudas (Dummy)
10.1.1. Referencias
Kmenta Capítulo 11
Gujarati Capítulos 15 y 16
Grenne Capítulo 19
10.2. Introducción
Muchos fenómenos económicos están relacionados con variables que son discre-
tas o cualitativas las cuales podemos contar pero no medir. Estas son comúnmente
referidas como variables binarias. Consideremos los siguientes ejemplos :
124
Efectos por características : Tiene grado universitario o nó
yi = aA DA + aF DF + ei (10.1)
yi = aA + ei (10.2)
yi = aF + ei (10.3)
125
para un economista que trabaja en el mercado financiero. Notar que este mod-
elo no tiene constantes. Al incluir una constante en el modelo tendríamos una
situación de perfecta
$ colinealidad dado que la constante tiene un valor de 1 y
sabemos que j Dj = 1. Asi es preferibles especificar la ecuación (1) de la sigu-
iente forma :
yi = b + aF DF + ei (10.4)
En este caso, el coeficiente b medirá las ganancias estimadas para la categoría
faltante, en este caso los académicos. Este sector se utiliza como marco de ref-
erencia y permite la interpretación ( y testeo) de los efectos de otra profesión
sobre las ganancias relativas al caso canónico ( o benchmark). Esta es una im-
portante característica de todos las aplicaciones con variables dummy. Si existen
G categorías (sectores productivos, género, etc) las que pueden ser cubiertas y
representadas mediante el uso de variable dummy, la regresión debería contener
G − 1 variables mudas. Así, en el caso de las ganancias, las ganancias estimadas
para los economistas en el sector financiero será de b + aF . Es claro que la especi-
ficación en (4) permite la prueba acerca de si aF = 0 ya sea en forma separada o
bien conjuntamente al utilizar una prueba de t student o F de Fisher (si existen
multiples variables dummy).
Suponga que estamos interesados en saber si existe un sesgo por género dentro
de los economistas. Una posibilidad sería estimar el modelo :
yi = b + aF DF + aM DM + ei (10.5)
Notar que en esta especificación, se asume que las diferencias en ganancias entre
un hombre y una mujer economista es una función aditiva del sector y género, i.e.
ser una economista del sector financiero y ser mujer. Esta especificación también
asume que las diferencias por género es constante entre todos los tipos de trabajo.
Una forma mas completa de especificar este modelo sería la siguiente :
yi = b + aF DF + aM DM + ag DF DM + ei (10.6)
126
10.3. Combinando Variables Binarias Qualitativas
con Variables Cuantitativas
En general, no todos los regresores en un modelo son del tipo cualitativo. En
este sencillo ejemplo podemos pensar que las ganancias también están determi-
nadas por la experiencia (E). Así el modelo podría que dar de la siguiente forma
:
yi = b + aF DF + cE + ei (10.7)
donde ahora b son las ganancias de un economista académico sin ninguna expe-
riencia mientras que el valor de aF mide la diferencia (constante) de ganancias
entre los que trabajan como académico y aquellos que lo hacen en el sector fi-
nanciero condicional en un cierto nivel dado de experiencia. Si dibujáramos esta
función tendríamos simplemente diferentes interceptos donde la pendiente de la
función de ganancias es c. De nuevo, si creemos que la experiencia recompensa
de diferente manera entre sectores deberemos definir las variables dummy de tal
forma de que cada sector tenga un intercepto diferente y una pendiente diferente.
yi = b + cE + ei (10.9)
yi = b + aF + (c + dEC )E + ei (10.10)
127
y después desaparece. Podemos pensar esto de la siguiente manera :
yi = β1 + β2 t + %i si t < 30
yi = β3 + β4 t + %i si 30 ! t < 50
yi = β5 + β6 t + %i si t " 50
Las edades de 30 y 50 años son referidas como los puntos ( o junturas) de la función
spline. Estas hipótesis pueden ser estimadas mediante el siguiente modelo :
y
b1 + g1 + (b2 + g2 )t2 = b1 + g1 + g3 + (b2 + g2 + g4 )t2
Reareglando los términos llegamos a las restricciones que g1 = −g2 t1 , g3 = −g4 t2 .
Así, el modelo restringido queda como sigue :
yi = b1 + b2 t + g2 (t − t1 ) + g4 (t − t2 ) + ei (10.12)
yi = bi + b2 x1 + b3 x2 + b4 x3 + ei (10.13)
128
y
nudos
30 50 Edad
129
como función de (i) factores de mercado tales como precios, ingresos etc, (ii)
características de los agentes como edad, género, educación, etc y (iii) factores
del entorno como ubicación geográfica, nivel de infraestructura local, etc. Resulta
obvio que esta es una especificación muy general y que la teoría nos puede ayudar
a tener un modelo mas específico. El punto clave, a lo menos desde el punto de
vista del econometrista, es que la variable dependiente es de tipo discreta.
La ecuación (14) parece idéntica al modelo de regresión clásico y puede ser esti-
mado aparentemente por OLS. No obstante tiene marcadas diferencias con este
último las que pueden ser resumidas en cuatro resultados principales.
0 ≤ α + βxi ≤ 1 (10.17)
%i = yi − α − βxi (10.18)
130
y, dado que por definición y puede tomar sólo dos valores: cero o uno, entonces
para cualquier valor de las características x, el término de error %i puede sólo
tomar dos valores :
%i = 1 − α − βxi (10.19)
o bien
%i = −α − βxi (10.20)
Resultado 1. La distribución de %i no es normal, mas aun tiene una distribución
discreta. Esto se puede observar en la siguiente tabla la cual entrega todos los
valores posibles de %i en su distribución.
Valores de %i Distribucion de %i
−α − βxi fi
1 − α − βi 1 − fi
Total 1
El problema de no-normalidad significa que los estimadores puntuales por OLS
son insesgados pero que la inferencia para muestras pequeñas no puede estar sus-
tentada en distribuciones basadas en la Normal, como lo son la distribución t, F ,
o bien χ2 .
lo que implica que fi = 1 − α − βxi . Podemos utilizar este último resultado para
calcular la varianza del término de error como :
131
LPM y re estimar el modelo para usando un estimador WLS (similar al proceso
para solucionar heteroscedasticidad visto anteriormente).
y yi=alfa+beta·xi
-alfa/beta (1-alfa)/beta x
132
10.5. Variable Dependiente Discreta II : Modelos
Probit y Logit
10.5.1. Forma Funcional
Ya hemos discutidos tres problemas que tiene el Modelo Probabilístico Lineal
LPM, a saber, (i) parámetros no constantes, (ii) errores no normales y (iii) el
modelo puede producir predicciones sin sentido ya que no existe ningún mecan-
ismo que acote el valor de y al rango [0, 1].
Con respecto a este último punto sería deseable encontrar una especificación que
tenga las siguientes propiedades :
(i) Con respecto a su valor esperado :
E(yi ) = Pr (yi = 1) → 1 mientras α + βxi → ∞
y por su parte que :
E(yi ) = Pr (yi = 1) → 0 mientras α + βxi → −∞
En otras palabras la forma funcional es asintótica a P r = 1 y P r = 0, a
pesar de que ninguno de los ejes es alcanzado, permaneciendo el modelo en
forma estocástica.
(ii) La especificación es continua y suave (de tal manera que no existan quiebres
"falsos"en el modelo tal como ocure con el LPM)
Una especificación que entrega estas propiedades son curvas con una forma de S
como la siguiente :
E(yi)
E(yi)=F(alfa+beta·xi)
-infinito +infinito
133
De esta manera nuestro objetivo será especificar una forma funcional para la
expresión de la derecha del modelo :
El Modelo Logit
En este caso, el valor esperado de yi se define de la siguiente manera :
1 e(α+βxi )
E(yi ) = = (10.26)
1 + e(−α−βxi ) 1 + e(α+βxi )
Dado que E(yi ) es la probabilidad de suceso (i.e. de que yi = 1) entonces 1−E(yi )
es la probabilidad de fracaso o falla. La razón entre estas dos probabilidades se
conoce como la razón de posibilidades odds ratio y con una pequeña manipu-
lación algebraica de (31) podemos notar que esta razón de posibilidades puede
ser expresada como :
E(yi )
= e(α+βxi ) (10.27)
1 − E(yi )
y de esta forma el logaritmo de la razón de posibilidades (log odds ratio) como :
E(yi )
log[ ] = α + βxi (10.28)
1 − E(yi )
El Modelo Probit El vaslor esperado en este caso viene dado por la sigu-
iente expresión :
; (α+βxi )
E(yi ) = Φ(α + βxi ) = φ(z)dz (10.29)
−∞
134
10.5.2. Algunos Aspectos Teóricos
Resulta natural preguntarse si estamos sacrificando aspectos teóricos con el fin
de encontrar una especificación econométrica que sirva. Existen variadas formas
mediante las cuales podemos ilustrar la relevancia del modelo para una amplia
gama de relaciones de comportamiento.
Un Ejemplo. Podemos ilustrar este caso usando una versión del modelo de
migración/empleo de Harris-Todaro. Para un individuo i el ingreso esperado de
permanecer en un área rural puede ser descrito de la siguiente forma :
yr∗ = βxr + %r (10.38)
y el ingreso esperado de una persona que se mudó a la ciudad es :
y ∗ u = γxu + %u (10.39)
135
donde x es un vector de características que reflejan al individuo y las condiciones
del mercado laboral en ambos situaciones. Sin embargo, existen costos asociados
al traslado del sector rural a la ciudad los que pueden ser descritos como :
c∗ = αz + %m (10.40)
notar que la variable aleatoria y puede tomar los valores 0 ó 1 y de esta forma
(36) puede ser re escrita de la siguiente manera :
n
<
L= [F (α + βxi )]yi [1 − F (α + βxi )]1−yi (10.45)
i=1
136
Utilizando la regla de la cadena : ∂ log(.)
∂β
= ∂ log L(.) ∂F (.)
∂F (.) ∂β
Las condiciones de primer
orden (mediante las cuales podemos obtener α, β ) vienen dadas como sigue :
n
∂ log L ! yi fi (1 − yi )fi
= [ + ]xi = 0 (10.47)
∂β i=1
Fi (1 − Fi )
n
∂ log L ! yi fi (1 − yi )fi
= [ + ]=0 (10.48)
∂α i=1
Fi (1 − Fi )
(10.49)
Modelo Logit
Para el modelo Logit, al sustituir la ecuación (31) en (44) para F (α + βxi ) y sim-
plificando la expresión (usando la derivación del log odds ratio y notando de que
log[1/(1 + ex )] = − log(1 + ex ) el log-likelihood de la función puede re escribirse
como : n
!
log L = [yi (α + βxi ) − log(1 + e(α+βxi ) )] (10.50)
i=1
n
∂ log L !
= [yi − Fi ] = 0
∂α i=1
Modelo Probit
Para el modelo Probit, el log-likelihood puede escribirse como :
n
!
log L = [yi log Φ(α + βxi ) + (1 − yi ) log(1 − Φ(α + βxi ))] (10.52)
i=1
137
y las condiciones de primer orden son :
n
∂ log L ! yi φi (−φi )
= [ + (1 − yi ) ]xi = 0 (10.53)
∂β i=1
Φi (1 − Φ i )
n
∂ log L ! yi φi (−φi )
= [ + (1 − yi ) ]=0 (10.54)
∂α i=1
Φi (1 − Φ i )
Una vez que hemos encontrados los estimadores para los coeficientes (y los errores
estándar) necesitamos interpretar dichos resultados. Es importante notar de que
al contrario del modelo de probabilidad lineal, los parámetros del modelo (los
betas)logit y probit no miden directamente los efectos marginales. Para apreciar
esto podemos escribir el modelo en forma mas sencilla al absorber la constante
en el vector x de la siguiente manera :E(yi ) = F (βxi ) y en consecuencia, el efecto
marginal de un cambio unitario en xj es :
∂E(yi ) ∂F (βx)
= βj = f (βxi )βj (10.55)
∂xj ∂(βx)
Así el efecto marginal de un cambio en el valor de las variables explicativas de-
pende del valor de la variable explicativa y en consecuencia se debe hacer explícito
el valor de x para el cual el efecto marginal es calculado.
Volviendo a los dos modelos que estamos analizando podemos observar que el
efecto marginal viene determinado de la siguiente forma :
(i) Logit. Aquí, por conveniencia definiremos E(yi ) = πi . DE esta manera, el
efecto marginal viene dado por :
∂πi ∂πi ∂ log πi (1 − πi )
= (10.56)
∂xj ∂ log πi (1 − πi ) ∂xj
= βj πi (1 − πi ) (10.57)
donde πi es la probabilidad de que ocurra el evento.
138
(ii) Probit. Los efectos marginales en este caso viene dados por la siguiente
expresión:
∂E(yi )
= φ(βx)βj (10.58)
∂xj
donde φ(βx) es la densidad normal estándar evaluada en βx. En general,
se evalúa el efecto marginal en la media de los valores de los xi . Sin em-
bargo, esto no es obligatorio pudiendo ser evaluadas las x para diferentes
arqueotipos que sean interesantes de estudiar.
Es posible usar estos dos valores para construir una prueba de likelihood ratio
LR de significancia conjunta de las variables xi :
2 ∼ χs
LR = −2[log L(0) − log L(β)] (10.59)
k
Una medida alternativa de ajuste viene dado por el índice de la razón de verosim-
itud
2
log L(β)
LRI = 1 − 0 ≤ LRI ≤ 1 (10.60)
log L(β = 0)
El LRI tiene la característica de que esta acotado por entre cero cuando todos
los coeficientes son iguales a cero. Ello pues cuando todos los coeficientes son cero
log L(β) = log L(β = 0)y la razón entre ambos es en consecuencia uno. Mientras
el poder explicativo del modelo aumenta, la función de verosimilitud tiende a la
unidad (i.e. cuando Fi = 1 cuando yi = 1 y Fi = 0 cuando yi = 0). Dado que el
logaritmo de uno es cero LRI tiende a uno.
Una medida alternativa es la Tabla de Aciertos y Fallos la cuales una tabla simple
de 2 x 2 la cual muestra la distribución de los valores actuales y predichos de y.
139
Veamos un ejemplo :
Predicha (F ∗ = 0,5)
y=1 y=0 Total
Actual y=1 471 16 487
y=0 183 20 203
Total 654 36 690
Necesitamos determinar qué constituye una predicción de que y = 1. Usualmente
definiremos el umbral por una regla como la siguiente :
=
y2 = 1 si F2 = E(yi ) > F ∗
y2 = 0 ∼
En otras palabras clasificamos el resultado de una estimación si su probabilidad
es mayor que un medio.
Hasta el momento hemos sugerido que tanto el Probit y Logit son alternati-
vas válidas al LPM para modelar situaciones de elección discreta. Aun no hemos
dicho nada acerca de cómo escogeremos entre los dos aunque en la práctica la
mayoría de los investigadores reportan los resultados de los tres modelos. Ello
es así, pues no existe una clara definición en la profesión acerca de cuál modelo
es preferible (entre logit y probit obviamente pues sabemos de que el LPM tiene
severos problemas).
La siguiente figura ilustra las dos formas funcionales no lineales para un conjunto
de parámetros dado. Como se puede observar los dos curvas son muy similares en
140
el rango del medio pero la función logit tiene colas mas anchas - la logit se parece
mas a una distribución t student acumulada. De esta forma, si la proporción de
éxitos en la muestra está entre 0.3 y 0.7 los dos modelos entregan resultados simi-
E(yi)
1
logit
probit
-infinito +infinito
lares.
No obstante, los estimadores de β a partir de los dos modelos no son directamente
comparables. Ello se produce dado que en el modelo probit se asume que σ 2 = 1
mientras que la varianza en el logit es π 2 /3 . Existe una correción para hacerlos
comparables. Al multiplicar los coeficientes del logit por 0,625 se pueden hacer
entonces comparables con los coeficientes del probit. En forma análoga, al multi-
plicar los parámetros de logit por 0,25 se obtoiene los parámetros del logit.
En resumen :
βlpm ≈ 0,25βl ≈ 0, 4βp (10.61)
Esta regla es válida para todos los coeficientes excepto la constante en el modelo
LPM (recordar que en logit y probit la constante es absorvida en X), dando la
siguiente regla :
αlpm ≈ 0, 25αl + 0, 25 ≈ 0,4αp + 0, 25 (10.62)
141
Capítulo 11
11.1. Resumen
1. Test de Especificación en Modelos de Elección Binaria
2. Datos Agrupados
11.2. Referencias
Greene Capítulo 19
142
en Davidson y MacKinnon (Journal of Econometrics, 1984) y los que también son
presentados en Greene 19.4
143
11.3.2. Heteroscedasticidad
Considere el siguiente modelo Probit heteroscedastico :
y
n
∂ log L ! fi (yi − Fi ) (−γ " zi )
= [ ]% zi (β % xi ) = 0 (11.11)
∂γ i=1
Fi (1 − Fi )
Dado que es una función de verosimilitud difícil de maximizar, estimamos el
modelo bajo la restricción de que γ = 0 y usamos un test de Multiplicador de
Lagrange para probar la restricción. La prueba de LM viene dada por :
LM = g % V g ∼ χ2[k] (11.12)
y
n
∂ log L ! fi (yi − Fi )
= [ ]zi (β % xi ) = 0 (11.14)
∂γ i=1
Fi (1 − Fi )
Resulta ser que se hace muy difícil estimar este modelo utilizando una especifi-
cación Logit (por la especificación de la función score) y de esta forma las pruebas
de heteroscedasticidad son generalmente llevadas a cabo utilizando un Probit.
144
11.4. Datos Agrupados
Hasta el momento hemos estado trabajando con datos sobre respuestas indi-
viduales donde cada observación en los datos relaciona la respuesta u acción de
un individuo en particular con un vector de regresores. No obstante, generalmente
deseamos utilizar datos agrupados donde observamos la proporción de respuestas
positivas entre un grupo de individuos los que comparten un conjunto común de
regresores.
El trabajo con datos agrupados permite aminorar muchos de los problemas aso-
ciados con el LPM el cual a menudo es usado en estas circunstancias aunque una
especificación Logit sigue siendo la especificación mas popular. Ver Greene 19.4.6
145
Caso Ejemplo
146
y
e(α2 +β2 xi )
E[yi2=2 ] = πi2 = $J (11.17)
1 + k=2 e(αk +βk xi )
y así sucesivamente. Esta normalización nos permite expresar la probabilidad
relativa de observar el resultado j = 2 con respecto a j = 1, de la siguiente
manera :
πi2
= e(α2 +β2 xi ) (11.18)
πi1
Esto puede ser pensado como un "multinomial odds ratio". Explotando la con-
veniencia de la función logistica podemos expresar el logaritmo del multinomial
odds ratio como :
πi2
log( ) = α2 + β2 xi (11.19)
πi1
!J
∂πj
= πj [βl − πk βk ] = πj [βl − β] (11.22)
∂xl k=1
147
El efecto marginal en el modelo logit condicional de McFadden son :
∂πj 3 ∂πj
= πj (1 − πj )β; = −πj πk β3 (11.23)
∂zj ∂zk
3 el vector de coeficientes estimados en (19).
donde βes
Suponga que estamos estudiando la elección entre tres diferentes medios de trans-
porte : auto, bus y una tercera opción. Considere primero que la tercera opción
es el metro. En este caso, una utilidad relativa mas alta de viajar en auto relativo
al bus no necesariamente implica que también sea mas preferible viajar en metro
con respecto al bus. Suponga ahora que la tercer alternativa es una auto azul y
que la primera alternativa es un auto rojo. El hecho de preferir (utilidad relativa
mas alta) el auto rojo con respecto al bus puede implicar una utilidad mas alta
también de viajar en auto azul con respecto al bus también. En otras palabras, la
probabilidad de que el auto rojo sea preferible al bus aumenta las probabilidades
de que el auto azul también sea preferible al bus. De esta manera los parámetros
de las alternativas no son independientes entre sí.
148
alternativas, entonces :
H0 : Elecciones alternativas βs es consistente y eficiente
son irrelevantes βf es consistente y ineficiente
El umbral Aj no puede ser observado pero puede ser estimado junto con α, β por
máxima verosimilitud si asumimos una forma funcional del modelo. Obviamente
el modelo probit multinomial asume de que la función tiene una distribución
normal estándar. Al normalizar como lo hicimos en el caso de la multinomial
logit, las probabilidades del modelo se derivan como sigue :
P rob(yi = 0) = Φ(−α − βxi ) [obien = 1 − Φ(α + βxi )]
149
P rob(yi = 1) = Φ(A1 − α − βxi ) − Φ(−α + βxi )
P rob(yi = 2) = Φ(A2 − α − βxi ) − Φ(A1 − α + βxi ) (11.26)
.
.
.
P rob(yi = 5) = 1 − Φ(A5−1 − α − βxi )
Ver figura siguiente donde existen tres categorías y por ende un solo umbral
Efectos Marginales
Los efectos marginales de cambios en los regresores vienen dados por las siguientes
150
expresiones :
∂P r(Y = 0)
= −φ(β % x)βk
∂xk
∂P r(y = 1)
= [φ(−β % x) − φ(A1 − β % )]βk (11.27)
∂xk
∂P r(y = 2)
= φ(A1 − β % x)βk
∂xk
151
Capítulo 12
12.1. Resumen
1. Introducción a las Variables Dependientes Limitada
3. Truncación
4. Censura
12.2. Referencias
Greene Capítulo 20
12.3. Introducción
Existen variados casos donde, debido a la manera en que los datos son recolec-
tados, tenemos información incompleta acerca de la conducta de ciertos elementos
de la muestra. Si esta información faltante es sistemática entonces los modelos
que ignoren este hecho, estarán cometiendo un problema de sesgo sistemático.
En esta sección examinaremos algunos casos especiales de estos fenómenos. Estos
son :
152
Truncamiento: cuando una muestra está sistemáticamente restringida a sólo
una parte de la población. Por ejemplo, una muestra que sólo incluya observa-
ciones de gente empleada, o gente sobre una cierta edad, etc. El que la trun-
camiento importe, obviamente dependerá de la pregunta que se quiera responder
con la investigación.
donde φ(z) se usa como notación para la distribución normal estándar y Φ(z)
para la función normal acumulada. Existen un conjunto de propiedades de la
153
normal estándar que serán de gran utilidad en las secciones que siguen.
A1 φ(−z) = φ(z)
phi(z)
A2 . dz = −zφ(z)
1 1
A3 f (x) = φ[(x − µ)/σ] = φ(z)
σ ; σ a
A4 Φ(a) = P r(z < a) = φ(z)dz
−∞
A5 Φ(−a) = 1 − Φ(a) = P r(z > a)
12.4. Truncamiento
El truncamiento ocurre cuando la muestra es restringida sólo a una parte de
la población de tal manera que sólo observamos las variables X e Y dentro de ese
rango restringido.
f (x)
f (x|x > a) = (12.3)
P r(x > a)
Esta definición asegura que la densidad truncada sume 1 sobre el rango restringi-
do. Ver el gráfico siguiente:
154
Muchas de las aplicaciones que veremos en adelante utilizan la distribución normal
truncada. Si X se distribuye normal con media µ y desviación estándar de σ
entonces de A5 se obtiene que :
(a − µ)
P r(x > a) = 1 − Φ[ ] = 1 − Φ(α) (12.4)
σ
donde α = ( a−µ
σ
). De esta forma usando A3 tenemos que:
f (x)
f (x|x > a) = (12.5)
[1 − Φ(α)]
1 x−µ
= φ(z)[1 − Φ(α)] con z = ( )
σ σ
De la figura anterior se puede notar que si la truncamiento es por debajo, la media
de la distribución truncada es mayor que la original y viceversa si la truncamiento
155
es por arriba. En forma similar, la varianza de la distribución truncada es menor
que la original.
donde
λ(α) = φ(α)/[1 − Φ(α)]
si el truncamiento es de la forma x > a, y
λ(α) = −φ(α)/Φ(α)
donde
λ(α)
δ(α) = 0 < δ(α) < 1 ∀α
[λ(α) − α]
lo que implica que la varianza de una distribución truncada es siempre menor que
la varianza de la distribución sin truncar.
156
12.4.2. La Regresión Truncada
Habiendo dicho algo sobre la estructura de las distribuciones truncadas pode-
mos ahora estimar modelos usando muestras truncadas. Suponga que empezamos
con nuestro modelo genérico, utilizando notación matricial y absorbiendo la con-
stante dentro de la matriz X (mediante una columna de unos) tenemos :
Si nuestra muestra está truncada de alguna forma podemos utilizar los resultados
anteriores para legar a la siguiente expresión :
a − βxi
E(yi |yi > a) = βxi + σλi (αi ) αi = ( ) (12.9)
σ
Notar que a es el punto de truncamiento (y αi el valor estandarizado) y no la
constante del modelo, la cual se asume que está en X).
157
Así, se tiene que :
El aspecto importante de este resultado es que dado que 0 < δ(α) < 1 para todo
α , entonces con una distribución truncada el efecto marginal de un cambio en el
valor de xj es menor que su correspondiente coeficiente.
158
Estimación
Suponga que corremos un modelo de mínimos cuadrados ordinarios de y sobre
x pero utilizando una muestra truncada. Si el verdadero modelo viene dado por
(8) entonces el modelo OLS tendría un problema de sesgo por variable omitida :
el efecto del truncamiento λi .
Mas aún, dado que el término de error en el modelo OLS está también trun-
cado ( i.e. como función de α ) entonces a partir de (8) podemos ver de que el
modelo tendrá un error heteroscedastico.
159
La alternativa natural a la estimación por OLS es Máxima Verosimilitud. Me-
diante (5) la función de densidad de yi viene dada por:
1
− βxi )/σ)
φ((yi
f (yi |yi > a) = σ
(12.13)
1 − Φ((a − βxi )/σ)
donde αi = (a−βx
σ
i) φ(αi )
y λi = [1−Φ(α i )]
. Estas pueden ser resueltas y asi entregar los
estimadores ML para los parámetros β, σ 2 y el inverse mills ratio λ(α).
1. Inversión.
Debería resultar claro que el sesgo que surge a partir de la restricción sobre el
rango observable para y dependerá de la probabilidad de caer fuera del rango (i.e.
por debajo del nivel de umbral). Ver figura. Dado que sabemos que eliminar las
160
observaciones en que la variable dependiente cae por debajo del umbral resultará
en un problema de muestra truncada. Necesitamos en consecuencia algún método
que nos permita trabajar con esta situación de censura en la muestra sin tener
que eliminar información valiosa al reducir la muestra censurada a una truncada.
y ∗ ∼ N (µ, σ 2 ) (12.16)
y = a si y ∗ ≤ a
y = y∗ en otro caso
Aquí, y ∗ es una variable (parcialmente) latente la cual es observable sólo para
valores sobre el umbral. Muchas veces se encontrará que el umbral se define
como cero, la cual es una normalización conveniente. La distribución total de
una variable censurada puede ser pensada como una combinación de dos partes :
la primera que corresponde a un componente discreto el cual toma todo el peso
del componente censurado de la distribución en un solo punto; y la segunda,
una componente continua para el rango de valores de Y para la cual existe una
distribución (truncada).
161
De esta forma, se tiene que :
donde α = a−µ
σ
y λ(α) como se definió en (6).
162
cuando existe un punto de censura fijo). Por ahora nos concentraremos sólo en el
modelo tobit (su nombre se refiere al "Tobit Probit Model"). Asumiremos, por
conveniencia, que el punto de censura es normalizado a cero lo que nos permitirá
especificar el modelo de la sigueiente manera :
La media de una distribución censurada viene dada por (18) para el caso en
que el umbral a = 0
E(yi ) = P r(yi = 0)E(yi |yi = 0) + P r(yi > 0)E(yi |yi > 0) (12.18)
donde :
φ( 0−βx
σ
i
)
λi =
[1 − Φ( 0−βx
σ
i
)]
φ( βxσ i )
λi = (12.20)
Φ( βxσ i )
Segundo, con respecto a el término P r(yi > 0) podemos notar que :
P r(yi > 0) = P r(%i > −βxi ) = P r(%i < βxi ) = Φ(βxi /σ) (12.21)
163
lo que implica que :
E(yi ) = Φ(βxi /σ)[βxi + σλi ] (12.23)
donde, al igual que antes :
φ( βxσ i )
λi =
Φ( βxσ i )
∂E(yi |xi )
= βj Φ(βxi /σ) (12.24)
∂xj
Note que, como se esperaba, los efectos marginales son funciones no lineales de x
y σ.
Para el segundo caso, los efectos marginales vienen dados simplemente por :
∂E(yi∗ |xi )
= βj (12.25)
∂xj
164
12.5.4. Estimación del Modelo Tobit
La estimación sobre toda la muestra de datos bajo OLS entrega estimadores
inconsistentes y así los investigadores utilizan la forma de ML para realizar es-
timaciones consistentes de los parámetros. Para elmcaso del Tobit, la función de
verosimilitud en logaritmo (log-likelihood) viene dada por :
! 1 (yi − βxi )2 !
log L = [− log(2π) + log(σ 2 ) + ] + log[1 − Φ(βxi /σ)] (12.26)
y >0
2 σ2 y =0
i i
165
la cuales una mezcla de una función contínua para aquellas observaciones no cen-
suradas ( la primera sumatoria) y una distribución discreta para las observaciones
censuradas (el segundo término). Esta es una expresión compleja pero manejable
( la instrucción en STATA se denomina heckman), sin embargo la mayoría de los
trabajos empíricos también reportan las estimaciones por OLS con fines compar-
ativos.
Resultado (empírico)
Parece ser que los estimadores OLS son menores en valor absoluto que aquellos
estimados por MLE. Existe una regularidad empírica la cual sugiere que los es-
timadores MLE pueden ser aproximados al dividir los estimadores OLS por la
proporción de observaciones que caen fuera del rango de censura. La estimación
por OLS realizada solo sobre las observaciones censuradas entrega estimadores
sesgados e inconsistentes. Existe un método de facil aplicación para estimar el
modelo tobit mediante el uso OLS çorregido"propuesto por Heckman en 1979.
Dado que generalmente este método es utilizado para el problema de Sesgo de
Selección primero disctutiremos este problema en detalle y después nos abocare-
mos al procedimiento de Heckman.
166
donde ρ es el coeficiente de correlación. La densidad conjunta truncada de y y z :
y
V ar(y|z > a) = σy2 (1 − ρ2 δ(αz ))
donde, como antes, µy y µz son las medias de y y z, σy , σz las desviaciones
estándar; αz = (a−µ
σz
z) φ(αz )
; λ(αz ) = 1−Φ(α z)
el IMR y con δ(αz ) = λ(αz )/(λ(αz ) − αz ).
Podemos ver por qué esto es así de la siguiente manera. Suponga que tenemos un
modelo de regresión de la siguiente forma :
yi = βxi + %i (12.27)
el cual puede representar una relación entre ganancias (y) y un vectorde otras
variables (x). Sin embargo, suponga de que observamos yi solo si zi = 1 donde :
:
1 si yi ∗ > 0
zi
0 en otro caso.
y
zi∗ = γWi + ui (12.28)
donde z ∗ es una variable latente no observable. La ecuación (30) represeta un
mecanismo de selección y la ecuación (29)puede ser re especificada como una
regresión truncada condicional en que zi = 1.
167
este caso es uno de ML. Una alternativa conveniente (parcialmente lineal) es el
procedimiento alternativo de Heckman en dos etapas. Este último entrega esti-
madores consistentes aunque no completamente eficientes y se implementa de la
siguiente manera :
Paso 1: Estime un modelo Probit para la regla de selección en (30) de tal forma
de producir un estimador máximo verosímil de γ. Utilizando este valor calcule
para cada observación de la muetra :
2i = φ(2
λ
γ Wi )
(se asume que γu = 1) (12.30)
Φ(2
γ Wi )
168
ver en la ecuación (26), existe sólo un coeficiente para el valor de cualquier vari-
able explicativa en el caso del Tobit simple.
donde hemos permitido de que los coeficnites asociados a las variables puedan
difereir no solo en su valor sino también en su signo. Podemos entones testear
la restricción (del Tobit simple) de que γ = β usando una prueba de LR de la
siguiente forma :
Lr = −2[log Lt − (log Lp + log Ltr )] ∼ χ2k
donde Lt es la verosimilitud del Tobit; Lp la verosimilitid del Probit y Ltr la
verosimilitud de la regresión truncada.
12.7.1. Heteroscedasticidad
Recordemos el modelo de regresión lineal hetroscedastico estándar
yi = βxi + %i = f (xi ) + %i (12.32)
donde E(%i ) = 0, E(%2i ) = σ 2 g(zi ) Sabemos de que los estimadores de los
parámetros de la regresión (ie la media condicional) son insesgados pero inefi-
cientes. Esto tiene que ver con con la característica de de linealidad aditiva del
modelo de tal forma que es posible separar los parámetros que determinan la
expresión para la media condicionla (ie f (xi ) ) de aquellos que están detrás de la
determinación de la precisión de dichos estimadores, g(zi ).
Puede resultar claro de que si la varianza del modelo es contante, entonces puede
sacarse de la función Φ() en el segundo término de la función de verosimilitud.
169
12.7.2. No Normalidad
Vimos anteriormente de que todos los resultados de inferencia a partir de
muestras truncadas dependen crucialmente sobre la estructurade los errores en
el modelo de variable latente. Típicamente cuando los errores no son normales
entonces los estimadores de parámetros ( de los coeficientes, varianza y IMR)
serán inconsistentes.
170
Capítulo 13
13.1. Resumen
1. Introducción a Datos de Panel y modelos con heterogeneidad
2. Modelos de Efectos Fijos y Efectos Variables :Modelos de Una Componentes
y Modelos de Dos Componentes
3. Efectos Fijos versus Efectos Variables : Prueba de Especificación de Haus-
man
4. Extensiones
13.2. Referencias
Greenne, Capítulo 14
Hsiao, Analysis of Panel Data, Econometric Society Monograph Cambridge
University Press (1986.)
Baltagi, Econometric Analysis of Panel Data, John Wiley (1995).
13.3. Introducción
Un conjunto de datos de panel o longitudinales es aquel que sigue indi-
viduos (firmas o paises) a través del tiempo y en consecuencia entrega múltiples
observaciones para cada individuo. Así, datos de panel es la unión de datos en
serie de tiempo y de corte transversal. El análisis de la de conductas utilizando
datos de panel es una de las áreas más atractivas de la econometría. En esta y la
siguiente clase daremos una introducción a este tema.
171
13.3.1. ¿ Porqué usar Datos de Panel ?
Mas observaciones
Un panel contiene NT observaciones. Por convención, indexaremos la dimen-
sión temporal como t = 1 · · · T y la dimensión transversal como n = 1 · · · N . Típi-
camente T es relativamente pequeño mientras N es relativamente mayor. Notar
que incluso si T = 2 tendremos un panel que puede ser utilizado para realizar
estimaciones. El aumento en el número de observaciones aumentará el número
de grados de libertad, reducirá el grado de colinealidad muestral y aumentará la
eficiencia de cualquier estimador que se obtenga.
172
que logra es sacar completamente a Suecia de la muestra lo que no es satisfacto-
rio. Este no será el caso para datos de panel, como veremos en seguida.
173
se sigue de que modelos estándar de panel no pueden tampoco manejar este
problema (ya que no tenemos suficientes grados de libertad). Ver Figura.
Cuando tenemos datos de panel existen dos situaciones en las cuales podemos
controlar (i.e. corregir) por este problema de omisión de variable.
174
(i) Caso donde zit = zi para todo t de tal forma de que las variables Z son
constantes en el tiempo pero que sólo difieren entre individuos. Así, podemos
tomar las primeras diferencias de (1) con respecto al tiempo para obtener :
(ii) Caso donde zit = zt para todo i de tal manera de que las variables Z son
ahora comunes para todos los individuos. De esta manera, podemos tomar
la desviación de la observación de cada individuo sobre la media entre todos
los individuos (en cada período), de la siguiente forma :
175
Medición del Error Compuesto
En aquellas situaciones en que medir el término de error es un problema, esto
puede simplificarse o bien exacerbarse cuando se utilizan datos de panel.
donde %it es una medida del error con media cero y varianza seccional igual a ω.
Caso (ii) Suponga que los errores de medición no están correlacionados en el tiempo
( ρ = 0 ). En este caso, encontraremos de que al diferenciar la varianza en el
error de medición será duplicada. Si la varianza del verdadero valor de X es
relativamente baja (e.g. existe una persistencia en el tiempo en X) entonces,
al diferenciar los datos significará que la "señal"es absorbido por el ruido".
En general, notar de que si ρ < 0,5 al diferenciar los datos tendrá un efecto
desproporcionado sobre la varianza del error en la medición relativo a la
varianza propia de la variable en sí.
176
Sesgo de Respuesta Sistemática y Reducción Sistemática
El primer sesgo surge al tener que visitar en forma reiterada al mismo in-
dividuo y las respuestas pueden entonces ser endógenas; las personas tienden a
exagerar. El segundo sesgo está relacionado con el hecho de que las los hogares
o individuos entrevistados en el pasado pueden ya no serlo en el presente ya que
o bien murieron, quebraron, dejaron de ser pobres, etc, lo que puede introducir
un sesgo hacia atrás. Esto se puede corregir con los denominados pseudo-paneles,
tópico que está fuera del alcance de este curso.
El two way error component model se asume de que la estructura del error
se define de la siguiente manera :
uit = µi + λt + υit , υit ∼ iid(0, σµ2 ) (13.11)
donde, nuevamente, µi denota efectos individuales específicos no observables y
donde λt denota efectos temporales no observables. Estos efectos se asumen que
son comunes entre individuos pero que varían en el tiempo. Ejemplos incluirían
variaciones en el clima o cambios en la política económica en general.
177
13.5. El One Way Error Component Model
Podemos re escribir (9) en forma vectorial de la siguiente forma :
Y = α1N T + Xβ + u = Zδ + u (13.12)
u = Zµ µ + υ (13.13)
Q = IN T − P
178
Al sustituir (13) en (12) tenemos que:
y = α1N T + Xβ + Zµ µ + ν = Zδ + Zµ µ + ν (13.14)
Podemos usar OLS sobre (14) para generar estimadores de α y el vector de β y
µ al incluir (N − 1) variables dummy para los efectos fijos no observados. Esta
estimación generalmente se conoce con Estimador Minimo Cuadrático de
Variables Dummy (LSDV). Cada uno de los coeficientes sobre µi miden la
diferencia de los efectos individuales con respecto a un individuo base de com-
paración ( representado por α).
179
Resultados
Si (14) es el verdadero modelo, el estimador de efectos fijos es BLUE sólo
mientras vit tenga las características Gausianas estándar. A medida de que T
tiende a infinito, entonces el modelo es consistente para todos los parámetros del
modelo. Sin embargo, si T es fijo y N tiende a infinito, entonces el estimador FE
de β será consistente. El estimador FE de los efectos individuales (α + µi ) no
son consistentes dado que el número de parámetros aumenta a medida de que N
aumenta.
Ho = µ1 = µ2 = · · · µN −1 = 0 (13.19)
(rrss − urss)/(n − 1)
FF E = ∼ F[n−1,nt−n−k] (13.20)
urss/(nt − n − k)
180
"efecto individual"de cada persona persiste en el tiempo). En particular, sea :
Así, si i = j y t = s entonces se tiene que la Cov(uit , ujs ) = σµ2 + σv2 . POr otro
lado, si i = j pero t $= s entonces se tiene que la Cov(uit , ujs ) = σµ2 y cero en otro
caso. Por extensión, tenemos lo siguiente :
σµ2
ρ = Corr(uit , ujs ) = para i = j; t $= s
(σµ2 + σν2 )
y cero en otro caso. Esto sugiere que ante la presencia de efectos aleatorios, la
matriz de varianzaas covarianzas para el modelo de datos de panel no será del
tipo "Gaussiano". Para proceder con la estimación necesitaremos analizar la es-
tructura de esta matriz.
Con esta definición podemos entonces aplicar a (14) el estimador GLS están-
dar para derivar los estimadores de los coeficientes de α, β bajo el supuesto de
efectos aleatorios:
δ2GLS = [X % Ω−1 X]−1 [X % Ω−1 y] (13.25)
El único problema (y uno no trivial) es que Ω es de rango (N T × N T ) y la in-
versión de esta matriz es extremadamente difícil. Un sinnúmero de trucos se han
desarrollado para salvar esta traba.
181
La forma de resolución a este problema mas popular introduce los denomina-
dos estimadores Entre Grupos (BG) el cual regresiona un conjunto de observa-
ciones consistentes en el promedio a través del tiempo para cada una de las N
observaciones :
%
y i. = α + X i. β + ui i = 1, ...N (13.26)
donde :
T
1!
y i. = yit
T t=1
El estimador entre grupos puede ser derivado al aplicar la matriz P a nuestro
modelo básico en (14) :
Este estimador se denomina entre grupos pues ignora cualquier variación al in-
terior del grupo ( o individuo) en el tiempo y utiliza, lo que efectivamente es un
resumen de la información de corte transversal simple sobre la variación entre los
grupos ( o individuos).
Maddala (Econometrica, 1971) muestra de que el estimador GLS puede ser ex-
presado como :
2 (X % QX) X % (P − J N T )X −1 (X % Qy) X % (P − J N T )y
βGLS = [ + ] [ + ] (13.29)
σν2 σ12 σν2 σ12
Podemos simplificar la expresión anterior mediante la siguiente notación. Sea
WXX = X % QX, WXY = X % Qy, BXX = X % (P − J N T )X, BXY = X % (P − J N T ) y
2
finalmente, φ2 = σσν2 .
1
182
con Θ = [WXX + φ2 BXX ]−1 WXX . El estimador GLS en (31) es un promedio
ponderado entre los estimadores entre grupos e intra grupo. El parámetro clave
en la ponderación es Θ. Pueden existir tres casos diferentes:
(i) A medida de que T tienda a infinito, entonces φ2 tenderá a cero, y por tanto
Θ a la unidad. En este caso, el estimador GLS tenderá al estimador intra
grupo o el estimador LSDV.
La primera opción es usar una estimación máxima verosímil interativa. Bajo los
supuestos de normalidad para σµ2 y νit podemos escribir la función de verosimili-
tud de la siguiente manera:
NT N 1
log L(α, β, φ2 , σν2 ) = constante − log σν2 + log φ2 − 2 u% Σ−1 u (13.32)
2 2 2σν
183
entre grupos ( ya que suprime el efecto intra grupo). Estos estimadores consis-
tentes pueden ser sustituidos en el estimador GLS.
Resumen
El método de estimación a ser usado dependerá en si asumimos de que los efectos
individuales sean fijos o aleatorios. Resulta ser de que los valores para los parámet-
ros β pueden variar dramáticamente, en el caso mas común donde N es grande
y T pequeño, entre estimadores intra o entre grupos. Cuando sólo existen pocas
observaciones en el tiempo resulta mejor usar los elementos de corte transversal
de los datos para estimar aquella parte de la relación que contenga variables que
difieren entre un individuo al otro (el estimador entre grupos). Ello permite de
que la parte de serie de tiempo de los datos sea usada en forma eficiente de tal
manera de rescatar la parte común de dicha relación entre individuos.
184
los efectos y las variables xi , el estimador GLS será sesgado. En contraste, el esti-
mador intra grupo (efecto fijo) será consistente y BLUE (pero nó asintóticamente
eficiente) bajo la alternativa y consistente bajo la nula. La prueba de Hausman
pregunta simplemente si existen diferencias significativas entre los estimadores
GLS y intra grupo y viene denotado de la siguiente forma :
u = Zµ µ + Zλ λ + ν (13.35)
Podemos usar no obstante, una versión modificada del estimador intra grupo
mediante una transformación que "saque"los efectos de µi y λt . Re definiendo la
transformación Q tenemos :
Q = IN ⊗ I T − I N ⊗ J T − J N ⊗ I T + J N ⊗ J T (13.36)
185
Esta transformación significa que el típico elemento del vector y viene dado por :
y3 = (yit − y i. − y .t + y) (13.37)
donde el segundo término de la expresión a la derecha promedia a través del
tiempo ( y en consecuencia saca el efecto temporal); el tercer término promedia
entre individuos para el mismo período ( asi sacando el efecto individual); mien-
tras que la última expresión promedia los efectos entre los individuos y entre los
períodos de tiempo (recuperando la variación no explicada de los efectos individ-
uales y temporales). Aplicando esta transformación al término de error tenemos
el siguiente resultado importante :
3it = (uit − ui. − u.t + u.. ) = (νit − ν i. − ν .t + ν .. )
u (13.38)
Podemos entonces estimar los parámetros de interés como :
β3 = (X % QX)−1 X % y (13.39)
con la estimación del intercepto común como sigue :
3 ..
3 = y .. − βX
α (13.40)
(ver Baltagi pp.28 para una derivación completa )
186
Cov(uij , ujs ) = σλ2 si i $= j, t=s
El estimador de efectos aleatorios es de nuevo un estimador GLS y, como en el
caso del modelo de one way eror component, podemos utilizar el estimador pon-
derado de Maddala en el cual tenemos dos estimadores "entre". Así existirá e
tradicional estimador Intra Grupo (usando la ecuación (38)) derivado a partir de
la aplicación del la matriz de selección Q1 ; el estimador intergrupos individual el
cual es derivado de la regresión: (y i. − y .. ) sobre (xi. − x.. ) utilizando la matriz de
selección Q2 ; y el tercer estimador intergrupos temporal el cual se deriva de la
regresión entre(y .t − y .. ) sobre (x.t − x.. ) utilizando la matriz de selección Q3 .
β2GLS = [WXX + φ22 BXX + φ23 CXX ]−1 [WXY + φ22 BXY + φ23 CXY ] (13.43)
Si σµ2 = σλ2 = 0 implica de que φ22 = φ23 = 1 y así el estimador GLS tenderá
al OLS.
187
13.7. Extensiones
El modelo básico puede ser extendido en varias direcciones. Estas son discu-
tidas en forma extensa en el Hsiao y en Baltagi y están fuera del alcance de este
curso. Entre las mas interesantes se tiene :
188
Capítulo 14
Macroeconometría: Series de
Tiempo.
14.1. Introducción
Uno de los principales aspectos de la economía está vinculado con la relación
entre variables en el tiempo como también en cualquier punto del tiempo. Por
ejemplo, podríamos estar interesados no sólo en la relación entre el nivel de inver-
sión y la tasa de interés hoy en día sino que también la manera de cómo la tasa
de interés hoy afecta el nivel de inversión mañana. El análisis de relaciones in-
tertemporales es central en nuestra comprensión de la conducta económica como
la optimización inter temporal, aprendizaje, la conducta ante costos de ajuste, por
nombrar algunos. También resulta ser un aspecto fundamental para formalizar las
nociones de equilibrio en un sistema dinámico y los ajustes hacia dicho equilibrio.
189
14.2. Resumen
1. Definiciones y terminología
2. Definición de Estacionariedad
4. Orden de integración
14.2.1. Referencias
Enders Capítulos 1-4
Hamilton Capítulos1-3,15
Hendry Capítulos 2 y 4
c(z) = 1 − bz = 0 (14.3)
190
la que entrega una sola raíz igual a z = 1/b la cual es mayor que la unidad si
|b| < 1.
Considere ahora un proceso AR(2) particular, el que tiene las siguiente estructura:
c(z) = 1 − 0, 6z − 0, 3z 2 = 0 (14.5)
Resolviendo para las raíces z, encontramos que éstas son iguales a 1.0816 y -
3.0816 ambas mayores que uno en valor absoluto lo que significa que la serie es
convergente.
Suponga que los valores de los parámetros b1 y b2 fueran 0.5 y 0.7 respectiva-
mente, entonces las raíces serían 0.8903 y -1.6046. Ya que una de estas raíces es
menor que uno en valor absoluto entonces la ecuación sería explosiva.
para que la serie sea estacionaria. Para procesos mas complejos, no podemos decir
tan fácilmente si la series será convergente o explosiva.
Una característica importante de las series de tiempo es que puede también ser
visto ya sea como una regresión sobre valores pasados con un término de error
aditivo (el AR) o como la agregación de errores pasados (el MA). Para ver esto
podemos re expresar el proceso AR(1) como :
yt = µ + γyt−1 + %t
yt (1 − γL) = µ + %t (14.6)
191
AR(1) puede ser reexpresado de la siguiente forma :
! n
µ
yt = + γ i %t−1 (14.7)
(1 − γ) i=o
de tal manera de que shocks antiguos tienen una ponderación igual en la deter-
minación del valor actual de yt . Una serie que cumple con estas características
se conoce como un paseo aleatorio (random walk). Debería resultar evidente de
que el cambio en el valor del paseo aleatorio es una serie con memoria corta :
∆yt = %t (14.10)
Esta distinción entre series de memoria corta y series con memoria larga está
directamente relacionado con el valor de γ en el proceso AR ( i.e. con la raíz).
Esta es la principal distinción entre estacionariedad, no estacionariedad y orden
de integración.
192
y la varianza) son independientes del tiempo. No obstante, en la práctica nos con-
centraremos en los casos de estacionariedad débil, de segundo orden y covarianza.
Definición 2
Se dice de que una serie es estacionaria en covarianza si :
E(yt ) = µ ∀ t
V ar(yt ) = γ0 ∀ t (14.11)
Cov(ys , yt ) = γk
esto es, que el valor esperado de la serie no depende de t como así también su vari-
anza. Por otra parte, γk está en función de t−s pero no de t o s en forma separada.
caen fuera del círculo unitario. Esto es equivalente a decir de que el polinomio es
invertible. Para ver esto, el proceso ARMA (p,q) puede ser expresado como :
! !
yt = γi yt−i + θj %t−j con θo = 1 (14.13)
i j
γ(L)yt = θ(L)%e
donde ! !
γ(L) = 1 − γi L i y θ(L) = 1 + θj Lj (14.14)
i j
193
y, si el valor absoluto de estas raíces son cada una de ellas en forma separada
mayores que uno entonces se dice de que el polinomio es invertible y que el pro-
ceso ARMA es en consecuencia estacionario. De no cumplirse estas condiciones,
entonces la serie es no estacionaria.
yt = αyt−1 + µt y0 ≡ 0 (14.16)
La serie será estacionaria si |α| < 1. Como se dijo, series estacionarias tienen una
varianza finita, sufren de innovaciones transitorias en torno a la media y poseen
una tendencia a volver a su valor medio. Por otra parte, como se vió, el valor de
la media es independiente del tiempo.
Una serie es no estacionaria si |α| ≥ 1 lo que implica de que tiene a lo menos una
raíz unitaria. Series no estacionarias tienen una varianza que es asintóticamente
infinita, la serie raramente cruza su valor medio ( en muestras finitas) y las inno-
vaciones en la serie son permanentes.
194
14.6. Orden de Integración
Resulta común hoy en día referirse a la estructura de una serie de tiempo en
términos de su orden de integración el cual entrega una relación directa con la
estacionariedad de una serie de tiempo.
Definición 3
Se dice que una serie está integrada de orden d si tiene una representación esta-
cionaria invertible ARMA (p,q) después de haber diferenciado la serie d veces la
cual no es estacionaria después de haber diferenciado la serie d − 1 veces. Este
tipo de series se denota xt ∼ I(d) donde d es el orden de integración.
Definición 4
Una serie integrada de orden d puede ser descrita como teniendo una repre-
sentación ARIMA (p, d, q).
Por ejemplo, una serie estacionaria se denota como una serie I(0), un paseo
aleatorio es I(1). Al diferenciar una serie I(1) se obtiene una serie que es I(0)
o estacionaria mientras que una serie que es I(2) deberá ser diferenciada dos ve-
ces para que resulte ser estacionaria. No obstante, la diferenciación de una serie
I(0) dará otra serie I(0).
195
es si, y puede ser ilustrado con dos ejemplos. El primero de ellos es lo que se
denomina regresión espúrea y el segundo ejemplo es el problema de la regresión
inconsistente.
Suponga dos series x e y, para las que se sabe que son paseos aleatorios sin
correlación alguna :
Ecuacion (21)
Variable Dependiente : yt
Estimación por OLS
Muestra:1950(1)-1974(4)
196
Es importante notar de que este problema no está relacionado con la muestra,
mas aún al aumentar el tamaño de la muestra la correlación espúrea empeora
(existe mas correlación). Problemas similares estarán reflejados en el estadístico
F el cual progresivamente rechaza la nula H0 = βo = β1 = 0.
Sin embargo, una forma para detectar la presencia de correlación espúrea es me-
diante el uso de estadísticas de autocorrelación, en particular el DW. Si no existe
ninguna relación entre las series entonces el DW tendería a converger a cero a
medida de que la muestra tienda a infinito. Cuando exista una correlación gen-
uina, entonces este estadístico tenderá a converger a un valor finito. Existe una
buena regla de aproximación para detectar correlación espúrea y es al comparar
el valor relativo entre R2 y DW . Si R2 > DW existirá una probabilidad creciente
de que exista correlación espúrea.
yt = α0 + β1 zt + %t (14.22)
donde y ∼ I(1), z ∼ I(0) . La siguiente tabla compara los valores de los coefi-
cientes para la regresión sobre la muestra completa y también al particionar la
muestra en dos grupos.
Las grandes diferencias en los valores de los coeficientes sobre diferentes sub mues-
tras es característico de una regresión inconsistente y es causada principalmente
por el hecho de que la variable dependiente y la variable independiente tienen
diferentes orden de integración. Claramente si se desea de que la inferencia sea
válida y no dependiente del tiempo, entonces todas las variables en el modelo
deberán tener el mismo orden de integración. Lo que nos queda, eso sí, es deter-
minar la manera de cómo se realizan estas pruebas del orden de integración de
una serie de tiempo.
197
14.8. Pruebas para el Orden de Integración de una
serie : Algunos tests estándar
Considere el siguiente DGP el cual tiene la siguiente forma :
La prueba del orden de integración de una serie es simplemente probar el valor del
coeficiente α en la ecuación (23). Si este resulta ser menor que la unidad entonces
la serie es estacionaria; si es igual o mayor que uno se dice entonces que y tiene
(al menos) una raíz unitaria y es en consecuencia no estacionaria.
Esto puede ser testeado al construir una prueba de t-student contra la nula de que
H0 : α = 1. Sin embargo, cuando estamos testeando contra esta hipótesis nula
la distribución límite de esta prueba no es una distribución t-student estándar.
En la práctica la distribución es sesgada hacia la izquierda con la mayoría de su
masa menor que cero y de esta forma rechazaremos la nula demasiado a menudo.
La prueba en (24) es aplicada ahora sobre ∆yt−1 y en vez que sobre yt−1 . El
rechazo de la nula confirmaría de que lo que implica de que yt ∼ I(1), en otras
palabras la serie contiene sólo una raíz unitaria. El proceso de diferenciación y
prueba continua hasta que la nula (revisada) sea rechazada. El número de difer-
enciaciones sobre yt requeridas para llegar a una representación estacionaria es
igual al orden de integración de la serie.
198
Una aspecto importante de la prueba de DF es que es una prueba no- similar lo
que significa que los valores críticos de la prueba son dependientes de la forma
del modelo bajo la nula. En particular, se consideran tres forma alternativas de
especificación :
199
14.8.2. Prueba de Dickey-Fuller aumentado
Una de las deficiencias del test de DF es que necesariamente asume de que el
DGP es un proceso AR(1) bajo la nula. De no ser así, entonces la autocorrelación
en el término de error sesgará el test. Con el fin de salir al paso de este problema
se puede utilizar la prueba t de Dickey-Fuller Aumentado. El ADF es idéntico al
DF estándar pero se construye en el contexto de una regresión del siguiente tipo
:
j
!
∆yt = ρyt−1 + γj ∆yt−j + ut (14.25)
j=1
La selección del largo del rezago j debe asegurar de que el término de error se
distribuye como ruido blanco. El criterio de Información de Akaike (o la prueba
de Schwartz) puede considerarse para estimar el largo óptimo del rezago en (28).
200
14.9. Pruebas Adicionales del Orden de Integración
de una Serie.
La prueba ADF da cuenta de la potencial no normalidad del término de error
en (23) al re especificar la regresión estimada. Una forma alternativa para probar
la presencia de raíz unitaria en una serie es al çorregir"la prueba simple t de DF
sin tener que agregar parámetros adicionales al modelo. Los mas conocidos son las
pruebas de Phillips-Perron (PP); Kwiatowski, Phillips, Schmidt, Shin (KPSS) y
la prueba de "Prueba de Razón de Varianzas"de Cochrane ( la cual no veremos).
yt = α + ρyt−1 + ut (14.27)
201
Paso 1: Estimar α y ρ en (30) por OLS estándar, asi como también el error
estándar ρ de que se denota σp , y por OLS el error estándar de la regresión s.
202
14.9.2. La prueba de Kwiatowski, Phillips, Schmidt y Shin
(KPSS)
Hasta el momento nos hemos concentrado en pruebas donde la nula es sobre
la no estacionariedad en series de tiempo univariadas. Sin embargo, pruebas es-
tándar de raíz unitaria tienen en general poco poder contra la nula de que la serie
tiene una raíz unitaria. De esta manera, tendemos a concluir (incorrectamente)
de que la mayoría de las series de tiempo macroeconómicas aparecen teniendo
raíz unitaria.
203
:
yt = αt + γt + %t %t ∼ niid(0, σt2 ) (14.32)
donde
γt = γt−1 + νt νt ∼ niid(0, σν2 ) (14.33)
La hipótesis nula de estacionariedad es representada por la restricción de que la
varianza del paseo aleatorio es cero.
Ho = σν2 = 0 (14.34)
et = yt − α 2
2 − βt (14.35)
204
Capítulo 15
Introducción a la Cointegración
15.1. Introducción
En la clase anterior examinamos las características principales de datos en
serie de tiempo y consideramos los problemas que están asociados con la regresión
espúrea y el análisis de series que tienen diferentes orden de integración. En esta
clase y la siguiente consideraremos la econometría de un caso especial de series
integradas cuyas características dinámicas reflejan una relación sistemática (i.e.
no espúrea) entre las variables. Este es el caso de la cointegración.
15.2. Resumen
1. Marco general de la teoría de cointegración
4. Pruebas de cointegración
205
15.2.1. Referencias
Este material es bastante mas complejo y no está bien cubierto en los textos
clásicos. Aquí se entregan algunas referencias.
Aspectos Básicos:
Cointegración de sistemas
Primero, desde un punto de vista económico, sabemos que existen pares de datos
que tienden a moverse sistemáticamente parecidos en el tiempo ( por ejemplo,
consumo e ingreso, inflación y tasas de interés nominal) a pesar de que en forma
individual estas series son en su mayoría no estacionarias. La teoría económica
entrega explicaciones sobre estas equilibrios regulares (funciones de consumo, el
efecto Fisher, etc). La cointegración representa una caracterización estadística de
tales relaciones de equilibrio.
206
equilibrio entre series no estacionarias (si es que dichas relaciones de equilibrio
existen) dentro de un modelo estacionario (y en consecuencia, dentro de un marco
çlásico"). Es de esta forma, un método que evita los problemas de regresión es-
púrea e inconsistente los que de otra forma ocurrirían en un modelo de regresión
con variables no estacionarias.
Tercero, a pesar de que la teoría económica tiene mucho que decir acerca de
este equilibrio, generalmente no es muy claro al explicar variaciones de corto pla-
zo con respecto a las relaciones de largo plazo. Sin embargo, es claro dado la
naturaleza de las ciencias sociales que los datos que observamos de una economía
representan constante desequilibrio - aunque asumimos de que se está movien-
do hacia un equilibrio - y que en el corto plazo, existe considerable variación en
la mayoría de los datos en series de tiempo (especialmente en aquellos para los
cuales existe mucha frecuencia, p.ej precios de acciones).
207
15.4. Relaciones entre Series Integradas
Podemos pensar en una regresión bivariada como una çombinación lineal"de
dos variables. Por ejemplo, considere el modelo de regresión :
yt = α + βxt + %t (15.1)
%t = yt − y2t = (yt − α
2 2 t)
2 − βx (15.2)
La combinación lineal de una serie I(0) con otra series I(0) es también I(0). La
combinación lineal de dos series I(1) es también I(1). No obstante, series con un
orden superior de integración dominarán y así la combinación lineal de una serie
I(1) con una I(0) entregará una serie I(1). En términos del análisis de regresión,
la regresión de una serie I(0) con una I(1) (i.e. su combinación lineal) será no
estacionaria y en consecuencia estadísticamente inconsistente.
208
y sobre x) es I(0) entonces tenemos cointegración.
Los valore críticos de los estadísticos DF y SBDW usados para testear la coin-
tegración deberán ser entonces mayores en valor absoluto que aquellos utilizados
para testear el orden de integración de una serie univariada. Mas aún, dado de
que la regresión crea un término de error con media cero la prueba de DF de la
ecuación necesariamente asume de que no hay constante (drift).
209
La prueba de Dickey-Fuller para cointegración se realiza al probar el valor de
β = (ρ − 1) en la regresión:
La prueba de SBDW se realiza en forma similar la que se aplica sobre los residuos
de la regresión de cointegración. La prueba tiene la siguiente forma :
$
zt − z2t−1 )2
(2
Q(2z) = $ ∼ SBDW Ho : ρ ≥ 1 Ha : ρ < 1 (15.6)
zt − z)2
(2
Para la prueba SBDW valores mayores que el valor crítico reportado en las tablas
representa el rechazo de la nula. Nota : si zt es ruido blanco, el SBDW tendrá un
valor de 2.
Los valores críticos para los estadísticos se presentan en la siguiente tabla. Notar
de que la nula en todos estos test es de no cointegración (no estacionariedad en
la serie de residuos de la regresión de cointegración).
210
15.7. El Modelamiento de Relaciones de Cointe-
gración: Modelo de Corrección de Errores
El modelo de corrección de errores, el cual es una de los modelos mas poderosos,
es aplicado muy a menudo en los últimos trabajos con series de tiempo. A pesar de
que su popularidad surge del establecimiento del Teorema de Representación de
Engle-Granger, es importante mostrar de que el modelo de corrección de errores
puede ser derivado de una simple restricción sobre el coeficiente del modelo están-
dar de rezagos distribuido autoregresivo (ADL). Para ello, considere el siguiente
modelo ADL(1,1) :
211
si xt ∼ I(1) entonces ∆xt ∼ I(0) (15.10)
si y, x cointegran entonces z ∼ I(0)
Así, todos los términos en la ecuación (9) tienen el mismo orden de integración
(y este orden es cero) y en consecuencia este modelo puede estimarse utilizando
el marco clásico de regresión.
El poder del ECM yace del hecho que combina una rica intuición económica
en su forma funcional con las propiedades estadísticas deseables cuando los datos
no son estacionarios (como la mayoría de los datos macro) sin perder ningún tipo
de información valiosa de largo plazo contenida en la relación de equilibrio.
Teorema 1
Si dos series cointegran entonces será mas eficiente representarlas mediante un
modelo de corrección de errores. Mas aún, si las series cointegran y el modelo de
corrección de errores es validado, entonces está abarcará cualquier otra especifi-
cación dinámica - como el mecanismo de ajuste parcial.
Resulta útil notar dos elementos aquí (los que serán discutidos en detalle mas
adelante). El primero es que en comparación con un modelo de ajuste parcial,
el ECM no exhibirá el mismo nivel de multicolinealidad entre los regresores del
modelo : mientras xt y yt−1 pueden ser altamente colineales, no es esperable que
eso ocurra entre ∆xt y (yt−1 − Kxt−1 ).
212
15.8. La Estimación de Relaciones de Cointegración
A continuación se describen tres formas de estimar la relación de cointegración
entre dos variables.
yt = α + βxt + %t (15.11)
213
A pesar de su beneficio intuitivo existen problemas con el análisis de coin-
tegración de Engle-Granger especialmente para investigadores que trabajan
con muestra pequeñas. Ello pues el vector de cointegración estimado a par-
tir de (11) es super consistente (en el sentido de que converge hacia el valor
poblacional verdadero mas rápido de que si y y x fueran I(0)) el sesgo en
muestras pequeñas puede ser muy significativo especialmente si %t está au-
tocorrelacionado.
donde A(1) $= 0 y A(1) y B(1) son los polinomios A(L) y B(L) evaluados
en t = 1 para todos los rezagos. El vector (α∗ , k) representa un estimador
alternativo del vector de cointegración.
Este vector puede ser utilizado para construir una combinación lineal (reza-
gada) definida como :
%
zt−1 = (yt−1 − α∗ − Kxt−1 ) (15.16)
214
la cual es la representación estacionaria de una relación de cointegración.
Esta puede ser posteriormente incluida en el modelo de corrección de errores
(13) reemplazando a zt−1 .
Este modelo es lineal en sus variables pero no en sus parámetros dado que
la ecuación a estimar es :
donde
π1 = α2 α3 , π2 = α2 α4
Sin embargo, existe un problema de identificación con este modelo. Sólo si
imponemos la restricción de que o bien α0 = 0 , lo que implica de que no
hay drift en la evolución de yt , o bien que α3 = 0, lo que implica de que no
existe una constante en la relación de largo plazo, podremos recuperar los
estimadores de la relación de largo plazo de la regresión de cointegración
al dividir los parámetros estimados π1 , π2 por α2 . Notar de que estamos
tomando ventaja de la normalización de la relación de largo plazo sobre
yt−1 .
215
cointegración entonces la relación será única.
A menudo encontramos que los investigadores asumen de que existe sólo un vec-
tor de cointegración multivariado entre las n variables. Este supuesto puede ser
derivado de la teoría. Si este supuesto es válido, entonces la relación puede ser
estimada, testeada y representada por un modelo de corrección de errores uniecua-
cional de forma similar al caso bivariado pero con mas variables. Discutiremos
esto luego; no obstante, teniendo en cuenta de que pueden existir mas de un vec-
tor de cointegración que relacione a las variables, necesitamos en consecuencia un
mecanismo que nos permita determinar el número de vectores de cointegración y
la forma de modelarlos.
(ii) Asumiendo de que todas las variables son I(1) [o están transformadas de
I(2) a I(1)] regresione la siguiente ecuación estática :
(1) yt = α0 + α% Xt + %t
donde
(2) α = (α1 , α2 ...αn )
216
Si α define el vector de cointegración entonces α será superconsistente -
i.e. convergerán mas rápido en T que el método de OLS. Notar de que es
posible que ciertos elementos de α pueden ser cero.
217
Capítulo 16
Cointegración Sistemica
16.1. Introducción
Hasta el momento nos hemos concentrado en la estimación de modelos de
corrección de errores uniecuacionales. El tema que queremos discutir en esta sec-
ción es acerca de la cointegración sistémica, es decir, aquella en que mas de dos
variables pueden estar involucradas simultáneamente.
218
Consideremos un ejemplo de tipo macroeconómico. En un modelo de Solder-
Swan, el que relaciona el Tipo de cambio nominal (e), con la Oferta de dinero
nominal (M s ) y un vector de elementos exógenos como la ayuda internacional y
los salarios reales.
De esta manera podemos tener que existe una función g que representa el equi-
librio interno de la economía la cual asocia e con M s y los salarios reales ( pwn , pwt )
el cual puede generar un vector de cointegración.
Por otra parte está el balance externo el que puede asociar las mismas variables
anteriores mas la ayuda internacional (especialmente en un país menos desarrol-
lado). Esta segunda ecuación puede generar otro vector de cointegración.
$
donde k−1i=1 Γi ∆xt−i es I(0) y πxt−k es I(0) si π contiene las relaciones de coin-
tegración.
π = αβ %
219
Aquí, α es el vector de parámetros de corrección de errores (es decir el ajuste) y
β % es el vector de cointregación hasta n-1. Además π tiene rango reducido lo que
podemos expresar por
0≤r ≤n−1
esto nos entrega el número de vectores de cointegración.
220
Paso 2 Una vez identificada la forma de la matriz Π se especifica el modelo
general de VECM, de la siguiente manera:
k !
! n
∆x1t = Γ1ij ∆xjt−1 + α11 β1% xt−k + α12 β2% xt−k + ... + α1r βr% + %1t
i=0 j=1
k !
! n
∆x2t = Γ2ij ∆xjt−1 + α21 β1% xt−k + α22 β2% xt−k + ... + α2r βr% + %2t
i=0 j=1
. =.
. =.
. =.
k !
! n
∆xnt = Γnij ∆xjt−1 + αn1 β1% xt−k + αn2 β2% xt−k + ... + αnr βr% + %nt
i=0 j=1
εr = −T log(1 − λr ) r = 1.....n
Para ello se deberá primero ordenar de mayor a menor los εr . Así, partiendo
por el valor característico mayor, testear por el número de valores caracteristicos
de la siguiente manera:
r εr Nula Alternativa
1 ε1 H0 : r = 0 HA : r ≥ 1
2 ε2 H0 : r = 2 HA : r ≥ 2
.
.
.
n εn H0 : r = n − 1 HA : r = n
221
El número de valores característicos significativos (es decir el número de vectores
de cointegración) es determinado por la hipotesis nula más alta aceptada por los
datos.
Una vez que existen que existen r eigenvalues significativos, estos son usados
para calcular los r vectores de cointegración.
222
r λt -Tln(1-λt 5cv. -TΣln(1-λt ) 5cv.
1 0.4186 45,01∗ 28.167 77,20 ∗
53.347
2 0.2662 25,70∗ 21.894 32.19 35.068
3 0.0716 6.17 15.752 6.48 20.168
4 0.0038 0.32 9.094 0.32 9.094
Leyendo la tabla desde la primera fila partimos con la nula de que la matriz
de Π tiene rango cero (H0 : r = 0) contra la alternativa de que r ≥ 1. Notamos
que el valor del estadístico es mayor que el valor crítico rechazándose la nula de
que no existen vectores de cointegración en favor de que existe a lo menos uno.
Se sigue en forma análoga hasta que ya la hipótesis nula no puede ser rechaz-
ada determinándose en consecuencia el número de vectores de cointegración. En
este caso, siguiendo el estadístico de valor crítico máximo, la tabla anterior sugiere
que hay dos vectores. Si se usa, por otra parte, el estadístico de traza se sugiere
que hay solo uno. Si bien los dos estadísticos generalmente apuntan al mismo
resultado, en este caso se favorece el que denote mas vectores.1 .
Ecuación m−p π r y
1
El resultado anterior denota que el segundo vector es estacionario con un ρ cercano a 1 (i.e.
0.95)
223
Ecuación m−p π r y
Dado que encontramos que sólo hay dos relaciones significativas entonces nos de-
beremos focalizar en las dos primeras filas de β en la tabla anterior y en las dos
primeras columnas de α en la última tabla. En otras palabras, las dos últimas
filas y columnas respectivamente pueden ser eliminadas sin pérdida de informa-
ción relevante.
πt = 0,283(yt − trend)
Sus efectos de feedback son un poco mas difíciles de interpretar ya que dado que
r y π no cointegran existen un feedback significativo de la relación de inflación
sobre la tasa de interés.
224
Así el V ECM queda expresado de la siguiente forma(asumiendo que el Var cor-
respondiente es xt = π1 xt−1 + µt )
225