Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Mantilla Mariano - Econometría y Predicción
Mantilla Mariano - Econometría y Predicción
ECONOMETRÍA Y PREDICCIÓN
Segunda edición
V
VI ÍNDICE GENERAL
20.COINTEGRACIÓN 723
20.1. INTROD UCCIÓN 723
20.2. DESC RIP CIÓN DEL CONCEPTO DE COINTEGRACIÓN 725
20.2.1. Un exposición intuitiva de la cointegración . . 725
20.2.2. Un exposición técnica d e la cointegración . . 729
20.3. CO:--JTRASTE DE COINTEGRACIÓN. EL PROCEDIMIENTO DE ENGLE Y GRANGER731
20.4. EL TEOREMA DE REPRESENTACIÓN DE GRANGER 733
20.5. COINTEGRACIÓN CON MÁS DE DOS VARIABLES . 736
20.6. CONTRASTE DE COINTEGRACIÓN DE JOHANSEN . 740
20.7. CONTRASTES DE HIPÓTESIS . . . . . . . . . . . . . 743
20.8. UN EJEMPLO: LA TEORÍA DE LA PARIDAD DEL PODER
ADQUISITIVO 745
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 748
Índice de figuras
XV
XVI ÍNDICE DE FIGURAS
16.6.1. Gráficos del crecimiento PIB real y la Tasa de desempleo de EE.UU. 633
16.6.2. Crecimiento del PIB real y variación en la Tasa de desempleo de EE.UU. 633
XXI
XXII
XXIII
XXIV
MV Máxima verosimilitud
VI Variables instrumentales
Prefacio a la nueva edición
1
2
Objetivos y organización
Hemos abordado lo que entendemos que son hoy las principales cuestiones que deben
tratarse en un curso de esta naturaleza. Aunque el cuerpo central de la disciplina sigue siendo
básicamente el mismo (el modelo de regresión y sus derivaciones) , han tenido lugar avances
importantes que hemos tratado de incorporar. Por ejemplo, en las últimas décadas han cobrado
cada vez mayor protagonismo los modelos con datos de panel o el enfoque de los experimentos
naturales o cuasiexperimentos.
La metodología con la que hemos escrito y presentado los temas también responde a un
enfoque particular de los autores. Este enfoque se centra prioritariamente en el tratamiento
en dos niveles de los temas que consideramos centrales en la configuración de un curso intro-
ductorio a la econometría. Así, el modelo de regresión múltiple es tratado en primer lugar de
una forma introductoria y fundamentalmente aplicado a problemas económicos relevantes o
interesantes a los efectos de la presentación del mismo. Posteriormente se ofrece un tratamien-
to en profundidad, desde distintas ópticas complementarias y con diferentes niveles técnicos
de dicho modelo.
Podría decirse que el modelo de regresión múltiple vertebra el contenido de todo el libro ,
el cual se ha distribuido en tres partes. La Parte I, Fundamentos del análisis de regresión,
comprende ocho temas en los que se abordan con detalle los aspectos centrales del modelo
de regresión que va a ser utilizado recurrentemente a lo largo de los restantes epígrafes. Una
característica común de esta parte es el tratamiento simultáneo, pero claramente diferenciado,
de los datos de sección cruzada y de los datos de series temporales. El lector identificará desde
el principio y con precisión las diferencias de los modelos para cada tipo de datos. Creemos
que este tipo de presentación facilita la comprensión e interiorización del modelo de regresión
múltiple en su dimensión teórica y aplicada, a la vez que pone de manifiesto parte de sus
limitaciones internas. Otra característica en esta parte, y que posteriormente se hereda en
las restantes, es la presencia y tratamiento de la heterocedasticidad como norma de los datos
económico-empresariales, y no como excepción.
La Parte JI, Ampliaciones del análisis de regresión, comprende otros cuatro temas en
los que se tratan aspectos más avanzados o que se han desarrollado con posterioridad en
la literatura, pero que son hoy imprescindibles en el trabajo aplicado. La presentación de
estos temas es, en algunos casos, menos formal y menos detallista que el tratamiento que
se ha dado al modelo de regresión múltiple. Esto es así porque presentamos estos cuatro
temas como potenciales soluciones a los problemas que habitualmente presenta el modelo de
regresión para realizar inferencia de tipo causal. El tratamiento de la causalidad es, como
hemos indicado anteriormente, prioritario en la presentación que hacemos de la econometría
en este manual, de modo que en cierta medida el lector iniciado en temas econométricos puede
encontrar sugerente la presentación de algunos epígrafes tanto de la parte I como de la parte
II.
Finalmente la Parte !JI, Series temporales: predicción y regresión, consta en la segunda
4
Itinerarios
El material presentado en estos 20 temas tiene un diferente grado de dificultad, circuns-
tancia que, junto con la amplitud de contenidos contemplada, permite al profesor diversas
posibilidades (itinerarios) a la hora de diseñar un curso de Econometría.
Un curso típico de introducción a la econometría de nivel elemental y planteado en menos
de un cuatrimestre de duración comprendería la P arte I excepto los temas 3 y 5 que, como se
señala en el propio título, son avanzados. En estos seis temas se tratan los aspectos fundamen-
tales del modelo de regresión con datos de sección cruzada, y fácilmente extensible al caso de
contemplar datos de naturaleza temporal. Si se dispone de un cuatrimestre, es posible ampliar
el nivel elemental con una selección adicional de temas en función del perfil del estudiante. Por
ejemplo, en el caso de un curso para estudiantes con inquietudes relacionadas con la dirección
de empresas, sería factible seleccionar algunos de los temas complementarios siguientes: 9,
10, 11 , 13 y/ o 16, en función también de la formación previa que tenga el estudiante. Si se
dispone de dos cuatrimestres, una división natural sería: un primer cuatrimestre de material
introductorio, es decir, temas 1, 2, 4, 6, 7, 8 y 9; y un segundo cuatrimestre con los temas 10,
11, 13, 16, 17, 19 y 20.
Otro itinerario obvio para aquellos interesados en impartir un curso de series temporales es
organizar la docencia en torno a los ocho temas dedicados (o a una selección de los mismos) a
este aspecto en la Parte JI!, que reciben un tratamiento más avanzado, pero exigiría un curso
previo de Introducción a la Econometría.
Puede diseñarse también un curso de econometría intermedia para alumnos ya iniciados
(digamos para estudiantes de nivel de máster), que en principio podría abarcar todos los te-
mas del manual. Si es necesario puede comenzarse con una revisión de los conceptos previos
(Apéndices A, B, C, D y E, del documento de acompañamiento Apéndices y Tablas de Econo-
metría y Predicción). Asimismo, tras haber cubierto a modo de repaso la econometría básica
a través de los temas 3 y 5, podría entonces darse mayor o menor importancia a las partes II
y III, en función de los objetivos del curso y del perfil de los estudiantes y del título.
Materiales complementarios
Desde la página web del libro www.mhe.es/ econometria el lector podrá encontrar material
de diverso tipo que puede servir de apoyo tanto al estudiante como al potencial instructor.
Entre otros archivos, el lector encontrará los datos con los que se han realizado los ejemplos
con los que se ilustra el libro , así como los datos necesarios para la elaboración de los ejercicios
prácticos previstos.
6
Agradecimientos
En esta ocasión los autores desean agradecer el apoyo constante e incondicional recibido
durante estos cursos por el profesor Julián Rodríguez Ruiz, director y compañero del Departa-
mento de Economía Aplicada Cuantitativa. En el periodo entre la primera y segunda edición
se detectaron erratas gracias fundamentalmente a la cuidadosa lectura por parte de los estu-
diantes de los grados de ADE, Economía y Turismo, así como del Máster en Investigación en
Economía y Empresa de la Facultad de Ciencias Económicas y Empresariales de la UNED,
lo que queremos agradecer explícitamf'nte.
Parte 1
7
Introducción
El tema central de esta parte es la presentación del modelo de regresión y de los motivos
por los que desempeña un papel fundamental dentro del análisis econométrico. El Tema 1
es una presentación de los hechos que definen y configuran la teoría y práctica econométrica
en la actualidad. La técnica de estimación propiamente se presenta simultáneamente con la
interpretación de la misma en el Tema 2. Primero lo hacemos para regresiones de una sola
variable donde X e Y son una muestra aleatoria de datos , y posteriormente se amplía para el
modelo de regresión múltiple.
El Tema 3 es de carácter avanzado y profundiza en la relación entre la regresión y su capa-
cidad para detectar relaciones causa-efecto a través de la función de esperanza condicionada.
Posteriormente se presenta en forma matricial y algebraica el estimador de mínimos cuadrados
ordinarios (MCO) lo que nos permitirá, también en temas avanzados o intermedios , presentar
resultados econométricos que de otra forma harían innecesariamente más complejo su manejo
y exposición.
Es fundamental el Tema 4, en el que se muest ra que el estimador obtenido mediante la
regresión varía de muestra a muestra, de modo que el estimador tiene una distribución muestral
propia. El conocimiento de esta distribución puede utilizarse para hacer afirmaciones acerca de
los coeficientes poblacionales. En particular nos permite realizar inferencia sobre los mismos.
Las propiedades estadísticas de esta estimación son, bajo ciertos supuestos, deseables. Esta
cuestión se amplia significativamente en el Tema 5, de mayor dificultad técnica. El Tema 6
está dedicado a considerar cómo afecta la autocorrelación y la existencia de heterocedasticidad
al modelo de regresión que hemos presentado en los temas precedentes, y se profundiza sobre
las alternativas de las que disponemos en la práctica.
El Tema 7 presenta una extensión muy útil del modelo de regresión para cierto tipo de
variables y de cuestiones habituales en los estudios econométricos. No obstante, pese a las
bondades del modelo de regresión, las conclusiones que podemos extraer del mismo podrían
ser fácilmente invalidadas por fuentes. El Tema 8 precisamente expone las limitaciones que
puede presentar el modelo de regresión lineal para capturar los efectos causales, y anuncia las
posible soluciones que serán obtejo de estudio en la Parte II del libro.
9
Tema 1
ECONOMETRÍA, MODELOS
ECONOMÉTRICOS Y DATOS ECONÓMICOS
l. l. INTRODU CCIÓN
A día de hoy podemos decir que la econometría es el estudio unificado de modelos econó-
micos, estadística matemática y datos económico-empresariales. Esta definición encaja per-
fectamente con la definición original dada en la Sección I del Acta de Constitución de la
Econometric Society.
Dentro del campo de la econometría existen evidentemente subdivisiones y campos de
especialización. La teoría econométrica trata del desarrollo de métodos y herramientas, y del
estudio de las propiedades de los métodos econométricos. La econometría aplicada describe
el desarrollo de modelos económicos cuantitativos y la aplicación de métodos econométricos
a esos modelos utilizando datos económicos.
La econometría tal y como la entendemos en la actualidad se fundamenta en una aproxi-
mación estocástica (probabilística, en términos de Haavelmo) , en el sentido de que los modelos
cuantitativos deben ser de naturaleza probabilística. Los modelos no estocásticos (determinis-
tas) son inconsistentes con las magnitudes económicas observadas, de modo que sería incohe-
rente aplicar modelos deterministas a datos no deterministas. A diferencia de otras ciencias,
dada la inherente complejidad del comportamiento de los agentes económicos y de las insti-
tuciones económicas, no es factible desarrollar teorias (como en la Física) que conduzcan a
invariantes universales. Es esencial entender desde el inicio que no se trata de un problema
imputable al hecho de que la Economía (en cuanto a disciplina) esté en un estadio de desa-
rrollo más temprano que el de otras disciplinas , y que con el paso de los años se alcancen
unos niveles de madurez similares al de otras ciencias. Más bien se trata de que la teoría eco-
nómica tiene una limitación intrínseca para describir completamente la realidad económica.
Entender bien estas limitaciones nos lleva en primer lugar a reconocer que resulta demasiado
optimista considerar que los modelos econométricos (modelos de probabilidad) propuestos son
suficientemente adecuados para capturar esta complejidad inherente. Y en segundo lugar, a
considerar que resulta más operativo entender que un modelo econométrico (o la modelización
econométrica) es una cruda aproximación a la relación (verdadera) que existe entre los datos
11
12 ECONOMETRÍA: MODELOS Y DATOS
observados, y no tanto a ofrecer una descripción detallada de las relaciones probabilistas que
se establezcan entre la variables.
Los modelos económicos (econométricos) deben, por lo tanto, ser diseñados para incorpo-
rar explícitamente la aleatoridad. Si el modelo econométrico es un modelo de probabilidad,
parece natural que entonces se utilicen métodos apropiados y consistentes con la caracteriza-
ción del modelo. Este es el motivo por el que fundamentalmente se utiliza en economía una
teoría matemático-estadística para adecuadamente cuantificar, estimar, y realizar inferencias
y pronósticos.
Un dato interesante que indica la relevancia de la econometría dentro de la Economía es
que el número de económetras condecorados con el Premio Nobel a las Ciencias Económicas
es relevante. Ragnar Frisch en 1969, Lawrence Klein en 1980, Trygve Haavelmo en 1989,
James Heckman y Daniel McFadden en 2000, Robert Engle y Clive Granger en 2003, Thomas
Sargent y Christopher A. Sims en 2011 , y finalmente Eugene Fama, Lars Peter Hansen y
Robert Shiller en 2013.
Otra de las divisiones más comunes en la econometría es distinguir entre microeconometría
y macroeconometría. La primera fundamentalmente utiliza lo que, posteriormente veremos, se
denomina análisis de sección cruzada y datos de panel. Su interés prioritario son las decisiones
al nivel microeconómico. A modo de ejemplo, el tipo de preguntas en las que se utilizan este
tipo de herramientas econométricas es el siguiente: ¿la existencia de un seguro de salud induce
a los usuarios a utilizar más intensamente el sistema de salud? También la siguiente encajaría
dentro de esta categoría: ¿la formación universitaria superior ofrece o no un rendimiento
económico lo suficientemente atractivo como para dedicar recursos a este tipo de educación
superior? La macreconometría, por su lado, utiliza prioritariamente datos en forma de serie
temporal histórica. Ejemplos típicos son el nivel de precios, los tipos de cambio, la curva de
tipos, nivel de producción, tasas de crecimiento, etcétera. Las técnicas en uno y otro campo
son variadas. Con todo la frontera entre ambos ámbitos no es nítida, lo que facilita que las
técnicas sean en ciertas circunstancias aplicables a uno y a otro.
En la gran mayoría de ocasiones las herramientas o técnicas a utilizar requieren necesa-
riamente el uso de software econométrico, estadístico y de programación. En la actualidad es
imprescindible el uso de estas facilidades para realizar estudios aplicados y teóricos de corte
econométrico.
El mercado ha proporcionado a lo largo de años algunos programas informáticos. Los
que han sobrevivido y se han consolidado son varios. EVIEWS y STATA son extraordinarios
paquetes informáticos que proporcionan numerosas herramientas econométricas y estadísticas
que están completa y eficientemente programadas. La limitación principal es que su lenguaje
de programación no facilita la implementación de nuevas técnicas o técnicas menos frecuentes
o noveles. Ambos programas son comerciales. La alternativa de software libre más desarrollada
es el programa GRETL, con el que se pueden realizar la gran mayoría de los ejercicios prácticos
de este libro, así como los ejemplos utilizados en la exposición principal.
MATLAB y GAUSS son dos paquetes con un lenguaje de programación de alto nivel y con
orientación matricial, que ofrece al usuario una amplísima cantidad de funciones estadísticas
«built-in» (ya insertadas). La web proporciona la gran mayoría de técnicas econométricas ac-
tuales, principalmente porque se desarrollan originariamente en estas plataformas. La ventaja
Tema 1 13
principal de ambos paquetes es que el usuario tienen completo control sobre el análisis y sus
detalles.
La alternativa a este tipo programas de lenguaje de programación avanzado en código
libre es R y OCTAVE.
Al final, suele ser habitual que el economista o económetra acabe utilizando más de uno
de estos paquetes informáticos.
decimos que X k determina Y del modo especificado por f (·). Esta explicación o relación
conforma un modelo determinista. Determinadas las características del trabajador quedará
unívocamente determinado el salario. Es decir, dos t rabajadores con las mismas características
tendrán el mismo salario.
Por otra parte, cuando la relación entre Xk e Y se establece mediante g(·, ·)
Y= g(X, E)
donde g es una función real y e es una variable aleatoria no observable, el modelo es esto-
cástico. En el ejemplo anterior, dos trabajadores con las mismas características podrían tener
ocasionalmente unos salarios apreciablemente diferentes. Las razones de tal diferencia estarán
incluidas en la variable no observable.
Los modelos econométricos son modelos estocásticos. Un familia de modelos estocásticos
muy utilizada es aquella en el que la aleatoriedad es aditiva
T ~ 21ff1a,
donde T, l y g son el periodo, la longitud de la cuerda y la gravedad, respectivamente. Esta
relación determinista no lineal es linealizada del siguiente modo
1 1
In T = In 27r - '2 In g + '2 In l.
En esta situación es posible reproducir N experimentos en los que se midan la longitud de
cuerda y el periodo, manteniendo prácticamente controlados el resto de factores que pudieran
influir. El modelo sería entonces de tipo experimental
donde f3o y {31 son dos parámetros del modelo, Yi =In Ti, Xi = ln li y finalmente Ei contem-
pla los errores o perturbaciones (posiblemente de medida) cometidos durante el experimento
el cual se repite N veces. Dentro de este modelo es posible indicar que la variable longitud de
la cuerda está relacionada causalmente con el periodo del péndulo. De hecho, cambios en X
«causan» cambios 1 en Y.
En economía, los datos no son generados como si la economía fuera un experimento con-
trolado, y por tanto los datos son frut o de la observación y recopilados por procedimientos
generalmente administrativos. Como resultado, la econometría cuenta con ecuaciones aparen-
temente similares a la Ecuación (1.2.1), pero esencialmente distintas, tal y como ya hemos
comentado en el epígrafe anterior. En general un modelo econométrico puede expresarse así
y¡
...__,_, = f (Xi) +
'-....--'
observado explicado error o
no explicado por f (X)
donde el dato observado se descompone en la parte explicada y la parte no explicada por
f(Xi)· Se trata por tanto de un modelo empírico, y no necesariamente de un modelo causal.
1
En cambio modificaciones en Y no tienen necesariamente que provenir de cambios en X pues también
pueden estar originados por cambios en€. En este último caso se atribuirían incorrectamente a cambios en X.
Tema 1 15
Incluso esta partición es posible realizarla cuando Yi depende de otros factores , digamos h(zi)·
La parte no explicada recogería, junto con los errores de medida, todos los otros factores que
explican la variación de Yi y están omitidos en el modelo empírico.
Las propiedades de los modelos empíricos dependen, por tanto, del tipo de datos observa-
dos. Precisamente la econometría se ha desarrollado como una disciplina distinta de la esta-
dística matemática ya que se centra en los problemas propios del análisis de datos económicos
de naturaleza no experimental. Estos datos no experimentales son utilizados, generalmente,
para contrastar una teoría económica o una relación relevante para la toma de decisiones
empresariales o para el análisis de políticas públicas.
En cualquier caso (teorías, decisiones empresariales o políticas económicas), un objetivo del
economista es inferir si una variable tiene un efecto causal sobre otra(s). La misma naturaleza
de los modelos empíricos hace que hayan de darse ciertas circunstancias para que pueda
establecerse una relación de causalidad. La noción ceteris paribus resulta fundamental para el
potencial establecimiento de una relación causal. La demanda de los consumidores establece la
relación entre cantidad demandada y precio considerando que el resto de factores (relevantes
como ingresos, precios de otros bienes o gustos) permanecen inalterados. En caso de variar el
resto de factores relevantes no podríamos conocer el efecto causal propio de la variación del
precio. Igualmente, para analizar el efecto causal de una política económica sería necesario
mantener inalteradas un número de variables o factores que de manera relevante inciden sobre
la variable objetivo. Una característica de los datos no experimentales es que los niveles de
una variable de control no se determinan independientemente de todos los demás factores que
influyen sobre la variable objetivo.
En el caso de la formación del salario es factible que la experiencia laboral, una de las
variables explicativas del modelo empírico, afecte a la variable años de educación. A mayor
número de años dedicado a la formación, menor será la experiencia laboral, que es otra de
las variables explicativas del modelo. De modo que una variable explicativa (educación) está
asociada a otra variable explicativa (experiencia laboral) y a su vez afecta a la variable objetivo
(salario).
Esto se debe a la distinta naturaleza de los modelos empíricos y de los modelos experimen-
tales, lo cual nos permite observar que rara vez (por no decir nunca) será posible identificar
con certeza relaciones de tipo causal. Ante este t ipo de limitación, un objetivo podría ser
hacer experimentos sociales. Sin embargo, estas prácticas están lejos de darse en la actua-
lidad fundamentalmente por lo caro que result aría tanto en términos económicos como en
términos sociales. En la práctica, el objetivo de cara a realizar inferencia causal es crear un
marco de trabajo en el que el uso de los datos no experimentales limite lo menos posible el
análisis del ceteris paribus , y por tanto, de las relaciones causales. En términos muy generales
puede considerarse que el avance de la econometría consiste en cómo resolver el problema de
la existencia de factores no observados (algunos ni tan siquiera observables) en los modelos
econométricos de cara a contemplar el efecto de las variables en condiciones lo más próximas
posibles al ceteris paribus.
La formulación rigurosa de los modelos econométricos implica establecer una serie de
supuestos o suposiciones mantenidas que alivien las limitaciones propias del mundo no expe-
rimental de la economía, tal y como veremos en los temas desarrollados en este manual.
16 ECONOMETRÍA: MODELOS Y DATOS
En último término muchas de las cuestiones del análisis econométrico se centran en saber
cuál es el efecto de una determinada acción, decisión o política sobre una variable de interés.
Por ejemplo, es normal que un economista esté interesado en saber cómo afectan los años
de formación en el salario, el cambio climático en la actividad económica, los incentivos en
el comportamiento de un agente, los impuestos sobre el tabaco en la reducción del número
de fumadores, etcétera. En realidad, todas estas cuestiones están relacionadas con relaciones
causales entre variables. De un modo muy intuitivo podemos decir que una acción causa un
efecto determinado si este es resultado directo (o consecuencia) de la acción. Echar fertilizante
sobre una planta causa una mayor producción de la planta en cuestión que si no lo echamos, y
además podemos medir la consecuencia o «efecto causal». Del mismo modo , podemos pensar
sobre el efecto causal de un tratamiento médico en el nivel de salud de una persona. En este
caso, el efecto causal del tratamiento es la diferencia en términos de salud de un individuo al
que se le ha sometido al tratamiento, respecto o en comparación con el nivel de un enfermo
que no ha sido tratado. Ambos casos (fertilizar y tratar) son ejemplos de un experimento
controlado aleatoriamente. Está controlado en el sentido de que hay un grupo de control que
no recibe tratamiento, y un grupo de tratamiento que sí lo recibe. Es aleatorio en la medida
en que la asignación de sujetos tratados es aleatoria. De este modo se eliminan posibles
relaciones sistemáticas o comunes entre los individuos afectados o estudiados. Es decir , que
la única diferencia sistemática entre dos individuos es si están o no sometidos al tratamiento
(médico o de fertilización).
El efecto causal propiamente sería el efecto sobre una variable de interés (outcome) de
un determinado tratamiento (acción o política) que resultaría de medirlo en un experimento
ideal controlado aleatoriamente. Lo importante del experimento aleatorizado es que permita
«aislar» el efecto del tratamiento, de modo que lo único que cause una diferencia en el resultado
(outcome) entre los individuos sometidos al tratamiento y los no sometidos sea precisamente
el tratamiento. Por ejemplo, supongamos que un individuo A hubiera ganado 11 euros por
hora en caso de tener estudios de bachillerato y 20 euros por hora si los estudios fueran
universitarios , mientras que otro individuo B hubiera logrado 8 euros y 12 euros por hora,
respectivamente. En este caso el efecto causal sería de 9 euros/ hora para el individuo A y de
4 euros/ hora para el B. En ambos casos el t ratamiento es tener o no un nivel de formación
determinado.
Este ejemplo nos facilita ver varias cuestiones importantes. La primera, y tal vez más re-
levante, es que el experimento controlado aleatoriamente nos permite idealizar una situación
en la que sería posible comprobar cuál es la respuesta (el efecto causal) sobre la variable y
(objetivo o output) ante un cambio en una de las variables control (en este caso años de for-
mación académica) manteniendo constante o inalteradas (ceteris paribus) el resto de variables
explicativas ya sean esas observables o no observables. La segunda cuestión que pone de ma-
nifiesto este simple ejemplo es que el efecto causal sobre cualquiera de los individuos o sujetos
analizados es inobservable dado que lo único que observamos es el salario correspondiente a la
situación real dada (no a otras situaciones en las que tuviera más o menos años de formación ,
es decir, en las que estuviera o no sometido a un tratamiento). La tercera observación es que,
Tema 1 17
además de no ser observable, el efecto causal varía entre los individuos (sujetos A y B).
Esto nos conduce a una situación en la que a lo más que podemos aspirar es a agregar
los efectos causales individuales y, en particular, a estudiar el efecto causal medio en el total
de la población. En los términos del ejemplo sería considerar que la mitad de los individuos
son tipo A y la otra mitad tipo B. De este modo el efecto causal medio de tener estudios de
bachillerato sería (9+ 4) / 2 = 6,5 euros/ hora.
La pregunta latente consiste en saber si existe alguna construcción o herramienta formal
que nos permita identificar el efecto causal medio. La respuesta, como veremos, será afortu-
nadamente afirmativa. Sin embargo no todas las cuestiones que nos pueden interesar han de
estar fundamentadas en la causalidad.
Ya hemos indicado antes que los datos utilizados en la economía y los negocios son funda-
mentalmente de observación y no experimentales; esto generalmente es así pero no siempre,
y podemos concebir experimentos aplicados a la economía y los negocios. De hecho, podría
decirse que una característica definitoria de la econometría es que ha desarrollado herramien-
tas analíticas para el estudio de datos no experimentales. Sin embargo, cada vez aparecen
18 ECONOMET RÍA: MODELOS Y DATOS
más estudios en los que el análisis se realiza sobre datos de naturaleza casi experimental en el
sentido anticipado en la sección anterior cuando nos referíamos a experimentos aleatorizados,
y que desarrollamos en el Tema 12.
Veamos un ejemplo que entre otras cosas nos permita ver las consecuencias sobre el aná-
lisis de la causalidad que supone disponer de datos experimentales y no experimentales. Este
ejemplo complementa lo ya esbozado en la Sección 1.3. Supongamos que queremos determinar
la influencia del uso de fertilizantes sobre la producción de un determinado producto agrario.
Si disponemos de una parcela lo suficientemente grande y la calidad de la tierra es semejante,
podemos realizar el experimento de dividir la parcela en «n» partes iguales y utilizar distin-
tas cantidades de fertilizantes en cada una de ellas. Entonces podremos medir la influencia
de la cantidad de fertilizante sobre la cantidad producida, manteniendo el resto de factores
constantes. Este experimento parte de los siguientes supuestos: solo es válido para el producto
concreto, misma calidad de la tierra, idéntica climatología, semillas de igual calidad, etc.
Como no puede ser de otra manera, la calidad de los datos utilizados importa. En ocasiones
nos encontramos con que, además del problema de su carácter no experimental, también puede
haber errores de medición producidos por errores de observación. Los datos económicos suelen
ser muy agregados, bien porque los datos macroeconómicos son el objeto de los institutos de
estadística o por problemas de confidencialidad. En ocasiones esto hace que no sean indicativos
de las micro-unidades objeto de estudio. En las encuestas, el problema de los individuos que
no contestan puede generar sesgo en la información; además, los métodos de muestreo son tan
variados que a veces puede resultar difícil comparar resultados.
120
100
80
60
40
20
PAfsVASCO
MURCIA ,
NAVARRA - _- . . ,-. _- - - - - - - - -
MADRID , . .. . ._ ...._ , . . .. . .- . . . . .- ....
GALICIA . . . .- ..
EXTREMADURA
VALENCIANA - - - - ·
CASTILLA · LA MANCHA
CASTILLA Y LEÓN - - - - - - - -
CANTABRIA ~--------·
CANARIAS · - - - -
BALEARS . . . . . .--~--
ARAGÓN ,-_
ASTURIAS -" _ " "_" - ,_ ll!mil
.." " "_ " __
ANOALUCfA .¡::=:::::¡::=----+---l---+--+--+--+--1-----4
15.000 17.000 19.000 11 .000 23.000 25.000 27.000 29.000 31.000 33.000
1.5. CONCLUSIÓN
Tabla 1.1: PIB per cápita anual por CC.AA. Euros corrientes
CCAA 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
A:-IDALUC!A 11.538 12.363 13.206 14.207 15.181 16.261 17.318 18.155 18.384 17.498 17.405
ARAGÓ:-1 16.365 17.468 18.765 19.884 21.012 22.359 23.948 25 .599 26.093 24.656 24.886
ASTURIAS 13.081 14.087 14.979 15.905 17.001 18.495 20.210 21.678 22.427 21.512 21.882
BALEARS 19.282 20.301 20.904 21.349 22.251 23.334 24.538 25.431 25.706 24.580 24.672
CA'.'IARIAS 14.845 15. 764 16.550 17.424 18 .120 18.988 19.923 20.681 20.827 19.792 19. 746
CA:-ITABRIA 14.634 15.896 17.040 17.971 19 .154 20.630 22.078 23.552 24.222 23.111 23.464
CAST ILLA-LEÓ:-1 14.164 15.141 16.195 17.313 18 .5 15 19.822 21.246 22 . 735 23.206 22.475 22.974
CASTILLA-LA MA:-ICHA 12.307 13.138 13.852 14. 721 1 5 .402 16.359 17.357 18.321 18.425 17.573 17.621
CATALU~A 19.072 20.388 21.409 22.448 23 .588 24.796 26.351 27 .532 27.897 26.863 27.053
VALE:-ICIA:-IA 15.102 16.155 16.891 17.571 18 .372 19.327 20.477 21.255 21.392 20.295 20.465
EXTREMADURA 9.965 10.670 11.417 12.230 13 .085 14.231 15.156 16.266 16.845 16.590 16.828
GALICIA 12.163 12.972 13.824 14.764 15 .843 17.114 18.517 19.841 20 .546 20.056 20.343
MADRID 21.281 22.573 23.541 24.579 25 .837 27.343 29.197 30.533 30.928 30.142 29.963
MURCIA 13.132 14.013 14.860 15.778 16 .538 17.665 18.673 19.476 19.694 18.731 18.654
:-IAVARRA 19.927 21.045 22.254 23.408 24 .748 26.351 28.026 29.540 30.296 29.495 29.982
PA!S VASCO 19.182 20.493 21.703 23.019 24 .603 26.553 28. 710 30.602 31. 791 30.683 31.314
RIOJA 17.826 18.712 19.404 20.584 2 .. 377 22.513 23.911 25.110 25.631 24.811 25.020
entrada del Diccionario internacional New Palgrave (2007) nos proporciona información su-
gerente:
Econometric theory and practice seek to provide information required for in-
formed decision-making in public and private economic policy. This process
is limited not only by the adequacy of econometrics, but also by the develop-
ment of economic theory and the adequacy of data and other information.
Effective progress, in the future as in the past, will come from simultaneous
improvements in econometrics, economic theory, and data. Research that
specifically addresses the effectiveness of the interface between any two of
these three in improving policy - to say nothing of all of them - neces-
sarily transcends traditional subdisciplinary boundaries within economics.
But it is precisely these combinations that hold the greatest promise for the
social contribution of academic economics.
Este tema presenta el modelo de regresión lineal que relaciona una variable, «X», con
otra, «Y». El modelo plantea una relación lineal entre «X» e «Y», de modo que es una recta
la que relaciona una variable con la otra. Esta recta define la relación entre ambas variables
mediante una pendiente que es el efecto que tiene una variación en una unidad de «X» sobre
«Y».
La variable «Y», que la denotaremos , generalmente, por Y , es una variable aleatoria que
tendrá una distribución poblacional desconocida, y lo mismo sucederá para la variable «X».
Estas variables tendrán cada una de ellas una media poblacional desconocida. Del mismo modo
que dichas medias son características propias de las distribuciones poblacionales de X y de Y,
la pendiente de la recta que relaciona a X con Y también será una característica desconocida
de la distribución poblacional conjunta de X y de Y. El problema que pretende resolver
este tema es precisamente «estimar» dicha pendiente, es decir , estimar, a partir de los datos
muestrales de ambas variables, el efecto sobre Y de una variación unitaria en X.
Normalmente nos encontraremos que la variable objeto de estudio Y está relacionada no
solo con X , sino con otras variables X1 , X2 ,... , Xk, y entonces nuestro objetivo será explicar
cómo varía «Y» ante cambios en alguna(s) de las «k» variables explicativas.
Sin embargo se van a presentar una serie cuestiones fundamentales que han de ser con-
sideradas previamente antes de lograr tal objetivo. La lista de las «k» variables, con toda
seguridad, no será una relación exhaustiva de las variables que expliquan el comportamiento
de <<Y», de manera que la relación entre «Y» y las «k» variables no será exacta o determinada,
sino solo aproximada. Puesto que la relación solo puede ser aproximada, nos enfrentamos al
problema de cómo dar cabida al resto de facto res no explícitos y que, sin embargo, afectan a
«Y». Es decir cómo vamos a tener en cuenta el resto de variables que afectan a «Y» y que
no hemos tenido en cuenta en las «k» variables. También tenemos que determinar cuál es
la forma funcional que relaciona a cada una de estas «k» variables con «Y». En todo caso,
la forma que se plantee debe asegurarnos que nos facilita la captura el efecto parcial (efecto
23
24 ANÁLISIS DE R EGRESIÓN LINEAL. ESTIMACIÓN
(2.1.2)
(2.1.3)
que indica que el valor esperado de la variable Y condicionado a los valores que toman las
variables explicativas Xj es f3o + f31X1 + f32X2 + ... + f3kXk.
Esta expresión y el aspecto condicional de la misma es muy importante dado que nos
permite obtener el efecto parcial (efecto ceteris paribus) sobre Y: el efecto esperado sobre Y
de la variación de una variable (digamos, X 1) manteniendo constantes el resto de factores
(X2, X3, ... , Xk)· De hecho, el coeficiente de la pendiente de X1 o parámetro f31 captura el
efecto que X 1 tiene sobre Y teniendo en cuenta (controlando) los otros factores explicitados
en la relación. Esta interpretación se obtiene fácilmente si a partir de la FRP imaginamos
una variación de X1 por una cuantía b.X1, mientras que el resto de variables no varían (se
mantienen constantes). El cambio de X 1 hará que cambie Y en una cierta cantidad b.Y. El
nuevo valor resultante para Y será
(2.1.4)
1
En el siguiente tema y en la separata del libro se trantan tanto el papel que desempeña
la esperanza condicionada como las propiedades matemáticas de la misma. La expresión formal es
IE[Y; IX1i = X1 , X2i = X2, ... , xk i = xk J.
Tema 2 25
/Ji= ~X1'
indica que el coeficiente poblacional /31 es el efecto (cambio esperado) sobre Y ante un cambio
en X1, manteniendo fijas Xj,j = 2, 3, ... , k.
El término constante «/30» frecuentemente no es relevante en el análisis empírico, si bien
hay algunas aplicaciones en las que sí lo es. Su interpretación es sencilla: es el valor esperado
de Y, cuando X1 = X2 = ... = Xk =O.
Por otra parte, se hace necesario y práctico diferenciar los tipos de variables que intervienen
en una ecuación de regresión. Los roles que desempeñan las variables del modelo son distintos,
y por tanto hay una terminología comúnmente aceptada al respecto. La variable objeto de
estudio será Y o variable dependiente, y las variables Xj serán variables explicativas de
«Y». A lo largo de la literatura econométrica, y de este libro, a estas variables también se las
denomina de forma indistinta con la siguiente terminología:
La variable «E» se denomina término error y representa todos los otros factores que ade-
más de X1 , X2 , ... , Xk determinan el valor de la variable dependiente Y para una observación
concreta que llamamos observación i, por lo que para cada observación i habrá un error Ei·
Es decir Ei representa los diferentes factores, distint os de las variables explicativas X 1i, X2i,···
de la Ecuación (2.1.1) que afectan a la variable dependiente Y;.
Comprobamos por tanto que el término error «E» es la forma de incluir el resto de fac-
tores no incluidos expresamente y que afectan a la variable regresada. Su incorporación es
fundamental básicamente debido a que nunca tendremos un listado completo de los factores
que influyen en «Y». En otras ocasiones resulta que simplemente no tenemos acceso a la in-
formación de una variable determinada. Otros motivos por los que se incorpora el término
error son:
• Siempre habrá factores excluidos que influyan aunque sean, a priori, poco relevantes co-
mo para incluir una variable explicativa más, de modo que podría no interesar incluirlos
expresamente (principio de simplicidad). Este tipo de factores decimos que son poco
relevantes en el sentido de que no afectan sistemáticamente a la variable que deseamos
explicar. Son por lo tanto variables que afectan, pero de forma irregular a la variable
de interés. Este tipo de factores no-sistemáticos podría decirse que son innumerables,
26 ANÁLISIS DE REGRES IÓN LINEA L. ESTIMACIÓN
de manera que el término error representaría el efecto neto de estos numerosos, pero
pequeños e independientes, factores. 2
• En muchas ocasiones solo tenemos acceso a una variable cercana «proxy» a la variable
que desearíamos explicar. En este caso el error también muestra la diferencia entre la
verdadera variable y la aproximada. El error sería también representativo de este tipo
de error de medida.
En defini tiva el término de error tiene un papel crucial en el modelo de regresión y tendre-
mos que tener especial cuidado al analizar su comportamiento para evaluar el modelo en su
conjunto 3 .
El siguiente ejemplo nos puede ayudar a comprender en la práctica lo que hemos expuesto
hasta el momento.
cantidadca f é = f3o + f3i preciocafé + f32 Y D + {33preciOté + f34 preci ozeche + e (2.1.5)
Uno de los objetivos centrales de este tema es ser capaces de realizar una estimación de la función
de regresión poblacional a partir de los datos provenientes de la observación . Dicha estimación
2
En el caso de que hubiera factores omitidos (variables omitidas) que sí fueran sistemáticos, en el sentido
de afectar regularmente a la variable a explicar, entonces diremos más adelante que estos errores constit uyen
un tipo de error de especificación: esto ocurriría cuando la naturaleza de la relación económica modelizada no
estuviera correctamenta esp ecificada.
3
E l siguiente tema presenta un análisis más pormenorizado del término error. El lector interesado puede
encontrar útil su lectura.
Tema 2 27
se denomina función de regresión muestra! (FRM), función que para una muestra determinada
arrojará unas estimaciones de la FRP diferentes de los que obtendríamos con otra muestra. Las
variables explicativas son « precio del café », «precio del té» y « precio de la leche». Los coefi-
cientes de cada una ellas son (31, /32. y (33, respectivamente. Por ejemplo el coeficiente relativo al
precio del café indica el efecto parcial (efecto cete ris paribus) que se prevé sobre la cantidad de
café demandada como consecuencia de una variación un itaria en el precio del café, manteniendo
in alterados (constantes) los precios de los otros bienes, y el nivel de renta dispon ible.
Una cuestión que es necesaria observar es que t anto el modelo de regresión múltiple como
el simple contemplan relaciones lineales. Por simplificar, consideremos el caso más sencillo de
regresión
(2.1.6)
La Ecuación (2.1.6) es una ecuación en la que el t érmino lineal se refiere, geométricamente
hablando , a que la relación entre ellas es una recta. Los modelos de regresión , en general,
pueden ser lineales en las variables o lineales en los parámetros. Es conveniente distinguir
claramente la diferencia entre ambos conceptos:
De los dos términos en los que se puede entender la no linealidad (en las variables o en los
parámetros), el primero no es preocupante puesto que siempre podremos realizar el cambio
de variable que lo haga lineal (Zl = X[ ó Zl = 1/ X1). No ocurre lo mismo en el segundo
caso (no linealidad en los parámetros), de manera que a partir de ahora con el término lineal
nos referiremos solo a linealidad en los parámetros , tanto en el modelo de regresión lineal
simple como múltiple. Sobre estas cuestiones volveremos más adelante en este tema. Ahora
nos concentraremos en cómo estimar la FRM a partir de unos datos observados.
(2.2. 1)
28 ANÁLISIS DE REGRESIÓ LINEAL. ESTIMACIÓN
donde hemos añadido un subíndice «i» que recorre las «n» observaciones disponibles. De cada
una de ellas (de cada i) que tenemos un valor observado para la variable Y, que denotamos
Yi, y otro para la variable X, que indicamos por Xi. 4 Queremos estimar los parámetros de la
FRP, es decir, de f3o + f31X1. Estos coeficientes o parámetros poblacionales son desconocidos,
y tendremos que utilizar los datos disponibles de ambas variables para estimarlos5 . Estimados
los coeficientes, «/30, /31», por alguna técnica estadística estos serán los homólogos muestrales
de los coeficientes poblacionales. Con ellos podremos explicitar la (FMR) función de regresión
muestra! /30 + /31X 1, que es el homólogo a la función de regresión poblacional f3o + {31X 1. A
partir de la FRM puedo obtener Yi,
que es el valor estimado «Yi» dado el valor que toma
X1i, y que también puede considerarse como un valor de predicción de Yi a partir de la recta
de regresión estimada (es decir de la FRM). La diferencia entre el valor observado y el valor
estimado o previsto se denomina residuo de la regresión
(2.2.2)
que es el homólogo muestra! del término (poblacional) error Ei. Obsérvese que la Ecuación
(2.2.2) nos permite descomponer el valor observado como la suma del valor estimado (valor
de predicción) y el residuo:
(2.2.3)
La técnica o método con el que vamos a estimar los coeficientes es el método de los
mínimos cuadrados ordinarios (MCO). Esta técnica permite estimar los parámetros o
coeficientes que minimizan el cuadrado de la suma6 de las discrepancias producidas entre los
valores observados y los valores estimados (valores de predicción), es decir, localiza para la
muestra que tenemos aquellos valores de los coeficientes que minimicen la expresión
(2.2.4)
La Figura 2.2.1 muestra la recta de regresión que minimiza la suma cuadrática de las
discrepancias.
La estrategia de seleccionar los valores paramétricos f3o y {31 que minimizan la suma de
los cuadrados de los residuos impide que los valores positivos (valores por encima de la recta)
se compensen con los negativos (valores por debajo de la recta).
4
A efectos meramente de cálculo no resulta relevante si los datos proceden de una sección cruzada o de
una serie temporal. En este último caso, se suele utilizar el subíndice «t » para indicar que las observaciones
utilizadas son de series temporales, mientras que el subíndice «i» se suele utilizar para observaciones de corte
transversal. De hecho en varios ejercicios de este tema utilizamos datos de naturaleza temporal (serie de
tiempo) y en consecuencia utilizamos el subíndice correspondiente a este tipo de datos.
5
Del mismo modo que para estimar Ja m edia poblacional de una variable Z utilizamos la media muestral
como estimador
6
También llamado «suma cuadrática».
Tema 2 29
•
Matemáticamente el problema se resuelve derivando e igualando a cero la expresión (2.2.4)
respecto de los coeficientes a estimar (/Jo, /31). La consecuencia del proceso 7 de minimización
el cuadrado de los residuos nos conduce a las denominadas ecuaciones normales
n n
L (Yi-/30 -/31X1i) = L Ei =o (2.2.5)
i=l i=l
y
n n
¿ xli (Yi-/30 -/31X1i) = ¿ x1iti =o. (2.2.6)
i=l i=l
A partir de las ecuaciones normales, (2 .2.5)(2.2.6) , se calcula la pendiente /31
n n
2::: XliYi 2::: (X1i - X) (Yi - Y) éoV (X1, Y)
•
(3 1 =
i=l i=l
- n- -
n 2
(2.2.7)
var(X1) '
'L: xii 2::: (Xli -X)
i=l i=l
donde definimos Yi =Yi -
Y y X1i X l i - X. =
Si dividimos la Ecuación (2.2.5) por nen ambas partes y sumamos en í, tras unas sencillas
operaciones se llega a
Y = /Jo+ /31X1, (2.2.8)
que nos permite recuperar la estimación del coeficiente de la constante f3o:
(2.2.9)
7
En el Apéndice técnico de este tema se desarrolla formalmente el proceso.
30 ANÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓ N
y nos indica que la recta de regresión pasa por las medias muestrales de las variables.
También las ecuaciones normales nos permiten obtener algunos resultados analíticos útiles
que desarrollamos seguidamente.
(2.2.10)
Esta última expresión expresa las variables en desviaciones a las medias (Yi - Y o Xi - X).
Esto nos permite formular la expresión (2.2.10) de la siguiente forma
(2.2.11)
por lo que el valor esperado previsto por la ecuación de regresión, "f;, y los residuos míni-
mo cuadráticos, Ei, no están correlacionados. Dividiendo por n obtenemos que entonces la
covarianza entre ellos será nula [cov (fi, ti)
=O].
A partir de la definición de covarianza, y teniendo en cuenta las ecuaciones normales, se
llega a demostrar que la variable independiente X1i y los residuos Ei están incorrelacionados
[cov (X1i, ii) =O]. Dejamos este ejercicio técnico al lector.
Coeficiente de determinación R2
U na vez estimada una regresión lineal parece lógico que nos preguntemos cómo de preciso
es el ajuste, es decir en qué medida esta regresión describe correctamente los datos: ¿Captura
el regresar mucha o poca proporción de la variación de la variable dependiente? El coeficiente
de determinación o R 2 de la regresión responde a esta cuestión relativa a la bondad del ajuste
de la recta a los datos observados . Veamos cómo se calcula y qué significa8 .
8
A lo largo de varios temas se tratan aspectos relativos al R-cuadrado . El lector interesado puede leer las
Sección 5.1.4.3 y la Sección 3.4.3.
Tema 2 31
expresión que nos permite relacionar la varianza muestral de Yi con la varianza muestral de
Pi,que depende de Xli junto con /Jo y /31, como vemos a continuación:
(2.2.14)
ya que por la Ecuación (2.2.13) sabemos que las variables "fi y ti están incorrelacionadas. Ttas
despejar se obtiene
var ( "fi)
= var (Yi) - var (ti). (2.2.15).
El cociente entre (2.2.15) y (varYi) nos permite ver la proporción de la varianza muestral de
Pi
Yi explicada por X i, o dicho de otro modo , el cociente entre la varianza muestral 9 de y la
varianza muestral de Yi proporcionando una medida de la bondad del ajuste realizado por la
regresión:
R2 = var (Pi) = 1 - var (ti).
(2.2.16)
var(Yi) var(Yi)
También se puede demostrar que el coeficiente de determinación es igual al coeficiente de
correlación al cuadrado 10
1~( - 2 1~(, _ )2
- L.t Yi - Y) = - L.t Yi - Y
n ~l n ~l
+ -n1 Ln ti2= 1
n
1
n
1
-SCE + -SCR = -SCT,
n
(2.2.17)
~l
9
Varianza muestra! que depende de Xli para los parámetros estimados, /Jo y /11 .
10
Como mostramos en la Sección 3.4.3.
32 ANÁLISIS DE REGRES IÓN LINEAL . ESTIMACIÓN
R2 = se E = 1_ se R (2.2 .19)
ser ser ·
15,52) por persona y trimestre . Si el precio se incrementa en un euro , ceteris paribus, el consumo
se reduce en 9 unidades y viceversa . De manera que podemos realizar predicciones a partir de
precios hipotéticos, y su util idad es obvia para las em presas productoras de tabaco . El R 2 = O, 906
indica que la regresión explica el 90 % de la varianza del consumo per cápita de tabaco.
-
salarioi = 7, 97 + 1, 13 · estudiosi (2.2. 21)
2
n = 5286, R = O, 098,
donde el subíndice i indica que los datos son de corte transversal, el nivel de estudios se mide por
estudios completados .
La expresión (2.2. 21 ) se interpreta de la siguient e forma : la variable estudios toma el valor 1
cuando el trabajador no tiene estudios, 2 si t ien e estudios primarios ,. .. , y 8 si es licenciado. A
partir de la expresión podemos calcular la pred icción del salario en función del nivel de estudios. El
cálculo es sencillo , simplemente hay que multiplicar el valor de la pendiente por el nivel de estudios
y sumar el término constante. De esta forma en el Tabla 2.2, hemos calculado la columna del
valor de salarios esperados condicionado por el nivel de estudios terminados JE(Salarios lestudios) ,
o simplemente la predicción de salarios estimada por la FRM. La última columna muestra cómo
varía el salario a medida que cambia el nivel de estudios, en realidad es un índice en el que
hemos considerado con valor 100 el nivel de estudios med io de la muestra, estudios de secundaria
1 (valor 3 de la variable). Aproximadamente el incremento salarial es del 10 % por cada nivel de
estudios finalizado, los trabajadores que no tiene n estudios ganan un 20 % menos que la media y
los trabajadores con licenciatura ganan un 50 % más que la media . En términos ceteris paribus,
el salario/hora aumenta 1,13 euros por cada nivel de estudios finalizado. El modelo , sin embargo,
solo explica el 9,8 % del comportamiento del sal ario, por lo tanto la FRM se ajusta poco a las
observaciones, y el resultado sugiere que necesaria mente hay otros factores que influyen en el
salario .
Además de otras variables que pueden ser importantes, el modelo considera que el incremento
de las retribuciones es lineal a medida que cambia el nivel de estudios finalizado , es decir el
incremento salarial es constante con el increment o de estudios lo que puede no ser cierto . Más
adelante analizaremos como se puede hacer para que estos incrementos sean variables.
34 ANÁLIS IS DE RE G RESIÓN LINEAL. ESTIMACIÓN
Utilizamos datos provenientes de la Con tab ilidad Naciona l Trimestra l entre el prime r trimestre de 1995 y el cuarto
de 2010 , en miles de millones de euros co nsta ntes de 2010 , y series desestacional izadas.
Tema 2 35
familia. Veremos en la siguiente sección que este camb io de unidades tendrá consecuencias sobre la
estimación del término constante , pero no sobre el coef iciente del PIB, que su estimación no variará
(0,85) . De manera que interpretar (2.2.22) como el incremento del ingreso personal es legítimo
siempre que hagamos abstracción del término constant e. La validez de esta interpretación depende
decisivamente, sin embargo, de si el promedio per cápita (consumo/población y PIS/población)
seann representativos del consumo y el PIB personal, en este sentido sabemos por la Figura 1.4.2
que las diferencias entre comunidades autónomas son acusadas, por consiguiente la agregación
nacional puede hacer que su media no sea representativa en algunas regiones.
El modelo poblacional de partida es consumo = /30 + {3 1 ingreso + E donde el consumo se
refiere al consumo privado de los hogares y el ingreso a la renta disponible. El modelo estimado
(FRM) no utiliza sin embargo la renta disponible sino el ingreso total , es decir la renta disponible
más los impuestos, de manera que el modelo estimado está utilizando una variable aproximada de
la renta disponible , y por tanto a la hora de interpret ar los resultados debemos considerar que ya no
estamos midiendo la función del consumo keynesiana sino de una versión aproximada. Volveremos
más adelante al uso de variables aproximadas o proxy.
En estos ejemplos hemos visto que es importante tener en cuenta las unidades de medida
de las variables para interpretar correctamente los modelos de regresión estimados. En muchas
ocasiones se nos plantea la cuestión de modificar las unidades de medida de las variables, de
manera que analizaremos cómo afectan estos cambios a los parámetros (coeficientes) estima-
dos. En otras la forma funcional adecuada podría ser no lineal. Estos casos los tratamos a
continuación.
(2.2.23)
(residuos) sin embargo solo son afectados por el cambio de escala de la variable explicada
[(2.2.25) y (2. 2.26) ]. Veamos un ejemplo.
--
salarioi = 296 , 362 +O, 267993 · beneficiosi,
--
(salarioi · 1000) = 296362 + 267, 99 · (beneficiosi),
( ~) pobt
= 33 ' 48 - 8 ' 98(pr.eciot)
ipct - 0,97·ln ( ~)
ipct
2.4
.. ..... .
2.4
2.2
iO 22
iO
~ o
o
N
2.0
~ UJ 2.0
o
~
::> 1.8
(/)
o
a:
!!!. ::> 18
(.)
o..
'a
·~
1.8
!!!.
(.)
o..
'¡)
o
16 . ,,
c.
1.4
ü
!!!
c.
14
.. .
1.2
12
10 12 14 18 18 20 22 24
10 12 14 16 18 20 22 24
clgarrillos/población (CAJETILLAS POR PERSONA)
cigarrillos/población (CAJETILLAS POR PERSONA)
(2.2 .27)
puesto que ln .Bo es una constante podemos hacer el cambio (ln ,80 = a 0 ). Por consiguiente
el modelo (2.2.27) lo hemos transformado en otro, expresión (2.2.28), en el que las variables
están en logaritmos. A este tipo de modelo se le conoce por el nombre de modelo log-log o
modelo de elasticidad constante.
La Figura 2.2.2 reproduce la diferencia entre el ajuste lineal y el ajuste en logaritmos de
la demanda de tabaco.
La Figura 2.2.2.a dibuja la recta que minimiza la suma de los cuadrados de los residuos
para las variables en niveles. La Figura 2.2.2.b se corresponde con el modelo en logaritmos.
38 ANÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓN
Como en el gráfico las variables están en niveles, el ajuste logarítmico aparece como una curva,
pero si representáramos en abscisas y ordenadas la variables en logaritmos entonces la línea
de regresión de la Figura 2.2.2b sería una línea recta.
En el modelo logarítmico el coeficiente /31 (0,97 para el caso de la demanda de tabaco)
estima la elasticidad de Y respecto de X. En este modelo, por tanto, una variación de un
1 % en la variable explicativa (que está en logaritmos) está asociada con una variación en la
variables dependiente (también en logarit mos) de un (31 %.
Resulta útil repasar la relación entre el logaritmo y el porcentaje para entender el porqué
de las interpretaciones que hacemos cuando aparecen logaritmos. Consideremos una variación
«pequeña» de cualquier variable x que denotamos como .6.x. La diferencia entre el logaritmo
de x+.6.x y el logaritmo de x es «aproximadamente» .6.x/x. Por ejemplo, si x = 100 y .6.x = 1,
entonces .6.x/ x = 1/100 = 0,01, mientras que ln (x + .6.x) - ln(x) = ln(lOl) - ln(lOO) que
arroja un valor de 0,00995, que es aproximadamente igual (indistinguible en la práctica) de
0,01. Por tanto, siempre que .6.x / x sea pequeño, la diferencia 13 de los logaritmos captura la
variación porcentual en x dividida entre 100. Es decir, .6.x/x = 0,01 implica que la variación
porcentual en x ha sido del 0,01 x 100 = 1 %.
Consideremos ahora la variación en lnY ante de un cambio en la variable en ln(X), esto
es
ln (Y+ .6.Y)-ln (Y) = [(Jo+ f31ln (X+ .6.X)]-[fJo + f31ln(X)] = f31 (ln (X+ .6.X) - ln(X)),
6x
ln(x + .6.x) - ln(x) ~ -,
X
entonces se tiene
6Y ~ (3 6X
1
y X'
o lo que es lo mismo
6Y/Y
1
(3 = 6X/X'
que es el ratio de variación de proporciones, y por tanto si multiplicamos por 100, obtenemos
el ratio de cambio porcentual, que es la elasticidad.
Por ejemplo, en la Figura 2.2.2b, ante un aumento del 1 % en el precio del tabaco la can-
tidad consumida disminuye en un 0,97 %, siempre que todo lo demás se mantenga constante.
Si la variable endógena Y está en logaritmos y la variable explicativa X en niveles entonces
el modelo se denomina logarítmico lineal (log-lin o lag-nivel), su forma general es
(2.2.29)
donde la pendiente f31 multiplicada por 100 es aproximadamente la tasa porcentual de cambio
de la variable dependiente 100·(31.6.X= .6.Y %, y se suele denominar semielasticidad. Lo que se
13
En términos de cálculo matemático esta interpretación se basa en que la diferencial de la función ln(x) ,
d(lnx) = dx / x.
Tema 2 39
interpreta fácilmente ya que si X cambia en una unidad (cambio unitario), este cambio está
asociado a un cambio de 100 x {31 % en Y. Esto es así 14 porque si comparamos los valores de
lnY antes y después de que se haya producido una variación discreta b,.X en X , tenemos
ln (Y+ b,.Y) - ln (Y) = [f3o + f31 (X+ b,.X)] - [f3o + f31X] = f31 (b,.X).
Si aplicamos a la diferencia que está a la izquierda del igual, el resultado, visto anteriormente,
de la diferencia de logaritmos se aproxima a b,.Y/Y, entonces
luego un cambio unitario en X genera un cambio en b,.Y/Y de f31, que implica una variación
porcentual en Y de 100 x f31 %.
Ejemplo 6. El crecimiento de la economía española
Tanto en la economía, como en los negocios el análisis del crecimiento de las variables es
algo habitual. Uno de los procedimientos para estimar la tasa de crecimiento es el uso de tenden-
cias. Ademas , como veremos en otros temas, estos modelos son a veces adecuados para realizar
predicciones temporales.
Con los datos del producto interior bruto PIB a precios del mercado español en millones de euros
de 2000 corregidos de efecto calendario (es decir, desestacionalizados) y periodicidad trimestral
entre el primer trimestre de 1970 y el cuarto de 2010 vamos a analizar algunos de los modelos
usuales de crecimiento que podemos utilizar.
El más sencillo es regresar el PIB directamente con el tiempo, es decir calcular una tendencia
lineal, el modelo de crecimiento en este caso es
(2.2.30)
que es un modelo que plantea este tipo de relación lineal entre la variable dependiente el PI B y la
variable independiente el tiempo t.
La función de regresión muestra! obtenidad a partir de los datos es
----
pibt = 55041, 70 + 840, 7810. t (2.2.31)
14
Diferenciando a ambos lados (2.2.29) tenemos dY/Y = (3 1 dx. Si multiplicamos por 100 en ambos lados,
y sustituimos el diferencial por un pequeño incremento discreto (.ó.x), resulta: (3 1 .ó.X·lOO = (ti.Y / Y)·lOO =
ti.Y%.
40 ANÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓ N
200,000 200000
o o
8N 180,000 8N 180,000
"
"O "
"O
e::>"' 160,000
e
::>
160 000
"" ""
140,000 140 000
"O "O
g""'e 120,000
g"
"'e 120 000
§. 100,000
§.
CD CD
100000
;;:: ;;::
80,000 80,000
60.000 60 000
o 40 80 120 160 200 40 80 120 160 200
cuya estimación es
--
ln pibt = 11, 11444 + O, 006833 · t
2
(2 .2.32)
n = 164, R = O, 9833.
2
El R ahora es mayor, explica el 98,33 % de la variable dependiente , mientras que (2.2.31) explicaba
el 95.41 %. Pero el primero se refiere al PI B mientras que el segundo al In PIB de manera que
estamos comparando ajustes entre variabl es dependientes diferentes, lo que no tiene sentido, y por
consiguiente el R 2 de (2. 2.32) y (2 .2.31) no se pueden comparar 15 . La Figura 2.2.3 muestra el
ajuste lineal y el logarítmico lineal.
Hemos visto que en los modelos logarít micos lineales la tasa de variación es la pendiente
multiplicada por 100 , en consecuencia la t asa de variación trimestral es aproximadamente 0,6833 %
(100·0 ,006833 = 0,6833) , de manera que nuestra predicción para el primer trimestre de 2011
es el va lor de la producción interior en el cuatro trimestre de 2010 multiplicado por 1,006833
(193.735 ·1,006833 ~ 195.059) lo que impl ica un error del 0,39 %. Mientras que el modelo de
tendencia lineal subestima la predicción , el modelo de tendencia exponencial la sobreestima 16 . El
error de predicción de la tendencia expon encial es mayor.
donde la pendiente f31 dividida por 100 es aproximadamente el cambio de la variable explicada
.6.Y =(f3i/100).6.X 17 . Esta interpretación es así por lo siguiente. Consideremos la diferencia
en la función de regresión poblacional entre los valores de X que se diferencian en la cantidad
.6.X: es decir
[f3o + f31ln (X+ .6.X)] - [f3o + f31ln (X)] = f31 (ln (X+ .6.X) - ln (X)) ~ f31 (.6.X/ X).
Por tanto si cambia X en un 1 %, es decir si .6.X/ X = 0,01, entonces dicho cambio tiene
asociado en este modelo una variación en Y de O, 01 x {31 .
17
Diferenciando a ambos lados de la ecuación lin-log, se tiene dY = f3 1 dX/ X. Sustituyendo diferenciales por
incrementos pequeños, tenemos /3 1 (!:::..X / X) = !:::.. Y , multiplicando y dividiendo en el lado izquierdo por 100
obtenemos el cambio (/3¡/100)(1:::..X/X)·lOO = !:::..Y.
42 A NÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓ N
80
~
Cll
e
iij
Cll 70
-o
·;:;
QJ
-o
~
e
60
e!
QJ
o.
"'
UJ
50
..
40 -+-~~~~~~~~~~~~~
o 1o 20 30 40 50 60 70 80 90
n = 185, R 2 = O, 4983.
De manera que a medida que aumentan los años de estudios disminuye la tasa de mortalidad
infantil, si los años de estudio son igual a uno, entonces el modelo predice una tasa de mortalidad
por cien mil de 291, 22(292, 78-1, 56). El promedio mundial de años de escolaridad es 7, 57 años.
Aplicando este valor, la predicción de la tasa de mortalidad es 37, 11[-1: 56 + 292, 78(1/7, 57)]
por cada cien mil nacidos vivos menores de cinco años.
La elección de la forma funcional en los modelos de regresión simple puede ser a priori
relativamente fácil de determinar puesto que podemos realizar el gráfico de las variables y
hacernos una idea de cómo podría ser la forma funcional. El problema se agrava cuando
introducimos más de una variable independiente (regresión múltiple) , entonces la elección
de la forma funcional de las distintas variables puede ser todo lo complicada que queramos.
En ocasiones la teoría económica (o el sentido económico) nos sugieren una forma funcional
Tema 2 43
El modelo de regresión simple facilita la comprensión del método mínimo cuadrático pero
tiene la limitación de admitir solo una variable independiente. En este sentido el modelo de
regresión múltiple extiende el modelo de regresión simple para incluir variables adicionales
como regresares. Como hemos dicho en la Sección 2.1, el modelo permite estimar el efecto
sobre Y de la variación de una variable X 1i manteniendo constante el resto de regresares. Por
tanto, el hecho diferencial es que en vez de considerar una variable explicativa, consideramos k
variables explicativas de la variable dependiente. El modelo de regresión múltiple poblacional
es por tanto
(2.3.1)
Como dijimos en la Sección 2.1 el modelo con múltiples variables explicativas nos permite
contemplar que, a diferencia de lo que plantea el modelo de regresión simple, la variable a
explicar depende, y por tanto varía, en función del valor que tomen varias variables. Algo que,
por otra parte, es perfectamente esperable para las variables económico-empresariales. Vere-
mos en posteriores temas que no incluir variables que afectan sistemáticamente a la variación
de Y conduce a problemas severos en la validez del modelo. También en la referida Sección
explicamos el significado de los coeficientes en términos relativos a que los mismos capturan
el efecto parcial, esto es, el efecto esperado sobre Y ante un cambio en una de las variables
explicativas, cuando el valor de las otras variables explicativas toma un valor determinado y
por tanto a esto efecto fijo. De ahí que digamos que el coeficiente o pendiente /31 captura el
efecto parcial de la variable X 1 controlando por el resto de variables Xj, j = 2, 3, .. ., k , esto
es, descontando el efecto que sobre Y tienen el nivel que alcancen dichas variables.
La Figura 2.3.1 muestra el plano de regresión que interseca con el eje vertical al nivel
determinado por (30 , el término constante. Los otros dos parámetros miden la pendiente en
el plano en las direcciones de las variables explicativas X1 y X2. Los datos observados están
representados por los puntos , y vemos que, al igual que sucedía con la recta de regresión, no
caen todos dentro del plano, unos estarán por encima, otros por debajo y otros sobre el plano.
44 ANÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓN
ndiente en la dirección de X1
(2.3 .3)
Lo que se consigue derivando respecto a cada parámetro e igualando a cero. Operando se llega
a k + 1 ecuaciones normales
n n
L (Yi - So - S1X1i -S2X2i - .... -fekxki) = L: ti =o, (2.3.4)
i=l i=l
n n
¿x1i (Yi -So -S1X1i -S2X2i - .... -fekxki) = ¿x1iii =o, (2.3.5)
i=l i=l
n n
¿xki (Yi -So -fe1X1i -fe2X2i - .... -Skxki) = ¿xkiii =o, (2.3.6)
i=l i= l
Tema 2 45
(2.3.8)
(2.3.9)
(2.3.10)
A partir de las ecuaciones normales (2.3.4) a (2.3.6) se despejan los parámetros ~j· Este
cálculo se hace más sencillo utilizando expresiones matriciales y así llegamos a la expresión
'
f3MCO = ( 1
XX )-1 Xy.
1
(2.3.11)
donde f:JMco es 18 el vector columna de los parámetros estimados {~o , ~1, ~2, ... , ~k} y cuya
deducción se muestra en el Apartado 2.5 del Apéndice técnico de este tema.
En la Sección 3.4.1 se muestra que se llega a la misma estimación a partir de
(2.3.12)
donde eji son los residuos de la regresión entre Xj con el resto de regresares o variables
explicativas, es decir para el caso de j = 1 e1i son los residuos de la siguiente ecuación mínimo
cuadrática
(2.3.13)
18
En algunas partes del texto utilizaremos la expresión b como el estimador MCO, es decir b = f3Mco. En
este sentido notacional cabe decir que a lo largo de este libro la expresión /3, que no indica tampoco el método
de estimación, indicará que nos referimos a la estimación MCO.
46 ANÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓN
y
- - -
eii = X1i - f3o - f32 X2i - ... - f3kXki, (2.3.14)
donde hemos utilizado el símbolo ,. . ., en los coeficientes para distinguirlos del modelo original.
La expresión (2.3. 12) muestra que !J1 se puede calcular mediante regresión simple entre
la variable dependiente Y i y eji 19 y, lo que es más importante: en la estimación de cada
parámetro se tiene en cuenta no solo la relación entre variable regresara y regresada, como
ocurría en el análisis de regresión simple, sino que en la regresión múltiple se tienen en cuenta
la relación entre todas las regresaras para el cálculo de cada parámetro. De manera que la
introducción de una nueva variable explicativa hará que el resto de parámetros se modifiquen
salvo que la nueva variable no esté correlacionada con el resto, en cuyo caso los parámetros
de 2.3.12 son nulos; o bien que el parámetro de la nueva variable introducida sea nulo.
En general las características que vimos en el análisis de regresión lineal simple se pueden
extender al múltiple:
• ('t, =o) ,
i=l
YiÉi la estimación de la variable regresada «fi» y los residuos «Éi» no están
---
ln consumo= 3, 89 +O, 615(1n ingresos)
2
n = 95, R = O, 3292.
En este modelo estimado un incremento del 1 % en los ingresos provoca que el consumo
se incremente un 0,615 %, si todo lo demás se mantiene constante . Lógicamente el consumo
familiar depende de otros factores además de los ingresos familiares . Parece lógico pensar que el
19
Para el caso de j = 1 regresamos Y; = flo + fheii· Utilizando la propiedad de media nula del regresor
ei =o y de la fórmula de la pendiente tenemos que fl1 = ¿: (Y. - Y)e1 / L: ei; = ¿: (rteli)/L: eii que es la
expresión (2.3.11) para el caso de j = l.
Tema 2 47
consumo tiene también relación con el número de miembros de la unidad familiar. Esperamos que a
medida que crece el tamaño de la unidad, también aumente su consumo, de manera que añadimos
una segunda variable cuyo valor es el número de miembros de las familias encuestadas, la nueva
estimación es
-----
ln consumoi = 5, 15 +O, 443 · (ln ingresoi) +O, 1420 · tamañoi,
n = 95, R 2 = O, 4149.
Para poder calcular los coeficientes mínimo cuadráticos ninguna de las variables indepen-
dientes o explicativas puede ser constante (las variables deben recoger variabilidad para poder
observar la intensidad de la relación entre las variables regresoras y la variable objetivo). No
obstante, no puede haber relaciones lineales exactas entre las variables explicativas (colinea-
lidad o multicolinealidad exacta). Además el número de observaciones tiene que ser mayor
que el de coeficientes a estimar «n>k + 1». Por otra parte, por definición, el coeficiente de
determinación o R 2 se calcula igualmente y tiene la misma interpretación que en el modelo
de regresión lineal simple
cualquier otro valor diferente de cero es porque para ese valor se ha reducido la SCE relativa
a la regresión que excluye dicho regresar (obviamente esto así simplemente por la propia
construcción del MCO). Por este motivo decimos que generalmente el R 2 nunca disminuye al
incorporar nuevos regresares.
Debido a esto, un incremento del R 2 no significa necesariamente que añadir una nueva
variable realmente haya mejorado la calidad del ajuste de nuestro modelo. En realidad incluso
si la nueva variable incluida en el modelo mejora nuestro ajuste, sabemos que necesariamente
el R 2 de la nueva regresión estará artificialmente «inflado» por el mero hecho de incorporar
un nuevo regresar. Por este motivo se utiliza el R2 corregido, que ajusta por el número de
coeficientes estimados y cuya definición es
R 2 = l _ S C R/n-k - 1 0-2
= 1 - 52' (2.3.16)
SCT/n-1 y
donde se divide la suma cuadrática de los residuos por «n» menos el número de parámetros
estimados «k+ l», es decir, por «n - k - 1»; y la suma cuadrática total se divide por «n - l».
«8" 2 » es un estimador insesgado de la verdadera varianza de los residuos, <«r 2 » y «Si» es la
varianza muestral de «Y» 2º.
Hay tres cuestiones que conviene saber del R2 :
l. El R2 es siempre menor que el R 2 , puesto que al ser k > O, se tiene que (n-1) / (n- k-1)
es mayor que 1.
2. Añadir un regresar tiene dos efectos opuestos sobre R2 . Por una parte, SCR disminuye,
lo que incrementa R2 . Por otra, el factor (n - 1) / (n - k - 1) aumenta. El efecto final
sobre R2 dependerá de cuál de ambos efectos sea mayor.
3. El R2 puede ser negativo. Esto sucede cuando los regresares, considerados conjuntamen-
te, reducen SCR por una cantidad tan pequeña que dicha reducción no logra superar el
efecto del factor (n - 1)/(n - k - 1).
decir JE (Yi IXi) = /30 - /31X1,i + /32Xf,i, define una función cuadrática respecto de una sola
variable independiente, en este caso, X l · El modelo por tanto relaciona la variable dependiente
Y con una variable independiente X 1 de un modo no lineal y, pese a que esto podría parecer
a priori de complejo tratamiento, la regresión múltiple nos permite tratarla adecuadamente
al considerar como variables distintas a X[, y a X 1 .
La interpretación del efecto en la variable Y de un cambio en la variable X 1 será diferente.
Para ver la relación entre ambas variables observemos que aproximadamente
(2.3.18)
(2.3.19)
Luego , en este caso, a partir del nivel umbral encontrado, el efecto sobre la variación en la
variable Y será distinto si la variable independiente está por encima o por debajo del mismo.
Al ser la segunda derivada positiva, el efecto de X 1 sobre Y será decreciente hasta llegar al
valor /31/2/32 y creciente a partir de ese momento . Si invertimos los signos, Y = /30 + /31 X 1 -
f3oX 12 + e estaremos ante un máximo, de manera que la relación será creciente hasta /31/2/32
y decreciente a partir de ese momento. Veamos un ejemplo.
Los estudios tienen una relación en forma de U con mínimo en 1,01 (0,385/(2 x 0,189)) de
manera que el efecto sobre el salario es distinto para los trabajadores sin estudios (ver Tabla 2.2)
que lo es para el resto de trabajadores con estudios terminados. La relación de los salarios con la
antigüedad tiene forma de U invertida con máximo en los 87,94 años trabajados, de manera que
en todo el tramo relevante la relación es creciente pero con incrementos decrecientes.
50 ANÁLISIS DE REGRESIÓN LINEAL. ESTIM ACIÓN
--
ln (consumo) = 4, 689 +O, 410 ln (ingresos) +O, 154 ·tamaño
+O, 337 · estudios - O, 029 · estudios 2 ,
(2.3.20)
--
6.internet = [-19, 08 + 2, 51 · ln (ingresos)] D..estudios. (2.3.24)
23
Este ejemplo es meramente ilustrativo del uso de los términos de interacción . Cuando la variable dependiente
está medida en proporciones hay modelos más adecuados. Estos modelos y sus técnicas se presentan más adelante.
52 A NÁLISIS DE REGRESIÓN LINEA L. ESTIMACIÓN
El ingreso medio per cápita en términos de PPA en logaritmos de la muestra es 8,8 y por consi-
guiente el valor de (2 .3.24) es aproximadamente 3 [(-19 ,08+2 ,51·8 ,8) = 3,008]. de manera que el
aumento de un año de estudios produce un incremento de 3 puntos en la proporción de usuarios
de internet para niveles de ingresos igual a su media (8 ,8). Por supuesto se puede utilizar cualquier
otro valor que interese analizar además de su s valores medios.
Alternativamente, si estamos interesados , podemos reparametrizar el modelo sustituyendo en
el término de interacción las variables en niveles por sus desviaciones a las medias. En ese caso
estimamos el sigu iente modelo
-
internet = -11 5, 11 + 12, 80 · ln (ingresos) + 3, 02 · estudios
+ 2, 51 {[ln (ingresos) - 8, 8] [estudios - 7, 59]} (2.3. 25)
n = 169 R 2 =O 8024 R2 = O 7988
' ' ' ' '
donde podemos apreciar que los coeficientes estimados son iguales a los efectos parciales calculados
a partir de las expresiones (2.3.23) y (2.3.24) en sus respectivas medias24 .
X·J - X J·
Z J. -- (2. 3. 26)
Sxj
Cuando t ipificamos obtenemos variables con media nula y varianza unitaria. La unidad
de medida en este caso es la desviación típica (o error estándar). Si la variable se distribuye
normalmente entonces un incremento de una desviación t ípica equivale a un incremento apro-
ximado del 34 % sobre su valor medio y un incremento de 0,25 desviaciones a un incremento
del 10 %.
En otras ocasiones puede resultar adecuado expresar todo el modelo estandarizado. En
este caso el modelo se denomina habit ualmente modelo de coeficientes beta. Si en el modelo de
regresión múltiple restamos a todas las variables su media y las dividimos por sus respectivos
errores estándar obtenemos el siguiente modelo
donde desaparece el término constante, pues estamos utilizando una regresión en desviaciones
a las medias y los coeficientes de la regresión del modelo en niveles aparecen mult iplicados
por el cociente de las desviaciones típicas en aplicación de las expresiones (2.2.24), (2. 2.25), y
(2.2.26) podemos expresar (2 .3.27) en términos de variables tipificadas Z
(2 .3.28)
24
Las discrepancias se deben al efecto redond eo.
Tema 2 53
donde utilizamos ""' para distinguir los coeficientes beta respecto de los mínimo cuadráticos
«'».
Una de las ventajas de los coeficientes beta es que no dependen de las unidades de
medida utilizadas y permiten determinar la influencia de las variables explicativas sobre la
explicada a partir de la magnitud del coeficiente, lo que normalmente no ocurre en los otros
casos en que los coeficientes pueden modificarse cambiando las unidades de medida de las
variables.
En el Ejemplo 9, del consumo de las familias cuyo cabeza de familia se dedica al turismo
en Cataluña obtuvimos la siguiente expresión
---
lnconsumoi = 5,15 + 0,443· (1n ingresoi) + O,l420·tamañoi·
Los coeficientes beta son
2.4. MODELIZACIÓN
2.3.3 introdujimos el caso cuando algún regresor está en forma de potencia. Así pues, tenemos
modelos alternativos que contienen diferentes transformaciones tanto de la variable depen-
diente, como de las independientes. Más aún, algunas de la formas tienen ciertas semejanzas.
En términos generales, la guía más natural para elegir la forma funcional , si bien no es la
única y podría matizarse en función del problema a tratar, consistiría en:
• (i) optar por una forma que sea consistente con lo que indica la teoría económica sobre
la relación,
• (ii) elegir una forma que sea suficientemente flexible para «ajustar» los datos, y
• (iii) elegir una forma funcional que (mejor) asegure que los supuestos que veremos en
el Tema 4 son satisfechos, de modo que los estimadores - en este caso MCO- tengan
igualmente las propiedades deseadas para un estimador. Estas propiedades también las
veremos a partir de dicho tema. Comprobaremos entonces que el análisis de los residuos
del (de los) modelo( s) estudiado(s) será reveledor al respecto de la calidad del modelo
seleccionado finalmente.
Resulta enormemente útil no olvidar que nunca sabemos el «verdadero» modelo, es decir, la
«verdadera» relación funcional entre la variables socio-económicas. Nuestro modelo selecciona-
do, tras haber realizado suficientes pruebas y comprobaciones, siempre será una aproximación
(y esperemos que útil).
Recuerde el lector a estos efectos lo comentando en el tema precedente a este respecto:
Cuando decimos que el modelo es una aproximación nos referimos al hecho innegable de la
excesiva complejidad del comportamiento económico debido entre otros a la dificultad de medir
con precisión (incluso de definir con precisión aspectos determinantes del comportamiento
económico) y debido a que el economista tiene poco o ningún control sobre el fenómeno bajo
estudio.
En estas circunstancias resulta demasiado optimista considerar que los modelos econo-
métricos (modelos de probabilidad) propuestos son suficientemente adecuados para capturar
esta complejidad inherente. Por este motivo, resulta más ajustado considerar que un mode-
lo econométrico (o la modelización econométrica) es una cruda aproximación a la relación
(verdadera) que existe entre los datos observados.
Tema 2 55
Y= Po+ P,X'
Y=Po+P1 X3
y y
\('
p, >o
-----\
'-........___-:;,-=-- -
X X
Modelos log-log
Modelos log-log
"~ -'\,',,,'',,,
y
/----- ------~-~·;.:-!-
Modelos lineal-lag
Modelos lag-lineal
Y =Po +p,111x lnY=Po+P,X
p, >0
y y p, >o
"-.................____ _
---------
-·-----. --
p,<O
---
---------------------
X
X
Lo que conseguimos si derivamos con respecto a los coeficientes e igualamos a cero , que es la
condición de primer orden necesaria para que tenga mínimo,
(2.5.3)
8 e~ t[) n A A
+ /31 -n1""'
A 2
¿ X1i· (2.5.10)
i==l i==l i==l i==l
(2.5.11)
n n
n1 2: XiiYi - - -
YX1 ¿ (X1i - X) - (Yi - Y)
/31 = _ i_==_l_ _ _ __ i==l
(2.5.13)
(2.5.16)
(2.5.18)
de manera equivalente a la que hemos utilizado en el modelo con una sola variable. Por tanto,
MCO localizará los parámetros Sí
que minimicen la suma de sus residuos cuadráticos definidos
por el modelo estimado Éi
l[ l
que se puede expresar en notación matricial de la siguiente forma
~o ~1..
es decir
[: l [¡ Xk2
Xk1
..
.
Xkn
/31
Sk
..
.
+
[ c2
.
in
(2.5.19)
Y= x,8 + €, (2.5.20)
donde y es el vector columna n x 1 de las observaciones de la variable dependiente observada.
X la matriz (n x (k + 1)) de observaciones de las k variables independientes, la primera
columna son unos para obtener el término constante. f3 el vector columna ((k + 1) x 1) de
los parámetros estimados. € el vector columna de los residuos estimados que es de la misma
dimensión que el vector y .
Los residuos son
€ = y-X{3 (2.5.21)
Tema 2 59
y su suma al cuadrado
(2.5.22)
= y'y - y'Xf3 - {3 1 X'y + {3 1X1X{3 = y'y - 2y'Xf3 + {3 1X1X{3,
que si minimizamos derivando respecto a los parámetros e igualando a cero obtenemos
8
€~€ = - 2y'X + 2X'X{3 = O (2 .5.23)
8(3
operando tenemos
b= A
f3M C O = (
X X )-1 X /y
/
(2.5.24)
o lo que es lo mismo
n n n -1 n
n L Xli L X2i I::: xki I:::Yi
i=l i=l i =l i=l
n n n n n
L X1i LXfi L X 1iX2i L X1iXki L YiX1 i
b= i= l i=l i=l i=l i= l
n n n n n
¿xki I::: xkix1i I::: x kix2i ¿x~i L YiXki
i=l i=l i=l i=l i= l
(2.5.25)
También podemos obtener los parámetros mínimo cuadráticos a partir de
(2.5 .26)
n
¿x1i (Yi - /Jo - 81 X1 i - /32 X2i - .... - /Jkxki) =o (2.5.28)
i= l
n
L X2i ( Yi - /3o - f31 X1 i - /32 X2i - .... - /Jk xki) =o (2 .5.29)
i=l
n
¿xki (Yi - f3o - /31 X1 i -/32X2i - .... - /Jkxki) =o. (2.5.30)
i=l
60 ANÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓN
(2.5.34)
X'y = X'X/3,
para lo cual debe existir la inversa de la matriz , X'X, lo que está garantizado siempre que
la matriz X sea de rango completo. Las ecuaciones normales [(2.5.28) a (2.5.30)] demuestran
que la estimación MCO genera que las variables independientes estén incorreladas con los
residuos [cov (Xi, i) = cov (X2, €) = ... = cov (Xk. €) =O].
A partir de la Ecuación (2.5.28) también podemos deducir la expresión (2.3.12). Realiza-
mos la regresión de X li respecto del resto de variables independientes
(2.5.35)
donde Xli es una combinación lineal del resto de las variables independientes y por consi-
n •
guiente ¿ X1iEi =O. De este modo la expresión (2.5.36) puede expresarse así
i=l
n
L e1i ( Yi - /Jo - /31X1i - /32 X2i - .... - /Jk xki) =o, (2.5.37)
i=l
n
como e1i son los residuos MCO de la regresión (2. 5.35) y por tanto ¿ Xj ieli = O para todo
i=l
j = 2, 3, .. ., k, lo que nos facilita expresar (2.5.37) así:
n
2: e1i ( Yi - /31X1i ) = o. (2.5.38)
i=l
n • •
Si nuevamente utilizamos que ¿ X1ie1i =O, se tiene que /31 resuelve la siguiente expresión
i=l
n
I::e1 i (Yi - /31e1i ) =o (2.5.39)
i=l
y por consiguiente
n n
2: hiYi - /31 ¿ eii = o; (2.5.40)
i=l i=l
operando llegamos a la expresión (2.3.12)
(2.5.41)
R2 = se E = ser - se R
(2 .5.45)
SCT SeT .
La suma cuadrática total es
A partir de la suma cuadrática de los residuos y, teniendo en cuenta la forma matricial de las
ecuaciones normales, tenemos que
n
SeR =¿ t¡ =€'€ = y'y - 2y'X,6 + ,61X 1X,6
i=l
= y'y - 2y'X,6 + ,6 1X'y (2.5.47)
= y'y - 2,61X'y + ,61X'y puesto que y'X,6 = ,61X'y
= y'y - ,6'X'y.
2 (2.5.48)
_ @'X'y-nY
- y'y-nY 2 •
EJERCICIOS
Teóricos
l. Trabajando con datos expresados en desviaciones con respecto a la media, se han obte-
nido las siguientes estimaciones entre el consumo (c) y la renta disponible (y), y= 1,2c,
e= 0,6y. Obtenga si es posible el valor del coeficiente de determinación de estas regre-
siones.
5. Si designamos por Eí los errores del modelo de regresión y por e:i su estimación, diga si
son nulas y por qué las expresiones, JE( e:), JE(€), €, l.
7. Compruebe que las denominadas ecuaciones normales se obtienen igualando a cero las
primeras derivadas parciales de .L €[ respecto a cada uno de los betas. Pero igualar a
cero las primeras derivadas no garantiza que hayamos minimizado la función objetivo.
Compruebe que se cumple también la segunda condición.
Prácticos
8. La tabla ET2 1 contiene, entre otras, la serie del Producto Interior Bruto en EE.UU.
entre los años 194 7 y 2011 medida en términos corrientes (billones de dólares) así como
el defiactor del PIB.
10. La tabla ET2 _ 3 contiene una muestra de 200 individuos extraída de los datos empleados
por Koop y Tobías (2004) para estudiar los determinantes del salario. En dicha tabla se
describen las variables consideradas.
11. En la tabla ET2 4 se recogen los datos empleados en el Ejemplo 3 (salarios y nivel de
estudios en el sector turístico).
a) Trate de reproducir los resultados obtenidos en dicho ejemplo. Obtenga el valor del
coeficiente de determinación corregido.
b) Según la ecuación estimada, ascender un grado en la escala de estudios siempre
tiene el mismo rendimiento en términos de salario. Estime el modelo log(yi) =
Tema 2 65
La Sección 3.2 presenta una metodología o enfoque que permite tratar la esperanza con-
dicionada del modelo , que es desconocida, desde una perspectiva más amplia. De hecho,
considera que el modelo de regresión múltiple es una aproximación lineal de la esperanza
condicionada del modelo . Esta perspectiva resulta muy útil y realista en la práctica.
Las dos últimas secciones del tema presentan algunas técnicas estadísticas relacionadas
con la estimación del modelo que resultan operativas en la elaboración de resultados econo-
métricos.
El tratamiento de este tema no es imprescindible para el siguiente tema. Se trata por tanto
de unos contenidos de carácter avanzado, no necesariamente indicados para el lector novel.
67
68 ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN
Hemos comentado anteriormente que la noción de ceteris paribus es central para plantear-
nos posibles inferencias causales a partir de un modelo econométrico como es el modelo de
regresión múltiple. Cuando queremos conocer la respuesta media o la respuesta esperada de la
variable dependiente respecto a una variación o cambio en la variable independiente (Xj), la
aproximación ceteris paribus requiere, como primer paso, estimar el valor esperado de Yi con-
dicionado al vector xi, formado por las variables explicativas. Es decir, JE(Y¡ IXil,Xi2, ... , XiK ).
A partir de esta esperanza condicionada será posible preguntarse sobre el efecto parcial que
tiene la variable Xk sobre el valor esperado de Y, para lo que será necesario mantener cons-
tantes el resto de variables explicativas. El motivo para proceder de esta manera es debido
a que la naturaleza de los datos económicos (y sociales en general) nos hace pensar que Xj
puede estar fácilmente correlacionado con otras variables X 8 , s =F k, que también afectan a la
variable dependiente.
Es necesario, por tanto, comprender el contenido de la esperanza condicionada.
x , por ejemplo, xo, m(xo) será (como cualquier ot ra esperanza) una cantidad no estocástica
o determinista. En cambio, al considerar m(x) estamos condicionando sobre cada posible
realización de x. En general, m(x) puede tener cualquier forma (lineal o no-lineal) y como
esperanza puede obtenerse a partir de la función de densidad condicionada de y dado x
(mediante integración y/ o suma).
Por tanto la esperanza condicionada es una variable aleatoria, susceptible de ser expresada
formalmente. Supongamos que definimos y = log(salario) y X = experiencia, como el número
de años en el mercado laboral. En tal caso podemos considerar la función de distribución
de probabilidad conjunta f(y, X), y a partir de ésta la variable X (experiencia) tendrá una
función de densidad marginal
fx(X) = i f( y, X)dy.
Para cualquier X tal que fx(X) > O, la función de densidad condicionada de y dado X se
define como
f(y, X)
fy ¡x (y IX)= fx(X) .
y cuando es continua
JE(JE(yl x)) =
}Rk
f JE(y/xj)fx(x)dx.
Consideremos un ejemplo sencillo en el que ponemos unos números para operar. Sea la
variable log( salario) por hora en el sector de la hostelería, y distingamos entre el salario medio
condicionado a la variable género. En la muestra hay 2536 mujeres y 2750 hombres. En este
caso tendremos la media del log(salario) condicionado a la variable (género = hombre) y la
media condicionada a (género= mujer). Hemos representado en la Figura 3.1.1 una estimación
de la función de distribución del log (salario) para hombres y para mujeres. La línea de trazado
continuo representa la función de distribución empírica de la variable para mujeres.
1.4
1.2 r'
1
1
1.0 1 1
1 1
?:' 1 1
·~ 0.8 / 1
1
"
o
0.6
1
1
\
\
1
1
/ 1
1
1 1
0.4 1
/
1
' -- '
0.2
o.o
1.2
~/
1.6
/
I
/
2.0 24 2.8
"--- _______
3.2
......
Si estimamos las medias condicionadas tenemos que JE (log( salario) /género = hombre) =
2,45 y JE (log( salario) lgénero = mujer) = 2,27. La Ley de las esperanzas totales nos indica lo
siguiente
La Ley de las esperanzas totales puede ser fácilmente ampliada para que sea posible considerar
dos conjuntos de variables condicionantes. La ley resultante de esta generalización se conoce
como Ley de las Esperanzas Iteradas.
Teorema 2. Si JE IYI < oo, entonces para cualesquiera vectores x1, x2,
se tiene
La Ley de las esperanzas iteradas aplicada a esta situación y datos nos indica que
Cuando estudiamos la esperanza condicionada del salario medio es posible que no todas las
variables explicativas sean observables, pensemos por ejemplo en la variable habilidad innata
de cada trabajador para un puesto de trabajo. Pese a esta limitación, habitualmente queremos
saber cuáles son los efectos de la variable Xj sobre la variable y, dejando inalterados todos
72 ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN
los demás de factores influyentes, sean estos observables o no. Consideremos por un lado a
los factores influyentes, pero no observables (que llamamos, por ejemplo, z), y por otro a los
factores influyentes y observables (x). La Ley de las esperanzas iteradas nos permite relacionar
ambos factores condicionantes:
Adicionalmente, se puede dar una expresión más general que la enunciada en el Teorma
2. Consideremos que w es un vector aleatorio y que x es cualquier función de w , digamos,
x= f(w). Podemos pensar, por ejemplo, que el vector x es un subconjunto de w. La versión
general de la Ley de las Esperanzas Iteradas es la siguiente
Es decir, es posible calcular JE(y lx) calculando el valor esperado (condicionado por x) de
JE(y lw ), que es una función de w . Nótese que parte del interés y potencia de la Ley reside
en (3.1.1): que si bien conociendo w podemos obtener x , el recíproco no es necesariamente
cierto. Un resultado menos potente es (3 .1.2) que se verifica dado que x es función de w y
por tanto el valor esperado de m(x) (que es función de x) conocido w , es propiamente m(x),
es decir JE(y 1x). Una forma de memorizar fácilmente ambos resultados es considerar que el
conjunto de información menor siempre domina.
Otra propiedad muy útil de las esperanzas condicionadas es que cuando condicionamos
sobre un vector aleatorio x , realmente este puede tratarse (al operar con la esperanza) como
una constante:
y
JE (g(x)y) =JE (g(x)JE (y lx)).
Habitualmente nos referimos a este teorema como la propiedad condicionante del opera-
dor esperanza. Se usa frecuentemente, y en muchas ocasiones junto con el hecho de que la
esperanza condicionada es un operador lineal:
Tema 3 73
Para ilustrar estos últimos resultados consideramos que w = (X1, X2, Xi, X1X2) y que
x = (X1,X2) por lo que w = f(x). Si la ecuación que explica en promedio y viene descrita
del siguiente modo
donde g es una función real de variable real. En este caso podemos aplicar los últimos resul-
tados:
JE(y lx) = lE(y 1 X1,X2) = JE[JE(y 1 w) lx] =
=JE [g(f(x)) lxJ = gJE(f(x) lx) = g(f(x)) =
= (f3o + f31 X1 + f32X2 + {33Xi + {34X1X2) = JE(y 1w) .
Es decir, una vez condicionado sobre X1, X2 es redundante hacerlo incluyendo también (fun-
ciones del conjunto de información) Xi, X1X2. Conviene observar que en este ejemplo hemos
considerado que la función esperanza condicionada es lineal en los parámetros f3} aun incor-
porando expresiones no lineales en las variables explicativas. En general, la función m(x) no
tiene que ser necesariamente lineal. De hecho los resultados teóricos presentados en este tema
son en buena medida independientes de la forma funcional.
E = y - m(x).
obtiene aplicando las propiedades vistas en los teoremas previos relativas a la linealidad del
operador esperanza y al teorema del condicionante
2. JE(é) =o.
El cuarto resultado indica que el término error E está incorrelacionado con cualquier fun-
ción de las variables regresaras.
En todo caso conviene matizar que JE( E lx) = O resulta o viene implicado directamente
de la definición de E como diferencia entre y y m(x). Esta característica indica que la media
condicionada de E es O y por tanto independiente de x. Lo que no implica que la distribución
de E sea independiente de X. Por ejemplo, consideremos que un modelo y= Xu donde X y
u son independientes y JE(u) =l. En tal caso,
predictor podemos ponerlo como función g(X) de X. Este predictor cometerá un error de
predicción para una X determinada de y - g(X). Una medida no estocástica de la magnitud
del error de predicción es el valor esperado de su cuadrado
El mejor predictor sería áquel que minimizara la expresión (3.1.4). Pues sucede que la
función que minimiza dicho error es precisamente m(X), la función esperanza condicionada.
Lo podemos comprobar como sigue
Del mismo modo podemos construir un vector con los k efectos, es decir, un vector de
derivadas parciales (en caso de que sean continuas):
\i'im(x)
Y'2m(x)
1
V'm(x) =
1 V'km(x)
(3.1.7)
Podríamos escribir igualmente esta relación que acabamos de definir como una función
que recoja el resultado potencial
que indica (la notación) que el resultado potencial y(X1) considera el output en caso de
mantener constantes x2, u. Por ejemplo, si X1 = 1 indica tratamiento e X1 =O no tratamiento,
entonces y(O) es el resultado en términos de salud si no hay tratamiento, y viceversa. Por tanto,
tendríamos dos resultados posibles imputables a la situación «si hay tratamiento» o «si no lo
hay». Esto nos permite entender el efecto causal del tratamiento para un individuo como el
cambio en la variable objetivo debido exclusivamente al tratamiento (es decir, manteniendo
constantes las variables x2 y u):
C(x2, u)= y(l) - y(O).
Al depender de (x2, u) , es una función aleatoria que puede tomar diferentes valores para
cada individuo. Sin embargo, en una muestra determinada no podemos observar al mismo
individuo bajo los posibles valores de X1 . Esto hace que no podamos observar el efecto indi-
vidual, y nos centremos en el efecto causal promedio.
En este punto nos preguntamos si existe alguna relación entre el efecto causal promedio
ECP(X1,x2) y la derivada parcial de la regresión Y'1m(x) = Y'1m(X1,x2). A partir de la
Ecuación (3.1.6) la función esperanza condicionada es
m(X1, x2) = IB:(h(X1, x2, u) IX1, x2)
= r h(X1, x 2, u)f(u IX1, x2) du,
}~1
78 ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN
\71m(X1, x2) =
kr \71h(X1, x2, u) f (u IX1, x2) du + kr h(X1 , x2, u)\7if(u IX1 , x2) (3.1.9)
du
(3.1.10)
Nos indica que, en general, el efecto causal promedio no coincide con la derivada parcial
de la regresión. Sin embargo, serían iguales cuando el segundo término de (3.1.10) fuera cero.
Esto sucede cuando \7if(u IX1,x2) =O , es decir , cuando la función de densidad condicionada
de u dado X 1, x2 no depende de X1. Esta condición es conocida (poco en econometría) como
Esta hipótesis implica que J(u IX1, x2) = f(u lx) no depende de X1 , y por lo tanto
\lif(u IX1 , x 2 ) =O. Luego la hipótesis implica que en caso de cumplirse, entonces la derivada
de la regresión sería igual al efecto causal promedio:
Observaciones importantes:
• Cuando el vector de términos no observados es independiente respecto de la variables
«tratamiento» (después de condicionar sobre los regresores adecuados), la derivada par-
cial de la regresión es igual al efecto causal promedio.
• Por tanto , la función esperanza condicionada tiene un significado económico causal, lo
cual una vez más pone de manifiesto el interés de la esperanza condicionada.
• En paralelo , si la hipótesis no se cumple la relación de igualdad no existe.
• La hipótesis de independencia condicionada es menos restrictiva que la hipótesis de
completa independencia de u respecto de los regresores X1, x2. La independencia con-
dicionada es por tanto la condición mínima que nos permite obtener la relación entre
derivada parcial de la regresión y el efecto causal.
Estos resultados y observaciones serán especialmente útiles en el tema dedicado a los cuasi
experimentos.
Tema3 79
donde
Por otra parte, este simple modelo nos permite tratar con variables explicativas con efectos
no lineales. Para verlo consideremos el modelo cuadrático siguiente
La ecuación es cuadrática en los regreso res (X 1, X 2), pero lineal en los coeficientes recogi-
dos en el vector fJ6x l · Por tanto podemos reescribir el modelo de la forma habitual redefiniendo
rnriables: X3 = X1; X4 =X§; Xs = X1X2. Resulta que
[)
oXi m(X1, X2) = /31 + 2Xi f33 + X2j35
[)
ax2m(X1, X2) = /32 + 2X2f34 + X1j35 .
Esta expresión nos invita a evitar la interpretación singular de los coeficientes, y a centrar-
nos más en una interpretación global dado que la derivada es función de varios coeficientes
no solo uno) y de los niveles que tomen las variables X1, X2. El término j35 recoge en ambos
casos la interacción entre ambas variables.
80 ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN
• Se trata de una función no trivial de x. Es decir, depende de los observables. Por ejemplo,
la función de densidad estimada del log(salarios) para hombres y mujeres nos permite ver
que tanto las medias salariales como la dispersión de ambas distribuciones condicionadas
son distintas. En particular, podemos observar que la dispersión (la desviación estándar)
de la densidad condicionada de los hombres es mayor que para el caso de las mujeres
(ver Figura 3.1. l).
Comprobamos que por definición la varianza incondicionada (no condicionada), <7 2 , es una
constante y es independiente de los regresores x. Sin embargo, la varianza condicionada, <7 2 (x) ,
sí es función de los regresores. Recordemos que la varianza de la variable salarios medios (en
log) es diferente para el caso de hombres y de mujeres, es decir, la varianza condicionada del
salario dado que se observa en «hombres» es diferente a la varianza en caso de ser mujer. Sin
embargo, en el ámbito teórico es posible considerar que la varianza condicionada no cambia
Tema 3 81
(es constante) con el condicionante. Para tales casos decimos que la varianza condicionada es
constante o, más habitualmente, decimos que el error es homocedástico. En contraposición,
diremos que el error es heterocedástico cuando, como es habitual, sucede que la varianza
condicionada depende de los observables (condicionantes).
Formalmente:
En aparente contradicción con lo que estamos diciendo, habitualmente (en sede teórica)
se obtienen desarrollos haciendo el supuesto de homocedasticidad (pese a su infrecuencia
empírica). Esto es así porque simplifica enormemente los cálculos teóricos que se presentan
en los libros de texto a un nivel básico o intermedio. Por lo tanto debe quedar claro que los
supuestos de homocedasticidad no son impuestos porque se crea que sea una virtud propia de
un buen modelo empírico, sino por su capacidad simplificadora.
y= x'f3 +E
lE(c \x) =O.
y= x'f3 +e
lE(c lx) =O
lE(c2 lx) = a2.
82 ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN
En ambos casos restringimos de tal manera los posibles modelos que solo optamos por los
que satisfacen JE( E lx) = O, y bajo este supuesto necesariamente se satisface que la función
esperanza condicionada es
JE(x' ,8 1 x)+O
x',B.
2
2. JE ll xll < 00.
Las dos primeras condiciones implican que las variables y y x tienen medias, varianzas y
covarianzas finitas. La tercera condición requiere que las columnas de xx' no sean linealmente
dependientes. En ocasiones, en algunos libros de texto la expresión ~xx se indica por Qxx ·
Cualquier predictor de tipo lineal será de la forma x 1,8 para algún ,8 E JRK. El error
cuadrático medio de predicción será
de parámetros:
2
:(38((3) = :(3E(y - x' (3)
= ~ [Ey
2
-
1
2{3 E (xy) + f3'E(xx')f3]
= -2E(xy) + 2E(xx')f3.
Igualando a cero para satisfacer la condición necesaria de mínimo y simplificando,
1
f3 = (E(xx')r E(xy). (3.2.1)
La expresión explícita del mejor predictor lineal de y dado x, también denominado pro-
yección lineal, es
1
P(y lx) = x' (E(xx')r E(xy).
Esta proyección permite definir un error que denominamos error de proyección
-
c =y-x'(3 . (3.2.2)
y= x'f3 + c. (3.2.3)
Usando (3.2.4) y (3.2.5) se tiene que dado que las variables Xj y e no están correlacionadas,
toda vez que cov(Xj, e)= E(Xjc) - E(Xj)E(c) =O.
En resumen , bajo unas condiciones muy generales previstas en la Suposición 1, po-
demos definir la Ecuación (3.2.3) que tiene las propiedades que recogemos en el siguiente
teorema:
84 ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN
y
JE(xé) =O.
5. Si x incorpora una constante, entonces
lE(é) =o.
Este teorema nos indica que para cualquier par (y , x) de variables aleatorias con varianzas
finitas podemos definir una ecuación lineal como y = x' {3 + E que tiene las propiedades
recogidas anteriormente en el Teorema 8. En comparación con el modelo de esperanza
condicionada lineal, observamos que
• El modelo de proyección lineal es más general en la medida que los supuestos que requiere
para poder usarlo son menos est rictos que los planteados por el modelo de esperanza
condicionada.
y= x'{3 + E.
Tema 3 85
(3.2.1). Dado que el término error e es , en este caso, una transformación del vector (y, x ),
resulta que el vector (e, x ) también se distribuirá conjuntamente como una normal. Por otro
lado hemos comprobado que JE(xc) =O, es decir, que están incorrelacionados. Por tanto, toda
vez que se distribuyen conjuntamente de acuerdo a una distribución normal y además están
incorrelacionados, se tiene que son independient es . Esta independencia implica que
y
JE(c2 lx) = lE(c2) = 0"2,
ambas propiedades del modelo homocedástico de esperanza condicionada lineal. En
buena medida, la relación que acabamos de exponer es otro de los atractivos que ha contribuido
a motivar el uso y predominio del modelo de esperanza condicionada lineal. No obstante, no
debe considerarse un motivo de mucho peso puesto que en las aplicaciones econométricas los
datos son con bastante frecuencia no normales.
En el tema anterior hemos expuesto una forma de estimar los coeficientes o parámetros
de modelos mediante la técnica MCO. Sin embargo no es la única. Presentamos ahora otra
alternativa denominada estimación por el método de los momentos (MM). Tanto la una co-
mo la otra requieren unas mínimas condiciones de regularidad que garanticen la posibilidad
de realizar todas sus operaciones. Dichas condiciones son las recogidas precisamente en los
supuestos recogidos en la Suposición 1.
De acuerdo con el modelo de proyección lineal, para cada individuo i,
y¡ = x~,B+ci , i = 1, ... , n,
siendo X i un vector (K x 1) que incorpora las variables explicativas del individuo i-ésimo; ,B,
el vector de parámetros a estimar; é i el error de proyección (cuya existencia está garantizada
por el Teorema 8). También el teorema 8 nos indica que existe un vector de parámetros /3 que
satisface la no correlación entre el término error y los regresares
JE(xc) =O.
O de forma equivalente:
JE[x (y - x' ,8)] = O,
que arroja K restricciones poblaciones en la media.
El estimador del vector de parámetros o coeficientes ,B por el método de los momentos
se define como el vector resultante de imponer las restricciones satisfechas en los momentos
poblacionales a sus análogos momentos muestrales. Esto equivale a que la media muestra! sea
cero:
1
-n
¿
n
f
Xi(Jli - X·,8MM)
i
A
= 0.
i=l
86 ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN
o bien
cuya existencia está garantizada por las condiciones de regularidad anteriormente citadas , y
que coincide con el estimador MCO ya presentado en el tema anterior [ver Ecuación (2.3.11)].
Observemos que el vector de parámetros estimados f3MM genera un vector de residuos (errores
estimados) que vamos a denotar como e = (Ei) i = 1, ... , n donde {i es el error estimado por
MM (o por MCO) del individuo i-ésimo3 . A lo largo de este libro nos referimos al término
error de cualquier modelo (salvo que genere confusión) generalmente por E . Nos referimos a
sus respectivas estimaciones por t, o por e, sin indicar la técnica de estimación utilizada para
obtenerlos. Por tanto, los unos y los otros pueden ser utilizados indistintamente.
A partir de la solución MCO, que es equivalente a la del método de los momentos, podemos
definir conceptos y deducir algunas propiedades que, posteriormente, serán de gran utilidad.
Estos aspectos pueden considerarse aspectos numéricos de la estimación MCO (MM) y, por
tanto, en absoluto ligados a la población o al proceso generador de los datos con los que
trabajamos. Dicho de otro modo, siempre se satisfacen.
En primer lugar , a lo largo de lo que resta de tema vamos a denotar al vector de parámetros
o coeficientes estimados, ya sea por MCO o MM, con la grafía b, por tanto b = f3Mco = f3MM·
El valor ajustado o ajuste de la observación i es Y¡ = x~b. El vector de valores ajustados será
entonces, y = Xb, por lo que podemos reescribir el vector de residuos como
e= y-y,
3
También podríamos denotarlo , siguiendo con la notación anterior, como iMM =(e".;).
Tema3 87
que indican, entre otras cosas, que las columnas4 de X y el vector de residuos MCO son
ortogonales (es decir, el producto escalar (xj , e ), donde Xj indica la columna j-ésima de X y
j = 1, .. ., K, es cero).
También el vector de valores ajustados (y = Xb) es ortogonal al vector de residuos
b'X'e =O
Utilizar MCO (y también MM) es una forma indirecta de proyectar el vector y en dos
planos distintos, uno el generado a partir de la columnas de la matriz X , y otro el formado
por los residuos. La Figura 3.4.1 muestra Xb como el vector resultado de la proyección de y
sobre el plano horizontal; y muestra e como el resultado de proyectar y en el plano vertical.
Geométricamente las proyecciones se realizan mediante matrices de proyección. En es-
te caso particular de los mínimos cuadrados ordinarios hay dos matrices que actúan como
proyectores
p (3.4.2)
nxn
M = In -P , (3.4.3)
nxn
4
Y, por definición, filas de X '.
88 ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN
1 e
Xb
y las llamaremos matrices de proyección básicamente porque para cualquier matriz Z que
pueda ser escrita a partir de X del modo Z = xr para alguna matriz r , resulta que
PZ = X(X'x)- 1 X'Xr = xr = z
MZ = xr - PXr = o.
P proyecta en el subespacio generado por las columnas de X. El vector y es proyectado
mediante Py en el subespacio generado por dichas columnas, y en particular su proyección es
el vector de valores ajustado MCO y:
pp =P
MM =M
Adicionalmente, se observa que ambas matrices son simétricas, es decir, P = P' y M = M'
y que
PM=MP=O. (3.4.5)
Tema 3 89
M proyecta sobre un subespacio que guarda cierta relación con el generado por P. Cuando
M es aplicado a y , obtenemos un vector de dicho subespacio que precisamente es el vector de
residuos
My = (1 - X(X'X)- 1 X')y =y - Xb =e, (3.4.6)
que a su vez es ortogonal a X
Estos resultados concuerdan con los ya estudiados anteriormente, así que cualquier vector
y puede expresarse como la suma de las dos proyecciones del mismo (Py y My)
y = Py + My = Xb + e. (3.4.7)
El uso de estas matrices de proyección simplifica en numerosas ocasiones los cálculos y nos
permite relacionar variables importantes dentro de los modelos con los que trabajamos.
La SCR bajo la solución MCO se relaciona con el término del modelo de la siguiente
manera
SCR = e'e = c 1Mc. (3.4.8)
Con la expresión anterior medimos la variabilidad de los residuos mediante e' e, y también
podemos medir la variabilidad de la variable dependiente mediante ¿ Y'.¡ 2 = y'y. A partir de
(3.4.7) se tiene
Esta última ecuación indica que la suma total de los cuadrados es igual a la suma de
los cuadrados de las variables explicativas más la suma del cuadrado de los residuos (SCR).
Es decir, (3.4.12) descompone la variación total de la variable dependiente como suma de la
variación de la parte explicada del modelo y la variación de la parte no explicada.
Por otra parte, es relevante conocer la discrepancia que hay entre la estimación MCO,
b , y el verdadero vector de parámetros, {3. A este tipo de discrepancia se le denomina error
muestral, definido como b - {3 y puede relacionarse igualmente con e
(3.4.13)
La obtención de las ecuaciones (3.4.8) y (3.4.13) se deja como ejercicio para el lector.
(3.4.14)
90 ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN
(3.4.15)
(3.4.16)
PPx1 (3.4.17)
PX1 (X~ X1)- 1 X~
X1(X~X1)- 1 X~ (porque PX1 = X1)
Px1.
Para comprobar que PX1 = X1 obsérvese que todas las columnas de X1 están ya en el
subespacio generado por las columnas de X, y en consecuencia las columnas de X1 no se
modifican al proyectarlas mediante P en el subespacio generado por las columnas de X. El
resultado final de (3.4.17) indica que el producto de dos proyecciones, donde una proyecta en
el subespacio de la imagen de la otra, es la proyección en dicho subespacio. Del mismo modo,
las matrices de proyección Mx1 y M pueden relacionarse del siguiente modo:
Mx1X1b1 + Mx1X2b2+Mx1e
O+ Mx1X2b2+e. (3.4.18)
X~Mx 1 X2b2+X~e
X~Mx 1 X2b2,
Tema3 91
condiciones en que es posible despejar b2 y así obtener una forma alternativa de estimar f32
in usar el modelo completo
(3.4.19)
1
donde se comprueba que el término (l l ) = n.
Mx 1y será
y-y.
Es decir, premultiplicar un vector columna por la matriz de proyección Mx1 supone trans-
formar los datos contenidos en el vector en otro vector con datos en desviaciones sobre las
medias.
Al estar X2 formado por vectores columna tendremos ahora Mx1x 2
1 1
Mx1x 2 = ( I n-l(l l)- l') X2
l) - 1 l'X2
1
X2 - l(l
X2-X2.
es inmediato comprobar que al premultiplicar una columna por (l 1l)- 1l 1 se calcula la media de
dicha columna, por lo que (l 1l)- 1l 1Y =y y además (l 1l)- 1l'X 2 calcula las medias muestrales
de los regresares (K-1) del modelo sin término constante; como resultado obtenemos
de donde resulta inmediato calcular b1 a partir de y - X 2b2, es decir, los promedios o medias
muestrales de la variable dependiente y de la parte explicada (X2b2) con K-1 regresares
coincide siempre que introduzcamos una variable constante. Es por pues importante valorar
siempre la inclusión de un término constante.
Tema 3 93
Mx1Y = Mxi(Xb+e)
Mx1X1b1 + Mx1X2b2+Mx1e
Mx1X2b2+e
[X2 - X2]b2 + e,
es decir, el vector en desviaciones respecto a la media [y - y] se descompone en la suma del
vector residuo. más la parte explicada por la regresión (excluida la constante). De este modo,
94 ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN
utilizando las variables centradas respecto de sus medias, es posible añadir cualquier constante
al regresando y no afectar a los residuos ni tampoco a los coeficientes estimados b 2.
La suma total del cuadrado de la variable dependiente centrada (en desviaciones respecto
de su media muestral) será
EJERCICIOS
qué puede decirse de JE (e IX1, X2) y de E(=: X1. X2. X~. X1X2 )?
5
Estos resultados se pueden ampliar con la lectura de la Sección 5.1...1.3.
Tema 3 95
dondeµ= JE(X).
5. Supongamos que
a) Esta esperanza puede reescribirse en términos del error c. En tal caso, ¿Cuáles
serían las propiedades del error?
b) Consideremos que las dos variables explicativas tienen media nula. Compruebe que
el coeficiente /31 es el valor esperado de
En los temas precedentes hemos estudiado cómo estimar la función de regresión pobla-
cional por el método de los mínimos cuadrados ordinarios (MCO) o bien , equivalentemente,
por el método de los momentos (MM), en la Sección 3.3. De hecho, hemos visto cómo se
puede aproximar la FRP por medio de una forma lineal , y hemos descrito cómo estimar los
coeficientes de la aproximación lineal.
En la Sección 1.4, indicamos que los datos económicos son no experimentales, luego tanto
la variable dependiente como las independientes o regresores son consideradas como variables
aleatorias 1 . Consideraremos que las variables económicas arrojarán valores observados (datos)
que son realizaciones de variables aleatorias. Un modelo se define como un conjunto de restric-
ciones sobre la distribución conjunta de las variables dependientes e independientes. Dicho de
otro modo, un modelo está configurado por una serie de distribuciones conjuntas que satisfa-
cen unos supuestos. Estos supuestos son el primer objetivo de este capítulo, y constituyen lo
que denominamos modelo (clásico ) de regresión lineal , modelo que desempeña un papel
central en la econometría. Los supuestos que se van a realizar pueden inicialmente parecer
un tanto abstractos, sin embargo tienen una interpretación natural, y el entendimiento de los
mismos es esencial para saber cuándo los MCO darán estimaciones útiles de los coeficientes
y cuándo no.
El modelo clásico de regresión lineal es la piedra angular de gran parte de la teoría eco-
nométrica, ya que plantea los supuestos poblacionales necesarios para que los estimadores
muestrales (función de regresión muestra!) cumplan una serie de propiedades deseables res-
pecto de los verdaderos valores poblacionales (dados en la función de regresión poblacional).
La Figura 4.0.1 es un ejemplo gráfico que nos permite comparar la FRM con la FRP.
Esto significa que analizaremos las propiedades de los coeficientes /Jj como estimadores de los
parámetros poblacionales fJJ.
1
En caso de considerar solo la variable económica a explicar o dependiente como aleatoria y considerar los
regresores como no estocásticos o fijos , estaramos incurriendo en una contradicción dado que, en general, no
hay motivos para considerar unas variables económicas como aleatorias o estocásticas, y otras no (solo por el
mero hecho de desempeñar un papel de variables explicada o variable a explicar dentro del modelo).
97
98 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
Las propiedades estadísticas de los estimadores de los coeficientes irán cambiando en fun-
ción de los supuestos que configuren el modelo. En este caso, a diferencia de lo que sucede
con las técnicas de estimación, será importante considerar si los datos son de sección cruzada
o son una serie temporal.
Los supuestos en uno y otro caso no serán exactamente los mismos, y estos supuestos son
los que nos permiten deducir las distribuciones estadísticas muestrales de los estimadores de
los parámetros. A partir de las distribuciones, veremos cómo practicar contrastes de hipótesis
sobre la significación o no de los parámetros del modelo.
En las últimas secciones de este tema se aborda cómo utilizar las técnicas de regresión
para realizar predicciones a partir de la FRM, y cómo hacer una valoración estadística de las
mismas. A tal fin se presentan una serie de «medidas» que evalúan la capacidad predictiva
del modelo. Algunos de los elementos presentados aquí, especialmente los relacionados con las
series temporales, serán de utilidad en la Parte III dedicada específicamente a la predicción
económica.
Supuestos básicos del modelo de regresión lineal que son comunes a ambos tipos de datos:
Tema4 99
LINEAL
(4.1.1)
Por un lado , la linealidad, ya comentada en los dos temas anteriores, considera explícita-
mente que el proceso estocástico del que provienen los datos es de naturaleza lineal. No se
trata en este caso de una aproximación o proyección lineal. Por otra parte, el supuesto de
no multicolinealidad perfecta permite que las variables independientes estén correlacionadas,
pero no admite que estén exacta o perfectamente correlacionadas. Se trata de un requisito
técnico que nos permitirá hacer la estimación. Intuitivamente nos indica si una variable ex-
plicativa es una función lineal de otros regresares, en cuyo caso no se pueden calcular los
coeficientes por MCO.
Recordemos que en la regresión múltiple, el coeficiente asociado a una variable captura
el efecto de un cambio en el regresar, manteniendo constantes el resto de regresares. Si dos
variables están perfectamente correlacionadas -digamos (por poner un caso extremadamente
simple) que ambas miden el PIB , una en euros y otra en miles de euros- entonces sería
imposible medir el efecto en la variable objetivo de una variación en el PIB dejando constante
el PIB.
En la práctica, la multicolinealidad perfecta aparece por problemas con el conjunto de
datos que estamos manejando. El software que se utiliza lo detecta inmediatamente porque
no puede calcular los estimadores de los parámetros.
El siguiente supuesto es también común a ambos tipos de datos; sin embargo, es conve-
niente tratarlo por separado por razones que en breve serán manifiestas.
100 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
Series temporales
lE(Et/X)=O, t=l , 2, ... ,n. (4.1.4)
La Suposición 2 indica que para cada i (o para cada t si son datos temporales) el valor
esperado de los errores condicionados a los valores de todas las variables explicativas es nulo.
Este supuesto es central y señala que los otros factores contenidos en Ei no están relacionados
con Xi en el sentido de que dado un valor para una Xi , la media de la distribución de
estos otros factores es cero. Es decir, en media, el error no depende del valor que tomen las
variables explicativas. Dicho de otro modo, los factores incluidos en los errores no influyen
sistemáticamente en el valor medio de la variable dependiente, los valores positivos de los
errores se compensan con los negativos de manera que su valor esperado es nulo.
El supuesto implica que x i y Ei están incorrelacionadas. Recuérdese que la correlación es
una medida de asociación lineal. Por tanto , sería posible tener correlación nula entre Xi y Ei,
y sin embargo la función esperanza condicionada del error (que por lo general es no lineal)
podría ser perfectamente distinta de cero. Del mismo modo, si ambas están correlacionadas,
entonces el supuesto sería necesariamente violado. Un caso más extremo sería que Xi y Ei
provinieran de procesos estadísticamente independientes. En tal caso el supuesto se satisfaría
necesariamente. La independencia es, por tanto , un requisito más severo que el supuesto
esperanza condicionada nula.
X3
x.
X
(4.1.5)
Cuando se cumple este supuesto decimos que tenemos variables explicativas que denomi-
namos exógenas. Si alguna de las variables explicativas está correlacionada con los errores
entonces diremos, por motivos que serán evidentes más adelante, que esa variable explicativa
es endógena.
En caso de que hubiéramos especificado el supuesto de la siguiente manera
indicaría que para cada i (o para cada t si son datos temporales) el valor esperado del error i-
ésimo condicionado a los valores de todas las variables explicativas en todas las observaciones,
-ería nulo. A estos efectos recordemos que X está definido en (2.5.19). Habitualmente esta
versión del supuesto se denomina exogeneidad estricta. El uso de una versión o de otra
depende de si es o no de aplicación el siguiente supuesto fundamental.
La muestra de los datos que tenemos está formada por observaciones tomadas de modo
que sean independientes unas de las otras y estén distribuidas idénticamente (provengan de la
misma distribución conjunta). Este supuesto indica que las observaciones están en condiciones
de asemejarse a una muestra aleatoria simple. Por ejemplo, sea X la edad de un trabajador e
Y su salario, e imaginemos que tomamos al azar un trabajador de toda la población de tra-
bajadores. Esa persona elegida al azar tendrá una edad y un salario (es decir, X e Y tomarán
unos valores determinados). Si en lugar de tomar un trabajador, tomamos n trabajadores,
entonces podemos decir que necesariamente (Xi, Y;,) provienen de la misma población (dis-
·ribución). Si los n trabajadores los hemos tomado al azar, entonces podemos decir que se
distribuye cada observación (Xi, Yi) de modo independiente.
Este tipo de muestreo no siempre garantiza la condición de ser iid (independiente, e iden-
·icamente distribuido). Supongamos que las observaciones se refieren a la misma unidad ob-
servada a lo largo del tiempo, es decir , tenemos datos temporales. Consideremos, por ejemplo,
a variable tipo de interés. Si los tipos de interés est án muy bajos ahora, es muy posible que
·ambién lo estén el próximo mes. Hay un grado de correlación importante entre observaciones
fechadas con proximidad temporal. Por tanto, los datos en forma de series temporales suelen
\iolar este supuesto de muestra aleatoria. El supuesto para datos temporales equivalente al
de muestra aleatoria es el siguiente,
102 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
La parte (i) indica que la distribución de los datos hoy es la misma que la del pasa-
do. Es por tanto la versión de series temporales del requisito de distribución «idéntica» del
supuesto iid anterior. La parte (ii) es el homólogo en sección cruzada de observaciones «in-
dependientemente» distribuidas, esto es que, pese a que por construcción de la serie, existirá
un cierto grado de dependencia entre valores temporalmente próximos, tal dependencia irá
desapareciendo progresivamente.
Podemos relacionar ahora el supuesto de muestra aleatoria (o equivalente para series de
tiempo) y el supuesto de exogeneidad estricta de la Ecuación (4.1.6). Si exigimos conjunta-
mente ambos supuestos entonces, para el caso de datos transvers ales o de sección cruzada, la
exogeneidad estricta se simplificaría del siguiente modo
(4.1.8)
que coincide con el Supuesto (2). La expresión (4.1.8) implica que cov(Xji, Ei) =O. Por tanto
bajo el supuesto de muestra aleatoria (4.1.7) si se satisface (4.1.8), entonces se verifica 4.1.6,
y viceversa. En cambio para datos temporales esto no es cierto: Si se cumple el supuesto de
exogeneidad estricta, también se cumple
pero no necesariamente se cumple el recíproco. Obsérvese que (4.1.6) requiere que no exista
relación ni contemporánea ni no contemporánea, es decir, que cov(Xjs, Et) =O incluso cuando
s =f t.
Por otro lado, el supuesto de muestra aleatoria implica que los errores Es y Eh para dos
individuos o unidades son independientes. Esta independencia garantiza, bajo este marco de
análisis, que no existe correlación entre los errores imputables a los individuos analizados.
Sin embargo, esto no está garantizado y habrá que buscar condiciones o supuestos que no se
vean afectados por la posible correlación dentro del error. Esto es especialmente importante
porque cuando consideramos series temporales es perfectamente factible que el fenómeno
de la autocorrelación exista. Si por ejemplo los tipos de interés son inesperadamente altos
(respecto a su comportamiento medio habitual) , es bastante probable que en el siguiente
periodo también estén por encima de su comportamiento medio. En este caso la correlación
de las perturbaciones o errores sería positiva corr(ct, ft_¡,_1) > O.
Tema4 103
(4.2.1)
(4.2.2)
La demostración del teorema puede encontrarse en el Apéndice técnico de este tema (Sec-
ción 4.6.1) y también de modo más general en la Sección 5.1 del tema siguiente. La primera
ecuación del teorema indica que el estimador es insesgado, es decir, que está centrado en torno
al verdadero valor /3j. La segunda ecuación indica que el estimador es insesgado para cualquier
realización de la matriz de regresores X .
Parece lógico, desde un punto de vista aplicado, que el número de unidades observadas, n,
con las que contamos sea una cuestión importante. Básicamente será mejor disponer de muchos
datos que de pocos. Obviamente, es mejor contar con más información. Pero desde el punto de
vista técnico el número de observaciones juega un papel también relevante para estudiar las
propiedades estadísticas de los estimadores. En este sentido y en términos generales, podemos
decir que cuanto mayor sea el número de observaciones, menos restrictivos serán los supuestos
que necesitaremos.
Pese a ello, Ja propiedad de insesgadez de los estimadores MCO se verifica con indepen-
dencia del número de observaciones, es decir, se cumple para cualquier tamaño muestra!. Sin
embargo , la insesgadez, per se, no nos indica qué tipo de distribución muestra! siguen los coefi-
cientes estimados. Para llegar a una distribución estadística de los coeficientes rJj es necesario
incluir otro supuesto que no es muy restrictivo:
Esto es, las observaciones que presentan valores de Xji, o de Yi , o de ambas que están muy
alejados del rango habitual para el tipo de datos considerados (y nos referimos a ello con el
calificativo de atípico) son altamente improbables. Formalmente, los atípicos están controlados
asumiendo que la curtosis de la distribución de probabilidad está acotada, supuesto que es
equivalente a considerar que
(4.2.3)
Una fuente común de atípicos altos es que se produzcan errores en el proceso de introducción
de datos, por ejemplo por errores tipográficos o cambios en la unidades de medida. En caso de
que existieran atítipicos severos la estimación MCO se vería dominada posiblemente por esas
observaciones. De ahí que intutitivamente debamos acotar el campo de variación potencial
de los mismos. Por otro lado, obsérvese que este supuesto es necesario tanto para datos de
sección cruzada como para datos en forma de series temporales.
Para poder establecer la distribución muestra! necesitamos considerar, junto con el su-
puesto que acabamos de señalar, que tenemos un número de observaciones suficiente. En ese
caso podemos aplicar el Teorema Central del Límite (TCL), que ahora enunciamos para una
sola variable, y tratamos en mayor detalle en el tema siguiente.
Teorema 11. Si Y1, Y2, ... , Yn son una muestra aleatoria con mediaµ y
varianza CJ 2 , entonces a medida que n ~ oo
Y, - µ d
Vn ~ ~ N(O, 1).
(J2
En el apéndice de este tema mostramos que una forma alternativa de escribir el estimador
/31 es la siguiente
A _{3 (1/n) l:(X1i - X)Ei
{3 1 1 (4.2.4)
- + (1/n) l:(X1i - X) 2 '
que nos permitirá saber su varianza. Para ello observemos inicialmente que el estimador X
de la media poblacional es tal que, a medida que el tamaño muestral aumenta, la media
muestral se hace prácticamente indistinguible de la media poblacional, µx, y por tanto se
puede sustituir una por otra. Observamos también que el supuesto de esperanza condicionada
nula (4.1.3) hace que el promedio (1/n) l: (X1i - X)Ei sea cero. El supuesto de muestra
aleatoria garantiza que (X1i-X)Ei sea iid. La varianza de (X1i -X) Ei [var[(X1i-X)t:i]] existe
y es finita y distinta de cero por el supuesto relativo a los atípicos (esta varianza incorpora
momentos de orden cuatro, véase Apéndice y Tema 5). Por tanto, estamos en condiciones de
aplicar el TCL sobre el numerador del segundo sumando de la expresión (4.2.4):
que se distribuirá como una N(O, 1). Así, la distribución de (1/n) l:(Xi- µx )Ei se aproximará
bien por una N(O, var[(Xi - µx)Ei](l/n)). Ya hemos visto que el denominador del segundo
sumando de la expresión (4.2.4) es un estimador de la varianza poblacional de X1. Por tanto,
combinando ambas conclusiones obtenemos que
de garantías salvo que existan fuertes motivos para pensar de forma diferente. En caso con-
trario no deberíamos a priori confiar en la aproximación. Las aplicaciones econométricas en la
actualidad generalmente cuentan más de cien observaciones, por lo que consideraremos, salvo
que digamos lo contrario, que la aproximación normal es la adecuada. No obstante existen
alternativas que serán comentadas posteriormente.
Observación 2. El estimador es consistente, es decir, cuando el tamaño muestra! es gran-
de, el estimador /31 estará cada vez más cercano al coeficiente /31. La varianza CTS tiene en
1
el denominador el tamaño muestra! n. Por tanto, la varianza CTS tiende a cero cuando n cre-
1
ce. Así, la distribución de los estimadores MCO tenderá a estar cada vez más concentrada en
torno a sus verdaderos valores. La consistencia es una propiedad estadística de los estimadores
importante. Incluso estimadores sesgados pueden ser útiles siempre que al menos sean con-
sistentes. La consistencia es una propiedad asintótica (de muestras grandes) y es el requisito
necesario para que un estimador sea útil.
En general, un estimador es de mayor calidad cuanto menor sea su varianza. Las dos siguientes
observaciones recogen el comportamiento del estimador MCO en ese sentido.
Observación 3. A mayor varianza de X 1, menor varianza CTS de /31.
1
En este caso el error estándar es ee(/31) = n, = V v-::(ii). Obsérvese que esto implica
que debemos encontrar un procedimiento que nos permita estimar adecuadamente ~ .
Tanto el teorema anterior como las observaciones realizadas las hemos presentado para
un solo regresor. La extensión a varios regresores es más compleja, pero se simplifica exposi-
tivamente considerando las expresiones matriciales presentadas en temas precedentes. En el
próximo tema (ver apartado 5.2.2) se tratan esos aspectos más técnicos.
Homocedasticidad
(4.2.6)
:..as varianzas de este tipo se denominan varianzas heterocedásticas. La Figura 4.2.1 mues-
-ra un ejemplo de varianza heterocedástica para el caso de regresión simple.
Intuitivamente , si estamos estudiando las variables determinantes de los salarios de una
:egión o país, la homocedasticidad implica que la varianza de Ei no depende de la(s) variable(s)
plicati va( s). Esto es, consideremos que una de las variables explicativas es, por ejemplo, «el
"'énero» (una variable que toma el valor de 1 o de O en función de si el individuo i - ésimo
mujer o no). Cuando hablamos de homocedasticidad/ heterocedasticidad nos referimos a
la desviación del salario de la i-ésima persona respecto del salario medio de su respectiva
;:ioblación (salario medio poblacional de los hombres y salario medio de las mujeres). Aceptar
homocedasticidad supondría que dichas desviaciones son iguales para los hombres que para las
mujeres. Otro ejemplo relacionado con los salarios aparece cuando consideramos la variable
explicativa «años de formación »: la homocedasticidad supone que la variabilidad de los salarios
es la misma con independencia de los años de formación completados. Sin embargo, no parece
-ampoco que esto sea muy realista. Es probable que la población con mayor nivel formativo
enga mayores oportunidades de empleo. Las población de personas con niveles de formación
más bajos tienen menos oportunidades, y es frecuente que tengan que trabajar con salarios
mínimos. Esto hace que la dispersión del salario respecto a la media para el individuo i-ésimo
ea menor cuanto más bajo es el nivel de formación .
En la discusión anterior está implícito que la homocedasticidad implica que la varianza
condicionada de la propia variable dependiente es también constante
2 2
var ( Y 1 X) = JE [Y - JE (Y) 1 X] = JE ( E2 I X) = 0' . (4.2.8)
108 ANÁLISIS DE RE G R ESIÓN LINEAL. INFEREN CIA
J{v,)
x,
Es importante observar que, tanto con homocedasticidad como con heterocedasticidad, las
propiedades de insesgadez, de consistencia del estimador MCO y de distribución asintótica
normal son ciertas. Esto es así porque los supuestos que hemos utilizado para derivar estas
propiedades estadísticas del estimador MCO no incorporan ninguna consideración sobre la
varianza condicionada del error. En cambio, si consideramos que los errores son homocedásti-
cos y en realidad no lo son , obtenemos unos errores estándar de los estimadores /31 diferentes
(y por tanto erróneos) de los que obtendríamos al existir heterocedasticidad. Evidentemente
estimar con imprecisión errores estándar para los parámetros tiene posteriores consecuencias
que veremos en la parte de este tema dedicado a la inferencia. Dado que los errores están-
dar del tipo expresado en (4.2.5) son válidos con independencia de que los errores sean o no
heterocedásticos, se les denomina errores estándar robustos a la heterocedasticidad.
Sin embargo, aunque calculemos errores estándar robustos a la heterocedasticidad, en el
caso de trabajar con datos temporales con mucha frecuencia existe otro problema: el término
error está autocorrelacionado. Supongamos por ejemplo que estudiamos de nuevo la demanda
de café, que como sabemos depende del nivel de ingresos, y omitimos esta variable de la
especificación lineal del modelo. La variable ingreso medida a través del ingreso agregado
suele estar serialmente correlacionada: el ingreso tiende a caer en las recesiones y a aumentar
en la fase de expansión. Si omitimos esta variable, y la incorporamos, por tanto, en el término
error, éste estará también serialmente correlacionado. En general, cualquier variable realmente
explicativa que omitamos y que esté serialmente correlacionada causará autocorrelación. La
Tema 4 109
autocorrelación surge porque con datos temporales si omitimos en la especificación del modelo
una variable, estos factores omitidos pueden estar serialmente correlacionados.
Ausencia de autocorrelación
Si los errores siguen patrones sistemáticos, entonces hay correlación serial o autocorrela-
ción, y lo que requiere este supuesto es que no haya patrones sistemáticos o que las correla-
ciones entre distintos valores de los errores sean nulos, con independencia de los valores que
toman las variables explicativas3 .
3
A veces se utiliza el supuesto de no correlación serial en términos contemporáneos E(ét,éslXi,Xs) =O
para todo t # s.
110 ANÁLISIS DE REG RESIÓN LINEAL . lNFERE CIA
var(,BI x) = () 2
(X'X)-
1
(4.2.10)
o también
' ) ()2
var ( f3J = ( )' paraj=l,2, ... , k (4.2.11)
SCTJ 1- RJ
n 2
donde SCTj = 2: (X jt - Xj) es la suma cuadráti ca total de la variable
t=l
independiente j y R] es el coeficiente de determinación de la regresión de
Xj con el resto de variables explicativas.
La expresión (4. 2.10) nos informa de que las varianzas de los estimadores serán mayores
cuanto mayor sea la varianza de los residuos, y también nos indica que cuanto mayor sea la
varianza de Xj, menor será la varianza del estimador. Obsérvese que las expresiones (4.2.10) y
(4.2.11) son equivalentes entre sí, pero ambas diferentes a (4.2 .5), entre otros factores porque
los supuestos bajo los que se derivan son distintos.
Especial atención requiere el término Rj 2 , que mide la relación entre el resto de variables
explicativas con X j . A medida que la relación entre ellas se hace más estrecha, también lo
hace su R/ de manera que la varianza del estimador también aumenta. Este es el problema
de la multicolinealidad.
Cuando la multicolinealidad es perfecta, Rj 2 = 1, entonces los coeficientes MCO no se
pueden estimar, su varianza sería infinita y violaría el supuesto de ser estimable por MCO.
Realmente la multicolinealidad (no perfecta) no viola ninguno de los supuestos, pero cuando
R/ se acerca a uno la varianza puede hacerse realmente grande, lo que implica una mayor
imprecisión en la estimación de parámetro . En consecuencia, la correlación entre variables
explicativas hace que los estimadores sean menos precisos y resulte más difícil separar la
influencia individual sobre la variable dependiente.
No está definido cuándo la multicolinealidad es realmente un problema, es decir, a partir
de qué valor de Rj 2 debemos preocuparnos, de manera que no hay una regla fija o común-
mente aceptada sobre la importancia del problema. En todo caso y a efectos prácticos cabe
decir que lo mejor es que la relación entre las variables independientes sea pequeña puesto
que ello permite estimadores más precisos. Cuando dos variables están muy correlacionadas
provocando problemas de multicolinealidad, la única manera de reducirla es prescindir de una
de ellas en el modelo.
Tema4 111
SCR
(4.2.12)
n-(k+l)
es decir, la suma cuadrática de los errores estimados dividida por sus grados
de libertad.
miento del teorema de Gauss-Markov el supuesto de que los errores del modelo se distribuyen
conforme a una distribución normal.
E--+ N (0 , o- 2 ). (4.2.13)
Una de las ventajas que incorpora el supuesto de normalidad es que se verifica el siguiente
resultado:
Obsérvese que este teorema implica que cualquier combinación lineal de los parámetros
estimados se distribuye también normalmente y que cualquier subconjunto de ellos también
tiene una distribución conjunta normal.
.05
.04
.03
.02
.01
.OO..l.,.--ml!!l!~...L..L..l-l-...L.L..l-l-...L..L.l-l-...L...L.l-l-...L...L.l-l-...L...L.1~~.....- -
La Figura 4.2.2 reproduce los residuos estimados en la regresión del Ejemplo 12, sobre los
uarios de internet. La figura muestra que los residuos no presentan una distribución normal
?erfecta aunque quizás sí aproximada. Obviamente, el problema del histograma es que solo nos
_;:> ermite hacernos una idea sobre la distribución de los residuos estimados, pero la adecuación
o no a la distribución normal de la variable representada en el gráfico es subjetiva si solo
· tilizamos su histograma.
Como sabemos, la distribución normal se caracteriza por ser simétrica respecto a su media
lo que podemos medir mediante el coeficiente de asimetría S: si es igual a cero entonces es
simétrica) y también por el apuntamiento de la dist ribución, es decir, si es más alta o menos
ue la distribución teórica normal (lo que también podemos medir mediante el coeficiente de
urtosis K: si tiene el mismo apuntamiento que la distribución teórica normal entonces este
::oeficiente vale tres).
El estadístico Jarque-Bera, JB, es válido asintóticamente o para muestras grandes y es el
siguiente
J
B - [ 32
- n 6 +
(K - 3) 2
24 '
l (4.2.14)
4.3. INFERENCIA
En la práctica habitual los modelos estimados, como el modelo de regresión múltiple que
hemos presentado, se utilizan para la toma de decisiones sobre cuestiones o problemas espe-
cíficos de la empresa y la economía. Algunos de estos problemas requieren para su resolución
(ya sea total o parcial) realizar un juicio sobre el valor específico de un parámetro. Por ejem-
plo, iniciar una campaña nueva de marketing puede depender de si el efecto sobre ingresos
esperados de cada cien euros de la campaña sobrepasa cierto valor. Y esta valoración ha de
hacerse a partir del modelo econométrico y de los datos (es decir, la muestra) que disponemos,
ambos de naturaleza estocástica.
Los contrastes estadísticos de hipótesis facilitan evaluar una conjetura sobre la población
a partir de la información contenida en la muestra, por ello decimos que inferimos una carac-
terística de la población. A partir de un modelo econométrico, en este caso a partir del modelo
de regresión múltiple, planteamos hipótesis de carácter económico. Estas hipótesis son por
tanto aseveraciones sobre los parámetros de la población. En particular, los contrastes (esta-
dísticos) de hipótesis utilizan varios elementos para llegar a una conclusión sobre la hipótesis
a contrastar: la información (en este caso sobre un parámetro) que está contenida en los datos
muestrales, la estimación puntual que hemos realizado (en este caso con MCO), y su error
estándar (que está directamente relacionado con la precisión con la que se ha estimado el
parámetro en cuestión).
Todo contraste o test de hipótesis tiene los siguiente elementos:
5. Una conclusión.
La hipótesis nula es una creencia que mantendremos hasta que estemos convencidos por
la evidencia dada por la muestra de que no es verdad, en tal caso rechazaremos la hipótesis
nula. El caso más sencillo consiste en especificar un valor concreto para un parámetro de la
regresión
Ho: f3J =e
donde este valor específico e es un valor importante dentro del modelo econométrico, por tanto
es importante desde un punto de vista económico.
En función de cómo hemos definido la hipótesis nula así será la hipótesis alternativa
porque ésta es una alternativa lógica que aceptaremos si la hipótesis nula es rechazada. La
Tema4 115
hipótesis alternativa es flexible y depende del contexto económico planteado. Así pues, dada
la hipótesis nula anterior Ha : /31 = e, hay tres hipótesis alternativas que podemos plantear
en función de la teoría económica en la que se enmarque el modelo estimado:
• H1 : /31 > c. En este caso rechazar la hipótesis nula conduce a aceptar la conclusión de
que (31 >c.
• H1 : /31 < c. En este caso rechazar la hipótesis nula conduce a aceptar la conclusión de
que /31 <c.
• H1 : /31 =/; c. En este caso rechazar la hipótesis nula conduce a aceptar que /31 es o mayor
o menor que c.
El valor que tome el test estadístico, que se construye a partir de la hipótesis nula (más
adelante en este tema veremos algunos), dependerá de la información contenida en la muestra
por lo que la información muestral sobre la hipótesis nula queda recogida en el valor que tome
el test. En función del valor rechazaremos o no la hipótesis nula. Lo fundamental de un test es
que tiene una función de distribución de probabilidad que es completamente conocida cuando
Ha es cierta, y tiene otra distribución si Ha es falsa.
El test estadístico puede potencialmente tomar un rango de valores. Será la región de
rechazo la que nos indique si se rechaza o no. Dicha región de rechazo depende de la forma que
tome la hipótesis alternativa. Para conformar la región de rechazo precisamos de un test, cuya
distribución conocemos cuando la hipótesis nula es verdadera, de una hipótesis alternativa y
de un «nivel de significatividad».
La región de rechazo la forman los valores (infinitos) que puede arrojar el test que son
poco probables si la hipótesis nula es cierta. Así pues si tras obtener el valor del test para
la muestra este valor cae en la zona baja probabilidad, entonces es poco probable que la
hipótesis nula sea cierta. Cuando la hipótesis alternativa es cierta, los valores que tome el test
tadístico tenderán a ser especialmente grandes o pequeños. Para ser operativos necesitamos
decidir sobre qué es «grande» y «pequeño» y qué es «baja probabilidad». Para ello el usuario
ha de fijar un nivel de significatividad para el test, y entonces dotaremos de contenido a
a «baja probabilidad». En este sentido, fijar un nivel de significatividad implica reconocer
que cada vez que rechazamos la hipótesis nula es posible que estemos cometiendo un error,
decir es posible que estemos rechazando aun siendo cierta la hipótesis nula. El nivel de
-ignificatividad precisamente fija de antemano el nivel del error que estamos dispuestos a
-olerar, de hecho fijamos la probabilidad rechazar la hipótesis nula cuando esta es verdadera
Error Tipo !). Por ejemplo, el usuario puede estar dispuesto a cometer un Error Tipo 1 a
un nivel de significatividad del 0,05, indicativo de que la cantidad de error que está dispuesto
a sorportar es de un 5% (= (100 x 0,05) %), que es un criterio bastante habitual en las
aplicaciones econométricas. Sin embargo podría optar por un nivel de 0,01, y entonces estaría
-iendo más exigente posiblemente porque cometer el error tipo I tenga un coste más alto.
Como hemos dicho es inevitable cometer un error cuando rechazamos o no una hipótesis
nula. En términos del nivel de significatividad esto supone que el Error Tipo I no puede hacerse
nulo. Pero es posible cometer otro error, el que se produce si decidimos no rechazar la hipótesis
nula cuando es falsa (Error Tipo JI ). Sin embargo este Error Tipo II no lo podemos controlar
116 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
directamente puesto que depende del valor verdadero (que desconocemos) del parámetro sobre
el que hacemos el contraste de hipótesis. Conviene advertir que cuando reducimos el nivel de
significatividad, no solo reducimos la probabilidad de cometer Error Tipo I (algo deseable),
sino que además aumentamos la probabilidad de no rechazar la hipótesis nula si esta fuera falsa
(algo indeseable). Es decir, hay simultáneamente un coste y un beneficio al decidir disminuir
el Error Tipo 14 .
Por último, cuando se ha realizado un contraste de hipótesis, es preciso dar una conclusión
en términos de si se rechaza o no la hipótesis nula considerada en el contraste. A este respecto
hay que considerar que el procedimiento estadístico utilizado no es un fin en sí mismo; más
bien es una herramienta para obtener alguna conclusión económica, por lo que lo adecuado
es explicar la conclusión alcanzada con el contraste en términos económicos marcados por el
contexto del problema sobre el que se está trabajando. Es desde esta perspectiva desde la
que se entiende que hay que distinguir entre la significatividad estadística y la relevancia o
importancia económica de los parámetros del modelo estimado.
En los siguientes epígrafes se ofrecen distintos escenarios que nos podemos encontrar como
usuarios para llevar a término un contraste de hipótesis. En todos ellos se siguen los cinco
pasos esbozados anteriormente, sin hacer explícitamente alusión directa a los mismos.
Ha: {Jí =O
(4.3.2)
H1 : {Jí =/= O.
La hipótesis nula sobre el tamaño familiar Ha : f32 = O significa que, descontado el efecto
de los ingresos sobre el consumo, el tamaño de la unidad familiar no tiene efecto sobre el
consumo familiar. Si rechazamos la hipótesis nula, entonces el tamaño de la unidad familiar
influye sobre el consumo una vez que hemos (descontado) tenido en consideración el efecto de
los ingresos.
En general, una vez que hemos estimado el coeficiente ¡3j, para realizar un contraste tipo
t tenemos que seguir los siguientes pasos:
(4.3.3)
Observará el lector que estos tres pasos contienen adecuadamente lo que hemos presentado
al comienzo de esta sección , y que seguidamente desarrollamos en varios escenarios habituales.
118 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
Una cuestión central para el contraste de hipótesis tipo tes calcular el error estándar
del estimador. En la sección anterior hemos señalado que podemos tener distintos errores
estándar de un coeficiente del modelo, ¡;r,
en función del tipo de supuestos que utilicemos
en el modelo econométrico. Naturalmente, también en virtud del tipo de supuestos, tendremos
distintos estimadores del error estándar, (f;f.
V~ i31
En caso de que consideremos el supuesto de varianza homocedástica (4.2.6) , el estimador de
los errores estándar consiste en construirlo a partir de las expresiones (4.2.10) y (4.2.11). Esto
se reduce únicamente a estimar adecuadamente la varianza del término error o- 2 . Utilizamos
el estimador insesgado que hemos dado en la expresión (4.2.12) , es decir que el estimador del
error estándar del coeficiente ¡jj será la raíz cuadrada del elemento de (j , j)-ésimo de la matriz
va:r (!3/x) = 0-
2
(x'x)- 1 , (4.3.4)
donde 0- 2 es el estimador insesgado de la expresión (4.2.12) obtenido bajo esos supuestos. Esta
expresión se reduce para el caso univariante (de una sola variable) a la siguiente 6
2
Virr (fi1 ¡x i ) = n 0- .
2
¿(xi-X-)
i =l
Por otra parte, siguiendo los pasos esbozados para realizar inferencia sobre un paráme-
tro, es imprescindible saber qué tipo de función de distribución estadística tiene t. En el
modelo caracterizado por los supuestos del Teorema 16, que incorporan homocedasticidad y
normalidad, se tiene que dicha distribución es una t-de student, tal y como recoge el siguiente
resultado:
fi1· - !31·
~-"--~=---
,6J. - (3J.
6
Consultar el Apéndice técnico de este tema.
Tema4 119
Este resultado, que demostramos 7 en el tema siguiente, nos permite contrastar hipótesis
obre posibles valores de los coeficientes utilizando el estadístico
7
Tipificar no es más que restar su media y dividir por su desviación típica o error estándar ( ee) o raíz
cuadrada de la varianza muestra! o estimada. Una versión simplificada de la demostración es la siguiente:
dado que se satisfacen las condiciones del Teorema 10, sabemos que el parámetro estimado es insesgado,
de manera que el numerador de la expresión (4.3.5) es la estimación muestra! del parámetro menos su valor
perado (media). También sabemos que la distribución muestra! del coeficiente estimado /Ji es una distribución
normal, al satisfacerse las condiciones del Teorema 16. Así, el numerador es una variable normal menos su
media. En el denominador aparece la raíz cuadrada de la varianza, estimada a partir de la estimación de la
arianza insesgada de los errores. Por la expresión (4.2.12) observamos que se trata de la suma del cuadrado
de variables aleatorias normales, cuya distribución es por definición una chi cuadrado con n - k - 1 grados
de libertad (X~ - ( k+i ) ). Una distribución t de Student es el cociente de una variable aleatoria normal y una
Chi-cuadrado .
8
Las tablas estadísticas más relevantes para realizar inferencia en econometría se encuentran en el apéndice
correspondiente del documento Apéndices y Tablas de este libro.
120 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
Rechazo Ho No rechazo Ho
Rechazo Ho
Área=0,95
rechazamos la hipótesis nula Ha: /3j =O. El parámetro estimado es significativamente distinto
de cero y, en consecuencia, la variable X j influye significativamente en la variable dependiente.
Cuando rechazamos la nula, aceptamos la hipótesis alternativa H 1 , ya que si la alternativa es
cierta entonces el valor del estadístico-t tiende a ser o bien mayor o bien menor que los valores
más habituales (definida la habitualidad con a) de la distribución, en este caso, tn-k-I,%. Para
tener un test con una significatividad de a definimos los valores críticos de tal manera que la
probabilidad de que el estadístico-t caiga en valores alejados por la derecha del cero sea de
a/2 , y la probabilidad de que caiga en valores alejados por la izquierda del cero sea también
de a/2. Así la probabilidad de que caiga en cualquiera de estos dos extremos es justamente
a.
Decimos entonces que el test es de dos colas puesto que solo nos planteamos en la Ho
si el coeficiente influye o no en la variable explicada, es decir, en este contraste no importa
que la influencia sea positiva o negativa, ya que lo sustantivo es que sea distinta de cero.
El signo de (4.3.3) lo determina el numerador puesto que el coeficiente estimado puede ser
positivo o negativo, mientras que el denominador es por definición siempre positivo. Cuando
la hipótesis nula es cierta, la probabilidad de obtener un valor del test estadístico que caiga
en cualquier cola es pequeña. Los valores muestrales del test que están en las áreas de las
colas de la distribución (en este caso una distribución t de Student) son incompatibles con la
hipótesis nula y forman evidencia en contra de que dicha nula sea cierta.
La Figura 4.3.1 muestra una distribución t de student con 27 grados de libertad y las áreas
de no rechazo («aceptación») y rechazo de la hipótesis nula fijado un nivel de significatividad
del 5 3 (95 3 de confianza). Vemos que si la hipótesis nula es cierta, entonces la probabilidad
de obtener un valor del test estadístico en la zona central de no-rechazo es alta. Valores
muestrasles del test en la zona de no-rechazo son compatibles con el contenido de la nula y
por tanto no pueden tomarse como evidencia en contra de que la nula sea cierta.
En tal caso, la norma es que rechazamos con un nivel de confianza del 95 3 (5 3 de
significatividad) la hipótesis nula si el valor de la expresión (4.3.7) es mayor que 2,05 o menor
que -2,05, pues estos son los valores críticos de la distribución de probabilidad bajo la hipótesis
nula. Equivalentemente, también con esta distribución, podríamos comprobar que si el p-valor
Tema4 121
Ho: f3J =O
(4.3.8)
H1 : f3J <O
i la hipótesis nula fuera cierta, entonces el ratio de la t, esto es 4.3.3, tiene (en este caso
teórico) una distribución t de Student, y el valor del ratio tendería a caer sobre el centro de
la distribución, a la derecha del correspondiente valor crítico, que es la región que acumula
mayor masa de probabilidad. Como hemos dicho , rechazamos la hipótesis nula si
~j (4.3.9)
_e_e_("""~-j):- < -tn-k-1 ,a·
Rechazo H0 No rechazo Ho
Area={),95
-t21o.os = -1,70 o
/3j
_e_e_(;c.--/3-j,...-) > tn-k-1,a (4.3.11)
Es decir, rechazamos si el valor empírico del ratio está a la derecha del valor crítico de la
distribución t de Student con un determinado nivel de significatividad a. La Figura 4.3.3
muestra las regiones de rechazo y aceptación de la hipótesis nula con un 95 3 de confianza
para una t de student con 27 grados de libertad.
No rechazo Ho Rechazo H0
Area=0,95
o 121.0.os = 1, 70
Tema4 123
(4.3.13)
y se rechaza la hipótesis nula si el ratio de la expresión (4.3.13) es mayor que el valor crítico de
tablas tn-k-1.o:· La zona de rechazo es la misma que muestra la Figura 4.3.3. En este ejemplo
hemos puesto una situación en la que la elección del nivel de signifividad o: es de bastante
importancia. Llevar a cabo el proyecto cuesta varios millones de euros y la decisión depende
de tener una convincente evidencia de que los hogares gasten más de 5 euros por cada 100
euros adicionales. En este caso podemos ser más conservadores reduciendo la probabilidad
124 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
de que el test estadístico rechazace la hipótesis nula (en favor de la alternativa) cuando la
nula realmente es cierta, para lo cual fijaríamos a = O, 01. En este ejemplo si la nula es
verdadera, el negocio no sería rentable. y queremos que la probabilidad de construir unos
multicines ruinosos sea muy pequeña. En la vida de los negocios, la elección del nivel de
significatividad debe de hacerse sobre la base de un juicio sobre el riesgo y las consecuencias
de tomar decisiones incorrectas.
En relación con esto último, resulta muy interesante y más informativo utilizar el p-valor 9
para realizar un contraste de hipótesis (ya sea de una o dos colas). Veamos primero en qué
consiste y luego particularizamos para el ejemplo.
De acuerdo a la distribución de probabilidad (en este caso exacta) que estamos dando en
el hipotético caso de que se satisfagan los supuestos de homocedasticidad y normalidad, y
según el concepto de p-valor para un contraste de dos colas
sabemos una variable aleatoria que sigue una distribución t de Student (que es la distribución
bajo la hipótesis nula, pero podría ser otra distinta de la t - Student), y t¡§i está definido en
(4.3.13).
El criterio del p-valor lo podemos ut ilizar de un modo equivalente al nivel de confianza.
Obtener 10 un p-valor inferior al 5 % proporciona evidencia en contra de la hipótesis nula (valor
hipotético) en el sentido de que, bajo la hipótesis nula, la probabilidad de obtener un valor
de ¡Jj al menos tan alejado del previsto por la Ho como lo está el observado (estimado) en la
realidad es inferior al 5 %. En el caso de que el valor previsto por la hipótesis nula sea /3j = O,
entonces el p-valor nos indicaría la probabilidad de observar un valor de ¡Jj al menos tan
diferente de O como el estimado (con la muestra dada) en realidad ¡Jj está por debajo del 5 %.
Cuando esto es así, decimos que la hipótesis nula se rechaza con un nivel de significatividad
del 5 %.
En el caso del ejemplo sobre los multicines, si el error estándar del parámetro estimado
fuera ee(;Jj) = 2, dado que la hipótesis alternativa define un contraste de una cola por la
derecha se tendría para unos grados de libertad (que ahora no son importantes a los efecto
ilustrativos)
p - valor= Pr (t > (10 - 5, 1)/2)
que arrojaría un valor entre cero y uno. Si por ejemplo el p-valor fuera de 0,0153, concluiríamos
diciendo que no rechazamos la hipótesis nula al nivel 0,01. Lo interesante del p-valor es que
además nos proporciona información precisa sobre el menor nivel de significación al cual se
rechazaría la hipótesis nula. En este ejemplo, tal nivel sería el 0,0153 y por tanto el nivel de
confianza sería del 98,47 %.
9
También conocido por valor-p, o valor de probabilidad; ambas denominaciones provienen de la traducción
inglesa de «p-value ».
10
Advierta el lector que, en general y solo en disposición de las habituales tablas estadísticas, no podrá
calcular el p-valor. Para ello requerirá de un software especializado como , por ejemplo, Gretl que dispone de
un buscador de p-valores.
Tema4 125
n
1"""'
n _
2
-22
¿_.)(X1i - X) ii ]
--- (/31) -= a-/31
var
.2 1 i=l
= ~ x -[-~-¿-~-=-1-(X_ii_·--X-_-)2-J-=2-, (4.3.14)
_..._
var (.al X) = n
A -1 (x'x)- n (x'x)-
--;;;:--
1
•
--;;;:-- ,
1
donde n• = 1 n 1
n-(k+l) ¿i=l XiXiéi .
·2
(4.3.15)
Por otra parte, sabemos que para poder calcular el p-valor es imprescindible saber qué tipo
e distribución estadística tiene la Ecuación (4.3.3). En la Sección 4.2.1 comprobamos que
cuando una muestra es suficientemente grande, la distribución muestral del estimador ¡Jj es
aproximadamente una normal con independencia de si los errores del modelo son homocedás-
-icos, y aunque los errores sigan una distribución alejada de la distribución normal. Por tanto,
bajo la hipótesis nula que estamos considerando, al dividir por el error estándar, tendremos
ue el estadístico tipo t se distribuirá aproximadamente como una variable aleatoria normal
tándar
valor de ¡3j que al menos se aleje de cero lo mismo que se aleja de cero el valor observado de /31
en esta muestra particular, está por debajo del cinco por ciento. Cuando esto es así, decimos
que la hipótesis nula se rechaza con un nivel de significatividad del 5 %. Alternativamente,
podemos también contrastar al 5 % de significatividad simplemente comparando el valor del
estadístico tipo t con ±1, 96, que es el valor crítico para un contraste de dos colas, y rechazar
la hipótesis nula a un nivel del 5 % si ltl > 1, 96.
En general, y salvo que exista un buen motivo para suponer normalidad y homocedastici-
dad, cuando queramos llevar a cabo un contraste tipo t de significatividad de los coeficientes,
y siguiendo los tres pasos esbozados anteriormente, utilizaremos preferentemente el estima-
dor del error estándar robusto a la heterocedasticidad y una regla de decisión basada en una
distribución normal.
Los programas informáticos actuales incorporan todos ellos el cálculo de los errores están-
dar, tanto los robustos frente a la heterocedasticidad como los que no lo son. Es una práctica
común poner debajo de los valores de los parámetros estimados sus correspondientes erro-
res estándar; para ello debe quedar claro qué tipo de errores estándar se están calculando y
utilizando.
(4.3.16)
donde ivc es el valor crítico a utilizar, que dependerá de cómo estimemos el error estándar
(o
ee 1): en caso de estimarlo por la expresión 4.3.4, usaríamos valores críticos indicados
por la distribución de la t-student; mientras que si optamos por el estadístico robusto a
la heterocedasticidad (4.3.15), usaríamos la aproximación normal. Operaciones básicas nos
conducen a la siguiente expresión
P [01 - ivc x ee (01 ) ::; !31 ::; 01 + ivc x ee (oj)J = 1 - a= confianza. (4.3.17)
Por consiguiente el intervalo de confianza para el parámetro poblacional !31 con el nivel de
confianza (1 -a)lOO es
(4.3.18)
que al nivel habitual de a= O, 05 (es decir, al 5 %), y para el caso general (es decir, usando la
versión robusta a la heterocedasticidad), se convierte para un contraste de dos colas (bilateral)
en
[01 -
1, 96 x ee (01) ,01
+ 1, 96 x ee (01)
J. (4.3.19)
Tema4 127
Lo primero que nos interesa es contrastar la signifi catividad de los paramétros de l modelo.
Puesto que el número de observaciones es sufi cientemente grande , util izamos los errores es-
tándar (ee) calculados según la expresión robusta a la heterocedasticidad (4.3.15), que aparecen
entre paréntesis debajo de los parámetros estimados. Recordemos que los valores críticos de una
normal tipificada al 5 % de significatividad es Zo,025 = 1,96 y para el 1 % Zo ,005 = 2, 58 para un
contraste bilateral (de dos colas , como los que vamos a realizar en este caso) .
El valor empírico del contraste tipo t para la va riable explicativa que incorpora los años de
estudios completados (escolarización ) es -4,40 (t f3· . = -0, 11 / O, 025 = - 4, 40); por consi-
estudios
guiente es significativamente distinto de cero al 99 % de confianza . Supongamos que Naciones
Unidas desea promover una serie de acciones encami nadas a reducir la tasa de mortalidad infantil.
Inicialmente , Naciones Unidas qu iere sabe r cu ál sería el impact o sobre la tasa de mortalidad si la
128 A NÁLISIS DE R EG RESIÓ N LI NEAL. I NFE RENCIA
acción que quiere llevar a término se centrara en aumentar los años de escolarización de la pobla-
ción. El efecto parcial de un incremento de un año de escolaridad, es decir, el efecto sin modificar
el nivel de ingresos per cápita de la población ni el índice de concentración de la renta sería una
disminución del 11 % de la tasa de morta lidad infantil por cada cien mil nacidos vivos (~Y% =
100/:Jestudios ~X ) . Es importante apreciar la diferencia entre una disminución del 11 % en la tasa de
mortalidad infantil y la disminución de 11 puntos en la tasa de mortalidad infantil. Por ejemplo, si
la tasa de mortalidad infantil en Guinea es de 146, un decremento del 11 % hace que la mortalidad
infantil pase a 130 [146·(1-0,11) = 129 ,94], que no tiene nada que ver con disminuir 11 puntos en
la tasa de mortalidad infantil. Podemos igualmente construir un intervalo de confianza al 95 % uti-
lizando la expresión (4.3.19):[-0, 11 - 1, 96 · O, 025 , -0, 11+1, 96 ·O, 025] = [-0 , 159, -0, 061].
Utilizando este intervalo podemos construir un intervalo de confianza al 95 % para el efecto pre-
visto que tendría sobre la tasa de mortalidad infantil la acción de aumentar en un año el tiempo de
formación de la población. En tal caso, a partir de (4 .3.20) tendríamos que la tasa de mortalidad
se reduciría entre un 15 ,9 % y un 6,1 %.
Los ingresos per cápita , medidos en términos de paridad de poder adquisitivo , arrojan un valor
empírico del contraste tipo t de -9 ,25 (t f3- = -0, 62/ 0, 067 = -9, 25), que es mayor, en
ingresos
términos absolutos, que los valores críticos (1, 96 y 2,58) , tanto al 95 % como al 99 %, de manera
que el parámetro poblacional también es significativamente distinto de cero. En caso de que la
acción que Naciones Unidas quiere desarroll ar consiguiese elevar en 1 % los ingresos per cápita,
y manteniendo constantes (controlando, si n variar) los niveles de concentración de la renta y los
años de escolarización , generaría un descenso del 0,62 % de la mortalidad infantil, considerados los
efectos de las otras variables.
El índice de GINI es una medida de concentración de la renta per cápita, de modo que si el
ingreso per cápita se distribuye igualment e por toda la población, entonces el índice es nulo . Si
por el contrario toda la riqueza la detenta un solo individuo, entonces su valor es 100. El valor del
parámetro estimado es positivo , de manera que a medida que la renta se distribuye menos iguali-
tariamente , la mortalidad infantil aumenta . Si la política que pretende desarrollar Naciones Unidas
logra reducir el nivel de concentración de la renta en un 1 punto, entonces, manteniendo constan-
tes los años de escolarización y el nivel de ingresos per cápita, se esperaría encontrar un descenso
de la tasa de mortalidad infantil de un 1,4 %. Esta interpretación se puede realizar toda vez que
rechazamos la hipótesis nula (H o : f3GIN I = O) , es decir, que el parámetro estimado es significativo
ya que el valor empírico que toma el esta díst ico tipo t es 2,80 (tf3- =O, 014/ 0, 005 = 2, 80),
GIN!
superior en términos absolutos al valor crít ico tanto con un nivel de significatividad del 5 % como
del 1 %.
La probabilidad exacta o p-valor es, como hemos visto, el valor exacto mínimo , en términos
de significatividad (a ) del contraste , que permite rechazar la hipótesis nula (Ho : /3j =O) . Dicho
de otra forma , el p-valor nos da el nivel de significatividad exacto para el cociente /:Jj / ee (/:Jj)
en un contraste bilateral. Por ejemplo el p-valor del parámetro estimado del índice de GINI en
el ejemplo anterior es 0,0051, lo que significa que tenemos ese nivel exacto de significatividad
o del 99,489 % en términos de confianza [(1 -0 ,00511026)100 = 99,489 %] de que el verdadero
parámetro poblacional f3c I N I sea distinto de cero. Este valor habitualmente lo proporcionan los
programas informáticos especializados.
Tema4 129
Ha : f3i - (3í = O,
(4.3.23)
Hl : f3i - {Jí =/= O.
Existen varias alternativas para realizar este contraste; cuál usar dependerá posiblemente
del programa informático que se utilice. La primera de ellas recurre directamente al estadístico
tipo t de la expresión (4.3.1)
/Ji - /3j - o
ee (/Ji - /3j)
pero en ese caso deberíamos calcular
donde ri = ({31 - f32), Wi = (X2i + X1i). Bajo la hipótesis nula (4.3.23), 11 = O, mientras
que bajo la alternativa. 11 =/= O. Este método requiere por tanto construir la variable suma
130 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
Wi, luego hacer la regresión MCO simplemente respecto de las variables X 1i, Wi, y realizar el
contraste de la t para el parámetro /'l ·
Ambos métodos son equivalentes y aptos para contrastes de dos colas.
Siguiendo el patrón indicado por la expresión general (4.3. l ), también podríamos utilizar
ambos métodos para contrastar hipótesis del tipo
Ha : f3i + (3j = e
H1 : f3i + (3j =/= c.
o
H 1 : c1f3i + c2f3j > c.
En todos los casos el estadístico de cont raste se construye como un ratio tipo t:
(c1f3i + c2 f3j) - e
ee ( c1f3i + c2f3j)
que se distribuirá asintóticamente como una normal si utilizamos errores estándar robustos.
--
ln(salarioi) = 1, 69
(0,023)
+ O, 07 estudiosi + O, 01 ant.i
(0,003) (0,0006)
+ O, 04 edadi
(0,005)
+ O, 09 tamañoi,
(0,006)
donde la variable dependiente es el «logaritmo del salario hora » en euros corrientes de 2006 ; la
variable «estudios » es el nivel de estudios terminados; la variable « antigüedad » está medida en
años de pertenencia a la empresa ; la varia ble « edad » (en décadas : 1 si tiene menos de 20 años,
2 entre los 20 hasta los 29 años ... , 6 si tiene más de 60 años) pretende aproximar el efecto de
la experiencia laboral; la variable « tama ño» se refiere al tamaño de la empresa (1 si la empresa
tiene menos de 50 trabajadores; 2 entre 50 y 199; 3 más de 200 trabajadores). Como el número de
observaciones es superior a 120 y los datos son de sección cruzada, utilizamos los errores estándar
robustos a la heterocedasticidad, de ma nera que el valor crítico para contrastes de dos colas es
1,96 y 2,58 al 95 % y 99 % de confianza , respectivamente. Como se puede comprobar, todas las
variables son significativas incluso al 99 % de confianza. Puesto que la variable dependiente está en
logaritmos y las variables independientes en niveles, multip licando por 100 los parámetros estimados
Tema4 131
Ha : f3tam. = f3estudios
(4.3.24)
H1 : f3tam. i- f3estudios
Rechazamos la hipótesis nula si
t .. ~
. __ /:Jtam. - /:Jestudios
~~~~~~~~ > l ' 96 (4 .3.25)
f3tam -f3estudios (/3• •
ee tam. - 13estudios
)
t. .
f3tam. -f3estudios
=
Q
o, 2
º- 3 13
00638 - ' '
(4.3.26)
'
por lo que rechazamos la hipótesis nula de igualdad de efectos entre el nivel de estudios y el
tamaño de la empresa. Es importante distinguir entre « coeficiente mayor » y « mayor influencia»
de la variable explicativa . Ya vimos que para determinar cuál de las variables explicativas tiene
mayor influencia sobre la variable dependiente lo mej or es recurrir a los coeficientes beta que
comentamos en la Sección 2.3.5. En este caso, tales coeficientes indican que la variable que más
influye sobre el logaritmo del salario es el nivel de estudios concluidos.
es decir, si al menos una de las restricciones previstas en la hipótesis nula es (son) falsa(s) ,
entonces la propia hipótesis nula es falsa.
De igual manera que en el caso de los contrastes tipo t, planteamos dos alternativas en
función de los supuestos con los que configuremos el modelo de regresión. No obstante, antes
de presentar las dos alternativas nos planteamos la posibilidad de utilizar q estadísticos tipo
t para contrastar la hipótesis nula planteada.
Para ello consideremos, por simplicidad, que q = 2. Sea t1 el estadístico tipo t para con-
trastar la hipótesis nula de que f3k =O, y sea t2 el estadístico tipo t que nos permite contrastar,
también individualmente, que f3k+ 1 = O. Podemos intentar utilizar estos estadísticos t1 y t2
para elaborar un contraste de hipótesis del siguiente modo: rechazar la hipótesis conjunta nu-
la, Ho = f3k = f3k+l =O, si t 1 o t2 sobrepasan en valor absoluto 1,96. En ese caso estaríamos
usando dos variables aleatorias, t1 y t2, caracterizadas por una distribución muestral conjunta.
A medida que el tamaño muestra! aumenta, sabemos que bajo la hipótesis nula conjunta los
estadísticos t1 y t2 tendrán una distribución normal bivariante, donde cada estadístico tipo t
tendrá media cero y varianza unitaria.
Consideremos el caso más sencillo de distribución bivariante, que es cuando los estadís-
ticos t1 y t2 no están correlacionados y son independientes. ¿Cuál será entonces el tamaño
del contraste, es decir, cuál es la probabilidad de rechazar la hipótesis nula cuando esta es
verdadera? En este caso, la hipótesis nula no se rechaza si it1i :'.S 1, 96 y it2i :S 1, 96. Dado que
ambos estadísticos son independientes, tendremos que
Pr(it1i :'.S 1, 96, it2i :'.S 1, 96) = Pr( t1i :'.S 1, 96) x Pr(it2i :'.S 1,96) = 0, 95 2 = 0, 9025;
por tanto, la probabilidad de rechazar la hipótesis nula cuando esta es verdadera será 1-0,9025
= 9,75 %. Es decir, rechaza la hipótesis nula mucho más frecuentemente que lo previsto en
el nivel (bajo la hipótesis nula) que hemos usado del test (5 %). Esto es así porque si no
logramos rechazar la hipótesis nula usando t 1, todavía podemos rechazarla usando t2. En
tal caso decimos que el contraste (test) tiene un tamaño erróneo. De hecho, utilizando los
estadísticos ti y t2, al nivel del 5 %, podríamos construir regiones o conjuntos de confianza
(que también serían incorrectos) del mismo modo que previamente construimos intervalos de
confianza. Obsérvese que en tal caso el conjunto de confianza para los dos parámetros sería
de la forma:
que define como conjunto de confianza a un rectángulo cuyo centro sería el punto (/3k, /3k+l),
y no un intervalo, como sucedía en el caso de un solo coeficiente. En caso de utilizar esta región
o conjunto de confianza (incorrectos en términos del tamaño por definir la región a partir de
estadísticos tipo t), si el par de valores estimados fuera un punto interior del rectángulo, no
rechazaríamos la hipótesis definida como nula.
Una posibilidad para corregir este comportamiento erróneo consiste en ajustar los valores
críticos de ambos contrastes tipo t a fin de ajustar el tamaño del test. La cuestión se complica
aún más cuando ambos estadísticos están potencialmente correlacionados. Afortunadamente,
existen otras formas de realizar el contraste conjunt o más accesibles, y para ello utilizaremos
estadísticos tipo F, como veremos a continuación, que facilitarán la construcción de conjuntos
de confianza correctamente definidos.
Ecuación restringida: Yi = f3o + f31Xli + f32X2i + ... + f3k-qX (k-q )i + EiR , ( 4.3.30)
de los que tenemos que calcular las sumas cuadráticas de sus respectivos residuos. Para saber si
la variación de las sumas cuadráticas de ambos modelos es o no estadísticamente significativa
bajo la hipótesis nula, utilizamos el estadístico de contraste siguiente:
SCRR-SCRNR
q
SCRNR --n---'-ª--- '""Fq ,n-k-1· (4.3.31)
n-k-1 ¿; e;NR
i =l
n-k- 1
Rechazo H0
o:
Área=0,05
...
F4 21.0 ,os =2,73
libertad de la ecuación restringida menos los grados de libertad de la ecuación sin restricciones
[g.l. restringida = (n - k + q- 1) - g.l. irrestricta = ( n- k- 1) = q]. El denominador, por su
parte, está dividido por el número de grados de libertad de la ecuación irrestricta; dicho de
otra forma, el denominador es el estimador insesgado de la varianza residual de la ecuación
no restringida. Rechazamos la hipótesis nula si
SCRR-SCRNR
--s~c=R_,_
q _N_R__ > Fq,n-k-1 ,a · (4.3.32)
n-k-1
De este modo, se relaciona la cantidad de cerveza consumida con su precio , la renta disponible
y con bienes sustitutivos como el vino de calidad y de mesa. Las cantidades y la renta disponible
están en términos per cápita, y los precios en euros constantes de 2005 . Todas las variables están
en logaritmos, de manera que se trata de un modelo de elasticidades constantes. Todos los signos
son los adecuados según prevé la teoría. El va lor crít ico al 95 % de confianza es 2,05(t27,o,025 =
2, 05) de manera que el precio de la cerveza y la renta disponible son significativos. Sin embargo,
tanto el vino de calidad como el de mesa no son ind ividualmente significativos. Nos preguntamos
si conjuntamente lo son. Para ello estimamos la ecuación restringida siguiente:
0,1627-0, 1397
--,o,...,,1'"""~=97=--- = 2 , 22 · (4.3.35)
-w-
En definitiva , después de descontar los efectos del precio de la cerveza y de la renta disponible,
no podemos rechazar la hipótesis nula (H o : f3vinocalidad = f3vinomesa = O) , puesto que el valor
em pírico (2,22) es menor que el valor crítico (3,35) . En consecuencia las variabl es «vino de calidad »
y «vino de mesa » son estadísticamente no significativas de forma conjunta.
Aunque en este caso el diagnóstico del contra ste individual o de la t coincide con el contraste
conjunto o de la F, esto no ocurre siempre así y en ocasiones la significación conjunta arroja
resultados diferentes de los individuales . Normalmente la razón se encuentra en la existencia de
multicolinealidad no perfecta entre las variables, lo que impide a menudo medir el efecto parcial
e las variables. Este contraste de restricción múltiple se suele usar cuando la s variables del grupo
oe exclusión están muy relacionadas.
Si tomamos como hipótesis nula Ho : f3J = O podemos realizar el contraste individual a partir
e la F; de hecho, como probamos en el siguiente t ema , el contraste de la t el evada al cuadrado se
::omporta como una F con n - k - 1 grados de libertad, es decir, t 2n -k-l = F1,n-k-1 de manera
ou e los dos métodos nos llevan al mismo resultado . En todo caso el contraste de la tes más versátil
:Jara el contraste individual dado que es más fácil de calcular, y permite hacer el contraste de una
sol a cola .
Veremos que, en cierto escenario , el contraste de la F se podría calcular usando el R 2
SCR3-SCRr-rn R'J,,rR-Rh_
q
_ _ q_ _ rv Fq ,n-k-1· (4.3.36)
SCRNR l-R'J,,r 8
n-k-1 n-k- 1
=:sta expresión es práctica puesto que el R 2 aparece en todos los programas informáticos, y los
cálc ulos resultan más sencillos. A continuación realizamos los cálculos para el ejem plo de la de-
11anda de cerveza
R'J,,rR-R1 0,7052-0,6567
-1-----'~"-=-Ft-R- = -l~---:0,.=,~7=0=
52~ = 21 22 · (4.3.37)
n-k-l 32-4-1
136 A NÁLISIS DE REG R ESIÓN LINEAL. I NFE RENCIA
El cálculo del p-valor , o probabilidad exacta min1ma con la que rechazamos la hipótesis nula ,
también sale generalmente por defecto en los programas informáticos econométricos, y es aplicable
de igual manera que en los contrastes individuales. Además nos da una idea clara de la fuerza o
debilidad del contraste respecto de la hipótesis nula. En este ejemplo, respecto de las variables
vino de calidad y de mesa , el p-valor = 0,1281, de manera que podemos rechazar la hipótesis nula
(H o : f3vinocalidad = f3vinomesa = O) con el 87,20 % de confianza [(1-0 ,1281)100 = 87,20].
Significatividad conjunta
Los programas informáticos realizan de forma rutinaria el cont raste de significatividad
conjunta de la regresión planteada. Es decir se aplica la F a la hipótesis nula siguiente
versus la alternativa
dicho de otra forma, se cont rast a la hipótesis nula de que ninguna de las variables explicativas
afecta estadísticamente a la variable explicada. El estadístico de cont raste es
SCE R2
- k- T F (4.3.39)
SCR = l- R 2 ---+ k,n-k-1,
n-k-1 n-k-1
El valor crítico es 2,73 ( F 4,27,0,05 = 2,73) de manera que rechazamos la hipótesis nula, y las
variables explicativas de la regresión son conjuntamente significativas. El p-valor es inferior a
o,0001.
Ff - estadístico ~ x~
~ equivalentemente, en función de la relación asintótica entre ambas distribuciones,
A efectos ilustrativos, indicamos ahora qué forma tendría el estadístico FqR - estadístico,
ue utiliza estimadores de las varianzas robustos a la heterocedasticidad, en caso de dos res-
-riciones (q = 2) del tipo f31 =O, f32 =O sobre la expresión (4.3.27). En tal caso, deberíamos
;>articularizar la ecuación (5.4.1) para esta restricción. El ejercicio analítico de esta particu-
:arización se deja como ejercicio técnico para el lector interesado.
(4.3.41)
de cálculo del error estándar en los estadísticos t1, t2 es distinto , y (2) utilizamos la tabla
de F2,oo y no la F2,n-k-l· Recordemos a estos efectos que el nivel de significación deseado.
y por tanto fijado por el usuario al contrastar la hipótesis nula, se aproxima al exacto (la
probabilidad de error tipo I dado un t amaño muestral fijo , n) cuando el tamaño muestral
crece, produciéndose una distrosión de tamaño que eventualmente se hace despreciable.
Este desarrollo con dos restricciones t ambién nos permite observar que (ya sea con hete-
rocedasticidad o no) los conjuntos o regiones de confianza serían de la forma
p.R =
2
(ti+2 t~) '
en caso de que t 1 y t2 no estén correlacionados. Esto es, el estadístico Ff sería entonces un
promedio de cuadrados de estadísticos tipo t. La distribución del mismo dependerá de los
supuestos que hayamos hecho sobre la distribución de los errores del modelo. En este caso
particular, la región o conjunto de confianza será
es decir, una circunferencia centrada en los valores hipotéticos de la nula (/31 =O, {h =O), y
el radio vendría determinado por el valor de tablas de la F obtenido para H ,9 .
Como decimos, esto es una mera ilustración que nos permite entender que en el caso general
en que los estadísticos tipo t estén correlacionados, la fórmula (4.3.41) permitiría ajustar
(correctamente) este tipo de correlación para el caso de un contrastre con dos restricciones.
En el siguiente tema tratamos de modo avanzado cuál sería la expresión general en caso de
más restricciones.
También se obtiene de forma particular que en caso de una única restricción (q = 1, /31 =O)
se llega a Ff =ti,
donde ahora estamos utilizando los estimadores robustos del tipo (4.3.14).
Esto nos lleva de nuevo a la relación ya comentada entre el estadístico tipo t y el F.
Desde el punto de vista más aplicado, los programas informáticos especializados suelen
traer por defecto preseleccionado el cont raste no robusto, por lo que es necesario que el usuario
haga las selecciones oportunas previamente a la realización de la estimación.
Para concluir este amplio apartado dedicado al contraste de hipótesis, indicamos al lector
interesado que puede ampliar la información al respecto leyendo la Sección 5.4. Allí podrá
ver que no solo es posible estimar y contrastar combinaciones lineales de los parémetros, sino
que también es posible contrastar funciones no lineales g( • ) de los parámetros de la regresión.
Tema4 139
Para ello utilizamos el denominado Método Delta que básicamente nos muestra que es posible
linealizar y aplicar sobre la versión linealizada lo aprendido en este apartado respecto al
contraste de hipótesis.
4.4. EJEMPLOS
+ O, 03 ln (precioté) + O, 41 ln (yd) ,
(0,018) (0,231)
2 -2
n = 32, R = O, 7256, R = O, 6850.
Todas las variables están en logaritmos, de manera que el modelo se interpreta en términos
de elasticidades. Las variables de cantidad están en términos per cápita (la leche y el café en
litros y kilos per cápita), los precios están en euros constantes de 2005 (deflactados por el
índice de precios al consumo), la renta disponible per cápita en miles de euros constantes de
2005. En todo caso, la interpretación de los parámetros se hace en términos porcentuales de
manera que las unidades de medida de las variables a estos efectos es irrelevante.
Recordemos que los coeficientes estimados nos indican el efecto parcial que tiene sobre la
variable a explicar, una vez que hemos controlado (o descontando) los efectos que tienen el
resto de variables a la derecha del igual sobre Ja misma. Una cuestión económica importante
es la relación inversa entre la cantidad demandada de café y el precio del mismo. El parámetro
estimado es -0, 92 , que nos sugiere, según esta muestra, una potencial relación negativa en el
modelo poblacional, de acuerdo a lo previsto. Sin embargo, a nosotros nos interesa saber si el
parámetro poblacional es realmente relevante para explicar el comportamiento de la cantidad
demandada de café en España. Para contestar esta pregunta hemos de considerar que hay
otras variables junto con el precio del café que también explican potencialmente la cantidad
demandada de café. De modo que la pregunta que nos interesa resolver sería saber si podemos
rechazar la hipótesis (nula) de que un cambio en el precio del café no tiene efecto alguno sobre
Ja cantidad demandada de café una vez que hemos tenido en consideración (controlando) el
efecto que pueden tener sobre dicha cantidad demandada la renta disponible per cápita y la
cantidad de leche consumida per cápita.
Tal y como hemos planteado la hipótesis, por una parte, sabemos que la podemos contras-
tar fácilmente con el modelo estimado por MCO. Sin embargo para hacerlo adecuadamente,
y siguiendo los tres pasos esbozados en apartados anteriores sobre como contrastar hipótesis,
es necesario establecer la hipótesis alternativa H 1. En este caso dada la relación inversa entre
precios y cantidades podemos establecer una hipótesis alternativa que defina un contraste de
un sola cola: contrastamos la hipótesis nula de elasticidad precio del café igual a cero Ha:
!3precio café = O frente a la alternativa negativa H1: f3precio café< O. A efectos meramente
140 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
ilustrativos hemos considerado que se satisfacen los supuestos de Gauss-Markov para datos
temporales, por lo que utilizamos los errores estándar no-robustos. Además, la escasez de
datos así lo sugiere.
Tal y como hemos calculado el error estándar y dados los grados de libertad (27 = 32-5),
la distribución que tenemos que utilizar para realizar el contraste tipo t es la distribución
t de student. El valor crítico al 95 % de confianza (o al 5 % de significati vi dad) es para un
contraste con una H1 : f3precio café< O, es -1,70 -t21,o,05 = -1,70. El valor empírico del
cociente entre el parámetro estimado y su error estándar es (-0, 92/0, 119) = -7, 73, por lo
que al ser -7, 73 < -1 , 70, rechazamos la hipótesis nula de elasticidad nula del parámetro
poblacional del precio del café, en favor de la hipótesis alternativa de elasticidad negativa.
El p-valor en este caso es inferior a 0.1 %; por tanto rechazamos la hipótesis nula con unos
niveles de confianza superiores al 99,9 %.
Dada la conclusión alcanzada con este contraste, podemos decir que cuando el precio del
café se reduce en un 1 % (si no hay variaciones en los precios del té, la renta disponible
y la cantidad de leche consumida, y descontados sus respectivos efectos sobre la cantidad
demandada de café), el consumo de café crecerá un 0,92 %.
La proximidad de este último coeficiente a la unidad nos invita a tratar una cuestión
económica interesante: saber si podemos (a la luz de los datos) considerar que el café es
un bien inelástico, elasticidad menor que la unidad, o si tiene elasticidad unitaria. Para ello
podemos contrastar la hipótesis unitaria Ha : f3precio café = -1 frente a la hipótesis no
unitaria H1 : f3precio café< -1 a partir de la expresión (4.3.1). El valor empírico sería
Los errores estándar están calculados , a efectos meramente ilustrativos de la técnica, como
si los supuestos de Gauss-Markov fueran ciertos. El valor crítico del contraste individual al
95 % de confianza es 2,05 ( t28,0 ,025 = 2,05); por consiguiente todos los parámetros estimados
son significativos. El modelo es de elasticidades constantes, de manera que un incremento
del 1 % del empleo manteniendo constante el resto de factores y descontado el efecto del
142 ANÁLISIS DE REGRESIÓN LI NEAL . INFEREN CIA
es decir,
PIBt )
In ( l
emp eot
= ;Jo + f3capital In (capitalt)
l
emp eot
+ Et, (4.4.9)
cuya estimación es
ln ( Plii; )
empleot
= O 76
'
+ O' 60 1n ( capitalt ) ' (4.4.10)
(0,111) (0,023) empleot
R 2 =O 95·n = 31· SCR =O 014108 (4.4.11)
' ' ' ' .
El número de restricciones impuestas es 1, de manera que el valor de la F empírica, es
SCRR-SCRNR 0,014108-0,014094
q
SCRNR -~o~,0~1~=,.,o,...,.9~
4 -- = O, 027 (4.4.12)
n-k-1 28
4.5. PREDICCIÓN
2 1 (X 1o - X1
- )2
=O" -+ n ' (4.5.6)
i~
2
[n (X 1i - X1)
onde la última igualdad se obtiene operando algebraicamente y se deja como ejercicio para
::'l lector interesado. Esta expresión para el modelo de regresión simple se puede generalizar
para la regresión múltiple en términos matriciales
donde la expresión x'x indica en esta ocasión que las variables están tomadas en diferencia.<:
respecto de sus medias. Las expresiones (4.5.3) y (4.5. 7) son ilustrativas al mostrar que la
varianza del predictor y, en consecuencia, también sus errores estándar aumentan a medida
que las variables explicativas se alejan de sus respectivos valores medios.
Una forma alternativa de cálculo del error estándar consiste en restar las expresion~
(4.5.1) y (4.5 .2) , de donde operando mínimamente se tiene
(4.5.9
Esta expresión sugiere que el error estándar asociado a la constante en la expresión (4.5.9
coincide con el error estándar del predictor de la expresión (4.5.2), cuya forma de cálculo~
la habitual.
Como hemos dicho, al hacer la predicción cometemos un error que denominamos error
de predicción ; teniendo en cuenta el modelo poblacional, este error será
(4.5.10
2
Sustituyendo la varianza de los errores var(cº) = <J por su estimador insesgado podemos
estimar
(4.5.12)
Veamos un ejemplo.
Con los mismos datos del Ejemplo 14 estimamos un modelo con las mismas variables, pero
con la variable explicada en niveles (y no en logaritmos) . El modelo estimado es
---
salarioi = O, 81
(0,375)
+ 1, 24 · estudiosi
(0,044)
+ O, 17 · antigüedadi
(0,010)
Nos planteamos la previsión del salario hora de un licenciado (estudios = 8) con 35 años de edad
(edad = 3) y cinco de antigüedad en una empresa (ant igüedad = 5) de tamaño mediano (tamaño
= 2). El modelo prevé que aproximadamente sea de 16,74 euros de salario hora (0,8088 + 1,2452 ·8
+ 0,1773·5 + 0,8984·3 + 1,1934·2 = 16,7389) . Un intervalo de confianza para la predicción media
requiere estimar el error estándar del predictor. A tal efecto estimamos la ecuación procedente de
4.5.9) .
Podemos observar que la única diferencia entre esta expresión y la anterior , (4.5.14), se encuentra
en el término independiente (que coincide con la predicción puntual). La expresión (4.5.15) nos
muestra directamente el error estándar del predictor lo que nos permite establecer el intervalo al
95 % de confianza para la predicción individual apl ica ndo para ello la expresión (4.5.13). Ello nos
leva al siguiente intervalo para la predicción individual:
1
2 176 722 5 2
16 74±2{02197
' '
+ ' ' } =16 74±11 58
5286 - 5 ' ' '
(4 .5.17)
que es muy amplio 5, 16 ; 28,32 . La mayor variación deriva de los errores estimados , lo que nos
nd ica que el salario hora depende de otros factores además de los incluidos explícitamente en las
va riables independ ientes del modelo y que se reflej an en el error aleatorio.
(4.5.18)
No obstante, el método previsto por la expresión (4.5.18) es sesgado (pese a ser consistente)
y además depende crucialmente de que los errores de la regresión se distribuyan normalmente.
El problema del sesgo del estimador no se puede tratar fácilmente, sin embargo el de la
normalidad sí es tratable. Sabemos que cuando los errores no se distribuyen normalmente, los
estimadores MCO tienen buenas propiedades. Basta con suponer que el error es independiente
de las variables explicativas para que podamos realizar la predicción consistente a partir de
la siguiente regresión mínimo cuadrática
Los modelos de los Ejemplos 14 y 16 son iguales salvo por el hecho de que la variable explicada
en un caso está en niveles y en otro en logaritmos. Los resultados del modelo del Ejemplo 14 eran
a partir de este modelo, obtenemos G¡ = exp( ln salarioi) para cada una de las observaciones
e
muestrales. Tras regresar salario sobre sin té rmino constante, obtenemos:
por lo que podemos hacer una predicción del salario por hora para un escenario o sujeto (en este
caso) concreto . Supongamos, por ejemplo, que estamos interesados en la predicción por MCO para
el siguiente contexto económico : trabajador licenciado de 35 años y 5 años de antigüedad en una
empresa mediana . Para ello utilizamos ahora la expresión (4.5.9)
----
ln salarioi = 2, 66 +O, 07 (estudiosi-8)+ O, 01 (ant.i - 5)+ O, 04 (edadi-3)+ O, 09 (tamañoi-:
(0,012) (0, 003) (0,0006) (0,005) (0,006)
Es decir que la predicción del salario hora en logaritmos es 2,66 y a partir de (1,0819·exp(2 ,66)
= 15,47) , la predicción en niveles es de 15,47 euros . El intervalo al 95 % de confianza del salario
Tema4 147
hora para la predicción media en logaritmos es 2,6604 ± 2·0,0123, es decir que se encuentra entre
los valores 2,6358 y 2,685. En niveles será
el intervalo de confianza de la predicción media (al 95 % de confianza) del salario hora se encuentra
entre los valores 15,10 y 15 ,86 .
El intervalo al 95 % de confianza de la predicción individual, a partir de la expresión (4.5.13)
es
1
554 6005 2
2 66
'
± 2 {o ' 0123 +
2
'
5286 - 5
} = 2 66
'
±o ' 648597. (4.5.22)
es decir que el intervalo al 95 % de confianza para la predicción individual se encuentra entre ambos
valores . De nuevo nos encontramos con un intervalo de confianza muy grande , consecuencia de
que en la determinación de los salarios intervienen variables explicativas no incluidas en el modelo
estimado y que se reflejan en la desviación típica de los errores estimados.
Aunque la predicción con datos transversales puede ser útil para establecer relaciones entre
fenómenos y por consiguiente también para tomar decisiones económicas y empresaria les de futuro,
en muchas ocasiones disponemos de conjuntos de datos en forma de series temporales. Aunque
la predicción con series de tiempo es una de las cuesti ones centrales de la Parte 111 de este libro,
hacemos ahora una pequeña introducción a este tipo de aproximación metodológica .
l. La propia naturaleza estocástica del proceso, factor imputable igualmente a los datos de
sección cruzada de la sección anterior. Este factor es justamente el que hemos aprendido
a tratar. Incluso suponiendo que el modelo está bien estimado, el error aleatorio y las
varianzas de los estimadores implican errores de predicción.
2. Los valores futuros de las variables explicativas. La predicción está condicionada a sus
valores futuros y normalmente tampoco se conocen a priori. En ocasiones la empresa o la
administración tienen dominio sobre algunas de las variables del modelo. Tal es el caso
del precio en monopolio por ejemplo. pero incluso en este caso el modelo incluirá, casi con
toda seguridad, otras variables que no son controladas (como la inflación. el crecimiento
económico, etc.). En consecuencia la mayor debilidad de los modelos relacionales, en
términos de pronóstico, se encuentra precisamente en la inconcreción de los valores
futuro s de las variables explicativas. Este problema se soluciona, al menos en parte,
utilizando modelos de series temporales (modelos que analizaremos en la Parte 111 del
148 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
libro). Pero lo que en principio es su mayor debilidad se puede también interpretar como
su mayor virtud, así podemos sustituir los valores futuros de las variables explicativas
por sus valores más probables (calculados a partir de modelos de series temporales o de
cualquier otra forma) , y también podemos utilizar valores que, pese a ser improbables,
son posibles y que nos permiten realizar predicciones alternativas o por escenarios muy
útiles en el ámbito de la economía y los negocios para tomar decisiones estratégicas.
Los «tests de estrés» del sector financiero son un buen ejemplo, en ellos se plantean
escenarios pesimistas sobre la evolución económica y las medidas necesarias para superar
esos entornos adversos.
3. Mala especificación del modelo. Nunca podemos estar seguros de que el modelo especi-
ficado sea una representación precisa del verdadero modelo poblacional, en este sentido
siempre pueden existir sesgos de especificación. Cómo minimizar los sesgos es objeto
de otro tema. La capacidad predictiva del modelo se evalúa elaborando predicciones a
posteriori , o ex post.
Para evaluar la capacidad predictiva del modelo mostramos algunas de las medidas más
usadas:
RECM= (4.5.24)
que no es más que la raíz cuadrada del error cuadrático medio. Su valor dependerá de la
magnitud de la variable pronosticada.
El error medio absoluto es
donde utilizamos el artificio de calcular el error en términos absolutos para que los valores
negativos y positivos no se compensen. Su valor también depende directamente de la magnitud
de la variable.
El porcentaje del error medio en términos absolutos es
n° O ~ O
PEMA = 2_"' yt - yt · 100
nº ~
t=l
y:o
t
que tiene la ventaja respecto de las dos medidas anteriores de no depender de la magnitud de
la variable pronosticada.
La U de Theil o alguna de sus variantes es quizás el estadístico más utilizado para evaluar
Tema4 149
la precisión de la predicción
cuyo valor mínimo es nulo e implica predicción perfecta mientras que su máximo es la unidad,
lo que indica independencia entre la variable observada y la pronosticada.
El error cuadrático medio del numerador se puede descomponer en
nº
nº ~ ( ~o - ~
1 '""' A º) 2= (-Y o - ~-;: º) 2+ (Syo - S-yo )2+ 2 (1- r º) SyoS-y 0,
t=l
donde descomponemos el error en tres partes: error debido a la diferencia entre la media
observada y pronosticada; error debido a la diferencia entre las varianzas y resto de factores. En
consecuencia, podemos calcular el porcentaje del error debido a cada una de estas tres fuentes
de error, siendo r 0 el coeficiente de correlación entre la variable observada y la pronosticada.
El porcentaje de error debido a la diferencia entre las medias es
(?º - Ya
o
r 100. (4.5.25)
1
Ti!i ~
¿_,
(Y:Ot - °f:º)2
t
t=l
El porcentaje de error debido a diferencias entre las varianzas es
2
(Syo - S-y 0 )
o 100. (4.5.26)
1 ~ (Y:Ot - Y:0)2
Ti!i ¿_, t
t=l
Y el porcentaje de error debido a otros factores es
2 (1 - r 0 ) SyoS-yo
o 100. (4.5.27)
1 ~ (Y:ºt - °f:º)2
Ti!i ¿_, t
t=l
·:eamos un ejemplo.
La variable explicada, «cantidad consumida de pan per cápita», está medida en kilos, y
el precio en euros constantes de 2005 (JPC2005 = 1). El modelo explica más del 75 3 de la
cantidad consumida y los dos coeficientes son significativos.
La encuesta continua de presupuestos familiares contiene datos de precios y cantidades
también para el año 2005, de manera que podemos realizar predicción a posteriori para ese
año y evaluar la capacidad predictiva del modelo , al igual que antes la intentamos hacer
sustituyendo en la expresión (4.5.28) los precios que se produjeron en los cuatro trimestres de
2005. Los datos se recogen en la Tabla 4.2.
catT§i!!an
.,
= l1 21 _
'
4 ' 85 (preci°¿an
IP
_ 2 ' 2)
pobl acion (0,1141 ) (0,540214)
(4.5.29)
n = 28, R 2 =O, 7562 , R2 =O, 7468, SCR = 2, 816094,
cuya predicción puntual es el término constante que coincide con el calculado en la Tabla
4.2 a partir de la expresión (4.5.28). Realizando el mismo procedimiento para los otros tres
trimestres y utilizando la expresión (4.5. 13) para establecer un intervalo al 95 3 de confianza
de la predicción media para cada trimestre, los resultados se reproducen en la Tabla 4.3
:Ue de 2,02 euros. La Figura 4.5.1 muestra los intervalos de confianza de la predicción media
e individual de la demanda de pan estimada, expresión (4.5.28), y cómo, a medida que nos
distanciamos del precio medio , los intervalos de confianza aumentan. Podemos representar
gráficamente los verdaderos valores del consumo. la predicción del modelo y las bandas de los
intervalos de confianza de la predicción individual en 2005: esto es lo que reproducimos en la
Figura 4.5.2.
RECM=
que evita el problema de que los valores positivos se compensen con los negativos.
152 ANÁLISIS DE REGR ESIÓN LINEAL. 1 FERENCIA
11 ,2
10,8
10,4 -
EMA = 1 Lt yt - yt nº ~ 1 º ~ ºI = 0, 289.
t =l
n° y:o _}:O
PEMA =~o~
n Lt
t
y:o
t · 100 = 2, 593.
t= l t
El estadístico U de Theil es
n° 2
~ ¿: (rtº - ~º)
u= t=l = 0,3191 - o 0144
--;==n=º===-----.===
n=
0 ===2 11,077+11,114 - ' .
~ I~ (ytº) ~ t~ (~º)
2
+
Puesto que el valor de la U está acotado entre O y 1 y el valor obtenido (0,0144) podemos
evaluar la precisión de la predicción del modelo como muy buena.
También podemos descomponer el error de predicción en tres componentes:
(?º-Ya
o
r
100 = 1,603. (4.5.30)
1 ~ (r:ºt - Y.º)
r¡rJL.....,, t 2
t=l
• Porcentaje del error debido al resto de fact ores o porcentaje de error en covarianza:
2 (1 - r 0 ) SyoSyo
o 100 = 88, 9 0110. (4.5.32)
i '""n ( y:o
r¡rJL.....,, t
~
_ y:ot
)2
t=l
n
L XI
i=l
donde se ha tenido en cuenta que el valor esperado de éi (condicionado a {Xi , X 2, ... , X n})
es nulo por la Suposición 2.
Para el término independiente tenemos
(4.6.1)
y aplicando esperanzas
i=l
L:xz L:xz
i=l i=l
¿ xz ¿
i=l
xz ¿
i=l
xz
haciendo el cambio de variable
ki.-~
- n
L:xz
i=l
tenemos
n n
/31 = L kiYi = /31 + L kiEi,
i=l i=l
es decir que la varianza es
2
X) = E ( /31 - /31 I X) = E (ti X))
2
var ( /31 I ki ( Ei 1
n n
= L kzE (cz X) = cr2 L kf = :
2
1
i=l i=l L: x?
i =l
ya que E(L.kiéi) 2 = E(k1 2c1 2 + k2 2c22+ ... + kn 2 En 2 + klk2c1c2 + ... + kn-1kncn-lén); por
los supuestos de varianza constante E(i:i 2) = cr 2 y no autocorrelación E(ci, éi') = O, para
i # i' se deduce que E(L.kiéi ) 2 = cr 2 L.ki 2 .
A partir de la expresión (4.6.1) tenemos
f: (e:¡¡x)
= E
[
,
( /31 - /31 I X) 2 _
X2+ i=l n + 2 ( /31 - /31 I
,
X) X_ f: (e:;n IX)l
i=l
= +- _x2 + o-
2
=
0-2 (nx2 + t
t =l
x2)
t
0-2 t x2
';:'1 t .
¿ x? n n 'f: x? n L: x¡
i =l i= l i=l
multiplicando a ambos lados por (/31 - f31) y aplicando esperanzas tenemos que
cov (/30./311 x) =JE (/30 - f3ol x) (/31 - 811 x) = -XJE (/31 - f31I x)2
-Xvar (/31 IX) =-X f x;.
2
=
i=l
· llegamos a
Ei = f31xi + (Ei - t ) - /31xi·
:i consideramos la suma de 1 hasta n del cuadrado de la expresión, se obtiene:
i~ ET = i~ [(éi -
2
€) - Xi (/31 - f31)] =
= i~ [ (éi - €)
2
+ XT (/31 - f31 2 (éi - r- €)Xi (/31 - f31)]
= i~ [ (éi - €)
2
+ XT (/31 - f31 2 (éi - r- €)Xi (/31 - f31)]
· tomando esperanzas, implícitamente condicionadas a la variable independiente, obtenemos
JE (t ET)= [t
i=l
JE
i=l
(éi -€) + t xf- 2 (/31-!31) i=l
(/31 -!31) i=l
2
t (Ei - t) x¡]
2
(4.6.5)
[i~ (éi - €) ] +JE (/31 - f31) i~ XT - 2JE [i~ (/31 - f31) (éi - E) Xi] ·
2 2
=JE
JE[t (Ei -
i=l
[.t (ET+
€)
2
] =JE
i=l
€
2
- 2Eit)] =JE [t ET+
i=l
nt2 - 2€ t
i=l
Ei]
[t ET+
=JE
i=l
t nt2 - 2tnn- 1
i=l
éi] =JE [t ET+
i=l
nt2 - 2nt2 ]
el segundo
2 n n 2 n
JE /31 - /31 )
( ' ~
" " xi2 = var (/31 ~
' )" " xi2 = - n- ~
(7 - " " xi2 = ü 2,
i=l i=l
i=l
¿ x; i=l
E (t,ti) = (n- l )a
2
+ a 2 -2a2 = (n- 2)a 2 ,
de manera que definiendo la varianza estimada de los errores como el sumatorio al cuadrado
dividido por sus grados de libertad
n
L: c;
' i =l
ü=--
n- 2
y aplicando esperanzas
donde ki es
Xi
ki = - n- - ·
L: x;
i= l
Tema4 157
Aplicando esperanzas tenemos, donde mantenemos implícito que son condicionadas a la va-
riable independiente:
n n
JE (~1) = L WilE (yi) = /31 L WiXi·
i=l i=l
Y puesto que el estimador alternativo debe ser insesgado, se tiene que cumplir que
n
LWiXi =l.
i=l
u varianza es
n n
var (~1) = L [w[var (Yi )] = o-
2L w[
i=l i=l
y operando tenemos
Por consiguiente, para minimizar la varianza debemos hacer que los términos que dependen
de Wi se anulen, y esto sucede para
Xi
Wi = -n--·
l:x[
i=l
de manera que la varianza es mínima si coincide con la mínimo cuadrática, que es el teorema
de Gauss-Markov.
158 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
EJERCICIOS
Teóricos
l. Disponemos de una muestra de n observaciones para estimar el modelo de regresión
simple Yi = (3xi + Ei· Considere los estimadores:
132 = Yn - Y1.
Xn - X1
4. De una población con distribución normal N (u, 1) se extrae una muestra de tamaño N.
Se propone para la media el estimador lineal 2::~ WiYi, siendo Yi los valores de las N
extracciones. Deduzca en qué condiciones el estimador anterior será insesgado.
Empíricos
7. Emplee de nuevo los datos de la tabla ET4 l. Estime la regresión que relaciona el
salario con educación, experiencia laboral y habilidad.
l
sabiendo que la matriz de varianzas y covarianzas de los estimadores (no se incluye
el término independiente) es,
9. Con los datos de la tabla ET4 _ 2 puede estimarse la ecuac10n (4.4.1) del ejerc1c10
anterior (la escala de la renta disponible es diferente). Emplee los contrastes de ratio
de verosimilitud, Wald y multiplicadores de Lagrange, para contrastar la hipótesis /J3 =
/J4 = O. Compruebe que se cumple la desigualdad M L :S: RV :S: W . En el documento
Apéndices y Tablas se encuentra una sección en la que se trata la relación entre los tres
t ipos de contrastes.
tiempo. Para ello se compara la suma cuadrática residual (SCR) de la regresión obtenida
para todo el periodo con la SCR obtenida de ajustar dos regresiones separadas, una hasta
el momento del cambio y otra diferente hasta el final. La tabla ET4 3 contiene datos
anuales de ahorro y renta en España para el periodo 1954 - 2010. Analice si ha habido
cambio estructural en la función de ahorro en los años 1976 y 1980.
11. Con objeto de estudiar el efecto de la inflación y el déficit gubernamental sobre los tipos
de interés, la tabla ET4 4 recoge datos de estas variables para el periodo 1980 - 2000.
El estimador por MCO y por la técnica MM, b = f3Mco = f3MM, del vector poblacional {3
, como sabemos, una función de la muestra (y , X ). Dado que (y, X) es un vector aleatorio,
-ambién tendrá esa naturaleza el estimador b. Es razonable, por tanto, preguntarse a pro-
;>ósito de las características del estimador b en cuanto a variable aleatoria. Las propiedades
~ tadísticas de la distribución muestra! del estimador MCO dependerán críticamente de los
supuestos que configuren el modelo de regresión. Inicialmente vamos a considerar las pro-
piedades de los estimadores bajo los supuestos que conforman el denominado modelo clásico
de regresión lineal (MCRL). Veremos que es el modelo bajo el cual los estimadores tienen
ierto grado de optimalidad, concepto que tendremos que definir. Este grado de eficiencia nos
nace incurrir en costes no despreciables que lo hacen escasamente operativo en práctica. No
obstante es muy útil comprenderlo como referencia o base teórica de comparación con otros
modelos. En la segunda parte del tema estudiaremos las propiedades del estimador MCO para
un modelo menos restrictivo y más útil en la práctica. Nos referimos al modelo de proyección
lineal (MPL) , que ya presentamos en la Sección 3.2. A lo largo de este tema vamos a consi-
derar que los datos son de sección cruzada, dejando para un tratamiento ulterior el caso de
que los datos sean de naturaleza temporal.
En el marco de la sección cruzada para datos de naturaleza observacional (no-experimental)
como son los datos económicos, y de las ciencias sociales en general, es razonable modelizar
cada observación i como una realización de una función de distribución conjunta F(y , x). De
este modo un supuesto que mantendremos a lo largo de este tema es el que enunciamos como
upuesto de muestra aleatoria (Sección 4.1), y que ahora escribimos en la notación matricial
utilizada en el tema 3:
Suposición 6 . Las observaciones (Y;, xi) son una muestra iid a lo largo
de i= 1, ... , n. Este supuesto es equivalente a la Suposición 3.
161
162 ASPECTOS AVANZADOS: INFERE]'.;CIA EN EL MODELO DE REGRESIÓN LINEAL
independiente de la observación j-ésima (Yj , X j)· Es decir, se trata de una afirmación relativa
a la relación entre las observaciones i y j, no relativa, por tanto, a la relación entre Yi y las Xi·
La distribución «idéntica» significa que proviene de una población con una misma función de
distribución conjunta F(y, x). Cuando esto sucede decimos sumariamente que los datos son
una muestra aleatoria. Este supuesto es común a los modelos clásicos de regresión y al modelo
de proyección lineal. En caso de tratarse de observaciones con estructura de serie temporal el
supuesto equivalente sería el supuesto de «estacionaridad ergódica», que es una versión más
técnica de la Suposición 4. Los términos «estacionaridad» y «ergodicidad» son tratados en el
Tema 13 (Secciones 13.1 y 13.11) 1 11.
LINEALIDAD
(5.1.1)
EXOGENEIDAD
(5.1.2)
NO MULTICOLINEALIDAD P ERFECTA
(5.1.3)
1
En particular, el supuesto requeriría que el vector estocástico {Yi, Xt} fuera un proceso conjuntamente
estacionario y ergódico.
Tema 5 163
:~ ~:
1 Xu xlk
1 X21 X2k
y
(nxl)
[: 1
) é
(nxl)
=
[ 1
,X
(nxK)
[ 1 [ 1 Xn1 Xnk
1,
K = k + 1, {3 =
(Kxl)
r;u
De esta manera el supuesto de linealidad puede reescribirse de forma compacta así:
como resultado de aplicar la Ley de las esperanzas totales 2 . Esta observación no indica
nada sobre la relación entre el término error y los regresores: directamente apunta que
el supuesto de exogeneidad implica que la distribución de los errores tiene media cero.
En realidad este supuesto podría parecer demasiado restrictivo, cuando no lo es. Consi-
deremos el caso más simple de dos variables y supongamos que la media es distinta de
cero, por ejemplo µ -=f. O. En este caso, y dado que incluimos un término constante, el
modelo y = /31 + f32x +E podría reescribirse y = (/31 + µ) + f32x + (E - µ) y evidentemente
y = /3~ + f32x + € 1 que reproduce la forma del modelo original. De modo que siempre
que podamos incluir un término constante. la implicación del supuesto de exogeneidad
sobre la esperanza no condicionada no es restrictiva.
• A partir de (5.1.5) se observa que E (Ei [ X ) =O= E (Ei), lo que supone que la relación
entre las variables explicativas y el término error es de tal tipo que el valor medio de
Ei no depende de los valores que componen X. La esperanza condicionada del término
error y la no condicionada coinciden y son nulas.
• Los regreso res son ortogonales al término error para todas las observaciones
E(xj · Ei) =
:~~~~: ::~ 1 = ÜK x l (para todo i,j = 1, 2, ... , n). (5.1.6)
[ lE (XjK · Ei)
2
Ver Teorema 1, E [E (éi 1 X )] =E (t:i) .
164 ASPECTOS AVANZADOS: INFEREN CIA EN EL MODELO DE REGRESIÓN LINEAL
A partir de la Ley de las esperanzas totales y la linealidad de la esperanza condicionada (JE [h(x)y 1
x] = h(x)JE(y 1 x))
que la matriz de datos es de rango completo, es decir, hay K columnas y son linealmente
independientes. Además el álgebra matricial 4 nos permite comprobar que el rango de X ~
mín(K, n), por lo que implícitamente se está suponiendo que n 2: K; de lo contrario no podría
er de rango K. Dicho de otro modo, necesariamente tiene que haber al menos K observaciones.
Este supuesto también se conoce como condición de identificación. En el caso de un modelo
con dos variables donde una de las cuales es la constante (Y= f31 + f32X +e), este supuesto
indica que necesariamente debe haber variación en la variable x. En caso contrario los datos
hacen que el modelo no sea explicativo dado que en realidad la constante y la variable x están
dando la misma información. Decimos que los regresares de un modelo son perfectamente
colineales si este supuesto no se satisface.
Si ahora consideramos conjuntamente los supuestos del modelo de regresión lineal (Supo-
ición 7) y la Suposición 6, es decir, consideramos que se trata de una muestra aleatoria (iid),
entonces podemos extraer las siguientes conclusiones:
La independencia del supuesto de muestreo aleatorio, junto con el supuesto de linealidad
5.1.1), permite comprobar que
Este modelo se puede completar (y así lo hace la econometría clásica) con un supuesto
sobre la varianza condicionada del término error. El modelo clásico incorpora el supuesto de
errores homocedásticos.
Por tanto, la Suposición anterior asume que el momento condicionado de segundo orden
del error del modelo, que en general es una función no lineal de X , es constante. Ya hemos
hablado en anteriores apartados de otros temas que esta situación es teórica y se presenta
con fines didácticos. Además faci lita mucho las expresiones y los cálculos. Sin embargo , por
didáctica que sea, no es realista en la mayoría de las situaciones prácticas.
Insesgadez Estos supuestos se pueden combinar para obtener algunas propiedades estadís-
ticas del estimador MCO (y MM). Una propiedad interesante es la insesgadez del estimador,
propiedad que ya comentamos en el Teorema 10, y que ahora demostramos.
Inicialmente podemos expresar el estimador MCO de manera que quede explícita su rela-
ción con el error del modelo poblacional:
b = (X'x )- 1 X'(X¡3 + e)
= (X'x )- 1 X'(X¡3 + e)
= ¡3 + (X'x)- 1 X'c);
Por otra parte, la Ley de las esperanzas totales indica que IE[IE(b 1X )] = IE(b ), por lo que
IE(b ) = ¡3.
Y por tanto hemos demostrado el Teorema 10.
La interpretación es que dado un conjunto de observaciones determinado, X , el valor
esperado del estimador del vector de parámetros será el verdadero vector , ¡3. Es más, si
estimáramos b para todas las posibles realizaciones de tamaño n, no solo de y , sino también
de X , en media obtendríamos el verdadero valor.
Tema 5 167
Varianza del estimador MCO En este caso es necesario considerar el supuesto de homo-
cedasticidad para obtener la expresión (4.2.10):
var(f3+(X X)- 1 X 1e 1 X)
1
var(bl X) =
var(f3 1 X)+var(Ae 1 X) (donde A= (X'X)- 1 X')
Avar(e 1 X)A'
(la variable (3 es no aleatoria y constante; A es función de X)
AlE(ee'I X)A' (por la exogeneidad)
= Aa 2 InA' (por homocedasticidad)
a 2 AA'= a 2 (X'X)- 1 X' · ((X'X)- 1 X')'
a 2 (X'X)- 1 donde AA= (X'X)- 1 X'X(X'X)- 1 = (X'X) - 1 .
Observamos que la varianza condicionada del est imador depende de la matriz (X'X) que
recoge los productos cruzados de las variables explicativas y de un escalar . por lo que en
realidad la varianza condicionada del estimador b es una matriz no trivial de orden K x K
que crece proporcionalmente con el escalar a 2 , y que claramente depende de las observaciones
contenidas en la matriz X ; en particular está directamente relacionada con la inversa de la
matriz X'X.
168 ASPECTOS AVANZADOS: INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL
A partir de la varianza condicionada del estimador :v!CO es posible analizar qué factores
determinan la precisión del estimador b. Inicialmente se observa que la precisión depende de
2 2
1J y de X. Para ver la relación entre 1J y var(b 1 X) , consideremos que tenemos dos modelos
referentes a dos poblaciones que únicamente difieren en el parámetro de varianza IJ~ < IJ1.
Estadísticamente la comparación entre dos varianzas se hace en términos de eficiencia rela-
tiva. Un estimador relativamente eficiente será aquel para el que cualquier combinación lineal
de los paramétros considerados tenga la menor varianza. Esto significa que var(bAj) :::;; var(bBj)
para cada j = 1, 2, ... , K y esta desigualdad debe persistir para cualquier otra combinación
lineal posible, es decir, para cualquier vector e E ~K, var(c'bA):::;; var(c'bB)·
En el caso que nos ocupa de los dos modelos poblacionales y sus estimadores MCO, resulta
que la diferencia
N · var(X2) ·
Es evidente que para un tamaño muestral dado, la eficiencia mejora relativamente cuanto
mayor sea var(X2). Lo mismo sucede si aumentamos el tamaño muestra! (suponiendo una
varianza determinada para la x2). Este resultado es absolutamente esperable, toda vez que
indica que cuanto mayor sea la información (en términos de observaciones de la población).
mayor precisión tendrá el estimador. De lo contrario , la calidad del estimador quedaría en
entredicho.
6
Recuérdese que var(y 1 X) = var(X,B + é 1 X) = var(é 1 X) = o- 2 In
7
Este resultado se obtiene directamente a partir de invertir (X ' X) = [ °"'
L.
n
X2;
L X2i ]
2
LX2;
y de sacar factor
Demostración. Podemos escribir /3 = Cy dado que es lineal en y, donde C es una matriz que posi-
170 ASPECTOS AVANZADOS: INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL
{; = (D + A)y = Dy + Ay
D(X/3 + e )+ A (X(3 +e)
DX(3 +De+ (3 + Ac [porque AX = O]
(3 + DX(3+ (D + A) e [dado que hemos reordenado].
Ahora bien, dado que el estimador f; debe ser, por el enunciado del teorema, insesgado, entonces ha
de suceder que la matriz D sea tal que DX =O. Así el estimador puede expresarse
por lo que /3 - (3 = Ce. y por tanto su matriz de varianzas y covarianzas condicionada será
A A I
var(/3 1 X) = IE[(/3 - (3)((3 - (3) 1 X]
IE[(Ce) (Ce)' 1 X]
CIE[u' 1 X ]C' (porque Ces función de X]
(D + A) cr 2 1 (D + A )' [por definición de C y por homocedasticidad]
= cr 2 (DD' + AA' + AD' + DA').
La matriz cuadrada producto DA'= DX(X'X)- 1 = O dado que, como se ha comprobado, Des tal que
DX = O; así, (DA')'= AD'= O. Por otra parte es inmediato obtener que el producto AA' = (X'X)- 1 ,
por lo que
1
var(f; 1 X) = cr 2 (DD' + (X ' X )- )
o
El teorema anterior también es aplicable a la varianza no condicionada. Nos interesamos ahora
por la varianza no condicionada del estimador MCO b. En general, el objetivo es relacionar
términos condicionados sobre los que se cumple el teorema de Gauss-Markov con términos
no condicionados. En particular, primero establecemos una forma alternativa de calcular la
var(/3) : observamos inicialmente que se trate o no de un estimador insesgado. Podemos
expresar la discrepancia entre el estimador y su valor esperado de la siguiente manera en la
que solo hemos sumado y restado el término JE(/3 1X )
donde hemos definido a= (/3-JE/3). Del mismo modo definimos, por claridad notacional,
d ¡3 - JE(/§ 1X)
e - JE(/3 1X)-JE/3
aa' (d + e) (d + e)'
dd' +de' +cd' +ce', (5.1.10)
elementos necesarios para calcular JE[aa']. Consideramos inicialmente JE(dd'), sobre la que
tomamos esperanzas no condicionadas
es decir, la esperanza no condicionada de la varianza condicionada. Por otra parte la JE( ce')
está relacionada con la varianza de la esperanza condicionada, como vemos a continuación
JE(cc').
Finalmente se deja como ejercicio analítico comprobar que cd' = O = de', lo que permite
expresar cualquier varianza del modo siguiente
Por una parte, este resultado indica que la varianza no condicionada del estimador MCO se
describe en términos del comportamiento en media de X. Es decir, a partir del comportamiento
de la varianza condicionada a X es posible tomar esperanzas (medias) para todas las posibles
172 ASPECTOS AVANZADOS: INFERE NCIA EN EL MODELO DE REGRESIÓN LINEAL
X estableciendo un resultado no condicionado. Por otra parte, a partir del resultado anterior
podemos extender el teorema de Gauss-Markov al caso no condicionado fácilmente. El teorema
establece que var(,B 1 X) 2 var(b 1 X) para cualquier X compatible con las condiciones del
teorema, por lo que también debe satisfacerse para el valor( es) medio(s) de X , así resulta que
de donde podemos apreciar cómo es var(ei 1 X) en relación con u 2 . Para ello seleccionamos un
elemento cualquiera del vector de residuos que denotamos como ei y obtenemos la expresión
de su varianza (que es un escalar)
(5.1.13)
Es manifiesto, a partir de esta expresión, que en general la varianza calculada para el residuo
~1CO será distinta de la varianza del error de la observación i-ésima. A priori, la diferencia
erá menor o mayor que la varianza del error correspondiente en función del signo y del valor
que tome el producto x~(X'X)- 1 xi. Este término es el elemento i-ésismo de la diagonal de P.
La matriz de proyección P es una matriz semidefinida positiva por lo que cualquier elemento
de la diagonal será positivo o nulo. Es posible decir algo más sobre este elemento. A partir, de
P podemos reescribir x~(X'X)- 1 xi como e~Pei, siendo ei un vector de dimensión n de ceros
excepto en la posición i-ésima que toma valor unit ario. Algebraicamente obtenemos
Se observa que tanto var(Xbl X ) como var(el X) son, en general, matrices no escalares
y que ambas son proporcionales a las matrices de proyección ya conocidas. Por ejemplo, la
matriz Xb está formada por elementos que están correlacionados toda vez que cada elemento
de la matriz Xb = Py es una combinación lineal de los elementos de y , y por tanto, pese a
estar y formada por elementos no correlacionados, una combinación lineal de los mismos sí lo
174 ASPECTOS AVANZADOS: INFEREN CIA EN EL MODELO DE REGRESIÓN LINEAL
estará. Este mismo razonamiento es aplicable a las matrices (y - Xb) y b , justificando, por
tanto, el hecho de que estas matrices sean no escalares.
Hechas estas precisiones a propósito de la relación entre residuos y errores, es natural
pensar que los residuos estimados MCO pueden ser análogos a los errores, y usarlos para
estimar a 2 . En caso de que pudiéramos observar realmente los errores, el estimador natural
de la varianza del término error se formaría a partir del cuadrado de los errores, esto es
e' e = ¿~ 1 Ef. Así, en media, esta suma de cuadrados será, bajo los supuestos del modelo,
JE( e' el X)
i =l
n
Lª2 = na2.
i =l
Dado que el supuesto de exogeneidad permite observar que var(e 1 X) = JE(e'e 1 X), se
tiene que el estimador insesgado de la varianza sería JE(e' e 1 X) / n. Sin embargo, en realidad
no observamos los errores, tan solo podemos usar los residuos. Si reemplazamos el inobservable
e'e por el observable e'e, obtendríamos un estimador de la varianza basado en los residuos
MCO. A partir de (5.1.13) se comprueba que la esperanza en este caso sería necesariamente
diferente. De hecho, recordemos que el vector e se obtiene a partir de b y es el vector de
residuos _mínimo cuadrático, de modo que para cualquier otro valor estimado de e (resultado
de otro /3 -1 b) la suma cuadrática de ese otro estimador será mayor o igual que la conseguida
por MCO. La suma cuadrática será menor que la obtenida para el verdadero /3 , esto es
Por lo tanto,
lE(e'e 1 X) :S JE(e'el X),
1 1
-JE(e'e 1 X) :S -lE(E1E 1 X)= a 2.
n n
El objetivo por tanto es construir un estimador insesgado, pues el que tenemos por el mo-
mento tiene un sesgo negativo (subestima) como acabamos de comprobar. A tal fin analizamos
Tema5 175
n n
L L mijJE (EiEJI X) (al ser M función de X)
i=l j=l
n
L miiJE (EiEil X) (por la Suposición 5.1.9)
i=l
n
a2 L mii = a Traza(M).
2
i=l
De esta manera bastaría dividir JE(e'el X) entre la traza de la matriz de proyección M para
obtener un estimador insesgado de los errores. Afortunadamente, dadas las especiales ca-
racterísticas de la matriz M , es sencillo calcular dicha traza. Recuérdese que, por definición,
M = In- P por tanto, Traza(M) = Traza(In-P) = Traza(In)-Traza(P) = n-Traza(P).
Por definición se tiene que P = X(X'X) - 1 X' y entonces
82 =~ SCR (5.1.16)
n-K n-K
Particularmente, y a modo de ejemplo , Vai-(bk) = [s 2 (X'X)- 1]kk , donde en este caso [A]kk
indica el elemento de la diagonal principal de cualquier matriz A.
En segundo lugar, y relacionado con la primera observación, destacamos que mientras que
s es un estimador insesgado de a 2 , no sucede lo mismo con s. Es decir, s no es un estimador
2
insesgado de a, toda vez que la raíz cuadrada es una operación no lineal. Habitualmente
nos referiremos a [var(bk)]112 como «error estándar de bk» , es decir, el error estándar del
estimador bk.
En tercer y último lugar, es inmediato comprobar que es posible calcular el error estándar
para todos los parámetros del modelo, lo que es sin duda muy interesante para posteriormente
contrastar hipótesis o construir intervalos de confianza. Las próximas secciones se dedican
precisamente a esta cuestión.
Este supuesto completa lo que denominamos modelo clásico de regresión lineal (MCRL),
que en el Tema 3 denominamos modelo homocedástico de esperanza condicionada li-
neal con normalidad en el error.
La sección 4.3 usamos el supuesto de normalidad de los errores que completa los supuestos
sobre el primer y el segundo momento de las variables.
Como sabemos por la Ecuación (3.4.13), en realidad el estimador MCO de parámetros, b,
es una combinación lineal de los términos del error más una constante. Lo mismo sucede por
lo tanto con Xb y con e. Resultado que incorporamos en la siguiente proposición
Tema 5 177
Teorema 21. Bajo los supuestos recogidos en las Suposiciones 1 y 8 y la normalidad del
término error (e 1X"'N(O, 0" 2 In))
2 1 2 2
8 f'V--CT "'X (n - K).
n-K
Por un lado observamos que los grados de libert ad están en sintonía con el hecho de que
utilicemos los residuos, y no los errores, para estimar la varianza. Si pudiéramos observar los
errores del modelo, y dado el supuesto de normalidad de estos, se tendría que ;"'N(O, In)
,. en consecuencia ~; se distribuiría como una chi-cuadrado con n grados de libertad. Por
otro lado, esta proposición establece que las distribuciones marginal y condicionada de 8 2 son
idénticas dado que la distribución de 8 2 dado X no depende de X. Sin embargo, esto no ocurre
con las distribuciones de b, Xb y e.
178 ASPECTOS AVANZADOS: INFEREN CIA EN EL MODELO DE REGRESIÓN LINEAL
de donde observamos que es una función de (X, e) y además es lineal en e. Como ya hemos
indicado en el epígrafe anterior, bajo el supuesto de normalidad sobre el término e, y dado que
la combinación lineal de distribuciones normales 8 es también una normal, el error muestra!
(errores de muestreo) también se distribuirá como una normal. Por tanto
(5.1.18)
que, como vemos, hemos obtenido sin especificar cuál es la distribución conjunta de (X , e).
8
Ver Apéndice técnico (Sección 5.5).
Tema5 179
9
Ver Apéndice técnico (Sección 5.5).
180 ASPECTOS AVANZADOS: INFERE~C IA EN EL MODELO DE REGRESIÓN LINEAL
Teorema 23. Según el modelo clásico de regresión lineal (MCRL) caracterizado po-
los supuestos recogidos en las Suposiciones 7 y 8 y la normalidad del término erro-
(e 1 X "'N(O, a 2 In)), el estadístico tipo-t siguiente
(bk -{32) f;
.¡0"2[(X'X)-1]k,k sz
Zk
V(~) /(n - K)
El cociente entre una variable N(O, 1) y la raíz de una variable chi-cuadrado dividida entre sus corre5-
pondientes grados de libertad tiene, por definición, una distribución t con dichos grados de libertad.
siempre que las variables del numerador y del denominador sean independientes. Respecto del nume-
rador de la última igualdad, zk, hemos mostrado que es una N(0,1). Por otra parte, el denominador
contiene a (~),por lo que a partir del Teorema 22, resulta que ( ~) ,..., x2 (n - K). Solo resta com-
probar que el numerador y el denominador son variables aleatorias independientes, dado X. Para ello
obsérvese que Zk depende de b , mientras que ( ~) dependen de e. by e se distribuyen condicionadili:
en X como una normal conjunta dado que b y e son funciones lineales de e .
Bajo normalidad, dos variables no correlacionadas son independientes (ver Apéndice técnico, Sec-
ción 5.5). En realidad este es el caso, ya que cov(b, e [ X) = O como mostramos a continuación:
Algo que intuitivamente en el Torema 21 pudimos comprobar: que los residuos MCO no son
informativos sobre los parámetros de regresión /3. Por tanto, dado que Zk es función de b , y ( ~) es
función de e, siendo b y e independientes entre sí, entonces también lo son el numerador y denominador
de tk = z .
J(~)/(n-K)
o
Tema 5 181
lo que es equivalente a
En muchas ocasiones, como hemos visto , resulta útil o pude interesar contrastar más
de una restricción lineal. Supongamos que deseamos contrastar r :S K restricciones sobre
los coeficientes de los regresares del modelo (por ejemplo en la página 133 consideramos que
r = q). Estas restricciones, que configurarán la hipótesis nula, Ha , podemos siempre escribirlas
a través de un simple sistema de ecuaciones lineales:
donde R y r toman valores previamente especificados de acuerdo con la hipótesis nula. Por
ejemplo, si queremos contrastar que dos parámetros son iguales, digamos los dos último
f3K = f3K-1, y que un tercer parámetro (f3K-2) toma valor cero, en tal caso tendríamos que
o .. . o 1 -1 ]
R [ o .. . 1 o o
r
[~ ]'
por lo que. en general, R será una matriz de dimensiones (número de restricciones) x (número
de parámetros del modelo) , que denotamos por (r)x(K). Es evidente que r coincide con el
rango de la matriz R , ya que de lo cont rario habría ecuaciones redundantes.
U na vez que hemos establecido cómo son las restricciones vamos a construir un test esta-
dístico que tenga una distribución exacta bajo la hipótesis nula descrita en (5.1.20).
A partir del Teorema 21 se tiene que bajo Ho: R¡3 = r,
por lo que sería posible, a priori, construir un test si reemplazáramos o- 2 por la varianza
estimada s 2 . La siguiente proposición recoge dicho resultado.
Tema 5 183
donde por simplificar la notación hacemos que w = (Rb - r)' [CT 2 R(X'X)-
1
R'J- 1 (Rb - r). Por el
Teorema 22 sabemos que ( , ) 1 X,.._, x2 (n - K). Falta por comprobar (a) que w 1 X '""X 2 (r) y (b)
que ( , ) y w se distribuyen independientemente condicionados por X.
Resultado (a): bajo H 0 : R/3 = r , resulta por la expresión (5.1.21) que Rb - r se distribuye como
una normal con media O, y
var(Rb - rl X)= CT 2 R(X'X)- 1 R ',
por lo que podemos reescribir w = (Rb - r)' [var(Rb - r 1 X)J- 1 (Rb - r) que es una expresión que
1
-urna r normales al cuadrado, al ser R (X'X)- R' una matriz cuadrada de orden r. Por tanto w 1
X '""X2(r).
Resultado (b ): ya probamos para la Ecuación (5.1.19) que utilizando el supuesto de normalidad,
b y e se distribuyen condicionados por X de forma independiente. Dado que w es una función de b y
( , ) lo es de e, queda probada la independencia entre los dos.
La definición de una distribución F como cociente de dos variables aleatorias distribuidas como chi-
cuadrado, divididas cada una de ellas por sus respectivos grados de libertad. concluye la demostración.
o
En este caso el test o contraste es de una sola cola. Si la hipótesis nula es verdadera,
entonces Rb - r = R (b - ,8) tenderá a tomar valores pequeños haciendo que el numerador
de (5.1.22) sea también pequeño, y por tanto un valor alto del test F sería indicativo de un
rechazo de la Ho. La regla de decisión es por tanto rechazar la hipótesis nula si el valor que
toma el estadístico F es superior al valor crítico asociado al nivel de significación determinado
de antemano.
184 ASPECTOS AVANZADOS: INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL
La obtención del f3 que satisface el problema anterior se denomina mínimos cuadrados res-
tringidos o regresión restringida. Denotaremos por /3
al estimador restringido del parámetro
resultado de resolver la Ecuación (5.1.23). A los efectos de solventar este problema formaremos
el Lagrangiano correspondiente a la optimización restringida
- 1 - 1- - / -
L(,6, ,\) = 2y'y - y'X,6 + 2'{3'X'X,6 + ,\ R,6 - A'r,
derivando e igualando a cero se obtiene que los estimadores restringidos serán los /3 que
satisfagan las ecuaciones
8L({3, ,\) 1
O{::} -X'y + X'X/j + R ,\=O
af3
1
{::} /3 = (X'Xf X'y - (X'X)- 1 R
1
,\ (5.1.24)
8L([3, ,\)
O {::} R/j - r = O
é),\
de modo que premultiplicando la expresión (5.1.24) por R y usando la segunda ecuación (la
restricción en sí) se tiene que
1 1
r R/:J = R (X'Xf X'y - R (X'X )- 1 R ,\
1 1
{::} r = Rb - R(X'X)- R ,\
1
{::} (Rb- r) = R(X'X) - 1 R ,\
1
{::} ,\ = [R(X'X)- 1 R ]-
1 (Rb - r),
(Y - x~)' (Y - x~)
[Y - Xb +X (b- ~)]'[Y - Xb +X (b- ~)]
[e+x(b-~)J' [e+x(b-~)J
e'e + (b- ~)' (X'X) (b- ~) (pues e'X =O)
:- por tanto la diferencia entre la suma del cuadrado de los residuos restringidos, SCRR, y la
-urna de cuadrados no restringidos, SCRNR, será (ver por ejemplo 3.4.8)
(b - ~) I X'X ( b - ~)
[(x'x)- 1 R
1
[R(X'X)- R
1
r
1
1
(Rb- r)J' X
1 1
(X'X) [(X'X) - R [R(X'X)- 1 R']- 1 (Rb- r)]
A menudo estamos interesados en contrastar la significatividad general del modelo , esto es,
si las variables explicativas resultan en su conjunto estadísticamente significativas. Veremos
que es posible mejorar la evaluación estadística de la bondad del ajuste al poder relacionarla
con un contraste estadístico.
11
Utilizar el test de F según (5.1.26) implica realizar dos regresiones (una con las restricciones activas y
otras sin ellas) , guardar los residuos y calcular el ratio descrito por (5.1.26). En cambio , en el caso del contraste
(5.1.22) solo es necesario la regresión no restringida.
186 ASPECTOS AVANZADOS: INFERE NCIA EN EL MODELO DE REGRESIÓN LINEAL
Dado que la forma más general de contrastar un conjunto de hipótesis sobre un modelo
es a partir del test de la F presentado ant eriormente, el primer paso será expresar la hipótesis
nula en los términos que venimos usando (R,B = r ). El modelo no restringido será el modelo
con una constante habitual, y = X,B + E
...
1
1
X12
X22 ... X1K
X2K 1 ~l. 1+ [ .
f32 E2
E¡
.. ..
1 Xn2 XnK f3x En
nxl n xK Kxl nxl
mientras que el restringido será exactamente el mismo, esto es y = Xf3 + E, solo que sujeto a
la restricción descrita a continuación:
( O(K-l ) xl l x
(K-l)x(K)
-1 z1
f31
= r = O¡K-l)xl (5.1.27)
Kxl
El estimador MCO no restringido ya es el bien conocido b = (X'X)- 1 X'y. Por otra parte,
el estimador MCO restringido por la condición de la Ecuación (5.1.27) será aquel /3 que cum-
pliendo la restricción (es decir, R/3 = O) minimice la suma cuadrática de los residuos. Cumplir
la restricción implica que ~2 = ~3 = · · · = ~K = O, por lo que quedaría únicamente estimar
por MCO el parámetro (31 que como sabemos es y para un modelo con constante. Así resulta
que f3 =[ y O · · · O ]'y por tanto para esta restricción se tiene que X/3 = [ y y · · · y ]'
y en consecuencia
1
SCRR = (y - x/3) (y - x/3) =(y - y)'(y - y). (5.1.28)
(y - y)' (y - y) = _ e'e
1
(y -y)'(y - y ) (y -y)'(y -y)
SCRR - SCRNR = 1 - SCRNR.
(5.1.29)
SCRR SCRR
Tema 5 187
Usando esta nueva expresión del R 2 podemos desarrollar F del siguiente modo
(SCRR - SCRNR) (n - K)
F = (5.1.30)
SCRNR r
(SCRR - SCRNR) / SCRR (n - K)
(5.1.31)
SCRNR/SCRR r
(y-y¿' (y-y¿
(y-y)1 (y-y ) (n - K)
= e'e r
(5.1.32)
(y-y) (y-y)
R2 (n-K)
= 1- R2 r
(5 .1. 33)
(SCRR - SCRNR) (n - K)
F = (5 .1.34)
SCRNR r
(y - y)'(y - y)[(l - Rk) - (1 - RJvR)] (n - K)
(5.1.35)
(y - y)'(y - y)(l - R'JvR) r
R'Jv R - Rk (n - K)
(5.1.36)
1 - RJvR r
que expresa otra forma equivalente de realizar el contraste de la F para cualquier conjunto de
restricciones lineales. De hecho, en el caso de la restricción de significación global (5.1.27) será
188 ASPECTOS AVANZADOS: INFERE NCIA EN EL MODELO DE REGRESIÓN LINEAL
un caso particular de este último resultado. Así, bajo la hipótesis nula del modelo restringido se
=
tiene (5.1.28) y por tanto R1 [1 - (SCRR)/(y - y)'(y - y)] =O, por lo que (5.1.36) queda
reducido a (5.1.33).
Habitualmente cuando se presentan los resultados de una regresión aparece el valor del
parámetro estimado junto con el valor del estadístico t que se usaría para contrastar la nula
de fJk = O. Así cuando el valor del estadístico t es mayor (en valor absoluto) a ta; 2 ( n - K) a
un nivel de significación a, suele igualmente decirse que el parámetro fJk es significativo y por
tanto lo es la variable económica asociada a este. Esto sucede para cada parámetro estimado.
A la hora de interpretar los resultados globales de la regresión, uno puede verse tentado
de realizar comparaciones entre los distintos estadísticos t obtenidos para el conjunto de va-
riables explicativas del modelo planteado. Sin embargo, cualquier inferencia de este tipo es
estadísticamente arriesgada y por tanto posiblemente poco adecuada. Esto es así fundamen-
talmente porque los estadísticos t obtenidos a partir de la regresión se distribuyen de forma
dependiente 12 . Obsérvese que todos los tests t comparten el término s en el denominador, y
de esta manera los tests estadísticos t están dando información relacionada.
Por otra parte, cuando se realiza un contraste de hipótesis mediante un test t solo está
activa una restricción sobre uno de los parámetros, dejando sin restringir el resto de paráme-
tros. En cambio cuando se realiza un contraste de hipótesis sobre dos o más parámetros están
activas dos o más restricciones. De ahí claramente se deduce que no es lo mismo realizar dos
o más contrastes sobre dos o más parámetros mediante dos (o más) tests tipo t que realizar
un contraste de dos (o más) restricciones con un test tipo F.
Esto explica el que con frecuencia nos encontremos con situaciones en las que un parámetro
o variable resulta significativa, es decir, el contraste de la t rechaza la nula de fJk = O, y sin
embargo, dicha variable considerada junto con otra u otras en su conjunto resulten todas no
significativas. Esto último equivale a que cuando utilizamos el contraste de la F, la hipótesis
nula fJk-l = fJk = f3k+1 =O no sea rechazada, por lo que el grupo de variables [Xk-1, Xk , Xk+1]
serían conjuntamente no significativas.
Una vez que sabemos que cuando se contrastan hipótesis de dos o más restricciones los
resultados de realizar dos o más contrastes de la t y los de realizar un contraste de la F no
son equivalentes, es preciso indicar que el test indicado para contrastar varias restricciones
es el test de la F. Hay varias razones que lo justifican. La primera de ellas y más obvia
es, como hemos indicado antes, que solo el test de la F está contrastando significatividad
conjunta, mientras que aplicar varios tests de la t no es exactamente equivalente a contrastar
conjuntamente dichas restricciones. Por otra parte y de un modo muy intuitivo podemos
observar que si realizamos, por ejemplo, un contraste de hipótesis de dos restricciones con dos
tests t a un nivel a cada uno, el contraste de ambas restricciones ya no será a, mientras que
el test de la F nos permite ajustar perfectamente el tamaño del test (nivel a).
No obstante, hay un caso en el que el contraste de la t y de la F son exactamente iguales.
12
Esto se puede ver intuitivamente en la expresión4.3.41
Tema 5 189
R= [O ··· 1 .. . O] r = [!32] ·
En este caso el test (5. l. 22) será
es decir, el cuadrado de una t - student(n - K) , que es, por la definición de ambas distribu-
ciones, precisamente una F(l , n - K).
Adicionalmente, podemos comprobar intuitivamente que a medida que el número de res-
tricciones disminuye, marginalmente el valor que toma el test F aumenta, y por tanto tiende
a aumentar la potencia del contraste (esto es. Pr{ F > F(r, n - K) 1 H o es falsa}). Dicho en
otros términos, cuando se trata de una sola restricción el test de la t (equivalente al F) es el
test o contraste más potente de una restricción.
Las propiedades de este modelo se introdujeron en la Sección 3.2, junto con las propiedades
de la función esperanza condicionada. La media condicionada es el mejor predictor de Y entre
odas las funciones de x , pero su forma funcional es generalmente desconocida. Recordemos
que el modelo de proyección lineal (MPL) se inspira precisamente en definir aquella apro-
ximación lineal a la función de esperanza condicionada que tenga el menor error cuadrático
medio entre todos los posibles predictores lineales.
Para poder definir el modelo de proyección lineal se necesitan las condiciones de regularidad
indicadas en la Suposición l. Si estas condiciones se satisfacen, entonces las propiedades
desarrolladas en el Teorema 8 se satisfacen automáticamente. Esto constituye uno de los
atractivos o ventajas del modelo de proyección lineal, pero no es el único.
En el apartado anterior hemos derivado la media y la varianza del estimador MCO en el
contexto del MCRL. La distribución muestral de b , el estimador MCO, depende, como hemos
tudiado anteriormente, de la función de distribución conjunta (Yi, xi) y del tamaño muestral
ri. En la práctica totalidad de los casos esta función es extraordinariamente complicada, de
modo que no es posible calcular analít icamente la función exacta de distribución del estimador
~1CO. Una alternativa muy potente consiste en ut ilizar métodos de aproximación. El método
más conocido, pero no el único en la actualidad, es el fundamentado en la teoría asintótica, el
cual aproxima las distribuciones muestrales utilizando para ello el comportamiento límite de
190 ASPECTOS AVANZADOS: INFEREN CIA EN EL MODELO DE REGRESIÓN LINEAL
las distribuciones muestrales finitas cuando el tamaño muestral n crece todo lo que deseemos.
Las herramientas fundamentales de la teoría asintótica que necesitamos son las Leyes de
grandes números (LGN), los Teoremas centrales del límite (TCL) y un teorema de preservación
de ciertas propiedades para funciones continuas.
Las condiciones del MCRL bajo las que hemos derivado algunas propiedades del estimador
MCO para muestras finitas son tal vez excesivamente exigentes, claramente si las comparamos
con las condiciones del MPL. De este modo podemos decir que desde el punto de vista práctico
u operativo es más versátil la aproximación lineal planteada en el MLP. Un aspecto relevante
es saber si la teoría desarrollada para el MCRL es válida para el MPL. La respuesta es
evidentemente negativa. No obstante, los resultados asintóticos para el MCRL son igualmente
aplicables en el MPL.
Dado que el MPL es aplicable a casos muy generales, una forma alternativa de entender el
MLP es observar que lo que estimaríamos por MCO en caso de que algunos de los supuestos del
MCRL no se satisficieran (salvo el supuesto de muestra iid), sería precisamente la proyección
(estimación) que mejor combina linealmente las variables que hemos llamado «explicativas»
para «predecir» la variable dependiente. Tal combinación lineal es justamente la que nos
proporciona el estimador MCO. Recordemos en este sentido que el mejor predictor siempre
es la función esperanza condicionada, pero el «mejor predictor lineal» de Y dado x será
= x'{3 ,
que ya indicamos en el Teorema 8. Este predictor además tiene la ventaja de que solo requiere
conocer los segundos momentos de la distribución conjunta (Y, x). Veremos en esta sección
que el estimador consistente de los coeficientes del MPL coincide con el estimador MCO en
el MCRL, b = (X'X)- 1 X'y.
l. Mostrar que el estimador MCO puede escribirse como una función continua de un con-
junto de momentos muestrales.
2. Usar una Ley de grandes números (LGN) que nos permita verificar que los momentos
muestrales convergen a los poblacionales.
3. Utilizar un resultado técnico que nos garantice que las funciones continuas preservan la
convergencia.
Tema 5 191
El primer paso es sencillo y consiste simplemente en reescribir el estimador MCO del modelo
de proyección b (bn) del siguiente modo
bn = t
(~ XiX~)-l (~ Xi Y)
1=1
t
1=1
(5.2.1)
o bien
(~x'x )- (~x'y).
1
bn =
Observemos que cada uno de los términos del producto está calculando promedios. Los
promedios (medias) son el objeto principal de las Leyes de grandes números. En segundo
:ugar, es evidente que es preciso saber qué es una LGN .
, p r (IZn
1im - µ I 2: é
) ::::; l'im var(zn) = 1im
, 21 21 Ln var (Zn ) = , -a-2 = O.
1im
n--+oo n--+oo é2 n--+oo é n ne 2
n--+oo
i=l
13
En el Apéndice técnico (Sección 5.5.2) , damos la definición .
192 ASPECTOS AVANZADOS: INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL
Esta LGN débil requiere que existan el primer y segundo momentos muestrales, pero se puede
hacer otra demostración más extensa (ver Sección 5.5.3) en la que en realidad solo se necesita
la existencia del primer momento.
Las condiciones del MPL contemplan que (Yi, xi) sea una muestra aleatoria, pero ¿cual-
quier función (Yi, xi) será también iid. En particular, ¿lo serán (xix~) y (xi Yi)? Para responder
podemos utilizamos el siguiente resultado.
Proposición 3. Sea g : JRk ---+ IR1 una función continua. (i) Sean Zt y Z 7
tales que se distribuyen idénticamente, entonces g (Zt) y g (Z 7 ) se distri-
buyen idénticamente. (ii) Sean Zt y Z 7 variables independientes, entonces
g (Zt) y g (Z 7 ) son independientes.
Tema 5 193
Demostración. (i) Sea St = g (Zt), ST = g(ZT). Sea A= [z: g (z) ::; a ]. Entonces Ft(a) = Pr(St ::;
a)= Pr(St E A) = Pr (ST E A) = Pr(ST ::; a) = FT(a) para todo a E JR1. Por tanto, g (Zt) y g(ZT) se
distribuyen idénticamente.
(ii) Sea A1 = [z : g (z) ::; a1J,A2 = [z : g(z) ::; az]. Entonces definimos FtT(a1 , a2) = Pr(St ::;
a1, ST::; a 2) = Pr(St E A1, ST E Az) =
= Pr(St E Ai) Pr(ST E Az) = Pr(St::; a1) Pr(ST::; a2) =Ft(a 1)FT(a2) para todo a1, a2 E 1R1. Por
tanto, g (Zt) y g (ZT) son independientes.
o
Por lo tanto, la Proposición 3 nos permite concluir diciendo que (xixD y (xi Yi) serán también
variables iid. Por el Teorema 8, estas dos variables tienen además medias (esperanzas) finitas
existen sus medias poblacionales) , de manera que entonces estamos bajo las condiciones del
Teorema 25 , y sucede que cuando n-+ oo,
(5.2.2)
y
1 n
-L X iYi 1+ lE (xili).
n i=l
En la expresión (5.2.1) del estimador b tenemos una función de estos dos últimos prome-
dios. La pregunta ahora es saber si esta función preserva la convergencia en probabilidad. El
iguiente resultado nos indica que la convergencia en probabilidad se mantiene siempre que
la función sea continua.
b= :Exx :Exy'
donde :Exx = (~ I::~=l xixD, ~xy = (~ I::~ 1 xili). La función será continua en aquellos
puntos en los que exista la inversa ~xx· Las condiciones de regularidad de la Suposición 1
garantizan la existencia de :Exx , a la que converge en probabilidad, y la existencia de su
inversa (ver Teorema 8). De este modo hemos probado el siguiente resultado
194 ASPECTOS AVANZADOS: INFERENC IA EN EL MODELO DE REGRESIÓN LINEAL
b -4 {3 ,
o bien
plim( b ) = {3.
o bien
b = {3 + Op(l).
Las tres expresiones son maneras alternativas de indicar formalmente que el estimador ~
consistente. Todas ellas indican lo mismo, que el estimador MCO (b , o de modo equivalente
bn) converge en probabilidad hacia {3 a medida que el tamaño muestral crece, y por lo tant
el estimador MCO es consistente.
lím Fn(z) = F( z ),
n-too
iendo Fn(z) la función de distribución conjunta del vector aleatorio z . En este caso, y a dife-
rencia de otros tipos de convergencia, la convergencia elemento por elemento del vector Zn no
implica necesariamente que converj a para la sucesión de vectores Zn. Es decir , si cada elemento
de Zn converge en distribución al correspondiente elemento del vector z , no necesariamente
implica que Zn ~ z , que como hemos dicho hace referencia a la distribución conjunta. El
-iguiente ejemplo puede ayudar al lector.
Zn = ( z2: ,. ., N
Z1 ) ( ( Ü )
o '
( 1
(-1r/2
r
( -1 / 2 ) ) .
1
en este caso es evidente que z1n,..,,, N(O, 1) y que z2n,..,,, N(O, 1), en cambio Zn no converge en
distribución.
Esta proposición indica que para mostrar convergencia conjunta en distribución es sufi-
ciente que cada combinación lineal de Zn converja.
Por otra parte, la convergencia en probabilidad significa (de un modo vago) que la su-
cesión de variables aleatorias Zn y z acaban siendo prácticamente iguales en valor numérico.
).Iientras que la convergencia en distribución no implica esto, solo implica que las funciones
de distribución de Zn y z son asintóticamente similares.
196 ASPECTOS AVANZADOS: INFERENCIA E 1 EL MODELO DE REGRESIÓN LINEAL
Ejemplo 18. Sea Xn una variable aleatoria tal que Xn ..:!:+ x. A partir de la distribución de x ahora
reemplazamos x por una muestra aleatoria e independiente de la misma que denominamos z. En
este caso resu 1tará que Xn
d x
--+ y que Xn
d z. Ah ora b'1en, s1.
--+ Xn
d x 1mp
-t . 1·1cara que P
Xn ....::.+ x,
entonces Xn ..:!:+ z implicaría asintóticamente que x = z, lo cual no es probable al ser independientes
x y z por construcción.
A partir del ejemplo anterior podemos concluir diciendo que la convergencia en distribución
únicamente implicará convergencia en probabilidad en caso de que la distribución de x sea
degenerada, es decir, Pr(x = e) = 1 para cualquier constante c. En cambio, a partir de las
definiciones de convergencia en probabilidad y en distribución, se puede comprobar que
p d
Z n ....::.+ Z ===} Z n --+ Z.
Ejemplo 19. Supongamos que Zt ..:!:+ N (O, 1) . Entonces, de acuerdo a la propos1c1on anterior,
se tiene que el cuadrado de Zt asintóticamente se comporta como el cuadrado de una variable
N(O, 1): z'f ..:!:+ x2 (1).
Zn-µ
1 N
Vn (zn - µ)/O"= Vn L (zn - µ)/O"-.:!-+ N(O, 1),
n=l
o alternativamente
o alternativamente como
(5.2 .3)
Esta ecuación directamente muestra que para poder aplicar el TCL expuesto en el Teorema
27, necesitamos escalar la expresión por fo,, con lo que obtenemos
(5.2.4)
Esta expresión muestra que el estimador escalado yin (b n - (3) es una función de la media
muestra!~ ¿~=l (x ix D y del promedio Jn
l::~=l Xiéi, que t iene media cero, por lo que estamos
en condiciones de intentar aplicar el TCL (ver Teorema 27). Para verificar que se satisfacen
Tema 5 199
:as condiciones del TCL, necesitamos, en primer lugar, observar que el Supuesto 6, junto con
_a Proposición 3, nos aseguran que (xixD y (xi Y i ) son variables iid, y dado que Ei es una
combinación lineal de Yi con Xi , también será iid la variable (xiEi)· Estas variables aleato-
rias deben tener (para aplicar el TCL) momentos de primer y segundo orden finitos (deben
existir sus medias y varianzas-covarianzas). La matriz de varianzas-covarianzas var( XiEi) la
denotamos por
(5.2.5)
Recordemos que la existencia de estos momentos bajo las condiciones del MPL y el Teo-
:ema 8 garantiza la existencia de IE1:: {. Este supuesto es el que introdujimos en la Suposición
5 y entonces le dábamos una interpretación en t érminos de atípicos.
Bajo las condiciones establecidas en la definición del MPL y añadiendo las condiciones de
los momentos de orden cuatro podemos aplicar el T CL (Teorema 27).
1 n d
fo L x iEi ---+ N (o , n)
i =l
donde
V -- ~-ln~-1
L.Jxx~~L.Jxx• (5.2.6)
:Exx=JE (xixD y n está definida en (5.2.5)
O bien, alternativamente,
Este resultado indica que la distribución de fa veces el error muestral (bn - (3) es aproxi-
madamente una distribución normal cuando n es suficientemente grande. A la matriz V se le
suele denominar matriz asintótica de varianzas y covarianzas de b. A la forma de la expresión
:E~ O:E~ se le suele denominar expresión de varianza tipo-sándwich.
Para que este resultado sea operativo es necesario estimar consistentemente V , y así poder
luego hacer inferencia.
e'e
s 2 = - - - ..!!-r a 2 donde a 2 = JE (é 2 ) .
n-K i
1-E'Mc
Demostración. s 2 = -n-K =-n- (e'e_e'X(X'X)-lX'e). Por un lado ' la demostración del teo-
n-K n n n n
rema precedente permite establecer que por la Proposición 1 que (X'X) /n = n- 1 I;~ 1 (xixD ~ :Exx
y (X'c) /n = n- 1 I;~ 1 Xifi ~O que, junto con la Proposición 4, resulta en que
y por tanto converge a cero. Por otra parte, asintóticamente el término n~K converge a 1, y como
resultado plim s 2 =plim €~€ =plim~ I::~ 1 E:T, es decir , la media de una variable aleatoria. Como tal
es posible aplicar la ley de los grandes números de nuevo, ya que los supuestos garantizan que E:i son
lid y que el momento de segundo orden de cT (esto es, el momento de orden cuarto) también existe,
y por tanto plim ( ~ ¿:7= 1 i::T) (=plim ( s 2 )) = ü 2 .
o
Una forma de estimar consistentemente O(= JE( ETXix~) = var(xiEi)) fue propuesta por Halbert
\Vhite, y la recogemos en el siguiente teorema.
Demostración. Por lo dicho anteriormente basta con demostrar O -!:+ n. Es decir, mostraremos que
e' e (X'X) /n = e:'Me: (X'X) /n = ( e:~e: - e:~X ( X~X )-l X~ e:) (X'X).
" abemos de la demostración del Teorema 29 que el segundo término del paréntesis converge en pro-
babilidad a cero, plim e;~X ( x~x )- 1 X~é = O. Por tanto plim (e'e (X'X) /n) = plim ( "'~"' (X'X)) =
plim~ ¿:7= 1 (cTXixD. (a) La Suposición 9 garantiza que la variable aleatoria (cTXixD tenga definida
su media lE(i::;xix~) < oo y su varianza. (b) Igualmente, la Suposición 6 y la Proposición 3 aseguran
que la variable aleatoria (i::;xixD es iid. Por (a) y (b) se cumplen las condiciones de la Proposición 1,
y por lo tanto plim~ I::7= 1 (i::;xixD = lE(cTXixD.
o
El estimador de la matriz de covarianzas, V, permit e obtener, para el caso en el que /3 es un
vector , los errores estándar de los parámetros del vector, ee(/3j),j = 1, 2, ... , k : n- 1 / 2 ~
donde el subíndice (j, j) indica el elemento j-ésimo de la diagonal principal de la matriz de
rnrianzas y covarianzas. Cuando los errores estándar son calculados por este procedimiento
es habitual decir que los errores estándar son robustos a la heterocedasticidad, precisamente
porque son asintóticamente válidos para cualquier tipo de heterocedasticidad.
n JE(cIXiX~)
JE(JE( cIXiX~ 1 xi)) (por el Teorema 1)
JE(JE(cI 1 xi )xixD (por el Teorema 4)
2
0" JE(xixD = 0" ~xx,
2
=
y por tanto bajo estos supuestos tendríamos que la varianza asintótica de fo (bn - /3) sería
V 0 = ~;~n~;~ = 0" 2 ~;~. El estimador más obvio que podemos utilizar para estimar V o
2 1 P2 p Ap
será Vo=8 (X'X / n)- toda vez que 82 -:.+ O" y X'X / n-:.+ ~xx, ya que en ese caso Vo-:.+ Va .
A
La cuestión interesante desde la óptica del modelo de proyección lineal es que este modelo
sugiere que la regresión se interprete como una aproximación a la función de esperanza con-
dicionada, función que goza de las propiedades que indicamos en la Sección 3.1.2. Bajo este
punto de vista del MPL, vamos a ver que la heterocedasticidad surge de forma natural. Si
la función de esperanza condicionada es no lineal y utilizamos el estimador MCO para apro-
ximarla, entonces la calidad del ajuste entre la línea de regresión y la función de esperanza
condicionada variará con Xi. En promedio los residuos serán mayores para aquellos valores de
Xi donde el ajuste sea más pobre. La siguiente expresión nos permite ver el motivo:
El segundo término es distinto de cero al ser JE (Yi lxi) no lineal. Por tanto, incluso si
var (Yi lxi) fuera constante, la varianza de los residuos aumentaría con el cuadrado de la dis-
crepancia entre la recta de regresión y la función de esperanza condicionada. Por este motivo,
la utilidad práctica del MPL nos conduce a optar por usar los errores estándar robustos.
Generalmente se dice robusto porque, en muestras grandes, los errores estándar robustos pro-
porcionan contrastes de hipótesis precisos a partir de mínimos supuestos sobre los datos y el
modelo.
Los estimadores consistentes para el supuesto de homocedasticidad y para el caso robusto
a la heterocedasticidad son, respectivament e,
(~x'x)-
1
2
Va= 8 (5.3.1)
y
A A -1 -1 ( )-l (
V= ~xxn~xx =
A A 1 1
;-X X
1~ 2 /) ( )-l
:;;: ~(eixixi)
1 1
;-X X (5.3.2)
Es necesario aclarar siempre qué tipo de estimador de la varianza se está utilizando, y esto
nos indicará bajo qué supuestos (modelo) se está trabajando. Estos dos tipos de estimadores
Tema5 203
nos conducen a los errores estándar que generalmente son los más utilizados. El primero por
razones históricas en la evolución de la econometría y de la del propio software econométrico.
El segundo porque es el que se ha establecido como estimador robusto, si bien hay otras alter-
nativas que a continuación comentaremos. Antes, sin embargo, queremos llamar la atención
sobre una cuestión práctica en el uso habitual del est imador robusto (5.3.2) a la que aludimos
=n la Ecuación (4.3.15). En (5 .3.2) nos referimos al estimador de la varianza de fo (bn - (3),
e donde podemos deducir la varianza de b ,
1 1
Var (b) = n- 1 x'x)- n, (x'x)-
-- - -
( n n
n
.... a segunda observación es que en (4.3.15) la matriz es ligeramente distinta dado que estamos
aj ustando el potencial sesgo a la baja debido a la estimación de K = k + 1 coeficientes de
:egresión, al dividir entre n - K en lugar de entre n . No obstante, los resultados asintóticos
son equivalentes.
V = :E-1n:E-1
XX XX
La matriz de varianzas y covarianzas del error, JE(s[), i = 1, 2, ... n, recoge las varianzas de
~os errores para cada elemento de la muestra, y las potenciales covarianzas entre los distintos
=rrores individuales. Bajo el supuesto de muestreo aleatorio (Suposición 6) estas covarianzas
~ n nulas. Por tanto, la matriz IE(s[) no es más que la matriz diagonal que definimos como
Un estimador de la varianza condicionada del estimador MCO que fuera robusto a la hete-
rocedasticidad consistiría en localizar estimadores de :Eee = JE( ee'). El estimador consistente
de White del Teorema 30 se basa en utilizar los residuos estimados, es decir, f:u = e'e =
diag(er, e§, .. ., e~) , que define exactamente a n
= * I:?=l (erxixD = X''teeX/n.
Una segunda alternativa es utilizar los residuos MCO , pero estandarizados. Para obtener la
expresión matricial de los residuos estandarizados recurrimos a la expresión del proyector que
presentamos en la Sección 3.4, en particular a la expresión de la matriz M (ver las propiedad~
básicas a partir de la Ecuación (3.4.3)) que recordemos era
M =In - P =In - X(X'X)- 1X',
nxn
cuyos elementos de la diagonal principal los denotamos por (1 - hii) para i = 1, ... , n. L
elemento hii = xi(X'X)- 1 x~ , que es el elemento i-ésimo de la diagonal principal de la matr..::
de proyección P. Llamamos
M* = diag { (1 - hu) - 1 , (1 - hn)- 1 , .. ., (1 - hnn)- 1 }.
En este caso tendríamos que n= *e*' e* (X'X). Y por tanto, la matriz de varianzas robusta
a la heterocedasticidad sería
jj(-i) = (n ~ t 1
j#i
(xJxj))- l (n ~ tXJYJ)
1
j#i
1
= ( XC-i)X (-i) )- XC-i)Y(-i)·
(5.3.3)
ei** = - xi'/3~(-i)
.r i
1:.r
Esta última expresión nos indica que el cómputo del error de predicción solo requiere un
ajuste lineal en el residuo MCO.
Utilizando este residuo o error de predicción, como decíamos antes, podemos estimar la
matriz Eee = E( éé 1) del siguiente modo:
~ = 2 2 2
4-Jee • 1 ' e2** '
e**'e** = d,;ag(e** · · ·' e**
n )·
206 ASPECTOS AVANZADOS: INFEREN C IA EN EL MODELO DE REGRESIÓN LINEAL
En este caso la matriz tendríamos que ñ = ~e**' e** (X'X). Y por tanto, la matriz de varianzas
robusta a la heterocedasticidad sería
Los estimadores robustos alternativos que hemos propuesto no aparecen en todos los pa-
quetes informáticos. Cuando lo hacen para localizarlos, habitualmente, tenemos que señalar
la opción de estimadores robustos, y posteriormente optar por los que están disponibles, que
suelen denotarse mediante los acrónimos hcl, hc2, ...
() = h(,8)
límite o asintótica de X nzn es la misma que la de ez; esto es, X n Z n ~ N(e µ , ene').
Para poder aplicar el método delta es necesario por tanto considerar o asumir que h (/3)
es diferenciable en el verdadero valor /3. En tal caso, dado fo,(bn - /3) ~ N( O, V ), donde
bn = /3,
tendremos que
Vn (e - O) _<}_,, N( O, V o),
donde
Ve= H,aVH~ ,
y V está definida en (5.2.6).
con H- ,a = 8737
a h(,B).
-
Esta formulación es lo suficientement e general como para incorporar los casos más habi-
tuales de funciones h (/3) con restricciones lineales del tipo
h(/3) = R/3
para una matriz R de orden r x K. En tal caso H ,a = R = H ,13, por lo que la varianza estimada
e
de sería
- I
RVR.
Para ilustrar un caso no lineal, tomamos por ejemplo que()= .Bij,e1 para l /= j. En tal caso.
h(/3) : JRk ---+ lR,
h (/3) = () = .Bij,B¡.
Por tanto, H,13 = -Jb; h(/3) es
H,a= (o, ... ,0,1/,81,. .. ,-,Bj/,Bf,o, ... ,o),
de manera que
Vo = V jj/,Bt + Vu ,B]/,Bf- 2Vjz,Bj/,Bf,
donde los elementos V ab son los elementos ab-ésimos de la matriz V. El estimador de H ,e es
simplemente
H,a= (o, ... ,o.1¡b1,. .. ,-bj/b[,O,··· ,o),
y por tanto el de V o es el resultado de usar este último y cualquier estimador consistente de
los anteriormente vistos para la matriz V.
El estimador así formado es consistente bajo los supuestos del Teorema 31 ya que por un
lado usamos un estimador consistente de V . y por otro H,13 _<}_,, H,13 , pues como sabemos b _<}_,, f3
y la función derivada, H,13 = -Jb;h(/3), es continua. Por tanto, hemos comprobado lo siguiente
Tema 5 209
Demostración. Hemos visto que en este caso ee(B) = n- 1! 2 J íit3 VH~ . Escribimos a partir de
esta expresión particular de ee( B), t = e-(¡) = ;({J~~) . Por el método delta el numerador,
ee H 13 VH ~
Es decir, la distribución asintótica para el caso en que () = h(/3) = /32 de tk(n) = :~(~~
erá una normal estándar. El error estándar del parámetro bk , ee(bk), se calcula a partir de
V = :E,;~n:E~ del que hemos asumido existe un estimador consistente, V, de modo que
para este parámetro ee(bk) = n- 112 J:H¡3 VH~ = n- 1/ 2 VL Jk,k F y
ya que al ser h(/3) = /32 =
210 ASPECTOS AVANZADOS: INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL
[O, O, ... , 1, .. ., O],B se tiene que :H13 = H 13 =[O, O, ... , 1, ... ,O] y en consecuencia premultiplicar y
postmultiplicar V por H 13 y H~ respectivamente equivale a seleccionar el elemento k-ésimo
de la matriz V.
Existen varias diferencias entre este estadístico y el estadístico t para muestras finitas
(5.1. 19) ,tk. En primer lugar el estadístico para realizar el contraste de la t en muestras finita
es un estadístico con distribución exacta, mientras que t es un estadístico con distribución
asintótica. Esto último implica que el tamaño exacto del test o contraste (la probabilidad del
Error Tipo I dado un tamaño muestral) es aproximadamente igual al tamaño nominal del
test (es decir, el nivel-a deseado de significatividad). Esta aproximación es asintóticamente
nula cuando el tamaño muestral n crece hasta infinito. Igualmente la forma de cómputo es
distinta ya que, por un lado, en el caso exacto se utiliza la distribución de una t - student, y
en el asintótico la de una normal estándar. P or otro lado, los errores estándar se calculan de
forma diferente, y además se calculan bajo supuestos distintos también. En particular, como
ya sabemos, en la obtención de la normalidad asintótica no hemos utilizado el supuesto de
homocedasticidad, es decir, no se requiere para el test asintótico que JE(e:7 1 xi)= a 2 >O (i =
1, 2, ... , n) .
Podemos estimar B = h (,8), del que podemos estimar a su vez la matriz asintótica de
covarianzas Vo = :H13 VH~ con H,13 = ~ h (/3) . El estadístico de Wald para contrastar Ho
frente a H 1 está basado en la forma cuadrática
w = n (8A- 80)'A1(A
v -¡; 8 - 80) ,
que cuando h es una función lineal de ¡3, h(¡3) = R¡3 , entonces
1 1
W = n ( R/3 - 80) ( RVR ) -l ( R,6 - 80) ,
Por el método delta hemos mostrado anteriormente que fo ({J - 8) = fo ( h (,6) - h (¡3) ) -!!+
Z "' N(O,H 13 VH~) = N(O, V 11 ). Por la Proposición 6, al ser H 13 continua, se tiene que
Tema5 211
El contraste estadístico es tipo Wald porque está basado en las estimaciones no restringidas
~r
la hipótesis nula (es decir, bajo la hipótesis alternativa). En el documento Apéndices y
~Uilas puede encontrarse una introducción a los contrastes de Wald, y su relación con otros
de contrastes equivalentes.
-· º· APÉNDICE TÉCNICO
1
cf>(x) = ../21iexp (- x2)
2 , -oo < x < oo.
7
'""0es a lo que nos referimos cuando decimos que X "" N(O, 1). La función de distribución
_wción de densidad acumulada) de una normal estándar se denota por <I>(x). La función
-"densidad normal se caracteriza, entre otras cosas, porque todos sus momentos son finitos
::xi ten y están bien definidos). Dado que es simétrica en torno al cero, todos los momentos
_pares serán necesariamente nulos. La técnica de integración conocida por integración por
artes, nos permite comprobar que JE (X 2 ) = l. E n general se puede demostrar que para
.::alquier entero m, JE (x 2m) = (2m - 1)!! = (2m - 1)(2m - 3)(2m - 5) . .,1. Por tanto,
: X 4 ) = 3, JE(X 6 ) = 15, etcétera.
212 ASPECTOS AVANZADOS: INFERE NCIA EN EL MODELO DE REGRESIÓN LINEAL
1 ( (x-µ)':E- 1 (x-µ))
f(x) = (27r)k/ 2det(:E)1/ 2exp - 2 .
f (x)
= TI~=1
Demostración. La fórmula del cambio de variable nos permite escribir la densidad de y como
sigue
1 ( (y - µy)' :Eyl (y - µy))
f(y) = (27r)k/2 det (:Ey) 1/2 exp - 2 '
:Jemostración. Por ser A semidefinida positiva podemos escribirla como A = CC' siendo la
1 1
:natriz C no singular. En tal caso, A- 1 = (CC')- = (c- 1 ) (c- 1 ), y también
Por tanto,
Z' A- 1 z = Z'c- 1' c - 1 z = (c- 1 z) (c- 1 z) ,. . ., X~·
1
que como vemos decrece con el tamaño muestra n. Esto implica que la distribución muestral
del estimador P, se concentra a medida que el tamaño muestral crece. Este comportamiento
es lo que esencialmente recoge el concepto de convergencia en probabilidad:
214 ASPECTOS AVANZADOS: INFEREN CIA EN EL MODELO DE REGRESIÓN LINEAL
Esta definición parece bastante abstract a, pero formaliza el concepto de distribución con-
centrada en torno a un punto (como sucede en el caso de la media muestral). El suceso
lzn - z/ :S 5 es el suceso de que Zn está dentro de 5 respecto del punto z . Pr(lzn - zl :S 5)
es la probabilidad de dicho evento. La definición (5.5.1) establece que dicha probabilidad se
aproxima a 1 a medida que el tamaño muestra] aumenta. La definición de convergencia en
probabilidad requiere que sea para cualquier radio 5. Por lo que para intervalos muy pequeños
de z, la distribución de Zn se concentra dentro de ese intervalo para valores altos de n.
Cuando Zn !!+ z, decimos que z es el límite en probabilidad (o plim) de Zn.
(5.5.2)
donde 1(-) es una función indicador, lo que es posible dado que lEIYi/ < oo. Definimos las
variables aleatorias
tal que
y=w+ z
y
(5.5.3)
Ahora mostramos que la suma de las esperanzas del lado derecho está acotada inferiormente
por 3E.
Primero , por la desigualdad triangular y la desigualdad de la esperanza se tiene
Tema 5 215
:S 2E, (5.5.4)
(5 .5.5)
(5.5.7)
..a última desigualdad se mantiene paran 2: 4C2 /E 2 = 36C 2 /8 2 r¡ 2 . Las ecuaciones (5.5 .3),(5.5.5)
(5. 5.7) juntas muestran que
(5.5.8)
romo deseábamos.
Por último, por la desigualdad de Markov y (5.5.8),
Pr (IY I > 8) :S -f
JE 1-1 3
:S ; = r¡,
..a igualdad final es, por definición, de E. Hemos mostrado entonces que para cualquier 8 > O
· r¡ > O entonces para todo n 2: 36C 2 / 82 r¡ 2 , Pr(IYI > 8) :::; r¡, que es lo que necesitábamos. •
216 ASPECTOS AVANZADOS: INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL
Pr ( lím
n--+oo
lzn-zl '.S ó) = 1 (5.5.9)
Para una muestra aleatoria, si IEIYI < oo, entonces cuando n---+ oo,
1 n
y= - LYi~' IE(yi)·
n i=l
1 12
llYll = (YI + · ·· +y~) ·
Observemos que
llYll 2 = y'y.
Pues bien, es equivalente describir la existencia finita de los momentos en términos de la
norma euclídea de un vector, o bien de todos sus componentes considerados individualmente.
Teorema 36. Para y E lRm, IEllYll < oo si y solo si IEllYjll < oo para
j = l, ... ,m.
El Teorema 36 implica que los componentes de µ son finitos si y solo si IEI IYI 1 < oo.
La matriz de varianzas m x m y es
1
1 n Y1)
Y2
y=;;, LYi = ( :
i=l .
Ym
es el vector de medias de las variables individuales.
La convergencia en probabilidad de un vector se puede definir como la convergencia en
probabilidad de todos los elementos que forman el vector. Por tanto, y ~ µsi y solo si Yj -+ µj
para j = 1, ... , m. Dado que esto último es cierto si IEIYjl < oo para j = 1, ... , m, o de modo
equivalente IEI IY 11 < oo, podemos establecerlo formalmente como sigue:
218 ASPECTOS AVANZADOS: INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL
Teorema 37. Ley débil de los grandes números para vectores alea-
torios A partir de una muestra aleatoria, si lEIY11 < oo, entonces cuando
n--+ oo,
1 n
y= -
n
LYi -4 lE(yj)·
i=l
o bien
logfn(>..) = nlogf(>../(vna)).
Haciendo ahora el desarrollo de Taylor de j(>..) = JE(ei>.x) en torno a>..= O para una variable aleatoria
genérica x centrada en el origen y con varianza a 2 < oo :
y, por tanto, f(>..) = 1 - u 2 >.. 2 /2 + o(>.. 2 ). Utilizando esta expresión general en la función logaritmo
(neperiano), se tendrá
logfn(>..) =nlog(l->.. 2 /2n+o(>.. 2 /n))
que evaluamos cuando n -t oo : límn-+ oo n log (1 - >.. 2 /2n + o(>.. 2 /n)) . Inicialmente este límite es
indeterminado del tipo oo · O, pero resolvemos la indeterminación transformándolo en uno del tipo
~ y posteriormente aplicamos L'Hopital; el resultado es ->.. 2 /2 . De este modo, si log fn(>..) -t >.. 2 / 2
2
se tiene que fn(>..) -t e->. / 2 asintóticamente (esto es, cuando n -t oo), es decir, la sucesión de
2
funciones características f n(>..) converge a la función característica e-.A / 2 que lo será de una función
de distribución determinada. Concretamente lo es de la función de distribución de una N(O, 1), dado
que es la función característica de una normal. Por otra parte, la propiedad (c) se verifica ya que
e-.A
2
/
2
es continua en >..= O, así resulta que la sucesión de variables aleatorias { )n L:=l (zn - µ) /a }
converge a la función de distribución de la normal estándar. •
Tema 5 219
1 n
Vn (Yn - µ) = Vn L (Yi - µ) ~ N(O, V )
i=l
El TCL es uno de los resultados mas intrigantes y potentes de la teoría asintótica. Muestra
que el simple procedimiento de «promediar» induce a la normalidad. La primera versión del
TCL (para el número de caras resultantes del experimento de lanzar una moneda al aire)
fue establecido por el matemático francés Abraham de Moivre en 1733. Este resultado fue
ampliado para cubrir una aproximación de la distribución binomial por Pierre-Simon Laplace
en 1812 . El establecimiento más general del mismo se debe al matemático Aleksandr Lyapunov
1901) y al matemático Jarl Waldemar Lindeberg (1922).
La versión que hemos presentado corresponde a la ofrecida por Lindeberg y el matemático
francés Lévy. Una versión que no requiere que las distribuciones sean iguales fue dada por
Lindeberg (1922) .
(5 .5.10)
entonces
1 n
- L (Yi - µi) ~ (O, 1).
Vn i=l
La Ecuación (5.5.1 0) se conoce como condición de Linderb erg. Un método estándar para
verificar (5.5.10) es por medio de la condición de Lyapunov: para algún ó >O
n
,
1im 1 """ JE( Yi - µi )2+8 -- O
2 +<5 ~
(5.5.11)
n-+oo Vn i= l
Es fácil verificar que (5.5.11) implica (5.5.10), y (5.5.11) también suele ser de sencilla verifi-
cación. Por ejemplo, si su pi JE(yi - µi) 3 :S "' < oo e ínfi a[ 2:'.: e > O entonces
n
1 ~ 3 n"'
3 L..,¿ JE(yi - µi) ::; 3/2 --+ o
vn i=l (ne)
de modo que (5 .5.11) se satisface.
g (JE (y lx)) :S JE (g (y ) lx ) .
Desigualdad de la esperanza cond icionada. P ara cualquier r 2:'.: O tal que E IYlr < oo,
entonces
(x'x - xixD-
1
= (x'x)- 1 + (1 - hii)- 1 (x'x)- 1 xi x~ (x'x) - 1 .
Tema 5 221
•
5.5.10. Ampliación técnica del Método Delta
Primero presentamos una versión ampliada que se conoce como Teorema de Mann-Wald
ue considera convergencia en distribución para cierto tipo de funciones.
Si. Zn -+
d d
z y Cn -+ e cuan do n -+ oo, entonces
d
l.zn + Cn -+ z + e
d
2.ZnCn -7 ZC
3. ~Cn
~ ~e si e -=/= O
El estimador /3 = g(P,) , que escribimos como función de P,, sabemos ahora (por el Teorema
~O) que t iene una distribución asintótica; sin embargo no podemos por el momento saber cuál
222 ASPECTOS AVANZADOS: INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL
{3 . Por la Proposición 6 se tiene /IJri (x n - {3)11 ~ llN(O, V )ll · Por simplicidad notacional
hacemos A= A (/3) y definimos ahora ~ ( h ) = ll a (/3 + h ) - a (/3) - Ahll / ll h ll para h i= O y
~ ( h = O) = O. Por la diferenciabilidad de A (·) en {3, ~ ( h) es continua en O. Sea h = Xn - {3.!!+0
y sea Zn = Jn (a (x n) - a (/3)) - A fo (x n - /3), entonces
En los temas anteriores hemos incidido en la relevancia práctica de considerar que, en los
datos de naturaleza económica, la heterocedasticidad es la norma, y no la excepción. Pese a
ello, esto no supone en la actualidad un problema de difícil solución. De hecho, el modelo de
regresión lineal, cuyos supuestos expusimos en detalle en el Tema 3, y que seguidamente reco-
pilamos, nos permite estimar y realizar inferencia estadística sobre los parámetros estimados.
Hay varios motivos para pensar que los errores son heterocedásticos. En los modelos de
aprendizaje, por ejemplo, los agentes aprenden por la experiencia y lo normal es que la varia-
bilidad de los errores se reduzca con el paso del tiempo.
En ocasiones, no pocas variables explicativas (ingresos, beneficios , educación, renta, etc.)
acentúan la probabilidad de la existencia de una mayor variabilidad en el comportamiento de
los agentes económicos (generalmente porque tienen más grados de libertad en su comporta-
miento). En estos casos lo normal es que la variabilidad residual aumente a medida que lo
hacen las variables explicativas.
La mejora en las técnicas de recolección de datos provenientes de los agentes económicos
también podría significar la potencial comisión de menores errores, lo que reduciría la varianza
de los errores.
La presencia en la muestra de datos atípicos severos (en el sentido de ser datos muy
diferentes del resto) propicia la aparicción de heterocedasticidad, especialmente cuando la
muestra es pequeña.
La fuente de heterocedasticidad más preocupante se produce como consecuencia de un
modelo mal especificado (por ejemplo la no inclusión de variables relevantes), o por una
transformación incorrecta de los datos (estimar en niveles cuando lo correcto sería en logarit-
mos o en diferencias). Esta fuente de heterocedasticidad vulnera inicialmente el supuesto de
exogeneidad causando que la esperanza condicionada de los errores ya no sea nula.
Normalmente el problema de heterocedasticidad es más frecuente con información de corte
transversal, donde las observaciones suelen ser más heterogéneas, que con datos de series
223
224 REGRESIÓN CO N HETEROC EDASTICIDAD Y AUTOCORRELACIÓN
temporales.
Conviene recordar que los estimadores MCO en presencia de hetérocedasticidad siguen
siendo insesgados y consistentes, siendo ambas propiedades deseables para un estimador.
Lineal
(6.1.1)
donde éi ,i = 1, ... , n es la sucesión de términos errores de cada una de las observaciones.
En el caso de datos de sección cruzada i es un índice individual para cada unidad de
análisis, mientras que si los datos son temporales el índice es temporal de observación.
Por tanto, n en un caso es el número de individuos o bien el número de observaciones
temporales.
No multicolinealidad perfecta
Exogeneidad
Muestra aleatoria
(X1i , X2i , ... , Xki , Yi) , i = 1, ... , n son iid.
Atípicos
Grandes atípicos son poco probables. Formalmente, X1i, X2i , ... , Xki, e Yi tienen mo-
mentos de cuarto orden distintos de cero y finitos
1
:Eu 1 =JE (ee IX) ,
Tema 6 225
que no es más que una versión ponderada de la matriz X'X al ser el término
n
X':Ee:e:'X = L XiX~O'¡.
i=l
Observamos pues que lavar (13 IX) o, mejor, su versión convenientemente escalada,
no es tan fácilmente accesible dado que desconocemos los n elementos de la matriz :Ee:e:',
mientras que en el caso homocedástico esta matriz se reduce a una matriz diagonal en la que
todos los elementos de la misma son iguales a o-f = o-J = o- 2 . Paralelamente, también sabemos
por el teorema de Gauss-Markov que el estimador MCO de los coeficientes del modelo lineal
de regresión homocedástico es el de menor varianza de entre todos los lineales e insesgados,
si bien es cierto que esto solo es correcto en el caso teórico de la homocedasticidad. Por el
contrario, en el modelo de regresión lineal, el estimador lineal e insesgado de menor varianza
es diferente. Para verlo con claridad consideremos que la varianza var(éi lxi) = o-f fuera
conocida.
La cuestión es cómo podemos utilizar esta información para transformar la expresión
(6.1.1) de forma que podamos estimar los parámetros con errores homocedásticos.
Dividiendo la Ecuación (6.1.1) por su desviación típica O'i conocida conseguimos que los
errores sean homoscedásticos,
226 REGRESIÓN CON HETEROCEDASTICIDAD Y AUTOCORRELACIÓN
(6 .1.4)
Por tanto, la expresión (6.1.4) tendría errores homoscedásticos. A estas expresiones se las
conoce con el nombre de estimador de mínimos cuadrados ponderados (MCP) puesto que todas
las variables están ponderadas por 1/ 0"i. Si al ponderar adecuadamente logramos que el modelo
sea homocedástico , entonces estaríamos bajo las condiciones de aplicabilidad del teorema de
Gauss-Markov, y la expresión del estimador MCO ya no será la de menor varianza. Ahora
el estimador lineal insesgado óptimo (de mínima varianza) sería una versión adecuadamente
ponderada por la inversa de la desviación típica del error de cada observación. La expresión
matricial es la siguiente
'
f3McP ( *'
= X X
*)-] X *' y * = (X /:Eee'X)
-1 -1
X / :EeetY·
-1 (6 .1.5)
A la luz de este resultado, podemos observar que la Ecuación (6.1.5), al ser ELIO, nos
indica que el estimador MCO sería ineficiente en un contexto tan general y habitual como
es el heterocedástico. No obstante, para poder utilizar un estimador lineal e insesgado más
eficiente sería preciso salirnos de los supuestos del modelo de regresión que hemos indicado
al comienzo del tema, dado que para poder utilizarlo precisamos suponer que contamos con
cierta información sobre la función de varianza condicionada var(Ei !xi) = O"¡. A continuación
tratamos cómo estimaríamos si dispusiéramos de este t ipo de información.
donde h es una función que suponemos conocida y >. es una constante. El estimador MCP,
como hemos visto anteriormente, se obtiene siempre dividiendo la variable dependiente e
independiente por la raíz cuadrada de h y luego haciendo la regresión por MCO de la variable
dependiente transformada y el regresor también transformado.
Como hemos visto anteriormente en este procedimiento, al conocer la forma de la varian-
za del error, nos permite transformar el término error heterocedástico en un término error
transformado de modo que ahora ya es homocedástico. Por tanto, aplicar MCO a dicho mo-
delo nos conduce a estimadores ELIO , toda vez que se cumplen los supuestos del teorema de
Gauss-Markov.
Tema6 227
Yi 1 X2i xki Ei
X li = f3o X
li
+ f31 + f32 X li + ... + f3k X li + X li .
Esta expresión nos conduce a (6.1.4), y por t anto a una situación homocedástica. Es
decir,
2x2
(}
----(}
li 2
- Xti -
Podemos comprobar que este Caso I es fácilmente aplicable a situaciones similares como
pueden ser que consideremos que la varianza condicionada del error sea proporcional a
X i o incluso a una combinación lineal de las variables explicativas, como es el caso de
utilizar una varianza condicionada proporcional al valor medio de la variable }i. En uno
y otro caso tendríamos modelos transformados del tipo siguiente:
Caso II. En este caso, a diferencia del anterior, consideramos que es necesario estimar la va-
rianza condicionada. En la mayoría de las sit uaciones la forma de la heterocedasticidad
no es conocida de manera que es difícil encontrar la función de las variables independien-
tes h(X) que determina la forma de heterocedasticidad. Pero podemos estimarla h(X),
y su utilización, en vez de la verdadera función h(X), se suele denominar MCP-factibles.
1
En la última ecuación, también podríamos incluir la eventualidad de que la varianza del error fuera
proporcional al cuadrado del valor esperado de Yi, en tal caso, habríamos de ponderar por 1/f'.;.
228 REGRESIÓN CON HETEROCE DASTICIDAD Y AUTOCORRELACIÓN
(6.1.6)
Utilizamos la función exponencial para garantizar que h(X) tenga valor positivo. Ahora
no conocemos los coeficientes de la ecuación anterior (si los conociéramos, entonces
aplicaríamos MCP tal y como en el Caso 1). Por tanto es preciso estimarlos. Bajo el
supuesto de que se cumple (6.1.6) podemos escribir
Suponiendo que Ui tiene media unitaria y que es independiente de las variables explica-
tivas podemos escribir
donde ei tiene media nula y es independiente de las variables explicativas. Estamos aún
en una situación no implementable en la práctica dado que los errores de la expresión
(6.1.1) los desconocemos. No obstante, sí conocemos los errores estimados, Ei en la
regresión inicial MCO, y estos los podemos utilizar para estimar consistentemente los
parámeteros de la ecuación logarítimica, es decir que estimamos
Finalmente utilizamos 1/ h 112 (X) como ponderación en la expresión (6.1.1) como hici-
mos en los casos precedentes:
Yi _ (3 1 (3 X ii (3 X2i (3 Xki éi
~- o~+ 1 ~+ 2 ~+ ... + k ~+ ~·
y n ~AJ y h (X) y h(X) y h(X) y h(X) y h(X)
Tanto en un caso como en otro, hemos añadido supuestos que nos permitan transformar el
modelo heterocedástico en un homocedástico, y luego procedemos con la estimación MCO
que en caso de haber modelizado adecuadamente la varianza condicionada de los errores, nos
conduciría asintóticamente a estimadores más eficientes. A partir de la estimación MCO , que
nos permite estimar los valores de los coeficientes, podríamos construir intervalos de confianza
para los coeficientes estimados a partir de errores estándar típicos de los casos teóricos de
homocedasticidad.
Tema 6 229
junto con el resto de supuestos que hemos determinado al comienzo del tema y que configu-
ran el modelo de regresión. Recordemos que este conjunto de supuestos no incorpora el de
homocedasticidad
(6 .1.7)
(6.1.8)
(6.1.9)
LM = n · R 2 , (6.1.10)
que se distribuye como una chi cuadrado con k grados de libertad x2k·
A este contraste se le conoce como contraste de heterocedasticidad de Breusch-Pagan (BP).
Si el valor empírico del contraste BP es mayor que el valor crítico para un determinado nivel de
significatividad entonces rechazamos la hipótesis nula de homocedasticidad y en consecuencia
concluimos que los residuos son heterocedásticos.
Halbert White propuso un contraste parecido al de BP en el que de un modo muy intuitivo
añade los cuadrados y productos cruzados de todas las variables independientes (distintas de
la constante) de la expresión (6.1.9). El estadístico de contraste LM es el mismo, ya mostrado
en la expresión (6.1.10).
Los siguientes ejemplos ponen en práctica estos contrastes, así como la técnica de los MCP.
2
En el documento Apéndices y Tablas se describen los tipos de contrastes.
Tema6 231
6.1.4. Ejemplos
Esperanza de vida, nivel educativo y de ingresos
Con datos del informe sobre desarrollo humano mundial de 2010 (ONU), relacionamos la
esperanza de vida el nacer de 169 naciones con los ingresos per cápita en miles de dólares en
paridad de poder adquisitivo y el número de años de estudios. El modelo estimado es
Indicamos entre corchetes los errores estándar robustos a la heterocedasticidad . Todos los pará-
metros estimados son significativos, tanto si utilizamos los errores estándar válidos bajo homoce-
dasticidad como los robustos de heterocedasticidad al nivel del 5 %. Por tanto, si todo lo demás se
mantiene constante, un incremento del 1 % en los ingresos provoca un incremento de 0,046 años
de esperanza de vida; así mismo , un incremento de un año de estudios determina un incremento
de 0,93 años de esperanza de vida.
El contraste BP se realiza a partir de la regresión de los residuos al cuadrado estimados en la
expresión (6.1.11) con todas las variables independientes, es decir
El valor empírico es 7,436 (n·R 2 = 169·0,044), el va lor crítico es 5,99 (x 2 2:0 ,o5 = 5,99); como
el valor empírico es mayor que el crítico rechazamos la hipótesis nula de homocedasticidad, y en
consecuencia los residuos del modelo muestran signos de heterocedasticidad.
Por otro lado, el contraste de White se realiza a partir de la siguiente expresión:
Donde además de las variables independientes del modelo (6.1.11), se incluyen sus cuadrados y
sus productos cruzados. El valor empírico del contraste de White de heterocedasticidad es 16,6465
(n·R 2 = 169·0,0985), el valor crítico de contraste es 11,1 (x 2 5 ,0 ,05 = 11,1), de manera que el
valor empírico es mayor que el valor crítico y en consecuencia rechazamos la hipótesis nula de
homocedasticidad, llegando a la misma conclusión que con el contraste BP.
Los estadísticos de BP y White pueden dar conclusiones diferentes. En general el contraste de
White tiene el inconveniente , cuando el número de va ri ables independientes es grande, de que la
realización del contraste requiere demasiadas variables, por lo que se pierden muchos grados de
libertad; sin embargo es un contraste más potente que el BP toda vez que la gama de hipótesis
alternativas es más amplia al admitir relaciones no lineales en la forma funcional de la varianza
condicionada.
232 REGRESIÓ N CON HETERO CEDASTICIDAD Y AUTOCORRELACIÓN
Los estimadores robustos de heterocedast icidad son menores para el término constante y en la
pendiente del tamaño de la unidad familiar . Tanto si consideramos los errores estándar MCO como
los robustos todas las variables independientes son significativas a los niveles usuales, el cociente
entre los parámetros estimados y los errores estándar, sean robustos o no, son en todos los casos
mayores de 2.
El contraste BP de heterocedasticidad lo realizamos a partir de la siguiente regresión
donde t¡ son los residuos al cuadrado de la regres1on principal , el valor crítico del contraste al
5 % de significatividad es 5,99 (x 2 2:0,0 5 = 5,99), y el valor empírico que toma el estadístico de
contraste es
n · R 2 = 81 ·O, 1002 = 8, 1162.
Como el valor empírico es mayor que el valor crítico rechazamos la hipótesis nula de homocedas-
ticidad.
Si nuestro objetivo fuera , por los motivos que sea, capturar la dependencia en la varianza
condicionada , una posibilidad sería aplicar MCP en lugar de los MCO (es decir, el Caso 1) . Para
ello queremos evaluar si la varianza del error es proporcional a los ingresos familiares :
Como el valor empírico es menor que el valor crítico, ahora ya no podemos rechazar la hipótesis
nula de homocedasticidad, lo que indica que la varianza condicionada heterocedástica parece estar
bien caracterizada en función del nivel de ingresos.
Debido a que tenemos pocas observaciones, resulta de utilidad considerar los valores de los
coeficientes MCP toda vez que la heterocedasticidad existente está controlada. Al comparar los
valores de los coeficientes por MCP y por MCO, vemos fundamentalmente que ambas arrojan
conclusiones sobre el efecto marginal de las variables expl icativas bastante similares. Los coeficientes
MCP apuntan a un mayor peso relativo de cada una de las variables indendientes.
salarioi = 282, 576 +O, 235 · beneficiosi +O, 005 ·ingresos+ Ei,
(79,808) (0,069) (0,010)
Como el valor empírico es mayor que el crít ico, rechazamos la hipótesis nula de homocedasticidad,
y por consiguiente el modelo presenta síntomas de heterocedasticidad.
Para estimar la ecuación por MCP real izamos la siguiente regresión auxiliar, siguiendo los pasos
esbozados en lo que hemos denominado Caso 11 :
Los pesos para utilizar como ponderación los calculamos de la siguiente forma
n = 31 , R 2 =O, 4305.
Se siguen manteniendo los signos esperados, pero los beneficios ahora no son significativos, mientras
que los ingresos sí lo son , y antes no lo era n. En general las estimaciones MCO y MCP son distintas,
pero cuando las diferencias son sustanci ales, es decir, cuando las estimaciones estadísticamente
significativas difieren en el signo (lo que no es el caso) o cuando la diferencia de magnitud de
las estimaciones es grande (como ocurre aquí, al menos en parte) , deberíamos desconfiar de las
conclusiones que nos indican los modelos.
No obstante, puede ser que estos problemas aparezcan precisamente en el caso de muestras
demasiado pequeñas, tal y como es el caso . También es importante la correlación entre las variables
independientes, r = 0,9239 . Como sabemos correlaciones grandes entre las variables independien-
tes hace que las varianzas de los estimadores sean mayores y las relaciones de causalidad se hacen
imprecisas. Es lo que en econometría denom inamos problema de la multicolinealidad y este puede
ser el problema de fondo de las diferencias entre ambas estimaciones. No olvidemos que tam-
bién es posible, y bastante probable , que el supuesto de exogeneidad no se satisfaga, lo que nos
conducidiría a considerar modelos alternat ivos con otras variables explicativas y mayor número de
observaciones. Ni los MCP ni los errores estándar robustos a la heterocedasticidad nos previenen
de malas especificaciones en el modelo o de la falta de datos.
Es relativamente habitual que los modelos necesiten ser ajustados respecto de los primeros
modelos que estimemos. Para ello deberíamos tener en cuenta aspectos que trataremos pos-
teriormente en el tema dedicado a la especificación de modelos. Antes de llegar a los mismos
vamos a considerar un segundo factor habitual en los datos en forma de serie temporal y que
se denomina autocorrelación.
Tema6 235
La autocorrelación o correlación serial de los errores del modelo de regresión afecta esen-
cialmente a las regresiones con datos de series temporales. No obstante también puede existir
en modelos de sección cruzada (datos transversales) ; técnicamente la a u to correlación con da-
tos transversales se conoce como autocorrelación espacial. En todo caso la ordenación de los
datos en el análisis de autocorrelación transversal tiene que tener sentido económico. Cuando
las observaciones con datos transversales se han generado mediante muestreo aleatorio, los
datos utilizados son, por definición, independientes y por consiguiente la ausencia de auto-
correlación espacial está garantizada. Por tanto, el problema de la autocorrelación aparece
cuando el supuesto de muestra aleatoria no se puede mantener. Entre otras cosas , esto im-
plica que ya no estamos dentro del marco de lo que hemos denominado en este tema modelo
de regresión lineal, y que se encuentra detallado en la sección 6.1. Sin embargo sabemos que
podemos reemplazar este supuesto por otro equivalente para el caso de series temporales de
modo que las propiedades de insesgadez, consistencia y distribución asintótica de los estima-
dores MCO se mantengan. Recordemos que la adaptación a la Suposición 3 (ver página 101)
es
El problema es ahora que en el caso de los modelos de regresión con series temporales es
muy frecuente que el término error esté autocorrelacionado 3 . Cuando trabajamos con series
temporales la ordenación cronológica (en el tiempo) es natural, y la posibilidad de que las
observaciones sucesivas muestren patrones sistemáticos es muy grande, especialmente cuando
los intervalos entre observaciones se acortan. Recordemos el ejemplo de la demanda de café,
que depende, entre otras, del nivel de ingresos. Consideremos que omitimos esta variable de
la especificación lineal del modelo. La variable ingreso medida a través del ingreso agregado
suele estar serialmente correlacionada: el ingreso tiende a caer en las recesiones y aumentar
en la fase de expansión. Si omitimos entonces esta variable, y la incorporamos, por tanto, en
el término error, este estará también serialmente correlacionado.
Al igual que ocurre con la heterocedasticidad, si consideramos que no existe autocorre-
lación serial cuando en realidad sí la hay, entonces los errores estándar de los estimadores
MCO estarán mal calculados. Es decir, los errores estándar serán ineficientes y la inferencia
realizada a partir de ellos se verá afectada muy negativamente. De hecho en presencia de
autocorrelación no se deben utilizar los errores estándar usuales, ni siquiera asintóticamen-
te. Por tanto para mantener los estimadores MCO debe recurrirse a estimadores robustos a
la autocorrelación, o realizar estimaciones alternativas en la línea de los mínimos cuadrados
convenientemente ponderados.
3
Recordemos que por ausencia de autocorrelación se entiende que corr (€t ,€sl X)= O, t # s , como indica-
mos en la expresión (4.2.9).
236 REGRESIÓN CON HETEROCEDASTICIDAD Y AUTOCORRELACIÓN
Algunos de los motivos por los que se producen errores autocorrelacionados son:
• La propia inercia que se aprecia en las series temporales. Las series económicas mues-
tran ciclos económicos, es decir , las observaciones sucesivas están correlacionadas y en
consecuencia no parece raro que las regresiones entre estas variables también muestren
errores con patrones sistemáticos.
• Variables retardadas. Si la variable ret ardada es explicativa como ocurre en las ecua-
ciones de oferta de industrias donde el periodo de producción es largo (agricultura,
construcción, etc.) , entonces los errores de predicción necesariamente se corregirán en
periodos posteriores y los errores de la regresión estarán también autocorrelacionados.
mientras que los elementos fuera de la diagonal de la matriz ~u' , cuando hay autocorrelación,
son distintos de cero:
IE(ct=sét=j IX)=/= IE(cs IX)IE(éj IX),
toda vez que el supuesto de muestra aleatoria de las observaciones fechadas en t =j y t = s
no se satisface.
Veamos un caso sencillo de autocorrelación para un modelo de regresión simple
(6.2.1)
Sabemos por (4.2.4) que
dado que el estimador X de la media poblacional es tal que a medida que el tamaño muestral
aumenta, la media muestral es prácticamente indistigible de la media poblacional, µx, y
por tanto se puede sustituir uno por el otro, y lo mismo sucede para muestras grandes con
(l/T) L:(Xt - X) 2 ---+ a_l , es decir que converge a la varianza de X , var(X). Tendremos que
aproximadamente
/Ji _ fJi ~ (l/T) L:(~t - µx )et = ~ ,
ªx ªx
donde Vt = (Xt - µx)ct , y v = (l/T) ¿'[= 1 Vt.
La varianza de /31 en la estimación por MCO de (6.2.1) la podemos escribir:
• ) = var ( - v- ) = -
var ( f31 v) ·
var(- (6.2.2)
2 2
ªx (a_l)
Se observa que para obtener la distribución asintótica del coeficiente estimado por MCO se
requiere desarrollar la varianza de v. Tal desarrollo dependerá críticamente de los supuestos
que hagamos sobre los errores. Como primer paso, e independientemente de los supuestos que
hagamos , podemos obtener una relativamente sencilla expresión para tal varianza:
2 T
[
T-1 T-t
var(v) = 1/T ~ var(vt) + 2 ~ f;
cov(vt, Vt+j)
l .
238 REGRESIÓN CON HETEROCEDASTICIDAD Y AUTOCORRELACIÓN
Supongamos inicialmente qué sucedería con esta expresión en el caso teórico particular
en el que los errores fueran homocedásticos y no estuvieran autocorrelacionados. El segundo
sumando de la última expresión sería nulo, mientras que el primero nos llevaría a una expresión
conocida y presentada en temas anteriores. Para verlo comprobamos4 que, llamando a Xt =
(Xt - µx ), se obtiene
Así pues
A partir de esta expresión de la varianza podemos calcular entonces la varianza del coefi-
ciente estimado particularizando para la ecuación (6.2.2):
que es la expresión equivalente (4.2.10) (ver página 110) cuando sustituimos (1/T) L,(Xt-X) 2
2
por O"x·
A ) ()2 1 ()2
var f3i
(
Así pues si los errores fueran (iid) - que es un supuesto con el que hemos trabajado en
temas anteriores-, tendríamos que los Vt serían también (iid), y por tanto - como hemos visto--
var(v) = var((l / T) L,'{,'= 1 vt) = var(vt)/T, que nos conduce5 a la expresión equivalente a
(4.2.5).
Esto nos lleva a considerar qué sucede con var(~1) si los errores están autocorrelacionados,
pero son homocedásticos. Ahora en general ocurrirá que var(v) -=f. var(vt)/T, por lo que
será necesario volver a desarrollar tal varianza teniendo en consideración el efecto de las
cov( Vt, Vt-j) pues dejarán de ser necesariamente nulas. En efecto, si partimos nuevamente
de la expresión (6.2.3), considerando del supuesto (i) de la Suposición 4 (ver página 102),
y usando la definición del coeficiente de correlación bajo los supuestos de autocorrelación y
homocedasticidad , se tiene que Pj = cov( Vt, Vt-j) /var( Vt). Esto facilita desarrollar la varianza
de la siguiente manera:
4
Utilizamos en estos cálculos la Ley de las Esperanzas Iteradas.
5 ar (!3' ) = var (vJ = l var(vtJ = l var[(X,-µx )et]
v 1 ("i-) T("i-) T ¡var(x,)J'
Tema6 239
var(v) [Tvar( Vt) + 2(T - 1)cov( Vt, Vt-1) + 2(T - 2)cov(Vt, Vt-2) +
+ ... + 2cov( Vt, Vt-T+i)]/T 2
[Tvar(vt) + 2(T- l)var(vt)P1+2(T- 2)var(vt)P2 + ... + 2var(vt)Pr-1]/T 2
var(vt) (T-l) (T-2) 2
T (l + 2 T PI + 2 T P2 + .. . + TPT-1)
var(vt) f
T T, (6.2.4)
1 =
var (/3A) [2_T var(vt)2 l f T· (6.2.5)
(o-~ )
Esta expresión facilita observar la varianza del est imador del coeficiente en cuestión como
el producto de dos factores. El primero (entre corchetes) es la varianza del estimador MCO
de regresión simple en caso de ausencia de autocorrelación, y el segundo es el factor de ajuste
para el caso de autocorrelación. Por tanto , en caso de autocorrelación, necesariamente el error
estándar que estimaríamos a partir de la versión muestra! de (6.2.2) sería incorrecto por un
factor fr. Este factor sería la unidad en caso de que no hubiera autocorrelación.
Este factor cambiará -cambiando por tanto la expresión de la varianza del estimador- si
consideráramos que no solo hay autocorrelación en el error, sino también heterocedasticidad.
En efecto, en tal caso tendríamos que PJ = cov( Vt, Vt-j) / -Jvar( Vt)var(Vt-j) y la varianza de
Vt podría ser distinta para cada t , puesto que admitimos heterocedasticidad. Por tanto la
expresión básica de la varianza será
var(iJ) = [ t
T
var(v,) +2 ~ ~ cov(v,, Vt+j)] l / T 2
[L var(Vt) + 2 (cov( v1, v2) + cov(v1. v3) + ... + cov( v1, vr-1) + cov(v1, vr )) +
t=l
+2 (cov( v2, v3) + cov( v2, v4) + .. . + cov( v2, vr)) +
+... +
+2 (cov( VT-1, VT ))]1/T 2
que podemos escribir del siguiente modo agrupando por covarianzas del mismo orden
T T-1 T-2
varhªc(v) = ~var(vt) + 2 ~ cov(vt,Vt+1) + 2 ~ cov(vt,Vt+2) + ... +
[
T-(T-2) ]
+2 ~ cov(vt,Vt+T-1)+2cov(v1,vr) l/T 2 .
240 REGRESIÓN CON HETEROCEDASTICIDAD Y AUTOCORRELACIÓN
Esta expresión la podemos introducir en (6.2.2) para obtener la expresión var ( ,81) bajo
los supuestos considerados. El siguiente apartado indicará cómo estimar dicha varianza de
manera consistente.
Es interesante observar a qué se reduciría la expresión varhªc(ii) en caso de que no haya
autocorrelación, pero sí heterocedasticidad - como hicimos cuando presentamos la estimación
robusta a la heterocedasticidad. En tal caso, las covarianzas se anularían, y la varianza que-
daría lógicamente de la siguiente forma:
T
varWhite(v) = 1/ T 2 L var(vt),
t=l
que nos facilita obtener una expresión equivalente poblacionalmente a (4.3.14)
var
White (f3' 1) -- varWhite(v) -- 1 ~ var (Vt ) -- (1/ T) (l / T) L,f=1 lE(x¡Ef} .
2 2 2 L_¿ 2
(o}) T (o}) t= l (o})
El hecho de que la varianza denominada varHAC contenga como caso particular a la varWhite
indica que la primera es robusta a la heterocedasticidad y a la autocorrelación, y por tanto
es la que se usará para corregir ambas, es decir, la heterocedasticidad y la autocorrelación.
- T
• cov(vt,Vt-j) (1/T) L:t=j+l(Vt - V(j+l,T))(vt-j - 'Ü(1,r-j))
Pj= - = -
var( Vt) var( Vt)
donde la notación
a, a+ 1, .. ., B
ii(a,B)
-
indica que la media muestra! se calcula a partir de las observaciones
- 1, B, y var(vt) es simplemente la varianza muestra!.
Sin embargo, esta estimación presenta algunos problemas. Para entender cuáles son y
ver las soluciones a los mismos, consideremos que calculamos todas las autocorrelaciones
muestrales Pj, donde cada una de ellas se estima con un error de estimación, y por tanto
el estimador de ir
tendría un error de estimación que incorporaría todos los errores de las
autocorrelaciones. Dicho error seguiría, por construcción, siendo elevado aun incrementando
la muestra infinitamente, y por tanto la estimación de sería inconsistente.ir
Una solución es estimar menos funciones de autocorrelación. Supongamos que ignoramos
las autocorrelaciones de orden superior, y nos quedamos solo con la de orden 1 (j = 1) . En esta
situación ya no tendríamos el problema de estimar un número creciente de autocorrelaciones,
pero tendríamos el problema de que hemos obviado autocorrelaciones de orden superior, lo
que causaría de nuevo inconsistencia en la estimación.
Una solución intermedia consiste en buscar un equilibrio entre ambas situaciones: Ha-
cer que el número de autocorrelaciones incluidas en la estimación dependa directamente del
número de observaciones temporales disponibles, T . El número de órdenes de autocorrela-
ción incluidos lo denotamos por m - 1. En particular el estimador propuesto en la literatura
especializada es:
m-1
;,;-;¡¡) = t(o) + ~ ( 1- m: 1
) (t(j) + t'(-j)) , (6.2.6)
donde "Í'(j ) es una matriz de autocovarianzas muestrales de orden j para j #O, y para j =O
se trata de la matriz de varianzas muestrales
T
r
A (
J = T1 """
")
~ EtEt-jXtXt-j·
A A /
t=j+l
Et= So+ S1 Xlt + S2X2t + ... + S1Xkt + P1 Et-l + P2Et-2 + ... + Pq Et- q +et
que contrasta si hay autocorrelación de orden q con el estadístico
BGLM = (n - q) R~,
6
La tabla de estos valores se encuentra en el documento Apéndices y Tablas.
244 REGRESIÓN CON HETEROCEDASTICIDAD Y AUTOCORRELACIÓN
Los tres contrastes son de tipo 7 LM. La principal diferencia es el uso de autocorrelaciones
parciales, Pí distintas de las otras ya que en el caso de BG controlan los efectos de las variables
contenidas del vector X , mientras que esto no ocurre en los refinamientos tipo-Q. Esto hace
que el test BG sea menos potente cuando la hipótesis nula es falsa.
(yt - Plt-1) = (/30 - pf3o) + /31 (Xit - pXit- 1) + /32 (X2t - pX2t-1) + ...
(6.2.8)
+ f3k (Xkt - pXkt-1) + (Et - PEt-i) .
donde las variables están en cuasidiferencias 8 .
Realizando los cambios de variables siguientes: yt*= Yt - pYt-1 y XJt= Xjt - pXjt-1 y
teniendo en cuenta que Et = Et - PEt-1 , podemos reescribir la expresión (6.2 .8) como
(6.2.9)
Con datos anuales de inflación (calculada a partir del deflactor del PIB) y tasa de paro, en tasas
de variación entre 1955 y 2010 contrastamos si en España existe dilema ( tradeoff) entre paro e
inflación . Para ello regresamos la tasa de inflación respecto de la tasa de paro bajo el supuesto de
que existe una relación inversa entre ambas variables. Por tanto contrastamos si la tasa de paro
8
Si p tuviera valor unitario , las variables estarían en d iferencias (6Xt = Xt - Xt- 1 ) pero como p tiene un
valor inferior a la unidad entonces resulta que (Xt - pXt- 1) está en cuasidiferencias.
9
Cochrane y Orcutt (1949).
1
ºRealmente si utilizamos solo la transformación de Cochrane-Orcutt, los estimadores no serían ELIO para
muestras pequeñas o exactas pero sí asintóticamente.
246 R EG RESIÓN CON HETEROCEDASTICIDAD Y AUTOCORRELACIÓN
es significativamente negativa (H1: /31 < O) , mediante un contraste de una sola cola . Obtenemos
los siguientes resultados
El valor empírico es 14,45 (0,896/0,062 = 14,4516). Por tanto rechazamos la hipótesis nula de no
autocorrelación (Ho: p =O) de los residuos. Los síntomas de autocorrelación nos hacen desconfiar
de la calidad de las conclusiones. La posibi lidad que estamos analizando en este apartado nos
permite dar una solución que consiste en estimar el modelo por CO de la siguiente manera
En este modelo la inflación no esperada hace que el paro dism inuya por debajo de su tasa natural
(tasa de paro coherente con la producción potencia l o t asa de paro estructural). Suponiendo ex-
pectativas racionales , podemos sustituir la inflación esperada por la realmente sucedida un periodo
anterior además, operando en la parte derecha de la expresión anterior tenemos que
--
6.inf laciont = O, 561 - O, 071 · parot
(0,471 ) (0, 041)
Primeras diferencias
La transformación del modelo en primeras diferencias, para eliminar la autocorrelación,
puede ser adecuada cuando pes muy alto (el DW muy bajo).
P art imos del modelo de regresión múltiple
Una propiedad importante del modelo en primeras diferencias es que carece de término cons-
tante.
La ut ilización de primeras diferencias en modelos de series temporales es muy usual. Ade-
más de eliminar o al menos atenuar la autocorrelación de primer orden elevada, se utiliza
también (lo que puede ser aún más importante) para conseguir que las series temporales sean
estacionarias, si bien este aspecto lo dejaremos para más adelante.
El efecto expulsión o desplazamiento tiene lugar cuando el déficit presupuestario reduce la can-
tidad de inversión privada. Para contrastarlo relacionamos la inversión privada (formación bruta de
capital fijo español en términos reales , miles de millones de euros de 2000) , el déficit presupuestario
como porcentaje del PIB , y el propio PIB, también en miles de millones de euros del año 2000.
Las variables tienen periodicidad trimestral ent re el primer trimestre de 1980 y el último de 2010.
El modelo estimado es
--
inversiOnt = -9021 , 891+O,327 · PIBt - 782, 843 · deficitt
(597,733) (0,004) (0,092)
n = 124, R 2 =O, 9878, DW =O , 1906.
Todas las variables son significativas a los niveles usuales. Un incremento del déficit público en un
1 % en relación con el PIB provoca una disminución de 782.843 millones de euros en la inversión
privada. Un incremento de 1.000 millones de euros en el PIB tiene el efecto de aumentar la inversión
privada en 327 millones de euros.
El estadístico DW es O, 1906, muy alej ado de 2. Los valores críticos para 124 observaciones
y 3 parámetros al 5 % de confianza son aproximadamente 1,65 y 1,75 . Como el valor empírico
es menor que el valor crítico inferior, rechazamos la hipótesis nula de no autocorrelación y, en
consecuencia, los residuos están aparentemente autocorrelacionados.
La estimación aproximada de p a partir del DW es 0,9047 (p~ 1 - DW /2 = 1 - 0,1906/2 =
0,9047).
Podemos realizar el contraste general de autocorrelación de Breusch-Godfrey de cuarto orden
a partir de la siguiente ecuación
El valor crítico al 5 % es 9,49 (x 2 4:o,o5 = 9,49) como el valor crítico es menor que el emp1nco
rechazamos la hipótesis nula de no autocorrelación . Como solo es significativo individualmente
el primer retardo llegamos a la conclusión de que los residuos presentan solo autocorrelación de
primer orden. Es habitual contrastar 4 reta rdos cuando los datos son trimestrales (12 cuando son
mensuales, etc) . Puesto que el valor del coeficiente de autocorrelación de primer orden es muy
cercano a la unidad , estimamos el modelo en primeras diferencias,
Los valores críticos del OW para 123 datos y 2 de parámetros son 1,674 y 1,74. Como el valor
empírico es mayor que el valor crítico superior, no podemos rechazar la hipótesis nula de no
autocorrelación; por consiguiente podemos considerar que no hay evidencias de autocorrelación en
los residuos de la regresión en diferencias.
Las consecuencias fundamentales de la estimación en ambos modelos se mantienen: el efecto
expulsión parece claro en ambos modelos. En el modelo en diferencias ahora la influencia del déficit
público sobre la inversión es menor ( 436.657 millones de euros menos de inversión privada por cada
punto porcentual más de déficit público) .
(6.2.10)
lo que nos llevaría a estimar los coeficientes de autocorrelación del modo habitual.
Por otra parte, es posible que coexistan la heterocedasticidad y la autocorrelación. En tal
caso, ya sabemos que la solución más directa es usar HAC. Sin embargo es posible que sea
de interés económico modelizar el componente de la varianza. En tal caso podríamos utilizar
MCG para la heterocedasticidad y MCG para la autocorrelación.
Partimos del modelo lineal usual
Regresamos los residuos estimados por MCO respect o de las variables independientes
calculamos ht(X)
ht (X) = exp (9t).
250 REGRESIÓN CON HETEROCEDASTICIDAD Y AUTOCORRELACIÓN
Estimamos la ecuación del modelo inicial con las ponderaciones aptas para la heterocedasti-
cidad, es decir
Afortunadamente los programas especializados modernos permiten realizar todos los cálculos
de forma bastante sencilla.
Finalmente, cabe señalar que la solución prevista para la autocorrelación se limita a casos
en los que la estructura de los errores es autorregresiva lineal. Nada nos hace pensar que
la estructura haya de ser necesariamente lineal para los errores. Por este motivo sería más
correcto analizar residuos con contrastes de dependencia robustos a la no linealidad, pero
existen pocos y normalmente no están todavía implementados en los programas informáticos
especializados. La ausencia de los mismos es un motivo más para utilizar los estimadores
HAC.
Cabe añadir, por último, que el estimador MCO es consistente no solo en el modelo
de regresión lineal, sino también en el modelo de proyección lineal (MPL). Los estimadores
MCGF, por su parte, requieren el supuesto de media condicionada correctamente especificada.
Si la ecuación de interés es una proyección lineal y no es la media condicionada, entonces los
estimadores MCO y MCGF convergerán en probabilidad a límites diferentes. El límite en
probabilidad de MCGF dependerá de la función particular seleccionada para la regresión
heterocedástica. La cuestión es que la ganancia de eficiencia de MCGF se construye en el
severo supuesto de media condicionada correcta, y el coste que supone es la pérdida de robustez
respecto a la incorrecta especificación.
Estas situaciones aparecen de forma natural cuando las unidades de la sección son grandes
en relación a la población que representan. Por ejemplo, cuando los datos sobre las unidades
de análisis se toman a nivel de país , de comunidad autónoma, o de provincia, es bastante
probable que los resultados de unidades cercanas estén correlacionados. Cuando esto sucede
es porque hay algún motivo que nos hace considerar que unidades próximamente localizadas
reviertan algún efecto entre ellas. Esto crearía una especie de correlación a lo largo del espacio,
en lugar de a lo largo del tiempo, que es lo que hemos considerado hasta el momento.
Es fácil que estas situaciones se den en estudios econométricos de sección cruzada que
analicen regiones económicas, como suele ser el caso de estudios relacionados con la geografía
económica, la economía urbana y agraria. Recientemente su uso se ha extendido al estudio de
procesos de contagio relativos a la actuación de bancos en el marco de las finanzas interna-
cionales, a varias categorías de gastos públicos locales, a técnicas de búsqueda de votantes, y
a crecimiento del empleo y la población, entre otros .
Desde el punto de vista de la estimación el problema fundamental es cuando la correlación
espacial entre unidades procede de los términos no observados en el modelo y recogidos en
los errores, es decir, cuando los errores están correlacionados en las unidades cercanas de
acuerdo a alguna métrica, por ejemplo, la geográfica (aunque no tiene por qué ser la única).
En este caso, las estimaciones de las varianzas son más complejas, no obstante el campo
de la econometría espacial ha contribuido significativamente a dar un tratamiento bastante
unificado y que apunta a seguir produciendo nuevos logros.
EJERCICIOS
Teóricos
l. Sea el modelo Yi = Óxi + Ei y suponga que sabe que var(Ei) crx;. Encuentre la
expresión de la varianza del estimador de 8.
2. Suponga que tras estimar una ecuación de regresión tiene fundadas sospechas de hete-
rocedasticidad. Elija qué solución es preferible. utilizar un estimador robusto o emplear
MCG, si, a) se conoce la forma funcional de la varianza, b) no se conoce pero se puede
estimar con bastante fiabilidad.
e) Suponga que decide emplear MCP para solucionar el problema. ¿Qué observaciones
deben recibir mayor importancia? ¿Por qué?
6. Sea el modelo yt =a+ f3 Xt +Et donde los errores siguen un proceso AR(l).
7. Utilice la expresión del estadístico de Durbin y Watson para obtener una estimación de
p en el supuesto de que los residuos sean AR(l) . Demuestre que el estimador propuesto
- por The1·1 y INagar, d a d o por p' = N2(l-DW/2)+k2
para mues t ras pequenas N 2-k2 . t't•
, es asm o i-
camente equivalente (N es el número de observaciones, DW el estadístico de Durbin y
Watson y k el número de parámetros a estimar).
8. Sea el modelo general Y = X/3 +e. Cuando se cumplen las hipótesis básicas del mo-
delo , la matriz de varianzas y covarianzas de los residuos es O"¡Inn donde I es la matriz
identidad. Encuentre la expresión general de esta matriz cuando los residuos son homoce-
dásticos pero presentan autocorrelación de primer orden. Proponga una transformación
adecuada para estimar el modelo.
Prácticos
9. Los datos de la tabla ET6_1 se refieren a la Comunidad Autónoma de Madrid y
contienen datos de Gastos Totales del Hogar (Y), Renta (X 1 ) y Tamaño del Hogar
(X2) obtenidos de la Encuesta de presupuestos familiares (EPF) referida al año 1998.
a) Estime la ecuación de regresión Yi = f3o + f31 X1i + f32X2i + Ei y diga si los signos
de los coeficientes son acordes con lo esperado.
b) Calcule el valor de los contrastes de Breusch-Godfrey y White. ¿Qué puede decir
del supuesto de homocedasticidad?
e) Suponga que decide corregir la heterocedasticidad empleando el método de MCP.
Haga un supuesto razonable sobre la forma funcional de la varianza de los residuos
y utilícelo para corregir el problema.
d) Estime la ecuación original empleando un estimador robusto a la heterocedastici-
dad. Compare las tres estimaciones obtenidas.
a) Replique los resultados presentados en sobre este modelo en el desarrollo del tema,
donde se han utilizado estos mismos dat os. Represente gráficamente el diagrama
de dispersión residuos-renta y diga si hay sospechas de heterocedasticidad.
b) ¿Es razonable suponer que la varianza residual depende de los ingresos? Justifique
su respuesta.
e) Utilice el contraste de Goldfeld y Quandt arriba descrito, calcule adecuadamente
los grados de libertad y obtenga el valor del estadístico de contraste. ¿Cuál es la
conclusión en relación con la hipótesis de varianza constante?
d) Habitualmente para aumentar la potencia del contraste, la muestra era dividida en
tres grupos, siendo SCRl y SCR2 las sumas cuadráticas residuales de las regresiones
correspondientes al primer y al tercer grupo (es decir eliminando el grupo central).
Repita los cálculos y obtenga de nuevo el estadístico eliminando las 11 observaciones
centrales (tenga presente que ahora habrán cambiado los grados de libertad del
estadístico)
e) Calcule la regresión por MCP.
!) Transforme los datos en logaritmos. Vuelva a dibujar el diagrama de dispersión
residuos-renta y verificar con los contrastes de Breusch Pagan y White la hipótesis
de homocedasticidad.
11. En la tabla ET6 3 hay datos de mil familias españolas con información sobre el régimen
de propiedad de su vivienda, la renta y el nivel de estudios. A partir de estos datos,
12. Sea la curva de Phillips a corto plazo aumentada con expectativas dada por
(6.2.11)
13. Una versión sencilla del denominado lambda model de Campbell y Mankiw 12 es,
a) Utilice los datos de la tabla ET6 5 para estimar el modelo anterior y salve los
residuos.
b) Represente gráficamente y contraste si existe autocorrelación serial. Contraste asi-
mismo el supuesto de homocedasticidad.
e) En función de los resultados del apartado anterior, estime el modelo que considere
más apropiado para estimar la fracción de consumidores que no siguen la regla de
la renta permanente.
12
Consumption, Income and Interest Rates: Reinterpreting the Time Series Evidence. NBER Macroecono-
metric Annual, 1989; vol 4.
Tema6 255
13
En realidad las estimaciones no son directamente comparables al haberse empleado técnicas de estimación
diferente. Además, el periodo muestra! es muy distinto.
Tema 7
En numerosas ocasiones nos encontraremos con que algunos de los factores que afectan a la
variable dependiente tienen carácter cualitativo, es decir, son variables que solo admiten escala
nominal, como por ejemplo género , raza, religión, nacionalidad, región geográfica, acciones de
política económica o empresarial, etcétera. En general , se trata de acontecimientos que solo
admiten una valoración cualitativa. En estos casos se suelen utilizar variables dicotómicas
para incluir su influencia en el modelo de regresión.
Cuestiones relativas a cómo contrastar si hay o no discriminación salarial por ciertas
características de los trabajadores podrán ser tratadas ahora dentro del modelo de regre-
sión múltiple. En muchos casos , las variables binarias pueden reflejar decisiones (y no solo
características) de los individuos o unidades consideradas. En particular estas variables pue-
den representar decisiones políticas o el establecimiento o desarrollo de programas específicos
orientados a un grupo de la población. La evaluación del efecto de estos programas es
posible si podemos incluir estos acontecimientos en términos de variables binarias 1 . En este
caso la cuestión de las relaciones «causa-efecto» es también perfectamente plausible.
En los temas precedentes hemos expuesto fundamentalmente el modelo de regresión lineal,
y en este vamos a utilizar los desarrollos y consideraciones formales obtenidos en el marco del
modelo de regresión lineal para ahora incorporar variables explicativas de naturaleza binaria
que ayuden a mejorar el modelo y, por tanto, la capacidad explicativa y predictiva del mismo.
Desde este punto vista, por lo tanto, no será necesario añadir más supuestos adicionales a los
que ya incorpora la definición del modelo de regresión lineal, supuestos que se encuentran en
la Sección 6.1 para el caso de datos de sección cruzada. Igualmente podremos utilizar variables
binarias en caso de que los datos que configuren el modelo tengan estructura de serie temporal.
En ese caso, recordemos que los supuestos del modelo serán básicamente los mismos con la
correspondiente adaptación de la Suposición 3 prevista en la Suposición 4.
Hechas estas consideraciones, cuando el modelo incorpore variables binarias podremos rea-
lizar entonces interpretaciones similares de los coeficientes estimados, interpretaciones relacio-
nadas con el efecto parcial o marginal de la variable en cuestión sobre la variable dependiente.
Será posible hacer interactuar la variable binaria con otra variable no binaria del modelo, y
1
El Tema 12 desarrolla en mayor profundidad aspectos y técnicas relativos a la evaluación de programas , con
especial atención a la posiblidad de establecer relaciones causales del programa sobre la variable dependiente.
257
258 VARIABLES EXPLICATIVAS DICOTÓMICAS
dotar así al modelo de regresión múltiple de nuevas capacidades explicativas sobre la variable
de interés y su relación con las variables explicativas. Es en este sentido que podemos consi-
derar este tema como continuación o ampliación de la especificación de la forma funcional en
la que se relacionan las variables explicat ivas con la dependiente, y por tanto es una extensión
de aspectos tratados en la Sección 2.3.3. la Sección 2.3.4 y la Sección 2.3.5.
Podremos igualmente llevar a cabo contrastes de hipótesis con técnicas robustas a la hete-
rocedasticidad y/ o a u to correlación sobre los coeficientes del modelo poblacional, de acuerdo
a lo presentado en el tema anterior. Igualmente podremos realizar predicciones de la variable
dependiente para distintos escenarios configurados por determinados valores de las variables
explicativas.
Las variables binarias, dicotómicas o dummies, se definen simplemente con valor unita-
rio cuando un determinado acontecimiento o característica se produce y valor nulo en caso
contrario, es decir, cuando la característica no sucede. La razón de utilizar generalmente solo
los valores unitario y nulo obedece a que la interpretación del modelo de regresión con estos
valores es más intuitiva.
Las variables binarias se pueden utilizar en los modelos de igual forma que las variables
cuantitativas. Los modelos que solo tienen, como variables explicativas, variables dummies se
denominan modelos de análisis de varianza (ANOVA) , mientras que los modelos que presentan
tanto variables cuantitativas como dicotómicas se denominan modelos de análisis de covarianza
(ANCOVA).
Nada impide que haya más de una variable dicotómica. El modelo ANOVA general tiene
la forma siguiente
(7.1.4)
Hay, por tanto , m variables dummies. La interpretación es la misma que en el caso más
simple si las variables dicotómicas son excluyentes, es decir si se trata del análisis de la misma
característica que tiene m + 1 categorías, en este caso el modelo se denomina de categorías
múltiples. Vemos un ejemplo.
Tema 7 259
Ejemplo 22. Relación entre el salario y el nivel de estudios en el sector turístico español
Con los datos utilizados en el Ejemplo 3 podemos estimar un modelo que relacione el salario
en el sector turístico con el nivel de estudios terminados utilizando un modelo ANOVA . La variable
estudios tiene los siguientes valores (sin estudios =
1, estudios primarios 2, secundaria 1 = 3, =
secundaria 11 = 4, F.P. Media =5, F.P. Superior =
6, diplomado 7 y licenciado= =
8). Se
trata de una variable que puede tomar 8 valores y por consiguiente podemos elaborar 8 variables
dicotómicas denominadas D ei que tengan valor unitario si el trabajador i tiene el nivel de estudios
terminados e y valor nulo en caso contrario. El modelo poblacional es
(7.1.5)
La variable estudios terminados tiene 8 categorías pero el modelo solo utiliza 7 dummies. Ello
es así porque la categoría base o de control es el trabaj ador sin estudios, dicho de otra forma, si el
trabajador no tiene estudios entonces el salario esperado es el término constante f3o mientras que
si tiene otro nivel de estudios e entonces su salario esperado es f3o + ªe· En términos más precisos
y
JE (salarial D e = 1, Dj = O para todo e =/= j) = f3o +ªe· (7.1.7)
(7.1.8)
--
salarioi = 10, O + O, 62 · D2i
(0,248)
+ O, 65 · D 3i
(0,299)
+ 2, 59 · D4i
(0,292)
(7.1.9)
+ 2, 54 · D 5i + 3, 26 · D6i + 6, 51 · D 7i + 9, 48 · D 8i·
(0,486) (0,449) (0,431) (0,494)
n = 5286, R 2 = O, 1151.
Podemos comprobar que todas las variables son significativas al 5 % (utilizando 1, 96 como
valor crítico) sin más que dividir el valor de la estim ación de cada parámetro por su desviación
típica, entre paréntesis, y verificar que todas son superiores al valor crítico . La diferencia entre los
parámetros correspondientes a las variables binarias con subíndice 2 y 3 son muy similares (0,62
y 0,65 respectivamente) y lo mismo pasa con las referidas a los subíndices 4 y 5 (2,59 y 2,54).
Podemos real izar un contraste de igualdad de parámetros en ambas situaciones para determinar si
260 V ARIABLES EXP LICATIVAS DIC OTÓ MICAS
son significativamente distintos entre sí. La matriz de varianzas y covarianzas de los parámetros
estimados se recoge en la tabla 7.1. En la primera fila y columna se muestran los parámetros y en
la intersección entre ellas se consignan los respectivos valores correspondientes a las varianzas o
covarianzas así, en la diagonal principal se indican las varianzas, y en el resto , las covarianzas .
1
ee
&2
, - - Q3a3
(a2 , )1 > t n-k-1 ,!!
2
= 1, 96 .
El denominador se calcula de la siguiente manera
El valor empírico en términos absolutos es 2 O,145, claramente inferior al valor crítico. En consecuen-
cia no podemos rechazar la hipótesis nu la y los parámetros estimados no son significativamente
distintos. El mismo procedimiento seguimos para a4 y a5, cuya t empírica en términos absolutos
es 0,110 [(2,595 - 2,541)/(0 ,1285 + 0,2382 - 2·0 ,0616) 112 ] de manera que tampoco podemos
rechazar la hipótesis nula y los parámetros estimados a4 y a 5 tampoco son significativamente
distintos entre sí.
Teniendo en cuenta los resultados ant eriores estimamos el modelo siguiente:
--
salarioi = 10, O + O, 63 · (D 2i
(0,24S) (0,273)
+ D3i ) + 2, 58 · (D 4i
(0,332)
+ D5i)
n = 5286 , R 2 = O, 11 51.
2
[(0,616-0 ,649)/(0 ,0897+0 ,0852 - 2·0,0616 ) 112 ]
Tema 7 261
La variable D 2i + D 3i no es más que una va ri able dicotómica con valor unitario si el trabajador
i tiene el nivel de estudios de primarios o secundaria 1. Igualmente la variable D4i + D si tiene valor
unitario si el trabajador tiene secundaria 11 o FP de grado medio .
La interpretación de (7.1.10) es clara : el valor esperado del salario hora para el trabajador sin
estudios es de 10 euros, con estudios primarios o secundaria 1, 10 ,64 euros (10,004 + 0,634 =
10,638) ; con secundaria 11 o FP de grado medio, 12 ,58 euros (10 ,004 + 2,580 =
12 ,584) ; con
FP de grado superior es de 13 ,26 euros (10,004 + 3,259 = 13,263) ; los diplomados universitarios
esperarían obtener 16,52 euros (10,004 + 6,514 = 16 ,518) ; y los licenciados, 19,48 euros (10 ,004
+ 9,476 = 19,480).
Al mismo resultado se llega si sustituimos el térm ino constante por cq D ii ·
--
salarioi = 10, O · D 1i
(0,248)
+ 10, 638 · ( D 2i + D 3i) + 12, 583 · (D 4i + D si)
(0,113) 0,220
n = 5286, R 2 = O, 1151.
Ahora las desviaciones t ípicas de los parámetros han cambiado y los valores son directamente
la predicción del salario por hora trabajada para los distintos niveles de estudios. Entonces cabe
preguntarse por qué no hemos utilizado directame nte el último modelo . En general , consideramos
que la estimación (7.1. 10) es preferible puesto que en ella se discrimina si el resto de categorías son
estadísticamente significativas respecto del grupo base o de control (en nuestro caso respecto de
los trabajadores sin estudios) , mientras que en la ex presión (7.1.11) habría que realizar contrastes
de igualdad de parámetros tamb ién respect o de ese grupo base .
(7.2.1)
7.2.1. Ejemplos
Discriminación salarial por género e n el sector turístico español
Utilizando los mismos datos de los determinant es del salario medio en el sector turístico ,
añadimos una var iable dicotómica denom in ada mujeri con valor un itario si el trabaj ador i es mujer
y nulo si es hombre. El modelo poblacion al es
(7.2.2)
Su estimación es
--
salarÍOi = 9, 36
(0,192)
+ 1, 12 · estudiosi - 2, 81 · mujeri.
(0,046) (0,169)
(7.2.3)
n = 5286, R 2 = O, 1432.
Utilizando un valor crít ico de 1,96 , con cl ui mos que todos los parámetros son significativamente
distintos de cero .
El grupo de referencia o grupo base son los hombres, es decir, cuando la variable ficticia es
nula. Así el modelo predice un salario por hora trabajada de un hombre sin estudios en el sector
turístico de 10,47 euros (9 ,36 + 1, 12 = 10,48), ya que cuando el t rabajador no tiene estudios la
Tema 7 263
variable estudiosi vale 1 y por cada nivel de estudios terminados su retribución crece en 1,12 euros.
Las mujeres sin estudios, por el contrario, tienen un sa lario hora esperado de 7,67 euros por hora
trabajada (9,36 + 1,12 - 2,80 = 7,68), cantidad que aumenta en 1,12 euros por nivel de estudios
terminados. En la Figura 7.2.2 se muestra la predicción del salario hora para los distintos niveles
de estudios terminados para hombres (en trazo cont inuo) y mujeres .
_g"' 14 +---+--+--+-.,.,,"1---+--~-=--t---l
-~
lo
;}ii 12 +---t--...~--+---h,_--+--+--+---1
--
ln (salarioi) = 2, 24 + O, 066 · estudiosi - O, 192 · mujeri,
(0,011) (0,003) (0,010) (7.2.4)
2
n = 5286, R = O, 1603 .
De nuevo todos los coeficientes son significativos. El coeficiente de la variable mujer indica
que para el mismo nivel de estud ios, las mujeren gana n un 19,2 % menos que los hombres. Esta
aprox imación fundamentada en lo explicado para formu lar la Tabla 2.3 puede ser mejorada ( calcu-
lando la diferencia porcentual exacta) cuando la relación de las variables analizadas es de la forma
log-nivel. La lógica del razonamiento algebraico es la siguiente. Observamos que
. . ( (salario )mujer )
ln(salario)mujer - ln(salariohombre = ln ( l . ) = (33
sa ario hombre
tomando la ex ponencial a ambos lados, se tiene
por lo que la diferencia porcentual exa cta entre los salarios de hombres y mujeres es 100 x
(e.83 - 1) %. Dado que ~3 = -0, 192, tomando exponenciales, restando una unidad y multi-
plicando por 100 obtenemos la interpretación exacta en porcentaje, -17 ,46% [exp(-0 ,192) - 1 = -
0,1746]. Por consiguiente las mujeres tienen en media un salario un 17,46 % menor que los hom-
bres en este sector. Sin embargo, la aproximación logarítmica es muy conveniente porque aproxima
la variación independientemente del grupo de referencia que utilicemos (en este caso hombres o
mujeres) . Si a partir del modelo estimamos con precisión el diferencial porcentual en salarios de
hombres sobre los de mujeres, tendremos algo distinto de lo que hemos estimado anteriormente
(diferencial del salario de mujeres sobre hombres). En particular, tendríamos que [exp(0,192) - 1
= 0,2117] y por tanto un hombre por t érmino medio gana un 21 ,17 % más que una mujer con
igual nivel formativo . Puede resultar confuso e incómodo tener que indicar el grupo de referen-
cia, mientras que la aproximación logarítmica nos sugiere que la diferencia o brecha salarial entre
hombres y mujeres, independientemente del grupo de referencia o base , es de un 19,2 % , valor que
está precisamente entre el 17,46 y 21 ,17%.
Añadimos a la función de consumo keynesiana la variable dicotómica crisist con valor unitario
para los periodos sombreados del gráfico y valor nulo en caso contrario. El modelo poblacional
planteado 3 es
consumot = /30 + /31 · Y Dt + 0: 1 · crisist + Et· (7.2.5)
Bajo los supuestos recopilados en el tema anterior del modelo de regresión lineal (ver los supuestos
en la Sección 6.1 y la adaptación a series temporales), el modelo estimado y los errores estándar 4
3
Planteamos este modelo a efectos meramente ilustrativos. En general , cuando trabajemos con series temporales
será importante analizar algunas características de cada una de las series antes de poder ser incorporadas en la
regres ión. De especial relevancia será , como veremos en la Parte 111 del libro , la característica de la estacionaridad .
En este caso considere el lector que no hay ningún t ipo de inconveniente en incorporar las variables que utilizamos.
4
Ver sección 6.2.2.
Tema 7 265
Figura 7.2 .3: Variación interanual PIB en EE .UU. y las crisis económicas
12 Tasa de variación PIB. EEUU.
Y sus crisis económicas según el NBER.
-4
50 55 60 65 70 75 80 85 90 95 00 05 10
HAC son
coñSUiñot = -113 , 675 +O, 933 ·Y Dt - 41 , 71 6 · crisist,
(13,211) (0,002) (17,579)
(7.2.6)
n = 252, R 2 =O, 9983.
Estos parámetros resultan significativos a los niveles usuales. Cuando la economía estadounidense
se encuentra en la senda de expansión, entonces el consumo esperado es de 41.716 millones de
$ más que cuando se encuentra en crisis para cada nivel de renta disponible. Para una renta
disponible trimestral de 10 billones de $, por ejem plo, la predicción del consumo agregado es de
9.216 billones de$ (0 ,933 ·10.000 - 113,675 = 9.216,325); en periodo de crisis, sin embargo, ese
mismo nivel de rent a provoca un consumo de 9.174 billones de$ (0 ,933 ·10.000 - 113,675 - 41 ,716 =
9.174,609) . La expresión del modelo estimado sugi ere que el comportamiento de los consumidores
estadounidenses se modifica en tiempo de crisis. Cu ando hay crisis además de disminuir el consumo
por la disminución de la renta disponible , el consu mo baja un escalón más como consecuencia de
la disminución del término constante.
En los ejemplos precedentes hemos visto que se puede incluir el nivel de estudios mediante
una variable dicotómica con categorías múltiples, ta mbién hemos visto que es posible extender
el modelo de modo que incluya una variable dicotómica junto con otra cuantitativa , como en el
ejemplo de la discriminación por genéro. Por ejemplos considerados en otros temas sobre esta
cuestión, sabemos que hay otras variab les que influyen en el salario hora ; de hecho, en el Ejemplo
14 estimamos el sigu iente modelo
266 VARIABLES EXPLICATIVAS DICOTÓM ICAS
--
ln(salarioi) = 1, 69 + O, 07 estudiosi + O, 01 ant .i + O, 04 edadi + O, 09 tamañoi .
(0,023 ) (0,003) (0, 0006 ) (0. 00 5) (0,006)
Estimaremos ahora un modelo similar, pero especificando la variable estudiosi con variables
binarias , es decir una variable ficticia con múltiples categorías. El tamaño de la empresa tendrá
ahora tres categorías: pequeña, mediana y grande. Utilizaremos una variable dummy con múltiples
categorías también para este caso (mediana y grande) . Además añadiremos la variable mujeri para
analizar la discrim inación de género en el sect or turístico. El modelo estimado ahora es:
--
ln( salarioi) 1, 98 + O, 05 (D 2i + D3i) + O, 185(D 4i + D5i) + O, 257D6i
(0,021) (0,014) (0,017) (0,023)
+ o, 418D 1i +O, 538D si - O, l 48mujeri + O, l22medianai (7.2 .7)
(0, 022) (0,025) (0, 009) (0,010)
+o , l 72grandei + O, 045edadi + O, Ol2ant .i,
(0,011) (0,005) (0,001)
n = 5286, R 2 = O, 35.
Todos los coeficientes tienen estadísticos tipo t mayores de 2 en valor absoluto con errores
estándar calculados robustamente de acuerdo a lo previsto en el tema anterior.
El modelo estimado presenta tres varia bles independientes especificadas mediante la utilización
de variables dicotómicas. Dos de ellas con categorías múltiples, las referidas al nivel de estudios
terminados y el tamaño de la empresa , y ot ra con categoría simple , discriminación salarial por
genéro . El salario de referencia (grupo base) es el hombre sin estudios que trabaja en una empresa
pequeña .
Así, la predicción o valor esperado del t rabajador varón sin estudios que trabaja en una empresa
de menos de 50 t rabajadores es
factores). Las empresas grandes tienen un salario de aproximadamente un 17 ,2 % superior que las
empresas pequeñas.
Al igual que presentamos en la Sección 2.3.4 la posibilidad de hacer interactuar a las va-
riables cuantitativas, los modelos con variables cualitativas binarias también pueden plantear
interacciones. Por ejemplo, podemos profundizar más en el análisis de la discriminación de
género si en la expresión (7.2.7) además de la variable mujeri, incluimos términos que interac-
túen entre la diferencia de género y el nivel educativo; es decir, podemos estimar el siguiente
modelo:
--
ln(salarioi) 1, 98
(0, 021 )
+O, 049(D2i + D3i) +O, 186(D4i + Dsi) +O, 257D6i
(0,014) (0,017) (0,023)
+o, 493D1i +O, 609Dsi - O, 133mujeri +O, l2lmedianai
(0,026) (0,029) (0,009) (0,010)
+o, l 7lgrandei +O, 044edadi +O, Ol3ant.i (7.3.1)
(0,011) (0,005) (0,001)
-0, l56(D1i + Dsi)mujeri,
(0,037)
n = 5286, R 2 = O, 3532.
Hemos incluido un término de interacción. (D1i + Dsi) ·mujeri con valor unitario cuando
el trabajador es mujer y diplomada o licenciada universitaria. El grupo base es, al igual que
antes, el varón sin estudios que trabaja en una empresa pequeña del sector turístico.
La interpretación es clara: descontando el efecto del tamaño de la empresa, la antigüedad,
la edad y el nivel educativo, el modelo predice para las mujeres un salario de aproximadamente
un 13,3 % inferior a los hombres (-0,133·100). No obstante si la mujer es diplomada o licenciada
la discriminación aumenta, pasando a ser de aproximadamente un 28 ,9 % inferior [(-0,133-
0,156)·100].
Pero las variables binarias, además de interactuar entre sí, también pueden interactuar
con variables cuantitativas, y cuando lo hacen obtenemos modelos con distintas pendientes.
El caso más sencillo es considerar una regresión simple en la que incluimos una variable
dicotómica que modifica el término constante y que también interactúa con la variable no
binaria o cuantitativa. Consideremos el siguiente modelo:
El primer paréntesis determina el término constante: cuando la dummy tiene valor unitario,
el término constante es f3o + ao, y cuando tiene valor nulo f3o, en términos geométricos,
la predicción se desplaza paralelamente manteniendo la pendiente constante tal y como se
muestra en la Figura 7.2.2.
268 VARIABLES EXPLICATIVAS DICOTÓMICAS
El segundo paréntesis modifica la pendiente. Cuando la variable binaria tiene valor unita-
rio, la pendiente es /3i + o: 1 ; en caso cont rario, la pendiente es (3 1 . Las distintas posibilidades
las podemos visualizar también en la Figura 7.3.1 , de manera que en función de los valores que
tomen los parámetros de la variable dicotómica o:o + o: 1 las estimaciones pueden converger,
divergir o cruzarse.
--- ---
Xit
Ye e) ao =O y a1 >O
Ye d) ao =Oy a1 < O
-- -- -.....
E(Y,ID,, =o)= 4:-~ ...-
E (>~I D,, =o)- {3 0 + /3,X,,
Xit
-
ln (salarioi) = 2, 200 - O, 102 · mujeri + O, 079 · estudiosi - O, 027 · mujeri · estudiosi
(0,011) (0,020) (0,004) (0,005)
n = 5286, R 2 = O, 1646.
Todos los estadísticos tipo t son, en términos absolutos, superiores a 1,96, y por tanto los
Tema 7 269
.
_2,7
_g"' 2,6
1
¡-
¡¡
o
·¡¡¡
!:!?. 2,4
e
_, 2,3
2,5
t--
1
.... ....
2,2
.... ....
2,1 _L__,__
A veces el estudio o análisis que estamos realizando nos demanda modelizar de tal manera
que solo la pendiente varíe, manteniendo igual el término constante. Para ilustrarlo regresemos
al ejemplo del consumo en Estados Unidos. Utilizando la variables consumo y renta disponible
en tasa de variación interanual podemos estimar el siguiente modelo:
-----
6..consumo 3t =O, 010 +O, 718 · D..Y D % - O, 449 · crisist · D..Y D %,
(0,002) (0, 043) (0,103)
n = 248, R 2 = O, 5439.
Todos los parámetros son significativos a los niveles usuales. Cuando la economía se encuentra
en la senda del crecimiento económico, entonces un incremento del 1 % de la renta disponible,
en términos interanuales, provoca un incremento del consumo del 0,72 %; sin embargo, en
tiempo de crisis la tasa de variación interanual aumenta solo 0,27 % (O, 718 - 0,449 = 0,269),
es decir, se produce un comportamiento asimétrico del consumidor cuando la situación es de
crisis respecto de situaciones de bonanza económica. La Figura 7.3.3 muestra la predicción
del modelo.
Durante las crisis económicas lo normal es que la renta disponible disminuya. El tramo
270 VARIABLES EXPLICATIVAS DICOTÓMICAS
o 4
E
::J
111
3
5
u
Qj 2
,
, ,
"'CI
¡¡¡
1
.....!: o
::J
lii Crisis
Cll
,
.5 -1
·g , , ,
-~ -2
>
Cll
~ -3
lQ
1- -4
-5
-6 -5 -4 -3 -2 -1 o 1 2 3 4 5 6
Tasa de variaci6n interanual de la Renta Disponible
relevante de la función del consumo en el cuadrante negativo (en crisis) presenta una pen-
diente suavizada (0,27, tramo discontinuo), y en consecuencia disminuciones mayores de la
renta disponible provocan disminuciones menores del consumo respecto al comportamiento
en tiempos de expansión económica.
Por el contrario, durante la fase de crecimiento económico normalmente la renta disponible
aumenta, por lo que en el cuadrante positivo el tramo relevante tiene una pendiente más severa
(0,72, tramo continuo en el gráfico), de modo que prevé que crecimientos de la renta generen
incrementos del consumo mayores.
Todo esto tiene consecuencias importantes de política económica. Por ejemplo, cuando se
está ralentizando el crecimiento, las disminuciones de impuestos, que afectan, por definición,
a la renta disponible de los hogares, provocan incrementos de consumo mayores que cuando
la economía se encuentra en recesión.
7.4. ESTACIONALIDAD
El movimiento estacional puede perturbar las relaciones entre los fenómenos económicos de
interés y por ello frecuentemente las series son desestacionalizadas antes de hacerlas públicas.
Una serie desestacionalizada es aquella a la que se le han eliminado los factores estacionales.
La desestacionalización se puede hacer de muchas maneras 5 pero generalmente los programas
especializados tienen la opción de eliminar los fac tores estacionales (Census X12, Xll ARIMA,
métodos basados en medias móviles, Tramo/ Seats u otros).
La desestacionalización es tan usual actualmente que en ocasiones no es posible encontrar
los datos originales o sin desestacionalizar, sobre todo cuando debemos utilizar series ma-
cro económicas, y no dispondremos a veces de oportunidades para realizar nuestros propios
ajustes estacionales. Esto puede ser un problema cuando queremos relacionar variables con
estacionalidad con otras previamente desestacionalizadas.
Cuando el objetivo es predictivo puede resultar muy conveniente utilizar los datos brutos,
es decir, datos afectados de estacionalidad. Además resulta sencillo tratar la estacionalidad
mediante el uso de variables binarias 6 como veremos a continuación.
Un modelo general que capta el comportamiento estacional (para datos trimestrales por
ejemplo) es
(7.4.1)
Se trata de un modelo ANOVA cuyas variables dicotómicas Dit tienen valor unitario cuando
la observación de la serie temporal se refiere al trimestre i y valor nulo en caso contrario. Por
lo tanto, el grupo base es el factor estacional del primer trimestre, es decir que
(7.4.2)
En este modelo &j es directamente el factor estacional del trimestre j. Así, ft está formado por
la suma de los factores estacionales de Yt, de manera que la diferencia entre la serie original
y con estacionalidad Y t y los factores estacionales ft forma la serie desestacionalizada.
En las expresiones (7.4.1) y (7.4.2) se supone que los factores estacionales se relacionan
entre sí de forma aditiva, pero no necesariamente ha de ser así, de hecho suele ser más frecuente
que los factores estacionales se relacionen de forma multiplicativa. Su estimación es idéntica a
la forma aditiva, salvo en que modifica la variable dependiente por su logaritmo. Esta cuestión
y otras relacionadas con el uso de variables dummy (equivalentemente, ficticias , binarias o
5
Un estudio minucioso de esta cuestión rebasa el alcance de este trabajo. Véase por ejemplo Diebold (2007,
Tema 7) para un tratamiento más detallado.
6
El uso de variables dicotómicas para la eliminación de la estacionalidad parte del supuesto de que es-
te componente es no estocástico o determinista. Analizaremos el componente aleatorio del comportamiento
estacional en la Parte III de este libro , en particular en la Sección 13.8.
272 VARIABLES EXPLICATIVAS DICOTÓMICAS
dicotómicas) estacionales las vamos a tratar en esta sección a través de un ejemplo basado en
las pernoctaciones hoteleras y variables relacionadas.
Si algún sector económico se caracteriza por su fuerte estacionalidad ese es , sin duda, el
sector turístico español. U no de los indicadores más utilizados del sector son las pernoctaciones
en hoteles. La figura 7.4.1 muestra una serie en niveles (millones) y otra en logaritmos con
periodicidad mensual.
60 1 1 i 1
'¡ : ¡ ¡ nl ~d l.
1 1
I ¡I 1: 11 3.5
fi ~ 11 ~ fl 11 11 1\ qIL j1 /1 /
50 1 1~
i ft/11:•11111:11111•:11/1:1/
j' ,
j :¡/:l!;!J!l\!!!I!:¡¡:\:!:
3.0
¡ ¡ ¡ ¡ ¡ 1!¡ ! ¡¡ ¡¡ ¡ ¡ ~r:1¡l:1!1:¡¡i:ii1!1!1!.l!!:i:¡¡:¡:¡:
1
O M
1970 1975 1980 1985 1990 1995 2000 2005 2010
--
ln (pernoctacionest) 1, 826 +O. 059 · D2t +O, 275 · D3t +O, 437 · D4t
(0,074) (0, 104) (0,104) (0,104)
n = 560, R 2 = O, 4052.
El subíndice de las variables binarias indica el número de mes al que se refiere. En total hemos
utilizado 11 dummies, todas excepto el primer mes (enero), que hace de grupo de referencia.
El mayor valor se obtiene en agosto, tal y como esperábamos, y el menor en diciembre. No son
Tema 7 273
--
ln (pernoctacionest) = 1, 826 · Dit + 1, 885 · D2t
(0,074) (0,074)
+ 2, 101 · D3t + 2, 263 · D4t
(0,074) (0,074)
+ 2, 476 · Dst + 2, 623 · D 6t + 2, 858 · D1t + 2, 987 · Dst
(0,073) (0,073) (0,073) (0,073)
+ 2, 754 · Dgt + 2, 427 · D 1ot + 1, 897 · Dllt + 1, 779 · D12t
(0,073) (0,073) (0,073) (0,074)
n = 560, R 2 = 4052.
Ahora los parámetros son directamente los factores estacionales de cada mes. Todos los pará-
metros son significativos pero algunos son muy similares de manera que habría que contrastar
si son diferentes entre sí. Ya sabemos por el modelo de la expresión (7.4.3) que los meses de
noviembre, diciembre, enero y febrero no tienen componentes estacionales significativamente
distintos entre sí. El comportamiento estacional es claro: el mínimo se produce en diciembre
y continúa creciendo hasta el máximo de agosto, momento en que las pernoctaciones van
cayendo de nuevo hasta el nuevo mínimo de diciembre y así sucesivamente. La Figura 7.4.2
muestra el componente estacional.
l
2,9
2,7
2,5
2,3
2,1
1,9
1,7
j
e o 2 .... ooooaJ~
.... .... .o ~ ·¡: '§ tí ..Q .o
~ ro ro E :J ·~ o E :J
Q)
e .o
Q) E ·~ ~ Q) t;
.!!:!
·aº
Q)
VI
3.5
30
2.5
2.0
1.5
n = 560 , R 2 = O, 3929 ,
con solo 4 variables ficticias. El periodo base incluye los meses que van de noviembre a febrero.
No obstante los resultados son esencialmente los mismos. Las pernoctaciones crecen desde el
mínimo, en los meses del periodo base, hasta el máximo de verano (julio, agosto y septiembre),
para luego descender hasta llegar de nuevo al mínimo del periodo base.
Generalmente el objetivo de nuestro análisis no será solo analizar los factores estaciona-
les sino que también estaremos interesados en determinar la influencia de otras variables,
cuantitativas o no. Se pueden añadir, junto a las variables estacionales, variables explicativas
independientes. Así podemos establecer el modelo general de la siguiente forma:
(7.4.5)
Modelo en el que además de incluir los factores estacionales incluimos k variables indepen-
dientes. Este modelo es equivalente al que resulta de regresar las variables cuantitativas pre-
viamente desestacionalizadas por el método que hemos expuesto:
(7.4.6)
ecuación similar a la expresión (7.4 .5), salvo que ahora las variables son series previamente
desestacionalizadas por el método que hemos indicado. Vamos a ilustrarlo con el ejemplo que
estamos desarrollando en esta sección.
Tema 7 275
3.6
3.2
5.6
2.8
5.4
2.4
5.2 f\ ,.,
/ I 11
(\ l\ 2.0
5.0 1 : : 1
: :! :
4.8 ¡ l¡
/ l'y,'
99 00 01 02 03 04 05 06 07 08 09 10 11
----
ln (empleo) = 2, 009 + 1, 189 · ln (pernoctaciones) - O, 098 · D2t - O, 307 · D3t
(0,132) (0,054) (0,025) (0,031)
n = 155 R 2 =O 9366
' ' '
que incluye el empleo y las pernoctaciones en logaritmos y sus correspondientes dummies es-
tacionales. Algunas de las variables binarias no son significativas y habría que incluirlas en el
grupo base. De igual forma habría también que comprobar que el resto son significativamente
distintas entre sí, pero ya vimos en el anterior ejercicio que estas modificaciones no alteran
sustancialmente el modelo y, por otro lado, es claro que los factores estacionales conjunta-
mente considerados son significativos, de manera que podríamos inicialmente mantener todas
las variables tal y como hacemos en la expresión (7.4. 7). Suponiendo el resto de factores cons-
7
Tal y como especificamos el modelo conviene advertir al lector que las serie de empleo y de pernoctaciones
presentan ambas una tendencia creciente. En tales casos la regresión planteada y estimada puede llevarnos
a confundir el rigor y fiabilidad de los resultados al compartir ambas un componente de tendencia común.
Este tema lo trataremos en mayor profundidad en la Parte III del libro, en particular en el Tema 17 cuando
presentamos la cuestión de las «regresiones espurias».
276 VARIABLES EXPLICATIVAS DICOTÓMICAS
---
ln (empleo) = 4, 861+O,057 · D2t +O, 131 · D3t +O, 246 · D4t
(0,036) (0,049) (0,049) (0,049)
+ O, 384 · Dst + O, 444 · D 6 t + O, 508 · D7t + O, 529 · D 8 t
(0,049) (0,049) (0,049) (0,049)
(7.4.8)
+ O, 483 · D9t + O, 355 · D1ot + O, 075 · D11t + O, 034 · D12t
(0,049) (0,049) (0,049) (0,049)
n = 155 R 2 = O' 7233
)
---
ln (pernoctaciones) = 2, 398 +O, 130 · D2t +O, 369 · D3t +O, 533 · D4t
(0,026) (0,036) (0,036) (0,036)
+O, 711 · D 5t +O, 851·D6t+1, 049 · D7t + 1, 169 · Dst
(0,036) (0,036) (0,036) (0,036) (7.4.9)
+O, 934 · D9t +O, 682 · D1ot +O, 167 · D11t +O, 035 · D12t
(0,036) (0,036) (0,036) (0,037)
n = 155, R 2 = O, 9513
---
rlempleOt = 1, 189 · rlpernoctaciones
(0,052)
(7.4.10)
n = 155 ' R 2 =O ' 7708 )
con pendiente idéntica a la expresión (7.4.7) y misma interpretación. Debemos también notar
que el modelo no tiene término constante, la razón se encuentra en que ambas variables son
los residuos de las expresiones (7.4.8) y (7.4.9), y por consiguiente ambas tienen media cero
y su regresión tiene necesariamente también un término constante nulo.
(7.5.1)
Resulta también fácil ver que la expresión (7.5.1) equivale a calcular dos regresiones separadas.
Tema 7 277
(7 .5.2)
(7.5.3)
Supongamos ahora que la variable ficticia D 1i lo que hace es dividir la variable independiente
X li en dos tramos diferentes, es decir que D1i tiene valor nulo si X li tiene un valor menor
que un valor determinado j* y unitario si es mayor o igual que ese valor (D1i = O si X 1i<j*
y D1i = 1siX1i'2j*). El valor umbral j* se conoce como nudo y para transformar la función
en continua para todo el recorrido (que es en lo que consiste la estimación de un modelo de
regresión por tramos) tenemos que garantizar que en ese punto ambos tramos coincidan en
j*, es decir, se tiene que cumplir que para X li = j*, las expresiones (7.5.2) y (7.5.3) coinciden
Presenta el problema de considerar que el incremento del salario es igual para cada nivel
de estudios.
278 VARIABLES EXPLICATIVAS DICOTÓMICAS
• Utilizando variables dummies para cada nivel de estudios como hicimos en la Tabla 7.1.
• Modelos con variables binarias por umbrales. En este caso las variables dummies se
definen de forma incremental. Así el trabajador licenciado tendría valor unitario solo si
es licenciado ; el diplomado tiene valor unitario si tiene al menos ese nivel de estudios, y
así sucesivamente. De esta manera el modelo tiene la misma apariencia
salarioi = !30 +
a1 (Dprimaria + Dsecundaria.I) + a2 (Dsecundaria.II + DF.P.medio)
+ Q3 · DF.P.superior + U4 · Ddiplomado + Q5 · Dlicenciado + Ei,
(7.5.7)
pero la variable Dprimaria + D secundaria.! tiene valor unitario para todos los niveles de es-
tudios excepto para la categoría de sin estudios, con valor nulo. La variable Dsecundaria.II
+ D F.P.medio tiene valor unitario si el nivel de estudios es secundaria II o FP de grado
medio o un nivel superior y valor nulo en caso contrario (si tiene el nivel sin estudios
o primaria o secundaria I), y así sucesivamente. Definidas de esta manera las variables
dicotómicas, la regresión tiene la siguiente interpretación:
Por consiguiente a5 es el valor marginal del licenciado (lo que aumenta las retribuciones por
pasar de diplomado a licenciado), y no la diferencia entre el licenciado y el grupo de referencia
(los trabajadores sin estudios) como ocurría en la expresión (7.5. 7).
Para el caso que nos ocupa (Tabla 7.1) la estimación mediante variables por umbrales es
--
salarioi = 10, 004 · D 1i +O, 634 · ( D 2i + D3i) + 1, 946 · ( D 4i + D 5i)
(0,248) (0,273) (0,247)
n = 5286, R 2 = O, 1151.
Su estimación es
consumoi = 4, 174 +O, 925 ·ingresos+ 4, 903 · D1i - O, 239 ·ingresos· D1i
(0,374) (0,026) (1,607) (0,064)
Todos los parámetros son significativos a los niveles usuales (5 %). El grupo de control son las
familias con ingresos inferiores a los 21.048 euros al año. La interpretación del modelo es la
siguiente, para rentas inferiores a la mediana (21.048 euros al año), es decir, para el 50 % de la
muestra tenemos que:
Entre los 21.048 y los 32.244 euros al año, es decir, para el tercer cuartil
JE ( consumoil 21 , 048::; ingresoi < 32, 244) (/Jo + &1) + (/31 + 81) · ingre~o~.14)
9, 077 +O, 686 · ingresos.
JE ( consumoil ingresoi ~ 32, 244) (/Jo + &1 + &2) + (/31+ 81 + 82) · ingres{lB.;.5.15)
21, 719 +O, 364 ·ingresos (7.5.16)
De manera que la propensión marginal al consumo disminuye cuando cambiamos de tramo como
esperábamos, pero el modelo también muestra consumos autónomos mayores en cada tramo.
La Figura 7.5.1 muestra esta estima ción en trazo discontinuo y el modelo de regresión por
tramos que estimaremos más adelante.
Para estimar un modelo de regresión por tramos tenemos que estimar la expresión (7.5.12)
por mínimos cuadrados restringidos, imponiendo la condición de que los nudos de los tramos sean
iguales.
La igualdad del nudo entre los tramos primero y segundo se consigue igualando las expresiones
(7.5.13) y (7.5.14) para ingresos de 21,048, es decir
Figura 7.5.1: Modelo de regresión por tramos y modelo con variables binarias por umbrales
8
o
E
rl
·--- --
-- -- --
L-----~--
21,048 32,244
Renta
La segunda restricción se consigue igualando el segundo tramo (7.5.14) con el tercero (7.5.15)
para ingresos de 32,244, es decir
(oo + &1) + (01 + 81) . 32, 244 = (oo + &1 + &2) + (01 + 81 + 82) . 32, 244;
o = &2 + 82 . 32, 244; (7.5.18)
&2 = -82 . 32, 244
Sustituyendo (7.5.18) y (7.5.17) en (7.5.10) y operando, obtenemos el modelo de regresión por
tramos
La Figura 7.5.1 presenta la curva en trazo continuo. Los variables explicativas son estadísticamente
significativas. Las propensiones marginales al consumo van disminuyendo por tramos: 0,90 para
50 % de las rentas más bajas ; 0,695 para las rentas situadas en el tercer cuartil ; y 0,154 en el
último cuartil.
282 VARIABLES EXPLICATIVAS DICOTÓMICAS
EJERCICIOS
Teóricos
1. Un investigador pretende estudiar las diferencias entre el salario medio de hombres y
mujeres empleando el modelo Yi = a+ f3Di + Ei donde Yi es el salario y Di una dummy
para el sexo del trabajador. Suponga que Di = 1 si se trata de un hombre y que
obtiene /3 por MCO. Pruebe que el estimador de -y en la regresión Yi = a* +-y Di+ E¡
donde la categoría base es ahora mujer (Di = 1 si se trata de una trabajadora), será
necesariamente ;y = - /3.
2. Con los mismos supuestos que en el ejerc1c10 anterior, pruebe que el coeficiente de
determinación de ambos modelos ha de ser igual.
y
250
200
150
100 V: !
/
V
50/ ¡
0+-~-i---'--+-~~~~~~~
o 20 40 60 80 100 120
Prácticos
4. Los datos de la tabla ET7 1 reproducen los de la tabla E23 pero añadiendo una dummy
que recoge si el individuo pertenece a un hogar roto. Contraste si esta circunstancia tiene
alguna influencia sobre el salario del individuo.
5. La tabla ET7 _ 2 contiene datos referidos a los gastos en transporte aéreo y marítimo
desde el primer trimestre de 1998 hasta el cuarto de 2005, obtenidos de la Encuesta
Continua de Presupuestos Familiares (ECPF). Calcule el movimiento estacional en am-
bas series y represente gráficamente para cada una de ellas, la serie de datos originales
junto con la desestacionalizada. Calcule la regresión entre ambas series con y sin va-
riables binarias estacionales y comente los resultados. ¿Por qué cree que las variables
estacionales no son ahora significativas?
Tema 7 283
7. Suponga que le han encargado un estudio sobre si el hecho de que una ciudad disponga
de universidad influye en el precio de los alquileres. Analice empíricamente esta cuestión
con los datos de la tabla ET7 4.
Tema 8
ANÁLISIS DE ESPECIFICACIÓN Y
PROBLEMAS CON LOS DATOS
Las técnicas de regresión múltiple presentadas en los temas previos se fundamentan en los
supuestos que configuran el modelo teórico de referencia que estemos utilizando. Estos supues-
tos los hemos presentado y estudiado en los temas anteriores. Hemos visto que estas técnicas
tienen un sólido fundamento teórico y estadístico, y nos permiten, en ciertas circunstancias,
hacer realizable uno de los objetivos cruciales en la econometría: realizar estudios estadísticos
que nos permitan estimar el efecto causal que tiene sobre la variable dependiente un cambio
en alguna variable independiente. El objetivo ahora es precisamente analizar qué problemas
existen en la práctica a la hora de usar la regresión múltiple para estimar un efecto causal y,
en la medida de lo posible, cómo se pueden solucionar dichos problemas.
En la Sección 1.3 1 nos referimos intuitivamente a una situación idealizada que nos conduce
a poder obtener conclusiones causales (en promedio) dentro de un modelo. Posteriormente en
la Sección 3.1.5 mostramos la conveniencia de utilizar la esperanza condicionada dado que
para supuestos relativamente generales, la función esperanza condicionada tiene un significado
causal completo sobre el promedio de la población.
La suposición fundamental que hacemos en el modelo de regresión lineal (Sección 6.1), es
que el modelo está caracterizado por la exogeneidad (Ecuación (6.1.2)) y por una forma de
la esperanza condicionada, JE(y lx), lineal. En general, cuando se satisfacen los supuestos del
modelo decimos que el modelo está correctamente especificado. En este tema vemos qué efectos
tiene una mala especificación sobre las conclusiones que obtenemos con la regresión múltiple,
es decir, queremos saber qué factores nos pueden alejar del objetivo de que las estimaciones
de los coeficientes del modelo tengan una interpretación causal. Estamos interesados también
en cómo detectar la mala especificación y ver qué soluciones hay disponibles. Los temas
posteriores a este abundan sobre estas cuestiones y se centran en dar soluciones a este tipo
de errores de especificación. Para ello se necesitan, no obstante, otras herramientas o técnicas
distintas de la regresión MCO, que es la herramienta central de la Parte I del libro. La Parte
II presentará importantes ampliaciones al modelo de regresión, y con ellas trataremos parte
1
Recomendamos ahora su relectura.
285
286 ANÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS
(8.1.1)
Existen numerosos tipos de errores que pueden cometerse en la especificación del modelo,
quizá los más comunes sean la omisión de variables relevantes y la inclusión de variables
superfluas.
grados de libertad producida al introducir nuevas variables explicativas y por ello han surgido
alternativas como el criterio de información de Akaike:
Ak ai'k e= 1n (2=~=1
n
ti) + 2 (k + 1) ,
n
(8.1.2)
k+1
Schwarz = -n-ln(n) + ln (2=~-
i~l €t
2) , (8.1.3)
que penaliza la introducción de nuevos regresares incluso más que el criterio de Akaike.
Este proceso nos puede conducir, no obstante, a estimar un modelo como el siguiente:
(8.1.4)
irrelevante desde el punto de vista económico. La exclusión de alguna de estas variables puede
llevarnos no obstante a problemas de validez del modelo si lo que estamos es incurriendo en
el problema contrario: omitir una variable relevante en el sentido que seguidamente vamos
a explicar. Como veremos, cuando omitimos del modelo una o más variables relevantes, el
problema entonces es mucho más severo, aparte de ser un problema mucho más habitual.
• _
(31
f3 (l/n) I:(Xi - X)t:i
- 1 + (1/n) 2::: (Xi - X) 2 .
(8. 1.6)
La idea de la independencia en media condicionada es que una vez que se controla X2i,
entonces la media condicionada del término error ya no depende de X1i , es decir es como si.
controlado X 2 , entonces X 1 estuviera asignada al azar. La inclusión del regresar X2i hace que
X 1i no esté correlacionada con el término error , por lo que MCO puede entonces estimar el
efecto causal sobre Y de un cambio en X 1 . Sin embargo la variable de control está sujeta al
sesgo de variable omit ida y no tiene una interpretación causal.
Ejemplo 24. Consumo de las familias del sector servicios en Cataluña
En el Ejemplo 9 estimamos, con datos de la encuesta de presupuestos familiares de 2009 , dos
modelos del consumo de las familias cata lanas cuyo sustentador principal trabajaba en el sector
---
turístico. En el primero estimábamos el consumo familiar en función de sus ingresos. El modelo
---
estimado fue «I n (consumoi) = 3, 89 +O, 615· 1n (ingres oi) ». En el segundo añadimos la variable
tamaño (número de miembros de la unidad familiar) , el resultado fue « In (consumoi) = 5, 15 +
O, 443·1n (ingresoi) +O, l42·tamañoi»· Se utilizó este ejemplo para mostrar que la introducción
de nuevas variables afectaba , entre otros, a todos los parámetros estimados por la regresión .
Consideremos que el segundo modelo está bien especificado. Por tanto el estimador del ingreso
del primer modelo es sesgado e inconsistente dado que la variable « número de miembros de la
familia» está correlacionada con los «i ngresos ». Si ampliamos la muestra incluyendo, además del
turismo, la administración pública y otros servicios, los resultados del primer modelo son:
---
In (consumoi) = 3, 922 +O, 610· ln (ingresoi)
(0,637) (0,063)
[0,724] [0,072] (8.1. 7)
n = 207 ? R 2 =O ' 3109 ' R =O ' 3075
2
Ya vimos en el tema referido a la heterocedasticidad que es una buena idea utilizar los errores
estándar robustos a la heterocedasticidad (entre corchetes). Es por ello que en ocasiones mostramos
ambos errores estándar.
Si incluimos el número de miembros del hogar tenemos
---
In (consumoi) = 4, 729 +O, 496·1 n (ingresoi) +O, l2l·tamañoi
(0,638) (0,066) (0,027)
[O, 700] [0,072] [0,026] (8.1.8)
n = 207, R 2 = O, 3704, R2 = O, 3642
Akaike = 1, 313, Schwar z = 1, 361.
5
E I lector interesado en un tratamiento más formal de este supuesto puede encontrarlo también es la sección
en la que se encuentra dicha definición.
Tema8 291
Obviamente, como hemos visto en la sección anterior, el incluir una variable adicional a la
regresión tiene también costes: los derivados de la falta de precisión en las estimaciones de los
restantes coeficientes en el caso de que su coeficiente en el modelo po blacional sea nulo (esto
es cuando sea irrelevante). Por tanto parece razonable buscar un equilibrio entre la búsqueda
de la insesgadez y la varianza (desviación estándar) del coeficiente de interés. Las siguientes
pautas pueden ser una guía para saber si incluir o no una variable adicional:
El primer paso es tener claro cuáles son los coeficientes de interés en la regresión, los
cuales configurarán la especificación base. Esto dependerá directamente de la(s) pregunta(s)
a la(s) que pretenda responder el estudio econométrico. En el caso del ejemplo anterior, el
objetivo es saber el efecto que tiene el ingreso familiar en la pauta de consumo. El segundo
paso consiste en formar una lista de variables cuestionables que sean potenciales fuentes de
sesgos importantes, y que por tanto podrían ayudar a mitigar los sesgos de variables omitidas.
Para conformar la lista de variables cuestionables tendremos que utilizar fundamentalmente
razonamientos informados de tipo económico y que por tanto, generalmente, requieren del uso
de la teoría económica o de estudios analíticos previos.
El tercer paso consiste en aumentar la especificación base con las variables de control
adicionales que hemos identificado en el segundo paso. En caso de que los coeficientes de
las variables de control adicionales sean estadísticamente significativos o si los coeficientes de
interés cambian claramente con la inclusión de dichas variables de control, entonces deberían
incorporarse en la especificación del modelo. En caso contrario, tales variables adicionales son
perfectamente prescindibles.
Por tanto, si hay disponibilidad de variables de control adecuadas es posible mitigar el
problema del sesgo de variable omitida. Pero ¿qué alternativas existen cuando no se dispone
de variables control? En tal caso las soluciones que ha desarrollado la econometría pasan por
la utilización de diferentes tipos de datos.
Una solución consiste en usar datos en los que se observa la misma unidad en diferentes
momentos del tiempo (datos de panel). Como se explica más adelante en el tema dedicado a
este tipo de datos, los datos de panel permiten que sea posible tener en cuenta las variables
omitidas, siempre y cuando estas variables omitidas no cambien con el tiempo.
Otras soluciones son: (i) utilizar la técnica de regresión de variables instrumentales, técnica
292 ANÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS
que también estudiamos posteriormente con detenimiento; o bien, (ii) diseñar un estudio en
el que el efecto de interés se analice mediante un experimento aleatorizado controlado (ver la
sección 1.3). Las soluciones de datos de panel y las soluciones (i) y (ii) serán tratadas en la
Parte II del libro.
(8.2.2)
donde aparecen como variables explicativas los valores ajustados de la Ecuación (8 .1.1) eleva-
dos al cuadrado «Y 2» y al cubo «Y 3 », es decir, incluimos funciones no lineales de las variables
explicativas de la Ecuación (8.1.1).
La hipótesis nula «Ho : 81 = 82 = 0» contrast a que la expresión (8.1.1) está correctamente
especificada. Podemos utilizar un contraste tipo «F» o también la versión LM del contraste,
en cuyo caso la distribución utilizada será una «x§». Veamos un ejemplo.
El segundo usa logaritmos de todas las variables excepto para las binarias estacionales
----
In (chocolatet) = -1, 562 -
(0,339)
1, 147·1n (preciot) + 1, 780·1n (ydt)
(0,082) (0,249)
[0,346] [0,083] [0,304]
-0 , 121·Q2 - o, 293·Q3 +o, 360·Q4 (8.2.4)
(0,040) (0,040) (0,045)
[0,047] [0,041] [0,052]
n = 32, R 2 =O, 9490, R2 =O, 9391, SCR =O, 153.
Nos preguntamos si alguno de los dos modelos está bien especificado. Para ello estimamos las
ecuaciones ampliadas de ambos modelos incluyendo las variables estimadas por MCO de los mo-
delos (8.2.3) y (8.2.4) elevadas al cuadrado y al cubo. La ecuación ampliada del contraste RESET
294 ANÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS
--
chocolaiet = 1, 361 - O, 293-preciot +O, 370·ydt
(0,646) (0,138) (0,146)
-0 , 173·Q2 - o, 401·Q3 +o, 593·Q4
(0.074)
- 8, 207· ( ch--;;;;;:-aiet
(3,709)
r
(0,167) (0,274)
+ 8, 121 · ( ch--;;;;;:-aiet
(2,945)
)3
(8.2 .5)
--
In (chocolaiet) = -2, 674 - 1, 820·1n (preciot)
(1,979) (1 ,395)
+ 3, 066·1n (ydt)
(2,385)
-0, 210·Q2 - o, 521·Q3 +o, 565·Q4
(0,166)
+o, 495.
(1 ,397)
[in
(0,386)
r (0,462)
En el ejemplo anterior hemos visto cómo rechazamos el modelo en niveles mientras que lo
aceptamos en logaritmos . Quizás el mayor inconveniente del contraste RESET sea que no nos
informa de cómo proceder cuando rechazamos un modelo. Sin embargo, nos da información
lo suficientemente relevante como para justificar su utilización, como un paso importante en
la especificación de un modelo econométrico.
(8.2 .7)
Así los modelos (8.1. 1) y (8. 2.7) son modelos no anidados puesto que las variables indepen-
dientes de ambos modelos son diferentes (no es necesario que todas las variables independientes
Tema8 295
sean distintas, basta con que alguna de las variables en ambos modelos sean distintas para
que el modelo sea no anidado )6 .
Cuando los modelos son no anidados, no podemos utilizar los contrastes tipo-F.
Una solución propuesta por Mizon y Richard (1986) es estimar un modelo general que
contenga las variables explicativas de ambos modelos, es decir, estimar
Y cont rastar mediante la «F» habitual, la hipótesis nula de que el modelo correcto es
(8.1.1) «Ro : Ók+i = Ók+2 = ... = Ó2k = Ü», y posteriormente contrastar la hipótesis nula de
que el otro modelo (8.2.7) es correcto «Ro : ói = Ó2 = ... = ók = Ü».
Alternativamente podemos utilizar la prueba «J» propuesta por Davidson y MacKinnon
(1981), basado en el estadístico «t» usual, en la siguiente expresión:
(8 .2.9)
donde la variable «Y/» es la estimación MCO del modelo (8.2.7). Si <«Pi» es significativo,
rechazamos el modelo (8.1.1).
Lo mismo hacemos a partir de la expresión (8.2. 7), estimando el modelo ampliado siguiente:
(8.2 .10)
donde la variable «Y/» es la estimación mínimo cuadrática del modelo (8.1.1). Si <«h» es
significativo, rechazamos el modelo (8.2. 7).
Los contrastes de modelos no anidados pueden llevarnos a soluciones en las que no prevalece
un modelo sobre otro, es decir al rechazo o «aceptación» de ambos modelos. En el caso de
«aceptación» de ambos modelos (<Pi y </J2 no significativos) podemos utilizar el coeficiente de
determinación, corregido o sin corregir, o los criterios de Akaike o Schwarz para decidirnos
por uno de ellos. En el caso de rechazo de ambos (<Pi y </J2 significativos) tendremos que seguir
trabajando la especificación del modelo.
Veamos un ejemplo.
--
.6.ln (carburantet) = O, 007 - O, 732·'6.preciot
(0,012) (0,143)
[0,008] [0,097]
= 31 , R 2 =O, 4748, R2 = O, 4567
n
(8.2.11)
Akaike = -2, 520, Schwar z = -2, 490
RESET =O , 250,p - valor= O, 7810,
donde los incrementos de precios están en niveles. El contrate general de especificación funcional
(RESET) tiene un p-valor de 0.7810 de manera que hay una fuerte evidencia para no rechazar la
hipótesis nula de correcta estimación funcional. Los incrementos de los precios son significativos a
los niveles usuales. La interpretación es clara: un incremento de O,10 euros por litro de combustible
(en términos reales o en euros del año 2000) provoca una disminución del 7,32 % del consumo de
combustible per cápita (0 ,1·0,732·100 = 7,32).
La estimación del segundo modelo es
--
.6.ln (carburantet) =O, 008 - O, 705·'6.ln (preciot)
(0,012) (0,136)
[0,008] [0,071]
n= 31 R 2 = O 4822 R2 = O 4644 (8.2.12)
' ' ' '
Akaike = -2, 535, Schwar z = -2, 442
RES ET = O. 077, p - valor = O, 9259.
--
.6.ln (carburantet) =O, 008 - 1, 329·'6.ln (preciot) +O, 656·'6.preciot.
(0,012) (1.849) (1,937)
(8.2.13)
--
b.ln (carburantet) = -0, 005 +O, 506· b.preciot
(0,024) (1,906)
-- log-log (8.2.14)
+1, 699·b.l n (carburantet) ,
(2,640)
--
b. ln (carburantet) =O, 013 - 1, 172·b.ln (preciot)
(0,024) (1,820)
-- log-nivel (8.2. 15)
- 0, 706·b.l n (car burantet) ,
(2,658)
-- log-log
donde «b. ln (carburantet) » es la estimación mínimo cuadrática del modelo (8 .2.12) mien-
-- lag-nivel
tras que la estimación por MCO del modelo (8.2.11) es «b. ln (car burantet) ».
-- log-log
Como en la Ecuación (8.2.14) la variab le «b. ln (carburantet) » no es significativa
(1 ,699/2 ,640 = 0,644) , no podemos rechazar el modelo(8.2.11).
-- log-nivel
En la Ecuación (8.2. 15) la variable «b. ln (carburantet) » tampoco es significativa
(0 ,706/2, 658 = 0,266) , por tanto tampoco podemos rechazar el modelo (8.2.12).
En defin it iva , tanto si utilizamos el cont raste de Mizon y Richard como la <d » de Davidson y
Mackinnon , no hay evidencias para rechazar ningu no de los modelos. Alternativamente podemos
seleccionar el modelo que mejor ajuste (ambos mode los son no anidados y necesariamente la
variable dependiente es la misma en ambos, de ma nera que podemos comparar el nivel de ajuste
entre ellos) util izando el «R2 », el «Rh> o los crite rios de Akaike o Schwarz . El ajuste del modelo
(8.2.12) es mejor puesto que presenta mayores «R2 » y «Rh> y menores valores de los criterios
Aka ike o Schwarz .
Hasta ahora hemos supuesto que los datos utilizados para estimar los parámetros de
nuestros modelos son contrapartidas precisas de los valores teóricos, pero en la práctica esto
generalmente no es así. Son muchos los problemas de medición que pueden afectar a los datos
que utilizamos. Las variables agregadas, como el PIB , son solo estimadores de sus verdaderos
valores. Otras variables como la cantidad de dinero. la depreciación, los tipos de interés o los
rendimientos del capital son variables que establecemos en el ámbito del análisis económico y
no siempre disponemos de una única medida para cada una de ellas. Incluso en ocasiones las
variables teóricas no tienen contrapartida física: el fondo de comercio, la renta permanente o las
expectativas son ejemplos claros. Obviamente, los errores en las encuestas como consecuencia
de preguntas no contestadas u otras complicaciones, así como los errores de computación son
problemas que también inducen a errores de medida.
Sean cuales fueren las razones por las que se producen los errores de medida, lo cierto es
que estos errores pueden ser fuente de especificaciones sesgadas.
298 ANÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS
(8.3.1 )
donde la variable con asterisco «Yi*» representa la variable sin error de medida. El error de
medida será por definición
w =Y-Y*. (8.3.2)
«Yi » es la variable con errores de medida. Sustituyendo en (8.3.1) tenemos
(8.3.3)
modelo con todas las variables observables y en consecuencia estimable por MCO.
Si suponemos (o es realista considerar para los datos en cuestión) que el error de media de
la variable a explicar «Wi» es independiente de las variables explicativas «Xji», los estimadores
son insesgados y consistentes y los métodos de inferencia usuales válidos.
Para comprobarlo fácilmente consideremos el modelo de regresión simple
si cov(X, w) =O.
También se genera un problemas de ineficiencia al utilizar Y: los errores tienen mayor
varianza «a'1 < a;+ a~ » , y en consecuencia las varianzas (y también los errores estándar) de
los estimadores serán también mayores.
En definitiva solo si los errores de medida de la variable dependiente están sistemática-
mente relacionados con alguna de las variables independientes del modelo, los estimadores
serán sesgados. Pero si el error de medida es aleatorio y por consiguiente independiente de
las variables explicativas, como se suele suponer al ser lo más habitual, los estimadores serán
apropiados aunque con mayores errores estándar.
Tema8 299
(8.3.5)
Las propiedades de los estimadores del modelo (8.3.6) dependen de cómo consideremos o
caractericemos los errores de medida, es decir, dependen de qué supuestos hagamos sobre error
de medida de la expresión (8.3.5). La expresión (8.3.6) sugiere que los sesgos dependerán de
la correlación entre el error Vi, que incluye el error de medicición, y el regresor X1i· De modo
que si Wi estuviera correlacionado con X1i, también lo estaría Vi y habría sesgo e incosistencia
en /31.
Es posible que el marco en el que se obtienen los datos nos lleve a suponer que el error de
medida no está correlacionado con la variable observable, digamos «X1 », es decir que
(8.3.7)
Este marco puede producirse, por ejemplo, cuando los datos provienen de una encuesta en
la que nos parece razonable considerar que el encuestado hace su mejor aproximación, dada
toda su información, acerca del verdadero valor de la variable sobre la que es preguntado. El
error de aproximación (esto es, el error de medida) no está entonces correlacionado con la
respuesta de cada individuo, si ha utilizado toda su información.
Por los supuestos del modelo de regresión lineal sabemos que «X1 » y «Ei» están incorrela-
cionados en (8.3.6); además, por el supuesto (8.3.7), «X1 » y «W1i» también están incorrelacio-
nados. Por tanto «Ei - /31 w1i» de la expresión (8.3.6) tiene media cero y está incorrelacionado
con «X 1». En definitiva si se cumple el supuesto (8.3.7), el modelo con errores de medida
(8.3.6) tendrá estimadores consistentes. En tal caso, como hemos visto tendremos estimado-
res consistentes, pero no olvidemos que la varianza del coeficiente /31 será mayor que en el
caso de ausencia del error, puesto que var (éi - j31 wli) > var (éi)·
Alternativamente el marco en el que se recolectan los datos nos puede hacer pensar que
el error de medición es puramente aleatorio, lo que se denomina modelo clásico de error de
medición. En tal caso podríamos considerar que el error de medida está incorrelacionado con
la variable no observable:
300 ANÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS
(8.3.9
donde el componente aleatorio w 1 es tal que tiene media cero y varianza constante, y además
corr (wi, éi) =O. Teniendo en cuenta la expresión (8.3.9), entonces la variable observada «X 1»
y el error de medida «w1» estarán correlacionados:
(8.3.10
El error de medida «Ei» y la variable observable «X1» están correlacionados en la ex-
presión (8.3.6), lo que incumple el supuesto de esperanza condicionada nula, y por tanto lo
estimadores de (8.3.6) son sesgados e inconsistentes.
El caso del modelo de regresión simple utilizado en esta sección nos permite comprobar la
expresión del sesgo para el modelo clásico de error de medición. Si desarrollamos el límite en
probabilidad del estimador MCO se tiene
var(w) )
= >.[31 - =- =- var(X*) + var(w) f31.
A (
Y por tanto: (i) el estimador /3 1 estará sesgado hacia cero; es decir, si (3 1 > O, entonces
(/31 - f31) < O, mientras que si f31 < O, entonces (/31 - f31)
> O; por lo que podemos decir que
/3 1 infraestima el coeficiente poblacional de la variable medida con error; (ii) la inconsistencia
puede ser despreciable si la variabilidad del error de medida en relación a la variablidad de la
variable explicativa original (es decir si var(X*) es alta en relación a lavar( w)).
Tema 8 301
A modo de resumen hemos comprobado que dependiendo del supuesto que hagamos,
(8.3.7) u (8.3.8), los estimadores de los modelos con errores de medida serán consistentes o
inconsistentes, y esta inconsistencia podría resultar insignificante, pero no nula. Resulta difícil
determinar en la práctica cuál de los dos supuestos es más realista.
Un elemento a considerar es el sesgo que el error de medida puede inducir sobre otras
variables del modelo distintas de la medida con error. Para comprobarlo consideremos el
efecto sobre la variable constante del modelo de regresión simple. Calculamos el límite en
probabilidad para el mismo
= lE(Y) - plimS1lE(X + w)
JE(Y) - \81lE(X),
(8.3.11)
donde denominamos a la variable inobservable mediante un asterisco «Xji». También supone-
mos que tenemos una variable que denominaremos variable proxy para la variable inobservable,
302 ANÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS
y en este caso la vamos a denotar por «X3i»· La relación entre ambas viene a través de la
siguiente relación lineal
(8.3. 12)
donde «E:3i» es el error que hace que «X3i» y «X3i» no sean iguales. «X3i» es una buena proxy
si está muy correlacionada con «X3i»; generalmente el parámetro será positivo «Ó3 > Ü», el
término constante puede ser positivo o negativo y permite que ambas variables se puedan
medir con escalas diferentes. Además, la variable proxy debe ser tal que sea redundante o
irrelevante en presencia de la inobservable X3i. Esto es, X3i afecta a la variable Y indirecta-
mente, solo a través de X3i. Si por ejemplo intentamos explicar la incidencia sobre el salario
de varias variables individuales, y una de ellas es la habilidad personal innata, entonces la
proxy «coeficiente intelectual» no tendría la menor importancia si conociéramos la habilidad
personal de cada individuo de la muestra.
Desde luego, siempre podemos estimar el modelo (8.3.11) eliminando la variable inob-
servable, en cuyo caso nos enfrentamos al problema de variables relevantes omitidas, y los
estimadores de «X ii» y «X2i» serán sesgados e inconsistentes si «X3i» está correlacionado
con alguna de las otras variables explicativas, «Xii» o «X2i»· Ante esta situación parece
una buena idea sustituir en el modelo (8.3.11) la variable inobservable «X3i» por la variable
aproximada «X3i», lo que denominamos solución por sustitución de variables omitidas .
Sin embargo «X3i» y «X3i» no son iguales, y para que «f31» y «f32» sean consistentes
debemos establecer dos supuestos, uno sobre «E:i» y el otro sobre «E:3i»:
l. Sabemos que los errores «E:i» de (8 .3.11) están incorrelacionados con «X1i», «X2i» y
«Xji» por el supuesto de esperanza condicionada nula «lE (éi 1 X1i, X2i, Xji) = 0». Ello
no implica necesariamente que la variable proxy «X3i» esté también incorrelacionada
con «Ei» , de manera que es necesario suponer que la variable aproximada o proxy «X3i»
también esté incorrelacionada con los errores «Ei» del modelo (8.3 .11).
2. Además necesitamos que el error «é3i» de (8.3.12) esté incorrelacionado con el resto
de variables explicativas, es decir que además de estar incorrelacionado con la variable
proxy «X3i », también lo esté respecto a «X1i» y «X2i»:
o dicho de otra forma, el valor esperado de la variable proxy solo debe depender en
media condicionada de la variable explicativa a la que sustituye en el modelo.
(8.3.13)
Bajo los dos supuestos anteriores, los errores «E:i + j33E3i» cumplen los supuestos usuales,
puesto que los errores de (8.3.11) y (8.3.12) tienen media cero y están incorrelacionados con
las variables explicativas. No obtendremos estimadores consistentes de los coeficientes de la
Tema 8 303
variable inobservable «(33 /= (33Ó3» ni del término constante «f3o /= f3o + (33Óo», pero sí del resto
de variables independientes «f31» y «f32».
Solo serán consistentes los estimadores de los modelos que incluyen variables aproximadas
si se cumplen las dos condiciones establecidas anteriormente. Es fácil demostrar que si la
variable inobservable está relacionada con todas las variables explicativas
(8.3.14)
es decir, si «Ói» y «Ó2» son distintos de cero entonces sustituyendo esta ecuación en (8.3.11)
tenemos que
(8.3 .15)
donde los estimadores son inconsistentes si la variable aproximada no es una buena proxy.
En todo caso parece razonable pensar que el sesgo sea menor cuando utilizamos la variable
aproximada que cuando omitimos la variable 8 . Veamos un ejemplo.
(8.3.16)
donde «Y» representa la producción, «K» el stock de capital físico, «H» el stock de capital
humano y «L» el factor trabajo. También incluimos la restricción «1- (31 - f32» de rendimie ntos
constantes a escala.
Aplicando logaritmos y realizando operaciones sencillas tenemos que
(8.3.17)
Pero el problema es que el capital humano del trabajador no es observable ya que depende de
la habilidad, la inteligencia y la preparación del trabajador. No obstante, probablemente el capital
humano esté muy relacionado con la formación del trabajador.
8
Generalmente se acepta que incluir una proxy, incluso si no es muy adecuada, es preferible (salvo excep-
ciones) a omitir una variable; véase por ejemplo Aigner (1974).
304 ANÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS
donde la variable «estudiost» es el número medio de años de estudio por trabajador, dicho de
otra forma, utilizaremos como variable aproximada del capital humano los años de estudio por
trabajador. Además para evitar problemas propios del análisis de series temporales, estimamos el
modelo en primeras diferencias, cuyos resultados son
--ft)
6 1n (
t
=O, 355·6 1n (
(0,050)
lf:-) +O, 298·61n (estudiost)
t (0,088) (8.3.19)
[0,048] [0,073]
n = 30 R 2 = O 6430 R2
= O 6302
' ' ' ' '
donde todas las variables son significativa s a los niveles usuales. Por tanto un incremento del 1 %
en los años de estudio incrementa la pro ductividad del trabajo en un 0,30 %. Un incremento del
capital por trabajador del 1 % incrementa la productividad un 0,35 %.
Alternativamente podemos utilizar como variable aproximada del capital humano la proporción
de trabajadores que tiene al menos estudios de bachiller (o formación profesional superior), lo que
denominaremos trabajadores cualificados; los resultados son
--(,P.)
6 1n
t
= O, 356·61n (
(0,050)
lf:-) +O, 106·61n ( cuali~auiost)
t (0,032) t
(8.3.20)
[0,038] [0,030]
n = 30 R 2 = O 6406 R2 = O 6277
' ' ' ' .
De nuevo todas las variables son signifi cativas a los niveles usuales, la influencia del capital sobre
la productividad apenas ha variado (lo que es una prueba indirecta de que la influencia del capital
no es sesgada) ; sin embargo, la variable refer ida a la formación ha disminuido considerablemente .
Ahora un incremento de la proporción de trabajadores cualificados del 1 % incrementa O, 11 % la
productividad ; el ajuste de ambos modelos es similar. Sea como sea las evidencias sugieren que la
formación influye significativamente en la productividad del trabajo.
Cuando tenemos un modelo suponemos que las variables explicativas, X , son las que
<<causan» o generan cambios en la variable Y. La causalidad simultánea se produce cuan-
do la variable Y genera o «causa» cambios en alguna(s) de las variables X. Una regresión
MCO capturará ambos efectos, por lo que el estimador MCO será necesariamente sesgado e
inconsistente.
Para verlo con mayor detenimiento vamos a comprobar cómo la causalidad simultánea
induce a la existencia de correlación entre el regresar X y el término error en la regresión
poblacional de interés. Por comodidad y a efectos ilustrativos consideremos que existen solo
dos variables X e Y, y que existen dos ecuaciones que indican las relaciones de causalidad
306 ANÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS
entre ambas:
Es factible utilizar el análisis de regresión múlt iple para fines distintos de la estimación
de efectos causales. Una utilidad del mismo muy frecuente es usar el modelo para realizar
predicciones. En ese caso, y a diferencia del uso que veníamos dándole prioritariamente en
este texto, la validez del modelo se ve amenazada por otros factores . De hecho la preocupación
acerca de la estimación insesgada de los efectos causales ya no es un problema de validez
relevante. No debe sorprender en exceso que la insesgadez en la interpretación causal de
los coeficientes deje de ser un problema cuando nuestro interés se centra prioritariamente
en realizar pronósticos. Un modelo de regresión puede originar previsiones fiables , aunque
sus coeficientes no tengan un interpretación causal. De hecho el éxito de tales previsiones
dependerá de que el modelo explique gran parte de la variabilidad de la variable dependiente
y objeto de estudio, y de que la regresión sea est able en el tiempo.
El objetivo en estos casos es obtener un pronóstico fiable. Para ello la regresión estimada
debe poseer un poder explicativo relevante, sus coeficientes deben estar estimados con pre-
cisión, y debe de ser estable, es decir, que la regresión estimada sobre un conjunto de datos
determinados pueda ser fiable para realizar pronósticos a partir de otro conjunto de datos.
Dado que el uso de modelos de regresión para la predicción está más orientado a un
contexto de análisis distinto de la causalidad, y al ser específico de los datos en forma de serie
temporal, trataremos estas amenazas a la validez del modelo en la última parte de este libro.
308 ANÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS
EJERCICIOS
Teóricos
2. Considere ahora la situación inversa (es decir, que el modelo simple es el correcto y se
estima el que incluye además X2i)· Pruebe que el estimador MCO de /31 es un estimador
insesgado de 81.
3. Suponga que pretende estimar el modelo, Yi = 80 + 81Xt + Ei, donde la variable expli-
cativa Xt es medida con error. Considere cuál sería el efecto de los errores de medida
en los siguientes casos:
Prácticos
5. Con datos del mercado de la leche se ha est imado la ecuación de demanda que aparece
en la columna 2 (especificación 1) de la Tabla 8.1 (entre paréntesis aparecen los corres-
pondientes errores estándar). A los efectos de este ejercicio, consideraremos que esa es
la especificación correcta. Sabemos además que la correlación precio y renta es -0.46.
En la especificación (2) se ha estimado el consumo de café en función de su precio, y en
la (3) en función de la renta disponible.
a) Explique por qué las ecuaciones (2) y (3) proporcionan, para precio y renta, esti-
madores diferentes de los obtenidos en (1).
b) Con los datos del enunciado, ¿puede justificarse la dirección de estas desviaciones?
e) Las regresiones simples parecen sugerir que el precio del café explica el 67.7% de
la variación del consumo y que la renta explica el 26.3 % de dicha variación. Sin
embargo cuando ambas variables se incluyen en la regresión, la explicación es solo
del 70 %. Explique esta aparente anomalía.
d) La tabla ET8 _ 1 contiene las mismas series referidas a la cerveza (todos los datos
están en logaritmos). Reproduzca el análisis anterior y comente los resultados.
e) Utilice un contraste de Ramsey para valorar dichas especificaciones (basta con que
incluya un término adicional en la ecuación de contraste).
d) Haga las modificaciones que le parezcan más oportunas para encontrar un modelo
más apropiado.
Parte II
311
Introducción
En la Parte I de este libro hemos presentado la potencia y enorme utilidad que tiene
la regresión múltiple para «medir» o considerar el efecto parcial, eventualmente, causal que
sobre la variable de interés tiene una variación en las variables explicativas independientes.
El último tema de la Parte I señalaba una serie de limitaciones nada despreciables a tener
en consideración para tomar decisiones sólidas en base a estudios de regresión. U no de los
problemas más comunes es que la exclusión de una(s) variable(s) podía llevar a que los coefi-
cientes MCO del modelo de regresión estimado presentaran sesgo de variable omitida. Otros
problemas aparecen cuando hay errores en las variables y la potencial causalidad simultánea,
ambos generan, como hemos visto , problemas de sesgo que invalidan las conclusiones.
En esta parte ampliamos el modelo de regresión con la intención de ofrecer técnicas y
metodologías que palíen o resuelvan estos problemas. El Tema 9 presenta un método general
para la obtención de un estimador consistente de los coeficientes desconocidos de la función
de regresión poblacional cuando la variable explicativa, X, está correlacionada con el término
error. El Tema 10 presenta una metodología que permite que la estimación del modelo de
regresión no se vea afectada por la omisión de algunos tipos de variables omitidas que no
son observables. Para ello es requisito necesario utilizar datos de panel. El Tema 11 ofrece
una herramienta para tratar problemas relacionados con la forma funcional en el modelo de
regresión. En particular trata una situación de gran utilidad que se produce cuando la variable
a explicar es de naturaleza limitada por ser discreta o limitada (ya sea binaria o no, o bien
referidos recuentos o unidades temporales, etcétera), y queremos explicar los motivos por
los que cambia el comportamiento de este tipo de variable limitada dependiente. Tanto los
modelos a utilizar como la interpretación de la regresión cambian sustancialmente respecto
a lo visto hasta el momento. Finalmente el Tema 12, pese a ser considerado como un tema
avanzado no solo por el tratamiento analítico, sino también a nivel conceptual, presenta una
temática doblemente interesante. Por un lado , en la tónica de los temas precedentes de esta
parte, ofrece soluciones a los problemas de causalidad y simultaneidad, lo cual de por sí es
enormemente útil. Y por otro lado, las herramientas presentadas en este tema son utilizadas
cada vez con mayor frecuencia en la evaluación de programas económicos y sociales.
313
Tema 9
En el tema anterior comprobamos que aunque el modelo de regresión lineal (es decir, el
caracterizado con los supuestos de la página 224) es hasta cierto punto general, sin embargo
la realidad de las relaciones económicas y los datos económicos nos conducen fácilmente a
situaciones en las que alguno(s) de los supuestos que caracterizan al modelo de regresión
lineal no son satisfechas, y por tanto la validez del modelo es limitada. Tales son los casos
presentados, en dicho tema, por sesgo de omisión de variables, errores en las variables, y
causalidad simultánea. Todos ellos comparten que
es decir, todos estos casos violan el supuesto de exogeneidad. En este tema, entre otras cosas,
quedará claro el sentido que tiene denominarlo con el calificativo de «exogeneidad». Como ya
sabemos por la expresión (5.1.6), la violación del supuesto se genera porque existe correlación
entre alguna(s) la(s) variable(s) explicativa(s) , X, y el término error, e,
315
316 REGRESIÓN CON VARIABLES INSTRUMENTALES
como un instrumento que nos facilite estimar f3J, j = 1, 2, ... , k, y por este motivo se denominan
variables instrumentales (VI).
El método de la regresión con variables instrumentales es un método para la obtención de
un estimador consistente de los coeficientes de interés de la función de regresión poblacional
(FRP) cuando la variable explicativa X está correlacionada con el término error. Intuitiva-
mente, podemos comprender cómo funciona la regresión VI si consideramos que X consta de
dos partes. Una parte, que por algún motivo , está correlacionada con e, y por tanto es la parte
que genera disfunciones; y otra parte que no está correlacionada con c. Si es posible obtener
información que permita aislar la primera parte de X , podríamos estudiar solo las variaciones
de X que no están correlacionadas con el error, y obviar las variaciones de X que sesgan la
estimación M CO.
Consideremos el ejemplo del salario hora que hemos trabajado a lo largo de los temas
anteriores. Supongamos que el modelo bien especificado es el siguiente:
(9.1.1)
donde el término error representa los factores omitidos que determinan la variable dependiente,
en este caso, ln(salario). Indudablemente la habilidad del trabajador debe influir en el salario.
Además el nivel de estudios y la habilidad estarán normalmente también correlacionados. El
problema es que la variable «habilidad » es, cuanto menos, difícil de definir y en términos
prácticos imposible de medir, de manera que nos encontramos con una variable importante
que es inobservable.
Podemos sustituir la variable inobservable «habilidad » por una variable aproximada (proxy 1
como el «coeficiente de inteligencia», siempre que esta variable no esté correlacionada con «e»,
y que su valor esperado solo dependa de la variable «habilidad». Si es así podemos sustituir la
variable «habilidad» por «coeficiente de inteligencia» en (9.1.1) y obtendremos un estimador
de «/31» insesgado y consistente.
Consideremos, no obstante, que la variable «coeficiente de inteligencia» no es realmente
una buena proxy, y por tanto no podemos utilizarla. En su lugar podríamos considerar la
posibilidad de estimar el modelo sin la variable inobservable «habilidad» , es decir , estimar el
modelo de regresión simple
(9.1.2)
en el que la variable «habilidad» pasa a formar parte de los errores «v», que necesariamente
son distintos de los errores de la FRP (9 .1.1), c.
Por otra parte, dado el modelo de FRP, sabemos que
(9.1.3)
1
Ver Sección 8.3.3.
Tema 9 317
es decir, la variable que habitualmente denotamos por X está correlacionada con el término
error «v». Cuando sucede esto decimos que la variable explicativa es endógena. Solo
cuando X no está correlacionada con los errores poblacionales, decimos que la variable ex-
plicativa es exógena.
En el caso de la ecuación mal especificada por omisión de variable relevante, como en
la Ecuación (9.1.2), sabemos que la variable explicativa (estudios) será endógena al estar
correlacionada con el error v, ya que hemos considerado que el modelo poblacional es (9.1.1),
y por tanto el error de la i-ésima observación incorpora la variable habilidadi. Por este motivo,
MCO generará estimaciones no consistentes y sesgadas de los coeficientes de interés en el
modelo (9.1.2). Para estimar consistentemente «f3o» y «f31» en estas condiciones, tenemos
que utilizar información externa a la proporcionada en el modelo (9.1.2). Más concretamente
debemos encontrar una variable instrumental «Z» que satisfaga dos condiciones necesarias
para que el instrumento tenga el efecto deseado de permitirnos estimar consistentemente
los coeficientes de interés, es decir, dos condiciones para que el instrumento sea válido. A
estas condiciones se las conoce como condición de exogeneidad del instrumento y la
condición de relevancia
Ahora bien, ¿podríamos utilizar esta variable proxy como VI? Para contestar observemos que
en el caso de variables aproximadas, la variable «cociente intelectual» es una buena proxy de
la variable «habilidad» por estar muy correlacionada con ella, y además es relevante porque
es razonable esperar que esté también correlacionada con la variable que registra el nivel de
estudios concluidos. Sin embargo se requiere que el instrumento esté incorrelacionado con los
errores «v» [y, como sabemos, en la Ecuación (9.1.2) la variable «habilidad» forma parte de
los errores, por lo que la variable «cociente intelectual» está correlacionada con dichos erro-
res] por tanto podemos concluir diciendo que dicha variable es una mala variable instrumental
para el modelo (9.1.2).
En el caso del salario , expresión (9.1.1) , los expertos en el mercado laboral han utilizado
como variable instrumental el «nivel educativo de la madre». Este instrumento cumple clara-
mente la condición de relevancia al estar correlacionada con la variable «estudios» del hijo, y
puede resultar que también cumpla la condición de exogeneidad del instrumento , si conside-
ramos que la habilidad del hijo no está correlacionada con el nivel de estudios alcanzado por
la progenitora, cuestión que ha sido discutida en la literatura especializada.
Otra solución basada en VI ha sido utilizar instrumentos formados por variables binarias
(dicotómicas). En este sentido y para un modelo sencillo de los salarios de los hombres,
modelo (9.1.1), Angrist y Krueger (1991) propusieron como variable instrumental de los años
de educación una variable binaria con valor unitario si el nacimiento se produce en el primer
cuatrimestre y valor nulo en caso contrario2 . También esta aproximación ha sido motivo de
serias objeciones3 en la literatura especializada. Lo que pone de manifiesto que la elección de
instrumentos válidos es una cuestión central en el método de VI, y por tanto las decisiones
han de estar muy justificadas. Sin duda encontrar buenos instrumentos no es siempre fácil.
donde los parámetros 7l"Q, 11"1 son el intercepto y la pendiente, respectivamente, y donde Ui es el
término error de esta regresión auxiliar. Esta regresión define las dos partes que necesitamos.
A partir de las condiciones de validez del instrumento, la parte no problemática de Xi es
7ro + 7r1Zi, que es la parte de Xi que captura o explica Zi. Dado que Zi es exógena, esta
componente está incorrelacionada con el término error de (9.1.6), Ei. La otra parte restante,
es decir, Ui será la parte de Xi problemática por estar correlacionada con Ei. Los MC2E utilizan
la parte no problemática, pero para ello es necesario estimar por MCO los coeficientes 7l"Q, 11"1
y formar la variable Xi = 11'0+11'1Zi. La segunda etapa consiste en la estimación por MCO de
la regresión de la variable a explicar Yi sobre Xi. Los estimadores resultantes de la segunda
regresión son los estimadores MC2E que denotamos por /:Jff 2E y ~1(1C 2 E . ª
Es relativamente fácil comprobar que en una regresión por VI simple, esto es, con una
sola variable explicativa endógena y un solo instrumento , la estimación MC2E nos conduce a
estimaciones consistentes de los coeficientes de la Ecuación (9.1.6). Para ello expresamos {31
en función de las covarianzas poblaciones que induce la Ecuación (9.1.6):
A partir del requisito de exogeneidad del instrumento, cov(Zi, Ei) =O, y dado el cumplimiento
del requisito de relevancia, cov(Zi, Xi) i= O, podemos encontrar (identificar) la expresión
poblacional del parámetro {31:
'MC2E - ~MC2E -
f3o =Y - {31 X, (9.1.9)
si el instrumento «Z» y la variable endógena explicativa «X» coinciden, entonces los esti-
madores por VI y MCO (,6
1 = co~(~S)) coinciden. De hecho si recordamos las ecuaciones
normales de la estimación MCO
n n
L (Yi - ~o - ~1Xi) = L ti =o
i=l i=l
320 REGRESIÓN CON VARIABLES INSTRUMENTALES
y
n n
¿ xi (Yi- ~º - ~1xi) = ¿ xiti =o,
i=l i=l
que nos conducían al estimador MCO, y utilizamos ahora la variable Z para «instrumentali-
zar» la variable explicativa endógena X en dichas ecuaciones obtendríamos:
n n
L (Yi - ~o - ~1Xi) = L ti = o (9.1.10)
i=l i=l
y
n n
¿zi (Yi- ~o - ~1xi) = ¿ziti =o, (9.1.11)
i=l i=l
que resolviendo nos permitiría recuperar la expresión del estimador MC2E (9.1.8) , y por tanto
también el estimador MC2E del término independiente.
Dado que las covarianzas muestrales en dicha expresión (9 .1.8) son estimadores consis-
tentes de sus respectivas poblacionales, es decir, éoV (Zi, Yi) !!+ cov (Zi, Yi), y cüv (Zi , Xi) !!+
cov (Zi, Xi), tendremos que
(3•1M C 2E J!+ {3 1,
por lo que el estimador de VI es también consistente.
De nuevo el uso de teorema central del límite, al tratarse de promedios de variables alea-
torias, nos conduce a la normalidad, tal y como demostramos en el Apéndice a este tema. Por
tanto, para muestras grandes resulta que el estimador de MC2E nos conduce a una distribu-
ción normal
' MC2E as ( 2 )
f31 '"" N {31 ) (]' fjtf C 2E )
donde
2 _ var ((Zi - µz) éi)
(]'{3MC2E - 2 ' (9.1.12)
1 n [cov (Xi, Zi)]
La expresión (9.1.12) se puede estimar a partir de la estimación de la varianza y covarianza
que aparecen en la misma. La raíz cuadrada de la estimación de (9.1.12) es el error estándar del
estimador VI. Dado que el error podría ser heterocedástico hemos de asegurarnos de utilizar
las versiones robustas a la heterocedasticidad por los mismos motivos que lo hacíamos con el
estimador MCO en regresión múltiple.
Para contrastar hipótesis sobre f31 utilizamos un estadístico tipo t , y si queremos construir
un intervalo de confianza al 95 %, siempre que la muestra sea grande, lo haremos de este modo
en este tema para referirnos a las mismas: la variable dependiente que es endógena, Yo; las
variables explicativas (regresares) endógenas, que están correlacionadas con el término error, y
por ser endógenas, pero distintas de la dependiente, las denotamos por Yk siendo el subíndice
k > O; los regresares que son variables exógenas incluidas, X; y por último las variables
instrumentales, Z.
El caso del modelo simple de regresión por VI [Ecuación (9.1.6)] quedaría con esta notación
de la siguiente manera
(9.2.1)
En este caso la regresión VI simple de la sección anterior es factible que se practique
porque hay el mismo número de regresares endógenos, k = 1, que instrumentos, Z. En caso
de que hubiera menos, es decir, en caso de que no hubiera instrumentos no podríamos realizar
la regresión de la primera etapa. Sin embargo, en caso de que hubiera más instrumentos que
regresares endógenos también podríamos hacer la regresión VI. Por tanto, es especialmente
relevante la relación entre el número de instrumentos (m) y el número de regresares endógenos
(k). Decimos que los coeficientes de regresión están exactamente identificados si el número
de instrumentos es igual al número de regresares endógenos, es decir, m = k. Los coeficientes
están sobreidentificados si el número de instrumentos es mayor que el número de regresares
endógenos, m > k. Si el número de instrumentos es menor, diríamos que los coeficientes están
subidentificados. Para estimar los coeficientes mediante la regresión VI, estos deben estar
identificados o sobreidentificados.
(9.2.2)
donde la variable «Y1i» es endógena o correlacionada con los errores «Ei», el resto de variables
explicativas son exógenas (no correlacionadas con el término de error «Ei» ), y por tanto el
número de regresares endógenos es 1, k = l; el número de regresares total (incluyendo la
constante) es r + 1( = r + k). La Ecuación (9.2.2) a veces se denomina ecuación estructural.
Supongamos que tenemos solo una variable instrumental (m = 1) y que por tanto cumple
las condiciones de exogeneidad, «Zii» exógena respecto a (9.2.2), esto es, no correlacionada
con los errores «cov (Z1i, éi) = Ü»; y de relevancia «Zii », está correlacionada con la variable
endógena explicativa «cov (Z1i, Y1i) =/=- 0».
Esta última condición de relevancia la podemos intentar contrastar directamente en la
primera etapa cuando formamos la regresión:
(9.2.3)
donde regresamos la variable explicativa endógena «Y1i» con todas las variables exógenas de
la ecuación estructural (9.2.2) y el instrumento. Esta ecuación se denomina forma reducida
del modelo estructural (9.2.2) para la variable Yk. El requisito de correlación entre la variable
322 REGRESIÓN CON VARIABLES INSTRUMENTALES
(9.2.4)
donde comprobamos que los errores «Ei + f3k+l ui» tienen media cero y están incorrelacionados
con todas las variables explicativas, y ahora además los estimadores son consistentes.
Los programas especializados suelen estimar de forma rutinaria por MC2E y por tanto no
es necesario realizar las dos etapas manualmente. Esto es especialmente importante porque los
errores estándar que calcularíamos a partir de la segunda etapa se calcularían (como vemos)
con estimadores del término error inapropiados pues no solo incorporarían (en tal caso) a
los Ei· El software econométrico especializado evita el realizar las dos etapas, y solventa esta
fuente de confusión o error. Generalmente estos programas piden que se especifique la ecuación
estructural (9.2.2) y otro conjunto de variables que incorpore todas las variables exógenas del
modelo estructural y las variables instrumentales propiamente dichas. En todo caso, salvo que
expresamente se indique lo contrario, presentaremos la regresión con Y1i en lugar de con Y1i
indicando siempre cuáles han sido los instrumentos.
Para comprender aún más la lógica de los MC2E, consideremos el modelo de regresión
simple con más de un instrumento disponible. En realidad para estimar por MC2E, según nos
indican las ecuaciones (9.1.10) y (9.1.11 ), bastaría un solo instrumento por lo que podríamos
deshechar los restantes. Sin embargo deshechar instrumentos es desperdiciar información (si
los instrumentos son buenos). Como hemos descrito, el método de los mínimos cuadrados en
4
Podríamos utilizar cada una de las variables instrumentales para estimar el modelo estructural (9.2.2) por
MC2E, pero entonces tendríamos dos estimadores diferentes y normalmente ninguno de los dos sería eficiente.
Tema 9 323
dos etapas (MC2E) nos conduce a considerar toda la información a través de la variable Y1,
constituida a partir de los instrumentos disponibles, y en ese caso las ecuaciones normales
serían
n n
L (Yi - ~o - ~1Xi) = L ti = o
i=l i=l
n n
I:-Y1i (Yi - ~o - ~1xi) = I:-Y1iti =o.
i=l i=l
Una forma alternativa de estimación es posible. Consideremos, por simplificar, que te-
nemos dos instrumentos (Z1, Z2) para el modelo de regresión simple. Ahora, además de las
restricicciones sobre los momentos (9.1.10) y (9.1.11), habrá otra condición o restricción nueva,
por lo que tendremos un total de tres restricciones
n n
L (Yi - ~o - ~1Xi) = L ti = o
i=l i=l
n n
L Z1i (Yi - ~º - ~1xi) = L Z1 iti =o,
i=l i=l
n n
L Z2i (Yi - ~o - ~1xi) = L Z2iti =o
i=l i=l
es decir, ahora tenemos tres ecuaciones con solo dos incógnitas, por lo que en principio po-
dríamos obviar una de las ecuaciones y usar las dos restantes para resolver y despejar las
incógnitas. Sin embargo para evitar desperdiciar información, podemos seleccionar los ~1, ~o
que más se aproximen a satisfacer simultáneamente las tres restricciones muestrales.
Esta vía de estimación conduce a la denominada estimación por el Método Generalizado
de los Momentos (MGM o GMM, por sus siglás en inglés) , y que desarrollamos en el apartado
9.5.1 de este tema. De hecho , como entonces se verá, el estimador GMM es más eficiente que el
de MC2E, estimador (este último) que bajo ciertos supuestos es un caso particular (de dichos
supuestos) de estimación GMM.
Intuitivamente, la mejora en la eficiencia se obtiene minimizando una versión ponderada
de las tres restricciones muestrales arriba indicadas, lo que indica o sugiere que no todas las
restricciones han de ser consideradas de igual importancia. Se espera que haya ponderaciones
(que den peso a cada una de las tres restricciones) que hagan óptimo o mejor (en térmi-
nos de menor varianza) las estimaciones de los tres parámetros desconocidos. Por ejemplo,
la ponderación más simple consistiría en hacer que las tres restricciones tuvieran la misma
importancia (si llamamos a cada una m1, m2, m3) minimizar la distancia a cero sería que la
suma de cuadrados fuera mínima: min( mr + m~ + m§). Otras alternativas de ponderación nos
llevarán a estimadores con menor varianza, tal y como se desarrolla en el apartado 9.5.1. Una
de esas pond~raciones mejores sería dar mayor peso a los momentos (restricciones) con menor
varianza, y esto es así por el mismo motivo por el que el estimador de mínimos cuadrados
generalizados, que ponderaba por la inversa de la (raíz de la) varianza, era más eficiente que
el estimador MCO.
324 REGRESIÓN CON VARIABLES INSTRUMENTALES
(9.2.5
Para estimar (9 .2.5) necesitamos un número «m», igual o mayor a «k», de variables ins-
trumentales exógenas al modelo estructural (9.2.5) que estén correlacionadas con las «k»
variables endógenas del modelo estructural; esto se denomina condición de orden (número
de instrumentos al menos igual al número de variables explicativas endógenas).
Desafortunadamente la condición de orden es necesaria pero no suficiente para identificar
y por tanto para poder estimar el modelo estructural (9.2.5). La condición suficiente para
identificar el modelo estructural, denominada condición de rango, requiere estimar todas las
ecuaciones reducidas del modelo estructural. P ara la Ecuación (9.2.5) , tenemos «k» ecuaciones
reducidas
1(1)i = 7fQl + 7r11X1i + 7r21X2i + ... + 1fr1Xri + 1f(r+l)lz(l)i + ... + 1f(r+m)lZ(m)i + U1i
1(2)i = 7f02 + 7r12X1i + 7r22X2i + ... + 1fr2Xri + 1f(r+l)2Z(l)i + ... + 1f(r+m)2Z(m)i + U2i
Y(k) i = Kok + 7rlkXli + 7r2kX2i + ... + 1fr kXri + 1f(r+l)kz(l)i + ... + 1f(r+m)kZ(m)i + Uki·
(9.2.6)
Si utilizamos notación matricial para mostrar los estimadores de los instrumentos, obte-
nemos la siguiente matriz:
1f(r+l)l
1f(r+l)2 ::: :~:::~~ ) (9.2.7)
(
1f(r~l)k 1f(r+m)k
En el caso de que el número de instrumentos sea igual al número de variables endógenas
la matriz anterior sería una matriz cuadrada, al ser el número de filas igual al número de
columnas. Lo que interesa no es tanto el número de filas y columnas, sino el rango de la matriz
para que el modelo sea estimable. P ara que el modelo estructural (9.2.5) esté identificado y
sea estimable, el rango de la matriz de orden (k x m) debe ser igual al número de variables
endógenas explicativas «k» (igual al número de filas).
En caso de que m = k, la condición se satisface si su determinante es distinto de cero. Si
el rango es menor (determinante nulo) entonces el modelo estructural no está identificado y
no es estimable.
Si el número de instrumentos, m, es mayor que el número de endógenas explicativas
entonces la matriz de (9.2.7) tendrá un número de columnas mayor que «k», en tal caso
el modelo estructural está identificado si podemos construir una matriz de «k» columnas y
«k» filas cuyo determinante sea distinto de cero (matriz de rango «k») .
Tema 9 325
l. Regresiones en la primera etapa: regresar por MCO Y1i sobre una lista de variables
formada por las variables instrumentales (Z1i , ... , Zmi) y por las variables exógenas in-
cluidas (X1i, ... , Xri) , incluyendo el intercepto. Esto nos permite calcular los valores
estimados de Y1i , que hemos denominado Yú, i = 1, .. ., n. Esto se repite para todos los
regresares endógenos, Y2i, ... , Yki, calculando por tanto sus valores estimados respectivos,
f'2i, ... ,
Yki, i = 1, ... , n.
2. Regresión en la segunda etapa: regresar por MCO Yi sobre una lista de variables forma-
da por los valores estimados de las variables endógenas ( Y1i, ... , Yki) y sobre las varia-
bles exógenas incluidas (Xli, ... , Xri), incorporando el intercepto. El estimador MC2E,
f:JMC2E = (f3tIC 2E, /Jf!C 2E, ... ,
/3/:!S2E) , son los coeficientes estimados en esta segunda
etapa.
En el modelo simple de la sección anterior, establecimos dos condiciones [(9 .1.5) y (9.1.4)] para
la validez de un instrumento. Las condiciones o requisitos para la validez de los instrumentos
en el modelo general de VI lógicamente han de incorporar a estas como caso particular.
En el caso más simple, que es cuando solo hay una variable explicativa endógena, Y1i , no
hay variables exógenas y solo hay un instrumento, cov (Zi, Y1i) =/:- O. En caso de que exista
una variable endógena y varios instrumentos, la condición de relevancia es que al menos un
instrumento sea útil (nos dé información) para aprender algo (predecir) de Y1 , dado X , es
decir, al menos el coeficiente de un instrumento Zen la regresión poblacional de Y1 sobre los
m instrumentos Z y las r exógenas incluidas X , debe ser distinto de cero. En el caso de que
existan varias variables endógenas incluidas en el modelo estructural, debemos garantizar que
no hay multicolinealidad perfecta en la regresión poblacional de la segunda etapa. Esto es así
porque si hubiera multicolinealidad perfecta en el modelo poblacional no podríamos estimar,
dado que los instrumentos no proporcionarían información suficiente sobre los movimientos
exógenos de las endógenas, y por tanto no podríamos «aislar» sus efectos sobre la variable
dependiente Y.
Resumimos a continuación las dos condiciones para la validez de un conjunto de m ins-
trumentos:
l. Relevancia del instrumento: Los vectores ( 1, X1i, ... , Xri, Y1i, ... ,Yki) no deben ser
perfectamente multicolineales , donde Y1i es el valor de predicción de Y1i a partir de la
regresión poblacional de Y1i sobre los instrumentos (Z) y los regresares exógenos in-
cluidos (X), y «1» es el valor que toma el término constante a todas las observaciones
326 REGRESIÓN CON VARIABLES INSTRUMENTALES
i = 1, ... , n. Si solo hay una variable endógena incluida, Y1 , esto se cumple si al me-
nos el coeficiente de un instrumento Z en la regresión poblacional de Y1 sobre los m
instrumentos Z y las r exógenas incluidas X es distinto de cero.
9.2.3. Distribución muestra! del estimador MC2E para el caso del modelo
general de VI
La distribución muestral del estimador MCO se obtenía bajo los supuestos de un modelo
que denominamos modelo de regresión lineal [Ecuación (6.1.1)], caracterizado por tanto por
las expresiones que configuran el modelo . El modelo de regresión VI lógicamente es diferente
del modelo de regresión mencionado, y por tanto las condiciones poblacionales han de ser
adaptadas a la ecuación general de VI (9.2.5).
El supuesto de exogenidad (6.1.2) es necesario que se satisfaga para las variables expli-
cativas exógenas incluidas, ya que en el modelo de VI consideramos que existen variables
explicativas endógenas. Sigue siendo también necesario que los datos sean extracciones iid,
como si de un muestreo aleatorio simple se tratara. E igualmente se mantiene el supuesto
de que los valores extremos grandes sean poco probables. Hay que añadir que se cumplen
los requisitos de relevancia de los instrumentos, requisitos que incorporan ya el supuesto de
ausencia de multicolinealidad de la Sección 6.1.
Al igual que sucedía y mostramos en el apéndice 9.6, en el caso particular de un úni-
co regresar endógeno, un solo instrumento y sin variables exógenas incluidas , el estimador
MC2E es para muestras grandes consistente y tiene una distribución normal. Los intervalos
de confianza se construyen de modo similar, y las hipótesis conjuntas se pueden realizar con
el estadístico F descrito para la inferencia en el modelo de regresión lineal. Sin embargo, hay
que considerar algunas cuestiones sobre los errores estándar de MC2E.
Por un lado , los paquetes informáticos llevan a cabo las dos etapas y realizan los ajustes
pertinentes para corregir adecuadamente la invalidez de utilizar los errores estándar que se
obtendrían en la segunda etapa de MC2E. Esta invalidez se produce porque el término error
de la Ecuación (9.2. 4) en su versión poblacional incluye ui, mientras que los errores estándar,
que son los que nos interesan, son relativos éi. Complementariamente, el error poblacional
del modelo estructural podría ser heterocedástico, por lo que al igual que sucede con los
estimadores MCO es preferible utilizar errores estándar robustos a la heterocedasticidad.
Resumimos entonces los supuestos del modelo de regresión VI.
Tema 9 327
El proceso generador de (X1i, X2i, ... , Xri, Y(i)i' 1( 2)i' ... , Y(k)i' Yoi) , i = 1, ... , n es un modelo
lineal
donde Yoi es la variable dependiente; /30, .. ., /3r+k son coeficientes desconocidos a estimar,
relativos a los k regresares endógenos, 1(.)i' y a los r regresares exógenos X .i; y donde el
término error Ei representa factores omitidos o errores de medición. El proceso generador
debe además satisfacer:
2. (X1i, X2i, ... , Xri, 1(1)i' 1(2)i' .. ., Y(k)i' Yoi) son extracciones iid de su distribución con-
junta;
O< JE(Xj\) < oo, O < JE(Y0';) < oo, O < JE(Y¡{) < oo O < JE(Zii) < oo,
El tema anterior indicaba que los problemas de variables relevantes omitidas, los errores
de medida, y la existencia de causalidad simultánea hacían que
En estos casos decimos, en general, que hay endogeneidad en el modelo. En ese mismo
tema indicábamos que una de las soluciones para minimizar los efectos indeseados de la
endogeneidad (sesgadez e inconsistencia, que invalidan el modelo para realizar conclusiones
causa)es) consistía en utilizar regresiones VI, que son las que hemos presentado en el actual
tema.
5
Puesto que lE(éiXi) = lE[lE(éiXi[Xi)] = lE[X;lE(éi[X;)]; por lo tanto lE(é;Xi) =I O implica que
JE (éi [Xi) =I O
328 REGRESIÓN CON VARIABLES INSTRUMENTALES
Por el momento hemos considerado el caso general de que existe al menos una variable
endógena explicativa, es decir, una variable que está relacionada con alguna(s) variable(s)
omitida(s) y por tanto incluida en el término error. Hemos visto que los efectos de no desea-
dos sobre la estimación del coeficiente de interés pueden ser mitigados si logramos localizar
instrumentos válidos. Consideremos entonces el caso de variables omitidas, esto es, en el
modelo sobre el que estamos trabajando hay fundadas sospechas sobre la existencia de va-
riables omitidas relevantes (es decir, variables que siendo factores explicativos de la variable
dependiente están correlacionadas con la variable explicativa). En tal situación se presenta un
problema de sesgo en el coeficiente de la variable en la que estamos interesados, el sesgo se
produce porque JE (Ei IXi) =f. O. En el caso de que no estén disponibles los datos de la variable
omitida, este sesgo de omisión no podría ser tratado con la inclusión de variables.
La regresión por VI ofrece una solución atractiva para cuando no podemos incluir la
variable omitida y tampoco podemos localizar una variable de control adecuada en los términos
previstos en la expresión (8.1.6). Podríamos localizar un instrumento para la variable omitida,
como tal tendría que ser relevante, es decir, estar correlacionado con la variable omitida.
Igualmente el instrumento debería estar no correlacionado con otros factores omitidos (y
contenidos en el término error). U na vez localizados los datos del instrumento estimaríamos
por MC2E, mitigando el problema del sesgo en la variable explicativa de interés.
Consideremos ahora otro de los casos en los que se produce endogeneidad, la situación en
la que hay error de medición en una variable explicativa. El modelo poblacional es
y por tanto este tipo de errores de medida en las variables explicativas generan un problema
de endogeneidad.
Para mitigar el sesgo producido por los errores de medida, podríamos buscar un instru-
mento Zi (variable instrumental) que como tal esté correlacionado con el valor real XL pero
que no esté correlacionada con el error de medición Wi· Una variable de este estilo podríamos
obtenerla (si es posible) realizando una nueva medición Zi = X{i + ui que garantice que la
incorrelación de Ui tanto con el error de medición Wi como con el error del modelo Ei· En tal
caso
(9.3.1)
donde suponemos que las variables están en logaritmos, la variable «Qd » es la cantidad de-
mandada, «p» el precio, «yd» la renta disponible y «E1 » los errores en los que se incluyen el
resto de variables independientes no incluidas específicamente. Consideramos además que el
bien es normal, en el sentido de que la elasticidad precio «/3 1 » es negativa y la elasticidad renta
«/32» positiva. En estas condiciones la gráfica de la demanda usual tiene pendiente negativa,
los incrementos de los precios reducen la cantidades a lo largo de la curva; y los incrementos
de la renta desplazan la curva de demanda (Figura 9.3.1).
p1 --- - -- ---,
:
"' !
Pi --------+------
: :
1
1 1
i :
'
1'
1
Hasta ahora hemos establecido una ecuación de oferta (9.3.2) y otra de demanda (9.3.1
además sabemos por la teoría económica que el mercado está en equilibrio (es decir, las
transacciones se efectúan) cuando la cantidad ofrecida y demandada coinciden, es decir cuando
(9.3.3
El ajuste de una recta a los puntos (datos) que definen las intersecciones de demandas y
ofertas en la Figura 9.3.3 no estaría definiendo ni una curva de demanda, ni una de oferta,
ya que como vemos dichos puntos han sido determinados tanto por cambios de oferta, como
por cambios de demanda. Es decir, no podemos estimar la ecuación de demanda sin tener
en cuenta la influencia de la oferta y viceversa, porque ambas se establecen simultáneamente
(conjuntamente).
La única forma de estimar (o identificar) la ecuación de demanda es considerar las ecua-
ciones de oferta y demanda conjuntamente y permitir que la ecuación de oferta se desplace
(modificando los valores de la lluvia caída) de manera que los sucesivos valores de equilibrio
se correspondan con la ecuación de demanda.
p1 ------------------
"'
En términos formales tenemos junto con la condición de equilibrio dos ecuaciones, una de
demanda (9.3.1) y otra de oferta (9.3.2). Podemos expresar ambas ecuaciones de la siguiente
forma:
332 REGRESIÓN CON VARIABLES INSTRUMENTALES
(9.3.5)
y si «a22au -=f. 1» [lo que es muy probable puesto que hemos supuesto que «au» es negativo
(demanda) y «a22» positivo (oferta)] podemos dividir ambas partes de la expresión (9.3.5)
por «1 - a22au» lo que nos lleva a
El comportamiento adictivo del tabaco, las consecuencias sobre la salud de los fumadores
y también sobre los «fumadores pasivos» provocan efectos externos negativos (socialmente no
deseados) y justifican la intervención del estado , tanto vía precios (impuestos especiales sobre el
tabaco) como con la introducción de legislación que limite su consumo (al menos en determinados
espacios públicos) 7 .
Como cualquier ejercicio de estimación de la ecuación de demanda (9.3 .7) puede adolecer de
sesgo de especificación por simultaneidad , en el sentido de que cantidades y precios se establecen
simultáneamente mediante la interacción de la oferta y la demanda. Si esto es así entonces la
variable explicativa es endógena y la estimación por MCO sesgada e inconsistente.
En estas condiciones necesitamos información adicional a la utilizada en la expresión (9.3. 7)
para estimar consistentemente la elasticidad de la ecuación estructural de demanda. Stock y Watson
(2007) en un estudio de datos de sección cruzada para EE.UU. propusieron utilizar como variable
instrumental los impuestos especiales sobre el tabaco. El impuesto sobre el tabaco aumenta el precio
de los cigarrillos que paga el consumidor, lo que indica que satisface el requisito de relevancia . Si
además estuviera incorrelacionado con el error de la ecuación de demanda, entonces el instrumento
sería válido.
Utilizando los datos temporales, la ecuación reduc ida para los precios de (9.3. 7) es
. ) impuestostabacot
In pr~CWSt = O, 0004 + O, 323· tabacot +Et, (9.3.8)
(
ipCt (0,072) (0,035) ipCt
[0,088] [0,039]
donde regresamos el precio medio de la cajetilla de tabaco en términos reales respecto de los
impuestos especiales al tabaco por cajetilla en términos reales. El coeficiente es significativo a los
7
No obstante, algunos autores indican que la menor esperanza de vida de los fumadores (lo que implica ahorros
en gastos sanitarios) junto con los ingresos por los impuestos especiales pueden hacer que el saldo económico global
(ingresos - costes) no sea necesariamente negativo, pero el coste social sigue siendo negativo.
334 R EGRESIÓ N CO N VAR IABLES INSTRUMENTA LES
niveles usuales, hay correlación con el inst rumento y por tanto la variable endógena explicativa
parece ser relevante . Además para que el inst rumento sea válido, los impuestos especiales sobre
el tabaco deben estar incorrelacionados co n otras variables, distintas del precio, que sean factores
explicativos de la demanda de cigarrillos, es decir, deben estar incorrelacionados con los errores
de la ecuación estructural «Et ». En este sentido podría ser razonable considerar que la demanda
de paquetes de cigarrillos de tabaco por parte de un consumidor, además de depender del precio
final de la cajetilla, no siga dependiendo del nivel de impuestos, aparte , como decimos, de la
influencia del precio de la cajetilla. Esto nos conduce a tener un modelo con una variable endógena
explicativa y una variable instrumental, expresión (9.3.8); la ecuación estructural de demanda está
exactamente identificada y la podemos estimar. A partir de la versión muestra! de la expresión
(9. 1. 7) tenemos que
impuestostabaco¡ ]
COV ta.bacot In ( tabaco 1 )
~ [ ipc¡ ' poblaciónt
-0, 06496 - - 1
(9.3.9)
fJ1 = COV
[ impuestostabaco
ta.baca¡
1
In (pre. ciOSt) ] o' 061 58 - ' 055 '
ipct ' ipc¡
o también podemos estimar el modelo por MC2E (con los impuestos especiales por cajetilla en
términos reales como único instrumento) . Su estimación es
--
In ( tabaco_i ) = 3 442 _ l 055 .ln ( preciost )
poblaciont ('
0,047
) ('
0,071)
ipct
(9.3.10)
[0,040] [0,06 1]
impuestostabacot
MC2E, instrumento: fobacot
ipc¡
n = 32; R = O, 8961 ; R =O, 8927,
2 2
cuya elasticidad , como no puede ser de otro modo, es idéntica a la obtenida por VI. Hemos incluido
los errores estándar usuales y los robustos de heterocedasticidad y autocorrelación . Cuales quiera
que sean los errores estándar que utilicemos, los precios son significativos a los niveles usuales; sin
embargo, los intervalos deberían ser construidos con la versión HAC. La elasticidad de demanda
calculada por MCO es menor que la que obtenemos con MC2E , de hecho indica que un aumento
en el precio de un 1 % reduce el consumo en 1,055 %.
Alternativamente podemos utilizar como instrumento todos los impuestos y no solo los especia-
les. La justificación para incluir todos los impuestos y no los especiales se encuentra en que quizás
la capacidad de presión política de los fu madores pueda influir en el nivel de impuestos especiales
sobre el tabaco, de modo que si el grupo de fumadores se redujese, los hacedores de políticas
podrían optar ahora por subir los impuestos especiales relacionados con el tabaco. De modo que
si por ejemplo las campañas publicitarias que exponen los riesgos del tabaquismo hacen que su
consumo no esté tan de moda , entonces es posible que cambios en los gustos (localizados en el
error de la demanda) puedan estar correlacionados con los impuestos especiales del tabaco (si es
así, los impuestos especiales pueden estar correlacionados con los errores de la forma estructural) ,
y dejarían de ser un instrumento válido .
La forma reducida para los precios de la ecuación estructural (9 .3. 7) es
Tema 9 335
. ) totalimpuestost
In pr~CWSt =O, 066 +O, 009· tabacot + Ut, (9.3.11)
(
ZPCt (0,095) (0,001) ipCt
---
In ( tabaco} ) = 3 462 - 1 086-ln (preciost)
poblaciont ' ) (' ) ipct
(9.3.12)
(0,048 0,073
[0,046] [0,070]
totalimpuestost
MC2E, instrumento: ia.bacot
ipct
2 2
n = 32; R = O, 8909; R = O, 8873,
donde la elasticidad de demanda es aún mayor.
Finalmente también podemos utilizar ambos instrumentos, los impuestos especiales y los tota-
les. La ecuación reducida en este caso es
. ) impuestostabacot totalimpuestost
In pr~CWSt = -0, 020 +O, 183· tabacot +O, 005· tabacot + Ut, (9.3.13)
(
ipct (0,085) (0,049) ipct (0,002) ipct
donde los dos parámetros son significativos a los niveles usuales. Puesto que tenemos dos instrumen-
tos y una sola variable endógena explicativa, la ecuación estructural 9.3.7 está sobreidentificada.
Su estimación por MC2E es
---
In ( tabaco_i ) = 3 451 - 1 069-ln (preciost)
poblaciont '
(0,045
) ('
0,069
) ipct
(9.3.14)
[0,041] [0,062]
impuetdostabacot totalimpuestost
M C2E , · t t
ins rumen os :
tabacot
ipct
tabacot
ipct
n = 32; R 2
= O, 8939; R = O, 8903.
2
Este ejemplo pone de manifiesto que cuando utilizamos la regresión VI para mitigar los
problemas de endogeneidad debemos tener en consideración que es fundamental localizar
instrumentos válidos. Siempre que usamos variables instrumentales lo hacemos porque en
ese caso nuestro objetivo prioritario es estimar correctamente el efecto parcial de una variable
336 REGRESIÓN CON VARIABLES INSTRUMENTALES
(9.3.15
donde sospechamos que «Y1 » es endógena. Además contamos con dos instrumentos «Z 1 » y
«Z2» (la validez de los instrumentos depende de si son exógenos al modelo o no correlacionado~
con «E») .
Para contrastar si «Y1 » es verdaderamente una variable explicativa endógena Hausman
(1978) propuso comparar las estimaciones MCO y MC2E y si las diferencias entre ambas
estimaciones son significativas concluimos que «Y1 » es endógena, pues de lo contrario (en
caso de exogeneidad de la variable) ambos estimadores serían consistentes y no deberían
existir diferencias entre una y otra.
Para realizarlo partimos de la forma reducida de «Y1 »
por tanto
cov(Y1, e) = O ~ cov(u, e) = O.
Vemos entonces que contrastar cov(Y1, E) = O es equivalente a contrastar cov( u, e) = O. Bajo
la hipótesis nula Ho : cov(Y1, E) =O, se verificaría que el coeficiente ó en la regresión
e = óu +error
sería nulo (ó =O). Es decir, contrastar ó =O equivaldría a contrastar Ho: cov(Y1, e) =O. En
la práctica dado que no observamos u utilizaríamos el residuo MCO de la primera etapa, u.
8
De hecho, en el modelo de regresión simple con problemas de endogeneidad, la descomposición de la
varianza habitual var(Y) = {3fvar(X) + var(t:) no es correcta puesto que cov(X,t:) =1- O, y la interpretación
del R 2 no es la que habitual hacemos , por lo que no podemos utilizar el R 2 para realizar contrastes del tipo F.
Tema 9 337
(9.3. 17)
y contrastamos «Ó» de la forma usual (mediante el contraste de la «t» ); si «Ó» es significativa
entonces concluimos que «Y1 » es endógena porque la «E» de la forma estructural y la «u»
de la forma reducida están correlacionadas (además los estimadores «/Ji» de esta ecuación
coinciden con los estimados por MC2E).
En el caso de r variables potencialmente endógenas, el contraste de Hausman requiriría (i)
estimar las r formas reducidas con sus correspondientes residuos (de la forma reducida); (ii)
incluir en el modelo de interés como r regresores adicionales cada uno de los residuos obtenido
en la fase (i); (iii) hacer un contraste de significación conjunta de dichos residuos mediante el
estadístico tipo F siguiente
donde S C RR es la suma de los cuadrados de los residuos del modelo original (es decir sin incluir
los residuos de la formas reducidas), y SCR*fvR la suma de los cuadrados de los residuos del
modelo (no reducido), es decir que sí incorpora como regreso res los correspondientes residuos
de las r formas reducidas. Si los residuos son conjuntamente significativos (esto es, si se rechaza
la hipótesis nula) , entonces al menos una de las variables potencialmente explicativas lo es en
la realidad.
Veamos un ejemplo.
6.(yt - Tt) = 344, O - 15, 32·rt - O, 211·6.Tt +O, 366·6.Xt + 1, 318·6.Gt + Et,
(173, 1) (13,28) (0, 156) (0,086) (0,302)
[268,8] [16,55] [0,189] [0,12 1] [0,283] (9.3.19)
n = 123 R 2 = O 2429 R2 =O 217
' ' ' ' '
donde todos los instrumentos (variables exógenas no incluidas en la ecuación estructural : «rt».
«6.Tt». «6.Xt» y «6.Gt») excepto los ti pos de interés «rt» y los impuestos «Tt». son signifi-
cativos (tanto si utilizamos los errores estándar usuales como los robustos de heterocedasticidad y
autocorrelación). Eliminando los tipos de inte rés y los impuestos por no ser significativos , tenemos
que la estimación definitiva de la forma reducida para la renta disponible es
Como los errores de la forma reducida son significativos (- 0, 907 / O, 163 = -5, 564) concluimos
que la renta disponible de la ecuación estructural del consumo es una variable explicativa endógena;
por consiguiente dicha ecuación no se puede estimar por MCO puesto que los estimadores son
sesgados e inconsistentes.
Como la ecuación estructural del consumo tiene una sola variable endógena explicativa y tene-
mos tres instrumentos correlacionados con ella, la ecua ción estructural de la función del consumo
está sobreidentificada y la podemos estimar por MC2E ,
6Yt = 344, O - 15, 32·rt +O, 789· 6 Tt +O, 366·6Xt + 1, 318·6Gt + ft,
(173,1) (13,28) (0,156) (0,086 ) (0,302)
[268,8] [16,55] [0,189] [0,121] [0,283]
(9.3.24)
2
n = 123 R =O 4489 R 2 =O 4302
' ' ' ' '
donde todos los instrumentos son significativos . Solo los tipos de interés no lo son pero esta es una
variable explicativa del modelo estructural de la función de inversión. La estimación por MC2E es
340 REGRESIÓN CON VARIABLES INSTRUMENTALES
hay un instrumento para una variable explicativa endógena y no hay variables explicativas
exógenas en el modelo estructural, vimos en la Ecuación (9.1.8) que
(JAMC2E
1
-
-
(31 + -
P Zó (Tó
---
PZX CTX
y otra con el segundo. Si ambos instrumentos son exógenos a la ecuación estructural y está::
correlacionados con la variable explicativa endógena, es decir si se cumple (9.1.4) y (9.1. 5
entonces ambas estimaciones deberían ser cercanas (no iguales debido a la variación muestra!
y si no es así, entonces parece razonable concluir que uno de los instrumentos, o bien los d ~
no son exógenos a la ecuación estructural, en el sentido de que no se verifica la expresió::::.
(9 .1.4).
Esto es lo que hacemos de forma implícita cuando estimamos por MCO la siguiente ex-
presión:
(9.4. 1
donde «tt¡1C 2E» son los residuos estimados por MC2E usando todos los instrumentos , y sor:
por tanto las versiones muestrales de éi. Contrastamos mediante la F la hipótesis nula de que
los instrumentos no son significativos «Ho : 6 1 = 62 = 0». El estadístico para el contraste de
sobreidentificación, también denominado estadístico «J », se construye de la siguiente forma.
«J = mF», donde «m » es el número de instrumentos, y cuya distribución para muestra:;
grandes sigue una «x~ » donde «q» o grado de sobreidentificación es el número de instrumento .
en nuestro caso «m = 2», menos el número de variables explicativas endógenas , en este caso
con valor unitario «q = 2 - 1 = l ». Nada impide aplicar este contraste de forma general a
modelos con más variables explicativas endógenas siempre que el número de instrumentos sea
mayor que el número de regresores endógenos. De manera que el contraste «J » nos permite
contrastar la exogeneidad de los instrumentos siempre que el modelo esté sobreidentificado.
Podemos aplicar este contraste al ejemplo del tabaco, la regresión de los residuos estimado
por MC2E de la ecuación sobreidentificada, expresión (9.3.14) , sobre las variables instrumen-
tales (impuestos sobre el tabaco y total de impuestos) es
impuestostabacot totalimpuestost
utfC 2E = -0, 005 + 0, 031 · tabacot _ O, OO l · __t_a_ba_c~ot_ _ (9.4.2)
(0,042) (0,048) ÍpCt (0,001 ) ipct
donde hemos incluido solo los instrumentos puesto que en la ecuación de demanda (9.3.14)
solo incluimos como variable explicativa el precio. De manera que en este caso la hipótesis
nula de exogeneidad de los instrumentos «Ho : 61 = 62 = 0» coincide con el estadístico
«F» de significatividad conjunta de la regresión anterior, cuyo coeficiente de determinación
es 0,0193. Por tanto la «F» empírica es 0,285 [º ·º; / 13~~~~913 =O, 285], y el estadístico «l»
93
es 0,57 (J = mF = 2·0,285) que se dist ribuye asintóticamente como una «x~ = xi » cuyo
valor crítico al 95 % de confianza es 3,84. Como el valor empírico es menor que el crítico, no
podemos rechazar la exogeneidad de los instrumentos utilizados. Los programas especializados
suelen incluir de forma rutinaria este contraste cuando estimamos por MC2E y el modelo está
so breidentificado.
Conviene dejar claro que este contraste J es válido si además los errores son homocedás-
ticos. En caso de heterocedasticidad también existe un contraste equivalente que mostramos
en la Sección 9.5.
Tema 9 343
esto es, que una vez que controlamos el efecto de la variable X i, la media condicionada no
depende de Z . Esto, como en el caso de variables de control en la estimación MCO, supone
una relajación del supuesto de que el error ha de tener media condicionada nula, dados Z y
X.
Para ver por qué funciona el supuesto de independencia condicionada, remitimos al lector
a la Sección 3.1.5; y para revisar el concepto de variable de control en MCO a la Sección 8.1.2.
Ahora veamos por qué los métodos de inferencia que hemos presentado son válidos cuando
reemplazamos el primer supuesto del modelo de regresión VI (ver Sección 9.2.3) por
donde por simplificar hemos considerado una sola variable explicativa endógena que deno-
minaremos Y1 y una única exógena xcontrol que no es propiamente una variable explicativa
exógena, sino que es una variable que incluimos para lograr que el instrumento Z sea exógeno.
El modelo es
Hagamos un supuesto adicional más: que el error de la observación i-ésima es lineal respecto
de la variable de control introducida, JE (é'i 1 X¡ontrol ) = /O + ¡2 Xfontrol, dado que facilita los
cálculos, pero que puede relajarse en un tratamiento más técnico del que presentamos aquí.
Definimos la diferencia entre el error del modelo y el error del modelo condicionado por el
instrumento y el control del siguiente modo
344 REGRESIÓN CON VARIABLES INSTRUMENTALES
de modo que
Un modelo con este error cumpliría la condición primera (exogeneidad) prevista en los su-
puestos del modelo de regresión VI.
La cuestión es que el modelo original , Yoi = /30 + /31 Y1i + /32Xicontrol + Ei, puede reescribirse
utilizando los supuestos (independencia condicionada y linealidad del error respecto de la
variable de control) que hemos hecho con un término error vi,
La última expresión indica por tanto que satisface todos los criterios del modelo de regresión
VI previstos en la Sección 9.2.3, y por tanto todos los métodos de estimación e inferencia
desarrollados en este tema son igualmente válidos para dicho modelo.
Por otra parte, al igual que sucede con las variables de control en MCO, podemos observar
en la última expresión que (a) el coeficiente de la variable de interés, en este caso Y1 , se estima
consistentemente por MC2E; (b) el coeficiente del término asociado a la variable de control no
tiene una explicación causal, si bien (c) la estimación por MC2E del coeficiente 82 = /32 + /2
será consistente y reflejará la suma del efecto causal directo de x¡ontrol , fh, y /2, que da
cuenta de la correlación entre Xf°ntrol y los factores omitidos en Ei que la variable control
tiene en consideración.
En el caso del ejemplo de la demanda de tabaco, debido a la posible endogeneidad causada
por la correlación entre la renta y los impuestos, que están en el término error del modelo
estructural original y por tanto generando que el instrumento no sea válido, una solución es
incorporar la renta como variable de control dentro de la especificación del modelo. En tal
caso el estimador del coeficiente de la variable explicativa endógena (los precios) ya estaría
consistentemente estimado y su interpretación en términos causales sería correcta. Adicional-
mente, habría un nuevo coeficiente estimado relativo a la renta. Como acabamos de mostrar
tal coeficiente reflejaría el efecto de la renta (elasticidad renta, si introducimos la variable en
logaritmos, como generalmente hacemos con variables informativas de rentas de individuos) ,
y además también reflejaría el efecto causado por correlación con otros elementos que hemos
dejado de especificar y está en el error. Tal podría ser el caso de la educación: es verosímil que
a mayor educación, menor consumo de t abaco; y que a mayor educación, mayor renta. Por lo
que de ser así, el coeficiente estimado por MC2E para el control no reflejaría únicamente el
efecto renta.
Tema 9 345
La expresión pone de manifiesto que todas las variables retardadas serían candidatas (por
cumplir con el requisito de exogenidad) a ser instrumentos válidos.
Hemos visto que la estimación por MC2E , es decir, utilizar el método de las VI es aplicable
tanto a modelos que incorporen datos de secciones cruzadas, como a modelos cuyos datos
vengan en forma de serie temporal. También es posible utilizar VI en modelos con datos
en forma de panel y datos fusionados de sección cruzada, si bien sobre esta particularidad
volveremos en el tema dedicado a este tipo de datos.
9
Esto es, en (9.1.6) se tendría JE (ét IYt-1, Zt-1, Xt-1) = O.
346 REGRESIÓN CON VARIABLES INSTRUMENTALES
Y= X/3+e, (9.5.1
donde ahora X es una matriz de orden n x ( k + r + 1) que contiene a los regresores exógeno
incluidos y a los regresores endógenos, de modo que la fila i-ésima es
Por otra parte, definimos la matriz Z como una matriz de orden n x (m + r + 1) consti-
t uida por todos los regresores exógenos, es decir, está formada por los instrumentos y por las
variables exógenas incluidas:
Bajo los supuestos del modelo de regresión VI, el requisito de exogeneidad garantiza
(9.5.2)
El estimador MC2E se caracteriza, como hemos visto, por una primera etapa donde se
calculan los valores Yú, ... Yki mediante k proyecciones lineales (predicción) que obtenemos
a partir de las regresiones MCO del t ipo Y1i, ... , Yki sobre Z . Esto nos permite definir una
matriz X de orden n x ( k + r + 1) cuya fila i-ésima es
donde hemos considerado el hecho de que la predicción de una variable del tipo Xri, obtenida
a partir de la regresión de la variable exógena Xri sobre Zi (nótese que este vector incorpora
a la propia variable Xri), es la p.ropia variable Xri , y por tanto las regresiones de la primera
fase se incorporan en la matriz X como sigue:
(z (z'zr 1z'x)
P zX, (9.5.4)
Tema 9 347
Y= Xf3 + u,
en el que los errores no coinciden con los del modelo estructural original. En tal caso el
estimador MCO de esta segunda regresión proporciona los estimadores por MC2E
Una vez que tenemos la expres10n matricial del estimador MC2E podemos derivar la
distribución asintótica de la misma si consideramos los supuestos de modelo de regresión VI
de la Sección 9.2.3 y aplicamos el teorema central del límite.
El primer paso es expresar (9.5.5) en función del término error del modelo estructural
(9.5.1). Para ello sustituimos (9.5.1) en (9.5.5):
~/\I C2E
(X'PzXf 1 X 'P z Y.
(X'PzXf 1 X'P z (X{3 +e)
1
f3 + (x'Pzxf X 'P z e.
Reordenando y multiplicando por fo y usando la definición del proyector P z se obtiene,
Vn (~MC2E _ {3) 1
( ;;¡:X'PzX
)-l Vn X'P ze.
1
10
Se recomienda revisar la Sección 3.4 donde se explican las propiedades y este tipo de matrices. Entre
otras cosas el concepto de proyección nos permite comprender que la proyección de, por ejemplo, Xii sobre
las columnas de Z , que contienen al vector que forma Xi i, i = 1, ... n , es el propio X 1i, es decir, P z X. 1 = X. 1 .
Esto precisamente explica por qué solo es necesario realizar k regresiones en la primera etapa, y no k + r + 1
regresiones.
348 REGRESIÓN CON VARIABLES INSTRUMENTALES
Z'Z -=-+
p
JE zizi = Qzz.
(
-
') _
n
También bajo los supuestos VI, se garantiza que Z i Ei es iid, tiene media nula, y la varianza
está bien definida (existe y es distinta de cero). Por tanto , aplicando el teorema central del
límite, se tiene que la suma de este tipo de variables (dividida por fo) converge a un vector
de dimensiones (m + r + 1) x 1 cuyos elementos siguen una distribución normal, en particular
El tercer y último paso consiste en evaluar conjuntamente (9.5.6) y las expresiones asin-
tóticas de cada uno de los términos que la integran. En este sentido , aplicando los resultado
obtenidos, sobre los términos de (9.5.6) . tenemos que
donde
Los errores estándar de los estimadores de cada uno de los coeficientes estimados se calculan
haciendo la raíz cuadrada de los elementos de la diagonal principal de yMC 2E.
y como desconocemos dichas esperanzas, las reemplazamos por sus contrapartidas muestrales
(los momentos muestrales), es decir, tratamos de resolver entonces
Obsérvese que hemos utilizado en la expresión del estimador (9.5.11) un superíndice, GMM ,
distinto de por ejemplo VI. Los motivos son varios. P or una parte, veremos seguidamente que
el estimador (9.5.11) incorpora como caso particular al estimador de VI que hemos presen-
tado en este tema. Incluso el propio estimador MCO es un caso particular de (9.5.11) para
unas determinadas selecciones de Z y W. Por otra parte, el estimador (9.5.11 ) nos invita a
considerar elecciones de la matriz de ponderaciones W que hagan que el estimador sea más
eficiente, y en este sentido el tratamiento del estimador es más general. También por otra
parte, el estimador GMM nos permitiría no solo tratar el caso de una ecuación (una variable
dependiente) como (9.2.5), sino casos de múltiples ecuaciones lineales y no-lineales, que no
son tratados en este libro. Por último, señalar que el acrónimo GMM es una contracción del
350 REGRESIÓN CON VARIABLES INSTRUMENTALES
inglés Generalized Method of the Moments. Este método es, como su propio nombre sugiere.
una generalización del clásico método de los momentos (MM), y su relevancia en los desarro-
llos econométricos desde 1982 es más amplia que la que se puede desprender de su uso para
estimar modelos de regresión con VI. Remitimos al lector interesado a la obra de Hayashi
(2000) para un tratamiento econométrico general basado en el principio de GMM.
Es interesante observar que el estimador (9.5.11) utiliza combinaciones ponderadas de
los instrumentos Z , cuando el número de instrumentos es superior al número de variables
endógenas incluidas. Por este motivo el estimador MC2E de la expresión (9.5 .5) es un caso
particular de (9.5.11), es decir una combinación particular ponderada de los instrumentos, en
el que el problema de minimización se resuelve para la matriz de ponderaciones particular
W = (Z' Z)- 1 . Igualmente, otros métodos de estimación son reconciliables con este siempre
que determinemos una Z y una W . Por ejemplo, si seleccionamos la matriz de ponderaciones
W = (X'X/n)- 1 y consideramos que los instrumentos son todos variables exógenas, es decir.
si consideramos que no hay problemas de endogeneidad, Z = X , entonces (9.5.11) es el
estimador M CO.
La distribución asintótica del estimador ¡3fvM M (Ecuación (9 .5.11)) se deriva igual que
hemos obtenido la de MC2E y su varianza siguiendo los pasos dados para llegar a (9.5.7). El
resultado general es
vln (f3fvMM - f3)~ N (o, vfvMM)'
v?J 1M 1
= (QxzWQzx)- Qx zWOWQzx (QxzWQzx )-
1
. (9.5.12)
Es de interés saber si hay matrices de ponderación asintóticamente más eficientes que
otras. La eficiencia dependerá de la varianza, es decir de (9 .5.12). De nuevo las propiedades
de los errores del modelo jugarán, como en el caso MCO, un papel determinante.
Vamos a considerar el caso en el que los errores son homocedásticos . Recordemos que
en MCO , bajo este supuesto, el teorema de Gauss-Markov ofrece un resultado en términos de
eficiencia de los estimadores. En VI hay un resultado análogo que indica que la estimación
MC2E es asintóticamente eficiente en la clase de estimadores VI en los que los instrumentos
son combinaciones lineales de las filas de Z.
Con homocedasticidad, JE (cf IZi) = a}, se tiene que
n =JE ( Zi Z~ct) =JE [JE (Zi Z~cf ¡zi)] =JE [zi z~JE (cf IZi)] = (J';Qzz.
Esta expresión hace que ahora (9.5.12) se convierta en
Demostrar que MC2E es asintóticamente eficiente entre la clase de estimadores que son
combinaciones lineales de Z consiste en probar que
c'VGMMC > c'V MC2E c (9.5.15)
homo - homo
Tema 9 351
para todas las matrices W semidefinidas positivas y t odos los vectores e de orden (k+r+ 1) x l.
La demostración se deja como ejercicio teórico para el lector con dominio de álgebra matricial.
Por tanto, en el caso homocedástico , la eficiencia del estimador VI se encuentra haciendo
que la matriz de ponderaciones (Ecuación (9.5.11)) W = (Z'Z)- 1 , que es la que, como hemos
visto, da lugar a la estimación MC2E. Podemos además observar la cercanía entre la expresión
eficiente bajo homocedasticidad de w y n- 1 = (1/a;)Qz~·
En el caso de errores heterocedásticos, el estimador MC2E no es eficiente entre la clase de
estimadores VI que utilizan combinaciones lineales de Z como instrumentos. En este caso el
estimador eficiente se encuentra a partir del estimador GMM , expresión (9.5.11). Por analogía
al caso homocedástico, donde la expresión de la varianza que nos conduce a un estimador
eficiente es aquella correspondiente a una selección de la matriz de ponderaciones que lleva
a (9.5.14), en el caso heterocedástico la matriz de ponderaciones que nos conduce a una
expresión similar (9.5.14), y por analogía eficiente, es cuando W = n - 1 . En este caso la
expresión (9.5.12) se reduce, tras simplificar,
V GMM = (Q xzu
n-lQ zx )-1 .
c'vGMMC
horno -
> c'VGMM C ·
Por lo que el estimador eficiente bajo heterocedasticidad se alcanza cuando W = n- 1 , y si
sustituimos esto en (9.5.11), obtemos
JGMM ~ X~-k·
352 REGRESIÓN CON VARIABLES INSTRUMENTALES
i=l
n
i=l
n
/31cÜV (X, Z) + (n - 1)- 1 L ZiEi,
i=l
-
éoV (Z,X)
n- ¿~ 1 (zi - .Z) Ei
1
/3
1
+ n-1 "'~ (Z·1 - Z) (X1 - X)
~1=1
éoV(Z, e)
/3 1 + éoV (X, Z)'
EJERCICIOS
Teóricos
l. Demuestre (9.5.15).
2. Suponga que entre las variables X e Y hay causalidad simultánea, de modo que Y =
a+ (3X +u y X = 'Y+ bY +v. Muestre que en este caso los regresores de ambas
ecuaciones son endógenos.
3. Sea el proceso generador de datos igual Xi = f310 + f320Yi * +ui . Suponga que y* no es
observable y en su lugar emplea Yi = Yi*+Vi , es decir estima Xi= f31+ f32Yi+ Ei . Suponga
además que u y v son iid con medias nulas y varianzas o-~ y a-;
respectivamente, que
ambos errores están incorrelados y que E(y*, v) = O. Muestre que en estas condiciones
habrá correlación entre y y e y trate de determinar su signo.
7. Sea el modelo (que consideramos correcto) Yi =a+ f31X1i + f32X2i + Ui. Suponga que
X2 es no observable pero que disponemos de una buena proxy, Z.
e) Suponga que está interesado solo en el efecto de Xi sobre Y y que dispone tanto d
una buena proxy como de un buen instrumento adecuado para la regresión simplE
¿Qué alternativa sería preferible?
a) Razone cuáles son las consecuencias sobre dicha varianza de una baja correlació
entre x y su instrumento.
b) Indique si esa situación puede tener consecuencias también sobre la inconsistencia
Prácticos
9. La tabla ET9 1 contiene datos del consumo de arroz, precio y renta disponible, todo:;
ellos en logaritmos.
10. Los datos de la tabla ET9 _ 2 tienen un interés histórico: son los empleados por Haavel-
mo en un artículo clásico para ilustrar el sesgo de simultaneidad. El autor argumentaba
que la ecuación de consumo Ct = /30 + /31 Yt + Ut donde e es el consumo e y la renta dispo-
nible, no podía estimarse por MCO al existir correlación entre la renta y el término de
error, debida a una relación causal bidireccional entre consumo y renta. Como variable
instrumental proponía utilizar la inversión.
11. La tabla ET9 _ 3 contiene datos de la ECPF referidos a gastos, ingresos y tamaño de
las familias de dos CCAA españolas.
12. Emplee los datos de la tabla ET9 4 para hacer este ejercicio.
a) Estime la relación entre los gastos de consumo de los hogares y la renta disponible
contenidos en la tabla ET9 4. ¿Es la relación acorde con los postulados teóricos?
b) Dadas las identidades de la Contabilidad Nacional, es razonable sospechar que
el regresar no es exógeno. Suponga que no dispone de más información que la
contenida en la tabla. Proponga un instrumento razonable con el que solventar el
problema.
e) Use la prueba de Hausman para contrastar la exogeneidad de la renta disponible.
d) Estime el modelo por VI y compare el resultado con el obtenido por MCO. Diga
si en este caso encuentra razonable recurrir a la estimación VI.
Tema 10
Hemos visto hasta ahora cómo se utilizan las técnicas de regres10n fundamentalmente
con datos transversales. Igualmente hemos visto que modificando ciertos supuestos es posible
también analizar datos temporales, si bien estos aspectos se volverán a tratar en detalle en la
Parte III del libro. Desde el primer tema anunciamos que cada vez es más frecuente disponer
de datos que ofrecen, simultáneamente, una dimensión transversal y temporal. En este tema
veremos cómo también podemos aplicar el análisis de regresión a estos conjuntos de datos. Sin
embargo, mucho más relevante que la mera extensión o aplicabilidad del análisis de regresión
a este tipo de datos, es que la técnica de regresión en sí se convierte en un método que nos
permite considerar algunas variables omitidas no observadas, lo cual nos permite resolver,
respecto de estas variables, los sesgos de omisión potencial de las mismas.
Distinguiremos dos tipos de configuración de los datos:
Nos referimos a datos fusionados cuando utilizamos datos obtenidos mediante muestreo
aleatorio en diferentes momentos de tiempo. La característica fundamental de este conjunto
de datos es que provienen de observaciones muestrales independientes aunque probablemente
las observaciones referidas a distintos momentos de t iempo puedan no estar idénticamente dis-
tribuidas. Veremos que esta cuestión se puede incorporar al análisis de regresión permitiendo
que el término constante (y a veces también la pendiente) varíen con el tiempo.
Los datos de panel (también denominados datos longitudinales) son datos que también
tienen conjuntamente dimensión transversal y temporal, pero que se diferencian de los datos
fusionados en que las entidades individuales o de corte transversal (familias, empresas, ciuda-
des , estados, etc.) observadas son las mismas a lo largo del tiempo. Lógicamente, no podemos
suponer que las observaciones estén distribuidas de forma independiente en el tiempo, pues se
trata de las mimas unidades y por lo tanto es factible que los factores no observados afecten
a lo largo del tiempo.
La forma general del panel para una de las variables sería:
357
358 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
1 2 T
1 Y11 Y12 YIT Yi.
2 Y21 Y22 Y2T Y2.
Yit Yi.
N YNI YN2 YNT YN
Y,1 Y,2 Yt Y.T
Este panel define una variable Yit en dos dimensiones, la individual o de agente de la
sección cruzada, i, y la dimensión temporal, t. Ambas configuran el ancho y el largo del panel.
y por tanto no son dimensiones intercambiables. El índice temporal marca una ordenación (en
el tiempo cronológico: días, semanas, meses, trimestres, años, ... ) y dota de una interpretación
común a muchos paneles. Sin embargo, el índice individual, i, no tiene ningún orden, y además
su interpretación o contenido varía según la aplicación en cuestión. Se puede referir a personas.
empresas, municipios, países, árboles, etcétera.
En función de la forma del panel podríamos distinguir entre paneles de series temporale
(T > N) que son comunes en macroeconomía. y paneles de secciones cruzadas (N > T) que
dominan en microeconomía (especialmente en economía laboral) . También se hace referencia
a paneles largos cuando el número de periodos es mayor que el número de observacione
transversales (T > N) o cortos cuando ocurre lo contrario (T < N) .
Tanto las empresas como las instituciones realizan a menudo encuestas que se repiten a
intervalos regulares (sobre el comportamiento de los individuos, familias, empresas, etc.), pues
bien, cuando fusionamos estas encuestas (en general muestras aleatorias) en distintos momen-
tos de tiempo, obtenemos lo que denominamos datos fusionados. Una de las razones para
utilizar estos datos es que al fusionar las secciones de distintas encuestas incrementamos el
tamaño de la muestra. Siempre que la relación entre la variable dependiente y al menos alguna
de las variables explicativas permanezca constante a lo largo del tiempo resultará beneficioso
fusionar los datos de las secciones independientes , puesto que se consiguen estimadores más
precisos. Estadísticamente el tratamiento es similar al que hacemos en una sección. Ahora
el número de elementos muestrales es NT, por lo que tomamos muestras de tamaño N en
diferentes T momentos del tiempo, lo que invita a considerar que las observaciones no nece-
sariamente han de estar idénticamente distribuidas. Por ejemplo, la distribución de la renta
o de los salarios ha cambiado a lo largo del tiempo.
Si el muestreo es aleatorio entonces las observaciones son independientes, sin embargo para
tener en cuenta que la función de distribución puede variar de un periodo a otro debemos
permitir que al menos el término const ante varíe con el tiempo (incluyendo a tal fin una
variable ficticia para cada año excepto uno que consideraremos como periodo base). En este
tipo de aproximación comprobamos que se da lugar a observaciones que son independientes,
no idénticamente distribuidas ( i. n. i. d), y aun así podemos contemplar cambios agregados a
lo largo del tiempo, y como veremos en los ejemplos, también podremos hacer interactuar
variales ficticias ( dummies) con explicativas para permitir que los efectos parciales cambien a
lo largo del tiempo.
Tema 10 359
Estas características hacen que este t ipo de análisis de datos fusionados resulte útil para
evaluar los efectos de política económica o los cambios provocados como consecuencia de
distintos escenarios. De hecho se pueden relacionar fácilmente estas técnicas con la literatura
sobre experimentos naturales donde hay grupos de control y de experimentación.
Las técnicas básicas que hemos aprendido para datos de sección cruzada son aplicables a
conjuntos de datos formados por secciones cruzadas apiladas (fusionadas). El estimador MCO
aplicado sobre las series apiladas nos daría estimaciones insesgadas y consistentes de los coe-
ficientes de las variables explicativas, siempre que el modelo esté correctamente especificado 1 .
Sin embargo, dado que el término error es muy fácil que esté correlacionado en el tiempo para
un individuo o entidad, los errores estándar habituales no deberían de ut ilizarse, por lo que
habríamos de usar las versiones robustas. Igualmente es posible utilizar la técnica de estima-
ción por variables instrumentales (VI) y los contrastes o test de especificación desarrollados
en temas precedentes.
Matricialmente el modelo de datos fusionados es el siguiente
1
1
En cambio serían inconsistentes si el modelo de efectos fijos (que veremos en la Sección 10.2.2) fuera el
modelo apropiado para el tipo de relación entre las variables económicas en cuestión.
360 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
Los errores estándar se reproducen entre paréntesis, los robustos frente a heterocedasticidad
(o de White) entre corchetes y debajo , med iante asteriscos indicamos su grado de significatividad ,
tres (***) indica que es significativament e distinto de cero al 1 % de significatividad, dos (**) que
lo es al 5 % y uno (*) al 10 %.
No es significativo el parámetro que se refiere a la inmigración en el periodo base (2007 )
«inm», por lo que antes de la crisis los inmigrantes tenían un nivel de ingresos mensual similar
al del grupo de control. Tampoco es signif icativo el término independiente para 2010 « D », lo
Tema 10 361
que significa que los ingresos en 2007 y 2010 son prácticamente iguales, en términos nominales
(si tenemos en cuenta que el IPC creció aproximadamente un 5,8 %, esa es la pérdida de poder
adquisitivo si consideramos nula la diferencia entre los ingresos medios de ambos periodos para
el grupo de control), no obstante mantenemos el parámetro como variable de control . El grupo
de las mujeres casadas en 2010 «muj-cas·D» tampoco es significativamente distinto al grupo
correspondiente a 2007. El resto de estimaciones son significativas, al menos al 10 %, y la mayoría
lo son incluso al 1 %.
Antes de la crisis (año 2007) las mujeres «muj» tenían unos ingresos medios de aproxima-
damente un 16,9 % (0,169·100) inferiores a los hombres solteros (descontados los efectos de la
educación y de la edad) si además la mujer es inmigrante «inm·muj » entonces los ingresos me-
dios disminuyen un 8 % adicional . Los hombres casados «cas» incrementan sus ingresos, respecto
del grupo de control, un 22,8 %; sin embargo, las mujeres casadas disminuyen sus ingresos, un
31,0 % [(0,228 - 0,369 - 0,169)-100] respecto del grupo de control, cantidad a la que habría que
sumar otro 8 % si además de mujer casada es emigrante (un 39 % menos que el grupo de control).
Como consecuencia de la crisis económica (2010 ) las mujeres han mejorado «muj·D» un
7 % (quizás porque los hombres han empeorado más), los casados tanto hombres «cas·D» como
mujeres «muj-cas·D» mantienen la misma situación que antes de la crisis y los grandes perdedores
como consecuencia de la crisis son los emigrantes «inm·D», que pasan de tener unos ingresos
similares a los del grupo de control al reducir sus ingresos en un 24,1 %; si además son mujeres
hay que aumentar un 10,6 % adicional de pérdida.
El modelo (10.1.2) es un modelo de datos fusionados puesto que tenemos dos variables,
estudios terminados «est» y la variable de edad («edad» y «edad 2»), cuya influencia es común
a ambos años (2007 y 2010). Si hubiéramos incluido también términos de interacción en
estas variables (es decir si además incluimos las variables «est· D », «edad·D» y «edad 2·D» ),
entonces los resultados serían los mismos que si estimáramos dos modelos de corte transversal
por separado, uno para cada año independientemente. Veamos un ejemplo.
...
[25,003]
2
[0,017]
-2
...
[9,971] (10.1.5)
n = 21514, R =O , 3883, R =O, 3882,
Para realizar la estimación en 2010 y poderla comparar con la anterior, primero debemos
deflactar el ingreso y consumo familiar. Ent re 2007 y 2010 el índice de precios al consumo creció
un 5,8 %, de manera que para obtener el ingreso y el consumo en euros de 2007 basta con
multiplicar por 0,9451 (100/ 105, 8 ~O, 9451) el ingreso y el consumo de 2010. La estimación para
2010 (durante la crisis) en euros constantes de 2007 es:
La comparación entre ambas estimaciones es clara: en 2010 el consumo autónomo fue menor.
aproximadamente 17,5 euros mensuales menos (521 , 489 - 539, 010 = -17, 521), la propensión
marginal al consumo aumentó en 0,084 puntos (O, 708 - O, 624 = O, 084), y el gasto por cada
miembro de la unidad familiar disminuyó, 122 euros al mes (203, 854 - 325, 804 = -121 , 95).
Por tanto parece que las consecuencias de la crisis son claras , disminución del consumo autónomo
(familiar y por cada miembro) y aumento de la propensión marginal al consumo.
Al mismo resultado llegamos si utilizamos datos fusionados e incluimos una variable dummy con
valor unitario si las variables son del año 2010 y nulo en caso contrario (2007), además debemos
introducir términos de interacción en toda s las variables, es decir estimamos el modelo siguiente:
estimación que lleva a las mismas conclusiones que cuando realizamos una regresión para cada año.
Quizás la única ventaja de utilizar datos fusionados es que ahora vemos de forma directa que la dis-
minución del consumo autónomo familiar en 2010, de 17 ,52 euros al mes, no es significativamente
distinta de cero .
Bajo el supuesto de que los modelos estén bien especificados podemos recurrir a un gráfi-
co típico de la función de consumo keynesiana antes y durante la crisis económica para analizar
las diferencias . Para ello tenemos en cuenta que el tamaño medio de las familias encuestadas
en 2007 es de 2,85 personas y en 2010 de 2,80 y consideramos como consumo autónomo la
suma de la constante más el gasto ocasionado por el número medio de miembros de la uni-
dad familiar , es decir consideramos como gasto autónomo mensual para 2007 de una familia
típica es de 1.468 euros al mes (539, 01 + 325, 804·2, 85 = 1467, 55) y en 2010 de 1.092 euros
[539 , 01 - 17, 521+(325,804 - 121 , 949) ·2, 80 = 1092, 28].
Tema 10 363
.,,.,. ,,. .
Ingreso medio= 1.948 r
/
/
'./"' conmi • l .468•0.624'1ng 1001
/
// /
/
/
/
Ingreso mensual
igual, por consiguiente cuando las variables monetarias están en logaritmos e incluimos variables
ficticias anuales entonces no es necesario deflactar. Sin embargo, cuando las variables están en
niveles y lo que nos interesa son las variab les reales entonces es necesario hacerlo.
Finalmente pueden existir problemas de heterocedasticidad en el término error lo que se so-
luciona de las formas analizadas en el tema correspondiente (nosotros hemos utilizado los errores
estándar robustos de heterocedasticidad, reproducidos entre corchetes en las estimaciones de este
tema).
En los ejemplos anteriores hemos considerado solo dos años (2007 y 2010) , pero los mo-
delos con datos fusionados pueden estimarse teniendo en cuenta más periodos, simplemente
tendremos que incluir una variable binaria más por cada año adicional que incluyamos en el
modelo.
•• •
•
•z
• ••
-·
•
.
• •
.r
•
• • •
.i!.
. .......
.._ ..
......
• •
Además de lo que hemos indicado en la introducción del tema, los paneles pueden ser de dos
tipos: equilibrados (o completos) , si tenemos datos para todas las observaciones, o incompletos,
si hay alguna observación ausente para alguna(s) sección, en ese aspecto se indicaría con un
subíndice, del siguiente modo Ti. En principio nosot ros pensamos en paneles equilibrados si
bien todos los métodos utilizados se pueden extender también a paneles incompletos.
Como sucede en el resto de temas, los retos prioritarios son cómo estimar con precisión los
efectos parciales y cómo realizar inferencia correctamente, para lo cual los errores estándar
de los estimadores juegan un papel decisivo pues ahora es necesario controlar el efecto de
la correlación temporal para un individuo o entidad , junto con la propia heterocedasticidad.
Dado el nivel introductorio del texto nos centraremos principalmente en el primer reto.
(10.2.1)
donde la variable «Zi» es una variable que influye en «Yit » pero que no varía con el tiempo, es
decir tiene carácter idiosincrásico para las entidades individuales , como los hábitos culturales,
personales, etc. Si se tratara de una ecuación salarial, dicha variable podría referirse a la
habilidad natural de cada trabajador; si se tratara de una ecuación de producción , podría
referirse a los conocimientos organizativos de la entidad i considerada. De este modo parte
de la heterogeneidad o singularidad de cada entidad sería contemplada. Debido a que esta
variable no varía con el tiempo (temporalmente invariantes), la influencia será igual en ambos
periodos y por ello solo incluimos el subíndice «i» en la expresión. Consideramos además que
la variable «Zi» es inobservable.
En estas condiciones, si realizamos la regresión de corte transversal entre «Yi » y «Xi»
y dejamos fuera de la misma a la variable Zi, puesto que no es observable, corremos el
366 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
riesgo de que el estimador del efecto parcial sea sesgado, y lo será sin duda si Xi y Zi está::.
correlacionados.
Alternativamente, y debido a que Zi no cambia con el tiempo, puede eliminarse ( i!:
correr el riesgo de obtener estimadores inconsistentes) mediante el análisis de las diferenci~
temporales entre ambos periodos. Formalmente tenemos que la estimación del primer period
es
(10.2.2
(10.2. 3
tes 2 (tantos como entidades individuales), y por ello la expresión más habitual de (10.2.1)
es
(10.2.5)
En este modelo los O:i , o efectos fijos individuales, se tratan como términos independien-
tes a estimar en la ecuación (para cada entidad individual). Hay por tanto n efectos fijos
individuales, efectos que son distintos como resultado de las variables omitidas invariantes
en el tiempo. Se observa que el coeficiente poblacional de la pendiente, /3i , es el mismo para
todas las entidades , siendo el intercepto o término constante lo que varía entre las mismas. Se
comprueba también que, al igual que sucede con el estimador de la diferencia, este modelo es
menos restrictivo que el modelo de datos fusionados toda vez que permite que el intercepto o
constante varíe a lo largo de los individuos, y así se captura cierto grado de heterogeneidad
individual no observada.
La estimación por MCO no es adecuada si se aplica directamente sobre la ecuación (10.2.5)
porque produce estimadores sesgados e inconsistentes toda vez que JE (Eit) = O:i . Una alterna-
tiva es considerar a O:i como un coeficiente de una variable dummy (binaria), de esta manera
podemos caracterizar el modelo de efectos fijos utilizando variables binarias para cada entidad
individual, es decir, podemos considerar el modelo de regresión siguiente:
(10.2.6)
Las variables dicotómicas del modelo (10.2.6) tienen valor unitario para la entidad indivi-
dual a la que hacen referencia y valor nulo para el resto. Así «D2i» tiene valor unitario para
la segunda entidad individual (segunda observación de corte transversal) y valor nulo para
el resto. La interpretación es clara: «f3o » es el efecto fijo individual de la primera entidad de
corte transversal «0:1 »; el segundo , f3o + 12 = 0:2, y en general f3o + /i = o:i.
Para el caso de dos periodos se obtiene el mismo resultado «(3 1 » con el estimador de la
diferencia (10.2.4) que con el de efectos fijos (10.2.6). En el caso de que tengamos paneles de
más de dos periodos debemos recurrir a la estimación de efectos fijos individuales (10.2.6).
Si existen otras variables independientes observadas que influyen en «Yit » y que varían
con el tiempo debemos también incluirlas en el modelo (10.2.6); su extensión resulta sencilla:
(10.2.8)
hemos de descontar (n - 1) parámetros estimados en las variables dummy, así como los k + l
regresores de la constante y de las variables explicativas que cambian en el tiempo.
Así pues el estimador de efectos fijos , a diferencia del estimador por MCO fusionado.
explota la singularidad propia de los datos de panel. Así pues mide la asociación entre las
desviaciones específicamente individuales de los regresores respecto de sus correspondientes
promedios temporales y las desviaciones específicas individuales de la variable dependiente
respecto de su promedio temporal. Un inconveniente del estimador de efectos fijos, compartido
también con el estimador de las diferencias, es que no se pueden introducir variables expli-
cativas binarias adicionales 3 puesto que entonces tendríamos colinealidad perfecta. Lo cual
lógicamente impide que podamos estimar el efecto parcial de una de este tipo de variables
(pensemos por ejemplo en la condición de genéro en una ecuación de salarios) sobre la variable
dependiente.
Tanto el estimador de efectos fijos como el estimador de la diferencia producen estimaciones
consistentes de los k parámetros o coeficientes de los regreso res Xit ,j, j = 1, 2, ... , k, esto es de
los efectos parciales sobre la variable dependiente de Jos cambios en los mismos. Mientras que
los N parámetros ai, i = 1, ... , N tienen un interés escaso o incidental, si bien su presencia
es necesaria para la calidad de la estimación de los k. Sobre estos aspectos volveremos más
adelante en la exposición.
(10.2.9)
calculamos las medias de cada entidad individual de la forma usual: Y i. r- 1 1 Yit , I:,f=
Xi . = r- 1 I:,f=
1 Xit , y E\. = r-
1
I:,f=
1 fit, de manera que la ecuación de efectos fijos para los
valores medios es
y debido a que el efecto fijo ai es constante también aparece en la ecuación de valores medios.
Se puede considerar que esta ecuación es una ecuación de sección cruzada.
3
En general , este tipo de modelos no permiten identificar coeficientes de regresares invariantes en el tiempo.
Tema 10 369
Restando ambas ecuaciones para cada t, obtenemos la ecuación de efectos fijos en diferen-
cias a las medias temporales, en la que los efectos individuales específicos han desaparecido:
A partir de esta estimación se calculan los efectos fijos ai, de la siguiente forma:
(10.2.14)
Las estimaciones de los parámetros «f3i» intragrupos o de efectos fijos coinciden con la
estimación de efectos fijos mediante la utilización de variables binarias (10.2.8). Podemos
comprobar que el número de grados de libertad con variables binarias (dummies) y en desvia-
ciones a la media coinciden. A tal efecto, obsérvese que en el modelo (10.2.12) no hay término
constante pues se ha cancelado al hacer la transformación de las variables, y además, para
cada observación i perdemos un grado de libertad al trabajar en desviaciones respecto de su
media. Por tanto se pierden en total n + k grados libertad de los nT dados por el número de
observaciones disponibles.
A modo de completar esta sección, merece la pena hacer notar que cuando tenemos pane-
les con dos periodos temporales llegamos a los mismos estimadores utilizando cualquiera de
los tres procedimientos: el que estima el modelo de las diferencias, el que estima el modelo
con variables binarias y el que estima el modelo en diferencias a las medias (intragrupos).
Cuando el panel tiene más de dos periodos entonces podemos estimar el modelo de efectos
fijos mediante la utilización de variables binarias o mediante el estimador en diferencias a
las medias, y también podemos hacerlo con el estimador de la diferencia, si bien este caso es
claramente menos eficiente. Como el uso de programas especializados está generalizado y su
estimación por el procedimiento de diferencias a las medias es menos tediosa (y obtenemos los
370 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
mismos estimadores de «f3i»), cuando nos referimos a estimaciones de efectos fijos, en genera.
nos estamos refiriendo a la estimación por el procedimiento de diferencias a las medias.
Bajo estos supuestos, los estimadores de efectos fijos son insesgados y consistentes, la
estimación adecuada es MCO utilizando errores robustos a la autocorrelación y a heteroce-
dasticidad (HAC), [ver Arellano (1987)] .4 Sin duda hay aparentemente muchas similitudes
con los supuestos del modelo de regresión lineal, sin embargo es especialmente interesante
observar algunos aspectos diferenciales. Para ver la necesidad y el alcance del primero de los
supuestos (exogeneidad) , consideremos la ecuación (10.2.4), que tal y como ha sido desarro-
llada permite estimar /31 consistentemente, bajo los supuestos básicos del modelo de regresión
lineal, siempre que
que es equivalente a
Los dos primeros sumandos serían nulos simplemente si requiriéramos una versión menos
estricta que la indicada en el supuesto, es decir, si el requisito fuera IE (cit IXit, ai) = O, los
dos primeros sumandos serían nulos. En cambio, esta versión del supuesto no garantiza que
xil esté incorrelacionado con Ei2 o que xi2 esté incorrelacionado con Eil . Precisamente asumir
4
Podríamos obviar los métodos robustos, en la situación teórica, no habitual en la prác-
tica, de errores homocedásticos =a;,
[Var (é:it 1 Xi, ai) para todo t] y no autocorrelacionados
[para cada t, Cov (éit, Cis 1 xi, ai) =o, para todo t # s].
Tema 10 371
que el error fit está incorrelacionado con Xi1, Xi2 para t = 1, 2 es una forma de exogeneidad
más estricta que la que veíamos en el modelo de regresión habitual y de referencia. Esta forma
de exogeneidad es la que garantiza JE (6Xi6ci) = O y por tanto la que se requiere para la
estimación consistente e insesgada del modelo de regresión con efectos fijos. En el caso de más
de dos periodos en el panel, la restricción es exactamente JE (cit fXi 1, Xi2, ... , Xir, ai) = O,
para t = 1, 2, ... , T.
Incluir los efectos fijos individuales ai - no observados- dentro del condicionante es impor-
tante. El objetivo es identificar correctamente los coeficientes de efectos parciales de la recta
de regresión con efectos fijos. Esto es
y tras operar
JE (Yú fXi11 ... , Xir, ai) = /31Xit + ai +O,
que permite observar que condicionando por los efectos individuales no restringe el hecho
singular de que exista potencial correlación entre el efecto fijo individual y las variables obser-
vadas explicativas, en este caso solo una. Precisamente el no estar restrigindos por la potencial
correlación entre ai y los regresares es la característica diferencial del modelo de efectos fijos.
Nótese que en caso de que el condicionante fuera del tipo JE (cit fXil, ... , X ir ), entonces no
podríamos garantizar que JE (ai f Xi 1 , .. ., X ir) = JE (a¡) en caso de correlación entre el efecto
fijo y alguna(s) de las observaciones de las variables explicativas. En tal situación no logra-
ríamos el objetivo de identificar el efecto parcial de X en la función de regresión, es decir
no seríamos capaces de mantener constante (descontar el efecto de) la variable no observable
propia del individuo i cuando queremos obtener el efecto parcial de la variable explicativa X.
Esto también nos permite entender el porqué el efecto fijo individual ai se entiende más como
una variable aleatoria que como un parámetro.
El segundo supuesto sostiene que la independencia es entre distintas entidades individuales,
sin embargo permite que exista autocorrelación temporal para la misma unidad, es decir no
impone restricciones a la autocorrelación dentro de la unidad. Esto es una de las ventajas de los
modelos de panel en general: que permitiría caracterizar cierto efecto dinámico de la variables
explicativas sobre la variable dependiente. Por ejemplo, un panel nos permitiría estimar la
proporción de desempleados que, tras una acción de política (económica) determinada, van a
seguir siéndolo en el próximo trimestre.
El tercer supuesto es similar al que hicimos para sección cruzada, y lo mismo sucede con el
cuarto, sin embargo en el contexto de modelos de datos de panel la multicolinealidad perfecta
aparece con bastante frecuencia, dadas las técnicas de estimación que hemos visto elaboradas
a partir de variables binarias. Si una de las variables explicativas es constante a lo largo del
tiempo para todos los individuos o entidades, la condición o supuesto cuarto se incumple,
y genera que el modelo no se pueda estimar. Este resultado no debe de sorprendernos: si a
está correlacionada con el vector de variables explicativas, el efecto parcial de una variable
explicativa constante no se puede distinguir del efecto propio de a. Dicho de otra manera,
solo podremos estimar consistentemente f3 si hay variación de Xit en el tiempo.
Cuando analizamos individuos (agentes económicos), factores como el género o la raza no
pueden ser incluidos como variables explicativas. Lo mismo sucede cuando lo que analizamos
372 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
son ciudades, las variables que describen atributos constantes de las ciudades (si pasa cerca U!:
tren, o si la ciudad tiene río) tampoco pueden considerarse. En muchas aplicaciones es ciert"
que este tipo de variables - constantes en el tiempo para todos los sujetos de estudio- no so~
el centro de atención del economista. En tal caso, no debería preocuparnos el modelizarlas
dado que el objeto directo de interés son las variables explicativas que cambian en el tiemp
Lógicamente este cambio temporal no tiene que producirse para todas y cada una de la.:::
unidades o sujetos considerados: basta con que cambie en el tiempo para algunos sujetos de
la sección cruzada para que puedan ser estimados.
Los supuestos que hemos indicado garantizan no solo la consistencia de los efectos parcial~
de las variables que cambian a lo largo del tiempo, sino también la distribución asintótica
normal. De una manera intuitiva, esto es así porque estamos estimando por MCO con un -
supuestos más restrictivos que los que planteamos para datos de sección cruzada.
Dado que la heterocedasticidad y la autocorrelación de los errores (correlación a lo largc
de t para un i determinado) del modelo son dos elementos prácticamente consustanciales a
cualquier aplicación, si queremos garantizar inferencias estadísticamente válidas debemos con-
trolar ambas situaciones, y por ello utilizamos estimadores de la varianza de /Jj robustos a la
heterocedasticidad y a la autocorrelación (HAC). En particular han de usarse los denomina-
dos errores estándar agrupados. El agrupamiento se refiere a la agrupación que naturalmente
genera cada entidad individual (cada entidad es un propio grupo). Por tanto la heterocedasti-
cidad y la autocorrelación se permiten, con este tipo de estimadores, dentro del grupo, pero no
entre los grupos, es decir, no entre las distintas entidades individuales. Cuando nos referimo~
a resultados asintóticos en modelos de datos de panel, nos referimos a que para un T fijo .
N--+ OO.
Cuando el número de entidades individuales, N, es grande, la inferencia realizada a partir
de los errores estándar agrupados puede realizarse con los valores críticos de las distribuciones
habituales, esto es los valores críticos de la normal para contrastes tipo t, y los valores crítico
de la Fq,oo para el contraste de restricciones.
Conviene observar que hay cierta asimetría en la calidad de los estimadores de los pará-
metros de efectos parciales /3j y la de los interceptos individuales ªi· De hecho los intercepto
son conocidos como elementos incidentales o parámetros ruidosos en el sentido de que, siendo
necesarios para la correcta estimación de (3j, su valor no tiene gran interés en sí misma. No
solo por esto es necesario diferenciar entre unos y otros, sino que además, a diferencia de lo
que ocurre con /JfFestimados 5 con (10.2.12), que son estimadores consistentes para un T fijo.
n --+ oo, los &fF no lo son. El motivo es intuitivo: a medida que incorporamos una entidad
de sección cruzada adicional, tenemos que estimar una nueva &f F. El problema desaparecería
cuanto mayor fuera T, en el límite cuando T --+ oo. En todo caso, las estimaciones de &fF
son insesgadas.
5
Se diferencia con el superíndice el estimador de efectos fijos del MCO, si bien generalmente en este texto
quedará claro por el contexto a cuál nos referimos.
Tema 10 373
(10.2.15)
donde St no es observable y el subíndice t indica que todas las entidades individuales se ven
afectadas por igual en cada periodo, y donde solo hay una variable explicativa, X. Si la variable
St está correlacionada con Xit y no la introducimos en la ecuación obtenemos estimadores
sesgados.
Podemos escribir esta ecuación en términos de efectos fijos de forma semejante a como
hicimos en la expresión (10.2.5) añadiendo efectos fijos temporales,
(10.2.16)
donde añadimos la variable µt que se mantiene constante para todas las entidades individuales
y solo cambia con el tiempo, es decir, se añade un término independiente para cada periodo
temporal.
El modelo se puede estimar por MCO introduciendo variables binarias para los efectos
fijos individuales y temporales,
374 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
donde incluimos variables binarias idiosincrásicas de la misma forma que hicimos en la ex-
presión (10.2.6), pero añadiendo variables binarias para cada periodo a partir del segunde
La variable binaria B2t tiene valor unitario cuando las observaciones se refieren al segund~
periodo y valor nulo para el resto, etc. La interpretación es la siguiente: /30 es el término con5-
tante para la primera observación del primer periodo, el término constante para la segund.:.
identidad individual del segundo periodo es /Jo+ 12 + 82 y en general el término constante d~
la observación ij-esima es /Jo+ /i + Ój.
Ampliar el modelo a k variables explicativas observables resulta sencillo: el modelo de
efectos fijos es
donde hay n variables binarias para los efectos fijos individuales iguales a la unidad si i = j.
(T - 1) binarias para los efectos fijos temporales iguales a la unidad si s = t, y en este caso
no podríamos incluir la constante pues hemos considerado directamente los n efectos fijos
individuales. Recuérdese que los estimadores son consistentes para los parámetros que varían
en el tiempo, y por tanto podremos estimar consistentemente los fJJ y los Ó8 • Por este motivo
en las expresiones matriciales que incluimos en el apéndice técnico de este tema el vector Xit
incorpora las (T - 1) variables binarias relativas a los coeficientes Ó8 •
Los mismos estimadores de f3i se pueden obtener por el procedimiento en diferencias a las
medias de un panel equilibrado. En primer lugar se calcula la Yit y las Xit , en desviaciones a
las medias individuales y temporales, y posteriormente estimamos la ecuación en desviaciones
a las medias por MCO. El estimador en diferencias a las medias es
(Yit - Yi. - Y .t +Y .. ) = !31 (Xitl - Xu - X.tl + x .. ,1) + !32 (Xit2 - xi. ,2 - X.t2 + X ..,2)
+ ... + fJk (Xitk - xi.,k - X.tk + x .. ,k) + (éit - Ei. - E.t + €..)
(10.2.20)
donde Y .. = (nT) - L~=l L:f=l Yit y€ .. , X .. ,j se definen de forma equivalente. El motivo por
1
el que es necesario hacer estas transformaciones es para asegurar que desaparecen los términos
de los efectos temporales e individuales. En el apéndice se comprueba este extremo.
Los programas informáticos especializados estiman los modelos de panel de esta forma,
lo que elimina la labor de especificar todas las variables binarias. Las propiedades de los
estimadores y la inferencia sobre los mismos guardan las mismas propiedades que el modelo
de efectos fijos individuales.
Tema 10 375
Es decir que el incremento de la tasa de paro anual (evolución de la situación económica) debe
influir en el incremento anual del índice de delincuencia, pero también sabemos que la delincuencia
depende de otros factores, muchos inobservables. A lgunos de carácter idiosincrásico puesto que
las comunidades autónomas tienen históricamente distintos índices de delincuencia. En general las
comunidades con mayores núcleos urbanos tienden a tener también mayores índices de delincuencia.
Factores como distribución por edad, educación y género también influyen . Pues bien todos los
factores que se mantienen constantes en el tiempo, o varían muy despacio, como los mencionados
son captados por los efectos fijos individuales ªi· También hay factores que cambian en el tiempo y
que afectan a todas las comunidades por igual como los cambios en las leyes y la eficacia policial.
En general todos los factores que cambian con el tiempo pero que afectan a todo el territorio
nacional por igual son captadas por los efectos fijos t emporales T/t·
Primero consideramos dos periodos, 2007 y 20 10, es decir antes y durante la crisis, como
hicimos en ejercicios anteriores.
Estimamos una ecuación de corte transversal por MCO para el año 2007 que relaciona ambas
variables; su estimación es
--
delincuencia2007 =O, 262 - O, 046·paro2001
(0,652) (0,969)
[0,805] [1,200] (10 .2.22)
n = 17, R 2 = 0, 0001,
donde sorprende el signo del incremento de la tasa de paro . La interpretación literal de la ecuación
sería que ante el incremento del paro, el índice de delincuencia disminuye, lo que es contrario al
sentido común. Ninguno de los dos parámetros son sign ificativos , de manera que la conclusión es,
en el mejor de los casos, que paro y delincuencia no tienen relación alguna entre sí. El sesgo de
variables omitidas está en el origen del signo contrario al esperado.
El estimador de la diferencia entre los años 2007 y 2010 evita el sesgo por variables omitidas;
su estimación es
--
6delincuencia = -3, 895 + 1, 145·6paro
(1,617) (0,628)
[1,379]
..
[0,497] (10.2.23)
n = 17, R 2 = O, 1817, -2
R = O, 1272,
376 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
ahora el signo es el esperado y ambos coeficientes son significativos al 5 %. Un incremento anual del
paro del 1 % implica un incremento anual del 1,15 % del índice de delincuencia también en 2010.
El término constante negativo significa que el incremento de la delincuencia anual entre 2010 y
2007 disminuyó en promedio prácticamente un 4 %6 descontada la influencia del incremento anual
del paro.
Al mismo resultado se llega utilizando el estimador de efectos fijos individuales y temporales,
expresión (10.2.24):
---
delincuencia2010y2007 = - 1, 46
(0,549)
+ 1, 145paro2010y2007
(0,628) (10.2.24)
[0,703] [0,703]
Generalmente los efectos fijos no se muestran en los trabajos aplicados salvo en casos muy
especiales; nosotros lo haremos solo esta vez con fines didácticos (Tabla 10.1). Las comunidades
autónomas que tienen efectos fijos positivos presentan incrementos anuales de delincuencia entre
2007 y 2010 por encima de la media (Madrid y Cataluña) , y las que tienen efectos fijos de signo
negativo los incrementos son menores (Ca narias y Baleares). El parámetro del paro es el mismo que
la estimación por diferencias (10.2.23) . El error estándar también es igual (entre paréntesis), pero
el error estándar robusto a la correlación y a la heterocedasticidad (entre corchetes) es distinto
puesto que el cálculo es diferente en la regresión normal y de panel. La estimación en diferencias
a las medias de efectos fijos no tiene término constante; sin embargo la Ecuación (10.2.24) sí
lo tiene . La razón es que normalmente los programas especializados normalizan los efectos fijos ,
tanto los temporales como los individuales, de manera que su media sea nula y en consecuencia el
término constante de la expresión (10.2.24) es la media de esos efectos fijos. El término constante
de las diferencias a las medias (10.2.24) es distinto de la estimación en diferencias (10.2.23)
6
EI estimador de la diferencia aquí tiene término constante lo que no ocurre en (10.2.4); para llegar a la expresión
con término constante debemos especificar la ecu ación de corte transversal para 2007 como, Y2007 = .80+.81X2007+
€1, y como la de 2010 con datos fusionados y términos de iteración Y2010 = .80+.81X2007+.82D2010+.83X2010D2010+
€ 2 como sabemos que los dos primeros térm inos de la segunda ecuación son la estimación de la primera tenemos que
Y2010 = Y2007 + .82D2010 + ,83X2010 D2010 + é2 - é1, de manera que Y2010 - Y2007 = .82D2010 + ,83X2010 D2010 + é,
que es el estimador de la diferencia con término constante. El término constante , en este caso, es lo que se ha
incrementado la delincuencia descontado el efecto del incremento de la tasa de paro.
Tema 10 377
pero si nos fijamos en los efectos fijos temporales nos damos cuenta de que la suma de estos
efectos, prescindiendo del signo, es muy similar al término constante de la estimación en diferencias.
Finalmente vemos que el coeficiente de determinación es mucho más alto. Esto se debe a que en
esta ecuación hemos calculado muchos más parámetros, los efectos fijos, por ello el coeficiente de
determinación corregido es mucho más informativo .
En realidad tenemos datos de incrementos anuales de delincuencia y paro entre los años 2001
y 2010 y sería un desperdicio no utilizar todos los datos disponibles. Su estimación es:
--
delincuenciait = -0, 100 + O, 333-paroit
(0,422) (0,180)
[0,099] [0,172]
(10.2.25)
efectos fijos individuales y temporales
2 - 2
ind. = 17, tem. = 10, n = 170, R = O, 3142, R = O, 1849,
tenemos 17 comunidades autónomas y 10 años, en total 170 observaciones. El incremento anual
del paro es significativo al 5 %, un incremento anual del paro del 1 % implica un incremento de
0,33 % del índice de delincuencia. Si comparamos este resultado con el anterior (1,15) vemos que
el efecto es mucho más modesto. La diferencia entre ambos es que aquel compara 2010 con 2007,
es decir, se trata de un estimador a más largo plazo , 3 años; mientras que la expresión (10.2.25)
se refiere al cambio anual (0,33). El término constante no es significativo , el signo negativo indica
que durante la década la delicuencia ha tenido una tendencia negativa (descontada la influencia
del paro, y de los efectos fijos considerados).
--
In (electricidadit) = 11, 601 - 1, 193-ln (preciOit)
(3,615) (0,158)
+O, 022-ln (PI Bit)
(0,366)
[6,067] [0,206] [0,598]
... *** (10 .2.26)
efectos fijos individuales y temporales
2 -2
ind. = 17, tem. = 5, n = 85 , R = O, 9466 , R = O, 9276,
odas las variables están en términos per cápita , los precios y el PIB en euros constantes de 2010
(deflactados por el IPC de cada comunidad). Los signos son los esperados si bien el PIB no es signi-
1cativo a los niveles usuales quizás porque no hay alternativa al consumo eléctrico para uso domés-
t ico. No podemos rechazar la hipótesis de elasticidad precio unitaria [(1, 193 - 1) /O, 206 =O, 937].
=n general las estimaciones MCO de demanda pueden presentar sesgo de simultaneidad (demanda
- oferta) pero si los cambios de la oferta afectan a todas las comunidades autónomas por igual,
estos estarán recogidos en los efectos fijos temporales y los estimadores serán insesgados.
378 REGRESIÓ N CON DATOS DE PANEL Y FUSIONADOS
----
In (tabacOit) = -0, 630 - 1, 174-ln (precioit)
(6,239) (0,191)
+ 1, 263·1n (P I Bit)
(0,625)
[6,850] [0,115]
.
[0,679]
(10.2.27
efectos fijos individuales y temporales
2 -2
ind. = 17, tem. = 5, n = 85, R = 0,8478 , R =O, 7938.
La elasticidad precio de la estimación por VI fue (-1,086), muy parecida a la actual (-1,174). La
introducción de efectos fijos idiosincrásicos se puede justificar con factores como la educación , o
la distribución por edad y sexo de cada comunidad. Los efectos fijos temporales tienen en cuenta
entre otros factores , la publicidad (que relaciona negativamente el tabaco con la salud) .
La estimación utilizando como instrumento los impuestos especiales al tabaco por cajetilla es
prácticamente la misma
----
In (tabacoit) = -0, 617 - 1, 172-ln (precioit)
(6,241) (0,193)
+ 1, 261 -ln (P I Bit)
(0,625)
[6,872] [0,125]
.
[0,682]
(10.2.2
MC2E, instrumento: impuesto especial por cajetilla
efectos fijos individuales y temporales
2 -2
ind. = 17, tem. = 5, n = 85, R =O, 8478, R =O , 7938.
Algunos autores estiman la demanda de tabaco con datos de panel utilizando las mismas
variables pero introducen el consumo reta rdado un periodo para tener en cuenta el carácter adictivo
del tabaco. La estimación para el caso español es
----
In (tabacoit) = 1,567 -1 ,435-ln (precioit)-0, 117-ln (tabacoit-1)
(9,160) (0,339) (0,122)
+ 1,200-ln (PI Bit)
(0,923)
[13,372] [0,264] [0,090] [1,295]
•••
MC2E, instrumento: impuesto especial por cajetilla
efectos fijo s individuales y temporales
2 - 2
ind. = 17, tem. = 4, n = 68, R = O, 8576, R = O, 7879,
(10.2.29
Tema 10 379
donde la elasticidad precio ha aumentado sustancialment e. Ahora solo los precios son significativos,
por tanto rechazamos la introducción del consumo de t abaco retardado como variable explicativa
en este caso.
--
.6 1n (consumoit) =O, 004 + O, 867·.61n (Y Dit)
(0,001 ) (0,029)
[0,001] [0,048
(10.2.30)
efectos fijos individuales y temporales
2 - 2
ind. = 22 , tem . = 14, n = 308, R = O, 8598 , R = O, 8418,
donde tanto el consumo como la renta disponible est án en términos per cápita y euros constantes
de 2005 ( deflactados por el 1PC armonizado) . La utilización de diferencias de los logaritmos equivale
a utilizar tasas de variación (en tanto por uno) . Ambas estimaciones son significativas incluso al
1 %.
Todos sabemos, por introspección , que cuando aumenta nuestra renta disponible también au-
mentamos el consumo de bienes y servicios, de man era que esta línea de causalidad es clara .
No obstante también sabemos, por la teoría macroeconómica elemental , que cuando aumenta
el consumo , las empresas venden más y aumentan su producción lo que implica una mayor ren-
ta disponible . Por tanto existe también línea de causalidad del consumo a la renta , de manera
que la renta dispon ible es endógena y, por consigui ente, la estimación anterior presenta sesgo de
simultaneidad .
El tratamiento tradicional de este problema co nsidera la identidad contable de los hogares,
renta = consumo + ahorro, y toma el ahorro como variable instrumental. Alternat ivamente,
al igual que otros autores, también podemos utilizar como variables instrum entales la variables
consumo y la renta ret ardadas. La ecuación reducid a para estas variables instrumentales es
2 - 2
ind. = 21, tem. = 14, n = 286, R = O, 4005, R =O, 3166,
7
Los pa íses utilizad os son A lem an ia, Austria, Bélgica , Chi pre, Dinamarca, Eslovaqu ia, Eslovenia, España , Es-
tonia , Finlandia , Franc ia, Grecia , Italia , Leton ia , Lituania , Noru ega, Países Baj os , Polon ia, Port uga l, Reino Unido ,
Repúbl ica Checa y Suecia.
380 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
con ambos instrumentos significativos por lo que podemos utilizarlas como variables instrumentales
La estimación por VI es:
--
L:. ln (consumoit) = O, 002 +O, 983·.l:.ln (Y Dit)
(0,002) (0,096)
[0,002]
...
[0,102]
(10.2.32
MC2E, instrumentos: consumo y renta retardados un periodo
efectos fijos individuales y temporales
2 - 2
ind. = 22, tem. = 13, n = 286, R = O, 8473, R = O, 8266 ,
--
L:. ln (consumoit) =O, 004 +O, 878·.l:. ln (Y Dit)
(0, 001) (0,025)
[0,001] [0,039]
(10.2.33
efectos fi j os temporales
2 - 2
ind. = 22, tem. = 14, n = 308, R = O, 8549, R = O, 8479,
Riir-Ri 0,8598-0,8549
0,000233
21
Fq,n-k-1 = ~ 1-0,8598 O
, 000514 =O, 453 = F21 ,272, (10.2 .34
n-k-1 308-35-1
cuyo valor es muy inferior a los valores críticos usuales (al 10 % el valor crítico es 1,44). La
hipótesis nula es Ho : 0:1 = 0:2 = ... = an =O, y como el valor empírico es muy inferior al crítico,
no podemos rechazar la hipótesis nula de efectos fijos individuales nulos. Decir también que el
número de grados de libertad del numerador (21) tiene en cuenta los efectos fijos calculados menos
uno, puesto que el término constante resta un grado de libertad a los efectos fijos individuales y
temporales. Los grados de libertad del denominador son: n-(k + 1) = 308-(22+14+1)-1 = 272,
donde 22 y 14 son los coeficientes fijos individuales y temporales respectivamente.
Para contrastar si los efectos fijos temporales son significativos estimamos como ecuación
restringida la expresión (10.2.30) pero sin efectos fijos temporales,
--
L:. ln (consumoit) =O, 003 +O, 948·.l:. ln (Y Dit)
(0,002) (0,029)
[0,001] [0,043]
*** ***
(10.2.35)
efectos fi j os individuales
2 -2
ind. = 22, tem. = 14, n = 308, R = O, 8156, R = O, 8013,
Tema 10 381
Riir-Ri 0,8598-0,8156
13 0,0034
Fq ,n-k- 1 = -1-_-'-~-iir 1-0,8598 O = 6, 614 = F13,272 , (10.2.36)
000514
n-k-l 308-35-1 '
y el valor crítico al 1 % de significatividad es 2,196 . Como el valor empírico es mayor que el
teórico o crítico, rechazamos la hipótesis nula y concluimos que los efectos fijos temporales son
significativamente distintos de cero. Por consiguiente la estimación más adecuada de la función
de consumo europea es la expresión (10.2.33) cuya diferencia con la expresión (10.2.31) es muy
pequeña, 0,878 frente a 0,867. La estimación por VI ten iendo en cuenta solo efectos fijos temporales
es
--
61n (consumoit) =O, 001+1 , 030·61n (Y Dit)
(0,002) (0,071)
[0,002] [0,066]
(10.2.37)
MC2E, instrumentos : consumo y renta retardados un periodo
efectos fijos temporales
2 -2
ind. = 22, tem. = 13, n = 286 , R = O, 8348, R = O, 8269,
donde la influencia de la renta ha aumentado hasta 1,03. La diferencia con la otra estimación por
VI (0,983) no es muy importante desde el punto de vista estadístico puesto que si calculamos un
intervalo con el 95 % de confianza, 1, 03±2·0, 066 = (O, 898; 1, 162), se incluye esa estimación. Lo
relevante es que los 22 países considerados presentan una función de consumo que estadísticamente
es igual para todos ellos (puesto que no hay diferencias individuales entre ellos) .
(10.2.38)
donde incluimos el término constante, fJo, al considerar que los efectos fijos tienen media nula,
como hacen los programas especializados.
La gran ventaja de la estimación por efectos fijos es que las variables no observables
individuales ai pueden estar correlacionadas con las variables explicativas Xitj, es decir, el
modelo de efectos fijos permite que la heterogeneidad individual no observada pueda estar
correlacionada con los regresares.
Pues bien, si estamos dispuestos a sostener (porque el tipo de análisis o estudio que esta-
mos realizando lo permite) la restricción de que estas variables, ai , no están correlacionadas
con el resto de variables explicativas Xitj , entonces los estimadores de efectos fijos (10.2.38) ,
que son (y seguirían siendo) consistentes, pueden mejorar en su eficiencia. Este supuesto ge-
neralmente no es siempre posible. Por ejemplo, si un panel está conformado por observaciones
individuales de trabajadores, una variable observable y de interés habitual es el salario por
hora del trabajador. Este salario puede estar correlacionado fácilmente con una variable no
382 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
observable como, por ejemplo, las habilidades del trabajador en cuestión, que implícitamente
está incorporada en el error específico individual ai, por lo que entonces el error podrá esta:
correlacionado con otras variables explicativas con las que correlacione la habilidad , com"
puede ser el nivel educativo alcanzado, entre otras.
En todo caso, si estamos en condiciones de asumir dicha restricción, entonces la forma de
conseguir estimadores eficientes en estas condiciones es recurrir al modelo de efectos aleatorio_
Si bien, en caso de que realmente hubiera correlación entre ai y Xitj, el modelo de efect "
aleatorios dejaría de producir estimadores consistentes. Así pues, si se cumple que
3. (Xi1, Xi2, ... , Xir, Ei1, .. ., EiT), i = 1, 2, .. ., N son extracciones iid de la distribución
conjunta
(10.2.41)
donde, como hemos dicho , O"& = Var (ai) y O"'f = Var (cit)· Se aprecia que esta correlación es
el ratio de la varianza de ai sobre la del error compuesto Vit, por lo que mide la importancia
relativa de los efectos invariantes ªi·
En este nuevo modelo la estimación MCO claramente producirá errores estándar incorrec-
tos, por tanto y tal y como vimos en el Tema 6, para corregir la autocorrelación debemos
recurrir el estimador por el método de mínimos cuadrados generalizados (MCG). La transfor-
mación utilizada parte de
2
,\ = 1 - O"é (10.2.42)
(O"i + T0"~)1/2'
cuyo valor está entre cero y uno. De tal manera que la ecuación transformada (MCG) para
calcular los estimadores de efectos aleatorios es
Yú - >.fi. = f3o (1 - >.) + f31 (Xitl - >. . ~\.,1 ) + f32 (Xit2 - >.Xi.,2) + ...
(10.2.43)
+ f3k (xitk - >..Xi.,k) + (vit + >.vi.) ,
que es una estimación en cuasidiferencias a las medias temporales.
Una de las ventajas del estimador de efectos aleatorios es que permite incluir variables
explicativas binarias (variables que no se pueden incluir en el estimador de efectos fijos).
El parámetro >. no se conoce en la práctica por lo que recurrimos al estimador mínimos
cuadrados generalizados factibles (ver Sección 6.2.4). En general los programas especializados
calculan rutinariamente el estimador de efectos aleatorios.
Cuando en la expresión (10.2.43) >. = O la estimación de efectos aleatorios y MCO (sin
incluir efectos fijos) coinciden (es decir , el modelo de datos fusionados). En cambio cuando
>. = 1 los estimadores de efectos aleatorios y de efectos fijos coinciden. Además y puesto que
los estimadores de efectos fijos son consistentes incluso bajo los supuestos de efectos aleatorios
a medida que el número de observaciones aumenta, >. tiende asintóticamente a 1 (NT -t oo ).
El modelo de efectos aleatorios individuales y temporales es similar. Ahora el error com-
puesto es Vit = ai + T/t + Eit, donde hemos añadido los efectos fijos temporales. La estimación
384 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
de efectos aleatorios individuales y temporales requieren que tanto los errores individuales
como los temporales no estén correlacionados con las variables explicativas y de igual forma
tenemos que recurrir para su estimación a MCGF, la estrategia para calcularlo es similar a
la de efectos fijos individuales pero más compleja8 . Por suerte los programas especializados
calculan este estimador de forma rutinaria.
Es posible estimar efectos aleatorios individuales y efectos fijos temporales y viceversa.
En ocasiones se estiman efectos aleatorios individuales y los efectos temporales se calculan
mediante variables binarias.
que no es más que el cociente del cuadrado de las diferencias de los estimadores y las diferencias
entre la matriz de varianzas y covarianzas. El test de Hausman converge a una distribución
2
Xk·
La idea con la que se construye el test consiste en aprovechar que tanto el estimador
de efectos aleatorios como el de efectos fijos son consistentes si no hay correlación entre las
variables explicativas Xit ,j y G:i. Si ambos son consistentes entonces deberían converger a
verdadero valor del parámetro /3j. Es decir, para muestras grandes las estimaciones deberían
ser similares, por lo que la diferencia entre ambos valores estimados debe ser pequeña (al
menos asintóticamente). Por otra parte, en caso de correlación entre X it,j y ai, el estimador
de efectos aleatorios sabemos que es inconsistente, mientras que el de efectos fijos sigue sien-
do consistente, por lo que este último estimador convergerá a los verdaderos valores de los
parámetros , mientras que el de efectos aleatorios no lo hará. En tal caso, esperamos apreciar
diferencias estadísticas significativas entre ambas estimaciones, constituyendo esta diferencia
evidencia en contra de la hipótesis nula anteriormente señalada. Así, al haber evidencia en
8
La transformación es, para la variable explicada: Y;; = (Yit - (Ji fi. - (h Yt - (}J Y.), con (h = 1- ~;
TO'o +u.u
fh = 1 - ~; 81
Na 11 +uv
= 1 - v'Tu 2 +Na
"" 2
+0'v2
. Las transformaciones para las variables explicativas y el error
0 11
son similares.
Tema 10 385
contra del supuesto JE (ai IXi1, Xi2, .. . , X iT) = lE(ai) = O, sería preferible que el modelo se
estimara con el estimador de efectos fijos.
El test así planteado contrasta una hipótesis nula conjunta al comparar todos los coe-
ficientes estimables. En ocasiones estamos interesados en un solo coeficiente del modelo , en
tal caso es posible plantear una versión del test de Hausman a través de un ratio de la t
para dicho parámetro o coeficiente. El estadístico tipo t también compara la diferencia entre
las estimaciones de cada estimación respectiva de un solo coeficiente, digamos el coeficiente
k-ésimo
In (cerve zait) = /30 + f31ln (precioit) + f32ln (Y Dit) + ai + T/t + Eit, (10.2.45)
donde cervezait son litros consumidos al año por persona y comunidad autónoma; precioit. los
precios medios por persona y comunidad pagados por litro en euros de 2010; y Y Dit• la renta
d isponible por persona y comunidad anual en euros de 2010; incluimos además efectos individuales
y temporales.
386 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
...
[3,192] [8,258]
- ..
[4,907]
...
[3,473]
...
[2,226]
...
[2,079]
...
[3,192]
In (YD) -0,20
...
[0,552]
...
[0,233]
1,68
...
[0,181]
-0,09
...
[0 ,655]
- o, 17
...
[0,162]
-0,25
...
[0,155]
-0,31
...
[0,552:
-0,20
(0,165) (0,761) (0,399) (0,172) (0,286) (0,254) (0,165
[0,328]
- ..
[0,822] [0,486]
-
[0,359]
-
[0,222]
-
[0,208]
-
[0,328:
-
efectos individuales no SI si no si si no
efectos temporales no si no SI si no SI
R'2 0,4758 0.9497 0,9366 0,4843 0,2202 0,2979 0,4758
R'L 0,4630 0. 9319 0,9194 0,4446 0,2012 0,2807 0,4630
La Tabla 10.2 muestra las estimaciones de varios modelos. Hemos realizado 7 estimaciones
diferentes , 3 de efectos fijos , 3 de efectos aleatorios y 1 sin efectos (MCO fusionados).
Primero nos centramos en las tres esti maciones de efectos fijos , en todas ellas la elasticidad
precio es significativa y tiene el signo adecuado , sin embargo en la primera [modelo (2)] nos
encontramos con elasticidad rígida, en el segundo [modelo(3)] aproximadamente unitaria y en el
tercero [modelo( 4)] elástica . Respecto a la renta nos encontramos con un parámetro significativo
[modelo (2)] y positivo (bien normal) , y dos no significativos [modelos (3) y (4)] además con signo
negativo (bien inferior).
La primera pregu nta está clara : ¿cuál de los tres modelos debemos elegir? La respuesta estadís-
tica adecuada es rea lizar contrastes de exclusión múltiple. Para ello consideramos como ecuación
no restringida la esti mación de efectos fij os individuales y temporales y como restringidas las que
solo tienen uno de ellos.
El contraste de significatividad conjunt a de los efectos fijos individuales es
Riir-R; 0,9497-0,4843
Fq ,n-k-1 = ~ --1-_~1
0 ,~~4~9=7 - = 36, 432 = F16,62, (10.2.46)
n-k - 1 85-(16+4+2)-1
el valor crítico al 5 % es 1,81 , y como el valor empírico es mayor rechazamos la hipótesis nula y
los efectos fijos individuales conjuntamente son significativos.
Lo mismo hacemos con los efectos fijos temporales:
Tema 10 387
Riir-Ri 0,9497-0,9366
Fq,n-k-1 = ~ 1 _ 0 ~ 497 = 4, 102 = F4,62 · (10.2.47)
n-k-1 85-(16+4+2)-l
El valor de tablas es 2,52, de manera que los efectos fijos temporales también son conjuntamente
significativos. En consecuencia elegimos el modelo con efectos fijos individua les y temporales.
Si nos fijamos en las estimaciones de efectos aleatorios [modelos (5), (6) y (7)] lo primero
que percibimos es que a medida que incluimos efectos en el componente de error los coeficientes
de determinación van disminuyendo . Además el modelo (7) es idéntico al modelo (1); la razón se
encuentra en que al estimar el modelo por MCGF el valor de>. cuando utilizamos efectos temporales
(10.2.43) se hace nulo y, en consecuencia , la estimación coincide con la MCO (sin efectos). Las
estimaciones de efectos aleatorios presentan errores estándar menores [comparándolos por pares ,
es decir, el modelo (2) con el (5) , el (3) con el (6) y el (4) con el (7)] es decir que los estimadores
de efectos aleatorios son más eficientes .
Ya hemos visto que los efectos individuales y t emporales son conjuntamente significativos y
por tanto la cuestión es decidir si el modelo de efectos fijos individuales y temporales es preferible
o no al modelo de efectos aleatorios (también con los efectos individuales y temporales incluidos
en el término de error), es decir se trata de decidir entre el modelo (2) y (5). Para el lo recurrimos
al contraste de Hausman, expresión (10.2.44), cuyo valor empírico es
= ( o 24
'
1 93 ) (
'
o, 02 -O, 03
O, 50
)-l ( o,1, 9324 ) = 14
'
364 = 2
X2,
(10.2.48)
donde la matriz central es la matriz de varianzas y covarianzas de los estimadores sin tener en
cuenta el término constante . Como el valor de tabl as al 5 % es 5,99 , rechazamos la hipótesis
nula de efectos aleatorios, es decir, escogemos el modelo de efectos fijos individuales y temporales
[modelo (2)] .
n
Yt = f31X.t + n- 1 L ai + µt + t.t (10 .3. 3)
i==l
388 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
n T n T
Y = /31X. + (nT)- 1
L L o:i + (nT)- L L µt +t.. 1
- -
Yit - Yi. - Yt = /31 (
xit - - X.t- )- 1"'"' µt - n - 1"'"' O:i +
xi . - r-
T
L__¿ L__¿
n
Eit - Ei. - E.t
t=l i=l
que no nos permite aún estimar /3 1 al desconocer muchos parámetros, sin embargo si a esta
expresión le sumamos (10.3.4) tenemos
i. -Yt+Y)
(Y:t-Y:
i . .. =/31(X·t-X·i. -Xt+X
. . . )+(c·t-€·
i ii. -tt+E)
. ..
i=l
T
Yt - Y.= /31 (Xt - xii) + r- 1:¿:µt + µt
t=l
es preciso requerir que la matriz de regresares no sea perfectamente multicolineal; para que
sean consistentes y asintóticamente normales se requiere que los regresares no estén correla-
cionados con los errores del modelo, JE (e IW) =O; y para realizar inferencia, lo hacemos con
errores estándar robustos a la autocorrelación y a la heterocedasticidad estimados a partir de
--
Var(SFUSJONADOS)
1
= [W'WJ- W'ü'W [w'wJ- 1 .
En caso de que el verdadero modelo o el modelo más adecuado fuera el de efectos fijos ,
entonces el estimador fusionado dejará de ser consistente. Efectivamente, en tal caso podríamos
reescribir el modelo de efectos fijos como sigue
donde (por ser el modelo adecuado el de efectos fijos ) hay correlación entre los efectos indivi-
duales ai y el regresar Xit, lo que propicia que el error combinado (ai - a+ éit) correlacione
el regresar, y de este modo la regresión fusionada de Yú sobre la variable explicativa y el
intercepto genere estimaciones no consistentes.
Efectos fijos
La expresión matricial del modelo de efectos fijos la podemos formar a partir de la trans-
formación correspondiente para las variables en este tipo de modelos y que hemos expuesto
en el texto anteriormente:
Podemos a partir de esta expresión colocar las observaciones temporales de cada agente
(como hicimos en el modelo apilado)
Yi = W i/3 + i i
donde Yi es un vector T X 1, al igual que ii, y w i será la matriz con T filas y el número de
columnas indicativo de los regresores que varían en el tiempo, digamos k . Es posible compactar
más aún la expresión matricial simplemente apilando los N individuos o agentes
Desde esta expresión podemos comprobar las condiciones para la consistencia simplemente
mediante el álgebra habitual
donde ¿i = Yi - wJ3EF, por lo que es un estimador que solo requiere independencia entre
las entidades, pero acepta que tanto Var(sit) como cov(Eit, Eis) varíe con i, t , s.
Efectos aleatorios
Si seguimos los mismos pasos que en el caso del modelo de efectos fijos, llegamos a expre-
siones similares a las obtenidas anteriormente, siempre que realicemos las transformaciones
adecuadas. En este caso tendremos un modelo
Tema 10 391
donde f'it = Yú - .A}i,Wit = Wit - .Awit; y donde ,\ se estimará a partir de los estimadores
muestrales de la varianzas correspondientes, como indicaremos más adelante. Con el modelo
así formulado, podemos colocar las observaciones temporales de cada agente (como hicimos
en el modelo apilado)
Yi Wif3+ei
=
Desde esta expresión podemos comprobar las condiciones para la consistencia simplemente
mediante el álgebra habitual
donde~ = Yi - wJ3RE, por lo que es un estimador que solo requiere independencia entre
las entidades, pero acepta que tanto Var( Eit) como cov(Eit, Eis) varíe con i, t, s.
Cualquiera de estas estimaciones requiere que se estime consistentemente las varianzas
a~= Var (ai) y a;= Var (Eit), y así poder estimar .A. Los programas informáticos especializa-
dos en econometría y que ofrezcan la estimación con datos en forma de panel obtienen dichas
estimaciones consistentes de
A2 = (N(T - 1) - k)
ere: -1""""[ (lit - Yi.)
L.,¡ L.,¡ - - (Xit - Xi) ¡ f3EF
' ]2
i t
392 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
Este estimador se utiliza para estimar la varianza a~. La podemos obtener a partir del vector
estimado /3 8 de la regresión del modelo que hemos denominado «between» en la ecuación
(10.2.14), cuyo término error tiene una varianza de a~+ a'f. /T. Así pues un estimador consis-
tente será
= (N - (k + l))- 1 L
i
(Yi - &s - x~/3B r-
(1 / T)C;;.
EJERCICIOS
Teóricos
1. Diga cuáles son las ventajas de los datos de panel respecto a datos puramente trans-
versales o de series de tiempo. Explique asimismo cuáles son los modelos de panel más
habituales.
2. Para estimar la ecuación Yit = .Bo+,81Xit+.B2 Wit+Uit se recogen datos de dos periodos de
tiempo diferentes. Compruebe que la inclusión de una variable ficticia temporal junto con
términos de interacción para las dos variables explicativas, equivale a estimar regresiones
separadas en cada uno de los periodos de tiempo. ¿Puede generalizarse esta conclusión?
3. Sea el modelo Yit = X~t .B + ai + Uit donde ai es el efecto fijo no observado y suponga que
dispone de un panel con dimensión temporal T = 2. Muestre que la estimación MCO de
datos fusionados presentará residuos autocorrelacionados.
4. Considere de nuevo el modelo del ejercicio anterior. Suponga que dispone de un panel
de dimensión NT y que hay k variables explicativas. ¿Cuál es el número de grados de
libertad del estimador de efectos fij os /3?
5. Muestre bajo qué condiciones puede considerarse que el estimador de efectos fijos tiende
en probabilidad al verdadero vector de parámetros poblacionales a medida que el número
de unidades de sección cruzada, N tiene a infinito mientras el número de periodos, T
permanece constante.
Prácticos
6. Emplee los datos de la tabla ETlO 1 para hacer este ejercicio.
a) Ordene adecuadamente los datos para estimar por datos fusionados un modelo
que relacione el gasto total de los hogares con la renta disponible. Obtenga una
estimación tanto de la elasticidad como de la propensión marginal a consumir por
comunidades.
b) Contraste en ambos casos la significatividad individual de la variable explicativa.
¿Hay que sospechar que exista heterocedasticidad? ¿Y autocorrelación? ¿Por qué?
Contraste ambos supuestos.
Tema 10 393
e) Utilice ahora un estimador robusto. ¿Qué ha sucedido con los errores estándar
de los respectivos estimadores? ¿Ha afectado a la significatividad de la variable
explicativa?
d) Indique de qué otra forma podría haber tratado los hipotéticos problemas de he-
terocedasticidad y autocorrelación.
e) Estime el mismo modelo en diferencias y valore los resultados.
7. La tabla ETlO _ 2 contiene datos por CC.AA. (sin Ceuta y Melilla) de número total
de homicidios, número total de delitos y tasa de paro, referidos a los años 2002 - 2006 ,
ambos inclusive.
8. Los datos de la tabla ETlO 3 han sido obtenidos de la encuesta de empresas del INE.
394 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
a) Especifique un modelo que haga depender el salario hora del resto de las variables
incluidas en la tabla.
b) Haga una valoración global de los resultados. Para cada variable explicativa, co-
mente el signo y si es o no estadísticamente significativa (indicando si emplea un
contraste unilateral o bilateral y por qué). Comente asimismo si desde un punto
de vista teórico está justificada la inclusión de cada una de las variables.
e) En base a los resultados de los apartados anteriores, especifique y estime el modelo
que considere más adecuado para explicar el salario hora de las diferentes empresas.
¿Podría decirse que las empresas más exportadores son más productivas?
(La tabla ha sido extraída de Hayashi , F. Econometrics. Princeton Universtity Press, Prin-
ceton, 2000. En dicha tabla, y es el producto real per cápita en dólares de 1985, pop es la
población en miles, rpop la tasa de crecimiento de la población en el quinquenio expresada en
tanto por uno y srate la tasa de ahorro en el año).
9
Mankiw , N.G ., Romer , D. and Weil, D.N .: A Contribution to the Empirics of Economic Growth, QJE,
107, n° 2, mayo de 1992.
Tema 11
395
396 MODELOS CON VARIABLE DEPENDIENTE LIMITADA
>-
(11.2.1)
Tema 11 397
Entre paréntesis se muestran los errores estándar de los respectivos estimadores. En los distin-
tos modelos empleados hasta ahora hemos aprendido a interpretar adecuadamente los valores
de los estimadores: cambios marginales si es un modelo en niveles, elasticidades si el modelo es
doblemente logarítmico, etc.; pero ¿qué significan los parámetros de la ecuación que acabamos
de estimar? En principio, la estimación parece acorde con la teoría puesto que /3 es positivo y
es también estadísticamente distinto de cero, dado que la hipótesis nula H 0 : (3 =O, resultaría
rechazada en base a un estadístico tipo t. Pero además, la parte derecha de la ecuación debe
ser interpretada como la probabilidad de que la variable dependiente sea igual a la unidad.
Es decir, en nuestro caso, como la probabilidad de que una familia concreta decida comprar
una vivienda. Es fácil ver por qué.
Recordando la teoría de la regresión lineal que hemos aprendido, tenemos que:
IE(Yi) = a+ f3 X i. (11.2.3)
Por otra parte, de la estadística elemental sabemos que la esperanza matemática de una
variable aleatoria, en este caso Y, viene dada por:
dado que Y solo toma dos valores , O o l. Igualando ambas expresiones obtenemos finalmente:
(11.2.5)
1
En puridad habría que hablar de lE(Y;/Xi), pero el resultado es el mismo.
398 MODELOS CON VARIABLE DEPENDIENTE LIMITADA
donde cada f3J mide el cambio en la probabilidad de éxito derivada de un cambio unitario en
Xj manteniendo constantes el resto de las variables. Entre los elementos de X puede haber
también variables de naturaleza cualitativa.
El modelo lineal de probabilidad tiene la ventaja de que es fácil de interpretar y puesto que
se estima por MCO, tampoco en este sentido plantea ninguna diferencia importante con todo
lo que hemos aprendido hasta ahora. Sin embargo este modelo presenta algunos problemas.
Citamos a continuación los más importantes,
a) Puesto que la variable explicada solo puede tomar dos valores, O o 1, los errores del
modelo tomarán igualmente solo dos valores, -a - f3 X i cuando Yi = O, y 1 - a - f3Xi cuando
Yi = 1, es decir, no se distribuyen como una normal sino como una binomial. Además su
varianza será
donde P es Pr(Yi = 1). Es decir que la varianza de los errores depende de X y en conse-
cuencia, no puede mantenerse la hipótesis de homocedasticidad. Este es un problema que
vamos a encontrar en todos los modelos desarrollados en el presente tema y, por tanto, e
esencial que cuando estimemos modelos de este tipo, empleemos el estimador robusto a la
heterocedasticidad.
b) El coeficiente de determinación R 2 no es una buena medida de la bondad del ajuste.
La razón debería ser evidente contemplando la Figura 11.2.l: a no ser que los puntos en lo
dos grupos del diagrama de dispersión estén muy concentrados, el valor del coeficiente de
determinación clásico será siempre reducido.
c) Hemos dicho que &.+/3Xi debe interpretarse como la probabilidad de éxito o Pr(Yi = 1)
y por tanto los valores de dicha expresión deberían estar comprendidos entre O y 1 como
corresponde a toda función de probabilidad. Sin embargo en la práctica, con el modelo lineal de
probabilidad pueden obtenerse valores menores que Oy mayores que 1 para dicha probabilidad.
lo que obviamente no tiene sentido.
d) Finalmente, el modelo lineal de probabilidad implica que el efecto marginal de cada una
de las variables explicativas es constante , lo que no es muy razonable. En efecto, en el caso de
la decisión sobre la compra de una vivienda, esperaríamos que incrementos unitarios de renta
en los tramos inferiores y superiores, fuesen poco o nada significativos, mientras que estos
mismos incrementos han de ser mucho más importantes en los tramos centrales de renta.
Los inconvenientes más importantes son los dos últimos y, básicamente, son los que han
llevado a desarrollar otro tipo de modelos para analizar el comportamiento de estas variables.
En las dos siguientes secciones se presentan dos de los más utilizados: el modelo logit y el
modelo probit.
Evitar los problemas mencionados en el último párrafo exige encontrar una función que
cumpla dos condiciones: estar acotada entre O y 1 y, además, presentar un crecimiento no
lineal con mayores incrementos en la parte central. Estos requisitos recuerdan bastante a una
clase de funciones que típicamente los cumplen: las funciones de distribución acumuladas.
Tema 11 399
0.9
0.8
FDA logística
/-
0.7
0.6
0.5
0.4
0.3
0.2
0.1
o '--~=~=-.i---~~~~~~~~~~'--~~-'-~~__J
-6
z·
n-!~I+exp(-x) -
1 - o Y lim 1
n--tool+exp(-x)
= l.
Además presenta un trazado en forma de S que se ajusta a lo que necesitamos: pendiente
mayor en el tramo central que en los extremos.
En el caso de una única variable explicativa Xi el modelo logit vendrá dado por:
1
Yi = 1 + exp [-(a+ ,6Xi)] = A(X,6), (11.3.2)
(11.3.3)
es decir, es una función de probabilidad correctamente definida. Por otro lado el efecto sobre
Pr(Y = 1) de un cambio en cualquiera de las variables explicativas, ya no será constante
como en el modelo lineal de probabilidad. sino que dependerá del valor concreto de X siendo
menor para valores extremos y mayor para valores en la parte central del rango. Con ello se
solventan los inconvenientes señalados en los apartados c) y d). Persisten, sin embargo, los de
heterocedasticidad y el de encontrar una medida adecuada de la bondad del ajuste.
Una dificultad del logit es que es un modelo no lineal y no puede ser estimado por MCO. En
su lugar debe recurrirse a métodos de est imación más complicados como mínimos cuadrados
no lineales MCNL o máxima verosimilitud , siendo este último el procedimiento habitual (por
ser más eficiente). El proceso de cálculo, que exponemos en la sección 5, es ahora más complejo
pero, afortunadamente, cualquier programa econométrico lo lleva a cabo automáticamente.
Baste señalar que bajo supuestos generales, el estimador MV (de máxima verosimilitud) da
lugar a estimadores consistentes, asintóticamente eficientes y con distribución asintótica nor-
mal. El cálculo de la matriz de varianzas y covarianzas de los /Jj es también más difícil, pero
una vez obtenida con el programa informát ico, y dadas las propiedades del estimador MV,
puede ser empleada para construir estadísticos t e intervalos de confianza de la forma habitual.
Sirva como ejemplo la estimación de un logit para el modelo de la vivienda, que proporciona
el siguiente resultado:
Para una familia sin renta, el modelo pronostica una probabilidad de éxito muy parecida a la
del modelo lineal de probabilidad:
1
Pr(Y = 1) = 1+exp( -0, 77) -- O' 68 ·
El contraste de significatividad individual se puede llevar a cabo igual que en los modelos de
regresión típicos. Por ejemplo, para la significatividad de la renta, la hipótesis nula Ho : (3 = O
puede ser rechazada en base a un contraste tipo t
t oc -- 0,18 -
0,01 -
18 )
mayor que el valor crítico a cualquiera de los niveles que suelen emplearse (en este caso, el
valor crítico para un contraste de dos colas al 95 3 es 1,96 y el valor p es menor que una
diezmilésima). El mismo procedimiento puede usarse si el modelo tiene más de una variable
explicativa.
Para llevar a cabo contrastes de hipótesis múltiples, podemos recurrir a un contraste de
ratio de verosimilitud. El procedimiento es similar al de las regresiones restringida e irres-
tricta, pero en lugar de fijarnos en la sumas cuadráticas residuales, ahora lo hacemos en el
logaritmo de la función de verosimilitud de los modelos restringido y no restringido. De la
misma manera que al eliminar variables del modelo no restringido, la SCR necesariamente
aumenta (o permanece igual), el valor del logaritmo de la función de verosimilitud será menor
(o igual) en el modelo restringido que en el no restringido. Se trata entonces de comparar
Tema 11 401
Otra diferencia importante en el caso de los modelos logit (y probit) , es que los coeficientes
estimados no tienen una interpretación tan fácil como en el modelo lineal de probabilidad.
Cuando trabajamos con modelos lineales (modelo lineal de probabilidad), la derivada parcial
de Y con respecto a cualquiera de las variables explicativas, {)Y/ 8Xj, es la constante /3j
que mide el efecto sobre Y de un cambio unitario en Xj. Pero el logit (y el probit) es un
modelo no lineal y la influencia sobre Y sobre la probabilidad de que Y = l o probabilidad de
2
En concreto el pseudo R 2 de McFadden se calcula como 1 - (LNR/.lo), es decir, 1 menos el cociente
entre el logaritmo de verosimilitud de la función estimada y el logaritmo de la función de verosimilitud de la
ecuación que solo tiene la constante como variable explicativa. Conviene señalar que existen otros pseudo R 2
aunque aquí emplearemos la versión de McFadden cuando sea necesario.
402 MODELOS CON VARIABLE DEPENDIENTE LIMITADA
oY ( 1 )' (11.3.5
oXj = 1 + exp( -X/3) /3j·
Es decir que la influencia depende del punto de la curva en el que estemos situados, dado qu
la derivada de la expresión anterior incluye X /3 como argumento. Para nuestro ejemplo, est"
significa que un mismo incremento de renta tendrá un efecto diferente sobre la probabilida¿
de éxito en función de cuál sea el valor de X. Conviene recordar que este era precisamente une
de los objetivos perseguidos con los modelos logit y probit. Lo que sí puede afirmarse es quE
la dirección del efecto coincidirá siempre con el signo de /3j dado que la derivada es siempre
positiva.
Para ver cómo se incrementa la probabilidad de éxito ante cambios en la(s) variable(s) X
lo más práctico es seguir un procedimiento en tres pasos que funcionará con independencia
de lo complicado que sea el modelo:
Todas las variables son estadísticamente significativas y el nivel de estudios influye negati-
vamente: cuanto mayor es dicho nivel, menor es la probabilidad de comprar vivienda4 . ¿Cuánto
se reduce la probabilidad de comprar vivienda si, para el mismo nivel de renta, digamos 2
millones de unidades monetarias, pasamos de un nivel de estudios 2 a un nivel de estudios 3? Si-
guiendo el procedimiento mencionado encontramos que Pr(Y = l/X1 = 2yX2 = 2) = 0,763
mientras que Pr (Y = 1/ X 1 = 3 y X2 = 2) = 0,674, de manera que la reducción de probabili-
dad es 0,097. Pero, como hemos dicho, en este tipo de modelos los cambios en la probabilidad
3
En concreto, X=l si es analfabeto, 2 si EGB o FPl, 3 BUP, COU o FP2, 4 Diplomado y 5 Licenciado.
4
Este es otro resultado que habría que justificar. En la medida en que un mayor nivel de estudios debe llevar
asociado en media un mayor salario, se esperaría una relación diferente. Pero también cabe señalar que las
personas con mayores niveles educativos viven en su mayor parte en ciudades, donde el precio de la vivienda
(una variable no contemplada en la encuesta) debe ser significativamente más elevado y por tanto existir una
mayor propensión al alquiler.
Tema 11 403
de éxito derivados de cambios unitarios en X no son constantes , sino que dependen del valor
de partida de X. La Tabla 11.1 muestra cómo cambia la probabilidad de éxito a medida que
cambia el nivel de renta, para un valor dado del nivel de estudios (X1 = 5). Se observa que
un cambio unitario en el nivel de renta va teniendo efectos cada vez menores en la probabi-
lidad de comprar vivienda (el rango de valores de renta recogidos en la tabla están situados
aproximadamente en el primer cuartil).
siendo 1í la derivada de la función , podemos sustituir X por sus valores medios para obtener:
a - A
y a continuación multiplicar la expresión anterior por cada uno de los ¡]j para obtener el efecto
parcial de un cambio unitario en Xj.
Otra función que reúne las condiciones requeridas es la función de densidad acumulada de
una normal tipificada. En efecto esta función está por definición acotada entre O y 1 y tiene
también un trazado en forma de S. De hecho las representaciones gráficas de las FDA logística
y normal son muy similares. La Figura 11.4.1 muestra el trazado de ambas.
404 MODELOS CON VARIABLE DEPENDIENTE LIMITADA
/
T-
o.a
0.7
/
j
0.5
0.4
0.3
/
0.2
' /
: I
0.1
__ · /
/
o L...........~=----=--'--~~=......~~~-'--~~__J_~~~~~___J
-6
La única diferencia destacable es que la logística tiene colas algo más anchas, lo que se
traducirá en que la probabilidad de éxito para valores próximos a O (o 1), será algo mayor en los
extremos de la distribución cuando empleemos la logística. Dada su similitud no es fácil elegir
entre uno u otro modelo. Históricamente el modelo logit tenía a su favor una mayor facilidad
de cálculo pero, solventado este problema con la aparición de programas informáticos, esta
ventaja ha desaparecido. El modelo basado en esta función se denomina modelo probit y su
expresión para un solo regresar es:
donde <I> representa la FDA, función de distribución acumulada, de una normal tipificada. Para
calcular la probabilidad de éxito condicionada a un valor concreto de a + f3Xi emplearemos
la tablas de una distribución normal estándar para obtener
de forma que para una familia sin renta, la probabilidad de comprar vivienda es:
-
Pr(Y; = 1/ X= O) = <I>(0,5) = Pr(z :::; 0,5) = 0,69
algo menor que con los modelos anteriores, pero muy elevada para el valor de X.
Tema 11 405
El modelo probit comparte la práctica totalidad de las características del modelo logit. En
concreto es, como aquel, un modelo no lineal que debe ser estimado por máxima verosimilitud
(o mínimos cuadrados no lineales). Para medir la bondad del ajuste se emplea la proporción
de aciertos computada como se señaló anteriormente, o el Pseudo R 2 y los procedimientos
para llevar a cabo contrastes de hipótesis son asimismo idénticos. Finalmente, para medir
el efecto sobre Pr(Y) de cambios en los valores de las variables explicativas, emplearemos el
procedimiento en tres pasos descrito para el modelo logit.
La estimación de un modelo probit en el que se incluyen como variables explicativas el
nivel de estudios (X1i) y la renta (X2i) es:
---
Pr(Y = 1) = 0,085. - 0,25X1i
0,02 0,008
+ 0,184X2i·
0,011
Las variables tienen el mismo signo que en el modelo logit y son estadísticamente signifi-
cativas, dado que en ambos casos e:Sj) es superior al valor crítico en tablas para un nivel del
99 %. Para un valor del nivel de estudios (Xli = 2) y un nivel de 2 millones de renta anual, el
modelo pronostica una probabilidad de éxito de:
---
Pr(Y = 1/ X 1i = 2 y X 2i = 2) = q,(o, 85 - O, 5 +O, 184 * 2) = Pr(z '.S O, 718) ~ O, 764,
---
Pr(Y = 1/ X 1i = 3 y X 2i = 2) = q,(o, 85 - O, 75 + O, 184 * 2) = Pr(z '.SO, 468) ~O, 68,
de manera que la diferencia es 0,084. Todos estos resultados son muy parecidos a los que
obtuvimos con el modelo logit. Ello se debe a que las estimaciones son también muy parecidas
aunque la comparación no sea posible a primera vista. Una comparación aproximada de los
coeficientes estimados puede obtenerse multiplicando las estimaciones del pro bit por 1,6 (o
las del logit por 0,625) 5 . Puede comprobarse entonces que los resultados de los dos modelos
son bastante similares (Tabla 11.2). Presentamos finalmente la misma tabla que calculamos
también para el modelo logit, en la que se comparan las probabilidades de éxito para un valor
fijo del nivel de estudios (X 1i = 5) y distintos valores de renta. Puede comprobarse la gran
similitud de los resultados recogidos en las dos tablas.
Una última cuestión que conviene señalar con respecto a los modelos logit y probit es
que la estimación MV resultará imposible en el caso de que alguno de los regresares (o una
combinación lineal algunos de ellos) sea lo que se denomina un clasificador perfecto de Y. Tal
situación se producirá si existe un valor umbral h tal que para X < h, todos los valores de Y
sean nulos y para X > h, todos iguales a la unidad (o viceversa). En estas circunstancias, la
estimación MV no es posible al fallar el algoritmo de optimización. La única solución consiste
en eliminar dicha variable de la muestra.
5
También es posible comparar los resultados del modelo lineal de probabilidad con los del logit (deben
multiplicarse estos por 2,5) o con el probit (multiplicar por 4). Ver por ejemplo el manual de Wooldridge
(2006).
406 MODELOS CON VARIABLE DEPENDIENTE LIMITADA
Para terminar, presentamos la estimación de un modelo algo más sofisticado para la pro-
babilidad de comprar vivienda. Además de la renta y el nivel de estudios hemos considerado
las siguientes variables explicativas adicionales: la variable x1 es el número de miembros de la
unidad familiar (varía entre 1 y 16) , x2 es una dummy que indica si el sustentador principal
trabaja en la provincia de residencia (1) o no (2) , x3 es la renta declarada en millones de pe-
setas, X4 es el tamaño del municipio (varía entre 1, municipios de menos de 10000 habitantes
y 5, con más de 500000); X5 el nivel de estudios, X5 el tipo de hogar (toma valores entre 1 y
14 y combina el tamaño del hogar y la edad de sus miembros); X7 una medida del percentil
de renta 6 y x 8 los gastos totales del hogar 7 .
Un problema que suele achacarse a las cifras de renta declarada en este tipo de encuestas.
es que dichas cifras no son reales porque el encuestado tiende a ocultar su verdadera renta. En
este sentido una alternativa que podría estar menos sesgada, es el percentil de renta e incluso
los gastos del hogar podrían tomarse como una proxy del nivel de renta. Se han considerado
todas estas posibilidades en la estimación del modelo. Las variables x 1 y X5 también son en
cierta medida redundantes, de manera que usaremos una u otra en función de los resultados.
Tras probar diversas opciones, ofrecemos la estimación de la especificación finalmente
elegida en la Tabla 11.3.
Si se aproxima la renta por los ingresos declarados o el gasto total del hogar, los resultados
son parecidos, pero el ajuste es significativamente menor.
Los tres modelos proporcionan resultados muy similares como viene siendo norma. Los
signos son iguales en los tres: todos negativos excepto el correspondiente a la renta. Respecto
al número de miembros, resulta evidente que a medida que aumente aumentará también el
tamaño de la vivienda que pueda acogerlos y por tanto su precio, de manera que es lógica
su influencia negativa. El signo del tamaño del municipio también podría justificarse por la
misma vía: el precio en las zonas rurales es mucho menor. Por otra parte todas las variables son
estadísticamente significativas y la bondad del ajuste muy parecida. En cuanto a la magnitud
6
En concreto esta variable toma valores entre 1 y 7, asignándose del siguiente modo: 1, percentil 5; 2, del
percentil 5 al 10; 3, del percentil 10 al 15; 4, del percentil 15 al 25; 5 segundo cuartil; 6, tercer cuartil y 7,
cuarto cuartil.
7
Todos estos datos están disponibles en la página del INE.
Tema 11 407
de los coeficientes, las de los modelos Logit y Probit son muy similares una vez llevada a
cabo la corrección correspondiente. No así las del Modelo Lineal de Probabilidad, que parecen
menores en este caso.
Ya hemos señalado que estos modelos son de naturaleza intrínsecamente no lineal por lo
que no pueden estimarse con el procedimiento MCO empleado hasta ahora. En su lugar se
recurre al método de estimación por máxima verosimilitud, el habitual en este contexto. Como
es sabido, los estimadores máximo-verosímiles de los parámetros de una población seleccionan
las estimaciones /JfV que maximizan la probabilidad (o verosimilitud) de observar la muestra
dada. El procedimiento consiste en formar la función de verosimilitud de los datos, suponiendo
una determinada distribución de probabilidad, y maximizarla con respecto a los parámetros,
ªj·
Como la variable dependiente es discreta y toma solo dos valores , la función de verosimili-
tud se define de forma diferente a la habitual para una variable continua. Si para el elemento
i el valor de la variable dependiente es Yi, su verosimilitud cuando Yi = 1 es precisamente la
probabilidad de que Yi = 1, mientras que si Yi =O su verosimilitud es la probabilidad de que
Yi = O. Dada una determinada función de distribución, F (en nuestro caso la logística o la
normal), la contribución de dicho elemento puede escribirse:
n
ln l = L[YilnF(X ¡3) + (1 - Yi)ln[l - F(X,6)] (11.5.3)
i=l
En el modelo Logit, F viene dada por:
n n n
ln l = L ~Xi/3 - L ln[l + exp(Xi{3)] = Z{3 - L ln[l + exp(Xif3)] (11.5.5
i=l i=l i=l
(11.5.6
Lo que da lugar al sistema de ecuaciones (no lineales) necesario para estimar el vector {3 .
Para obtener una estimación de la varianza asintótica de (:J, podemos recurrir a la matriz
hessiana:
(11.5. 7)
n
l= I1 [<I>(Xif3)]Yi [1 - <I>(Xif3)] 1-Y; (11.5.8)
i=l
y el logaritmo de la función de verosimilitud:
n n
lnl = L~ln(<I>(Xif3 ) + L(l - ~)ln[l - (<I>(Xif3)] (11.5.9)
i=l i=l
La igualación a cero de la primera derivada conduce, tras algo de álgebra, a:
Tema 11 409
(11.5.10)
(11.5.11)
En una curiosa investigación Fair (1978) se propuso estudiar los factores determinantes
de las experiencias extramatrimoniales de las muj eres casadas norteamericanas. Dispuso para
ello de una muestra de 6366 observaciones obtenidas mediante una encuesta llevada a cabo
entre mujeres americanas por la publicación Redbook en 1974. Las variables consideradas por
Fair son las siguientes:
• xl: mide el grado de satisfacción del matrimonio ; toma valores entre 1 (muy infeliz) y
5 (muy feliz).
• x4: número de hijos, toma valores entre O y 5,5 (recoge hasta 10 hijos posibles).
• x6: número de años de educación (toma los valores 9, 12, 14, 16, 17 y 20) .
En el estudio original de Fair la variable endógena no era exactamente como aquí señalamos.
Aunque tomaba el valor O para las mujeres sin experiencias, para quienes sí las tuvieron la
variable no tomaba indiscriminadamente el valor 1, sino que se cuantificaba en función de
la frecuencia de esas experiencias. Aquí sin embargo emplearemos la versión de la variable
descrita más arriba.
El hogar es una unidad de análisis básica en la teoría económica y también desde el punto
de vista de las relaciones personales, por lo que es lógico que la mayor parte del tiempo de ocio
los esposos lo consuman con miembros del hogar. Pero para muchas personas el ocio consumido
con personas que no forman parte del entorno familiar es asimismo esencial. Fair señala que.
de la misma manera que en la teoría de la utilidad (demanda) se incluye más de un bien, así
debería también hacerse en lo que se refiere al tiempo de ocio que, sin embargo, la teoría suele
considerar agrupado en una única variable bajo la rúbrica ocio. Fair considera un modelo en
el que el tiempo de ocio puede separarse entre tiempo con la esposa y otros miembros del
hogar y tiempo de ocio con personas que no forman parte de ese entorno. El tiempo de ocio
dedicado a aventuras extramatrimoniales sería un tipo particular de estas últimas. De ambos
derivará el individuo una utilidad y por esta vía cabe especificar una función de demanda.
Fair trata pues de explicar el tiempo que las mujeres americanas casadas 8 dedican a aventuras
extramatrimoniales en función de las variables mencionadas, es decir:
donde x es un vector con los datos de las ocho variables y /3 el correspondiente vector de
parámetros.
En la Tabla 11.4 se presenta el resultado de la estimación de dicha ecuación con los tres
modelos contemplados en este tema, modelo lineal de probabilidad, logit y probit.
Los resultados de los tres modelos son muy similares. En primer lugar, los signos de los
coeficientes estimados son los mismos y es también común el hecho de que ni la ocupación del
marido ni el número de hijos tienen influencia significativa sobre la probabilidad de «éxito»:
en ninguno de los tres modelos es posible rechazar la hipótesis nula Ho : /3j = O ni para el
número de hijos ni para la ocupación del marido. Este resultado coincide también con los
obtenidos por Fair en su trabajo original, por más que este autor, dada la naturaleza de la
variable endógena empleada, estimara un modelo tobit 9 .
La hipótesis nula conjunta Ho : {34 = /Js =O no puede ser rechazada en ningún caso. Para
el modelo lineal de probabilidad podemos emplear el habitual estadístico F para comparar las
SCR de las regresiones irrestricta y restringida. El resultado es F2, 6364 = O,17 con un valor p
8
La muestra se obtuvo con mujeres casadas solo por primera vez.
9
Recordemos que la variable endógena para quienes tienen experiencias extramatrimoniales no es mera-
mente un 1 en el trabajo de Fair, sino una variable numérica que mide la frecuencia de tales encuentros. En
total hay 2053 mujeres que reportan al menos una experiencia de este tipo , de manera que la mayoría no
reconocen ninguna aventura (valor O). La naturaleza de estos datos exige pues la utilización de un modelo
tobit , cuyas características puede consultar el lector interesado en la mayoría de los manuales citados en la
bibliografía.
Tema 11 411
La Tabla 11.6 muestra, para los modelos logit y probit, los efectos parciales de cada
variable, calculados mediante el artificio de valorarlos en sus medias.
En resumen, con las limitaciones propias de este tipo de ejercicios, el modelo puede consi-
derarse una buena aproximación a los datos. Fair concluye su trabajo señalando que, aunque
los datos empleados no son los ideales, el modelo estimado soporta su hipótesis teórica y
considera que serían de gran interés nuevas pruebas sobre la misma basadas en mejores datos.
La casuística dentro de este tipo de modelos puede ser muy variada, lo que ha llevado al
desarrollo de una amplia tipología de modelos. Veremos aquí brevemente algunos de los más
destacados, remitiendo al lector interesado a textos más avanzados (por ejemplo, Wooldridge,
2010 o Greene, 2012).
Tema 11 413
y¡ = O, si fi* <O
y¡ = 2, si fi* > e
Por tanto:
La maximización de dicha función nos proporciona los estimadores buscados tanto del
vector ,B como de e (o de los e¡ en los casos donde haya más de tres alternativas). La matriz
cov(,B) se obtiene asimismo a partir del logaritmo de verosimilitud.
En estos modelos , los efectos parciales son, en general, poco claros. No obstante, en este
caso puede comprobarse que para la primera opción, 8Pr(Y = 0) / 8X ha de tener un signo
contrario al del parámetro, mientras que para la última, 8Pr(Y = 2) / 8X 12 , tendrá el mismo
signo que (3 . El resto de los coeficientes deben interpretarse con cuidado.
Como ejemplo emplearemos los datos de Riphahn, Wambach y Million (2003) tal como
aparecen en Greene (2012), estimando la respuesta a un cuestionario sobre el grado de sati-
facción con el sistema público de salud. Los valores de la variable dependiente oscilan entre O
(nada satisfecho) y 10 (máximo grado de satisfacción) 13 .
La extensión del esquema anterior para este ejemplo, en el que hay once respuestas posibles
en lugar de tres, sería:
Como variables explicativas tomamos la edad, la renta, los años de educación y cuatro
variables dummy: si tiene hijos menores de 16 años, casado y empleado (si está en activo)
y mujer. La estimación con los datos correspondientes al año 1984, obtenida con Eviews8,
arroja el siguiente resultado:
12
(0 en un caso más general 8Pr(Y = J) / 8X), siendo J la última opción).
13
En la serie original el rango de variación era diferente, pero ha sido recodificado.
Tema 11 415
Probit ordenado
Variable dependiente: Satisfacción
Number of obs = 3874
Variable coef std. dev t-stat
Cte 2.26197 0.144198 15.68652
Edad -0.02242 0.001745 -12.85024
Renta 0.04121 0.00121 3.412944
Hijos 0.09155 0.038906 2.353207
Educación 0.04063 0.008067 5.036532
Casado 0.05792 0.044838 1.291764
Trabajo 0.17991 0.041347 4.351285
Mujer 0.02449 0.038564 0.634936
el 0.16079
c2 0.45811
c3 0.73251
c4 0.94362
c5 1.53662
c6 1.74454
c7 2.10167
c8 2.64415
c9 2.98462
Con esta estimación, empleando las medianas de las variables edad (44) , renta (3.200) y
educación (10.5) de un hombre soltero sin hijos (en realidad las dummies de estado civil y
sexo no son significativas) , las probabilidades de cada respuesta en función de que la persona
esté o no trabajando, serían:
Pr(Y = O 1 2 3 4 5 6 7 1 8 9 10
No .033 .013 .037 .051 .051 .196 .081 .141 .186 .084 .125
Sí .022 .010 .028 .040 .042 .174 .077 .141 .201 .098 .165
(11.7.2)
1 Logit multinomial
Number of obs = 1717
LR chi(8) =583.72
Pr > Chi2 = 0,000
Log likelihood = -907.85723 R 2 = 0,24
coef std . dev z pr(z) >
status 1 (home) educ -0.6736 0.0699 -9.64 o
exper -0.1062 0.1733 -0.61 0.54
expersq -0.0125 0.0252 -0.5 0.62
black 0.8130 0.3027 2.69 0.007
- const 10.278 1.1333 9.07 o
status 2 (work) educ -0.3147 0.0651 -4.83 o
exper 0.8487 0.1569 5.41 o
expersq -0 .0773 0.0229 -3.37 0.001
black 0.3114 0.2815 1.11 0.269
- const 5.5438 1.0864 5.10 o
Obsérvese en primer lugar, que hay dos vectores de resultados: (J +1)-1, uno por cada uno
de los estados distintos del elegido como base: status 1 (home), para quienes están en casa sin
trabajar, y status 2 (work), para quienes están trabajando. El coeficiente black en la segunda
Tema 11 417
ecuac10n (status = 2, es decir trabajar), toma un valor igual a 0.311. Esto significa que la
probabilidad relativa de trabajar con respecto a estudiar, es, aproximadamente, un 36 3 mayor
para un negro (exp(0.311) = 1.36). Análogamente puede verse que la probabilidad relativa
de estar en casa es más del doble para los negros. Por tanto el valor de los coeficientes no
puede ser interpretardo en términos de probabilidades absolutas. Para determinar el efecto de
ser negro en estos términos, debemos calcular los efectos marginales para lo que se recurre a
la derivada parcial correspondiente, 8Pr(Y = j)/axk· Sin embargo, esta derivada tiene una
expresión muy complicada y muestra que ni siquiera la dirección del efecto está completamente
determinada por la misma.
Otra posibilidad es recurrir al cálculo de las diferencias en probabilidad. Por ejemplo, con
los datos de la estimación anterior usando los valores medios de educ (12) y exper (0.5), la
expresión (11.7.2) nos dice que la probabilidad de que una persona de raza negra esté en casa,
es 0.13 puntos mayor que la de un blanco.
exp(-,\).Ar
Pr(Y = Yi) = , y= O, 1, 2, ...
Yi 1·
Esta distribución viene completamente determinada por su media y, en particular:
(11.7.4)
14
En el documento Apéndices y Tablas hay un resumen de las principales distribuciones de probabilidad.
418 MODELOS CON VARIABLE DEPENDIENTE LIMITADA
n
ln l = L [-exp(X,8) + yX,8 - ln y!] (11.7.6
i =l
Blnl n
a,a = L([y - exp(X,B)]X =o (11.7.7
i= l
Los resultados muestran que el género, los hijos en el matrimonio o la eduación, no son
variables estadísticamente significativas.
Un problema con estos modelos es que los supuestos de la distribución de Poisson son
demasiado restrictivos. Aunque la estimación por máxima verosimilitud proporciona estima-
dores consistentes y asintóticamente normales de {3, a menos que la varianza sea realmente
igual a la media, lo que suele incumplirse en la práctica, no podremos estimar correctamente
var(/3). Una manera de solventar este problema consiste en suponer que la varianza es pro-
porcional a la media, es decir var(Y) = 0' 2 E(Y). En la mayoría de las aplicaciones 0' 2 > 1
lo que implica que la varianza de Y es mayor que la que supone el modelo de Poisson. Este
fenómeno se conoce como sobredispersión 15 y se han diseñado diversos test para contrastarlo,
aunque no entraremos aquí en su detalle.
Si se cumple la relación de proporcionalidad anterior, una solución simple al problema de
la sobredispersión consiste en ajustar los errores estándar obtenidos en la estimación máximo
verosímil. El ajuste consiste en multiplicar los errores estándar inicialmente calculados, por
la raíz cuadrada de la estimación del parámetro de proporcionalidad 0' 2 . Dicha estimación es
sencillamente 0- 2 = (n - k)- 1 ¿~ iI/fJi, siendo Yi = exp(/JMvX).
Aplicando este procedimiento a la última estimación obtenemos 0- 2 = 6,9868 con lo que la
corrección consistiría en multiplicar los errores estándar de la tabla anterior por )6,9868 =
2,6436. Esta corrección suele venir incorporada en los programas econométricos. Por ejemplo,
en Eviews 8 consiste simplemente en activar la opción Robust Covariances/ GLM, con lo que
se obtiene idéntico resultado:
Como consecuencia del crecimiento de los errores estándar, la ocupación (Z7) ha dejado
de ser significativa.
15 2
La infradispersión, es decir 0' < 1, es mucho menos frecuente.
420 MODELOS CON VARIABLE DEPENDIENTE LIMITADA
Está claro que la estimación MCO sería válida en el caso de que la muestra solo contuviera
valores de Yi < Ci, pero no proporcionará estimadores consistentes si dicha muestra incluye
valores de la endógena mayores que el umbral Ci.
Como en los casos anteriores, podemos estimar f3 por máxima verosimilitud, para lo que
necesitamos conocer la función de densidad de la variable observada, que será distinta según
las observaciones estén o no censuradas. Dado el supuesto de normalidad y las características
del modelo, se tiene:
a) Para las observaciones con censura:
Pr(Wi = q\X)
(11.7.8)
El modelo Tobit
Este modelo debe su nombre a Tobin quien lo presentó en 1958 y puede considerarse un
caso particular de regresión censurada. Su formulación es como sigue:
(11.7.12)
(11.7.13)
422 MODELOS CON VARIABLE DEPENDIENTE LIMITADA
A partir de esta expresión, se obtiene tanto la estimación de todos los parámetros rele-
vantes, como la matriz de covarianzas de los estimadores, siguiendo el mismo procedimiento
visto con anterioridad, si bien el álgebra es ahora más compleja. Por otra parte, cualquier
programa econométrico nos ahorra todos los cálculos (en Gretl simplemente hay que tocar la
pestaña Modelo y elegir Variable Dependiente Limitada/ Tobit.), por lo que omitimos aquí
esos desarrollos.
La interpretación de los coeficientes de un modelo tobit no es inmediata. En particular, en
este modelo hay dos esperanzas que son de interés, E(yly > O, X ) y E(YIX), ambas referidas
a la variable observada, que es la que se quiere explicar. La primera nos indica cuál es la
esperanza de Y condicionada a valores concretos de X , para aquella parte de la muestra en la
que los valores de Y son positivos. Una vez conocida, podemos calcular la segunda esperanza
como:
Puede demostrarse que E(YIY >O, X) = X/3 + o-t:<P(Xf3/o-t:)/<I>(Xf3/o-t:) siendo <P y <I> las
funciones de densidad y distribución de una normal estandarizada. Por tanto:
A partir de aquí, aplicando el cálculo podemos hallar los efectos causales parciales (o las
elasticidades) de una variable concreta que, como en el caso de los modelos logit y probit,
son no lineales y dependen de los valores del resto de las variables exógenas así como de O-t:·
Lo normal es valorar estos efectos para los valores medios del resto de las variables y el valor
estimado de o-t: (que también aparecerá como una salida más).
Tema 11 423
Los datos originales empleados en el ejemplo de Fair son, como dijimos, más apropiados
para un modelo Tobit. Vamos a reproducir aquí el modelo estimado en su artículo. La muestra
consta de 601 observaciones y la variable dependiente Y es ahora el número de experiencias
extramatrimoniales de la pareja (hay 451 individuos que nunca tuvieron contactos sexuales
fuera del matrimonio, mientras que 150 sí tuvieron experiencias, oscilando su número entre 1
y 12). Las variables explicativas son ahora, X1: sexo del cónyuge (1 si varón) , X2: edad, X3 :
años casados, X4 : dummy = 1 si el matrimonio tiene hijos, X5 : grado de religiosidad, X5 :
nivel educativo (varía entre 9 y 20) , X7: nivel de ocupación del individuo y X8 : grado de
satisfacción del matrimonio. La estimación del modelo Tobit arroja el siguiente resultado:
---
duracion = 11,89 - 6,31 +controles
(1,03) (1,33)
424 :VÍODELOS CON VARIABLE DEPENDIENTE LIMITADA
es decir que, quienes han recibido form ación adicional permenecen aproximadamente medio
año menos en paro.
En la práctica, más que el periodo de tiempo que transcurre hasta que ocurre (o deja de
ocurrir) un determinado evento, lo que nos interesa es la probabilidad de que una determinada
situación acabe tras haberse prolongado durante un periodo de tiempo de longitud t. Por ejem-
plo, la probabilidad de que una huelga termine tras haber permanecido activa durante t días,
o la probabilidad de ser detenido tras haber estado t meses en libertad. Este planteamiento
da lugar a modelos más sofisticados que quedan fuera del alcance de este manual.
(11.7.15)
La muestra contendrá datos de Y solo si esta variable es menor (mayor) que un determi-
nado valor,Y; ::; e, siendo e el valor del truncamiento. En estas condiciones, la probabilidad
de que Y pertenezca a la muestra, es:
(11.7.16)
Yi = O, en otro caso
lnl
(11.7.17)
Obsérvese que esta función es diferente de la que resultaría considerando solo la estimación
MCO sobre la muestra observada 16 , únicamente por el último término, que es precisamente
el que nos permite tener en cuenta los valores no observados.
Como siempre, la maximización de la función anterior nos proporcionará la estimación de
los {3 buscados.
En muchas ocasiones la muestra está truncada pero no por razones que tengan que ver
con la variable dependiente en sí, sino con otra variable relacionada con ella, originando lo
que se conoce como problema de selección muestral. Un ejemplo típico en la literatura para
presentar este problema es el mercado laboral. En una ecuación de salarios observaremos solo
el de aquellos que han decidido entrar en el mercado de trabajo, pero no dispondremos de
datos para todos los que han decidido no incorporarse al mismo (por ejemplo, porque su salario
de reserva es mayor que el de equilibrio, mientras que para quienes sí trabajan es menor). En
estas condiciones la estimación a partir de tal muestra no gozará de las propiedades deseables.
La diferencia es que ahora el truncamiento no está relacionado con la variable dependiente,
el salario de equilibrio, sino más bien con la diferencia entre éste y el salario de reserva, que
estará correlacionado con el de equilibrio.
Para corregir el problema, consideremos el siguiente modelo biecuacional, en el que se
incorpora la selecctividad muestral:
con ( ~: ) ~ NI D [O, ( ;; p; )]
La segunda ecuación determina quiénes deciden trabajar, según Zi 1, si zi > O. En
realidad observaremos Y y z de acuerdo con:
16
en cuyo caso , como sabemos, MCO y ML conducen al mismo resultado
426 MODELOS CON VARIABLE DEPENDIENTE LIMITADA
</;(wn)
Yi = X if3 + pa <I> ( -wn ) + Ei (11.7.18)
2. Con dicha estimación calculamos los valores de </;(wn)/<I>(wn) y estimamos por MCO
la ecuación de salarios reformulada y obtenemos un estimador libre de sesgo para /3.
EJERCICIO S
Teórico-prácticos
l. Con objeto de evaluar un nuevo método de enseñanza de econometría se lleva a cabo
un estudio entre los estudiantes. La variable endógena Y = 1 si el alumno ha obtenido
una calificación igual a notable o más y O en caso contrario. Como variables explicativas
se toman la nota de la prueba de selectividad X 1, la calificación de un examen de
conocimientos econométricos y estadísticos básicos realizado a principio de curso X2 y
una variable dummy que toma el valor 1 si el alumno ha seguido el nuevo método y O en
caso contrario X3 . El cuadro siguiente presenta los resultados de las estimaciones MLP,
logit y pro bit (errores estándar entre paréntesis) :
Valore estos resultados . A la vista de los mismos, ¿puede decirse que el modelo logit otorga
más importancia al nuevo método de enseñanza? ¿Podría hacerse una idea del efecto parcial
de la calificación en la prueba de selectividad sobre la probabilidad de obtener notable o más?
3. En un modelo logit donde X es la matriz de variables explicativas, sea log ( 1_:'.'h) = X ,6.
Pruebe que la probabilidad de éxito es Pt = 1/ (1 + exp(-X,6)).
4. Sea una variable binaria Y y suponga que dispone de una muestra de solo 3 observa-
ciones,
5. Los datos de la tabla ETll _ 1 proceden de una muestra de 250 mujeres casadas. Se
trata de estimar un modelo para estudiar lo que determina su decisión de incorporarse
al mercado laboral.
428 MODELOS CON VARIABLE DEPENDIENTE LIMITADA
a) Utilice los datos de esta tabla y estime el modelo que considere más adecuado y
estímelo utilizando los tres métodos presentados en este tema.
b) Estudie la significatividad de las variables y diga si el signo de cada una de ellas
es razonable.
e) Calcule los efectos parciales en cada uno de los tres modelos ¿Cómo influye en la
probabilidad de éxito de un año más de educación para una mujer de 40 años con
20 de experiencia en el mercado laboral, un hijo menor y 6 años de educación? ¿Y
si tiene 15 años de educación?
6. Un artificio que suele emplearse a veces para aproximar un modelo logit por MCO con-
siste en agrupar las observaciones. Supongamos que el modelo a estimar hace depender
la decisión de comprar vivienda exclusivamente del nivel de renta. En la tabla ETll _ 2
se presentan los mismos datos del ejemplo de la vivienda pero agrupados por niveles de
renta.
a) Obtenga para cada intervalo la probabilidad de comprar vivienda. Para cada uno
de estos intervalos obtenga a continuación el ratio entre la probabilidad de comprar
y la de no comprar vivienda.
b) Muestre que el logaritmo de dicho ratio es igual a a+ f3Xi.
e) Utilice la marca de clase de cada intervalo para llevar a cabo la regresión MCO
entre ln [Pi/(1 - Pi)] y Xi.
d) Interprete adecuadamente los resultados de dicha regresión. ¿Cuál es la proba-
bilidad estimada de que una familia con una renta de 2.000.000 de pts. compre
vivienda?
e) Señale cuál es el principal problema de la regresión anterior y diga cómo podría
corregirse.
a) Utilizando los tres modelos, estime la probabilidad de encontrar trabajo para, (i)
todo el conjunto de individuos encuestados, y (ii) los mayores de 50 años. ¿Diría
que el programa ha tenido éxito?
b) Calcule las funciones de probabilidad de encontrar trabajo para casados y solteros.
e) Calcule la diferencia en la probabilidad de encontrar trabajo en función de la par-
ticipación en el programa (suponga que las variables EDAD y ESTUDIOS toman
su valor medio).
Tema 11 429
CUASIEXPERIMENTOS Y REGRESIÓN
Desde el primer tema de este libro hemos llamado la atención sobre el hecho de que una
buena parte del análisis econométrico se centra en saber cuál es el efecto de una determinada
acción, decisión o política sobre una variable de interés. Por ejemplo, es normal que un econo-
mista esté interesado en saber cómo afectan los años de formación sobre el nivel de salarios;
el cambio climático sobre la actividad económica; los incentivos sobre el comportamiento de
un agente; los impuestos del tabaco en la reducción del número de fumadores , etcétera.
En particular hemos expuesto hasta qué punto la regresión puede ofrecernos una técnica
(MCO y MC2E) viable y válida para obtener conclusiones en términos causales. Las Secciones
1.3, 3.1.5 y 3.1.6 en buena medida aportan argumentos y conceptos que vamos a utilizar a lo
largo de este tema 1 .
Uno de los grandes retos a los que se enfrenta la correcta estimación (y por tanto in-
terpretación causal) de los coeficientes de los modelos es, como hemos visto en la Sección
8.1.2, el sesgo generado a partir de las variables omitidas. En los temas precedentes hemos
ofrecido técnicas (estimación por VI y regresión con datos de panel) de estimación que preten-
dían paliar los efectos de la omisión de variables relevantes. Anticipamos en la Sección 8.1.2
que otra posible solución era diseñar un experimento aleatorizado controlado . Este es
precisamente el eje central de este tema.
12.1. INTRODUCCIÓN
La natureleza de la economía hace que la gran mayoría de los datos económicos sean de
tipo observacional, como contraposición a experimental. Por lo que cabe entonces preguntarse
por el sentido último de considerar los experimentos aleatorizados controlados como fuente
de análisis causal útil para cuestiones de índole socio-económica, dado que en economía son
escasos y difíciles de llevar a cabo (pero no siempre imposible).
Para verlo con mayor claridad consideremos una situación en la que la utilidad del ex-
perimento aleatorizado controlado es clara. Consideremos el ejemplo que nos proporcionan
los estudios de utilización generalizada de un fármaco (tratamiento) como medicamento. La
1
Recomendamos ahora su relectura.
431
432 CUASIEXPERIMENTOS Y REGRESIÓN
12.2.1. Terminología
El objeto último de los experimentos es aprender o tener información sobre el efecto que
tiene sobre una unidad de análisis el estar expuesto a un tratamiento. Supongamos que estamos
interesados en asesorar la toma de una decisión sobre inscribirse en un programa de formación
laboral (tratamiento), o bien sobre ir a la universidad o no. Es razonable preguntarse sobre
Tema 12 433
cuáles son los beneficios de apuntarse (de recibir el tratamiento). Un marco analítico con
muchas ventajas para asesorar dicha decisión es imaginar qué pasaría en el hipotético caso de
recibir el tratamiento y qué resultado tendría en caso de no recibirlo (es decir, de no inscribirse
en el curso de formación laboral, por ejemplo). En estos términos, la diferencia entre ambos
resultados sería el efecto causal individual del tratamiento (de apuntarse al programa).
Necesitamos identificar una variable respuesta que indique el resultado que obtendría una
unidad (individuo, en este caso) al recibir un tratamiento. Por simplicidad podemos considerar
un tratamiento binario, es decir o se expone al tratamiento o no. La variable binaria Xi = 1,
si el individuo i-ésimo recibe el tratamiento, y Xi =O, en caso de que no lo recibiera. En tal
caso, definimos una variable respuesta que recoja los dos potenciales resultados:
.
resultado potencial = {Yi (1) si xi= 1
Yi (O) si xi= o
Nos interesa la diferencia de resultados potenciales, es decir, nos interesa la diferencia entre
Yi (1) y Yi (O) en la medida en que es el efecto causal de estar expuesto a tratamiento (ir a la
universidad, o bien recibir formación de inserción laboral).
El principal problema es que no es posible medir el efecto causal para una sola persona2 ,
es decir, solo uno de los dos resultados potenciales puede ser realizado por el individuo (y por
tanto un solo resultado es observado). Nótese que antes de que se tome una decisión ambos
son potencialmente observables, de ahí que se le donomine resultado potencial. Este resultado
potencial no hay que confundirlo con el resultado observado o realizado, que denominamos }i.
Ambos conceptos se relacionan fácilmente a partir de la expresión siguiente, que realmente
nos permite definir el resultado observado a partir de los resultados potenciales:
(12.2.1)
(12.2.2)
donde la igualdad se obtiene simplemente usando la expresión (12.2.1). Esta expresión pone en
relación la diferencia observada entre las medias de los resultados experimentales , y las medias
de los resultados potenciales, sin embargo no es exactamente en lo que estamos interesados.
Nuestro interés es saber cuándo a partir de las diferencias observadas podemos extraer el efecto
causal promedio de la población de la que extrajeron los sujetos. Dicho en otros términos, si
nuestro interés es la diferencia salarial entre los que van a la universidad y los que no , comparar
las medias salariales de los individuos que fueron a la universidad y la de los que no fueron
no nos proporciona necesariamente una medida del efecto causal de ir a la universidad. De
2
Este aspecto ya ha sido tratado en la Sección 1.3 y en la Sección 3.1.5.
3
Ver Sección 3.1.5.
434 CUASIEXPERIMENTOS Y REGRESIÓN
hecho, es posible que la diferencia de una y otra exagere por exceso el efecto causal, toda vez
que es bastante posible que en media aquellos que han ido a la universidad hubieran ganad
más (que los que no fueron) incluso en caso de no haber ido. Es decir, la simple diferencia d
medias no considera que hay un sesgo de selección que distorsiona las conclusiones.
Para verlo formalmente tenemos que introducir la expresión
que refleja el resultado potencial esperado que habría obtenido el individuo que ha sido expues-
to al tratamiento, en caso de no haber sido expuesto. En el ejemplo en el que el tratamient
es ir a la universidad, la expresión considera cuál hubiera sido el salario de una persona qu _
ha ido a la universidad, con sus característica propias, en caso de que no hubiera ido. En e.
ejemplo en el que el tratamiento es atender a un programa de formación laboral, el términ
recoge cuál hubiera sido el salario medio en caso de que el sujeto que atendió al programa n_
hubiera atendido. Podemos introducir esta expresión en (12.2.2) haciendo lo siguiente
Justamente esta expresión nos permite visualizar dos cosas importantes: (a) La utilidac
del concepto de resultado potencial. El primer sumando recoge la diferencia de las medias de
resultados potenciales que los sujetos tratados obtendrían si en lugar de haber sido tratados, ne
lo hubieran sido. (b) El papel potencialmente distorsionador del término «sesgo de selección»
Debido a que es posible que aun así los que han ido a la universidad obtuvieran mayores
salarios que los que tendrían los que no han ido, las diferencias de promedios observado_
sobrestimarían el efecto causal promedio, es decir, el sesgo de selección en este caso sería
positivo. Es incluso posible que en algunos casos el sesgo sea de tal magnitud que vele lo~
efectos de un tratamiento determinado. P or este motivo es fundamental afrontar la cuestión
de cómo cancelar el sesgo de selección.
El objetivo por tanto es estimar el efecto causal promedio para un población dada, para
lo cual es importante eliminar el sesgo de selección. Esto es teóricamente posible en el caso
de los experimentos aleatorizados controlados. Veamos por qué. En general, el efecto causal
individual de un tratamiento puede variar de un individuo a otro porque su efecto puede
depender de otras características del sujeto, lo que implica que las distribuciones de Yi(l
y Yi(O) serían distintas. Sin embargo, si hacemos una selección aleatoria de los individuo
a partir de una población, las variables respuesta (y por tanto sus efectos causales) se pue-
den considerar extraídas de una misma distribución, por lo que el valor esperado (promedio)
del efecto muestra! coincidiría con el valor esperado del efecto poblacional. Por otro lado.
si los sujetos pudieran ser asignados aleatoriamente a los grupos de tratamiento y control.
entonces el estado de un sujeto (Xi, tratado o no tratado) se distribuiría independientemen-
te de todos los atributos personales del individuo, así como de las potenciales respuestas.
Tema 12 435
Yi(l) y Yi(O). Formalmente, la independencia implica que los promedios en tal caso satisfacen
JE (Yi(O) IXi = 1) =JE (Yi(O) IXi =O) , por lo que sustituyendo en la expresión (12.2.2) se tiene
Esta expresión es más general que la expresión habitual de un modelo de regresión simple
dado que considera que el efecto causal del tratamiento varía a lo largo de la población, y por
tanto no es constante. Bastaría suponer que es constante para recuperar el modelo usual, en
tal caso obtendríamos lo que se conoce como estimador de las diferencias .
Por otra parte, esta expresión nos permite ver que si el tratamiento se asigna al azar, es
decir, si es independiente de [Yi(O) - JE (Yi (O))], entonces también lo es del error €i y de f31¡.
Por lo tanto, la JE (c:i !Xi) =O, por lo que considerando que los efectos causales del tratamiento
son constantes, entonces la estimación :MCO nos dará una estimación del efecto causal del
tratamiento que será insesgada y consistente.
Es posible incluir otras variables explicativas de control adicionales, W, a fin de poder
mejorar la eficiencia del estimador
(12.2.4)
Estas variables de control mejoran la estimación en la medida en que ayuden a explicar la
variación de la variable Y. Para que su inclusión no distorsione la interpretación causal del
coeficiente {31 , es necesario que Wi incorpore características individuales pretratamiento, como
por ejemplo el género. De esta manera al ser Wi una característica pretratamiento y al estar
el tratamiento administrado al azar, este también será independiente de la característica Wi·
y no solo de €i, lo que implica que el error satisface el requisito de independencia condicionada
del error del tipo previsto en (8.1.6)
Recordemos que en caso de usar los controles, los coeficientes estimados de los controles
Wri, por MCO no tienen, en general, una interpretación causal, y por tanto no es necesario
exponerlos.
La estimación de (12.2.4) nos conduce al denominado estimador de las diferencias
con variables observables que también es útil cuando el proceso de asignación aleatorio
Tema 12 437
nos lleva a
una estimación insesgada y una interpretación causal. Esto , una vez más, subraya el pape.
esencial que juega en la econometría moderna el supuesto de independencia condicionada
Precisamente esta condición nos garantiza la interpretación causal de los coeficientes (ve
la demostración en la Sección 3.1.5). Estos coeficientes pueden ser, en tales circunstancias
obtenidos con garantías por medio del uso de la regresión (MCO o MC2E). Esto es así si --
función de esperanza condicionada es lineal (ver Sección 3.1.6) , pero incluso si es no lineal. c..
uso de la regresión lineal nos proporciona la mejor aproximación lineal a la función esperanza
condicionada subyacente (ver Teorema 8).
12.3. Cu ASIEXPERIMENTOS
En economía abundan, como dijimos en el primer tema del libro, los datos observacionale::;
esto es, datos que generalmente son de naturaleza no experimental. Lo interesante, y que e::.
buena medida justifica el tratamiento ofrecido en la sección anterior, es que los métodos e ide~
de los experimentos aleatorizados controlados pueden, en ciertas circunstancias, trasladarse ·
en su caso aplicarse a datos no experimentales. Podríamos por tanto a partir de esos dat
analizar los resultados para observaciones de un grupo de tratamiento y otro de control en 1
que el tratamiento no hubiera sido asignado aleatoriamente.
En estos casos ya no estamos en el marco de los experimentos aleatorizados, y por tanto lG.
literatura se refiere a ellos como cuasiexperimentos o experimentos naturales. El prime:
término, heredado de la psicología, enfatiza el hecho más sustantivo de que no se trata d
experimentos. El segundo término incide en el hecho singular de que para poder realizar un es-
tudio de este tipo es necesario que existan variaciones en circunstancias individuales (externas
que hagan que parezca «como si» la asignación del tratamiento hubiera sido aleatoria. Estas
variaciones en las circunstancias individuales pueden surgir como consecuencia de factores o-
relacionados con el efecto causal de estudio (por tanto exógenos). Estos factores en ocasione::;
provienen de fuentes de aleatoriedad natural como son las fechas de nacimiento, la lluvia o, e
general, cuestiones genéticas. También se pueden encontrar en factores institucionales comr
la ubicación, el calendario de aplicación de un programa o acción, la entrada en vigor de una
norma, etcétera. Un buen cuasiexperimento es aquel en el que hay una transparente fuente de
variación exógena en las variables explicativas que determine la asignación del tratamiento.
Para verlo con mayor claridad consideremos un ejemplo. Supongamos que estamos intere-
sados en estudiar los efectos de la inmigración sobre el mercado laboral. Una de las preguntas
que más interesan a los economistas, y también a la sociedad, es saber si la inmigración reduce
los salarios. La teoría económica sugiere que al desplazarse a la derecha la curva de oferta de
trabajo, ceteris paribus todo lo demás, se llegaría a una situación de equilibrio estable en la
que los salarios (precios de trabajo) serían más bajos que antes. ¿Qué haríamos si pudiéramo:
realizar un experimento aleatorizado controlado? Un experimento para estimar el efecto sobre
los salarios de la inmigración asignaría aleatoriamente un número diferente de inmigrantes
(diferentes tratamientos del experimento) a distintos mercados de trabajo (sujetos del expe-
rimento) , y luego mediría el efecto sobre los salarios (respuesta observada en el experimento
y compararía. Sin embargo, es evidente que por muchos motivos de distinta naturaleza esto
no lo podemos hacer. Podemos por tanto pensar en un cuasiexperimento. De hecho el trabajo
Tema 12 439
El estimador DID se puede ampliar para incluir regresares adicionales que midan carac-
terísticas individuales que estuvieran presentes antes de la realización del experimento. Estos
regresares adicionales W i transforman el modelo (12. 3.2) en un modelo de regresión múltiple
(12.3.3)
El estimador MCO de {3 1 de (12.3.3) será insesgado siempre que Xi esté asignado «como si
fuera aleatorio», condicionado a W1i, ... , Wri· Esto es así porque recordemos que en tal caso
el error éi satisfaría la condición de independencia en media condicionada, y podría tener por
tanto un significado causal.
Tanto para el caso de los modelos simple y múltiple (ecuaciones (12.3.2) y (12.3.3)) en
realidad tenemos un panel de dos periodos (antes y después del tratamiento) 7 , por lo que el
estimador se puede ampliar a casos en que el número de periodos del panel sea superior a dos.
Un caso diferente al panel es cuando el conjunto de datos procede de una sección cruzada
repetida. Este tipo de conjuntos se caracteriza por el hecho de que cada conjunto de datos de
sección cruzada corresponde a un periodo de tiempo diferente. Por ejemplo, el conjunto de
datos podría estar formado por observaciones de 300 sujetos en el periodo t , y por 350 sujetos
diferentes en el periodo t + 1, lo que configuraría un total de 650 sujetos observados.
Para poder utilizar este conjunto de datos configurado a partir de secciones en dos mo-
mentos diferentes es necesario considerar que si los individuos de la sección en t son extraídos
aleatoriamente de una población, entonces estos individuos se pueden utilizar como sustitutos
de los individuos (sujetos) de los grupos de tratamiento y control en la sección cruzada t +l.
En este caso de dos periodos , el modelo de regresión para este tipo de datos sección cruzada
repetida es
(12.3.4)
donde Xit se refiere al tratamiento del i-ésimo sujeto en la sección cruzada de tiempo
t, t= 1, 2; Gi es una variable indicador (variable binaria) de si el sujeto está en el grupo
de tratamiento (ya sea antes, tratamiento sustituto, o después del tratamiento); y Dt es otro
indicador del periodo en el que está el sujeto (pretratamiento, t =O, o postratamiento, t = 1).
A patir de estas definiciones resulta fácil comprobar que un sujeto recibe el tratamiento si
está en el grupo de tratamiento (Gi = 1) y además está en el segundo periodo (Dt = 1) , es
decir un sujeto tratado se caracteriza por Xit = Gi x Dt.
Si el cuasiexperimento hace que el tratamiento Xit fuera «como si» estuviera asignado
al azar, condicionado a los controles W , entonces el efecto causal del tratamiento puede ser
estimado por el estimador MCO de ~l· Podemos observar que el modelo de la Ecuación (12.3.4)
nos conduce al mismo estimador de la Ecuación (12.3.1), por lo que los modelos (12.3.4) y
(12.3.3) son equivalentes. Para verlo consideremos el caso más simple de (12.3.3), es decir,
cuando no hay W. En tal caso, se puede comprobar fácilmente que
Estimadores de VI
En algunos cuasiexperimentos, es posible que tengamos disponibilidad de otra variable
adicional, que llamaremos Z, de la que sabemos que influye en la recepción o exposición a.
tratamiento, X, y que está administrada «como si» fuera al azar entre los sujetos. Por ejemplo.
consideremos de nuevo el efecto del tratamiento «ir a la universidad» sobre los salarios. Supon-
gamos que a algunos individuos se le asignó aleatoriamente una ayuda económica para cubrir
gastos de formación universitaria. Sea Z la variable binaria que indica si un individuo recibe
la ayuda, y que podemos denominar instrumento. En este caso es esperable que el instrumento
Zi pueda afectar a la decisión de un individuo sobre ir a la universidad (tratamiento).
En este escenario podemos comprobar que, dado que la variable tratamiento es binaria.
entonces el estimador siguiente (conocido por estimador de Wald)
--- ---
13wald =
--- ---
JE (Yi 1zi = 1 ) - JE (Yi 1zi = o)
JE (xi 1zi = 1) - JE (xi 1zi = o)
¿ YiZi/ ¿ z i - ¿ Yi (1 - zi) / ¿ (1 - zi)
(12.3 .5
Ahora además contamos con el instrumento binario que puede afectar al tratamiento recibido.
Por tanto, el estado del tratamiento dependerá de los valores que tome el instrumento Zi , por
lo que potencialmente tendremos el estado Xi(l) en el caso de que Zi = 1, y alternativamente
el estado será potencialmente Xi(O) si Zi = O. Ahora también cabe decir que para un individuo
solo podremos observar uno de los posibles tratamientos
(12.3.6)
Conviene observar que, por un lado, suponemos que el instrumento afecta al tratamiento
observado (recibido), esto es, la probabilidad de recibir tratamiento en caso de que Zi = 1 es
diferente de la probabilidad de recibir tratamiento si zi = o,
Por otro lado, asumimos que el instrumento Zi está asignado aleatoriamente, lo que implica
que es independiente también de los tratamientos potenciales Xi(l), Xi(O) ,
(12.3.7)
Como hemos dicho, nuestro interés está en estimar el efecto potencial del tratamiento, que
vamos a considerar de nuevo constante para los individuos
Yi(l) = Yi(O) + /3 ,
por lo que el resultado observado será
Dado que estamos considerando que los potenciales resultados puedan estar correlacio-
nados con el tratamiento, es decir, dado que fácilmente podemos tener un problema de en-
dogeneidad, JE (ci IXi) # O, entonces existe riesgo derivado de la falta de consistencia en l~
estimadores. Este problema lo podremos paliar, como hemos visto en el tema dedicado a l~
variables instrumentales, en la medida en la que exista un instrumento, Zi, que sea indepen-
diente de los resultados potenciales. Precisamente este es el supuesto que hacemos en (12.3.7).
y por tanto sabemos con certeza que el estimador consistente existe y es el de la expresión
(9.1.8), es decir, el estimador MC2E. Dada la naturaleza binaria de las variables instrumento
Zi y tratamiento Xi, en el Apéndice técnico mostramos que llegamos a (12.3.5).
nacional basado en las fechas de nacimiento y a partir de dicho sorteo se configuraba una
bolsa de reclutables. De esta manera, la variable «reclutable» puede actuar como instrumento
puesto que por un lado se asigna aleatoriamente por el propio diseño, y además afecta en parte
(no en su totalidad, dado que había otras formas de acceder voluntariamente al ejército) a la
exposición al tratamiento.
Uno de los temas más estudiados a través de cuasiexperimentos ha sido la estimación
de los rendimientos (retornos) de la inversión en capital humano. La presencia de «sesgo de
capacidad» en las estimaciones del rendimiento de estas inversiones en capital humano en
forma de educación es un problema bien establecido. Las primeras soluciones propuestas al
problema incluyeron el uso de resultados de los test de inteligencia (imperfectas medidas de
la capacidad) utilizando a los hermanos como variables de control de aquellas características
no observables a nivel familiar. Posteriormente se ha ido sugiriendo que los cuasiexperimentos
(experimentos naturales) que inducen variación en el rendimiento escolar no relacionado con
la capacidad pueden ser utilizados para eliminar el sesgo de capacidad en la estimación del
rendimiento de la educación. Estos experimentos «nat urales» incluyen como variación natural
externa la fecha de nacimiento y el sexo del niño. Además , otros estudios han utilizado las
diferencias en el nivel de escolaridad de los individuos en gemelos monocigóticos para eliminar
la contaminación de las estimaciones de los rendimientos de las diferencias genéticas en la
capacidad.
Otro de los temas estudiados pertenece al ámbito del comportamiento del consumidor a
nivel agregado. Uno de los modelos más utilizados y probados de ciclo vital del consumo y
el ahorro es el modelo de «renta permanente». Los investigadores han estado interesados en
ofrecer evidencias sobre el motivo por el que los mercados de capitales son incompletos, tal
y como refleja el hecho de que el consumo es «demasiado» sensible respecto de los ingresos
corrientes (actuales). Los modelos de ciclo vital que admiten la incertidumbre sobre los flujos
futuros de ingresos tienen la característica de que la capacidad de respuesta del consumo (y
del ahorro) ante los ingresos depende de que las fluct uaciones en los ingresos sean inesperadas
y transitorias.
Distinguir entre componentes de los ingresos transitorios y permanentes e identificar sus
efectos son los principales retos de esta literatura. Los datos no proporcionan medidas de
ingresos que identifiquen convenientemente los ingresos para estos dos conceptos teóricos. Por
otra parte, las fluctuaciones en los ingresos pueden reflejar las decisiones de los agentes (lasco-
rrelaciones entre los cambios en el ingreso y el consumo no pueden aportar mucha luz en estos
modelos, porque el ingreso en cualquier punto dado en el ciclo vital puede reflejar inversiones
anteriores y decisiones de ahorro). Por ejemplo, en las poblaciones agrícolas, las inversiones
en equipo o en semilla afectan al nivel y a la variabilidad de los ingresos , y a su vez estos
pueden reflejar preferencias (por ejemplo, para el riesgo) que también afectan a las decisiones
de consumo. Varios estudios han utilizado la variable tiempo meteorológico, en el contexto
de los agricultores, como una forma de identificar los efectos de los componentes transitorios
y permanentes de los ingresos. La variable tiempo atmosférico tiene características deseables
para el análisis de los efectos de los ingresos: los fenómenos meteorológicos tienen efectos
significativos en los ingresos agrícolas, no pueden ser afectados por el comportamiento de los
propios agricultores y satisfacen el criterio de aleatoriedad. Por otra parte, las distribuciones
446 CUASIEXPERIMENTOS Y REGRESIÓN
Hay varias fuentes de problemas que pueden hacer que los cuasiexperimentos nos con-
duzcan a conclusiones no válidas, y por tanto es importante tener presente en la práctica
cuáles son las principales vías que invalidan o ponen en riesgo de credibilidad a los estudios
teóricamente basados en cuasiexperiment os.
Por una parte tenemos las amenazas que ponen en tela de juicio la adecuada configuración
del cuasiexperimento. Los cuasiexperimentos se fundamentan en la diferencias en las circuns-
tancias individuales, cambios legales, políticos , sucesos repentinos no previstos, etcétera, para
generar una asignación del tratamiento «como si fuera» aleatoria. En caso de que la asignación
hecha por este tipo de sucesos no diera lugar a una asignación del tratamiento compatible con
la aleatoriedad , entonces el estimador MCO y el MC2E no sería sesgado ni consistente.
La ausencia de asignación aleatoria en el tratamiento puede comprobarse observando si
existen diferencias «sistemáticas» entre los grupos de control y de tratamiento. Una posiblidad
es hacer una regresión de la variable indicativa del tratamiento X sobre las características
Tema 12 447
individuales W, y contrastar la hipótesis de que los coeficientes de las W son nulos. Esto nos
dará una pista sobre si el cuasiexperimento origina o no una asignación aleatoria. Aun así, es
posible que existan otros hechos distintos del tratamiento X que ocurran entre observaciones
antes y después del tratamiento y que ofrezcan explicaciones alternativas para los resultados.
Esto es, es posible que X esté relacionada con factores no observables e incorporados en el
término error. Respecto a estos factores no observables no podemos contrastar la validez de
la hipótesis de asignación cuasialeatoria, solo el conocimiento experto de cada caso concreto
puede servir de guía de evaluación.
Otro elemento que distorsiona la hipótesis de administración del tratamiento de forma
«como si fuera aleatoria» es que la asignación solo influye, pero no determina el tratamiento.
En ese caso la estiación MCO no es insesgada, pero la estimación con variables instrumentales
mediante un instrumento Z puede hacer que sea consistente.
Aparte de estos posibles problemas potenciales relacionados con los mecanismos de selec-
ción, caben destacar otros, si bien no son lo únicos. Destacamos en particular los derivados de
la existencia de variables resultado con tendencia, es decir, procesos dentro de las unidades
de análisis que varían con el paso del tiempo per se, por ejemplo, la edad, la inflación, el
crecimiento, entre otros.
Estimador DID
En esta sección vamos a comprobar que en el modelo (12.3.2), el estimador MCO de {31
es el estimador (12.3.1), esto es /3f'1ºº = /:JfID.
Sabemos que el estimador MCO de /31 en (12.3.2) es el correspondiente a un modelo de
regresión lineal simple f:JMCO = (l /n) L:Xib.Y;-XY donde ~y; = (ydespu és - yantes) i =
1 (l/n) 4:Xf-X2 ' i i i '
1~ - - l nr l n
- ~Xi ~Yi-XY - L~Yi- nr - L~Yi
n i=l
n n n
i=l i=l
l nr l n
- L ~Yi - nr - L (Xi~Yi + (1 - Xi) ~Yi)
n i=l n n i=l
448 CUASIEXPERIMENTOS Y REGRESIÓN
(1/n) L Xl - X 2
n: -(n:r
: (1- 7).
A partir de las expresiones del numerador y del denominador, y considerando que el término
( 1 - ~) = ~, tenemos que el estimador Y1 CO es
ln [(l _!?X)
n "'nr
úi=l
6,Y;t _!?X
n "'ne
úi=l
6.Y;]
t (1/n) (1 - qf) 2::~1 t.Yi
~ (1- qf) ~ (1- ~)
(1/n)qf 2::~~1 6.Yi
n n
¿~~1 6.Yi ¿~~1 6Yi
nr ne
6. y tratamiento _ 6. y control .
donde zi, Yi y xi son, respectivamente, una variable instrumental binaria, la variable de-
pendiente de la segunda fase y una variable binaria explicativa endógena. Z, Y y X son sus
respectivas medias aritméticas.
Si desarrollamos las sumas de la expresión del siguiente modo,
n n
L ZiYi = niY1; L zixi = niX1
i=l i=l
n n n
¿ zi = ni;LXi = nX;LYi = nY,
i=l i=l i=l
donde análogamente Yo ,Xo son las medias muestrales (promedios) de la parte de la muestra
con Zi = O. Entonces se tiene
X1 - n1x1
n
- n-n1xo
n
nY1 - n1Y1 - (n - ni) Yo
nX1 - n1X1 - (n - n1) Xo
(n - n1) (Y1 - Yo)
(n - n1) (X1 - Xo) ·
Por tanto
A
(3
MC2E (Y1 - Yo)
----
- (X1 - Xo).
EJERCICIOS
l. Considere un estudio que evalúa el efecto en las calificaciones de los estudiantes univer-
sitarios de las conexiones a internet en sus respectivas habitaciones. En un dormitorio
grande, la mitad de las habitaciones están preparadas con conexiones de alta velocidad
(grupo de tratamiento). Se recopilan las notas finales de todos los residentes. Algunas
de las siguientes circunstancias pueden poner en tela de juicio la fiabilidad del estudio.
Diga cuáles y por qué:
SERIES TEMPORALES:
PREDICCIÓN Y REGRESIÓN
451
Introducción
Esta última parte se concentra específicamente en exponer herramientas que se han esta-
blecido sólidamente en la literatura siendo especialmente útiles cuando los datos con los que
trabajamos han sido registrados para una única entidad individual y para varios momentos
del tiempo, es decir, cuando nuestros datos son del t ipo de serie temporal. Las herramientas
obviamente serán útiles en función del tipo de preguntas que permitan responder. De hecho
hay ciertas preguntas para las que los datos de sección cruzada o transversales son subóp-
timas. De modo genérico, podríamos considerar dos tipos cuestiones para las que los datos
temporales pueden ofrecer una respuesta sólida. Uno de estos tipos vendría representado por
preguntas como ¿cuál es el efecto «causal» sobre Y, de una variación temporal en la variable
X? Otro tipo de pregunta de especial interés es ¿cuál es la mejor predicción de la variable Y
para el próximo periodo?
Las herramientas expuestas en la Parte I y en la Parte II de este libro responden a pre-
guntas de otro estilo y no enteramente desligadas de las anteriores. El análisis de regresión,
que ha sido el eje central del libro, se expone a fin de dar una respuesta a preguntas, en
último término, de tipo causal. En este sentido, las técnicas que se presentan en los próximos
temas están también centradas en la causalidad, entendida como causalidad en términos di-
námicos, para lo cual la dimensión temporal de las variables resulta imprescindible. Esto es
especialmente obvio en los Temas16, 19 y 20.
Paralela y complementariamente, hemos visto que el análisis de regresión también puede
ser utilizado para realizar predicciones o proyecciones sobre el valor futuro de la variable
estudiada. Tiene lógica científica considerar que el mejor conocimiento de las causas y de la
ponderación de las mismas sobre la variable objetivo permita realizar previsiones adecuadas
del futuro de la variable de interés. Desde esta perspectiva, podemos decir que la predicción
se trata de un ejercicio o una aplicación de la regresión. Sin embargo, la predicción en sí
es algo muy diferente de la estimación de efectos causales, que como hemos subrayadado
en múltiples ocasiones y desde distintos marcos, es lo propio y sustantivo de la regresión. De
hecho, presentaremos en los Temas 13, 14, 15 y 17 modelos que son extraordinariamente útiles
para realizar predicciones, pese a que no tienen una interpretación causal. En parte por este
motivo se presenta con cierta extensión esta metodología.
La capacidad predictiva de los modelos que presentamos en los Temas 13, 14, 15 y 17 se
basa fundamentalmente en la idea de que el futuro será esencialmente como fue el pasado. Si
esto no se cumple, las predicciones basadas en modelos de este tipo son muy cuestionables.
El Tema 17 trata precisamente del caso de series que tienen movimientos persistentes a largo
453
454
plazo , es decir , series que presentan tendencias. Este caso es muy relevante dado que aparece
reiteradamente en las series de datos económicos.
Sin duda uno de los intereses de la predicción es modelizar (autorregresivamente) la media
de un proceso con la intención de dar una óptima predicción para el valor esperado de la
variable estudiada (Temas 13, 14, 15 y 17); sin embargo, muchos datos económicos presentan
regularidades en la varianza (volatilidad), de modo que la varianza cambia a lo largo del
tiempo. Por varios motivos, que expondremos en el Tema 18, esto hace que sea especialmente
útil y económicamente rentable modelizar la varianza condicionada.
Finalmente los dos últimos temas platean herramientas y metodologías útiles cuando que-
remos predecir o estudiar dos o más variables. Piénsese por ejemplo en la tasa de inflación y
la tasa de desempleo. El Tema 19 presenta un modelo , vectores autorregresivos , para predecir
más de una variable a partir de los retardos de ambas variables. Es de especial relevancia
y atractivo el hecho de que de este tipo de modelos es posible extraer conclusiones causales
entre las variables consideradas. El Tema 20 completa el análisis multivariante considerando
y explicando qué significa y qué sucede cuando dos o más series comparten una tendencia
(estocástica).
Tema 13
Los modelos que vamos a estudiar en este tema son modelos univariantes porque estudian
el comportamiento de una serie temporal basándose únicamente en el análisis de su propia
historia. Los pronósticos se fundamentan en la hipótesis de que las condiciones futuras serán
análogas a las pasadas y son especialmente adecuados para la predicción a corto plazo. De
hecho estos modelos, considerados como herramienta de predicción, son una alternativa al
enfoque causal estudiado hasta ahora.
Aunque el análisis univariante de series temporales es muy extenso, nosotros solo trata-
remos en este tema los modelos ARIMA, puesto que históricamente se han establecido como
una herramienta potente para la predicción de series temporales y también son un camino
convergente con los modelos dinámicos que estudiaremos en temas posteriores.
El análisis de series temporales es un campo de especialización de la estadística, sin em-
bargo las series temporales que habitualmente observamos en las ciencias sociales, y en la
economía y empresa en particular, presentan unos hechos singulares que han propiciado que
se estudien con mayor detalle por los académicos de la econometría. No en vano, la acade-
mia ha distinguido con el Premio Nobel las investigaciones de varios economistas (entre ellos,
Robert Engle y Clive Granger) por sus aportaciones al análisis de series temporales cuyas con-
tribuciones revolucionaron la manera en la que se usaba la econometría con datos en forma
de serie temporal.
El análisis de series temporales es fundamental para el estudio del comportamiento de
la economía (en su conjunto) tanto a nivel nacional como internacional. Así por ejemplo
si necesitamos hacer una predicción del crecimiento PIB o el de la inflación , miramos el
comportamiento de algunos indicadores económicos y consideramos su comportamiento en el
pasado reciente. De manera similar, podemos analizar la evolución reciente de una industria
determinada para pronosticar el potencial de vent as de una empresa perteneciente a dicha
industria. Ni que decir tiene que muchas de las decisiones de inversión financiera (ya se a
corto, medio o largo plazo) se toman considerando la evolución de la cotización de uno o
varios valores bursátiles, así como de la evolución de tipos de cambio, o de la senda trazada
por los tipos de interés, entre otros. En cada uno de estos casos, necesitamos analizar series
455
456 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
temporales.
Algunas características de las series económicas es que suelen ser relativamente cortas (en
comparación con las disponibles en otros dominios científicos), por lo que las herramientas de
análisis deben estar adecuados a esta realidad. Suelen presentar tendencias, y el tratamiento
de las mismas es fundamental tanto desde el punto de vista analítico, como desde el punto de
vista económico. Igualmente pasa con la existencia de ciclos estacionales, consustanciales a la
realidad estudiada a través de la serie.
Dos elementos adicionales singulares de las series a analizar son, por un lado , que la
teoría económica juega un papel central, en el sentido de que es realmente interesante integrar
las técnicas y procedimientos de análisis basados (solo) en su propia historia con los análisis
basados en una estructura teórica, lo cual es razonable por varios motivos, entre ellos porque el
agente estudiado tiene acceso al análisis de la propia serie lo cual le puede reportar beneficio
económico. Y por otro lado, que hay series mucho más largas (nos referimos a las series
financieras) donde lo que tiene interés económico es modelizar la volatilidad, y en donde la
no linealidad desempeña un papel relevante.
Cuando observamos una serie temporal vamos a entender que esta serie es una realización
de un proceso estocástico. Por tanto, el contenido fundamental de este tema se refiere a la
modelización de una serie temporal considerada como un proceso estocástico. Podemos definir
un proceso estocástico «Z » como un conjunto de «T » variables aleatorias «Zt » en momentos
de tiempo sucesivos. Cada una de estas «T» variables se comporta como lo hacen las variables
aleatorias usuales. Analíticamente se puede expresar como
(13.1.2)
pero normalmente en un proceso estocástico solo conocemos un valor de cada una de las «T»
variables que componen el proceso (o punto muestra), y en consecuencia no podemos conocer
su función de distribución conjunta, que puede ser muy compleja.
1
La función real Z(s, t) es un proceso estocástico que depende del tiempo y del suceso. Si fijamos el tiempo,
Z(s, to ) define una variable aleatoria, si fijamos tiempo y suceso, Z(so, to) define un número real.
Tema 13 457
Figura 13.1.1: 10.000 observaciones del proceso estocástico de un dado con dependencia
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
....
N
o
N
00
....
'Y (t, t +u) = COV (Zt, Zt+u) =JE [(Zt - µt) (Zt+u - µt+u)] (13.1.5)
es la covarianza, que denominaremos función de autocovarianza, puesto que se refiere a
la covarianza de dos variables cualesquiera del proceso en distintos momentos de tiempo. u
representa el retardo (o adelanto en el tiempo) respecto de Zt. Si el desfase es nulo, u= O, y
entonces obtenemos de nuevo la varianza del proceso.
El coeficiente de correlación, que denominaremos función de autocorrelación, mide la
correlación entre dos variables del proceso en distintos momentos de tiempo,
(13.1.7)
donde las funciones de distribución marginal (o de cada una de las variables del proceso) son
iguales , lo que permite considerarlo de hecho, como si fuera una única variable aleatoria con
«T » repeticiones.
El conocimiento de las funciones de distribución de las variables que componen el proceso
resulta inalcanzable si, como es habitual, solo tenemos una realización de cada una de las
variables. Para solventar este problema suele recurrirse al concepto de proceso estocástico
estacionario en sentido débil.
Es decir que un proceso estocástico es estacionario en sentido débil si tiene media y varianza
constantes para todo t y la función de autocovarianza solo depende del desfase temporal u.
Esta última condición también se puede escribir como Pu = P-u· A estos procesos también se
les conoce como procesos estacionarios en covarianza.
El ejemplo del proceso estocástico con estructura temporal del dado (ver Figura 13.l.l) ,
las 100 primeras observaciones se parecen a las siguientes 100, por lo que lo mismo daría
comenzar a observar la realización de un proceso en un momento o en otro. Esto es así porque
su media no ha cambiado, y tampoco lo han hecho su varianza y covarianzas. Se trata, por
tanto, de un proceso estocástico, que teniendo estructura temporal, es estacionario en sentido
débil o estacionario en covarianza.
En numerosas ocasiones las variables económicas no presentan estas características (es
decir, no son estacionarias), de manera que para poder aplicar la modelización univariante
que presentamos en este tema es muchas veces imprescindible convertir primero las series
económicas en estacionarias. Si bien, como veremos en otros temas, esto no siempre es así.
A continuación examinamos los principales procesos estocásticos empleados dentro esta
aproximación metodológica.
(13.l.9)
y puede ser escrito en desviaciones a las medias sin pérdida de generalidad, es decir que
expresado de esta forma , el proceso ruido blanco sería:
Ruido blanco
Zt = Et, (13.1.10)
y satisface
l. a JE (Zt) = 0, t = 1, 2, .. ·
2.ª var (zt) = rJ¡, t = 1, 2, ... (13.1. 11)
3.ª COY (zt, Zt+u) =/u= 0 para todo U/- 0.
Consiste, por tanto, en una secuencia de variables aleatorias con media nula y varianza cons-
tante. La tercera condición también se puede escribir como: Pu = O, para todo u 1- O. Intuiti-
vamente, y de forma menos precisa, podemos decir que en un proceso de ruido blanco, conocer
los valores pasados no proporciona ninguna información sobre los valores futuros. El proceso
no tiene memoria. Por tanto, es evidente que el ruido blanco es un proceso estacionario débil.
Si reemplazáramos la tercera condición por la siguiente:
En los casos en los que ét se acomoda a la distribución normal N(O, o- 2 ) decimos que se
trata de ruido blanco gausiano.
A modo ilustrativo consideremos, por ejemplo, un proceso que consiste en empezar en
un zo cualquiera. Si observamos que Zt > O, entonces Zt+l lo extraemos de una distribución
normal N(O, l) ; pero si observamos que Zt < O, entonces Zt+l lo extraemos de una distribución
uniforme U (-1/V3, 1/V3). Este proceso estocástico es estacionario, aunque temporalmente
no es independiente. También se puede comprobar fácilmente que es un proceso de ruido
blanco: su media es nula, la varianza es constante, y las covarianzas son nulas. Por tanto,
como es ruido blanco, la distribución es la misma a lo largo del t iempo y el proceso es
temporalmente independiente, entonces el proceso sería ruido blanco independiente, que se
corresponde con las siglas i.i.d, que hemos utilizado en otros temas.
Supongamos, como es habitual, que contamos con una única realización de un proceso
estocástico estacionario, con mediaµ= JE (Zt), varianza a-;= /O = var (Zt) y autocovarianzas
/u = COV (Zt, Zt-u)·
En estas condiciones un estimador del primer momento, es decir, de la media poblacional,
es la media muestra!: que será una media temporal,
(13.2.1)
Una forma alternativa de estimar la media (esperanza) del proceso sería obtener diferentes
realizaciones del proceso y ensamblar entonces la media a partir de las mismas. Esto , sin
embargo, supondría repetir la historia más de una vez, lo cual no es posible con los datos
económicos. En consecuencia, aspiramos a poder estimar la media poblacional a partir de la
media muestra! temporal.
Consideremos que tenemos datos independientes, en ese caso la varianza de la media mues-
tra! es var (.Z) = a- 2 /T, y por tanto al aumentar el tamaño de la muestra, el error cuadrático
2
medio JE ( Z - µ) de la estimación tiende a cero, lo cual es deseable. Desafortunadamente,
esta convergencia no está garantizada para todo proceso estacionario. Por ejemplo, un pro-
ceso con media cero y varianza o- 2 tan simple como Z1 = Z2 = Z3 = ... , es estacionario
sin embargo, pese a que la esperanza JE (Z) = O, cuando tengamos una única realización
Z1 = Z2 = Z3 = ... = Zr , la varianza de la media muestra! (temporal), es decir,
no será asintóticamente nula. La correlación entre una observación y la siguiente, que es idén-
tica por la definición del proceso, es unitaria y por tanto las covarianzas de la expresión serán
constantes a lo largo del tiempo. Lo fundamental es percatarse de que en este proceso en
particular cada nueva observación, al ser idéntica a la anterior, no proporciona nueva infor-
mación, es decir, tiene una dependencia muy fuerte respecto de la anterior, y esta dependencia
no se atenúa con el paso del tiempo. Este tipo de dependencias entre las observaciones no
permite que la media muestral colapse asintóticamente con la esperanza o media poblacional,
µ, incluso si el proceso es estacionario, cuya media poblacional es por definición constante.
Estas situaciones han de ser descartadas porque nos conducen a estimaciones erróneas del
primer momento (media poblacional).
Para garantizar la convergencia, es necesaria una condición más: que el proceso sea ergó-
dico. Si el proceso es ergódico la media muestral temporal nos conduce asintóticamente a la
media poblacional.
Esta es una propiedad importante porque garantiza que la diferencia entre el estimador
de la media Z y su verdadero valorµ tiende a cero cuando T aumenta, es decir, var (.Z) -+O.
Nos interesa por tanto conocer bajo qué condiciones el proceso estacionario es ergódico para
la media.
Ya hemos visto que cuando las observaciones son independientes en un proceso estacio-
nario, el error cuadrático medio tiende a cero cuando T aumenta, sin embargo cuando las
observaciones del proceso estacionario no son independientes, para calcular el error cuadráti-
co medio debemos tener en cuenta las funciones de covarianza, es decir que
de manera que la condición para que la varianza tienda a cero al aumentar la muestra es que
el sumatorio de la última expresión converja hacia una constante. La condición suficiente (no
necesaria) para que esto suceda es que
Por tanto podemos decir que la dependencia serial en el proceso es admisible siempre que
tienda a desaparecer con el tiempo. Esta observación está en cercana sintonía con lo previsto
para el comportamiento de la covarianza en la versión de la Ley de los Grandes Número
dada en la Proposición 2. Adicionalmente, conviene tener presente que para cualquier función
medible f , la sucesión {f(Zi)} es ergódica siempre que lo sea el proceso Zi, por lo que si un
proceso es estacionario y ergódico, entonces cualquiera de sus momentos (si existen) se podrá
estimar consistentemente a partir del correspondiente momento muestral.
En términos más generales, un proceso es ergódico respecto a un parámetro ~ cuando el
estimador {r calculado sobre una serie temporal converge en media cuadrática a un estimador
~ análogo definido sobre una muestra de réplicas independientes del proceso . La ergodicidad
es una restricción sobre la memoria del proceso necesaria para poder estimar consistentemente
las características del mismo a partir de una única realización.
La estacionariedad no garantiza la ergodicidad. Hemos visto que la memoria de un proceso
se mide por la covarianza entre dos variables distanciadas u periodos. En cambio la condición
de estacionariedad no implica una restricción de memoria, obsérvese que solamente afecta
a la homogeneidad temporal: todas las variables distanciadas u periodos tienen una misma
covarianza, /u, para cualquier u.
A modo de resumen, y para cerrar la cuestión de la ergodicidad, y evitar así una exposición
más técnica, que excede el nivel diseñado para este manual, cabe indicar lo siguiente respecto
a los requisitos de ergodicidad y estacionariedad. La estacionariedad la pensamos en término
de restricción sobre la heterogeneidad temporal del proceso, mientras que la ergodicidad limita
su memoria. Se pueden concebir procesos estacionarios no ergódicos y procesos ergódicos no
estacionarios, aunque, en general, la ergodicidad no suele definirse para procesos no estacio-
narios. El requerimiento conjunto de estacionariedad y ergodicidad asegura que con una única
serie temporal se pueden obtener estimadores consistentes de los momentos poblacionales. De
ambos requisitos el más fuerte es el relat ivo a la estacionariedad. Sería posible técnicamente
relajar la estacionariedad requiriendo condiones más fuertes que la ergodicidad. No obstante
estas vías no se explican en este libro. Todos los procesos presentados en este tema serán
lineales y estocásticos, lo cual garantiza la ergodicidad, y por tanto no nos preocuparemos por
ella.
Un elemento de enorme utilidad en un proceso estocástico estacionario y ergódico, es que
la función de densidad conjunta de un subconjunto de T variables de dicho proceso, condi-
cional en unos valores iniciales dados, coincide con el producto de las funciones de densidad
condicionales escalares (individuales) con un número finito de parámetros constantes. Jus-
tamente esta propiedad es la que permite realizar inferencias sin la necesidad de conocer la
función de distribución conjunta. De lo contrario sería casi imposible.
~ iu (13.2.6)
Pu= -:---,
'º
donde el denominador es la varianza del proceso calculado a partir de la función de autoco-
varianza sin desfase i o.
De hecho si la serie presenta dependencia débil en covarianza, en el sentido de que las
autocovarianzas decrecen rápidamente con el aumento del desfase, también lo hará la función
de autocorrelación puesto que esta no es más que el cociente entre la autocovarianza y la
varianza del proceso, Pu = :Yu / %. Es decir, la función de autocorrelación contiene la misma
información que la función de autocovarianza, pero tiene la ventaja de no depender de las
unidades de medida.
Denominamos correlograma a la representación gráfica de la función de autocorrelación,
para los sucesivos desfases, u= 1, 2, ... , k .
Para determinar si un valor concreto Pu de los k estimados es significativamente distinto
de cero, se toma como referencia un proceso ruido blanco independiente -es decir, se compara
con el proceso que no tiene ninguna estructura temporal ni memoria- . Los sucesivos valores
de Pu para u = 1, 2, ... para un ruido blanco tendrían las siguientes característica:
JE (Pu) =o
var (Pu)=~ (13.2.7)
cov (Pu , Pu+h) = O para todo h i= O.
464 MODELOS ESTACION ARIOS DE SERIES TEMPORALES
De hecho la sucesión de Pu para u = 1, 2, .. . estaría formada por valores que serían aproxi-
madamente independientes y normalmente distribuidos 2 . P or tanto, tras escalar por el factor
correspondiente, obtendríamos una distribución asintóntica normal estándar que nos faci lita
poder contrastar la hipótesis nula de que un Pu concreto es nulo (Ho : Pu= O). P ara ello rea-
lizamos el contraste de hipótesis nula usual , y rechazamos la hipótesis nula con el 95 % de
confianza si
Pu -o 1 I~ I 1, 96 (13.2 .8)
1
l/ VT > 1, 96 ; Pu > ..fJ',
es decir que si un valor concreto de Pu est á fuera del intervalo ± 1, 96 / ..ff' entonces podemos
afirmar que Pu es distinto de cero. Veamos un ejemplo para repasar todo lo visto hasta ahora.
~ 1! A 1 ~
r~~ ~
11
~
·1
·2
·3
25 50 75 100 125 150 175 200
2
La demostración excede ligeramente el nivel del libro de texto.
Tema 13 465
1 0,397622
2 -0,853086
3 0,944001
... .. .
198 -1,206685
199 -1,104331
200 -1,851134
La media es
La varianza
2 2
var (RE) = (O, 397622 +O, 101606) + ... + (-1, 851134 +O, 101606) = .
1 057522
200 '
A
/'1 = 2?10 2.::t=
200 (
2 REt -
- ) (
RE - )
REt-1 - RE
= 200 {[(-0, 853086+O,101606) (O, 397622 +O, 101606) + ... ]}=O, 01269,
y su autocorrelación
A
/'2 = 2?10 2.::t=
200(
3 REt -
-)(
RE RBt-2 - R-E)
= 200 {[(O, 944001+O,101606) (O, 397622+O,101606) + ... ]}=O, 01163 ,
y su autocorrelación
~ i'2 0,01163
p2 = i'o = 1, 057522 =O, Ol l.
fuera del intervalo ±1 , 96 / v'205 = ± 0, 139, de manera que los dos primeros valores calculados
O, 012 y O, 011 no son significativamente distintos de cero.
El correlograma (función de autocorrel ación) para k = 20 , se reproduce en la Figura 13.2.2 .
1 2 3 4 5 6 7 8 9 W 11 12 13 M 15 16 17 IB 19 W
Desfases
Como podemos observar, el corre lograma presenta valores en todos los desfases dentro del
intervalo ± 0 , 139 que se representan en el gráfi co mediante sendas líneas paralelas al eje de abscisas.
En definitiva , puesto que el gráfico de la serie presenta media y varianza constantes y además
el correlograma observa desfases incorrelacionados conclu imos que la serie RE refleja la imagen
empírica de un proceso puramente aleatorio o ruido blanco .
También sería posible calcular y dibujar el correlograma del ejemplo del dado, que hemo
citado anteriormente. La Figura 13.2.3 representa el correlograma de los datos representado
en la Figura 13.1.1. Las bandas en torno al cero representan el intervalo de confianza asin-
tótico al 95 % donde deberían estar los coeficientes de autocorrelación estimados si la serie
hubiera sido generada por un proceso de ruido blanco. Se aprecia que no es el caso , tal y
como esperábamos puesto que no se trata de un proceso de ruido blanco, sino de un proceso
con dependencia temporal por construcción. Resulta interesante detenernos un momento en
este proceso denominado "del dado" para observar que sería posible reproducir fácilmente el
correlograma con un proceso estocástico sencillo. Y en este sentido podríamos decir que ambos
son equivalentes, o bien que dicho proceso teórico representa al proceso estocástico del dado.
Lo cual es indicativo de algo que ya habíamos sugerido: dada una media y una varianza, todo
lo que importa o caracteriza el proceso está en la función de autocorrelación . Lógicamente
habrá diferencias entre el proceso teórico que podríamos generar para emular la función de
autocorrelación de proceso estocástico que genera los números observados en el caso del dado
y el propio proceso generador de la dinámica del dado, pero esas diferencias no son percibibles.
~ -
~ -
d -
~ -
---• -----
- - - -- - - .--. - - --
--
- -
-
----- -
- - - --
- illr'- - - -- -
- - - - -- - - --
- -- - - - - - ---
o 2 4 6 8 10
menores al año (semanal, mensual, trimest ral o semestral), tal y como vimos en la Sección 7.4 .
Por ejemplo, si los datos fueran trimestrales, entonces podría resultar útil hacer una diferencia
estacional para estudiar la variable Xt definida con esta diferencia estacional: Xt = Xt - Xt-4.
que denotamos, en general, por ~i siendo i el número de periodos a considerar dentro , en este
caso, del año. Esta transformación en una nueva variable Xt contempla (y remedia) la poten-
cial ausencia de estacionariedad en la dimensión estacional. Aplicar diferencias estacionales
para conseguir series estacionarias en la dimensión estacional se consigue haciendo diferencias
estacionales. Tenemos entonces dos dimensiones (regular y estacional) en las que se puede
resolver la no estacionariedad con las respectivas diferencias regulares y/ o estacionales.
En definitiva, podemos generalizar los procesos integrados si tenemos en cuenta tanto
la dimensión regular, diferencias sucesivas, como la estacional, diferencias estacionales. Un
proceso será integrado de orden d regular y orden D estacional, I (d, D) , si para ser estacionario
se requieren d diferencias sucesivas y D diferencias estacionales. En general se suelen conseguir
series estacionarias con un orden de integración reducido, d + D :::; 3.
En general diferenciando conseguimos procesos estacionarios en media pero en ocasiones
la varianza no es, pese a la diferenciación, constante en el tiempo. En muchos de estos casos.
pero no siempre, se consiguen series con variabilidad constante transformando previamente
mediante la aplicación de logaritmos. La familia de transformaciones sugeridas por Box y
Cox (1964) es más general e incluye la t ransformación en logaritmos como caso particular.
La transformación de Box-Cox se puede escribir de la siguiente forma:
y;_ X{-1
t - >. , (13.3.1)
(13.3.2)
y una vez calculado el parámetro >. realizamos la transformación sobre los datos originales
utilizando la expresión (13.3.1) para obtener yt , donde la variabilidad de la serie no depende
del nivel de la misma.
Veamos un ejemplo para ver cómo podemos obtener a partir de una serie integrada una
serie estacionaria.
160.000
120000
80000
40000
O +.-.,~~~~~~~~~~~~
~ ~ ro 7S 00 ~ 00 ~ 00 ~ 10
Los valores van variando con el tiempo, es decir que las matriculaciones no parecen estacionarias
en media; además la variabilidad también va aumenta ndo a medida que transcurre el tiempo .
El correlograma , con 48 retardos, se reproduce en la Figura 13.3.2. Todas las autocorrela-
ciones son positivas y significativas; la línea paral ela al eje de abscisas muestra el valor crítico
v'624
( 1, 96 / = O, 078) . Desde luego la serie no prese nta dependencia débil en covarianza , puesto
que la función de autocorrelación debe acercarse a cero rápidamente a medida que aumenta el
desfase , lo que no ocurre en este caso como puede apreciarse en la Figura 13.3 .2.
0,9
0,8
0,7
0,6
o.s
0,4
º"
º"
0,1
13579UUUD~llD~V~llD~n~uuoo
Podemos suponer que la serie es integrada de orden uno I (1) y, en consecuencia , calcular una
primera diferencia de la serie en niveles, es decir,
•0000
20000
-20 000
'30.000
-80000
.100_000 ..........~~~~~~~~~~~~
oo ~ ro ~ ~ § oo ~ oo ~ 10
Ahora parece que la serie es estaciona ri a en media pero su variabilidad va aumentando con
el tiempo ; por tanto la serie puede que sea estacionaria en media, pero desde luego no lo es en
varianza. En muchas ocasiones la no estaciona ridad en varianza se soluciona aplicando logaritmos
a la serie.
Para ver si es así [y recordando que si >. '.: :'. O en la transformación de Box-Cox, expresión
(13.3.1 ) , entonces la transformación en logaritmos es correcta para conseguir variabilidad constante
con independencia del nivel de la serie] , aproximamos el parámetro >. estimado de la expresión
13.3.2 , cuyo resultado es
Por consiguie nt e suponemos que las mat ric ulaciones en logaritmos son integradas de orden uno
I ( 1) . Es decir que consideramos la siguient e transformación
Ahora parece que media y varianza son constantes. No obstante , se aprecia una fuerte estacio-
nalidad, de manera que debemos comprobar también que la serie es estacionaria en la dimensión
estacional, es decir, debemos comprobar que la serie presenta dependencia débi l en covarianza en
el orden estacional. Puesto que la serie es mensual, los retardos estacionales (12, 24, 36, 48 , ... )
deben también decrecer rápidamente a medida que aumenta el desfase estacional. La Figura 13.3.5
muestra la función de autocorrelación de las matricu laciones en logaritmos en primeras diferencias
d [ln (matt)].
º·ª
o.6
o.•
0,2
·0,2
.Q,4
1 3 s 7 9 1113 15 17 19 21 23 25 27 29 3133 35 37 39 4143 45 47
04
02
00
-O 2
-O 4
-06
-08
- 1.O ;-,-.,.......,_,....,-.,...,....,-r-r.,...,-,c--r-.-T"T".-T""T,..,....rTT-r-r-,.,.,.-.-..-m..,-,-m-.-.-r.-.-rr.,..,..,-
60 65 70 75 80 85 90 95 00 05 10
1 o
-0,1
. -0,l
l -0, l
-0,4
-O,>
Ahora el correlograma presenta una imagen más clara . En el orden regular es claramente
significativo el primer retardo y en el orden estacional el retardo de orden 12 y quizás también
el de 24 meses (destacados mediante barras con fondo negro). Tanto en el orden regular como
en el orden estacional las funciones de autocorrelación decrecen rápidamente de manera que son
débilmente dependientes en covarianza . Debemos añadir que al aplicar una diferencia regular hemos
perdido una observación y al aplicar una diferencia estacional hemos perdido otras 12, de manera
Tema 13 473
que ahora disponemos de 611 observaciones (624 - 1 - 12 = 611), y en consecuencia los valores
críticos son ±0,08 (1 , 96/J6IT = 0,079), valores que se reproducen en el grá fi co mediante dos
líneas paralelas al eje de abscisas.
En definitiva podemos conclui r que las matricul aci ones en logaritmos son una serie integrada
de orden uno regular y estacional J (l, 1), es decir qu e aplicando una diferencia regular y otra esta-
cional a las mat riculaciones en logaritmos obtenemos un proceso estacionario. Ahora , tras realizar
estas transformaciones monótonas, que siempre perm ite n recuperar la serie original , estamos en
condiciones de poder aproximar la serie transformada a t ravés de una serie de modelos estacionarios
que veremos a continuación.
(13.4.2)
será Z1 =<Po+ <P1 I +el, el siguiente, Z2 =<Po+ </J1Z1 + e2 =<Po+ </>1 (<Po+ <P1I +el)+ e2, y
sustituyendo así sucesivamente tenemos que
Z1 = <Po + <P1I + e1
Z2 = <Po (1 + </>1) +<Pi I + </>1e1 + e2
Z2 =<Po (1 + </>1 +<Pi)+ <P1I + <Pie1 + </J1e2 + e3 (13.4.3)
µ = <Po + rf>iµ;
(13 .4.5)
µ -- _<lsL_
1-</>1'
es decir que la media marginal es constante para todo el periodo si se cumple la expresión
anterior.
Igual que hicimos con el proceso ruido blanco, normalmente los procesos AR (1) se expre-
san, sin pérdida de generalidad, en desviaciones a las medias
(13.4 .6)
donde perdemos el término constante y las variables, Zt y Zt-1, aparecen en minúsculas indi-
cando que son variables centradas o en diferencias a las medias.
También es usual utilizar el operador de retardos cuya definición 3 es
es decir, una serie centrada (o en desviaciones a las medias) sigue un proceso AR (1) con
parámetro </> 1 si al aplicarle el operador (1 - <f> 1B) se obtiene un proceso ruido blanco. Si
consideramos el operador como una ecuación en B , el coeficiente </>1 se denomina factor de
la ecuación, y también podemos llegar a la condición de estacionaridad utilizando la raíz de
la ecuación. Es decir, igualando el operador a cero y resolviendo la ecuación con B como
incógnita tenemos la ecuación y la solución (raíz)
1 - </>1B =O;
(13.4.9)
B =.l.
t/>1'
y el proceso será estacionario si B está fuera del círculo unidad, es decir, si IBI > 1
Zt = </>1Zt- l +Et= </>1 (</>1Zt-2 + Et-1) + Et= <f>izt-2 + </> 1Et-l +Et· (13.4.12)
Aplicando este procedimiento sucesivamente llegamos a
(13.4.13)
y bajo el supuesto de que t es grande, </>t será a efectos prácticos cero, es decir que un proceso
AR (1) (y en general cualquier proceso AR) se puede representar como la suma de ruido
blanco ponderada por una constante que decrece geométricamente, y suponiendo que la serie
comienza en el pasado lejano ( -oo) , podemos expresar los procesos AR como la suma infinita
siguiente:
00
Zt = L </>1Et-i· (13.4.14)
i=O
Aunque la esperanza del proceso (13.4.2) es </>o/ (1 - </> 1) , si utilizamos la expresión (13.4.6),
entonces el proceso AR (1) centrado (o en desviaciones a la media, </>o = O) tiene esperanza
nula
(13.4.15)
Sabiendo que el proceso centrado tiene media nula, tras elevar al cuadrado la expresión
(13.4.6), si aplicamos esperanzas obtenemos la varianza incondicional o incondicionada
476 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
(13.4.17)
de manera que
2
2 O'é
O' z = ----;:?.
1 - 'f'l
. (13.4.18)
Lo cual nuevamente nos permite comprobar que para que la varianza sea positiva se hace
necesario el cumplimiento de la condición de estacionaridad, l</>11 < l.
Para calcular las funciones de autocorrelación partimos de la expresión (13.4.14). Multi-
plicando por Zt+u y aplicando esperanzas.
donde el único valor que cambia con el desfase temporal es </>f, que decrece geométricamente
si se cumple la condición de estacionaridad l</>11 < l.
La función de autocorrelación es
a2,i..u
~
Pu = "fu = 1-:1 = </>f, (13.4.21)
/O ~
1-</>1
Donde E~u) hace referencia a los errores para cada uno de los modelos secuenciales. En
caso de que el proceso fuera un AR(l) , el error €?) sería ruido blanco (por definición de
AR(l)) , y el coeficiente poblacional r/>11 -=/- O, de lo contrario no sería un AR(l), y el coeficiente
muestra! estimado Ju
convergería asintóticamente al verdadero (a un valor distinto de cero).
Pensemos ahora cómo sería el último coeficiente de una de las ecuaciones siguientes, es decir
u > l. En estos casos, dado que el proceso es AR(l) y por tanto solo es relevante el valor
que toma la serie en el momento justamente anterior, una vez que dicho valor ya ha sido
considerado, pues la regresión u-ésima contiene el efecto en cuestión, tendríamos que rf>uu =O,
y por tanto su contrapartida muestra! Juu convergería a cero. Hemos comprobado que los
procesos autorregresivos de primer orden se caracterizan por tener una FAP en la que solo el
primer retardo es estadísticamente distinto de cero , mientras que los siguientes desfases son
estadísticamente nulos.
Para determinar si un valor concreto rf>uu de los k estimados en la FAP es significativamente
distinto de cero consideramos el proceso ruido blanco, es decir, consideramos que los valores
sucesivos de rf>uu para uu = 1, 2, ... son independientes y se distribuyen como una normal de
media cero y varianza unitaria. En estas condiciones, cada rf>uu se distribuye de la siguiente
forma:
478 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
E (<Puu) =O
Var (<Puu) = ~ (13.4.24)
Cov (<Puu, <Puu+h) =O para h ~ 1,
de manera que para contrastar la hipótesis nula de que un <Puu concreto es nulo (Ho : <Puu =O)
realizamos el contraste de hipótesis usual, y rechazamos la hipótesis nula con el 95 % de
confianza si
<Puu - O1 I 1, 96 (13.4.25)
l/ ,/f' > 1, 96; <Puul > ,/f' ,
1
es decir que si un valor concreto de <Puu está fuera del intervalo ± 1, 96 / ,/f' entonces podemos
afirmar que <PmL es distinto de cero con el 95 % de confianza.
Un proceso AR (l) presentará una F AP en la que solo el valor del primer desfase temporal
</>11 será distinto de cero y todos los demás serán nulos (<Puu =O, para uu > 1). Un AR (2)
presentará los dos primeros desfases de su F AP distintos de cero </¡ 11 y </>22 y el resto nulos y
así sucesivamente. De manera que el orden del proceso AR lo determina la FAP.
Llamamos correlograma completo a la representación gráfica de las funciones de autocorre-
lación total (FAT) y parcial (FAP) de desfases sucesivos de un proceso estocástico estacionario.
El correlograma completo de un proceso AR (l) en consecuencia mostrará una función de
autocorrelación total que decrece de forma geométrica a medida que se incrementa el desfase
temporal y una función de autocorrelación parcial con un solo valor significativo, el de orden
uno.
1
11 1• • - - - - -
1
7 • '
:;-~ 1
2 3 .. 5 6 7 8 9 10
FAP FAP
i 3 4 5 6 7 8 9 10 2 l 4 5 6 7 8 9 10
La Figura 13.4.1 muestra el correlograma completo de dos procesos AR (l). Los dos gráficos
Tema 13 479
(13.4.27)
es decir que la función de autocorrelación total con un desfase P1 es igual a la función de
autocorrelación parcial con un desfase </Jn en cualquier proceso estacionario.
En general podemos calcular FAP para un desfase cualquiera u. Partiendo de un modelo
AR (p) en desviaciones a las medias
l( l
estamos interesados solo en el último coeficiente denominado <Puu = </Jp, se obtiene
</J1
</J2 Po
P1 P1
Po .· ·. .· Pu-1
Pu-2 i -l ( P1
P2
.. ' (13.4.30)
.. ... ..
( . . .
<Puu Pu-1 Pu-2 Po Pu
que permite calcular las funciones de autocorrelación parcial de orden u de forma sucesiva a
partir de la función de autocorrelación total de cualquier proceso estacionario.
Por ejemplo, en el caso de un AR(l) la expresión sería
<Pn = Pi/ Po = P1
480 MODELOS ESTACIO!\ARIOS DE SERIES TEMPORALES
que resolviendo y teniendo en cuenta que es un proceso AR(l), como hemos visto, p2 = PI ,
se llega fácilmente a que 4>22 = 0/(1 - pi) = O. Lo mismo sucede si operamos para calcular
cp33, que será nulo, y así sucesivamente para cualquier retardo distinto de primero.
(13.4.31)
donde representamos las variables en minúsculas para indicar que están en desviaciones a las
medias.
Utilizando el operador de retardos B podemos escribir el modelo de la siguiente forma:
IBI = 1 4>1±~1
-24>2 > l·' (13.4.34)
lo que se cumple, en caso de raíces reales . si -1 < ef; 2 < 1; ef; 1 + 4>2 < 1; ef; 2 - ef; 1 < 1; mientras
que si las raíces fueran complejas, analizaríamos el módulo de las mismas4.
A la misma conclusión se llega analizando los momentos del proceso.
Un proceso AR(2) en niveles tiene la forma
(13.4.35)
Para que el proceso sea estacionario debe tener media constante en todo el proceso, es decir ,
que se debe cumplir que JE (Zt) =JE (Zt- l) =JE (Zt- 2) = µ. Por tanto, aplicando esperanzas
a la expresión (13.4.35) se cumple
µ = <Po
_ po
+ 4>1µ + 4>2µ; (13.4.36)
µ - 1-4>1 -4>2'
que es la media del proceso AR (2) estacionario. De esta expresión también deducimos que
cuando expresamos el modelo centrado o en desviaciones a las medias su esperanza (del modelo
4
Ver Apéndice de este tema.
Tema 13 481
centrado) es nula JE (zt) =O, puesto que cuando el modelo está en desviaciones a las medias
se anula el término constante </>o lo que hace que la expresión anterior también se anule.
Elevando al cuadrado la expresión (13.4.31) y aplicando esperanzas se llega a la expresión
de la varianza
2
JE (zl) =JE (</>1Zt-l + r/>2Zt-2 + Et) ;
(13.4.37)
'Yo = ri>ho + r!>ho + <7; + 24>1 r/>211.
Multiplicando la expresión(13.4.31) por Zt-u a ambos lados de la ecuación y tomando
esperanzas tenemos
(13.4.38)
y para u 2: 1 obtenemos la expresión de la autocovarianza para u retardos de un proceso
AR(2),
2 (1 - r/>2) <7;
<7 =/O= (13.4.40)
z (l + r/>2) (1 - r/>1 - </>2) (1 + r/>1 - </>2)'
donde podemos comprobar que para que la expresión sea positiva se deben cumplir las condi-
ciones de estacionaridad ya anteriormente aludidas: -1 < r/>2 < 1; r/>1 + r/>2 < 1; r/>2 - rp 1 < l.
Dividiendo por la varianza la expresión (13.4.39) obtenemos la relación entre los coeficien-
tes de autocorrelación Pu, lo cual es equivalente a la ecuación de Yule-Walker para un proceso
AR(2)
</>1
P1 = 1 - r/>2 • (13.4.42)
y para u = 2 se obtiene p2
,.¡,2
- '+'l ,.¡, (13.4.43)
P2 - l _ r/> + '+'2 ·
2
Para u 2: 3 podemos calcular las autocorrelaciones de forma recursiva a partir de la
ecuación en diferencias 13.4.41.
Un proceso AR (2) presenta dos raíces B1 y B2, expresión (13.4.34), por lo que podemos
factorizar fácilmente y escribirlo de forma compacta como
(13.4.44)
482 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
o alternativamente
El polinomio de retardos se anula lógicamente en sus raíces B = Bi, mientras que (y por
lo tanto) el polinomio se puede factorizar para los valores de R = B¡ 1 , i = 1, 2. Esta última
expresión nos facilita invertir el proceso y expresarlo del siguiente modo:
bién por definición los coeficientes poblacionales serían: </Ju -=/= O y </J22 -=/= O, y los coeficientes
muestrales estimados ~11 y ~22 convergerían asintóticamente a los verdaderos (distintos de
cero). En un AR(l) y en un AR(2) hay relación o el efecto de Zt-2 sobre Zt, si bien en uno
y otro caso el efecto es diferente. En el AR(2) el efecto de Zt-2 es directo sobre Zt, mientras
que en el AR(l) el efecto es indirecto pues es un efecto con Zt que llega solo a través de Zt-l ·
Por tanto en el AR(l), una vez considerado el valor que tome Zt-l, a los efectos de saber qué
valor toma Zt no sirve para nada conocer el valor de Zt-2· En cambio, en un AR(2) el valor
de Zt-2 tiene un efecto indirecto sobre Zt (a través de Zt-1) y otro directo sobre Zt (a través
5
El ejercicio teórico 6 indica los pasos para obtener estos coeficientes autorregresivos. Es muy recomendable
seguirlos y resolver el ejercicio.
Tema 13 483
' 10
FAP FAP
¡--------
'
' 10 ' 10
de el mismo). Así en un AR(2) nunca podría ser suficiente para pronosticar Zt con considerar
solo el efeto indirecto, sino que sería imprescindible incorporar el efecto directo.
Estas consideraciones nos permiten ahora evaluar cómo sería el último coeficiente de las
ecuaciones (13.4.23) para u = 3. En estos casos, dado que el proceso es AR(2) y por tanto
solo son directamente relevantes los valores que toma la serie en los dos momentos anterio-
res, una vez que dichos valores ya han sido considerados (recuérdese que la regresión tercera
de (13.4.23) ya contieneA ambos efectos directos) tendríamos que <f>33 = O, y por tanto su
contrapartida muestral <f>33 convergería a cero. Por tanto comprobamos que los procesos au-
torregresivos de segundo orden se caracterizan por tener una FAP en la que solo el primer y
el segundo retardo son estadísticamente distintos de cero, mientras que los siguientes desfases
son estadísticamente nulos. Lo cual nos sirve para identificar, a partir de la FAT y la FAP,
qué tipo de modelo podría ser 6 .
Cuando las raíces de la expresión (13.4.33) son complejas los correlogramas de los procesos
AR (2) son de la forma que se reproduce en la Figura 13.4.3.
Es decir que cuando las raíces son imaginarias el correlograma muestra una FAT que
decrece rápidamente pero de forma sinusoidal. La FAP determina el orden del proceso, con
los dos primeros desfases distintos de cero.
1•-. 11 • 1 • • •
.•t..-. .----
1
1 ¡ l . s
' 7
• • 10 1 1
' . s • 7
• • 10
FAP FAP
11 1fl
' . ' ' 7
• • 10
1 1 ¡
' . s • ' •- ' -10
(13.4.48)
llamando al polinomio de retardos AR (B) = 1 - BefJ1 - B2efJ2 - ... - BPefJp obtenemos la
expresión general o compacta de un proceso autorregresivo estacionario,
(13.4.50)
que considerada como una función de B tiene p raíces, y tiene como factores sus inversas
respectivas, Ri = Bi- 1 , i = 1, 2, ... ,p
p
El proceso es estacionario si IBi l > 1 o lo que es equivalente, si 1!41 < 1 para todo i.
También podemos expresar un proceso AR (p) como la suma ponderada de procesos ruido
blanco [también denominado proceso MA (oo)J de la forma
Tema 13 485
800.000
700,000
600,000
500.000
400.000
300.000
200 000
100.000
El gráfico muestra una serie que en principio puede interpretarse como estacionaria en media
y varianza; para comprobarlo estimamos su correlograma completo , (Figura 13.4.6) .
486 MODELOS ESTAC IOl\ARIOS DE SERIES TEMPORALES
1 0.602 0.602
2 0.247 -0.181
3 0.166 0.162
4 0.150 0.004
5 0.179 0.127
6 0.101 -0.120
7 0106 0163
8 0.105 -0.074
9 -0.039 -0.149
10 -0.010 0.1 57
11 0.090 0.049
12 0.011 -0.189
13 -0.054 0.044
14 -0.085 -0.025
15 -0.005 0.068
16 0.079 0.041
17 0.006 -0 .044
18 -0.063 -0.120
19 -0.154 -0.123
20 -0.185 0.048
21 -0.154 -0.1 12
22 -0.112 0.038
23 -O 095 -0.052
24 -0.045 0.135
Tema 13 487
Figura 13.4.7: Correlograma de los residuos estimad os a partir de un AR ( 1) del logaritmo del
PIB en diferencias
Autocorrelation Partial Correlation AC PAC
1 0.072 0.072
2 -0.161 -O 167
3 -0.004 0.022
4 0.025 -0.004
5 0.136 0.142
6 -0.107 -0.134
7 0.026 0.102
8 0.159 0.107
9 -0.173 -0.191
10 -0.072 -0.011
11 0.184 0.190
12 -0.010 -0.110
13 -0.068 -0.043
14 -0.158 -0.076
15 0.011 -0.016
16 0.171 0.075
17 -O 040 0.048
18 0.024 0.031
19 -0.078 -0.151
20 -0.073 0.019
21 -0.052 -0.095
22 -0.001 0.011
23 -0.049 -0.135
24 -0.038 0.002
La primera columna muestra el gráfico de la FAT , la segunda el gráfico de la FAP, la tercera los
retardos , la cuarta los valores numéricos de la funci ón de autocorrelación total ( FAT) y la última
los valores de la FAP. Las líneas discontinuas paral el as indican el valor a partir del cual podemos
considerar que son sign ificativamente distintos de cero ( ±1, 96/ v'56). La FAT decrece rápidamente
con un único valor significativo en el primer desfase. La FAP tiene un solo valor significativo en
el primer desfase. En definitiva , el correlograma muest ra que la serie es débilmente dependiente
en covarianza puesto que solo un valor es significativo en la FAT , de manera que el correlograma
indica que la serie del PI B en logaritmos y primeras diferencias es estacionario . Además y puesto
que la FAT decrece rápidamente y la FAP solo tiene un valor significativo , el correlograma de la
Figura 13.4.6 parece ind icar que el proceso tiene la forma de un AR(l) y su estimación es
Como vemos la FAT no presenta ningún valor significativo . En defin itiva , concluimos que
los residuos de la expresión (13.4.53) son la imagen empírica de un proceso ruido blanco y en
7
Esta.mos considerando, por simplicidad. que las raíces son distintas y reales .
488 MODELOS ESTACION ARIOS DE SERIES TEMPORALES
" ~ ~ 70 ~ M 85 ~ 95 00 05 10
es decir que>.= O, 37 (1 - O, 63), valor mu y alejado del valor nulo equivalente a la transformación
logarítmica utilizada. En consecuencia , transformamos la serie en niveles del PI B utilizando la
transformación de Box-Cox (13.3.1), es dec ir que,
Ahora la serie presenta una variabilidad aproximadamente constante a lo largo del tiempo. Su
correlograma lo podemos visualizar en la Figura 13.4.9.
La FAP presenta un solo valor significativo y la FAT decrece rápidamente, de manera que
podemos considerar que el correlograma responde a un modelo AR (1).
El modelo estimado es
Figura 13.4.9: Correlograma de las primeras diferencias del PIB , transformación Box-Cox
Sample. 1954 2010
lnciuded observat1ons : 56
1 0.570 0.570
2 0.163 -0.239
3 0043 0101
4 -0.000 -0.061
5 -0.037 -0 .018
6 -0.115 -0.121
7 -0.084 0.080
8 -0.079 -0.114
9 -0.194 -0.167
10 -0.151 0.099
11 -0.040 -0.006
12 -0.085 -0.170
13 -0.117 0.023
14 -0.117 -0.074
15 -0.005 0.085
16 0.117 0.087
17 0.048 -0.124
18 -0.032 -0.082
19 -0.155 -0.191
20 -0.204 -0.013
21 -0.186 -0139
22 -0.136 0.015
23 -0.084 -0.095
24 -o 019 0.053
cuyos parámetros son significativos. El correlograma de los residuos se muestra en la Figura 13.4.10
y es la imagen empírica de un proceso ruido blanco , por tanto el modelo estimado en (13.4.55) lo
podemos considerar adecuado.
En resumen , la transformación Box- Cox es más adecuada que la logarítmica puesto que su
diferencias presentan una variabilidad constante (Figura 13.4.8) mientras que las diferencias de
la transformación logarítmica (Figura 13.4.5) presenta una variabilidad decreciente con el tiempo.
No obstante ambas transformaciones presentan dependencia débil en covarianza (Figuras 13.4.6
y 13.4.9) estimaciones parecidas, expresiones (13.4.53) y (13.4.55), y sus residuos se pueden
considerar la imagen empírica de procesos ruido blanco (Figuras 13.4.7 y 13.4.10) por consiguiente
tampoco podemos afirmar que la estimación del proceso AR(l ) de las diferencias en logaritmos
del PIB, expresión (13.4.53), sea inadecuada.
Figura 13.4.10: Correlograma de los residuos estimados a partir de un AR (1) del PIB , transfor-
mación Box-Cox
Autocorrelabon Partial Correlation AC PAC
1 0.107 0.107
2 -0.147 -0.160
3 -0.027 0.009
4 -0.011 -0.033
5 o020 0.023
6 -0.130 -0.147
7 -0.001 0.042
8 o084 0.038
9 -0.184 -0.206
10 -0.093 -0.033
11 0.117 0.094
12 -0.045 -0.127
13 -0.069 -0.040
14 -0.141 -0131
15 -0.010 -0.041
16 0.199 0.147
17 o003 -0.003
18 o061 0.056
19 -0.087 -0.166
20 -0.105 -O 039
21 -0.073 -0.127
22 -0.042 -0.025
23 -0.040 -o 128
24 -0.050 -0.098
(13.5.2)
donde desaparece el término constante e y la variable Zt la mostramos en minúscula para
indicar que es una variable centrada o en diferencias a las medias.
(13.5.3)
8
IE (ét) =O , Var (ét) = ~; y Pv. =O para todo u 2: l.
Tema 13 491
(13.5.4)
de manera que el proceso es la suma de dos procesos estacionarios Et y 81Et, y en consecuencia
el proceso M A (1) es por construcción estacionario.
Retardando un periodo la expresión (13.5.3), tenemos,
t-1
~
Zt =Et - " " 8 i1zt-i - 8t1t:o, (13.5.7)
i=l
que es un proceso autorregresivo. Esta expresión nos permite divisar el escaso sentido que
tendría que el parámetro 81 fuera superior a la unidad, pues en tal circunstancia el efecto del
pasado de Zt tiene mayor incidencia para explicar el valor actual de Zt cuanto más lejano está
en el tiempo. Es decir, contemplamos casos en los que el efecto (los efectos) van disminuyendo a
medida que aumentan los retardos, para lo cual debemos imponer la condición 1811 < 1, en cuyo
caso decimos que el proceso M A es invertible en un proceso autorregresivo AR. Además esta
restricción es perfectamente compatible con el hecho de ser un proceso débilmente dependiente.
Por otra parte, también observamos que 8i converge a cero a medida que t aumenta. En estas
condiciones si el proceso comienza en el pasado lejano, tan lejano como queramos (-oo), lo
podemos escribir como
00
Por tanto un proceso M A (1) se puede escribir como un AR (oo ). En general todos los procesos
M A invertibles son los que se pueden escribir como un proceso AR (oo).
Aplicando esperanzas a la expresión (13.5.3) llegamos a la conclusión de que el proceso
MA (1) centrado tiene media nula
(13.5.9)
La varianza es
(13 .5.10)
492 MODELOS ESTACIOJ\ARIOS DE SERIES TEMPORALES
Tl -ew;
P1 = - = (13.5.14
TÜ at (1 + ei)
y para u> 1 las funciones de autocorrelación son cero (Pu =O).
Por consiguiente, la función de autocorrelación de un M A (l) presentará un solo valor
distinto de cero, en el primer desfase. Es decir que el orden del proceso lo determina la
función de autocorrelación total (FAT) . Por tanto la FAT de un MA(l) tiene la misma
interpretación, determinar el orden del proceso que tenía la FAP para un proceso AR (1).
Esta misma dualidad se presenta también en la FAP de un MA (l) puesto que este proceso
se puede escribir como un AR (oo), que tiene una FAP que registra el efecto directo de Zt-u
sobre Zt de magnitud Of, por lo que la FAP de un M A (l) decrecerá rápidamente en u, siendo
todos poblacionalmente no nulos. Por tanto esta característica nos servirá para determinar el
orden del proceso M A. La Figura 13.5.1 muestra el correlograma de un proceso M A (1).
(13.5.16)
donde el operador de retardos M A (B) = 1 - 01B - 02B 2 - ... - OqBq opera sobre Et, y nos
permite llegar a la notación general compacta de un modelo MA (q)
Zt = MA(B)Et;
(13.5.17)
M A (B)- 1 Zt =Et·
Tema 13 493
1 2 l ' s 6 7 8 9 10 ' 5 6 1 8 9 10
FAP FAP
11 • - -
l r··· ·--·-- - - -
1 2 ) • s 6 7 1 9 10 1 2 3 4 s 6 1 8 9 10
(13.5.18)
Los coeficientes 'r/i se obtienen imponiendo la condición MA (B)- 1 MA (B) = 1; los procesos
M A deben ser invertibles, lo que se cumplirá si las raíces de la ecuación M A (B) = O caen
fuera del círculo unidad y la serie M A (B)- 1 será convergente y podremos escribir el proceso
MA como
00
que es un proceso AR (oo) y, por consiguiente, la FAP de un proceso M A (q) tiene la misma
estructura que la FAT de un proceso AR del mismo orden. Es decir, la FAP de un proceso
M A (q) decrece rápidamente de forma geométrica o sinusoidal y determina la naturaleza del
proceso.
Multiplicando (13.5.15) por Zt+u para u 2 O y tomando esperanzas, obtenemos la autoco-
varianza del proceso
Teniendo en cuenta que JE (E:t-iE:t+u-j) = a; solo cuando los subíndices coinciden y cero en
caso contrario, podemos igualar ambos subíndices t - i = t +u - j, lo que implica que cuando
494 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
Zt = Ót +L 'l/Jjªt-j
j=O
donde la parte determinista está en el primer sumando, mientras que el segundo es una suma
ponderada de ruido blanco formado por combinaciones lineales de z 8 , s < t. Este último
sumando contiene o representa una suma ponderada de errores de predicción generados al
intentar predecir Zt a partir de combinaciones lineales de Zs.
Los parámetros de los procesos M A no se pueden estimar por MCO puesto que la suma
cuadrática de las discrepancias no son una función lineal de los parámetros a estimar y se
suelen utilizar procedimientos como el de máxima verosimilitud condicional o exacta. Afortu-
nadamente los programas especializados incorporan estos algoritmos y calculan los parámetros
de los modelos Al A de forma rutinaria. Vemos un ejemplo de proceso de medias móviles.
Tema 13 495
.r1
1
_L ~~~ - ~¡,:
2 3 4 5 6 7 8 9 10 1 2 l 4 5 6 7 8 ' 10
FAP FAP
l., p
1 2 l • 5
l._
6
1 •
7 8
•
9
•
10 l 2 l 4 5 6 7 8 9 JO
1 2 ' 7 8 9 10
:r'·
L 2 z 1 • s 6 1 s 9 io
FAP FAP
1 l 'J 1 • 111 • .- •
l 2 l 4 s 6 1 8 9 10 l l 2 l • 5 6 1 8 9 10
496 MODELOS ESTACION ARIOS DE SERIES TEMPORALES
'º
1.0
12
08
oo-tf!M~:ftllrtrHlbH1/-IH-'t!t:tthmf'\irthl\ll>-F'-"-Wt.........
--O •
--08
., 2
.,. ...,_.,..~~~m~m~~m~m~
80 82 8" 86 88 gr 92 94 96 98 00 02 OA 06 OS 10
Los tipos de interés muestran una cla ra t endencia decreciente, de manera que la serie no
es estacionaria en media. La Figura 13.5.4 muestra la serie del tipo de interés interbancario en
primeras diferencias .
Ahora parece que la serie es estacionaria en media . Sin embargo, tenemos dudas de que la
serie sea también estacionaria en varianza puesto que la variabilidad parece ser menor a partir de
1996. No obstante, calculamos su correlograma que reproducimos en la Figura 13.5.5. mostrando
una FAT con un solo valor significativo y una FAP que decrece rápidamente, de manera que el
correlograma parece indicar que las diferencias de los tipos interbancarios se comportan como un
proceso M A (l).
1 -0.350 -0.350
1 1 2 0.012 -0.127
1 1 1 1 3 0.022 -o 020
1 1 1 1 4 0.023 0031
1 1 1 1 5 0.025 0.056
1 1 1 1 6 -0.005 0.031
1 1 1 1 7 -O 006 0.005
1 1 1 1 8 0.005 -O 000
1 1 1 1 9 -0.017 -o 023
1 1 10 -0.070 -O 101
1 1 11 -0015 -0094
1 1 12 -0.010 -0.065
1 1 13 0.018 -0.004
1 1 14 -0.026 -O 008
1 1 15 -0.026 -0.026
1 1 16 -0.018 -0.039
1 1 1 1 17 -0.024 -0.056
1 1 1 1 18 -0.003 -0.043
1 1 1 1 19 -0.018 -0.048
1 1 1 1 20 o 004 -0.032
donde el parámetro del proceso MA (1) es muy signifi cativo . El correlograma de los errores esti-
mados en el modelo (13.5.26) se reproduce en la Figura 13.5.6.
todos los valores de la FAT son no significativos, de manera que el correlograma de los residuos
estimados en la expresión (13.5.26) muestra la imagen empírica de un proceso ruido blanco, así
que el modelo (13.5.26) parece ser correcto.
L 1/Jjªt-j = \J!(B)at
j=O
que podría ser obtenido por el cociente de dos polinomios de retardos finitos (digamos, p, q).
498 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
Figura 13.5.6: Correlograma de los errores estimados a partir de un modelo M A (1) de las
diferencias de los tipos de interés interbancario
AutocorrelaUon Partial Correlabon AC PAC
1 -0.012 -0.012
2 0041 0041
1 1 3 0.055 o 056
1 1 1 1 4 0.057 o057
1 1 1 1 5 o047 o044
1 1 1 1 6 o007 o001
1 1 1 1 7-0011-0021
1 1 8 -0.020 -0.030
~ 1 9 -0.063 -O 069
[ 1 [ 1 10 -O 114 -O 117
~ 1 11 -O 066 -O 064
12 -O 037 -O 023
1 1 1 1 13 -O 012 o 014
1 1 14 -0.051 -O 022
1 1 1 1 15 -O 062 -0.042
1 1 111 16 -O 057 -O 049
111 17 -O 054 -O 054
18 -O 029 -O 032
1 1 1 1 19 -O 024 -O 029
1 1 1 1 20 0013 0007
Es decir
MA (B )
Zt = 'I!(B)at = AR(B ) at , y AR(B)zt = M A(B)at,
que observamos combinan polinomios de retardos p, q.
(13.6.1)
donde las variables están en diferencias a las medias y Et es ruido blanco. Utilizando el operador
de retardos B tenemos
(13.6.2)
Para que el proceso sea invertible se debe cumplir que IB1I < 1, y para que sea estacionario
que l<Pil < l. En tal caso podemos expresar un ARMA(l ,1) tanto como un AR, como un
MA, ambos de orden infinito y serán útiles para caracterizar los correlogramas de este tipo
de procesos.
En primer lugar vamos a invertir9 la parte AR
Zt = ( Et+ cP1Et-l + <PiEt-2 + ... ) - (B1Et-l + cfa1 B1 Et-2 + <Pi B1Et-3 + ... )
Zt = Et+ (<P1 - B1) Et-1 + <P1 (<P1 - B1 ) Et-2 + <Pi (<P1 - B1) Et-3 + ...
9
Es aconsejable que el lector que experimente alguna dificultad técnica en la inversión revise el apéndice
de este tema.
Tema 13 499
' 1••. -. -- -
11. 11 ·-· -.~- -'
</>1 <o, fh <o
FAT FAP
111 •• - - ·- -
Zt = (</Ji - 8i) Zt-i + Oi (</Ji - Oi ) Zt-2 + 8r (</Ji - Oi) Zt-3 + ... +Et·
Esta última expresión nos permite ver que el efecto directo de Zt-u sobre Zt decrece geo-
métricamente en potencias de 8i, es decir. Of. Es de esperar por lo tanto que la FAP presente
un decrecimiento geométrico como consecuencia de la influencia de la parte MA en el proceso
ARMA (1, 1).
A modo de resumen, podemos decir que la FAP y FAT de este tipo de procesos tendrán una
descripción estructural muy parecida: El primer valor depende de la diferencia paramétrica
(<Pi - Oi); los siguientes valores de la FAP y FAT irán decreciendo a una tasa determinada
por 8i y <Pi, respectivamente. La Figura 13.6.1 contempla distintos escenarios en función del
valor y signos de dichos parámetros.
A los efectos de determinar el valor preciso de los coeficientes relevantes, procedemos ini-
cialmente elevando al cuadrado la expresión (13.6.1), aplicando ahora esperanzas, obtenemos
la varianza del proceso
(13.6.3)
Multiplicando también (13.6.1) por Zt-u y aplicando esperanzas obtenemos las funciones
de autocovarianza del proceso
(13.6.4)
Esta expresión nos facilita comprobar que para u= 1 se tiene que
Pu = r/>1Pu-l
y la F AT decrecerá también de forma geométrica como consecuencia de la influencia de la
parte AR (1) del proceso ARMA (l, 1).
En todo caso los correlogramas reales de los procesos ARMA (1, 1) pueden diferir de los
teóricos representados en la Figura 13.6.1. Cuanto mayor sea el peso de la parte AR respecto
de la parte M A , el correlograma del proceso ARMA será más parecido al correlograma teórico
de un modelo AR. Por el contrario, si la parte M A pesa más, su correlograma se acercará al
teórico de un modelo M A.
Por último, la expresión de p 1 nos permite considerar el caso particular de (Ji = r/>1, ya
que en tal situación Pl = O, y por tanto también serán nulos los siguientes retardos, es decir,
Pu = O, u = 1, 2, 3, ... , que es justamente el correlograma del ruido blanco. El motivo por el
que sucede esto es porque el polinomio de la parte MA y el de la parte AR comparten, en ese
caso, una raíz común, por lo que podríamos reducir la expresión (1 - r/>1B) Zt = (1 - B1B) Et
simplemente multiplicando ambos miembros por el factor (1 - rp 1B)- 1 = (1 - B1B)-1, lo que
significaría que Zt = Et, o lo que es lo mismo que el proceso sería ruido blanco.
(13.6.7)
(13.6.8)
o, en notación compacta 10
B0.000
40.000
De igual modo a como hemos procedido con los modelos anteriores, podemos obtener las
autocovarianzas simplemente multiplicando por Zt-u
Considerando que para u> q la parte de la derecha se anula, tendremos, tras dividir entre
/O
Pu - Pl í'u-1 - P2/u-2 - ··· - Pp/u-p = O
El gráfico muestra una tendencia crecient e y, por tanto, las inversiones no son estacionarias
en media. La aproximación al parámetro >. de la transformación Box-Cox, a partir de la expresión
(13 .3.2), es
correlograma en la Figura 13.6.4, correlograma que muestra cómo la FAT y la FAP decrecen de
forma geométrica con un solo valor significativo en ambas funciones (FAT y FAP), por tanto parece
que el correlograma se corresponde con un modelo A R MA (l, 1), cuya estimación se reproduce a
continuación :
6 ln (inversiónt) =O, 040 +O, 4436 ln (inversiónt-1) +O, 364ft-1 +Et, (13.u.10)
(0,017) (0,193)
.
(0,364)
donde todos los parámetros son significativos al 5 % excepto el parámetro M A que solo lo es al
10 %. El correlograma de los errores estimados en el modelo (13.6.10) se reproduce en la Figura
13.6.5, donde la FAT no presenta ningún valor signifi cativo por lo que podemos considerar que los
errores estimados en el modelo (13.6.10) son la imagen empírica de un proceso ruido blanco, y en
consecuencia el modelo (13.6.10) estimado parece correcto.
Como vemos la elección del orden AR y del orden MA, es decir de p, q, no es fácil. Una
forma especialmente útil de seleccionar modelos ARMA es utilizar criterios basados en teoría
de la información, que habitualmente de denominan criterios de información, y que ya nos
hemos referido a ellos en algún momento. A partir de un modelo ARMA(p, q) estimado,
podemos calcular la estimación de la varianza de los errores, que ahora denominamos <J;(p, q).
Entonces definimos algunos criterios de información
AIC(p, q) = logCT¡(p, q)
A
+ T2 (p + q)
logT
BIC(p, q) = logCTc2 (p, q) + T(p + q)
A
-l (
H e( p, q) - ogCTe2 p, q
A )
+ 2(p+q)log(log(T))
T
504 MODELOS ESTACIOKARIOS DE SERIES TEMPORALES
1 0.619 o619
2 o217 -0.268
3 0.081 0.133
4 0.042 -0.045
5 -0.070 -0.147
6 -0 140 -O 003
7 -0.103 0.017
8 0.048 0.165
9 0.013 -0.212
10 -0.155 -0.135
11 -O 206 -0 008
12 -0.066 0.114
13 -0.045 -O 125
14 -0.108 -0.024
15 -O 058 0.091
16 o 114 0.086
17 o 142 -0.075
18 0.004 -0.087
19 -0.161 -0.134
20 -O 233 -0.186
21 -O 169 0.104
22 -0.074 0.116
23 -0.094 -0.152
24 -0.026 0.014
1 0.007 0.007
2 -O 013 -0.013
3 -0.046 -0.046
4 0.145 o 146
5 -0112 -0.119
6 -0.076 -0.073
7 -O 160 -0.153
8 o 171 0.152
9 0.056 0.078
10 -0111 -0.124
11 -0.248 -0.232
12 0.122 0.060
13 0.001 0.004
14 -O 103 -0.083
15 -0.127 -0.056
16 o179 0.107
17 0.073 o012
18 0.041 0.020
19 -0.095 0.004
20 -0.118 -0.215
21 -0.094 -0.201
22 0.103 0.144
23 -0.104 0.062
24 -0.123 -0.229
Tema 13 505
l. Estimar varios ARMA(p,q) para todo un rango de combianaciones razonables: O :::; p :::;
p y o:::; q:::; Q.
2. Comparar todos los modelos, es decir, (P + l )(Q + 1), utilizando criterios IC, y selec-
cionar el que menores valores arroje.
3. Someter al modelo elegido a contrastes de especifición , algo que veremos más adelante
pero que básicamente consiste en utilizar procedimientos para comprobar que el mo-
delo está bien especificado. A estos efectos entenderemos que el modelo ARMA está
correctamente especificado si los residuos del modelo son compatibles con ruido blanco.
(13.7.1)
que es un proceso autorregresivo de parámetro unitario y cuya primera diferencia es estacio-
naria. Utilizando el operador de retardos B tenemos que
(13.7.2)
Los modelos AR!M A incorporan esta posibilidad, es decir, permiten incorporar un proceso
autorregresivo de parámetro unitario previo a la aplicación de los procesos ARMA.
Un proceso AR!M A (p, d, q) es un proceso integrado de orden d [I (d)] que combina ade-
más una parte autorregresiva de orden p [AR (p)] y una parte de medias móviles de orden
q [M A (q)]. Ya hemos visto ejemplos de estos modelos, en el Ejemplo 39 el logaritmo del
PIB en primeras diferencias es un AR(l) pero el logaritmo del PIB (sin diferencias) es un
11
AIC tiende a seleccionar órdenes ligeramente superiores que BIC. La bondad de BIC esencial reside en
que asintóticamente y bajo ciertas condiciones es un criterio de selección consistente, es decir, asintóticamente
selecciona los verdaderos p, q. Para tamaños muestrales discretos, AIC o HC son preferibles.
506 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
2
(1 - B) Wt = (1 + B 2 - 2B ) Wt = Wt + Wt -2 - 2Wt-1 = Zt.
En general, un modelo ARI M A (p, d, q) se escribe como
Cuando las observaciones de una serie tienen una periodicidad inferior al año, el compo-
nente estacional s puede ser muy importante 12 . En general, los procesos ARIM A se pueden
generalizar a los procesos SARIMA (o simplemente modelos ARIMA estacionales) sin más
que sustituir los desfases regulares i = 1, 2, 3, ... por los estacionales s = s, 2s, 3s, ... Además
los modelos estacionales presentan los mismos correlogramas que los modelos ARI M A no
estacionales pero considerando solo los retardos o desfases estacionales.
Así un modelo SAR (l) o un modelo AR (l) estacional tiene la forma Zt = <I>1 Zt-s +Et·
Un SAR (2)se escribe como Zt = <I>1 Zt-s + <I>2zt-2s +Et. Por lo tanto estos modelos tendrán
los mismos momentos y correlogramas que los AR (l) y AR (2) regulares, pero considerando
solo los retardos estacionales. Los procesos SAR presentan una FAT que decrece rápidamente
en los retardos estacionales de forma exponencial o sinusoidal indicando la naturaleza del
proceso. La FAP indica el orden del proceso SAR: un SAR (l) tiene un solo valor distinto de
cero en el primer retardo estacional s. Un SAR (2) tiene solo dos valores distintos de cero, s
y 2s, el resto serán nulos.
Lo mismo podemos decir del modelo SM A (l) o un modelo M A (l) estacional, que tiene
la forma Zt = 81Et-s + Et· Un SM A (2) se escribe como Zt = 81Et-s + 82 Et-2s + Et · Tienen
también los mismos momentos y correlogramas que los MA(l) y MA(2) pero considerando
solo los retardos estacionales. Los procesos SM A presentan una FAP que decrece rápidamente
en los retardos estacionales de forma exponencial o sinusoidal indicando la naturaleza del
12
Su valor es s = 2 cuando la serie es semestral; s = 4 si es trimestral; s = 12 si es mensual; s = 52 si es
semanal; y s = 365 si la serie tiene observaciones diarias.
Tema 13 507
proceso. La FAT indica el orden del proceso S M A: un S M A ( 1) tiene un solo valor distinto
de cero en el primer retardo estacional s. Un S M A (2) tiene solo dos valores distintos de
cero s y 2s, el restos serán nulos. Los procesos SARM A presentan también la misma forma
funcional y los mismos correlogramas que los procesos ARMA pero considerando solo los
desfases estacionales.
El modelo SARI M A (P, D , Q) es un proceso integrado de orden D estacional que se
combina con un proceso SAR(P) y un proceso SMA(Q).
Un modelo SARIMA (1, 1, 1) analíticamente es
(13 .8.1 )
Los modelos ARI M A regulares y los modelos SARI M A estacionales se pueden combinar
en modelos generales del tipo S ARI M A (p, d, q) (P. D, Q) 8 donde el componente d y D in-
dica el orden de integración regular y estacional I (d, D) , incluyendo también el componente
autorregresivo regular AR (p) y estacional SAR (P) y el componente medias móviles regular
MA(q) y estacional SMA(Q) .
Por ejemplo, un modelo SARI M A (1, 1, 1) (1, 1, 1) 8 analíticamente es
(13.8.2)
(13.8.3)
desarrollando el paréntesis tenemos que
(1 - B) (1 - B 8 ) Wt = (1 - B 8 - B + ss+l) Wt
(13.8.4)
= Wt - Wt -s - Wt-1 + Wt-s-1 = Zt.
Normalmente el procedimiento para ajustar los modelos SARI M A a una serie real consiste
en:
13.9.1. Identificación
En principio la identificación del proceso la podemos realizar comparando el correlograma
estimado (o muestral) con los correlogramas teóricos de los procesos ARMA en el orden
regular y estacional como hemos visto anteriormente. Sin embargo la tarea de identificar
el orden del proceso a partir del correlograma muestral es difícil. Por tanto, cuando no es
suficiente el análisis de correlograma para determinar el orden exacto del proceso (lo que
es habitual) , estimaremos sucesivamente distintas especificaciones y seleccionaremos
la que mejor ajuste, utilizando los criterios de Akaike (AIC) y / o de Schwarz (BIC) ya
comentados anteriormente, eligiendo aquel que presente un valor menor.
En general los modelos posibles suelen estar en el subconjunto p ~ 3, q ~ 2, P ~ 3, Q ~ 2.
También debemos determinar si la serie estacionaria Zt tiene media distinta de cero.
Para ello calculamos su media muestra! Z = r- 1 ¿f=
1 Zt y su desviación típica que puede
aproximarse por S (Z) e-::~ (1+2{Ji + 2fJ2 + ... + +2fJk) 112, donde Sz es la desviación típica
de la serie estacionaria, y donde estamos considerando que los retardos significativos son los
k primeros. Si IZI ;: :
28 (z), es decir si está alejada más de dos desviaciones típicas, entonces
la media del proceso estacionario se admitirá que es distinta de cero, y entonces debemos
incluir en la estimación de los procesos un término constante. Si por el contrario podemos
considerar que la media del proceso estacionario es nula entonces realizaremos la estimación
sin constante.
La estimación de los modelos ARMA regular y estacional se realiza por el método de
máxima verosimilitud exacta o condicionada que los programas especializados llevan a cabo
de forma rutinaria 13 .
13.9.2. Validación
Un modelo es validado cuando los residuos ft sean la imagen empírica de un proceso
ruido blanco. Concretamente ya dijimos que esto significa que el modelo está correctamente
especificado. Contamos con varias herramientas para realizar este diagnóstico. A parte del
contraste individual (uno a uno) de los valores estimados de la función de autocorrelación
total para desfases sucesivos en el sentido ya estudiado de que todos los valores deben ser no
significativos l.Dul < j;,
que ya hemos utilizado en otras fases , contamos con un contraste
global sobre los primeros k desfases de la función de autocorrelación total.
Es necesario este tipo de contraste porque cuando estamos contrastando un grupo elevado
de autocorrelaciones, algunas superarán el umbral anterior por puro azar a pesar de que los
13
No obstante en el apéndice del tema se ofrecen nociones mínimas de estimación.
Tema 13 509
verdaderos valores fueran nulos. El contraste global que nos permite evaluar que todos ellos
son nulos es el denominado estadístico Q de Ljung-Box. La lógica del contraste reside en que
si los residuos son ruido blanco, los coeficientes de autocorrelación total son asintóticamente
normales, con media mula y varianza (T - k)/T(T- 2) e::'. 1/T y esto permite derivar que
k ~2
que, bajo la hipótesis nula, Q se distribuye como una x2 con k - n grados de libertad, siendo
n igual al número de parámetros estimados. Es decir, n = p + q + P + Q + 1 si tiene término
constante o n = p + q + P + Q si no lo tiene. Si el valor muestral de Q excede al valor
crítico de la correspondiente x2 , entonces al menos un valor de la función de autocorrelación
considerada es estadísticamente distinto de cero.
Una limitación práctica y teórica de este popular contraste de diagnóstico de los residuos
es que está limitado a rastrear únicamente estructuras lineales en los residuos. Esto es así
puesto que utiliza o se basa en funciones de autocorrelación, que por definición son lineales.
Existen varias alternativas que resultan eficaces tanto para estructuras lineales como no linea-
les. Concretamente el estadístico BDS de Brock et al. (1996), basado en el concepto de integral
de correlación, y el estadístico X de Matilla-García (2007) o el G de Matilla-García y Ruiz
(2008), basados en la entropía de permutación, son posiblemente los contrastes alternativos
más potentes actualmente registrados.
13.10. PREDICCIÓN
(13.10.1)
como el error de predicción es una variable aleatoria, el objetivo que nos plantemos es mini-
mizar el error esperado.
El cálculo de la predicción lo podemos obtener de forma iterativa a partir de un proceso
general ARMA (p, q)
Zt =e+ r/>1 Zt-l + ... + r/>pZt-p +Et - e1 Et-l - ... - eqEt-q, (13.10.2)
(13.10.3)
510 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
JE (zt+ 1 ZT)
zt+ 1 = 1
=JE (e+ <P1Zt + ... + </>pZt-p+I + Et+l - B1Et - ... - BqEt-q+1) (13.10.4)
=e+ <P1Zt + ... + </>pZt-p+1 - B1Et - ... - BqEt-q+l,
donde JE (Et+1) =O.
La predicción en el horizonte t + 2 es ,
Zt+2 = JE (Zt+2 ZT ) 1
= JE (e+ </>1Zt+1 + ... + </>pZt-p+2 + Et+2 - B1Et+1 - B2Et - ... - BqEt-q+2) (13.10.5)
=e+ </>1Zt+l + ... + </>pZt-p+2 - B2Et - ... - BqEt-q+2 ,
donde perdemos el componente Et+2 - B1Et+l al sustituir los valores desconocidos de Et+2 y
Et+i por sus valores esperados nulos. Por consiguiente para un horizonte de predicción h > q
se pierde el componente de medias móviles,
(13.10.6)
U na vez que disponemos d~la predicción de la serie estacionaria podemos calcular la
predicción de la serie en niveles Wt+h deshaciendo los cambios, es decir , si la serie es integrada
de orden 2 y hemos obtenido las predicciones Zt+h, .. ., Zt+l de forma iterativa, tenemos que
la predicción en niveles es
(13.10.7)
donde -
wt+h-1 y -
wt+h-2 los hemos calculado previamente.
=JE [e ( 1 + 4>1 + ... + 4>~-l) + <P? Zt + ( Et+h + </>1ft+h-1 + ... + 4>~- 1 ft+l) J
= e ( 1 + </>1 + ... + </>~- l) + <t>? Zt;
el error de la predicción
cuya varianza es
Var (Et+h + </>1ft+h-l + ... + 4>~- 1 Et+1) = (}; (1 + </>f + ... + <Pi·(h-l)),
~ ( 1 + </>1Et+h-l
2 12
y el intervalo de confianza, Zt+h ± 1, 96·(}¡; + ... + </>12·(h-1) ) / ·
De esta manera la predicción para h 2 1 es Zt+h = e ( 1 + </>1 + ... + <Dq) + <P? Zt. A medida
que el horizonte de predicción aumenta <P? Zt converge a cero por la condición de estacionaridad
l4>1I < 1ye(1+ 4>1 + ... + <t>?) es una progresión geométrica que converge a e/ (1 - 4>1), que
es la media del proceso Z. En definitiva, cuando h---+ oo, la predicción es la media del proceso
estacionario. La varianza del error de predicción también converge, por las mismas razones, a
(}; / ( 1 - <t>f) .
512 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
~
y el intervalo de confianza es Zt+2 ± 1, 96·<T€ [1 + (</>1 - 01) 2] 1/2.
La predicción en general de t + h para h 2: 1 es
= JE[c ( 1 + </>1 + ... + </J~- 1 ) + <P? Zt - 01 ( Et+h-1 + </>1Et+h-2 + ... + <P~- 1 Et)
+ (Et+h + </J1Et+h-1 + ... + </J~-lét)l
=e ( 1 + </>1 + ... + </J~-l) + <P? Zt - 01</Jh-lEt·
En el límite h --+ oo los sumandos fuera del paréntesis son nulos si tenemos en cuenta la
condición de estacionaridad l</>11 < 1 y de invertibilidad I011 < 1 y la suma entre paréntesis
converge a la media e/ (1 - </>1).
El error de la predicción es
cuya varianza es
514 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
2
(}'€2 [1 + ( </>1 - fh )2 + ( </> 21 - B1</>1 )2 + ... + ( </> 1h-1 - B1cp h-2)
1 ] ,
y sus valores entre paréntesis disminuyen de forma geométrica, de manera que en el límite
h --+ oo la varianza converge a una constante.
Afortunadamente las predicciones así como los intervalos de confianza de los modelos
ARI M A en general los calculan de forma rutinaria los programas especializados.
Veamos unos ejemplos para repasar todo lo analizado en el tema.
si
¿Es estaciona ria?
no
si
Restaurar la no estacionaridad
no
si
Analizaremos las variables del paro en España durante los últimos 27 años (hasta diciembre de
2009, es decir, estimaremos el modelo ARIMA entre enero 1982 y diciembre de 2009 y haremos una
Tema 13 515
Figura 13 .10.3 : Paro registrado 1982 - 2009 , primera diferencia regular y estacional
predicción para 2010) . La actualidad del tema es evidente , la coyuntura económica muestra una
actividad económica caracterizada por una grave crisis del sector financiero internacional que en
España se ha manifestado esencialmente en una fuerte crisis de liquidez. El panorama nacional se
agrava con el fuerte endeudamiento de las familias y las empresas y del Estado . Tradicionalmente
se ha utilizado el paro y el empleo registrado . Pero act ual mente se utiliza la Encuesta de Población
Activa (EPA) por su mayor cal idad . Aquí utilizaremos no obstante las fuentes de la Seguridad Social
(paro registrado en la Seguridad Social) que tienen la ventaja de tener periodicidad mensual.
La Figura 13.10.2 muestra el paro registrado entre enero de 1982 y diciembre de 2009 , donde
podemos apreciar ciclos como el crecimiento del paro en la primera mitad de los ochenta (crisis
del petróleo) , la crisis del 93 y la actual. Vemos que la serie no es estacionaria en media puesto
que no se mantiene estable en el tiempo. También se aprecia un comportamiento estacional. En
consecuencia probamos si la diferencia regular y estacional es estacionaria en media y en varianza
(6.6. 12 paro). La serie transformada se muestra en la Figura 13 .10.3.
El gráfico muestra una serie estacionaria en med ia y aparentemente también con variabilidad
constante. Aparecen dos observaciones atípicas, en enero de 1996 y enero de 1997, valores que
516 MODELOS ESTACIO!\ARIOS DE SERIES TEMPORALES
estacional. La parte regular (primeros 11 retardos) resulta difícil de interpretar y después de es-
timar iterativamente distintos modelos elegimos el que mejor ajusta según el criterio de Akaike
(el que presenta menor valor) . Finalmente elegimos el modelo SARI M A (2, 1, O) (O, 1, l)i 2 cuya
estimación es
donde todos lo parámetros son significativos . Para validar el modelo reproducimos el correlograma
de los residuos de la estimación en la Figura 13.10.5.
Las dos últimas columnas del correlograma muestran el valor del estadístico Ljung-Box y su
p-valor. Para 36 desfases el p-valor del contraste es 0,246, de manera que no podemos rechazar la
hipótesis de ruido blanco a los niveles usuales. Concluimos en consecuencia que los residuos son la
imagen empírica de un proceso ruido blanco y el modelo queda validado.
La predicción la podemos calcular iterativamente a partir de la expresión (13.10.8) . La Figura
518 MODELOS ESTACIO NA RIOS DE SERIES TEMPORALES
Figura 13.10.6: Predicción desempleo registrado del año 2010 , SARIM A (2, 1, 0) (0, 1, l )i 2
4 600 000
1-- •2SE 1
4 400 000
4 100 000
4 050 000
4 000 000
M1 M2 MJ M4 M5 M6 M7 MB M9 M10 Ml 1 M12
2010
13.10.6 muestra la predicción del paro para 2010 y sus respectivos intervalos de confianza , con un
nivel de paro aproxi madamente estable en torno a los cuatro millones de parados.
La Figura 13.10.7 muestra el gráfico de la predicción del paro y el paro realmente registrado
en 2010.
12 (Y:º - ~º) 2
y/ 12- 1 .._...
L.. t = l t t
u = ---~---------,====== =o, 0081,
J 12- 1 ¿;:l (~º) + 12- 1 ¿;:1 (~0 )2
2
donde JE (et IYí:- 1 , Yí:-2, ... , Xt_ 1 , Xt-2 , ... ) = O. Esto último indica que las longitudes de los
retardos p y q son las verdaderas longitudes, y que los coeficientes de retardos adicionales
son poblacionalmente nulos. Es decir, ningún otro retardo de los especificados pertenece al
modelo ARD.
El modelo ARD(p,q) tiene una parte autorregresiva de orden p, e incorpora para mejorar la
predicción una variable predictora X retardada de orden q. Sin embargo podríamos incorporar
más variables predictoras. En tal caso el modelo general sería el que denominamos modelo de
regresión de series temporales con varios predictores.
La interpretación de los supuestos es la siguiente y la hacemos en relación con las supo-
siciones que configuran los supuestos del modelo clásico de regresión previsto en la sección
6.1. El primer supuesto ya lo hemos explicado anteriormente en esta Sección, no obstante
subrayamos ahora que la esperanza condicionada nula indica que el mejor predictor es el que
propiamente indica el modelo de regresión planteado. Si comparamos la suposiciones 2 y 3
con la Expresión (4.1.7) y especialmente con la versión adaptada para series temporales (ver
Sección 4.1 , supuesto 3), podemos comprobar que por un lado se requiere que la distribución
conjunta de las variables, incluyendo retardos, no cambie con el tiempo, y por otro que las
variables tiendan a comportarse como si fueran independientemente distribuidas cuando están
bastante separadas en el tiempo. El cuarto y quinto supuestos son similares a sus homólogos
de sección cruzada y series temporales.
En caso de que no se cumpliera la condición 2, es decir, si las variables fueran no esta-
cionarias, entonces la regresión de series temporales con varios predictores podría dar una
predicción sesgada e incluso ineficiente y la inferencia estadística basada en la estimación
MCO convencional podría resultar engañosa. Este último aspecto sería fácilmente superable
utilizando los errores estándar HAC que hemos presentado en temas anteriores.
520 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
(13.11.1)
i. JE (Et IYt-1, Yt-2, ... , Xit-1, Xit-2, ... , xkt-1, xkt-2, ... ) =o.
2. Las variables aleatorias (Yt, Xit, ... , Xkt) presentan una distribución
estacionaria.
3. (Yt, Xit, ... , Xkt) y (rt-j, Xit-j, ... , Xkt-j) se hacen independientes a
medida que j aumenta.
4. Las variables yt, Xit, ... , X kt tienen momentos de orden cuatro finitos
y distintos de cero.
porque sería posible construir distribuciones conjuntas diferentes de tal manera que todas ellas
tuvieran distribuciones marginales normales. Si hacemos que estas distribuciones construidas
vayan cambiando con t, entonces la condición de estacionaridad no se preservaría, pese a que
la normalidad marginal sí lo haría.
Este ejemplo pone de manifiesto que la estacionaridad al aplicarse a la distribución con-
junta, y no solo a las marginales, es una condición más fuerte que la de distribución idéntica.
Por otra parte, la estacionaridad es más débil que el supuesto iid, dado que las sucesiones iid
son estacionarias, pero las sucesiones estacionarias no necesitan ser independientes.
Las leyes de los grandes números utilizan, en algunos casos, el supuesto de muestreo
aleatorio simple por lo que la condición de iid está garantizada. Sin embargo, esto no sucede
para procesos temporales en los que iid no se puede garantizar. En este marco cabe la pregunta
de si es posible sustituir la condición de iid por la condición de estacionaridad.
El siguiente ejemplo muestra que desafortunadamente esto no es posible en general. Consi-
deremos la sucesión {lt} formada a partir de observaciones del proceso yt = Z +ut donde Z es
N(O, 1), y Ut es una sucesión iid de variables aleatorias uniformemente [0,1] distribuidas e in-
dependientes de Z. En este caso, el proceso es estacionario. La esperanza (media poblacional)
del proceso es 1/ 2, pero la media muestra! (temporal),
es una variable aleatoria y no una constante. Esto sucede porque hay mucha dependencia en
la sucesión. La dependencia procede del gran peso que tiene el valor inicial Y1 en la evaluación
del proceso, como resultado del componente común Z. Esto hace que la correlación entre Y1
e yt sea muy fuerte (para una realización) con independencia de lo lejano que pueda estar t.
Para conseguir que la media muestra! (temporal) converja hacia la esperanza del proceso es
necesario eliminar dependencia del proceso. Eso es justamente lo que se logra con la condición
que hemos expuesto anteriormente de ergodicidad. Esto es, si el proceso (serie o sucesión)
es estacionario y ergódico entonces la Ley de los grandes números, conocida por teorema
ergódico, para procesos de series temporales es la siguiente:
Teorema 42. Sea { Zt} una serie (sucesión) estacionaria y ergódica con
JE ( Zt) < oo. Entonces Zt ~· JE (Zt).
Este teorema ergódico para que se pueda aplicar requiere saber cuándo una serie es er-
gódica y saber si transformaciones (funciones) habituales de un serie preservan el resultado.
Respecto a lo primero, cabe decir que las condiciones para que sea ergódico en media ya
han sido expuestas en la Ecuación (13.2.4). En particular, los procesos ARMA satisfacen la
condición necesaria para la ergodicidad
00
L ll'Ji <OO.
j=l
522 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
Respecto a lo segundo, hay que señalar que siempre que la función sea medible , concepto que
transciende el nivel de este libro, entonces una transformación de este tipo preserva la ergo-
dicidad. En particular, las transformaciones a las que habitualmente sometemos a las serie
son funciones medibles. Más incluso , estos resultados son aplicables inmediatamente al caso
vectorial. De esta manera, cuando al aplicar los métodos de MCO y VI (MC2E) estudiamo
propiedades estadísticas, necesariamente incorporamos vectores de series temporales, Xt de
orden k x 1, tenemos garantizado que las transformaciones {Xtxa,{Xtet},{Ztxa,{Ztet}, y
{Ztza formadas a partir de una serie {Z~, Xt, et} estacionaria y ergódica, son realmente esta-
cionarias y ergódicas, y por tanto podemos aplicar los resultados que se fundamentaban en las
leyes de grandes números también ahora para observaciones dependientes, pero idénticamente
distribuidas.
Le= e
LPyt = Yt-p,
Lº -- 1'
L -1 Yt = Yt+l·
Podemos operar con L como si de cualquier otra cantidad algebraica se tratara:
Yt-Yt-1 = (1-L)yt,
14
Habitualmente este operador se denota con la letra L, que proviene del inglés Lag. También es posible que
se denote con la letra B, que a su vez proviene también del término anglosajón Backwards. Efectivamente, en
la exposición principal que hemos hecho anteriormente hemos utilizado la expresión en B, mientras que ahora
lo haremos con la L. Igualmente, en este apénd ice vamos a referirnos al proceso dinámico por Yt, sugiriendo
con ello que las propiedades de los operadores presentados son aplicables a todo proceso dinámico, y no solo
a los referidos en la exposición principal.
Tema 13 523
2
Yt - Yt-1 - Yt-2 = (1 - L - L ) Yt·
Si consideramos, por ejemplo, una constante, a , el operador funciona algebraicamente
como esperamos
Yt - ªYt-1 = (1 - a L) Yt,
Por otra parte recordemos que un resultado básico de las progresiones geométricas es que para
lal < 1, la suma de infinitos términos
1
(l+aL+a 2 L 2 +a3 L 3 + ... ) = - - (13.12.1)
1- aL'
y por tanto
o alternativamente
Yt f
J=Ü
1
aj L j = Yt ( l _ aL) ·
Si a partir de estas últimas expresiones, que son correctas para !al < 1, operamos tenemos
que nos permite pensar en que la suma infinita (1 + a L + a 2 L 2 + a 3 L 3 + ... ) aproxima (tanto
como deseemos) la inversa del operador (1 - aL) cuando este es aplicado sobre una sucesión
{yt}. Esto es
(1 - aL)- 1 (1 - aL) = 1
que para un operador en forma de polinomio en términos del operador retardo, a(L ), significa
la existencia de un polinomio de grado infinito, a(L)- 1 , tal que
Cuando dicho polinomio, a(L)- 1 , existe, decimos que el polinomio a(L) es invertible. En el
caso particular del polinomio a(L) = (1 - aL), siempre que lal < 1, entonces será invertible.
Podemos observar también que como polinomio de primer grado de la forma ( 1 - az), tiene
una raíz que es z = z 1 = 1/a, y por tanto, será un polinomio invertible siempre que la raíz
z1 = 1/a sea mayor a la unidad, lo cual es equivalente a decir que lal < l.
Estas propiedades del operador L son lógicamente aplicables a ecuaciones en diferencias
de orden 2. Consideremos Yt = a1Yt-1 + a2Yt-2 que se reescribe con el operador retardo del
siguiente modo
524 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
Esta expresión contiene un polinomio de segundo grado en términos del operador retardo
L, a(L) = (1 - a1L - a2L 2). Podemos factorizar dicho polinomio
siendo >.1 y >.2 las raíces del polinomio de segundo grado. Si comparamos los lados derecho e
izquierdo de esta expresión, tenemos que
Para saber las raíces de un polinomio en términos del operador retardo , L, podemos
considerar un polinomio en términos de un escalar, z, en lugar de estar en términos de un
operador:
(1 - a1z - a2z 2) = (1 - >.1z) (1 - >.2z).
Es evidente que los valores z = 1/>. 1 o z = l/>.2 son raíces del polinomio (1- a1z - a2z 2),
es decir, valores que toma z y que hacen cero el valor de la función polinómica. Por tanto,
cuando z = z1 = 1/ >.1 o z = z2 = 1/ >.2, podemos obtener los valores de >.i, >.2 simplemente
aplicando la fórmula de las ecuaciones de segundo grado (en este caso):
y despejando, Ai = 1/ Zi.
La factorización del polinomio a(L) = (1 - a1L - a2L 2) nos facilita, al igual que anterior-
mente con el polinomio de grado 1, estudiar cuándo éste es invertible. Para comprobarlo sim-
plemente multiplicamos la ecuación a(L) = (1 - a1L - a2L 2) por (1 - >.1L)- 1 (1 - >.2L) - 1:
de donde comprobamos que a (L)- 1 = (1 - >.1L)- 1 (1 - .A2L)- 1. Para que este polinomio esté
bien definido es necesario verificar que las inversas (las sumas infinitas):
están correctamente definidas, es decir, que sean finitas. En concreto, operando se tiene
~ ~ (t.AÍA;-;) Lk
Tema 13 525
Como hemos visto en (13.12.1), cada una de estas sumas es convergente si l..\11 < 1 y
l..\21 < 1, o lo que es lo mismo si las raíces del polinomio a(L) = (1 - a1L - a2L 2) son
mayores a la unidad, lz11 > 1, lz2I > 1, toda vez que z1 = 1/ ..\1 y z2 = 1/ ..\2 . Por tanto,
podemos concluir que la invertibilidad del polinomio require que las raíces sean mayores, en
valor absoluto, a la unidad.
Estos resultados se pueden ampliar para polinomios de grado superior a dos, representa-
tivos de ecuaciones en diferencias de orden superior. Así, el polinomio característico de orden
p factoriza del siguiente modo:
son mayores, en términos absolutos, a la unidad. Recordemos que algunas de las raíces de un
polinomio pueden ser complejas, ZiE e, es decir, pueden ser de la forma
z =a+ bi.
En tal caso, el requisito de invertibilidad es que
llzll = Ja 2 + b2 > 1,
que geométricamente implica que la raíz Zi tenga un módulo mayor a la circunferencia de
radio 1, por lo que en muchas ocasiones decimos que la raíces del polinomio retardo deben
estar fuera del círculo unidad.
Yt = <f>Yt-l + ~t
</>(L)Yt = ét .
donde ét es un ruido blanco con media cero y varianza constante, y </>(L) = 1 - <f>L es el
polinomio retardo y como hemos visto anteriormente será invertible si 11/</>I > 1, o de forma
equivalente si l</>I < 1.
A partir de la expresión </>(L)Yt = Et , siempre que el polinomio </>(L) sea invertible, es
decir esté bien definido </>( L )- 1 , y utilizando las propiedades de la sección anterior, podemos
reescribir el modelo AR(l) de la siguiente manera
esto es:
526 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
que es un MA(oo), y podremos decir que hemos invertido un modelo AR(l) en un MA(oo).
La equivalencia entre un AR(l) y un MA(oo), que combina linealmente las variables
obtenidas de un proceso de ruido blanco, nos permite comprobar que el modelo AR(l) es
estacionario siempre que la variable ét sea estacionaria (el ruido blanco lo es) y el polinomio
sea invertible.
¿Qué sucedería si e/> = 1 o e/> = -1? En cualquiera de estos dos casos sucede que la raíz
del polinomio es la unidad (raíz unitaria) , y la suma infinita no convergería. Estos casos son
especialmente relevantes hasta el punto de que ha generado lo que se denomina comúnmente
econometría de las raíces unitarias, y por tanto su tratamiento se hará dentro de otro contexto
más adelante.
Finalmente podemos observar que la suma tampoco es convergente si [e/>[ > l. Además.
en este caso particular, los efectos de los shocks irían acumulándose y cuanto más lejano
estuvieran en el pasado mayor peso tendrían para explicar el presente, lo que sin duda no
guarda lógica dentro de procesos económicos, como ya hemos indicado anteriormente en el
texto.
Observemos también algo relacionado con el comentario previo. Siempre podemos expresar
el modelo de la manera siguiente
1 1
Yt = cf>Yt-1 +Et {:=:::} Yt-1 = ;j;Yt - ;j;E:t·
En esta nueva expresión (reparametrizada) del modelo podemos invertir la expresión repara-
metrizada AR(l) utilizando el operador adelantado (inverso al operador retardo) F = L- 1 :
1 1
Yt 1 = -yt - -t:t
- e/> e/>
1 1
Yt-1 = ;j; FYt-1 - ;j;E:t
Yt = - ( 1 - ;j; F
1 )-l 1
;j;Et+l
Yt = - Lcf>-í t:t+í·
j=l
Donde se observa que el modelo es un MA de orden infinito, pero que nos indica que los
valores de Yt dependen (son causados) de (por) los shocks o innovaciones futuras , lo cual
Tema 13 527
no es lógico ni operativo pues siempre serán desconocidos. En ocasiones se dice que estos
modelos autorregresivos con l</>I > 1 son, por estos motivos y dentro del contexto de las series
temporales, no-causales. En la modelización econométrica estamos, sin embargo, interesados
en modelos que guarden lógica y por ello nos interesan los modelos en los que los shocks
pasados expliquen el presente, es decir, en este caso modelos AR(l) con l</>I < l.
Del mismo modo que sucede con el modelo AR(l), ocurre con el modelo AR(p):
donde q)(L) = 1 - </>1L - </>2L 2 - ... - q)pLP. Ahora el proceso lo podremos escribir como
siempre que el operador inverso de q)(L) esté definido. Tal y como vimos en el apartado anterior
esto sucede cuando las raíces del polinomio </>( L) están fuera del círculo unidad.
Tenemos por tanto condiciones que nos permiten invertir un modelo AR(p) en un MA
de orden infinito , por lo que podemos representar un mismo modelo de más de una forma.
En ocasiones será más conveniente una que otra. La representación en términos de un MA
hace hincapié en los shocks externos, Et-j a los que se vio sometido el proceso estudiado,
mientras que la representación AR enfatiza que el nivel de la variable Yt viene en buena
medida determinado por lo que pasó en periodos anteriores relativamente cercanos a t. Estas
observaciones nos conducen a realizarnos la pregunta inversa siguiente: ¿podremos también
encontrar una representación en términos de AR de un MA(q)?, esto es ¿podremos invertir
un MA en un AR? Sabemos que la respuesta es positiva (como hemos visto en la exposición
principal del tema), sin embargo abundaremos más sobre esta relevante cuestión.
Para ello consideremos un MA(1) 15
Yt = Et + 0Et-1
Yt = (1 + OL) Et
Yt =o (L) Et,
donde de nuevo recordemos que estamos combinando linealmente dos procesos estacionarios,
y por tanto será siempre estacionario, siendo un hecho claramente diferenciador respecto de
un proceso AR.
El proceso MA(l) es invertible a un proceso AR(oo) si existiera un polinomio (1 + OL)- 1
tal que
que está correctamente definido siempre que el parámetro JBI < l. Por este motivo para que
un MA(l) sea invertible es necesario que el parámetro satisfaga la restricción señalada.
Ahora es fácil comprobar que un MA(l) se puede expresar también como un AR(oo):
00
La condición de invertibilidad de un MA (l) , JBI < 1, implica que los shocks (innovaciones
pasados tienen menos peso en la formación del valor actual de la variable, Yt, que el shock
(innovación) presente, Et, y lo podemos observar simplemente a partir de Yt = Et + BEt- 1
Igualmente, la invertibilidad implica que en los modelos invertibles el peso de los valores
pasados que tome la variable y decrece a medida que nos alejamos en el tiempo si pretendemo
explicar o conocer el valor de Et (no-observable) a partir de valores pasados (observables) de
y, pues (1 - BL + 82 L 2 - () 3L 3 + ... ) Yt·
En general, un MA(q)
Yt = () (L) Et,
Yt = (1 + B1L + B2L 2 + ... + BqLª) Et,
será invertible si las raíces del polinomio asociado
están fuera del círculo unidad, y por tant o podremos representar el modelo MA( q) como un
AR(oo)
(1 + r¡1L + r¡2L 2 + r¡3L 3 + ... ) Yt =Et,
() (L)- 1 Yt = Et ·
Finalmente, un proceso ARMA(p,q) se puede reescribir, de manera equivalente a como
vimos en el tema dedicado a estos modelos y utilizando como operador de retardos L , que es
idéntico por definición a usar B:
</J (L) Yt = () (L) Et
donde() (L) = (1 + B1L + B2L 2 + ... + BqLª) y <jJ(L) = (1 - </J1L - </J2L 2 - ... - </JpLP).
El proceso será invertible si podemos reescribirlo como
Yt = </J (L )- 1 () ( L) Et
l+OL (l-c/JL)'l/;(L)
(1- c/JL) ('!/Jo+ 'l/;1L + 'l/;2L 2 + ... )
= '!/Jo + ('l/;1 - c/J'l/Jo) L + ('l/;2 - c/J'l/;1) L 2 + .. .,
o= ('l/;1 - c/J'l/Jo)
o= ('l/;j - c/J'l/Jj-1) ,j ~ 2.
Yt = E:t ·
que es un ARMA(l ,1) con cfJ 1 =a, 01 =-a. Lógicamente sería redundante y confuso estimar
a cuando en realidad se trata de un proceso de ruido blanco. Además esto nos sugiere que
si estamos estimando un ARMA(l,1) y los valores de los coeficientes estimados son tales que
-c/J 1 está cerca de 01 (es decir, las raíces de los polinomios son prácticamente iguales), tal
vez sea una buena idea considerar que se trate de ruido blanco. Observemos también que en
el caso particular que estamos viendo, los polinomios c/J(L) y cfJ( L) están compartiendo una
misma raíz (la única, digamos, >.), y podríamos obviamente dividir ambos polinomios cfJ(L)
y cfJ (L) factorizados por el factor (1 - >.L) y resultaría un polinomio de un grado menor (al
compartir una raíz), en este caso, de orden cero.
En términos más generales se tiene que si los polinomios cfJ(L) y cfJ(L) asociados a una re-
presentación ARMA(p,q) comparten una raíz (tienen una raíz común), el proceso se simplifica
en un ARMA(p-l ,q-1).
Hemos visto en esta sección que en la medida en que los procesos son invertibles podemos
aproximar con bastante precisión muchos procesos estacionarios tanto con modelos ARMA ,
MA y AR. Es posible que en algunos casos necesitemos un número elevado de retardos, incluso
infinitos, especialmente si se trata de MA o de AR, pero en todo caso podríamos realizar la
aproximación de tal manera que una función de autocovarianza determinada fuera aproximada
por la función de autocovarianza de uno de estos procesos.
530 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
EJERCICIOS
Teóricos
1. Calcule la varianza de la media muestra! temporal Z donde el proceso estocástico es
Z 1 = Z2 = Z3 = ... = Zr siendo Zt una variable aleatoria de media poblacional nula,
varianza constante y covarianza 'Yn ='YO· ¿Se t rata de un proceso ergódico, estacionario,
o ambas cosas?
2. Considere el proceso AR(2) dado por Yt = Yt-1 - 0,5Yt-2 + Ut, ¿es este un proceso
estacionario? Si lo es, ¿cuál es la función de autocorrelación?
5. Determine las funciones de autocorrelación total y parcial del proceso estocástico del
ejercicio anterior.
Prácticos
8. A partir de muestras de 100 observaciones se han obtenido los correlogramas que se
muestran en la Tabla 13.2. Indique cuál es el PGD más probable en cada uno de los
casos.
9. Los valores del índice Standard and Poors 500 correspondientes al periodo 1990m01-
2003ml2 se recogen en la tabla ET13 1, expresados en logaritmos .
10. La tabla ET13 2 contiene los datos de pasajeros de líneas aéreas por meses.
a) Compruebe que dicha serie muestra una fuerte estacionalidad y utilice algún pro-
cedimiento para obtener una serie desestacionalizada.
b) Sobre cada una de las dos series anteriores lleve a cabo un contraste de raíces
unitarias. ¿Puede alguna de ellas considerarse estacionaria en base a los resultados
de este contraste?
e) En función de los resultados del apartado anterior, emplee las transformaciones
necesarias para obtener series que sean estacionarias.
d) Utilice el periodo 1988m01-1996m06 y trate de identificar, estimar y validar un
modelo apropiado tanto para la serie desestacionalizada como para la original.
e) Utilice los modelos anteriores para llevar a cabo pronósticos sobre la evolución de
los pasajeros en los seis meses siguientes y compárelos con los resultados verdade-
ramente observados.
11. Utilice el ordenador para simular una serie mensual para el periodo 1980q01-2010q04
que responda al siguiente modelo ARIMA
(1 - 0,5B).6.6 4 Yt = (1 + 0,4B)Et
con var(Et) = 4.
b) Utilizando el modelo estimado, pronostique por punto y por intervalo los valores
de y para el año siguiente.
e) Compare los pronósticos con los valores conocidos y evalúe los errores.
12. La tabla ET13 _ 3 contiene algunas de las principales series macroeconómicas referidas
a la economía española. Utilice la metodología ARIMA para analizarlas.
Tema 14
COMPONENTES TEMPORALES Y
ALISADO EXPONENCIAL
Dentro del análisis univariante de series temporales podemos distinguir dos grandes apro-
ximaciones metodológicas: los modelos de componentes no observados y los modelos ARIMA.
Los modelos ARIMA los vimos en el tema anterior. Son modelos paramétricos en los que
se obtiene la representación de la variable en términos de su interrelación temporal. El instru-
mento básico, como vimos, es el coeficiente de autocorrelación que mide el grado de asociación
lineal entre observaciones en distintos momentos de tiempo. Además la comprensión de los
modelos ARI MA resulta útil para entender mejor los modelos dinámicos que estudiaremos en
temas posteriores.
Los modelos de componentes inobservables se basan en la idea de que una serie temporal
se puede considerar como la superposición de componentes no observables. Dentro de los
modelos de componentes no observados se encuentra el suavizado o alisado exponencial que
abordaremos en este tema y el análisis espectral que trataremos en un tema posterior.
• Tendencia (T). En general diremos que existe tendencia cuando hay un aumento o
disminución a largo plazo en los datos de la serie temporal. La tendencia puede ser
lineal o no. También el componente tendencia! puede cambiar de dirección pasando de
creciente a decreciente (o viceversa) en una misma serie de tiempo.
• Estacional (S). Decimos que existe un patrón estacional cuando en una serie de tiempo ,
con periodicidad inferior al año, intervienen factores estacionales (es decir, la influencia
535
536 COMPONENTES TE!\IPORALES Y ALISADO EXPONENCIAL
de factores climatológicos o culturales: como las estaciones del año, las fiestas navideñas,
las vacaciones, los horarios comerciales. etc.). La estacionalidad es siempre de periodo
fijo y conocido (se repite cada año).
• Cíclico ( C). Existe un componente cíclico cuando las oscilaciones (elevaciones y caídas)
de las observaciones no son de duración determinada, como ocurre con las variaciones
estacionales. La duración de estas fluctuaciones son usualmente superiores al año. En
ocasiones se confunde el comportamiento cíclico con el estacional; si las fl.uctuacione
no son de periodo fijo, entonces el componente es cíclico; si el periodo es inmutable y
se asocia con algún aspecto del calendario, entonces el patrón es estacional. En general.
la longitud promedio del ciclo es de mayor longitud que en el patrón estacional, y
la magnitud de los ciclos tiende a ser más variable que la magnitud de los patrones
estacionales.
(14.1.:
y si el esquema es multiplicativo lo expresamos como
(14.l.~
k
' = -1 """
Tt L.,, Yt+i, donde m = 2k + 1. (14.1.4)
m
i=-k
1980 19724,00000
1981 18487,00000 18914,00000
1982 18531 ,00000 18314,66667
1983 17926,00000 17565,00000
1984 16238,00000 16902,66667 18732,74444
1985 16544,00000 17006,46667 19432,91778
1986 18237,40000 18339,46667 20553,42444
1987 20237 ,00000 20381 ,56667 21694 ,11667
1988 22670,30000 22977 ,62000 22596 ,89556
1989 26025,56000 25755,80667 23319,45444
1990 28571,56000 27798,11667 24152 ,09778
1991 28797 ,23000 27806 ,60000 24954 ,42333
1992 26051 ,01000 25863,09000 25453 ,30778
1993 22741 ,03000 24276 ,61000 25911 ,56333
1994 24037 ,79000 24079,05000 26463 ,17778
1995 25458,33000 24741 ,02667 27136 ,00222
1996 24726 ,96000 25659 ,96333 28207 ,27000
1997 26794,60000 27503 ,88333 29996 ,11111
1998 30990,09000 30803,89000 32371,53222
1999 34626,98000 34685,23667 34836,58222
2000 38438,64000 38405,40000 37341 ,55778
2001 42150,58000 41569,68000 40317.41111
2002 44119,82000 44164 ,54667
2003 46223 ,24000 46115,39000
2004 48003,1 1000 48578 ,66333
2005 51509,64000
¡- cementos j ¡ -e.me o~ 1
50.000 --- 3-MA 50.000 --- 9-MA
45.000 45.000
25.000
25.000
00 ~ M ~ ~ 00 ~ M 00 00 00 ~ ~
"""'' Aa>os
Observamos en los gráficos cómo la tendencia (en trazo discontinuo) es más suave que
la serie original y captura el movimiento principal de la serie, sin las fluctuaciones de menor
importancia. Con el método del promedio móvil centrado perdemos datos en los extremos de
la serie. Más adelante veremos que hay métodos más sofisticados que nos permiten estimarla
sin perder información.
El orden de la media móvil, m, determina la suavidad de la estimación. En general, un
orden mayor implica una curva más suave. En el gráfico se ve cómo la media móvil de nueve
años es más suavizada que la de tres.
Los promedios móviles simples son de orden impar. De esta forma conseguimos que sean
simétricos en su punto medio t: en un promedio móvil de orden impar m = 2k + 1, hay k
observaciones anteriores, y k posteriores a la observación que se promedia, t. Pero si m fuera
par, la media ya no sería simétrica como hemos visto anteriormente.
Para realizar medias móviles centradas de orden par tenemos que aplicar una media móvil
a la media móvil centrada. Por ejemplo, en la Tabla 14.2 mostramos el procedimiento para la
Tema 14 539
serie de personas ocupadas en España (en miles), con periodicidad trimestral. Realizamos un
promedio móvil centrado de orden 4 y aplicamos otro promedio móvil de orden 2 a la media
móvil calculada en el paso anterior.
200801 20620.00000
200802 20646. 90000 20469,65000
200803 20556,40000 20135,75000 20302 ,70000
200804 20055,30000 19762,57500 19949,16250
200901 19284.40000 19398,07500 19580,32500
200902 19154,20000 19106,85000 19252 .46250
200903 19098,40000 18948,97500 19027,91250
200904 18890,40000 18848 ,20000 18898,58750
201001 18652,90000 18778,35000 18813,27500
201002 18751 ,10000 18724,47500 18751 ,41250
201003 18819,00000 18667 ,80000 18696,13750
201004 18674,90000 18635.52500 18651 ,66250
201101 18426,20000 18551 ,90000 18593,71250
201102 18622,00000 18421 ,42500 18486,66250
201103 18484,50000 18256,15000 18338,78750
201104 18153,00000 18040,27500 18148,21250
201201 17765,10000 17836,07500 17938,17500
201202 17758,50000 17632,67500 17734.37500
201203 17667,70000 17448,95000 17540,81250
201204 17339,40000 17299.47500 17374,21250
201301 17030 ,20000 17190,05000 17244,76250
201302 17160,60000 17139,00000 17164,52500
201303 17230,00000
201304 17135,20000
11 1
+ rt-1 + rt + rt+1) + 4(rt-1 + Yt + Yt+1 + Yt+2)].
A
Tt = 2[4(Yt-2 (14.1.5)
= iYt- 2 + iYt-1 + iYt + iYt+1 + !Yt+2,
que es un promedio ponderado de las observaciones y, sobre todo, simétrico. También se
pueden utilizar otras combinaciones de medias móviles. Por ejemplo, un 3 x 3 - M A se utiliza
con bastante frecuencia, y se compone de un promedio móvil de orden 3 seguido de otro
promedio móvil de orden 3. Generalmente la segunda M A la incluimos para que el promedio
sea simétrico.
El uso más frecuente de medias móviles centradas en la estimación de tendencias , se refiere
a series históricas con estacionalidad, como hacemos en la Tabla 14.2 para datos trimestrales.
La variación estacional está promediada y los valores resultantes de Tt eliminan el componente
estacional de la serie. En general, un 2 x m-M A es equivalente a un promedio móvil ponderado
de orden m + 1 con las observaciones ponderadas con peso 1/m, excepto el primer y último
término , con ponderación 1/(2m). Así que si el periodo estacional es par y de orden m , usamos
540 COMPONENTES TEMPORALES Y ALISADO EXPONENCIAL
k
tt = ¿ ªiYt+i, (14.1.6)
i=-k
con k = (m - 1) / 2 y ponderaciones o pesos dados por (a-k, ... , ak), con suma unitaria
( 2:::7=-k ak = 1)
y simétricos, es decir, con ª-i = ªi· Algunas de las ponderaciones más
ampliamente utilizadas las reproducimos en la Tabla 14.3.
3. Estimamos el componente estacional (trimestre, mes o día), promediando los valores sin
tendencia de cada estación. Por ejemplo, el índice estacional de enero es el promedio de
todos los valores de enero de la serie libre de t endencia. Estos índices estacionales los
ajustamos posteriormente para garantizar que la suma de los m elementos sea nula. El
componente estacional St lo obtenemos encadenando todos los índices estacionales para
todos los años.
3. Estimamos el componente estacional (trimestre, mes o día), promediando los valores sin
tendencia de cada estación. Por ejemplo , el índice estacional de enero es el promedio
de todos los valores de enero de la serie libre de tendencia. Estos índices estacionales se
ajustan posteriormente para garantizar que suman m. El componente estacional St lo
obtenemos encadenando todos los índices estacionales para todos los años de la serie.
3. A veces, algunos valores de la serie temporal pueden ser particularmente inusuales (por
ejemplo, cuando ocurren conflictos laborales en las series de producción). El método
clásico no es robusto a este tipo de valores inusuales.
542 COMPONENTES TEMPORALES Y ALISADO EXPONENCIAL
e
2 60.000
.
]
>
.2
50.000
,,.
:2
.e
40.000
.2 30.000
~
20.000
Trimestres
En las Figuras 14.1.3, 14.1.4 y 14.1.5 mostramos los gráficos de los distintos componentes de
la serie utilizando los tres métodos de descomposición vi stos, descomposición clásica, X12-ARIMA
y TRAMO-SEATS .
544 COMPONENTES TEM PO R ALES Y ALISADO EXPONENCI AL
·::.~ 1~ f~
00000
70000
00000
.. ooo
~
.. ooo
---
30000
20000
O• ·
'"" '"° º' Q3
'"
'"' '"'
"'
'" '"
'"" º·"
º" º·"
"' "'
º" 1~ 1995 2000 2005 2010 º"º ,.., 1990 1995 2000 2005 2010
""'
...,,
'·" '"'
1,CIS
'"' ""
, ,0 1
'·"°
'"
º·" º·"
U2 º·"
0.81
,,.,
Tema 14 545
•.04
'·" 1,03
::""l'Jíl
1,04
""'
•1
::1~~~~~~~~~~~ lll90 1995 2000 20011 2010
::: ~
'"'1
0,111
Con los tres métodos obtenemos tendencias sim ilares, pero en la descomposición clásica per-
demos la información de las dos primeras y últimas observaciones.
El componente estacional , sin embargo, muestra una clara diferencia entre la descomposición
clásica y los otros métodos; el método clásico genera un patrón estacional constante para todo el
periodo ; el X12-ARIMA y TRAMO-SEATS , además de calcular el componente estacional sin pér-
dida de información, muestra una reducc ión del componente hasta la segunda mitad del qu inquenio
1995-2000 y un moderado crecimiento posterior.
En definitiva, la descomposición clásica presenta los problemas que ya hemos comentado ante-
riormente, reducción de información en los extremos de los componentes y estacionalidad constante
a lo largo de toda la serie. Los procedimientos X12-ARIMA y TRAMO-SEATS muestran , en gene-
ral , descomposiciones similares y adecuadas a las características de las series observadas, y por ello
son los métodos más utilizados para descomponer series de tiempo. Además el método TRAMO-
SEATS presenta la ventaja de establecer de forma cla ra el proceso generador de los datos de la serie
al estimar el modelo ARIMA subyacente de forma automática , lo que sin duda es una información
relevante para el usuario no experto y un buen punto de part ida para los más experimentados.
Multiplicando los componentes de tendencia y resid ual obtenemos las respectivas series deses-
tacionalizadas, At = Tt ·Et. Series que utilizamos para predecir, excepto en el caso TRAMO-SEATS
cuya predicción la realizaremos directamente sobre el modelo ARIMA subyacente de la serie original.
En la Figura 14.1.6 se observan los gráficos de las tres series desestacionalizadas.
546 COMPONENTES TEMPORALES Y ALISA DO EXPO E CIAL
70000 70000
00.000 00000
50000 50000
40000 40000
30000 30000
2<1.000 2<1.000
19'IO 1985 1990 1095 2000 2005 2<110 19'IO 1.. 5 1990 1995 2000 2005 2010
TRAMO-SEATS
80.000
70000
80000
50000
40000
30000
2<1000
1990
""" 1915 1995 2000
""" 2010
Observamos dos diferencias fundamen tales. Por un lado a la serie clásica le faltan los dos
últimos trimestres de 2010 (y los dos primeros de 1977) , esto no t iene solución y tendremos que
predecir a partir del tercer trimestre de 2010. Por otro , si nos fijamos en la serie clásica vemos
que el componente estacional no ha desaparecido del todo ; la razón se encuentra en que con este
método el componente estacional se supone constante, y como apreciamos claramente, en este
caso este supuesto carece de fundamento . Estas son dos de las razones , sin duda importantes,
por las que el método de descomposición clásico prácticamente se ha dejado de util izar. Las series
desestacionalizadas con los métodos Xl2-A RIMA y TRAMO-SEATS son muy similares.
Para realizar los pronósticos de las series ut ilizamos modelos ARIMA. En el caso de la descom-
posición clásica, y por las razones aludidas en el párrafo anterior, permitiremos la incorporación
de componentes estacionales, lo que solucion ará , al menos en parte , el problema de considerar la
estacionalidad constante en todo el periodo. La estimación para la serie desestacionalizada por el
método clásico es
donde elecfª es la serie desestacionalizada por el método clásico. El modelo presenta un fuerte
componente estacional [AR( 4)]. lo que prueba que el componente estacional sigue presente en la
serie presuntamente desestacionalizada . Todas las variables son significativas, incluso al 99 % de
Tema 14 547
Utilizamos los modelos estimados para ambas seri es desestacionalizadas para predecir sus va-
lores en el periodo 2011 - 2013 (en el caso de descomposición clásica también para los dos últimos
trimestres de 2010).
En el caso del método TRAMO-SEATS el pron óstico lo realizaremos a partir del modelo
subyacente SARI M A (p,d,q)( P , D , Q )s identificado por el algoritmo TRAMO (es decir, en este
caso la previsión no se hace usualmente sobre la serie desestacionalizada sino sobre la serie original) .
El método presenta la ventaja para el usuario inexperto de que el propio algoritmo nos indica
de forma automática el modelo subyacente , en este caso un SARIMA( O, 1, 1)(0, 1, 1)4, cuya
estimación es
donde elect es la serie de producción de energía eléct rica original , de manera que el pronóstico
con TRAMO-SEATS, se reduce a la estimación del modelo ARIMA tal y como vimos en el tema
13. Todos los parámetros son significativos, incluso al 99 % de confianza , y los errores estimados
muestran un correlograma compatible con ruido blanco.
Para la previsión del componente estacional de los métodos clásico y X12-ARIMA, repetimos
el patrón estacional del último año est imado. Es deci r, utilizamos los valores del componente
estacional del año 2010 para la predicción de los años 2011 a 2013 .
la Tabla 14.4 muestra las previsiones por los tres métodos así como los componentes estacio-
nales y las series desestacionalizadas mediante la descomposición clásica y X12-ARIMA. También
mostramos la producción de electricidad observada en esos años y en la última fila indicamos el
porcentaje del error medio absoluto como medida de bondad del ajuste de la previsión realizada.
548 COMPONENTES TEMPORALES Y ALISADO EXPONENCIAL
84.000
- Eledricided
82.000 ----- D. Clasice //\
--- X12_ARIMA //'\ \ _____ _
1
80.000 \\ --- TRAM O-SEATS /, , \ /¡-----·
78.000
//:,;/ \\ /'
\\ 1;::==-1/' \ \ //
76.000
\'\\\,\
\ /¡
1/// ,/
,// ' "' \ \\\";/
\ I;/
'
74.000
\\ 1¡ / \
\\/, ,/
72.000 \•/ /
V ,/
70.000
68.000
66.000 -+-----~--~----------~
111 IV 111 IV
2011 2012
El pronóstico del método clásico es mejor (con error medio del 0,04 %), la razón se encuentra
en que al eliminar las dos últimas observaciones de la serie desestacionalizada , gráfico derecho de
la Figura 14.1.6, la serie no muestra claramente la incipiente recuperación posterior a la crisis de
2008 y lógicamente la proyección del modelo ARIMA predice una recuperación menor que en los
casos de descomposición X12-ARIMA y TRAMO-SEATS donde sí se ve claramente la incipiente
recuperación posterior a la crisis, ver la Figura 14.1.6. En consecuencia la descomposición X12-
Tema 14 549
t = 1, 2, ... , T (14.1.11)
Ct rv N(O, ai)
(14.1.12)
(Tt+1 - Tt) - (Tt - Tt_i) "'N(O, a~).
Es decir, si ciclo y segunda diferencia de la tendencia fueran variables normales e indepen-
dientemente distribuidas, la solución al problema (14.1.11) correspondería al valor esperado
de Tt dadas las observaciones, si y solo si ). = (ai)/(a~). Sin embargo normalmente el ciclo
y la segunda diferencia de la tendencia no se comportan de esta forma y el valor de ). es, sin
duda, la cuestión fundamental a la hora de aplicar el filtro HP.
Hay dos aspectos más a tomar en cuenta a la hora de aplicar el filtro. En primer lugar, el
filtro HP debe ser aplicado a series desestacionalizadas para que el componente cíclico no sea
contaminado con variaciones estacionales. En segundo lugar, la tendencia estimada adolece de
ser muy sensible a shocks transitorios al final de la muestra. Para aminorar este inconveniente
Maravall y Kaiser (2002) recomiendan hacer proyecciones de uno o dos años a partir de la
serie original antes de calcular la tendencia aplicando el filtro HP.
Hodrick y Prescott para escoger los valores de ). argumentan de la siguiente forma:
Sin embargo, a pesar de que el valor escogido por estos autores produce resultados razonables
para los datos de Estados Unidos no existe ninguna garantía de que el mismo valor de ).
proporcione resultados similares para otros países. Los valores estándar de ). para el caso de
Tema 14 551
Estados Unidos son respectivamente 14400, 1600 y 100 para datos mensuales , trimestrales y
anuales.
A pesar de la popularidad del método propuesto por Hodrick y Prescott , este ha sido objeto
de numerosas críticas. Por ejemplo, Maravall y del Río observan que el filtro HP no preserva
las tendencias estimadas bajo agregación o desagregación temporal de las series utilizando
los valores estándar de >.; es decir, aplicar el filtro HP a series agregadas no resulta ser
equivalente a aplicar el filtro a series desagregadas y luego agregarlas. Estos autores proponen
tomar como punto de referencia las estimaciones realizadas para las series trimestrales para
evaluar la consistencia de las estimaciones de los componentes para las mismas series en
distintas frecuencias (debido a que internacionalmente existe mayor coincidencia entre los
investigadores sobre el uso de un ,\ = 1600 para series trimestrales que sobre los valores de ,\
para datos en otras frecuencias). Estiman para el caso español los valores de ,\ = 6, 65 para
series anuales y,\= 129119 para series mensuales al compararlos con los valores del parámetro
trimestral de 1600. Para profundizar más en esta cuestión ver Maravall y del Río (2001) y
Marcet y Ravn (2003).
Los programas especializados usualmente presentan rutinas que permiten descomponer la
serie en tendencia y ciclo utilizando el filtro HP. Veamos un ejemplo.
Ejemplo 44. Los ciclos del PIB español utilizando el filtro de HP.
Utilizando la serie del PIB español en millones de euros constantes de 2005 (serie desestacio-
nalizada) entre el primer trimestre de 1970 y el último de 2013. La descomposición de la serie en
logaritmos, en tendencia y ciclo utilizando el filtro HP, con parámetro ,\ = 1600, la reproducimos
en el gráfico de la Figura 14.1.8.
,...------------------------,..12,8
--Ln(PIB )
----- Tendencia H P
- - - Ciclo HP
12,0
0,04 11,6
--11
~
!\
/ 1
0,02 I 1 ~ {\ / 1 11,2
I 1 rl V\ / 1
I 1
I 1 r r'\ ,/ \ f"\ / 1
0,00
I 1 I
" 1
1 1 11
lJ \ /.... \
\ I
1
11 /J
"
"-v'1 \,"VI/ 1 / \/
1 1 J 1I
VI 1
-0,02
V V V "'
-0,04
1970 1975 1980 1985 1990 1995 2000 2005 2010
Donde asumimos que la observación más reciente es la única importante y todas las ob-
servaciones anteriores no proporcionan información relevante para el futuro. Este modelo se
puede entender también como una media ponderada en la que damos todo el peso a la última
observación.
Alternativamente también podemos pensar en un modelo en el que todas las observaciones
tienen la misma importancia, en este caso el mejor pronóstico es
1 T
Y°t+hlT = T l:t=l Yt para h = 1, 2, ...
A
Que es la media del proceso y también una media ponderada donde damos la misma
importancia a todas las observaciones.
Tema 14 553
T-1 i T
A
por lo que las expresiones (14.2.1) y (14.2.2) son equivalentes siempre que T sea suficiente-
mente grande. En esta expresión se aprecia con claridad que las condiciones iniciales 1 pueden
influir en el pronóstico o predicción. Normalmente se aproxima Yo a la primera observación
conocida, y en general el procedimiento será correcto siempre que la serie sea suficientemente
1
La serie temporal se considera, desde el punto de vista estadístico , que tiene infinitas observaciones de la
que nosotros solo conocemos una muestra de T elementos.
554 COMPONENTES TEMPORALES Y ALISADO EXPONENCIAL
grande puesto que (1 - a)T tiende a cero de forma exponencial (en todo caso en ocasiones
puede ser necesario realizar un proceso de optimización para el valor inicial cuando la serie es
corta o cuando a es especialmente pequeño respecto del tamaño de la muestra).
Es muy usual también expresar los alisados exponenciales por componentes (expresión por
componentes). En esta forma de expresar los alisados se incluye la ecuación de pronóstico, en
la que se indican los componentes inobservables utilizados en el alisado, y una ecuación para
cada uno de los mencionados componentes inobservables. En el AES el único componente
incluido es el suavizado, nt. En consecuencia la expresión por componente del AES es:
Los métodos de alisado requieren elegir el valor de los parámetros que mejor se ajusten
a las observaciones de la serie. En el caso del AES, solo hay un parámetro, a, pero para
los alisados con más componentes, será necesario estimar más parámetros. La forma más
adecuada para obtenerlos requiere elegir los coeficientes del modelo que minimizan la suma
Tema 14 555
cuadrática de los errores (SCR). Se trata de un problema no lineal de optimización que los
programas especializados suelen incorporar de forma rutinaria.
Veamos un ejemplo sencillo para ilustrar el AES.
':Eª 2.400 + - - - - - - - - - - - - - - - - - - . ,- - . - -- - - - - -
1.900
1.800 + - - - - - - - - - - - - - - - - - - · - - - - - - - - - - -·- -
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Con el único objetivo de mostrar la forma de cálculo , estimamos y predecimos para los próximos
3 años (2010-12) ensayando tres valores de o: (0 ,3, 0,6 y 0,968). La tabla de datos junto con su
gráfico se reproduce en en la Tabla 14.5.
2
Aunque tal y como definimos el componente de tendencia (o de ciclo-tendencia para ser más precisos) en el
epígrafe anterior la serie de producción de turismos presenta t endencia o al menos componente cíclico, no obstante
consideraremos aquí que la serie no tiene componente de tendencia solo a efectos didácticos.
556 COMPONENTES TEMPORA L ES Y ALISADO EXPONENCI AL
~~· - \
2006 2.078 .639 12 2.194.919 2.131 .299 2.079.575
2007 2.195 780 13 2.195.177 2.169.988 2.192.061
2008 1.943.049 14 2.119.539 2.033.824 1.951 .017
2009 1.812 .688 15 2.027 .483 1.901 .143 1.817.115 --
SCR 1 I
4,574E+11 3,333E+11 I 3,052E+11 600
ob s. . ºón
Dr8 VfSf
2010 1.913.512 2.027.483 1.901.1 43 1.817.115 • 400
2011 1.836.125 2.027.483 1.901.1 43 1 817.115 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
2012 1.460.580 2.027.483 1.901.1 43 1.817.115
- Turismos - · 0,300 - - 0,600 ....... 0,968
2013 2.027.483 1.901 .143 1.817 .115
La Tabla de la izquierda muestra los datos primarios y las tres estimaciones realizadas [a partir
de la expresión (14.2.4)] . Hemos tomado como condiciones iniciales, Yo, la primera observación de
la muestra , Y1 .
Al tratarse de un alisado de un solo parámetro resulta sencillo visualizar, en el gráfico, las
consecuencias de incrementar el valor de a. Cuando el parámetro es bajo (a = O, 3, serie punto-
guión) el movim iento de la serie estimada es más suave , reaccionando en menor medida a los
valores de la última observación conocida . Por el contrario , cuando el valor del parámetro es alto,
0,968 (serie de puntos) la estimación se aju sta rápidamente al último valor conocido , lo que da la
apariencia de que la estimación se ajusta a la serie original pero con una observación de retraso.
La previsión , expresión (14. 2.6), es const ant e para los tres periodos. La S C R menor se consi-
gue con el parámetro 0,968 (ver Tabla 14.2.1) , de manera que este es el AES que mejor ajusta
y el más adecuado para realizar previsiones . El parámetro es muy cercano a la unidad y la pre-
dicción , en consecuencia, muy similar al valor de la observación anterior, es decir el modelo se
acerca mucho a la estimación ingenua qu e ya comentamos anteriormente. En este caso con-
creto la previsión es de 1817 millares de vehículos producidos en los años 2010 , 2011 y 2012.
[Yr+ HIT = a.Yr + (1 - a) ·Yr¡r-i = 1812, 688·0, 986 + (1 - O, 986) ·1951 , 017 e:::: 1817, 11 5 J.
El alisado exponencial con tendencia lo planteó Holt (1957) partiendo del AES y aña-
diendo una tendencia lineal. Su ecuación por componentes es:
Tema 14 557
Pronóstico
Nivel (14.2.9)
Tendencia
60.000
e"'e:
11>
w 55.000
Por consiguiente estimar un suavizado con t endencia parece lo más razonable . En la Tabla 14.6
reproducimos la estimación de dos alisados, uno con t endencia lineal y otro expon encial , ambas
estimaciones se ha n realizado , solo con fines il ust rativos , pa ra valores a = {3 = O, 9. Como valor
in icial hemos tomado la primera observación conocida , Yo =no = Y 1gg 5 . El coefici ente inicial de
la tendencia es bo = Y1996 - Y1995 pa ra la t en dencia li nea l, y bo = Y1995 / Y1995 para la tendencia
exponencia l.
Tabla 14.6: Entrada de t uristas en Espa ña. A lisado ex pon encial con tende ncia
Datos Gráfico
Turistas Tendencia lineal Tendencia exponen cial
años t
(miles) n, b, Y, n, b, Y,
65
o 34.920 1.301 34.920 1,04
/
1995 1 34.920 34.789 13 36.221 35.050 1,01 36.221 /¡
1996
1997
1998
2
3
4
36.221
39.553
43.396
36.077
39.089
42 .683
1.160
2.827
3.517
34.802
37 .236
41.916
36.129
39.313
43.311
1,03
1,08
1,10
35 298
37.155
42.543
60
fj-
1999 5 46.776 46.015 3.351 46.200 46.861 1,08 47.631
55
2000 6 47.898 47.375 1.559 49.366 48.187 1,03 50.786
2001 7 50.094 49 .666 2.218 48.933 50.066 1,04 49.817
2002 8 52 .327 51.839 2.178 51.884 52.293 1,04 51.992
2003 9 50.854 50.735 -776 54 .016 51.227 0,99 54.588 50
2004 10 52 .430 52 .338 1.365 49.958 52.238 1,02 50.512
2005 11 55.914 55 .420 2.910 53.703 55.632 1,06 53.093
2006 12 58.004 57.455 2.12 3 58.330 58.102 1,05 58.975 45
2007 13 58.666 58.332 1.002 59.578 58.876 1,02 60 772
2008 14 57.192 57.206 -914 59.334 57.458 0,98 59.853
2009 15 52.178 52 .772 -4.082 56.292 52.591 0,92 56.308 40
2010 16 52.677 53.095 -118 48.690 52.257 0,99 48.476
2011 17 56.177 55 .880 2.495 52.977 55.714 1,06 51.549
35
SCR 8,49E+o7 1,12E+08
obs. Previsión
2012 1 57.464 58.376 58.956
2013 2 60.648 60.871 62.387
2014 3 63.367 66.017
a= 0,9 y 8 = 0,9
Tema 14 559
En la Tabla vemos, además de la serie original y las dos estimaciones, los respectivos valores
de nt y bt que permiten reproducir los cálculos [utilizando las expresiones (14.2.7) y (14 .2.9)].
También mostramos las respectivas sumas cuadráticas de los errores y, al final , la previsión para
los años 2012, 2013 y 2014 .
El gráfico visualiza la serie original (línea continua) y las estimaciones junto con sus previsiones
(en línea de puntos, la tendencia exponencial y, con gu iones, la tendencia lineal).
Las previsiones muestran que la tendencia exponencial pronostica un mayor crecimiento que la
lineal. La estimación con tendencia lineal tiene una menor SCR , de manera que este es el modelo
que mejor se ajusta a los datos observados. En este caso la predicción también se comporta mejor
con el método lineal. En la Figura 14.2.3 podemos ver los los gráficos por componentes de ambos
métodos.
50000
50000
~
.$
j -45.000
•l 45.000
z 40000 .
<0000
"000
35000
30000 ~---------------
1.20
6000 1,1 5
e
~
•.000
2000
o
.
e
i
B
1,10
1.05
~
.
1.00
~
·2000
, 2012 ·"'4
o~ ~~-~-~~-~
95 ~ 97 ll8 SKI 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14
Si </> = 1 el método es idéntico al lineal de Holt. P ara valores entre O y 1, </> amortigua
la tendencia hasta convert irse en una constante en el fut uro lejano. P or consiguiente las
previsiones a corto plazo presentan una tendencia amort iguada mientras que las previsiones
a largo o muy largo plazo son constantes. La ecuación de corrección de errores es:
P ronóstico
Nivel (14.2 .13)
Tendencia
"'
~ 75
o
~ 70
años observaciones 65
58.460 58 .613 55
1970 48 .056 50 .839 53.662
50
1975 55 .822 60.410 62 .716 63 .338 66 .061
45
1980 62 .959 59 .547 57.312 56 .6 15 57.696
40
1985 57.459 60.435 60.745 63. 111 64.002
35
1990 65 .385 65.204 65.716 65.978 67.073
30
1995 67 .990 69.845 72.101 73.457 72.293 ~
~
00
~
M
~
~
~
~
~
0
00
M
~
~
00
~
00
N
~
~
~
00
~
~ m m m m m m m m m m m
M M M M M M M M M M M M
2000 74.955
Tema 14 561
Con el objetivo de repasar, hemos realizado la previsión de la serie para los años 2001 a 2012
utilizando todos los alisados vistos hasta ahora. Las previsiones así como los datos observados
durante el periodo de pronóstico los reproducimos en la Tabla (14.8) .
Tabla 14.8: Producción mundial de petróleo. Previsión mediante alisado simple y con tendencia
Datos Gráfico
ª~"" t AES Hoff E1m. Lm Amo. E1<n. Amo.
2001
2002
1
2
°''
75204
74946
74 955
74 955
76015
77 146
76072
77 396
75 866
76 721
75486
75956
2003 3 77 566 74 955 76 276 76 743 77526 76.372
2004
2005
4
5
60.966
82014
74.955
74 955
79.407
80.537
60. 114
61 508
76.282
76 993
76.740
77.065
.·
2006 6 82482 74 955 81 668 62926 79661 77.353
2007 7 62285 74 955 62 799 64 369 60 269 77606
2006 8 62932 74 955 83.929 65638 60 .679 77.631
2009 9 81.261 74.955 85.060 67.332 81 .434 76.026
2010 10 63272 74 .955 66.191 68 851 81 .956 78.203
2011 11 84 210 74 955 87 321 90 398 62 446 78356
2012 12 66152 74 955 66452 91 971 62 907 78492
2001-03
- - -AES
RECM 1 515 1-i13 1646 1 093 917 SO +---_,__ _ _ _ _ _ - - - ----l -------Holt
EMA 956 1.239 1.497 828 626
PEMA 1,24 1 64 196 110 1 09 •••••• Exp .
2001-06
RECM 4 992 1 370 1.248 2.156 3445
40 --------------1 - - - LlnealAmo.
2001-12 30 ~rn~~.,_...,...,~.,...,_,
RECM
EMA
6 993
6154
2.050
1.787
3 677
2 .912
2072
1.796
4 546
4 032
~~~~~~~~~~#~~~~~~~ ##~~~~
PEMA 7 43 217 3,54 2,19 4 67
absoluto del 1,36 %. Y en el más largo plazo (2001 - 12) son las tendencias lineales, amortiguadas
o no, las que mejor lo hacen, la lineal no amortiguada tiene un error absoluto medio del 2,17%.
Los resultados contradictorios de este ti po son muy comunes. Las previsiones pueden variar por
muchas razones (longitud del horizonte de proyección, tamaño del conjunto de pruebas , medidas
de error de previsión , frecuencia de los datos, etc.), y es poco probable que un método sea mejor
que todos los demás en todos los escenarios posibles. Es importante, en consecuencia, realizar
evaluaciones ex post , como las realizadas en este ejercicio, con mucha frecuencia con el objetivo
de aprender de los errores y afinar los modelos de previsión constantemente.
150
140
130
(/)
e
:::J
120
Q)
Q)
"C
(/)
110
Q)
e:
~ 100
~
90
80
70
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
La serie presenta un claro patrón esta cional con picos en el segundo y cuarto trimestre de
cada año y una tendencia creciente hasta el últ imo trimestre de 2008, donde la crisis internacional
provoca la caída de las retribuciones salarial es. Por consiguiente parece que el modelo más adecuado
es el de Holt-Winters.
En la Tabla 14.9 hemos estimado los modelos aditivo y multiplicativo utilizando las observa-
ciones entre 2000 y 2009 y realizado pronósticos para los años 2010 y 2011 .
Los valores iniciales (no, bo y so ) así como los parámetros (o:, f3 y 1 ) elegidos están optimizados
usando un algoritmo informático (los programas especializados los calculan de forma rutinaria).
Los valores estimados y los pronósticos los hemos calculado utilizando las expresiones (14. 2.15) y
(14. 2.19) respectivamente .
El modelo aditivo ajusta mejor con una SCR de 52 ,357 . La predicción también es mejor con
un error medio absoluto del 0,62 % frente al 2,28 % del modelo multiplicativo. La Figura 14.2.5
muestra el componente estacional de ambos modelos.
Tema 14 565
2004<U 101,163 18 99,9a2 1,706 1,570 100,679 99,199 1,195 1,020 101,849 1
2004QJ
200404
97,094 19
109.307 20
100,787 1,034 -4,448
102,188 1.308 7,427
98.034
108,924
101,258
102,816
1,498
1,519
0,958
1,063
96,174
109,236 ''
1'
,.'9
1
200501 100,026 21 104,214 l,842 -3,587 99,279 104,356 1,526 0,958 100,004 ~ m t
,,'
200502 109,375 22 107.735 3,093 3.046 107,625 107,049 1,935 1,020 108.051 i
~
'
"•
2005Q.3 104,366 23 108,895 l,653 -6,l.t8 106,381 108,949 1,923 0,958 104,403
.¡: ¡¡
200504 118,091 24 110,660 1.736 7,525 117,974 111.065 1,990 1,063 117,863
¡¡
200601
200602
200603
108.594 25
117,828 26
111,987 27
112,189 1,582 -3,769
114,741 2.304 3,899
118,092 3,084 -5,229
108,809
116,818
110,897
113,273
115,450
116,966
2,066
2,105
1,899
0,958
1,020
0,958
108,361
117,703
112,614
J
:¡¡
f 1
i 1
1
1'':1
1 1
' 1
1
200604 127,418 28 119,944 2,166 6,443 128,701 119,760 2,212 1,063 126,351 "' 1
1
200701 118,128 29 121,905 2,014 -3,949 118,342 123,117 2,613 0,958 116,909 1' 1 1
'
~ 1 '•'
2007Q2
2007Q3
127,522 30
120,975 31
123,635 1.802 3,649
126,173 2,350 -4,582
127,817
120.209
125,038
126,396
2,371
2,016
1,020
0,958
128,306
122,054 ~ 1 ,. 1
''•.,•'
200704 137,245 32 130,711 3,980 8,366 134,966 129,035 2,234 1.063 136,510
!1
., •'
200801
2008<U
128,6 33
137.671 34
132,635 2,448 -5,757
134,064 1.689 2,754
130,742
118,732
133,880
135,119
3,148
2.480
0,958
1,020
125,819
139,835
í 1
200BQ3 128,846 35 133,521 0.026 -6,545 131, 172 1.34,810 l,504 0,958 131,815
200804 142,474 36 134,085 0,427 8,839 141,914 134,252 0,782 1,063 144,909
200901 125,524 37 lll,410 -1,884 -8,484 128,755 Ul,368 -0,501 0.958 129,428
2009CU 134,31 38 131,475-0,432 4,467 132.280 131,539 -0,266 1,020 133,548
200903 124,914 39 131,442 -0,135 -6,194 124,498 1.30,483 -0,542 0,958 125,755
2009Q4 139,781 40 130,956 -0,396 8,531 140,147 131,335 -0,054 1,063 138,135
-¡
st - modelo Holt·Winters multiplicativo de los salarios (y= O}.
1.080 ....... -
0,940 +. . . .
~~~@'<>:@'~@~~@~~@~#""'.,//~~,,,~~~~~~/../.,~/ 1
-----'
Pronóstico Y't+hlT
A
= + <P + </> 2 + ... + </> h) ·st-m+h;l;,
(
nt
Nivel nt =a (st~tm) + (1 - a) (nt-1 + </Jbt-1)
(14.2.21)
Tendencia bt = /3* (nt - nt-1) + (1 - /3*) </Jbt-1
Estacionalidad St = 'Y ( nt-1 r~bt-1 ) + (1 - 'Y) St-m.
N A M
(Ninguna) (Aditiva) (Multiplicativa)
En la Tabla 14.11 se visualizan las expresiones por componentes de los quince modelos de
suavizado exponencial.
En este apartado analizamos los modelos estadísticos que sustentan los métodos de sua-
vizado exponencial que hemos considerado hasta ahora.
Los métodos de suavizado exponencial de la Tabla 14.11 son algoritmos que generan
predicciones puntuales. Los modelos estadísticos que analizamos ahora generan las mismas
predicciones puntuales, pero permiten construir intervalos de confianza de las previsiones.
Los alisados exponenciales interpretados como modelos estocásticos, muestran el proceso
generador de datos (PGD) de la serie temporal. Para ello debemos considerar los métodos de
suavizado como modelos estructurales de series temporales, ver la Sección 14.4.1 del Apéndice.
Este marco estadístico permite el uso de los criterios estadísticos que posibilitan la selección
del modelo más adecuado de forma objetiva.
Hasta ahora hemos considerado a los alisados como un método de ajuste (como el método
de MCO en la regresión) donde seleccionábamos aquel que tenía menor SCR sin hacer ninguna
consideración sobre el componente irregular. Ahora introducimos formalmente el componen-
te residual como una variable aleatoria, Et, con distribución normal e independientemente
distribuida (ruido blanco), es decir que
lt+n[T = 'fl1·b¡
,(
"~t +I + tI:l
Q.)
.µ
Y: Yi+h[T = n1 ·b1 + st-m+h7;, z
Q.)
.µ
.::Q.)
t+h[T = ni· t
b(<P+<P2+ .. +<P")
nt =o: (Yí, - St-m) + (1 - et) (nt _ 1·bf_ 1 ) 11t =O' ( .<;t-m _tL_) + (1 - a) ( n -mi"') 1,- J f-1
o
s;:
Md n1 = aY,, + (1 - a) n1_ 1·bf_ 1 b1 = /3* -1'.L. + (l - f3*) b<Pl - L'
.:: bt = /3* -,!!J-- + (1 - /3*) b'"t-1 1
o b, = (J*_&_ + (1 - /3*) [JcPt-1 Ht-1
Tlt - 1
P.. f'lt-1
E1
o
8t =1 (Yt - rLt-1 ·bf- 1) + (1 -1) St-m St = 1 (
ni
}:b<J>
l t 1
) + (1 - ¡) 8t m
o
Tema 14 569
en el espacio de los estados con la forma ETS(. , . , .), donde cada una de las opciones re-
presenta (Error, Tendencia, Estacionalidad). Utilizando la misma notación que en la Tabla
14.10, las posibilidades de cada componente son: Error{ A, M}, Tendencia{N, A, Ad, M, Md}
y Estacional{N , A, M}. Por lo tanto, en total hay 30 modelos ETS: 15 con errores aditivos y
15 con errores multiplicativos.
Veamos cómo se especifican algunos de los alisados en el marco de los modelos ETS.
(14.3.2)
yt - Yttt-1
Et= A '
(14.3.5)
Yltt-1
Los modelos con errores multiplicativos son útiles cuando los datos son estrictamente
positivos, pero no son numéricamente estables cuando los datos contienen ceros o valores
negativos. Por lo tanto, no consideraremos modelos con errores multiplicativos si la serie
temporal no es estrictamente positiva.
Las previsiones las obtenemos a partir de los modelos mediante la iteración de las ecuacio-
nes (Tablas 14.12 y 14.13), sustituyendo t = T+l, T + 2, ... , T+h y ajustando sus respectivos
Et= O para todo t >T. Por ejemplo , para el modelo de ETS {M, A , N).
¡:1
bt = b, _ ¡ + {3__5_J___ St = St - m +/ E t
St = 81 - rn + / e, ><
M 1lt - 1 nl ¡ St 11\
"O
Q)
'"O o
¡:1
.., z
Q)
Yf = 11t - 1bf_ ¡ + St - m + ét Yf = Tt1 - 1bf_ 1St - rn + Et t:r.1
Q)
n1 = n b<P +~ z
1:1 Yi = n1 - ibt_ 1 +E t ni = n1 - 1bf_ 1 + O:Et l-1 f - 1 ~t -m o
Q)
¡:1 b, = b<I>_ + /3__5_J___ b1 = b f_ 1+ f3 ,, ;¡;:
o nt = H1.- 1bf_ 1 +ae:1 l l '11 /. - 1 Yt t -1 1::i t -m
t"'
o. = /¡f- 1 + {3-'-'- = + ')ét S ¡= S¡ _ ,,, +~
a
o Mct
b1 11 t - I
8t St - m 11t - lbt l
ü
M
t-
LC
Y,= (111-1 + b1-1 + St-n.) {I +é1) )'1 = (n1-1 + bt-1) St-m ( l + €1)
Yi = {n1 - 1+b1_ ¡) (l +,; 1) 1lt = 1lt-I + /¡1 -1 + ü {1t1-l + b1-l + -'t-m) ft 111 = (111-1 + b1 -1) {l +oc,)
11 1 = (n1-1 +b1-il {l + Oét) b1 = b1-l + (J (nt-1 + 111-1 + S1-m) é1 b, =bi- 1 +8(11t-1 + b1 -1)c1
A b1 =b1-1+13(n1-1+b,_1)é1 81 = 81-m + 1' (111-I + b1-1 + S1-m) ft 81 = 81-m (l +~(é1)
""'
.--<
<.'O y¡ = (n1_ 1 +<pb,_ 1)( 1 +,; 1)
Y1 = (ll1 - 1 + <i> bt-1 + St-m ) (1 +é1)
11, = n1 - 1 + <fib1 - 1 + a(n1-1 + </ib1- 1 + S1 - m) c1
Yi=(7lt -1 +<1>b1 1)81 m( l +i;i)
n, = (111-1 + </>b1-1) (1 + act)
s n 1 = (111-1 + <fib1-1) {l + n ,; 1) b, = <1>b1 - 1 + (J (n1-1 + <fib1-1 + s,_,,.) €1 b, = <Pb1-1 + .B (n,_ 1 + dib1- d"1
~ Ad b1 = <fi/Jt-1 + /3 (ni-1 + </Jli1 - 1)é1 s1 = S1- ... + 1' (n1-1 + <fib1-1 + s,_,,,) º' St = St-m ( l + (f,)
y así sucesivamente. Estas previsiones son idénticas a las previsiones del método lineal de Holt
y al modelo aditivo, ETS (A, A, N). Los intervalos de predicción serán diferentes entre los
modelos con errores aditivos y multiplicativos. Para algunos modelos, hay fórmulas exactas
que permiten calcular los intervalos de predicción, pero un enfoque más general, válido para
todos los modelos, condicionada a la última estimación de los estados, y obtener intervalos
de predicción a partir de percentiles simulados. Algunos programas especializados realizan
estos intervalos de forma rutinaria. Para profundizar más en los modelos ETS con alisados
exponenciales ver Hyndman et al. (2008) .
Vamos un ejemplo para ver la estimación y la previsión de alisados en el entorno ETS.
160
140
120
8......
11
o
......
o 100
N
m
ro
80
60
40 -t---,,..-,-..,-,--,-..,-,--,-..,-,-,-..,-,.-,-~,.-,-~~~~~~~~~~~~~
El gráfico muestra una producción industrial con tendencia creciente , al menos hasta la crisis
internacional de 2008 y un fuerte compone nte estacional.
Tema 14 575
El entorno ETS permite la estimación óptima de los parámetros, y de las condiciones iniciales,
de cada uno de los 30 suavizados posibles. La Tabla 14.14 muestra los valores obtenidos utilizando
el criterio de Akaike para cada uno de los posibles modelos.
textsf
a: 0,121841
~: 0,121841
y: 0 ,291854
.;: 0,731915
Pa rámetros iniciales
Criterios de información
AIC 3883,266
se 3952,895
HQ 3910,725
SCR 0 ,656988
En el gráfico podemos observar los valores obten idos mediante el criterio de Akaike para cada
uno de los posibles suavizados ordenados de menor a mayor. El modelo ETS con los componentes de
error, tendencia amortiguada y estacionalidad multipl icat iva [ETS (M, MD, M)] es el que obtiene
mejor resultado . La Tabla de la derecha muestra los valores óptimos calculados de los parámetros,
a, f3 y </J, así como las cond iciones iniciales , n 0 , bo y 5 0 . Valores con los que podemos reproducir
la estimación así como los componentes y predicciones manualmente tal y como hicimos en el
apartado anterior.
En la Figura 14.3.2 podemos observar las gráf icas de los distintos componentes así como sus
respectivas previsiones para los año 2012 y 2013 .
576 CO MPO NENTES T E MPO RALES Y ALISADO EXPO NE NCIAL
"" ] "''
120 1.01
100
J "º]
100 ~
J º·"
"
º"
0,87
~+------------
1975 1MO 1oes 1990 1995 2000 2005 2010 1875 1lll0 11185 1990 1H5 2000 2005 2010
0,15
0.10
Hlll
()05
! 0.00
.....
.0.10
..
º·'
1975
.........._~~~-~----~
1980 1985 1'90 1995 2000 2005 2010
-o.1s+------------
1e1s 1900 19115 1990 1"5 2000 200s 2010
105
100
,\
'1
''
95
//
/'
90
85
80
75
70
111 IV 111 IV
2012 20 13
En linea continua mostramos la producción observada durante los años 20 12 y 2013 , en trazo
discontinuo el pronóstico para esos años ut ilizando en modelo ETS(M , Md , M). A simple vista
Tema 14 577
se aprecia que la prev1s1on es más que aceptable recogiendo con bastante exactitud tanto el
componente estacional como la tendencia y nivel de la serie, con un error medio absoluto del
0,04%.
(14.4.1)
expres10n que nos sirve también para el esquema multiplicativo transformando la serie en
logaritmos. Los componentes se modelizan explícitamente.
Los modelos estructurales son estocásticos porque los componentes no son deterministas y
se introduce un elemento aleatorio. Veamos cómo se produce esto en los distintos componentes.
Tendencia
La forma de tendencia más sencilla es:
º2 ) ' (14.4.5)
(Tr¡
pero ahora en la expresión (14.4.4) la introducción de la variable aleatoria T/t implica que la
pendiente de tendencia ya no es determinista sino estocástica y su pendiente f3t cambia con
el tiempo. Si cr~ =O entonces la pendiente vuelve a ser fija pero no el término constante. Por
otro lado si cr~ = cr¿ =O , entonces volvemos al modelo de partida y la tendencia vuelve a ser
578 COMPONENTES TEMPORALES Y ALISADO EXPONENCIAL
Estacionalidad
Podemos partir del efecto estacional determinista (invariable en el tiempo) donde la suma
los efectos estacionales a lo largo del año es nulo:
s-1
L St-i =o, (14.4.6)
i=O
pero esta restricción de nuevo parece muy fuerte y parece razonable flexibilizar este comporta-
miento y permitir que el componente estacional evolucione con el tiempo. De nuevo podemos
especificar este comportamiento introduciendo una variable aleatoria en la restricción, en
efecto si introducimos una variable aleatoria tenemos que,
s-1
L St-i = Vt, (14.4.7)
i=Ü
donde suponemos que Vt sigue una distribución normal de media nula y constante de manera
que el componente estacional evolucione aleatoriamente en torno a cero.
Residuos
Modelo estructural básico con tendencia En este contexto el modelo lo podemos es-
pecificar como
Yt = Tt +Et
Tt = Tt-1 + f3t-1 + (t (14.4.8)
f3t = f3t-l + r¡t,
donde Et, (t y r¡t son variables aleatorias incorreladas que se distribuyen conjuntamente como
normales de media nula y varianza constante
(14.4.9)
Tema 14 579
Yt = Tt + St + ét
Tt = Tt-1 + f3t-1 + (t
(14.4.10)
f3t = f3t-1 + T/t,
'°"s-1
St = - L..,,i=l St -i + Vt,
donde de nuevo las variables aleatorias están incorrelacionadas y se distribuyen como normales
de media nula y varianza constante, es decir que,
(14.4.11)
l. Los valores iniciales, vector ao, tienen media ao y matriz de covarianzas Po.
2. Las variables aleatorias Et y T/t están incorrelacionadas entre sí y con los valores iniciales
ªº·
580 COMPONENTES TEMPORALES Y ALISADO EXPONENCIAL
y= Znt + d +E
(14.4.14)
Ot = C n t-1 + g + Rt77t ·
Por ejemplo, un modelo sencillo lineal e invariable, con componentes de nivel , tendencia
y estacionalidad aditivos. Además con una sola variable aleatoria, Et, y sin los vectores d y g
es:
yt = ZOt + d + Et
(14.4.16)
Ot = Cnt- 1 + g + Rtr¡t ,
donde Yt es un escalar, z un vector fila (1 x m) y var (Et) = H = 0' 2 .
Y la representación en el espacio de los estados del ejemplo anterior, ETS(A,A ,A), es:
1. Permite actualizar la estimación del vector estado continuamente según vamos obte-
niendo nuevas observaciones.
3. El filtro tiene algoritmos además que permiten estimar los componentes, mediante la
denominada extracción de señales, utilizando todo la información de la muestra.
yt = ZO'.t + d + Et
at = Cat- 1 + g + Rt77t,
donde:
Dados ªt-1 y Pt-1' el estimador óptimo de üt junto con su ECM viene dado por las
ecuaciones de predicción:
582 COMPONENTES TEMPORALES Y ALISADO EXPONENCIAL
(14.4.19)
donde:
Ít = zPt it- 1Z + (} 2 .
I
(14.4.21)
donde:
1
kt = CPt lt-1Zft- 1
La recursión para la matriz de covarianzas del error de estimación se conoce como ecuación
de Ricatti.
Los valores iniciales del filtro se pueden especificar en términos de ao y Po y / o de a 11o
y P 1 10 . Dadas las condiciones iniciales, el filtro nos proporciona el estimador óptimo del
vector estado según va llegando cada nueva observación. Cuando se han procesado las T
observaciones, el filtro nos proporciona el estimador óptimo del vector estado en el momento
T , aT, y en el T + 1 basado en el conjunto de información completo, ªT+i lT· Este estimador
contiene toda la información necesaria para llevar a cabo predicciones óptimas de los valores
futuros tanto de Yt como del vector estado.
y su matriz de covarianzas:
I I
)·
Aplicando el siguiente lema:
:LxY )]
:Lyy
donde:
donde:
V=Pt+A ,
donde A es una matriz semidefinida positiva.
Esta media condicionada se puede considerar también como un estimador de at. La di-
ferencia entre una estimación y un estimador es que la primera es un número mientras el
segundo es una regla. Es decir, la media condicionada como una estimación es una colección
de números asociados a una realización particular de observaciones; mientras que como esti-
mador es una expresión que se aplica a cualquier conjunto de observaciones. Con este cambio
de interpretación la media condicionada se convierte en un vector de variables aleatorias. Aho-
ra bien, se puede demostrar que este estimador minimiza el ECM cuando el valor medio se
toma sobre todas las variables del conjunto de información y no sobre un conjunto particular
de valores. En este sentido, lEt (at) es un estimador de ECM mínimo de ªt·
Como, en general, la cantidad que va a ser estimada, o sea el vector estado, es aleatorio,
no podemos hablar de matriz de covarianzas del estimador, ni de insesgadez del estimador,
etc. De la misma forma que cuando hablamos de insesgadez nos referimos a que el valor
medio del error de estimación es cero , también hablamos de matriz de covarianzas del error
de estimación que también denominamos matriz de ECM del estimador.
Tema 14 585
Cuando las perturbaciones del modelo en el espacio de los estados no se distribuyen normal-
mente ya no es cierto que, en general, el filtro de Kalman proporcione la media condicionada
del vector estado. Si restringimos a los estimadores lineales en las observaciones, entonces ªt
es el estimador que minimiza el ECM. Es decir, ªt es el estimador lineal de ECM mínimo de
ªt·
Todo lo dicho anteriormente se aplica a ªtlt-l y Ptlt-1' y a las predicciones de yt con
información hasta el momento t-1. Dada la estimación del vector estado ªtlt-l' la predicción
del valor futuro, yt es:
Se puede demostrar que estos errores de predicción están incorrelados entre sí para dife-
rentes momentos de tiempo:
y su ECM asociado:
= ]
¿ = c¿c' +RQR' ,
cuya solución general es:
ªº=o
ª110 =o
Cuando el vector estado no es estacionario, su distribución no condicionada no está de-
finida. A no ser que tengamos información a priori, la distribución inicial de ao se puede
especificar como sigue:
Tema 14 587
• A priori difuso: Po = kl , k > O. El 'a priori' difuso se obtiene cuando k ~ oo, que
corresponde con P 01 . En este caso tenemos una distribución impropia en el sentido de
que no integra a l. Hay que señalar que también se puede aplicar el 'a priori' difuso a
0:1, con lo que Po= kl.
• Obtener las condiciones iniciales a partir de las primeras observaciones. Si d :::; m ele-
mentos del vector estado no son estacionarios. entonces utilizaremos las d primeras
observaciones para construir las condiciones iniciales y comenzaremos las recursiones a
partir de la observación d + 1.
Para modelos univariantes , se puede demostrar que el uso de un a priori difuso es equivalente a
construir las condiciones iniciales a partir de las m primeras observaciones dado que el modelo
es observable.
14.4.8. Predicción
Una de las finalidades del análisis de series temporales es la predicción de futuras observa-
ciones. En el campo de los modelos estructurales de series temporales, una vez especificado el
modelo apropiado para la serie temporaL se puede obtener la función de predicción de las ob-
servaciones y de los componentes no observables del modelo, junto con sus errores cuadráticos
medios, mediante el filtro de Kalman.
En resumen, si conocemos los parámetros del modelo, la predicción de Yr+1 junto con su
error cuadrático medio vienen dados directamente por las ecuaciones de predicción del filtro
de Kalman. En el modelo gaussiano, el filt ro de Kalman proporciona aT , el estimador de ECM
mínimo de aT basado en todas las observaciones. Además, proporciona también la predicción
un periodo hacia adelante y su ECMP:
ªT+i lT = CaT
Yr+1 IT = zaT+l lT
ECM (Yr+i¡r) = zPT+l lTz' +a;.
Consideremos ahora el problema general de obtener predicciones de valores futuros de
YT+h, h = 1, 2, ... basadas en la información de la muestra, es decir, conocidos ªT y PT. En el
modelo gaussiano , la predicción óptima, en el sentido de minimizar el error cuadrático medio
de predicción, de Yr+h, Yr (h), es la esperanza condicionada:
donde:
(h = 2;3, ... )
Hay que tener en cuenta que las matrices de ECM, PT+hlT no tienen en cuenta los errores
que provienen de estimar cualquier parámetro desconocido en las matrices del sistema: e, z,
etc. Pero normalmente el modelo contiene un conjunt o de parámetros desconocidos, (), por lo
que la fórmula para el ECM(Yr+h jT) subestima el verdadero ECM porque no tiene en cuenta
la variación extra debida a la estimación de los parámetros.
ANÁLISIS ESPECTRAL
15.1. INTRODUCCIÓN
En relación con el estudio de los ciclos, hay ocasiones en los que el periodo de los mismos
es conocido, como sucede en particular con el caso de los movimientos estacionales, pero en
general la situación es diferente y nos veremos enfrent ados al problema de tratar de averiguar
el periodo de oscilaciones cuya frecuencia es inferior a la propia del movimiento estacional.
En este sentido el análisis espectral es una herramienta poderosa al permitir detectar la es-
tructura interna de la serie en relación con sus componentes cíclicos. Aunque históricamente
la investigación es este campo tuvo como objetivo la búsqueda de las denominadas "periodi-
cidades ocultas", actualmente el análisis espectral trata de estimar el espectro, un concepto
análogo al de población, en el rango completo de frecuencias.
591
592 ANÁLISIS ESPECTRAL
Consideremos una serie de tiempo estacionaria Yt cuyo movimiento está causado por dis-
tintas oscilaciones o variaciones en distintas frecuencias, l. ... , j. Un modelo natural para
explicar su variación sería:
k
Yt = L Z1 cos(w1t + PJ) +et (15.2.1)
j=l
k
Yt = L (aj cosw1t + b1sen w1t) +et (15.2.2)
j=l
Puesto que debemos contemplar todas las frecuencias, no tiene sentido restringir el sumatorio
anterior entre los límites 1 y k. Si en la expresión (2) hacemos tender k a infinito, puede
demostrarse que cualquier proceso estacionario discreto puede representarse por:
7r 7r
medidos a intervalos unitarios de tiempo como los que solemos manejar en economía, no hay
pérdida de generalidad en sustituirlo por 7r 1 .
De acuerdo con (15.2.3) cada frecuencia comprendida en el rango (O, 7r) puede contribuir a
explicar la variación del proceso. Sin embargo, las integrales anteriores son matemáticamente
complejas y difíciles de manejar, lo que unido al escaso interés práctico de los procesos u y
v,resta atractivo a esta expresión. En su lugar se emplea el resultado de un teorema según el
cual para todo proceso estocástico estacionario con función de autocovarianza "fk, existe una
función monótona creciente, F(w) tal que 2 :
J
7l"
j coswkdF(w) JdF(w)
7l" 7l"
'YO= = = F(7r)
o o
A veces, en lugar de F(w) , se emplea la función de distribución espectral normalizada, que
viene dada por:
F*(w) = F(w) (15.2.5)
(j 2
y
1í
/k = j coswkf(w)d(w) (15.2.7)
o
La expresión anterior expresa la relación entre la función de autocovarianza y la función de
densidad espectral. Puede demostrarse que la relación inversa viene dada por 4 :
(15.2.8)
Ambas, es decir (15.2.7) y (15.2.8) ponen de relieve el hecho ya mencionado de que el es-
pectro y la función de autocovarianza son formas equivalentes de analizar una serie temporal
estacionaria.
Para terminar conviene señalar que en la literatura pueden encontrarse otras definiciones
diferentes del espectro. La mayoría de ellas difieren de (15.2.8) por una constante multiplicativa
y/ o por el rango de definición de w. Por ejemplo , es muy frecuente encontrar:
4
Utilizando el teorema de Moivre el espectro puede escribirse también como f(w) =~ f:
j=-oo
"fje-iwi.
Tema 15 595
Es decir que en un proceso de ruido blanco, todas las frecuencias contribuyen por igual a la
explicación de la variación total de la serie, de manera que su representación gráfica será una
línea horizontal trazada a la altura 'Yo/ K, tal como se muestra en la Figura 15.3.1,
~w)
Pk = 8/( 1+82 ), si k = 1
O, si k > 1
de manera que:
Por tanto el trazado del espectro dependerá del valor del parámetro e.
Figura 15.3.2: Espectro de un proceso MA(l)
MA(l), 0<0
Se comprueba que si el parámetro del proceso es mayor que cero, el espectro se concentra
en las frecuencias bajas y mientras que si es menor que cero, lo hace en las más altas.
De manera que, en este caso, el trazado del espectro depende también del parámetro del
proceso. Como sucedía con el MA(l), si este parámetro es mayor que cero, el espectro se
concentra en las frecuencias bajas y viceversa por lo que su representación gráfica no es muy
diferente de las de la figura 15.3.2. Por ejemplo, para un AR(l) con 4> = 0.8:
Para procesos mixtos y de órdenes más elevados, la expresión del espectro se complica
aún más 5 . En general, puede decirse que para éstos, es posible encontrar espectros de alta
frecuencia (concentrados en las frecuencias altas), de baja frecuencia (concentrados en las
frecuencias altas) o espectros caracterizados por la existencia de (varios) picos y valles. Por
ejemplo, para un AR(2):
AR(2)
f(w)
lt
5
El espectro de un proceso general ARMA(p, q) puede verse por ejemplo en Hamilton (1994) .
598 ANÁLISIS ESPECTRAL
(15.4.1)
Por tanto , la frecuencia más alta que consideramos es w = 7r , también denominada frecuencia
de Nyquist y corresponde a un periodo 7 de dos unidades de tiempo (el periodo mínimo en el
análisis de ciclos).
El siguiente paso consiste en definir el par de términos trigonométricos cos(Wjt) y sen( Wjt)
para cada una de estas frecuencias , siendo t el tiempo, es decir t = 1, 2, ... , T. Entonces
puede demostrarse que:
T/ 2
Yt = ao+ L(aJCOSWJt+8Jsinwjt) (15.4.3)
j=l
donde ao es la media de Yt· La ecuación anterior puede interpretarse como una ecuac10n
de regresión múltiple en la que los términos cos(wjt) y sen(wjt) juegan el papel de variables
explicativas. La parte derecha de la ecuación explica completamente la variación de la serie Yt,
razón por la cual (15.4.3) no incluye término de error. No obstante, lo habitual es considerar,
no el conjunto completo de las frecuencias de Fourier, sino un subconjunto más reducido, en
cuyo caso se añadiría un término de error que supondremos tiene las características habituales.
Para la última frecuencia, la variable sen(Wjt) es nula para todos los valores de t, dado
que sen( 7r) = O y siendo t entero, también lo será sen( 7r· t). Teniendo en cuenta el resto
de los términos y la constante, ao , resulta que disponemos de T variables para explicar el
movimiento de Yt, cuyo tamaño es asimismo T. No tiene pues ningún mérito que con tantas
variables podamos explicar toda la variación.
6
Si Tes impar la diferencia consiste en que j varía entre 1 y (T-1) / 2. En este caso no se anula la serie de
seno correspondiente a último armónico.
7
El periodo es el inverso de la frecuencia.
Tema 15 599
(15.4.5)
2 T
Jj = T LYtSen(wJt) (15.4.6)
t=l
T l T/2
r-1 L (Yt - fJ)2 = 2 L (aj+ 8]) (15.4.7)
t=l j=l
2 3 4 5 6 7 8 9 10 11 12
A simple vista se aprecia un ciclo de 6 periodos (es decir que se repite 2 veces en el
conjunto de las 12 observaciones). Esta no será la situación a la que normalmente nos veremos
enfrentados dado que lo habitual es que debamos descubrir mediante el cálculo de los distintos
coeficientes ª-J y ój, cuáles son los ciclos relevantes.
En este caso podemos calcular fácilmente ªí y Ój a partir de (15.4.5)y (15.4.6), para j =
2:
T
&2 = ~ 2: Yt cos(wjt) = 8,9375
t=l
A T
62 = ~ 2: YtSen( Wjt) = 0,0361.
t=l
Según el teorema de Parseval la contribución de este ciclo a la varianza total de la serie es:
PERIODOGRAMA
1.4
1.2
0.99
1.0
o.a
0.6
0.4
02
004 0.02 o,. 0.01 0.02
o.o
2 3 4 5 6
todos los elementos de esos sumatorios tienen media nula) y varianza dada por8
(15.4.8)
Ello permite usar los procedimientos de inferencia estándar también en este caso.
En el ejemplo que acabamos de analizar, la varianza de cada uno de los tres elementos
del vector /:J se obtiene directamente la fórmula anterior. La matriz X'X es en este supuesto
una matriz 3x3 y los elementos de su diagonal principal son (T, T ¡ 2, T / 2). Todos los demás
son nulos. Por tanto la diagonal principal de (X'X)- 1 será (1 / T , 2/ T y 2/ T) y teniendo en
cuenta que la SCR = 6. 734375 , la varianza de los elementos de /:J es:
Con estos resultados podemos contrastar la significatividad individual de cada uno de los
parámetros. En los contrastes conjuntos pueden usarse también las mismas técnicas que en la
teoría de la regresión mínimo cuadrática.
Dado que los estimadores se distribuyen de forma normal con media nula y varianza dada
por (15.4.8), se tiene que:
'2
ªJ + ój'2
----"---2-=-- -t X2
2
( 15 .4. 9)
(T
lo que permite contrastar la significatividad para cada una de las frecuencias. La hipótesis
nula (Ho : ªJ = Ój = O) significa que no existe un ciclo significativo en la frecuencia Wj. Por
supuesto en este ejemplo la hipótesis nula resulta rechazada, dado que el estadístico (15.4.9)
arroja un valor igual a 640.5 aproximadamente.
Puesto que la regresión solo tiene esas dos variables explicativas, la hipótesis nula anterior
equivale a contrastar la significatividad conjunta de la regresión, para lo que también puede
emplearse el contraste F. Dado el valor de R 2 éste será:
0,98614/ 2
F2,9 = (1 - 0,98614) /9 = 320,17
Es decir, el mismo valor que cuando empleamos la chi cuadrada, dividido entre el número de
grados de libertad.
Figura 15.5.1: Área bajo el periodograma y varianza atribuible a los ciclos en las distintas
frecuencias
l(w)
2:t/ T
<E-->
O w1 w2 w
frecuencias de Fourier. Si parte de la variación fuese debida a ciclos con frecuencias distintas
de las consideradas en (15.4.2), dicha variación es automáticamente atribuida a alguna de esas
T / 2 frecuencias.
No habría ningún inconveniente en emplear un modelo como:
donde O < j::::; ?r, excepto que ahora los regresores ya no serían ortogonales. De hecho , es más
razonable suponer que las series económicas están caracterizadas por un espectro continuo
(más que discreto), de manera que en la ecuación anterior j-+ oo. Por lo tanto (&J + 8J)/2
no debería considerarse como la parte de la varianza de Yt debida a ciclos de frecuencia
exactamente igual a Wj, sino más bien como la parte de la variación atribuible a frecuencias
comprendidas entre Wj y Wj-l (o algún esquema similar). La Figura 15.5.l sirve para ilustrar
esta cuestión.
La interpretación habitual es que I(w 1 ) es la varianza atribuible a ciclos de frecuencia
w 1 = 27r / T (es decir ciclos de periodo T), I(w 2 ) a ciclos de frecuencia w 1 = 47r / T (ciclos
de periodo T /2), etc. Sin embargo podríamos considerar I (w1) como la variación debida a
frecuencias comprendidas entre (O, w1], I( w2) la variación de las frecuencias comprendidas
entre (w1, w2], etc. Según esta interpretación, I(w2) debería repartirse entre las 27r/ T fre-
cuencias comprendidas entre w1 y w2, y en general cada I(wj) sería la parte de la varianza
604 ANÁLISIS ESPECTRAL
(15.5.2)
o lo que es lo mismo:
Veremos a continuación las propiedades de I (w) como estimador de J(w). Fuller (1976) esta-
bleció que, asintóticamente y para w -:f. O:
2I(w) 2
f(w) = X2 (15.5.3)
Por lo tanto:
(15.5.4)
Dado que <7 4 /7f 2 es constante, queda establecida la inconsistencia. En realidad de (15.5.3) se
deduce que el intervalo de confianza del 95 3 para el periodograma es (0.025, 3,7), es decir lo
suficientemente amplio para considerarlo insatisfactorio.
Por otra parte, puesto que que los parámetros a y f3 de la ecuación (15.4.3) son incorrelados
(independientes si consideramos la normalidad), se sigue que cov[I(wj), I(wi)] =O para i -:f. j,
con lo que el periodograma tendrá una representación bastante irregular.
Las Figuras 15.5.2 y 15.5.3 ilustran este problema. Empleando 1000 observaciones se ha
generado un proceso de ruido blanco y un AR(l) , con parámetro</;= 0,8. A continuación se
ha calculado el periodograma que se muestra en las figuras:
Tema 15 605
l(w)
Penodograma ruido blanco
o w
"
La comparación de estos gráficos con sus correspondientes trazados teóricos (Figuras 15.3.1
y 15.3.3), ponen claramente de manifiesto los problemas del periodograma en cuanto estimador
del espectro.
A la vista de los resultados anteriores, queda claro que el periodograma debe ser modificado
si queremos disponer de un estimador consistente del espectro poblacional. Una posibilidad
es suavizar el periodograma.
606 ANÁLISIS ESPECTRAL
Observando la Figura 15.5.2 intuitivamente se ve que podríamos obtener una mejor apro-
ximación al espectro mediante un suavizado que consistiese en promediar cada valor de J( w1 )
con las frecuencias adyacentes. Por ejemplo, podríamos emplear:
(15.6.1)
(15.6.2)
y aunque es también constante, una forma de conseguir que disminuya con T es hacer que m
dependa del tamaño muestra!. Si m = >..T, (obviamente>..< 1) , entonces:
(15.6.3)
que tiende a cero a medida que T crece, es decir, proporcionando un estimador consistente.
Aunque nos hemos basado en el proceso de ruido blanco para describir la idea, ésta puede
generalizarse inmediatamente.
En el proceso de suavizado descrito por la expresión (15. 6 .1) solo se tiene en cuenta un
subconjunto de valores del periodograma. Este grupo define lo que se conoce como ventana.
La anchura de la ventana o rango 10 , es precisamente el número de valores considerados, m.
La ponderación implícita en (15.6.1) otorga la misma importancia a cada uno de los m
valores contemplados, pero es natural considerar otros sistemas en los que el peso disminuya
con la distancia, es decir donde se otorgue más importancia a los valores de I próximos a la
frecuencia de interés. En general:
ffi*
donde la suma de los pesos hi es la unidad y m =2m*+l. La primera y última frecuencias, solo
tienen elementos adyacentes por uno de los lados, por lo que supondremos que el periodograma
es totalmente simétrico en esos puntos, asignando a los valores adyacentes exactamente el
doble del peso considerado en el resto de los casos.
En consecuencia hay que tomar dos decisiones: elegir el valor de m y además, el sistema de
ponderaciones. En cuanto a este último, en lugar de elegirse lo que se denomina una ventana
rectangular (que otorga la misma ponderación a todos los valores considerados), se opta por
9
La suma de m variables aleatorias independ ientes distribuidas como una x2 (2), es una x2 con 2m g.l.
10
También se emplea el concepto de ancho de banda (bandwidth) que es la anchura expresada en radianes.
Tema 15 607
una triangular (la ponderación disminuye con la distancia). Respecto al valor de m no hay
muchos consejos prácticos en la literatura, aunque algunos autores recomiendan probar con
diversos valores en el entorno de T / 40.
Esta elección se ve comprometida por el hecho de que procedimientos como los descritos
pueden proporcionar estimadores consistentes, pero al precio de introducir sesgo. En efecto,
teniendo en cuenta (15.5.3), se deduce el sesgo de (15.6.1):
(15.6.5)
que solo coincidirá con f (w) si el espectro es lineal en el intervalo considerado, algo que solo
garantiza el proceso de ruido blanco 11 . En general, cuanto mayor sea el valor de m , menor
será la varianza del estimador, pero mayor el sesgo int roducido (y viceversa).
Un sistema de ponderaciones utilizable en este contexto consiste en elegir los pesos de
acuerdo con:
I:
(m*+l-lil)
hi=
(m * +1)2
i=-m*
(15.6.6)
Por ejemplo , para el supuesto más simple, m* = 1 (h = 3), i toma los valores -1 , O y 1 y los
pesos son:
1+1-1 1 h2 = 1+1 - o 1 h3=1+1-1 1
h1 = (1+1)2 4' 4 2 y 4 4
Es decir, para cada Wj, f(wj) = 0,25l(wj-1) + 0,5l(wj) + 0,25l(wj+1). Para la primera
frecuencia no existe Wj-l de manera que f (w 1 ) = 0,51( Wj) + 0,51( Wj+i)· Análogamente, para
la última f(wn) = 0,5l(wj-l) + 0,5l(wj)·
La alternativa a la suavización del periodograma consiste en ponderar la función de auto-
covarianza. Tomando la expresión (15.4.1) como punto de partida y teniendo en cuenta que
la precisión de las Ck disminuye a medida que k aumenta, es razonable tener en cuenta este
hecho al elegir el procedimiento de ponderación. Podemos considerar entonces un estimador
como:
11
No obstante, el sesgo puede carecer de importancia en la medida en que f(w) sea una función razonable-
mente suavizada y m pequeño en relación a T.
608 ANÁLISIS ESPECTRAL
y la ventana de Parzen:
2 3
hk= l-6(!) +6(t1 ) , 0$.k'S:_M/ 2
(15.6 .9)
2(1 - k / M) 3 , M / 2 < k $. M
Figura 15.7.1: Balanza de Pagos por Servicios. Logaritmos de la serie original expresada
en miles de euros corrientes
LY
90 92 94 96 98 00 02 04 06 08 10 12
Los dos movimientos básicos que dominan la serie son la tendencia y la estacionalidad. La
tendencia que parecía estabilizada a partir del año 2003 recupera la pendiente positiva con el
inicio de la crisis. No obstante, este movimiento habrá de ser eliminado para poder conseguir
Tema 15 609
la estacionaridad de la serie, requisito imprescindible antes de aplicar los métodos que hemos
visto en este tema.
Si no se hiciese así, es decir, si no eliminamos la tendencia, este movimiento se reflejaría
en el periodograma como un pico en la primera frecuencia.
Aunque el procedimiento empleado para eliminar la tendencia puede condicionar el resul-
tado del periodograma, en un ejemplo como este caracterizado por la fuerte estacionalidad
de la serie, no tendrá mucha trascendencia. Aquí emplearemos un filtro de Hodrick Prescott
que, aplicado a la serie original da como resultado las Figuras 15.7.2 y 15.7.3. En la primera
representamos la serie original junto con la tendencia estimada mediante el filtro HP. En la
segunda, la serie libre de tendencia obtenida por diferencia entre la serie original y la tendencia
estimada.
Figura 15.7.2: Balanza de pagos por servicios: serie original y tendencia (filtro HP)
17.0
-LY
----Filtro HP
16.5
16.0
15.5
15.0
14.5
140
90 92 94 96 98 00 02 04 06 08 1o 12
.8
.6
.4
.2
.o
-.2
-.4
-.6
-.8
90 92 94 96 98 00 02 04 06 08 10 12
610 Al'\ÁLISIS ESPECTRAL
Periodograma
100
80
60
40
20
o
frecuencia
12
En este caso cualquier procedimiento de estimación consistente, seguiría dejando un elevadísimo porcentaje
de la varianza en el mismo armónico.
Tema 15 611
Tabla 15.2: MCO, usando las observaciones 1990:1-2012:4 (T = 92): Estimación del armónico
número 23
Coeficiente Desv. Típica Estadístico t Valor p
const 0.00178617 0.00974062 0.1834 0.85492
cos(23wt) -0.125054 0.0137753 -9.0781 <0.00001
sen(23wt) -0.465436 0.0137753 -33.7877 <0.00001
es decir el 93 3 aproximadamente.
Para hacer una predicción no tenemos más que prolongar estas dos variables hacia adelante,
es decir calcular la estimación a partir de la ecuación anterior para t = 93 , 94, ... , 97 y obtener
el resultado de la predicción a partir de la ecuación de regresión.
Sumando la tendencia estimada a los valores anteriores, se obtiene la predicción que se
muestra en la Figura 15.7.5
lOO[log(yt)-log(yt-1)]
Figura 15. 7.5: Predicción de la serie a partir de la tendencia y un ciclo estacional (serie
observada en trazo continuo)
90 92 94 96 98 00 02 04 06 08 10 12
businesscycle. Los picos en las frecuencias j = 66, 134, 201, 268 y 335, corresponden a ciclos
de 12, 6, 4, 3 y 2.4 meses, es decir son todos ellos picos estacionales 13 . Todos estos resultados
son prácticamente idénticos a los obtenidos por Hamilton.
Figura 15.7.6: Índice de producción industrial USA. Tasa de variación mensual, 1947-2013
IPI (tasa varia etón)
16
12
50 55 60 65 70 75 80 85 90 95 00 05 10
13
La frecuencia fundamental para recoger la conducta estacional en datos mensuales es w = 27r/ 12 que
obviamente corresponde a un periodo de 12 meses. El resto de los picos estacionales necesarios para dar
completa cuenta del movimiento estacional se obtienen de w i = 27rj / 12 con j = 2, 3, 4, 5 y 6 que corresponden
a ciclos de 6, 4, 4, 2.4 y 2 periodos (meses).
Tema 15 613
Figura 15. 7. 7: Espectro estimado de la serie del IPI (tasa de variación mensual)
5 J=268 j; 335
4
j• 201
j•134
¡• 29 ¡=e6 F.33
o l ~./V\.~ .~
'·°"'
EJERCICIOS
En este capítulo tratamos el tema de los efect os causales que se extienden a lo largo del
tiempo, una cuestión práctica y relevante dentro del análisis econométrico aplicado. Desde otro
punto de vista podemos decir que nos interesa conocer cómo se distribuye el efecto de una
causa a lo largo del tiempo. En economía se produce de manera casi natural que una causa,
digamos un cambio en el nivel de ingresos, produzca su correspondiente efecto después de que
transcurra cierto tiempo; de modo que el efecto no se materializa de una sola vez, sino que se
"distribuye" a lo largo del tiempo. De manera similar, cuando suben los impuestos sobre las
rentas (sobre los ingresos) , lo consumidores (los hogares) t ienen menor renta disponible, lo que
les lleva a reducir sus gastos en servicios y bienes, est o lleva a que se aminoren los beneficios
de los oferentes, y estos reduzcan su demanda de insumos, y en consecuencia los beneficios
de los productores de insumos, y así podríamos seguir hasta las últimas consecuencias. Por
procedimientos económicos de este estilo la literat ura ha convenido en llamar a este tipo de
procesos "modelos de retardos distribuidos", refiriéndose al hecho relevante del que el efecto
se prolonga a lo largo del tiempo, es decir, es como si el efecto de una causa fuera dinámico.
En todo caso , lo característico es que es preciso que pase el tiempo para poder observar los
efectos totales (dinámicos) de una determinada causa económica.
Los efectos simultáneos, a difirencia de los efectos distribuidos a lo largo del tiempo, son
menos evidentes en las decisiones económicas, ya sean éstas las del consumidor o las del
empresario; ya sean éstas de tipo microeconómico, o de tipo macroeconómico. Hay varios
motivos por los que los efectos se distribuyen a lo largo del tiempo: hay retardos (efectos
causales dinámicos) en la respuesta motivados en razones técnicas (pensemos simplemente
que el propio proceso productivo es inherentemente dinámico) ; hay retardos generados por
cuestiones propias del comportamiento del agente económico (necesariamente hay un desfase
entre que el individuo recibe una información, y luego actúa); otros retardos son producidos
como natural consecuencia de factores institucionales (los contratos, por ejemplo, establecen
ciertas rigideces en la inmediatez de pagos y cobros) .
Lógicamente al modelizar econométricamente deberíamos tener en consideración los efec-
tos dinámicos de la variables consideradas, por ejemplo: la toma de decisiones sobre consumo
615
616 EFECTOS CAUSALES DINÁMICOS
o inversión individuales que están sujetos en buena medida a hábitos del consumidor o a la
verosimilitud en la percepción de cambios, o bien permanentes o bien transitorios, en variables
económicas relevantes (pensemos en el nivel de ingresos o precios, que afecta a la toma de
decisiones por parte de los agentes económicos). También hay aspectos de tipo contractual por
los que compromisos contraídos no permiten cambiar instantáneamente ante acontecimientos
exteriores: es difícil que una empresa cambie con rapidez las condiciones de producción si se
encarece desorbitadamente una de las materias primas, o si la competencia explota una nueva
tecnología. El mero coste de la información: hay decisiones económicas para muchos tipos de
bienes o servicios en las que informarse consume un tiempo. Pensemos en algunos sectores
productivos realmente dinámicos, como por ejemplo el mercado de tabletas electrónicas ("ta-
blets"), que además se corresponde con un bien semi-duradero. En este tipo de sectores las
decisiones de los agentes no son instantáneas, máxime si por ejemplo hay un escenario de
presentación al mercado de un modelo más novedoso, lo que afecta a las expectativas sobre
el precio de las existentes.
Dado que como hemos visto los efectos de los cambios en las variables no son siempre ins-
tantáneos, el objetivo prioritario es cómo modelizar la naturaleza dinámica de las relaciones
económicas. Desde un punto vista de la realización de predicciones el considerar el modelo
dinámico abundará en potenciales y mejores predicciones. Otra forma complementaria de me-
jorar la capacidad predictiva será posible si podemos contemplar otras variables que covarían
a la largo del tiempo con la variable dependiente. En tales casos será preciso incluir otras
variables que denominamos "predictores adicionales". Ambos enfoques para la mejora de la
capacidad predictiva se pueden tratar homogéneamente si consideramos el marco analítico
que exponemos a lo largo de este tema.
Siguiendo con el ejemplo de la tasa de inflación, este nuevo modelo plantea de la actual tasa de
inflación depende (entre otras cosas) de cuál fue la tasa de inflación en el periodo anterior. De
esta manera, y asumiendo que la relación entre las variables es positiva, los periodos de baja
inflación vendrán seguidos de periodos de bajas t asas de inflación. Lógicamente podríamos
mejorar fácilmente el modelo permitiendo covariar la variable dependiente también con valores
pasados de la variable explicativa X, lo que nos conduciría al modelo
Esta senda temporal se puede interpretar como el efecto causal dinámico, que es especial-
mente útil cuando tenemos interés en conocer las consecuencias que una determinada acción
o circunstancia tiene a lo largo del tiempo sobre la variable dependiente. Tal es el caso de
cuestiones típicas de análisis de política económica: es importante saber cómo se ditribuyen
temporalmente los efectos de los impuestos sobre el desempleo y la inflación, o cómo lo hacen
los efectos de los cambios en los tipos de interés sobre las mismas variables.
Los efectos dinámicos suceden en el tiempo y esto hace necesario que el modelo economé-
trico que utilicemos para estimar efectos causales dinámicos incorpore retardos. El modelo
(16.2.1)
lo hace, ya que relaciona yt con la variable explicativa Xt y sus retardos. Este modelo se
conoce como modelo de retardos distribuidos.
El coeficiente {31 es el efecto contemporáneo de una variación unitaria en Xt sobre yt. El
coeficiente de Xt-1, es el efecto sobre yt de una variación unitaria en Xt-1 o, equivalentemente,
el efecto sobre Yt+i de una variación de X t. En general, el coeficiente Xt -k es el efecto de
una variación unitaria en X sobre Y en k periodos hacia adelante. Por tanto el efecto causal
dinámico es el efecto de una variación unitaria en Xt sobre yt, Yt+1, .. , Yt+k, y queda recogido
en la sucesión de coeficientes f31, f32, ... , f3k+ l ·
La ecuación (16.2.1) nos permite calcular teóricamente los efectos causales en un caso de
un cambio transitorio en la variable X y en el caso de un cambio permanente. Para verlo,
consideremos que inicialmente Xt = X es una constante y que en el momento t varía en una
unidad, X+ 1, pasando de nuevo al estado constante, X, en t + 1 y sucesivos periodos. Para
entender básicamente la dinámica, consideremos momentáneamente que los errores pobla-
cionales son nulos (obviamente esto es una simplificación que posteriormente eliminaremos) ,
entonces tendríamos:
yt - Yt-1 = f31.
Igualmente, el cambio en Y un periodo después del cambio sería
y por tanto el cambio en Y tras k periodos después del cambio producido en t sería
A partir del siguiente periodo, es decir, en el perido k + 1 los efectos habrían desaparecido,
Yt+k+l -Yt-1 = O. A cada uno de estos efectos generados por una variación unitaria en X sobre
Y tras k periodos se les denomina multiplicador dinámico del periodo k correspondiente.
El gráfico de los retardos frente a los distintos coeficientes, multiplicadores dinámicos, nos
daría una visión de cómo se distribuye el efecto causal esperado sobre Y ante una variación
en el periodo t de X.
Alternativamente, si el cambio que se produce en el momento t es de carácter permanente,
entonces tendríamos
que nos indica la proporción de variación total imputable a primer periodo. Igualmente las su-
mas de sucesivos multiplicadores estandarizados nos informarían de la proporción del impacto
de largo plazo imputable a un número consecutivo de periodos.
Un problema habitual con este tipo de modelos es que es necesario establecer un retardo,
k, de truncamiento a partir del cual los efectos se diluyen. En la gran mayoría de ocasiones
el usuario no tiene mucha información sobre cómo determinar dicho truncamiento, si bien es
cierto que existen algunas técnicas disponibles para asesorar dicha decisión. Alternativamente,
puede ser más coherente asumir que el truncamiento se desconoce por lo que el modelo a priori
sería del tipo siguiente
(16.2.2)
si bien es necesario que los coeficientes de los retardos, f3k, deberían tender a cero cuando
k -7 oo, es decir el impacto de Xt-k sobre yt debe ser menor cuando k se aleja en el tiempo,
hasta el punto de que deje de tener efectos. Al fin y al cabo en la mayoría de las aplicaciones
620 EFECTOS CAUSALES DINÁMICOS
económicas, la contribución de una variación a día de hoy sobre una variable Y dentro de
varios periodos (tantos como queramos) tendrá efectos inapreciables o mucho menores que los
que tiene en peridos más cercanos en el tiempo.
La interpretación de los coeficientes de la ecuación (16.2.2) en términos de multiplicadores
dinámicos y multiplicadores dinámicos acumulados de largo plazo sigue siendo válida. Co-
mo veremos posteriormente las técnicas y restricciones para estimar los modelos (16.2.1) y
(16.2.2), así como los supuestos sobre la relación entre los errores y las variables regresoras se-
rán diferentes. En particular, para que esta interpretación sea rigurosa es preciso que la X no
esté correlacionada con el término error. Veremos que esta cuestión relativa a la exogeneidad
juega un papel relevante para la estimación y la inferencia.
que es prácticamente semejante al modelo (13.11.1), donde hicimos una serie de supuestos
sobre el modelo a fin de interpretar y estimar correctamente los coeficientes. Veremos que
estos supuestos son equivalentes a los que haremos en este tema con ciertas salvedades.
Consideremos ahora la autocorrelación dentro de un modelo RD. A partir de un modelo
del tipo (16.2.1) con un error serialmente correlacionado usamos dicho modelo para obtener
algunos estimadores:
(16.2.4)
Por tanto
(16.2.6)
donde ao = f3o (1 -1>1), r.po = f31, r.p1 = f32 -1>1f31, 'Pk = f3k+ l -1>1/3k Y 'Pk+I = </>1f3k+1·
La ecuación (16.2.6) muestra que al considerar un simple proceso autorregresivo de orden
1 en el error, surge un modelo ARD(l, k+ l). Por este motivo, a dicha ecuación se denomina
representación ARD del modelo de retardos distribuidos con errores autorregresivos. La ecua-
ción nos permite ver que al incluir como regresares el retardo de Y y un retardo adicional de
X , entonces el término error está serialmente incorrelacionado, y por tanto se pueden utilizar
los estimadores MCO habituales, sin necesidad de preocuparse de los efectos que genera la
autocorrelación.
De forma equivalente, la ecuación (16.2.4) se puede reescribir de otro modo familiar y
también útil. Consideremos la expresión (16.2.5) y reagrupemos los términos sacando a los
coeficientes /3j como factores comunes. Es decir, /3j (Xt-j - </>jXt-j) para los diferentes j
c5msiderados. Si simr:lemente definimos las variables en causi-diferencias ft = yt - </>1 Yt-1 y
Xt = Xt - </>1Xt-1, Xt-1 = Xt-1 - </>1Xt-2, etcétera, se obtiene
(16.2.7)
donde lógicamente los errores son los mismos que los anteriores y, por tanto, no están tampoco
correlacionados serialmente.
En el siguiente apartado trataremos los supuestos que hacen posible estimaciones correctas
de los coeficientes de los parámetros así como los que garantizan una correcta inferencia y
construcción de intervalos de confianza para dichos coeficientes.
En los apartados precedentes ha quedado de manifiesto que nos interesa ser capaces de
medir el efecto causal dinámico. Como hemos dicho, una forma interesante y operativa de
entender el concepto de experimento con series temporales es considerar que a un mismo
sujeto lo sometemos a distintos niveles de tratamiento a lo largo del tiempo. Por ejemplo,
un experimento consistiría en someter a la Unión Europea (UE) a diferentes actuaciones por
parte del Banco Central Europeo (BCE) respecto a los tipos de interés. Ahora el sujeto es
la UE y es siempre el mismo , y por tanto hace las veces de grupo de control y de grupo de
622 EFECTOS CAUSALES DINÁMICOS
otras cualesquiera posibles. De las variables que no están en el error tenemos observaciones en
forma de serie temporal. ¿Son las variables regresaras estrictamente exógenas en este modelo?
La variable "condiciones meteorologicas" podemos considerarla como estrictamente exóge-
na, pues difícilmente el tiempo atmosférico está relacionado con las "otras" variables incluidas
en Et. El valor que en el futuro tomen estas otras variables (por embargos, virus, etc.) no es
previsible que se vea afectado por condiciones meteorológicas actuales (temperatura y lluvias,
principalmente). Hagamos este mismo análisis para la variable "semillas". La cantidad de semi-
lla utilizada en la plantación este año es esperable que no esté correlacionada con los shocks o
perturbaciones a las que este mismo año se verá expuesta la plantación. Pero ¿podemos decir
lo mismo con respecto de las perturbaciones de años futuros? En realidad no podemos decirlo
porque la cantidad de semillas disponibles para la próxima temporada es factible que dependa
de la cantidad de pimientos producida en la actual temporada, y esta cantidad sí depende de
las perturbaciones Et del periodo en curso. Es decir, JE (Et lsemillast+l) =/:- O. Eso hace que la
variable semillas no sea estríctamente exógena.
El segundo ejemplo es de corte macroeconómico. Pensemos de nuevo en las medidas de
política monetaria que implementa el BCE. El BCE t iene unos objetivos declarados de control
de la inflación, y para ello el BCE cuenta con la herramienta económica de actuar discrecio-
nalmente sobre los tipos de interés a corto. En tal caso sería muy interesante para la toma de
decisiones sobre los tipos estudiar el efecto causal dinámico sobre la inflación provocado por
una variación del tipo de interés.
El BCE para tomar la decisión sobre los tipos evalúa el estado actual y futuro de la
economía europea, para ello tiene en consideración otras variables económicas que le ayuden
a explicar la evolución de la inflación , así como a estimar el valor esperado de la inflación
futura en la zona Euro. Simultáneamente, la teoría macroeconómica nos indica que la inflación
depende inversamente del tipo de interés al alterar la demanda agregada.
En una regresión de inflación sobre tipos a corto, sabemos por una parte que hay una
serie de variables, que junto con el tipo de interés (pero distintas) afectan a la inflación (estas
variables estarían en Et)· Por otra parte pero simultáneamente, sabemos que al tratarse de
una variable de política monetaria, el tipo de interés fijado dependerá de la inflación actual,
de sus valores pasados y de la previsión de inflación en el momento actual (t) sobre el futuro
(esperado) de la misma. Esta bidireccionalidad se traduce, por ejemplo, en que si el BCE prevé
que va a haber un repunte de la inflación, entonces el BCE ajustará los tipos al alza, haciendo
justamente que los tipos de interés se determinen endógenamente, y por tanto esto nos lleva a
considerar que el modelo planteado no es compatible con el supuesto de exogeneidad estricta
(JE (Et linterest+1) =/:-O).
Estos ejemplos ilustran que es preciso reflexionar sobre la exogeneidad de las variables
explicativas dentro de un modelo de regresión. Es más, en el caso de series temporales ma-
tizamos entre exogeneidad y exogeneidad estricta. El motivo de hacer esta diferencia, como
veremos seguidamente, es que en función de si es aplicable uno u otro supuesto, las técnicas
de estimación varían.
Los supuestos del modelo de retardos distribuidos 1 (RD) son los siguientes:
1
El modelo de retardos distribuidos es fácilmente ampliable a casos en los que deseemos incorporar un
mayor número de regresares X s.
624 EFECTOS CAUSALES DINÁMICOS
variables cuasi diferenciadas y por tanto satisface los supuestos indicados en el recuadro an-
terior. Recordemos que el modelo (16.2.7) es equivalente a la expresión del modelo (16.2.4).
En particular, el supuesto de exogeneidad de X (presente y pasada) requiere que:
(16.3.1)
Si aplicamos la Ley de las Esperanzas Iteradas (ver Teorema (2) en la página 71) , se
tiene que la propia expresión (16.3.1) implica a su vez JE (Et IXt, Xt-1 , ... ) =O, por lo que las
expresiones como
JE (Et ¡xt,Xt-1,Xt-2, ... )=o
y la ecuación (16.3.1) son equivalentes. Esto nos permite comprobar que para que se satisfaga
la condición (16.3.1) es necesario, sin embargo, que Xt sea estrictamente exógena, y no solo
exógena. Recordemos ahora que los modelos (16.2.4) , junto con sus condicionantes paramé-
tricos, y (16.2.5) son dos expresiones del mismo modelo. Por este motivo los requisitos para
poder estimar uno y otro deben ser iguales, por lo que si para estimar por MCO el modelo
en cuasi diferencias es necesaria la condición de exogeneidad estricta contenida en (16.3.1),
también lo será para estimar un modelo ARD del tipo (16.2.4).
de remediar este problema es utilizando los errores estándar HAC. que introdujimos varios
temas atrás. Por tanto, serán estos errores los que usaremos para evitar realizar inferencias
estadísticas engañosas.
La estimación :VICO del modelo (16.2.1) nos permite. por tanto. obtener los estimadores
de los multiplicadores dinámicos; a partir de ellos podemos estimar el multiplicador dinámico
acumulativo o de largo plazo simplemente realizando la suma de los estimados. Sin embargo,
mientras que los errores estándar de los multiplicadores dinámicos (de impacto) los obtenemos
al usar errores estándar tipo HAC en la estimación del modelo (16.2.1), no podemos, desde
ese mismo modelo, rescatar el error estándar del multiplicador de largo plazo.
Si estamos interesados en los multiplicadores acumulativos, afortunadamente, para obte-
nerlos bastaría con reparametrizar el modelo de la siguiente manera:
(16.4.1)
donde óo = /30, Ó1 = /31, Ó2 = /31 + /32 , Ó3 = /31 + /32 + {33, Ók+l = /31 + /32 + f33 + ... + f3k+1,
y por tanto estimar por MCO esta ecuación permite estimar los multiplicadores dinámicos
acumulativos y sus respectivos errores estándar HAC.
La insesgadez, por su parte, es un tanto más delicada. Cuando demostramos la insesgadez
de los estimadores MCO, se requería exogeneidad estricta, sin embargo podría ser -posible
que el supuesto menos restrictivo de exogeneidad pasada y presente fuera suficiente ya que las
relaciones que plantea el modelo pueden ser tales que las variables explicativas no violen el su-
puesto de extricta exogeneidad. Sin embargo, el modelo que incorpore la variable dependiente
como explicativa, necesariamente violará el supuesto de exogeneidad estricta y por tanto la
estimación será sesgada si bien, como hemos dicho anteriormente, será consistente.
El ejemplo más claro y sencillo que tenemos para verlo es el modelo autorregresivo de
primer orden que ya presentamos en temas precedentes:
JE (yt ·Et) =JE ((/Jrt-1 + Et) · Et) = /JJE (rt-1 ·Et)+ JE (E¡),
que no será nula pues la varianza del error es distinta de cero.
Tema 16 627
En algunas ocasiones, el tipo de relación económica estudiada nos puede permitir excluir
las relaciones entre Y y el futuro de X (esto es, si se cumple el criterio de exogeneidad
estricta). En esos casos sería posible obtener estimadores alternativos para los efectos causales
dinámicos. Estos estimadores alternativos presentan alguna ventaja respecto de los MCO que
hemos comentado para los modelos RD.
En particular, la forma de obtener otros estimadores lo posibilita el supuesto de exoge-
neidad estricta junto con un tratamiento diferente de la correlación serial en Et· Esto no debe
entenderse necesariamente como que es más aconsejable utilizar modelos ARD frente a mode-
los RD o modelos estáticos de series temporales puesto que en ocasiones es posible que desde
el punto de vista económico, el problema que estamos tratando justifique utilizar modelos
RD o incluso modelos estáticos de series temporales. En tales casos, lo relevante será tener
presente que los errores tendrán autocorrelación.
En la ecuación (16.2.6) vimos que dicho modelo era equivalente al modelo (16 .2.4) , de
manera que la inclusión de un retardo de Y y uno adicional de X hace que el error no
esté autocorrelacionado (siempre que el error siga el proceso autorregresivo modelizado), de
este modo podemos estimar los coeficientes de dicho modelo por MCO y utilizar los errores
estándar por defecto en MCO, es decir, la inferencia estadística se realizaría correctamente
sin necesidad de usar errores tipo HAC.
Sin embargo, la estimación por MCO de (16.2.6) no nos permite recuperar directamente
los coeficientes de los efectos dinámicos de la Ecuación (16.2.4). Para poder recuperarlos, una
estrategia consiste en expresar la función de regresión estimada como función de los valores
actuales y pasados de Xt. P ara ello tendríamos que eliminar la yt de la función de regresión
estimada (es decir, de la estimación de la Ecuación (16.2.6)).
Por ejemplo, supongamos que hemos estimado el modelo
Esta expresión nos permite recuperar el efecto del segundo retardo. Si repetimos continua-
mente el procedimiento llegaríamos a
A A
realizar pronósticos mediante los métodos de alisado exponencial expuestos en el Tema 14.
Por último, la técnicas se completan con los modelos si ampliamos el modelo AR(p) a un
modelo ARD(p, q) con p > O, q > O.
(16.5.1)
(16.5.2)
El supuesto (16.5.2) dentro (junto con) del modelo (16.5.1) implica que
es decir, una vez que hemos considerado (controlado por) Zt , ningún retardo ni de Y ni de Z
ayuda a explicar el valor actual de Y. Obviamente el supuesto (16.5.2) también implica que
(16.5.3)
Es decir, una vez que hemos tenido en cuenta Z y dos retardos, no es preciso considerar ni
más retardos de la variable Z ni ninguno de Y pues no afecta al valor actual de Y.
El supuesto también es ilustrativo en el caso de usar en un modelo dinámico autorregresivo
de retardos distribuidos (ARD). Sea el modelo
(16.5.4)
630 EFECTOS CAUSALES DINÁMICOS
Lo que implica que una vez controlados Zt, Yt-1, Zt-1 , no hay otro(s) retardo(s) que afecte al
valor actual de Y , que es lo que queremos explicar.
Vemos que el supuesto (16.5.2) es relevante por varios motivos. Entre ellos uno es que
se adapta a los modelos dinámicos que hemos visto en este tema; otro es que garantiza la
exogeneidad JE (et IZt) = O, lo que es básico para obtener estimadores consistentes de los
coeficientes; por otro lado, nos permite decir que hemos especificado el modelo de manera
completa en el sentido de que para explicar Y se han incorporado todos los retardos necesarios
de todas las variables , ya sea de Y o de Z.
Obviamente, no es necesario que solo contemplemos una sola variable explicativa, Z, si no
que el supuesto se extiende a un conjunto de variables explicativas Xt = (Xit, X2t, ... , Xkt)
que puede contener variables retardadas de Y y/ o de Z. En un modelo general
(16.5.5)
que en términos de Y es
(16.5.6)
Así, con independencia de lo que haya en el vector Xt hemos considerado todos los retardos
relevantes de las variables en X. Es decir. el modelo especificado utiliza completamente toda
la información sistemática en el pasado de yt y de las variables explicativas restantes. Por este
motivo , cuando se satisface este supuesto. se dice que el modelo dinámico es completo.
Una característica importante de tener un modelo dinámico completo es que entonces se
puede probar que los errores necesariamente estarán incorrelacionados. No obstante, como he-
mos visto puede ser prácticamente imposible especificar un modelo dinámicamente completo,
lo cual no es un severo problema en la medida en que podemos realizar inferencia estadística
correctamente siempre que usemos errores robustos HAC.
La clave del modelo dinámicamente completo reside en la selección de las variables condi-
cionantes que incorporamos en Xt. De modo que si nuestro interés se centra en explicar yt en
términos del pasado de Y y posiblemente de valores pasados de otra secuencia, digamos Zt,
entonces el modelo es completo si hemos considerado suficientes retardos de Y y de Z , que
hemos incluido en Xt para capturar la dependencia del pasado. En el caso del modelo estático
(16.5.1), el vector condicionante es Xt = (Zt); en el modelo (16.5.3), Xt = (Zt, Zt-1, Zt-2);
y en el modelo ARD (16.5.4), Xt = (Zt, Yt- 1, Zt-1). Observamos, por ejemplo, que cuando
el condicionante es Xt = (Zt), asumir el supuesto (16.5.6) es equivalente a que la relación
estática sea la dinámica, lo cual, en general, es bastante restrictivo en los modelos de series
temporales, si bien aun así la relación estática puede ser de gran interés desde el punto de
Tema 16 631
vista económico. En cambio, si el condicionante es Xt = (Zt, Yt-1, Zt-1), entonces asumir que
el modelo es dinámicamente completo supone que la dinámica es de primer orden, lo cual es
menos restrictivo que el caso anterior.
Teóricamente podemos permitir que la dimensión del vector Xt crezca lo desado con t, en
tal caso siempre podríamos elegir Xt = (Zt, Yt-1, Zt-1 , .. ., Y1, Z1) o bien Xt = (Yt-1, Zt-1, .. ., Y1, Z1)
o Xt = (yt_ 1, Yt-2, .. ., Y1) para asegurar un modelo dinámicamente completo. En la prácti-
ca resulta más realista considerar que incluyendo un número suficiente de retardos podamos
aproximarnos a un modelo dinámicamente completo. Este tipo de aproximaciones tienen que
ser lo mejor posible si nuestro interés está fundamentado solo en realizar una predicción. Es
decir, para la predicción sí debería ser una prioridad que el modelo esté lo más dinámicamente
completo, lo cual supone realizar constantemente contrastes estadísticos de correlación serial
(au tocorrelación).
Desarrollamos ahora la demostración por la que el modelo dinámico completo implica
necesariamente ausencia de autocorrelación en el error.
La expresión del supuesto de modelo dinámico completo (16.5.5) es equivalente a
Consideremos ahora un ejemplo económico particular. Vamos a examinar con datos reales
la Ley de Okun. A estos efectos, recordemos que según la ley, un cambio en la tasa de desempleo
de un periodo al siguiente depende de la tasa de crecimiento del output de la economía:
donde~ es el operador diferencia, tal que ~Ut = Ut-Ut-1, para todo t = 2, 3, ... , T ; a= "f9N; y
f3o = - "(. El parámetro a refleja la variación en el nivel de desempleo si no hubiera crecimiento
(en términos reales) en la economía. A su vez, el coeficiente f3o al estar las variables en términos
porcentuales tendrá una interpretación del tipo elasticidad. De hecho el parámetro captura la
elasticidad del desempleo respecto del PIB real.
A partir del modelo podemos localizar el umbral de la tasa de crecimiento del PIB com-
patible con una variación nula en la tasa de desempleo. La teoría económica, consustancial
en el análisis econométrico, contempla varias explicaciones para una relación entre la tasa de
desempleo (y por tanto del empleo) y la tasa de crecimiento de la economía. En un mundo
en el que las empresas estuvieran mayoritariamente en competencia perfecta, el salario real,
establecido en el mercado de trabajo, determinará las horas contratadas -y por tanto el nivel
de empleo (desempleo)- por las empresas, que podrían vender todo lo que deseen, no viéndose
afectadas por el nivel de demanda agregada de la economía. Alternativamente, si abunda la
competencia monopolística, entonces la demanda agregada de la economía (output produci-
do) determinará el salario real - minimizando los empresarios los costes de producción- el cual
determinará el nivel de empleo (desempleo) .
Esta relación, desde el punto de vista econométrico es, sin embargo, un tanto inocente
en el sentido de que es más probable que los cambios en la producción (output) afecten al
desempleo con cierto retardo temporal, y no solo simultáneamente como se desprende del
modelo anterior. Una modelización que recoge estos efectos dinámicos es la siguiente:
Figura 16.6.1: Gráficos del crecimiento PIB real y la Tasa de desempleo de EE.UU.
Crecimiento del PIB
2.5
2
1.5
1
0.5
o
-0.5
-1
-1.5
1986 1992 1998 2004 2010
Tasa de desempleo
10
9
8
7
6
5
4
3
1986 1992 1998 2004 2010
Figura 16.6.2: Crecimiento del PIB real y variación en la Tasa de desempleo de EE.UU.
Crecimiento del PIB
2.5 ~~-~----~------~-~---~------~
2
1.5
1
0.5
o
-0 .5
-1
-1.5 ' - - - ' - - - - - - - - - ' - - - - - - - -..___ _ _ _ ___e'-------~
1986 1992 1998 2004 2010
Del modelo RD(2) estimado obtenemos los multiplicadores de impacto para los 3 periodos
considerados. Así, una variación en el crecimiento del PIB genera un efecto sobre la tasa de
desempleo que se dispersará a lo largo los siguientes periodos. En efecto, el aumento de un 1
por ciento en PIB generará, de acuerdo al modelo, un descenso medio sobre la tasa de des-
empleo del 0.20 % durante el mismo trimestre, un descenso medios del 0.16 3 en el siguiente
trimestre, y finalmente un descenso medio del 0.07 % durante el segundo trimestre desde el
cambio inicial. Obviamente también podemos obtener los multiplicadores acumulativos . En
este modelo estimado tendríamos - (O, 2 +O, 16 +O, 07) = -0, 43 de multiplicador acumulati-
vo de largo plazo; que indica un efecto de un descenso medio, en 9 meses, de la tasa de paro de
0.43 puntos porcentuales como consecuencia de un incremento de un 1 por ciento por encima
del cremiento normal de la economía estadounidense. Obsérvese, que si bien podemos utilizar
los errores estádar estimados en la regresión anterior para ver la precisión de los estimado-
res de los multiplicadores de impacto , sabemos que esto no es posible para el multiplicador
acumulado de largo plazo (y los intermedios). Para obtener el error estándar válido debemos
recurrir a estimar un modelo del tipo indicado en la expresión (16.4.1)
y por tanto los errores estándar HAC que aparecen en paréntesis son los que hemos de utilizar
para estudiar la significatividad y / o construir intervalos de los multiplicadores acumulados .
¿Es posible estimar los multiplicadores dinámicos de manera más efeciente respecto a
la estimación MCO de los coeficientes en el modelo de retardos distribuidos? Tal y como
hemos visto anteriormente esto sería posible si la variable g fuera estríctamente exógena
(exogeneidad pasado, presente y futuro) , pese a existir auto correlación en los errores de la
regresión. No obstante, antes de utilizar estos métodos más eficientes es necesario evaluar si
tiene sentido que g sea estrictamente exógena. ¿Los otros factores que explican la variación
de la tasa de desempleo en el momento t podrían estar eventualmente relacionados con los
valores de la tasa de crecimiento en el futuro ? La respuesta puede ser perfectamente positiva:
por ejemplo, las rigideces de los mercados de trabajo afectan a la evolución actual de la tasa
de desempleo, y están en el término error; es previsible que las autoridades económicas estén
tratando continuamente de mejorar dichas rigideces para reducir el desempleo futuro. Las
medidas implementadas en el tiempo t afectarán factiblemente a la evolución del PIB, y por
tanto sería difícilmente sostener que la variable crecimiento es estrictamente exógena, y en
consecuencia los métodos alternativos a MCO no deberían ser utilizados.
Cuando iniciamos este apartado supusimos que la variable crecimiento era exógena, y
acabamos de comprobar que no lo es estrictamente exógena. ¿Es creíble que sea exógena
(presente y pasado)? Hay varios motivos que hacen pensar que la variable crecimiento es
endógena. Inicialmente parece de sentido económico la existencia de variables omitidas en el
modelo econométrico planteado, como pueden ser las variables crecimiento de la población, que
afecta directamente tanto a la evolución del desempleo como a la del crecimiento medido en
Tema 16 635
términos del PIB real; el grado de competencia en los mercados de bienes y servicios; los costes
de ajuste de los inputs (costes de despido y de contratación, etcétera). También es razonable
económicamente pensar que un conjunto común de variables expliquen tanto la evolución
del desempleo , como la del crecimiento, generando así una relación de bidireccionalidad: en
función de la productividad, un mayor creciento del PIB conlleva un aumento neto del empleo
(una disminución del desempleo neto). En paralelo, un mayor empleo (menor desempleo), en
función de cómo se estén utilizando otros factores productivos, impulsará la demanda agregada
y por tanto el crecimiento.
El resultado de esta simultaneidad (bidireccionalidad) y, en su caso, de la existencia de
variables omitidas en el modelo, es que ninguna de las dos variables sería exógena respecto de
la otra. Y si esto es así, entonces las anteriores estimaciones no estarían capturando consis-
tentemente el efecto causal dinámico del crecimiento en la evolución de la tasa de desempleo.
La alternativa más natural es optar por una aproximación econométrica que nos permita
contemplar fundamentalmente los problemas de causalidad bidireccional. Para ello los mode-
los dinámicos multiecuacionales, a diferencia de los presentados en este tema, son una solución
muy atractiva cuando tenemos series temporales de las variables en cuestión. La metodología
consistente en formar vectores autorregresivos nos permitirá afrontar con mayor éxito pro-
blemas de bidireccionalidad y variables omitidas, y se presentará en temas ulteriores. Esta
misma metodología multiecuacional ofrece dos potenciales ventajas adicionales: nos permiti-
rá aproximarnos mejor a un modelo dinámicamente completo y mejorará la calidad de las
predicciones respecto a los modelos uniecuacionales.
Es relevante apreciar que muchas de las relaciones macroeconómicas que interesan al eco-
nomista pueden fácilmente estar impregnadas de causalidad bidireccional, generando que los
regresores sean endógenos. Determinar la exogeneidad de una variable require, en general, una
combinación de teoría económica, junto con una valoración de las instituciones que afectan al
entorno económico.
donde el acrommo WN se refiere a ruido blanco (White Noise). Este modelo también lo
podemos reescribir así
(16.7.2)
donde ahora
Et , o bien
p
Yt L r iYt- i +Et·
i=l
Yt L /3iXt-i +Et·
i =l
OYt B(O)
8xt = D(O) = C(O) = 80 = f3o,
mientras que la misma variación afectará k periodos hacia adelante de acuerdo a
OYt+k _ OYt _ ,
------uk
OXt OXt-k '
que salvo para el caso de que p = O no coincidirá con f3k· En particular, si consideramos el
modelo ARD(l,1)
Yt = /lYt-1 + f3oxt + f31Xt-l + ft,
es decir
ªYt+l
OXt
0Yt+2
OXt
Indicamos que el hecho de que fueran infinitos no sería un problema toda vez que la suma
fuera finita al estar garantizado por las condiciones de las raíces del polinomio. En el caso
particular del modelo ARD(l ,1) podríamos haber obtenido los multiplicadores a partir de la
suma de los multiplicadores dinámicos:
EJERCICIOS
1. En los países desarrollados3 el petróleo es una materia prima central en sus economías.
Como resultado. la evolución del precio de esta materia prima puede afectar a la econo-
mía real. Algunos macroeconomistas consideran algunas crisis económicas (obviamente,
no en todas) han sido provocadas por fuertes variaciones en el nivel de precios del pe-
tróleo. De hecho se ha considerado que para que haya incidencia en la producción, el
precio del petróleo debe estar por encima de sus valores pasados recientes. Un modelo
como los presentados en este tema puede resultar interesante para cuantificar el efecto
de los precios del petróleo sobre la act ividad económica real de modo que se puedan
capturar los efectos dinámicos de la variación de precios del petróleo sobre la evolución
del PIB. Es necesario prestar atención a cómo se pueden definir las variables que vamos
a relacionar: respecto al PIB, nos interesa su variación porcentual trimestral, es decir,
yt = lOOln(PIBt/PIBt_i), mientras que para los precios del petróleo nos interesa la
diferencia, en puntos porcentuales, entre el precio del petroléo en el periodo t y su valor
máximo a lo largo del año anterior. Denotamos esta variable diferencia máxima porcen-
tual por Dmaxt. El modelo estimado para la economía estadounidense en el periodo
1955I-2000:IV es
a) Para 4> 1 = 0,5 simule 1000 réplicas del modelo para cada T, y estime su correspon-
diente ~ 1 (T), T = 10, 20, 80, 100.
b) Para cada T del apartado anterior, calcule el estimador del sesgo , es decir,
1 1000
E (J1 (T) - 4>1) = 1000 L (J1 (T) - 4>1) .
i=l
641
642 TENDENCIAS , RAÍCES U~ITA RIAS Y REGRESIO:\ ES ESPuRIAS
donde hemos aplicado un infinitésimo equivalente que indica que para valores próximos a cero
se tiene ln(l + x):::::: x.
Comprobamos que, tanto para un tipo de evolución de las tasas de crecimiento, como para
otro (o equivalentemente para ambos tipos de tendencia) , la transformación a logaritmos de las
variables tiene una interpretación económica. De hecho hemos comprobado que ambos tip ~
Tema 17 643
(17.1.1)
Decimos que yt tiene una tendencia lineal, exponencial o cuadrática, si la serie libre de ten-
dencia, yt - Yt = Zt, es estacionaria [IE (Zt) =O, var (Zt) =a~, Pu= P-u]. También se suele
denominar a este tipo de procesos no estacionarios como procesos estacionarios en tendencia.
Un proceso de este tipo, por tanto, es uno en el que la parte estocástica es estacionaria, y la
parte no estacionaria es determinista, por ejemplo:
estudiada previamente, por tanto podríamos indicarla como IJ!(B )Et, siendo 'll(B) el corres-
pondiente polinomio de retardos.
Puesto que, como hemos señalado, la regresión entre variables no estacionarias puede
presentar graves problemas, conviene eliminar este movimiento antes de relacionar dichas
variables en un modelo de regresión. Así trabajaremos, en general, con la expresiones generales
del tipo
<I>(B)(Yt - /30 - f31t) = 8(B) Et
donde los polinomios respectivos son indicativos de la parte autorregresiva y de media móvil.
Un caso muy sencillo es
(17.1.2)
(17.1.3)
JE(Yt+s IYt, Yt-1, ... ) JE (f3o + f31 (t + s) IYt, Yt-1, ... ) +JE (Zt+s IYt, Yt-1, ... )
f3o + f31 (t + s) +JE (Zt+s IYt, Yt-1, ... )
f3o + !31 (t + s) +JE (Zt+s IZt, Zt-1, ... )
= f3o + f31 (t + s) + p8 Zt (17.1.4)
donde la penúltima igualdad es correcta puesto que los vectores (Yt, Yt-1, ... ) y (Zt, Zt-1, ... )
son informativamente idénticos, y la última igualdad se obtiene a partir de calcular la espe-
. . da so bre Z t+s = Et+s + PEt+s-1 + ... + ps-1 Et-1 + pszt·
ranza con dic10na
De particular interés es comprobar que entonces la predicción s-periodos adelante, con
un horizonte suficientemente largo , converge a la tendencia lineal [30 + (31 (t + s). En otros
términos, los valores pasados y presentes de Y no afectan a la predicción. Como veremos esto
es diferencial respecto a los procesos con tendencias estocásticas.
Algo similar ocurre si f3o = f31 = O. En esta situación
que nos permite comprobar que: (i) el efecto de los shocks o innovaciones, Et, tienden a des-
parecer a medida que pasa el tiempo, es decir, tienen un efecto transitorio sobre la predicción
(sobre la media condicionada); (ii) el efecto sobre la media condicionada (predicción) del valor
inicial de Yt-1 también desaparece con el paso del tiempo.
Tema 17 645
Por último, y desde una perspectiva más aplicada, si las variables presentasen únicamen-
te tendencia determinista lineal, la eliminación de dicho movimiento puede llevarse a cabo
regresando dicha variable con respecto al tiempo
Los residuos de esta estimación Uyt representarían entonces la serie libre de tendencia y,
como tal, podría ser incluida en el modelo de regresión. Por ejemplo, en el caso de dos variables
X e Y, la regresión se calcularía como:
iLyt = 80 + 81 iLxt·
Alternativamente podemos efectuar la regresión entre los valores originales, incluyendo el
tiempo como un regresor adicional. Puede demostrarse que en este caso el estimador es el
mismo, es decir
resultado que se generaliza para considerar el supuesto de que haya más variables explica-
tivas. Por consiguiente, cuando hay variables con tendencias deterministas puede resultar
conveniente incluir el tiempo como un regresor más en el modelo de regresión.
El lector podrá recordar que en el Tema 13 consideramos que las series podían presentar
tendencias de este tipo en la media, y desaparecían t ras tomar diferencias (procesos estacio-
narios en diferencias), tal es el caso:
(17.1.5)
Un caso ilustrativo es aquel donde, por ejemplo, la parte estacionaria es Zt = f3o + Vt con
Vt una variable con esperanza nula, y siendo Xt una tendencia estocástica en forma de proceso
J(l):
Xt = Xt-1 + f3o + Vt
Yt = Xt + Et, Et es iid. (17.1.6)
Este caso nos permite preguntarnos sobre cuál es la contribución de la tendencia temporal
estocástica sobre la variable Y. La respuesta es que la contribución de la tendencia es Xt -
Xt-1 = f3o + Vt, y por tanto ya no es una constante {31 , sino aleatoria, lo que implica tener
una media y una varianza, que en su momento consideraremos.
El papel que desempeñan las perturbaciones aleatorias en los modelos con tendencia der-
terminista y estocástica es claramente diferente y tiene implicaciones importantes. Para com-
probarlo consideramos nuevamente el modelo con tendencia determinista lineal (17.1.2) y el
modelo con tendencia estocástica (17.1.6). En el caso determinista el cambio de Y de un
periodo a otro consecutivo es
yt- Yl-1 = f3o + f31t + Et - /30 - f31(t- l) - Et-1 = f31 +Et - Et-1,
es decir, la perturbación producida en t - 1 que nos alejó de la línea o senda (f3o + f31t), esto
es Et-1, desaparece en el perido t, revertiendo de este modo Y a su senda, y haciendo que el
efecto sea transitorio. Por el contrario, el cambio en Y en el modelo con tendencia estocástica
(17.1.6) sería
Yt - Yt-1 = Xt - Xt-1 +Et - Et-1 = f3o + Vt +Et - Et- 1,
al igual que en el caso determinista, el efecto de Et-1 sobre Y desaparece cuando llega la
perturbación Et, es decir en el periodo t. Sin embargo en el periodo t cuando se produce el
efecto de Vt, no desaparece el correspondiente de Vt-1, y por tanto Y no revierte o regresa a
su senda.
Retomemos ahora, para completar y contrastar, una variante no estacionaria del modelo de
la ecuación (17.1.3) , particular cuando p = l. Ahora la parte estocástica ya no es estacionaria
al presentar una raíz unitaria
Zt = Zt-1 +Et·
Tema 17 647
A diferencia del modelo con tendencia determinista, ahora el valor presente de Y tiene un
efecto permanente en la predicción futura para todos los horizontes temporales.
Es muy importante distinguir entre tendencias deterministas y estocásticas. En términos
gráficos, en un proceso con tendencia determinista, las desviaciones con respecto a la tendencia
son puramente aleatorias y se corrigen rápidamente . El movimiento a largo plazo de la serie
está completamente determinado por el componente determinista, es decir , por la tendencia.
Por el contrario, en el caso de una tendencia estocástica, el componente aleatorio es mucho
más persistente y sí afecta al movimiento a largo plazo. Para empeorar más las cosas, es
posible que un proceso presente a la vez los dos tipos de tendencia. Más adelante se presenta
un contraste estadístico para distinguir entre estas posibilidades. Visualmente en la Figura
17.1.1 representamos varios casos de tendencias porque en ocasiones resulta ilustrativo ver
diferencias, si bien -como decimos- para hacer una correcta evaluación necesitaremos de
algunas herramientas técnicas.
Una tendencia estocástica se elimina diferenciando la serie, como se deduce inmediata-
mente de la expresión ( 17. l. 5). ¿Qué sucedería si en un proceso de raíz unitaria (tendencia
estocástica) le quitáramos una tendencia temporal det erminista? La respuesta la damos en la
siguiente sección cuando expongamos lo que es un paseo aleatorio con deriva.
A continuación presentamos algunos procesos con tendencias estocásticas relevantes y
útiles. Como hemos visto en los casos contemplados anteriormente, el introducir términos
autorregresivos es una forma sencilla de representación de tendencias estocásticas.
Paseo aleatorio
Un proceso estocástico importante es el conocido por paseo aleatorio:
648 TENDENCIAS, RAÍCES Ul\'. ITARIAS Y REGRESIONES ESPURIAS
var (Yt) = var (ét) + var (ét-i) + ... + var (é1) + var (Yo) = a'¡t, (17.1.10)
de manera que la varianza depende del tiempo t, aumentando a medida que transcurre, por
consiguiente, el proceso paseo aleatorio no es estacionario en varianza, lo que es indicativo de
que la incertidumbre sobre la situación del proceso crece con t. Comprobamos entonces que
el paseo aleatorio no es estacionario. Sin embargo, como hemos visto, la diferenciación
del proceso nos devolvería un proceso estacionario.
Además el comportamiento del proceso paseo aleatorio es persistente en covarianza, esto
lo podemos comprobar calculando la predicción para h periodos en el futuro a partir del valor
del momento actual Yt,
T -1 T+u-1 )
cov(t, t +u) =JE ((yt - Yo) (Yt+u - Yo)) =JE ~ Et-i ~ Et-j
(
JE (YtYt+u)
Pu=--;======--;========
t = (-t )1/2
Jvar (yt)Jvar (Yt+u) ~Ja'i(t+u) Jt(t+u) t+u
T-1 T-u-1 )
/-u= JE (YtYt-u) =JE ~ Et-i ~ Et-j =a; (t - u),
(
2' 50 7S 100 125 150 175 200 25 50 75 100 125 150 175 200
de modo que la varianza del proceso de raíz unitaria (paseo aleatorio con deriva) cuando le
restamos una tendencia determinista, tiene una varianza (}" 2t , que crece con la fecha en la que
t iene lugar la observación. Comprobamos entonces que en presencia de tendencia estocástica
es poco afortunado quitar una tendencia determinista.
Siguiendo un proceso similar al utilizado para el proceso paseo aleatorio sin deriva llega-
mos a los mismos resultados para la varianza, autocovarianzas y autocorrelaciones del proceso
paseo aleatorio con deriva. Por consiguiente, el proceso paseo aleatorio con deriva no es estacio-
nario en varianza. var (Yt) = (J"¡t , la auto correlación decrece linealmente, Pu = [t/ (t + u)] 1/ 2 ,
y la función de autocorrelación no depende solo del desfase, /u =/=-/-u ·
El valor del proceso para h periodos en el futuro teniendo en cuenta el valor de la variable
actual Yt es
pasada de los cambios de una serie de precios no puede ser usado para predecir los cambios futuros
de forma significativa.
Nosotros utilizaremos el 1BEX con periodicidad mensual entre enero de 1987 y diciembre de
2011 para contrastar la hipótesis de mercados eficientes . La Figura 17.1.3 muestra la serie en
niveles.
18,000
16,000
14,000
12,000
10,000
8,000
6,000
4.000
2,000
88 90 92 94 96 98 00 02 04 06 08 10
Los valores del IBEX varían en el tiempo por lo que aparentemente no es estacionario en media;
también parece observarse mayor variación con el transcurso del tiempo, y por tanto tampoco
parece que la serie sea estacionaria en varia nza. Para comprobarlo calculamos el correlograma de
la serie en niveles, que representamos en la Figura 17.1.4.
Tema 17 653
1
2
0989
0.977
0989
-O073
29642
586 43
ºººº
O000
3 0.965 o 046 870 57 o 000
4 O953 -O 036 1148 9 O000
5 o 940 -O 069 1420 3 o 000
6 0927 0037 16854 0000
7 o 915 -O 022 1944 2 o 000
8 0.902 -O 005 2196 6 o 000
9 0890 0021 24431 0000
10 O876 -O 102 2682 7 O000
11 O861 -O 032 2914 9 O000
12 o 846 o 002 3140 o o 000
13 o 832 o 022 3358 5 0.000
14 0818 -0011 35703 0000
15 o 802 -O 057 3774 9 o 000
16 o 787 -O 021 3972 3 o 000
17 o 771 o 004 4162 8 o 000
18 o 757 o 053 4347 1 o 000
19 o 745 o 070 45261 o 000
20 0.731 -O 066 4699 3 o 000
21 o 71 6 -O 072 4865 9 o 000
22 O701 -O 055 5025 8 O000
23 o 685 -O 003 5179 3 o 000
24 o 669 o 006 5326 3 o 000
25 o 654 o 024 5467 2 o 000
26 O638 -O 031 5602 O O000
27 o 622 -O 038 5730 5 o 000
28 O606 -O 034 5853 O O000
29 o 593 o 129 5970 5 o 000
30 o 579 -O 016 6083 1 o 000
31 o 566 o 040 619! , o 000
32 o 555 o 054 6295 2 o 000
33 o 545 -O 004 6395 9 o 000
34 O534 -O 026 6492 9 O000
35 o 521 -O 099 6585 7 o 000
36 O507 -O 055 6673 7 O000
Las autocorrelaciones (FAT) decrecen muy lentamente mostrando que el 1BEX presenta una
fuerte persistencia en covarianza y, en consecuencia, la serie no es estacionaria .
Puesto que la teoría económica sugiere que la serie se comporta como un proceso paseo
aleatorio, estimamos primero un modelo paseo aleatorio con deriva ,
El término autorregresivo es muy cercano a la unidad y muy significativo tal y como sugiere
la hipótesis de mercados eficientes. Como el término constante no es significativo, estimamos un
modelo paseo aleatorio puro o sin deriva ,
cuyo parámetro es, en términos prácticos, unitario y muy significativo. Para validar el proceso paseo
aleatorio las perturbaciones estimadas deben ser la imagen empírica de un proceso ruido blanco .
Reproducimos en la Figura 17.l.5 el correlograma de los residuos estimados.
654 TE NDENCIAS, RAÍCES UNITA RI AS Y RE G RESIO>! ES ESPURIAS
Figura 17.1.5 : Correlograma de los residuos del IBEX estimados a partir del proceso paseo
aleatorio puro
Sample 1987M02 2011M12
lnduded observaUons 299
,.
e1
''
''
''
'1
''
1'
•l!I
''
31
32
33
34
35
-O 108
-0048
0055
o 129
o 053
-O 079
0003
0018
o 140
o 033
32 353
33126
34132
39 817
40 772
o 400
0412
0413
o 227
o 231
'' '1 36 -O 05<1 -O 067 41638 O 239
Las dos últimas columnas muestran el valor del estadístico Ljung-Box y su p-valor . Para 36
desfases el p-valor del contraste muestra un p-valor de 0 ,239 de manera que no podemos rechazar
la hipótesis nula de ruido blanco a los niveles usuales. Concluimos en consecuencia que los residuos
estimados son una imagen empírica cercana de un proceso ruido blanco y el modelo paseo aleatorio
para el IBEX queda validado, de manera que la mejor predicción del valor del IBEX es el último
valor conocido . Este resultado es coherente con la hipótesis de mercados eficientes en la bolsa
española para el periodo considerado.
En este apartado trataremos los dos primeros problemas, y dejaremos el tercero de ellos para
la siguiente sección.
El motivo último por el que con series con tendencia estocásticas no podemos confiar en
los estimadores ni en que los estadísticos de contraste presenten distribuciones normales, ni
siquiera asintóticamente, es que no siempre podemos aplicar el Teorema Central del Límite,
ni tampoco la Leyes de Grandes Números.
Para comprobar este extremo es necesario considerar el modelo de regresión habitual de
la Parte 13 y particularizar para un caso sencillo en el que uno de los regresares del modelo,
Wt, tiene raíz unitaria. En tal caso, uno de los elementos de la matriz X'X será L,'[= 1 w;,
que
según la Ecuación 17.1.8 será igual a
(17.1.18)
La esperanza del producto frfs es cero cuando r # s. Por tanto, solo los términos r s
caracterizan la esperanza de la expresión 17.1.18, la cual será, toda vez que JE (e;)= 1,
Sea w el vector que contiene todos los términos del tipo Wt, que será un vector de orden
T, entonces el valor esperado del producto y- 1w'w será (T + 1) / 2, que por tanto tiene un
orden de magnitud (ver Sección 5.2.2.2) O(T). Cuando presentamos los supuestos del modelo
de regresión requerimos que los primeros momentos de las variables estuvieran acotados (es
decir que no crecieran indefinidamente). Entre otros, eso garantizaba que y-l X'X estuviera
acotado en probabilidad. Sin embargo, acabamos de ver que si uno de estos términos contiene
una raíz unitaria no es posible tal acotación. Esta situación tiene efectos sobre las propiedades
del estimador y su distribución asintótica.
Para comprobarlo considerademos dos situaciones. Una primera en el que el término error
Et no tiene tendencia estocástica. Recordemos la forma del estimador MCO del parámetro
(1/T) L Xtét
((3~ 1 _ (31 ) =
(1/T)L,x; '
que tiene numerador en el que interactúan una variable con tendencia estocática (que no
revierte a su media) con otra que sin tendencia (que sí lo hace), procurando así que asintóti-
camente estén incorrelados. Por tanto el cociente convergerá4 en probabilidad a cero:
además al resultar que Xt tiene raíz unitaria, facilita que la suma del denominador crezca sin
límite en el tiempo, y por ello el estimador MCO será consistente, y la convergencia al cero
3
Ver los supuestos del modelo de regresión lineal Sección 6.1.
4
Consideramos la variable en diferencias respecto de su media.
656 TENDENCIAS, RAÍCES UNITARIAS Y REGRESIONES ESPURIAS
será a una velocidad de convergencia mayor respecto del caso estacionario en Xt. En efecto,
cuando el error y la variable explicativa son ambas estacionarias, el denominador convergía a
una constante.
Hemos comprobado entonces que la Ley de los Grandes Números es aplicable de manera
que si una de las variables explicativas tiene una raíz unitaria y el término error es estacionario,
obtenemos un estimador consistente de su correspondiente pendiente asociada. Sin embargo,
no ocurre lo mismo con la viabilidad para aplicar el Teorema Central del Límite, el cual es
el que nos permite deducir una distribución asintótica normal. Esto es así toda vez que la
varianza de Xt, y por tanto la de la variable aleatoria Xt, no está acotada. El lector puede
revisar lo indicado en la Sección 5.2.2.4 al respecto. Así pues, no es posible escalar 5 por T 112
(.81 - /31) a fin de hacerla converger a un dist ribución normal, y por tanto los contrastes tipo
t y tipo F dejan de ser útiles.
El segundo caso que consideramos es cuando ambos, error y variable explicativa, tienen
raíz unitaria. Ahora el numerador r-
1
L.: X tEt es una variable de orden en T, es decir Op(T)
con varianza no acotada y por tanto ya no es aplicable al LGN. Así pues no es sería aplicable
ni el LGN, ni como en el caso anterior, el TCL. La convergencia del estimador MCO sería
a una variable aleatoria distinta de la normal, y por tanto no podemos realizar el tipo de
contrastes de hipótesis que habitualmente utilizamos 6 .
A modo de ejemplo vamos a considerar el caso de un modelo autorregresivo de primer
orden , si yt no es estacionaria
Otro problema frecuente de considerar regresiones con series que posiblemente tengan
tendencias estocásticas es el que se produce cuando consideramos regresiones espurias. Para
ver qué significa, y qué problemas genera, consideremos qué sucede cuando regresamos un
proceso de raíz unitaria yt = Yt-1 +Et sobre otro proceso de raíz unitaria, digamos, Xt =
Xt-1 + T/t, independientes entre sí.
1
5
Podemos comprobar que r 1 ! 2 (X'X)- X'e: = T 112 0p(T- 2 )0p(T) i= Op(l), mientras que si ninguno
de los elementos de X tuviera raíz unitaria se tendría el resultado habitual que permite aplicar el TCL:
1
T 112 (X'X)- X'e: = T 112 0p(T- 1 )0p(T) = Op(l) .
6
0bsérvese que en caso de que solo el término error tenga raíz unitaria, entonces también lo tendrá la
variable Yt.
7
La comprobación se deja como ejercicio para el lector interesado y avanzado.
Tema 17 657
Supongamos que las series {ét} y {17t} son iid e independientes entre ellas; por tanto {Yt}
y {Xt} son paseos aleatorios independientes. La ecuación de regresión poblacional es
y que bajo la hipótesis nula caracterice el verdadero modelo. Si fijamos a = O, f3o = O, f31 = 1,
recuperamos Yt = Yt-1 +vt, que es un modelo en el que podríamos contrastar si f3o =O , cuando
es cierta. Sin embargo, tampoco resolveríamos el problema, pues al contener el modelo una
raíz unitaria, esto es, al ser Y de tipo 1(1), entonces reaparecen los problemas que hemos
tratado en el apartado anterior. Es decir, la convergencia del estadístico no es asintóticamente
a una normal, sino a otro tipo de distribución.
8
La deducción formal de la variable aleatoria a la que converge excede el nivel técnico de este libro . No
obstante, se desarrolla adecuadamente en el Tema 18 de Hamilton (1994).
658 TENDENCIAS, RAÍCES UNITARIAS Y REGRESIONES ESPURIAS
800.000
330.000
700000
300.000
.......
250000 500000
200.000 400000
. ...---···
300000
150000
200000
100.000 -·-
100000
Ambos países muestran tendencias crecientes pero su evolución parece haber sido muy
diferente.
La regresión que relaciona el consumo español con el PIB argentino es:
--
CONSUMOEsP = -126212 + 2, 114-PIBAnc
(16791) (01079)
2 -2
...
[17681] [0,107] (17.2.1)
cuyos resultados se pueden calificar de satisfactorios. Todos los parámetros son altamente
significativos; incluso al 1 %, el grado de ajuste es muy grande, más del 90 %, y solo el esta-
dístico DW indica una fuerte autocorrelación de los residuos estimados. No obstante, Ramsey
(1969) sugiere, como regla práctica, que cuando el estadístico Durbin-Watson es menor que el
coeficiente de determinación, DW < R 2 , debemos sospechar que la regresión estimada puede
ser espuria.
Además el problema no se soluciona int roduciendo una tendencia determinista cuadrática,
Tema 17 659
--
LCONSUMOEsP = 9776+O,107·6.PIBARG
( 1132) (0,086)
[1864] [0,147] (17.2.3)
2 -2
n = 55, R = O, 0290, R = O, 0103, DW = O, 579.
Al aplicar diferencias, el PIB argentino no es significativamente distinto de cero a los
niveles usuales, aunque el DW sigue presentando autocorrelación, es mayor que el coeficiente
de determinación; además la regresión solo explica el 2,9 % del consumo, de manera que
podemos estar bastante seguros, al menos , de que esta regresión no presenta problemas de
regresión espuria. En conclusión, tal y como dicta la teoría económica y el sentido común, el
consumo español y la renta argentina no están correlacionados.
A las mismas conclusiones llegamos si planteamos la cuestión a la inversa, es decir, si el
consumo argentino está correlacionado con el PIB español.
La regresión en niveles es:
--
6CONSUMOARG = 4039 +0, 032·6PIBEsP
(2487) (O, 160)
2 -2
.
[2335] [ü,219]
-
(17.2.6)
"'°'
12.000
-10000
1000
-20,000 •ooo
·30 000
30000
'°·'°'
40.000
30.000
l\
20000
10000
·10.000
·20000
-30.000
Las cuatro gráficas muestran variables aproximadamente estacionarias en media pero tam-
bién las cuatro parecen mostrar variabilidad creciente con el tiempo de manera que ninguna
de las cuatro series parece tener una varianza constante. La Figura 17.2.3 muestra la función
de autocorrelación (FAT) de las cuatro series.
Tema 17 661
--
CONSUMOEsP = -6162
(2093)
+o, 789·PIBEsP
(0,005)
2 -2
[4435]
...
[0,011] (17.2.7)
cuyos resultados son satisfactorios excepto por el bajo valor del DW. Además como DW < R 2 ,
debemos sospechar la existencia de regresión espuria. La estimación en diferencias es:
--
6.CONSUMOEsP = -144, 772 + 0, 809·6.PIBEsP
(737,581 ) (0,047)
[800,577] [0,069] (17.2.8)
2 -2
n = 54, R =O, 8484, R =O, 8455, DW = 1, 328,
Hasta ahora hemos determinado si una serie temporal es estacionaria a partir de su gráfica
y su función de autocorrelación muestral, de tal manera que si la gráfica presenta un nivel
estable en el tiempo, entonces decimos que parece estacionaria en media; y si la variabilidad
es aproximadamente estable, entonces decimos que la serie temporal parece estacionaria en
varianza; y si además la función de autocorrelación muestral decrece geométricamente entonces
decimos que la serie es estacionaria también en covarianza. En tales casos podemos concluir
indicando que la serie temporal es compatible con un proceso estacionario , es decir, podría
Tema 17 663
p= (tYt-1Yt) (t~=-1)-l
t=l t=l
Dado que se trata de un modelo con errores homocedásticos y normales, sabemos por el Tema
4 que
y dado que se trata de un AR(l) , sabemos que estos procesos tienen una autocovarianza
JE (~:_ 1 ) = 0' 2 / (1 - p2 ), y por tanto se tiene que
vT (p - p) ~ N (O , (1 - p 2 )) .
Bajo la hipótesis nula de raíz unitaria, obtendríamos entonces una distribución con va-
rianza nula
vT(p-1)~0,
esto es, a una distribución degenerada a un número que acumularía toda la densidad, y por
tanto sería una distribución inútil para poder contrast ar la hipótesis deseada.
Como hemos sugerido anteriormente, es preciso multiplicar o escalar por T, y no por VI',
para obtener una distribución no degenerada. De hecho la distribución a la que converge
664 TENDENCIAS, RAÍCES UNITARIAS Y REGRESIONES ESPURIAS
no es a una distribución estándar (conocida) , sino que converge a un tipo de distribución que
se denomina precisamente de Dickey-Fuller (DF).
En tal caso, esto es, para una hipótesis nula de paseo aleatorio sin deriva, el contraste
sería del tipo t habitual, es decir
p- 1 d
-ee (pA) -t DFo,
Ho : 8 =O versus H1 : 8 <O
En general, no es necesario usar el supuesto de que el error sea gausiano para llevar a cabo
un contraste de DFo. Únicamente lo hemos utilizado a efectos ilustrativos. De hecho las tablas
relativas a DFo son aplicables con un error en forma de ruido blanco. Ya sea con ruido blanco
o ruido blanco gausiano, la hipótesis nula es que el proceso estocástico es estacionario en
diferencias, es decir, que tras realizar una diferencia el proceso se transforma en estacionario.
En términos un poco más generales en los que la serie a analizar presenta una media que
no es cero, entonces deberíamos incorporar términos deterministas a la configuración de la
regresión a estimar. Un problema importante, que también resolvieron Dickey y Fuller, es que
al incluir la constante también cambia el valor del estadístico, por tanto el test se ve afectado.
Si incorporamos una constante a partir del modelo AR (1) usual,
regresión planteada bajo la hipótesis nula implica que el regresando es I(O) y que el regresar es
I(l) (a esto se le denomina regresión desequilibrada); sin embargo, bajo la hipótesis alternativa
ambas variables son J(O) y por tanto se vuelve a equilibrar.
El valor empírico del contraste DF se calcula de la forma habitual, ~(- =
ee1_8;
e¡:),
ee p
donde
los errores estándar ee (s) son los no robustos de MCO. Debemos tener en cuenta también
que el contraste planteado es de una sola cola y rechazamos las hipótesis nula si el valor es
más negativo o menor que el valor crítico de tablas de DF . El uso de tablas diferentes a las
habituales es porque bajo la hipótesis nula estamos planteando una regresión desquilibrada.
La presencia de un proceso con tendencia estocástica I( l), como hemos visto, hace que no
sea aplicable el Teorema Central del Límite, por lo que asintóticamente no se converge a una
distribución normal.
Si rechazamos la hipótesis nula, el constraste nos sugiere que la serie no tiene raíz unitaria,
y entonces sería estacionaria. En particular, las tablas DF a utililzar son las indicadas como
Caso 2 del test tipo t, y es necesario considerar que las mismas son válidas si {30 = O, es decir
las tablas se elaboran considerando que el proceso verdadero es una paseo aleatorio sin deriva.
J p- 1 d
- (
A)= -(
ee 8
A) --+ DF1.
ee P
Ho : ó = O versus H1 : ó < O.
Los valores críticos para el parámetro ó serían los ya presentados con DFo. Si quisiéramos llevar
a cabo un contraste de significatividad sobre alguno de los parámetros / i utilizaríamos las
distribuciones estándar asintóticas habituales. El motivo para esta diferencia es que cualquier
hipótesis del tipo /i = O no introduce ninguna raíz unitaria.
Tema 17 667
P ara llernr a cabo este tipo de contraste ADF es preciso incluir el número de retardos
suficiente que asegure que los errores son IID. Es habitual empezar con un retardo amplio
para el tipo de serie, e ir eliminando retardos irrelevantes.
En la práctica incluimos variables deterministas como la constante. Si ese fuera el caso, es
decir, si estimamos
q
·2
·10
-12 ...........~--~--~--~---
1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
Nos preguntamos si el déficit es estacion ario , y para ello recurrimos el contraste ADF. Con un
retardo de la variable endógena siguiendo el criterio de Akaike, la regresión ADF es:
--
6 déf icitt = -0, 662 - O, 257·déf icitt-l + O, 446·6déf icitt-l ·
(0, 299) (0,095) (0,158)
(17.3.5)
Los valores críticos o de tablas del estad ístico ADF para una muestra de 47 observaciones y
término constante son -2,925 al 5 % y -2 ,60 1 al 10 %.
El valor empírico de J es -2,705 (- 0, 257/O, 095) de manera que solo podemos rechazar la
hipótesis de raíz unitaria al 10 % de significa t ividad.
Por el contrario, si utilizamos el nivel usual (5 %) no podemos rechazar la hipótesis nula de
raíz unitaria .
Como sabemos, cuando no podemos rech aza r la hipótesis nula realmente solo podemos afirmar
que las evidencias empíricas para rechazarla no son suficientes y no significa que necesariamente la
serie tenga raíz unitaria. De manera que el resultado de la prueba ADF es en este caso ambiguo (se
rechaza al 10 % pero no al 5 %) . En todo caso, parece razonable proceder como si tuviera raíces
unitarias ya que la evidencia empírica a los nive les usuales no permite rechazar su existencia .
--
6 PIBt = 13935 + 776, 549 -t - O, 163- PIBt-1 +O,492· 6 PIBt-l·
(7881) (372,297) (0, 089) (0,147)
(17.3.6)
Tema 17 669
Los va lores ere- es o de tablas del estadístico ADF para una muestra de 55 observaciones con
término consta'"-e - ., dencia determinista son -3.494 al 5 % y -3 ,176 al 10 %.
El valor e ::> co de 8 es -1,831 (-0, 163/0, 089) de manera que no podemos rechazar la
hipótesis de ra z u :aria ni siquiera al 10 %, además el valor empírico -1,831 está muy alejado del
valor crít ico a 1 a de significatividad, -3,176. Por consiguiente , la evidencia empírica en contra de
que la serie de P 3 argentino es estacionario en tende ncia determinista es muy grande . Y puesto
que el co ntraste ADF no permite rechazar la existencia de ra íz unitaria consideramos que de hecho
el PIB argentino es estacionario en diferencias.
--
62 PIBt = 3605, 042 - 0,609·6PIBt-l ·
(1652) (0, 131)
(17.3 .7)
Los va lores críticos del estadístico DF para una muestra de 55 observaciones con término
constante son -3,555 al 1 %, -2,916 al 5 % y -2 ,596 al 10 %.
El valor empírico de 8 es -4,649 (-0 , 609/ 0, 131 ) y puesto que el valor empírico es más
negativo o menor que el valor crítico, incluso al 1 %, rechazamos la hipótesis nula de raíz unitaria
y concluimos que las primeras diferencias del PI B argentino son estacionarias.
Una conclusión práctica que puede extraerse de lo presentado en este tema es que la
manera más fiable de tratar la presencia de una serie con tendencia es t ransformar la serie
a fin de que dicha tendencia desaparezca. Una técnica adecuada hemos comprobado que es
trabajar con la primera diferencia de la serie y así modelizar con la serie estacionaria, como
hemos venido haciendo generalmente en los temas presentados.
Desde el punto de vista del modelizador hay que considerar, no obstante, ciertas precau-
ciones. En efecto, los contrastes de Dickey-Fuller pueden no rechazar la hipótesis nula de
raíz unitaria (tendencia estocástica) y sin embargo el proceso podría estar generado por un
parámetro autorregresivo bastante cercano, pero no igual, a la unidad . En este caso, aun no
rechazando la nula de raíz unitaria, no significa que el proceso tenga una raíz unitaria, pues
el cont raste se puede equivocar más de lo esperado. Por otra parte, el contraste de DF y el
ADF consideran que el término error, E:t, es estacionario. En caso de que esto no sea así, los
contrastes de tipo DF no serían apropiados. Si sospechamos que el error no es estacionario .
670 TENDENCIAS, RAÍCES UNITARIAS Y REGRESIONES ESPURIAS
con dos particularidades, la primera es que ahora las variables no son estacionarias, y la
segunda es que ambas variables guardan una relación económica de largo plazo
que como se observa no tiene subíndices temporales pues es una relación económica entre las
variables que «acaba» cumpliéndose. Podemos reescribir la ecuación de largo plazo entre estas
dos variables I(l) de la forma habitual
Y= f3o + f31X
donde f3o = ro/( l - 1'1) , f31 = (óo + 81) /(l - 1'1).
La cuestión es que es posible expresar el modelo ARD(l,1) considerando el valor infor-
mativo de la relación de largo plazo. A partir de la expresión ARD(l ,1) sustraemos a ambos
lados Yt-1 y en el lado derecho le añadimos el término 80Xt-1 - 8oXt_ 1, lo que nos conduce a
/'O ( 80 + 81) )
ó.yt = (r1 - 1) ( ( ) + Yt-1 + ( ) Xt-1 + 806.Xt +et,
/'l - 1 /'l - 1
donde a = (1- 1'1). Como vemos la expresión entre paréntesis es la relación de largo plazo que
tienden a guardar las dos variables. De este modo la variación de la variable Y se explica por la
relación de largo plazo y por la variación de corto plazo experimentada por la variable X. En el
Tema 20 llamaremos a este tipo de expresiones modelos de corrección del error y abundaremos
entonces sobre el rol de las relaciones de largo plazo , que entonces llamaremos relaciones de
cointegración, lo que nos permitirá profundizar sobre cuándo tiene sentido utilizar variables
1(1) y cómo hacerlo. Observamos que en la última ecuación se trabaja simultáneamente con
variables 1(1 ) - en este caso, yt, Xt- junto con variables 1(0) -en este caso, ó.yt, ó.Xt. En estos
Tema 17 671
casos, y siemp_ - :::ia relación de largo plazo entre las variables, no será deseable
trabajar solo - - -__::. I O . En paralelo, las propiedades estadísticas de trabajar con
variables I(l oo_ _ : _ e cointegración veremos que son al menos tan buenas que con la
estimación co_ I O.
Así pues. ·;:;: == -o de vista del económet ra, este se encontrará en la tesitura de
decidir cómo -- <"" presencia de este tipo de varibles y de relaciones. Básicamente
se presentan~;;-:~- - posibilidades cuando t rat a con variables I(l). Si las variables son
(a) estacionari.ó.."'. ) ~ ' 1) y cointegradas, podemos estimar una regresión con la relación
entre los niYe_ - ~ ~ ·-a.riables sin el riesgo de la regresión espuria. En el caso (b) estimamos
primero la ecUGc:' _~o cuadrática entre las I( l) para la relación de largo plazo y luego
estimamos el müci:: e corrección de error que capt ura también la relación de corto plazo.
Si las variab - - I ' l) . pero no hay relación de cointegración, estimamos la relación entre
las variable e ·.:-erencias. Es decir , estimamos un modelo ARD en primeras diferencias. Y
por último. : :as variables tienen tendencia temporal (no estocástica) podemos estimar una
regresión que inc ye una tendencia determinista (de las vistas en este tema) con las variables
en niveles. Es decir. estimamos un modelo ARD en niveles con una tendencia determinista.
Por último. ha de quedar claro que no debemos considerar que los únicos tipos de no
estacionariedad se agotan con los procesos con tendencias deterministas y estocásticas. Un
tipo de proceso no estacionario relevante se presenta cuando hay un cambio estructural en la
función de regresión poblacional. Ya hemos expuesto algo sobre cambios estructurales en el
Tema 7; sin embargo, no vamos a profundizar más en este tipo de procesos no estacionarios,
y remitimos al lector al Tema 14 del manual de Stock y Watson (2007).
EJERCICIOS
Teóricos
l. Las series temporales pueden contener tendencias deterministas y/ o estocásticas, ¿cuál
es la diferencia entre ambas?
2. ¿Cómo podría contrastar si una serie es 1(2)? Indique qué series económicas podrían
presentar esta característica.
3. Suponga que ha decidido utilizar la ecuación de contraste de Dickey y Fuller con término
independiente y tendencia determinista, es decir,
k
6.yt = f3o + ÓYt-1 + ¡ t + L >.. i6.Yt-i + Et.
i= l
¿Cuál sería la hipótesis nula apropiada para contrastar conjuntamente que la serie tiene
una tendencia estocástica pero no determinista? ¿Cuál es la distribución del estadístico
de contraste? Si la hipótesis nula fu ese rechazada, ¿cuál sería la conclusión?
4. Considere los procesos:
672 TENDENCIAS , RAÍCES UNITARIAS Y REGRESIONES ESPURIAS
5. Muestre que, bajo la hipótesis nula, el término error de la regresión del ejercicio anterior,
Zit = f3z2t + Ut, no puede cumplir los supuestos habituales.
Prácticos
6. La tabla ETl 7 1 contiene diversos datos macroeconómicos referidos a la UE y EE.UU.
a) Represente gráficamente las series de dicha tabla y decida la versión del test de
raíces unitarias más apropiado en cada caso.
b) Calcule el valor del test (poniendo atención en emplear el número de retardos
adecuado) y diga si, de acuerdo con el mismo, las series tienen o no una raíz
unitaria. Especifique claramente la hipótesis alternativa.
e) Cuando emplee la tercera versión del contraste (con constante y tendencia en la
ecuación), utilice un test F para contrastar la presencia de raíz unitaria, formulando
explícitamente la hipótesis nula . ¿Cuál es la conclusión si la hipótesis se rechaza?
¿Y si no se puede rechazar?
7. Con los datos de la tabla ETl 7 _ 2, calcule la regresión entre el consumo privado japonés
y la formación bruta de capital en España. A la vista de los resultados, diga si se aprecian
signos de regresión espuria y, en caso afirmativo , señale cuáles.
Tema 18
Los procesos lineales ARMA que hemos estudiado en el Tema 13 se caracterizan, entre otras
cosas, tanto por su varianza marginal (no condicionada) como por su varianza condicionada,
que son constantes. En este tema estudiaremos procesos estacionarios que son no lineales
en la varianza porque aunque su varianza marginal es constante, la varianza condicionada
a sus valores pasados no lo es. El lector puede preguntarse qué sentido o relevancia tiene
centrarse en la modelización de la varianza condicionada. Uno de los objetivos del tema es
entender precisamente la relevancia que este tipo de modelización tiene para el análisis de
datos económicos y financieros.
Los procesos que vamos a explicar en este tema se propusieron para explicar ciertas re-
gularidades que no son posible explicar con los modelos ARIMA. Por ejemplo, las series de
rentabilidades financieras, de las que la Figura 18.4.1 es un ejemplo típico, suelen presentar
las siguientes características:
• Distribución no normal.
• Elevada curtosis.
• Poca estructura en la media: datos casi incorrelados, pero estos datos al cuadrado pre-
sentan fuerte estructura de dependencia.
• La varianza de los residuos de un ajuste lineal (por ejemplo tipo AR::vIA) no es constante
y aparecen rachas o épocas de menor variabilidad seguidas o precedidas de otras de
mayor variabilidad.
Hay varios modelos estocásticos que pueden reproducir este tipo de comportamientos. Los
que vamos a estudiar son los modelo denominados tipo ARCH que sin duda son los más útiles
y relevantes en la literatura actual.
673
674 MODELOS TIPO ARCH
A lo largo de este libro, hemos puesto de manifiesto que en los datos económicos es poco
realista considerar que los errores de los modelos poblacionales planteados sean homocedásti-
cos. Muchas series históricas temporales muestran periodos de una inusualmente elevada vo-
latilidad , seguidos de periodos de relativa t ranquilidad. En tales circunstancias, la suposición
de que la varianza del término error es constante (homocedasticidad) resulta claramente
inapropiada.
No es difícil imaginar situaciones en las que uno puede estar muy interesado en predecir la
varianza condicionada de una serie. Por ejemplo, si uno posee (o considera la posibilidad de
poseer) un activo bursátil, parece razonable que esté interesado en prever el rendimiento del
mismo, y también la varianza (volatilidad) de la rentabilidad durante el periodo de tenencia
del activo. Por el contrario, la varianza no condicionada (es decir, la predicción a largo plazo
de la varianza) no sería importante si los planes son comprar el activo en el periodo t y
venderlo en el t + 1. Desde el punto de vista teórico, podemos decir que hay motivos para
estar interesados en modelizar la media del proceso (rendimiento esperado del activo) y la
varianza condicionada (volatilidad) del mismo.
En esta misma línea, los modelos de precios de los activos indican que la prima de riesgo
dependerá de la rentabilidad (retorno) esperado y de la varianza de esta rentabilidad. La
medida relevante es el riesgo sobre el periodo de tenencia, y no el riesgo no condicionado.
Un gestor de una cartera de fondos que utilice valores de riesgo podría no estar dispuesto
a mantener una cartera con un 5 3 de probabilidad de pérdida de un millón de euros . La
valoración del riesgo debería determinarse usando la distribución condicionada de los retornos
del activo. La varianza condicionada representa así la incertidumbre de las predicciones sobre
acciones o decisiones que entrañan un riesgo entendido de este modo .
Si usamos esta media condicionada para predecir Yt+i, es decir, si utilizamos la predicción
condicionada, entonces la varianza del error de predicción la podemos calcular fácilmente:
1
Utilizando de nuevo la notación contractiva del operador Et.
Tema 18 675
Dado que 1/ (1 - f3I) > 1, la predicción no condicionada tiene una mayor varianza que la
condicionada. Por lo que, la predicción condicionada (que tiene en cuenta los valores actuales
y anteriores de la serie) será preferible.
Igual que modelizamos la media (esperanza) del proceso, ahora estamos interesados en
modelizar la varianza del proceso. Para que esto tenga relevancia ha de darse el caso de que
la varianza de {Et} no sea constante, (}f. Si esto es así entonces se podría estimar cualquier
tendencia de los movimientos en la varianza usando, por ejemplo, un modelo ARMA.
Denominamos {ft} a los residuos estimados del modelo yt = /30 + /3 1Yt-1 +Et . La varianza
condicionada de Yt+1 es:
2 2
var (Yt+1 I Yt) = JEt [(Yt+i - /30 - 81Yt) ] = JEt (Et+1) ,
(18.1.1)
donde Vt es un proceso de ruido blanco.
Si los valores de a1, a2, .. ., aq fueran todos iguales a cero, la varianza estimada sería simple-
mente la constante ao. En otro caso, la varianza condicionada de yt evoluciona de acuerdo con
el proceso autorregresivo dado por la Ecuación (18 .1.1 ). De hecho, podemos utilizar (18 .1.1 )
para predecir la varianza condicionada en t + 1 como
~2 :::2 ~2 ~2
JE tEt+l = O'.Q + O'.lEt + 0'.2Et-1 + ... + O'.qEt+l-q·
Por esta razón, una ecuación de la forma (18.1.1 ) se conoce por modelo autorregresivo
heterocedástico condicionado 2 (ARCH). Este tipo de estructuras dinámicas en los resi-
duos pueden proceder tanto de un modelo tipo ARMA o incluso de un modelo de regresión
como los vistos en las dos primeras partes del libro. La cuestión fundamental es que estos
residuos pueden ser ruido blanco, y sin embargo estar formado por variables dependientes.
Estas dependencias facilitan que sea posible obtener información útil del pasado para explicar
su futuro, algo que no sucedería jamás si los residuos provinieran de una distribución normal.
Una clase de modelos que generan ruido blanco permitiendo simultáneamente dependencia
consiste en utilizar un esquema de perturbación multiplicativa, siendo por tanto una alterna-
tiva a la expresión (18.1.1). El ejemplo más simple de modelos heterocedásticos condicionados
multiplicativos fue el propuesto por Engle (1982):
2
Contracción de la expresión inglesa: A utoRegressive Conditional H eteroskedasticity.
676 MODELOS TIPO ARCH
(18.1.2)
(18.1.5)
~ :=:t Et- 1,Et-2, ... ] = IEt-1 (vt) lEt-1 (ao + a1Ef_ 1)1 12 =O.
Obsérvese que por ahora las propiedades de Et no se ven afectadas por la estructura (18.1.2)
ya que la media condicionada y no condicionada es cero, la varianza es constante y todas las
autocovarianzas on cero . Sin embargo, la influencia de (18.1.2) recae por completo sobre la
varianza condicionada: Dado que JE (v¡) = 1, la varianza de Et condicionada por ét- 1,ct-2, ...
es:
(18.1.6)
Dado que a 1 y Ef- 1 no pueden ser negativos, el mínimo valor de la varianza condicionada
es ao. Para cualquier valor de Et-1 distinto de cero , la varianza condicionada de yt está
positivamente relacionada con a 1. Es de destacar que la estructura univariante de yt puede
generar cambios en la varianza condicionada, y es posible hacerlo sin necesidad de utilizar
una segunda variable. La Figura 18.1.1 muestra el caso de un proceso AR(l) en la media con
errores condicionados heterocedásticos tipo ARCH(l) , esto es:
en donde hemos utilizado exactamente la misma serie de residuos en ambos casos. Por otro
lado , en la Figura 18.1.2 hemos dibujado los residuos heterocedásticos utilizados. Lo primero
que observamos es la interacción entre el proceso de la media de yt y de la varianza del
error del modelo. Además se aprecia igualmente que la volatilidad crece con el parámetro
autorregresivo de orden uno.
El proceso ARCH(l) es un caso interesante que fácilmente nos conduce al modelo ARCH(q)
de mayor orden:
q
Et = Vt ao + '"' .2
L.; a iEt-i. (18.1.7)
i=l
En (18.1.7) todas las perturbaciones desde Et-l hasta Et-q tienen un efecto directo sobre
de modo que la varianza condicionada actúa como un proceso autorregresivo de orden q.
Et ,
La varianza no condicionada será:
q
var(Et) =JE (E¡) =JE [JEt-1 (E¡)] = ao + ¿ a iJE (ELi) ,
i=l
var(Et) = ªº
1 - a1 - ... - aq
,
q
lo que exige la restricción ¿ ai < 1.
i=l
Tema 18 679
20 40 60 80 100
AR(1)-ARCH:1), alpha •O 25
10.---~~~...---~~~.,--~~~,--~~~-.-~~~--,
40 80 100
Figura 18.1.2:
Errores heteroce<fásticos
•
o
-2
-4
•
680 MODELOS TIPO ARCH
donde a-; = 1y
q p
ht = ªº + ¿ o:isLi + ¿ f3iht-i· (18.1.8)
i= l i=l
ht = ªº + 0:1sL1 + f31ht-1,
entonces por un lado tendremos que valores altos de Et dan lugar a una mayor varianza en el
periodo siguiente, y además el nuevo término (3 1 obliga a que la varianza cambie con cierta
inercia, todo lo cual produce rachas de mayor variabilidad.
Este modelo ARCH (p, q) generalizado, llamado GARCH (p, q), permite que la varianza
heterocedástica pueda ser representada por componentes autorregresivos y componentes de
medias móviles. Si tenemos que p = O y q = 1, es claro que el modelo ARCH de primer orden
dado por (18.1.2) es simplemente un modelo GARCH (O, 1). Por lo tanto, si todos los valores
de f3i son cero, el modelo GARCH (p, q) es equivalente a un modelo ARCH (q).
Un modelo ARCH de orden superior (q alto) puede representarse de manera más sencilla
mediante un GARCH, lo cual facilita la identificación del modelo y su estimación. Para ase-
gurar que la varianza es finita, todas las raíces del polinomio característico asociado a (18.1.8)
deben caer en el circulo unitario. Una mayor simplicidad en el modelo especificado supondrá
un menor número de restricciones en los coeficientes.
La característica clave de los modelos GARCH es que la varianza condicionada de las
perturbaciones de la sucesión {Yt} se distribuye como un proceso ARMA. Por tanto es de
esperar que los residuos generados a partir de un filtrado ARMA deberían comportarse en
sintonía con dicho patrón característico. Es decir, suponemos que estimamos {Yt} como un
proceso ARMA. Si la especificación ARMA es adecuada, entonces la ACF y la PACF de los
residuos deberían ser indicativas de un proceso de ruido blanco. Sin embargo, la ACF del
cuadrado de los residuos puede ayudar, en su caso, a identificar el orden del proceso GARCH.
La Ecuación (18.1.8), como hemos sugerido, se parece mucho a un proceso ARMA estándar.
Como tal, si hay heterocedasticidad condicionada, el correlograma debería ser indicativo de
tal proceso. Dos posibles técnicas se basan en los residuos al cuadrado. Son las siguientes:
Tema 18 681
(1) Estimar {yt} usando el modelo ARMA (o el modelo de regresión) que mejor se ajuste,
y obtener los cuadrados de los errores ajustados { tD. También calcular la varianza
muestral de los residuos (0- 2) definida como:
T
0- 2 = ¿ t;/T,
t=l
(2) Calcular y dibujar las autocorrelaciones muestrales de los residuos al cuadrado como:
T
¿ (t¡ - a-2) (tLi - a-2)
t=i+ l
T
¿ (t¡ - a-2)2
t=l
n
Q = T(T + 2) ¿ pi/ (T - i)
i=l
tiene una distribución asintótica x2 con n grados de libertad si la secuencia { t¡} está
serialmente no correlacionada. Rechazar la hipótesis nula de que la secuencia { t¡} no
está correlacionada en serie es equivalente a rechazar la hipótesis nula de no ARCH o
de errores GARCH. En la práctica, debería considerarse valores de n no superiores a
T / 4.
(1) Usar MCO para estimar la ecuación de regresión más apropiada o el modelo ARMA y
sean { t¡} los cuadrados de los errores ajustados.
(2) Regresar estos residuos al cuadrado sobre una constante y sobre los q valores retardados
·2 Et_
Et-l> ' 2 est o es, est•imar una regres10n
·2 2 , ... , Et-q> . , de 1a forma
682 MODELOS TIPO ARCH
Si no hay efectos ARCH o GARCH, los valores estimados de a1 a aq deberían ser cero.
Por tanto, esta regresión tendrá poco poder explicativo de modo que el coeficiente de deter-
minación R 2 será bastante bajo. Usando una muestra de T residuos , bajo la hipótesis nula
de que los errores no siguen un (G)ARCH , el t - estadístico TR 2 converge a una distribución
x2 con q grados de libertad. Si T R 2 es suficientemente grande, rechazaríamos la hipótesis
nula de que a1 a aq son conjuntamente iguales a cero, lo cual es equivalente a rechazar la
hipótesis nula de que los errores no siguen un proceso (G)ARCH. Por otro lado, si TR 2 es
suficientemente pequeño , es posible concluir que no hay efectos ARCH. En muestras peque-
ñas, típicamente utilizadas en trabajos aplicados, un contraste de la F para la hipótesis nula
a 1 = ... = aq = O muestra más potencia que el contraste x2 . Recordemos que el test de la F
consiste en comparar el valor de la F muestral con el valor de F en la tabla F , con q grados
de libertad en el numerador y T-q grados de libertad en el denominador.
(18.1.10)
Este conjunto particular de ponderaciones sobre las variables retardadas , garantiza que se
satisfacen las condiciones ao > O y O < a1 < 1.
Una cuestión importante que ahora anticipamos es cómo estimar los coeficientes de las
ecuaciones (18.1.9) y (18 .1.11) sin perder eficiencia. La solución más generalizada utiliza técni-
cas de estimación máximo verosímiles no lineales , que brevemente expondremos más adelante
en este tema.
Las estimaciones máximo verosímiles del modelo de Engle son:
ht = 0,000014 +0,955
(8,5 X 10- 6 ) (0,298)
Los valores estimados de ht son las varianzas condicionadas del error de predicción. Todos
los coeficientes (excepto el propio retardo de la tasa de inflación) son significativos a niveles
convencionales. Usando los valores calculados para {ht}, Engle aprecia que la desviación típica
de las predicciones de la inflación se duplicó a medida que la economía del Reino Unido pasó
de los años sesenta a los caóticos años setenta. La estimación puntual de 0,955 indica unos
efectos de severa persistencia a lo largo del tiempo.
ht = 0,282.
En dicho trabajo, la Ecuación (18.1.12) presentó coeficientes significativos a niveles con-
vencionales, con unos valores estimados de los coeficientes de autorregresión que implicaban
estacionariedad. La FAT y la FAP no tuvieron coeficientes significativos al nivel del 5 3 de
significación. En cambio, la FAT y la FAP de los residuos al cuadrado (tn arrojaban correla-
ciones significativas. De hecho, los contrastes estadísticos para errores ARCH(l), ARCH(4) y
ARCH(8) fueron altamente significativos.
Ante esta situación, Bollerslev estima el modelo ARCH(8) restringido, y para tal restricción
utiliza una técnica ya prevista por Engle y Kraft (1983). El resultado fue:
8
ht = 0,058 +0,802 ¿ [(9 - i) / 36J cLi·
i=l
(0,003) (0,265)
Pese a que los coeficientes de la autorregresión (18.1.12) y (18.1.13) son bastante similares,
los modelos para la varianza son bastante diferentes. La Ecuación (18.1.12) asume varianza
constante, mientras (18.1.13) asume que la varianza (ht) es una media ponderada geométri-
camente decreciente de la varianza de los 8 t rimestres previos. Ambos hechos implicarán que
las predicciones de la tasa de inflación de los dos modelos deberían ser similares, pero los
intervalos de confianza alrededor de la predicción diferirán: la Ecuación (18.1.12) generará un
intervalo constante de anchura invariable, mientras que la Ecuación (18.1.13) produce inter-
valos de confianza que se expanden en los periodos de volatilidad de la inflación y se contraen
en los periodos de relativa tranquilidad.
En paralelo, Bollerslev, a fin de subrayar la relevante utilidad de los GARCH, contrasta la
posible estructura GARCH de primer orden en la varianza condicionada, para lo que estima
la ecuación:
8
ht = ao + a1 I: [(9 - i) /36] eLi + ,81ht-l· (18.1.14)
i=l
En primer lugar construye los residuos de la varianza condicionada de (18.1.13), poste-
riormente calcula la regresión de estos residuos sobre una constante y ht-1, en cuyo caso TR 2
Tema 18 685
sigue una distribución x2 con un grado de libertad. El estadístico realizado es T R 2 = 4,57 que
al nivel del 5 % de significación, conduce a no rechazar la hipótesis de un proceso GARCH de
primer orden. Dada la relevancia del coeficiente (31 estima el siguiente modelo GARCH(l,1):
Ahora las pruebas rutinarias de diagnóstico indican que la FAT y la FAP de los residuos
al cuadrado no revelan ningún coeficiente que exceda 2r-o, 5 . El contraste de residuos hete-
rocedásticos para la presencia de retardos adicionales de ef y para la presencia de ht_ 2 no es
significativo al 5 %.
Es relevante apreciar que la inclusión de la modelización GARCH dota de mayor «simpli-
cidad» al modelo (18.1.15) respecto del modelo (18.1.13).
yt = ao + f3Xt + et (18.2.1)
2 2 ) 0,5
et = Vt ( ÜO + Ület-1 + ... + üqet-q + f31ht-1 + ... + (3pht-p , (18.2.2)
donde Xt puede ser un proceso ARMA de orden (pm, qm). Además, Xt puede contener varia-
bles exógenas.
La primera ecuación modeliza el comportamiento de la media (esperanza) y la segunda
nos modeliza el comportamiento de la varianza. Los símbolos pm y qm se utilizan para denotar
el orden del proceso ARMA para la media, que obviamente son distintos, en general, de los
órdenes que caracterizan a la ecuación GARCH(p,q). Ambas ecuaciones están relacionadas,
ya que ht es la varianza condicionada de et; por tanto, el proceso GARCH de (18.2.2) es la
varianza condicionada de la Ecuación (18.2.1), lo cual comprobamos fácilmente.
Dado que et = Vt (ht)º' 5 , entonces la relación entre ht y ef será
(18.2.3)
(18.2 .5)
Por tanto , la varianza no condicionada, estará correctamente definida para a1 + /31 < 1, y
será:
q p
1- ¿ Üi - ¿ /3i > o.
i=l i=l
so
80
70
1....
60
.......
,
50
....."
·:
40
30
20
10
20 40 60 80 100
ht = 1 + Ü,6Ef-1 + Ü, 2ht-l·
h~ = 1 + Ü,2Ef-1 + 0,6h~-l ·
de los que generamos, a partir de una misma serie de innovaciones Vt, una realización
de procesos de errores al cuadrado E¡ 2
= v'f ht y (E~) = v'f h~. Representamos ambas
realizaciones en la Figura 18.2.1 , la primera con trazo discontinuo y la segunda con
trazo continuo.
Dado el valor de ht, consideremos que llega nueva información, lo cual queda recogido en un
shock Vt que, obviamente, tiene un efecto inmediato sobre E¡. En la Figura 18.2.1, podemos
688 MODELOS TIPO ARCH
T
SCR' = ¿ (cUht) 2 .
t= l
Si los valores el estuvieran cercanos a los valores estimados de ht, entonces deberíamos
seleccionar aquel modelo con la menor SCR'. También es posible elaborar un criterio tipo
AIC o SBC si consideramos que las innovaciones provienen de una distribución normal. En
tal caso, el valor que maximiza la función de verosimilitud depende de
T
L = - ¿ [zn(ht) + cUht],
t=l
Esta expresión estandariza cada residuo usando su desviación típica condicionada. La serie
resultante, Vt, debería tener media cero y varianza uno.
Si hay alguna correlación serial en la secuencia {vt}, el modelo de la media no está es-
pecificado apropiadamente. Para analizar el modelo de la media, se hallará el estadístico- Q
de Ljung-Box para la secuencia {vt} . No se debería poder rechazar la hipótesis nula de que
varios Q-estadísticos son cero. Del mismo modo, para analizar los restantes efectos GARCH,
podemos utilizar el estadístico-Q de Ljung-Box ahora sobre los residuos estandarizados al
cuadrado (esto es, vi?). Si no hay efectos GARCH rest antes, no se debería poder rechazar
la hipótesis nula de que los valores muestrales de los Q-estadísticos sean iguales a cero. En
definitiva, Vt 2 es un estimador de cUht = v[, y como tal, las propiedades de {vt 2 } deberían
imitar a aquellas de un proceso de ruido blanco.
Una vez que el modelo es satisfactorio, el siguiente paso es utilizar el modelo para pre-
decir valores futuros de yt y de su varianza condicionada. Además, el modelo permite crear
intervalos de confianza alrededor de la predicción usando la estimación de la desviación típica
condicionada. Dado que lEtct+i = ht+1, un intervalo de confianza para la predicción puede
construirse como
Observamos que dado que la esperanza de todo proceso GARCH es cero, la predicción
óptima de Yt+j no se ve afectada por la presencia de errores tipo GARCH. Es, en cambio,
el intervalo de confianza alrededor de la predicción el que se ve afectado por la varianza
condicionada.
La predicción para un periodo hacia adelante de la varianza condicionada es fácil de
obtener. Si actualizamos ht un periodo, encontramos
18.3.1. ARCH-M
Engle, Lilien y Robins (1987) extendieron el modelo básico ARCH para permitir a la media
de la serie depender de su propia varianza condicionada. Esta clase de modelo, llamado el
modelo ARCH en Media (ARCH-M), es particularmente adecuado para estudiar los mercados
690 MODELOS TIPO ARCH
de activos. Dado que el grado de riesgo de un activo puede ser medido por la varianza de la
rentabilidad, la prima de riesgo será una función creciente de la varianza condicionada de las
rentabilidades. La idea consiste en escribir el exceso de rentabilidad por tenencia de un activo
con riesgo como
(18.3.1)
donde yt representa el exceso de rentabilidad por la tenencia de un activo a largo plazo relativo
a un bono del Tesoro en un periodo; µt es la prima de riesgo necesaria para inducir al agente
con aversión al riesgo a mantener el activo a largo plazo en lugar de el bono de un periodo y
ét es el shock no predecible del exceso de rentabilidad sobre el activo a largo plazo.
El exceso de rentabilidad esperado por la tenencia de un activo a largo plazo debería ser
igual a la prima de riesgo:
Engle, Lilien y Robins asumen que la prima de riesgo es una función creciente de la
varianza condicionada de ét, esto es, a mayor varianza condicionada de las rentabilidades,
mayor compensación es necesaria para inducir al agente a mantener el activo a largo plazo.
Matemáticamente, si ht es la varianza condicionada de ét · la prima de riesgo puede expresarse
como:
ó> o, (18.3.2)
donde ht es el proceso ARCH ( q)
ht = ªº + ¿ aicLi· (18.3.3)
i=l
Como un conjunto, las Ecuaciones (18.3.1), (18.3.2) y (18.3.3) constituyen el modelo básico
ARCH-M. Obsérvese que si la varianza condicionada es constante (es decir , a 1 = a2 = ... =
cxq =O) el modelo ARCH-M se convierte en el caso tradicional de prima de riesgo constante.
St = ·
Para analizar los efectos apalancamiento, se estima la regresión de la forma
,:·-.
N( 0 . 1 ) -
tOJ - --
"
º"
" ,, ''
"
01'
j '
o.os --
estándar con una t- distribución con un grado de libertad. Se observa que la distribución de
la t -de Student asigna (prevé) una mayor probabilidad sobre las realizaciones grandes que la
distribución normal. Por este motivo, los paquetes informáticos permiten estimar un modelo
GARCH usando una t- distribución u otra con colas pesadas.
Modelos con variables explicativas: al igual que el modelo de la media puede contener
variables explicativas, la especificación de ht también se permite para variables exógenas.
Por ejemplo, suponemos que queremos determinar cómo una noticia puntual incrementa la
volatilidad de la rentabilidad de los activos. Una manera de atacar esta tarea sería crear una
variable dummy Dt igual cero O antes del evento e igual a 1 después. Se considera la siguiente
modificación de la especificación G ARCH (1, 1)
Ilustramos las técnicas desarrolladas anteriormente con el estudio de la serie temporal del
índice NYSE. En particular estamos interesados en la rentabilidad de dicho índice compuesto.
Los datos están formados por los días laborables en el periodo 03/ 01 / 2000 - 30/ 07 / 2008.
La Figura 18.4. l representa la serie objeto de análisis, obtenida a partir del índice NYSE
calculando la rentabilidad como la diferencia del logaritmo del índice y multiplicando por
100. Claramente se aprecian periodos en los que hay solo pequeños cambios en la serie (2003 -
2005) y otros en los que hay bloques de grandes aumentos y disminuciones en la rentabilidad
de este índice.
Tt = 100 X ln (NYSEt/NYSEt-1),
Tema 18 693
Recordemos que este modelo para la media no es el definitivo dado que se ha hecho con-
siderando que la varianza es constante. Si la varianza es realmente variable en el tiempo,
entonces el error estándar de los coeficientes puede cambiar sustancialmente cuando los mo-
delos de la media y la varianza se estiman conjuntamente. Los estadísticos tipo t nos sugieren
que podríamos prescindir del intercepto, sin embargo lo mantenemos porque, dado que exis-
ten ventajas en usar la técnica de regresión con término intercepto , a medida que vayamos
utilizando distintos modelos para la varianza condicionada el estadístico tipo t del intercepto
puede ir variando.
El siguiente paso es comprobar si los residuos del proceso son compatibles con ruido blanco.
La FAT (ver Tabla 18.1) tiene todos los residuos no significativos al 5 %, lo que sugiere que
el modelo para la media del proceso es aceptable.
694 MODELOS TIPO ARCH
03
o 25
02
o 15
01
o 05
-6 -4 -2
t; = o, 13
(0,078)
+ o,o3
(0,019)
tL 1 + (0,020)
0,15 tL2 + 0,21 tL 3 + o,o4 tL 4 + 0,06 tL 5 ,
(0,021) (0,020) (0,019)
cuyo estadístico de contraste es 227,9 con un p-valor inferior a 0,0001, por lo que podemos
concluir que hay errores GARCH.
Uno de los modelos más sencillos es el GARCH (1,1), y por tanto puede ser un modelo
interesante para comenzar la modelización de la varianza condicionada. Si posteriormente las
pruebas de ·a~· - ico no son superadas por el modelo seleccionado, podremos cambiar a
otro.
A partir de cuadrado de los residuos, la estimación máximo verosímil simultánea de la
media y la varianza nos conduce a
Pruebas de diagnóstico
05
El diagnóstico se lleva a cabo en la serie de residuos estandarizados St = it/ ht ' . El corre-
lograma (FAT) de los residuos estandarizados se muestra en la Tabla 18.3 que indica ausencia
de autocorrelación serial. Por otra parte, la FAT del cuadrado de los residuos estandarizados
apunta también en la misma dirección de ausencia de efectos GARCH. De hecho, si hacemos
la regresión
y si usamos varios valores de n , encontraremos que ninguno desde {31 hasta f3n es estadís-
ticamente significativo. Además, no podemos rechazar una hipótesis nula del tipo {31 = f32 =
··· = f3n =O.
Cabe ahora preguntarse por el efecto apalancamient o. Si no hubiera efecto apalancamiento,
st no debería estar correlacionado con los retardos en niveles { st}. Sin embargo , considerando
la ecuación de regresión
observamos que los coeficientes de St-1 y St-2 son altamente significativos. Dado que los signos
son negativos, concluimos que shocks negativos se asocian con valores grandes de la varianza
condicionada. Debemos entonces considerar la estimación por un modelo asimétrico.
·2
.4 o
-6
o
·8
.4 -3 ·2 ·l o 4
Cuantiles de la Normal
4
l:
3
o
2000 2001 2002 2003 2004 2005 2006 2007 2008
698 MODELOS TIPO ARCH
requieren que el usuario introduzca un pequeño algoritmo de optimización. Esta sección téc-
nica explica los métodos de máxima verosimilitud requeridos para comprender y escribir un
programa para modelos del tipo GARCH.
A modo introductorio, supongamos que los valores de {Et} están construidos a partir de
una distribución normal con media cero y varianza constante 0' 2 , es decir, la probabilidad
de cualquier realización de Et es:
Es mucho más fácil trabajar con sumatorios que con productos. Así, es conveniente tomar
logaritmos a cada lado para obtener
(18.5.1)
Et = yt - f3Xt. (18.5.2)
(18.5.3)
2
Para maximizar esta función, derivamos respecto 0' y {3
Tema 18 699
T
8lnL _
a;;x- - - ~
T
- 1
2(?" ¿ (yt - f3Xt)2
t=l
(18.5.4)
T
~ = ~ 2:: (YtXt - f3X't) .
t=l
2
Igualando estas derivadas parciales a cero y resolviendo para los valores de 0' y f3 que
producen el máximo valor de lnL , tenemos que:
De especial interés es observar que las condiciones de primer orden son fácilmente resolubles
dado que son lineales. Este no es el caso en la estimación de un modelo ARCH o GARCH
dado que las ecuaciones de primer orden no son lineales. En su lugar, la solución requiere
algún tipo de algoritmo de búsqueda. Por ejemplo, podemos considerar un proceso de error
ARCH(l) en el modelo de regresión dado en (18.5.2) donde suponemos que et es el término
de error en la ecuación lineal yt - f3Xt = et que ahora está modelizado por
T T T
lnL = -
2
ln(27r) - 0,5 2:: lnht - 0,5 ¿ (eUht).
t=l t=l
T- l T T
lnL = - --ln(21f) -0,5
2
¿ ln (ao + a1eL 1) - 0,5 ¿ ((Yt - f3Xt) 2 / (ao + a1eL 1)).
t=l t=l
700 MODELOS TIPO ARCH
Para empezar usamos el hecho de que el= vlht, por tanto c;+J = vl+Jht+J· Actualizando
j periodos y tomando esperanzas condicionadas a ambos lados, debería ser claro que:
(18.5.5)
(18.5.6)
Dado ht+1 , podemos usar (18.3.1) para predecir todos los valores siguientes de la varianza
condicionada como:
Si (a1 + /31) < 1, la predicción condicionada de ht+j convergerá a largo plazo al valor:
EJERCICIO
Los vectores autorregresivos (VAR) fueron planteados originalmente por Sims (1980) como
una metodología alternativa a la denominada econometría tradicional. A comienzos de la
década de los setenta del siglo pasado, la metodología tradicional se basaba en la construcción
de (grandes) modelos de ecuaciones simultáneas en los que las variables estaban divididas en
dos grupos: endógenas o determinadas dentro del modelo, y exógenas. La estimación de estos
modelos exigía que estuviesen identificados, lo que a su vez implicaba el cumplimiento de
determinadas restricciones generalmente de exclusión (es decir, en cada una de las ecuaciones
identificadas, debían excluirse una o varias variables). Estas restricciones no tenían mucho
que ver con la teoría económica y eran contempladas con creciente escepticismo por una parte
importante de la profesión. La división entre variables endógenas y exógenas también parecía
arbitraria . Si a esto unimos el hecho de que los modelos multiecuacionales sufrieron un rotundo
fracaso durante la crisis de los setenta, podemos entender el contexto en el que Sims planteó
su alternativa metodológica.
Un VAR es un modelo multivariante que amplía el modelo univariante AR para estudiar
conjuntamente dos o más series temporales . Para introducir el concepto, consideremos que
solo tenemos dos variables X e Y. El VAR será entonces un modelo formado únicamente por
dos ecuaciones. En la primera, X se hace depender de sus propios retardos y de los retardos de
la otra variable, Y. Análogamente en la segunda ecuación la variable dependiente Y depende
de los valores retardados de X e Y. Formalmente:
Los supuestos del VAR son los mismos que formulamos para la regresión con series tem-
porales, aplicados a cada una de las ecuaciones que lo conforman.
Si llamamos W t al vector formado por Xt e Y t, podemos escribir el VAR en notación
matricial de la siguiente manera:
703
704 INTRODUCCIÓN A LOS MODELOS VAR
(19.1.1)
Aj = ( :~~ ~~~ ).
Siguiendo una regla análoga a la vista cuando estudiamos los modelos ARMA, el número
de retardos incluidos en las ecuaciones del VAR (habitualmente los mismos) determina el
orden del sistema. Así el orden de (19.1.1) será p, pues pes el retardo más largo. El VAR más
sencillo que cabe imaginar es un VAR(l) con dos variables, cuya expresión sería:
Wt = Ao + A 1Wt-l + Ut =
(19.2.2)
2
AIC(p) = ln [det (¿u)]+ k(p + 1) T' (19.2.3)
donde ¿u representa como antes la matriz de varianzas y covarianzas de los errores del VAR
que se estima a partir de Ut. Hay otros estadísticos. El criterio de información de Schwarz
(SBC) tiene una expresión parecida a la anterior.
Calculado el AIC (o cualquier otro criterio) para distintos órdenes, elegiremos aquel que
proporcione un valor menor.
Por ejemplo, estimados un VAR(2) y un VAR(3) para las variables inflación y los tipos de
interés a corto en EE.UU. , con datos cuatrimestrales del periodo 1960ql-2010q4, se obtienen
las siguientes estimaciones para las matrices de varianzas y covarianzas de los residuos:
y como el valor crítico de una x~ para un nivel de significatividad del 5 3 es 9,49, rechazaríamos
la hipótesis nula (p=2) en favor de la alternativa (p = 3). A continuación podemos contrastar
Ha : p = 3 contra H 1 : p = 4 y así sucesivamente.
Si utilizamos el Criterio de Información de Akaike:
(19.3.1)
( ~;) ( )
-l ( au
n21
1
-121
es decir,
)( Xt-1
Yt- 1
(19.3.3)
Wt = r1Wt-l + Ut.
Visto de esta manera, el sistema 19.3.3 es la forma reducida del VAR estructural 19.3.1,
dado que tanto x como y están expresadas en función de las variables predeterminadas del
sistema. Nótese además que bajo las condiciones de 19.3.1, E(uitU2t) en 19.3.3 será en general
distinta de cero.
A diferencia de lo que sucedía en el VAR estándar, las ecuaciones de un VAR estructural no
pueden ser estimadas por MCO, dado que no todos los regresares son exógenos: en la primera
ecuación del sistema 19.3.1 Yt está correlacionado con Eit y lo mismo sucede con Xt y E2t en la
segunda. Este problema podría solventarse utilizando la representación equivalente expresada
en 19.3.3, dado que en la forma reducida todos los regresares son efectivamente exógenos (solo
hay variables predeterminadas a la derecha de ambas ecuaciones). Sin embargo, para que esta
forma de proceder resultase operativa, debería de ser posible obtener todos los parámetros
de 19.3.1 a partir de las estimación de 19.3.3. ¿Es esto posible? La respuesta es claramente
negativa, puesto que el número de parámetros en 19.3.3 es inferior al del sistema 19.3.1, como
puede comprobar fácilmente el lector. En definitiva, nos enfrentamos a un típico problema de
identificación: a menos que se impongan restricciones sobre el VAR estructural, no es posible
identificar los parámetros del mismo.
¿Cuántas restricciones son necesarias para alcanzar la identificación? Puede comprobarse
(aunque no lo haremos aquí) que en un VAR con k variables, es necesario imponer al me-
2
nos k 2k restricciones. En el ejemplo que venimos manejando, esto significa que una sola
restricción sería suficiente para identificar todos los parámetros de la forma estructural. Por
ejemplo, supongamos que por nuestro conocimiento teórico admitimos que y tiene efectos
contemporáneos sobre x, pero que no hay efectos contemporáneos de x sobre y. En términos
prácticos ello significa que imponemos la restricción 1 21 = O. En nuestro caso, esto es todo lo
que necesitamos para obtener la identificación. Además , esta restricción implica que el VAR
estructural 19.3.1 se convierte en un sistema recursivo:
Como es sabido, este t ipo de sistemas sí pueden ser estimados por MCO. En efecto, las
variables explicativas de la segunda ecuación son retardos de x e y, por lo que no plantean
problemas de endogeneidad. Y en la primera ecuación tampoco hay ahora relación entre y y
élt·
19.4. PREDICCIÓN
La predicción es una de las causas del éxito de los VAR y una de sus principales aplica-
ciones. Para ilustrar su funcionamiento , volvamos al VAR(l) dado en 19.1.2. La predicción
óptima de Wt para el periodo t+ l, vendrá dada por:
(19.4.1)
Supongamos que hemos estimado un VAR(l) para la inflación y el tipo de interés a corto
plazo empleando datos trimestrales de EE.UU. del periodo 1959q2 - 2010q4. La estimación
proporciona
2
1 o) ( 0,9307 0,3081 ) ( 0,9307 0,3081 ) ] ( 0,0621 )
Wt+ 3 [( O 1 + 0,0164 0,8325 + 0,0164 0,8325 0,0940
3
0,9307 0,3081 ) ( 0,5007 ) = ( 0,46207 ) .
+ ( 0,0164 0,8325 0,1833 0,8049 '
y para el último trimestre:
A ( 0,4594 )
Wt+4 = 0,9786 .
Obviamente el error de predicción irá aumentando progresivamente con el horizonte tem-
poral de la predicción.
Otra posibilidad es utilizar la denominada predicción iterada. Consiste en reestimar el VAR
después de cada pronóstico, empleando este como un dato adicional. Es decir, si queremos
emplear este procedimiento para efectuar una predicción h periodos adelante, procederemos
de la siguiente forma. Se estima el VAR con los datos conocidos. A continuación se efectúa
una predicción para el siguiente periodo ( t+1). Empleando ese pronóstico como un dato más
se vuelve a estimar el VAR y se efectúa una nueva predicción para el periodo ( t+2) y así
sucesivamente hasta llegar al periodo h.
Como señalan Stock y Watson (2001) , debido a la compleja dinámica de los VAR, la
práctica habitual consiste en proporcionar los resultados de estas tres utilidades, más que
centrarse en el coeficiente de determinación o la significatividad individual de los coeficientes.
El análisis de causalidad de Granger estudia si los retardos de una determinada
variable son de utilidad para elaborar pronósticos sobre otra. Si es así, decimos que la primera
causa en el sentido de Granger a la segunda. Consideremos de nuevo el VAR(2) con dos
variables presentado en (1), que volvemos a escribir expresado en desviaciones con respecto a
la media:
Así en el VAR(3) para la inflación y los tipos de interés a corto, el contraste de causalidad de
Granger arrojaría el resultado presentado en la Tabla 19.1. En la segunda fila de la tabla se
recogen los resultados correspondientes a la ecuación de inflación. La hipótesis nula es que los
coeficientes correspondientes al tipo de interés son conjuntamente iguales a cero. Utilizando
un test F encontramos que esa hipótesis no puede ser rechazada, de manera que no habría
causalidad (en el sentido de Granger) de los t ipos de interés a la inflación. Sin embargo en la
ecuación del tipo de interés (tercera fila) , la hipótesis nula de que los coeficientes de la inflación
son conjuntamente iguales a cero resulta claramente rechazada dado el reducido valor p, por
lo que la inflación sí ejercería una influencia causal sobre el tipo de interés.
Podemos generalizar este análisis sin problemas para contemplar más de dos variables.
Para ello puede ser de utilidad emplear la siguiente notación para un VAR con k variables:
(
X1t
X2t
X~t
l (
Au(L)
A21 (L)
Ak1 (L)
(19.5.1)
donde Aij (L) representa los coeficientes de los retardos de la variable j sobre la ecuación de
la variable i. Entonces diremos que la variable j no causa, en el sentido de Granger, a la
variable i, si no se puede rechazar la hipótesis nula de que todos los coeficientes de Aij (L),
son estadísticamente iguales a cero.
Las fun ciones de respuesta al impulso (FRI) son otra de las características esenciales de
esta metodología . De la misma manera que un modelo autorregresivo univariante admite una
representación en forma de medias móviles, el VAR puede expresarse también como un sistema
vectorial MA(oo). Por ejemplo, un VAR con dos variables podría expresarse como un VMA
de la siguiente manera:
Tema 19 711
(19.5.2)
A1 = ( 0,6 0,3)
-O ,1 O 2 .)
En primer lugar habría que verificar que el VAR es estacionario1, dado que no tiene sentido
analizar las FRI en otro contexto. En este caso puede comprobarse que los valores propios de
A1 son menores que l. Supongamos que la matriz de varianzas y covarianzas de las pertur-
baciones es:
y que los valores iniciales 2 son nulos y'{; = ( O O ) . Analicemos el efecto sobre la senda
temporal de las variables del sistema de un shock de una desviación estándar 3 en el primer
elemento del vector de las perturbaciones. Es decir, supondremos que en el periodo 1 uf =
(3, O), volviendo a ser nulo dicho vector en los periodos siguientes. Entonces para el primer
periodo se tiene:
~,6
( 0,1
0,3 ) (
0,2 oo ) + ( o3 ) ( 3 )
o
Y2 = A iY1 + u2 = 0,6
( -O,l
0,3 ) ( 3 ) + ( o) ( _1,8 )
0,2 o o 0,3
1
El VAR será estacionario si los valores propios de la matriz A 1 son menores que la unidad.
2
Dado que lo que nos interesa es la evolución dinámica de las variables ante shocks , no es restrictivo en
absoluto considerar unas condiciones iniciales dadas.
3
Considerar shocks en términos de desviaciones típicas es muy habitual puesto que nos evita los problemas
de las distintas unidades de medida.
712 lNTRODU CCIÓ!\ A LOS MODELOS VAR
·1
_,
0 1 2 ) A S 6 T 1 9 10 11
E(u 1 u 2 ) = 2
12w,1 1120- 2
+ 2
(1-112121) 5 ,
que será distinto de cero, y por tanto las perturbaciones del sistema no serán independientes.
Para solucionar este problema, lo que suele hacerse es generar un nuevo conjunto de pertur-
baciones ortogonales, que tendrán varianza constante (unitaria) y no estarán correlacionadas
entre sí. El procedimiento, que puede verse por ejemplo en Johnston y Dinardo (2001), podría
ser como sigue. En primer lugar hacemos E1 = en u1, de manera que si ha de tener varianza
unitaria, en = 1/ s1, siendo s1 la desviación estándar muestra! de u 1 . A continuación se
efectúa la regresión de u2 sobre u1 obteniendo las discrepancias c2= u2 - c21 u1, que por cons-
trucción estará incorrelacionada con u1 y también con E1 . Si llamamos s2,1 al error estándar
de la regresión anterior y hacemos E2 = c2/ s2,1, la transformación adecuada queda definida
por:
Tema 19 713
P=( l/~2,1 ) ,
de manera que,
Apliquemos todo esto al ejemplo anterior y veamos qué sucede con el vector u cuando se
produce un shock de una desviación estándar en el primer elemento de e sin que se modifique
el segundo. Dado que
o ),
s2,1
en tanto que:
714 INTRODUCCIÓ N A LOS MODELOS VAR
mientras que,
Ut+h
2 Ah-1
+ A lllt+h-1 + A lllt+h-2 + ··· + l llt+l· (19.5.3)
Bajo los supuestos del modelo, la varianza del error de pronóstico 19.5.3 es:
(19.5.4)
(
Xt )
Yt
= f ( 'Pll (~)
i=O 't/21(i)
't/12(~)
't/22 (i)
) ( élt-i ) '
é2t-i
se tiene que el error de predicción h periodos adelante para el primer proceso será:
siendo su varianza
Tema 19 715
En esta sección ilustramos esta metodología con un caso concreto: la modelización VAR
de la inflación, el tipo de interés a corto plazo y la oferta monetaria en nuestro país. Para la
inflación hemos utilizado la tasa de crecimiento interanual del deflactor del PIB. El tipo de
interés es la diferencia del t ipo de interés a 3 meses de las letras del Tesoro y, finalmente, para
la oferta monetaria hemos empleado la tasa de crecimiento interanual del agregado M3. Los
datos de frecuencia trimestral, corresponden al periodo 1982(Q3) - 2008(Q4).
En primer lugar mostramos, en la Tabla 19.3, los resultados de los contrastes de ratio de
verosimilitud4 y el criterio de información de Akaike, para determinar la longitud óptima de
los retardos. En ambos casos la longitud del retardo es 6. Estimamos pues un VAR(6) , es decir,
estimamos inflación, tipo de interés y oferta monetaria, en función de seis retardos de cada
una de dichas variables más un término independiente. La Tabla 19.4 recoge los resultados
del contraste de causalidad de Granger.
4
Estos valores son los que muestra, junto a otros, el programa Eviews. El contraste LR está calculado de
la siguiente manera: a partir de una longitud de 8 para el retardo máximo (valor que debe ser elegido de
antemano por el usuario), se va obteniendo sucesivamente el resultado del contraste LR como hemos señalado
en el texto. Nos detenemos la primera vez que la hipótesis nula resulta rechazada.
716 INTRODUCCIÓN A LOS MODELOS VAR
Figura 19.6.1: Funciones de respuesta al impulso de la inflación (Xl) al tipo de interés (X2)
y a la oferta monetaria (X3)
Response of X 1 to X2 Response of X 1 to X3
16...---------------, 16...---------------,
12 12
.................-------- . ·---·------.......... , __
4 ••• --?--·----~------.._ 4
····.............
-8 -8 ··.,
- 12-;--,--,---,-~-~-,---~--1 -12;---r-...---,---.--r----r--.---r---I
1 5 7 10 1 2 4 9 10
Figura 19.6.2: Funciones de respuesta al impulso del tipo de interés (X2) a la inflación (Xl)
y a la oferta monetaria (X3)
Response of X2 to X1 Response of X2 to X3
-1 -1
2 4 5 9 10 2 4 7 9 10
718 INTRODUCCIÓ N A LOS MODELOS VAR
2 2
- 1-~~----------1 - 1 -~~----------1
1 2 6 9 10 1 2 4 9 10
Asimismo en Figuras 19.6.2 y 19.6.3 se muestran las respuestas del tipo de interés y la
oferta monetaria ante shocks inesperados en los errores de las otras ecuaciones del sistema.
En las Tablas 19.5, 19.6, y 19.7 ofrecemos la descomposición de la varianza. Obsérvese la
influencia del orden causal implícito (inflación, tipo de interés, oferta monetaria): un shock
en la ecuación de inflación solo influye en el primer periodo sobre la propia ecuación de
inflación , ya que, para el orden causal considerado , esta variable no entra como explicativa
contemporánea en ninguna de las otras dos ecuaciones. Sin embargo, un shock en la ecuación de
tipo de interés afectará en el momento de producirse tanto al tipo de interés como a la inflación,
puesto que el tipo de interés entra sin retardos en la ecuación de inflación. Finalmente, si el
shock se produce en la ecuación de oferta monetaria habrá efectos contemporáneos en todas
las ecuaciones del sistema. Como señalamos más arriba, tanto las funciones de respuesta al
impulso como la descomposición de la varianza se verán afectadas si cambia el orden causal.
Una de las supuestas ventajas de los VAR, señalada en la toda la literatura que trata
sobre esta metodología, es una capacidad predictiva superior a la de otras modelizaciones.
Para terminar, mostramos la predicción de inflación para los cuatro trimestres del año 2009
obtenida a partir del VAR, comparando este pronóstico, tanto con los valores realmente ob-
servados como con la predicción obtenida a partir de un modelo uniecuacional típico de series
temporales. En concreto, hemos aplicado los métodos estudiados en el Tema 13, para mode-
lizar individualmente la serie de inflación, efectuando a continuación una predicción para los
cuatro trimestres de año 2009.
El mejor modelo que hemos encontrado para la inflación es un SARIMA(2,0,0)(1,0,1). En
la Tabla 16.8 se recogen los valores del correlograma. Con 102 datos, el nivel crítico al 5 %
sería aproximadamente 0,2, de forma que ninguno de ellos es significativo y la serie puede
por tanto considerarse ruido blanco. En la Figura 19.6.4 mostramos la inflación realmente
observada junto con las predicciones obtenidas con el modelo SARIMA (puntos oscuros) y
con el VAR (puntos claros). La línea representa los valores observados mientras que en la
parte sombreada, los puntos negros son los pronósticos obtenidos con el modelo SARIMA y
los puntos claros, los del VAR. Puede comprobarse que las predicciones del VAR son mejores.
Tema 19 719
3 16 ,54 98 ,56 1, 16 0 , 28
4 20 ,62 96 , 14 1, 98 1 ,88
5 22 ,35 90 , 17 3, 21 6 ,61
7 24 , 71 75 3, 96 21 ,04
4 2 , 28 0 , 73 99,09 0,18
6 2 .45 3 ,50 90 , 79 5, 71
Aunque en ambas se aprecia cierto sesgo, este es mucho menor en el caso del VAR, que además
indica bien la dirección de la inflación, en contraste con la predicción del modelo univariante,
según la cual la inflación aumentaría en el último trimestre de 2009.
720 INTROD UCCIÓ N A LOS MODELOS VAR
40
•
o
•
40
•
-80
- 120--~--~-~--~-~-~~---1
0801 0802 0803 0804 0901 0902 0903 0904
EJERCICIOS
Teóricos
1. Mostrar que en un VAR con k variables, la identificación requiere ( k 2 -k) /2 restricciones.
3. Considere la forma reducida (19.3.3) del VAR estructural (19.3.1). Estudie las propie-
dades de Uit y U2t· En particular, indique bajo qué condiciones será nula E(uitU2t)·
5. Suponga que debe realizar una previsión sobre el PIB a partir de un modelo en el que
se incluyen además las siguientes variables macroeconómicas: consumo de los hogares,
inversión, exportaciones, importaciones, tipos de interés a corto y largo plazo y oferta
monetaria. Si dispone de datos trimestrales de los últimos 25 años, ¿podría emplear un
modelo VAR para llevar a cabo la predicción? ¿En qué condiciones?
6. Suponga que los residuos de un VAR estándar como el representado en la ecuación 19.1.2
son tales que var( uit) = 0,75, var( u2t) = 0,5 y cov( Uit, U2t) = 0,25. Analice si el VAR
estructural está identificado.
Prácticos
7. Empleando datos del periodo 1980 - 2005, utilice la tabla ET19 1 para estimar un
VAR con las variables PIB y tipo de interés.
8. La tabla ET19 _ 2 contiene los datos para España de oferta monetaria e índice de
precios al consumo desde el primer trimestre de 1980 hasta el cuarto de 2010. La OM
está expresada en logaritmos.
722 INTRODUCCIÓN A LOS MODELOS VAR
9. La tabla ET19 3 contiene diversas series macroeconómicas referidas al área euro ob-
tenidas de la base de datos AWM.
a) Construya un VAR con las variables PIB, índice de precios, tipo de interés y tipo
de cambio efectivo con todas las series en niveles y las de PIB , precios y tipo de
cambio expresadas en logaritmos.
b) Utilice las funciones de respuesta al impulso para analizar los efectos de una política
monetaria restrictiva sobre el PIB y los precios.
c) Un resultado desconcertante que aparece frecuentemente en este contexto es el
denominado price puzzle: los precios suelen subir como resultado de una políti-
ca monetaria contractiva, lo que resulta contraintuitivo. Compruebe que el VAR
estimado en el apartado anterior adolece de este problema.
d) Para tratar de resolver esta cuestión suelen incluirse variables exógenas en el VAR
que puedan paliar el posible problema de especificación implícito. Vuelva a estimar
el VAR incluyendo como exógenas el índice mundial de precios, así como el PIB y
el tipo de interés a corto plazo en EE.UU. Compruebe si esta medida soluciona al
menos en parte el problema señalado.
e) Estime de nuevo el VAR del primer apartado, pero alterando la ordenación de las
variables. Compare las funciones de respuesta al impulso y la descomposición de
la varianza en ambos casos.
Tema 20
COINTEGRACIÓN
20.1. INTRODUCCIÓN
2
A
A simple vista los resultados son bastante aceptables: tanto el signo como el valor de
la propensión marginal al consumo son acordes con la teoría, el ajuste es muy elevado y la
renta es altamentemente significativa, con un valor p prácticamente nulo . Pero un contraste
ADF muestra que tanto consumo como renta disponible son ambas I(l) , es decir, series no
estacionarias, por lo que podemos enfrentarnos al mencionado problema de regresión espuria.
Añadamos que el valor del estadístico de Durbin y Watson es claramente incompatible con
la hipótesis de no autocorrelación y significativamente menor que el valor del coeficiente de
determinación, y tendremos todos los síntomas clásicos de la regresión sin sentido.
En estas condiciones se ha sugerido evitar el problema efectuando la regresión entre las
723
724 COINTEGRACIÓN
(20.1.1)
En la relación anterior el término de error Et = yt - (a + f3Xt) puede interpretarse como
la desviación del consumo de su relación de equilibrio a largo plazo dada por a+ f3Xt, o error
de equilibrio. Si dicha teoría existe realmente, cualquier desviación del consumo respecto de
a + f3Xt, ha de ser necesariamente transitoria. Es claro que en otro caso, es decir, si las
desviaciones no se corrigiesen en un plazo relativamente breve, no podríamos sostener la
existencia de dicha relación. En términos estadísticos, ello significa que Et no debería apartase
mucho de la recta de ordenada nula, cruzándola frecuentemente. Es decir, la existencia de la
relación a largo plazo exige que el término error en 20.1.1 sea estacionario, a pesar de que las
series de consumo y renta sean ambas integradas de orden uno 1 . Esto no sucede, por ejemplo,
si dicho término tiene una raíz unitaria (una tendencia estocástica), dado que en este caso
los errores, lejos de eliminarse, se van acumulando en el tiempo. Es decir, que la existencia
de la teoría representada por la Ecuación 20.1.1 , exige que aun siendo yt y Xt I(l), ha de
existir una combinación lineal de las mismas Et, que sea estacionaria, o I(O). Esta es la idea
fundamental del concepto de cointegración: dos series se dice que están cointegradas, si siendo
ambas I(l), existe una combinación lineal entre las mismas que es estacionaria. Nótese que la
cointegración exige en este caso que ambas series sean I(l). Si una fuese I(l) y la otra I(O) no
podría existir una combinación lineal estacionaria entre las mismas.
En estas condiciones, o sea si hay cointegración , se puede demostrar que la estimación
MCO de 20.1.1 proporciona estimadores adecuados evitando por tanto el problema antes
mencionado de las regresiones espurias. En concreto el estimador MCO de 20.1.1 no solo
es consistente, sino superconsistente, es decir, converge con más rapidez de la habitual al
verdadero parámetro poblacional.
La Figura 20.1.1 ilustra gráficamente lo anterior. En los dos paneles representamos dos
series X e Y, integradas de primer orden (escala derecha), junto con los residuos de la regresión
entre las mismas en trazo discontinuo (escala izquierda). En la Figura 20.1.1 de la parte
izquierda se han representado los tipos de interés a corto y largo plazo en la Unión Europea,
tal como aparecen en la base de datos AWM .
Los errores de desequilibrio representados por los residuos en la parte inferior del gráfico
son claramente estacionarios, de manera que las desviaciones de la relación de equilibrio a
largo plazo se corrigen con relativa rapidez. Podemos decir que X e Y están cointegradas. En
1
0bsérvese que decimos condición necesaria, pero no suficiente. La existencia de una relación con sentido
económico entre un conjunto de variables solo puede provenir de la teoría económica.
Tema 20 725
08
12 _/ ......-····-- 06
.--· 04
0.2
00
.04
¡v'"..,
,, ,,
.l~ ...- - I
_..,, /~ 00+--~--,,-_---./---~~~-,.-,,-,.,.~~~---<
- G4
1 1
\. J
\,i'
-08+......~~~~~~~~~~~.,..,...
!980 1985 1990 1995 2000 2005 1970 1975 1980 1985 1990 1995 2000 2005
el pa.c. a derecha, donde se han representado dos índices de precios (el defl.actor de la UE
y un:.- ""ce mundial de precios, ambos obtenidos de la misma fuente) sucede lo contrario: los
residu ::. ::. n no estacionarios registrándose grandes desviaciones del equilibrio que además se
man ienen de forma prolongada en el tiempo. En este caso las series no están cointegradas.
La figu ra precisamente nos invita a pensar que las series cointegradas comparten una
tendencia estocástica común, mientras que eso no sucede en las no cointegradas. Pensemos
en los determinantes del PIB per cápita, donde cada uno de los numerosos determinantes del
mismo influyen sobre el valor observado. Si uno de esos determinantes, como es el caso del
consumo per cápita, tiene una tendencia estocástica, también la tendrá el PIB per cápita.
De hecho ambas variables (hemos visto ejemplos en otros temas) tienen cada una de ellas
tendencia estocástica, por lo que incluso podemos decir que al estar teóricamente relacionado
el consumo y el PIB per cápita, es factible que compartan una tendencia estocástica común.
Al tratarse del PIB per cápita este podría contener más tendencias estocásticas y compartir
o no con ellas una tendencia. Por ejemplo la inversión per cápita podría compartir tendencia
con el PIB per cápita.
Esta sección tiene dos partes. En la primera, damos una visión intutitiva del concepto
de cointegración y de los modelos de corrección del error. En la segunda parte de la sección,
damos un tratamiento más técnico solo del concepto y dejamos para más adelante en el tema
el tratamiento sistemático de los modelos de corrección del error.
donde Et es un proceso estacionario de ruido blanco relativo a los pasos del borracho en cada
periodo.
o solo los borrachos son las únicas criaturas cuyo comportamiento sigue un paseo alea-
torio. De hecho los perros también pueden seguir una trayectoria de paseo aleatorio cuando
van desatados. Cada nuevo olor que se cruza en su nariz marca la dirección de su siguiente
paso, de modo que tan pronto como se cruza otro nuevo olor, el anterior se olvida. Así pues,
podríamos modelizar también la trayectoria del perro mediante otro paseo aleatorio
yt - Yt-1 = Wt,
y ahora Wt es otro proceso estacionario de ruido blanco relativo a los pasos del perro en cada
periodo. Tanto en el caso del borracho como en el del perro las localizaciones actuales son la
mejor forma de predecir sus localizaciones futuras , como sucede con todo paseo aleatorio.
Los paseos aleatorios datan de principios de 1900, desde entonces la econometría ha evolu-
cionado y sus metáforas también. Uno de los grandes avances econométricos es precisamente
observar que los procesos pueden estar cointegrados. Para explicarlo metafóricamente el cuen-
to del borracho se ha tenido que adaptar. Ahora se trata de una borracha que es la dueña
del perro. La borracha sale del pub y comienza a caminar sin un objetivo determinado en
forma de paseo aleatorio. De vez en cuando, grita para saber dónde está su perro Oliver.
Oliver interrumpe entonces su propio paseo aleatorio y lanza un ladrido. Entonces ambos se
oyen mutuamente. Él pensará que si se aleja mucho, le acabará dejando durmiendo fuera en
la calle; mientras que ella pensará que no debe dejar que él se aleje demasiado porque de lo
contrario se pasará toda la noche ladrando, lo que la impedirá dormir como espera durante la
noche. De manera que perro y dueña valoran cómo de lejos están uno del otro y se moverán
de manera que la distancia se vaya haciendo parcialmente menor y así llegar a casa.
Ahora ni el perro ni la dueña borracha siguen un paseo aleatorio; cada uno ha añadido un
mecanismo de corrección sobre sus pasos. Sin embargo si solo miráramos las sendas descritas
por cada uno de ellos, parecerá que siguen un rumbo nocturno sin objetivo alguno, si bien
ambos a medida que pasa el tiempo aumentará la probabilidad de estar alejados del pub. Las
trayectorias de la dueña y su perro aún contienen tendencias estocásticas. Sin embargo, el
mecanismo de corrección o ajuste descrito asegura que las sendas compartan una tendencia
estocástica común.
Esto hace que independientemente de las tendencias estocásticas de cada uno de ellos,
podamos decir con garantías que si encuentras a la borracha, es muy improbable que el perro
esté muy lejos. Es decir, si medimos la distancia entre ambas trayectorias, la serie de la
distancia entre ambos no tendrá un tendencia estocástica, y en tal caso las sendas del perro
y la mujer diremos técnicamente que guardan un relación de cointegración y en particular,
como explicaremos a continuación, son cointegradas de orden cero. La clave es que hay una
relación probabilística lineal entre las dos sendas que es de un orden de integración menor que
el que tienen por separado las sendas del perro y su dueña. Nótese que la cointegración es un
concepto probabilístico. La distancia entre el perro y la dueña es una variable aleatoria que
es estacionaria, pese a provenir de dos procesos no estacionarios.
Efectivamente, podemos modelizar el proceso cointegrado de la mujer y el perro como
(20.2.1)
Tema 20 727
y
yt - Yt-1 = Wt + 0:2(Yt-1 - Xt-1). (20.2.2)
En ambas ecuaciones aparece el término (Yt-1 - Xt-1) que es un mecanismo de corrección
que hará muy probable que no se separen perro y dueña. Este término es precisamente la
relación de cointegración entre X e Y. En contextos económicos la relación de cointegración
es una relación de equilibrio a largo plazo entre las variables económicamente relacionadas.
El mecanismo de corrección en las ecuaciones refleja cómo las variables se ajustan a dicha
relación de equilibrio de largo plazo cuando se alejan de la misma, por lo que a dicho término
de ajuste se le denomina corrección del error. Los coeficientes o: 1 y 0:2 son indicativos de la
velocidad del ajuste, es decir, de la velocidad con la que se corrige el error.
Obsérvese que si la distancia entre el perro y la mujer no tendiera a corregirse, es decir si la
distancia entre uno y otro contuviera una tendencia estocástica, entonces lo más probable es
que ambos acabaran en posiciones alejadas, por lo que sus trayectorias no serían cointegradas
de orden cero. En términos un poco más generales, si tenemos dos series I(l), la diferencia2
no será (en general) estacionaria. Engle y Granger (1987) demostraron 3 que si las sendas del
perro y la dueña son I(l) y son consistentes con las ecuaciones (20.2.1) y (20.2.2), entonces
ambas trayectorias necesariamente serán cointegradas de orden cero. También demostraron
que si existe una relación de cointegración entre las dos trayectorias (ambas no estacionarias),
entonces debe existir un mecanismo de corrección del error como por ejemplo el presentado
en las ecuaciones (20.2.1) y (20.2.2).
En este caso hemos considerado que la diferen cia en sus localizaciones es estacionaria.
En general, la relación de cointegración no requiere que la diferencia entre ambas variables
sea estacionaria. Solo se necesita que exista una combinación lineal de las variables (que no
contenga una tendencia estocástica) que haga que sea estacionaria, evitando así que las sendas
se separen. Si esto es así, la cointegración de variables implica que comparten una tendencia
estocástica común, de manera que si sabemos cuál es la combinación lineal (como en el caso
del perro y su dueña) , tal tendencia común se cancelará y quedará una variable sin tendencia.
Así pues una forma más general de exponer relaciones como las indicadas en las ecuaciones
(20.2.1) y (20.2.2) es mediante el modelo de corrección del error siguiente
(20.2.3)
(20.2.4)
donde se aprecia que la relación de cointegración común es
Pongamos un ejemplo más económico, una vez que hemos entendido la relación de cointe-
gración entre el perro y su dueña. El consumo Y y el ingreso X son dos variables I(l) de las
que el análisis económico nos indica que están relacionadas (cointegradas). Un cambio en el
ingreso de los hogares (positivo) lo más seguro es que lleve a un aumento del gasto en bienes
20 una combinación lineal entre ellas .81 yt + ,82Xi, O< ,Bi < l.
3
Si aplicamos sus resultados al ejemplo en cuestión.
728 COINTEGRACIÓN
de consumo de los hogares (para lo cual 1 > {3 1 > O), si bien el cambio no será inmediato
por lo que la respuesta en el consumo se dilatará algo en el tiempo. El modelo de corrección
del error anterior, en particular la relación de cointegración, nos permite examinar cuánto
cambiará el consumo del hogar en respuesta a un cambio en la variable ingreso. Y además nos
facilita ver cómo es la velocidad del cambio quedando reflejada en la parte de corrección del
error: 6.yt = a20 + a21 (ct-1) + E2t donde hemos puesto Et-1 como el error de cointegración
(ct-1 = Yt-1 - f31Xt-1).
En efecto, de la misma manera que perro y dueña se corregían mutuamente, ahora el
consumo y el ingreso también se podrán corregir pues dados unos ingresos Xt-1 superiores
(por un shock externo), se tendrá que Yt- 1 < (f31Xt-1), lo que es equivalente a ét-1 < O.
Un valor del parémetro a21 < O implicaría, según el modelo de corrección, que el consumo
se ajustaría al alza como resultado de Et- l < O, es decir, 6.yt aumentaría. En paralelo si
a11 > O, el término de corrección del error también reconduciría la senda del ingreso pues
6.Xt se reduciría.
Los modelos de corrección del error y los modelos VAR, expuestos en el tema anterior,
nos invitan a considerar la estrategia correcta que ha de tomar el económetra cuando algunas
de sus variables son no estacionarias. Efectivamente, pudiera ser que dos variables fueran
integradas, pero no estuvieran cointegradas. Sabemos que la regresión de una sobre otra
conduce a lo que en el apartado 17.2 denominamos regresión espuria y por tanto nos conduce
demasiado frecuentemente a erróneas conclusiones sobre la verdadera (inexistente) relación
entre las variables. La forma de estimar y realizar inferencias correctas es utilizando un VAR
con las variables en diferencias:
niveles. Esto justifica que la estimación se haga desde la especificación dada por las ecuaciones
(20.2.3) y (20.2.4).
Por último, el lector debe considerar que es posible incorporar más de dos variables.
En efecto. no solo pueden entrar en escena la mujer y su perro, sino que también podemos
considerar que la mujer tiene un novio que también salía del bar en condiciones similares. Como
tal procurará ajustar su paso al de su novia lo que introduciría otra relación de cointegración
(en este caso entre ambos), si bien la mujer seguirá también estando cointegrada con su
mascota:
Nuevamente, si observamos individualmente (por separado) las trayectorias de los tres nos
parecerán cada una de ellas que describen sendas no estacionarias, si bien las tres guardan
una relación de cointegración articulada por la relación de la mujer con su perro y del novio
con la mujer, pese a no existir relación alguna entre el novio y la mascota. Obsérvese que no
es necesario que la mujer ajuste sus pasos a los de su novio. De hecho podríamos incluir otra
relación de cointegración, precisamente podríamos considerar que a la mujer embriagada le
conviene que su novio no se aleje demasiado, en tal caso estaría sujeta a dos relaciones de
cointegración:
(20.2.5)
sin embargo, esta relación es una simple combinación lineal de las dos anteriores, es decir,
la relación del perro y su dueña, y la de la mujer y el novio, (Yt-1 - Xt-1) y (Yt-1 - Zt-1),
respectivamente. Al ser una combinación lineal podríamos entonces reescribir la expresión
(20.2.5) sin utilizar la relación de cointegración (Zt - 1 - Xt-1). En efecto, la combinación es
la siguiente
Esta última parte del ejemplo nos permite comprobar intuitivamente que cuando hay tres
variables solo es posible como máximo tener dos relaciones de cointegración.
2. Existe una combinación lineal de dichas variables /31yt + f32Xt que es integrada de orden
d-b.
El vector ((31, f32) recibe el nombre de vector de cointegración y además en este caso (solamente
dos variables implicadas), dicho vector, una vez normalizado, es único.
El caso de mayor interés en economía y al que nos referiremos en lo sucesivo, salvo que se
diga lo contrario, es d=b=l, es decir, CI(lJ) o series I(l) para las que existe una combinación
lineal que las hace I(O). Por ejemplo, sean las series:
donde Wit y W2t son dos procesos de camino aleatorio representativos de la tendencia esto-
cástica en cada una de las dos series y Eit, E2t los respectivos términos error. Si los procesos
Yit e Y2t están cointegrados, debe existir un vector de parámetros no nulos ((31, f32) tal que
f31Yit + f32Y2t sea estacionario:
f31Y1t + /32Y2t = (/3171.'lt + f32W2t) + ((31€1t + f32E2t)·
El último paréntesis es estacionario, al ser una combinación lineal de series estacionarias, de
manera que ((31 Wit + f32w2t) debe ser también estacionario. Sin embargo, este término es una
combinación lineal de variables I(l) y la única forma de que sea I(O) es que se anule. Puesto
que por hipótesis los parámetros del vector f3 son distintos de cero, se tiene que
f32
f31 Wit + f32W2t = Ü ===? Wit =- f3l W2t·
Es decir que (excepto por la constante -(32 //31) la tendencia estocástica de ambos procesos
es la misma, es común.
Ya sabemos por el ejemplo introductorio que el concepto de cointegración se extiende sin
dificultad para contemplar k variables. De hecho, en dicho ejemplo consideramos que k era 3.
x xf
Sea el vector k 1, = (xit, X2t, .. ., Xkt)· Diremos que las series son cointegradas CI( d,b) ,
d ;:::: b, si:
De lo expuesto hasta ahora se deduce el interés por contrastar si dos variables concretas
X e F están o no cointegradas. En efecto, como observadores de las trayectorias del perro y
de su dueña podemos vislumbrar su aparente tendencia a estar juntos, pero no es obvio quién
es el líder y quién es el seguidor , si es que es el caso. Est a sección presenta un procedimiento
econométrico para arrojar luz al respecto.
Si la dos variables están cointegradas, podemos estimar la relación estática a largo plazo
mediante una simple ecuación de regresión mínimo cuadrática. Teniendo en cuenta la defi-
nición de cointegración y lo que estudiamos en temas anteriores, tampoco es difícil imaginar
cómo podemos llevar a cabo dicho contraste. Hemos señalado que la condición para que dos
series estén cointegradas es que los residuos de la ecuación 20.1.1 sean estacionarios.
En efecto, puesto que la condición para que las variables estén cointegradas es que el
término de error sea estacionario, podemos utilizar su contrapartida empírica para contrastar
la cointegración. Esta estrategia se conoce como aproximación de Engle y Granger e implica
seguir los siguientes pasos:
las tablas ADF para esta ecuación y nivel de significatividad (la ecuación de contraste
no tiene término independiente).
Por ejemplo, tomemos las series representadas en el panel de la izquierda de la Figura 20.l.l.
El contraste ADF aplicado a las mismas, arroja el resultado de la Tabla 20.l.
Ambas son pues 1(1) de manera que tienen el mismo orden de integración.
El segundo paso es estimar la regresión, obteniéndose:
(20.4.1)
El ECM puede incluir en la parte derecha retardos de las diferencias de las variables,
dummy u otras regresaras que de momento ignoraremos para hacer más fácil la exposición.
El modelo puede verse como una reparametrización de la ecuación:
(20.4.3)
La interpretación es que existe una relación a largo plazo entre las variables (están coin-
tegradas) dada por Yt = 8xt + ét· Además el modelo recoge también la dinámica a corto,
representada por las variables diferenciadas. Por supuesto a corto plazo pueden producirse
desviaciones respecto a la relación a largo, pero si hay cointegración es necesario que estas
se corrijan en un plazo razonable. En este sentido, el t érmino 'Y mide la velocidad con la que
se produce esa corrección y en consecuencia su valor debería estar comprendido entre O y 1.
734 COINTEGRACIÓN
Por ejemplo, si en el periodo t-1 se ha producido una desviación positiva, es decir la cantidad
observada de y es superior a la que correspondería de acuerdo con la relación de cointegra-
ción, en el periodo siguiente, es decir, en t, una parte importante de esa desviación debe ser
compensada: la cantidad y en t será (36.xt menos la parte correspondiente a la mencionada
corrección. En este caso ello se traducirá en restar a (36.xt la medida de esa compensación,
dada por ')'ft-1· De esta forma el mecanismo descrito estaría empujando y hacia su posición
de equilibrio.
Si el valor de y en t - 1 fuese menor que el que corresponde al equilibrio a largo plazo, el
sistema operaría en sentido contrario.
Podemos presentar estas ideas en el marco de un sencillo VAR bivariante, lo que nos
servirá para introducir algún concepto adicional. Tomemos por ejemplo los gastos agregados
en consumo de los hogares Ct y la renta disponible Yt para los que la teoría postula una
relación de equilibrio a largo plazo. Si hay cointegración entre e e y, entonces si en un periodo
concreto el consumo es elevado respecto a la correspondiente relación de equilibrio (es decir,
hay desequilibrio), esa discrepancia se debe corregir en los periodos siguientes. El desequilibrio
se puede compensar bien con una caída del consumo, o bien con un incremento de la renta o
ambas a la vez. En cualquier caso, la dinámica a corto debería verse afectada por la situación
de desequilibrio. Ello puede representarse con un modelo como el siguiente:
Los términos <Xc y ay miden la velocidad del ajuste y, si hay cointegración, al menos uno de
ellos debe ser significativamente distinto de cero. Si ambos fuesen nulos , habría desaparecido
la relación a largo plazo en el sistema anterior: no sería un modelo de corrección de error ni
habría cointegración. Ese modelo se puede ampliar para contemplar más variables. En este
caso se tendría, expresado en forma matricial,
p
donde la matriz 7r no puede ser nula si existe algún vector de cointegración entre las variables
incluidas en w . Más adelante volveremos sobre esta representación del ECM . Retornemos por
el momento a la representación del VAR bivariante entre consumo y renta disponible. En un
Tema 20 735
sistema cointegrado de este tipo, en general las dos variables reaccionarán ante una situación
de desequilibrio. Sin embargo, es posible que solo una de ellas lo haga. Por ejemplo ay, el
término que mide la velocidad del ajuste al equilibrio en la ecuación de renta, podría ser nulo ,
mientras que O'.c no. En este caso la renta no responde ante hipotéticos desequilibrios previos
en el consumo y todo el ajuste correspondería a la primera ecuación. En estas circunstancias
diremos que Yt es débilmente exógena.
Para estimar el ECM podemos seguir un procedimiento por etapas similar al que ya hemos
visto para el contraste de cointegración. En primer lugar estimamos la Ecuación (20 .1.1). Si
las variables están cointegradas entonces los estimadores de los parámetros a largo plazo a
y f3 serán consistentes. A continuación se salvan los residuos que son una estimación de los
verdaderos errores de desequilibrio en (20.4.3). El segundo paso consiste en estimar (20.4.3).
Para determinar si hay que incluir o no retardos de las variables diferenciadas y cuántos en
caso afirmativo5 , podemos usar algún criterio del tipo AIC o SBC. En esta fase se obtienen
por tanto las estimaciones de los parámetros a corto plazo así como un estimador de r, que
se interpreta como la velocidad del ajuste al equilibrio.
Engle y Granger (1987) han demostrado que, si existe cointegración, los estimadores MCO
de esta ecuación son consistentes y asintóticamente eficientes. Asimismo se muestra la consis-
tencia de los errores estándar de estos estimadores.
Como ilustración de todo lo anterior, estimaremos a continuación un ECM con los índices
de precios industriales de Alemania y EE.UU. Los datos son mensuales , y corresponden al
periodo 1981 - 1997 y están expresados en logaritmos. En primer lugar estudiamos el orden
de integración de ambas series. El valor del estadístico ADF para los precios de Alemania y
EE.UU. es -2,32 y -1,20 respectivamente. Por lo tanto no es posible rechazar la hipótesis de
raíz unitaria. Sin embargo, la hipótesis de que las primeras diferencias de ambas variables es
no estacionaria resulta claramente rechazada: ambas series son pues I(l).
A continuación estimamos la ecuación de cointegración, obteniendo (errores estándar entre
paréntesis):
Yt = 1,85 + 0,599Xt,
(0,03) (,009)
siendo y los precios en Alemania y x en EE.UU. El contraste de raíces unitarias aplicado a los
residuos de la regresión anterior propociona un valor ADF= -4,16 , de forma que la hipótesis
de raíz unitaria resulta claramente rechazada. Los residuos son estacionarios y por tanto las
series de precios en ambos países están cointegradas. La relación de equilibrio a largo plazo
vendría dada por la estimacion anterior, siendo la elasticidad 0,60, es decir que durante ese
periodo, los precios crecieron menos en Alemania que en EE.UU. Con ello hemos cubierto la
primera de las fases conducentes a la estimación del ECM.
La estimación de un ECM como el presentado en (20.4.3) es:
5
A veces se incluyen también diferencias de otras variables 1(1) que no aparecen en la relación a largo plazo.
736 COINTEGRACIÓN
Los estimadores tienen todos ellos los signos adecuados y son estadísticamente significa-
tivos. En cuanto a la magnitud de los mismos, la elasticidad a largo plazo sería como hemos
dicho, aproximadamente 0,6. La elasticidad a corto plazo sería menor, 0,25 , y el ajuste lento
toda vez que el valor del EMC, -0 ,068, implica que se necesitan aproximadamente 5 trimestres
para corregir un hipotético desequilibrio, todo ello suponiendo que los residuos de la ecuación
de corrección de error tuvieran un comportamiento apropiado. En caso contrario habría que
introducir más retardos de las variables hasta conseguirlo.
El teorema de representación de Granger nos enseña que la relación entre cointegración
y corrección de error es biunívoca, es decir, si dos variables están cointegradas admiten una
representación en forma de ECM y, además, un modelo de corrección de error solo puede ser
construido si existe una relación de cointegración entre ambas variables. Lo anterior sugiere
que otra forma de contrastar si dos variables están cointegradas consiste en especificar y
estimar un modelo de corrección de error y contrastar la hipótesis nula Ho : 'Y = O contra la
alternativa H 1 : 'Y < O, siendo 'Y el coeficiente del término ECM. Para una exposición más
detallada de este contraste, puede verse por ejemplo Davidson y MacKinnon (2004). Estos
autores señalan que la ecuación de contraste suele tener menos problemas de autocorrelación
serial que la del método de Engle y Granger y que, en general, este estadístico es también
más potente. Ericsson y MacKinnon (2002) proporcionan, para diversos supuestos, los valores
críticos de este estadístico, que no se distribuye de forma normal.
El estadístico de contraste para dos variables, presentado en Davidson y MacKinnon, es:
Puesto que -0,071 / 0,011 = -6,45, la hipótesis nula de no cointegración resultaría clara-
mente rechazada (el valor crítico es -3,8 aproximadamente).
dinero, la :po de interés, etc. En estos casos u otros más complejos, el contraste de
Engle y G~a.:: ,_ apropiado. El problema fundamental es que en este tipo de ecuaciones
puede ha ·e una relación de equilibrio a largo y, aunque sigue siendo cierto que
~ : _ estacionarios existe una relación de cointegración, esta estrategia no nos
· ~ ::_mir la hipotética existencia de varias.
: . u pongamos que tras estimar la ecuación yt = a+ .B1Xit + ,82X2t + ,83X3t +et
-= .as Yariables implicadas son 1(1) , se encuent ra que los residuos son estacionarios.
Entonces podemos afirmar que hay cointegración. Pero seríamos incapaces de distinguir cuán-
tas re~ de cointegración hay. Una posibilidad es que haya una única combinación lineal
entre as cuatro variables que sea estacionaria. Pero también podría ser que hubiera una rela-
ción de cointegración entre yt y Xit y otra entre X2t y X3t· Sean v1 y v2 los residuos de tales
relaciones
V1 = yt - 80 - 81X 1t
v2 = X2t - >.o - >.1X3t·
Dado que hemos postulado la existencia de cointegración, dichos residuos han de ser 1(0)
y, por definición, cualquier combinación lineal de dos variables 1(0) , es también I(O). Por
ejemplo, la suma de ambos residuos:
también es estacionaria. De esta manera tenemos una combinación lineal estacionaria entre
las cuatro variables, pero con el contraste descrito en la Sección 20 .3 no seríamos capaces de
identificar todas las relaciones de cointegración.
Para solventar estos problemas se han desarrollado contrastes más apropiados, siendo pro-
bablemente el test de rango de cointegración de Johansen (1988) uno de los más utilizados6 .
El método es bastante más complejo, de manera que nos limitamos aquí a una somera ex-
plicación. Afortunadamente la práctica totalidad de los programas econométricos permiten
llevar a cabo de forma rutinaria este test.
Johansen basa su metodología en los modelos VAR. Supongamos que deseamos estudiar
las posibles relaciones de cointegración entre un grupo de k variables incluidas en el vector
W t. Consideremos entonces el VAR
p+l
Wt = CXt + L hiWt- i + Ut. (20.5.1)
i =l
donde W es un vector de dimensión k x 1 con las variables implicadas, que asumiremos I(l).
Como hemos dicho, el caso más interesante en Economía es aquel en el que las variables
son CI(l,1). La matriz X contiene variables como tendencias, dummy, etc., y puede o no ser
incluida en la ecuación; u es el vector de los errores y hi son matrices de dimensión k x k.
6
Pero no el único: podría emplearse también aquí un contraste basado en un ECM.
738 COI TEGRACIÓN
p+ l
II = Lhi- Ikk i (20.5.3)
i= l
Si II = O entonces las ecuaciones del VAR están equilibradas en el sentido de que todos
sus términos son estacionarios, pero en este caso no hay cointegración: si todos los elementos
de II son nulos, no puede decirse que haya una combinación lineal estacionaria entre x e
y. Análogamente si II no es de rango reducido, es decir si el rango es 2, entonces habría
dos relaciones de cointegración, pero entre dos variables solo puede haber como máximo una
relación de cointegración independiente, de manera que si el rango es 2 se deduce que ambas
variables son I(O) y no tiene por tanto sentido hablar de cointegración.
7
Por ejemplo, en un VAR(2) se tendría:
8
Con las variables en desviaciones con respecto a sus medias.
Tema 20 739
El caso más interesante es aquel en el que el rango es 1, lo que quiere decir que las dos
columnas de II no son linealmente independientes. En este caso es posible factorizar la matriz
TI como
(20.5.5)
donde a y {3 son ambas matrices de dimensión 2xl. Ahora el primer término a la derecha de la
igualdad . TIWt- l = a{3TWt-l y este será estacionario si f3Wt-l es I(O) , lo que significa que
el \'ector {3 contiene los coeficientes de la combinación lineal estacionaria entre las dos variables
I(l ) de W, es decir que {3 es el vector de cointegración. Por su parte los coeficientes de a
medirían la velocidad de ajuste al equilibrio en los ECM resultantes de la ecuación factorizada.
Por ejemplo, supongamos que una vez efectuada la factorización el sistema (20.5.4) queda:
6.Xt )
( 6.yt
( A1 ) ( 51 52 ) ( Xt-1 ) +( Eit ) .
A2 Yt-1 E2t
(
6.y2t = 1/8 -41 / 64 5/ 32
(
Y2t-1 +L Tii6Wt -i + Ut.
6.y3t 1/ 4 11/32 -3/ 32 Y3t- 1 i=l
El último término de la ecuación puede ser ignorado sin pérdida de generalidad. A simple
vista no es posible ver si las columnas (filas) de la matriz TI son linealmente independientes.
Para calcular el rango podemos emplear la propiedad según la cual el rango de una matriz es
igual al número de valores propios distintos de cero. Los autovalores de TI son en este caso
(-0,79, -0,44 , O). Como solo dos de ellos son distintos de cero el rango es 2, es decir, la matriz
es de rango reducido y podemos afirmar que hay dos relaciones de cointegración entre las
variables del sistema. La matriz TI puede factorizarse como
-1 / 2
1/ 4 ) {3T= ( 1 -1 / 8 0 )
a = (
1/8 -5/ 8
0 1 -1 /4 '
1/4 3/ 8
740 COINTEGRACIÓN
de manera que las dos relaciones de cointegración serían Ylt = 0,125y2t+Vit e Y2t = 0,25y3t+V2t
donde ambos vectores han sido normalizados en y 1 e Y2· En términos de ECM , ignorando como
hemos dicho I::f= 1 Ili6 W t-i tendríamos:
Como hemos señalado, el método de Johansen (1988 y 1992) está basado en la autorre-
gresión vectorial. Por tanto el primer paso es estimar un VAR entre las variables que, según
la teoría económica y / o el trabajo empírico previo , mantienen relaciones a largo plazo. El
sistema 20.5.2 es, como hemos visto, una reparametrización del VAR entre las variables origi-
nales, donde adicionalmente pueden incluirse variables deterministas (término independiente,
dummy, etc). Para determinar el orden del VAR original podemos emplear alguno de los cri-
terios estadísticos señalados con anterioridad, asegurándonos de que los residuos del sistema
cumplen las hipótesis necesarias. Si el orden del VAR entre las variables en niveles es p, el
VAR en primeras será de orden p-1.
Inicialmente no habrá ninguna restricción sobre el rango de la matriz II de manera que las
matrices que la factorizan serán ambas de orden k x k. Utilizaremos diversos test de hipótesis
para contrastar restricciones de nulidad sobre los elementos de las mismas.
Puede demostrarse que la maximización de la función logarítmica de verosimilitud del
modelo restringido conduce a
kN N r
-2 (log27r + 1) - 2' L log(l - Ai) ,
i=l
Tema 20 741
L.Wt = ¿ r riL.Wt-i + ut
i=l
p
~ 1 ~ A A T ~ 1 ~ A A T ~ 1 ~ A A T ~ ~T
"-'uu =N L UU ' "-'vv =N L VV ' "-'vu =N L VU Y "-'uv = "-'vu.
(20.6.1)
Conocida II hallamos sus valores propios Ai ordenándolos de mayor a menor. Un test de ratio
de verosimilitud apropiado para contrastar el número de valores propios distintos de cero, es:
k
Atraza = -N L log(l - Ai), (20.6.2)
i=r+l
conocido en la literatura como estadístico de la traza. En este contraste la hipótesis nula es
que el número de valores propios distintos de cero es menor o igual que r 0 contra la alternativa
de que hay al menos r 0 + 1 de ellos distintos de cero, es decir:
4. Si se rechazase la última hipótesis nula, habría que concluir que hay k relaciones de
cointegración entre las k variables, lo que implicaría que todas ellas son estacionarias,
por lo que carecería de sentido el análisis de cointegración.
Cuando la hipótesis nula es que hay ro vectores de cointegración contra la alternativa de que
hay ro+ 1, entonces solo hay un término en el sumatorio de 20.6.2, siendo el estadístico:
Esta versión del test recibe el nombre de estadístico máximo. La única diferencia entre ambos
estadísticos es que ahora cambia la hipótesis alternativa que, en el caso del estadístico máximo,
resulta restringida a que el rango sea una unidad mayor que la postulada por la hipótesis
nula. Con ello se consigue mejorar la potencia del contraste. En todo caso, el procedimiento
secuencial de contrastación es similar:
Como en el caso del contraste ADF, la distribución de estos estadísticos no es estándar y sus
valores han sido obtenidos por simulación9 .
Como ilustración, tomemos las series españolas de importaciones y producto interior bruto
correspondientes al periodo 1983ql - 1998q4, para las que se ha estimado un VAR(2) y a
continuación obtengamos:
fI = ( -1 ,3573 -0,4837 )
4,6731 1,6642 .
Los valores propios de esta matriz son aproximadamente A.1 = 0,3024, A.2 = 0,0045. Por
tanto el contraste de la hipótesis nula de que no existe ningún vector de cointegración ( r =
O) , contra la alternativa de que existen 2, empleando el estadístico de la traza, será:
Ahora el valor del estadístico de contraste es menor que el crítico al 5 % (3,84 en este caso),
de manera que detendríamos aquí el procedimiento, concluyendo que existe una relación de
cointegración (tampoco tendría sentido ya seguir dado que solo hay dos variables).
En cuanto al estadístico máximo, mostramos sus resultados en la Tabla 20.2. Como pue-
de verse, en este caso ambos estadísticos llevan a la misma conclusión: hay un vector de
cointegración.
Conviene señalar que, igual que sucedía con el test ADF, los valores críticos de estos
contrastes son muy sensibles al tipo de ecuación empleada. En particular dependen de forma
crucial de si se incluyen o no términos deterministas. Ello da lugar a un elevado número de
tablas, lo que puede resultar confuso. Sin embargo, la situación suele ser más sencilla dado
que dos posibilidades son con mucho las más frecuentes en la práctica.
Uno de los atractivos de la metodología desarrollada por Johansen es que permite contratar
fácilmente hipótesis sobre los parámetros de los vectores de cointegración o los parámetros de
ajuste, por ejemplo, si alguno de ellos es nulo o toma un valor determinado.
Supongamos que tenemos k variables, r vectores de cointegración y q restricciones lineales
representadas por una matriz H. El procedimiento de contraste supone estimar por máxima
verosimilitud el modelo restringido y calcular a continuación un test de ratio de verosimilitud.
El modelo con las retricciones en H queda
p
10
En este caso, los valores críticos corresponden a una ecuación con constante pero sin tendencia ni variables
exógenas adicionales.
744 COINTEGRACIÓN
- • T
:Euv = :EuvH ·
A continuación obtenemos la matriz:
(20.7.1)
Sea 5-i el i-ésimo autovalor de la matriz anterior, una vez ordenados de mayor a menor.
Un test de ratio de verosimilitud del modelo restringido viene dado entonces por,
r r
-T L log(l - ~i) + T L(l - 5-i) ;:_,X~· (20.7.2)
i= l i=l
Como este resultado es menor que el valor crítico al 5 3 en una distribución XI (aproxi-
madamente 3,84), no se puede rechazar la hipótesis de elasticidad unitaria entre demanda de
dinero y renta.
De forma similar se pueden llevar a cabo contrastes sobre los parámetros de ajuste. Por
ejemplo, en el mismo modelo anterior es posible contrastar que solo la demanda de dinero
responde a las desviaciones respecto del equilibrio a largo. Ello equivale a imponer la restric-
ción de que el resto de los coeficientes a son todos nulos. Estimados los valores propios del
modelo restringido, se comparan con los del irrestricto siguiendo el mismo procedimiento que
11
Los autores no encontraron significativa la inflación en este caso.
Tema 20 745
k
T L [tn(l - 5.i) - ln(l - ~i) J
i=r+l
En esta última sección trataremos de ilustrar la metodología de Johansen con una aplica-
ción práctica. La teoría de la paridad del poder de compra se basa en la idea de que los precios
de los mismos bienes en dos países diferentes deberían ser los mismos una vez expresados en
la misma moneda. Los potenciales beneficios del arbitraje deberían ser corregidos por movi-
mientos en el tipo de cambio nominal. En la práctica, el ajuste exigirá tiempo, de manera
que puede que la ley se cumpla en el largo plazo , pero que a corto se den situaciones de des-
equilibrio. Emplearemos datos mensuales correspondientes a Italia y EE.UU. ,para contrastar
esta hipótesis. Llamemos Pt y Pt a los precios en Italia y EE.UU. y Rt al tipo de cambio
nominal (liras italianas por dólares). La versión estricta de la PPA exigiría que Rt = Pt/ Pt ,
de manera que empleando logaritmos (que representamos con letras minúsculas) , se tendría
Pt - Pt - rt = E:t. En la Figura 20.8.1 se representan las series temporales correspondientes al
periodo 1981-1996.
Junto con el tipo de cambio (escala de la izquierda), las series de precios muestran que estos
crecieron significativamente más en Italia durante el periodo de referencia. La matrices (10)
necesarias para la estimación de II, obtenidas a partir de un VAR con término independiente
y cuatro retardos de cada una de las variables son:
4.4
4.2
76
)\.'\ 4.0
I \
74 ,/'\/ \ l\ '\. .
1 \... Af' ,.¡- "'"'.. ~ Ja
"/ \ !\;
72 ,1
/ t "'1 ..
~, ,
(\ .....''"
IV \ /\ 1 J
3.5
/._! \:" "'\ I \/\ i
70 f \,i \'
1
las variables. Los resultados del estadístico máximo (ver la tabla correspondiente en el apéndice
G) se interpretan de la misma forma y conducen a la misma conclusión.
El autovector a1 de la matriz fr asociado al aut ovalor .\ 1 = 0,1603, es
'T
/31 = ( 1 -1,4367 -0,402 ) '
es decir que Pt = 1,4367p; + 0,402rt. En este caso dicho vector es único , de manera que la
matriz f3T solo tendrá una fila.
Conocida la matriz f3 es posible calcular también a de donde obtendríamos los parámetros
de ajuste.
Tal como la hemos planteado, la teoría implica que los parámetros han de ser unitarios,
es decir,
Pt = P; + rt + ft,
de manera que tiene interés contrastar si esta hipótesis se cumple. Para ello empleamos 20.7.2.
Para esta restricción HT = ( 1 -1 -1 ) y el autovalor de 20. 7.1 es .\1 = O, 1297. Por tanto
20.7.2 queda:
La distribución del estadístico de contraste es en este caso una X~· Para un nivel de
significatividad del 5 %, el valor crítico es 5,99; por tanto se rechaza la hipótesis de que la ley
se cumpla en su forma estricta.
Para evitar el tedio de todos estos cálculos, lo aconsejable es utilizar algún programa
econométrico . Por ejemplo, empleando EViews (versión 7), podemos obtener fácilmente tanto
los valores de los contrastes de la traza y máximo como los de la contrastación de hipótesis
sobre a y / o {3. Para la hipótesis de parámetros unitarios, tenemos el resultado recogido en la
Tabla 20.6.
EJERCICIOS
Teóricos
l. Pruebe que, en el caso de dos variables, si existe un vector de cointegración este es único.
748 COINTEGRACIÓN
2. Aparte de los contrastes estadísticos, para determinar si dos variables están cointegradas,
pueden utilizarse otras vías. En concreto, podemos emplear el conocimiento experto del
tema objeto de investigación y la representación gráfica de las variables. Indique cómo
pueden ayudar estos procedimientos en el análisis de cointegración.
Xt = U1t + cit
Yt = u2t + E2t,
siendo Uit y u2t dos procesos de camino aleatorio y cit, E2t ambos ruido blanco. Probar
que si las series están cointegradas, las tendencias estocásticas de ambos procesos deben
ser iguales.
4. Suponga que la estimación de la matriz 7r obtenida a partir de un VAR con dos variables,
es:
A - 0,16 -0,12 ) ( Xt-1 )
- (
7rWt-l - 0 , 24 0 , 18 Yt-1
.
a) ¿Qué condiciones deben de cumplir los valores propios de la matriz anterior para
que x e y estén cointegradas?
b) Halle los valores propios y muestre que en este caso las variables estarían efectiva-
mente cointegradas.
e) Sea el vector de cointegración normalizado en x, {3T = ( 1 O, 75 ) . Encuentre la
matriz o: con los parámetros de ajuste.
Tema 20 749
5. Suponga que los dos valores propios de la matriz 7r utilizada en el ejemplo de la Sección
20.6 fuesen realmente estimaciones obtenidas a partir de una muestra de 100 obser-
vaciones. Calcule los valores de los estadísticos de la traza y máximo e indique qué
conclusiones se derivan de los mismos.
Prácticos
6. Emplee la tabla ET20 1 con los datos de gasto en consumo final de los hogares y renta
disponible, para contestar a las siguientes cuestiones:
b) Los valores críticos, teniendo en cuenta que los autores incluyen una tendencia y
término independiente, se muestran en las dos últimas columnas. ¿Cuántos vectores
de cointegración existen de acuerdo con cada una de las versiones del contraste?
e) Suponga que hubiese tres relaciones de cointegración. Indique si a partir de la
estimación de la matriz 7r es posible obtener todos los parámetros de las matrices
Q y /3.
8. Juselius (2006) presenta, para la ecuación de demanda de dinero en Dinamarca (datos
trimestrales para el periodo 1973ql-2003ql) , la siguiente estimación de 7r (en negrita
los parámetros estadísticamente dist intos de cero):
a) Asumiendo que hay un único vector de cointegración dado por la primera fila de
TI y que la matriz de los parámetros de ajuste es ar = (-0,26, O, O, O, O) , escriba
la factorización resultante, la ecuación de equilibrio a largo plazo y el modelo de
corrección de error (normalice el vector de cointegración en la demanda de dinero).
b) Indique cómo contrastaría la hipótesis de que los coeficientes de los tipos de interés
son iguales pero de signo contrario.
e) En el modelo anterior, ¿cuáles son los efectos de una tenencia de efectivo por encima
del equilibrio?
d) Asumamos que hay dos relaciones de cointegración, la segunda de las cuales podría
representar, según Juselius, una relación entre la renta real y el tipo de interés
a corto (los dos únicos parámetros significativos en esa fila). Trate de dar una
justificación económica a esta segunda relación de equilibrio.
e) Normalizado en y, ¿cuál sería el segundo vector de cointegración?
1) La autora considera que la matriz a, ahora de dimensión 5 x 2, tiene todos
sus elementos nulos excepto au y a12. Escriba de nuevo el sistema teniendo
en cuenta la segunda relación de cointegración.
9. Emplee los datos de la tabla ET20 _ 2 (y un programa econométrico) para hacer este
ejercicio. Con los datos de dicha tabla:
b) Utilice las dos versiones del contraste de Johansen y señale el número de vectores
de cointegración hallados en cada caso.
e) Obtenga la regresión de cointegración correspondiente a la demanda de dinero y el
término de ajuste al equilibrio.
d) Considere que existe un segundo vector de cointegración entre inflación, renta y tipo
de interés. Obtenga la estimación del sistema y valore los signos de los coeficientes
de las ecuaciones de cointegración y de los términos de ajuste.
e) Con los resultados del apartado d), indique si hay regresares débilmente exógenos.
Bibliografía
Aigner, D. (1974). <<MSE Dominance of Least Squares with Errors of Observation». Journal
of Econometrics, 2, 365-372.
Andrews, D.W.K. (1991). «Heteroskedasticity and aut ocorrelation consistent covariance rna-
trix estirnation». Econornetrica 59, 817-858.
Arellano, M. (1987). «Cornputing Robust Standard Errors for Within groups Estirnators».
Oxford Bulletin of Econornics and Statistics, 49, 431-434.
Baltagi, B. H. y Levin, D. (1992). «Cigarrette taxation: raising revenues and reducing con-
surnption», Structural Changes and Economic Dynamics, 3, 321-335.
Box, G. E. P. y Jenkins, G. M. (1970). Time Series Analysis, Forecasting and Control. Rolden
Day. San Francisco.
Chatfield, C. (1996). The Analysis of Time Series, 5th ed., Chaprnan & Hall, New York.
753
754 Bibliografía
Davidson, R. y MacKinnon, J. G. (1981). «Severa! Test for ~Iodel Specification in the Presence
of Alternative Hypotheses». Econometrica, 49, 781-793.
Estimating time varying risk premia in the term structure: the ARCH-M model. Econometrica
55, pp. 391-407.
Fama, E. F. (1965). «Random walks in stocks market prices». Financia[ Analysis Journal.
Octubre, pp. 3-7.
Fair, R. C. (1978). «A Theory of Extramarital Affairs». Journal of Political Economy, 86, pp.
45-61.
Gardner Jr. , E.S . y McKenzie, E. (1985). «Forecasting trends in time series». Management
Science 31, 1237-1246.
Glosten, L. , Jagannathan, R. y Runkle, D. (1993). «On the Relation between the Expected
Value and the Volatility of the Nominal Excess Return on Stocks». Journal of Finance,
48(5) ,1779-1801.
Gómez , V. y Maravall, A (1996), «Programs TRAMO (Time series Regression with Arima
noise, Missing observations, and Outliers) and SEATS (Signal Extraction in Arima Time
Series). Instructions for the User>>. Working Paper 9628, Servicio de Estudios, Banco de
España.
Bibliografía 755
Hyndman, R.J. Koehler, A.B. Ord, J.K. y Snyder, R.D. (2008). Forecasting with exponential
smoothing: the state space approach. Springer-Verlag. Berlin.
Juselius, K. (2006). The Cointegrated VAR Model. Oxford University Press. Oxford.
Ladiray, D. y Quenneville, B. (2001). «Seasonal Adjustment with the X-11 Method». Lecture
notes in statistics 10.
Maddala, G. S., Trost, R. P., Hongyi, L. y Joutz, F. (1997). «Estimation of Short-run and
Long-Run Elasticities of Panel Data Using Shirkdage Estimators». Journal of Business and
Economics Statistics, vol. 15, núm. 1, 90-100.
Maravall A. y del Río A. (2001) «Time Aggregation and the Hodrick-Prescott Filter». Banco
de España, Documento de Trabajo # 0108.
Maravall A. y Kaiser (2002). «A Complete Model-Base Interpretation of tha Hodrick-Prescott
Filter: Spuriousness Reconsidered». Banco de España. Documento de Trabajo # 0208.
Marcet, A. y Ravn, M. (2003). «The HP-Filter in Cross-Country Comparisons». CEPR Dis-
cussion Paper, 4244.
Mizon, G. E. y Richard, J. F. (1986). «The Encompassing Principle and Its Application to
Testing Nonnested Hypotheses». Econometrica, 54, 657-678.
Patterson, K. (2000). An Introduction to Applied Econometrics. Mac Millan Press. London.
Pegels, C. C. (1969). «Exponential forecasting: sorne new variations». Management Science,
15(5), 311- 315.
Peña, D. (2005). Análisis de Series Temporales. Alianza Editorial, Madrid.
Prais, S. J. y Winsten, C. B. (1954). «Trend Estimators and Serial Correlation». Cowles
Commission Discussion Paper No. 383 (Chicago).
Ramsey, J. B. (1969). «Tests for Specificat ion Errors in Classical Linear Least-Squares Analy-
sis». Journal of the Royal Statistical Association. Series B, 71 , 350-371.
Sargan, J. D. y Bhargava, A. (1983). «Testing for Residuals from Least Squares Regression
for Being Generated by the Gaussian Random Walk», Econometrica, (51), 153- 174.
Stock, J. H. y Watson, M. W. (2007). Introduction to Econometrics, 2nd ed. Boston: Addison
Wesley.
Stock, J. H. y Watson, M. W. (2001). «Vector Autoregressions». Journal of Economic Pers-
pectives, v. 5, n° 4; pp. 101-115.
Stock, J. H. y Yogo, M. (2005). «Testing for Weak Instruments in Linear IV Regression,»
Capítulo 5 en Donald W.K. Andrews (ed.), Identification and Inference far Econometric
Models. New York: Cambridge University Press (2005).
Taylor, J W . (2003). «Exponential smoothing with a damped multiplicative trend». Interna-
tional Journal of Forecasting, 19, 715- 725.
Winters, P. (1960). «Forecasting sales by exponentially weighted moving averages». Manage-
ment Science 6, 324- 342.
Wooldridge , J. M. (2006). Introducción a la econometría. Un enfoque moderno. Madrid: Thom-
son.
Wooldridge, J. M. (2010). Econometric Analysis of Cross Section and Panel Data, MIT Press
Working, H. (1934). «A Random Difference Series for Use in the Analysis of Time Series».
Journal of the American Statistical, XXIX, 185, pp. 11-24.
Índice alfabético
757
758 Índice alfabético
estimador Frisch-Waugh-Lovell, 91
bietápicos, 318 función de autocorrelación parcial, 477
consistente, 106, 190, 206 función de autocorrelación parcial (FAP), 476
de la diferencia, 366 función de autocorrelación total, 477
de las diferencias, 436 función de respuesta al impulso, 712
de mínimos cuadrados ponderados , 226
de MCP, 226 GARCH, 682
de Wald, 442 (1,1), 688
DID , 440, 447 contrastes o pruebas , 690
diferencias en diferencias, 439 , 440 propiedades, 687
dos etapas (ver MC2E) , 318 Gauss-Markov, 109, 156
efectos aleatorios, 383 teorema, 169
efectos fijos, 368
heterocedástico, 81
función de autocovarianza, 463
heterocedasticidad, 125
GMM, 323, 349
Hodrick-Prescott, 551
HAC , 236 , 240
homocedástico, 81
máximo verosímil, 400, 427
método generalizado de los momentos, 323 inconfundibilidad 437
MC2E, 326, 341 inconsistencia, 306'
MCO , 162 error estándar, 306
restringido, 184 por endogeneidad, 327
robusto (ver HAC) , 240 independencia, 78
ro busto de la varianza, 204 condicionada, 78
robustos, 229 insesgadez, 103
superconsistente, 733 MCO, 166
variables instrumentales, 318 instrumento
VI, 318 válido, 317
evaluación de programas, 257, 432 instrumentos
exogeneidad, 100, 162 débiles, 340
contraste, 336 relevancia y exogeneidad, 340
covarianza, 164 integrado de orden d, 505
del instrumento, 318, 326 intervalo de confianza, 127
estricta, 101 , 624
experimento controlado aleatoriamente, 76 Ley
experimento natural, 438 de las esperanzas iteradas, 71, 80, 164, 678
de las esperanzas totales, 69, 164
FAP, 477 de los grandes números, 191, 192
FAT, 477 log-log , 37
Filtro de Kalman , 581, 584, 589, 590 log-nivel, 37
forma logaritmos y porcentajes, 38
funcional , 37, 43 Logit multinomial, 415
forma funcional, 48
cuadráticas, 48 máxima verosimilitud, 698
forma reducida, 322 método delta, 206, 207, 221
Índice alfabético 761
término de interacción, 50
TARCH, 692
Threshold , 692
TCL, 219
tendencia, 644
cuadrática, 645
estocástica, 64 7
exponencial, 645
lineal, 645
teoría asintótica, 189
Teorema central del límite, 104, 198
SEGUNDA EDICIÓN
ECONOMETRÍA
Y PREDICCIÓN
Mariano Matilla García
Pedro Pérez Pascual
Basilio Sa nz Carnero
El principal objetivo de los autores de esta obra ha sido tratar de incorporar en un texto
enfocado a la docencia universitaria los principales avances experimentados por la econometría
en las últimas décadas. Tanto estos como el model o clásico de regresión, que sigue siendo el
núcleo básico de la disciplina, se recogen en est e texto con una orientación útil para estudiar
las relaciones de causa-efecto específicas de las ciencias sociales y apta para el tipo de datos
existentes en el entorno económico-empresa rial actual. La exposición teórica se motiva
continuamente con ejemplos propios de la econom ía real española. El nivel de tratamiento de
los temas es prioritariamente introductorio, si b ien los aspectos relacionados con el modelo
de regresión se abordan además en paralelo co n un nivel intermedio-avanzado .
La econometría se presenta desde la perspectiva d e l usuario final. El manual está orientado a
la formación de aquellos profesionales que necesiten analizar datos de naturaleza económico-
empresarial y social, de tal manera que pued an localizar fácilmente aquellas técnicas que
aporten valor añadido a la toma de decisiones fre nte a los datos disponibles. En muchos ámbitos
es fundamental prever escenarios futuros. Por este motivo, se ofrecen también técnicas de
predicción que nos permitan, entre otras cosas, real izar previsiones y analizar la fiabilidad de las
mismas. Finalmente, el libro puede asimismo ser de utilidad para todos aquellos que necesiten
emplear la econometría con objeto de contrasta r hipótesis en el área de las ciencias sociales.
ISBN 978-8448612009
~]]IJ~~ lllJIW~~
11 Editorial
9 www.mheducation.es