Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Econometria Aplicada Gretl
Econometria Aplicada Gretl
Julio 2019
2
ISBN 978-84-09-13601-8
Depósito Legal: AS-02793-2019
Edición 2019
Revisión V.1.0
https://sites.google.com/view/econometriaaplicadacongretl
Presentación
I Introducción a Gretl 11
¿Por qué Gretl? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Trabajar con datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Primeros pasos con Gretl . . . . . . . . . . . . . . . . . . . . . . . . . 16
Menús de Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
II Supuestos 29
1. Salarios 31
Contenidos: Primeros pasos con Gretl, Crear archivo, Eti-
quetar, Nube de puntos, Vista de Iconos, Esti-
mación, Análisis de Residuos, Generar variables 31
2. Consumo 47
Contenidos: Abrir datos xls en Gretl, Gráfico temporal,
Estimación MCO, Intervalos de confianza, Aná-
lisis de Residuos, ANOVA, Contraste de restric-
ciones lineales, Tablas de modelos . . . . . . . . 47
3. Demanda 63
Contenidos: Nube de puntos, Estimación, intervalos de
confianza, Restricciones lineales, Elasticidad . . 63
4. Productividad 73
Contenidos: Generar variables, Tendencia temporal, Esti-
mación, Análisis de Residuos, Valores atípicos,
Matriz de correlaciones, Tabla de modelos, Pre-
dicción, Consola . . . . . . . . . . . . . . . . . . 73
5. Pobreza 91
Contenidos: Estimación, Test F de significación, Análisis
de Residuos, ANOVA, Predicción transversal . . 91
7
8 ÍNDICE GENERAL
6. Educación 105
Contenidos: Estimación, Contrastes, Restricciones linea-
les, ANOVA, Multicolinealidad . . . . . . . . . 105
7. Sanidad 115
Contenidos: Estimación MCO, Multicolinealidad, Predic-
ción . . . . . . . . . . . . . . . . . . . . . . . . . 115
8. Género 129
Contenidos: Nubes de puntos, Estimación MCO, Varia-
bles dummy, términos de interacción, compara-
ción de modelos, restricciones lineales, submues-
tras . . . . . . . . . . . . . . . . . . . . . . . . . 129
9. Heladería 139
Contenidos: Estimación MCO, Análisis de residuos, Va-
riables dummy estacionales, Multicolinealidad,
Restricciones lineales, Mínimos Cuadrados Res-
tringidos (MCR), Comparación de modelos, Pre-
dicción. . . . . . . . . . . . . . . . . . . . . . . . 139
10.Vivienda 153
Contenidos: Estimación MCO, Multicolinealidad, Varia-
bles dummy, Elasticidad, Restricciones lineales,
Modelo logit . . . . . . . . . . . . . . . . . . . . 153
11.Tecnología 163
Contenidos: Nube de puntos, Estimación MCO, Compa-
ración de modelos, Contrastes de restricciones
lineales, Variables cualitativas, términos de in-
teracción, Predicción, Modelos Logit, Modelos
Probit, Test RV . . . . . . . . . . . . . . . . . . 163
12.Empleo 179
Contenidos: Estimación MCO, Modelos logit, Modelos pro-
bit, Odds-ratios . . . . . . . . . . . . . . . . . . 179
13.Emisiones 187
Contenidos: Estimación MCO, Test RESET de Ramsey,
tests de linealidad, Modelos polinómicos, Varia-
ble dummy, Modelo loglineal . . . . . . . . . . . 187
ÍNDICE GENERAL 9
14.Metal 199
15.Inmigrantes 219
16.Importaciones 233
17.Alquiler 253
18.Energía 269
19.Tabaco 279
20.Industria 303
21.Delitos 321
Contenidos: Estimación MCO, Test de Chow, Endogenei-
dad, MC2E, Variables instrumentales, Test de
White, MCP, SEM, identificación, MC3E, Test
Breusch Pagan de diagonalidad, predicción . . . 321
22.SEM_Demanda 339
Contenidos: Estimación MCO, Validación, Test de Chow,
Endogeneidad, MC2E, Variables instrumentales,
Test de White, MCP, SEM, identificación, MC3E,
Test Breusch Pagan de diagonalidad, predicción 339
23.Empresas 353
Contenidos: Estimación MCO, SUR, test Breusch-Pagan
de diagonalidad, Autocorrelación, Test de res-
tricciones lineales, Agregabilidad . . . . . . . . . 353
24.Klein 365
Contenidos: Modelo SEM, Identificación, Estimación MC2E,
Test Breusch-Pagan, Restricciones lineales, Pre-
dicción . . . . . . . . . . . . . . . . . . . . . . . 365
Bibliografía 379
Parte I
Introducción a Gretl
11
¿POR QUÉ GRETL? 13
Entre estos archivos se incluyen algunos nativos del programa (en la pestaña
Gretl) y otros correspondientes a ejercicios incluidos en diversos manuales de
Econometría (accesibles en pestañas separadas). Si queremos incluir supuestos
de otros libros, desde el icono con forma de ordenador situado en la zona supe-
rior izquierda podemos acceder a diversos servidores, que una vez seleccionados
instalan las bases de datos en Gretl, clasificadas en distintas pestañas, tal y
como muestra la figura:
16
Al seleccionar una variable del archivo y hacer clic en ella con el botón derecho,
tenemos varias opciones relativas a esa variable, disponibles también a través
del menú Variable. Si bien a lo largo del texto iremos detallando las distintas
opciones, se incluye aquí a modo de ejemplo la opción básica relativa a la vista
de datos, desde la que a su vez es posible solicitar la representación gráfica en
el icono correspondiente.
MENÚS DE GRETL 17
Menús de Gretl
La forma de trabajar con Gretl es flexible, ya que este programa permite acceder
a las distintas opciones a través de menús o bien con algún tipo de script o
programación (bien sea línea a línea, mediante la consola, o con algún script,
Archivos de guión).
En los apartados que siguen vamos a describir algunas opciones del menú.
Menú Archivo
En este menú se encuentran las principales opciones que tienen que ver con los
ficheros. De estas opciones queremos destacar los distintos tipos de archivos de
Gretl.
18
En primer lugar tenemos los Archivos de Datos, que por defecto tienen la
extensión *.gdt (asociada a Gretl data base) y únicamente almacenan los datos
que hayamos introducido o generado en al archivo.
En segundo lugar vamos a referirnos a las Bases de Datos, que se pueden
incorporar a un fichero de datos ya existente. Por defecto el programa tiene
algunas bases ya instaladas, pero con la opción Bases de datos . Sobre el servidor,
podemos instalar otras bases de datos adicionales, por ejemplo distintas series
que elabora el Banco de España. Una vez incorporadas algunas series al fichero
de trabajo, éste ya sería un archivo de datos estándar.
Los Archivos de sesión recogen toda la actividad que realizamos durante
una sesión; por ejemplo, si definimos una variable z = log x o si estimamos un
modelo para explicar y en función de x. Todas las actividades que realizamos en
una sesión de trabajo puede guardarse en un archivo con extensión *.gretl, de
modo que la próxima vez que accedemos a Gretl, abriendo el archivo de sesión
recuperaremos los datos y todas las operaciones que hayamos realizado hasta
ese momento. Este es el formato en el que podemos recoger no sólo el conjunto
de datos inicial sino también un material complementario para el supuesto como
el enunciado, algunos scripts e iconos con ecuaciones o gráficos para interpretar.
Los Archivos de guión son ficheros donde podemos incluir pequeños o grandes
programas que pueden ser muy útiles cuando queremos realizar operaciones
repetidas o construir algunas opciones que Gretl no tiene disponibles en sus
menús. Un guión es un conjunto de instrucciones que se ejecutarán de forma
secuencial, y a lo largo de este libro iremos construyendo algunos scripts que
muestran las posibilidades de extender Gretl mas allá de sus opciones de menú.
MENÚS DE GRETL 19
Menú Herramientas
Gnuplot es la librería gráfica que usa Gretl y que también podríamos programar.
Menú Datos
Menú Ver
Nota:
De forma habitual, en el icono Información incluido dentro de cada uno de los
archivos de datos de este libro se incorporará un enunciado básico del supuesto,
de forma que el fichero de datos sea autónomo para poder realizar el ejercicio.
Otras opciones de uso muy intuitivo son los gráficos que pueden ser series tempo-
rales, nubes de puntos, gráficos de cajas, etc. e incluyen las opciones de gráficos
simples o múltiples gráficos agrupados.
Menú Añadir
Menú Muestra
Menú Variable
Dentro del menú Variable disponemos de diversas opciones para analizar la in-
formación relativa a una sola variable previamente seleccionada.
24
Las primeras opciones del menú tienen un carácter más general y descriptivo o
probabilístico, mientras las opciones que aparecen en la zona inferior tienen un
carácter más avanzado.
Menú Modelo
Esta opción del menú nos permite estimar, contrastar y analizar modelos. Si
los modelos estimados resultan adecuados, también utilizaremos las opciones
disponibles desde la salida para realizar predicciones.
Al igual que en los anteriores menús, a lo largo de los próximos capítulos ire-
mos detallando algunas de estas opciones según las distintas herramientas que
vayamos necesitando en cada supuesto.
MENÚS DE GRETL 25
Menú Ayuda
Cabe señalar por último que, con independencia de la mayor o menor experiencia
del usuario, será conveniente consultar la ayuda de Gretl que está muy detallada
en el menú.
Las dos primeras opciones son guías rápidas de instrucciones (un comando que
da alguna orden a Gretl y no devuelve nada) y funciones (comando que pide
a Gretl hacer algo y devuelve algún valor); la tercera opción es la guía del
usuario, Cottrell 2019b cuya consulta es muy recomendable ya que además de
las orientaciones sobre el uso y las extensiones de Gretl, incluye también algunos
temas de econometría tratados con rigor.
Existe un gran numero de funciones e instrucciones disponibles en Gretl, y
además muchas de ellas incluyen diversas opciones. Así pues, la mejor opción
para el usuario será ir consultando poco a poco cómo se aplican las opciones e
ir familiarizándose gradualmente con ellas con el uso y la experiencia.
Guía de Instrucciones de Gretl
Para un uso inicial de Gretl basado en su entorno gráfico con el ratón y las op-
ciones del menú no es necesario un conocimiento de estas funciones. Sin embargo
para un uso más avanzado utilizando la consola o guiones de programación, el
aprendizaje de algunas de estas funciones es muy recomendable ya que facilitará
mucho la sistematización del trabajo con Gretl.
A lo largo de los próximos supuestos iremos introduciendo gradualmente el uso
de la programación de scripts o guiones en el lenguaje de Gretl, que se denomina
Hansl y aparece descrito en Cottrell 2019a.
28
Parte II
Supuestos
29
SUPUESTO 1
Salarios
Enunciado:
Se ha recopilado información sobre la situación salarial de 42 empleados del
sector bancario, recogida en las variables Salario (Y , en miles de euros) y Ex-
periencia laboral (X, en años de experiencia).
31
32 SUPUESTO 1. SALARIOS
Solución:
1. Crear un archivo de Gretl e introducir en el mismo la información
disponible sobre experiencia laboral y salarios
Por tratarse del primer supuesto práctico, vamos a comenzar definiendo un ar-
chivo de trabajo para posteriormente introducir la información disponible. Con-
cretamente en este caso el archivo será de corte transversal o sección cruzada y
contendrá 42 observaciones, por lo que deberemos seleccionar las correspondien-
tes opciones de Gretl para esta estructura de datos, según la siguiente secuencia:
Menú Archivo . Nuevo conjunto de datos,
Una vez que finaliza la creación del fichero, el programa nos pregunta si deseamos
empezar a introducir datos. En caso afirmativo debemos introducir el nombre de
la serie y se abrirá el editor de datos para empezar a introducir la información
de esa variable.
33
Es interesante destacar que una vez creado un fichero de trabajo, aún sin in-
troducir ninguna información en el mismo, aparecen dos objetos. Uno de ellos,
denominado const, que como su nombre indica es una constante generada auto-
máticamente, se utiliza posteriormente en la estimación de los modelos, mientras
que la serie denominada index únicamente indica el número de observación.
La introducción de las variables en nuestro archivo de datos se lleva a cabo
mediante la opción de menú: Añadir . Definir nueva variable
Una vez realizadas estas operaciones, podemos observar que nuestro fichero de
trabajo ya tiene 4 objetos y las nuevas variables x e y aparecen con ID=2 y 3
respectivamente. Este índice ID va numerando los distintos objetos que vayamos
introduciendo en el archivo, de modo que posteriormente en los modelos u otras
representaciones, podemos aludir a las variables tanto por su nombre como por
el número de ID.
Nota:
Aunque en este primer ejercicio denominamos x e y a las variables, es recomen-
dable utilizar términos que hagan referencia a su significado, y así lo haremos
en los supuestos que siguen.
Además, para trabajar de forma cómoda y evitar errores es aconsejable utili-
zar letras minúsculas. El motivo es que Gretl es un programa multiplataforma:
Windows, Mac y Linux, y en el caso de Linux se distingue entre letras mayús-
culas y minúsculas, por lo cual el mismo nombre introducido con mayúsculas o
minúsculas es diferente, con el consiguiente riesgo de cometer errores al manejar
las variables (este sería el caso por ejemplo al escribir X o x, Salario o salario,
USA o usa).
Los objetos const e index que aparecen desde el inicio en el archivo de trabajo
llevan asociada una descripción (variable índice en el caso de index), pero en
cambio no sucede lo mismo para las series x e y, que no disponen de información
hasta que no se introducen las correspondientes etiquetas.
Para etiquetar una variable basta seleccionarla e ir al menú Variable . Editar
atributos, (o bien, una vez seleccionada la variable, activar con el botón derecho
del ratón la opción Editar atributos).
Nota:
Es importante etiquetar las variables, incluyendo en la descripción la definición
completa, unidades de medida, fuente de la que proceden y otras características
que queramos recoger. Las variables sin etiquetar son un riesgo ya que, al acceder
pasado un tiempo al archivo de trabajo, podemos tener problemas para recordar
sus características e interpretar los resultados obtenidos.
Una vez introducidos los datos, es muy recomendable observar algún gráfico de
las variables, ya que nos puede dar ideas sobre la relación existente entre las
mismas e incluso nos puede ayudar a detectar posibles errores.
Para ver un gráfico conjunto, señalamos con el ratón las variables x e y; y po-
demos ir a Ver . Gráficos donde tenemos distintas opciones de representaciones
gráficas (en este caso sería adecuada una nube de puntos que corresponde a
la opción Gráfico X-Y scatter). Otras alternativas para obtener la misma repre-
sentación son ir al icono que aparece en la parte inferior del fichero de trabajo
(Barra de herramientas) con forma de gráfico tipo nube de puntos , o bien
seleccionar desde el botón derecho del ratón la opción Gráfico de dos variables
XY.
En cualquiera de los casos tenemos que indicar cuál va a ser la variable que se
representará en el eje horizontal y cuál en el vertical. En este caso se obtiene
el siguiente gráfico donde se puede observar que, además de la nube de puntos,
aparece representada la recta mínimo cuadrática que explica el salario en función
de la experiencia laboral y cuya pendiente, tal y como cabía esperar, tiene signo
positivo.
36 SUPUESTO 1. SALARIOS
�����������������������������������������������������������������
� ��
�����������������
� ��
� ��
� ��
�������
� ��
� ��
� ��
� ��
�� � �� ��
� ��
� ��� ��� ��
� ��
�
�����������
Desde esta opción de Editar es posible cambiar el Título del gráfico si lo consi-
deramos oportuno, elegir cuestiones de aspecto como bordes o rejillas y decidir
si se representa o no el modelo estimado y en caso afirmativo si éste es lineal o
de otro tipo.
En los Ejes es posible cambiar la leyenda que aparece, el rango o la escala.
En Etiquetas, se pueden escribir distintos textos y la posición (x, y). Para ello
basta pulsar sobre el icono con el ratón y al hacer clic sobre un punto del gráfico
donde se insertará la correspondiente etiqueta. Estas opciones se utilizarán en
algunos supuestos posteriores para personalizar las salidas gráficas.
37
Si hacemos clic sobre el Conjunto de datos podemos ver los datos, y en Resumen
aparecen los principales estadísticos (media, mediana, desviación típica, máximo
y mínimo) de esos datos.
Si ahora volvemos al gráfico anterior y pulsamos la opción: Guardar a sesión como
icono vemos que aparece un nuevo icono correspondiente al gráfico que hemos
guardado y por tanto podemos recuperarlo en el momento que consideremos.
Aunque la denominación que utiliza Gretl para este tipo de iconos es genérica
(Gráfico 1) podemos cambiar el nombre con la opción Renombrar del botón
derecho del ratón
Nota:
De modo similar al descrito para el gráfico, es posible guardar a sesión como icono
distintos tipos de objetos, tal y como describiremos en supuestos posteriores.
Es recomendable ir almacenando los distintos objetos (gráficos, matrices, mo-
delos, . . . ) en la sesión de iconos porque puede resultar útil para posteriores
consultas o comparaciones entre diversos resultados. También es conveniente
abrir la vista de iconos al empezar a resolver un supuesto y observar los distin-
tos objetos que vamos añadiendo.
38 SUPUESTO 1. SALARIOS
Es importante tener en cuenta que una vez almacenado un objeto (un gráfico,
por ejemplo) éste ya se mantiene inalterado, por lo que no variará si efectuamos
cambios en las variables representadas. Además, si abrimos un objeto desde la
vista de iconos, éste aparece tal y como ha sido almacenado y ya no ofrece la
opción de guardar a sesión como icono.
Nota:
El historial de instrucciones es una herramienta muy útil por dos motivos: por
una parte nos recuerda la actividad realizada en la sesión de trabajo y por otra
nos indica cuáles son los comandos para ejecutar las distintas instrucciones. De
este modo, consultando el historial de instrucciones podemos ver que algunas de
las tareas realizadas pueden ser llevadas a cabo de forma más rápida mediante
comandos en la Consola de Gretl.
Nota:
Para familiarizarnos con la Consola de Gretl, que utilizaremos en algunos de los
supuestos, vamos a Herramientas . Consola de Gretl o bien al tercer icono de la
Barra de Herramientas situada en la zona inferior izquierda. Al abrir la consola
aparece una ventana donde podemos escribir comandos.
39
Para crear una nueva serie z, podemos teclear simplemente series z=NA (NA: no
disponible) o bien series z=0 (en este caso se asignaría valor nulo a todas las
observaciones).
Es importante tener en cuenta que si escribimos series z=na el programa da un
error porque no reconoce el término na (tendría que ser NA en mayúsculas),
y por el mismo motivo, como ya hemos indicado anteriormente, daría error si
escribiéramos Series o SERIES en vez de series.
Una vez creada la serie z=0, ésta tendrá asignada un nuevo ID, en este caso
4. Si a continuación volvemos a escribir series z=NA lo que hace es reemplazar
la serie anterior, por lo que es necesario tener cuidado al introducir nuevas
series (si asignamos un nombre ya existente sobreescribe la serie anterior y en
consecuencia perdemos la información).
Aunque los menús de Gretl permiten realizar muchas opciones, hay algunos
casos en los que resulta necesario utilizar la consola, por lo que en supuestos
posteriores iremos introduciendo ilustraciones de sus posibilidades.
Nota:
Es posible acceder a esta estimación de mínimos cuadrados ordinarios (MCO),
desde distintas opciones. Así en la pantalla principal de Gretl, en la parte inferior
(Barra de herramientas) aparece un icono con β̂ que nos conduce a este diálogo
de MCO y también desde un gráfico de nube de puntos, en el botón derecho del
ratón podemos acceder a la opción de MCO.
Además, en la consola de Gretl podemos utilizar el comando ols (ordinary
least squares o mínimos cuadrados ordinarios) y escribir ols y const x o bien
ols 3 0 2, donde los números representan el ID de cada variable.
SXY SXY
β̂1 = Ȳ − 2 X̄ = 37, 1265 ; β̂2 = 2 = 0, 480302
SX SX
s Pn s
S2 i=1 Xi2 S2
Sβ̂1 = Pn 2 = 1, 38677 ; Sβ̂2 = Pn 2 = 0, 0589702
n i=1 Xi − X̄ i=1 Xi − X̄
Pn 2
i=1 ûi
donde S 2 = n−2 .
H0 : β2 = 0 ; H1 : β2 6= 0
β̂2 − β2 β̂2
dβ̂2 = = ∼ tn−2
Sβ̂2 Sβ̂2
que en caso proporciona el resultado 8,145
Finalmente en la quinta columna aparece el nivel crítico del contraste, p =
5,03272e − 010, que permite rechazar la hipótesis de nulidad del coeficiente y
por tanto concluir que la experiencia es significativa para explicar el salario.
En este caso se tiene: n − 2 = 40, por lo que p = P (|t40 | > 8, 145)
Para buscar esta probabilidad en Gretl podemos utilizar la opción: Herramientas
. Buscador de valor p:
Nota:
En la salida del modelo anterior podemos observar que, acompañando al nivel
crítico obtenido, aparecen 3 asteriscos, ***, lo cual indica que el resultado es
significativo al 1 %. Esta leyenda utilizada por Gretl es habitual para facilitar
la interpretación de los contrastes: cuando el resultado es significativo al 1 %,
la etiqueta es de 3 asteriscos, (***), cuando lo es al 5 % aparecen 2 asteriscos
(**) y para resultados significativos al 10 % se incluye sólo un asterisco (*). Para
niveles críticos superiores al 10 % no incluye leyenda.
Es importante tener presente que, aunque Gretl muestra los resultados de los
contrastes de significación para los dos parámetros de regresión, nuestro interés
se centra en el coeficiente de la variable x, mientras que en el caso de la constante
este resultado no es relevante (ya que la hipótesis nula contrastada en este caso
sería H0 : β1 = 0 , equivalente a asumir que la recta de regresión pasa por
el origen, pero no afecta a ninguna variable explicativa ni es relevante para la
especificación del modelo).
Nota:
La estimación del modelo de salarios en función de la experiencia laboral puede
obtenerse desde la consola de Gretl, mediante el comando ols y const x, que
proporciona la misma salida del output de regresión pero en este caso estática,
es decir, sin acceso a las opciones de menú descritas anteriormente.
También es posible guardar el modelo en la sesión de iconos, asignando un
nombre al modelo anterior:
El análisis de los errores de estimación puede ser llevado a cabo desde el modelo
estimado. La opción Guardar . Residuos almacena la serie correspondiente en el
fichero de datos y permite analizar sus valores, representación gráfica, etc.
Además, desde el modelo estimado el menú Análisis . Mostrar variable observada,
estimada, residuos proporciona la tabla completa con los valores de los salarios
observados, los salarios estimados por el modelo y los residuos obtenidos co-
mo diferencia entre ambos. Las correspondientes representaciones gráficas están
disponibles, también desde la salida del modelo, en el menú Gráficos y así en
Gráficos . Residuos . Por número de observación obtenemos la salida siguiente,
que permite apreciar algunos residuos considerables (los más extremos son -9,0
y 8,6, que sin embargo no superan 2,5 veces la desviación típica y por tanto no
pueden ser considerados valores atípicos, tal y como se comentará en supuestos
posteriores).
���������������������������������������������������
� ��
��
��
��
��
�������
��
��
��
��
��
���
�� �� � �� ��
� ��� ��� ��� ��
� ���
Coeficiente de determinación:
45
Para los modelos lineales simples, como el propuesto en este caso, el coeficiente
de determinación coincide con el cuadrado del coeficiente de correlación lineal,
ya que al existir una única variable explicativa se cumple:
Pn 2
2
i=1 Ŷi − Ȳ Pn
Xi − X̄
SXY
2 2
SX
SXY
2
2 i=1
R = Pn 2 = β̂22 2 = 2 = 2
= rXY
Yi − Ȳ
Pn
Yi − Ȳ SX SY2 SX SY
i=1 i=1
Una vez realizado el cambio de escala, si estimamos el nuevo modelo que explica
z (salario en dólares) en función de x (años de experiencia) el resultado es el
siguiente:
Consumo
Enunciado:
47
48 SUPUESTO 2. CONSUMO
Solución:
Nota:
En todos los supuestos incorporamos el enunciado dentro del propio fichero de
datos de Gretl; en la Vista de iconos podemos acceder a la información del supues-
to, donde aparece el enunciado del ejercicio. Esta misma ventana es accesible
también desde la opción Datos . Información del conjunto de datos.
Nota:
La secuencia de navegación descrita corresponde al momento actual (2019), pero
puede cambiar con nuevas organizaciones del mapa de navegación Web del INE.
Lo mismo ocurre con el diseño del cuaderno de cálculo que se descarga, pero
el esquema de trabajo propuesto para incorporar la información a Gretl sigue
siendo válido.
Nota:
Es posible que las series no tengan disponible el mismo recorrido temporal (por
ejemplo en el momento actual la variable Gasto en Consumo Final empieza en
el año 1995 y en cambio la Renta nacional disponible lo hace en 1999). Debemos
tener en cuenta esta información y asegurarnos de que los datos van asociados
al año adecuado (en este caso debemos dejar en blanco los datos de la renta de
los cuatro años iniciales).
Además, al extraer la información del INE es habitual que en los cuadernos
de cálculo, como sucede en este caso, aparezcan insertadas filas o columnas en
blanco, que habría que eliminar, hasta que las series con las que vamos a trabajar
aparezcan dispuestas en columnas contiguas.
Es importante prestar atención a estas cuestiones para evitar introducir errores
en la base de datos.
Una vez configurado el archivo xls, la primera fila incluye la etiqueta que
luego Gretl tomará como nombre de la variable, y que no puede contener
ningún separador ni símbolo atípico. Es recomendable utilizar nombres
cortos (Gretl admite hasta un máximo de 32 caracteres). Para guardar
este fichero xls debemos asignar un nombre que no incluya espacios en
blanco ni símbolos especiales (por ejemplo, en nuestro caso, consumo.xls).
50 SUPUESTO 2. CONSUMO
Nota:
Debemos prestar atención al separador decimal, «.» o «,», según las configu-
raciones de los cuadernos de cálculo y de Gretl. Cuando los dos tienen una
configuración regional automática o en español, la importación suele ser auto-
mática respetando los signos de puntuación (decimales y miles).
Si ambas configuraciones no fueran iguales tendríamos que cambiarla en el cua-
derno de cálculo antes de importar los datos a Gretl para que reconozca los
datos como números y no como caracteres de texto.
El formato decimal de Gretl puede no ser siempre el mismo, ya que dependien-
do de las configuraciones o del sistema operativo puede intercambiar los dos
sistemas de puntuación.
Una vez importados los datos, procedemos a etiquetar las series, Variable .
Atributos de variables tal y como se describe en el supuesto anterior, indicando
la denominación completa de las variables (Renta Nacional Disponible Neta y
Gasto en Consumo Final de los hogares), las unidades de medida (miles de
millones de euros), y la fuente (Instituto Nacional de Estadística).
Para visualizar los valores de las dos series podemos ir al menú Datos . Mostrar
valores o bien seleccionar esta opción con el botón derecho del ratón. En ambos
casos obtenemos la tabla siguiente:
Para estudiar la relación entre consumo y renta puede ser adecuado comenzar
con una representación de ambas. Una primera opción es la nube de puntos,
disponible en el menú Ver . Gráficos . Gráfico X-Y (scatter)... y también en el
icono de gráfico de la ventana principal de Gretl. En ambos casos aparece un
diálogo donde debemos seleccionar las variables del eje X (en nuestro caso renta)
y del Eje Y (en nuestro caso consumo) y el gráfico obtenido permite apreciar
una relación muy estrecha entre las variables, sugiriendo que un modelo lineal
resultaría adecuado.
�����������������������������������������������������������
�������
����������������������
�������
�������
�������
�������
�������
�������
�������
�������
������� ������� � ������ � ������ ������� ������
� ������� ������
� ������
�
�����
� �����
�������
�����
� ������
� ������
� ������
� ������
� ������
� ������
� ������
� ������
����� � ���� ����
� ����
� ����
�
Nota:
Es conveniente almacenar estos gráficos en la vista de iconos de Gretl, mediante
la opción Guardar la sesión como icono a la que se accede con el botón dere-
cho del ratón. También es recomendable, desde la vista de iconos, renombrarlos
para facilitar su identificación (por ejemplo, en este caso nube_puntos y grafi-
co_temporal respectivamente). De modo similar almacenaremos en la vista de
iconos otros objetos como modelos o tablas.
Nota:
El mismo modelo podría obtenerse desde el icono rápido β̂ disponible
en el margen inferior izquierdo de Gretl o bien tecleando en la consola:
ols consumo const renta. Sin embargo, en este segundo caso la salida que devuelve
la consola corresponde únicamente al modelo estimado, sin menús adicionales
que permitan realizar análisis y contrastes.
Nota:
En general el término independiente de los modelos (const) no presenta interés
en cuanto a su interpretación y tampoco resulta relevante su significación. De ahí
que, aunque Gretl proporciona resultados relativos a la estimación y contraste
de todos los parámetros del modelo, nosotros centremos nuestros esfuerzos en
los coeficientes de las variables explicativas.
Donde Sβ̂ se calcula, dependiendo del coeficiente estimado, mediante las expre-
siones:
n
S2 Xi2
P
2
S
i=1
ar β̂2 = Sβ̂2 = P
Vd n 2 ar β̂1 = Sβ̂2 =
, Vd n 2
2 1 P
Xi − X̄ n Xi − X̄
i=1 i=1
n
û2i
P
siendo, S = 2 i=1
n−2 .
El valor k se obtiene en las tablas del modelo t de student con n − 2 g.l. (dado
que la varianza es desconocida)
P dβ̂ ≤ k = 1 − α
En la consola de Gretl, una vez estimado el modelo ols consumo const renta, el
coeficiente βˆ2 se obtiene como b2=$coeff[2] y el valor de k puede calcularse
mediante la opción Herramientas . Tablas estadísticas:
55
t(16)
probabilidad en la cola derecha = 0,025
probabilidad complementaria = 0,975
probabilidad a dos colas = 0,05
k=Valor crítico = 2,11991
n = nobs ( renta )
k = critical (t ,n -2 ,0.025)
ols consumo const renta
b2 = $coeff [2]
S2 = $ess /( n -2)
Sb2 = S2 / sst ( renta )
lim_inf = b2 - k * Sb2
lim_sup = b2 + k * Sb2
Existen muchas alternativas distintas a este código; por ejemplo una vez estima-
do el modelo podemos calcular directamente los grados de libertad como
gl=$df, almacenar las series de residuos (o de residuos cuadráticos) con lo cual
S2 podría calcularse guardando primero los residuos y calculando la suma de
sus cuadrados: u=$uhat, S2=sum(u*u)/gl, entre otras opciones posibles.
El modelo anterior también puede ser expresado de una forma compacta (en la
salida del modelo Archivo . Ver como ecuación) como:
Análisis de Varianza:
Análisis de varianza:
El análisis de la varianza (ANOVA) se basa en la descomposición:
n n 2 n 2
X 2 X X
Yi − Ȳ = Ŷi − Ȳ + Yi − Ŷi
i=1 i=1 i=1
donde el primer término representa la variación total (VT) o suma total de cua-
drados, y en el segundo término el primer sumando sería la variación explicada
(VE) o de la regresión que se expresa como:
n 2 n
X X 2
Ŷi − Ȳ = β̂22 Xi − X̄
i=1 i=1
V NE Variación de Regresión
R2 = 1 − =1− , y
VT Variación total
Nota:
En algunas ocasiones como ésta, el cuadro de diálogo aparece en blanco y las
ayudas de Gretl son muy útiles para saber qué información debemos introducir y
el formato adecuado. De hecho, al consultar la ayuda, además de la descripción
general en muchos casos encontramos ejemplos, ilustraciones y sugerencias.
Concretamente, en Gretl los coeficientes β1 y β2 se expresan mediante la letra
b, y los subíndices (o las variables explicativas) se indican entre corchetes, en
este caso b[2]=0 o bien b[renta]=0. Debemos tener en cuenta que generalmente
Gretl usa los corchetes para indicar un elemento de un vector o de una matriz,
y así M[i,j] representaría el elemento fila i, columna j de la matriz M.
Restricción: b[renta] = 0
Estadístico de contraste: F(1, 16) = 1608,54, con valor p = 1,74633e-17
Estimaciones restringidas:
Coeficiente Desv. Típica Estadístico t valor p
const 538150 22013,2 24,45 1,10e-14 ***
renta 0,00000 0,00000 NA NA
Nota:
En la salida de la regresión asociada a este test podemos observar que el co-
eficiente de la renta es nulo (ya que corresponde al modelo restringido bajo la
hipótesis propuesta). Dado que este coeficiente no se estima, se observa también
que no hay dispersión y por tanto no es posible calcular el estadístico t ni su
nivel crítico p (el programa indica NA, no disponible).
Nota:
La coincidencia anterior se debe al siguiente resultado:
Si X es una variable con distribución t de Student de m grados de libertad
(X ≈ tm ) entonces la variable X 2 sigue un modelo Fm
1
.
Por lo tanto siempre que la restricción sea que un único coeficiente es nulo, el
nivel crítico coincide con el obtenido en el test de significación individual; la
coincidencia no se cumple si la hipótesis es que el coeficiente adopta un valor
no nulo o bien si hay más de un coeficiente afectado por las restricciones.
���������������������������������������������������������
������
������
������
�����
�������
� �
�����
������
������
� ���� ����� � ���� � ���� ����� ����
� ����� ����
� ����
�
60 SUPUESTO 2. CONSUMO
Nota:
Cuando los residuos, en términos absolutos, son superiores a 2,5 veces la desvia-
ción típica, son considerados como valores atípicos o outliers y Gretl los marca
con un símbolo «*» para destacarlos. En este caso el residuo más alto corres-
ponde al año 2012, pero no es considerado como un valor atípico.
Además, como se puede observar, al final de la tabla anterior figuran unas me-
didas de evaluación de las estimaciones (aunque el texto figuran «predicciones»,
el periodo considerado en este caso es el de estimación).
siguiente salida:
Observamos que, tal y como cabía esperar, el signo del coeficiente de los salarios
es positivo, ya que aumentos de las remuneraciones salariales llevarán asociados
aumentos en el consumo. Además, el test de significación individual confirma que
el coeficiente de los salarios es significativamente distinto de cero (rechazamos
la hipóteis, H0 : β2 = 0, dado que el nivel crítico es muy bajo).
El coeficiente de determinación es elevado también en este caso R2 = 0, 986023,
por lo que los salarios tienen una alta capacidad para explicar los cambios en el
consumo.
Al igual que en el caso anterior, almacenamos el modelo estimado en Archivo .
Guardar la sesión como icono. Para comparar los dos modelos, existe la posibi-
lidad de construir una tabla comparativa desde la vista de iconos (Ver . Vista
de iconos), pulsando sobre cada uno de los modelos previamente almacenados y
seleccionando con el botón derecho la opción Añadir a la tabla de modelos.
Al abrir la tabla se obtiene una comparación sintética de los dos modelos, inclu-
yendo los coeficientes estimados, su significación y los indicadores de bondad:
Estimaciones de MCO
Variable dependiente: consumo
(1) (2)
const −2,429e+04 4,148e+04∗∗
(1,420e+04) (1,250e+04)
renta 0,7270 ∗∗
(0,01813)
salarios 1,081∗∗
(0,02878)
n 18 22
R̄2 0,9895 0,9853
` −189,4 −242,2
62 SUPUESTO 2. CONSUMO
Función de verosimilitud:
La función de verosimilitud viene dada por la expresión:
n
n n 1 X 2
` = ln L = − ln(2π) − ln(σ̂ 2 ) − 2 û
2 2 2σ i=1 i
Como podemos observar esta expresión incluye la suma de los residuos al cua-
drado. Cuanto mejor se adapte el modelo estimado a la información muestral
menor será esta suma de cuadrados y como aparece con signo negativo, mayor
será el resultado de la función de verosimilitud. Así pues un modelo será prefe-
rible a otro cuando su función de verosimilitud proporcione mayor resultado.
SUPUESTO 3
Demanda
Enunciado:
63
64 SUPUESTO 3. DEMANDA
Solución:
������������������������������������������������������������
����
����������������
����
����
����
�������
����
����
����
����
����
��� ��� ��� ��� ��� ��� ��� ��
� ����
������
Nota:
En muchas ocasiones nos interesa mostar la versión compacta del modelo esti-
mado (salida del modelo, menú Archivo . Ver como ecuación)
(5,06) (0,0770)
También es posible utilizar el menú Guardar (de la salida del modelo) para
almacenar algunos resultados, incluyendo series como los valores estimados, los
residuos o los residuos cuadráticos y también escalares como el coeficiente de
determinación o medidas de información.
���������������������������������������������������
����
���������
��������
����
����
����
�������
����
����
����
����
����
��� ��� ��� ��� ��� ��� ��� ��
� ����
������
∆Y
∆Y X X
E= Y = = β̂
∆X ∆X Y Y
X
y, teniendo en cuenta que en Gretl el vector de coeficientes β̂ del último modelo
estimado puede obtenerse como el vector: $coeff, la serie de elasticidades puede
ser calculada mediante la opción Añadir . Variable como:
elasticidad=$coeff[2]*precio/demanda
Nota:
En ocasiones cuando en Gretl realizamos por primera vez un cálculo puede ser
interesante indicar el tipo de objeto de que se trata. Por ejemplo, en el caso
anterior podríamos escribir:
series elasticidad=$coeff[2]*precio/demanda
precio_medio=mean(precio)
Gretl por defecto genera un escalar ya que se trata del valor medio de la variable
precio. Sin embargo podríamos querer disponer de una serie con todos sus valores
iguales al precio medio (para representarla gráficamente, generar las desviaciones
respecto a la media, ...), en cuyo caso escribiríamos:
series precio_medio=mean(precio)
Conviene tener presente que, una vez que ya hemos usado un nombre (por
ejemplo, precio_medio) como escalar, no podemos usarlo posteriormente para
otro objeto distinto, salvo que eliminemos el primer objeto.
68 SUPUESTO 3. DEMANDA
elasticidad_media=$coeff[2]*mean(precio)/mean(demanda)
���� �������
��������
��������
���� ��������
��������
��������
���� ��������
��������
��������
����
����
����
����
����
����
��� ��� ��� ��� ��� ��� ��� ��� ����
������
Nota:
Para importar los datos desde el cuaderno de cálculo basta con elegir la opción
Archivo . Añadir y a continuación seleccionar el tipo de fichero adecuado. Como
es habitual, Gretl nos preguntará desde qué hoja de cálculo y en qué fila y
columna empieza a importar los datos; es importante recordar que la primera
fila debe recoger los nombres de las variables.
La descripción detallada del procedimiento para añadir nuevas series de datos
a un archivo de trabajo puede consultarse en (2) .
69
Para cada una de las series de demanda es posible estimar un modelo lineal que
representa una aproximación a la verdadera función de demanda de perfume.
También podríamos usar la consola y escribir:
Nota:
El primer comando forma una lista de variables y lo denomina ylist.
La segunda instrucción es un bucle que se repite entre las líneas 2 y 4, y se repite
para cada i de la lista, desde el primer hasta el último elemento.
Dentro del bucle solo ejecuta la línea 3, que le indica que estime mínimos cua-
drados ordinarios, donde la variable que queremos explicar es el elemento co-
rrespondiente de la lista. La forma de llamar a los elementos de la lista es la
70 SUPUESTO 3. DEMANDA
ols ylist.$i 0 1
Nota:
El script anterior puede ser perfeccionado, por ejemplo guardando en la Sesión
de iconos los diferentes modelos que vamos estimando:
list ylist = demanda demanda2 demanda3 demanda4 demanda5 demanda6
demanda7 demanda8 demanda9
#Cuando una l í n e a de c ó d i g o e s muy l a r g a podemos s e p a r a r l a con "\"
y p a s a r e l r e s t o a una n u e v a l í n e a
Una vez estimadas las distintas ecuaciones de demanda resulta interesante ana-
lizar los resultados, comprobando la estabilidad de los coeficientes estimados,
que aproximan los parámetros del modelo de demanda. Es interesante tener en
cuenta que las propiedades del procedimiento mínimo cuadrático garantizan que
se trata de estimadores lineales insesgados óptimos, por lo que su valor espera-
do es el parámetro y además minimizan el riesgo o varianza (son estimadores
eficientes).
Nota:
En una nueva ampliación podemos incluir un vector b con los coeficientes del
precio en todos los modelos:
Se define b como una matriz (vector) con ceros y un escalar j que hace las
funciones de índice. En el bucle se va sumando a j la unidad para que vaya
numerando los elementos del vector; luego se van incorporando los elementos
de b, de modo que b[1] es el coeficiente del precio en la primera ecuación, y así
sucesivamente para los demás.
Imprimimos finalmente el vector b en pantalla y resulta:
b (9 x 1)
-4,0152
-4,0272
-4,0178
-4,0653
-4,0714
-4,0537
-4,0253
-4,0629
-3,9873
72 SUPUESTO 3. DEMANDA
SUPUESTO 4
Productividad
Enunciado:
Se dispone de información sobre distintas magnitudes relativas al sector agrario
de una región durante el período 1998-2018: Producción anual regional (va-
lor en millones de euros), empleo regional (miles de trabajadores), gastos en
fertilizantes (millones de euros), temperatura media (grados centígrados) y pre-
cipitaciones de lluvia (mm).
73
74 SUPUESTO 4. PRODUCTIVIDAD
Solución:
1. Generar la variable "Productividad agraria" y estudiar su compor-
tamiento durante el período de análisis.
productividad=produccion/empleo
���
���
���
���
���
�������������
���
���
���
���
���
���
��
����
� ����� ����� ����
�
Nota:
Cuando se genera una variable es conveniente comprobar que el fichero de tra-
bajo está extendido al rango completo, ya que de lo contrario podemos tener
problemas al realizar predicciones o extender el rango, dado que faltarían los
datos de la variable en esos períodos. No obstante, para las variables de genera-
ción automática como es el caso de la tendencia temporal o las variables ficticias
estacionales, Gretl extiende automáticamente las series al recorrido total.
75
Como se puede ver, los coeficientes resultan significativos, y según este modelo
la productividad aumenta anualmente en 1,09 millones de euros por ocupado.
Sobre el modelo estimado podemos seleccionar la opción Archivo . Guardar
la sesión como icono para almacenar el modelo en la Vista de iconos, siendo
posible también renombrarlo con la denominación que se considere adecuada
(por ejemplo, modelo temporal).
En la opción Gráficos . Gráfico de la variable estimada y observada . Contra el
tiempo, podemos observar que los valores observados representados por la línea
roja se sitúan en torno a la línea de tendencia, representada en azul.
����������������������������������
���
���������
��� ��������
���
���
���
�������������
���
���
���
���
���
���
��
����� ����� ����� ����� ����� ����� ����� ����� ����
� � ����
����������������������������������
���
���������
��������
���
�������������
���
���
���
��
����� ����� ����� ����� ����� ����� ����� ����� ����
� ����
�
El análisis de los errores puede llevarse a cabo mediante los gráficos anterio-
res, que representan conjuntamente la productividad observada y la estimada.
También se puede pedir directamente la distribución de errores o residuos de la
estimación, tanto numérica como gráficamente, en la salida del modelo, Análisis
. Mostrar variable observada, estimada, residuos.
Así, para el modelo estimado en función de los gastos se obtiene la tabla:
Valor atípico:
Los efectos de los valores atípicos, que estudiaremos más adelante, son diversos,
siendo los más habituales el «impulso», un cambio brusco de una variable en
un momento determinado con vuelta posterior a la normalidad, y el «escalón»,
un salto de nivel (a menudo asociado a un cambio estructural) que se mantiene
en el tiempo. En muchas ocasiones, estos valores atípicos suelen ser causa de
la ausencia de normalidad y de otras alteraciones en los supuestos básicos del
modelo.
Vamos a estimar los dos modelos propuestos para así poder comparar ambas
alternativas:
En las salidas anteriores se observa que ambos modelos son válidos para explicar
la evolución de la productividad. Los resultados de los contrastes de significación
t de Student conducen al rechazo de la hipótesis de nulidad de los coeficientes,
si bien la temperatura resulta algo más significativa que la lluvia (p = 0, 0246).
Tal y como cabía esperar, en ambos casos el coeficiente estimado es positivo, in-
dicando que cuando aumenta la temperatura (ceteris paribus los gastos) mejora
la productividad agrícola y lo mismo ocurre con la pluviosidad.
Consideremos ahora un modelo que incluya como explicativas las dos variables
de climatología:
Como podemos observar, al incluir como regresores las dos variables climato-
lógicas empeora un poco la significatividad de ambas variables, si bien éstas
siguen siendo significativas al 10 %.
A la vista de esta estimación se aprecia que los coeficientes estimados han cam-
biado respecto a los modelos 3 y 4, cosa que puede sorprender teniendo en cuenta
que la información muestral utilizada es la misma.
Ello se debe a que existe correlación entre la lluvia y la temperatura por lo que
al incluir ambas variables se produce una especie de “solapamiento” que afecta
a los coeficientes estimados, cuya interpretación ahora sería la siguiente:
“Por cada grado que se incremente la temperatura, asumiendo los gastos y la
lluvia constantes, la productividad aumenta en 0,53”
“Por cada litro de lluvia adicional, asumiendo las gastos y la temperatura cons-
tantes, la productividad aumenta en 0,23”
El cambio que se ha producido en los coeficientes del modelo 5 respecto a los
modelos 3 y 4, se debe a la alta correlación entre las variables explicativas, que
podemos ver seleccionando la opción Ver . Matriz de Correlación
Las variables presentan una alta correlación lineal, con lo cual, aunque concep-
tualmente sean distintas, desde el punto de vista de la información estadística
son "redundantes”.
En este tipo de situaciones, que como analizaremos posteriormente dan lugar
al problema de Multicolinealidad, pueden observarse cambios en los coeficientes
81
Evaluación de modelos:
Los criterios que utilizamos para la comparación de modelos son los siguientes:
Nota:
Una opción que proporciona directamente Gretl para la comparación de mode-
los es la tabla de modelos. En la Sesión de iconos, sobre cada uno de los modelos
anteriores, en el botón derecho tenemos una opción de Añadir a la tabla de mo-
delos. Si posteriormente seleccionamos la Tabla de modelos se tiene una síntesis
de la información, que confirma el modelo 3 como el más adecuado:
Estimaciones de MCO
Variable dependiente: productividad
82 SUPUESTO 4. PRODUCTIVIDAD
(3) (4)
const −1,793 −4,928
(3,350) (5,653)
∗∗
gastos 0,2145 0,2077∗∗
(0,01646) (0,02211)
temperatura 0,5964∗∗
(0,2403)
lluvia 0,2745∗
(0,1362)
n 19 19
R2 0,9745 0,9719
` −26,3 −27,24
q
IC para el valor esperado: Ŷ0 ± k1 S (x0 (X X) x0 )
2 0 0 −1
���
�������������
����������
��������������������������
���
���
���
���
���
���
���
���
����� ����� ����� ����� ����� �����
[30, 349861−2, 12×1, 232546; 30, 349861+2, 12×1, 232546] = [27, 72698; 32, 962743]
85
Evaluación de predicciones:
Error
r estándar de las predicciones o raíz del error cuadrático medio: RECM =
PT 2
t=1 (Ŷt −Yt )
T
|Ŷt −Yt |
PT
Error absoluto medio: EAM = t=1
T
PT |Ŷt −Yt |
Error absoluto porcentual medio: EAP M = t=1 T Yt × 100
Indice de Theil: q PT
2
t=1 (Pt −Rt )
T
U= q PT
t=1 Rt2
T
2
¯
1 − rY2 Ŷ SY2
2
Ŷ − Ȳ
SŶ − rY Ŷ SY
+ + =1
| ECM
{z } | ECM
{z } | ECM {z }
Prop. Sesgo Prop. Regresión Prop. error
Nota:
Cuando los errores son sistemáticos, siempre en la misma dirección (sobrevalo-
rando o infravalorando el verdadero valor de la variable), entonces el porcentaje
de error medio coincide con el porcentaje de error absoluto medio. En cambio,
cuando existen errores de distinto signo se produce compensación entre ellos y
como consecuencia el porcentaje de error medio será inferior (en términos ab-
solutos) al porcentaje de error absoluto medio, indicando el signo del primero
si pesan más los errores de infravaloración (signo positivo) o de sobrevaloración
(signo negativo).
Vamos a obtener el modelo que incluye las dos variables explicativas (gastos y
temperatura) en forma matricial. Dicho modelo se expresará como y = Xβ + u,
donde y representa el vector de la variable dependiente y X es la matriz de
datos. El vector de estimadores mínimo cuadráticos vendrá dado por la expresión
β̂ = (X0 X) X0 y.
−1
Estimador MCO β̂
Dado un modelo lineal y = Xβ + u, u ' N 0, σ 2 In , la estimación mínimo
β̂ = (X0 X)−1 X0 y
n
X
û2i = û0 û
i=1
0
∂û0 û ∂ y0 y − 2β̂ 0 X0 y + β̂ X0 Xβ̂
= =0 ⇒
∂ β̂ ∂ β̂
87
Los estimadores MCO y MV son muy adecuados gracias a sus propiedades es-
tadísticas, ya que se trata de expresiones insesgadas, consistentes, suficientes y
eficientes. El Teorema de Gauss-Markov garantiza que, bajo las hipótesis bási-
cas del modelo de regresión lineal, el estimador MCO de β es óptimo entre la
familia de estimadores lineales e insesgados, por lo que recibe la denominación
ELIO (Estimador Lineal Insesgado Optimo) o BLUE (Best Linear Unbiased
Estimator).
Nota:
Al construir la matriz X incluimos const para el término independiente y a
continuación loa nombres de las variables explicativas, que es recomendable
introducir en el mismo orden que aparecían en el modelo para que así coincidan
posteriormente los coeficientes estimados.
89
Expresión Gretl
−1
Vector de coeficientes: β̂ = (X0 X) X0 y matrix b = inv(X’X) * X’y
Residuos û = y − ŷ = y − Xβ̂ matrix u = y - X*b
Suma de cuadrados Pn 2 0
i=1 ûi = û û SSR = u’u
de los residuos
Obs. y parámetros n, k n=rows(X) ; k=rows(b)
2 û0 û
Varianza de u S = s2 = SSR / (n-k)
n−k
Matriz covarianzas d β̂) = S 2 (X0 X)−1
Cov( V = s2 * inv(X’X)
(β̂0 X0 y−nȲ 2 )
k−1 k−1
Contraste F û0 û
≈ Fn−k F=(b’*X’*y-n*mean(y)^2)/(k-1)/s2
n−k
βˆ2
Estadístico t t2 = t2=b[2]/sqrt(V[2,2])
Sβ̂2
0
R2 R2 = 1 − y0 y−n
û û
Ȳ 2
R2=1-u’u/(y’y-n*mean(y)^2)
ln L =
Log.Verosimilitud h i
0 l=(-n/2)*(1+log(2*$pi*u’u/n))
= − n2 1 + ln 2π ûnû
0
Criterio AIC n ln ûnû + 2k + n[1 + ln(2π)] AIC=n*log(u’u/n)+2*k+n*(1+log(2*$pi))
Se puede continuar con esta relación de expresiones hasta reconstruir los distin-
tos contrastes, intervalos de confianza, predicciones, etc. En supuestos posterio-
res ampliaremos estos cálculos matriciales con Gretl.
Es necesario tener presente que las matrices se han ido creando en la Vista de
iconos, y los escalares en el icono denominado Escalares. Si abrimos este icono
aparece una tabla con todos escalares que hemos ido calculando.
SUPUESTO 5
Pobreza
Enunciado:
91
92 SUPUESTO 5. POBREZA
Solución:
Se podría comenzar por estudiar la nube de puntos (Ver . Graficos . Graficos X-Y
(scatter)...), que confirma la correlación positiva entre paro y pobreza. Además,
en este caso al estar las observaciones rotuladas se puede ver el nombre del país
al pasar con el ratón sobre los puntos de la nube.
����������������������������������������������������������
���
�����������������
���
���
�������
���
���
���
���
�� �� � � �� ��� ��� ��� ��� ���
����
Nota:
Como podemos observar, en este supuesto las observaciones vienen etiquetadas
con el nombre de los países:
La manera de asignar estas etiquetas es crear un fichero de texto con los nombres
de las observaciones, en este caso los países ordenados por número de observa-
ción. Este fichero se guarda en formato txt (texto plano).
Por otra parte se crea o se abre el fichero de datos de Gretl de la forma tradicional
y desde el menú Datos . Etiquetas de las observaciones es posible importar las
etiquetas, seleccionando el fichero de texto anteriormente creado. De esta forma
en el resto del supuesto irán apareciendo las etiquetas de las observaciones.
Esta salida permite apreciar claramente la diferencia entre los contrastes de sig-
nificación global e individual. El test F (obtenido a partir de la descomposición
ANOVA como detallaremos posteriormente) permite rechazar la nulidad de to-
dos los coeficientes de las variables explicativas y por tanto concluir que alguna
de las variables propuestas como regresores es significativa.
En cambio los contrastes t de significación individual analizan la significación
de cada variable explicativa.
Bajo la hipótesis nula todos los coeficientes de las variables explicativas son
nulos, con lo cual el modelo no tiene sentido. En cambio, si rechazamos dicha
hipóteis estamos admitiendo que en el modelo hay alguna variable con coeficiente
significativamente distinto de cero.
Es importante tener en cuenta que esta conclusión es muy modesta, ya que al
rechazar la hipótesis nula del test F únicamente concluimos que al menos uno
de los regresores propuestos es capaz de explicar el comportamiento de Y, pero
no podemos afirmar que el modelo sea globalmente válido (ni que todas las
variables sean significativas) como a veces se concluye erróneamente.
El estadístico de contraste del test F viene dado por la siguiente expresión, que
se distribuye según un modelo F de Snedecor con k-1 grados de libertad en el
numerador y n-k grados de libertad en el denominador:
0
β̂ X‘y − nȲ 2
χ2k−1
(k − 1)
F = ≈ k 2− 1 ≈ Fn−k
k−1
û0 û χn−k
(n − k) n−k
H0 : βj = 0 ; H1 : βj 6= 0
β̂j − βj
dβ̂j = ≈ tn−k
Sβ̂j
β̂j
Bajo la hipótesis nula, la discrepancia se reduce a: dβ̂j = , y una vez obtenido
Sβ̂j
su valor muestral d∗β̂ se obtiene el correspondiente nivel crítico que viene dado
por: p = P |tn−k | > d∗β̂ /H0
Análisis de Varianza:
Suma de cuadrados gl Media de cuadrados
Regresión 623, 339 2 311, 669
Residuo 604, 171 25 24, 1668
Total 1227, 51 27 45, 4633
n n
X 2 X
Yi − Ȳ = Yi2 − nȲ 2 = y0 y − nȲ 2
i=1 i=1
n 2 n
X X 0
Ŷi − Ȳ = Ŷi2 − nȲ 2 = ŷ0 ŷ − nȲ 2 = β̂ X0 Xβ̂ − nȲ 2 =
i=1 i=1
0 0 0
= β̂ X X(X0 X)−1 X0 y − nȲ 2 = β̂ X0 y − nȲ 2
n
X 2 n
X
Ŷi − Ȳ = û2i = û0 û
i=1 i=1
Variación o ratio o
Componente gl
Suma de cuadrados media de cuadrados
0
β̂ X0 y−nȲ 2
Explicada o de regresión β̂ 0 X0 y − nȲ 2 k-1 k−1
û0 û
No explicada o de residuos û0 û n-k n−k
y0 y−nȲ 2
TOTAL y0 y − nȲ 2 n-1 n−1
100 SUPUESTO 5. POBREZA
0
û0 û β̂ X0 ŷ − nȲ 2
R2 = 1 − 0
=
y y − nȲ 2 y0 y − nȲ 2
0
β̂ X‘y − nȲ 2
(k − 1) k−1
≈ Fn−k
û0 û
(n − k)
Dado que los dos estadísticos permiten evaluar el modelo estimado e involucran
la suma o la media de los cuadrados, existe una relación entre ellos:
R2
k−1 n−k
Fn−k =
1 − R2 k−1
Nota:
Es interesante comentar que, además de los datos atípicos, Gretl permite identi-
ficar también las observaciones influyentes en la opción: Análisis . Observaciones
influyentes. Una observación se considera influyente si su presencia en la mues-
tra altera significativamente algún aspecto de la estimación del modelo y para
cuantificar la influencia se tiene en cuenta el producto de dos componentes: uno
es el residuo y el otro está relacionado con el denominado apalancamiento, que
mide si una observación se encuentra alejada del resto de datos de la muestra.
La tercera columna de esta salida de Gretl proporciona el resultado del producto
entre residuo y apalancamiento, mientras la cuarta columna denominada DF-
FIT (Difference between fitted values) se obtiene como diferencia entre el valor
estimado y el valor que se estimaría en el modelo que excluye la observación
i-ésima. En el caso de Rumanía vemos que, además de ser un dato atípico, tiene
una influencia elevada como muestra el resultado de DFFIT.
Vamos a obtener este modelo de forma matricial. para lo cual debemos construir
el vector y y la matriz de datos X. Como ya hemos comentado en un supuesto
102 SUPUESTO 5. POBREZA
3. Una vez aceptados los dos pasos podemos comprobar que en la Vista de
iconos aparece un nuevo icono que corresponde a una matriz y; si la abri-
mos vemos que se trata de un vector formado por los datos de la serie
pobreza en los 28 países analizados.
Sin embargo, en estos casos puede resultar más fácil utilizar la consola de Gretl
para todo el proceso. De hecho, si todavía no hubiésemos construido las matrices
X e y, escribiríamos:
X = { const , paro , gasto_social }
y = { pobreza }
Podemos comprobar que los coeficientes calculados de esta forma coinciden con
los que hemos obtenido a través del modelo.
A partir de estos resultados es posible obtener el vector de residuos
matrix u = y - X * b
scalar SCR = u ’ u #Suma de l o s c u a d r a d o s de l o s r e s i d u o s o
V a r i a c i ó n no e x p l i c a d a
#Cuando una l í n e a de c ó d i g o e s muy l a r g a podemos s e p a r a r l a con "\"
y p a s a r e l r e s t o a una n u e v a l í n e a
scalar s2 = SCR /( n - k )
matrix V = s2 * inv (X ’ X ) #M a t r i z v a r i a n z a s c o v a r i a n z a s
matrix se = sqrt ( diag ( V ) ) #R a í z c u a d r a d a de l o s e l e m e n t o s de l a
d i a g o n a l p r i n c i p a l de l a m a t r i z de c o v a r i a n z a s , p o r t a n t o
corresponde a las desviaciones t í p i c a s
scalar t2 = b [2]/ se [2]
scalar pt2 = pvalue (t , n -k , abs ( t2 ) )
Educación
Enunciado:
A partir de una muestra de 51 países se desea estimar un modelo econométrico
para explicar el rendimiento académico de la enseñanza obligatoria, medido a
través de un índice que adopta como base 100 la media de la OCDE. Se dispone
de distintas variables explicativas recogidas en la base de datos educacion.gdt,
que abarcan tanto factores económicos (renta media de los hogares y gasto
educativo por alumno) como académicos (número de profesores por alumno y
tasa de abandono).
105
106 SUPUESTO 6. EDUCACIÓN
Solución:
Se trata de dos restricciones que podemos plantear desde la salida del modelo
mediante la opción: Contrastes . Restricciones lineales, y se enuncian como sigue:
b [ renta ]=0
b [ abandono ]+ b [ profesores ]=0
#A l t e r n a t i v a :
b [2]=0
b [3]+ b [4]=0
#A l t e r n a t i v a :
b2 =0
b3 + b4 =0
Conjunto de restricciones
1: b[renta] = 0
2: b[abandono] + b[profesores] = 0
Estadístico de contraste: F (2, 46) = 1,75789, con valor p = 0,183793
Estimaciones restringidas:
108 SUPUESTO 6. EDUCACIÓN
— proporciones de la varianza —
Coeficiente Desv. Típica Estadístico t valor p
const 86,6544 4,96698 17,45 2,05e-22 ***
renta 0,00000 0,00000 NA NA
abandono -0,196607 0,0215660 -9,117 4,78e-12 ***
profesores 0,196607 0,0215660 9,117 4,78e-12 ***
gasto 0,00155851 0,000654125 2,383 0,0212 **
H0 : Rβ = β ∗
H1 : Rβ 6= β ∗
donde R es la matriz que especifica las restricciones, que tiene tantas filas como
restricciones (r) y tantas columnas como parámetros (k).
En el caso que nos ocupa se tiene:
0 1 0 0 0
R=
0 0 1 1 0
Por tanto:
β1
β2
0 1 0 0 0
β2 0
Rβ = β 3 =
=
0 0 1 1 0 β4 β 3 + β 4 0
β5
Podemos reconstruir los estimadores de los modelos libre y restringido con ayu-
da de la consola, generando las matrices y vectores necesarios. Al igual que
hemos visto en supuestos anteriores denotaremos por y el vector de la variable
dependiente, siendo X la matriz de datos. Los estimadores de Mínimos Cuadra-
dos Ordinarios MCO (p.86) y Mínimos Cuadrados Restringidos MCR (p.144)
vienen dados por las expresiones:
M CO
β̂ = (X0 X)−1 X0 y
M CO
h i−1 M CO
−1 −1
β̂ M CR = β̂ − (X0 X) R0 R (X0 X) R0 Rβ̂ − βR
A partir de ellos el vector de estimadores MCO, que coincide con el que propor-
ciona el modelo libre anteriormente estimado, se obtiene como:
matrix bMCO = inv (X ’ X )* X ’* y
Nota:
Para introducir directamente matrices y vectores en Gretl es necesario utilizar
el separador “,” cuando se indica el siguiente elemento columna, y el separador
“;” cuando se cambia de fila.
110 SUPUESTO 6. EDUCACIÓN
Se puede comprobar que este vector con los coeficientes restringidos estimados
coincide con la salida del modelo restringido que proporciona el contraste de
restricciones lineales.
Generamos ahora los residuos libres y restringidos:
matrix u =y - X * bMCO
matrix uR =y - X * bMCR
cuya salida no muestra evidencia significativa para rechazar la nulidad del co-
eficiente de la renta (se observa que el nivel crítico asociado al test F es elevado,
superior a 0,27 por lo que no rechazamos la hipótesis de que ese coeficiente sea
nulo). Además se observa que los tres criterios de información (Akaike, Schwarz
y Hannan-Quinn) se reducen al omitir la renta como regresor, por lo que parece
que el modelo mejora en todos los aspectos:
Para confirmar que las variables incluídas como regresores en este modelo son
adecuadas como explicativas y no están muy correlacionadas entre sí es reco-
mendable seleccionar desde la salida del modelo la opción Análisis . Colinealidad
que muestra los Factores de Inflación de la Varianza (FIV o VIF). Como pode-
mos observar, en este caso los VIF presentan valores reducidos y por tanto no
existe problema de colinealidad en el modelo estimado.
Multicolinealidad:
La multicolinealidad o colinealidad es uno de los problemas más frecuentes en
la modelización econométrica.
Se dice que existe multicolinealidad perfecta o extrema en un modelo cuando en
la matriz de datos X, una columna puede ser expresada como combinación lineal
de otras, es decir, cuando existe correlación máxima entre varias de las variables
explicativas. En este caso la matriz de datos es singular, el determinante de la
matriz es nulo, y no es posible invertir la matriz (X0 X), por lo cual no podremos
obtener el vector de coeficientes MCO β̂.
Si bien la multicolinealidad extrema es poco frecuente, resultan habituales las
situaciones en las que algunas de las variables explicativas se encuentran alta-
mente correlacionadas. En este caso decimos que existe un problema de multi-
colinealidad o colinealidad.
112 SUPUESTO 6. EDUCACIÓN
Sanidad
Enunciado:
Solución:
115
116 SUPUESTO 7. SANIDAD
Nota:
Debemos prestar atención al recorrido muestral para el cual se realiza la esti-
mación. En muchas ocasiones nos interesa analizar la capacidad predictiva del
modelo, por lo que acortamos el recorrido muestral para llevar a cabo la estima-
ción del modelo sobre ese subperíodo y posteriormente se realizan predicciones
en el recorrido final.
Es importante establecer bien el recorrido muestral porque en otro caso los
resultados de la estimación, contrastes, etc. pueden verse afectados y llevarnos
a conclusiones erróneas.
Una vez adaptado el recorrido, observamos que en la parte inferior de la ventana
de Gretl, sobre la barra de herramientas figura el tipo de estructura del fichero
(anual), el rango completo y la muestra actual.
Una vez establecido el recorrido muestral, podemos estimar un modelo para ex-
plicar la evolución anual del gasto sanitario a partir de las variables explicativas
disponibles:
Nota:
La mayor parte de las variables económicas tienen trayectorias ascendentes a lo
largo del tiempo: crece el PIB, los precios, los salarios, el consumo, el gasto en
sanidad, etc. Por lo tanto la correlación lineal entre algunas de estas variables
suele ser elevada, debido en parte a la posible relación causal entre ellas, pero
en parte también a la existencia de una tendencia común a estas series.
Por este motivo, cuando calculamos el coeficiente de determinación de un modelo
estimado a partir de variables que evolucionan a lo largo del tiempo, en general
obtendremos valores elevados que debemos relativizar. De hecho, en ocasiones
se obtienen coeficientes de determinación altos con regresiones que son espurias.
En supuestos posteriores se analizará la distinción entre relaciones causales y
casuales, y se introducirán nuevos conceptos como causalidad de Granger o series
temporales cointegradas.
Los signos de los coeficientes estimados para este modelo (negativo en el caso de
la población de 65 o más años) pueden ser indicios de la presencia de multicoli-
nealidad, especialmente teniendo en cuenta que las variables de población (tanto
total como de más de 65 años) pasan a ser significativas cuando se excluye del
modelo una de ellas, observándose que en este caso los coeficientes estimados
son positivos.
Los valores elevados de los FIV indican problemas de colinealidad entre la po-
blación total y los mayores de 65 años.
En el caso que nos ocupa, observamos que hay dos condiciones correspondientes
a la tercera y cuarta fila que son superiores a 30, si bien la última de ellas
presenta un índice de condición muy superior por lo que, siguiendo la sugerencia
de Belsley, Kuh y Welsch debemos prestar atención a esta fila donde aparecen
dos variables pobtotal y pob65 con proporciones de varianza muy elevadas, es
decir, afectadas por la multicolinealidad.
Con los indicadores disponibles parece claro que tenemos un problema de coli-
nealidad entre las variables pobtotal y pob65 y podríamos plantearnos distintas
posibilidades para solucionarlo en la medida de lo posible.
En este caso vamos a optar por la segunda opción, definiendo en el menú Añadir
. Definir nueva variable la proporción o peso de la población de más de 65 años:
peso65 = pob65 / pobtotal
3. Llevar a cabo predicciones del gasto sanitario a partir del año 2016
������
�����
����������
��������������������������
������
������
������
������
������
������
������
����� ����� � ���� � ���� ����� ����� ����
� ����� ����
� ����
�
122 SUPUESTO 7. SANIDAD
En el gráfico observamos cómo los valores de gasto observados para esos años
se encuentran dentro de los intervalos o bandas de confianza de las predicciones
(de hecho en este caso son muy próximos a las predicciones puntuales).
Esta información se obtiene de forma más detallada en la tabla que también se
incluye en la salida de las predicciones:
Nota:
Como podemos observar en el diálogo de predicción, Análisis . Predicciones..
Gretl ofrece varias opciones configurables
������ ������
����� �����
���������� ����������
�������������������������� ������ ��������������������������
������
������
������ ������
������
������
������
������
������
������
������ ������
������
������
������
������ ������
����� � ���� � ���� � ���� � ���� � ���� ����� ����� ����� ����� ����� ����� ����� �����
Podemos observar en esta salida cómo la desviación típica en el caso del inter-
valo de confianza para la Y media es considerablementeh menor en el caso de Y i
observada. En consecuencia los intervalos de confianza: Ŷo − kSŶ0 , Ŷo + kSŶ0 ,
tienen en este caso menor amplitud, dado que k es la misma y la desviación
típica es inferior.
Ŷ0 = x00 β
Definimos el error de predicción como: Ŷ0 − E(Y /x0 ) y al ser el predictor inses-
gado, el valor esperado del error de predicción es nulo:
E Ŷ0 − E(Y /x0 ) = 0
0
V ar Ŷ0 = E Ŷ0 − E(Y /x0 ) Ŷ0 − E(Y0 /x0 )
0
= E x00 β̂ − x00 β x00 β̂ − x00 β
0
= x00 E β̂ − β β̂ − β x0
= x00 σ 2 (X’X)−1 x0
Yˆ0 − E (Y /x0 )
p ≈ tn−k
S x0 (X’X)−1 x0
127
Por otra parte, para el error de predicción, cuya esperanza es nula se tiene la
varianza:
V ar eŶ0 =V ar(Y0 ) + V ar Ŷ0 = σ 2 + σ 2 x00 (X’X)−1 x0 =
=σ 2 1 + x00 (X’X)−1 x0
Y0 − Yˆ0
p ≈ tn−k
S 1 + x0 (X0 X)−1 x0
Género
Enunciado:
129
130 SUPUESTO 8. GÉNERO
Solución:
�����������������������������������������������������������������
� ��
�����������������
� ��
� ��
� ��
�������
� ��
� ��
� ��
� ��
�� � �� ��
� ��
� ��� ��� ��
� ��
�
�����������
���
������������������
������������������
���
���
���
���
���
���
���
� � � �� ��� ��
� ��� ��� ��� ���
�����������
Este gráfico muestra una separación en la nube de puntos entre las observaciones
relativas a hombres y mujeres, por lo que sería deseable tener en cuenta la
variable dummy ligada al género para explicar el comportamiento de los salarios.
experiencia_hombre=experiencia*hombre
Los coeficientes estimados en este modelo indican que el hecho de ser hombre
tiene un doble impacto sobre el salario: por una parte se estima que el nivel
salarial inicial de los hombres aumenta en 3.296 euros respecto al de las mujeres
y por otra parte, cada año adicional de experiencia representa para las mujeres
un incremento salarial de 455 euros, aumentando en el caso de los hombres en
170 euros (hasta un total de 625).
De este modo la última estimación obtenida proporciona en realidad dos modelos
diferenciados:
E(salario/hombre = 0) = β1 + β2 experiencia
E(salario/hombre = 1) = (β1 + β3 ) + (β2 + β4 )experiencia
Estimaciones de MCO
Variable dependiente: salario
hombre 6,818 ∗∗
3,297∗
(0,7541) (1,728)
experiencia_hombre 0,1702∗∗
(0,07594)
n 42 42 42
R̄2 0,5918 0,8648 0,8774
` −118 −94,25 −91,64
dY dY
= 1, 25
dX hombre=1 dX hombre=0
dY dY
= β2 + β4 ; = β2
dX hombre=1 dX hombre=0
β2 + β4 = 1, 25β2
o equivalentemente:
β4 − 0, 25β2 = 0
Restricción:
b[experiencia_hombre] - 0,25*b[experiencia] = 0
Estadístico de contraste: F(1, 38) = 0,475182, con valor p = 0,494801
Nota:
Cuando hemos establecido una restricción y posteriormente queremos introducir
otra nueva, es necesario recuperar primero el rango completo para asegurarnos
de que introducimos correctametne la nueva condición.
En el ejemplo que nos ocupa la primera condición era hombres=1, que es un
subconjunto del total, y si hicieramos seguidamente la segunda restricción, hom-
bres=0, resultaría un conjunto vacío porque lógicamente en el subconjunto de
hombres no hay ninguna mujer. Por este motivo para introducir la nueva res-
tricción siempre debemos restablecer previamente el rango completo.
Nube_Puntos1 . show
#Con e s t a i n s t r u c c i ó n mostramos un i c o n o de s e s i ó n ( s e r í a l o mismo
p a r a m o s t r a r un modelo
modeltab add
#Añadimos e l ú l t i m o modelo a l a t a b l a de m o d e l o s
set verbose on
138 SUPUESTO 8. GÉNERO
SUPUESTO 9
Heladería
Enunciado:
1. Estimar hasta 2018 un modelo lineal para explicar las ventas de helados
en función del precio y el esfuerzo publicitario.
139
140 SUPUESTO 9. HELADERÍA
Solución:
Se define el recorrido muestral hasta el último trimestre del año 2018 y el modelo
lineal estimado mediante mínimos cuadrados proporciona el siguiente resultado,
donde se aprecia que aunque el coeficiente del precio presenta el signo esperado
(negativo) no resulta significativo, por lo que las ventas son inelásticas respecto
al precio. En cambio, se observa que las ventas presentan una relación lineal
directa significativa con la publicidad:
��������������������������������������������������������
����
����
����
����
�������
����
����
��
����
����
����
����� ����� ����� ����� ����� ����� ����� ����
�
En ambos casos destaca el tercer trimestre de 2007, donde las ventas observadas
son muy superiores a las estimadas por el modelo y por tanto el residuo presenta
un valor positivo muy elevado (549,35) que de hecho aparece señalado como
142 SUPUESTO 9. HELADERÍA
Análisis de Varianza:
Suma de cuadrados gl Media de cuadrados
Regresión 2,16197e+06 2 1,08098e+06
Residuo 1,29874e+06 62 20947,4
Total 3,46071e+06 64 54073,5
R^2 = 2,16197e+06 / 3,46071e+06 = 0,624718
F(2, 62)=1,08098e+06/20947,4=51,6047 [valor p 6,38e-14]
Relación entre F y R2
La relación entre el estadístico F y el coeficiente de determinación R2 ya ha sido
descrita en ANOVA (p.99)
R2
k−1 n−k
Fn−k =
1 − R2 k−1
Podemos escribir distintos scripts relativos a estas medidas dependiendo de la
información de partida:
ols ventas const precio publicidad -- anova
n = $nobs
k = $ncoeff
R2 = $rsq
F =( R2 /(1 - R2 ) ) *(( n - k ) /( k -1) )
p = pvalue (f ,k -1 ,n -k , F )
0
β̂ X0 ŷ−nȲ 2
o bien en términos matriciales: R2 = y0 y−nȲ 2
X ={ const , precio , publicidad }
y ={ ventas }
b = inv (X ’ X )* X ’* y
n = rows ( X )
k = rows ( b )
R2 =( b ’* X ’* y - n * mean ( y )^2)/( y ’y - n * mean ( y )^2)
F =( R2 /(1 - R2 ))*(( n - k )/( k -1))
p = pvalue (f ,k -1 ,n -k , F )
143
Para contrastar este supuesto se parte de la especificación del modelo con precio,
publicidad y tres variables ficticias estacionales (por ejemplo, las de los tres pri-
144 SUPUESTO 9. HELADERÍA
Conjunto de restricciones
1: b[dq1] = 0
2: b[dq2] = 0
3: b[dq3] = 0
Estadístico de contraste: F(3, 59)=1,03829, con valor p=0,382338
A la vista de la salida no rechazamos que los tres coeficientes son nulos y por lo
tanto podemos asumir la hipótesis de «no estacionalidad».
Por lo que se refiere a la estimación matricial del vector de coficientes del modelo
restringido, se tiene:
M CR M CO
h i−1 M CO
−1 −1
β̂ = β̂ − (X0 X) R0 R (X0 X) R0 Rβ̂ − βR
M CO
donde β̂ = (X0 X)−1 X0 y, es el estimador de mínimos cuadrados ordinarios.
H0 : Rβ = βR
∂L ∂L
= 0k , = 0r
∂ β̂ ∂λ
con lo cual, derivando respecto de β̂, se obtiene:
∂L
= −2X0 y + 2X0 Xβ̂ + R0 λ = 0k
∂ β̂
∂L
= Rβ̂ − β R = 0r
∂λ
M CO 1 −1
β̂ M CR = β̂ − (X0 X) R0 λ̂ ; Rβ̂ M CR = β R
2
Premultiplicando por la matriz R, se tiene:
M CR M CO 1 0 −1 0
Rβ̂ = R β̂ − (X X) R λ̂ = β R
2
y despejando ahora λ:
h i−1 M CO
−1
λ̂ = 2 R (X0 X) R0 Rβ̂ − βR
M CO
h i−1 M CO
−1 −1
β̂ M CR = β̂ − (X0 X) R0 R (X0 X) R0 Rβ̂ − βR
Donde û0 û es la suma de residuos cuadráticos del modelo libre (Modelo 3),
û0R ûR − û0 û
LM =
û0R ûR
n
û0R ûR
RV = −2 ln λ = n ln
û0 û
û0R ûR − 0
û û
W = 0
û û
n
Al estimar un modelo que incluye como regresores todas las variables explicati-
vas podemos ver que las variables precios e ipc no resultan significativas, a pesar
de que parecería lógico que tuvieran impacto sobre las ventas.
Esta situación puede ser debida a que estas variables estén correlacionadas entre
sí, de modo que, como ya hemos visto en otros supuestos anteriores, su incor-
poración como explicativas al modelo resulta en cierto sentido “redundante”.
Para comprobarlo podemos consultar desde la salida del modelo estimado la
opcióin Análisis . Colinealidad.
Se observa que los FIV o VIF adoptan valores elevados para las variables expli-
cativas precio e ipc, lo cual sugiere una posible presencia de colinealidad.
precio 17,258
publicidad 1,262
renta 2,012
ipc 16,101
— Proporciones de la varianza —
lambda cond const precio publicid˜ renta ipc
4,811 1,000 0,001 0,000 0,007 0,000 0,000
0,171 5,305 0,006 0,000 0,864 0,001 0,000
0,010 21,830 0,994 0,008 0,056 0,079 0,009
0,008 24,653 0,000 0,015 0,061 0,906 0,021
0,000 100,642 0,000 0,976 0,012 0,014 0,970
Observamos ahora que todos los coeficientes de las variables resultan significa-
tivos, no hay problemas de multicolinealidad, ni tampoco de especificación o
heterocedastidad, cuestiones que analizaremos en supuestos posteriores.
publicidad 1,246
renta 1,925
ipc 1,685
150 SUPUESTO 9. HELADERÍA
Para llegar a una propuesta de modelo definitivo podemos ir salvando los mode-
los anteriormente estimados en vista de iconos y construir una tabla comparativa
de modelos, que aconsejaría utilizar el modelo 2 donde todas las variables expli-
2
cativas son significativas y que presenta el valor más elevado de R , coeficiente
de determinación ajustado.
Estimaciones de MCO
Variable dependiente: ventas
Vivienda
Enunciado:
Una agencia inmobiliaria dispone de una muestra de 48 viviendas situadas en
una misma ciudad para las que ha recopilado información relativa a su precio
(en euros), superficie (en metros cuadrados), habitaciones (número) y necesidad
de reforma (característica recogida mediante una variable dicotómica).
Solución:
1. Estimar un modelo lineal para el precio de las viviendas analizando
los resultados
153
154 SUPUESTO 10. VIVIENDA
La elasticidad media del precio respecto a la superficie viene dada por la expre-
sión:
∆Y
∆Y X X
E= Y = = β̂
∆X ∆X Y Y
X
Nuestro objetivo es comprobar si la elasticidad en las viviendas que precisan
reformas es inferior que en aquellas que no necesitan reforma, es decir, si se
cumple:
superficie_reforma=superficie*reforma
La estimación del modelo 2 que incluye esta nueva variable proporciona el re-
sultado:
(
1 − x0i β si Yi = 1
ui =
−x0i β si Yi = 0
∗
Evaluado en la media
Predicho
0 1
Observado 0 25 5
1 7 11
Modelo Logit
Dentro de los modelos de variable dependiente cualitativa existen varias alter-
nativas que no vamos a estudiar en detalle:
Si queremos explicar una variable con dos modalidades (como las de los
ejemplos anteriores) los modelos resultantes son de tipo binomial.
En este caso tratamos de explicar una variable dicotómica y dado que el mo-
delo y = Xβ + u no se puede estimar mediante MCO, vamos a introducir una
variable latente Z, que podemos interpretar como una "propensión al suceso
considerado", de modo que:
(
1, si Z > Z ∗
Y =
0, si Z ≤ Z ∗
pi = P (Y = 1) = P (Z > Z ∗ ) = 1 − F (−x0 β)
1 − pi = P (Y = 0) = P (Z ≤ Z ∗ ) = F (−x0 β)
La función logística viene dada por una probabilidad acumulada F (x) = 1+e1−x .
Por tanto, si asumimos que los errores u se distribuyen según un modelo logístico
se tiene:
0
1 exi β
pi = 1 − F (−x0i β) = 1 − 0 = 0
1 + exi β 1 + exi β
0
0
0
0 0
pi 1 + exi β = exi β ⇒ pi + pi exi β = exi β ⇒ pi = exi β (1 − pi )
Una opción interesante en los modelos logit consiste en calcular los odds ratios,
disponibles desde el modelo en el menú Análisis . Logit odds-ratios
P (xi +1)
Oxi +1 1−P (xi +1)
OR = = P (xi )
= eβi
Oxi
1−P (xi )
Nota:
El código anterior es un poco avanzdo por lo que haremos alguna aclaración
sobre el mismo.
En primer lugar la forma de construir la matriz Odds, es avanzada y requiere
una pequeña explicación:
$stderr recoge el vector de destiaciones típicas de los coeficientes.
Cuando multiplicamos una constante por un vector, k.*$stderr, la constante
k multiplica a cada elemento del vector (estas operaciones pueden extenderse
a operaciones con vectres, si incluimos un «.» antes de la operación, ésta se
hace elemento a elemento, por ejemplo multiplicando dos vectores elemento a
elemento).
La opción «~» permite unir distintos vectores columna en una matriz.
Por otra parte, en el comando printf, la opción «\t» representa un salto de
tabulador.
$xlist recoge el vector de variables X del último modelos, incluida la cons-
tante (por eso el bucle loop empieza en 2, la 1 corresponde a la constante);
varname($xlist[i]) recoge el nombre de la variable i de la lista de variables ex-
plicativas.
En el comando printf, usamos los formatos de escritura %g para un número real
en formato natural, con todos sus decimales (podría ser %.4g, representaría solo
4 decimales, o %10.4g representaría 10 espacios para la parte entera y 4 para la
parte decimal), %s se utiliza para cadenas de texto como un nombre de variable
o una fecha. Y aunque no es el caso si la expresión incluyera un número entero
se utilizaría %d.
SUPUESTO 11
Tecnología
Enunciado:
Se dispone de información relativa a una muestra de empresas sobre las que se
analiza el valor de la producción, el número de trabajadores y si las empresas
pueden ser consideradas tecnológicamente avanzadas.
163
164 SUPUESTO 11. TECNOLOGÍA
Solución:
���������������������������������������������������������������������
������
��������������������
������
������
����������
������
�����
�����
�����
�� ��� ��� ��� ��� ��
� ��
� ��� ��
�
������������
������
�������������������������
������ �������������������������
������
������
������
�����
�����
�����
�����
�����
�����
�� ��� ��� � �� ��� ��� ��� � �� ���
������������
En esta nube con factor de separación el símbolo azul representa las empresas
tecnológicamente avanzadas mientras las restantes aparecen en rojo. Teniendo
en cuenta que el gráfico sugiere un comportamiento diferenciado de la produc-
ción en ambos tipos de empresas, podríamos completar la especificación del
modelo introduciendo la variable dummy tecnología.
Puede comprobarse que este nuevo término, que afecta a la pendiente del mo-
delo, también resulta significativo. Por lo tanto, indica que para las empresas
tecnológicamente avanzadas la productividad por trabajador aumenta en 261
euros con respecto a las que no lo son.
Se observa además que el nuevo modelo estimado mejora sustancialmente el
coeficiente de determinación corregido, que supera el 90 % y el único inconve-
niente es que ha perdido algo de significación la variable trabajadores (cuyo
nivel crítico es ahora del 7,1 % por lo que se denota con un único asterisco).
La comparación entre los tres modelos estimados puede llevarse a cabo a tra-
vés de la tabla de modelos que resume los principales indicadores de las tres
alternativas. Como se puede apreciar, esta tabla muestra el coeficiente de deter-
minación corregido y el logaritmo de la verosimilitud, indicadores que tratamos
de maximizar, mientras en las salidas completas de los modelos estimados tam-
bién se incluyen la desviación típica de la regresión y las medidas de información
de Akaike, Schwarz y Hannah-Quinn, que pretendemos minimizar.
Nota:
Al igual que en supuestos anteriores, es recomendable guardar todos los modelos
estimados a la Sesión como iconos. A continuación, desde la Vista de iconos
vamos añadiendo cada modelo a la Tabla de modelos para así poder compararlos
(esto se puede hacer posicionando el ratón en cada modelo y pulsando el botón
derecho: Añadir a la tabla de modelos, o simplemente arrastrando cada modelo
al icono Tabla de modelos).
Estimaciones de MCO
Variable dependiente: produccion
n 35 35 35
R̄2 0,4580 0,7049 0,9031
` −292,1 −280,9 −260,9
Produccion=6998,58+46*Trabajadores
Produccion=4805,12+307,03*Trabajadores
Produccion=4805,12+307,03*Trabajadores
Produccion=6998,58+46*Trabajadores
Desde las salidas de estos modelos las gráficas de variable estimada y observada
contra la producción representan las nubes de puntos de las dos submuestras.
En cualquier caso conviene tener presente que cada una de estas estimaciones de
submuestras tiene menos grados de libertad y por tanto, aunque los resultados
sean coincidentes, resulta más recomendable la estimación basada en la muestra
completa incorporando la variable cualitativa ligada a la tecnología y el término
de interacción.
Si una vez realizados los análisis de las submuestras se quiere recuperar la infor-
mación completa basta con seleccionar la opción de menú Muestra . Recuperar
rango completo.
b[4]+b[2]=4*b[2]
es decir b[4]-3*b[2]=0.
Estas restricciones pueden también ser expresadas escribiendo entre corchetes las
variables explicativas a las que acompañan los coeficientes (en vez de su número
de orden), tal y como muestra la salida de Gretl. Dicha salida proporciona un
nivel crítico elevado, según el cual no existe evidencia para rechazar el supuesto
planteado y por tanto éste se consideraría admisible.
169
����������������������������������������������������������
����
���������
��������
����
� �
����������
����
����
����
����
� �
����� ����� ������ ������ � �����
����������
Así pues, en este caso es recomendable estimar un modelo logit para explicar
las empresas que son tecnológicamente avanzadas. Para ello deberíamos acudir
a la opción de menú Modelos . Variable dependiente limitada . Logit . Binario,
171
En la salida de los modelos logit podemos incluir los valores p o bien la pen-
diente en la media (hay que tener en cuenta que en un modelo logit, a diferencia
de lo que ocurre en los modelos lineales anteriores, la pendiente no es constante
sino que varía en cada punto).
∗
Evaluado en la media
Nota:
La proporción de aciertos es una de las medidas más intuitivas para evaluar los
modelos logit. En ocasiones también se analizan separadamente la proporción
de éxitos bien clasificados (que se denomina sensibilidad) y la proporción de
fracasos bien clasificados (denominada especificidad). Por lo que se refiere a las
observaciones mal clasificadas, se produce un falso positivo cuando se pronostica
un éxito pero el valor observado es un fracaso (en este supuesto, se clasifica una
empresa como empresa tecnológicamente avanzada cuando en realidad no lo
es), mientras el falso negativo se corresponde con pronósticos de fracaso cuando
la observación es un éxito (en nuestro caso serían empresas tecnológicamente
avanzadas a las que el modelo clasifica en la otra categoría).
Conviene destacar que, tal y como se observa en la salida del modelo logit, la
variable estimada es una probabilidad pero en cambio la variable observada es
dicotómica (con valores 0 y 1). Por lo tanto, para poder comparar las predic-
ciones con los registros, será necesario asociar a la variable estimada valores 0
y 1 en función de la probabilidad estimada (generalmente se asigna valor 0 si
la probabilidad estimada es inferior a 0.5, y valor 1 en otro caso). Para ello po-
dríamos guardar la probabilidad estimada en el modelo logit (Guardar . Valores
estimados) y asignarle por ejemplo el nombre de plogit, para posteriormente
definir una nueva variable (Añadir . Definir nueva variable), como:
tecnologia_logit=(plogit>0.5)
Una vez obtenida esta variable podemos generar fácilmente las observaciones
mal clasificadas
falsos= tecnologia_logit-tecnologia
175
Observamos que la única diferencia de este modelo con el anterior es que en este
caso incluimos el valor p en vez de la pendiente en el punto medio. Sin embar-
go, como ya hemos señalado esta pendiente en el punto medio puede calcularse
mediante la expresión f (x0 β)β2 , en este caso: 0, 087 × 0, 00345941 = 0, 0003006
∗
Evaluado en la media
LR
LR = −2 ln = −2(ln LR − ln L)
L
Para calcular esta razón de verosimilitud para el modelo Logit anteriormente es-
timado debemos obtener el valor del logaritmo de verosimilitud correspondiente
al modelo libre y al modelo restringido. En primer lugar en la salida del modelo
5, elegimos la opción Guardar . log-verosimilitud que nos permite almacenar el
logaritmo de la verosimilitud del modelo libre, escalar al que denominamos lnL
y cuyo resultado es ln L=-14,308
A continuación omitimos las variables explicativas del modelo (en este caso pro-
ducción) y estimamos el modelo restringido sobre el cual volvemos a seleccionar
la opción Guardar . log-verosimilitud, almacenando de esta forma el logaritmo
de verosimilitud del modelo restringido, ln LR=-23,555
A partir de los resultados anteriores, la razón de verosimilitud se calcula como:
LR=-2*(lnLR-lnL)=18,494
y proporciona el resultado que figura en la salida del Modelo 5, salvo los errores
de redondeo por limitar el número de decimales.
El mismo procedimiento podría ser aplicado para obtener la razón de verosimi-
litudes correspondiente al modelo Probit.
Es interesante tener en cuenta que los logaritmos de verosimilitud anteriormente
calculados permiten también obtener el coeficiente R2 de McFadden a partir de
ln L
su expresión: R2 = 1 − .
ln LR
Nota
Dado que el hecho de que una empresa sea tecnológicamente avanzada podría
depender de su volumen de producción pero también de su plantilla de traba-
jadores, podríamos estimar modelos logit y probit similares a los anteriores que
considerasen ambas variables como explicativas.
SUPUESTO 12
Empleo
Enunciado:
En el marco de una investigación sobre el desempleo juvenil se ha recopilado
información relativa a 280 jóvenes, incluyendo su situación laboral (empleado/no
empleado), su trayectoria educativa (en años de formación) y su experiencia
laboral previa (en años).
Solución:
1. Estimar un modelo mínimo cuadrático para la variable dicotómica
empleo, analizando los resultados obtenidos
179
180 SUPUESTO 12. EMPLEO
La salida muestra también los problemas en los valores estimados que presentan
algunos valores negativos (como el de la observación 64) y otros superiores a la
unidad (observación 131), tal y como puede verse en la siguiente tabla, extracto
de la obtenida desde el modelo estimado, Análisis . M ostar variable observada,
estimada, residuos:
����������������������������������������������������
� ���
���������
��������
��
� ���
������
��
����
��
� � � � �� ��� ��� ��� ��� ��
� � ��
��������
La estimación del modelo logit se lleva a cabo desde el menú Modelo . Variable
dependiente limitada . Logit . Binario y permite distintas alternativas, incluyen-
do la estimación de los niveles críticos asociados a los contrastes de significación
individual o la pendiente en la media.
Se observa que los coeficientes estimados presentan, tal y como cabía esperar,
signos positivos ya que tanto los años de estudio como la experiencia previa
están directamente relacionados con la probabilidad de empleo. Además ambas
variables son significativas, especialmente los estudios ya que el nivel crítico
asociado al contraste en este caso es casi nulo.
Predicho
0 1
Observado 0 154 15
1 10 101
Nota:
A diferencia del modelo de regresión lineal, en los modelos logit los contrastes
de significación no llevan asociada una distribución t de student sino una Chi-
cuadrado ya que se realizan como casos particulares del test de restricciones
lineales de Wald, que contrastan la hipótesis de nulidad del coeficiente.
Nota:
El número de casos correctamente predichos es un indicador de bondad que
debe ser interpretado con prudencia por varios motivos: en primer lugar, porque
utiliza para la clasificación la misma muestra que para la estimación del modelo
y, en segundo lugar, porque un modelo trivial o ingenuo, sin incluir variables
explicativas, y que asignaría a todos los individuos el grupo de mayor tamaño
(en este caso no empleados) clasificaría bien al 60 % de los clientes (169 del total
de 280).
183
Dado que el efecto marginal depende del punto en el que se evalúe, Gretl per-
mite estimar la pendiente en la media, es decir, adoptando como referencia un
individuo con 13,8 años de estudios y 2,8 años de experiencia laboral (que son
los valores medios de estas variables, accesibles en la opción Variable . Estadís-
ticos principales). Los resultados obtenidos permiten afirmar que, partiendo de
un individuo en esta situación, un aumento de un año en los estudios (ceteris
paribus la experiencia) incrementa la probabilidad de empleo en un 26 % mien-
tras un año adicional de experiencia (ceteris paribus los estudios) aumenta la
probabilidad de empleo un 13 %.
El cálculo de los odds-ratio puede ser reconstruido a partir de las opciones dis-
ponibles en Gretl. Así, si desde el modelo logit estimado guardamos la variable
estimada, ésta representará las probabilidades de empleo (que podemos deno-
minar pempleo)
Una vez almacenada esta serie podemos utilizar el menú Añadir . Generar nueva
variable para crear la serie de odds: odd=pempleo/(1-pempleo)
Lógicamente los resultados de esta serie serán distintos para cada individuo,
al depender tanto de su educación como de su experiencia. Si examinamos las
series conjuntamente, podemos encontrar información de interés para calcular
los odds-ratios:
Así por ejemplo podemos observar que los individuos 1 y 6 tienen los mismos
años de estudio (13) pero su experiencia difiere en un año. Así pues, podemos
calcular a partir de ellos el Odd ratio asociado a la experiencia, cuyo resultado
sería el que muestra la tabla (1,98):
De modo similar, en el caso del empleo el odd ratio 3,8534 podría calcularse
mediante la comparación de los individuos 5 y 6 de la muestra, ambos con 3
años de experiencia y un año de diferencia en los estudios:
Nota:
Dado que, a diferencia de lo que sucede con los odds, el resultado del Odds Ratio
(OR) es constante en todo el modelo, podemos llegar a los mismos resultados
comparando otros individuos de la muestra. Así, por ejemplo, el OR_experiencia
podría obtenerse a partir de los odds de los individuos 7 y 17 (ambos con 10
años de estudios y con un año de diferencia en la experiencia) y el OR_empleo
podría calcularse como ratio de los odds de los individuos 7 y 8 (ambos con 3
años de experiencia y con un año de diferencia en los estudios).
Emisiones
Enunciado
Se dispone de información para 100 países sobre las emisiones de CO2 (toneladas
métricas de CO2 per cápita) y el PIB (dólares per cápita, precios constantes).
Solución:
1. Estimar un modelo de regresión lineal para explicar el volumen de
emisiones de CO2, analizando si resulta adecuado
La estimación mínimo cuadrática del modelo lineal que explica las emisiones a
partir del PIB per cápita muestra la salida siguiente, donde se aprecia que el
187
188 SUPUESTO 13. EMISIONES
Yi = β1 + β2 Xi + γ1 Yˆi2 + γ2 Yˆi3 + ui
Nota:
Para reconstruir los resultados del contraste de Ramsey es necesario utilizar la
variable estimada en el modelo inicial, que ha sido almacenada como yhat me-
diante la opción de Guardar . Valores estimados. Posteriormente se generan las
variables cuadrado y cubo (yhat_2, yhat_3). La primera de ellas puede generar-
se directamente seleccionando en el archivo de trabajo yhat mediante la opción
de menú Añadir . Cuadrados de las variables seleccionadas y otra alternativa es
utilizar la opción Añadir . Definir nueva variable con las instrucciones:
190 SUPUESTO 13. EMISIONES
yhat_2 = yhat ^2
yhat_3 = yhat ^3
Una vez añadidas estas variables a nuestro archivo de trabajo se estima el mo-
delo ampliado, que incluye como regresores además del pib las variables yhat_2,
yhat_3. Sobre este modelo estimado, el contraste RESET de Ramsey es equi-
valente al resultado obtenido en Contrastes . Restricciones lineales indicando la
hipótesis:
b [ yhat_2 ]=0
b [ yhat_3 ]=0
casos, los resultados obtenidos muestran niveles críticos reducidos que conducen
al rechazo del supuesto de linealidad.
Regresión auxiliar para el contraste de no linealidad (términos al cuadrado)
MCO, usando las observaciones 1–100
Variable dependiente: uhat
R-cuadrado = 0,040323
Estadístico de contraste: T R2 = 4,03227,
con valor p = P(Chi-cuadrado(1) > 4,03227) = 0,0446377
R-cuadrado = 0,132424
Estadístico de contraste: T R2 = 13,2424,
con valor p = P(Chi-cuadrado(1) > 13,2424) = 0,00027368
Cuando se lleva a cabo la estimación de este modelo auxiliar ampliado para los
residuos el coeficiente de determinación vendrá dado por la expresión: RA2
=
0 0 0
û û ûR ûR − û û
1− 0 =
ûR ûR û0R ûR
Por otra parte, como ya hemos visto anteriormente, el estadístico del multipli-
cador de Lagrange LM Contraste-de-restricciones
0 (p.108) (p., sigue una distri-
ûR ûR − û0 û
bución chi-cuadrado LM = n → χ2r
û0R ûR
2
Por lo tanto, el estadístico LM puede también ser obtenido como LM = nRA → χ2r ,
2
donde RA es el coeficiente de determinación de la regresión auxiliar y r representa
el número de restricciones, o lo que es lo mismo, el número de variables explicativas
adicionales incluidas en la regresión auxiliar (en este caso logaritmos o cuadrados de
las variables explicativas).
Nota:
Para reconstruir los contrastes de linealidad podemos utilizar los residuos guar-
dados del modelo inicial con Guardar . Residuos (uhat). Además es necesario
generar también las transformaciones del pib mediante cuadrados y logaritmos
(variables sq_pib y l_pib, accesibles ambas directamente desde el menú Aña-
dir). Una vez estimado el modelo auxiliar, que tiene como variable dependiente
uhat y regresores pib y sq_pib (o bien pib y l_pib), los estadísticos de contraste
se obtienen mediante producto del tamaño de muestra (100) y el coeficiente de
determinación de la regresión auxiliar (0,04 en el modelo con cuadrados y 0,1324
en el de logaritmos).
El siguiente script realiza de forma automática estos contrastes de linealidad:
ols emisiones const pib
n = $nobs
series uhat = $uhat
series sq_pib = pib ^2
series l_pib = log ( pib )
ols uhat const pib sq_pib
R2 = $rsq
TR2_2 = n * R2
p_2 = pvalue (X ,1 , TR2_2 )
ols uhat const pib l_pib
R2 = $rsq
TR2_l = n * R2
p_l = pvalue (X ,1 , TR2_l )
Nota:
La relación entre crecimiento económico e indicadores medioambientales ha sido
representada a menudo mediante la Curva de Kuznets Medioambiental (Envi-
ronmental Kuznets Curve, EKC), inspirada en la relación de U invertida entre
desigualdad y crecimiento económico propuesta por Kuznets 1955. Según este
planteamiento los costes medioambientales del crecimiento económico afectan a
la calidad medioambiental, que empeora en las primeras etapas del crecimiento,
para posteriormente mejorar tras cierto punto de inflexión.
Este modelo ha sido objeto de diversas ampliaciones para permitir patrones
más flexibles que se adapten a los diversos comportamientos observados empí-
ricamente tanto con perspectiva espacial como temporal.
��������������������������������������������������
� ��
���������
��������
� ��
� ��
���������
� ��
��
��
�� ������ ������ ������ ������ �����
�
���
��������������������������������������������������
���
���������
��������
���
���
���������
���
� �
� �
� � � ����� � ����� ������ ������ �����
�
���
Ademas, es importante tener presente que en este caso, a diferencia de los mo-
delos anteriores, al realizar el test de Ramsey se obtiene un nivel crítico elevado
(0,25) y por tanto no se rechaza el supuesto de especificación correcta
Nota:
Interpretación de los valores t. El contraste de significación individual que
aparece en las salidas de los modelos estimados incluye información relativa al
nivel crítico:
p = P |tn−k | > d∗β̂ /H0
Teniendo en cuenta que este valor p será menor cuanto mayor sea el valor
β̂
absoluto de la discrepancia d∗β̂ = , podemos analizar la conclusión del
Sβ̂
contraste a partir del estadístico t, sin necesidad de conocer con exactitud el
valor del nivel crítico p. Si bien la distribución de probabilidad t de Student
depende de los grados de libertad del modelo, es decir, del tamaño muestral y el
número de parámetros, en general se observa que para valores de la discrepancia
ligeramente superiores a 2 el valor del nivel crítico p es inferior al 5 %, y por
tanto el resultado sería significativo para rechazar la nulidad del coeficiente,
validando así la correspondiente variable.
196 SUPUESTO 13. EMISIONES
− 1, 72424 acuerdo_paris
(−1,592)
Si bien la primera apariencia podría ser favorable a este modelo debemos analizar
con cuidado la situación, examinando si la especificación es adecuada y si el
modelo tiene suficiente capacidad explicativa.
Por lo que se refiere a la primera cuestión, el test RESET de Ramsey propor-
ciona un nivel crítico reducido y por tanto conduce al rechazo del supuesto de
especificación correcta.
En lo que respecta a la capacidad explicativa, dado que la estimación se ha
llevado a cabo a partir de las variables expresadas en logaritmos es necesario
deshacer este cambio de variables, calculando los residuos o errores sobre las
emisiones, es decir, sobre el antilogaritmo o función exponencial de la variable
l_emisiones estimada con el modelo loglineal. Aunque es posible realizar este
proceso a través de los menús de Gretl, recomendamos para mayor comodidad
utilizar scripts.
ols emisiones const pib
SCR = $ess
#suma de c u a d r a d o s de l o s r e s i d u o s
ols l_emisiones 0 l_pib
series yhat_log = $yhat
series yhat = exp ( yhat_log )
series u = emisiones - yhat
SCR_Log = sum ( u * u )
#suma de c u a d r a d o s de l o s r e s i d u o s
Si se prefiere podemos cuidar un poco más el código para que la salida de Gretl
sea más simplificada:
set echo off
#E v i t a que en l a v e n t a n a de s a l i d a s e i m p r i m a n l o s comandos
ols emisiones const pib -- quiet
#−−q u i e t o m i t e l a s a l i d a ( d e l modelo , de un b u c l e , de un t e s t , e t c
)
SCR = $ess
ols l_emisiones 0 l_pib -- quiet
series yhat_log = $yhat
198 SUPUESTO 13. EMISIONES
Nota:
Esta función imprime el texto con un formato concreto, cuando escribimos \n
salta de línea y cuando insertamos %g en esa posición imprimirá la variable
que corresponda en un formato numérico determinado. Al final se recogen las
variables que se van a imprimir (en el orden adecuado)
Metal
Enunciado:
Se dispone de una muestra de 27 empresas del sector metal sobre las que se
estudian las variables output (Valor añadido), empleo (Número de empleados
equivalentes a tiempo completo) y capital (Stock de capital, valor de planta y
equipamiento).
199
200 SUPUESTO 14. METAL
Solución:
1. Estimar por mínimos cuadrados un modelo lineal Yi = β1 + β2 Li +
β3 Ki (1) y analizar la especificación propuesta
Para analizar la especificación del modelo llevaremos a cabo el test global RE-
SET de Ramsey y los contrastes de linealidad.
Comenzando con el test RESET, desde la salida del modelo, Contrastes . RESET
de Ramsey seleccionamos la alternativa con cuadrados y cubos que conduce al
resultado sigiuiente:
El test RESET de Ramsey RESET (p.189) detecta evidencia para rechazar la hi-
pótesis nula de especificación correcta, ya que resultan significativos los términos
incorporados a la regresión auxiliar (que son potencias de la variable estimada,
introducidas como proxies de la parte “no especificada”). La misma conclusión se
obtiene para todas las especificaciones alternativas (solo cuadrados, solo cubos
y ambos).
Si llevamos a cabo el test con todas las opciones se obtiene:
R2 = 0, 314846
Estadístico de contraste: T R2 = 8, 50083,
con valor p = P (χ22 > 8, 50083) = 0, 0142583
R2 = 0, 238921
Estadístico de contraste: T R2 = 6, 45086,
con valor p = P (χ22 > 6, 45086) = 0, 0397387
14000
output (alto_empleo=0)
12000 output (alto_empleo=1)
10000
8000
6000
4000
2000
0
200 400 600 800 1000 1200 1400 1600
empleo
Podemos observar cómo cambian de forma considerable los coeficientes del mo-
delo, lo que parece confirmar el comportamiento diferencial entre ambas sub-
muestras y sugiere la existencia de un cambio estructural.
Para llegar a una conclusión más sólida se lleva a cabo el test propuesto por
Chow para la detección de cambio estructrual. Concretamente, en este caso
se aplica al contraste a la función de producción lineal estimada previamente,
utilizando como criterio de separación la variable alto_empleo.
Como se observa en la salida, el test de Chow Test-de-Chow (p.249) se basa en
una regresión aumentada en la que se añaden como explicativas tanto la variable
dummy alto_empleo como el término de interacción entre dicha variable y los
inputs empleo y capital.
Sin embargo, antes de dar por válida esta especificación vamos a seguir explo-
rando nuevas posibilidades en los apartados siguientes.
Resulta bastante verosímil pensar que el empleo es tanto causa como efecto del
output. Para contrastar la posible endogeneidad del empleo se lleva a cabo una
estimación bietápica del modelo lineal inicial Modelos . Variables instrumentales
. Mínimos cuadrados en dos etapas, utilizando como instrumentos el capital y la
dummy anteriormente generada (alto_empleo).
205
Esta salida incluye el resultado del test propuesto por Hausman 1978 para de-
tectar la posible existencia de endogeneidad en los regresores. Este contraste,
que se describe en Test-de-Hausman (p.225) asume como hipótesis nula que los
estimadores MCO son consistentes y se basa en la comparación entre dichos
estimadores y los obtenidos por mínimos cuadrados en dos etapas (MC2E). El
resultado obtenido en este caso es muy concluyente, y conduce al rechazo de
la hipótesis de consistencia para los estimadores MCO, por lo cual se confir-
ma el problema de endogeneidad y sería recomendable realizar una estimación
bietápica (MC2E).
— proporciones de la varianza —
lambda cond const empleo capital
2,619 1,000 0,030 0,004 0,005
0,365 2,681 0,512 0,005 0,027
0,016 12,699 0,458 0,992 0,967
Nota:
Para comprobar el cálculo de estos FIV (que lógicamente son coincidentes al
tratarse de sólo dos variables) bastaría seguir los pasos siguientes:
1. Llevar a cabo una regresión auxiliar de empleo sobre capital (o bien capital
sobre empleo)
2. Guardar el coeficiente de determinación $R^2$ como escalar (R2)
3. Generar FIV=1/(1-R2)
Consola o script:
ols empleo const capital
R2 = $rsq
FIV =1/(1 - R2 )
Conviene tener en cuenta que Gretl no deja utilizar usar el término VIF, pero
sí podemos utilizar FIV
ln Yi = ln β1 + β2 ln Li + β3 ln Ki
Conviene tener presente que en este modelo, a diferencia del lineal, los coefi-
cientes estimados son elasticidades del output respecto al empleo y al capital
respectivamente.
Nota:
Una de las características más interesantes del modelo de Cobb-Douglas es que
presenta valores constantes de las elasticidades respecto a los inputs (a diferencia
del modelo lineal, donde la elasticidad varía en cada punto). De hecho, este
modelo tiene su origen en investigaciones desarrolladas en 1927 por P. Douglas
sobre la economía estadounidense, en las que observó que la distribución de
la renta entre el trabajo y el capital se mantenía estable a lo largo del tiempo
(aproximadamente 70 % para el trabajo y 30 % para el capital). Esta regularidad
le llevó a consultar con su amigo el matemático C. Cobb, proponiendo ambos
la función de producción que lleva su nombre Cobb 1928.
Así pues, se observa que el hecho de linealizar las variables mediante logaritmos
ha solucionado muchos de los inconvenientes detectados sobre el modelo lineal.
Tampoco existen ahora problemas de endogeneidad del empleo, como podemos
comprobar mediante la estimación MC2E y el test de Hausman, cuyo nivel crí-
tico es elevado:
Por último puede verse que el modelo logarítmico no presenta síntomas de mul-
ticolinealidad ya que los FIV se reducen considerablemente:
β2 β3
λYi = β1 (λLi ) (λKi )
β +β
β1 Lβi 2 Kiβ3
2 3
λYi = λ
#estos escalares pueden estar definidos aquí o bien definirse antes mediante la
consola. Si se vuelve a escribir el modelo ya no hace falta definirlos
output = b1 * empleo ^ b2 * capital ^ b3
deriv b1 = empleo ^ b2 * capital ^ b3
deriv b2 = b1 * empleo ^ b2 * log ( empleo ) * capital ^ b3
deriv b3 = b1 * empleo ^ b2 * capital ^ b3 * log ( capital )
Los modelos estimados, incluyendo derivadas analíticas (3) y sin ellas (3a) son
los siguientes:
Como podemos apreciar los resultados obtenidos por ambos métodos son prác-
ticamente iguales y en este caso únicamente cambian algunos procedimientos
internos relativos al cálculo y las aproximaciones.
Podemos observar que el ajuste de este modelo potencial mejora el correspon-
diente al modelo lineal (Modelo 1) ya que la suma de residuos cuadráticos ha
disminuido desde 7344681 hasta 6196871. En cambio no es posible comparar di-
rectamente los residuos del modelo transformado en logaritmos debido al cambio
de escala operado sobre la variable output.
Nota:
Para poder comparar los residuos del modelo transformado respecto a los origi-
nales, habría que guardar los valores estimados
del modelo transformado, log Ŷ ,
[
Restricción:
b2 + b3 = 1
Estadístico de contraste: F(1, 24)=4.84691, con valor p=0.0375523
R-cuadrado = 0,815795
Estadístico de contraste: T R2 = 22, 026463,
con valor p = P (χ25 > 22, 026463) = 0, 000518
Nota:
El desarrollo del test de White, propuesto en White 1980 y que se detalla en
p.240, se basa en una regresión auxiliar sobre los residuos cuadráticos para la
que existen dos versiones: solo cuadrados o cuadrados y dobles productos. Si
bien la segunda opción es posible por ser más completa, en algunas ocasiones
será necesario utilizar la primera si los grados de libertad disponibles no son
suficientemente elevados (hay que tener en cuenta que al aumentar el numero
de variables los dobles productos aumentan de forma considerable: así, para un
modelo con dos variables explicativas solo hay una variable producto, pero si se
tienen cuatro variables explicativas, entonces el número de productos aumentará
hasta 3 × 2 = 6; en general el número de términos será (k − 2)!.
El test de White tiene una ventaja importante sobre otros contrastes que ha-
remos a continuación, y es que no solamente detecta la existencia de hetero-
cedasticidad sino que además proporciona pistas para corregirla, ya que en su
salida muestra qué variables se encuentran más relacionadas con los residuos
cuadráticos.
Nota:
Cuando se presenta un problema de heterocedasticidad, se alteran los supues-
tos básicos del modelo MCO, puesto que la matriz de varianzas covarianzas es
215
1
wi2 σ 2 Xi2 = σ 2 ⇒ wi =
Xi
Así pues, para llevar a cabo la estimación por Mínimos Cuadrados Ponderados
(MCP) sería necesario generar una serie de pesos definida como:
1
W =
capital
Es importante tener en cuenta que Gretl ofrece una alternativa automática para
solucionar la existencia de homocedasticidad, de especial interés cuando el test
de White no muestra claramente una variable que explique el comportamiento
de û2 . Esta opción se encuentra disponible en la opción de menú Modelos .
Otros modelos lineales . con corrección de heterocedasticidad:
superior al modelo 4 (estimado mediante MCP), lo que nos sugiere que nuestra
ponderación es más adecuada que la utilizada por Gretl. Sin embargo, el diálogo
de la opción automática incluye la opción Ecuación de la varianza incluye términos
al cuadrado, que al ser activada mejora sensiblemente el resultado. De hecho,
como se observa en la siguiente salida, esta corrección no solo mejora la suma
de cuadrados de los residuos sino también la significación de las variables del
modelo, por lo que resulta muy adecuada:
Inmigrantes
Enunciado:
219
220 SUPUESTO 15. INMIGRANTES
Solución:
Al estimar el modelo se observa que las variables son significativas y sus coeficien-
tes presentan los signos esperados (la entrada de inmigrantes está relacionada
directamente con el crecimiento económico y con el gasto social, pero en cambio
presenta una relación inversa con el paro).
— proporciones de la varianza —
lambda cond const crecimie gastosoc paro
3,842 1,000 0,000 0,009 0,001 0,000
0,147 5,107 0,002 0,740 0,002 0,005
0,009 21,166 0,006 0,235 0,711 0,230
0,002 41,463 0,992 0,016 0,287 0,764
221
Nota:
Como ya hemos comentado al describir el test RESET de Ramsey, RESET
(p.189), cuando los grados de libertad lo permiten la opción de cuadrados
y cubos es la más completa para realizar la regresión auxiliar. Una opción
interesante también puede ser solicitar desde el modelo estimado la opción
Contrastes . Contraste RESET de Ramsey . Todas las variantes, que no incluye
la salida completa del contraste, pero proporciona un resumen del test en todas
las posibles variantes:
Variables instrumentales:
Uno de los supuestos básicos de la estimación MCO es que la matriz X es
no estocástica y por tanto X0 u = 0. Sin embargo, si alguna de las variables
explicativas es endógena o presenta errores de medida, entonces la matriz X será
estocástica y por tanto no se cumplirá el requisito anterior, ya que: E [u/X] 6= 0.
Esta alteración de las hipótesis afectaría a las estimaciones mínimo cuadráticas,
ya que los estimadores serán ahora sesgados:
M CO
−1
E β̂ = β + (X0 X) X0 E (u/X) 6= β
M CO
También se puede comprobar que en este caso el estimador β̂ es inconsis-
tente.
En este tipo de situaciones puede ser adecuado cambiar el método de estima-
ción, introduciendo variables instrumentales. Así, si entre las variables explica-
tivas hay una variableXj que está correlacionada con la perturbación, entonces
223
podemos buscar una variable proxy Zj que esté altamente correlacionada con
Xj y no lo esté con u, E (u/Zj ) = 0. Esta variable Zj que se denomina variable
instrumental o instrumento, puede ser utilizada para estimar en una primera
etapa la variable original y a continuación, en una segunda etapa, sustituir en
el modelo la variable por su estimación, X̂j .
VI
Z0 û = Z0 y − Xβ̂ =0
VI −1 −1
β̂ = (Z0 X) Z0 y = β + (Z0 X) Z0
|{z}
Xβ+
V I
−1
E β̂ = β + (Z0 X) Z0 E() = β
| {z }
=0
El
Nota:
El programa Gretl permite llevar a cabo la estimación bietápica tanto desde las
opciones de menú como mediante el comando TSLS (Two-Stage Least Squares).
Al llevar a cabo la estimación mediante variables instrumentales es necesario
incluir un número de instrumentos suficientemente elevado para que la ecuación
se encuentre identificada. Más concretamente, tal y como se explica con más de-
talle en las prácticas relativas a modelos multiecuacionales, SEM-Identificacion
(p.311) debe satisfacerse la denominada “condición de orden” según la cual el
número de instrumentos incorporados al modelo no puede ser inferior al de
regresores endógenos (en este caso 1).
resultado de esta estimación bietápica aparece recogido a continuación y con-
firma la significación de las variables explicativas, cuyos coeficientes estimados
presentan los mismos signos que los del modelo anterior. Además, esta salida
incluye el test de Hausman (p.225) que permite contrastar la exogeneidad del
gasto social a partir de la comparación entre los estimadores MCO y MC2E y
también el test de instrumentos débiles, que permite detectar posibles problemas
en las variables utilizadas como instrumentos.
En este caso el test de Hausman proporciona un nivel crítico inferior al 3 %,
y por tanto conduce al rechazo del supuesto de exogeneidad del gasto social,
sugiriendo la conveniencia de llevar a cabo la estimación por mínimos cuadrados
bietápicos.
Por su parte, el test de instrumento débil cuya hipótesis nula es la nulidad del
coeficiente o debilidad de la variable instrumental proporciona un nivel crítico
bajo y por tanto confirma la adecuación de la cobertura sanitaria como instru-
mento.
Test de Hausman:
Como hemos comentado anteriomente, cuando la matriz X es estocástica, en-
M CO
tonces el estimador β̂ es inconsistente. Sin embargo en esta misma situación
VI
el estimador β̂ es consistente y de ahí que el test de Hausman se base en la
comparación entre los dos estimadores.
M CO
La hipótesis nula del contraste de Hausman es que los estimadores β̂ son
consistentes, lo cual equivale a asumir que la matriz X es no estocástica. En cam-
bio, bajo la hipótesis alternativa la matriz X sería estocástica y los estimadores
MCO inconsistentes.
M CO
Si se rechaza la hipótesis, entonces los estimadores β̂ no resultan adecuados
al no ser consistentes y por lo tanto procede llevar a cabo la estimación de
Mínimos cuadrados en dos etapas, mediante variables instrumentales. Si por el
contrario no se rechaza la hipótesis, no hay evidencia de inconsistencia en los
estimadores MCO y estos serán los más adecuados al ser eficientes.
El estadístico de contraste del test de Hausman utiliza el test de restricciones
de Wald (con una restricción) y por lo tando sigue una distribución χ2 con un
grado de libertad.
Para una mejor interpretación de estos resultados puede ser interesante recons-
truir la estimación bietápica del modelo y los dos contrastes de hipótesis realiza-
dos. Comenzando por la primera etapa, debemos estimar la variable explicativa
que podría ser endógena (gasto social) en función de crecimiento, paro y cober-
tura.
Restricción:
b[cobertura] = 0
Estadístico de contraste: F(1, 21)=11,9488, con valor p=0,00236134
227
Nota:
Como podemos observar el estadístico F=11,94 coincide con el incluido en la
salida del modelo estimado por mínimos cuadrados en dos etapas y confirma
la adecuación de la cobertura sanitaria como instrumento. Aunque en cada
salida de Gretl aparecen los correspondientes valores críticos, generalmente se
presentan problemas de instrumento débil cuando el valor de F es inferior a 10.
Restricción:
b[uhat] = 0
Estadístico de contraste: F(1, 20)=3,85754, con valor p=0,0635743
end restrict
#Modelo 3 . MCO, Segunda e t a p a
ols inmigrantes 0 crecimiento g astoso cialha t paro
#Modelo a u x i l i a r c o n t r a s t e de Hausman
ols inmigrantes 0 crecimiento gastosocial paro uhat
k = $ncoeff
SCR = $ess
#c o n t r a s t e de Hausman
restrict
b [ uhat ]=0
end restrict
#modelo r e s t r i n g i d o
ols inmigrantes 0 crecimiento gastosocial paro
SCR_R = $ess
r =1
F = (( SCR_R - SCR ) / SCR ) *( n - k ) / r
W = (( SCR_R - SCR ) / SCR ) * n
pF = pvalue (F ,r ,n -k , F )
pW = pvalue (X ,r , W )
printf " Valor F = %g , Valor W ( Hausman )= %g , \ n " ,F , W
printf "F , nivel crítico = %g , W , nivel crítico = %g , \ n " ,pF , pW
set verbose on
����� �����
����� �����
����� �����
����� �����
� ��� ���
�
� ��� ���
�
� ��� ���
�
� ��� ���
�
� ���� ����� ����� ����� ����� ����
� ����
� ����� ����� ����� ����� ����� ����� �����
Como se puede apreciar en las tablas y los gráficos proporcionados por Gretl,
231
los dos modelos consiguen una buena predicción, los valores observados se en-
cuentran en el intervalo de confianza de la predicción, pero en el gráfico (b)
correspondiente al modelo bietápico observamos cómo los registros de inmi-
grantes se aproximan más a las predicciones, por lo que el modelo 2 (MC2E)
parece más adecuado que el 1 (MCO) en cuanto a su capacidad predictiva.
Esta afirmación queda confirmada al observar los indicadores incluidos en las
tablas de predicción de ambos modelos. Los porcentajes de error medio y abso-
luto medios, así como el coeficiente U de Theil son sensiblemente inferiores en el
Modelo 2, por lo que el procedimiento de mínimos cuadrados en dos etapas re-
sulta recomendable tanto para la estimación del modelo como para la predicción
del número de inmigrantes.
232 SUPUESTO 15. INMIGRANTES
SUPUESTO 16
Importaciones
Enunciado:
233
234 SUPUESTO 16. IMPORTACIONES
Solución:
1. Estimar un modelo lineal para explicar las importaciones de acero
hasta 2016 y obtener predicciones a partir de 2017.
�����
�������������
����������
����� ��������������������������
�����
�����
�����
�����
�����
�����
�����
����
����� ����� ����� ����� � ���� ����� � ���� �����
Cabe señalar sin embargo que el análisis de los valores observados, estimados y
residuos (tanto gráficamente como a través de la tabla disponible desde la salida
del modelo) permite apreciar un cambio de comportamiento en las importaciones
237
����������������������������������
�����
���������
����� ��������
�����
�����
�������������
�����
�����
�����
����
����
����
����� ����� ����� ����� ����� ����
�
M CO
M CO
M CO 0
V ar β̂ = E β̂ − β β̂ −β
−1 0
= E[(X0 X) X0 u (X0 X)−1 X0 u ]
−1 −1
= E[(X0 X) X0 uu0 X(X0 X) ]
−1 −1
= (X0 X) X0 E(uu0 )X(X0 X)
E(u0 u) = σ 2 I
y en consecuencia:
M CO
−1
V ar β̂ = σ 2 (X0 X)
E(u0 u) = σ 2 Ω
y por lo tanto se obtiene una expresión distinta de la matriz var-cov de los
estimadores mínimo cuadráticos:
M CO
−1
V ar β̂ = σ 2 (X0 X) X0 ΩX(X 0 X)
2
û1 0 ··· 0
0 û22 ··· 0
S 2 Ω̂ = . .. .. ..
.. . . .
0 0 ··· û2n
Nota:
Existen distintas opciones de Gretl para la estimación robusta de la matriz de
varianzas covarianzas. Estas opciones son configurables desde la opción de menú
Herramientas . Preferencias . General en la pestaña HCCME, y el capítulo 19
de la Guía de Usuario de Gretl se dedica al análisis de estas opciones según la
estructura de datos.
Si bien no existe un consenso claro sobre cuál es la mejor alternativa (HC0 ,
HC1 , HC2 , HC3 y HC3a ), tal y como se argumenta en Davidson 2004, HC0
es probablemente la opción menos recomendable de las cinco, si bien es la más
generalmente utilizada por motivos de compatibilidad. De hecho ésta es la al-
ternativa incluida por defecto en Gretl.
R-cuadrado = 0,728968
H0 : σi2 = σ 2 ∀i = 1, · · · , n
H1 : σi2 6= σj2 para algún i 6= j
k
X
û2 = α0 + αij Xi Xj + η
i,j=1
De modo similar al test de White se podría llevar a cabo el test propuesto por
Breusch_Pagan cuya hipótesis nula es idéntica al anterior (homocedasticidad)
y que conduce a la misma conclusión (rechazar la hipótesis) tal y como muestra
la salida siguiente:
Contraste de heterocedasticidad de Breusch-Pagan
MCO, usando las observaciones 1988-2016 (T = 29)
Variable dependiente: û2 escalado (variante robusta de Koenker)
Contraste de Durbin-Watson
El contraste de autocorrelación de Durbin 1950Durbin 1951 se basa en la espe-
cificación de un modelo autorregresivo de orden 1 o AR(1) donde cada pertur-
bación ut se relaciona con la perturbación retardada un período ut−1 según el
esquema:
ut = ρut−1 + t ,
|ρ| < 1 , t ≈ N (0, σ 2 I)
H0 : ρ = 0
H1 : ρ 6= 0
y dado que las perturbaciones u no son observables el contraste debe llevarse a
cabo a partir de los errores de estimación û. Partiendo de estos residuos, Durbin
y Watson (1950) definen la expresión:
n
P 2
(ût − ût−1 )
t=2
dDW = n
û2t
P
t=1
Es necesario tener presente que los desarrollos descritos en este contraste co-
rresponden a esquemas autorregresivos de orden 1 y pueden ser generalizados
para contemplar autocorrelación de otro orden, tal y como describiremos en
supuestos posteriores Test-de-Breusch-Pagan (p.261).
������
�������������������������������������������� �������������������
�������������������������������� ���������������������
�������
������
�������
������
��������
�������
������
�������
������
�������
��
���� ���� ���� ���� ���� �� ���� ���� ����
�����
Contraste de Normalidad
La hipótesis de normalidad de la perturbación aleatoria es la base de todo el
proceso inferencial sobre el modelo lineal básico. Por tanto, el incumplimiento
de este supuesto podría afectar seriamente a los contrastes de hipótesis desarro-
llados.
244 SUPUESTO 16. IMPORTACIONES
Además del test de Doornik-Hansen que proporciona Gretl desde la salida del
modelo es recomendable realizar otros contrastes de normalidad. Para ello debe-
mos guardar los residuos del modelo (Guardar . Residuos) con la denominación
que consideremos adecuada (por defecto Gretl propone el nombre uhat2, donde
2 es el número de modelo estimado).
Una vez guardada la serie de residuos, si en la ventana principal de Gretl marca-
mos esta variable, desde el menú Variable . Contraste de Normalidad, se obtiene
la salida:
Pn 2
( i=1 αi x(i))
W =
nS 2
Donde αi representa la correlación entre los valores x(i) y los
valores pro-
medios de los rangos aleatorios X̄(1) ≤ X̄(2) ≤ · · · ≤ X̄(n) procedentes
de muestras con distribución normal, independientes e idénticamente dis-
tribuidas.
���
���������������������������������
���������������������
���
��
��
��
��
��
����� ����� ����� �����
Contraste de RV de Quandt
247
Calculamos las discrepancias F anteriores, para cada uno de los periodos inter-
medios:
û0R ûR
RV = nt∗ ln → χ2r
û0 û
Contraste de Chow
El test propuesto por Chow contrasta la hipótesis nula de estabilidad estruc-
tural mientras la alternativa será que en determinada observación t∗ se produce
un cambio estructural. Si denotamos por n1 , n2 los tamaños de las dos sub-
muestras del recorrido muestral considerado, la hipótesis nula exige que tanto
los coeficientes del modelo como su dispersión se mantengan estables en todo el
recorrido, es decir H0 : βn1 = βn2 = β; σn1 = σn2 = σ
Para llevar a cabo este contraste se define una variable dicotómica (escalón)
asociada al cambio estructural en determinada observación o período que deno-
tamos por t∗ :
(
0 para t < t∗
W =
1 para t ≥ t∗
Una vez definida esta variable (que Gretl genera automáticamente con la deno-
minación splitdum) se especifica el modelo ampliado o libre:
y = β1 + β2 X2 + · · · + βk Xk + γ1 W + γ2 W X2 + · · · + γk W Xk + u
y = β1 + β2 X2 + · · · + βk Xk + u
y la suma de residuos cuadráticos de este modelo restringido viene dada por
û0R ûR .
En esta situación, el test de Chow contrasta el supuesto de estabilidad estruc-
tural que equivale a la restricción:
H0 : γ 1 = γ 2 = · · · = γ k = 0
y el correspondiente estadístico de contraste de restricciones lineales es:
smpl full
acuerdo_ipi = acuerdo * ipi
acue rdo_pr ecio = acuerdo * precio
smpl 1987 2016
������
�������������������������������������������� �������������������
�������������������������������� ���������������������
������
������
��������
������
������
������
��
���� ���� �� ���� ����
�����
A partir del modelo anterior es posible obtener tanto predicciones puntuales co-
mo bandas de confianza que mejoran las proporcionadas por modelos anteriores.
Más concretamente, los errores porcentuales son inferiores al 2 % y el índice de
Theil se sitúa en 0,68. Así pues, la evaluación de las predicciones a partir del
año 2017 muesta resultados bastante mejores que los asociados a los modelos
previamente estimados.
Alquiler
Enunciado:
253
254 SUPUESTO 17. ALQUILER
Solución:
— proporciones de la varianza —
lambda cond const distancia edad superfic
3,381 1,000 0,007 0,020 0,015 0,011
0,432 2,799 0,000 0,505 0,142 0,010
0,131 5,075 0,009 0,171 0,649 0,515
0,056 7,754 0,984 0,304 0,194 0,464
Nota:
Si realizamos el contraste RESET de Ramsey con cuadrados y cubos obtenemos
la salida siguiente:
Podemos observar una nota de Gretl que nos indica «ATENCIÓN: ¡matriz de
datos casi singular!». Esto nos indica que hay un problema de colinealidad entre
las variables explicativas del modelo ampliado, tal y como puede comprobarse
si guardamos la variable estimada ŷ sobre el modelo original, y generamos a
continuación las variables cuadrados y cubos ŷ 2 e ŷ 3 :
Los resultados del análisis de colinealidad sobre este modelo serían los recogidos
a continuación y confirman el problema existente. Se observan unos valores VIF
excesivamente altos y también el diagnóstico de colinealidad de Belsley-Kuh-
Welsch muestra índices de condición muy elevados en las dos últimas filas, con
proporción de varianza elevadas en la práctica totalidad de variables.
Así pues, podemos concluir que en este modelo ampliado hay una colinealidad
muy elevada, casi exacta y por eso Gretl alerta con el aviso de que la matriz de
datos es casi singular:
— proporciones de la varianza —
lambda cond const distancia edad superfic yhat2 yhat3
5,316 1,000 0,000 0,000 0,000 0,000 0,000 0,000
0,435 3,494 0,000 0,000 0,000 0,000 0,000 0,000
0,148 5,995 0,000 0,000 0,000 0,000 0,000 0,000
0,100 7,289 0,000 0,000 0,000 0,000 0,000 0,000
0,000 2490,637 0,000 0,000 0,000 0,000 0,000 0,000
0,000 834529,612 1,000 1,000 1,000 1,000 1,000 1,000
Para tener una visión más clara e informativa de estos residuos es aconsejable
solicitar desde el mismo modelo la opción Gráficos . Gráfico de residuos . contra
cada una de las variables explicativas (distancia, superficie y edad).
���������������������������������������������������������� ����������������������������������������������������������
��� ���
��� ���
��� ���
��� ���
��� ���
�������
�������
�� �
�
��� ���
��� ���
��� ���
��� ���
��� ���
��� ���
��� � �� � �� � �� ���� � ��� ���
� ���� ��� ��� ��� ��
� ���� ���
�
��������� ����
258 SUPUESTO 17. ALQUILER
����������������������������������������������������������
� ��
� ��
� ��
� ��
� ��
�������
��
���
���
���
���
���
���
� ��� �� ���� �
� ����
���������
R-cuadrado = 0,286159
Estadístico de contraste: T R2 = 22,892689,
con valor p = P(Chi-cuadrado(9) > 22,892689) = 0,006442
R-cuadrado = 0,263395
Estadístico de contraste: T R2 = 21,071579,
con valor p = P(Chi-cuadrado(6) > 21,071579) = 0,001781
H1 : σi2 = h(Zα)
donde Z es un subconjunto de las variables explicativas del modelo (podrían ser
todas), α es el nuevo vector de parámetros y h es una función lineal.
Se trata de un contraste de homocedasticidad, pero a diferencia del test de Whi-
te, la regresión auxiliar no se basa en ampliar los regresores sino en transformar
262 SUPUESTO 17. ALQUILER
û2i
ê2i =
σ̂ 2
û0 û
donde σ̂ 2 es el estimador máximo verosímil de la varianza: σ̂ 2 = , por tanto:
n
nû2
ê2i = PT i
û2i
i=1
e2 = Xα + v
VE
BP = → χ2k−1
2
que bajo la hipótesis nula converge a una distribución Chi-cuadrado con k-1
grados de libertad.
El contraste de Koenker 1980 es una variante del contraste de Breusch-
Pagan, en el que se utiliza el Multiplicador de Lagrange (LM) como estadístico
de contraste nR2 ≈ χ2k−1 .
����������������������������������������������������������������
����
����������������
����
����
����
����
��������
����
����
����
����
����
����
� ��� �
� ���� �� ���
�
���������
Py = PXβ + Pu
0
Cov(Pu) = E Pu(Pu) = E(Puu0 P0 ) =
1
Pi2 σ 2 Xi = σ 2 ⇒ Pi = √
Xi
2 σ2
heterocedasticidad sería del tipo: σi = , y repitiendo el desarrollo anterior
√ Xi
se tendría: Pi = Xi .
También podría ocurrir en algunos casos que la variable más significativa en la
regresión auxiliar fuese una variable de interacción (o doble producto) Xi Xj , en
cuyo caso se seguiría el mismo esquema anteriormente descrito para deducir los
pesos adecuados
√
distancia1 √ 0 ··· 0
0 distancia2 ··· 0
P = .. .. .. ..
.
. . √ .
0 0 ··· distancian
En este modelo estimado por MCP se mantienen los signos de los coeficientes,
que son negativos para distancia y edad, mientras para la superficie se estima
un coeficiente positivo casi simétrico al de edad.
Para examinar los indicadores de bondad es necesario acudir a los estadísticos
basados en datos no ponderados, que son comparables con el modelo inicial e
inevitablemente (al ser los estimadores MCO óptimos) indican en este caso un
peor ajuste. De hecho la estimación por MCP siempre llevará asociada una ma-
yor suma de residuos cuadráticos que la estimación MCO ya que éste es el coste
de la corrección de la heterocedasticidad (concretamente en este caso la suma de
residuos cuadráticos pasa de 14.449,18 a 14.596,17 mientras la desviación típica
de la regresión aumenta de 13,78843 a 13,85839).
Como ya hemos indicado anteriormente, existe una alternativa para corregir la
heterocedasticidad de forma automática, que resulta especialmente recomenda-
ble cuando desconocemos su estructura. Esta opción automática de Gretl se
encuentra disponible en el menú Modelo . Otros Modelos lineales . Con co-
rrección de heterocedasticidad que permite incorporar una variante con términos
cuadráticos:
Nota:
Este método de corrección automática de heterocedasticidad solo es recomenda-
ble cuando no se identifica la causa del problema y por tanto los pesos adecuados
268 SUPUESTO 17. ALQUILER
3. Generar los cuadrados de las variables (en el caso general de que se desee
incluir esta opción, generalmente proporciona mejores resultados).
las variables originales y sus cuadrados (si se opta por la alternativa sin
cuadrados se excluyen estas últimas)
1
5. Generar la variable de ponderación como wi =
log (û2i )
Energía
Enunciado:
269
270 SUPUESTO 18. ENERGÍA
Solución:
����������������������������������������������������������������������������������������
��
���������������������
��
��
����������������������������
��
��
��
��
��
��
��
�� ������ �����
� ������ ������ �����
�
�������������
Se observa que los coeficientes estimados presentan los signos esperados, indican-
do que el consumo energético aumenta con el pib percápita, con la pertenencia
del país a la unión europea y con el peso industrial en el pib, si bien todavía
hay problemas de significación para esta última variable. Además el modelo
mejora respecto al simple, ya que el coeficiente de determinación corregido au-
menta desde 0,77 hasta 0,808 y los criterios de información de Akaike, Schwarz
y Hannan-Quinn disminuyen sus resultados.
Entre los aspectos dudosos de este modelo, observamos que el peso industrial
tiene un nivel crítico de 0,1256, con lo que no rechazamos que su coeficiente sea
nulo. Sin embargo, tal y como indicaba la nube de puntos inicial es posible que
existan problemas de heterocedasticidad y por tanto resulta aconsejable llevar
a cabo la estimación mínimo cuadrática con la opción de desviaciones típicas
robustas, que corrige la matriz de varianzas covarianzas de los estimadores y en
consecuencia también los contrastes de significación. De hecho, en este caso al
introducir dicha corrección se observa que la participación industrial pasa a ser
significativa:
R-cuadrado = 0,483595
Estadístico de contraste: T R2 = 34,818823,
con valor p = P(χ2 (8) > 34,818823) = 0,000029
Además del test de White estándar, también se puede utilizar el contraste con
solo cuadrados que como podemos observar conduce a la misma conclusión (re-
chazar la hipótesis de homocedasticidad) y apunta también a la variable PIB
como causante del problema de heterocedasticidad, por ser la más significativa
de la regresión auxiliar. Conviene tener presente que esta modalidad de solo
cuadrados es una variante restringida del contraste anterior (donde se omiten
las variables de interacción o dobles productos) y por lo tanto, siempre que los
grados de libertad lo permitan, sería recomendable llevar a cabo el contraste de
White en su versión completa.
R-cuadrado = 0,354971
Estadístico de contraste: T R2 = 25,557948,
274 SUPUESTO 18. ENERGÍA
Además tanto la nube de puntos inicial como las regresiones auxiliares de los
tests de homocedasticidad sugieren que la dispersión es directamente proporcio-
nal al pib percápita y la misma conclusión se obtendría al examinar la gráfica de
residuos respecto al pib, accesible desde el modelo estimado y que proporciona
el resultado siguiente:
���������������������������������������������������������
����
��������������
��������������
� �
����
� �
���
�������
� �
����
��
����
��
�� � ����� ������ ������ �����
� �����
�
�������������
Así pues, la variable de ponderaciones puede ser generada desde el menú Añadir .
Definir nueva variable mediante la expresión peso=1/sqrt(pib) o bien directamente
desde dentro del diálogo de la estimación por mínimos cuadrados ponderados
en la opción de menú Modelo . Otros modelos lineales . Mínimos cuadrados
ponderados, utilizando la opción designada con el icono + (Nueva variable) en
la parte superior izquierda.
277
energético. Así, tanto en los gráficos como en la tabla disponible desde Análisis
. Mostrar variable observada estimada y residuos que se reproduce parcialmente
a continuación aparecen valores de los consumos energéticos percápita:
Rango de estimación del modelo: 1–72
Desviación típica de los residuos = 0,823449
Tabaco
Enunciado:
279
280 SUPUESTO 19. TABACO
Solución:
— Proporciones de la varianza —
lambda cond const renta precio prevención
3,940 1,000 0,000 0,000 0,000 0,000
0,056 8,387 0,041 0,001 0,001 0,015
0,003 34,257 0,186 0,033 0,948 0,011
0,001 82,677 0,773 0,967 0,050 0,974
Nota:
Como ya hemos señalado en supuestos anteriores, la presencia de multicolineali-
dad puede estar afectando a nuestras estimaciones, tanto en el signo y magnitud
de los coeficientes estimados como en su significación. Incluso, en situaciones
extremas, podrían llegar a observarse contradicciones entre el test F de signifi-
cación global y los contrastes t de significación individual (de modo que según
el test F, con valor p bajo, alguna de las variables explicativas sería significativa
y según los contrastes t, todos ellos con p elevado, ninguna lo sería).
Contraste de Hausman –
Hipótesis nula: [Los estimadores de MCO son consistentes]
Estadístico de contraste asintótico: χ2 (1) = 0,000392364
con valor p = 0,984196
Contraste de Instrumento débil –
First-stage F (1, 21) = 6,91145
Contraste de Hausman –
Hipótesis nula: [Los estimadores de MCO son consistentes]
Estadístico de contraste asintótico: χ2 (1) = 3,45378
con valor p = 0,0631072
Contraste de sobreidentificación de Sargan –
Hipótesis nula: [Todos los instrumentos son válidos]
Estadístico de contraste: LM = 1,28145
con valor p = P (χ2 (1) > 1,28145) = 0,25763
Contraste de Instrumento débil –
First-stage F (2, 20) = 10,5699
285
Nota:
Los contrastes de instrumento débil descritos en Contraste-instrumento-debil
(p.225) y los contrastes de sobreidentificación propuestos por Sargan (1958,
1975) y generalizados por Hansen, pueden ser utilizados de forma complemen-
taria para analizar la idoneidad de las variables utilizadas como instrumento.
Como ya hemos señalado, el contraste de instrumento débil es un caso particular
del test de restricciones lineales, concretamente de la hipótesis de nulidad de los
coeficientes de los instrumentos.
Por su parte, el test de identificación de Sargan-Hansen contrasta la hipóte-
sis nula de que todos los instrumentos son válidos y únicamente se incluye en
situaciones de sobreidentificación, es decir, cuando el número de instrumentos
propuestos supera al de variables explicativas que podrían ser endógenas.
A partir del modelo estimado por MC2E se obtienen las siguientes predicciones
para el consumo de tabaco:
Estas predicciones basadas en MC2E resultan más adecuadas que las obtenidas
a partir del modelo MCO ya que proporcionan menores errores porcentuales, se
reduce el índice de Theil y la proporción de sesgo.
Teniendo en cuenta todos los resultados anteriores, se concluye que la varia-
ble prevención plantea varios problemas (colinealidad, endogeneidad, ...). Por
lo tanto, si se desea mantener como explicativa esta variable en el modelo de
consumo de tabaco sería recomendable llevar a cabo la estimación por MC2E.
No obstante, dados los problemas de colinealidad y endogeneidad que este regre-
sor introduce en el modelo, podemos plantearnos reemplazarlo por otra variable
286 SUPUESTO 19. TABACO
Por lo que respecta a las predicciones de este modelo, resultan peores que las
asociadas a los dos anteriores ya que aumentan tanto los porcentajes de error
como el índice de Theil.
Nota:
Teniendo en cuenta que el problema de la multicolinealidad no afecta a la pre-
dicción es lógico que el Modelo 1, aun presentando esta limitación, consiga una
mejor capacidad explicativa y mejores predicciones que los otros modelos esti-
mados. De ahí la recomendación de tratar de solucionar la colinealidad mediante
transformaciones de las variables explicativas, evitando su omisión del modelo.
R-cuadrado = 0,382871
Nota:
Tal y como ya hemos descrito en Test-de-Durbin-Watson (p.242), el esta-
dístico propuesto por Durbin 1950Durbin 1951 viene dado por la expresión
n
(ût −ût−1 )2
P
dDW = t=2
n y sus valores de referencia son 2 para el caso de no auto-
û2t
P
t=1
correlación, 0 para máxima autocorrelación positiva y 4 para máxima autoco-
rrelación negativa.
El cálculo del estadístico Durbin Watson puede llevarse a cabo a partir de la serie
de residuos del modelo estimado y dicha serie retardada, mediante el siguiente
script:
R-cuadrado = 0,094400
Ljung-Box Q’ = 1,22448,
con valor p = P(Chi-cuadrado(1) > 1,22448) = 0,268
Contraste de Breusch-Godfrey
El contraste de autocorrelación de Breusch-Godfrey (BG) desarrollado por Breusch
1978 Godfrey 1978 es más general que el test de DurbinWatson (DW) en un do-
ble sentido, en primer lugar porque este último sólo se puede aplicar cuando el
modelo no incluye regresores estocásticos (no contiene variables endógenas); en
segundo lugar el DW sólo permite contrastar si existe autocorrelación de orden
1 (un único retardo).
Por el contrario el test BG es más potente y no tiene las restricciones anteriores,
por lo que permite contrastar la no existencia de autocorrelación de cualquier
orden.
Este contraste se basa en la consideración del modelo: yt = β1 + β2 Xt2 + · · · +
βk Xtk + ut
sobre el que establecemos la hipótesis nula de que los residuos no están correla-
cionados hasta el retardo r:
6
Estadístico para el contraste de normalidad: Frecuencia relativa
Chi-cuadrado(2) = 13,172 [0,0014]
N(8,8818e-017 0,1103)
4
Densidad
0
-0,4 -0,3 -0,2 -0,1 0 0,1 0,2 0,3
uhat1
Nota:
Tal y como ya hemos descrito en Test-Normalidad-DH (p.243) el contraste de
normalidad de Doornik-Hansen se basa en el análisis gráfico de los residuos
(simetría y curtosis). Para completar la información de este contraste es re-
comendable guardar los residuos del modelo estimado y una vez seleccionada
esta variable desde el menú principal de Gretl solicitar Variable-Contrastes de
normalidad que proporciona, además del test de Doornik-Hansen anteriormente
descrito, otros contrastes clásicos como el propuesto por Lilliefors 1967Lillie-
fors como extensión del test de Kolmogorov-Smirnov y el de Jarque y Bera
Contrastes-Normalidad (p.244)
Los resultados obtenidos en este caso aunque con diferencias en los niveles crí-
ticos, conducen al rechazo del supuesto de normalidad y sugieren por tanto
la necesidad de introducir cambios en el modelo econométrico de consumo de
tabaco.
Nota:
Tal y como hemos justificado en MCP (p.263), nuestro objetivo es construir una
matriz de pesos P (o bien una variable de ponderación W que debemos incluir
en el modelo), en cuya determinación resultan de gran ayuda las regresiones
auxiliares de los contrastes de homoscedasticidad.
Así, en la salida del test de Breusch-Pagan observamos que la variable Xi (renta)
resulta ser significativa al 5 % en el modelo auxiliar y su coeficiente tiene signo
positivo, por lo que deberíamos asumir que existe una relación del tipo: σi2 =
σ 2 Xi .
Se trata entonces de encontrar una variable de ponderaciones Wi , tal que
E(Wi ui )2 = σ 2 , es decir, que los residuos del modelo transformado sean homo-
cedásticos:
E (Wi ui )2 = σ 2 ⇒ Wi2 E u2i = Wi2 σi2 = σ 2
σ2
σi2 =
Xi
p
Wi = Xi
σi2 = σ 2 Xi2
1
y en este caso la variable de ponderación que obtendríamos sería: Wi = .
Xi
A partir de este Modelo (6) podemos realizar nuevas predicciones (que iremos
guardando mediante el icono «+», como en los modelos anteriores para así poder
hacer posteriormente una comparación entre las predicciones de los distintos
modelos:
Nota:
La propuesta anterior no es la única alternativa para solucionar el problema
de la heterocedasticidad en nuestro modelo. Así, dado que en algunas regresio-
nes auxiliares se observa que también la renta cuadrática es significativa, sería
posible estimar el modelo por MCP con σi2 = σ 2 renta2 y peso = renta
1
. Esta op-
ción conduce a resultados similares a los anteriores, con indicadores algo peores
(mayor suma de residuos cuadráticos basados en datos originales)
Otra alternativa sería la corrección automática de Gretl disponible en el menú
Modelo . Otros modelos lineales . Con corrección de heterocedasticidad, Funcion-
Heterocedasticidad (p. en la página 267), que en este caso conduce a un resultado
ligeramente peor.
sultado donde el valor de rho es muy reducido y por tanto DW se acerca más a
2.
Nota:
De modo similar podemos utilizar la opción AR (General) donde será necesario
especificar el número de retardos propuesto. Lógicamente, si incluimos un solo
retardo, el resultado es coincidente con la estimación anterior
Yt = β1 + β2 Xt + ρut−1 + t
Una ventaja adicional de este nuevo modelo es que los residuos obtenidos en la
estimación de Cochrane Orcutt siguen un patrón normal.
6
Estadístico para el contraste de normalidad:
Frecuencia relativa
Chi-cuadrado(2) = 3,539 [0,1704]
N(1,2027e-016 0,10666)
5
4
Densidad
0
-0,3 -0,2 -0,1 0 0,1 0,2 0,3
uhat4
4,5
consumo
Predicción
Intervalo de 95 por ciento
4
3,5
2,5
2
2004 2006 2008 2010 2012 2014 2016 2018
Tal y como hemos visto en los apartados anteriores, los distintos modelos estima-
dos llevan asociadas predicciones diferentes para el horizonte 2016-2019 con las
correspondientes medidas de evaluación. Más concretamente, la tabla siguiente
resume las principales medidas de evaluación de predicciones asociadas a las
predicciones estáticas obtenida con los seis modelos estimados. Como es lógico,
el último modelo -que incorpora mediante variables cualitativas el cambio es-
tructural asociado a la ley antitabaco- mejora sustancialmente la calidad de las
predicciones de consumo de tabaco ne el horizonte considerado.
Nota:
También podemos optar por utilizar otros procedimientos de predicción dis-
tintos del estático, lo cual afectaría a los resultados de la predicción. Así, las
predicciones cambian si se utiliza el procedimiento recursivo con horizonte h=1,
en cuyo caso se haría la predicción para 2016 con información hasta 2015 (ob-
teniendo por tanto el mismo resultado que en el caso estático para este año).
Posteriormente se estimaría nuevamente el modelo con la información hasta
2016 y se obtendría la predicción para 2017 (que ya sería distinta a la predic-
ción estática) y lo mismo para 2017 (en este caso basada en el modelo estimado
con información muestral hasta 2016).
Puede comprobarse que, al considerar horizontes de predicción de amplitud 1, las
predicciones basadas en el procedimiento dinámico reducen el error porcentual
medio.
302 SUPUESTO 19. TABACO
SUPUESTO 20
Industria
Enunciado:
303
304 SUPUESTO 20. INDUSTRIA
Wt = α1 + α2 Pt + α3 Qt + u1t
Pt = β1 + β2 Wt + β3 Vt + u2t
Solución:
Al llevar a cabo la estimación mínimo cuadrática del modelo simple (una vez
seleccionado el recorrido muestral 1997-2016) se observa que el coeficiente es-
timado para el precio tiene signo negativo, al contrario de lo esperado. Este
resultado podría ser debido a que los precios son causa de los salarios pero
también dependen de dicha variable, es decir, a la posible existencia de endo-
geneidad en la variable precios, que afectaría a los resultados de la estimación
MCO.
Además, la salida del modelo estimado presenta otros problemas, como el bajo
coeficiente de determinación, que sugiere la necesidad de incorporar más varia-
bles explicativas en el modelo.
Nota:
Como ya hemos comentado en supuestos anteriores, el problema de endogenei-
dad afecta a una de las hipótesis básicas del modelo econométrico (ausencia de
correlación entre X y u) y puede estar relacionado con problemas de especifica-
ción del modelo como pueden ser las variables omitidas.
Las consecuencias de la endogeneidad son importantes ya que los estimadores
MCO dejarían de ser consistentes. De ahí la importancia de detectar mediante
el test de Hausman Test-de-Hausman (p.225) la endogeneidad de las variables
explicativas y utilizar métodos de estimación alternativos como Mínimos Cua-
drados en dos etapas (MC2E) o Variables Instrumentales (VI).
El test RESET de Ramsey proporciona en este caso un nivel crítico muy bajo
por lo que rechazamos la hipótesis de especificación correcta.
-5
-10
-15
-20
-25
-30
1998 2000 2002 2004 2006 2008 2010 2012 2014 2016
R-cuadrado = 0,124432
�����
�������������������������������������������� �������������������
�������������������������������� ��������������������
������
�����
������
�����
��������
������
�����
������
�����
������
��
��� ��� ��� ��� �� ��� ��� ��� � ��
�����
Además, si guardamos los residuos del modelo podemos comprobar que esta
conclusión coincide con la de los otros tests de normalidad, ya que todos ellos
proporcionan niveles críticos elevados.
Contraste de Hausman –
Hipótesis nula: [Los estimadores de MCO son consistentes]
Estadístico de contraste asintótico: χ2 (1) = 42,5122
con valor p = 7,02434e-011
Contraste de Instrumento débil –
First-stage F (1, 17) = 83,9893
Esta salida permite observar que los signos de los dos coeficientes son positivos
y las variables, en distintos niveles, resultan significativas.
Además, la salida confirma la sospecha de endogeneidad de la variable precio
ya que el nivel crítico es bajo y se rechaza la hipótesis nula del test de Haus-
man (según la cual las variables explicativas serían exógenas y los estimadores
MCO consistentes). También se incluye en esta salida el test de debilidad de
los instrumentos, con un resultado F muy elevado que conduce al rechazo de la
hipótesis de nulidad de los coeficientes de las VI (equivalente a su “debilidad”).
Nota:
La estimación por Variables Instrumentales o Mínimos Cuadrados en dos etapas
necesita disponer de un número suficiente de instrumentos (superior al número
de variables explicativas endógenas). En caso de que este requisito no se cumpla
Gretl proporciona un mensaje informativo según el cual es necesario añadir más
instrumentos.
Cuando el número de instrumentos es suficiente (es decir, cuando la ecuación es-
tá identificada, tal y como se describe más adelante, SEM-Identificacion p.311),
entonces Gretl lleva a cabo la estimación MC2E del modelo y proporciona los re-
sultados del test de Hausman (que permite contrastar la exogeneidad) y del tests
de instrumentos débiles. Este segundo test, descrito en Contraste-instrumento-
debil (p.225) es un contraste de restricciones lineales y permite analizar la ido-
neidad de las variables propuestas como instrumentos.
Por último, cuando el número de instrumentos es superior al requerido (ecua-
ción sobreidentificada) Gretl proporciona todos los resultados anteriores y uno
adicional: el test de sobreidentificación de Sargan cuya hipótesis nula es la ade-
cuación de todos los instrumentos propuestos para la estimación.
Wt = α1 + α2 Pt + α3 Qt + u1t
Pt = β1 + β2 Wt + β3 Vt + u2t
Nota:
La especificación de modelos de ecuaciones simultáneas es distinta de la utilizada
para modelos uniecuacionales y exige utilizar comandos para las ecuaciones
(equation) y las variables endógenas (endog). En el caso de que el sistema de
ecuaciones incluya alguna identidad éstas se recogerían como identity.
Para completar la especificación es necesario introducir las variables endógenas
mediante el comando endog. De este modo el programa añadirá automática-
mente como instrumentos (instr) las variables predeterminadas del modelo y la
constante const.
Y = Yα + Xβ + U
expresión que es conocida como forma estructural del sistema, donde aparecen
como explicativas tanto las variables predeterminadas (con coeficientes β) como
las endógenas (con coeficientes α).
312 SUPUESTO 20. INDUSTRIA
Y = XΠ + V
donde Π y V representan los nuevos vectores de parámetros y perturbaciones,
respectivamente.
Uno de los rasgos diferenciales de los sistemas de ecuaciones simultáneas es
el problema de la identificación, equivalente a analizar si los parámetros de la
forma estructural pueden ser obtenidos a partir de los parámetros de la forma
reducida. Diremos que una ecuación está identificada cuando tengamos suficien-
te información para estimar sus parámetros estructurales y un modelo estará
identificado cuando lo estén todas sus ecuaciones.
El requisito de identificación dependerá de cómo hayan sido especificadas las
ecuaciones del modelo y resulta importante para la estimación (los modelos no
identificados no pueden ser estimados).
Existen unas condiciones necesarias y suficientes para estudiar si un sistema
es identificado, lo cual equivaldría a analizar si las distintas ecuaciones que lo
componen son distinguibles unas de otras.
Para ello se analiza el sistema de ecuaciones que expresa los parámetros estructu-
rales en función de los reducidos, de modo que si este sistema es incompatible el
modelo resulta no identificado, mientras si el sistema es compatible determinado
tiene una única solución y por tanto el modelo es exactamente identificado y si
el sistema es compatible pero indeterminado el modelo está sobreidentificado.
k + m − (k 0 + m0 ) ≥ m − 1
o de forma simplificada k − k 0 ≥ m0 − 1. En ambos casos la igualdad indicará
identificación y el mayor estricto sobreidentificación.
Por su parte, la condición necesaria y suficiente de rango exige que la matriz A,
construida para cada ecuación con los coeficientes de las variables excluidas de
la ecuación analizada -endógenas y predeterminadas- e incluidas en el resto de
las ecuaciones del modelo, tenga rango m-1.
313
En este caso podemos comprobar que las ecuaciones del sistema propuesto están
perfectamente identificadas ya que el modelo tiene dos variables endógenas (W
y P) y dos predeterminadas (Q y V). Por lo tanto, m = 2, k = 2 y se cumple
para las ecuaciones:
Nota:
Teniendo en cuenta el resultado obtenido en este caso, la hipótesis de diagona-
lidad podría ser rechazada al 10 % pero no al 5 % que es el nivel habitualmente
considerado. En cualquier caso, dado que las dos ecuaciones del modelo están
exactamente identificadas la solución sería única y por tanto los resultados de
otros métodos de estimación alternativos que utilizan información completa se-
rían coincidentes con los ya vistos para MC2E.
Por lo que se refiere a la predicción, partiendo del modelo estimado por MC2E
podemos obtener en Análisis predicciones tanto para los salarios como para los
precios.
Los resultados obtenidos muestran que las predicciones de salarios mejoran sig-
nificativamente respecto a las obtenidas con el modelo uniecuacional (el error
porcentual es ahora inferior al 2 %). Sin embargo el índice de Theil todavía
resulta elevado (superior a la unidad) y scon una alta proporción de sesgo.
Predicciones para W:
Predicciones para P:
Wt = α1 + α2 Pt + α3 Qt + α4 Pt−1 + u1t
Pt = β1 + β2 Wt + β3 Vt + u2t
Variable dependiente: P
Instrumentos: const Q P_1 V
1. La existencia de endogeneidad
2. La existencia de correlación cruzada entre las distintas ecuaciones del mo-
delo
u1i σ11 ··· σ1m
Cov(ui ) = E ...
. .. .. = Σ
u1i ··· umi = .. . .
1 0
σ̂ij = û ûj
n i
Se obtiene así la denominada Matriz de covarianzas cruzada residual, sobre la
que se calcula el logaritmo del determinante como una medida de evaluación del
modelo.
El test de diagonalidad propuesto por Breusch 1980 contrasta la hipótesis
de no autocorreleación interecuaciones según la cual la matriz es diagonal y el
peso de las submatrices triangulares es nulo o despreciable (no hay autocorrela-
ciones). El estadístico de contraste viene dado por la siguiente expresión donde
aparecen los coeficientes de correlación lineal rij :
X
2
LM = rij ' χ2m(m−1)/2
i,j
Como podemos observar, el método MCO sería aplicable únicamente si las ecua-
ciones que componen el sistema no están conectadas ni por la existencia de en-
dogeneidad de las variables explicativas ni por la correlación entre los errores
de las ecuaciones.
319
Delitos
Enunciado:
321
322 SUPUESTO 21. DELITOS
Di = α1 + α2 Pi + α3 Mi + u1i
Pi = β1 + β2 Di + β3 Ri + u2i
Solución:
Nota:
Como se puede observar, en la salida del modelo estimado en este caso no se
encuentra el test de Durbin-Watson, debido a que no tendría sentido contrastar
la existencia de autocorrelación de orden 1 en esta muestra de ciudades (que
aparecerán ordenadas según algún criterio arbitrario como el orden alfabético,
el distrito postal, . . . .).
Si bien Gretl no contempla los contrastes de autocorrelación en archivos de
corte transversal como el considerado en este caso, existen situaciones donde las
observaciones podrían aparecer conectadas espacialmente, por lo que algunas
funciones de Gretl permiten realizar contrastes específicos como el de Moran.
Dado que las técnicas de econometría espacial han alcanzado un gran auge
durante los últimos años es previsible que aumente la disponibilidad de opciones
de este tipo.
Nota:
Otra opción para aplicar este test sería definir una variable dicotómica con valor
unitario en las capitales de provincia:
series c a p i t a l _ p r o v i n c i a =( obs >40)
Nota:
Como ya hemos descrito Variables-Instrumentales (p.222), es necesario tener en
cuenta que para la estimación por MC2E resulta imprescindible introducir sufi-
cientes variables instrumentales ya que en otro caso no se satisface la condición
de orden para la identificación SEM-Identificacion (p.311).
Así, si en la entrada anterior incluyésemos únicamente la variable instrumental
población marginal (omitiendo la renta), obtendríamos un mensaje que recuerda
la necesidad de incluir al menos un instrumento adicional.
Contraste de Hausman –
327
Nota:
Podemos reconstruir de forma intuitiva las dos etapas de este resultado de
MC2E. En una primera etapa se estima la variable protección policial en función
de las VI renta y población marginal, y partiendo de esta ecuación estimada se
puede guardar la variable policia_estimada.
A continuación, en la segunda etapa se estiman los delitos en función de la
variable previamente almacenada como policia_estimada y la población margi-
nal, llegando a estimadores coincidentes con los obtenidos mediante el método
de VI-MC2E
ETAPA 1: Policía en función de VI renta y marginal
Nota:
Podríamos reconstruir estos resultados de los contrastes de Hausman y de instru-
mentos débiles, aprovechando la estimación de la protección policial en función
de la renta y la población marginal.
Así, para obtener el test de Hausman podemos aprovechar la estimación anterior
de la ecuación reducida de protección policial, a partir de la cual se almacenan
los residuos. A continuación se estima el modelo de delitos añadiendo entre las
explicativas los residuos previamente almacenados.
Si la protección policial fuera exógena (y por tanto incorrelada con los residuos)
entonces éstos no serían significativos en la ecuación de las delitos. En cambio
si, como sucede en este caso, dichos residuos resultan significativos (se rechaza
la nulidad de su coeficiente) detectamos endogeneidad de la protección policial.
Script:
Restricción:
b[renta] = 0
Estadístico de contraste: F(1, 47)=59,3952, con valor p=6,99895e-010
Estimaciones restringidas:
Coeficiente Desv. típica Estadístico t valor p
-----------------------------------------------------------------
const 18,6741 8,23368 2,268 0,0279 **
marginal 0,238802 0,0553098 4,318 7,86e-05 ***
renta 0,000000 0,000000 NA NA
Desviación típica de la regresión = 4,23905
Script:
A través de los contrastes habituales sobre el modelo se observa que no hay pro-
blemas de especificación (test RESET de Ramsey) pero sí de heterocedasticidad
(test de White).
A la vista del resultado del test de White podemos llevar a cabo la estimación
del modelo incorporando la matriz de varianzas-covarianzas robusta. Como ya
hemos descrito anteriormente Estimacion-Robusta (p.238) esta corrección cal-
cula adecuadamente la matriz de varianzas covarianzas de los estimadores pero
no soluciona el problema de heterocedasticidad:
Nota:
Tal y como hemos visto en supuestos anteriores, la estimación con varianzas
robustas puede alterar los resultados de los contrastes de significación individual
en cualquiera de los sentidos, de modo que variables significativas en el modelo
inicial pueden no serlo en el modelo con desviaciones típicas robustas (HAC) y
viceversa.
R-cuadrado = 0,226764
2
E [Wi ui ] = σ 2 ⇒ Wi2 E u2i = Wi2 σi2 = Wi2 σ 2 Xi2 = σ 2
1
Entonces: Wi2 Xi2 = 1 por lo tanto: Wi =
Xi
Así pues, la variable peso se genera como peso=1/renta y se introduce como
ponderación en la estimación MCP
Di = α1 + α2 Pi + α3 Mi + u1i
Pi = Pi = β1 + β2 Di + β3 Ri + u2i
Así pues, ambas ecuaciones cumplen la condición necesaria y dado que la condi-
ción suficiente en este caso sería inmediata (al ser el rango de la matriz A igual
a 1) podríamos concluir que el sistema está identificado.
Nota:
Para analizar la condición suficiente de rango es recomendable escribir el sistema
mediante la siguiente expresión, que permite identificar fácilmente los coeficien-
tes de las variables excluidas de cada ecuación:
Di − α1 − α2 Pi − α3 Mi − 0Ri = u1i
−β2 Di −β1 + Pi − 0Mi − β3 Ri = u2i
La estimación del modelo SEM podría ser llevada a cabo mediante la opción de
mínimos cuadrados en dos etapas (MC2E o TSLS) que proporciona el resultado
siguiente:
Esta salida identifica las variables utilizadas como instrumentos (que serán las
predeterminadas, marginal y renta, además de la constante) y proporciona las
estimaciones de los modelos lineales de delitos y policía, donde todos los regre-
sores son significativos. Se observa que ambas ecuaciones son bastante diferentes
en cuanto a capacidad explicativa, ya que el coeficiente de determinación es bajo
en la ecuación de delitos y bastante elevado en la de policía.
Cabe señalar además que las estimaciones de los modelos incluyen información
adicional relativa a la matriz de covarianzas de los residuos cruzados (basada
en las series de residuos û1t y û2t a las que se puede acceder desde la salida
del modelo estimado). Más concretamente, desde la opción Guardar . Residuos
de la ecuación 1 podríamos almacenar la serie u1 (residuos de la ecuación de
delitos) y de modo similar se guardaría la serie u2 (residuos de la ecuación de
policía).
Nota:
Una vez guardadas las series de residuos u1 y u2 podemos reconstruir los resul-
tados de la salida MC2E con las siguientes instrucciones:
Dado que en apartados anteriores hemos confirmado que que el hecho de ser
capital de provincia no afecta al comportamiento de los delitos no será necesario
introducir una variable dummy en nuestro modelo.
Para obtener las predicciones solicitadas debemos añadir a nuestra base de datos
una observación adicional donde se introducen los datos disponibles de renta me-
dia (2, por estar expresada esta variable en miles de euros) y población marginal
(150, por venir expresada en tantos por mil).
Una vez incorporada esta información a la base de datos, partiendo del modelo
estimado anteriormente por MC2E solicitamos la opción Análisis . Predicciones,
para las variables delitos y protección policial, obteniendo unas previsiones de
977 delitos anuales y un índice de protección policial de 59,23.
La opción de predicción facilita además intervalos de confianza para ambas
variables y las correspondientes representaciones gráficas (en este caso al tratarse
de datos temporales debemos ser cautos con el gráfico de líneas, que no indica
ninguna evolución)
IC al 95 % para delitos: entre 811 y 1143 delitos anuales
IC al 95 % para protección policial: índice entre 53,67 y 64,78
Nota:
En este caso la salida de Gretl no incluye medidas de evaluación de las prediccio-
nes, ya que no disponemos de los valores observados de las variables endógenas
y por tanto se trata de una predicción ex-ante, para la que (a diferencia de
lo que sucede en las predicciones ex-post) no es posible estudiar los errores de
predicción.
338 SUPUESTO 21. DELITOS
SUPUESTO 22
SEM_Demanda
Enunciado:
Se dispone de una base de datos con información anual relativa a las macro-
magnitudes Consumo, Inversión, Gasto Público y Renta
339
340 SUPUESTO 22. SEM_DEMANDA
Solución:
La salida obtenida en este caso incluye los resultados de los contrastes de Haus-
man y de instrumento débil que proporcionan información de interés. El test
de Hausman, con nivel crítico muy bajo, conduce al rechazo del supuesto de
exogeneidad de la renta y por su parte, el contraste de instrumento débil per-
mite rechazar la nulidad del coeficiente del gasto público y por tanto confirma
la idoneidad de dicha variable como instrumento.
342 SUPUESTO 22. SEM_DEMANDA
Contraste de Hausman –
Hipótesis nula: [Los estimadores de MCO son consistentes]
Estadístico de contraste asintótico: χ2 (1) = 30,9067
con valor p = 2,7073e-08
Contraste de Instrumento débil –
First-stage F (1, 19) = 95,7577
Nota:
Tal y como hemos visto anteriormente es posible reconstruir esta estimación
bietápica y también el test de Hausman.
En la primera etapa estimamos la variable explicativa endógena (renta) en fun-
ción del gasto que es la variable instrumental. Partiendo del modelo estimado
salvamos la renta estimada y también los residuos.
Etapa 1:
y los coeficientes obtenidos coinciden con los de la salida MC2E de Gretl si bien
no sucede lo mismo con las varianzas de los estimadores.
Esto se debe a que hemos utilizado los valores renta_estimada (obtenidos en la
primera etapa) para calcular û0 û y la matriz de varianzas covarianzas, cuando
esta variable solamente se utiliza para la estimación y en cambio para calcular
los errores se deberían utilizar los valores de renta.
Etapa 2:
Estimaciones restringidas:
Ct = α1 + α2 Ct−1 + α3 Rt + u1t
It = β1 + β2 Rt−1 + u2t
Rr = Ct + It + Gt
Nota:
Dado que el modelo está formado por dos ecuaciones y una identidad sólo es
necesario estudiar la identificación de la dos primeras. Sin embargo las identi-
dades son definiciones en las que intervienen las variables predeterminadas o
instrumentos, por lo que deben ser tenidas en cuenta al contabilizar el número
de variables del sistema (m y k) y también al examinar la condición suficiente
de rango.
Ct Ct−1 Rt It Rt−1 Gt
1 −α2 −α3 0 0 0
0 0 0 1 −β2 0
-1 0 1 -1 0 -1
En esta salida, además de las estimaciones de las dos ecuaciones, aparece in-
formación adicional relativa a la matriz de covarianzas de los residuos cruzados
(basada en las series de residuos û1t y û2t a los que se puede acceder desde la
salida de la regresión).
Nota:
Como ya hemos visto anteriormente Script-BP-Diagonalidad (p.335), si alma-
cenamos los residuos de las ecuaciones como u1 y u2 podríamos reconstruir esta
matriz con las siguientes instrucciones de consola o mediante un guión.
n = nobs ( u1 )
var_u1 = sum ( u1 ^2)/ n
var_u2 = sum ( u2 ^2)/ n
cov_u1u2 = sum ( u1 * u2 )/ n
correl = cov_u1u2 / sqrt ( var_u1 * var_u2 )
logdet = log ( var_u1 * var_u2 - cov ^2)
breuschpagan = n * correl ^2
p = pvalue (X ,1 , breuschpagan )
A partir de esta salida se observa que no hay evidencia para rechazar la diago-
nalidad de la matriz por lo que parece que los residuos de ambas ecuaciones son
incorrelados, lo cual apoyaría el uso de MC2E.
Los residuos de las dos ecuaciones estimadas pueden también visualizarse desde
el modelo estimado, tanto en tabla como en gráfico:
�������
����
����
����
����
��
����
����
����
����
����
����
����� �����
���������
���
�
�����
����
�����
����
�����
��
�����
����
�����
����
�����
����� � ����
Los métodos de estimación con información completa, entre los que destaca Mí-
nimos Cuadrados en tres etapas (MC3E) resultan adecuados cuando las ecua-
ciones del sistema están conectadas mediante dos vías: la presencia de variables
explicativas endógenas y la existencia de correlación entre los errores de las
diferentes ecuaciones SEM-Estimacion (p.317).
Este procedimiento de estimación tiene en cuenta las correlaciones entre re-
siduos de las distintas ecuaciones del sistema a través de la estimación de la
matriz sigma. Sin embargo, los estimadores MC3E coinciden con los MC2E en
dos situaciones: cuando los errores de las distintas ecuaciones son incorrelados
(es decir, bajo el supuesto de diagonalidad) y cuando todas las ecuaciones del
sistema están perfectamente identificadas.
En el modelo de demanda con el que estamos trabajando, aunque según la
estimación MC2E no se rechaza el supuesto de diagonalidad, podemos llevar a
cabo la estimación MC3E seleccionando esta opción en el desplegable desde el
menú Modelos-ecuaciones simultáneas.
Para poder llevar a cabo las predicciones es necesario añadir dos observaciones
(en el menú Datos . Añadir observaciones) que incorporen la información asumi-
da en las dos opciones alternativas para el horizonte de predicción. Supuesto
a) .Se selecciona en el menú de Gretl Añadir . Tendencia temporal y se estima
una tendencia temporal lineal para el gasto público:
que nos proporciona las predicciones del modelo en ecuaciones simultáneas para
el consumo, la inversión y la renta
352 SUPUESTO 22. SEM_DEMANDA
Empresas
Enunciado:
La base de datos empresas.gdt recopila información facilitada por las empresas
General Electric y Westinghouse sobre las magnitudes inversión bruta, valor de
mercado y valor del stock de maquinaria y establecimientos, todas ellas expre-
sadas en millones de dólares constantes.
Solución:
1. Estimar modelos lineales de inversión para Westinghouse y General
Electric
353
354 SUPUESTO 23. EMPRESAS
��������������������
���
������������
�����������
���
���
���
���
���
��
���
���
���
���
����� ����� ����� ����
� ����� ����� � ���� ����� ����� ����� �����
Tal y como recoge la salida del modelo estimado, la correlación lineal entre estos
residuos supera el 72 % y como consecuencia el resultado del test de Breusch-
Pagan, con un nivel crítico de 0,0013, es significativo para rechazar el supuesto
de diagonalidad. Así pues, sería aconsejable llevar a cabo la estimación mediante
el método SUR que contempla la existencia de correlación interecuaciones.
Nota.
Tal y como hemos descrito anteriormente SEM-Estimacion (p.311) los métodos
de estimación para los modelos multiecuacionales tienen en cuenta la presencia
o no de correlación interecuaciones y también la existencia de endogeneidad.
En este caso, por el propio planteamiento del modelo, parece que el problema
es la correlación interecuaciones y no la endogeneidad. En cualquier caso, esta
situación podría confirmarse llevando a cabo la estimación de las ecuaciones de
inversión por MC2E y analizando los correspondientes resultados del test de
Hausman que proporcionan niveles críticos elevados y por tanto no conducen al
rechazo del supuesto de exogeneidad.
Nota:
Los modelos SUR (Seemingly Unrelated Regressions) propuestos por Zellner
son una generalización del modelo de regresión lineal y abarcan varias ecuacio-
nes, cada una de ellas con su propia variable dependiente que se explica a par-
tir de conjuntos de regresores potencialmente distintos. Estos modelos pueden
ser estimados ecuación por ecuación utilizando Mínimos Cuadrados Ordinarios
(MCO) y estas estimaciones son consistentes. Sin embargo, es posible que los
errores de las distintas ecuaciones del modelo estén correlacionados, y por lo
tanto los estimadores MCO no serán tan eficientes como el método SUR, que
equivale a utilizar Mínimos Cuadrados Generalizados con una forma específica
de la matriz de varianzas-covarianzas.
Cabe señalar que hay dos situaciones en las que los estimadores SUR serán
equivalentes a los MCO: cuando los términos de error no tienen correlación
entre las ecuaciones y también cuando cada ecuación contiene exactamente el
mismo conjunto de regresores.
En el caso concreto del archivo de datos sobre el que estamos trabajando, la in-
formación ha sido extraída de una aplicación clásica de modelización SUR desa-
rrollada por Grunfeld_Griliches y Boot_De_Witt. En la base de datos
original se incluyen, además de General Electric y Westinghouse, otras empresas
como General Motors, Chrysler y US Steel.
La salida del modelo estimado muestra que todos los regresores resultan sig-
nificativos salvo el stock de capital en Westinghouse, por lo que podría ser
recomendable revisar la especificación. De hecho, el test de sobreidentificación
de Hansen-Sargan proporciona un nivel crítico bajo con lo cual se rechazaría la
hipótesis de que todos los instrumentos son válidos.
El análisis de la matriz de covarianzas cruzada de los residuos interecuaciones
muestra que el logaritmo del determinante se ha reducido respecto a la estima-
ción MCO anterior, y confirma la existencia de correlación interecuaciones (se
rechaza el supuesto de diagonalidad).
358 SUPUESTO 23. EMPRESAS
��������������������
���
������������
�����������
���
���
���
���
���
��
���
���
���
���
����� ����� ����� ����� ����� ����� ����� ����� ����
� ����
� ����
�
Ecuación 1:
Q de Ljung-Box: Chi-cuadrado(2) = 6,92865 [0,0313]
Ecuación 2:
Q de Ljung-Box: Chi-cuadrado(2) = 6,61366 [0,0366]
H0 : ρ1 = · · · = ρj = 0 ; H1 : ∃i = 1, . . . , j, ρi 6= 0
j
!
X ri2
Q = T (T + 2) → χ2j
i=1
T −i
��������������������
���
������������
�����������
���
���
���
���
��
���
���
���
���
���
����� ����� ����� ����� ����� ����� ����� ����� ����� ����
�
Nota:
En los modelos multiecuacionales los coeficientes se denotan con dos números,
correspondientes respectivamente al orden de la ecuación y al orden del paráme-
tro. Así, la primera restricción sería la igualdad entre el término independiente
de la primera ecuación b[1,1] y el de la segunda b[2,1]; la segunda restricción
sería la igualdad de los coeficientes de la variable valor de mercado en las dos
ecuaciones: b[1,2]-b[2,2]=0, y así sucesivamente.
362 SUPUESTO 23. EMPRESAS
Klein
Enunciado:
365
366 SUPUESTO 24. KLEIN
Solución:
Ct = α1 + α2 Pt + α3 Pt−1 + α4 Wt p + α5 Wt g + u1t
It = β1 + β2 Pt + β3 Pt−1 + β4 Kt−1 + u2t
Wt p = γ1 + γ2 Xt + γ3 Xt−1 + γ4 At + u3t
Xt = Ct + It + Gt
Pt = Xt − Tt − Wt p
Kt = Kt−1 + It
Dado que en el modelo, concretamente en la ecuación de salarios privados, apa-
rece una tendencia temporal, podemos generar esta variable mediante la opción
de Gretl Añadir . Tendencia temporal que genera una variable denominada ti-
me (aunque esta opción no es necesaria, dado que cuando Gretl encuentra una
variable temporal, si no existe, la genera automáticamente).
A continuación se selecciona el recorrido muestral y se especifica el modelo de
Klein en la opción Modelo . Ecuaciones simultáneas:
equation C const P P ( -1) Wp Wg
equation I const P P ( -1) K ( -1)
equation Wp const X X ( -1) time
identity X = C + I + G
identity P = X - T - Wp
identity K = K_1 + I
endog C I Wp X P K
y se comprueba que rang(A1 ) = 5 ya que existe una matriz de orden 5x5 con
determinante no nulo.
De modo análogo para la segunda ecuación se tiene la matriz A2 cuyo rango
también es 5
1 −α4 −α4 0 0 0 0 0 0
0
1 0 −γ2 −γ3 -γ4 0 0 0
−1 1 0 1 0 0 −1 0 0
0 1 0 −1 0 0 0 1 0
0 0 0 0 0 0 0 0 0
La salida obtenida permite apreciar que el nivel crítico del test F de restricciones
es elevado y por tanto no se rechaza la hipótesis propuesta.
Nota:
Cuando realizamos este contraste mediante el script del ejercicio:
end system
Variable dependiente: I
Instrumentos: const P_1 W K_1 X_1 time G T
Nota:
Los métodos de estimación con información completa estiman conjuntamente
el sistema de ecuaciones en forma estructural y por ello resultan más eficientes
asintóticamente. Entre estos procedimientos se encuentra el método de Míni-
mos Cuadrados en tres etapas (MC3E o 3SLS) propuesto en Zellner 1960que,
si bien teóricamente es el más adecuado, en la práctica no es muy utilizado de-
bido a varios motivos: sus exigentes requerimientos de cálculo, la aparición de
restricciones no lineales en los parámetros que exige la utilización de métodos
de aproximación no numérica y el posible “contagio” de errores de especificación
en alguna ecuación al resto del sistema.
Para la inversión, que suele ser uno de los componentes más irregulares de la de-
manda, las predicciones obtenidas presentan errores porcentuales muy elevados
y un índice de Theil superior a 2
En lo que respecta a los salarios puede verse que las predicciones resultan mucho
más fiables,
Aitken, A.C. (1935). “On Least Squares and Linear Combinations of Obser-
vations”. En: Proceedings of the Royal Society of Edinburgh 55, 42-48. doi:
https://doi.org/10.1017/S0370164600014346.
Akaike, H. (1974). “A new look at the statistical model identification”. En:
Transactions on Automatic Control AC-19, págs. 716-723.
Angrist J.D.; Pischke, J.S. (2014). Mastering Metrics. The path from cause to
effec. Princeton University Press.
Baiocchi G.; Distaso, W. (2003). “GRETL: Econometric software for the GNU
generation”. En: Journal of Applied Econometrics 18, págs. 105-110.
Basmann, R.L. (1957). “A Generalized Classical Method of Linear Estimation
of Coefficients in a Structural Equation”. En: Econometrica 25.77-83.
Belsley D.A.; Kuh K.; Welsch, R.E. (1980). Regression Diagnostics: Identifying
Influential Data and Sources of Collinearity. Wiley Series in Probability and
Statistics. John Wiley y Sons, Inc.
Bera A.K.; Jarque C.M.; Lee, L.F. (1984). “Testing the normality assumption in
limited dependent variable models”. En: International Economic Review 25,
págs. 563-578.
Box G.E.P.; Jenkins, G. (1976). Time Series Analysis: Forecasting and Control.
San Franciso: Holden-Day.
Breusch T.S.; Pagan, A.R. (1979). “A Simple Test for Heteroskedasticity and
Random Coefficient Variation”. En: Econometrica 45.5, págs. 1287-1294.
– (1980). “The Lagrange Multiplier Test and its Applications to Model Specifi-
cation in Econometrics”. En: The Review of Economic Studies 47.1, págs. 239-253.
Breusch, T.S. (1978). “Testing for Autocorrelation in Dynamic Linear Models”.
En: Australian Economic Papers 17, 334-355. doi:https : / / doi . org / 10 .
1111/j.1467\bibrangedash8454.1978.tb00635.x.
Cobb C.W.; Douglas, P.H. (1928). “A Theory of Production”. En: American
Economic Review 18 (supplement), págs. 139-165.
Cochrane D.; Orcutt, G.H. (1949). “Application of Least Squares Regression to
Relationships Containing Auto-Correlated Error Terms”. En: ournal of the
American Statistical Association 44.245, 32-61. doi:https://doi.org/10.
1080/01621459.1949.10483290.
Cottrell A.; Lucchetti, R. (2019a). A Hansl Primer. URL: https://sourceforge.
net/projects/gretl/files/manual/hansl-primer.pdf/download.
– (2019b). Gretl User’s Guide. Gnu Regression, Econometrics and Time-series
Library. URL: https://sourceforge.net/projects/gretl/files/manual/
gretl-guide.pdf/download.
379
380 BIBLIOGRAFÍA
Davidson R.; MacKinnon, J.G. (2004). Econometric Theory and Methods. New
York: Oxford University Press.
Doornik J.A.; Hansen, H. (1984). “An omnibus test for univariate and multiva-
riate normality”. En: Working paper 25, págs. 563-578.
Durbin J.; Watson, G.S. (1950). “Testing for Serial Correlation in Least Squares
Regression, I”. En: Biometrika 37.3-4, 409-428. doi:https://doi.org/10.
1093/biomet/37.3\bibrangedash4.409. JSTOR 2332391.
– (1951). “Testing for Serial Correlation in Least Squares Regression, II”. En:
Biometrika 38.1-2, 159-179. doi:https://doi.org/10.1093/biomet/38.1\
bibrangedash2.159. JSTOR 2332325.
Esteban, M.V. y otros (2009). Econometría básica aplicada con Gretl. Universi-
dad del País VascoURL: http://cort.as/-M8Km.
Godfrey, L.G. (1978). “Testing Against General Autoregressive and Moving Ave-
rage Error Models when the Regressors Include Lagged Dependent Variables”.
En: Econometrica 46, 1293-1301. doi:https : / / www . jstor . org / stable /
1913829. JSTOR 1913829.
Greene, W.H. (2018). Análisis Econométrico. Ed. Prentice Hall.
Gujarati D.; Porter, D.C. (2010). Econometría. Ed. McGraw-Hill.
Hannan, E.J.; Quinn B.G. (1979). “The determination of the order of an auto-
regression”. En: Journal of the Royal Statistical Society B41, págs. 190-195.
Hansen, L.P. (1982). “Large Sample Properties of Generalized Method of Mo-
ments Estimators”. En: Econometrica 50.4, 1029-1054. doi:https : / / www .
jstor.org/stable/1912775. JSTOR 1912775.
Hausman, J.A. (1978). “Specification tests in econometrics”. En: Econometrica
46, págs. 1251-1271.
Keynes, J.M. (1936). General Theory of Employment, Interest, and Money.
URL: http://etext.library.adelaide.edu.au/k/k44g/k44g.html.
Koenker, R. (1980). “A note on studentizing a test for heteroscedasticity”. En:
Journal of Econometrics 17.1, págs. 107-112.
Kolmogorov, A. (1933). “Sulla determinazione empirica di una legge di distri-
buzione”. En: G. Ist. Ital. Attuari. 4, págs. 83-91.
Kuznets, S. (1955). “Economic growth and income inequality”. En: The Ameri-
can Economic Review 45.No.1, págs. 1-28.
Lilliefors, H. (1967). “On the Kolmogorov–Smirnov test for normality with mean
and variance unknown”. En: Journal of the American Statistical Association
62, págs. 399-402.
Ljung G.M.; Box, G.E.P. (1978). “On a Measure of a Lack of Fit in Time Series
Models”. En: Biometrika 65.2, 297-303. doi: https://doi.org/10.1093/
biomet/65.2.297.
López A.J.; Pérez, R. (1999). “Econometría aplicada y predicción. Supues-
tos resueltos con Econometric Views”. En: Documento de Trabajo Hispalink-
Asturias DT.1/1999.
– (2009). “Towards the European Higher Education Area. Blended learning
experiences in Econometrics”. En: V International Conference on Multimedia
and Communication Technologies in Education m-ICTE 2009. Ed. por URL
http://www.formatex.org/micte2009/volume2.htm. Lisboa.
– (2011). “Blended Learning in Econometrics. Crossing borders between Lear-
ning and Doing”. En: China-USA Business Review 10.1, págs. 73-80.
– (2012). “Convergencia digital y software libre en el EEES. Algunas experien-
cias con Gretl”. En: @tic. Revista d’innovació educativa 9, págs. 1-8.
BIBLIOGRAFÍA 381
– (2015). “Facing the Four-F test: Gretl´s Achievements and Challenges”. En:
IV Gretl Conference. Berlin.
Maddala, G.S. (1985). Econometría. McGraw-Hill.
McFadden, D. (1974). “Conditional Logit analysis of Qualitative Choice Beha-
vior”. En: ed. por Zerenbka (ed.) New York: Frontiers in Econometrics. URL
https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf. Cap. 4,
págs. 105-142.
Pérez R.; López, A.J. (1997). Análisis de datos económicos II. Métodos inferen-
ciales. Madrid: Pirámide.
– (2009). “Teaching and Learning Econometrics with Gretl. Summarizing some
experiences”. En: Econometrics with Gretl. Proceedings of the Gretl Confe-
rence 2009. Ed. por Universidad del País Vasco. Universidad del País Vasco,
págs. 191-201.
– (2011). Métodos estadísticos para Economía y Empresa. Madrid: URL: http:
//cort.as/-LMKe.
Pindyck R.S.; Rubinfeld, D.L. (2000). Econometría. Modelos y pronósticos. Ed.
McGraw-Hill.
Pulido A.; Pérez, J. (2001). Modelos Econométricos. Madrid: Pirámide.
Quandt, R.E. (1960). “Tests of the hypothesis that a linear regression system
obeys two separate regimes”. En: Journal of American Statistical Association
55, págs. 320-330.
Ramanathan, R. (2002). Introductory Econometrics with Applications. Harcourt
College Publisher.
Ramsey, J.B. (1969). “Tests for Specification Errors in Classical Linear Least
Squares Regression Analysis”. En: Journal of the Royal Statistical Society
Series B.31(2), págs. 350-371.
Sargan, J.D. (1958). “The Estimation of Economic Relationships Using Instru-
mental Variables”. En: Econometrica 26.3, 393-415. doi:https://www.jstor.
org/stable/1907619. JSTOR 1907619.
– (1975). “Testing for misspecification after estimating using instrumental va-
riables”. En: Mimeo. London School of Economics.
Schumpeter, J. (1933). “The common sense in Econometrics”. En: Econometrica
1.1, págs. 5-12.
Schwarz, G (1978). “Estimating the dimension of a model”. En: Annals of Sta-
tistics 6.2, págs. 461-464.
Shapiro S.S.; Wilk, M.B. (1965). “An analysis of variance test for normality
(complete samples)”. En: Biometrika 52.3-4, 591-611. doi:https://doi.org/
10.1093/biomet/52.3\bibrangedash4.591. JSTOR 2333709MR 205384.
Smirnov, N (1948). “Table for estimating the goodness of fit of empirical dis-
tributions”. En: Annals of Mathematical Statistics 19.2, 279-281. doi:https:
//projecteuclid.org/euclid.aoms/1177730256.
Stock J.H; Watson, M.W. (2010). Introduction to Econometrics. Ed. Addison
Wesley.
Theil, H. (1953). “Estimation and Simultaneous Correlation in Complete Equa-
tion Systems”. Central Planning Bureau, The Hague, Netherlands.
– (1958). Economic Forecasts and Policy. Amsterdam: North-Holland.
– (1961). Economic Forecasting and Policy. North-Holland.
– (1966). Applied Economic Forecasting. North-Holland.
Uriel E.; Contreras D.; Moltó M.L.; Peiró, A. (1990). Econometría. El modelo
lineal. AC.
382 BIBLIOGRAFÍA
A Estimación, 317
Análisis de varianza, 56 Identificación, 311
Análisis de varianza (ANOVA), 99 Estadístico T R2 , 191
Estimación con matriz de varianzas-
C covarianzas robusta, 238
Cambio estructural Estimador
Contraste de Chow, 249 MCO, 86
Contraste de RV de Quandt, 246 MV, 87
Coeficiente de determinación, 44 VI
Estimador β̂ , 222
Coeficientes de regresión simple, 41 Evaluación de modelos, 81
Contraste Evaluación de predicciones, 85
Breusch-Pagan de diagonalidad,
318 F
Contraste de Chow, 249 Función de verosimilitud, 62
Contraste de Durbin-Watson, 242
Contraste de instrumento débil, 225 I
Contraste de Normalidad, 243 Intervalo de confianza para la pre-
Contraste de restricciones lineales, dicción, 83
108 Intervalo de confianza para los co-
Contraste de RV de Quandt, 246 eficientes, 54
Contrastes
Breusch-Godfrey, 290 M
debilidad de instrumentos, 341 MCO con variables dicotómicas, 158
Ljung-Box, 359 MCP, 263
Sargan, 341 Mínimos cuadrados restringidos, 144
sobre instrumentos, 341 Modelo de Cochrane Orcutt, 295
Contrastes χ2 para restricciones de Modelo logit, 159
coeficientes, 147 modelo probit, 160
Contrastes de Normalidad Multicolinealidad, 111
Doornik-Hansen, 244
Jarque-Bera, 245 O
Kolmogorov-Smirnov, 245 Odds y Odd ratio, 161
Otros, 244
Shapiro-Wilk, 244 P
Pendiente modelo logit, 172
D
Diagnósticos de colinealidad de Belsley- T
Kuh-Welsch, 118 Test de Breusch-Pagan, 261, 262
Test de Hausman, 225
E Test de Koenker, 262
Ecuaciones simultáneas Test de significación global, 96
383
384 ÍNDICE DE CONTENIDOS
V
Valor atípico, 78
Variables instrumentales, 222
Varianza de la predicción e interva-
los de confianza, 126
Índice de Scripts
C
Cálculo de elasticidades medias, 157
Cálculo de Odd ratio, 162
Cálculo de R2 y F, 107
Calculo matricial de β̂ M CO y β̂ M CR ,
109
Cálculo matricial estimación MCO,
90, 102
E
Estabilidad coeficientes en distintos
modelos, 70
H
Heterocedasticidad
Función de heterocedasticidad,
268
I
Intervalo de confianza para β2 , 55
M
Mínimos cuadrados en dos etapas,
228
Modelo no lineal, 210
T
Test de Breusch-Pagan, 275
Test de Hausman, 228
Test de Koenker, 275
Test de linealidad, 192
Test de White, 260, 274
Test LR y R2 de MacFadden,
177
Test RESET de Ramsey, 190
385