Está en la página 1de 26

ECONOMETRÍA CON GRETL

Estimación MCO

6.- Estimación MCO de un modelo de regresión simple con Gretl


Siguiendo con el ejemplo del precio de los pisos, supongamos que deseamos
modelizar la relación existente entre el precio de un piso y su superficie. En el
análisis descriptivo, el correspondiente diagrama de dispersión parece sugerir
una cierta relación lineal entre ambas variables. Sugerencia apoyada por el alto
valor del coeficiente de correlación lineal entre ambas (0,8690).
En teoría se ha explicado el modelo clásico de regresión lineal (MCRL) con un
solo regresor y sus principales elementos: Variable endógena o dependiente
(en nuestro ejemplo será el precio del piso), Variable explicativa, independiente
o exógena (en el ejemplo, la superficie del piso en m2), los coeficientes de
regresión, la perturbación aleatoria…; las hipótesis básicas, el método de
estimación empleado (MCO) y las propiedades de sus estimadores. En sentido
estadístico, el método de MCO es más robusto, puesto que, para su aplicación,
no precisa conocer la distribución de probabilidad de la variable aleatoria que
modeliza la población. Por el contrario, para utilizar el método de MV tenemos
que conocer o suponer dicha distribución (en nuestro caso, la de la
perturbación aleatoria).
Sin embargo, el método de MV tiene un campo de aplicación más extenso ya
que puede ser aplicado también a modelos de regresión no lineal en los
parámetros, para los que MCO no se aplica. El método de MV tiene buenas
propiedades asintóticas, de ahí que también reciba el nombre de método de
estimación de grandes muestras.
Generalmente, emplearemos el método de MCO por razones prácticas: a) Es
más fácil de aplicar; b) los estimadores MCO y MV de los coeficientes del
modelo son idénticos, y c) En muestras grandes, los estimadores MCO y MV
de σ2 (varianza de las perturbaciones) no difieren considerablemente.
Ahora vamos a realizar la estimación MCO de un modelo de una variable
explicativa (el tamaño de los pisos) haciendo uso de Gretl.
Como ya teníamos importados los datos correspondientes a los 50 pisos en
nuestro archivo de Gretl, abrimos el archivo pisos.gdt, renombramos las
variables (Y = precio, X = m2) y estimaremos por MCO el siguiente modelo:

Yi = β1 + β2 Xi + єi
En Gretl, nos vamos a Modelo – Mínimos cuadrados ordinarios y en el
cuadro de dialogo “especificar modelo” seleccionamos Y, como variable
endógena o dependiente y X2, como variable explicativa o regresor.

79
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Observemos que Gretl introduce por defecto el término independiente,


constante de regresión o regresor ficticio en el cuadro de regresores. Por ello si
deseamos estimar un modelo sin término independiente u ordenada en el
origen, es necesario pinchar con el cursor const en el cuadro de regresores y
hacer clic en la flecha roja.
Antes de seleccionar las variables que han de intervenir en la estimación del
modelo es conveniente especificar el rango muestral que se desea emplear en
dicha tarea. Por defecto, Gretl realizará la estimación con toda la muestra,
salvo que especifiquemos otra cosa haciendo uso del menú Muestra de la
barra de Menú de la Ventana principal. Con este menú se accede a la
ventana de dialogo “establecer muestra” desde la que se pueden modificar las
observaciones inicial y final del rango muestral deseado para emplear en la
estimación del modelo.
Tras pulsar en Aceptar nos aparece la ventana de resultados del modelo:

En esta pantalla aparecen los resultados básicos para el análisis del modelo.
• Arriba se indica modelo, número de observaciones y variable
dependiente (Y = precio).
• La primera columna muestra la constante de regresión o término
independiente (const) y la variable explicativa que se han incluido en el
modelo, tamaño del piso (X2 = m2).
• En la segunda columna tenemos los coeficientes estimados por MCO
correspondientes a cada una de las variables. La estimación de la
80
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

ordenada es igual a 𝛽"! = 44,93 miles de euros y la estimación de la


pendiente es 𝛽"" = 3,49 miles € por metro cuadrado.
El modelo estimado, seleccionando Archivo → Ver como ecuación, queda:
𝑌$ # = 44,9331 + 3,49401 𝑋1#
Interpretación de los coeficientes de regresión estimados:
𝛽"! = 44’93 miles de euros: Si el piso tiene 0 m2, estimamos que el precio medio
es de 44’93 miles de euros (absurdo). El término independiente actúa como
término de ajuste para no obligar a la recta de regresión a pasar por el origen
de ordenadas y facilitar el ajuste por MCO.
𝛽"" = 3’49 miles € por m2: Cuando aumenta el tamaño del piso en un m2
estimamos que en términos medios el precio medio de venta estimado
aumenta en 3’494 miles de € (es decir, en 3.494 €). Esta interpretación
corresponde a la estimación del coeficiente, no al parámetro poblacional β2.
• En la tercera columna tenemos las desviaciones estándar estimadas de
los estimadores de los coeficientes de la regresión.

La desviación típica de la distribución muestral del estimador es un buen


indicador de su precisión (siempre que los estimadores sean insesgados).
Sin embargo, la desviación típica de los estimadores depende del parámetro
poblacional σ, desconocido, que sustituimos por su estimador consistente, 𝜎0.
Se obtienen así los errores típicos o errores estándar estimados de la
distribución de los estimadores de los coeficientes de la regresión, es decir,

𝜎0 𝑋8 " 𝜎0 𝑋8 "
SE3𝛽"! 4 = 71 + = 71+
√𝑛 ∑ 𝑥#" √𝑛 𝑛 𝑆$"

𝜎0 𝜎0
SE3𝛽"" 4 = =
<∑ 𝑥#" =𝑛 𝑆$"

Así, la precisión de las estimaciones de los coeficientes aumenta cuando lo


hace el número de observaciones n y la dispersión del regresor SX y disminuye
cuando crece el error estándar de la regresión, 𝜎0.
En la tabla no aparece directamente la estimación de la varianza de la
perturbación pero puede calcularse de dos formas alternativas:
- Elevando al cuadrado la desviación típica estimada (DT) de la distribución de
las perturbaciones o Error estándar de la regresión:
𝜎0 " = 118’692 =14.087’3161

81
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

- Dividiendo la suma de cuadrados de los residuos entre los g. d. l.:


∑ #"
𝜎" ! = $%!! = 676.215’8/(50-2) = 14.087’81
El estimador de la varianza de las perturbaciones, guarda relación con el R2, y
también es una medida que sirve para analizar la capacidad explicativa del
modelo, ya que es el error cometido en la estimación ponderado por los grados
de libertad del modelo.
También se puede obtener la matriz de varianzas-covarianzas estimadas de los
estimadores de los coeficientes de regresión seleccionando en el menú del
modelo: Análisis – Matriz de covarianzas de los coeficientes:

A 3𝛽"! 4 =1618’88; 𝑉𝑎𝑟


Es decir: 𝑉𝑎𝑟 A 3𝛽"" 4 = 0’0824 y 𝐶𝑜𝑣𝑎𝑟
E 3𝛽"! , 𝛽"" 4 =-10’5004
• En la siguiente columna aparecen los valores de los estadísticos
experimentales de la prueba t de significatividad individual de las
estimaciones de los parámetros del modelo. Y la última columna nos ofrece
los valores p de la prueba t de significatividad individual de las estimaciones
de los parámetros del modelo.

En el ejemplo, con un α = 0’05, para el término independiente no


rechazaríamos la hipótesis nula del contraste de significatividad (β1 = 0), ya que
el p-valor = 0,2697 > α = 0,05, lo que sugiere que es probable que el precio sea
directamente proporcional al tamaño del piso, por lo que sería más realista
haber ajustado un modelo sin ordenada en el origen.
Por el contrario, rechazamos la hipótesis nula de que la pendiente –β2- sea 0,
ya que p es muy pequeño, menor que 0’05 o cualquier nivel de significación
que solemos utilizar, por lo que nos indica que sí hay relación (directa, en este
caso) entre el aumento de la superficie de los pisos y la variación de su precio.
• A continuación aparecen otros datos:

- Media de la variable dependiente Y

82
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

- (Cuasi) Desviación típica estimada de la variable dependiente Y


- La suma de cuadrados de los residuos
- La estimación de la Desviación Típica o Error estándar de la regresión
- El R2 (R-cuadrado) o coeficiente de determinación: Es la medida de la bondad
del ajuste empleado. El R-cuadrado mide la proporción o porcentaje (75’5%) de
la variabilidad muestral observada de la variable dependiente Y, explicada por
la variabilidad muestral de X en nuestro modelo estimado.
- El R-cuadrado corregido o coeficiente de determinación corregido (𝑅8" )
Si el modelo empleado carece de término independiente, Gretl al estimarlo,
bajo la denominación de R-cuadrado, no proporciona el coeficiente de
determinación sino el denominado coeficiente de determinación bruto (R2RAW).
Como se ha explicado en teoría, en modelos sin término independiente u
ordenada en el origen no se cumple la descomposición de la STC en SCE y
SCR. Por tanto el R2 del modelo estimado deja de estar acotado entre cero y
uno y no puede interpretarse como proporción de la variación muestral de la
variable endógena explicada por las variaciones muestrales de la(s) variable(s)
explicativa(s) en el modelo estimado. Por ello, en los modelos sin término
independiente, el coeficiente de determinación pierde su interés como medida
de la bondad de ajuste. Gretl calcula en su lugar el coeficiente de
determinación bruto, que aunque carece de la interpretación habitual (puesto
que no se basa en la descomposición de STC en SCE y SCR), está acotado
entre cero y uno (ya que se basa en la descomposición de Y’Y en 𝑌$′𝑌$ y e’e,
descomposición que se cumple con independencia de que el modelo esté
formulado con o sin regresor ficticio).
El valor del estadístico experimental de la prueba F que se utilizará para el
contraste de significatividad del modelo. Valor-p de la F (2’82∙10-16). El resto de
valores corresponden a estadísticos que serán explicados en apartados
posteriores pues por el momento no los vamos a utilizar.
La ventana de resultados del modelo tiene un menú con 7 opciones: Archivo,
Editar, Contrastes, Guardar, Gráficos, Análisis y Latex, que sirven para
guardar, con la denominación deseada, algunos resultados de la estimación del
modelo que podremos emplear para nuevos cálculos (Guardar), realizar
contrastes relativos a los parámetros del modelo y a las hipótesis básicas
(Contrastes), construir gráficos (Gráficos), realizar predicciones (Análisis),
etc. Veamos con más detalle algunas de estas utilidades.
Si en este menú de resultados del modelo vamos a Archivo - Guardar a
sesión como icono, el modelo queda guardado dentro de la carpeta USER.
Así, podemos recuperarlo siempre que queramos; para ello empleamos la
secuencia Ver → Vista de iconos del menú de la Ventana principal o
pinchamos sobre el botón iconos de sesión, cuarto por la izquierda de la barra
de herramientas, y en el cuadro de dialogo “vista de iconos” que aparece,
pinchar dos veces sobre el icono llamado Modelo 1. Si posteriormente
estimáramos otro modelo y lo guardáramos como icono, Gretl lo denominaría
Modelo 2.

83
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Algunos gráficos de interés. La opción Gráficos de la ventana de resultados


del modelo incluye distintas representaciones gráficas tanto de la variable
endógena de interés, como de su ajuste y de los errores de su ajuste. Veamos
algunos de los más utilizados en regresión con datos de sección cruzada.
- En Gráficos - Gráfico de variable estimada y observada contra X1
obtenemos el gráfico de dispersión de las observaciones reales Yi frente a la
variable explicativa X1i junto con la función de regresión muestral (ya lo vimos
en el análisis descriptivo).
- En Gráficos- Gráfico de residuos contra X1, se representan los errores
de ajuste ei sobre la variable explicativa X1i, es decir, el diagrama de dispersión
de los pares de puntos (X11; e1)... (X150; e50), como aparece abajo.

Podemos ver que los residuos se distribuyen alrededor del valor cero (𝑒̅# =0).
Residuos de la regresiÛn (= Y observada - estimada)
400

300

200

100
residuo

-100

-200

-300
100 150 200 250
m2

84
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Variables asociadas a la regresión. Para ver los valores que toman los valores
estimados 𝑌"# y los residuos ei, debemos seleccionar Análisis - Mostrar variable
observada, estimada, residuos.

El resultado que obtenemos es la tabla siguiente:


Rango de estimación del modelo: 1 - 50
Desviación típica de los residuos = 118.692
Y estimada residuo
1 210.354 237.104 -26.7495
2 309.520 251.080 58.4405
3 366.617 254.574 112.043
4 299.304 254.574 44.7305
5 369.650 254.574 115.076
6 273.460 272.044 1.41641
7 155.000 272.044 -117.044
8 228.384 289.514 -61.1296
9 246.415 289.514 -43.0986
10 255.000 289.514 -34.5136
11 150.253 306.984 -156.731
12 352.800 313.972 38.8283
13 366.000 324.454 41.5463
14 298.000 324.454 -26.4537
15 312.530 324.454 -11.9237
16 240.400 334.936 -94.5357
17 278.658 341.924 -63.2657
18 390.658 362.888 27.7702
19 216.364 366.382 -150.018
20 402.600 394.334 8.26615
21 272.300 394.334 -122.034
22 360.607 394.334 -33.7269
23 570.000 394.334 175.666
24 480.809 394.334 86.4751
25 186.314 394.334 -208.020
26 476.600 429.274 47.3261
27 456.769 429.274 27.4951
28 500.643 446.744 53.8990
29 619.000 481.684 137.316
30 645.253 516.624 128.629
31 625.000 516.624 108.376
32 522.800 534.094 -11.2942
33 390.660 569.034 -178.374
34 504.850 569.034 -64.1842
35 715.204 569.034 146.170
36 570.000 569.034 0.965768
37 751.265 603.974 147.291
38 583.000 673.854 -90.8545
39 738.000 673.854 64.1455
40 552.931 673.854 -120.923
41 691.200 708.795 -17.5945
42 811.400 726.265 85.1354
43 691.000 743.735 -52.7346
44 1110.00 743.735 366.265 *
45 961.620 848.555 113.065
85
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

46 661.000 848.555 -187.555


47 841.417 883.495 -42.0779
48 588.992 883.495 -294.503
49 841.400 900.965 -59.5650
50 1051.00 918.435 132.565
Nota: * denota un residuo superior a 2.5 desviaciones típicas

Podemos guardar cualquiera de estos valores seleccionando la opción


Guardar del menú del modelo.
Para almacenar las estimaciones de la variable dependiente 𝑌$# hay que elegir
Guardar – Valores estimados. Sale una pequeña ventana de dialogo en la
que, por defecto, el valor ajustado o estimado de la variable endógena se llama
yhat1 y en la descripción aparece “valores estimados mediante el modelo 1”.
Dado que nuestra variable dependiente es el precio Y, cambiamos de nombre a
la variable y la renombramos como Y1.

Si repetimos los pasos anteriores pero escogemos Guardar - Residuos, en la


ventana correspondiente se nombra a los residuos como uhat1 (ponemos e1) y
la descripción es “residuos del modelo 1”. Una vez guardadas estas dos series,
las encontramos en la Ventana principal junto a la variable independiente Y y la
variable explicativa X2.
Vamos a comprobar que se cumplen las propiedades de la regresión lineal
mínimo-cuadrática. Obtenemos los estadísticos descriptivos de nuestras
variables Y, X2, Y estimado (Y1) y residuos (e1). Por ejemplo, mediante la
ventana “vista de iconos” pulsando en Resumen:
Estadísticos principales, usando las observaciones 1 - 50
Variable Media Mediana Mínimo Máximo
Y 489.860 466.685 150.253 1110.00
X2 127.340 105.000 55.0000 250.000
Y1 489.860 411.804 237.104 918.435
e1 -2.78533e-014 -5.16419 -294.503 366.265
Variable Desv. Típica. C.V. Asimetría Exc. de curtosis
Y 237.414 0.484657 0.680525 -0.192472
X2 59.0478 0.463702 0.670907 -0.779538
Y1 206.313 0.421168 0.670907 -0.779538
e1 117.475 4.21763e+015 0.173072 0.850332
Analizando esta tabla-resumen de los datos comprobamos que:
1) La media de los residuos (e1) es cero, 𝑒̅# =0 (-2.78533e-014 es un nº muy pequeño,
prácticamente 0).

86
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

2) Las medias de la variable dependiente Yi y la estimada (Y1) coinciden: 𝑌8 = 𝑌8$ .


3) Los coeficientes de asimetría y curtosis de la variable dependiente ajustada 𝑌$#
(Y1) coinciden con las de la variable independiente X2i.

Vamos a analizar las relaciones lineales existentes entre estas variables.


Mediante Ver - Matriz de correlación o en “vista de iconos” en Correlaciones
obtenemos la siguiente matriz de coeficientes de correlación:
Y X2 Y1 e1
1.0000 0.8690 0.8690 0.4948 Y
1.0000 1.0000 0.0000 X2
1.0000 0.0000 Y1
1.0000 e1

4) Los valores ajustados 𝑌$# y los del regresor X2i están perfectamente
correlacionados, r (𝑌$# , X2i) = 1.
5) La correlación entre los valores observados Yi con los valores ajustados 𝑌$# y la
variable explicativa X2i es la misma.
6) Los residuos ei y los valores de la variable explicativa X2i están
incorrelacionados, re,X1 = 0.
7) Los residuos ei y los valores de la variable ajustada 𝑌$# están incorrelacionados,
r (e,𝑌$# ) = 0.

87
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Estimación MCO de un modelo de regresión simple con Excel


Seguimos con el ejemplo del modelo estimado por MCO con Gretl en el que
queríamos conocer la relación existente entre el precio de una vivienda y su superficie.
Ahora vamos a ver la estimación MCO con Excel, tanto aplicando las fórmulas que
hemos deducido en teoría para la estimación de nuestros parámetros, como aplicando
la opción de estimación MCO que trae el programa Excel en sus “Complementos”.
Abrimos un nuevo archivo de Excel donde sólo tenemos los datos de los 50 pisos con
una columna para los precios (variable Y) y otra para el tamaño en m2 (variable X) y
calcularemos las estimaciones MCO del siguiente modelo para el precio de los pisos:
Yi = β1 + β2 Xi + єi
Aplicando MCO los estimadores de los coeficientes de este modelo son:

n n

s å( X i - X )(Yi - Y ) åx y i i
bˆ2 = XY2 = i =1
n
= i =1
n
; bˆ1 = Y - b 2 X
sX
å( X -X) åx
2 2
i i
i =1 i =1

Con Excel calculamos primero las medias aritméticas de los valores de X e Y:

Posteriormente, las desviaciones de estos valores respecto a sus correspondientes


promedios:

Una vez tenemos calculadas las desviaciones de los valores de X e Y respecto a sus
respectivas medias aritméticas (𝑦# = 𝑌# − 𝑌&, 𝑥# = 𝑋# − 𝑋&) calculamos su producto (xi.yi)
y los cuadrados de las desviaciones de la variable X respecto a su media (𝑥# ).
Al final de las columnas correspondientes a las desviaciones con respecto a su media
de los valores de X e Y, el producto de estas desviaciones y los cuadrados de las
desviaciones de los valores de X respecto a su media aritmética, obtenemos sus
correspondientes sumas.
Las dos últimas serán empleadas como numerador y denominador, respectivamente,
para el cálculo de 𝛽*$ según la fórmula anteriormente indicada. Una vez obtenido 𝛽*$ ,
con los valores de las medias de X e Y, obtenemos 𝛽*% ,

88
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Obsérvese cómo la suma de las desviaciones de los valores de una variable respecto
a su media aritmética es siempre nula:
n

n n n åX i

å ( X i - X ) = å X i - nX = å X i - n
i =1 i =1 i =1
i =1

n
=0

Y así, empleando Excel podemos computar las fórmulas del resto de estadísticos y
coeficientes ofrecidas en teoría.
89
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

La estimación de los parámetros, junto con otros valores, como el R2, los estadísticos
de los contrastes de significatividad, etc., aparecen en la estimación MCO del modelo
con Excel, para lo cual tenemos que comprobar en primer lugar si está instalada la
opción en el programa.
Si no estuviese, iríamos a Archivo – Opciones

Y seguidamente pulsamos Complementos y abajo en la derecha, donde pone


Complementos de Excel pulsamos el botón Ir

Y comprobamos que esté seleccionada la opción “Herramientas para el análisis” y


entonces le damos a Aceptar

90
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Si ahora pulsamos en la pestaña Datos debe aparecer en la parte de arriba, a la


derecha del todo, Análisis de datos.

Si lo pulsamos, buscamos en la lista que aparece “Regresión”, lo seleccionamos y le


damos a Aceptar.

Nos aparece una pantalla en la que iremos indicando lo siguiente:


De momento, solo marcamos Rótulos, para que nos tome el nombre de las variables
tal como aparecen en la hoja de Excel, y lo demás lo vamos a dejar tal cual. En la
parte de arriba tendremos que indicar el Rango de entrada para las variables. Para
ello, pulsamos en el recuadrito derecho y seleccionamos en la hoja de Excel las celdas
correspondientes:

91
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Si tuviésemos un modelo sin ordenada habría que pulsar en Constante igual a cero.
En Nivel de confianza está el que el programa utiliza para hacer los intervalos de
confianza, que por defecto es el 95%. Si no lo pulsamos nos parecerán dos soluciones
en las que los límites de los intervalos coinciden porque ambos están calculados al
95%. Pero si lo cambiamos y ponemos por ejemplo 99%, en la hoja de resultados
aparecerán los límites (inferior y superior) de un intervalo a ese nivel (99%) y el del
95% que lo calcula siempre.
En las opciones de salida, si queremos que salga en la misma hoja donde tenemos los
datos, seleccionamos la primera opción y marcando con el ratón en el recuadro de la
derecha seleccionamos las celdas correspondientes. La opción En una hoja nueva,
es la más cómoda, y los resultados aparecen en el mismo libro de Excel pero en otra
hoja nueva, y la opción en un libro nuevo es para obtener los resultados en un archivo
distinto que se crea nuevo.
Las últimas opciones no las utilizaremos de momento.
Tras pulsar en Aceptar nos aparece una hoja nueva en nuestro archivo de Excel con
los resultados de la estimación del modelo:

Como vemos, los resultados coinciden con los obtenidos con Gretl, pero además nos
da información sobre el análisis de la varianza y los intervalos de confianza (por
defecto, 0’95) para las estimaciones de los coeficientes del modelo.

92
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

8.- Estimación MCO de un modelo de regresión múltiple con Gretl

De nuevo con el ejemplo del precio de los pisos (Y), ahora dispondremos de
información sobre el tamaño de los pisos (X2), número de habitaciones (X3) y
número de cuartos de aseo (X4), por lo que estimaremos por MCO, usando
Gretl, el siguiente modelo de regresión lineal múltiple1:

Yi = β1 + β2 X2i + β3 X3i + β4 X4i + єi


Ya teníamos importados los datos de los precios y el tamaño de los 50 pisos
(variables Y y X2) en nuestro archivo de Gretl. Abrimos dicho archivo pisos.gdt
y mediante la secuencia Archivo → Añadir datos → Excel añadimos los
datos de las dos nuevas variables que ya tenemos en Excel, o importamos de
nuevo creando un nuevo archivo (desde pisos-para regresión múltiple.xlsx):

Como ya conocemos, podemos introducir los nombres que deseemos a


nuestras nuevas variables, o añadir una descripción. Para ello marcamos cada
una de estas nuevas variables y pulsando el botón derecho del ratón sobre la
variable marcada y seleccionando Editar atributos, se nos abre el cuadro de
diálogo “atributos de la variable” en el que escribimos el nombre de la variable
(si lo queremos modificar) y una breve descripción. Por ejemplo:

1
En Gretl no existe el nombre β1, en este caso está representado por const a la que Gretl
asigna b1. Como esto no afecta a nuestro análisis asumimos esta expresión para el modelo.
93
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

En la Ventana principal de Gretl seleccionamos Modelo – Mínimos cuadrados


ordinarios. Elegimos Y como variable dependiente y las X2, X3 y X4 como
regresores.

Tras pulsar en Aceptar nos aparece la ventana de resultados del modelo:

94
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Antes de comentarlos muy brevemente, nos fijamos en primer lugar en el valor


p (de la prueba F) para comprobar si el modelo es significativo (ya que en
caso contrario lo desestimaríamos). Ese valor es muy pequeño, 2’47∙10-14,
claramente inferior a cualquier nivel de significación que utilicemos, por lo que
rechazaríamos la hipótesis nula de que todos los parámetros que acompañan a
las variables explicativas sean iguales a 0.
Una vez comprobada la significatividad del modelo, comentamos algunos de
los resultados obtenidos (la mayoría ya se vieron en el apartado anterior con el
modelo de una variable explicativa):

Interpretación de los coeficientes de regresión parcial:

𝛽"! = 24’58 miles de euros: Como ocurría con el modelo univariante su


interpretación carece de sentido. Ya comentamos el papel que juega la
constante de regresión en el ajuste MCO.
𝛽"" = 3’37 miles € por m2: Si suponemos que el número de habitaciones y el de
cuartos de baño se mantiene constante, cuando aumenta el tamaño del piso en
1 m2, estimamos que en términos medios el precio medio de venta estimado
aumenta en 3’379 miles de € (es decir, en 3.379 €).
𝛽"% = 20’96 miles € por habitación: Si suponemos que el tamaño del piso y el
número de cuartos de baño se mantiene constante, cuando aumenta en 1 el
número de habitaciones estimamos que en términos medios el precio medio de
venta estimado aumenta en 20’964 miles de € (es decir, en 20.964 €).
𝛽"& = -8’68 miles € por baño: Si suponemos que el tamaño del piso y el número
de habitaciones se mantiene constante, cuando aumenta en uno el número de
baños estimamos que en términos medios el precio medio de venta estimado
disminuye en 8’686 miles de € (es decir, en 8.686 €).

Como vemos no tiene mucho sentido que el precio se reduzca a medida que
aumente el número de baños. Que la estimación de este parámetro sea
negativa puede deberse a que tengamos un problema de multicolinealidad,
pero esto lo analizaremos más adelante. También hemos de tener en cuenta
que a la hora de interpretar un coeficiente de regresión asociado a uno de los
regresores estamos manteniendo constante el resto de variables explicativas.
Si la misma superficie habitable se tiene que dividir para poder incluir un nuevo
baño, el resultado sería que cada baño sería más pequeño. El signo del
coeficiente estimado podría indicar que un comprador medio valora
negativamente tener más baños a costa de un menor tamaño de éstos.
- En la tercera columna tenemos las estimaciones de las desviaciones estándar
de las distribuciones de los estimadores de los coeficientes del modelo:
𝑠𝑒 "# 4 = 𝜎0 (𝑋 ' 𝑋)(!
K3𝛽 ##

Se puede obtener la matriz de varianzas-covarianzas estimadas de las


distribuciones de los coeficientes de regresión seleccionando en el menú del
modelo Análisis – Matriz de covarianzas de los coeficientes:

95
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Es decir:

A 3𝛽"! 4 =3113,2; 𝑉𝑎𝑟


𝑉𝑎𝑟 A 3𝛽"" 4 = 0,1361; 𝑉𝑎𝑟
A 3𝛽"% 4 = 401,683; 𝑉𝑎𝑟
A 3𝛽"& 4 = 780,253
E 3𝛽"! , 𝛽"" 4 =-1,9703; 𝐶𝑜𝑣𝑎𝑟
y 𝐶𝑜𝑣𝑎𝑟 E 3𝛽"! , 𝛽"% 4 =-420,493; 𝐶𝑜𝑣𝑎𝑟 E 3𝛽"! , 𝛽"& 4 =-717,659;
E 3𝛽"" , 𝛽"% 4 =-2,3916; 𝐶𝑜𝑣𝑎𝑟
𝐶𝑜𝑣𝑎𝑟 0 1𝛽*$ , 𝛽*& 3 =-4,4274; 𝐶𝑜𝑣𝑎𝑟
0 1𝛽*' , 𝛽*& 3 =-140,584

En las siguientes columnas aparecen los valores de los estadísticos


experimentales de la prueba t y sus correspondientes p-valores para los
contrastes de significatividad individual. Gretl etiqueta con un triple asterisco las
estimaciones que son estadísticamente significativas al 1%, con un doble
asterisco las que lo son entre más del 1% y el 5% y con un asterisco indica la
significatividad estadística entres más del 5% y el 10%.

En el ejemplo, el único parámetro significativo es el que acompaña a X1, es


decir, el que relaciona el precio de los pisos con su tamaño. Eso no significa
que las demás variables no tengan relación con la endógena, ya que puede ser
debido a un problema de multicolinealidad que analizaremos más adelante.
Como el modelo en su conjunto es significativo seguimos adelante.
Del resto de resultados, como ya se comentaron en el ejemplo con una variable
explicativa, sólo nos vamos a centrar en algunos de ellos:

- R2 (R-cuadrado), coeficiente de determinación = 0’7608


Como vemos ha aumentado con respecto al que teníamos cuando el modelo
solo consideró como variable explicativa la X2 [R2=0’7551].
Ya comentamos que es la medida de la bondad del ajuste que vamos a utilizar
y mide la proporción de la variabilidad observada de la variable dependiente Y
96
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

que se ha podido explicar por esta determinada combinación lineal de las


variables explicativas X2, X3 y X4. Normalmente se interpreta en porcentajes,
por tanto en el ejemplo se diría que el 76’08% de la variabilidad muestral de los
precios de dichos pisos viene explicada por la regresión realizada con las 3
variables explicativas consideradas (tamaño de los pisos, nº de habitaciones y
nº de baños). Hacer hincapié en que esa proporción de variabilidad explicada
es válida solo en esa combinación lineal estimada entre esas variables y para
esos datos muestrales.
Como comentamos al explicar el R2 en el modelo anterior con una sola variable
explicativa, este indicador no ha de ser especialmente considerado para valorar
si un modelo es adecuado. Obtener un valor del R2 cercano a 1 no indica que
nuestros resultados puedan ser fiables. Por ejemplo, podemos tener problemas
de no satisfacerse alguna hipótesis básica y nuestra inferencia no ser válida.
Por otro lado, obtener un valor más o menos alto del coeficiente de
determinación puede estar influido por el tipo de datos que estemos
analizando. Normalmente con datos de series temporales, donde las variables
pueden presentar tendencias similares en el tiempo, es fácil obtener R2 altos,
mientras que con datos de sección cruzada esto puede no ocurrir ya que
normalmente las variables presentan mayor dispersión.
Además, si queremos utilizar el R2 para comparar distintos modelos, éstos
deben tener la misma variable dependiente y han de haber sido estimados con
la misma muestra. Aun así, esta medida adolece del problema de aumentar su
valor al añadir una nueva variable explicativa, sea cual sea su aportación al
modelo. Además no tiene en cuenta el número de variables del modelo, lo que
obliga a estimar más parámetros con el mismo número de observaciones. Para
tener en cuenta este problema se suele utilizar el R2 corregido por los grados
de libertad.
- El R-cuadrado corregido (𝑹 O 𝟐 ) = 0,7452. Este coeficiente, que sí tiene en
cuenta el número de variables explicativas empleadas por el modelo, es igual a
1 si el ajuste es perfecto, pero no está acotado inferiormente, pudiendo tomar
valores negativos si el ajuste es muy malo. Adquiere sentido en la regresión
múltiple donde se emplean varias variables explicativas.

sˆ 2 å ei 2 / ( n - k ) n -1
(1- R )
2
R = 1- = 1- R = 1-
2 2
SY 2
å yi / ( n - 1)
2
n-k
50 − 1
𝑅8" = 1 − (1 − 0,7608) = 0,7452
50 − 4

- El valor del estadístico experimental de la prueba F (48’78) utilizado para el


contraste de significatividad del modelo, que habremos de comparar con el
valor crítico, correspondiente al nivel de significación elegido, en una
distribución F de Snedecor con k-1 y n-k grados. En nuestro ejemplo, una F con
3 y 46 g.d.l.
Este estadístico experimental de la prueba F está relacionado con el R2 en su
fórmula de cálculo usualmente empleada:

97
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

R 2 ( k - 1)
Fexp =
(1 - R ) ( n - k )
2

También puede emplearse para determinar el resultado del contraste de


significatividad del modelo, como hemos hecho anteriormente, el p-valor
correspondiente al estadístico experimental de la prueba F, en el ejemplo
2’47∙10-14, que, evidentemente, es menor que cualquier nivel de significación
usualmente empleado.

Los resultados se suelen presentar también del modo siguiente:

𝑌$ # = 24′5826 + 3′3789 𝑋2# + 20′9644 𝑋3# − 8′6861 𝑋4#


(0’4406) (9’156) (1’046) (-0’3110)

n = 50 ; R2= 0’7608 ; 𝑅8" = 0’7452 ; F(3,46) = 48’78

Intervalos de confianza. El cálculo de los intervalos de confianza para los


coeficientes de regresión del modelo se conoce con el nombre de estimación
por intervalo.
Estos intervalos numéricos, denominados intervalos de confianza, pueden ser
más o menos amplios. Su amplitud dependerá de la precisión con la que
estimemos los parámetros, señalada por la desviación estándar estimada de la
K𝛽"# ) y el nivel
distribución de los estimadores de los coeficientes del modelo (𝑠𝑒
de confianza que elijamos para construir el intervalo. Es importante recordar
que la validez de estos intervalos de confianza depende de que se satisfagan
determinadas hipótesis básicas.
Gretl nos permite obtener directamente los intervalos de confianza del 95%
para la estimación de los coeficientes del modelo. El resultado mostrado a
continuación se obtiene eligiendo en la ventana principal de Gretl: Análisis -
Intervalos de confianza para los coeficientes

Se obtiene así la siguiente pantalla de resultados, en la que aparecen los


valores estimados y sus correspondientes intervalos de confianza del 95%,
para cada uno de los coeficientes del modelo, incluido el término independiente
o constante de la regresión:
98
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

En teoría se ha explicado que estos intervalos se calculan del siguiente modo:

bˆi ± se i( )
! bˆ ´ t n - k
1-a 2
El valor teórico o crítico de la t de Student podemos buscarlos en las tablas
estadísticas, donde encontramos: 𝑡*,,-. (46)= 2,0129 o mediante el programa
Gretl en Herramientas – tablas estadísticas

En nuestro ejemplo, el cálculo para β2 es:

3’3789 ± 0’369042∙2’0129 = (2’6360; 4’1217)

Se puede comprobar que el cálculo del resto también coincide con los valores
obtenidos en Gretl.
Su interpretación sería: Con un nivel de confianza del 95%, podemos afirmar
que, ante un aumento de la superficie de la vivienda de 1 metro cuadrado,
manteniéndose constante el número de habitaciones y de baños, el precio
medio de venta de dicha vivienda aumentará, en promedio, entre 2’6360 y
4’1217 miles de dólares.
La interpretación es similar para los distintos parámetros que acompañan a las
variables explicativas, teniendo en cuenta cuál es en cada caso la variable
explicativa en cuestión y que el resto de variables se mantienen constantes.
Si hacemos uso de la relación existente entre contraste de hipótesis e intervalo
de confianza, también se puede afirmar que, para un nivel de significación del
5%, (complementario del nivel de confianza) se rechaza la hipótesis nula de
que β2 = 0, puesto que dicho valor no está comprendido dentro del intervalo.

99
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Estimación MCO del modelo de regresión múltiple con Excel


Siguiendo con el mismo ejemplo, vamos a estimar por MCO nuestro modelo:
Yi = β0 + β1 X1i + β2 X2i + β3 X3i + єi
haciendo uso de Excel. Esta estimación la vamos a realizar de dos formas alternativas:
(a) Aplicando las fórmulas que hemos deducido en teoría para la estimación del vector
de parámetros de modelo; (b) Mediante la opción de estimación que trae el programa
Excel en sus “complementos”, y que ya conocemos.
(a) Abrimos el archivo de Excel donde tenemos los datos de los 50 pisos con una
columna para los precios (variable Y), otra para el tamaño en m2 (variable X1), otra
para el número de habitaciones (X2) y una última con el número de baños (X3).
La fórmula correspondiente a la estimación del vector de parámetros, expresada en
forma matricial es:
bˆi = ( X ' X ) ( X 'Y )
-1

El programa Excel permite realizar operaciones matriciales con cierta facilidad, al


trabajar con matrices en Excel hay que tener en cuenta lo siguiente:
• No se puede cambiar el contenido de las celdas que componen la matriz
• No se puede eliminar o mover celdas que componen la matriz
• No se puede insertar nuevas celdas en el rango que compone la matriz
En Excel, las fórmulas matriciales se encierran entre llaves { } y una vez especificadas
hemos de presionar de forma simultánea CTRL+MAYÚS +ENTRAR, para que Excel la
compute. Cuando se introduce una fórmula matricial Microsoft Excel inserta de forma
automática la fórmula entre llaves ({}).
Existen varias operaciones matriciales en Excel, siendo las más usadas las siguientes:
MDETERM: Devuelve la matriz determinante de una matriz
MINVERSA: Devuelve la matriz inversa de una matriz
MMULT: Devuelve la matriz producto de dos matrices
Con toda esta información, iniciamos la estimación MCO del vector de parámetros:

En primer lugar construimos la matriz de datos X añadiendo una columna de unos, que
representan los valores de la variable artificial que acompaña al término independiente
(𝛽( ), a las columnas de los datos de las variables explicativas:

100
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

A continuación trasponemos la matriz X para tener X’, y así poder multiplicarlas


posteriormente. Para ello, copiamos los elementos de X y al pegar utilizamos Pegar -
transponer:

101
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Para multiplicar X’X: Seleccionamos el rango de celdas en que desee introducir la


matriz de resultados de este producto. Para esto debe calcularse la dimensión de la
matriz resultante de dicho producto. En el ejemplo, si se multiplican dos matrices de
dimensiones 4x50, y 50x4 respectivamente, las celdas de la formula matricial que
deben seleccionarse es de dimensión 4x4.

En la parte de arriba pulsamos =MMULT y seleccionamos las celdas a multiplicar:


=MMULT(G4:BD7;B2:E51) y tras cerrar el paréntesis pulsamos:
CTRL+MAYÚS+ENTRAR, todo a la vez, para que aparezcan todos los resultados de
la matriz (en caso contrario sólo aparecería el primero):

102
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

Para calcular la inversa, nuevamente seleccionamos las celdas dónde irá el resultado
(debe ser 4x4) y en la parte de arriba =MINVERSA(celdas de la X’X) y NO OLVIDAR
PRESIONAR CTRL+MAYÚS+ENTRAR, todo a la vez:

A continuación se calcula el producto de X’Y:

Para, por último, calcular el de (X’X)-1(X’Y):

Así, el modelo de regresión estimado queda:


𝑌" # = 24′5826 + 3′3789 𝑋1# + 20′9644 𝑋2# − 8′6861 𝑋3#
Y así, de forma análoga, calculamos el resto de cuestiones.
103
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA
ECONOMETRÍA CON GRETL
Estimación MCO

(b) La estimación de los parámetros, junto con otros valores, como el R2, los
estadísticos de los contrastes de significatividad, etc., aparecen en la estimación del
modelo en Excel, igual que vimos en el caso de una sola variable explicativa. La única
diferencia es que ahora tendremos que introducir todas las columnas de las X, incluida
la constante.
Si pulsamos en la pestaña Datos debe aparecer en la parte de arriba, a la derecha del
todo, Análisis de datos. Si lo pulsamos, buscamos en la lista que aparece
“Regresión”, lo seleccionamos y le damos a Aceptar. Nos aparece una pantalla en la
que iremos indicando lo siguiente:
De momento, pulsamos en Rótulos, para que nos tome el nombre de las variables tal
como aparecen en la hoja de Excel, y en nivel de confianza ponemos 90% y así nos
calculará, como siempre el del 95% y además el del 90% que hemos indicado, y lo
demás lo vamos a dejar tal cual. En la parte de arriba tendremos que indicar el rango
de entrada para las variables. Para ello, pulsamos en el recuadrito derecho y
seleccionamos en la hoja de Excel las celdas correspondientes:

Tras pulsar en Aceptar nos aparece una hoja nueva en nuestro archivo de Excel con
los resultados de la estimación del modelo:

104
Rosario Asián Chaves. ECONOMÍA APLICADA II. UNIVERSIDAD DE SEVILLA

También podría gustarte