Introducción A La Econometría18-65 2

INTRODUCCIÓN A LA
ECONOMETRÍA
MODELIZACIÓN E INFORMACIÓN ECONÓMICA Y
CONSTRUCCIÓN DE MODELOS ECONOMÉTRICOS
UNIVERSIDAD CASTILLA - LA MANCHA

Yeferson Valencia Quispe
3º ADE
UCLM-2014/2015
ÍNDICE
CAPÍTULO 1. RESUMEN DE TODOS LOS TEMAS IMPARTIDOS…………………………….……..3
CAPÍTULO 2. DESARROLLO TEMARIO………………………………………………………………………18
Tema 4. MODELIZACIÓN E INFORMACIÓN ECONÓMICA………………………………………..…18
4.1 La modelización en economía………………………………………………………………………………18
4.1.1 Econometría, fundamentos y naturaleza……………………………………………………18
4.1.2 Propósitos de la econometría……………………………………………………………………20
4.2 Construcción de modelos econométricos…………………………………………………………….24
4.2.1 Tipos de modelos……………………………………………………………………………………….24
4.2.2 Modelos algebraicos……………………………………………………………………………...….28
4.2.3 Modelos econométricos…………………………………………………………………………….30
4.3 Información económica y modelización……………………………………………………………….34
4.3.1 Los datos en el análisis económico…………………………………………………………….34
4.3.2 Fuentes de datos………………………………………………………………………………………..35
4.3.3 Datos, información y modelización…………………………………………………………….35
Tema 5. CONSTRUCCIÓN DE MODELOS ECONOMÉTRICOS…………………………………….….38
5.1 Modelo Básico de Regresión I: Especificación y Estimación………………………………….38
5.1.1 Supuestos del MLG………………………………………………………………………………….…38
5.1.1.1 Supuestos simplificadores………………………………………………………………..40
5.1.1.2 Término de perturbación estocástica……………………………………………….43
5.1.1.3 Supuestos referentes a las perturbaciones aleatorias………………………46
5.1.2 Especificación de los Modelos Econométricos……………………………………………49
5.1.3 Estimación de los Modelos Econométricos…………………………………………………52
5.1.3.1 Estimación mediante MCO…………………………………………………………...…52
5.1.3.2 Propiedades del estimador MCO……………………………………………………..54
5.1.3.3 Estimación de la varianza residual de los estimadores MCO………..….62
5.1.3.4 Estimación MV…………………………………………………………………………………62
CAPÍTULO 3. EJERCICIOS RESUELTOS…………………………………………………………………...…66
Ejercicio Nº1………………………………………………………………………………………………………………66
Ejercicio Nº2………………………………………………………………………………………………………………69
CAPÍTULO 4. COMPETENCIA APLICADA EN CADA CASO SEGÚN LA GÚIA DOCENTE…71
2
UCLM-2014/2015
CAPÍTULO 1. RESUMEN DE TODOS LOS TEMAS

IMPARTIDOS.
Tema 4. MODELIZACIÓN E INFORMACIÓN ECONÓMICA
4.1. LA MODELIZACIÓN EN ECONOMÍA
4.1.1 Econometría, fundamentos y naturaleza.
La econometría es la rama de la Economía que se ocupa de la estimación

práctica de las relaciones económicas. Para medir estas relaciones económicas utiliza la
teoría económica, incorporada en un modelo econométrico; hechos, sintetizados por la
información relevante, y teoría estadística, refinada en técnicas econométricas para
medir y probar en la práctica ciertas relaciones entre variables económicas, dándole con
ello contenido práctico al razonamiento económico.
La econometría se sirve tanto de teorías como de hechos y, mediante el uso de

técnicas estadísticas, los combina para estimar relaciones económicas.
La gráfica I.1. puede ser concebida como un diagrama de flujo que muestra de
manera sistemática cómo se combinan y utilizan eventualmente las distintas partes de
un estudio econométrico.
GRÁFICA I.1. El ENFOQUE ECONOMÉTRICO
3
UCLM-2014/2015
4.1.2. Los propósitos de la econometría.
El análisis estructural: es el uso de un modelo econométrico estimado, para

efectuar la medición cuantitativa de relaciones económicas. También permite la
comparación de teorías contrarias sobre un mismo fenómeno.
La predicción: es la aplicación de un modelo econométrico estimado, para

predecir valores cuantitativos de ciertas variables fuera de la muestra de datos realmente
observados.
La evaluación de políticas: es el manejo de un modelo econométrico estimado

para elegir entre políticas alternas.
4.2. CONSTRUCCIÓN DE MODELOS ECONOMÉTRICOS.
Un modelo es cualquier representación de un fenómeno real tal como un proceso

o sistema real. El fenómeno real está representado por el modelo para explicarlo,
predecirlo y controlarlo, propósitos correspondientes a los tres objetivos de la
econometría discutidos en el último capítulo: análisis estructural, predicción y
evaluación de políticas, respectivamente. A veces, el sistema real se denomina sistema
del mundo real para distinguirlo claramente del sistema modelo que lo representa.
4.2.1. Tipos de modelos
Modelo verbal/ lógico: Este enfoque emplea analogías verbales, tales como la
metáfora y el símil; el modelo resultante a menudo se denomina un “paradigma”.
Modelo físico: En ciertos casos el sistema del mundo real es físico y puede
obtenerse un modelo mediante un ajuste a escala apropiado, hacia arriba o hacia abajo.
Modelos geométricos: De enorme importancia para el desarrollo de la teoría

económica ha sido el tercer tipo de modelo, el modelo geométrico, que representa
geométricamente las relaciones.
4.2.2. Modelos algebraicos
El modelo algebraico, para propósitos econométricos, es el tipo de modelo más

importante; representa el sistema del mundo real a través de un sistema de ecuaciones.
Con el ejemplo macroeconómico de la determinación del ingreso nacional, el

modelo mostrado en la gráfica II.3 puede expresarse como el siguiente sistema de dos
ecuaciones:
4
UCLM-2014/2015
El modelo determina los valores de ciertas variables, llamadas variables

endógenas, variables conjuntamente dependientes del modelo que se determinan de
manera simultánea por las relaciones del modelo. En este caso el consumo y el ingreso
nacional son las variables endógenas, mismas que van a ser explicadas o predichas.
4.2.3. Modelos econométricos
Un modelo econométrico es un tipo especial de modelo algebraico, estocástico,

esto es, que incluye una o más variables aleatorias. Representa un sistema a través de un
conjunto de relaciones estocásticas entre las variables del sistema.
Un modelo econométrico puede ser lineal o no lineal. En el primero, el modelo es

lineal en sus parámetros. El supuesto de linealidad es muy importante tanto para probar
teoremas matemáticos y estadísticos en relación con tales modelos, como para calcular
los valores que adoptan las variables en los mismos. El modelo macro [económico],
definido en el punto anterior, es lineal si la función consumo es de la forma
Aquí a y b son los parámetros relevantes; b tiene la interpretación de la propensión

marginal al consumo, que aquí se supone constante. Entonces el multiplicador es
La razón por la cual se supone linealidad (en los parámetros) es la conveniencia y

la maleabilidad de este supuesto. A pesar de que una cantidad considerable de trabajo ha
sido desarrollado sobre modelos no lineales, el caso lineal es aún el más importante y
común, y para él existe una abundante colección de técnicas y aplicaciones. En general
a la no linealidad se le aborda únicamente cuando aparece de manera esencial. Por lo
tanto, no debería exagerarse la importancia del supuesto de linealidad.
4.3 INFORMACIÓN ECONÓMICA Y MODELIZACIÓN
4.3.1. Los datos en el análisis econométrico
El conjunto de datos económicos pueden ser de clases muy variadas.
Series temporales:
Consiste en observaciones sobre una variable o distintas variables a lo largo del

tiempo. Los precios de las acciones, la oferta monetaria, los IPC, PIB, las tasas anuales
de homicidio o las cifras de venta de automóviles son ejemplos de series temporales.
5
UCLM-2014/2015
Datos transversales:
Son aquellos datos de una o más variables recopiladas en un momento

determinado. Un conjunto de datos de corte transversal es una muestra compuesta por
individuos, familias, empresas, ciudades, estados, países u otro tipo de unidades
variables recogida en un momento determinado. Otro ejemplo es una encuesta sobre los
gastos de los consumidores.
Datos combinados:
Reúne elementos de series temporales y transversales. Por ejemplo, recopilar datos

de los años anteriores y posteriores a un acontecimiento, y observar cómo una relación
clave ha cambiado con el tiempo (ejemplo, políticas gubernamentales)
Datos en panel, longitudinales y en micropanel:
Consiste en series temporales para cada unidad de corte transversal del conjunto
de datos. Por ejemplo, supongamos que tenemos un registro de datos sobre el salario, la
educación, el historial de empleo, o datos financieros o de inversión durante un periodo
de cinco años. A diferencia de los datos combinados, los datos de panel mantiene el
registro de las mismas unidades de sección cruzada (individuos, empresas…) durante un
periodo de tiempo determinado
4.3.2. Fuentes de datos para el análisis económico.
- Datos para el análisis empírico
- Observaciones sobre las escalas de medición de las variables.
Matriz de información [Y/X] X= Matriz n*k observaciones de las variables exógenas
Y= Vector n*1 variables endógenas.
4.3.3. Datos, información y modelización (la problemática de los datos en la

modelización)
En general, a la hora de construir un modelo, la información que necesitamos no

está disponible de la forma que desearíamos.
Aparte de estas decisiones, encontramos problemas en las fuentes estadísticas, en los

métodos de obtención de datos, problemas por cambio de estructura y problemas
técnicos.
A) Problema atribuible a la fuente estadística
Dentro de este tipo de problemas tenemos:
6
UCLM-2014/2015
- Lagunas estadísticas
- Cambios metodológicos
B) Atribuibles al método de obtención
- Errores de muestreo
- Errores de observación o medida
C) Cambios estructurales
- Cambios estructurales entre individuos
- Cambios estructurales en el tiempo
D) Problemas técnicos
Problemas derivados de la técnica a utilizar:
- Grados de libertad
- Variables no observables: variables “proxy”.
- Multicolinealidad ( dependencia entre variables explicativas)
- Autocorrelación serial
TEMA 5. CONSTRUCCIÓN DE MODELOS ECONOMÉTRICOS
5.1. MODELOS BÁSICOS DE REGRESIÓN I: ESPECIFICACIÓN Y

ESTIMACIÓN.
5.1.1. SUPUESTOS DEL MODELO LINEAL GENERAL (MLG)
Gran parte del análisis econométrico comienza con las siguiente premisa: Y y X
son dos variables que representan a una población, y estamos interesados en “explicar Y
en términos de X” o “ estudiar cómo varía Y con los cambios de X”.Una ecuación que
relacione Y y X, y una forma simple de hacerlo sería:
(2.1)
Y= recibe el nombre de variable dependiente o explicada
X= Se la denomina variable independiente o explicada
U= Denominada término de error o perturbación en la relación, representa factores

distintos de X que afectan a Y.
Esta ecuación ( 2.1) también da respuesta a l problema de la relación funcional

entre Y y X. si los demás factores de U se mantienen fijos, de manera que el cambio en
U sea nulo, , entonces X tiene un efecto lineal sobre Y:
Clasificación de variables en un modelo econométrico
7
UCLM-2014/2015
La principal clasificación es la de:
 Variable Endógena: es aquella explicada por otras variables. Es denotada por y .

 Variables Exógenas: explican a la endógena pero no pueden estar influidas por
ella. Puede haber k variables explicativas y son denotadas por x1 , x2 ,..., xk .
Hay que tener en cuenta que esta distinción varía dependiendo del modelo econométrico
en particular y su objetivo. Así, una exógena en un modelo puede pasar a ser la
endógena de otro. Ej. C  f (Y )   y Y  f (M )   , donde M es cantidad de dinero.
 Variables continuas: pueden tomar valores en todos los puntos de la recta real (
C e Y ).
 Variables discretas: sólo toman valores en algunos puntos de la recta real.
5.1.1.1 Supuestos simplificadores
(1) Hipótesis de linealidad en los parámetros.
Establece la linealidad en los parámetros en la relación entre la variable

endógena y las exógenas. Es decir, en la función de consumo tendremos.
Ct  1  2Yt   t
(2) Hipótesis de especificación correcta.
Esta hipótesis supone que las k variables explicativas del modelo son aquellas
variables relevantes que explican el comportamiento de la endógena. Y que están todas.
No existe ninguna variable xi que no explique nada de la y . Es decir, el modelo está
bien planteado o especificado.
Esta hipótesis supone aceptar en la práctica dos cosas no siempre ciertas:
(a) Aceptar que siempre hay una teoría detrás que me permite saber cuáles
son las variables relevantes en cada modelo.
(b) Aceptar que sobre estas variables dispongo siempre de información
muestral adecuada.
(3) Hipótesis de grados de libertad positivos.
Los grados de libertad de un modelo se definen como la diferencia entre el

número de datos ( n ) y el número de variables explicativas ( k ). Es decir, gl  n  k  0 .
Esta hipótesis supone que, como mínimo, es necesario disponer de tantos datos como
parámetros a estimar. No obstante, es preferible siempre disponer de más datos que
parámetros a estimar
8
UCLM-2014/2015
(4) Hipótesis de parámetros constantes.
Esta hipótesis supone que los parámetros 1 , 2 ,..., k son constantes en el

tiempo.
Si trabajamos con n datos en la función de consumo keynesiana, suponer que la
propensión marginal a consumir es constante en el tiempo, implica que se obtiene una
estimación que ha de interpretarse como la propensión marginal a consumir media en
ese período de tamaño n.
(5) Hipótesis de independencia lineal entre las variables explicativas.
Esta hipótesis implica que cada variable explicativa contiene información

adicional sobre la endógena que no está contenida en otras.
Esta hipótesis implica que los datos de las variables explicativas son fijos en muestras
repetidas. Es decir, el valor de las variables explicativas es constante en la función de
distribución de la endógena.
(6) Hipótesis de regresores no estocásticos.
Esta hipótesis implica que los datos de las variables explicativas son fijos en
muestras repetidas.
Existen tres situaciones en Econometría donde no es posible mantener esta hipótesis:
(6.1) Modelos de ecuaciones simultáneas

(6.2) Modelos dinámicos en los que aparecen como regresores sucesivos retardos de la
variable endógena.
(6.3) Modelos con errores de medida en las variables explicativas
(7) Las variables independientes son fijos o deterministas ( no aleatorios).
5.1.1.2 Término de perturbación estocástica
La razón por la que no metemos todas las variables posibles en un modelo se debe a las
siguientes causas:
- Falta de disponibilidad de datos

- Variables centrales y periféricas
- Aleatoriedad intrínseca en el comportamiento humano
- Variables representativas ( proxy) – inadecuadas.
- Principio de parsimonia
- Forma funcional incorrecta
5.1.1.3 Supuestos referentes a las perturbaciones aleatorias del modelo
El término de error  t satisface las siguientes hipótesis:
9
UCLM-2014/2015
1. Esperanza nula en todo instante de tiempo: E ( t )  0, t  1, 2, n . Ya que  t es tratado

como la suma de muchos efectos individuales sobre la endógena, donde el signo de cada
uno es desconocido, no existe ninguna razón para esperar cualquier valor distinto de
cero. Supongamos que E ( t )   , entonces el modelo 1  2 xt   t es el mismo que
(1   )  2 xt  ( t   ) , donde el nuevo término de error:  t*   t   , es tal que la
E ( t* )  0 .
2. Varianza constante (Homocedasticidad). Supone que al cumplirse (7.1), la
var( t )  E ( t2 )   2 , t  1, 2, , n . Si la variabilidad (o dispersión alrededor de la
media) de las perturbaciones cambia con el tiempo hablamos de heterocedasticidad.
3. Ausencia de autocorrelación en todo instante de tiempo. Implica que la
cov( t s )  E( t s )  0, t, s  1, 2, n, t  s . Si hay autocorrelación, el error en un
momento del tiempo ayudaría a predecir el error en un momento posterior y los errores
tendrían inercia. Si no hay autocorrelación, la historia pasada no ayuda a predecir el
comportamiento futuro y los errores son completamente aleatorios e imprevisibles.
4. Matriz de varianzas y covarianzas (MVC): Sería una matriz que recoge las varianzas de
cada variable en la diagonal principal y las covarianzas entre una perturbación y otra
diferente fuera de la diagonal. Es simétrica, definida positiva y de tamaño n  n .
5.1.2 ESPECIFICACIÓN DE LOS MODELOS ECONOMÉTRICOS
suponemos el comportamiento de una variable endógena que puede ser explicado

mediante una relación lineal de k variables exógenas, xj , más un término de error
o perturbación aleatoria, u, que recoge el efecto conjunto con otras variables no
directamente explicitadas en el modelo, cuyo efecto individual no resulta relevante:
Partimos de n observaciones seleccionadas del sistema real:
Se podrá plantear un sistema de ecuaciones, en el que cada ecuación será el modelo

definido para cada uno de la n datos o puntos muéstrales:
10
UCLM-2014/2015
Podemos denotar este sistema de ecuaciones en forma matricial del modelo de

Regresión Lineal General (de k variables)
Y= vector columna nx1 observaciones sobre la variable dependiente Y.
X= es la matriz de datos Nuk, con n observaciones sobre los K-1 variables.

Habitualmente se trabaja con término independiente, con lo cual, en la matriz X
aparecerá una primera columna de 1: La primera columna de números 1 representa el
término del intercepto.
β= vector columna kx1 de los parámetros desconocidos.
Generalmente se representa:
11
UCLM-2014/2015
5.1.1 ESTIMACIÓN DE LOS MODELOS ECONOMÉTRICOS
5.1.3.1 Estimación mediante MCO.
Los Estimadores Mínimo Cuadráticos de ^β: Son aquellos estimadores que

hacen mínima la suma de las diferencias al cuadrado entre los valores reales y
estimados de la variable endógena:
De modo matricial:
Si aplicamos la condición de mínimo, tenemos:
1. derivadas parciales respecto del estimador igual a cero

2. segundas derivadas positivas( será definida positiva)
Si desarrollamos las operaciones matriciales de S, tenemos:
Conviene remarcar que el estimador está definida, siempre que la matriz X´X
sea invertible, eso ocurre cuando: las k variables explicativas del modelo sean
independientes entre sí; o cuando la matriz X es de orden nxk (salvo que haya
multicolinealidad) sea invertible.
Es decir: β^= (X´X)-1 XÝ= X-1(X´)-1XÝ= X-1 Y
El vector del residuo es: u^= Y-Xβ^= Y-X(X-1Y)=Y-Y=0T
12
UCLM-2014/2015
5.1.3.2 Propiedades del estimador por MCO
1. Linealidad: El estimador MCO de  es lineal. La linealidad consiste en poder escribir

el estimador como una combinación lineal fija de los valores de la variable endógena.
Demostración: Denotando por W  ( X T X )1 X T .

2. Insesgadez: El estimador MCO de  es insesgado. Es decir, la media de la distribución
muestral de ˆ coincide con el verdadero.
Demostración: La expresión del estimador MCO de  , ˆ  ( X T X )1 X T Y .
3. Eficiencia: El estimador MCO de  es eficiente. Es decir, tiene varianza mínima
dentro de la familia de estimadores lineales e insesgados de  .
4. En el MLG con o sin término constante estimado por MCO, los residuos son
ortogonales a las variables explicativas, es decir:
n
X T ˆ  0 . En términos escalares,  x ˆ
t 1
ti t  0, i  1, 2,..., k .
5. La consecuencia es que de haber un término independiente en la regresión, la suma de

los residuos mínimo- cuadráticos es cero: = ∀t
6. En el MLG con término constante estimado por MCO, la media muestral de los residuos
es nula, es decir, ˆ  0 .
7. En el MLG con término constante estimado por MCO, la media muestral de la variable
endógena coincide con la media muestral de la variable ajustada por el modelo, es decir:
Y  Yˆ .
ortogonales a la variable endógena ajustada, es decir: Yˆ T ˆ  0 . En términos escalares,
n
 yˆ ˆ
t 1
t t  0.
9. En el MLG con o sin término constante estimado por MCO.
Demostración:
Yˆ T Yˆ  ˆ T X T X ˆ  ˆ T X T Y
10. En el MLG con término constante estimado por MCO, la propiedad 8 se cumple cuando
las variables se expresan en desviaciones con respecto a sus medias, es decir:
(Y  iY )T (Y  iY )  (Yˆ  iYˆ )T (Yˆ  iYˆ )  (ˆ  iˆ )T (ˆ  iˆ )
 ( y  y )   ( yˆ  y )  ˆ
t
2
t
2
t
2
Demostración: operando y 2
t  ny 2   yˆt2  ny 2   ˆt2 , que se corresponde con la
propiedad 8.
13
UCLM-2014/2015
11. Teorema de Gauss-Markov: se dice que un estimador, por ejemplo, el estimador de

MCO βˆ2, es el mejor estimador* lineal insesgado óptimo (ELIO) de β 2.
12. La suma residual (suma de los cuadrados de los residuos mediante MCO), se denota de la
siguiente forma:
SR: ɛ^T ɛ^ = YTY-Y^TY^=
13. El vector de residuos mínimo-cuadráticos, es una transformación lineal del vector del
término de error:
ɛ^=y-X β^=y-X(XTX)-1XTy=My=Mu
donde M es la matriz M= IT-X(XTX)-1XT que es singular simétrica e idempotente, y
donde la última igualdad viene de MX= OTXk.
14. Coeficiente de determinación: SCT,SCE,SCR. El vector de residuos mínimo-cuadráticos
tienen esperanza cero y matriz de covarianzas σ² ɛM gracias a la propiedad anterior.
La medida de ajuste más conocida es el llamado coeficiente de determinación o R 2 del
modelo definido como:
SE SR
R2   1
ST ST
15. Coeficiente de determinación.
Suma Total= Suma Explicada+ Suma Residual
16. Coeficiente de determinación R2.
R2 =
Mientras que su raíz cuadrada positiva, cuando existe, se denomina coeficiente de

correlación entre y e .
Con lo cual:
R2 = =
R2 es la proporción de la variación explicada en comparación con la variación total; de

esta manera, se interpreta como la fracción de la varianza muestral en y que viene
explicada por x.
17. El coeficiente de determinación es siempre menor o igual que las dos sumas del SCR y
SCT, son por definición, dos números positivos, entonces su cociente lo será también,
con lo que R2≤ 1.
18. Si una de las variables explicativas es constante, entones se tienen que el R2≥ 0. Una
vez probado que la SCT= SCE + SCR, al ser cantidades positivas, necesariamente el
SCE≤ SCR, con lo que (SCR/ SCT) ≤ 1. Por tanto, tenemos que el R2≥0.
19. Cuando disponemos de menos observaciones que parámetros a estimar (T < K), el
estimador MCO no estará explícitamente definido. Est se debe a que con T-K el
14
UCLM-2014/2015
reango de la matriz X es menor que K y lo mismo pasa su X´X, que será singular,
condenando al sistema de ecuaciones normales a infinitas soluciones.
20. Cuando el término de error sigue una distribución Normal, el estimador MCO seguirá
también una distribución Normal.
PROBLEMAS DEL R2.
En primer lugar, puede ser engañoso mirar solo el R2 sin mirar los datos.
Muchas veces R2 es muy alto en relaciones espúreas.
Introducir un nuevo regresor en el modelo tiene dos efectos:
- Disminuyen los grados de libertad y éste es negativo.

- Disminuyen la suma residual y éste es positivo.
La solución a este problema es utilizar el llamado R2 ajustado o corregido de grados de

libertad que calcula:
En esta formulación R2 se tiene en cuenta los efectos:
1. Aumenta el número de regresores del modelo, disminuye los grados de libertad,

y esto penaliza, es decir,
K= n- k=
2. Estos nuevos regresores pueden mejorar el modelo en términos de ajuste, es
decir,
K RS R2
Como ejemplo, supongamos que se han estimado dos funciones de consumo alternativo:
La derivación del se obtiene a partir del R2 convencional, obteniendo:
Donde dividiendo por n la Suma Residual y la Suma Total; esta medida se puede
interpretar como un ratio de varianzas.
15
UCLM-2014/2015
Implantando de que la restricción de los estimadores de varianzas residuales y de la

variable endógena son insesgados, se obtiene R2, corregido de los grados de libertad:
5.1.3.3 Estimación de la varianza residual de los estimadores MCO.
Un estimador intuitivo de la varianza de las perturbaciones consiste en dividir la

suma de cuadrados de los residuos MCO por n. No obstante, para que dicho estimador
sea insesgado, hay que ponderar la suma de cuadrados de los residuos por los grados de
libertad. Es decir:
n
 ˆ t
2
ˆT ˆ
ˆ 2  t 1

nk nk
Este estimador es insesgado, es decir, la E (ˆ 2 )   2 , ya que la E (ˆT ˆ)  (n  k ) 2 .
Prueba: El vector de residuos MCO se puede escribir como:
ˆ  Y  Yˆ  Y  X ˆ  Y  X ( X T X )1 X T Y  [ I  X ( X T X )1 X T ]Y  MY
5.1.3.4 Estimación por Máxima Verosimilitud.
Propiedades estadísticas del estimador MV: La cota de Cramer Rao proporciona la

mínima varianza que puede alcanzar cualquier estimador insesgado de un vector de
parámetros. Dicha cota viene dada por la inversa de la matriz de información ( I ),
donde ésta viene definida por la esperanza del hessiano cambiada de signo. Es decir:
  2 ln L( )   
I  E   , siendo    2 
    
2
2 4 (n  k )
En el caso MV, el estimador de  2 tiene una varianza igual a que es
n n
inferior a la Cota de Cramer Rao. No obstante, en este caso el estimador MV es
sesgado. Lo que sí es cierto es que no existe un estimador insesgado de  2 que alcance
la cota.
16
UCLM-2014/2015
5.1.3.4 Estimación Mínimos Cuadrados Generalizado (MLG)
es conocida como el estimador de mínimos cuadrados generalizados

MCG de β que se denota como:
Esto se demuestra:
Simbólicamente:
17
UCLM-2014/2015
CAPÍTULO 2. DESARROLLO TEMARIO
Tema 4. MODELIZACIÓN E INFORMACIÓN ECONÓMICA
4.1. LA MODELIZACIÓN EN ECONOMÍA
4.1.1. Econometría, fundamentos y naturaleza
Con el objetivo de resaltar los aspectos más relevantes, a la vez que perseguimos
una mayor comprensión de los fundamentos básicos de econometría, en este tema
seguiremos de lleno el libro de Modelos econométricos, técnicas y aplicaciones de
Michael D. Intriligator. Por lo que el primer paso es saber qué significa econometría.
Definición de econometría
La econometría es la rama de la Economía que se ocupa de la estimación

práctica de las relaciones económicas. Para medir estas relaciones económicas utiliza la
teoría económica, incorporada en un modelo econométrico; hechos, sintetizados por la
información relevante, y teoría estadística, refinada en técnicas econométricas para
medir y probar en la práctica ciertas relaciones entre variables económicas, dándole con
ello contenido práctico al razonamiento económico.
Aunque esta definición está orientada a la Economía, el enfoque econométrico

puede ser aplicado a otras disciplinas, en especial, a otras ciencias sociales como la
Historia, la Politología, la Sociología y la Psicología. También puede aplicarse a las
áreas de la política pública, como salud, educación, transporte, vivienda y protección del
ambiente.
Cuando el término econometría se acuñó en la década de los treinta, cubría tanto

el desarrollo de la teoría pura desde una perspectiva matemática como la estimación
práctica de las relaciones económicas. En la actualidad significa principalmente este
último, el desarrollo matemático de la teoría económica se denomina ahora economía
matemática.
También podría hacerse una distinción entre econometría y estadística

económica. La estadística económica se ocupa de las estadísticas descriptivas,
incluyendo el desarrollo y perfeccionamiento de datos económicos tales como las
cuentas del ingreso nacional y los números índice, en tanto que la econometría utiliza
estos datos para estimar relaciones económicas cuantitativas y probar hipótesis acerca
de ellas.
Fundamentos y naturaleza del enfoque econométrico
La econometría se sirve tanto de teorías como de hechos y, mediante el uso de

técnicas estadísticas, los combina para estimar relaciones económicas.
18
UCLM-2014/2015
La gráfica I.1. puede ser concebida como un diagrama de flujo que muestra de
manera sistemática cómo se combinan y utilizan eventualmente las distintas partes de
un estudio econométrico.
GRÁFICA I.1. El ENFOQUE ECONOMÉTRICO
La teoría es uno de los elementos básicos en cualquier estudio econométrico,

pero debe ser formulada de manera que pueda utilizarse. La forma más eficaz con fines
econométricos, como se aprecia en la gráfica I.1, suele ser la de un modelo, en
particular, un modelo econométrico. El modelo resume la teoría relevante para el
sistema considerado y es la forma más conveniente para sintetizar esta teoría, para hacer
mediciones prácticas y pruebas.
Un aspecto importante de la econometría y una parte esencial de cualquier

estudio econométrico es la especificación del modelo, esto es, la construcción y
elaboración de un modelo que represente de manera adecuada el fenómeno que va a ser
estudiado.
El otro elemento básico en un estudio econométrico es un conjunto de hechos,

términos que designan los eventos en el mundo real que están relacionados con el
fenómeno bajo investigación. Estos hechos conducen a un conjunto de datos, mismos
que representan observaciones de hechos relevantes. Sin embargo, en general, los datos
deben ser seleccionados o “reconfigurados”, en una diversidad de formas para
adecuarlos al uso requerido por el estudio econométrico. Esta selección incluye distintas
reconfiguraciones, tales como los ajustes estacionales o cíclicos, la extrapolación, la
19
UCLM-2014/2015
interpolación, la combinación de diferentes fuentes de información, y en general, el

empleo de otras informaciones para moldear los datos. El resultado es un conjunto de
datos refinados.
Como vemos, la teoría ha sido desarrollado en el forma de un modelo

econométrico, y los hechos en un conjunto de datos refinados (selectos); el siguiente
paso central en el enfoque econométrico, combina estos dos elementos básicos. Este
paso, la estimación del modelo econométrico con los datos refinados, hace uso de un
conjunto de técnicas econométricas, es decir, extensiones de los métodos clásicos de la
Estadística, particularmente de la inferencia estadística (el uso de información muestral
para inferir ciertas características de la población).
El resultado del proceso es un modelo econométrico estimado en el que ciertas

magnitudes, que se conocen como parámetros, son estimadas sobre la base de los datos
relevantes. El modelo estimado da una forma de medir y probar las relaciones que
sugiere la teoría económica.
Así, el enfoque econométrico combina teoría y hechos en una forma particular.

Desde el punto de vista de la teoría, la econometría puede ser considerada como la
aplicación de la teoría económica a los datos del mundo real. A la inversa, desde el
punto de vista de los hechos, la econometría puede considerarse como un modelo
sistemático para estudiar historia económica.
4.1.2. Propósitos de la econometría
La gráfica I.1 también muestra los tres propósitos primordiales de la

econometría: el análisis estructural, la predicción y la evaluación de políticas.
El análisis estructural: es el uso de un modelo econométrico estimado, para

efectuar la medición cuantitativa de relaciones económicas. También permite la
comparación de teorías contrarias sobre un mismo fenómeno. El análisis estructural
representa lo que podría verse como el propósito “científico” de la econometría:
comprender los fenómenos del mundo real mediante la medición cuantitativa, prueba y
validación de relaciones económicas. Es factible que un resultado de este análisis sea un
efecto “retroalimentador” sobre la teoría. Por ejemplo, una relación medida entre la tasa
de inflación y la tasa de desempleo, la curva de Phillips, ha conducido a diversos
desarrollos en la teoría del desempleo.
La predicción: es la aplicación de un modelo econométrico estimado, para

predecir valores cuantitativos de ciertas variables fuera de la muestra de datos realmente
observados. Con frecuencia, los pronósticos son la base para tomar decisiones. Por
ejemplo, la compra de materias primas y el empleo de trabajadores adicionales en una
empresa pueden apoyarse en una predicción de que las ventas se incrementarán durante
los dos trimestres subsecuentes.
20
UCLM-2014/2015
La evaluación de políticas: es el manejo de un modelo econométrico estimado

para elegir entre políticas alternas. Un enfoque presenta explícitamente una función
objetivo para maximizar mediante la elección de políticas y considera el modelo
estimado como una restricción de este proceso de optimización. Otro enfoque, a
menudo más útil para los hacedores de política, simula diferentes políticas y hace
predicciones condicionadas sobre los valores futuros de las variables relevantes bajo
cada opción. La selección de la política más deseable entre los distintos “futuros
candidatos” posibles, indicaría cuál política debiera seguirse.
En cualquier caso, la selección de una política particular, combinada con los

efectos de aquellos eventos exógenos que tienen influencia sobre el sistema, conduce a
resultados específicos, y estos, a su vez, a otra “relación de retroalimentación”, que
conecta la evaluación de políticas con los hechos, como se muestra en la gráfica I.1.
Estos tres propósitos principales de la econometría están íntimamente

relacionados. La estructura determinada a través del análisis estructural es utilizada en
la predicción que emplea un modelo econométrico, en tanto que la evaluación de
políticas que usa un modelo econométrico es un tipo de predicción condicionada.
Ejemplo 1. LA CURVA DE DEMANDA Y LA ELASTICIADAD PRECIO DE LA

DEMANDA (gasolina)
La curva de demanda para un consumidor individual, mostrada en la gráfica I.1,

da la cantidad que demanda, q, en litros al mes, como una función del precio, p, en
dólares/litro.
q= q (p) (1.4.1)
21
UCLM-2014/2015
En la hipotética curva de demanda del consumidor individual en la gráfica se muestra

dos puntos.
Una medida útil del grado de respuesta de la cantidad demandada para un

producto particular a su precio es la elasticidad precio de la demanda, Є, definida como
la razón del cambio relativo en la cantidad demandada al cambio relativo en el precio.
Como el cambio relativo en cualquier variable es la razón de un cambio en z, por decir
algo, ∆z, al valor base de z, esto es, ∆z⁄z, la elasticidad precio de la demanda puede ser
escrita
(1.4.2)
La elasticidad de la demanda definida en esta forma es una elasticidad arco de la

demanda, y en general es negativa. Con los datos mostrados en la gráfica I.2, la
elasticidad precio de la demanda en A es aproximadamente
(1.4.3)
Así, en A, un incremento de 10% en el precio reduciría la cantidad demandada

aproximadamente en 12.5%, en tanto que un decremento de 5% en el precio
incrementaría la cantidad demandada aproximadamente en 6.25 por ciento.
Por lo que, la estimación de elasticidades precio de la demanda para bienes o

servicios particulares es un ejemplo de un estudio econométrico.
La estimación de elasticidades precio de la demanda para bienes o servicios

particulares es un ejemplo de un estudio econométrico. Combina la teoría, aquí
representada por el modelo de la curva de demanda, con hechos, que en este caso sólo
son dos pares de precios-cantidades. La técnica de estimación es la fórmula de la
elasticidad arco (1.4.3). Las medidas numéricas resultantes para el grado de respuesta de
la cantidad demandada al precio son de interés considerable para propósitos de análisis
estructural. También son útiles para propósitos de evaluación de políticas, por ejemplo,
para predecir las importaciones de petróleo del próximo año o para decretar impuestos
adecuados a la gasolina.
Ejemplo 2. LA FUNCIÓN CONSUMO LINEAL
El segundo ejemplo de un estudio econométrico es la estimación de una función

consumo, componente básico de prácticamente todos los modelos macroeconómicos, la
cual determina el consumo total para la economía nacional como una función del
ingreso total. Este concepto se utilizará en el siguiente capítulo para desarrollar un
modelo macro [económico) prototipo.
22
UCLM-2014/2015
La gráfica I.3 ilustra una función lineal de consumo, dando el valor en dólares
del gasto total en consumo, C, como una función del valor en dólares del ingreso
nacional, Y (por ejemplo, PIB). En general, la función consumo es una curva
ascendente pero tiene una pendiente menor a la unidad; es decir, el ingreso adicional
produce un consumo adicional pero también conduce a ahorros adicionales. La
pendiente de la curva se denomina la propensión marginal al consumo, PMC, y por lo
tanto se supone positiva pero inferior a la unidad. Así, en este caso de una función lineal
de consumo.
(1.5.1)
Por los dos puntos mostrados en la gráfica I.3, la PMC puede estimarse como
(1.5.2)
Lo cual implica que 80 céntimos de cada dólar de ingreso añadido se gastan en

consumo.
La medición de la PMC ejemplifica un estudio econométrico, mismo que

combina teoría (de la función consumo) y datos (sobre el consumo y el ingreso
agregados) con técnicas econométricas [por ejemplo, la estimación definida antes]. Tal
medición es importante para comprender la macroestructura de la economía, predecir
los futuros niveles de ingreso (y de empleo) agregado y analizar propuestas de políticas
monetarias y fiscales alternativas.
23
UCLM-2014/2015
4.2. CONSTRUCCIÓN DE MODELOS ECONOMÉTRICOS.
Definición de Modelo
Un modelo es cualquier representación de un fenómeno real tal como un proceso

o sistema real. El fenómeno real está representado por el modelo para explicarlo,
predecirlo y controlarlo, propósitos correspondientes a los tres objetivos de la
econometría discutidos en el último capítulo: análisis estructural, predicción y
evaluación de políticas, respectivamente. A veces, el sistema real se denomina sistema
del mundo real para distinguirlo claramente del sistema modelo que lo representa.
En la mayoría de las ciencias, ya sean físicas o sociales, los fenómenos del

mundo real son tan complicados que únicamente pueden ser tratados en términos de una
representación simplificada, esto es, vía un modelo.
Cualquier modelo constituye un compromiso entre la realidad y la maleabilidad.

Debe ser una representación "razonable" del sistema del mundo real y por lo tanto
"realista" al incorporar los principales elementos del fenómeno que se estudia.
Por lo general, para lograr maleabilidad hay que efectuar diversos procesos de
idealización, entre los que se incluyen la eliminación de influencias “extrañas” y la
simplificación de procesos. Normalmente este proceso de idealización hace que el
modelo sea menos “realista”, no obstante, el proceso es necesario para asegurar que el
sistema modelo pueda ser manipulado en términos razonables.
En definitiva, el equilibrio entre realismo y maleabilidad es la esencia de la

buena modelística.
4.2.1 Tipos de modelos
Entre los tipos de modelos más importantes que encontramos, todas ellas,
implican formas alternativas de representación de un modelo.
Modelo verbal/ lógico: Este enfoque emplea analogías verbales, tales como la
metáfora y el símil; el modelo resultante a menudo se denomina un “paradigma”. En
economía, dos de los primeros paradigmas, y todavía mejores paradigmas fueron
desarrollados por el fundador de la disciplina, Adam Smith. El primero fue la fábrica de
alfileres, y el segundo, el de la “mano invisible”.
Modelo físico: En ciertos casos el sistema del mundo real es físico y puede
obtenerse un modelo mediante un ajuste a escala apropiado, hacia arriba o hacia abajo.
Así, es común que un alerón para un nuevo avión sea probado por medio de la
construcción en pequeña escala y a través de un túnel de viento. Esta representación es
realista en tanto que las influencias omitidas (por ejemplo, el esquema de colores al
interior de la cabina) son en realidad ajenas. Al mismo tiempo, es maleable en el sentido
de que puede ser construida y probada fácilmente y sin demasiado coste.
24
UCLM-2014/2015
Modelos geométricos: De enorme importancia para el desarrollo de la teoría

económica ha sido el tercer tipo de modelo, el modelo geométrico, que representa
geométricamente las relaciones. Para apreciar su importancia, basta echar un vistazo a
través de cualquier texto introductorio o intermedio de teoría económica; se encontrarán
numerosos diagramas de una u otra clase. Un modelo geométrico utiliza un diagrama
para indicar las interrelaciones entre variables.
Un ejemplo económico importante de un modelo geométrico es el de la deter-

minación del precio en un solo mercado aislado. Se obtiene a través de la combinación
de una curva de demanda para el mercado con una curva de oferta de la industria, como
en la gráfica II.2. La curva de demanda del mercado DD indica la cantidad demandada
del bien (o servicio) a precios alternativos –esto es, la cantidad total que todos los
consumidores de ese producto comprarían a un precio dado, para niveles alternativos de
ese precio. La curva de oferta de la industria, SS, indica la cantidad ofrecida de los
bienes a precios alternativos –esto es, la cantidad total que todos los productores de ese
producto venderían a un precio dado, para niveles alternativos de ese precio. El punto en
el cual las curvas de demanda del mercado y de oferta de la industria se cruzan, (p0, q0),
indica el precio y la cantidad de equilibrio, respectivamente. En este punto de equilibrio
las decisiones de compra de los consumidores son consistentes con las decisiones de
venta de los productores. Así, la gráfica II.2 muestra la determinación del precio y la
cantidad de equilibrio en un solo mercado, donde las curvas se intersectan.
Pueden tomarse en cuenta cambios en variables distintas del precio si se permite

que una o ambas curvas se desplacen. Si por ejemplo, el ingreso de los consumidores se
eleva y/o los precios de los productos, complementarios al producto bajo consideración,
caen, el resultado podría ser un desplazamiento hacia afuera de la demanda, por
25
UCLM-2014/2015
ejemplo, a D'D', porque tal variación hacia afuera de la demanda implica que, a
cualquier precio dado, mayor cantidad será demandada.
Al viejo precio de equilibrio, p0, habría un exceso de demanda sobre la oferta, lo

cual provocaría una demanda insatisfecha y por tanto el establecimiento de una presión
para que el precio se elevara. El nuevo precio de equilibrio es p1.
No obstante, la oferta también puede cambiar; si por ejemplo se presenta un

nuevo proceso de manufactura, la curva de oferta puede moverse hacia afuera, por
ejemplo, a S'S', donde, a cualquier precio dado, se ofrece más. El nuevo precio de
equilibrio, al haber movido ambas curvas, es p2.
El análisis básico de oferta-demanda que depende de un diagrama tal como lo

muestra la gráfica II.2, es empleado por entero para explicar cómo se determinan los
precios en un solo mercado.
También es ampliamente usado para anticipar los efectos de cambios cuya

influencia, ya sea sobre la curva de oferta o la de demanda, es predecible. Utilizando
este marco teórico de referencia pueden analizarse cambios tales como la promulgación
de un impuesto al consumo, las innovaciones que ahorran trabajo, aranceles más altos,
publicidad y muchos otros.
Un segundo ejemplo de un modelo geométrico es el de la determinación del

ingreso nacional de equilibrio.
La función consumo cuando sólo se aumenta ligeramente conduce a un modelo

simple de la determinación del ingreso nacional. El ingreso nacional, en particular el
producto nacional bruto, PNB, está compuesto por varias secciones de gasto, de los
cuales el más grande es el gasto en consumo.
La función consumo determina el gasto en consumo como una función del

ingreso nacional. Los otros componentes del PNB incluyen la inversión, el gasto del
gobierno y la inversión neta extranjera.
Si se supone que estos gastos son exógenos (determinados por algún otro
mecanismo), la cantidad total de gasto puede ser mostrada gráficamente mediante la
adición al consumo, para cada nivel de ingreso nacional, de este gasto exógeno.
26
UCLM-2014/2015
La curva resultante, mostrada en la gráfica II.3, puede ser interpretada como una
curva de demanda del PNB, indicando la cantidad total demandada por los
consumidores y por otras unidades (autónomas) de gasto. Como el eje horizontal es el
ingreso nacional, la línea de 45° también mide el ingreso nacional y puede ser
interpretada como la oferta del PNB.
La función de oferta agregada es una función muy sencilla que establece que
cualquier cantidad demandada (C+Z) será abastecida (Y). Así, la ecuación de oferta,
que marca la igualdad entre C+Z y Y, es una igualdad y no una identidad, y refleja la
habilidad de los empresarios para ofrecer cualquier cantidad de producción que se
demande.
También debería observarse que sólo son significativos los puntos sobre la línea
de 45° en este modelo, ya que cualquier otro punto violaría los supuestos bajo los cuales
se construye la curva de oferta. La curva y la línea se intersectan a un nivel de PNB que
es un nivel de equilibrio –esto es, donde la demanda y la oferta se igualan.
Este sencillo modelo geométrico considera algunos (obviamente no todos) de

los aspectos más importantes de la determinación del ingreso nacional para la
macroeconomía. Representa un modelo inicial, y los modelos macroeconómicos
subsecuentes, son elaboraciones que de este mismo modelo se derivan.
Ambos modelos son útiles para indicar las principales relaciones entre las
variables fundamentales que representan los fenómenos bajo investigación. No obstante,
como el número de dimensiones disponible es limitado, es necesario restringir los
modelos geométricos a relativamente pocas variables. Para tratar con más variables, es
usual que se emplee un modelo algebraico en vez de un modelo geométrico.
27
UCLM-2014/2015
4.2.2 Modelos algebraicos
El modelo algebraico, para propósitos econométricos, es el tipo de modelo más

importante; representa el sistema del mundo real a través de un sistema de ecuaciones.
Con el ejemplo macroeconómico de la determinación del ingreso nacional, el

modelo mostrado en la gráfica II.3 puede expresarse como el siguiente sistema de dos
ecuaciones
(2.4.1)
(2.4.2)
Las variables de este modelo son el consumo, C, el ingreso nacional, Y, y

el gasto exógeno, Z. Dada la función de consumo C (Y) y el gasto autónomo Z, el
sistema de ecuaciones determina los valores de equilibrio de consumo C0 y del ingreso
nacional Y0. La primera ecuación es la función consumo, una relación de
comportamiento que indica cómo responden los consumidores en términos agregados
ante el ingreso bajo sus decisiones de consumo-ahorro. La segunda ecuación es una
condición de equilibrio que establece que la suma del gasto en consumo y del gasto
exógeno es el ingreso total de equilibrio. El ingreso nacional de equilibrio se obtiene
insertando la primera en la segunda, y resolviendo para Y0 como
(2.4.3)
El consumo de equilibrio se obtiene entonces, a partir de (2.4.1), como
(2.4.4)
Las últimas dos ecuaciones están escritas como identidades porque definen Y0 y
C0, respectivamente. A estas alturas, debería observarse que el modelo y el equilibrio
obtenido son exactamente como en la gráfica II.3; los modelos algebraico y geométrico
constituyen diferentes representaciones del mismo modelo de determinación del ingreso
nacional.
Sin embargo, hay un sinnúmero de ventajas de la representación algebraica de

un modelo sobre la geometría.
Una es la facilidad de manipulación. Para ilustrar esta facilitad, derívense ambos

lados de la identidad Y0 con respecto a Z para obtener
(2.4.5)
28
UCLM-2014/2015
Reuniendo términos y observando que dC/dY0 es la propensión marginal por

consumir, PMC, definida en el tema anterior evaluada al nivel de equilibrio del ingreso
nacional,
Este resultado es conocido como el multiplicador, el cual indica el efecto múlti-

ple de un cambio en el gasto exógeno, tal como el gasto del gobierno, sobre el ingreso
nacional de equilibrio, El multiplicador depende de manera crítica del valor de la PMC.
Así, por ejemplo, una PMC de 0.8 (es decir, 80 centavos de cada dólar adicional de
ingreso se consumen, en vez de ahorrarse) implica un multiplicador de 5; esto es, existe
un efecto quíntuple sobre el ingreso ante un cambio en el gasto exógeno. En este caso,
un incremento de 1000 millones de dólares en el gasto del gobierno conduciría a un
incremento de 5000 millones en el ingreso nacional. Pero, si la PMC fuera 0.75, el
multiplicador sería 4, de modo que el gasto agregado del gobierno de 1000 millones
incrementaría el ingreso nacional en 4000 millones. Claramente, pequeños cambios en
el valor de la PMC pueden provocar grandes cambios en el multiplicador y, por tanto,
en las predicciones y en las evaluaciones de política basadas en el modelo.
Otra ventaja del modelo algebraico sobre el geométrico es la facilidad de añadir

nuevas variables y ecuaciones. Por su misma naturaleza, la geometría está confinada
a sólo dos o tres dimensiones. No obstante, el álgebra no está restringida de esa
forma y por lo tanto, los modelos algebraicos pueden ser ampliados, desagregados y
generalizados de muchas maneras.
El modelo macroeconómico simple definido por (2.4.1) y (2.4.2), ejemplifica la

naturaleza general de los modelos algebraicos. Tales modelos constan de varias
ecuaciones que pueden ser de comportamiento, como la función consumo (2.4.1), una
condición de equilibrio, tal como la del ingreso nacional (2.4.2), o de algún otro tipo,
pero cada ecuación con un significado y un papel separados en el modelo. El modelo
determina los valores de ciertas variables, llamadas variables endógenas, variables
conjuntamente dependientes del modelo que se determinan de manera simultánea por
las relaciones del modelo. En este caso el consumo y el ingreso nacional son las
variables endógenas, mismas que van a ser explicadas o predichas.
El modelo también contiene otras variables, llamadas variables exógenas, que son
determinadas fuera del sistema pero que lo influyen afectando los valores de las
variables endógenas. Las variables exógenas afectan al sistema pero no son afectadas
por él. Aquí el gasto exógeno es una variable de ese tipo.
El modelo también contiene ciertos parámetros, que generalmente son estimados

por medio de técnicas econométricas e información relevante. En este caso, los
parámetros son los que aparecen en la función consumo.
29
UCLM-2014/2015
Por supuesto, hay una amplia gama de formas funcionales disponibles para un
modelo algebraico; y la elección de una en particular depende de la aceptabilidad
teórica, la plausibilidad, la facilidad de estimación, la bondad del ajuste, la capacidad de
predicción, etcétera.
4.2.3 Modelos econométricos
Un modelo econométrico es un tipo especial de modelo algebraico, estocástico,

esto es, que incluye una o más variables aleatorias. Representa un sistema a través de un
conjunto de relaciones estocásticas entre las variables del sistema.
Un modelo econométrico puede ser lineal o no lineal. En el primero, el modelo

es lineal en sus parámetros. El supuesto de linealidad es muy importante tanto para
probar teoremas matemáticos y estadísticos en relación con tales modelos, como para
calcular los valores que adoptan las variables en los mismos. El modelo macro
[económico], definido en el punto anterior, es lineal si la función consumo es de la
forma
Aquí a y b son los parámetros relevantes; b tiene la interpretación de la propen-

sión marginal al consumo, que aquí se supone constante. Entonces el multiplicador es
La razón por la cual se supone linealidad (en los parámetros) es la conveniencia

y la maleabilidad de este supuesto. A pesar de que una cantidad considerable de trabajo
ha sido desarrollado sobre modelos no lineales, el caso lineal es aún el más importante y
común, y para él existe una abundante colección de técnicas y aplicaciones. En general
a la no linealidad se le aborda únicamente cuando aparece de manera esencial. Por lo
tanto, no debería exagerarse la importancia del supuesto de linealidad.
Importancia del supuesto de linealidad.
Primero: muchas relaciones económicas, y en otras ciencias sociales, son

lineales por naturaleza propia. La condición de equilibrio del ingreso nacional, por
ejemplo, es lineal, tanto como lo son las definiciones de gasto, ingreso, costo y
ganancia.
Segundo: el supuesto de linealidad sólo se aplica a los parámetros, no a las

variables del modelo. Así, la forma cuadrática de la función consumo
30
UCLM-2014/2015
A pesar de ser no lineal en la variable Y, es lineal en los parámetros, en este

caso, los parámetros a, b y C.
Tercero: Una tercera razón es que, a menudo, un modelo puede ser transformado en
un modelo lineal. La transformación logarítmica puede emplearse en muchos casos. A
continuación destacamos los principales ejemplos que se pueden dar.
 Así, por ejemplo, el modelo de crecimiento proporcional constante,
Bajo una transformación logarítmica se convierte en
Que es lineal en los parámetros ln N0 el intercepto, y α, la pendiente.
 De manera similar, considérese la función de elasticidad constante de la

demanda
Donde q es la cantidad demandada, p es el precio e I es el ingreso; q0, є y η son

los parámetros, siendo los dos últimos las elasticidades precio e ingreso de la demanda,
respectivamente. Utilizando una transformación logarítmica
Una ecuación que es lineal en los parámetros.
 Un tercer ejemplo es la función de producción de Cobb-Douglas
Donde Y es la producción; K, el capital; L, el trabajo; y A, α y β parámetros.

Esta función de producción puede ser transformada en un modelo lineal tomando
logaritmos. El resultado es
31
UCLM-2014/2015
Que es lineal en los parámetros a, α y β.
Cuarto: Una cuarta razón para no exagerar el supuesto de linealidad es que

cualquier función continua puede ser aproximada de modo razonable por una función
lineal en un rango apropiado; por ejemplo, vía una serie de expansión de Taylor.
Considérese, por ejemplo, la función de producción general
Que expresa la producción como una función general del capital y el trabajo. Si
la función es continua, puede ser aproximada como una función lineal en un rango apro-
piado simplemente tomando la porción lineal de la serie de expansión de Taylor. Al
expandir alrededor de los niveles base de (K0, L0)
Donde la función y sus derivadas parciales son todas evaluadas al nivel base.
Así, en un pequeño rango alrededor del punto (K0, L0)
Donde, denotando a las derivadas parciales mediante productos marginales,

escritos PMK y PML,
Otra característica importante de un modelo econométrico es su calidad de

estocástico, en oposición al determinístico. Un modelo estocástico incluye variables
aleatorias, no así un modelo determinístico. Es común que el patrón de construcción de
modelos involucre al inicio la elaboración de modelos determinísticos y eventualmente,
donde resulte apropiado, la conformación y empleo de modelos estocásticos. La Física
representa una ilustración excelente de este patrón. Los modelos tempranos, tales como
los de la mecánica newtoniana, son determinísticos; en tanto que los modelos
posteriores, como los de la mecánica cuántica, son estocásticos. En realidad, la
revolución de los cuantas en Física consistió en la revolucionaria observación de que
uno no podría identificar, por ejemplo, la localización exacta de una partícula elemental,
pero sí determinar una distribución probabilística de su localización.
32
UCLM-2014/2015
Para apreciar la naturaleza de los modelos estocásticos en Economía,

considérese de nuevo al modelo macro [económico] simple (2.4.1) y (2.4.2), donde la
función del consumo simple (2.4.1) ha sido remplazada por la función de consumo
lineal (2.5.1).
Esta función específica que, a cualquier nivel de ingreso nacional Y, el consumo

está determinado en forma precisa como el número a + bY. Esto no es razonable.
Además del ingreso, muchos otros factores pueden afectar, y de hecho afectan, al
consumo, tales como la riqueza, los precios, las preferencias, etc. Más aún, la relación
puede no ser tan simple como la que viene dada por la función de consumo lineal
(2.5.1), y las variables pueden estar medidas de modo inexacto. Por lo tanto, es más
razonable estimar C, a un nivel dado de Y, como en promedio a + bY. En general, el
consumo caerá dentro de un cierto intervalo de confianza, es decir,
Donde C es el consumo al nivel dado de ingreso nacional Y y ∆ indica el nivel

por arriba o por debajo del valor promedio de manera tal que, con un elevado nivel de
confianza, el consumo cae en el intervalo definido. El valor de puede ∆ ser determinado
mediante el supuesto de que C es en sí mismo una variable aleatoria con una función de
densidad particular.
Debido al teorema del límite central, la distribución normal es la que se supone

generalmente y, en este caso, C puede representarse como en la gráfica II.4. En general,
33
UCLM-2014/2015
el término "en promedio" se refiere al valor de la media, de modo que a + bY es la

media de C. (Recuérdese que Y está dado, de manera que a + b Y es sólo un número.)
Entonces la ∆ puede ser elegida, como se ilustra, de modo que 90% de la distribución
esté incluida en el intervalo de confianza, donde cada una de las colas de la distribución
contiene 5% de la distribución. En general, un modelo econométrico únicamente
especifica la distribución probabilística de cada variable endógena, dados los valores
tomados por todas las variables exógenas y dados los valores de todos los parámetros
del modelo.
Para terminar este punto, cabe distinguir, entre modelos econométricos estáticos
o dinámicos. Un modelo estático no involucra dependencia explícita del tiempo, de
modo que el tiempo no es esencial en el modelo.
Un modelo dinámico es aquel en el cual el tiempo tiene un papel esencial, por

ejemplo, si son parte del modelo variables desfasados o diferencias de variables en el
tiempo. Así, si cualquier ecuación del modelo es una ecuación en diferencias, entonces
el modelo es dinámico.
4.3 INFORMACIÓN ECONÓMICA Y MODELIZACIÓN
4.3.1. Los datos en el análisis econométrico
El conjunto de datos económicos pueden ser de clases muy variadas.
Series temporales: consiste en observaciones sobre una variable o distintas

variables a lo largo del tiempo. Los precios de las acciones, la oferta monetaria, los IPC,
PIB, las tasas anuales de homicidio o las cifras de venta de automóviles son ejemplos de
series temporales.
Datos transversales: son aquellos datos de una o más variables recopiladas en

un momento determinado. Un conjunto de datos de corte transversal es una muestra
compuesta por individuos, familias, empresas, ciudades, estados, países u otro tipo de
unidades variables recogida en un momento determinado. Otro ejemplo es una encuesta
sobre los gastos de los consumidores.
Datos combinados: reúne elementos de series temporales y transversales. Por

ejemplo, recopilar datos de los años anteriores y posteriores a un acontecimiento, y
observar cómo una relación clave ha cambiado con el tiempo (ejemplo, políticas
gubernamentales)
Datos en panel, longitudinales y en micropanel: consiste en series temporales

para cada unidad de corte transversal del conjunto de datos. Por ejemplo, supongamos
que tenemos un registro de datos sobre el salario, la educación, el historial de empleo, o
datos financieros o de inversión durante un periodo de cinco años. A diferencia de los
34
UCLM-2014/2015
datos combinados, los datos de panel mantiene el registro de las mismas unidades de
sección cruzada (individuos, empresas…) durante un periodo de tiempo determinado.
4.3.2. Fuentes de datos para el análisis económico.
- Datos para el análisis empírico
- Observaciones sobre las escalas de medición de las variables.
Matriz de información [Y/X] X= Matriz n*k observaciones de las variables exógenas
Y= Vector n*1 variables endógenas.
4.3.3 Datos, información y modelización (la problemática de los datos en la

modelización)
En general, a la hora de construir un modelo, la información que necesitamos no

está disponible de la forma que desearíamos.
Debemos decidir entonces cómo expresar los datos (en cantidades nominales o
reales, totales o per cápita, niveles absolutos o relativos…). Además debemos decidir si
utilizamos variables “proxy”.
Por otro lado, en muchas ocasiones, los datos que disponemos hay que tratarlos
de distinta manera (eliminando la tendencia, ajuste estacional para poder comparar
series y centrarnos en el fenómeno de interés, etc.).
Aparte de estas decisiones, encontramos problemas en las fuentes estadísticas, en los

métodos de obtención de datos, problemas por cambio de estructura y problemas
técnicos.
E) Problema atribuible a la fuente estadística
Dentro de este tipo de problemas tenemos:
 Lagunas estadísticas: por diversas razones, no siempre existen todos los datos
referentes a un fenómeno, bien por conflictos bélicos, bien por otros problemas.
Entonces procedemos a la aplicación de fórmulas de interpolación y
extrapolación.
 Cambios metodológicos: cuando extraemos información de una fuente
estadística, debemos prestar atención a los posibles cambios en la variable.
- Cambios metodológicos conceptuales: cambia la denominación de la
variable que recoge el fenómeno en estudio.
- Cambios en los criterios de valoración: la misma variable se obtiene por
agregación distinta a la que se venía obteniendo.
- Cambios en el año base de referencia.
35
UCLM-2014/2015
Debido a estos cambios metodológicos procedemos a la homogeneización de las

series.
F) Atribuibles al método de obtención
Pueden producirse fundamentalmente por dos motivos:

- Errores de muestreo: por la simple equivocación al realizar el muestreo, o
por errores al transcribir los resultados del muestreo.
- Errores de observación o medida: los datos objeto de estudio están sujetos a
diversas desviaciones e imprecisiones, provocados, en algunos casos, por
falta de una correcta conceptualización. En este caso se han de reconfigurar
los datos para poder hacerlos comparables y consistentes en el tiempo.
G) Cambios estructurales
Son cambios debido a que los datos son estructuralmente heterogéneos provocados por:
- Cambios estructurales en el tiempo: por ejemplo, podemos estar trabajando

con series con observaciones hasta el año 1999, y encontrarnos con datos
hasta el 90 con año base 80, y a partir de 1991 con año base 86. No podemos
mezclarlos, habría que transformar uno de los dos en el año base del otro.
- Cambios estructurales entre individuos: puede producirse un cambio
discontinuo en el mundo real de modo que los datos se refieran a diferentes
poblaciones. Por ejemplo, en los conflictos bélicos, la situación anterior y
posterior a este conflicto es diferente: menos población, tejidos industriales
destruidos, etc.
H) Problemas técnicos
Problemas derivados de la técnica a utilizar:

- Grados de libertad
- Variables no observables: variables “proxy”.
- Multicolinealidad ( dependencia entre variables explicativas)
- Autocorrelación serial.
Otra cuestión de suma importancia es el tratamiento y depuración de datos.
Tratamiento y depuración de datos
El reto de los datos se afronta gracias a una serie de tratamientos y medidas de

depuración donde destacan las siguientes técnicas:
- Interpolación y extrapolación de datos.

- Alisado de series.
- Eliminación de puntos erráticos.
36
UCLM-2014/2015
- Homogeneización de series.
- Solución de problemas técnicos.
Problemática específica de series temporales
- Componente de una serie histórica
- Componente de una serie cronológica:
= Componente tendencial
= Componente cíclica
= Componente estacional
= Componente errática
- Esquema de composición:
 Aditivo:
 Multiplicativo:
 Mixto:
- Análisis clásicos de series:
 Series de alta frecuencia
 Series de baja frecuencia
- Análisis de tendencia:
 Determinación de la tendencia
o Técnicas de alisado: alisado por medias móviles y alisado
exponencial.
o Ajuste de funciones matemáticas:
 Eliminación de la tendencia:
o Cálculo de tasas de crecimiento
o Diferenciación de series
 Análisis de estacionalidad
o Tipos de estacionalidad.
o Técnicas de análisis de estacionalidad rígida.
o Técnicas de análisis de estacionalidad no rígida
o Métodos de desestacionalización CENSUS II: algoritmo X-1
37
UCLM-2014/2015
TEMA 5. CONSTRUCCIÓN DE MODELOS ECONOMÉTRICOS
5.1. MODELOS BÁSICOS DE REGRESIÓN I: ESPECIFICACIÓN Y

ESTIMACIÓN.
5.1.1. SUPUESTOS DEL MODELO LINEAL GENERAL (MLG).
Gran parte del análisis econométrico comienza con las siguiente premisa: Y y X
son dos variables que representan a una población, y estamos interesados en “explicar Y
en términos de X” o “ estudiar cómo varía Y con los cambios de X”.
Al crear un modelo que “explique Y en términos de X” nos enfrentamos a tres

problemas:
1. Dado que nunca se da una relación exacta entre dos variables, ¿cómo permitir
que otros factores afecten a Y?
2. ¿Cuál es la relación funcional existente entre Y y X?
3. ¿Cómo podemos asegurarnos de estar captando una relación ceteris paribus
*entre Y y X (siempre y cuando éste sea el objetivo buscado)?
*Ceteris paribus: significa “otros factores (relevantes) siendo iguales”. Desempeña un

papel importante en el análisis causal. Por ejemplo, al analizar la demanda de los
consumidores, lo que nos interesa es conocer el efecto que tiene la variación del precio
de un bien sobre la cantidad demandada manteniendo fijos los demás factores
(ingresos, precios de otros bienes, gustos individuales…) si los demás factores no se
mantienen fijos, no podremos saber cuál es el efecto causal de la variación del precio
sobre la cantidad demandada.
Podemos resolver estos interrogantes estableciendo una ecuación que relacione

Y y X, y una forma simple de hacerlo sería:
(2.1)
Y= recibe el nombre de variable dependiente o explicada
X= Se la denomina variable independiente o explicada
U= Denominada término de error o perturbación en la relación, representa factores

distintos de X que afectan a Y.
Esta ecuación ( 2.1) también da respuesta a l problema de la relación funcional

entre Y y X. si los demás factores de U se mantienen fijos, de manera que el cambio en
U sea nulo, , entonces X tiene un efecto lineal sobre Y:
, si
38
UCLM-2014/2015
De esta manera, el cambio en Y es simplemente multiplicado por el cambio

en X. Esto significa que es el parámetro de la pendiente en la relación entre Y y X
manteniendo los demás factores de U fijos; este parámetro es de mucho interés en
economía aplicada.
La linealidad de (2.1) implica que el cambio de una unidad en X tiene el mismo

efecto sobre Y, independientemente del valor inicial de X. Se trata de un supuesto poco
realista para muchas de las aplicaciones económicas.
Por ejemplo, en el caso de los salarios y la formación, nos podría interesar

permitir que los rendimientos fueses crecientes: el siguiente año de formación tienen
mayor efecto sobre los salarios que el que tuvo el año anterior.
La cuestión más complicada es saber si el modelo (2.1) nos permite realmente

sacar conclusiones ceteris paribus sobre cómo X afecta a Y.
En definitiva, para sacar conclusiones y llevar a cabo nuestro objetivo contamos

con un elenco de supuestos simplificadores. Antes de enumerar estos supuestos vamos a
clasificar las variables de un modelo econométrico.
Clasificación de variables en un modelo econométrico
La principal clasificación es la de:
Variable Endógena: es aquella explicada por otras variables. Es denotada por y .
Variables Exógenas: explican a la endógena pero no pueden estar influidas por ella.
Puede haber k variables explicativas y son denotadas por x1 , x2 ,..., xk .
Hay que tener en cuenta que esta distinción varía dependiendo del modelo
econométrico en particular y su objetivo. Así, una exógena en un modelo puede pasar a
ser la endógena de otro. Ej. C  f (Y )   y Y  f (M )   , donde M es cantidad de
dinero.
Variables continuas: pueden tomar valores en todos los puntos de la recta real ( C e Y ).
Variables discretas: sólo toman valores en algunos puntos de la recta real.
Un ejemplo son las variables ficticias que toman valor uno o cero. La idea es
que hay características que no se pueden medir (en euros, en kilos, etc.), pero que
pueden ser factores relevantes a la hora de explicar a otra variable. Por ejemplo, en la
función de consumo familiar, además de la renta, el hecho de que la familia viva en el
campo o en la ciudad puede ser relevante para explicar diferencias en el consumo. Para
ello, se construye una variable ficticia que toma uno para las familias que viven en la
39
UCLM-2014/2015
ciudad y cero para las que viven en el campo ( Di ) y se introduce como una exógena
más en el modelo.
EL MODELO DE REGRESIÓN LINEAL SIMPLE Y GENERAL
El objetivo es especificar, estimar y contrastar relaciones entre variables

económicas usando datos.
Para ello, es necesario hacer una serie de hipótesis simplificadoras
5.1.1.1 Supuestos simplificadores
(1) Hipótesis de linealidad en los parámetros.
Establece la linealidad en los parámetros en la relación entre la variable endógena y

las exógenas. Es decir, en la función de consumo tendremos.
Ct  1  2Yt   t
donde 1 y  2 son los parámetros de esta relación. No hay que confundir esta hipótesis
de linealidad con la linealidad entre las variables. Por ejemplo, en las relaciones entre y
y x que se dan a continuación, sólo la primera es formalmente lineal. Sin embargo,
cumplen la hipótesis de linealidad en los parámetros las tres:
y  1  2 x
y  1  2e x
y  1  2 ln x
En determinadas relaciones económicas no se cumple la hipótesis de linealidad

en los coeficientes. Un ejemplo sencillo es la función de producción de tipo Cobb-
Douglas, donde Y representa el output de la empresa, L es trabajo y K es el stock de
capital:
Y  AK  L
Los parámetros desconocidos de esta función son A (parámetro de eficiencia),

 (elasticidad del output con respecto al capital) y  (elasticidad del output con
respecto al trabajo). Una simple transformación logarítmica en los datos, hace que esta
relación cumpla la linealidad en los parámetros. Es decir:
ln Y  ln A   ln K   ln L
40
UCLM-2014/2015
Ejemplos de relaciones entre variables económicas no lineales en los parámetros

hay muchos, por ejemplo, en una función de Consumo no lineal como:
C  a  bY c
donde a, b y c son los parámetros que caracterizan esta relación. En este caso, habría
que estimar estos tres parámetros dada una muestra de C y Y. Contrastar una relación
lineal entre C y Y, equivale a contrastar si el parámetro c es unitario o no.
(2) Hipótesis de especificación correcta.
Esta hipótesis supone que las k variables explicativas del modelo son aquellas
variables relevantes que explican el comportamiento de la endógena. Y que están todas.
No existe ninguna variable xi que no explique nada de la y . Es decir, el modelo está
bien planteado o especificado.
Esta hipótesis supone aceptar en la práctica dos cosas no siempre ciertas:
a. Aceptar que siempre hay una teoría detrás que me permite saber cuáles
son las variables relevantes en cada modelo.
b. Aceptar que sobre estas variables dispongo siempre de información
muestral adecuada.
El incumplimiento de esta hipótesis se da en muchos casos. Ejemplo: Si uno quiere

estimar con datos de sección cruzada una función de consumo keynesiana, además de la
renta familiar, existen otras muchas variables que explican el comportamiento del
consumo de una familia. Por ejemplo, el número de hijos, la edad del cabeza de familia,
si la mujer trabaja o no, si se vive en el campo o en la ciudad, etc. Sin embargo, nunca
será posible incluir todas y cada una de las variables que determinan el consumo de una
familia.
(3) Hipótesis de grados de libertad positivos.
Los grados de libertad de un modelo se definen como la diferencia entre el

número de datos ( n ) y el número de variables explicativas ( k ). Es decir, gl  n  k  0 .
Esta hipótesis supone que, como mínimo, es necesario disponer de tantos datos como
parámetros a estimar.
No obstante, es preferible siempre disponer de más datos que parámetros a
estimar. En el ejemplo de la función de consumo keynesiana hay que estimar dos
parámetros (a y b). Con un único dato, no sería posible estimar de forma única ambos
parámetros. Con dos datos, sería posible obtener una única estimación de a y b, pero
para que la estimación sea estable, es mejor tener una nube de datos y pocos parámetros
a estimar.
(4) Hipótesis de parámetros constantes.
Esta hipótesis supone que los parámetros 1 , 2 ,..., k son constantes en el tiempo.
41
UCLM-2014/2015
Si trabajamos con n datos en la función de consumo keynesiana, suponer que la

propensión marginal a consumir es constante en el tiempo, implica que se obtiene una
estimación que ha de interpretarse como la propensión marginal a consumir media en
ese período de tamaño n.
Si el período muestral con el que se trabaja es muy amplio y heterogéneo (por

ejemplo, incluye períodos de crisis y de auge), es más difícil mantener esta hipótesis
que si la muestra es homogénea.
(5) Hipótesis de independencia lineal entre las variables explicativas.
Esta hipótesis implica que cada variable explicativa contiene información adicional
sobre la endógena que no está contenida en otras. Si hubiera información repetida,
habría variables explicativas dependientes linealmente de otras. Formalmente, se puede
resumir la información muestral sobre las k variables explicativas (regresores) en una
matriz, denotada por X , de tamaño n  k con la siguiente estructura:
 x11 x1k 
 
 
x xnk 
 n1
donde cada columna recoge los datos asociados a cada variable x . El hecho de que
cada columna sea linealmente independiente de las otras implica que el rango de la
matriz X es completo, es decir, igual a k . Si alguna variable x es linealmente
dependiente de otra, decimos que existe un problema de multicolinealidad exacta.
(6) Hipótesis de regresores no estocásticos.
Esta hipótesis implica que los datos de las variables explicativas son fijos en
muestras repetidas. Es decir, el valor de las variables explicativas es constante en la
función de distribución de la endógena.
Existen tres situaciones en Econometría donde no es posible mantener esta hipótesis:
(6.1) Modelos de ecuaciones simultáneas. Por ejemplo, un modelo de demanda y de

oferta de un bien que se intercambia en un mercado competitivo en equilibrio, se puede
escribir:
qtd  a  bpt  1t
pt  c  dqto   2t
qtd  qto , t  1, 2, ,n
42
UCLM-2014/2015
donde se observa una relación bidireccional entre el precio ( pt ) y la cantidad

intercambiada ( qtd o qto ), de forma que el precio es una exógena en la ecuación de
demanda y pasa a ser la endógena en la ecuación de oferta y por tanto, esto hace que sea
un regresor estocástico.
(6.2) Modelos dinámicos en los que aparecen como regresores sucesivos retardos de la
variable endógena. Por ejemplo, si en la relación entre consumo y renta se supone un
modelo dinámico como:
Ct  1  2Ct 1  3Yt   t
donde el propio modelo indica que el consumo retardado es un regresor estocástico al

depender un error aleatorio,  t 1 . Es decir:
Ct 1  1  2Ct 2  3Yt 1   t 1
(6.3) Modelos con errores de medida en las variables explicativas. Bajo la hipótesis de
renta permanente de Friedman, el consumo sólo depende del componente permanente
de la renta ( Yt P ):
Ct  bYt P   t
Yt  Yt P  YtT
donde el componente transitorio ( Yt T ) o las desviaciones aleatorias alrededor de la renta

media de un agente no es observable. Por tanto, la renta permanente ( Yt P ) es un regresor
estocástico, ya que Yt P  Yt  YtT .
De hecho, estos 3 incumplimientos dan lugar a 3 temas de econometría.
(7)Valores fijos de X, o valores de X independientes del término de error:
Los valores que toma la regresora X pueden considerarse fijos en muestras repetidas (el
caso de la regresora fija), o haber sido muestreados junto con la variable dependiente Y
(el caso de la regresora estocástica). En el segundo caso se supone que la(s) variable(s)
X y el término de error son independientes, esto es, cov (Xi, ui )= 0.
(8) Las variables independientes son fijos o deterministas ( no aleatorios)
5.1.1.2 Término de perturbación estocástica
La razón por la que no metemos todas las variables posibles en un modelo se debe a las
siguientes causas:
43
UCLM-2014/2015
- Falta de disponibilidad de datos

- Variables centrales y periféricas
- Aleatoriedad intrínseca en el comportamiento humano
- Variables representativas ( proxy) – inadecuadas.
- Principio de parsimonia
- Forma funcional incorrecta
Como habíamos dicho, el término de perturbación ui es un sustituto de todas las

variables que se omiten en el modelo, pero que, en conjunto, afectan a Y. La pregunta
obvia es: ¿por qué no se introducen explícitamente estas variables en el modelo? O de
otra forma, ¿por qué no se crea un modelo de regresión múltiple con tantas variables
como sea posible? Las razones son muchas.
1. Vaguedad de la teoría
De existir una teoría que determine el comportamiento de Y, podría estar

incompleta, y con frecuencia lo está. Se tendría quizá la certeza de que el ingreso
semanal X afecta el consumo semanal Y, pero también ignoraríamos, o no tendríamos la
seguridad, sobre las demás variables que afectan a Y. Por consiguiente, ui sirve como
sustituto de todas las variables excluidas u omitidas del modelo.
2. Falta de disponibilidad de datos
Aunque se conozcan algunas variables excluidas y se considerara por tanto una

regresión múltiple en lugar de una simple, tal vez no se cuente con información
cuantitativa sobre esas variables. Es común en el análisis empírico que no se disponga de
los datos que idealmente se desearía tener. Por ejemplo, en principio se puede introducir
la riqueza familiar como variable explicativa adicional a la variable ingreso para explicar
el consumo familiar. Pero, por desgracia, la información sobre riqueza familiar por lo
general no está disponible. Así, no habría más que omitir la variable riqueza del modelo
a pesar de su gran relevancia teórica para explicar el consumo.
3. Variables centrales y variables periféricas
Suponga en el ejemplo consumo-ingreso que además del ingreso X 1 hay otras

variables que afectan también el consumo, como el número de hijos por familia X 2 , el
sexo X 3 , la religión X 4 , la educación X 5 y la región geografía X 6 . Pero es muy
posible que la influencia conjunta de todas o algunas de estas variables sea muy
pequeña, o a lo mejor no sistemática ni aleatoria, y que desde el punto de vista práctico
y por consideraciones de costo no se justifican que su introducción explícita en el
modelo. Cabría esperar que su efecto combinado pueda tratarse como una variable
aleatoria u i.
4. Aleatoriedad intrínseca en el comportamiento humano
Aunque se logre introducir en el modelo todas las variables pertinentes, es

posible que se presente alguna aleatoriedad “intrínseca” en Y que no se explique, a
44
UCLM-2014/2015
pesar de todos los esfuerzos que se inviertan. Las perturbaciones, u, pueden reflejar muy
bien esta aleatoriedad intrínseca.
5. Variables representantes (proxy) inadecuadas
A pesar de que el modelo clásico de regresión (que veremos en el capítulo 3)

supone que las variables Y y X se miden con precisión, en la práctica, los datos pueden
estar plagados de errores de medición. Consideremos, por ejemplo, la famosa teoría de
la función de consumo postulada por Milton Friedman. Él considera el consumo
permanente (Yp) como función del ingreso permanente (Xp).
Pero como la información sobre estas variables no es observable directamente,

en la práctica se utilizan variables representantes (proxy), como el consumo actual (Y) y
el ingreso actual (X), que sí son observables. Como las Y y las X observadas pueden no
ser iguales a Yp y Xp, existe el problema de errores de medición. El término de
perturbación u en este caso puede representar también los errores de medición. Como
veremos en un capítulo posterior, de existir tales errores de medición, pueden tener
graves repercusiones en la estimación de los coeficientes de regresión, β.
6. Principio de parsimonia
De acuerdo con el principio de la navaja de Occam, conviene mantener el

modelo de regresión lo más sencillo posible. Si se explica “sustancialmente” el
comportamiento de Y con dos o tres variables explicativas, y si la teoría no es bastante
fuerte para indicar otras variables que pueden incluirse, ¿para qué introducir más
variables? Que ui represente todas las demás variables. Por supuesto, no se deben
excluir variables pertinentes e importantes sólo para que el modelo de regresión no se
complique.
7. Forma funcional incorrecta
Aunque se cuente con variables teóricamente correctas para explicar un

fenómeno y se obtengan datos sobre ellas, con frecuencia no se conoce la forma de la
relación funcional entre la variable regresada y las regresoras. ¿Es el consumo una
función lineal (invariable) del ingreso, o es una función no lineal (invariable)? Si se
trata de lo primero, Y i= β1 + β2X1 + ui es la relación funcional adecuada entre Y y X,
pero en el segundo caso, Yi=β1 + β2Xi + β3X2i + ui puede ser la forma funcional
correcta.
En los modelos con dos variables, la forma funcional de la relación a menudo se

puede inferir del diagrama de dispersión. Sin embargo, en un modelo de regresión
múltiple no es fácil determinar la forma funcional apropiada, pues los diagramas de
dispersión no se visualizan gráficamente en múltiples dimensiones. Por todas estas
razones, las perturbaciones estocásticas u i asumen un papel muy valioso en el análisis
de regresión, que apreciaremos a medida que avancemos.
45
UCLM-2014/2015
5.1.1.3 Supuestos referentes a las perturbaciones aleatorias del modelo
El término de error  t satisface las siguientes hipótesis:
1. Esperanza nula en todo instante de tiempo: E ( t )  0, t  1, 2, n.
Ya que  t es tratado como la suma de muchos efectos individuales sobre la

endógena, donde el signo de cada uno es desconocido, no existe ninguna razón para
esperar cualquier valor distinto de cero. Supongamos que E ( t )   , entonces el
modelo 1  2 xt   t es el mismo que (1   )  2 xt  ( t   ) , donde el nuevo
término de error:  t*   t   , es tal que la E ( t* )  0 .
Una situación en la que se incumple esta hipótesis, es cuando a su vez, se incumple otra,
como es omitir en el modelo una variable relevante. Si la verdadera función de consumo
es
Ct  a  bYt  cit   t
donde it es un tipo de interés y se trabaja con un modelo que omite esta variable:
Ct  a  bYt  t
donde  t es el término de error de esta ecuación y además, se sabe que  t  cit   t .

Es fácil comprobar que E ( t )  cit  0 , aunque  t tenga esperanza nula. Se usan las
hipótesis de parámetros constantes y regresores no estocásticos.
Por otro lado, los valores negativos de la perturbación estocástica se compensan con
valores positivos y no representan ningún efecto en la variable. Geométricamente, este
supuesto se representa mediante una gráfica, como en la figura 3.3, que muestra algunos
valores de la variable X y las poblaciones Y asociadas a cada uno de ellos. Puede
46
UCLM-2014/2015
observar que cada población Y correspondiente a un X dado está distribuida alrededor

de su media (que se representa por los puntos dentro de un círculo sobre la FRP), con
algunos valores de Y por encima y por debajo de ésta. Las distancias por encima y por
debajo de los valores medios no son otra cosa que la ui .
2. Varianza constante (Homocedasticidad).
Supone que al cumplirse (7.1), la var( t )  E ( t2 )   2 , t  1, 2, , n . Si la

variabilidad (o dispersión alrededor de la media) de las perturbaciones cambia con el
tiempo hablamos de heterocedasticidad. Gráficamente:
Es muy frecuente la heterocedasticidad en modelos donde se usan datos de

sección cruzada. Si tenemos la función de consumo familiar utilizada hasta ahora, es
fácil comprender que aquellas familias con mayor nivel de renta tengan mayor
variabilidad en su consumo (además de satisfacer necesidades básicas, pueden consumir
otras cosas). Puesto que el error del modelo está relacionado con el consumo, lo que
ocurrirá es que a mayor renta, mayor varianza en el consumo y por tanto, mayor
varianza en el error.
3. Ausencia de autocorrelación en todo instante de tiempo.
Implica que la cov( t  s )  E( t s )  0, t, s  1, 2, n, t  s . Si hay autocorrelación,

el error en un momento del tiempo ayudaría a predecir el error en un momento posterior
y los errores tendrían inercia. Si no hay autocorrelación, la historia pasada no ayuda a
47
UCLM-2014/2015
predecir el comportamiento futuro y los errores son completamente aleatorios e

imprevisibles. Gráficamente:
Es muy frecuente el incumplimiento de esta hipótesis en modelos donde se usan

datos de series temporales.
Estas restricciones se imponen para exigir “un buen comportamiento” a las

variables  t , aunque también hay razones técnicas que nos obligan a hacer estas
hipótesis. Puesto que tenemos n variables aleatorias (1, 2 ,  n ) , su caracterización
exige hablar, al menos, de sus dos primeros momentos (media y varianza):
Media: Sería un vector de n medias, E ( )   .
  1   1 
   
E .  = . 
    
 n  n
4. Matriz de varianzas y covarianzas (MVC):
Sería una matriz que recoge las varianzas de cada variable en la diagonal
principal y las covarianzas entre una perturbación y otra diferente fuera de la diagonal.
Es simétrica, definida positiva y de tamaño n  n .
48
UCLM-2014/2015
 var(1 ) cov(1 2 ) . cov(1 n )   E (12 ) E (1 2 ) . E (1 n ) 

   
cov( 21 ) var( 2 ) . cov( 2 n )   E ( 21 ) E ( 22 ) . E ( 2 n ) 
var( )   
 . . . .   . . . . 
   
 cov( n1 ) cov( n 2 ) . var( n )   E ( n1 ) E ( 2 n ) . E ( n2 ) 
n(n  1)
Los elementos diferentes de dicha matriz son . No obstante, si la
2
muestra disponible es de tamaño n , ya no tenemos grados de libertad para caracterizar
n(n  1)
el término de error, ya que habría que estimar n medias y varianzas y
2
covarianzas distintas. Las hipótesis (7) hacen que el vector de medias sea nulo y la
matriz de var-cov una matriz diagonal, en donde sólo habría que estimar la varianza
constante  2 , ya que por ausencia de autocorrelación todas las covarianzas son cero.
5.1.2 ESPECIFICACIÓN DE LOS MODELOS ECONOMÉTRICOS
Como habíamos expresado al principio de este tema, el objetivo consistía en

especificar, estimar y contrastar relaciones entre variables econométricas usando datos.
Pues bien, vamos a empezar como punto de partida analizando la especificación

del modelo que, en nuestro caso, viene expresado a través de un modelo de Regresión
Lineal General de k variables exógenas Xi en un modelo de regresión poblacional de k
variables (FRP) con la variable dependiente Y y K-1 variables explicativas, X2,
X3…Xk.
Vamos a interpretar por tanto la FRP como la medida o el valor esperado de Y

condicionado a los valores fijos (en muestras repetidas) de X2, X3,…Xk. Es decir,
Dicho de otra forma, suponemos el comportamiento de una variable

endógena que puede ser explicado mediante una relación lineal de k variables
exógenas, xj , más un término de error o perturbación aleatoria, u, que recoge el efecto
conjunto con otras variables no directamente explicitadas en el modelo, cuyo
efecto individual no resulta relevante:
Partimos de n observaciones seleccionadas del sistema real:
49
UCLM-2014/2015
Se podrá plantear un sistema de ecuaciones, en el que cada ecuación será el modelo

definido para cada uno de la n datos o puntos muéstrales:
Podemos denotar este sistema de ecuaciones en forma matricial del modelo de

Regresión Lineal General (de k variables)
Y= vector columna nx1 observaciones sobre la variable dependiente Y.
X= es la matriz de datos Nuk, con n observaciones sobre los K-1 variables.

Habitualmente se trabaja con término independiente, con lo cual, en la matriz X
aparecerá una primera columna de 1: La primera columna de números 1 representa el
término del intercepto.
β= vector columna kx1 de los parámetros desconocidos.
Generalmente se representa:
Se denomina Modelo Básico, ya que juega un papel muy importante en la

modelización econométrica cuando se simplifica al máximo mediante las
siguientes hipótesis de trabajo:
50
UCLM-2014/2015
 Las variables exógenas son no estocásticas, y no existe entre ellas

ninguna relación lineal exacta.
 El término de error o perturbación aleatoria tiene media nula y
varianza constante para todas las observaciones.
No existe correlación entre los errores correspondientes a observaciones diferentes.

La especificación lineal del modelo junto con las hipótesis establecidas, nos sitúan en
posición de considerar aspectos de aplicabilidad y de limitaciones del MBRL (modelo
básico de regresión lineal). Y los aspectos que hay que tener en cuenta son:
a) Información estadística: será amplia, necesitamos un número de observaciones

de cada variable suficiente para que el modelo sea representativo. Como requisito
mínimo: Nº datos > Nº parámetros (n > k). A efectos operativos, para tres o cuatro
parámetros se necesitan un mínimo de 15 observaciones de cada variable
b) Estructura única: suponemos constancia en los parámetros, una estructura única

válida para todo el periodo de observación, y en el horizonte de predicción.
c) Relación funcional: existe una relación lineal entre las variables, por dos motivos
fundamentales: primero, porque empíricamente, la experiencia econométrica ha
demostrado que con las relaciones lineales entre varias variables se consiguen
aproximaciones suficientemente válidas para explicar el comportamiento de los
fenómenos reales, segundo, porque ciertas relaciones no lineales pueden transformarse
fácilmente en lineales mediante un cambio de variable. Por ejemplo:
se linealizará haciendo un cambio de variable tal como:
d) El carácter no estocásstico de las variables exógenas: es decir, que la aleatoriedad

del comportamiento de la variable endógena es el término de error. Esta hipótesis
podría sustituirse por la de aleatoriedad de las variables endógenas, pero
considerando siempre que no están correlacionadas con el término de error. De este
modo, podemos incluir en el modelo variables endógenas desplazadas como
explicativas, pero, se ha de cumplir la hipótesis de ausencia de correlación entre las
perturbaciones aleatorias correspondientes a distintas observaciones. e) Inexistencia
de relación lineal exacta entre las variables exógenas: Sería lo ideal, sino es así,
incurriríamos en problemas de multicolinealidad.
e) Hipótesis de Nulidad: Nulidad para la media de las distribuciones de las

perturbaciones aleatorias correspondientes a cualquier observación. De existir, su
influencia sobre los resultados es mínima.
51
UCLM-2014/2015
f) Varianza constante: El error ha de tener varianza constante (Homocedasticidad).

Esta hipótesis exigirá trabajar con una variable endógena que no tuviese un recorrido
excesivamente amplio, ya que por tratarse de una medida absoluta de dispersión puede
plantearse su variación con la cuantía de la variable.
g) Hipótesis de ausencia de Autocorrelación en las perturbaciones aleatorias: Es

la hipótesis más conflictiva. Su cumplimiento exige un modelo bien especificado, ya
que si dejamos alguna variable explicativa importante sin incluir, su efecto
sistemático se hará notar a través del término de error. Por tanto, si no incluimos
una variable relevante x k , el modelo tiene un efecto positivo importante sobre la
evolución de y i , el error será por defecto durante el periodo en que esta
variable x k experimente un incremento (no recogido por el modelo
explícitamente). Es decir, el error recogerá el efecto sistemático de las variaciones
de x k y provocará una correlación entre los errores correspondientes a periodos
sucesivos.
5.1.3 ESTIMACIÓN DE LOS MODELOS ECONOMÉTRICOS
5.1.3.1 Estimación mediante MCO.
A la hora de enfrentarnos a un modelo de Regresión Lineal, nuestro objetivo se

centrará en estimar los parámetros de las β a partir de los datos muestrales que
tengamos a disposición. Para conseguirlo, utilizamos diferentes métodos de estimación,
según el caso que debamos afrontar.
En caso de series temporales lo podemos estructurar de la siguiente forma:
Relación A
52
UCLM-2014/2015
También consideramos el vector formado por los coeficientes del modelo β= (β1,
β2…βk), y el vector formado por los términos de error de los distintos periodos
muestrales U= (U1, U2,…UT), con lo que podremos escribir las T relaciones mostradas
en la Relación A, mediante una notación matricial.
Y=Xβ+U
Una vez que hemos estimado los coeficientes β, se puede estimar cada instante t:
Y^t= β1+ β2X2T+ β3X3T+…+ βkXkt
Donde los estimadores de βî, 1≤ i ≤ k han sustituido a los verdaderos valores

desconocidos. La expresión denotada anteriormente es la estimación de acuerdo con el
modelo econométrico del valor que debía haber tomado la variable endógena Yt.
Y la cuestión que surge es, si estamos ante el valor realmente estimado, y esta
consideración nos hace que haya una discrepancia.
A esta diferencia la llamaremos residuo que será correspondiente a dicho periodo:

u^=Y-Y^.
A partir de aquí, podremos generar una serie de T residuos que representan en forma
matricial un vector Tx1, por lo tanto será:
U^=Y-Y^=Y-X β^.
Si lo planteamos de otra forma, podemos decir que, los Estimadores Mínimo

Cuadráticos de ^β: Son aquellos estimadores que hacen mínima la suma de las
diferencias al cuadrado entre los valores reales y estimados de la variable endógena:
De modo matricial:
Si aplicamos la condición de mínimo, tenemos:
3. derivadas parciales respecto del estimador igual a cero

4. segundas derivadas positivas( será definida positiva)
53
UCLM-2014/2015
Si desarrollamos las operaciones matriciales de S, tenemos:
Conviene remarcar que el estimador está definida, siempre que la matriz X´X
sea invertible, eso ocurre cuando: las k variables explicativas del modelo sean
independientes entre sí; o cuando la matriz X es de orden nxk (salvo que haya
multicolinealidad) sea invertible.
Es decir: β^= (X´X)-1 XÝ= X-1(X´)-1XÝ= X-1 Y
El vector del residuo es: u^= Y-Xβ^= Y-X(X-1Y)=Y-Y=0T
5.1.3.2 Propiedades del estimador por MCO
1. Linealidad: El estimador MCO de  es lineal. La linealidad consiste en poder

escribir el estimador como una combinación lineal fija de los valores de la variable
endógena.
Demostración: Denotando por W  ( X T X )1 X T , el estimador MCO de  se puede

escribir como ˆ  WY , donde por la hipótesis de regresores fijos sabemos que cada
estimador se puede escribir como una combinación lineal fija de los valores de la
variable endógena Y .
2. Insesgadez: El estimador MCO de  es insesgado. Es decir, la media de la

distribución muestral de ˆ coincide con el verdadero  . Lo que denotamos por:
Si la E ( ˆ )   , las estimaciones que conseguimos con el estimador no son iguales al

verdadero vector de parámetros ni siquiera en media. A la diferencia E ( ˆ )   se le
denomina sesgo. La insesgadez es una propiedad deseable, pero no a toda costa. Por
ejemplo, podemos tener dos estimadores alternativos de  , uno insesgado y otro
sesgado. Si los valores que toma el estimador sesgado oscilan menos alrededor de 
que el insesgado, el primero tendría menos varianza que el segundo. Es decir, a veces un
pequeño sesgo compensa por la menor varianza.
54
UCLM-2014/2015
Demostración: La expresión del estimador MCO de  , ˆ  ( X T X )1 X T Y , se puede

escribir como ˆ    ( X T X )1 X T  , sin más que sustituir el valor de Y por el modelo
Y  X    . Por tanto:
E (ˆ )  E[  ( X T X )1 X T  ]  E ( )  E[( X T X )1 X T  ]    ( X T X )1 X T E ( )  
donde se han usado las hipótesis de (1) parámetros constantes, (2) regresores fijos e
independientes linealmente y (3) esperanza nula del término de error.
3. Eficiencia: El estimador MCO de  es eficiente. Es decir, tiene varianza mínima

dentro de la familia de estimadores lineales e insesgados de  . Esto es lo que
demuestra el Teorema de Gauss-Markov. Pero antes, hay que derivar la expresión de
la matriz de varianzas-covarianzas del estimador MCO de  .
var( ˆ )  E[( ˆ   )( ˆ   )T ]  E[( X T X ) 1 X T  T X ( X ´T X ) 1 ]
Sabiendo que por hipótesis los regresores son fijos:
var(ˆ )  ( X T X )1 X T E ( T ) X ( X T X )1
y, finalmente, aplicando las hipótesis de que las perturbaciones tienen esperanza nula,
varianza constante y ausencia de autocorrelación:
var(ˆ )   2 ( X T X )1
Esta es la expresión de la mínima varianza de un estimador lineal e insesgado de  .
ortogonales a las variables explicativas, es decir:
n
X T ˆ  0 . En términos escalares,  x ˆ
t 1
ti t  0, i  1, 2,..., k .
Demostración: A partir del sistema de ecuaciones normales MCO:
X T X ˆ  X T Y  X T (Y  X ˆ )  0  X T ˆ  0
5. La consecuencia es que de haber un término independiente en la regresión, la suma

de los residuos mínimo- cuadráticos es cero: = ∀t
6. En el MLG con término constante estimado por MCO, la media muestral de los
residuos es nula, es decir, ˆ  0 .
Demostración: A partir de la primera ecuación normal de un modelo con constante:
55
UCLM-2014/2015
iT X ˆ  iT Y  iT (Y  X ˆ )  0  iT (Y  Yˆ )  0  iT ˆ  0   ˆt  0
7. En el MLG con término constante estimado por MCO, la media muestral de la

variable endógena coincide con la media muestral de la variable ajustada por el modelo,
es decir: Y  Yˆ .
Demostración: A partir de la primera ecuación normal de un modelo con constante:
iT X ˆ  iT Y  iT Yˆ  iT Y   yˆt   yt
ortogonales a la variable endógena ajustada, es decir: Yˆ T ˆ  0 . En términos escalares,
n
 yˆ ˆ
t 1
t t  0.
Demostración: A partir de la misma condición de ortogonalidad:
Yˆ T ˆ  0  ( X ˆ )T ˆ  0  ˆ T X T ˆ  0
teniendo en cuenta la propiedad 3 de ortogonalidad entre los residuos y los regresores.
9. En el MLG con o sin término constante estimado por MCO, la suma de cuadrados de
la variable endógena real es igual a la suma de cuadrados de la variable ajustada más la
suma de cuadrados de residuos, es decir: Y T Y  Yˆ T Yˆ  ˆT ˆ . O bien, escrita en términos
escalares,
n n n
 y   yˆ   ˆ
t 1
2
t
t 1
2
t
t 1
t
2
.
Demostración: La suma de cuadrados de residuos MCO se puede escribir como:
ˆT ˆ  (Y  X ˆ )T (Y  X ˆ )  Y T Y  2ˆ T X T Y  ˆ T X T X ˆ
Sustituyendo en el último sumando la expresión analítica del estimador MCO de  :
ˆT ˆ  Y T Y  2ˆ T X T Y  ˆ T X T X ( X T X )1 X T Y  Y T Y  ˆ T X T Y
Finalmente: Yˆ T Yˆ  ˆ T X T X ˆ  ˆ T X T Y
10. En el MLG con término constante estimado por MCO, la propiedad 9 se cumple
cuando las variables se expresan en desviaciones con respecto a sus medias, es decir:
(Y  iY )T (Y  iY )  (Yˆ  iYˆ )T (Yˆ  iYˆ )  (ˆ  iˆ )T (ˆ  iˆ )
donde i es una columna unitaria de tamaño n.
56
UCLM-2014/2015
Demostración: Aplicando las propiedades algebraicas 1 y 2, la expresión anterior en

términos escalares queda reducida a:
 ( y  y )   ( yˆ  y )  ˆ
t
2
t
2
t
2
y operando y2
t  ny 2   yˆt2  ny 2   ˆt2 , que se corresponde con la propiedad 9.
A la suma de cuadrados de los valores de la endógena alrededor de su media se

le llama ST (Suma Total); a la suma de cuadrados de la variable ajustada en
desviaciones SE (Suma Explicada) y a la suma de cuadrados de residuos se le denomina
SR (Suma Residual). Por tanto, esta última propiedad se expresa como ST  SE  SR .
La interpretación de esta igualdad es una descomposición de varianzas. Es decir,
dividiendo por n , indica que de toda la variabilidad que hay que explicar de la
endógena (ST), hay una parte captada por el modelo (SE) y otra parte que no puede ser
explicada (SR). Si el modelo ajusta perfectamente la SR=0 y la ST=SE. Si el modelo no
explica nada, la SE  0 y la ST  SR .
11. Teorema de Gauss-Markov:
Este teorema demuestra que el estimador MCO de  es el que tiene mínima

varianza dentro de la familia de estimadores lineales e insesgados.
La varianza del estimador MCO de  tiene la expresión var(ˆ )   2 ( X T X )1 .

La expresión del estimador MCO de  es ˆ  WY donde W  ( X T X )1 X T .
Denotando por ˆ *  CY , donde C  W , tendré todos los estimadores de  distintos al
MCO y lineales. Para que además, ˆ * sea insesgado, se tendrá que cumplir que
E ( ˆ * )   . Por tanto, la E (ˆ * )  E[C ( X    )]  CX  y habrá que imponer que
CX  I k .
La varianza del estimador de  llamado ˆ * es:
var(ˆ * )  E[( ˆ *   )(ˆ *   )T ]  E(C T CT )   2CCT
Aunque todavía no son comparables ambas matrices de varianzas y covarianzas, es

posible siempre descomponer una matriz fija como la C en la suma de otras dos:
C  W  D , donde D  0 y postmultiplicando por la matriz X esa identidad, tenemos
que CX  WX  DX . Como CX  I k , por insesgadez y WX  I k , por definición, es
obvio que DX  0 . Por tanto:
var(ˆ * )   2CCT   2 (W  D)(W  D)T   2WW T   2 DDT   2 DW T   2WDT

teniendo en cuenta que WW T  ( X T X )1 y DW T  WDT  0 , se obtiene :
57
UCLM-2014/2015
var(ˆ * )   2 ( X T X )1   2 DDT  var(ˆ * )  var( ˆ )   2 DDT y la matriz  2 DDT es

definida positiva por construcción.
Como se explicó, se dice que un estimador, por ejemplo, el estimador de MCO βˆ2, es
el mejor estimador* lineal insesgado óptimo (ELIO) de β 2 si se cumple lo siguiente:
a) Es lineal, es decir, función lineal de una variable aleatoria, como la variable

dependiente Y en el modelo de regresión.
b) Es insesgado, es decir, su valor promedio o esperado, E (βˆ2), es igual al valor
verdadero, β 2.
c) Tiene varianza mínima dentro de la clase de todos los estimadores lineales
insesgados; un estimador insesgado con varianza mínima se conoce como
estimador eficiente.
Estimador*: “una regla que puede aplicarse a cualquier muestra de datos para
producir un valor estimado”
12. La suma residual (suma de los cuadrados de los residuos mediante MCO), se denota
de la siguiente forma:
SR: ɛ^T ɛ^ = YTY-β^TXTY
ɛ^T ɛ^=(Y-X β^)T(Y-X β^)=YTY-2 β^TXTY+ β^TXTX β^= YTY-2 β^TXTY+ +

β^TXTX(XTX)-1XTY=YTY- β^TXTY
Otra forma de denotar la suma residual, como diferencia entre la suma de los cuadrados
de las observaciones y la suma de los cuadrados de los valores de yt implicados por el
modelo Y^t:
SR: ɛ^T ɛ^ = YTY-Y^TY^=
13. El vector de residuos mínimo-cuadráticos, es una transformación lineal del vector

del término de error:
ɛ^=y-X β^=y-X(XTX)-1XTy=My=Mu
donde M es la matriz M= IT-X(XTX)-1XT que es singular simétrica e idempotente, y

donde la última igualdad viene de MX= OTXk.
14. Coeficiente de determinación: SCT,SCE,SCR. El vector de residuos mínimo-

cuadráticos tienen esperanza cero y matriz de covarianzas σ² ɛM gracias a la propiedad
anterior.
2
- Suma de cuadrados totales: SCT=ST=
2
- Suma de cuadrados explicadas: SCE=SE=
2
- Suma de cuadrados de los errores: SCE=SR=
58
UCLM-2014/2015
La SR puede ser una medida de bondad de ajuste. No obstante, no es buena medida,

ya que los residuos tienen escala y esta suma cambia ante un simple de escala en los
datos de la endógena.
Además, la SR como mínimo es nula, pero su valor máximo no está acotado. Si

queremos una medida adimensional y acotada, se puede definir un ratio de sumas. La
medida de ajuste más conocida es el llamado coeficiente de determinación o R 2 del
modelo definido como:
SE SR
R2   1
ST ST
en donde se ha usado la propiedad de que la ST  SR  SE , por lo que la expresión

dada se corresponde con una medida de bondad sólo válida si el modelo tiene término
constante.
El valor del R 2 (multiplicado por 100) se interpreta como el porcentaje de la

varianza de la endógena que queda explicada por el modelo. Además, está acotado entre
cero y uno. Si el R 2  0 , el ajuste es nulo, ya que la SE  0 . Si el R 2  1 , el ajuste es
perfecto, ya que la SE  ST , o bien, la SR  0 . Ajustes intermedios darían lugar a un
R 2  0.5 .
15. Coeficiente de determinación.
Suma Total= Suma Explicada+ Suma Residual
16. Coeficiente de determinación R2.
R2 =
Mide la bondad del ajuste del modelo de regresión que estamos estudiando.
Tenemos nuestro modelo MLG que es por ejemplo que cumple las
hipótesis. Al establecer el modelo donde
con lo cual
1. Mínimo valor de esto no explica nada por lo

que me dejo todo por explicar.
2. Máximo valor de aquí explico todo pero esto
no pasa ya que entonces estaríamos ante un modelo determinista
con lo cual tenemos que tener en cuenta que cuanto más se aproxime a 1 será lo
mejor ya que se aproxima a la estimación perfecta. Si
consigo explicar la mitad de lo que quiero explicar. Si consigo
explicar casi todo.
59
UCLM-2014/2015
¿El hecho de que tenga un coeficiente de determinación elevado me garantiza que

no cometo errores de especificación? Falso, no omito variables relevantes que son todas
explicativas pero no garantiza que no incluyo variables irrelevantes, ya que al no ser
variables que explican algo, cuando calculo R2 el resultado no varía a pesar de cometer
un error de especificación.
17. El coeficiente de determinación es siempre menor o igual que las dos sumas del
SCR y SCT, son por definición, dos números positivos, entonces su cociente lo será
también, con lo que R2≤ 1.
18. Si una de las variables explicativas es constante, entones se tienen que el R 2≥ 0. Una
vez probado que la SCT= SCE + SCR, al ser cantidades positivas, necesariamente el
SCE≤ SCR, con lo que (SCR/ SCT) ≤ 1. Por tanto, tenemos que el R2≥0.
19. Cuando disponemos de menos observaciones que parámetros a estimar (T < K), el
estimador MCO no estará explícitamente definido. Est se debe a que con T-K el reango
de la matriz X es menor que K y lo mismo pasa su X´X, que será singular, condenando
al sistema de ecuaciones normales a infinitas soluciones.
20. Cuando el término de error sigue una distribución Normal, el estimador MCO
seguirá también una distribución Normal.
PROBLEMAS DEL R2.
En primer lugar, puede ser engañoso mirar sólo el R 2 sin mirar los datos.
Muchas veces, el R 2 es muy alto en relaciones espúreas. El ejemplo más famoso en la
literatura econométrica es la relación entre el Nº de nacimientos en un año en los EEUU
y el Nº de cigueñas en ese mismo año y estados. La estimación del modelo que explica
el Nº de nacimientos en función del Nº de cigueñas proporciona un R 2 muy elevado y
esto sabemos que es espúreo. La razón es que en ese año la correlación muestral entre
ambas variables fue muy alta y aunque no hay ninguna relación causal entre ambas, el
coeficiente de determinación es bueno, pero engañoso.
En relaciones donde tiene sentido relacionar determinadas variables (Consumo y

Renta), el coeficiente de determinación puede ser excesivamente alto si en el período
muestral considerado ambas variables evolucionan de forma muy parecida o presentan
una tendencia común.
Otro problema distinto del R 2 convencional es que nunca empeora cuando en el

modelo introducimos variables explicativas adicionales. Es decir, aunque una nueva
variable no sea muy relevante, su incorporación hace que, en el peor de los casos, el R 2
no cambie, o bien, con un poco de suerte, aumente. Introducir un nuevo regresor en el
modelo tiene dos efectos: (1) disminuyen los grados de libertad y éste es negativo y (2)
60
UCLM-2014/2015
disminuye la suma residual y éste es positivo. Si el peso del efecto negativo es mayor
que la mejora en el ajuste, no compensará introducir esta nueva variable y a la inversa.
La solución a éste último problema es utilizar el llamado R 2 ajustado o corregido de

grados de libertad ( R 2 ) que se calcula como:
n 1
R2  1 (1  R 2 )
nk
En esta formulación del R 2 se tienen en cuenta dos efectos:
(1) Si aumenta el número de regresores en el modelo, disminuyen los grados de libertad

n 1
y esto se penaliza, es decir:  k  n  k   R 2 .
nk
(2) Esos nuevos regresores pueden mejorar el modelo en términos de ajuste, es decir:
 k  SR  R2  R 2 . Si el efecto de penalización es menor que el efecto de
mejora en el ajuste, el R 2 aumentará e indicará que compensa la introducción de esas
nuevas variables y a la inversa.
Como ejemplo, supongamos que se han estimado dos funciones de consumo

alternativas:
ˆ  ˆ ; R 2  0.80
Ct  aˆ  bYt t
ˆ  ci
Ct  aˆ  bY ˆ t ˆt ; R 2  0.87
t
donde it es un Tipo de interés. Ambos modelos están anidados ya que se quiere

explicar el Consumo en función de la Renta (en el primero) o bien, introducir un nuevo
regresor (Tipo de interés) en el modelo más sencillo. El hecho de que el R 2 sea mayor
en el modelo más complicado indica que el Tipo de interés es una variable que
compensa introducir (en términos de ajuste) a pesar de que los grados de libertad hayan
disminuido.
Derivación del R 2 : Se obtiene a partir del R 2 convencional
SR SR / n
R2  1   1
ST ST / n
donde dividiendo por n la Suma Residual y la Suma Total, esta medida se puede
interpretar como un ratio de varianzas. Implantando la restricción de que los
estimadores de las varianzas residual y de la variable endógena sean insesgados, se
obtiene el R 2 corregido de los grados de libertad:
SR / n  k n 1
R2  1  1 (1  R 2 )
ST / n  1 nk
61
UCLM-2014/2015
5.1.3.3 Estimación de la varianza residual de los estimadores MCO.
Dada una muestra de Y y X , con la expresión del estimador MCO, es posible

calcular una estimación puntual de los parámetros, pero no es posible calcular una
medida de la incertidumbre asociada a dicha estimación (varianza), porque  2 es
constante pero desconocido.
Un estimador intuitivo de la varianza de las perturbaciones consiste en dividir la

suma de cuadrados de los residuos MCO por n. No obstante, para que dicho estimador
sea insesgado, hay que ponderar la suma de cuadrados de los residuos por los grados de
libertad. Es decir:
n
 ˆ t
2
ˆT ˆ
ˆ 2  t 1

nk nk
Este estimador es insesgado, es decir, la E (ˆ 2 )   2 , ya que la E (ˆT ˆ)  (n  k ) 2 .
Prueba: El vector de residuos MCO se puede escribir como:
ˆ  Y  Yˆ  Y  X ˆ  Y  X ( X T X )1 X T Y  [ I  X ( X T X )1 X T ]Y  MY
donde la matriz M de tamaño (n  n) es la llamada matriz de proyección que tiene

propiedades importantes: (1) es simétrica, (2) idempotente ,(3) no tiene inversa y (4) es
ortogonal a la matriz X , es decir, MX  0 .
5.1.3.4 Estimación por Máxima Verosimilitud.
Si  N ( , ) , es decir, una normal multivariante con media  y matriz de varianzas

 , la función de densidad es:
1/ 2  1 
f ( )  (2)  n / 2  exp  (   )T 1 (   ) 
 2 
Dadas las hipótesis habituales sobre  , sabemos que   0 y    2 I y la función de

densidad anterior es más simple:
 1 
f ( )  (2) n / 2  2 n / 2 exp  2  T  
 2 
Puesto que Y es una función de  , conocemos la función de distribución de Y ,

aplicando el resultado de que:

f (Y )  f ( )
Y
62
UCLM-2014/2015
donde el último término es el valor absoluto del determinante del Jacobiano de la

transformación.
Ejemplo 1: Comprobar que en el modelo Y  X    , el determinante del Jacobiano de

la transformación es uno y por tanto, f (Y )  f ( ) .
Por tanto:
 1 
f (Y )  f ( )  (2)  n / 2  2 n / 2 exp  2 (Y  X  )T (Y  X  )   L(  ,  2 )
 2 
siendo la función de verosimilitud cuando depende de los parámetros  y  2 , dada una

muestra de Y y X . Esta es la función de densidad conjunta de Y y X , dados los
valores de los parámetros  y  2 . Obtener la expresión de los estimadores por máxima
verosimilitud de  y  2 , supone maximizar la función de verosimilitud, L(  ,  2 ) .
Para que sea más fácil y puesto que no cambia el óptimo se maximiza el logaritmo
neperiano de la función de verosimilitud:
n n 1
max ln L(  ,  2 )   ln 2  ln  2  2 (Y  X  )T (Y  X  )
2 2 2
Condiciones de primer orden:
 ln L(  ,  2 ) 1
  2 (2 X T Y  2 X T X  )  0  ˆMV  ( X T X ) 1 X T Y
 2
 ln L(  ,  2 ) n (Y  X  )T (Y  X  )  1  ˆT ˆ
     4 
 0  ˆ 2

 2 2 2   
MV
2 n
Por tanto, el estimador MV de  coincide con el MCO, pero no es así para el estimador
de la varianza de las perturbaciones,  2 . En concreto, sabemos que el estimador MV de
la varianza de las perturbaciones no es insesgado, ya que para que lo sea es necesario
ponderar la suma de cuadrados de residuos por los grados de libertad, n  k .
Ejemplo 2: Encontrar la expresión y el signo del sesgo del estimador MV de la varianza

de las perturbaciones, es decir E (ˆ MV
2
)   2  sesgo(ˆ MV
2
).
Ejemplo 3: Comprobar que estamos en un máximo. La matriz hessiana de segundas

derivadas particularizada en el punto en el que se cumplen las condiciones de primer
orden es definida negativa y tiene la expresión:
63
UCLM-2014/2015
 XT X 
 2 0
H   
 0 n 
 4
 2 
Propiedades estadísticas del estimador MV: La cota de Cramer Rao proporciona la

mínima varianza que puede alcanzar cualquier estimador insesgado de un vector de
parámetros. Dicha cota viene dada por la inversa de la matriz de información ( I ),
donde ésta viene definida por la esperanza del hessiano cambiada de signo. Es decir:
  2 ln L( )   
I  E   , siendo    2 
    
2
Tomando las derivadas segundas a las condiciones de primer orden, se tiene que:
 2 ln L(  ,  2 ) XT X
 2
2 
 2 ln L(  ,  2 ) X T [ X   Y ]

( )( 2 ) 4
 2 ln L(  ,  2 ) n [Y  X  ]T [Y  X  ]
 
( 2 )( 2 ) 2 4 6
y formando el hessiano:
 XT X X T[X  Y ] 
  2  4 
H  
 n [Y  X  ]T [Y  X  ] 
  2 4

6 
La esperanza de los términos del hessiano es igual a:
 XT X  XTX
E  2    2
   
 X T [ X   Y ]  X T 
E   E  4  0
 4   
 n [Y  X  ]T [Y  X  ]  n E[ T  ] n n 2 n
E 4       6  4
 2   2  2  2
6 4 6 4
64
UCLM-2014/2015
Puesto que la matriz de información es diagonal por bloques, su inversa también y tiene
la expresión:
 2 ( X T X ) 1 0 
I 1   
2 4 
 0
 n 
Esta matriz indica que la cota inferior para la varianza de un estimador insesgado de
 es  2 ( X T X )1 y la cota inferior para la varianza de un estimador insesgado de  2 es
2 4
la expresión .
n
En el caso MCO y MV, el estimador de  tiene una matriz de varianzas que alcanza la
cota exactamente, luego es eficiente.
2 4
En el caso MCO, el estimador de  2 tiene una varianza igual a (ver Apéndice 2),
nk
que supera a la Cota de Cramer Rao. En este caso, no podemos hablar de eficiencia.
2 4 (n  k )
En el caso MV, el estimador de  2 tiene una varianza igual a (ver
n n
Apéndice 2), que es inferior a la Cota de Cramer Rao. No obstante, en este caso el
estimador MV es sesgado. Lo que sí es cierto es que no existe un estimador insesgado
de  2 que alcance la cota.
65
UCLM-2014/2015
CAPÍTULO 3. EJERCICIOS RESUELTOS

EJERCICIO 1.
Para ilustrar la teoría econométrica hasta el momento, consideramos los datos de

la tabla 1 que relacionan el salario promedio por hora (Y) y los años de escolaridad (X).
La economía laboral indica que, entre muchas variables, la escolaridad es un
determinante importante de los salarios. La tabla 1 nos proporcionan los datos primarios
que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios,
cuyo resultado la obtenemos en la tabla 2.
TABLA 1.
Obs Y X x y x2i yixi

1 4,4567 6 -6 -4,218 36 25,308
2 5,77 7 -5 -2,9047 25 14,5235
3 5,9787 8 -4 -2,696 16 10,784
4 7,3317 9 -3 -1,343 9 4,029
5 7,3182 10 -2 -1,3565 4 2,713
6 6,5844 11 -1 -2,0903 1 2,0903
7 7,8182 12 0 -0,8565 0 0
8 7,8351 13 1 -0,8396 1 -0,8396
9 11,0223 14 2 2,3476 4 4,6952
10 10,6738 15 3 1,9991 9 5,9973
11 10,8361 16 4 2,1614 16 8,6456
12 13,615 17 5 4,9403 25 24,7015
13 13,531 18 6 4,8563 36 29,1378
Suma 112,7712 156 0 0 182 131,7856
TABLA 2.
Obs X2i Y2i Ŷi ûi=Yi-Ŷi U^2i

1 36 19,862 4,1652 0,2914 0.0849
2 49 33,293 4,91686 0,8531 0.7278
3 64 35,745 5,6684 0,3102 0.0962
4 81 53,754 6,4200 0,9116 0.8311
5 100 53,556 7,1715 0,1466 0.0215
6 121 43,354 7,9231 −1,3387 1.7922
7 144 61,124 8,6747 −0,8565 0.7336
8 169 61,389 9,4262 −1,5911 2.5318
9 196 121,491 10,1778 0,8444 0.7131
10 225 113,930 10,9294 −0,2556 0.0653
11 256 117,421 11,6809 −0,8448 0.7138
12 289 185,368 12,4325 1,1824 1.3981
13 324 183,088 13,1841 0,34687 0.1203
Suma 2054 1083,376 112,7712 0 9.8301
66
UCLM-2014/2015
Nota:
Figura 1.
Con los datos presentados en esta tabla, la línea de regresión estimada se obtiene como
sigue:
67
UCLM-2014/2015
Geográficamente, la línea de regresión estimada se muestra en la figura 3.11.
Como sabemos, cada punto de la línea de regresión da una estimación del valor
medio de Y que corresponde al valor seleccionado de X; es decir, es una estimación
de . El valor de , que mide la pendiente de la linea, indica que,
dentro del intervalo muestral de X entre 6 y 18 años de escolaridad, a medida que el
valor de X aumenta un dólar, el incremento estimado en el salario promedio por hora es
cercano a 72 centavos de dólar. Es decir, cada año adicional de escolaridad, en
promedio, produce aumentos en los salarios por hora de alrededor de 72 centavos de
dólar.
El valor de , que es el intercepto de la línea, indica el nivel

promedio de los salarios cuando el nivel de escolaridad es cero. Esta interpretación
literal del intercepto en el presente caso no tiene sentido. ¿Cómo podría haber salarios
negativos? Como veremos a lo largo de este libro, ocurre con mucha frecuencia que el
término del intercepto no tiene un significado viable ni práctico. Además, en la muestra
no se contempla el nivel cero de escolaridad. Como veremos en el capítulo 5, el valor
observado del intercepto no es estadísticamente diferente de cero.
El valor de cercano a 0,90 indica que el nivel de escolaridad explica alrededor

de 905 de la variación del salario por hora. Si consideramos que puede tener un valor
máximo de 1, la línea de regresión se ajusta muy bien a los datos. El coeficiente de
correlación, , muestra que los salarios y la escolaridad tienen una alta
correlación positiva.
Antes de dejar este ejemplo, observe que el modelo es muy sencillo. La teoría
económica laboral indica que, aparte de la escolaridad, las variables como género, raza,
ubicación, sindicatos e idioma son también factores importantes en la determinación de
los salarios por hora. Después de estudiar la regresión múltiple en los capítulos 7 y 8,
consideraremos un modelo más amplio de determinación de los salarios.
68
UCLM-2014/2015
EJERCICIO 2.
Dado el modelo: Yt    X t  ut con las observaciones:
Con la matriz de varianzas-covarianzas de las perturbaciones
SOLUCIÓN:
a) ¿Son estocásticamente independientes u1, u2 y u3?.
Cov (u1, u2) = 0.6  2
Cov (u1, u3) = 0.2  2
Cov (u2, u3) = 0.6  2
No son estocásticamente independientes entre sí, porque las covarianzas deberían ser
ceros, además se distribuyen como una Normal.
b) Estimar α y β por MCO.
c) Estimar σ2 y la matriz de varianzas-covarianzas de bajo las hipótesis del MBRL.
69
UCLM-2014/2015
d) Estimar α y β por MCG.
e) Estimar σ2 y la matriz de varianzas-covarianzas de los estimadores obtenidos en d).
70
UCLM-2014/2015
CAPÍTULO 4. COMPETENCIA APLICADA EN CADA

CASO SEGÚN LA GUÍA DOCENTE
Competencias de la titulación que la asignatura contribuye a Horas

alcanzar dedicadas
 Desarrollar la capacidad de a partir de registros de cualquier tipo de 8 horas

información sobre la situación y posible evolución de la empresa,
transformarla y analizarla en oportunidades empresariales.
 Comprender el entorno económico como resultado y aplicación de 7 horas
representaciones teóricas o formales acerca de cómo funciona la
economía. Para ello serán capaces de comprender y utilizar
manuales comunes, así como artículos y, en general, bibliografía
puntera en materias centrales de su plan de estudios.
 Conocer el funcionamiento y las consecuencias de los distintos 9 horas
sistemas económicos.
 Capacidad para la realización de modelos lógicos representativos 5 horas
de la realidad empresarial.
 Poseer habilidades para el aprendizaje continuado, autodirigido y 6 horas

autónomo, lo que les permitirá desarrollar habilidades de
aprendizaje necesarias para emprender estudios posteriores con un
alto grado de autonomía.
 Utilizar de manera adecuada las TIC, aplicándolas al departamento 15horas
empresarial correspondiente con programas específicos de dichos
ámbitos empresariales.
Total horas dedicadas 50 horas
71

Introducción A La Econometría18-65 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción A La Econometría18-65 2

Cargado por

Copyright:

Formatos disponibles

INTRODUCCIÓN A LA

UNIVERSIDAD CASTILLA - LA MANCHA

CAPÍTULO 1. RESUMEN DE TODOS LOS TEMAS

4.1. LA MODELIZACIÓN EN ECONOMÍA

4.1.1 Econometría, fundamentos y naturaleza.

La econometría es la rama de la Economía que se ocupa de la estimación

La econometría se sirve tanto de teorías como de hechos y, mediante el uso de

GRÁFICA I.1. El ENFOQUE ECONOMÉTRICO

4.1.2. Los propósitos de la econometría.

El análisis estructural: es el uso de un modelo econométrico estimado, para

La predicción: es la aplicación de un modelo econométrico estimado, para

La evaluación de políticas: es el manejo de un modelo econométrico estimado

4.2. CONSTRUCCIÓN DE MODELOS ECONOMÉTRICOS.

Un modelo es cualquier representación de un fenómeno real tal como un proceso

4.2.1. Tipos de modelos

Modelos geométricos: De enorme importancia para el desarrollo de la teoría

4.2.2. Modelos algebraicos

El modelo algebraico, para propósitos econométricos, es el tipo de modelo más

Con el ejemplo macroeconómico de la determinación del ingreso nacional, el

El modelo determina los valores de ciertas variables, llamadas variables

4.2.3. Modelos econométricos

Un modelo econométrico es un tipo especial de modelo algebraico, estocástico,

Un modelo econométrico puede ser lineal o no lineal. En el primero, el modelo es

Aquí a y b son los parámetros relevantes; b tiene la interpretación de la propensión

La razón por la cual se supone linealidad (en los parámetros) es la conveniencia y

4.3 INFORMACIÓN ECONÓMICA Y MODELIZACIÓN

4.3.1. Los datos en el análisis econométrico

El conjunto de datos económicos pueden ser de clases muy variadas.

Consiste en observaciones sobre una variable o distintas variables a lo largo del

Son aquellos datos de una o más variables recopiladas en un momento

Reúne elementos de series temporales y transversales. Por ejemplo, recopilar datos

Datos en panel, longitudinales y en micropanel:

4.3.2. Fuentes de datos para el análisis económico.

- Datos para el análisis empírico

- Observaciones sobre las escalas de medición de las variables.

Matriz de información [Y/X] X= Matriz n*k observaciones de las variables exógenas

Y= Vector n*1 variables endógenas.

4.3.3. Datos, información y modelización (la problemática de los datos en la

En general, a la hora de construir un modelo, la información que necesitamos no

Aparte de estas decisiones, encontramos problemas en las fuentes estadísticas, en los

A) Problema atribuible a la fuente estadística

Dentro de este tipo de problemas tenemos:

TEMA 5. CONSTRUCCIÓN DE MODELOS ECONOMÉTRICOS

5.1. MODELOS BÁSICOS DE REGRESIÓN I: ESPECIFICACIÓN Y

5.1.1. SUPUESTOS DEL MODELO LINEAL GENERAL (MLG)

Y= recibe el nombre de variable dependiente o explicada

X= Se la denomina variable independiente o explicada

U= Denominada término de error o perturbación en la relación, representa factores

Esta ecuación ( 2.1) también da respuesta a l problema de la relación funcional

Clasificación de variables en un modelo econométrico

La principal clasificación es la de:

 Variable Endógena: es aquella explicada por otras variables. Es denotada por y .

5.1.1.1 Supuestos simplificadores

(1) Hipótesis de linealidad en los parámetros.

Establece la linealidad en los parámetros en la relación entre la variable

(2) Hipótesis de especificación correcta.

Esta hipótesis supone aceptar en la práctica dos cosas no siempre ciertas:

(3) Hipótesis de grados de libertad positivos.

Los grados de libertad de un modelo se definen como la diferencia entre el

(4) Hipótesis de parámetros constantes.

Esta hipótesis supone que los parámetros 1 , 2 ,..., k son constantes en el

(5) Hipótesis de independencia lineal entre las variables explicativas.

Esta hipótesis implica que cada variable explicativa contiene información