Material Teoria1 2011-12

Material Docente de
Econometría
Curso 2011-2012. Primera parte
Esquemas de teoría
Cuarto curso de Economía

Cuarto curso de Administración y Dirección de Empresas
Cuarto curso de Derecho y A.D.E
Profesores:
Jesús Cavero Álvarez
Helena Corrales Herrero
Yolanda González González
Carmen Lorenzo Lago
Mercedes Prieto Alaiz
Pilar Zarzosa Espina
Material Docente de Econometría
Primera parte
Curso 2011-2012
Introducción............................................................................................... 1
Tema 1.- El modelo de regresión lineal clásico I ..................................... 5
Tema 2.- El modelo de regresión lineal clásico II ................................... 17
Tema 3.- Predicción .................................................................................. 21
Tema 4.- Variables ficticias ...................................................................... 25
Tema 5.- Errores de especificación ........................................................... 31
Tema 6.- Multicolinealidad ..................................................................... 41
Anexo ........................................................................................................ 47
Econometría Curso 2011-2012
INTRODUCCIÓN
Concepto de Econometría
En sentido literal “Econometría” significa “medición de la economía”.

A lo largo del tiempo se han formulado diversas definiciones del concepto de
Econometría. La primera, formulada por Frisch a finales de los años 20, definía la
Econometría como la ciencia que combina la Tª Económica, las Matemáticas y la
Estadística, con el objeto de medir los fenómenos económicos. Entre las más recientes
podríamos quedarnos con la de Maddala que define la Econometría como “la aplicación
de métodos estadísticos y matemáticos al análisis de los datos económicos, con el
propósito de dar un contenido empírico a las teorías económicas y verificarlas o
refutarlas”.
Podemos considerar que los objetivos de la Econometría son:
• Explicar el comportamiento de una o de varias variables económicas en función
de otras.
• Predecir el comportamiento de las variables económicas.
• Contrastar hipótesis de interés económico.
Modelos Económicos y Modelos Econométricos
Un modelo económico es la expresión matemática simplificada de una determinada

teoría económica.
Ejemplos:
- Si queremos especificar que la cantidad demandada de un bien depende del precio
de dicho bien, podremos formular una función matemática, lineal o no, entre la cantidad
demandada y el precio. Así, si la relación es lineal la función de demanda será : Dt = α +
βPt.
- El consumo según la teoría keynesiana es función de la renta por lo que la función
de consumo podría expresarse: Ct = α + βRt.
Estos modelos son deterministas.
Un modelo econométrico es un modelo económico con las especificaciones
necesarias para su tratamiento empírico. Así, en el ejemplo de la función de demanda el
modelo econométrico sería Dt = α + βPt + εt y en la de consumo Ct = α + βRt+ εt, donde εt
es una variable aleatoria. Con su introducción el fenómeno económico se concibe como un
fenómeno aleatorio. Esta variable que llamaremos perturbación aleatoria dota al modelo de
un mayor realismo ya que con ella aceptamos la incertidumbre existente en cualquier
comportamiento social.
Otros motivos adicionales para incorporar la perturbación aleatoria son:
1) Es imposible especificar todos los factores causales que intervienen en el fenómeno. En
el ejemplo del consumo: número de hijos, lugar de residencia, nivel cultural, etc.
2) En ocasiones, aunque conozcamos todos los factores causales, algunos no serán
cuantificables o serán de cuantificación difícil. En el ejemplo del consumo, los gustos
constituyen un factor que influye en el consumo, pero es de difícil cuantificación.
3) Para recoger los posibles errores de observación que podríamos cometer.
1
Elementos constitutivos de un modelo econométrico
La forma general de presentar un modelo econométrico será:

Yt =β0 +β1X1t +β2X2t +β3X3t +…..+βkXkt +εt
Los elementos constitutivos de un modelo econométrico son por tanto: parámetros y
variables.
Parámetros: son las constantes del modelo que nos permiten cuantificar las
relaciones entre las variables y que trataremos de estimar mediante métodos estadísticos.
Son los coeficientes del modelo y recogen la estructura del modelo.
Variables: pueden ser de dos tipos: variables observables y variables no
observables.
• Variables observables: (Yt, X1t, X2t, X3t,…..Xkt). Pueden ser endógenas o
predeterminadas
* Variables endógenas: son aquellas cuyo comportamiento se pretende
explicar con el modelo. (Yt). En el ejemplo del consumo sería Ct. En los
modelos uniecuacionales hay una sola variable endógena, que figura como
variable dependiente o “regresando”. En los modelos multiecuacionales
hay tantas variables endógenas como ecuaciones.
* Variables predeterminadas: son las variables explicativas del modelo. (X1t,
X2t, X3t,…..Xkt). En el ejemplo del consumo sería Rt. En los modelos
uniecuacionales figuran como variables independientes y se suelen llamar
regresores. Pueden ser variables exógenas puras o variables endógenas
retardadas.
o Variables exógenas puras: son las que se determinan fuera del
modelo. En el ejemplo Rt.
o Variables endógenas retardadas: son variables endógenas pero
que aparecen en periodos de tiempo anteriores al del modelo. En
el ejemplo Ct-1.
C t = β 0 + β 1 Rt + β 2 C t −1 + ε t
{ {
V. exógena V. endógena
pura retardada
• Variables no observables: son variables para las cuales no podemos obtener

observaciones. Son variables aleatorias con propiedades probabilísticas bien
definidas, que se denominan “perturbaciones aleatorias” y recogen aquéllo que
no es posible especificar explícitamente dentro de las variables explicativas del
modelo.
Etapas en la elaboración de un modelo econométrico
1) Especificación del modelo: se trata de expresar la relación propuesta por la Teoría

Económica en un lenguaje matemático, determinando las variables a introducir y la función
que las relaciona, así como las distintas hipótesis sobre todas las variables del modelo.
2) Elección y tratamiento de los datos
Estas dos etapas van muy unidas pues especificamos el modelo y elegimos los datos pero
también la disposición de los datos nos permite especificar mejor el modelo.
2
3) Estimación: consiste en obtener estimadores de los parámetros a partir de los datos

disponibles.
4) Evaluación y Contrastación: En esta fase se realizan diferentes contrastes con el fin
de conocer si tanto las hipótesis estadísticas, como las económicas son coherentes con los
datos disponibles.
5) Predicción: en esta fase se obtienen valores futuros de la variable dependiente, en
base a valores conocidos de las variables explicativas.
Clasificación de los modelos econométricos
Según los diferentes criterios que se pueden utilizar, existen múltiples

clasificaciones de modelos econométricos. Entre ellas las siguientes:
1er criterio: según el número de ecuaciones
• Modelos uniecuacionales. Ejemplo: Ct = α + βRt+ εt
• Modelos multiecuacionales. Ejemplo: si al modelo uniecuacional de consumo
añadimos otra ecuación como por ejemplo Rt = Ct + It donde It
Ct = α + βRt+ εt
sería la inversión, tendremos un modelo multiecuacional: Rt = Ct + It
2º criterio: atendiendo a la forma funcional

• Modelos lineales. Ejemplo: Ct = α + βRt+ εt
• Modelos no lineales. Ejemplo: la función de producción de Cobb-Douglas Pt =
ALβt K tβ e ε
1 2 t
3er criterio: atendiendo al periodo de tiempo al que estén referidas las variables
• Modelos estáticos: están especificados para un momento de tiempo determinado.
Ejemplo: Ct = α + βRt+ εt
• Modelos dinámicos: en ellos aparece alguna variable retardada. Ejemplo: Ct =
β0 + β1Rt + β2Ct-1 + εt
Clasificación de los datos
Para que el modelo econométrico sea operativo necesitamos conocer los valores
numéricos de sus parámetros y para ello hemos de disponer de un conjunto de datos sobre
las variables.
Los datos pueden ser de tres tipos: datos temporales, datos de corte transversal y
datos de panel.
• Datos temporales o series temporales: son observaciones de una variable, para
una unidad económica a lo largo del tiempo. Ejemplos: datos de la Contabilidad
Nacional, indicadores de coyuntura mensuales o trimestrales, ventas de una
empresa a lo largo del tiempo, etc.
• Datos atemporales o de corte transversal: son observaciones de una variable,
para distintas unidades económicas en un momento de tiempo dado. Ejemplo:
Encuesta de Presupuestos Familiares (INE) en el período 90-91, en la que se ha
entrevistado a más de 20.000 familias.
• Datos de panel: son observaciones de una variable para distintas unidades
económicas a lo largo del tiempo, es decir, es la combinación de datos
temporales y de corte transversal.
3
4
TEMA 1.-EL MODELO DE REGRESIÓN LINEAL CLÁSICO I
1.1.- Especificación del modelo
• Forma escalar : Yi = β o + β 1 X 1i + ..... + β k X ki + ε i para i =1….N
Yi = X i' β + ε i
• Forma matricial: Y = Xβ + ε
 Y1  1 X 11 . . X k1   ε1 
     
 Y2  1 X 12 . . X k2   ε2 
Donde:Y=  .  , X=  . . . . . , ε = . 
     
 .  . . . . .   . 
Y  1 X . . X kN  ε 
 N  1N  N
Hipótesis Clásicas:
• Linealidad en los parámetros
• ε → N (0, σ 2 I ) o Y → N (Xβ , σ 2 I ) por tanto ε o Y son variables iid
• X no aleatoria
• rg(X) = k+1 < N
1.2.- Estimación Mínimo Cuadrática Ordinaria
Objetivo: Obtener estimadores de los parámetros β y σ2

Método: Mínimos Cuadrados Ordinarios
• Función Objetivo a minimizar: ∑ ei2 = e ' e = (Y − Xβˆ ) ' (Y − Xβˆ )
e' e = Y ' Y − Y ' Xβˆ − βˆ ' X ' Y + βˆ ' X ' Xβˆ = Y ' Y − 2Y ' Xβˆ + βˆ ' X ' Xβˆ
• Condiciones de mínimo:
∂e' e
1ª Condición : =0
∂βˆ
∂ 2 e' e
2ª Condición : sea definida positiva
∂βˆ ∂βˆ '
• Obtención del estimador MCO:
∂e' e
= −2 X ' Y + 2 X ' Xβˆ = 0 ⇒ X ' Xβˆ = X ' Y Sistema de ecuaciones normales
∂β
ˆ
⇒ βˆ = ( X ' X )−1 X ' Y
5
∂ 2 e' e
= 2 X ' X matriz definida positiva
∂βˆ ∂βˆ '
Por tanto: ⇒ βˆ MCO = ( X ' X )−1 X ' Y
1.3.- Propiedades del estimador de β
• Finitas
- Lineal en Y y en ε : por ser X no aleatoria
- ()
Insesgado: E βˆ = β por ser X no aleatoria y E (ε ) = 0
()
E βˆ = β + ( X ' X ) X ' E (ε )
−1
- Òptimo: de mínima varianza dentro de la familia de estimadores lineales e

insesgados. Cuya matriz de varianzas covarianzas es:
( )( '
( )) '
∑ βˆβˆ = E βˆ − E ( βˆ ) βˆ − E βˆ = E βˆ − β βˆ − β =( )( )
= E(X ' X ) X 'ε ε ' X (X ' X ) =σ 2 (X ' X )
−1 −1 −1
Teorema de Gauss Markov demuestra que:

D' = C '−( X ' X ) X ′
−1
∑ β~β~ = ∑ βˆβˆ + σ D' D
2
donde
siendo C’ una matriz cualquiera no aleatoria y D' D una matriz semidefinida
positiva.
- Eficiente: de mínima varianza entre los insesgados. Alcanza la cota de Cramer Rao.
- Distribución finita: βˆ MCO → N β , σ 2 ( X ' X ) (
−1
)
• Asintóticas
X'X
- Consistente : Si se cumple P= Σ XX = lim N →∞ ; P ≠ 0 y finita, entonces:
N
c. p.
- βˆ MCO → β o bien p lim N →∞ βˆ = β
−1
 X'X  X 'ε
p lim N →∞ βˆ = p lim N →∞ β + p lim N →∞   p lim N →∞ =β
 N  N
X 'ε
ya que: p lim N →∞ =0
N
( )
−1
  X ' X  
- Asintóticamente normal : N β −β 
ˆ a 
→ N 0,σ lim N →∞ 
2

  N  

- Asintóticamente eficiente : La varianza asintótica alcanza la cota de Cramer-Rao.
6
1.4.- Estimador de σ 2 y sus propiedades
Denotamos por S2 el estimador de la varianza de las perturbaciones σ2

e' e
• Definimos S2 =
N − K −1
• Propiedades:
- Insesgado: E(S2) = σ2
Consistente: p lim N →∞ S 2 = σ 2
• Propiedades del estimador de ∑ββ ˆˆ
−1
S ˆ ˆ = S 2 (X ' X )
ββ
−1
- Insesgado : E S ˆ ˆ = E S 2 ( X ' X ) = ∑ βˆβˆ
ββ
1.5.- Características de los residuos mínimo cuadráticos
• Poblacionales: e=Mε
Ya que: e = Y − Yˆ = Y − Xβˆ = MY = Mε
Yˆ = Xβ̂
−1
M = I − X ( X ' X ) X ' matriz no aleatoria, simétrica e idempotente
- E(e)=0
∑ee' = Eee' = E (Mεε ' M ') = σ M ≠ σ I
2 2
- si N→∞ M→I
- E ( X ' e) = 0
- (
e → N 0 ,σ 2 M )
• Muestrales:
- X 'e = 0 ⇒
( )
X ′ Y − Yˆ = X ' Y − X ' Yˆ ⇒ Y = Yˆ si XNx(k+1)
N
∑e = 0 ⇒ e=0 si XNx(k+1)
i =1 i
∑ X ji ei = 0 ∀ j = 1....k ⇒ cov(e, Xj)=0 ⇒ rex j = 0
- Yˆ ' e = 0 ⇒ cov( Yˆ , e) = 0 ⇒ reYˆ = 0
7
1.6.- Descomposición de la varianza
(
∑ Yi − Y ) 2
= ∑ Yi 2 − N Y
2
( )(
∑ Yi = Y ' Y = Yˆ + e ' Yˆ + e = Yˆ ' Yˆ + e' e
2
)
2
Restando a ambos lados : N Y
(
∑ Yi − Y )
2
( )
2
= ∑ Yî − Yˆ + ∑ ei − e ( )
2
si Y = Yˆ
SCT=SCE+SCR
Coeficientes de determinación R2 y de determinación ajustado
SCR SCE
R2 = 1− = 0 ≤ R 2 ≤1
SCT SCT
2 SCR / N − k − 1
R = 1−
SCT / N − 1
1.7.- Estimadores máximo verosímiles de los parámetros
El método de máxima verosimilitud consiste en hallar los estimadores que maximizan la

función de verosimilitud.
La función de verosimilitud de la muestra es, simplemente, la función de densidad conjunta
de la muestra haciéndola depender de los parámetros desconocidos.
Puesto que Y es una variable normal N-dimensional : Y → N Xβ , σ 2 I ( )
su función de densidad y, por lo tanto, la función de verosimilitud es:
 1 
N −  (Y − Xβ )`(Y − Xβ ) 
−  2σ 2 
f (Y ) =  2πσ 2  2 e  
 
dado que max L(β , σ 2 ) es lo mismo que max ln L(β , σ 2 )
ln L β , σ 2  = − N ln (2π ) − N ln σ 2 − 1 (Y − Xβ )' (Y − Xβ )

  2 2 2σ 2
ln L β , σ 2  = − N ln (2π ) − N ln σ 2 − 1  Y 'Y − 2Y ' Xβ + β ' X ' Xβ 

  2 2 2σ 2  
Condiciones de máximo:
1ª condición: Se igualan a cero las primeras derivadas
•
∂ ln L
∂β
=−
1
(− 2 X 'Y + 2 X ' Xβˆ ) = 0 ⇒ X ' Y = X ' Xβ̂ MV
2σˆ 2
MV
MV
por tanto βˆ = ( X ' X )− 1 X ' Y = βˆ

MV MCO
8
∂ ln L N 2(Y − Xβˆ ) ' (Y − Xβˆ )

• =− + MV MV
=0
∂σ 2
2σˆ 2
2 (σˆ
2 2
) 2
MV MV
⇒ σˆ MV
2
= e' e
N
2ª condición: Se cumple que el hessiano evaluado en el máximo es una matriz definida

negativa.
Propiedades de los estimadores

Bajo condiciones de regularidad se demuestra que los EMV tienen las siguientes
propiedades:
• Asintóticamente insesgados
• Consistentes
• Asintóticamente eficientes
• Asintóticamente normal
• Invarianza
1.8.- Criterios de bondad del ajuste basados en la función de verosimilitud
1) Análisis de la función de verosimilitud evaluada en los EMV de los parámetros
ln L β , σ 2  = − N ln (2π ) − N ln σˆ 2 − 1
  2 2
(Y − Xβˆ )(' Y − Xβˆ )
2σˆ 2
MV MV MV
MV
ln L β , σ 2  = − N ln (2π ) − N ln
∑ ei2 − N
  2 2 N 2
No está acotado y está influido por el número de variables explicativas que introduzcamos
en el modelo.
2) Criterio de Akaike AIC y Criterio de información bayesiano de Schwartz SBIC
−2 2(k + 1)
AIC = ln L +
N N
−2 (k + 1) ln N
SBIC = ln L +
N N
Cuanto menor sean estos estadísticos mejor será la estimación del modelo.
9
1.9.- Diferencias entre la regresión simple y la regresión múltiple
1) Los coeficientes son diferentes

Yi = β o + β 1 X 1i + ..... + β k X ki + ε i
•
• Yi = β 0 + β 1 X 1i + ε i
* * *
En el primer modelo, β1 mide en cuánto varía la variable endógena cuando varía X1 en una
unidad, manteniendo constante el resto de las variables. En el segundo modelo, β1* mide en
cuánto varía la variable endógena cuando varía X1 en una unidad
2) Los coeficientes estimados por MCO son diferentes
La información que proporciona un regresor, por ejemplo X1, sobre la variable endógena
puede ser parecida a la que tienen el resto de las variables. De hecho, la información de X1
puede ser genuina de la propia variable o compartida con el resto de las variables
explicativas. Cuando estimamos por mínimos cuadrados ordinarios un modelo de regresión
simple el estimador asociado a X1 solamente recoge el efecto de la información propia de
X1, ya que no están incluidos otros regresores. La importancia de la regresión múltiple es
que el estimador por mínimos cuadrados ordinarios asociado a X1 es capaz de medir el
efecto de X1 una vez descontada la información que comparte con el resto de los
regresores.
3) Las varianzas estimadas de los coeficientes son diferentes
Existen dos casos especiales en los que el coeficiente estimado por MCO asociado a X1
será el mismo en la regresión simple que en la regresión conjunta.
1) Cuando no exista información compartida (regresores ortogonales)
2) Cuando los coeficientes asociados al resto de los regresores sean cero.
10
Apéndice 1.- Gráfico de algunas hipótesis del modelo
11
Apéndice 2.- Modelo de regresión sin término constante

Yi = β1X1i +β2X2i +β3X3i +…..+βkXki +εi con i=1,2,3,....N
Matricialmente se podría expresar:
Y = X*β* + ε donde X* es la matriz de orden Nxk
 
1 X X 21 L X k 1 
 11 
1 X 12 X 22 L X k 2 
X= 
M M M M M 
 
1 X 1N X 2 N L X kN 
 1444 424444 3

 X*
βˆ MCO
*
= ( X *' X * ) −1 X *' Y tiene buenas propiedades y no hay ningún problema por lo que
respecta a las propiedades de los estimadores, pero se dejan de cumplir algunas
características que se daban en el modelo con término constante.
e' e
S ˆ ˆ = S2( X *' X * )-1 donde S 2 =
ββ N −k
−1
 N 2 N N
  N 
 ∑ X 1i ∑ X 1i X 2i L ∑ X 1i X ki   ∑ X 1i Yi 
  β 1 
ˆ*
 N i =1 i =1 i =1   iN=1
 X X L ∑ X 2i X ki   X Y   βˆ * 
N N
βˆ MCO
*
=∑i =1
2i 1i ∑ X 22i
i =1 i =1
 ∑i =1
2i i  =
 
2
 M M M M   M   M 
 N N N   N   βˆ * 
 ∑ X ki X 1i ∑ X ki X 2i L ∑ ki X 2
 ∑ X ki Yi   k 
 i =1 i =1 i =1   i =1 
Particularidades de estos modelos:
1) Los estimadores obtenidos con datos centrados no coinciden con los obtenidos con
datos sin centrar ya que si trabajamos con datos centrados en un modelo sin término
constante obtenemos los mismos estimadores que si trabajásemos con datos centrados en el
modelo con término constante. Lo más correcto en estos modelos es trabajar con datos sin
centrar.
2) Ya no se cumple que Yˆ = Y pues al no disponer X* de una columna de unos no se

N N
cumple que ∑ Yî = ∑ Yi y por lo tanto Yˆ ≠ Y
i =1 i =1
3) Aunque se sigue cumpliendo que los regresores son ortogonales a los residuos X *' e = 0,
ya no se cumple que los errores estén linealmente incorrelacionados porque no se cumple
que ∑ ei = 0 .
4) No se cumple la descomposición de la varianza y por lo tanto el R2 no tiene sentido
porque nunca estaría acotado SCT ≠ SCR+SCE
Sí se sigue cumpliendo Y’Y = Ŷ ’ Ŷ + e’e
12
e' e Ŷ ' Ŷ
En este caso lo único que se puede hacer es definir un R*2 como: R*2 = 1 − = que
Y' Y Y' Y
sí estará acotado, pero que en realidad no medirá la variabilidad de Y porque Y’Y no es la
SCT, simplemente nos dará una idea de como ha sido el ajuste. El R2 de un modelo con
término constante y el R*2 del modelo sin término constante no son comparables.
Apéndice 3.- Cambios de origen y escala en las variables
En ocasiones nos interesa cambiar las unidades de una, varias o todas las variables del
modelo para hacer sus valores numéricos comparables con las demás variables o para que
su manejo sea menos engorroso.
Otras veces necesitamos hacer un cambio de origen en los valores de las variables.
Analizaremos, a continuación, los efectos que, sobre la estimación de un modelo, generan
esos cambios.
Cambio de escala
Sea el modelo: Yi = β0 +β1X1i +β2X2i +β3X3i +…..+βkXki +εi con i=1,2,3,....N
Supongamos que hacemos un cambio de escala en todas las variables pasando a tener:
Yi ' = aYi
X 1'i = a1 X 1i
................
X ki' = a k X ki
Ahora el modelo será: Yi' = β 0' + β1' X 1' i + ... + β k' X ki' + ε i
Sustituyendo: aYi = β 0' + β1' a1 X 1i + ... + β k' a k X ki + ε i
β 0' a1 a ε
Yi = + β1' X 1i + ... + β k' k X ki + i
a a a a
εi
donde cumple las hipótesis clásicas.
a
β 0'
Luego β o = ⇒ β 0' = aβ 0
a
β 1' a1 a
β1 = ⇒ β 1' = β1
a a1
.........................................
β k' a k a
βk = ⇒ β 1' = βk
a ak
Estos son los cambios que experimentan los coeficientes cuando hacemos un cambio de
escala en todas las variables.
Por lo tanto:
13
• Si hacemos un cambio de escala sólo en Yi ( a1 ,..., a k serán igual a 1) los nuevos

coeficientes son los originales multiplicados por la constante por la que hayamos
multiplicado los valores de Y.
• Si hacemos un cambio de escala sólo en Xjt sólo cambia el coeficiente que
acompaña a Xjt y lo hace dividiendo el original entre a j .
Otros resultados que también cambian son:
• La SCR. La nueva es e*' e* = a 2 e' e .
• La SCT. La nueva es SCT*= a 2 SCT.

a2
• La varianza estimada de los β̂ j : S β2ˆ** = S β2ˆ
j
a 2j j
S β2ˆ** = a 2 S β2ˆ
0 0
Cambio de origen
Sea el modelo: Yi = β0 +β1X1i +β2X2i +β3X3i +…..+βKXKi +εi con i=1,2,3,....N
Supongamos que hacemos un cambio de origen en todas las variables pasando a tener:
Yi ' = Yi + a
X 1'i = X 1i + a1
................
X ki' = X ki + a k
Ahora el modelo será: Yi' = β 0' + β1' X 1' i + ... + β k' X ki' + ε i
Sustituyendo: Yi + a = β 0' + β1' ( X 1i + a1 ) + ... + β k' ( X ki + a k ) + ε i
Yi = −a + β 0' + β 1' a1 + ... + β k' a k + β 1' X 1i + ... + β k' X ki + ε i
β 1' = β 1
...................
β k' = β k
β 0 = − a + β 0' + β 1' a1 + ... + β k' a k ⇒ β 0 = − a + β 0' + β 1 a1 + ... + β k a k ⇒
β 0' = β 0 + a − β 1 a1 − ... − β k a k
Luego los cambios de origen en alguna o en todas las variables del modelo sólo afectan al
término independiente.
El único resultado que también cambia es la varianza estimada de β̂ 0 .
14
Apéndice 4.- Coeficientes Beta1
Los parámetros estimados de un modelo lineal son valores absolutos y dependen de las
unidades de medida en las que se expresen las variables del modelo.
Una variable no es más importante que otra por tener un parámetro mayor. Esto ocurre
cuando, siendo ambos parámetros significativos, ambas variables están medidas en las
mismas unidades.
Una solución a este problema es calcular unos coeficientes estandarizados o coeficientes
beta a partir de la normalización de las variables (restarles su media y dividirles por su
desviación típica)
Yi − Y X − X1 X − Xk
= β 1* 1i + ... + β k* ki + ui
SY S X1 S Xk
donde la relación entre los coeficientes beta y los coeficientes estimados originales es:
SXj
βˆ *j = βˆ j .
SY
1
Pulido (2001): Modelos econométricos. Pirámide.
15
16
TEMA 2. EL MODELO DE REGRESIÓN LINEAL CLÁSICO II
2.1.- Contrastes de restricciones lineales sobre los parámetros. Forma general
Hipótesis a contrastar:
H o : Rβ = r
H 1 : Rβ ≠ r
Partiendo de la distribución de las perturbaciones y de los estimadores, obtenemos la de

Rβ̂ :
Rβˆ → (
N Rβ , σ 2 R ( X ' X ) R '
−1
)
A partir de aquí, se demuestra que, si la hipótesis nula es cierta:
(Rβˆ − r )' [R(X ' X ) R ] (Rβˆ − r )

−1 ' −1
→ FNH−k −1
2
S H
Otra forma alternativa de realizar el contraste es introduciendo las restricciones en el

modelo y comparando el modelo restringido con el modelo sin restringir, ya que la
expresión anterior coincide con la siguiente:
e' r e r − e ' e
→ FNH−k −1
S2 H
Donde er = Y − Xβˆr
2.2.- Contrastes de restricciones lineales sobre los parámetros. Casos particulares
A) Contraste de significación individual de un regresor:
Ho : β j = 0
H1 : β j ≠ 0
βˆ j
→
Ho
t N − k −1
S βˆ
j
B) Contraste de significación conjunta de los regresores:
17
 β1   0
   
 ⋅  ⋅
Ho :  =  
⋅ ⋅
   
β   0
 k  
H1 : ≠
SCE R 2 ( N − k − 1)
→
Ho
FNk − k −1 →
Ho
FNk − k −1
S2 k
o bien
(1− R2 k)
2.3.- Estimación restringida. Propiedades del estimador restringido
Sea la restricción lineal sobre los parámetros: Rβ=r. Intentaremos encontrar el estimador
del vector paramétrico β que satisfaga la restricción. En definitiva, vamos a elegir β̂ r de
forma que minimice
e r' e r = (Y − Xβˆ r )' (Y − Xβˆ r ) sujeto a la restricción Rβ̂ r = r
Para obtener dicho estimador restringido habría que formar la función lagrangiana. El
proceso de minimización da como resultado el estimador restringido siguiente:
[ ]
βˆ r = βˆ + ( X ' X ) −1 R ' R ( X ' X ) −1 R '
−1
(r − Rβˆ )
En la práctica este estimador se puede obtener introduciendo las restricciones en el modelo

inicial y estimando dicho modelo, denominado modelo restringido, por mínimos cuadrados
ordinarios.
Ejemplo:
Su pongamos el siguiente modelo
Yt = β 0 + β1 X 1t + β 2 X 2 t + ε t
Las variables Y, X1 y X2 toman los siguientes valores

Yt X1t X2t
3 1 8
2 2 14
4 2 10
5 3 9
5 4 7
7 5 6
6 5 8
8 9 4
8 9 3
12 15 1
Si queremos estimar bajo las dos siguientes restricciones β1 = 0.5 y β1 + 2β 2 = 0
podemos proceder de las dos formas siguientes:
18
En primer lugar, se puede aplicar mínimos cuadrados restringidos
βˆ r = βˆ + ( X ' X ) −1 R ' [R( X ' X ) −1 R'] (r − Rβˆ )

−1
 5,4118 
 
β̂ =  0,4471  ;
 - 0,2672 
 
 4.1654 − 0.2941 − 0.3497   βo 

   0 1 0    0.5 
(X ' X ) −1
=  − 0.2941 0.0235 0.0235  ; Rβ = r ;   β 1  =  
 − 0.3497 0.0235 10 1 2    0 
 0.0315  4243  β 2  123
R { r
β
 4.1654 − 0.2941 − 0.3497  0 0   − 0.294 − 0.993 

−1
    
( X ' X ) R' =  − 0.2941 0.0235 0.0235  1 1  =  0.0235 0.0706 
 − 0.3497 0.0235 0.0315  0 2   0.0235 0.0865

 4.1654 − 0.2941 − 0.3497  0 0

−1  0 1 0     0.0235 0.0706 
R ( X ' X ) R ' =   − 0.2941 0.0235 0.0235  1 1  =  
 0 1 2  − 0.3497 0.0235  0.0706 0.2435 
 0.0315  0 2
−1
 326 − 94.5 
[ −1
R ( X ' X ) R ' =  ]
 0.0235 0.0706 
−1
 =  
 0.0706 0.2435   − 94.5 31.5 
 5.4118 
 0.5   0 1 0    0.5   0.4471   0.0529 
(r − Rβ ) =   − 
ˆ  0.4471  =   −   =  
 0   0 1 2  - 0.2672   0   − 0.0874   0.0874 
 
βˆ r = βˆ + ( X ' X ) −1 R ' [R( X ' X ) −1 R'] (r − Rβˆ ) =

−1
 5.4118   − 0.294 − 0.993   5.4118   - 0,4118   5 

    326 − 94.5  0.0529       
 0.4471  +  0.0235 0.0706    =  0.4471  +  0,0529  =  0.5 
 - 0.2672   0.0235 0.0865  − 94.5 31.5  0.0874   - 0.2672   0,0172   - 0.25 
         
En segundo lugar, se puede introducir la restricción en el modelo:
Yt = β 0 + 0.5 X 1t − 0.25 X 2t + ε t ⇒ Yt − 0.5 X 1t + 0.25 X 2t + = β 0 + ε t ⇒ Yt * = β 0 + ε t
βô = Y * = Y − 0.5 X 1 + 0.25 X 2 = 6 − 0.5 * 5.5 + 0.25 * 7 = 5
19
 5 
 
β̂ r =  0.5 
 - 0.25 
 
Los residuos restringidos se pueden obtener a partir del modelo original con los
estimadores restingidos o a través del modelo restringido:
Primera forma Segunda forma
Y Yˆ er Y* Yˆ * er
3 3,5=5+0.5*1-0.25*8 -0,5=3-3.5 4,5=3-0.5*1+0.25*8 5 -0,5
2 2,5=5+0.5*2-0.25*14 -0,5=2-2.5 4,5=2-0.5*2+0.25*14 5 -0,5
4 3,5 0,5 5,5 5 0,5
5 4,25 0,75 5,75 5 0,75
5 5,25 -0,25 4,75 5 -0,25
7 6 1 6 5 1
6 5,5 0,5 5,5 5 0,5
8 8,5 -0,5 4,5 5 -0,5
8 8,75 -0,75 4,25 5 -0,75
12 12,25 -0,25 4,75 5 -0,25
Propiedades del estimador restringido:
Las propiedades del estimador restringido dependen de si la restricción es cierta o no. Así,
el siguiente cuadro enumera las propiedades en ambos casos.
Restricción cierta Error en la restricción

Rβ=r Rβ≠r
1. β̂ r es insesgado 1. β̂ r es sesgado
2. β̂ r es consistente 2. β̂ r es inconsistente
3. β̂ r es más eficiente que β̂ MCO 3. Σ βˆ = Σ βˆβˆ − Q
r βr
ˆ
Σ βˆ = Σ βˆβˆ − Q donde Q es semidefinida ECM βˆ − ECM βˆ = A donde A es semidef.

r βr
ˆ
r
positiva posit. o semidef. negat.
4. S r2 es insesgado y consistente 4. S r2 es sesgado e inconsistente
20
TEMA 3.- PREDICCIÓN
3.1.- Predicción
Objetivo: Obtener valores de observaciones fuera de la muestra que se ha utilizado en la

estimación de la variable endógena. Para ello se requieren tres condiciones:
1) Buen comportamiento del modelo a lo largo del período muestral
2) Conocer lo más exactamente posible los valores que tomarán las variables
explicativas en el período de predicción.
3) Que el modelo mantenga la misma estructura en el período de predicción que en el

muestral.
Punto de partida:
Sea el modelo: Yi = X i' β + ε i que cumple las hipótesis clásicas

Yˆ = X ' β̂
i i
Si esa relación se mantiene para el período de predicción : Yp = X 'p β + ε p

siendo Yp y X 'p los valores que toma la variable endógena fuera de la muestra y el
vector fila formado por los valores que toman las variables explicativas, respectivamente.
( ) ( ) ( ) (
Donde: E ε p = 0 , Var ε p = σ 2 , Cov ε jε p = E ε jε p = 0 ∀ j = 1....N )
Definimos:
Predictor: Yˆp = X ′p β̂ un estimador del valor a predecir.
Error de predicción: f diferencia entre el predictor y lo que queremos predecir.
f es una variable aleatoria con media cero E ( f ) = 0 y varianza: σ 2f = E ( f − E ( f ) )
2
Propiedades del predictor:
• Yˆp es un estimador sesgado de Yp , por tanto, para analizar su precisión calculamos su

ECM:
( ) (
ECM Yˆp = E Yˆp − Y p )2 = E( f )2 = σ 2f
( ) ( )
donde podemos comprobar que: f = Yˆp − Y p = X 'p βˆ − β − ε p = X ′p ( X ' X )−1 X ' ε − ε p
Y, por tanto:
( ) ( )( )
ECM Yˆp = σ 2f = E Yˆp − Y p Yˆp − Y p = σ 2 (1 + X 'p ( X ' X )−1 X p )
'
S 2f = S 2 (1 + X 'p ( X ' X ) X p )
−1
21
Queremos predecir Predictor Esperanza ECM

Valor Yp= X 'p β +εp Ŷ p = X 'p β̂ X 'p β σ 2 [1 + X 'p ( X ' X ) −1 X p ]
individual
3.2.- Intervalos de confianza y test de hipótesis para un valor individual
f (
→ N 0 , σ 2f )
S2 χ N2 − k −1
→ N (0,1)
f
→
σf σ2 N − k −1
N (0,1)
como = t N − k −1
χ N2 − k −1
N − k −1
f
tenemos: → t N −k −1
Sf
donde :
f = Yˆp − Y p y S f = S 1 + X 'p ( X ' X )−1 X p
• Intervalo de confianza para la predicción de un valor individual:

  Yˆp − Y p  
P − tα / 2 ≤   ≤ tα / 2  = 1 − α
  S f  
[
Por tanto, el I. C. de Yp vendrá dado por: Yˆp ± tα / 2 ⋅ S f ]
• Test de Hipótesis para la predicción de un valor individual:
H o : Y p = Y po
H1 : Y p ≠ Ypo
Ŷp - Ypo Ho
Si la Ho es cierta: 
→ t N − k −1
Sf
3.3.- Evaluación de la capacidad predictiva del modelo:
La capacidad predictiva se puede evaluar a partir de varios estadísticos. Los

estadísticos que computa EViews, suponiendo que el tamaño del periodo de predicción es
n, son:
n
∑ f j2
j =1
• Raíz del error cuadrático medio: RECM =
n
22
n
∑ fj
j =1
• Error absoluto medio: EAM =
n
1 n fj
• Error absoluto medio del porcentaje de error: EAMP = ∑
n j =1 Y j
• Coeficiente de desigualdad de Theil:
∑ (Yˆ j − Y j ) / n
n 2
j =1
U = 0≤U≤1
n n
∑ Yˆ j / n + ∑ Y j / n
2 2
j =1 j =1
Todos los estadísticos descritos hasta ahora indican una mejor capacidad predictiva
del modelo cuanto más cercanos a cero sean, lo que permite comparar un determinado
modelo con otros alternativos.
• Descomposición del error cuadrático medio de predicción:
1 n ˆ
∑  Y
n j =1  j
−Y  =
j 
2
(1
Yˆ −Y )
23
2
+ (1
S −S )
23
Yˆ Y
2
+ (
2 1 − rYˆ Y S Yˆ S Y
1442443
)
componente sesgo componente var ianza componente cov arianza
El cociente entre cada uno de los componentes en la suma total se denomina
proporción del sesgo, proporción de la varianza y proporción de la covarianza.
Cada una de estas proporciones varía entre cero y uno, siendo su suma la unidad
como es de esperar. Los dos primeros miden, respectivamente, las diferencias entre la
media y la varianza de la serie predicha ( Y$ ) y las de la serie observada (Y) en el periodo de
predicción. Por tanto, lo deseable es que su valor sea pequeño. La última proporción mide
la parte residual o no sistemática de los errores de predicción, en donde debería recaer la
mayor parte del error total cometido.
23
24
TEMA 4. VARIABLES FICTICIAS
1.- Introducción
Las variables que hemos introducido como regresores en los temas precedentes son
variables de tipo cuantitativo. Sin embargo, en ocasiones existen factores de tipo cualitativo
que pueden ser relevantes para explicar el comportamiento de la variable endógena.
La inclusión de estos factores en un modelo econométrico se realiza a partir de la
construcción de lo que se conoce como variables ficticias, variables dicotómicas o variables
dummy que toman dos valores arbitrarios, normalmente 1 y 0, que corresponden a las
modalidades del factor, aunque no necesariamente ya que podrán tomar otros valores o más
de dos.
Pueden utilizarse para recoger:
• Efectos temporales:
• Efectos espaciales:
• Efectos de tipo puramente cualitativo.
• Otro tipo de efectos: efectos estacionales, funciones escalonadas, etc
Ejemplo: Queremos explicar el salario de los empleados de varias empresas (Yi) en
función del número de años de experiencia laboral (Xi) y del género (factor cualitativo con
dos modalidades: hombre/mujer).
0 hom bre
Di = 
 1 mujer
2.- Formas de introducir un factor cualitativo en el modelo de regresión

Las variables ficticias se pueden construir e incorporar de forma que actúen en el
modelo de tres modos distintos. En el caso de un modelo de dos variables tendríamos:
1º.- Que afecte sólo a la ordenada en el origen (Variables ficticias aditivas)

Si tenemos dos ecuaciones con la misma pendiente y diferente ordenada:
Yi=α1 +βXi+εi
Yi=α2 +βXi+εi
las dos ecuaciones se pueden expresar en una sola por medio de una variable ficticia:
Yi= α1 +β Xi +δDi +εi
1 Yi = (α + δ ) + βX i + ε i
1123

donde cuando Di =  α
2
 0 Y = α + βX + ε
 i 1 i i
α1+δ = α2 ⇒ δ = α2-α1
25
El coeficiente de la variable ficticia δ nos mide el efecto diferencial entre las dos
ordenadas en el origen, es decir, el efecto diferencial del valor esperado de la variable
dependiente por presentar una de las características del factor cualitativo respecto al hecho
de no presentarla.
2º.- Que afecte sólo a la pendiente (Variables multiplicativas o compuestas)

Si tenemos dos modelos con la misma ordenada en el origen y distinta pendiente:
Yi=α +β1Xi+εi
Yi=α +β2Xi+εi
las dos ecuaciones se pueden expresar en una sola por medio de una variable ficticia de la
forma:
Yi= α +β1 Xi +γ X i Di +εi
123
Zi
1 Z i = X i
donde cuando Di = 
0 Z i = 0
 1 Yi = α + ( 1
β1 + γ ) X i + ε i
23

por tanto cuando Di =  β
0 Y = α + β X + ε
2
 i 1 i i
β1+γ = β2 ⇒ γ = β2-β1
El coeficiente de la variable ficticia γ nos mide el efecto diferencial entre las
pendientes en los dos grupos, es decir, la diferencia de la influencia de la variable
explicativa sobre la variable endógena por presentar una característica respecto de no
presentarla.
3º.- Que afecte a ambas (ordenada y pendiente)
Si tenemos dos modelos con diferente ordenada en el origen y diferente pendiente:
Yi=α1 +β1Xi+εi
Yi=α2 +β2Xi+εi
las dos ecuaciones se pueden expresar en una sola por medio de una variable ficticia de la
forma:
Yi= α1 +β1 Xi +δDi+ γ X i Di +εi
123
Zi
 1 Yi = (α + δ ) + ( β1 + γ ) X i + ε i
 1123 123
donde cuando Di =  α2 β2
0 Yi = α1 + β1 X i + ε i
Todos estos casos podrían generalizarse para un modelo de k variables.

Para el caso de Variables ficticias que afectan al término independiente:
26
k
Yi =α1 +δDi + ∑ β j X ji +εi
j =1
Para el caso de variables ficticias que afectan a la pendiente dependerá de la variable

con la que se relacione la ficticia. Si es X1:
k
Yi =α +β1X1i + ∑ β j X ji +γDiX1i +εi
j =2
¿Cómo introducir en el modelo un factor cualitativo con m modalidades?

Como regla general si tenemos “m” modalidades deberíamos introducir “m-1”
variables ficticias.
1) Si las variables ficticias afectan a la ordenada, el número de variables ficticias a
introducir dependerá de que el modelo tenga o no término constante. Si el modelo tiene
término constante e incluimos tantas variables ficticias aditivas como modalidades tiene el
factor, caemos en la “trampa de las variables ficticias” que consiste en que la primera
columna de la matriz X será combinación lineal exacta de las columnas que contienen las
observaciones de las variables ficticias, por tanto, rg(X)<k+1 ⇒ |X’X|=0 y no se puede
invertir la matriz X’X.
La regla para evitar la trampa es la siguiente: si el factor posee “m” modalidades
incluimos “m-1” variables ficticias en el modelo (si hay varios factores cualitativos la regla
se aplica para cada uno de ellos). En caso de que el modelo no tenga término constante, el
número de variables ficticias sería igual al número de modalidades que tuviésemos.
2) Si las variables ficticias afectan a la pendiente del modelo también hay que utilizar esa
regla para no caer en la trampa de las variables ficticias, pero en ese caso
independientemente de que el modelo tenga término constante o no, ya que es la columna
de la variable X la que es combinación lineal de las columnas de las ficticias.
Contrastes de hipótesis en modelos con variables ficticias
El estudio de la importancia de uno o varios factores cualitativos en un modelo
econométrico se realiza mediante el análisis de la significación de las variables ficticias que
utilizamos. Teniendo en cuenta los modelos considerados antes, podemos concretar dicho
análisis en los siguientes contrastes:
1º.- En modelos con variables ficticias que afectan al término independiente
H0: δ=0
H1: δ≠0
estaríamos contrastando si los dos modelos tienen la misma ordenada.
2º.- En modelos con variables ficticias que afectan a la pendiente
H0: γ=0
H1: γ≠0
En este caso estaríamos contrastando si los dos modelos tienen la misma pendiente.
27
3º.- En modelos con variables ficticias que afectan a pendiente y ordenada

δ   0 
H 0 :   =  
γ  0
δ   0 
H1 :   ≠  
γ   0
y estaríamos contrastando si los dos modelos tienen tanto la misma ordenada en el origen
como la misma pendiente.
3.- Formas de introducir varios factores cualitativos en el modelo de regresión
En el modelo también podemos introducir a la vez varios factores cualitativos, cada

uno con diversas modalidades, y podemos analizar además las interacciones que se
producen entre esos factores cualitativos.
La forma de introducir más factores cualitativos es similar a la introducción de uno
de ellos y se aplican también las reglas vistas acerca de cuántas variables ficticias introducir
para un factor con m modalidades y de cómo realizar los contrastes de hipótesis.
Ejemplo: Supongamos que queremos estimar un modelo de determinación de
salarios, para lo cual disponemos de una muestra de N trabajadores e información sobre el
salario que reciben, su categoría profesional (empleado, técnico y directivo) y el género.
Yi =β0+ β1E1i + β2E2i+ β3Si +εi
donde Yi es el salario
 1 si el trabajador es mujer
Si = 
0 si el trabajador es hombre
 1 si el trabajador es técnico
E1i = 
0 en otro caso
 1 si el trabajador es directivo
E 2i = 
0 en otro caso
de esta forma el valor esperado de Yi en cada caso es:
Empleado Técnico Directivo
Mujer β0+β3 β0+β3+β1 β0+β3+β2
Hombre β0 β0+β1 β0+β2
La diferencia salarial entre hombres y mujeres viene dada por β3

independientemente de su categoría profesional. Está claro que si β3 es <0 implica que el
salario de los hombres es superior al de las mujeres para la misma categoría profesional.
Por otro lado, un contraste de discriminación salarial respecto al género sería:
H0: β3 = 0
H1: β3 ≠ 0
28
Un contraste de diferencias salariales respecto a la categoría profesional sería:

 β   0
H 0 :  1  =  
 β2   0
 β1   0 
H1 :   ≠  
 β2   0 
Efectos interacción
El modelo que acabamos de plantear recoge que el hecho de ser hombre o mujer no
influye en la diferencia salarial según la categoría profesional. Sin embargo, podríamos
estar interesados en estudiar el efecto que tiene sobre el salario recibido el hecho de ser
mujer o hombre con cierta categoría profesional. En este caso, el modelo tendría que incluir
lo que se llama efectos interacción entre variables ficticias y se especificaría de la siguiente
forma:
Yi =β0+ β1E1i + β2E2i+ β3Si +β4E1iSi+β5E2iSi +εi
Ahora, el valor esperado de Yi en cada caso es:
Empleado Técnico Directivo
Mujer β0+β3 β0+β3+β1+β4 β0+β3+β2+β5
Hombre β0 β0+β1 β0+β2
La diferencia salarial entre hombres y mujeres ya no viene dada únicamente por β3,
sino también por β4 o β5, dependiendo de su categoría profesional.
29
30
TEMA 5: ERRORES DE ESPECIFICACIÓN
Un error de especificación es cualquier error que se pueda producir en la

especificación del modelo econométrico. La especificación de un modelo de regresión
consta de la formulación de la ecuación de regresión y de las afirmaciones o supuestos
acerca de los regresores y del término de perturbación. En sentido amplio, existirá un error
de especificación siempre que sea incorrecta la formulación de la ecuación o uno de los
supuestos subyacentes (Kmenta, p.467).
Podemos mencionar los siguientes errores de especificación:
1. Formulación de la ecuación:
1.1. Forma funcional. Representaciones gráficas y contraste RESET.
1.2. Permanencia estructural. Contraste de estabilidad estructural y estimación
recursiva.
2. Especificación de la matriz X:
• Omisión
• Inclusión
• X no estocástica. Contraste de exogeneidad.
• Rango de X menor que K+1. Multicolinealidad.
3. Especificación de la perturbación
• Perturbaciones no esféricas: Varianzas no constantes: heteroscedast.
Convarianzas no nulas: Autocorrelación
• Perturbaciones no normales. Contraste Jarque-Bera.
1.-Formulación de la ecuación
1.1. Errores de especificación en la forma funcional
Una de las hipótesis clásicas que se realizan en el modelo de regresión es el de la

forma funcional lineal. La Teoría Económica a veces nos indica como es la relación entre
las variables, pero otras veces tienen que ser los datos los que nos ayuden a decidir. La
especificación incorrecta en la forma funcional genera estimadores sesgados e
inconsistentes.
31
Hay que tener en cuenta que hay varios tipos de modelos no lineales. Algunos
pueden ser tratados con las técnicas vistas hasta ahora realizando algunas transformaciones
y teniendo en cuenta algunas diferencias2.
Detección de no linealidades en el modelo econométrico:
• Contraste Reset de Ramsey:

Ramsey propuso una prueba general de errores de especificación que puede ser
aplicada para la detección de no linealidades.
El contraste se basa en especificar un nuevo modelo alternativo al modelo inicial
(Y=Xβ+ε ) de la forma:
Y=Xβ+Zγ+u
y contrastar la restricción γ=0.
Ramsey sugiere incluir en Z potencias de los valores estimados de la variable
dependiente (los cuales son, por supuesto, combinaciones lineales de potencias y productos
cruzados de las variables explicativas), de modo que: Z=( Ŷ 2 ,Ŷ 3 ,Ŷ 4 ,.. )
No se incluye Ŷ porque existe correlación perfecta de esta variable con la matriz X
y, por lo tanto, el modelo no se podría estimar.
1.2. Permanencia estructural3
Hasta ahora hemos supuesto que en el modelo de regresión especificado los

coeficientes se mantienen constantes para todo el periodo muestral. Sin embargo, es posible
que existan submuestras para las que el comportamiento del modelo sea diferente, es decir,
exista cambio estructural.
Detección de cambio estructural:
a).- Contraste de estabilidad estructural de Chow

Si no hay cambio estructural (modelo restringido)
Yi = β 0 + β 1 X 1i + ... + β k X ki + ε i i=1...N
Si hay cambio estructural a partir del periodo N1
Yi = β 01 + β 11 X 1i + ... + β k1 X ki + ε 1i i=1...N1
Yi = β 02 + β 12 X 1i + ... + β k2 X ki + ε 2i i=N1+1...N (total N2 )
2
Ver el apéndice 1 de este tema. Si las variables están todas en logaritmos, los parámetros miden
elasticidades. En general, la elasticidad de Y respecto a X recoge la variación porcentual de Y ante una
∆Y X
variación porcentual de X: E=
∆X Y
3
Basado en Carrascal, U. y otros (2001). Análisis econométrico con Eviews. Ed. RAMA.
32
Hipótesis del contraste

 β 01   β 02   β 01   β 02 
 1  2    2
β  β   β1  β 
H0 =  1  =  1  H1 =  1  ≠  1 
 M   M   M   M 
β1  β 2  β1  β 2 
 k  k  k  k
Estadístico de contraste
(er' er - (e1' e1 + e2' e2 )) / k + 1
→ FNk1++1N 2 -2 k -2
(e1' e1 + e2' e2 ) / N 1 + N 2 - 2k - 2
Nota 1: Es necesario que las observaciones de ambas submuestras sean suficientes para
estimar los modelos, es decir, N1>k+1 y N2>k+1. No obstante, el contraste se puede hacer
aunque en una de las dos muestras no haya suficientes grados de libertad, asignando cero a
la SCR correspondiente a esa muestra (Johnston, 1989, pág. 264 y ss.)
Nota 2: Una forma alternativa de llevar a cabo este contraste de Chow es mediante la
incorporación de variables ficticias que recojan el cambio en los coeficientes del modelo.
b).- Estimación recursiva

Esta técnica es adecuada cuando trabajamos con datos temporales y se desconoce el
momento en el que se ha producido un cambio estructural. Consiste en la estimación
secuencial del modelo especificado para distintos tamaños muestrales. Con cada estimación
obtenemos un vector de estimadores (coeficientes recursivos), con el que podemos calcular
la predicción de Y en el periodo siguiente, el error de predicción correspondiente y los
llamados residuos recursivos. Si no existe un cambio estructural los coeficientes recursivos
se mantendrán constantes al ir aumentando la muestra secuencialmente y los residuos
recursivos no se desviarán de cero. Estos comportamientos se analizan mediante los
siguientes gráficos:
33
* Gráfico de los coeficientes recursivos. En él se muestran los coeficientes

recursivos junto con sus bandas de confianza (± dos veces su desviación típica).
1500000 1.1
1000000 1.0
500000 0.9
0 0.8
-500000 0.7
-1000000 0.6
75 80 85 90 95 75 80 85 90 95
Rec ursiv e C(1) Estimates ± 2 S.E. Rec urs iv e C(2) Estimates ± 2 S.E.
12000000 1200
10000000
800
8000000
6000000 400
4000000
0
2000000
0 -400
75 80 85 90 95 75 80 85 90 95
Rec ursiv e C(3) Estimates ± 2 S.E. Rec urs iv e C(4) Estimates ± 2 S.E.
* Gráfico de los residuos recursivos. En él se muestran los residuos recursivos junto

con sus bandas de confianza (± dos veces su desviación típica).
600000
400000
200000
-200000
-400000
70 75 80 85 90 95
Recursive Residuals ± 2 S.E.
2.- Especificación de la matriz X
2.1 Error por omisión de variables relevantes

Supongamos, que por error, omitimos de la parte sistemática del modelo una serie
de variables que, en realidad, deberían estar especificadas por ser todas ellas relevantes. Es
decir:
34
Modelo correctamente especificado: [1] Y=X1β1+ X2β2+ ε

Modelo estimado (con omisión): [2] Y=X1β1+ u donde u = X2β2+ ε
En realidad, cuando cometemos un error de especificación por omisión estamos
planteando un modelo restringido (bajo la restricción β 2 = 0 ) en el que la restricción es
falsa.
Consecuencias:
a) El estimador restringido es sesgado (salvo la excepción de que los dos bloques de
regresores sean ortogonales, es decir, que X 1' X 2 = 0) e inconsistente. Aunque tiene menor
varianza que el estimador del modelo correctamente especificado, como es sesgado, la
varianza no mide la precisión del estimador sino que la mediría el ECM, que puede ser
mayor o menor (recordar propiedades del estimador restringido).
b) El estimador de la varianza de las perturbaciones, S2, también es sesgado e
inconsistente.
c) Al ser S2 sesgado el estimador de la matriz de varianzas y covarianzas de β1 : S b1b1
también será sesgado: E( S b1b1 ) ≠ σ2 ( X 1' X 1 ) −1
d) Los contrastes de hipótesis habituales sobre β̂ 1 no son válidos porque la distribución de

β̂ 1 no es la habitual, ya que es sesgado.
e) El predictor Yˆp es un estimador sesgado de X p' β .
2.2. Error por inclusión de variables irrelevantes
Supongamos ahora, que por error, incluimos en la parte sistemática del modelo una
serie de variables que no son significativas. Es decir:
Modelo correctamente especificado: [1] Y=X1β1+ ε
Modelo estimado (con inclusión): [2] Y=X1β1+ X2β2+ ε
En este caso se estima un modelo donde no se incluye la restricción cierta β2 = 0.
Los estimadores del modelo estimado seguirán siendo ELIO y consistentes y también lo
será S2. El problema, por tanto, no está en las propiedades de los estimadores sino en su
eficiencia comparada con los estimadores del modelo correctamente especificado. Como ya
sabemos, el estimador mínimo cuadrático restringido tiene siempre varianza más pequeña
que el mínimo cuadrático ordinario sin restringir y, por lo tanto, en este caso será más
eficiente. Además, los test de hipótesis son válidos y el predictor es un estimador insesgado
del valor medio.
La detección de error de omisión o de inclusión consiste en aplicar los criterios de selección
del modelo adecuado.
2.3. Regresores estocásicos
La existencia de regresores estocásticos en el modelo econométrico rompe conla

hipótesis clásica de que la matriz X es determinista. El tratamiento de estos modelos se basa
fundamentalmente en analizar la relación entre los regresores y la perturbación. Existen
pruebas de hipótesis como el contraste de exogeneidad para su estudio.
35
2.4. Rango de X menor que K+1
El incumplimiento de la hipótesis de rango sobre X implica la existencia de

combinaciones lineales exactas sobre las variables explicativas, es decir, presencia de
multicolinealidad perfecta. Esta situación, así como la presencia de relaciones entre los
regresores que no sean exactas se estudiarán en el tema “Multicolinealidad”.
3.- Especificación de la perturbación
3.1 Perturbaciones esféricas

La hipótesis de que E (εε ' ) = σ 2 I es necesaria en la propiedad de optimalidad del
estimador de β por MCO. Su incumplimiento genera estimadores insesgados, pero no
óptimos ni eficientes. El tratamiento de un modelo econométrico en el que se incumple
dicha hipótesis se realizará en los temas 7 y 8 del programa.
3.2. Perturbaciones no normales
La hipótesis de normalidad de la perturbación aleatoria no se utiliza para la

obtención de los estimadores MCO, por lo que dichos estimadores seguirán cumpliendo sus
propiedades aunque la perturbación no sea normal. Sin embargo, bajo dicha hipótesis, los
estimadores de MCO coinciden con los estimadores MV, y también bajo dicha hipótesis se
construye todo el proceso inferencial sobre los modelos econométricos analizados.
El inclumplimiento de la hipótesis de normalidad hace que el estimador MCO no
sea el más eficiente ni cumpla las propiedades adicionales de los EMV. Además, los
estadísticos utilizados para realizar los contrastes de hipótesis, que seguían distribuciones
derivadas de la normal, como la t o la F, ya no seguirán, en general, distribuciones
conocidas. No obstante, asintóticamente los contrastes habituales mantienen su validez.
Test de normalidad de Jarque-Bera

Este contraste analiza la normalidad de las perturbaciones a partir de la forma de la
distribución de los residuos puesto que las perturbaciones son variables no observables.
Concretamente, examina sus discrepancias respecto a la curva campaniforme característica
del modelo normal (distribución simétrica y de kurtosis igual a 3).
Así, se definen los coeficientes de asimetría g1 y de kurtosis g2::
Asimetría Kurtosis
N N
∑ ei3 / N ∑ ei4 / N
g1 = i =1
3/ 2
g2 = i =1
2
 N
  N

 ∑ ei / N   ∑ ei / N 
2 2
 i =1   i =1 
g1=0⇒ Distribución simétrica g2=3⇒ Distribución mesocúrtica
g1>0⇒ Distrib. con asimetría positiva g2>3⇒ Distrib. Leptocúrtica
g1<0⇒ Distrib. con asimetría negativa g2<3⇒ Distrib. Platicúrtica
36
El contraste plantea en la hipótesis nula la normalidad de la perturbación, siendo el

estadístico de Jarque-Bera:
d JB =
N − k −1 2 1
6  4
( )2
 g1 + g 2 − 3  → χ 2

2
Este estadístico adoptará valores pequeños si la distribución observada de los

residuos es aproximadamente simétrica y mesocúrtica (valores de g1 y g2-3 cercanos a
cero). En otro caso, a medida que se detectan asimetrías (positivas o negativas) o
desviaciones en la kurtosis, aumenta su valor. Por lo tanto, aceptaremos H0 cuando dJB <
χ 22 ( α ) y rechazaremos en caso contrario.
TABLA RESUMEN
Error de especificación ¿cómo detectarlo?
1. Formulación del modelo
a) Forma funcional Test RESET de Ramsey
b) Forma estructural * Test de Chow
Cambio/permanencia * Estimación recursiva
En general, el test RESET de Ramsey puede
2. Especificación de la matriz de regresores detectar cualquier tipo de error de
especificación en un modelo
a)Omisión de variable relevante *E-views (test Wald de omisión de v.
relevante)
b)Inclusión de variable irrelevante *E-views (test Wald de inclusión de v.
irrelevante)
c)Rango de la matriz X (Multicolinealidad) *Indicios de multicolinealidad (tema 6)
d) X no estocástica
3. Hipótesis sobre las perturbaciones
a)Normalidad Test Jarque-Bera
b)Homoscedasticidad Varios contrastes (tema 7)
c)Incorrelación Varios contrastes (tema 8)
37
38
Apéndice 1.- Modelos no lineales

A) No linealidad en las variables:
* En las variables explicativas
Ej: Yt = β 0 + β 1 e X 1t + β 2 X 22t + ε t . Basta con definir nuevas variables de la forma:
Z 1t = e X 1t y Z 2 t = X 22t
* En las variables explicadas
Ej: YtXt + β1lnYt = β2Xt + εt. Sería imposible expresar Y como función de los
vectores X y β.
B) No linealidad en los parámetros:
1.b) Modelos intrínsecamente lineales
Son modelos fácilmente linealizables mediante sencillas transformaciones.
Ejs: Yt = β0 X tβ1 εt ⇒ lnYt = lnβ0 +β1lnXt +lnεt ⇒ Yt* = β 0* + β1 X t* + ε t*
Función de producción Cobb-Douglas: Qt = AK tα Lβt ε t ⇒
lnQt = lnA +αlnKt +βlnLt+lnεt ⇒ Qt* = γ + α K t* + β L*t + ε t*
Se estima el modelo transformado y una vez conocidos los estimadores, se deshacen los
cambios. Así:
β
ˆ * = ln β
ˆ ⇒β ˆ * = e βˆ *0
ˆ = anti log β
0 0 0 0
β̂ 1 no hay que realizar ningún cambio

Interpretación de los parámetros en los modelos no lineales
La hipótesis de linealidad del MRLC supone la existencia de una relación lineal en los
parámetros que unen a las variables, pero no significa que esa linealidad tenga que darse
entre las variables. En Economía, las relaciones entre las variables no siempre son lineales.
Así, por ejemplo, la demanda de un producto no tiene porque estar en relación lineal directa
con la renta, si el incremento en la renta no supone un incremento equivalente en el
consumo del producto.
Otras formas funcionales

Modelo Pendiente Elasticidad4
Lineal en β1Y / X β1
ln Yt = β 0 + β1 ln X 1t + ε t
logaritmo
Semilog en Y ln Yt = β 0 + β1 X 1t + ε t β1Y β1 X (*)
Semilog en X Yt = β 0 + β1 ln X 1t + ε t β11 / X β11 / Y (*)
Recíprocos Yt = β 0 + β11 / X 1t + ε t − β11 / X 2 − β11 / XY (*)

(*) Indica que el coeficiente de la pendiente varía dependiendo del valor asumido para X, Y o ambas.
Cuando no se especifica ningún valor de X o Y, las elasticidades suelen medirse en los valores medios de
las variables.
Fuente: Gujarati (2006): Principios de Econometría, pág. 275.
4
La elasticidad de Y respecto a X recoge la variación porcentual de Y ante una variación porcentual de X,
∆Y X
E= .
∆X Y
39
Propiedades de los estimadores

a) Si los parámetros no sufren transformación, los estimadores conservan las propiedades
de MCO.
b) Si sufren transformaciones lineales (sumas y restas) los estimadores conservan las
propiedades de los estimadores de MCO pues la esperanza es un operador lineal.
c) Si se realizan transformaciones logarítmicas, los estimadores no conservan las
propiedades finitas, pero dado que los estimadores de MCO coinciden con los de MV y
estos tienen la propiedad de la invarianza, se mantendrían las asintóticas.
Problemas con el coeficiente de determinación
a) Si el regresando no sufre modificación, el R2 encontrado para el modelo transformado
sirve también para medir la bondad del ajuste.
b) Pero si existe transformación en el regresando, el R2 nos medirá la bondad del ajuste del
modelo transformado, es decir, no nos medirá la variabilidad de Y sino por ejemplo del
lnY.
b.2) Modelos intrínsecamente no lineales

Son aquellos modelos que no se pueden linealizar mediante transformaciones sencillas. Son
de la forma:
Ejs. Yt = β1 X tβ 2 + εt
[
Función de producción CES: Yt = α δ L− p + (1 − δ ) K − p ]
n/ p
40
TEMA 6: MULTICOLINEALIDAD
6.1.- Ortogonalidad versus multicolinealidad perfecta
Una cuestión importante que debe analizarse al estudiar los resultados de un modelo
de regresión es el grado de relación lineal existente entre las observaciones de las variables
explicativas, siendo tres las situaciones posibles con las que nos podemos encontrar.
Ortogonalidad: supone la ausencia de relación lineal entre algunos o todos los
regresores incluidos en el modelo, es decir, implica incorrelación entre los regresores.
Multicolinealidad perfecta: se da cuando existe una relación lineal exacta entre
algunos o todos los regresores incluidos en el modelo.
Multicolinealidad imperfecta: consiste en la existencia de una relación lineal fuerte
entre los regresores del modelo.
A continuación vamos a analizar las consecuencias de estas tres situaciones
centrándonos sobre todo en la multicolinealidad imperfecta que es la situación más
frecuente.
Ortogonalidad : Se dice que dos regresores son ortogonales cuando están linealmente
incorrelacionados, es decir, cuando su coeficiente de correlación lineal, o su covarianza es
cero. Así, Xh y Xj son ortogonales si rxh x j = 0 .
Dos grupos de regresores son ortogonales si X 1' X 2 = 0 , lo que significa que cada
regresor del primer bloque está incorrelacionado con cada regresor del segundo bloque.
Particularidades del modelo con regresores ortogonales:
Sea el modelo particionado: Y = X 1 β 1 + X 2 β 2 + ε
• Los EMCO de los parámetros de este modelo coinciden con los que obtendríamos
efectuando la regresión individual de Y sobre cada uno de los bloques:
Los estimadores de los parámetros del modelo particionado en la regresión
Y  →
R
X 1 X 2 son:
( )
−1 −1 −1
 βˆ1   X 1' X 1 X 1' X 2   X 1'Y   X 1' X 1 0   X 1'Y   X 1' X 1 X 1'Y 
β =   =  '
ˆ   ' =   ' =
 β2   X 2 X1
ˆ X 2' X 2  X Y  0
 2   X 2' X 2  X Y  X'X
 2   2 2 ( )
−1
X 2' Y 
Los estimadores de los parámetros de las regresiones individuales son:
Y 
→
R
X1 Y = X 1 β1 + u (
b1 = X 1' X 1 ) −1
X 1'Y
Y 
→
R
X2 Y = X 2β2 + v (
b2 = X 2' X 2 ) −1
X 2' Y
Por lo tanto, se obtienen los mismos resultados.
Sin embargo, si los regresores no son ortogonales, no se obtienen los mismos
resultados, sino que en la regresión conjunta, cada uno de los dos estimadores
depende de toda la matriz X, por tanto de X1 y de X2, debido a que X 1' X 2 ≠ 0
41
• Las varianzas de los estimadores también coinciden con las calculadas al hacer las
regresiones individuales pero no los estimadores de esas varianzas:
−1 −1
 X 1' X 1 0  2  X1X1
'
0  e'e
∑βˆβˆ  0
= σ 2

X 2' X 2 
, S βˆβˆ
= S 
 0

X 2' X 2 
siendo S 2
=
N − K −1
 
Haciendo las regresiones individuales:
∑ b1b1
(
=σ 2 X 1' X 1 )
−1
∑ b2b2
(
=σ 2 X 2' X 2 ) −1
S b1b1 = S1 X X 1
2
( '
1 )
−1
siendo S1
2
=
uˆ ' uˆ
N − K1 − 1
2
(
S b2b2 = S 2 X 2' X 2 )
−1
siendo S2 =
2 vˆ ' vˆ
N − K2 −1
Multicolinealidad Perfecta: Cuando la relación que liga a dos o más variables explicativas
es una relación lineal exacta, es decir, las columnas de la matriz X son linealmente
dependientes. En este caso se deja de cumplir la hipótesis clásica Rg(X) = k+1, de modo
que:
Rg(X) < k+1 ⇒X’X= 0
Y por tanto los estimadores mínimos cuadrados ordinarios no se pueden calcular.
Es, en definitiva un grave problema pero fácilmente detectable, así que si
conocemos la relación lineal entre las variables es muy fácil de corregir, bastará con
eliminar una cualquiera de las variables correlacionadas sin sufrir ninguna disminución en
la capacidad explicativa o predictiva del modelo
La multicolinealidad normalmente, es un problema meramente muestral.
Multicolinealidad Imperfecta o fuerte: cuando la relación entre las variables es muy
fuerte pero no perfecta, es decir, los coeficientes de correlación lineal no son igual a 1 o -1
pero se aproximan bastante. En este caso X’X≠0 por lo tanto no existen razones, a priori,
para no poder estimar el modelo.
Los estimadores serán ELIO siempre que el modelo cumpla las hipótesis clásicas y
coincidirán con los máximo verosímiles, aunque en la práctica esto puede tener poco valor
debido a las consecuencias que este problema genera.
Causas de la multicolinealidad imperfecta:
• Existencia de alguna relación causal entre dos variables explicativas (o más).
• En economía, la mayoría de las variables explicativas están, de alguna manera
correlacionadas. Cuando trabajamos con series temporales, la mayoría de las
variables económicas tienen una tendencia creciente, Granger y Newold
demostraron que basta con introducir una tendencia lineal en dos series temporales
independientes para que su correlación aumente considerablemente, por tanto, la
existencia de esa tendencia puede ser la causa de un problema de multicolinealidad.
42
• Existencia de una variable explicativa con escasa variabilidad en su serie. Es decir,

si X ji ≅ X j ∀ i en un modelo con término constante, esto implicaría que la
columna correspondiente a Xj sería proporcional al regresor falso (Xoi=1):
X ji ≅ X oi X j
• Existencia de variables explicativas retardadas.
6.2.- Consecuencias de la multicolinealidad imperfecta
1) Dificultad para interpretar los coeficientes, y por tanto, sus estimaciones. Los
coeficientes de regresión ( β j ) se interpretan como el cambio que se produce en Yi
al variar Xji en una unidad, permaneciendo el resto de variables explicativas
constantes. Cuando existe multicolinealidad imperfecta carece de sentido suponer
que, cuando una variable explicativa se modifica, el resto de las variables
permanecen constantes, al existir altas correlaciones entre ellas. Por este motivo, los
parámetros pierden este significado y, por lo tanto, también sus estimaciones.
2) La multicolinealidad afecta a la precisión de los estimadores ya que sus varianzas
toman valores grandes. Se puede ver, por un lado, a partir del determinante de X’X,
que es relativamente pequeño y, por otro, analizando la varianza de un estimador de
la siguiente manera: Planteamos un modelo particionado en el que el 2º bloque está
formado por un único regresor: Y = X 1 β 1 + X 2 β 2 + ε
σ2
En ese caso: Var βˆ 2 =
(1 − R 2
X 2 • X1 )N S 2
X2
S2
S β2ˆ =
Y su estimador:
2
(1 − R 2
X 2 • X1 )N S 2
X2
Las varianzas de los estimadores pueden ser grandes como consecuencia de:
• Valores grandes del S2
• Fuerte correlación entre X2 y X1 : valores grandes de R X2 2 • X1
• Poca variabilidad en X2: S X2 2 pequeña
• Tamaño muestral pequeño

Esto implica que no siempre que las varianzas de los estimadores sean grandes será
como consecuencia de la multicolinealidad, aunque cuando la haya las varianzas pueden
tomar valores más grandes de lo que serían si no la hubiese.
3) Valores muestrales de los estadísticos t pequeños, lo que implica que es muy dificil
rechazar cualquier contraste de no singnificación de las variables
4) No afecta al R2 ya que éste mide el efecto conjunto de todos los regresores sobre el
regresando y la multicolinealidad afecta a los valores individuales de los regresores,
por tanto la regresión podrá ser significativa a pesar de la existencia de
multicolinealidad.
5) Los puntos 3 y 4 nos pueden llevar a rechazar la significación individual de todos
los regresores y sin embargo no rechazar la significación conjunta de todos ellos.
43
6) Sensibilidad de los EMC a los pequeños cambios en las muestras, como la

incorporación o eliminación de unas pocas observaciones o a la eliminación de una
variable aparentemente no significativa.
7) No afecta a las predicciones
6.3.- Procedimientos para detectar la multicolinealidad
• La simple lógica permite, algunas veces, saber si existe o no una relación causal entre
ellas. Por ejemplo, si dos variables explicativas son la población y el empleo, el
presupuesto nacional y el PNB, etc.
• Grandes varianzas. Indicio poco fiable por sí solo.
• Altos coeficientes de correlación lineal. Si el modelo tiene 2 regresores este coeficiente
es un buen indicio pero si tiene más de dos regresores, los coeficientes de correlación
altos son una condición suficiente para la existencia de multicolinealidad pero no
necesaria, ya que ésta puede existir aunque los coeficientes de correlación sean
comparativamente bajos.
• Coeficientes de correlación múltiple entre los regresores grandes: R X2 j • X1....
Estos coeficientes miden la correlación que existe entre un regresor y todos los demás.
Se puede calcular como coeficiente de determinación en la regresión auxiliar de cada
regresor frente a los otros.
• Estadísticos t pequeños y F grandes
• Factor de inflación de la varianza: FIV
1
Este factor se define como el cociente: FIV j =
1 − R X2 j • X1 .....
Como 0 ≤ R X2 j • X 1 .... ≤ 1 ⇒ FIV j ≥ 1
Si las variables fuesen ortogonales R X2 j • X 1 .... = 0 ⇒ FIV = 1
Cuando R X2 j • X 1 .... → 1 ⇒ FIV → ∞
Si expresamos la varianza del estimador de un parámetro cualquiera como vimos antes

σ2
Var βˆ j =
(1 − R 2
X j • X 1 ... X k )N S 2
Xj
, el factor de inflación de la varianza mide la influencia que
tiene la relación entre Xj y las demás variables sobre la varianza de β̂ j . Cuanto mayor sea
este factor, mayor es la varianza del estimador.
El factor de inflación de la varianza se puede interpretar como cociente de dos varianzas del
estimador:
o Su varianza real σ β2ˆ
j
o La varianza que tendría si hubiera ortogonalidad σ β̂2 ( )j ortog
44
Si hay ortogonalidad, el FIV vale uno, luego σ β2ˆ ( ) j ortog

=
σ2
N S X2 j
Si hacemos el cociente entre las dos varianzas tenemos

σ2
σ β2ˆ (1 − R 2
)N S 2
(σ )
X j • X 1 ... X k Xj 1
= =
(1 − R ) = FIV
j
2
βˆ j
σ 2 2
X j • X 1 ... X k
ortog
N S X2 j
Esto nos permite interpretar este factor de la siguiente forma:

Supongamos que R X2 j • X 1 .... = 0.5 → FIV = 2 , es decir, la varianza de β̂ j es el doble del
valor que tomaría en el caso de ortogonalidad entre los regresores.
Si R X2 j • X 1 .... = 0.999 → FIV = 1000 , la varianza es 1000 veces mayor que la que se
tendría en caso de ortogonalidad (con el mismo N , σ 2 , y S X2 j ).
6.4.- Soluciones a la multicolinealidad
Las soluciones más frecuentes aunque no las únicas son:
1) Aumentar el tamaño de la muestra. Esta podría ser una solución siempre que la
multicolinealidad fuera un problema muestral.
2) Eliminación de variables: Eliminar aquella o aquellas variables colineales. El
inconveniente de este método es que podríamos caer en graves problemas de errores
de especificación por omisión. Este error sería tanto menor cuanto mayor fuese la
correlación lineal entre la variable omitida y las incluidas y por tanto también será
menor el sesgo de los estimadores.
3) Utilización de información a priori: Consiste en incorporar al modelo algún tipo de
información estableciendo restricciones sobre los parámetros del modelo.
4) Transformación de variables: Si la multicolinealidad se presenta en modelos con una
muestra de series temporales la tendencia aproximadamente común en los
regresores podría ser la principal causa del problema. En este caso una forma de
eliminar esa tendencia es trabajar con la series en primeras diferencias y de esa
forma no solo se eliminaría la tendencia sino que la correlación entre los regresores
disminuiría. También se podría trabajar con ratios.
45
46
ANEXO. INSTRUMENTOS MATEMÁTICOS Y ESTADÍSTICOS BÁSICOS

ELEMENTOS DE ÁLGEBRA MATRICIAL
MATRIZ.- Se llama matriz a una agrupación rectangular de números ordenados en filas y

columnas (aij) donde el primer subíndice indica la fila y el segundo la columna.
 a11 a12 ...... a1n 
 
 a 21 a 22 ...... a 2n 
A= . . . 
 ...... 
 . . . 
 a m1 a m2 ...... a mn 
En Econometría, por comodidad, la notación que seguiremos será: (xij) donde el

primer subíndice indica la columna y el segundo la fila a la que pertenece.
 x11 x 21 ...... x k1 
 
 x12 x 22 ...... x k 2 
X = . . . 
 ...... 
 . . . 
 x1T x 2T ...... x kT 
ORDEN de una matriz.- Una matriz con T filas y K columnas se dice que es de orden T por
K, (TxK).
RANGO de una matriz.- Se define como el máximo número de columnas o filas, de X,
linealmente independientes. Corrientemente se dice que es el ORDEN del mayor MENOR
no nulo. Donde los MENORES son los determinantes (nxn) que se puede formar.
PROPIEDADES: Si A es una matriz nxm de rango m<n, entonces A'A es definida positiva y
AA' es semidefinida positiva. (Johnston, p. 182).
Si A es una matriz nxm de rango m<n, entonces A' es de rango m y la matriz resultante de
premultiplicar a A por su transpuesta (A'A) también es de rango m.
MATRIZ CUADRADA.- Es aquella que tiene el mismo número de filas y de columnas.
MATRIZ DIAGONAL.- Aquélla cuyos únicos elementos distintos de cero están en la
diagonal principal.
MATRIZ NO SINGULAR.- Aquélla matriz cuadrada cuyo determinante es distinto de
cero.
MATRIZ IDENTIDAD.- Aquélla cuyos elementos de la diagonal principal son la unidad y
el resto ceros. Se cumple que A·I = I.A = A.
OPERACIONES CON MATRICES
SUMA DE MATRICES.- Para sumar dos matrices deben tener el mismo orden. Se suma
cada elemento de la primera con su correspondiente elemento en la segunda.
PROPIEDADES: Conmutativa: A+B=B+A; Asociativa: A+(B+C)=(A+B)+C
MULTIPLICACIÓN POR UN ESCALAR: Se multiplica el escalar por todos los elementos
de la matriz. Admite la propiedad distributiva: a(A+B)= aA+aB
47
MULTIPLICACIÓN DE MATRICES.- Tiene que guardar la condición de orden, es decir,

el número de columnas de la primera ha de ser igual al número de filas de la segunda. Se
multiplican filas por columnas.
PROPIEDADES.- No cumple la propiedad conmutativa, A·B ≠ B·A, pero sí la distributiva
A·(B·C)=(A·B)·C
MATRIZ TRASPUESTA.- Es la que se obtiene cambiando filas por columnas y columnas
por filas.
PROPIEDADES.- (A’)’ = A ; (A+B)’ = A’ + B’ ; (A·B·C)’ = C’·B’·A’
MATRIZ SIMÉTRICA.- Aquélla que es igual a su traspuesta A = A’
MATRIZ IDEMPOTENTE.- Aquélla que al multiplicarla por sí misma se reproduce
A·A=A
MATRIZ INVERSA.- Dada una matriz A, llamamos matriz inversa de A y la denotamos
como A-1, a aquélla que cumple A·A-1 = I y A-1·A= I
A tiene inversa si y sólo si el determinante de A es distinto de cero.
CÁLCULO DE LA MATRIZ INVERSA: En primer lugar se calcula la matriz de adjuntos
de los elementos de A, y luego se divide por el valor del determinante.
La matriz adjunta es la traspuesta de la formada por los adjuntos (valor del determinante
suprimida la fila y la columna correspondiente, con el signo más o menos dependiendo de
que la suma de lo subíndices sea par o impar).
PROPIEDADES DE LA MATRIZ INVERSA: (A-1) -1 = A ; (A·B)-1 = B-1· A-1 ; (A·B·C)-1
= C-1·B-1·A-1 siempre que las matrices sean invertibles.
TRAZA DE UNA MATRIZ.- Es la suma de sus elementos diagonales.
PROPIEDADES:
tr(A+B) = tr(A) + tr(B) ; tr(d·A) = d·tr(A)
tr(A) = tr A’ ; tr(A·B) = tr(B·A)
tr(A·B·C) = tr(C·A·B) = tr(B·C·A) ; E [tr ( A)] = tr [E ( A)]
MATRIZ DEFINIDA POSITIVA.- Dada una matriz cuadrada A de orden nxn y un vector x
de orden nx1, decimos que A es definida positiva si x’Ax es mayor que cero.
PROPIEDAD: Los elementos de la diagonal principal de A son mayores que cero.
MATRIZ DEFINIDA NO NEGATIVA O SEMIDEFINIDA POSITIVA.- Dada una matriz
cuadrada A de orden nxn y un vector x de orden nx1, decimos que A es semidefinida
positiva si x’Ax son mayores o iguales a cero.
PROPIEDAD: Los elementos de la diagonal principal de A son mayores o iguales que cero.
SISTEMA DE ECUACIONES LINEALES.- Si tenemos una serie de ecuaciones lineales
∂Y
que podemos expresar en términos matriciales Y = A · x entonces = A' .
( nx1) ( nxm ) ( mx1) ∂x
FORMA CUADRÁTICA DE ECUACIONES.- Si tenemos una forma cuadrática como
∂y
y = x' · A · x entonces se cumple que = 2 Ax .
(1 x1) (1 xm ) ( mxm ) ( mx1) ∂x
48
CONCEPTOS BÁSICOS DE ESTADÍSTICA DESCRIPTIVA

Dados n datos x1, x2,…,xn de una variable X
n
∑ xi
Media aritmética: X = i =1
n
∑ (xi − X )
n n
2
∑ xi2 − nX 2
Varianza muestral: S x2 = i =1
= i =1
n n
∑ (xi − X )
n n
2
∑ xi2 − nX 2
Cuasivarianza muestral: S x2 = i =1 = i =1
n −1 n −1
Desviación típica muestral: S x = + S x2
∑ (xi − X )(yi − Y ) ∑ xi yi − nXY

n n
Covarianza muestral: S xy = i=1 = i =1

n n
Donde y1, …yn son n datos de la variable Y

S xy
Coeficiente de correlación lineal rxy =
SxS y
DISTRIBUCIONES DE FORMAS LINEALES Y CUADRÁTICAS EN VECTORES

NORMALES
1) Supongamos una forma lineal Y=CX+b
donde: C es una matriz , X un vector normal T dimensional y b un vector de
constantes
si X → N ( µ , Σ) ⇒ Y → N (Cµ + b, C ' ΣC )
2) Supongamos una forma cuadrática idempotente X’AX en vectores normales
donde A es una matriz idempotente lo que implica que rango(A)=traza A y X es un
vector normal
a) si X → N (0, I ) y el rango(A) =r,
la forma cuadrática idempotente X ' AX → χ r2
b) si X → N (0, σ 2 I ) y el rango(A) =r,
la forma cuadrática idempotente X ' AX → σ 2 χ r2

c) si X → N ( µ , Σ) siendo µ la media y Σ la matriz de varianzas –covarianzas
la forma cuadrática ( X − µ ) ' Σ −1 ( X − µ ) → χ rg2 ( Σ )
cuando µ = 0 la forma cuadrática X ' Σ −1 X → χ rg2 ( Σ )
INDEPENDENCIA ENTRE FORMAS LINEALES Y CUADRÁTICAS EN

VECTORES NORMALES
a) Independencia entre una forma lineal y una forma cuadrática en el mismo vector
normal
49
Sea X un vector: X → N (0, I ) o bien X → N (0, σ 2 I )

A una matriz idempotente y simétrica tal que rango(A)=r y B una matriz cualquiera
Bajo estos supuestos, la forma lineal BX y la forma cuadrática idempotente X’AX
son independientes si se verifica que BA=0.
b) Independencia entre formas cuadráticas idempotentes en el mismo vector normal
Sea: X → N (0, I ) o bien X → N (0, σ 2 I )
A y B dos matrices simétricas e idempotentes y por tanto X’AX y X’BX dos formas
cuadráticas idempotentes en el vector X. Ambas formas son independientes si:
AB=BA=0
DISTRIBUCIONES χ2 DE PEARSON, T DE STUDENT Y F DE SNEDECOR

Distribución χ2 de Pearson
Sea X→N(0,1). Decimos que Y=X2 sigue una distribución χ 12 de Pearson.
Propiedad: Si X1,...Xn v.a.i.i.d con distribución N(0,1), entonces X = X 12 + ... + X n2 → χ n2

Distribución t de Student
Sean X, X1,X2,...,Xn n+1 v.a.i.i.d con distribución N(0,1). Entonces
X
T= → t n se distribuye como una t de Student.
X 12 + ... + X n2
n
Distribución F de Snedecor
Sean X1,X2,...,Xn, e Y1,Y2,...,Yn n1+n2 v.a.i.i.d con distribución N(0,1). Entonces
X 12 + ... + X n21
n1
U = → Fn1 ,n2 se distribuye como una F con n1 y n2 grados de libertad.
Y12 + ... + Yn22
n2
X
n
Propiedad: Sean X e Y v.a.i. tal que X → χ n21 e Y → χ n22 , entonces U = 1 → Fn1 ,n2
Y
n2
CONVERGENCIAS Y TEOREMA DEL LÍMITE
Convergencia en probabilidad: Una sucesión {X n }n =1 converge en probabilidad hacia la
∞
variable X, X n c→
. p.
X , si para cualquier δ>0,
lim p[ X n − X > δ ] = 0 , o bien si p lim X n = X .

n →∞
Propiedades
1.- X n c→
. p.
X ⇔ X n − X c→
. p.
0
2.- X n c→
. p.
X y g una función continua ⇒ g ( X n ) c→
. p.
g(X )
50
Convergencia en media cuadrática: Una sucesión {X n }n =1 converge en media cuadrática

∞
hacia la variable X, X n m

.c .
→ X , si
[
lim E X n − X
n →∞
2
]= 0
Propiedades
1) Una condición suficiente pero no necesaria para la convergencia en probabilidad es que
se dé la convergencia en media cuadrática. Es decir , si X n m
.c .
→ X ⇒ X n c→
. p.
X.
2) {X n }n =1 converge en media cuadrática a X si y sólo si el lim E ( X n ) = X

∞
y el
lim Var ( X n ) = 0 .
Convergencia en ley o en distribución: Una sucesión {X n }∞n=1 converge en ley o en

distribución hacia la variable X, X n 
→
L
X , si
lim Fn ( x) = F ( x)
n →∞
∀x en los que la función de distribución F sea continua.

Propiedades
1) Si X n 
→
L
X decimos que Xn se distribuye asintóticamente como X, es decir,
Xn 
→
a
X.
3) Si X n m
.c .
→ X ⇒ X n c→
. p.
X ⇒ Xn 
→
L
X
Ley de los grandes números
Los momentos muestrales de una sucesión de variables aleatorias independientes e
igualmente distribuidas convergen en probabilidad a los correspondientes momentos
poblacionales.
Teorema del límite central
Sea {X n }n =1 una sucesión de v.a.i.i.d. con E(Xi)=µ y Var(Xi)=σ2. Entonces
∞
n  n  n
∑ X i − E  ∑ X i  ∑ X i − nµ
i =1  i =1 = i =1
→ N (0,1)
L
 n  σ n
Var  ∑ X i 
 i =1 
σ
o lo que es lo mismo, X n 
→
a
N (µ , ).
n
ÁLGEBRA DE LOS LIMITES EN PROBABILIDAD (PLIM)
Sean XT e YT dos sucesiones de variables aleatorias tales que plim XT = c, plim YT = d.
1.- plim (XT + YT) = plim XT + plim YT = c + d.
2.- plim XT.YT = plim XT . plim YT = c .d.
51
XT p lim X T c
3.- p lim = = si p lim YT ≠ 0
YT p lim YT d
4.- ( )
p lim X TS = ( p lim X T )S
5.- Si plim (XT - YT ) = 0 y plim XT = c, entonces plim YT = c.
Teorema de Slutsky
Sea XT una sucesión de variables aleatorias tales que plim XT = c, e YT = Ψ (XT) una
función continua en c que no depende de T, entonces plim YT = Ψ (c).
−1
X ´X  X ´X 
Ejemplo: Si p lim = P, p lim  = P −1 siempre que P sea una matriz no singular.
T  T 
ELEMENTOS BÁSICOS SOBRE CONTRASTES
Hipótesis estadística: Es un enunciado sobre los valores de algunos de los parámetros en la
población hipotética de la cual se toma la muestra.
Hipótesis puntual: es aquella en la que se plantea contrastar un valor específico para un
parámetro.
Hipótesis de intervalo: es aquella en la que se plantea contrastar si el parámetro se
encuentra en un intervalo específico.
Contraste de hipótesis: es la regla que nos permite dilucidar la validez de una hipótesis en
base a la evidencia empírica.
Hipótesis nula: es la hipótesis sometida a análisis y se designa por Ho.
Hipótesis alternativa: es la hipótesis contra la que suele probarse la hipótesis nula y se
designa por H1 o HA.
Al contrastar una hipótesis cabe adoptar dos decisiones: por un lado, podemos rechazarla o
no rechazarla y, por otro, dicha hipótesis puede ser cierta o falsa. Por ello, las
consecuencias de la decisión se pueden esquematizar de la siguiente forma:
Ho cierta Ho falsa
No Rechazar Decisión correcta Error de II tipo
Rechazar Error de I tipo Decisión correcta
Nivel de significación del contraste: Se denota con la letra α (también se denomina tamaño
del contraste) y se define como la probabilidad de rechazar la Ho siendo cierta, lo que
ocurrirá cuando la observación muestral pertenezca a la región crítica.
α= P{error de I tipo}=P{rechazar Ho| si Ho es cierta}
Potencia del contraste: se denota como (1-β), siendo β la probabilidad de cometer el error
de tipo II y se define como la probabilidad de no rechazar la hipótesis nula cuando ésta es
falsa. Así, una vez fijado α, de todas las regiones críticas con el mismo nivel de
significación, elegiremos aquella donde la potencia del contraste sea mayor, es decir que β
sea menor.
β= P{error de II tipo}=P{No rechazar Ho| si Ho es falsa}
52
Región crítica: es aquella zona del espacio muestral donde se rechaza Ho. Si la observación
muestral realizada pertenece a ella, entonces se rechaza la Ho.
Región de aceptación: es la complementaria a la región crítica, es decir donde no se rechaza
la Ho.
Valor crítico: es el valor de la distribución obtenido en las correspondientes tablas, fijado
un nivel de significación, que separa la región crítica de la región de aceptación.
La técnica de los contrastes consiste en delimitar estas dos regiones y ver donde cae el valor
muestral obtenido.
P-valor: es el valor de probabilidad y describe el nivel de significación exacto asociado con
un resultado econométrico particular. Por tanto es la probabilidad de rechazar de forma
incorrecta una hipótesis nula que es cierta. Cuanto menor sea el valor p más seguros
estaremos al rechazar la hipótesis nula.
Nivel de confianza (1-α): nos indica la proporción aproximada de veces que el parámetro βi
se encontraría en el intervalo si calculásemos el intervalo con muchas muestras diferentes.
Intervalo de confianza: es un intervalo numérico en el que creemos que se encontraría el
parámetro con un cierto grado (nivel) de confianza.
Intervalo de Probabilidad: es un intervalo aleatorio que se concreta en un intervalo de
confianza cuando disponemos de una realización muestral.
53

Material Teoria1 2011-12

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Material Teoria1 2011-12

Cargado por

Copyright:

Formatos disponibles

Material Docente de

Cuarto curso de Economía

En sentido literal “Econometría” significa “medición de la economía”.

Modelos Económicos y Modelos Econométricos

Un modelo económico es la expresión matemática simplificada de una determinada

Elementos constitutivos de un modelo econométrico

La forma general de presentar un modelo econométrico será:

• Variables no observables: son variables para las cuales no podemos obtener

Etapas en la elaboración de un modelo econométrico

1) Especificación del modelo: se trata de expresar la relación propuesta por la Teoría

3) Estimación: consiste en obtener estimadores de los parámetros a partir de los datos

Clasificación de los modelos econométricos

Según los diferentes criterios que se pueden utilizar, existen múltiples

2º criterio: atendiendo a la forma funcional

Clasificación de los datos

TEMA 1.-EL MODELO DE REGRESIÓN LINEAL CLÁSICO I

1.1.- Especificación del modelo

• Forma escalar : Yi = β o + β 1 X 1i + ..... + β k X ki + ε i para i =1….N

1.2.- Estimación Mínimo Cuadrática Ordinaria

Objetivo: Obtener estimadores de los parámetros β y σ2

• Función Objetivo a minimizar: ∑ ei2 = e ' e = (Y − Xβˆ ) ' (Y − Xβˆ )

⇒ βˆ = ( X ' X )−1 X ' Y

Por tanto: ⇒ βˆ MCO = ( X ' X )−1 X ' Y

1.3.- Propiedades del estimador de β

- Òptimo: de mínima varianza dentro de la familia de estimadores lineales e

Teorema de Gauss Markov demuestra que:

1.4.- Estimador de σ 2 y sus propiedades

Denotamos por S2 el estimador de la varianza de las perturbaciones σ2

• Propiedades del estimador de ∑ββ ˆˆ

1.5.- Características de los residuos mínimo cuadráticos

- Yˆ ' e = 0 ⇒ cov( Yˆ , e) = 0 ⇒ reYˆ = 0

1.6.- Descomposición de la varianza

1.7.- Estimadores máximo verosímiles de los parámetros

El método de máxima verosimilitud consiste en hallar los estimadores que maximizan la

ln L β , σ 2  = − N ln (2π ) − N ln σ 2 − 1 (Y − Xβ )' (Y − Xβ )

ln L β , σ 2  = − N ln (2π ) − N ln σ 2 − 1  Y 'Y − 2Y ' Xβ + β ' X ' Xβ 

por tanto βˆ = ( X ' X )− 1 X ' Y = βˆ

∂ ln L N 2(Y − Xβˆ ) ' (Y − Xβˆ )

2ª condición: Se cumple que el hessiano evaluado en el máximo es una matriz definida

Propiedades de los estimadores

1.8.- Criterios de bondad del ajuste basados en la función de verosimilitud

1) Análisis de la función de verosimilitud evaluada en los EMV de los parámetros

1.9.- Diferencias entre la regresión simple y la regresión múltiple

1) Los coeficientes son diferentes

2) Los coeficientes estimados por MCO son diferentes

3) Las varianzas estimadas de los coeficientes son diferentes

Apéndice 1.- Gráfico de algunas hipótesis del modelo

Apéndice 2.- Modelo de regresión sin término constante

2) Ya no se cumple que Yˆ = Y pues al no disponer X* de una columna de unos no se

Apéndice 3.- Cambios de origen y escala en las variables

Sustituyendo: aYi = β 0' + β1' a1 X 1i + ... + β k' a k X ki + ε i

• Si hacemos un cambio de escala sólo en Yi ( a1 ,..., a k serán igual a 1) los nuevos

• La SCR. La nueva es e*' e* = a 2 e' e .

• La SCT. La nueva es SCT*= a 2 SCT.

Sustituyendo: Yi + a = β 0' + β1' ( X 1i + a1 ) + ... + β k' ( X ki + a k ) + ε i

Yi = −a + β 0' + β 1' a1 + ... + β k' a k + β 1' X 1i + ... + β k' X ki + ε i

Apéndice 4.- Coeficientes Beta1

TEMA 2. EL MODELO DE REGRESIÓN LINEAL CLÁSICO II

2.1.- Contrastes de restricciones lineales sobre los parámetros. Forma general

Partiendo de la distribución de las perturbaciones y de los estimadores, obtenemos la de

(Rβˆ − r )' [R(X ' X ) R ] (Rβˆ − r )

Otra forma alternativa de realizar el contraste es introduciendo las restricciones en el

2.2.- Contrastes de restricciones lineales sobre los parámetros. Casos particulares

A) Contraste de significación individual de un regresor:

• La SCR. La nueva es e' e = a 2 e' e .