Econometria Catolica de Chile PDF

PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE
ESCUELA DE INGENIERA
DEPARTAMENTO DE INGENIERA DE TRANSPORTE
ICT-2950 Tpicos de Econometra
Profesor: Louis de Grange C.
APUNTES DE CLASES
ICT-2950 TPICOS DE ECONOMETRA
(VERSIN 1er SEMESTRE 2005)
(CT-2950 Tpicos de Econometra ii
NDICE
Pg.
1 REPASO DE MATRICES Y ANLISIS DE DATOS .................... 1-1
1.1 Operaciones con Matrices.................................................... 1-1
1.1.1 Matrices Especiales...................................................................1-1
1.1.2 Suma .........................................................................................1-2
1.1.3 Multiplicacin............................................................................1-2
1.1.4 Operador de Kronecker ...........................................................1-2
1.1.5 Matrices Particionadas .............................................................1-3
1.1.6 Matriz Inversa ...........................................................................1-3
1.1.7 Matriz Traspuesta .....................................................................1-3
1.1.8 Traza de una Matriz .................................................................1-4
1.1.9 Matrices Ortogonales ...............................................................1-4
1.1.10 Vectores Caractersticos y Valores Propios ..............................1-5
1.1.11 Rango de una Matriz................................................................1-7
1.1.12 Formas Cuadrticas de una Matriz..........................................1-7
1.1.13 Diferenciacin de Matrices.......................................................1-8
1.1.14 Series de Taylor ........................................................................1-9
1.2 Anlisis de Datos..................................................................... 1-9
1.2.1 Tipos de Variables ....................................................................1-9
1.2.2 Media, Varianza, Covarianza y Correlacin ....................... 1-10
1.2.3 Medidas de Dependencia Lineal de los Datos..................... 1-12
1.2.4 Datos Atpicos (Outliers)........................................................ 1-12
2 REGRESIN LINEAL MLTIPLE ......................................... 2-15
2.1 Supuestos del Modelo .........................................................2-16
2.1.1 Hiptesis Sobre la Perturbacin ............................................ 2-16
2.1.2 Hiptesis sobre las Variables Explicativas ............................ 2-17
2.1.3 Hiptesis sobre los Parmetros del Modelo ......................... 2-17
2.2 Estimacin por Mnimos Cuadrados Ordinarios (MCO)2-18
2.2.1 Vector de Parmetros............................................................. 2-18
2.2.2 Aspectos Algebraicos y Propiedades de los Estimadores
(Muestras Finitas y Muestras Grandes)................................. 2-20
2.2.3 Teorema Central del Lmite .................................................... 2-22
Pontificia Universidad Catlica de Chile

ICT-2950 Tpicos de Econometra iii
2.2.4 Indicadores de Bondad de Ajuste......................................... 2-23

2.2.5 MCO vs Mxima Verosimilitud ............................................. 2-25
2.2.6 Interpretacin Econmica ...................................................... 2-28
3 INFERENCIA Y PRECICCIN ............................................. 3-29
3.1 Contraste de Restricciones...................................................3-29
3.1.1 Contraste de una Restriccin Lineal....................................... 3-29
3.1.2 Contraste de Restricciones Lineales Conjuntas ..................... 3-30
3.1.3 Contraste Basado en una Regin de Confianza .................. 3-31
3.1.4 Mnimos Cuadrados Restringidos.......................................... 3-32
3.1.5 Contraste de Restricciones No Lineales ................................ 3-33
3.2 Prediccin...............................................................................3-34
3.3 Estimacin por Mnimos Cuadrados Generales (MCG) 3-37
4 ESPECIFICACIN ........................................................... 4-40
4.1 Variables Ficticias .................................................................4-40
4.1.1 Cambio Estructural en el Intercepto....................................... 4-42
4.1.2 Cambio Estructural en la Pendiente....................................... 4-42
4.1.3 Cambio Estructural en el Intercepto y la Pendiente .............. 4-43
4.2 Variables No Lineales ..........................................................4-43
4.2.1 Transformaciones Generales ................................................. 4-44
4.2.2 Transformacin Box - Tidwell................................................. 4-45
4.2.3 Transformacin Box - Cox ..................................................... 4-46
4.2.4 Otras Transformaciones de Variables ................................... 4-48
4.3 Modelos No Lineales ...........................................................4-49
4.3.1 Modelo de Regresin Linealizado en Parmetros................ 4-50
4.3.2 Modelo de Regresin Linealizado en Variables................... 4-51
4.4 Especificacin de Variables ................................................4-52
4.4.1 Seleccin de Variables .......................................................... 4-52
4.4.2 Variables Omitidas ................................................................ 4-53
4.4.3 Variables Superfluas .............................................................. 4-55
5 TEMAS ESPECFICOS ...................................................... 5-56
5.1 Ortogonalidad.......................................................................5-56
5.2 Multicolinealidad ..................................................................5-58
5.2.1 Definicin de Multicolinealidad ............................................ 5-58

(CT-2950 Tpicos de Econometra iv
5.2.2 Causas de la Multicolinealidad ............................................ 5-59

5.2.3 Efectos de la Multicolinealidad ............................................. 5-59
5.2.4 Deteccin de la Multicolinealidad y su Magnitud ............... 5-63
5.2.5 Correccin de la Multicolinealidad ...................................... 5-66
5.2.6 Mtodo de Componentes Principales ................................... 5-68
5.3 Contrastes Multivariantes.....................................................5-74
5.3.1 Contraste de Razn de Verosimilitud .................................... 5-74
5.3.2 Contraste Para Matriz de Varianzas y Covarianzas Igual a la
Identidad ................................................................................ 5-75
5.3.3 Contraste Para Matriz de Varianzas y Covarianzas Escalar
(Esfrica)................................................................................. 5-76
5.3.4 Contraste Para Matriz de Varianzas y Covarianzas Diagonal
(No Esfrica) .......................................................................... 5-76
5.4 Heterocedasticidad ..............................................................5-77
5.4.1 Definicin de Heterocedasticidad ......................................... 5-77
5.4.2 Causas de la Heterocedasticidad ......................................... 5-78
5.4.3 Efectos de la Heterocedasticidad.......................................... 5-80
5.4.4 Deteccin de la Heterocedasticidad..................................... 5-83
5.4.5 Correccin de la Heterocedasticidad ................................... 5-90
5.5 Autocorrelacin.....................................................................5-93
5.5.1 Definicin de Autocorrelacin............................................... 5-93
5.5.2 Causas de la Autocorrelacin ............................................... 5-94
5.5.3 Efectos de la Autocorrelacin................................................ 5-95
5.5.4 Deteccin de la Autocorrelacin........................................... 5-96
5.5.5 Estimacin bajo Autocorrelacin......................................... 5-100
5.6 Asimetra, Curtosis y Normalidad.................................... 5-102
5.6.1 Asimetra............................................................................... 5-102
5.6.2 Curtosis................................................................................. 5-103
5.6.3 Estadstico Jarque-Bera de Normalidad.............................. 5-104
5.7 Contrastes de Datos Atpicos ........................................... 5-104
6 EXTRAPOLACIN Y SUAVIZAMIENTO ............................. 6-106
6.1 Extrapolacin de Series de Tiempo ................................ 6-106
6.1.1 Modelos de Extrapolacin Simple...................................... 6-106
6.1.2 Modelos de Promedio Mvil............................................... 6-107

ICT-2950 Tpicos de Econometra v
6.2 Suavizamiento de Series de Tiempo............................... 6-108

6.3 Estimacin y Pronstico de Modelos de Tendencia ..... 6-109
7 SERIES DE TIEMPO....................................................... 7-110
7.1 Procesos Estocsticos ........................................................ 7-110
7.2 Estacionariedad.................................................................. 7-111
7.2.1 Estacionariedad Estricta....................................................... 7-111
7.2.2 Estacionariedad Dbil.......................................................... 7-111
7.2.3 Funcin de Autocorrelacin Simple (FAS) .......................... 7-113
7.2.4 Funcin de Autocorrelacin Parcial (FAP)........................... 7-115
7.2.5 Proceso Ruido Blanco .......................................................... 7-116
7.3 Ergodicidad ........................................................................ 7-119
7.4 Teorema de Wold.............................................................. 7-120
7.5 Retardos y Diferencias ...................................................... 7-121
7.5.1 Operador de Retardos......................................................... 7-121
7.5.2 Operador de Diferencias..................................................... 7-121
7.6 Ecuaciones de Diferencias................................................ 7-122
7.6.1 Definicin ............................................................................. 7-122
7.6.2 Solucin Recursiva............................................................... 7-123
7.6.3 Solucin Analtica ................................................................ 7-123
7.7 Crculo Unitario .................................................................. 7-130
8 PROCESOS MEDIA MVIL ............................................ 8-133
8.1 Procesos MA(1) ................................................................. 8-133
8.2 Procesos MA(2) ................................................................. 8-136
8.3 Procesos MA(q) ................................................................. 8-137
8.4 Invertibilidad de los Procesos MA(q).............................. 8-138
8.5 Estimacin de Procesos MA(q) ........................................ 8-139
8.6 Pronsticos con Procesos MA(q)..................................... 8-142
9 PROCESOS AUTORREGRESIVOS ..................................... 9-146
9.1 Procesos AR(1)................................................................... 9-146
9.1.1 Media................................................................................... 9-146
9.1.2 Varianza............................................................................... 9-147
9.1.3 Autocovarianza.................................................................... 9-147
9.1.4 Autocorrelacin.................................................................... 9-148

(CT-2950 Tpicos de Econometra vi
9.2 Procesos AR(2)................................................................... 9-151

9.2.1 Media................................................................................... 9-151
9.2.2 Varianza............................................................................... 9-151
9.2.3 Autocovarianza.................................................................... 9-152
9.2.4 Autocorrelacin.................................................................... 9-152
9.3 Procesos AR(p) ................................................................... 9-154
9.4 Estimacin de Procesos AR(p).......................................... 9-157
9.5 Pronsticos con Procesos AR(p) ...................................... 9-157
9.6 Regla de la Cadena Para Pronosticar AR(p)................. 9-159
9.7 Dualidad entre Procesos AR y MA ................................. 9-160
9.8 Procesos ARMA(p,q)......................................................... 9-161
9.9 Pronsticos de Modelos ARMA(p,q) .............................. 9-163
9.10 Procesos ARIMA(p,i,q) ..................................................... 9-165
9.11 Procesos Estacionales........................................................ 9-166
9.11.1 Estacionalidad Mediante Variables Dicotmicas ............... 9-167
9.11.2 Procesos Autorregresivos Estacionales................................ 9-168
9.11.3 Estacionariedad del AR(p) Estacional ................................. 9-168
9.11.4 Procesos Medias Mviles Estacionales............................... 9-169
9.11.5 Identificacin de s................................................................ 9-170
10 VECTORES AUTORREGRESIVOS.................................... 10-171
10.1 Estructura Bsica ..............................................................10-171
10.2 Estacionariedad del VAR ................................................10-172
10.3 Resagos ptimos VAR(p) ...............................................10-174
10.4 Estimacin e Identificacin de Parmetros VAR(p) .....10-175
10.5 Funcin Impulso Respuesta.............................................10-176
10.6 Pronsticos en el VAR(p).................................................10-177
11 PROCESOS ESTOCSTICOS NO ESTACIONARIOS ............ 11-178
11.1 Paseo Aleatorio................................................................11-178
11.2 Procesos ARIMA ..............................................................11-182
11.2.1 Identificacin de Procesos ARIMA ....................................11-183
11.2.2 Estimacin de Procesos ARIMA.........................................11-187
11.2.3 Inicializacin de la Serie ...................................................11-188

ICT-2950 Tpicos de Econometra vii
11.2.4 Validacin de Procesos ARIMA ........................................11-190

11.2.5 Prediccin con Procesos ARIMA .......................................11-196
11.3 Orden de Integracin de una Serie: Mtodos No
Paramtricos .....................................................................11-200
11.3.1 Anlisis de la Funcin de Autocorrelacin .......................11-200
11.3.2 Sobrediferenciacin...........................................................11-202
11.3.3 Anlisis de la Varianza......................................................11-203
12 RACES UNITARIAS Y COINTEGRACIN ................ 12-204
12.1 Tendencias Determinsticas y Estocsticas ...................12-205
12.1.1 Tendencia Determinstica...................................................12-205
12.1.2 Tendencia Estocstica........................................................12-206
12.2 Regresin Espuria.............................................................12-209
12.3 Deteccin de Races Unitarias .......................................12-211
12.3.1 Anlisis Grfico de la Serie...............................................12-211
12.3.2 Anlisis del Correlograma Simple de la Serie..................12-212
12.3.3 Utilizacin del Estadstico de Durbin - Watson .................12-214
12.4 Contraste de Estacionariedad y de Raz Unitaria.......12-215
12.4.1 Contraste de Dickey Fuller (DF) .....................................12-215
12.4.2 Contraste de Dickey Fuller Aumentado (DFA)...............12-221
12.4.3 Contraste de Phillips Perron (PP) ....................................12-222
12.5 Cointegracin ...................................................................12-223
12.6 Deteccin de Cointegracin...........................................12-225
12.6.1 Engle y Granger.................................................................12-225
12.6.2 Durbin y Watson................................................................12-226
12.6.3 Modelo de Correccin de Errores (MCE).........................12-226
12.7 Causalidad........................................................................12-228
13 ANLISIS FACTORIAL ................................................ 13-229
13.1 Comparacin Entre FA y MCP ......................................13-233
13.2 El Modelo de Anlisis Factorial.....................................13-233
13.2.1 Hiptesis del FA .................................................................13-233
13.2.2 Forma Matricial del FA ......................................................13-234
13.3 Ecuaciones del FA............................................................13-235
13.3.1 No Unicidad de los Factores.............................................13-236

(CT-2950 Tpicos de Econometra viii
13.3.2 Normalizacin del Modelo Factorial................................13-236

13.4 Resolucin de las Ecuaciones del FA............................13-237
13.4.1 Nmero de Factores ..........................................................13-237
13.4.2 Mtodo del Factor Principal ..............................................13-238
13.5 Determinacin de la Cantidad Apropiada de Factores...... 13-
244
13.5.1 Criterios Subjetivos.............................................................13-244
13.5.2 Criterios Objetivos .............................................................13-245
13.6 Rotacin de Factores.......................................................13-245
13.6.1 Rotacin VARIMAX ............................................................13-247
13.6.2 Rotacin Oblicua ...............................................................13-248
13.7 Cuantificacin de Factores .............................................13-249
13.7.1 Mtodo de Barlett..............................................................13-250
13.7.2 Mtodo de Thompson .......................................................13-250
13.7.3 Otros Mtodos ...................................................................13-251
14 ANLISIS DE CONGLOMERADOS (CLUSTER) ................. 14-252
14.1 Medidas de Semejanza y Desemejanza .....................14-252
14.1.1 Distancia Mtrica...............................................................14-252
14.1.2 Distancia de Mahalanobis ................................................14-252
14.2 Anlisis Grficos ..............................................................14-253
14.2.1 Grficos de Dispersin (Bidimensionales) ........................14-253
14.2.2 Grficos de Dispersin (Tridimensionales)........................14-254
14.2.3 Grficos de Andrews .........................................................14-255
14.2.4 Grficos de Estrellas ..........................................................14-257
14.2.5 Grficos de Caras de Chernoff .........................................14-260
14.3 Mtodos de Agrupacin.................................................14-261
14.3.1 Mtodo del Vecino Ms Cercano.....................................14-261
14.3.2 Diagrama de rbol............................................................14-264
14.3.3 Estadstico F de Beale .......................................................14-267
14.4 Reduccin de la Escala Multidimensional....................14-268

ICT-2950 Tpicos de Econometra 1-1
1 REPASO DE MATRICES Y ANLISIS DE DATOS
1.1 Operaciones con Matrices
a11 a12 .... a1n a11 a21 .... am1

a a22
a2 n a a22 am 2
Sea la matriz A = 21 donde AT = 12 .
.... O .... .... O ....

am1 am 2 .... amn a1n a2 n .... amn
1.1.1 Matrices Especiales
D = diag(A) es la diagonal de la matriz A de dimensin n x n:
a11 0 .... 0
0 a 0
D= 22
= DT (1.1)
.... O ....

0 0 .... ann
T se denomina triangular superior de la matriz A:
a11 a12 .... a1n

0 a a2 n
T = (1.2)
22
.... O ....

0 0 .... amn
In se denomina matriz identidad de dimensin n x n:
1 0 .... 0
0 1 0
I= (1.3)
.... O ....

0 0 .... 1

(CT-2950 Tpicos de Econometra 1-2
1.1.2 Suma
C = A B es definido como cij = aij bij dado que A y B tienen el mismo

nmero de filas y de columnas. Es fcil demostrar que: ( A B) C = A (B C) y
tambin que A + B = B + A .
1.1.3 Multiplicacin
C = A B es definido como cij = ( aik bkj ) dado que A y B son matrices

n
k =1
conformables, es decir, A es de r x n y B e de n x p. Debe notarse que:
A B y B A no son necesariamente iguales.
Se cumple que A ( B C ) = A B A C
En general, A B B A
n
Dos vectores a A y b B son ortogonales ( a b ) si aT b = ( ai bi ) = 0
i =1
a = ( aT a )
n
a
12
= 2
i
i =1
Si A A = A se dice que A es idempotente, y en general ( A) = A, p > 1 .

p
1.1.4 Operador de Kronecker
Si A es de m x n y B e de s x t, el operador de Kronecker de A y B,
denotado por A B , es una matriz de ms x nt dada por:
a11B a12 B .... a1n B

a B a B a2n B
A B = 21 22
(1.4)
.... O ....

an1 B an 2 B .... amn B
Se cumplen las siguientes propiedades:

( A B )( C D ) = ( AC BD )
( A + B ) (C + D ) = ( A C ) + ( A D ) + ( B C ) + ( B D )
( A B) C = A ( B C)
1.1.5 Matrices Particionadas
La matriz A de m x n puede ser particionada en 4 sub-matrices de la forma:
A A12
A = 11 (1.5)
A21 A22
Luego, si B es tambin particionada se puede obtener la siguiente expresin:
A A12 B11 B12 A11B11 + A12 B21 A11B12 + A12 B22

A B = 11 = (1.6)
A21 A22 B21 B22 A21B11 + A22 B21 A21B12 + A22 B22
1.1.6 Matriz Inversa
Dada la matriz A de n x n, si existe una matriz B que satisface AB = BA = In,

esta matriz B se denomina inversa de A, y se denota B = A1 . Se cumplen las siguientes
propiedades:
( AB )1 = B 1 A1
= A1 ( A1 + B 1 ) B 1
1
( A + B)
1
1.1.7 Matriz Traspuesta
Se cumplen las siguientes propiedades:
(A )T T
=A
( A B) = AT BT
T
( A B )T = BT AT

(A ) =(A )
1 T T 1
Si A = AT se dice que A es simtrica
A AT y AT A son simtricas
( A B )T = ( AT BT )
1.1.8 Traza de una Matriz
La traza de una matriz cuadrada conformable A de n x n se define como la

n
suma de los elementos de su diagonal: tr ( A ) = aii . Debe notarse que:
i =1
tr ( AT ) = tr ( A )
tr ( A B ) = tr ( A ) tr ( B )
tr ( A B ) = tr ( B A )
tr ( k A ) = k tr ( A )
tr ( A B ) = tr ( A ) tr ( B )
Debe notarse que para un producto de matrices cuyo resultado

es un escalar, dicho valor tambin corresponde a la traza del producto
original de las matrices. Es decir, el valor de un escalar es igual a su traza.
1.1.9 Matrices Ortogonales
Las matrices ortogonales son matrices cuadradas que pueden representar un

giro en el espacio respecto a un plano (o hiperplano). Para caracterizar estas matrices,
supongamos que, dado un vector X, lo ponderamos por una matriz no singular C, y
obtenemos un nuevo vector Y:
Y =CX (1.7)

Si la operacin realizada es slo un giro, entonces el mdulo o norma de Y

debe ser idntica a la de X, y por lo tanto se cumple:
Y T Y = X T C T CX = X T X (1.8)
Por lo tanto, debe cumplirse que:
CT C = I (1.9)
La condicin de ortogonalidad es la que se obtiene de (1.9), de donde se

deduce que la matriza traspuesta debe ser igual a su inversa:
C T = C 1 (1.10)
Luego, una matriz ortogonal debe tener filas (o columnas) que

son ortogonales entre s, y de longitud igual a la unidad.
1.1.10 Vectores Caractersticos y Valores Propios
Dada una matriz cuadrada, existen determinadas propiedades de dicha

matriz que son invariantes ante transformaciones lineales de dicha matriz de tal forma que
se mantiene la informacin existente en la matriz. Algunos ejemplos pueden ser trasponer la
matriz o girarla.
Los valores propios son las medidas bsicas de tamao de una matriz. Dichas
medidas bsicas, como la traza o el determinante, son funcin de los valores propios, y
sern por lo tanto invariantes ante transformaciones lineales que preserven los valores
propios.
Llamaremos vectores propios de una matriz cuadrada de orden n a aquellos

vectores cuya direccin no se modifica al aplicar una transformacin lineal a la matriz. Sea
r
A una matriz de n x n. Existe entonces un vector propio c que satisface:
r r
Ac = c (1.11)
para determinados valores constantes de , que es un escalar, y que se denomina valor

propio.

r
Si c es un vector propio de A, y si multiplicamos (1.11) por cualquier 0 ,
r
entonces c tambin ser un vector propio de A. Para evitar esta indeterminacin,
r
supondremos que c = 1 .
r
Luego, existe una solucin no nula (para c 0 ) que verifica:
det A I = 0 (1.12)
La expresin (1.12) es un sistema de ecuaciones lineal homogneo que tiene

una solucin no nula slo si la matriz ( A I ) es no singular. El polinomio que se obtiene
de (1.12) en funcin de se denomina ecuacin caracterstica.
Las soluciones de (1.11) son los vectores caractersticos, y los distintos valores
de en (1.12) son las races caractersticas, que son nmero reales si la matriz es
simtrica. En general, una matriz tiene h n valores propios. A cada valor propio de la
matriz podemos asignarle un nico vector propio que satisface (1.11).
Debe destacarse que:
Si es un valor propio de A, entonces r es un valor propio de Ar
Los valores propios de una matriz y su traspuesta son los mismos

n
tr ( A ) = i
i =1
tr ( Ar ) = ir
n
i =1
tr ( A1 ) = i1
n
i =1
n
A = i
i =1
Los vectores caractersticos de una matriz simtrica son ortogonales
Las matrices A y (A + I) tienen los mismos vectores propios, y si es un valor propio

de A, + 1 es un valor propio de (A + I)
Las matrices ABC, ACB y CAB tienen los mismos valores propios no nulos

Si A es triangular, los valores propios son los elementos de la diagonal
En una matriz simtrica, los valores propios son nmeros reales y los vectores son
ortogonales
1.1.11 Rango de una Matriz
Supongamos una matriz A de m x n con m filas ( a1 , a2 ,...., am ) . El rango de la

matriz A corresponde al nmero de filas linealmente independientes. Si el rango es m, se
dice que la matriz es de rango completo.
rango ( AT ) = rango ( A ) = rango ( AT A)
rango ( A B ) min {rango ( A) ; rango ( B )}
El rango tambin corresponde al nmero de races caractersticas distintas de cero

en ( AT A) . Si la matriz es simtrica, corresponde al nmero de races caractersticas
distintas de cero en A.
1.1.12 Formas Cuadrticas de una Matriz
Sea una matriz A de n x n simtrica, y x = ( x1 , x2 ,...., xn ) un vector. Entonces
la expresin q = xT Ax = ( xi x j aij ) se denomina forma cuadrtica, que es un

n n
i =1 j =1
polinomio de segundo grado en x.
Si xT Ax > 0 entonces A es definida positiva.
Si xT Ax < 0 entonces A es definida negativa.
Si xT Ax 0 entonces A es semi-definida positiva.
Si xT Ax 0 entonces A es semi-definida negativa.

1.1.13 Diferenciacin de Matrices
Sea una matriz X de n x m con elementos xij , y f = f ( X ) una funcin que

depende de los elementos de X. Entonces:
df df
= (1.13)
dX dxij
Como ejemplo, supongamos que f = 5 X 1 + 2 X 2 + 3 X 3 . Luego:
5
df
= 2 (1.14)
dX
3
Adems, es fcil obtener los siguientes resultados:
d (T X ) d (T X )
=X, =
d dX
d (T X )
Si X simtrica entonces = 2X
d
df
Si f ( X ) = aT Xb entonces = bT a
dX
df
Si f ( X ) = ( A X B ) entonces = AT BT
dX
df
Si X es de n x n y f ( X ) = ( X ) entonces = In
dX
Si X es de n x n y f ( X ) = ( X T AX ) entonces = ( A + AT ) X
df
dX
Definiendo Y T = ( f1 ( X ) ; f 2 ( X ) ;.......; f n ( X ) ) , entonces:

df1 df 2 df n
dx .....
dx1 dx1
1
df1 df 2 df n
dY df1 df 2 df n
dx2
.....
= ; ;......; = dx2 dx2
dX dX dX dX
M M O M

df1 df 2 df n
.....
dxn dxn dxn
dY
Si Y = AX entonces = AT
dX
1.1.14 Series de Taylor

r
Para una funcin vectorial f = f ( x ) la expansin en series de Taylor es la
siguiente:
r r r T r r
r r r r r 2 f ( x0 ) ( x x0 ) ( x x0 )
f ( x ) f ( x0 ) + f ( x0 ) ( x x0 ) + + .... (1.15)
2
r r r r
f ( x ) 0 + 1 x + 2 x T x + ...... (1.16)
1.2 Anlisis de Datos
En general, consideraremos un total de n datos u observaciones o unidades

experimentales, y un total de p variables. Es decir, cada una de las n observaciones
considera p variables. Esta informacin puede ser representada como una matriz de p x n.
x11 x12 .... x1 p

x x22 x2 p
X =
21
(1.17)
.... O ....

xn1 xn 2 .... xnp
1.2.1 Tipos de Variables
Las variables pueden ser bsicamente de dos tipos: cuantitativas o

cualitativas. Las cuantitativas se caracterizan porque su valor puede ser expresado

numricamente, como por ejemplo la edad de una persona, su peso, la poblacin de un

pas, el ingreso monetario de un individuo, etc. Las variables cualitativas se caracterizan
porque su valor corresponde a un atributo o categora, como por ejemplo el sexo, su pas
de nacimiento, temporada del ao, etc.
Las variables cuantitativas pueden a su vez en continuas o discretas. Las

variables cualitativas por su parte pueden clasificarse en binarias (slo 2 valores) o
mltiples (muchos valores).
1.2.2 Media, Varianza, Covarianza y Correlacin
Estas variables representan un resumen de la informacin existente en los

datos. En trminos probabilsticos, estas variables estn asociadas a los momentos de la
funcin de densidad.
Para una determinada variable k en particular, su media se representa como:
1 n
xk = xik
n i =1
(1.18)
La varianza de esta variable k est relacionada conceptualmente con la

distorsin promedio de cada observacin de la variable respecto a la media de dicha
variable, y se expresa de la siguiente forma:
1 n
V ( xk ) =
n 1 i =1
( xik xk )2 (1.19)
Por otra parte, el grado de relacin lineal entre dos variables se

mide por la covarianza. La covarianza entre las variables xk y x j se calcula como:
1 n
cov ( xk , x j ) = ( xik xk ) ( xij x j ) (1.20)
n 1 i =1
Notar que la covarianza puede ser positiva o negativa. El signo de la

covarianza indica el signo de la variancin conjunta de las variables xk y x j . Su magnitud,
sin embargo, depende de la escala en que fueron medidas las variables.

A partir de las expresiones obtenidas de (1.20), se puede generar la matriz

de varianzas y covarianzas del conjunto de datos X. En la diagonal irn los trminos
asociados a la varianza de cada una de las p variables, y fuera de la diagonal irn los
trminos asociados a la covarianza entre las distintas variables. Luego, la matriz de
varianzas y covarianzas es de (p x p).
Una caracterstica importante de la matriz de varianzas y covarianzas es que

es siempre simtrica y positiva-definida (excepto que existan filas columnas
dependientes).
La simetra se debe a que cov ( xk , x j ) = cov ( x j , xk ) ; lo de positiva definida

es una extensin del hecho que la varianza es siempre positiva por definicin, ya que es
una suma de elementos al cuadrado.
Adicionalmente, la traza, el determinante y los valores propios

de la matriz de varianzas y covarianzas son siempre no negativos.
Como se mencion anteriormente, la magnitud de las varianzas y covarianzas

depende de la escala en que se han medido las variables xk y x j . Ello implica que valores
altos de la covarianza no implica necesariamente altos grados de relacin lineal entre las
variables. Anlogamente, valores bajos no implica ausencia de relacin entre ellas.
Una alternativa que mitiga este problema es la matriz de correlaciones, que se

obtiene de la siguiente expresin:
cov ( xk , x j )
rkj = (1.21)
V ( xk ) V ( x j )
Las propiedades de la metriz de correlaciones son las mismas que las de la

matriz de varianzas y covarianzas: simtrica, semidefinida positiva, y con traza,
determinante y valores propios no nulos. Sin embargo, los valores de la matriz de
correlaciones van entre 1 y 1, y los elementos de la diagonal son siempre 1.

1.2.3 Medidas de Dependencia Lineal de los Datos
Interesa analizar la estructura de dependencia entre las variables. Estas

dependencias pueden estudiarse como:
Dependencia entre pares de variables (correlacin)
Dependencia entre pares de variables pero eliminando el efecto del resto

(correlacin parcial)
Dependencia entre una variable y un conjunto de variables (regresin

lineal mltiple)
1.2.4 Datos Atpicos (Outliers)
a) Definicin
Datos atpicos o Outliers son aquellas observaciones que al parecer han sido
generados de manera distinta al resto de los datos. Pueden ser causados por ejemplo por
errores de medicin o digitacin de los datos, cambios en los instrumentos de medicin o
simplemente representan una heterogeneidad intrnseca de los elementos observados.
La caracterizacin de un nico dato atpico es simple, ya que por definicin

debe estar alejado del resto. Luego, la distancia entre dicha observacin y el resto debe
ser alta. Alternativamente, podemos definir como dato atpico aquella observacin que se
encuentra alejada del centro o de la media de los datos.
Una observacin puede considerarse atpica si la distancia mtrica entre dicha

observacin y la media de los datos es grande:
12
d ( xi , x ) = ( xi x ) ( xi x )
T
(1.22)

Para identificar las observaciones atpicas, podramos construir un histograma

de estas distancias y determinar si existen puntos muy alejados respecto a los dems.

Sin embargo, esta medida de distancia no es correcta cuando existe

dependencia entre observaciones (relacin lineal). Ello se debe a que la distancia
euclidiana no considera la estructura de correlaciones entre los datos; una alternativa es
estandarizar previamente los datos en forma multivariante. La estandarizacin tpicamente
utilizada es la siguiente:
xki xk
zki = (1.23)
V ( xk )
Luego, se puede construir la distancia euclidiana pero con las variables

estandarizadas:
12
d ( zi , z ) = ( zi z ) ( zi z )
T
(1.24)

b) Efectos de los Datos Atpicos
Las consecuencias incluso de una nica observacin atpica pueden ser

graves: distorsionar las medias y desviaciones tpicas de las variables y destruir eventuales
relaciones existentes entre ellas.
Consideremos que tenemos una muestra de tamao n con observaciones de

un vector p-dimensional x. Supongamos ahora que introducimos una observacin atpica a,
que corresponde tambin a un vector de p variables. Sea x el vector de medias de las p
variables y V la matriz de varianzas y covarianzas sin el dato atpico; sea xa el vector de
medias de las p variables y Va la matriz de varianzas y covarianzas con el dato atpico. Se
comprueba fcilmente que:
ax
xa = x + (1.25)
n +1
n ( a x )( a x )T n
Va = V + (1.26)
n +1 n +1 n + 1

Las expresiones anteriores indican que un solo dato atpico puede afectar de
manera importante el vector de medias y la matriz de varianzas y covarianzas.

El efecto del dato atpico depende, adems de su magnitud, de su ubicacin,

particularmente la matriz de varianzas y covarianzas.
c) Identificacin de Datos Atpicos
Una regla simple y automtica para detectar datos atpicos es la siguiente:
xki mediana ( xk )
> 4,5 k = 1, 2,...., p (1.27)
MEDA ( xk )
MEDA (xk) es la mediana de las desviaciones absolutas xki mediana ( xk ) ,

que es una medida robusta de las dispersin.
Por otra parte, si el nmero de datos no es muy grande, los diagramas de

dispersin pueden ayudar a detectar datos atpicos.
Otra alternativa corresponde a escoger el intervalo que albergue a un

88,88% de las observaciones. El intervalo ser el siguiente:
(x
k V ( xk ) ; xk + V ( xk ) ) k = 1, 2,...., p (1.28)
Se suele considerar = 3. Esta expresin proviene de la desigualdad de

1
Chebychev, ya que en el intervalo definido se encuentra una proporcin 1 2 de las

observaciones. Si = 4, se albergan el 93,5% de las observaciones.

2 REGRESIN LINEAL MLTIPLE
La econometra es la aplicacin de mtodos estadsticos y matemticos al

anlisis de datos, generalmente econmicos, a fin de otorgar un contenido emprico sobre
las teoras y verificarlas o refutarlas.
El modelo de regresin lineal es el nico escenario en econometra en el que

es factible contrastar fehacientemente la capacidad de prediccin de los modelos
ajustados, mediante la aplicacin de diversos test especficos.
Mediante un modelo de regresin lineal mltiple (RLM) tratamos de explicar el

comportamiento de una determinada variable que denominaremos variable a explicar,
variable endgena o variable dependiente, (y representaremos con la letra Y) en funcin
de un conjunto de k variables explicativas x1 , x2 ,...., xk mediante una relacin de
dependencia.
Y = f (; X ) + (2.1)
En el caso del modelo de RLM, la forma funcional es la siguiente:
Y = X + (2.2)
y1 0 1 x11 x12 .... x1k 1

y 1 x .... x2k
x22
Y = 2 , = 1 , X = , = 2
21
.... .... .... ....

yn k 1 xn1 xn 2 .... xnk n
Y es el vector de variables dependientes (n x 1)
es el vector de parmetros o coeficientes de calibracin (k + 1 x 1)
X es la matriz de variables independientes o explicativas; observaciones conocidas

que incluye una columna con unos (n x k +1). Tambin se les denomina regresores.
es el vector de errores o residuos no observados (n x 1); tambin se le denomina

perturbacin.

Los parmetros miden la intensidad media de los efectos de las variables

explicativas sobre la variable a explicar y se obtienen al tomar las derivadas parciales de
Y
la variable a explicar respecto a cada una de as variables explicativas: j = .
x j
El error, por su parte, aparece por varias razones. La primera y ms

importante es que no se puede pretender captar toda la influencia de cada variable del
modelo, por muy elaborado que ste sea. Por otra parte, existen en general errores de
medicin de las variables explicativas . En sntesis, todo modelo lleva asociado un error.
2.1 Supuestos del Modelo
Trataremos de estimar el modelo de manera que, los valores ajustados de la

variable endgena, resulten tan prximos a los valores realmente observados como sea
posible. Debe notarse que el modelo corresponde a una esperanza condicionada:
E (Y / X ) = X (2.3)
A fin de poder determinar las propiedades de los estimadores obtenidos al

aplicar distintos mtodos de estimacin y realizar diferentes contrastes, hemos de
especificar un conjunto de hiptesis sobre la RLM que hemos formulado. Existen tres grupos
de hiptesis: las hiptesis sobre el trmino de perturbacin, las hiptesis sobre las
variables explicativas, y las hiptesis sobre los parmetros del modelo.
2.1.1 Hiptesis Sobre la Perturbacin
Valor esperado de la perturbacin es cero: E ( j ) = 0 , j .
Homocedasticidad: todos los trminos de perturbacin tienen la misma varianza

(varianza constante): V ( i ) = V ( j )= 2 , i j . Por tanto, todos los trminos de
la diagonal principal de la matriz de varianzas y covarianzas sern iguales.

No Autocorrelacin: los errores son independientes unos de otros, por lo que la

matriz de varianzas y covarianzas es una matriz diagonal (fuera de la diagonal
principal todo son ceros): E ( i , j ) = 0 , i j . Luego, considerando las hiptesis
de homocedasticidad y ausencia de autocorrelacin, la matriz de varianzas y
covarianzas tiene la siguiente estructura:
2 0 0 .... 0

0 2 0 .... 0
V ( ) = =2I (2.4)
.... ....
2
0 0 0 ....
La perturbacin o error presenta una distribucin normal: : N ( 0; 2 I ) .
En sntesis, en un modelo bueno el error es impronosticable.
2.1.2 Hiptesis sobre las Variables Explicativas
Las variables explicativas son fijas o determinsticas.
Las variables explicativas no estn correlacionadas con el trmino de error o

perturbacin: E ( xi , i ) = 0 , i .
Las variables explicativas no presentan relacin lineal exacta entre si (no existe
multicolinelidad).
Las variables explicativas son medidas sin error.
En el modelo no se excluyen las variables relevantes y tampoco se incluyen las

variables irrelevantes, a la hora de explicar el comportamiento de la variable
endgena.
2.1.3 Hiptesis sobre los Parmetros del Modelo
La nica hiptesis que haremos acerca de los parmetros del modelo es la hiptesis
de permanencia estructural, lo que significa que los parmetros poblacionales j se
mantienen constantes a lo largo de toda la muestra.

2.2 Estimacin por Mnimos Cuadrados Ordinarios (MCO)
2.2.1 Vector de Parmetros
La estimacin de MCO se realiza con el criterio de minimizar los cuadrados

de los errores inducidos por el modelo poblacional. Luego, debe resolverse el siguiente
problema de optimizacin:
Q= (Y X ) (Y X )
T
min (2.5)
{ } 144424443

T
min Q = Y TY T X TY Y T X + T X T X = 0 (2.6)
{ }
y dado que ( X ) = T X T se obtiene:

T
min Q = Y T Y 2 T X T Y + T X T X (2.7)
{ }
Q
= 2 X T Y + 2 X T X = 0 X T Y = X T X (2.8)

Si X tiene rango (k + 1) de la ecuacin normal (2.8) se obtiene entonces la

siguiente solucin nica:
= ( X T X ) X T Y
1
(2.9)
Debe notarse que la expresin (2.9) corresponde a la razn entre la

covarianza de X e Y y la varianza de X. Si X tiene rango menor que (k + 1), es decir,
existe dependencia lineal en las observaciones, de la ecuacin normal (2.8) deja de
obtenerse una nica solucin.
Por otra parte, la estimacin de la varianza de se obtiene de la siguiente

manera:
( ) (
V = E )( )
T
(2.10)


(
E )( ) = E X T X 1 X T X T X 1 X T
( ) ( ) ( ) ( )
T T
(2.11)

( )
V = E ( X T X ) ( X T T X )( X T X )

1 1

(2.12)
( )
V = ( X T X ) E X T T X ( X T X )
1 1
(2.13)
( )
V = ( X T X ) X T E T X ( X T X )
1 1
(2.14)
( )
V = ( X T X ) X T ( 2 I ) X ( X T X )
1 1
(2.15)
( )
V = 2 ( X T X )
1
(2.16)
Sin embargo, es necesario un estimador de 2 . Es directo demostrar a partir

de (2.9) y (2.2) que:
= MY = M ( X + ) = MX + M = M (2.17)
(
donde M = I X ( X T X ) X T
1
) es una matriz de n x n simtrica (M = M )
T
e
idempotente ( M = M T M ) . Luego, de (2.17) se obtiene:
T = T M (2.18)
E ( T / X ) = E ( T M / X ) (2.19)
E tr (T / X ) = E tr ( T M / X ) (2.20)
tr ME ( T / X ) = tr M 2 I = 2tr ( M ) (2.21)
( ) (
2tr ( M ) = 2tr I X ( X T X ) X T = 2 tr ( I n ) tr X ( X T X ) X T (2.22)
1
)
2 tr ( I n ) tr ( I k ) = 2 ( n k ) (2.23)
Por lo tanto se obtiene:

E ( T / X ) = 2 ( n k ) (2.24)
T
2 = (2.25)
(n k )
Finalmente, de (2.16) y de (2.25) resulta:
T
( ) ( XTX )
1
V = (2.26)
(n k )
2.2.2 Aspectos Algebraicos y Propiedades de los Estimadores (Muestras Finitas y

Muestras Grandes)
El estimador MCO es insesgado y eficiente:
= ( X T X ) ( X T ( X + ) )
1
(2.27)
= ( X T X ) ( X T X ) + ( X T X ) ( X T )
1 1
(2.28)
( )
= + ( X T X ) ( X T ) = ( X T X ) ( X T )
1 1
(2.29)
( )
E = + E ( X T X ) ( X T )
1
(2.30)

( )
E = + E ( X T X ) ( X T ) = + ( X T X ) E ( X T )
1 1
(2.31)

( )
E = + ( X T X ) E ( X T ) E ( )
1
(2.32)
( )
E = (2.33)
Para demostrar que presenta la mnima varianza:
b= (( X T 1
)
X ) X T + C Y = + CY (2.34)
E (b) = (( X T 1
)
X ) X T + C X = ( I + CX ) = (2.35)


(
V ( b ) = E ( X T X ) X T + C T ) (( X X ) )

1 1 T
T
XT +C (2.36)

(( X X ) ) (
X T + C E ( T ) ( X T X ) X T + C )
1 1 T
V (b) = T
(2.37)
(( X X ) X T + C 2I ) (( X X ) XT +C )
1 1 T
V (b) = T T
(2.38)
V (b) = 2 (( X T 1
) ()
X ) + CC T = V + 2 ( CC T ) > V ( ) (2.39)
: N ; 2 ( X T X )
1
(2.40)

La primera propiedad tiene que ver con que el valor medio de los residuos es
nulo, lo cual implica que la suma de los residuos es igual a cero. Esta caracterstica
es bastante trivial pues se deduce de la misma metodologa de los mnimos
cuadrados, la cual impone a travs de su primera ecuacin normal que esta suma
sea cero (columna de unos en matriz X).
Si el modelo de regresin posee una constante entonces la primera derivada parcial

del lagrangeano (ver (2.8)), o primera expresin de ecuacin normal, indicar que
la suma de los residuos muestrales es cero.
Sin embargo, si el modelo no posee una constante en su formulacin, esta condicin

no necesariamente se cumplir pues nunca surge como condicin necesaria de
primer orden al no tener nunca que derivar con respecto a este parmetro.
Puede sin embargo darse el caso que la representacin de la data haga que este
parmetro sea efectivamente cero, por ejemplo si las series Y, X se entregan en
forma de desviacin de sus propias medias, lo cual implicara que la suma de estos
residuos tambin lo ser. De (2.8) se obtiene:
2 X T Y + 2 X T X = 0 X T (Y X ) = X T = 0 (2.41)

Las series actuales y estimadas tienen igual media. Esta caracterstica se

deduce de la nocin que el valor actual de la variable dependiente se puede
descomponer en lo que estima el modelo y el residuo. Una implicancia de esta
condicin es que la metodologa de los mnimos cuadrados hace que la curva de
regresin que pasa a travs de la nube de puntos pase justo por el punto que
representa a la media de X y la media de Y .
El hiperplano de la regresin pasa por el punto de las medias de los datos, puesto
que la primera ecuacin normal implica Y = X .
La media de los valores estimados por la regresin es igual a la media de los valores
actuales; ello se deduce de (2.8) ya que Y = X .
Los residuos no se correlacionan con la variable independiente.
Los residuos no se correlacionan con la variable dependiente estimada.
Todos los resultados anteriores requieren que la regresin tenga un trmino

constante.
2.2.3 Teorema Central del Lmite
Caso univariante: una sola muestra de tamao n con media y varianza 2 .

d
n ( xn ) N 0; 2 (2.42)
Caso univariante con desigualdad de varianzas: varias muestra con medias

i. y varianzas i2 .
d
n ( xn n ) N 0; 2 (2.43)
donde: 2 =
n
(
1 2
1 + 22 + .... + n2 ) y n = ( 1 + 2 + .... + n )
1
n

r
Caso multivariante: un vector de muestras de tamao n con media y matriz de
varianzas y covarianzas Q.
r d
n ( X n ) N [ 0; Q ] (2.44)
Caso multivariante con desigualdad de varianzas: varias muestra con

r
media i y matriz de varianzas y covarianzas Qi .
r d
( )
n X n n N [ 0; Q ] (2.45)
1 r 1 r r r
donde: Q = lim
n n
( Q1 + Q2 + .... + Qn ) y n = ( 1 + 2 + .... + n ) .
n
Distribucin de una funcin g ( xn ) :
g ( ) 2
n ( g ( xn ) g ( ) ) N 0;
d
2
(2.46)
x
Lo anterior se obtiene de estimar la media y la varianza de las extensiones en

Series de Taylor de la funcin g ( xn ) :
g ( )
g ( xn ) g ( ) + ( xn ) (2.47)
x
Para un conjunto de funciones, el resultados es:
r r r r d
n ( g ( xn ) g ( ) ) N 0; g T Q g (2.48)
2.2.4 Indicadores de Bondad de Ajuste
Lo qu se intenta es determinar objetivamente cun bueno es el modelo que se

ha ajustado:
Y= X + 4244
3 (2.49)
14
4244 3 14
porcion explicada porcion no explicada

( ) ( X + )
T
Y T Y = X + (2.50)
Y T Y = T X T X + T (2.51)
T X T X T T X T X T
1= + = 1 (2.52)
Y TY Y TY Y TY Y TY
T
R2 = 1 (2.53)
Y TY
Una expresin anloga para R 2 es la siguiente:

2

(
(Yi Y ) Yi Y
)
R2 = i (2.54)
(
i ) i ( )
2 2
Y Y Y Y
i i
La expresin (2.54) es la correlacin al cuadrado entre los valores

observados de Y y las predicciones calculadas por la ecuacin de regresin estimada. El
valor de R 2 indica el porcentaje de la varianza de Y que es explicada por las variables X.
Dicho de otra forma, R 2 mide el xito de la ecuacin de regresin, dentro de la muestra,
para predecir Y.
Sin embargo, la utilizacin de (2.54) como indicador general de bondad de

ajuste, si bien es tericamente robusta, presenta algunos problemas. El principal de ellos
hace referencia al nmero de grados de libertad utilizados en la estimacin de los
parmetros. De hecho, R 2 nunca decrecer si se aaden nuevas variables a la
ecuacin de regresin. Es relativamente trivial demostrar que al agregar una variable
adicional (y su respectivo parmetro) al modelo de regresin, se obtiene un nuevo R 2
mayor o al menos igual que el original, incluso si la variable adicional es superflua (no
aporta informacin).
No obstante, adicionar variables tiene un costo en trminos de grados de

libertad, lo que se traduce en una reduccin en la significancia de los parmetros de las
variables originales. Es por ello que se considera un valor ajustado como el siguiente:

1
(%i )
2
R 2 = 1 (1 R 2 )
( n 1) = 1 ( n k ) i = 1
V ( % )
(2.55)
(n k ) 1
( Yi Y )
2 V (Y )
( n 1) i
La expresin (2.55) tiene la ventaja de que podra reducirse si se aade una

variable poco importante dentro del conjunto de variables explicativas. Incluso, este valor
ajustado podra ser negativo en algunos casos extremos, particularmente cuando el ajuste
es deficiente. En el lmite, si Y y X tienen un ajuste cercano a cero ( R 2 0 ) , se tendra un
k + 1
valor de R 2 . Por otra parte, si hay ms de una variable explicativa, R 2 < R 2 .
nk
Finalmente, un contraste de significancia de la regresin como un todo,

corresponde a analizar si la totalidad de los coeficientes, a excepcin del intercepto, son
distintos de cero. Si todas las pendientes son cero, el coeficiente de correlacin mltiple R 2
tambin lo ser; luego, es posible basarse en el valor de R 2 para contrastar esta hiptesis.
El contraste es el siguiente:
R2 ( n k )
F( k 1;n k ) = (2.56)
(1 R 2 ) ( k 1)
Valores grandes para la expresin (2.56) dan evidencia en contra de la
hiptesis nula (parmetros iguales a cero).
2.2.5 MCO vs Mxima Verosimilitud
El mtodo de estimacin por MCO consiste en asignar valores numricos a los

parmetros desconocidos de manera que la suma cuadrtica de errores sea mnima y slo
requiere que la matriz X T X sea invertible. A continuacin veremos un mtodo de
estimacin alternativo, el mtodo de mxima verosimilitud.
Debe considerarse que cualquier muestra que presente la misma

media y misma varianza, presentar por lo tanto los mismos valores
estimados para los parmetros.

El mtodo de mxima verosimilitud (MV), un mtodo de estimacin alternativo,

propone en cambio como un estimador el valor que maximiza la probabilidad de obtener
la muestra ya disponible. El mtodo MV se basa, principalmente, en la distribucin que
sigue el trmino de error. A tales efectos, se suele suponer que las perturbaciones
aleatorias se distribuyen con una distribucin Normal que, adems de cumplir las
propiedades de una muestra grande, es una aproximacin cmoda y fcil de tratar.
Suponiendo que el trmino de error sigue una distribucin normal, y dado que
la media del error cero, se tiene que:
1 2
f (i ) = exp i 2 , i = 1,...., n (2.57)
2 2
Maximizar la probabilidad de obtener la muestra ya disponible equivale

maximizar la funcin de densidad conjunta del vector aleatorio . Para ello, hemos de
suponer homoscedasticidad y ausencia de autocorrelacin. Luego, la expresin de la
funcin de densidad conjunta es la siguiente:
n ( i )2
n
1 i
f (i ) = exp 2 2
2
(2.58)
i =1

Dado que sigue una distribucin Normal Multivariante de orden k, la

variable Y, al ser una combinacin lineal de las perturbaciones aleatorias, tambin se
distribuir con una distribucin Normal Multivariante. As, para que la funcin de densidad
conjunta sea una funcin de verosimilitud, el vector aleatorio ha de expresarse en funcin
del vector Y, es decir:
1
n
(Y X )T (Y X )
L (Y ; , ) =
2
exp (2.59)
2 2 2

Maximizar la funcin de verosimilitud (2.59) equivale a maximizar la

probabilidad que los datos (X) provengan de la distribucin considerada. Luego, el
estimador de mxima verosimilitud maximiza por lo tanto dicha probabilidad.

Dado que (2.59) es una funcin estricta creciente y montona, maximizarla

equivale a maximizar una transformacin montona, como por ejemplo logaritmo natural:
ln L = ln ( 2 ) ln ( 2 2 ) 2 (Y X ) (Y X )
n n 1 T
(2.60)
2 2 2
Derivando (2.60) respecto a y a 2 , se obtienen los siguientes resultados:
MV = ( X T X ) X T Y = MCO
1
(2.61)
2
=
( ) <
T
2
=
( )
T
(2.62)
nk
MV MCO
n
Observamos que el estimador de MV de coincide con el MCO, con lo que

tendr las mismas propiedades: ser lineal, insesgado, ptimo y consistente. Es fcil ver
que el estimador de MV de 2 , en cambio, resulta diferente del MCO y es sesgado a la
baja aunque asintticamente insesgado (cuando n ).
El estimador de MV es consistente, asintticamente normal, asintticamente

eficiente e invariante. La matriz de varianzas y covarianzas asinttica del estimador de MV
corresponde al negativo de la inversa de la matriz informacional I ( ) :
2 ln L
I ( ) = E T (2.63)

1
1 2 ln L
I ( ) = E T (2.64)

Notar que en el caso de la distribucin normal, = ( , 2 ) .

2.2.6 Interpretacin Econmica
La interpretacin econmica nos permite comprobar si las estimaciones

obtenidas son coherentes con la teora econmica. Segn la especificacin del modelo, la
interpretacin y significacin de los parmetros puede variar. Si el modelo est
especificado en niveles, el parmetro refleja el efecto medio que tiene una variacin
unitaria de la variable explicativa sobre la variable endgena:
Y
j = (2.65)
x j
En cambio, si el modelo est especificado en logaritmos, los parmetros

pueden interpretarse como una elasticidad, como es el caso de la funcin de produccin
de Cobb-Douglas:
ln Y
j = (2.66)
ln x j
Q P ln Q
Recordar que la elasticidad precio-demanda es = = .
P Q ln P

3 INFERENCIA Y PRECICCIN
3.1 Contraste de Restricciones
3.1.1 Contraste de una Restriccin Lineal
Dado que la distribucin de los coeficientes de regresin pueden ser

caracterizados a partir de : N ; 2 ( X T X ) , y dado que se ha supuesto
1

independencia estadstica entre los parmetros y el vector de residuos, entonces el
estadstico:
( ) : t
i i
(3.1)
se ( )
( n k )
i
sigue una distribucin t con (n - k) grados de libertad. Notar que al ser un anlisis
asinttico (n grande), la distribucin t converge a una distribucin normal. Notar adems
( )
que el trmino se = 2 S ii , donde S ii es el i-simo elemento de la diagonal de
i
(X X )
1
T
.
Para llevar a cabo hiptesis sobre el valor de un coeficiente puede emplearse

un estadstico de la t tradicional. Si el valor del parmetro calibrado difiere
significativamente del verdadero valor de +deducimos entonces que los datos muestrales
no son consistentes con la hiptesis nula.
Un contraste comn consiste en si un parmetro es significativamente

distinto de cero. En tal caso, el estadstico es:
i
t= (3.2)
( )
se i
En general, si ( )
i i se i > t / 2 , donde 2 define el grado de
confiabilidad exigido de la distribucin t con (n - k) grados de libertad, entonces la

hiptesis se rechaza y se dice que el coeficiente es estadsticamente significativo; es decir,

la variable asociada a dicho componente ayuda a describir el fenmeno estudiado.
En otras palabras, t es una medida de la diferencia entre la funcin hipottica

de los verdaderos coeficientes y la misma funcin de las estimaciones de dichos
coeficientes. Si la hiptesis es verdadera, las estimaciones deberan reflejarlo al menos
dentro de los rangos de variabilidad muestral. El valor t = 1,96 (correspondiente a un
grado de significatividad del 95% en muestras grandes) normalmente es el utilizado como
valor de referencia.
Un intervalo de confianza para i estara dado por:
( ( )
i t 2 se i < i < i + t 2 se i ( )) = 1 (3.3)
3.1.2 Contraste de Restricciones Lineales Conjuntas
Consideremos las siguientes restricciones lineales del modelo de RLM:
R11 1 + R12 2 + .... + R1k k = q1

R21 1 + R22 2 + .... + R2k k = q2
R = q (3.4)
....
R p11 + Rp 2 2 + .... + Rpk k = q p
La matriz R tiene k columnas y p filas (restricciones); con las restricciones hay

por lo tanto slo k - p parmetros libres.
La hiptesis nula corresponde en este caso a R = q . A partir del valor

numrico que tome el estadstico de contraste es posible determinar si la diferencia entre
R y q es estadsticamente significativa o no lo es. La regla de decisin es la siguiente:
( R q ) ( R q )
1
R ( X T X ) 1 R T
T
p

: F[ p;n k ] (3.5)
( n k )
T
T
donde 2 = T = 2 ( n k ) .
nk

Si F F[ p;n k ] el estadstico de contraste se encuentra fuera de la regin de

aceptacin, lo cual nos lleva a rechazar la hiptesis nula. Por tanto, las restricciones
lineales no son ciertas en el mbito de la poblacin.
Si F < F[ p ;n k ] el estadstico de contraste cae dentro de la regin de aceptacin,

con lo cual no podemos rechazar la hiptesis nula. En consecuencia, podemos
afirmar que las restricciones son ciertas en el mbito de la poblacin.
En el caso particular que se desee testear que todos los k parmetros de la

regresin, excepto la constante o intercepto, son significativamente distintos de cero, se
tendr que R = Ik-1 y q = ( 0, 0,...., 0 ) . Luego, de (3.5) se obtiene:
T ( X T X ) ( k 1)
: F[k 1;n k ] (3.6)
T ( n k )
y dado que = ( X T X ) X T Y se obtiene finalmente:

1
R2 ( n k )
:F (3.7)
(1 R 2 ) ( k 1) [k 1;nk ]
Esta ltima expresin (3.7) nos indica que aquellas regresiones que tienen
bajo coeficiente de ajuste, es decir un bajo R 2 , tienen a su vez un test F tambin muy bajo,
lo cual permitira decir que la probabilidad de rechazar la hiptesis es muy baja.
3.1.3 Contraste Basado en una Regin de Confianza
En el modelo de RLM, una regin de confianza para un conjunto de

coeficientes sera el conjunto de valores para los cuales la hiptesis de que el conjunto de
coeficientes verdaderos iguala a estos valores no sera rechazada. El contraste en este
caso es:
1
T T T 1
(
1
) ( X X ) R ( - )
T
- R : F[ p ;n k ] (3.8)
2 n k

( )
En el caso de 2 parmetros 1 , 2 , cuyos estimadores presenten distintas
varianzas, la regin de confianza est dada por una elipse en el plano 1 , 2 . ( )

3.1.4 Mnimos Cuadrados Restringidos
De manera anloga al estimador de MCO, en el caso restringido se resuelve

el siguiente problema de optimizacin:
Q= (Y X ) (Y X )
T
min (3.9)
{ } 144424443
T
s.a.: R =q (2) (3.10)
Sin prdida de generalidad, el lagrangeano del problema anterior es:
L ( , ) = (Y X ) ( Y X ) + 2 ( R q )
T
(3.11)
L

(
= 2 X T Y X R + 2 RT = 0 ) (3.12)
L

(
= 2 RT R q = 0 ) (3.13)
Dividiendo por 2 y desarrollando se obtiene la siguiente matriz particionada:
XT X RT R X T Y
= (3.14)
R 0 q
Si X T X es no singular, se obtiene entonces:
R = + ( X T X ) RT R ( X T X ) RT R q ( )
1 1
(3.15)

( R q )
1
= R ( X T X ) RT
1
(3.16)


De la expresin (2.9) se observa que, si la restriccin es correcta, es decir,

( )
efectivamente R q , el estimador restringido corresponde al estimador de MCO
( R )
= . Del mismo modo, el parmetro valdra cero.
Adicionalmente, se tiene que:
( )
V R = 2 ( X T X ) 2 ( X T X ) RT R ( X T X ) RT R ( X T X )
1
14444444
1
4244444444
1
3
1
(3.17)
Matriz Positiva Definida
Luego, el estimador restringido presenta menor varianza que el estimador

MCO. Ello se explica por el valor de la informacin contenida en las restricciones, lo que
reduce la incertidumbre en la estimacin (ms grados de libertad).
3.1.5 Contraste de Restricciones No Lineales
El problema general consiste en el contraste de la hiptesis que implica una

funcin no lineal de los coeficiente de la regresin:
g( ) = q (3.18)
Analizando el caso de una nica restriccin resulta:
( ) :t
g q
(3.19)
se ( g ( ) )
( n k )
( )
La aproximacin lineal en series de Taylor para g i implica lo siguiente:
g ( )
T
( )
g g ( ) +

( ) (3.20)
g ( ) g ( )
T
( )
V g
V ( )

(3.21)
g ( ) T 1 g ( )
T
( )
n k (

V g

XTX )

(3.22)

De la expresin ' 2-10( se obtiene el valor requerido:
( ) ( ( ))
12
se g = V g (3.23)

3.2 Prediccin
Junto con la estimacin de parmetros y la inferencia, el uso ms habitual de

la regresin es la prediccin.
La prediccin del conjunto de regresores X 0 es la siguiente:
Y 0 = X 0 + 0 (3.24)
Sin embargo, usando el modelo estimado tendramos:
Y 0 = X 0 (3.25)
que corresponde al estimador de E (Y 0 ) . Luego, el error de prediccin en este caso est

dado por:
(
e0 = Y 0 Y 0 = X 0 + 0) (3.26)
La varianza de este error es:
( ) (
)
V ( e0 ) = 2 + V X 0 = 2 + X 0T V X 0

(3.27)
V ( e0 ) = 2 + X 0T 2 ( X T X ) X 0
1
(3.28)

(
V ( e 0 ) = 2 1 + X 0T ( X T X ) X 0
1
) (3.29)
La expresin (3.29) representa la distancia de los elementos de X 0 respecto

a la media de los datos. Esto implica que mientras ms lejos estn los datos X 0 de la
media, mayor ser el grado de incertidumbre. El intervalo de confianza para la prediccin
es por lo tanto:

( )
Y 0 t 2 2 1 + X 0T ( X T X ) X 0
12
1
(3.30)

Es interesante determinar cul es el valor de X 0 que minimiza la varianza de

la prediccin. Para ello, se puede resolver el siguiente problema de minimizacin:
min X 0T ( X T X ) X 0
1
(3.31)
{X }
s.a. : X 10 = 1 () (3.32)
La restriccin X10 = 1 se refiere al hecho de que el primer elemento de X 0 es

el intercepto de la ecuacin de regresin.
El lagrangeano y condiciones de primer orden son:
L = X 0T ( X T X ) X 0 ( X 10 1)
1
(3.33)
1

L
( ) 0 =0
1
= 2 X T
X X 0
(3.34)
X 0
....

0
1
0

X 0 = ( X T X ) (3.35)
2 ....

0
La expresin (3.35) indica que X 0 es proporcional a la primera columna de

X T X , por lo que se obtiene:
n
n
x 2
i =1
i
X =
0
(3.36)
2 ....
n
xik
i =1

2
De la primera fila de (3.36) se deduce que 1 = n = . En
2 n
consecuencia, podemos escribir (3.36) como:
1
n
xi 2 n
i =1
X0 = (3.37)
....
n
xik n
i =1
El lado derecho de (3.37) corresponde al vector de medias de las

observaciones. En consecuencia, la varianza del error de pronstico es minimizada cuando
todas las nuevas observaciones de las variables independientes son iguales a sus valores
medios. A partir de (3.37), para luego sustituir en (3.29), se obtiene:
1
0
1
X0 = XTX (3.38)
n ....

0
1
V ( e0 ) = 2 1 + (3.39)
n
En consecuencia, el intervalo de confianza ser menor en los valores medios

de las variables de X.
Finalmente, la prediccin se puede medir de acuerdo a diversos criterios. Sin

embargo, todos estos criterios se basan en evaluaciones ex-post, es decir, predicciones
para las que las variables exgenas no tienen que ser predichas en los n0 perodos
siguientes. Dos de estos criterios son la raz del error cuadrtico medio (RECM) y el error
absoluto medio (EAM):
(Y Y )
1 2
RECM = i i (3.40)
n0 i

1
EAM =
n0
Y Y
i
i i (3.41)
Los dos criterios anteriores presentan evidentemente un problema de escala.

Criterios alternativos son:
(Y Y )
1 2
i i
n0
U= i
(3.42)
1
(Yi )
2
n0 i
( Y Y )
1 2
i i
n0
U = i
(3.43)
1
( Y )
2
i
n0 i
( )
donde Yi = (Yi Yi 1 ) y Yi = Yi Yi 1 . Este ltimo es vlido slo en series de tiempo.
3.3 Estimacin por Mnimos Cuadrados Generales (MCG)
En este caso asumimos que V ( ) 2 I , por lo que podemos expresar la

matriz de varianzas y covarianzas de la perturbacin como V ( ) = 2 , donde es
una matriz de n x n positiva definida:
112 122 132 .... 12n

2
22
2
232 .... 22n
V ( ) = 21 = 2 (3.44)
.... ....
2 2
n1 n 2 n 3 .... nn
2 2
Esta matriz la podemos descomponer de la siguiente manera:
= PPT 1 = ( P 1 )( P 1 )
T
(3.45)
con lo que se obtiene el siguiente modelo:
P 1Y = P 1 X + P 1 Y * = X * + * (3.46)

Por tanto, se ha conseguido una transformacin del modelo de forma que las
perturbaciones cumplen las hiptesis habituales. Al estimador de por MCO en el modelo
transformado se le denomina estimador de Mnimos Cuadrados Generalizados (MCG):
MCG = ( X *T X * ) X *T Y * = ( X T 1 X ) X T 1Y
1 1
(3.47)
( )
V MCG = 2 ( X *T X * ) = 2 ( X T 1 X )
1 1
(3.48)
siendo el siguiente un estimador insesgado de la varianza de las perturbaciones:
644744

8 64
4744 8
T

( )
( ) Y X ( )
T

Y X
MCG
1
MCG
2 = (3.49)
nk
Es decir, el estimador MCG minimiza la suma de cuadrados de residuos

ponderada por la inversa de su matriz de covarianzas.
No hay una contrapartida precisa del R 2 del modelo ordinario con el R 2 del
modelo generalizado. Una eleccin sera usar el R 2 del modelo transformado
Y * = X * + * , pero esta regresin no tiene por qu tener trmino constante el coeficiente
de determinacin no estara acotado entre cero y uno.
Pero incluso si existe trmino constante, el modelo transformado no es ms que

un instrumento computacional, no el modelo de inters. El hecho de que se obtenga una
mejora o un empeoramiento en el ajuste del modelo transformado puede no tener ningn
inters, ya que la variable dependiente Y * es diferente de la original.
Por otra parte, el estimador de MCG es en presencia de autocorrelacin y/o

heterocedasticidad ms eficiente que el de MCO, aunque ambos son insesgados,
consistentes y asintticamente normales.
Para usar MCG es necesario sin embargo obtener un estimador consistente de

n ( n + 1)
. Debido a que es una matriz de n x n con elementos, es imposible con las
2
n observaciones estimar todos los elementos. Considerando como estimador de , se
obtendra:

( )
1
MCG = X T 1 X X T 1Y (3.50)
T 1 T 1
( ) ( )
1
V MCG =
X X (3.51)
nk
En el caso de heterocedasticidad, se tendr que:
1
0 .... 0
1

1
0 .... 0
P= 2 (3.52)

.... ....

0 1
0 ....
n
Por su parte, en el caso de correlacin serial (autocorrelacin), se tendr que:
1 2 0 .... 0

P = (1 )
2 1 2 1 .... 0
(3.53)
.... .... ....

0 .... 1
Una manera alternativa de expresar la matriz general de varianzas y

covarianzas es la siguiente:
V ( ) = (3.54)
donde:
1 0 .... 0 1 12 13 .... 1n
0
.... 0 1 23 .... 2 n
= ; = 21 (3.55)
2
.... .... .... ....

0 0 .... n n1 n2 n 3 .... 1

4 ESPECIFICACIN
En este captulo estudiaremos tcnicas que nos permiten definir la forma

funcional de un modelo de regresin lineal, a fin de obtener mejores resultados.
4.1 Variables Ficticias
Si es posible definir con certeza el momento del eventual quiebre estructural

ya sea en un parmetro como en una combinacin de parmetros entonces podemos
aplicar lo que se conoce como variables mudas.
Las variables ficticias recogen los efectos diferenciales que se producen en el

comportamiento de los agentes econmicos debido a diferentes causas como las
siguientes:
De tipo temporal: Para recoger efectos diferentes en funcin del tiempo en que se
producen las observaciones de las variables (por ejemplo, consumo en periodos de
guerra o paz).
De carcter espacial: Para tener en cuenta la pertenencia o no de la observacin
a una determinada zona (por ejemplo, consumo en zonas rurales o urbanas).
De tipo cualitativo: Para recoger los efectos de variables cualitativas como el
gnero, el estado civil, tener o no cargas familiares, nivel de educacin, etc. sobre el
comportamiento de los agentes econmicos en decisiones de consumo, de oferta de
trabajo, etc.
Otras causas: Para conocer los efectos que las variables cuantitativas tienen sobre
la variable endgena, distinguiendo por submuestras (por ejemplo, la propensin
marginal al consumo de individuos de rentas altas o bajas).
Una variable muda o ficticia generalmente se asocia a una funcin indicadora

de un evento determinado. Esta nueva variable artificial tomar valor unitario si el evento
est presente y cero si no es as. Ejemplos de este tipo de funciones son muchos, por
ejemplo:
Guerra - Paz
Hombre - Mujer

Profesional - Tcnico
Gobierno A - Gobierno B
Crisis Bancaria - Normalidad
Tipo de Cambio Fijo - Tipo de Cambio Flexible
Si estas variables no son directamente cuantificables entonces surge la

alternativa de utilizar variables dicotmicas mudas. Volvamos al modelo de regresin
simple para entender cmo contrastar cambios estructurales en algn o algunos
parmetros utilizando esta variable. Supongamos que el modelo a estimar es:
Y i = 0 + 1 x1i + i (4.1)
Sin embargo, se ha identificado que para cierto grupo de observaciones

existen cambios estructurales. Para incorporar este hecho economtricamente, creamos una
nueva serie artificial (muda) D i que tomar valores de cero y uno. La siguiente Tabla
ayuda a comprender esta representacin:
Tabla 4.1
Variables Ficticias
Observacin (i) Yi Xi Di
1 Y1 X1 0
2 2
2 Y X 0
...... ...... ...... ......
j-1 j-1
j-1 Y X 0
j j
j Y X 1
j+1 Yj+1 Xj+1 1
...... ...... ...... ......
n n
n Y X 1
Con esta nueva variable podemos contrastar cambios tanto en el coeficiente

de intercepto 0 como en el de la pendiente 1 .

4.1.1 Cambio Estructural en el Intercepto
La especificacin del modelo es en este caso la siguiente:
Y i = 0 + 1 x1i + i i = 1, 2,..., j 1
(4.2)
Y = 0 + x + 2 D +
i i
1 1
i i
i = j , j + 1,..., n
La hiptesis est representada por :
H0 : 2 = 0
(4.3)
H1 : 2 0
El contraste consiste en evaluar si el parmetro 2 es significativamente

distinto de cero o no. Para esto generamos un test t:
2 2 2
tc = = (4.4)
( )
V 2 ( )
V 2
Si tc (en valor absoluto) es menor al valor tabulado de tn k para cierto nivel

de precisin, no rechazamos la hiptesis de que el parmetro es cero, no habiendo por lo
tanto indicios de quiebre estructural en el parmetro del intercepto.
4.1.2 Cambio Estructural en la Pendiente
La especificacin del modelo es en este caso la siguiente:
Y i = 0 + 1 x1i + i i = 1, 2,..., j 1
(4.5)
Y i = 0 + ( 1 + 2 D j ) x1i + i i = j, j + 1,..., n
H0 : 2 = 0
(4.6)
H1 : 2 0
El contraste es anlogo al caso anterior:

2 2 2
tc = = (4.7)
( )
V 2 ( )
V 2
4.1.3 Cambio Estructural en el Intercepto y la Pendiente
La especificacin del modelo es en este tercer caso la siguiente:
Y i = 0 + 1 x1i + i i = 1, 2,..., j 1
(4.8)
Y i = 0 + ( 1 + 2 D j ) x1i + 3 D j + i i = j , j + 1,..., n
H 0 : 2 = 3 = 0 (4.9)
El contraste es el siguiente:
( R q ) ( R q )
1
T
R ( X T X ) 1 R T p

Fc = : F[ p ;n k ] (4.10)
(n k )
T
donde p es el nmero de restricciones que estamos imponiendo en la hiptesis nula. En

nuestro caso se tendra que buscar el valor tabulado de F[2;n 4] .
Si Fc es menor al valor tabulado de F[ p ;nk ] , no rechazamos la hiptesis de

que ambos parmetros son cero, no habiendo indicios de quiebre estructural en los
parmetros de la pendiente y el intercepto.
4.2 Variables No Lineales
Un tpico error de especificacin ocurre cuando se utiliza un modelo lineal en

variables explicativas cuando realmente no lo es.
Supongamos que uno tiene una variable de respuesta Y y varias variables

predictoras X y desea hacer transformaciones en las variables de respuesta para mejorar
la medida de ajuste del modelo. Lo primero que uno intenta es hacer un grfico matricial y
de ste extraer las relaciones de X con cada una de las variables predictoras.

Pero estas transformaciones se pueden ver afectadas por la colinealidad

(dependencia lineal) existente entre las variables predictoras.
4.2.1 Transformaciones Generales
Consideremos por ahora solo modelos con una variable independiente. La

idea es tratar de aumentar la medida de ajuste R 2 del modelo, sin incluir variables
adicionales. Lo primero que hay que hacer es un grfico para observar el tipo de
tendencia.
La siguiente tabla muestra las transformaciones de las variables dependiente e

independiente que se requieren para linealizar varios modelos:
Tabla 4.2
Transformacin de Variables
Nombre del Modelo Ecuacin Original Transformacin Modelo Linealizado
Exponencial Y = exp ( X ) Z = ln Y ; X = X Z = ln + X
Logartmico Y = + ln ( X ) Y = Y ;W = ln X Y = + W
Potencial Y = X Z = ln Y ;W = ln X Z = ln + W
1
Hiperblico Y = + Y = Y ;W = Y = + W
X X
1 1
Doblemente Inverso Y= Z= ;X = X Z = + X
+X Y
El primer y tercer modelo son vlidos bajo la suposicin de que los errores son
multiplicativos y habra que cotejar haciendo anlisis de residuales si el logaritmo de los
errores tiene una media de cero y varianza constante. Si los errores no son multiplicativos
entonces deberan aplicarse tcnicas de regresin no lineal que son expuestas ms
adelante.

4.2.2 Transformacin Box - Tidwell
En 1962, Box y Tidwell, propusieron un mtodo para transformar las variables

predictoras pero solo usando potencia de ellas. Ms especficamente, ellos consideraron el
modelo:
k
Y = 0 + i wi + (4.11)
i =1
donde wi = ( xi ) si i 0 y wi = ln ( xi ) si i = 0 . El mtodo est basado en el

i
desarrollo en series de Taylor del modelo anterior con respecto a = (1 , 2 ,...., k ) .

Haciendo las derivaciones respectivas, el modelo (4.11) se reduce a:
k k
Y 0 + i xi + i zi + (4.12)
i =1 i =1
donde i = ( i 1) i y zi = xi ln ( xi ) i = 1, 2,...., k .
El procedimiento para la estimacin de los i se puede resumir como sigue:
Hacer la regresin lineal mltiple considerando las variables predictoras originales

xi y denotar los estimados de los coeficientes por i .
Hacer una regresin lineal mltiple de Y respecto a las variables predictoras

originales xi mas las variables zi = xi ln ( xi ) y denotar los estimados de los
coeficientes de zi por i .
i
Estimar i = +1 .

i
El procedimiento se puede repetir varias veces usando en cada etapa las

nuevas variables transformadas y la siguiente relacin de recurrencia:
n
in+1 = i n + 1 in (4.13)
i

El proceso termina cuando in +1 in < . Sin embargo, es comn que con

una iteracin sea suficiente.

4.2.3 Transformacin Box - Cox
En 1964, Box y Cox introdujeron una transformacin de la variable de

respuesta con el objetivo de satisfacer la suposicin de normalidad del modelo de
regresin. La transformacin es de la forma Y (transformacin potencia), donde es
estimada con los datos tomados. Ms especficamente, la transformacin est definida,
(x )

1
para todo x mayor que cero, por xi ( ) = i si 0 y xi ( ) = ln ( xi ) si

(x )

1
= 0 . Por la regla de LHopital se puede demostrar que = ln ( xi ) . Notar
lim i
0
que si = 1 se obtiene el modelo lineal, y si = 0 se obtiene un modelo logartmico.

Luego, el modelo Box-Cox es una especificacin no lineal generalizada.
El parmetro se estima usando el mtodo de Mxima verosimilitud,

conjuntamente con los coeficientes del modelo de regresin lineal mltiple:
k
Y ( ) = 0 + i xi ( ) + = T X ( ) + (4.14)
i =1
Escribiendo la funcin de verosimilitud se tiene que:

n
1 1
L (Y ; , ) =
2
exp 2 2 ( )
T
(4.15)
2
Luego se puede establecer que el logaritmo de la funcin de verosimilitud est

dado por:
ln L = ln ( 2 ) ln ( 2 ) 2 ( T )
n n 1
(4.16)
2 2 2
Debe recordarse que si una variable z distribuye f(z), y existe otra variable u
tal que u = (z) ( z = (u)), se tiene que u distribuye de la forma
z
f (z) = f ( ( u ) ) ' ( u ) . Dado que = Y ( ) T X ( ) = (Y ) se obtiene que
u
i ( yi ( ) )
= = yi 1 y por lo tanto ln i = ( 1) yi . Finalmente, el logaritmo de la
yi yi yi
funcin de verosimilitud en este caso es el siguiente:

ln L = ln ( 2 ) ln ( 2 2 ) + ( 1) ln yi
n
n n
2 2 i =1
(4.17)
2
1
(
2 (Y ( ) T X ( ) ) ( Y ( ) T X ( ) )
T
)
n
El trmino ( 1) ln yi aparece debido justamente al cambio de variables
i =1
al moverse de la funcin de distribucin de a la funcin de distribucin de Y. Una

comparacin de (4.17) entre los valores de = 1 y = 0 nos permite elegir entre un
modelo lineal y uno logartmico.
Sin embargo, si se desea aplicar tcnicas de MCO en lugar de MV, es

factible normalizar las observaciones por su media geomtrica:
n
ln y i
n
ln y g = i =1
y g = exp ln yi n (4.18)
n i =1
yi
Las variables normalizadas son ahora yi* = . Luego, podemos calcular el
yg
ajuste de los siguientes modelos lineal y log-lineal en forma directa (suponiendo que las
perturbaciones son normal):
Y * = % X * + % (4.19)
ln Y * = ln X * + (4.20)
Notar que en (4.19) tanto la endgena como las exgenas han sido
normalizadas por su media geomtrica.
La comparacin directa (MV vs MCO) es posible debido a que:
ln yi* = ln yi ln y g (4.21)
n n
n n ln yi ln yi

i =1
ln y g = i =1
i =1 n
= n i =1
n
(4.22)


n
n n n ln yi n
ln yi* = ln yi ln e i=1
i =1 i =1 i =1
=0 (4.23)
n
De este modo, el trmino ( 1) ln yi* de la expresin (4.17) es igual a
i =1
cero para la versin log-lineal del modelo, pero tambin es cero para la versin lineal, ya
que = 1 . En consecuencia, la estimacin MV y MCO produjeron los mismos resultados
cuando los datos son normalizados. En el caso de MCO, se escoger el que entregue
un mayor valor de R 2 .
4.2.4 Otras Transformaciones de Variables
Algunas veces el comportamiento de la varianza de la perturbacin vara

segn la variable independiente. Una de las medidas remediales para hacer constante la
varianza es transformar la variable independiente. La siguiente tabla muestra las
transformaciones de la variable independiente que hay que hacer para hacer que la
varianza sea constante:
Tabla 4.3
Transformacin de Variables
Transformacin Situacin
y V ( i ) E ( yi )
y + y +1 V ( i ) E ( yi )
ln ( y ) V ( i ) E ( yi )
2
ln ( y + 1) V ( i ) E ( yi )
2
1
V ( i ) E ( yi )
4
y
1
V ( i ) E ( yi )
4
y +1
sen 1 ( y) V ( i ) E ( yi ) (1 E ( yi ) )

4.3 Modelos No Lineales
Lo que caracteriza a un modelo de regresin no lineal es el mtodo utilizado

para estimar sus parmetros. La forma general del modelo de regresin es:
Y = f (; X ) + (4.24)
Considerando el mismo argumento que MCO se obtiene:
1 n
( Yi f ( ; X i ) )
2
min Q= (4.25)
{ } 2 i =1 1442443
i2
Q n f ( ; X i )
= (Yi f ( ; X i ) ) =0 (4.26)
i =1
2Q f ( ; X i ) f ( ; X i ) n 2 f ( ; X i )
T
= 2
T
( Yi f ( ; X i ) ) T
(4.27)
i =1
La matriz (4.27) debe ser positiva definida. Por otra parte, la distribucin
asinttica del estimador de mnimos cuadrados no lineal viene dada por:
( )
n NL N ( 0; 2 1 )
d
(4.28)
donde:
1 n
( ( ) )
2 p
2 = Yi f ; X i
n i =1
2
(4.29)
XTX (
1 n f ; X i f ; X i
) ( )
= (4.30)
n n i =1 T

4.3.1 Modelo de Regresin Linealizado en Parmetros
Los resultados en este caso se basan en aproximaciones de series de Taylor

en torno a un determinado vector de parmetros 0 :
f ( 0 ; X )
f (; X ) f ( ; X ) + ( k0 )
K
0
(4.31)
0 k
k =1 k
f ( 0 ; X )
Haciendo = Z k y reagrupando trminos se obtiene:
k0
f ( ; X ) f ( 0 ; X ) Z k k0 + Z k k
K K
(4.32)
k =1 k =1
Reemplazando luego en ' 3-13(:
Y f ( 0 ; X ) Z k k0 + Z k k +
K K
(4.33)
k =1 k =1
Y f ( 0 ; X ) + Z k k0 Z k k +
K K
(4.34)
1444424444 k =1
3 k =1
Y%
Y% Z k k +
K
(4.35)
k =1
Por lo tanto, para un determinado valor de 0 se estiman Y% y Z k , para

luego determinar los parmetros k de (4.35) utilizando MCO. Estos parmetros k
deben ser utilizados como nuevo valor de 0 , y repetir el proceso hasta que converja
k 0 < . Sin embargo, si bien es posible aplicar los contrastes de hiptesis y
procedimientos de inferencia de los MCO, no est garantizado que el R 2 est entre 0 y 1.

4.3.2 Modelo de Regresin Linealizado en Variables
Un caso ms general se obtiene si se consideran una mayor cantidad de

trminos en la expansin en series de Taylor en torno a X:
f ( ; X 0 )
f (; X ) f (; X )+ (x x )
K
0 0
xi
i i
i =1
(4.36)
1 K K f (; X )
2
0
+
2 i =1 j =1 xi x j
( xi xi0 )( x j x 0j ) + ....
En el caso de que exista slo una variable explicativa, se obtendra:
f ( ; x 0 )
f ( ; x) f ( ; x ) +0
(x x ) 0
x (4.37)
1 f (; X ) 1 f (; X )
2 0 3 0
(x x )0 2
( x x 0 ) + .....
3
+ +
2 x 2 3! x 3
y reagrupando trminos:
f ( ; x ) 0 + 1 x + 2 x 2 + 3 x3 + .... (4.38)
Luego, se debe calibrar el siguiente modelo lineal:
Y 0 + 1 x + 2 x 2 + 3 x 3 + .... + (4.39)
La eleccin del nmero de parmetros se puede obtener a partir de la

significancia estadstica de sus respectivos parmetros. Sin embargo, estos parmetros i
no tienen una interpretacin econmica clara.

4.4 Especificacin de Variables
Existen numerosos errores que pueden cometerse producto de una mala

especificacin de la ecuacin estimada, ya sea por omisin de variables relevantes o por
inclusin de variables irrelevantes o superfluas.
4.4.1 Seleccin de Variables
Como se vio anteriormente, el valor del R 2 nunca decrecer si se aaden

nuevas variables a la ecuacin de regresin, aun cuando dichas variables no aporten a la
explicacin del fenmeno estudiado. Para evitar ello, se considera el R 2 ajustado:
R j2 = 1 (1 R 2j )
( n 1) (4.40)
(n k )
Dado que el R 2 incorpora penalizacin por los grados de libertad, y a la vez

revela un incremento en el ajuste, una alternativa es elegir la especificacin que maximiza
el valor del R 2 . Puede demostrarse que esto ltimo equivale a minimizar el estimador de
T
varianza 2 = .
(n k )
Sin embargo, se ha sugerido que el R 2 no penaliza suficientemente la

prdida de grados de libertad. Tres alternativas que se han propuesto para la
comparacin de modelos son las siguientes:
(n + k ) 1 R
R j2 =
j
( ) 2
(4.41)
(n k )
j
j
T k j
AIC j = ln + 2 (4.42)
n n
T k j ln ( n )
SIC j = ln + (4.43)
n n
En el caso de la expresin (4.41), obtenido de Amemiya (1985), el criterio

consiste escoger el modelo con las variables que presenten el mayor R 2j .

Anlogamente, en el caso de la expresin (4.42), el criterio es escoger el

modelo que presente el mnimo valor de AIC j . Lo mismo con SIC j en (4.43).
Es interesante notar que las expresiones para AIC j y SIC j provienen de

T
ponderar el error cuadrtico medio del modelo calibrado. De hecho, el valor del
n
R 2 se puede rescribir como:
1
( i )2
R j2 = 1 (1 R 2j )
( n 1) = 1 ( n k j ) i (4.44)
(n k ) 1
( Yi Y )
2
( n 1) i
Luego, en este caso el error cuadrtico medio se corrige por los grados de
T
libertad: . Sin embargo, en los otros 2 criterios, el error cuadrtico medio se
nk
corrige de la siguiente manera:
( 2 k n )
T
AIC j = e12j3 (4.45)
penalizacin n
( k n )
T
SIC j = {
n j (4.46)
penalizacin n
Al aplicar logaritmo natural a las expresiones (4.45) y (4.46) se obtienen

directamente las expresiones (4.42) y (4.43), respectivamente.
4.4.2 Variables Omitidas
Supongamos que el modelo especificado correctamente es el siguiente:
Y = X 1 1 + X 2 2 + (4.47)
Si realizamos una regresin de Y sobre X 1 , sin incluir X 2 , el estimador es:
1 = ( X 1T X 1 ) X 1T Y = ( X 1T X1 ) X 1T ( X 1 1 + X 2 2 + )
1 1
(4.48)
144 42444 3
Y

1 = 1 + ( X1T X 1 ) X 1T X 2 2 + ( X 1T X 1 ) X 1T
1 1
(4.49)
( )
E 1 = 1 + ( X 1T X 1 ) X1T X 2 2 1
1
(4.50)
Si existe una nica variable incluida y una nica variable omitida, el signo del
sesgo en el estimador es evidente. Sin embargo, si existen varias variables, no es posible.
La varianza de 1 es:
( )
V 1 = 2 ( X 1T X 1 )
1
(4.51)
Sin embargo, si hubiramos especificado correctamente el modelo, incluyendo

las variables X 2 se tendra:
( ) ( )
1
V 1,2 = 2 X 1T X 1 X 1T X 2 ( X 2T X 2 ) X 1T X 1
1
(4.52)
Luego, a partir de (4.51) y (4.52), se deduce:
( )
V
( ) 2( 2 2)
= 1 X T X X T X 1 X T X
1 1
V 1,2 (4.53)
2
1 1 2 1
La expresin (4.53) es siempre positiva. En consecuencia, si bien 1 es

sesgado, tiene menor varianza que 1,2 . Es interesante tambin notar que mientras mayor
sea la correlacin entre X y X , ms grande ser la varianza de respecto a la de
1 2 1,2
1 . Esto ltimo equivale a resolver el problema con una restriccin del tipo 2 = 0 .
Este sesgo no desaparecer si aumenta el tamao muestral, por lo que el

estimador es tambin inconsistente (excepto si X1T X 2 = 0 ). Al mismo tiempo, una varianza
muy alta en la variable X 2 reducir el sesgo, aunque no lo eliminar.
Por otra parte, se puede demostrar tambin que el estimador 2 est sesgado
hacia arriba (an cuando X 1 y X 2 sean ortogonales); sin embargo, para estimar ese
sesgo debiramos estimar 2 . Esto ltimo implica que existirn problemas al contrastar
hiptesis sobre . 1

4.4.3 Variables Superfluas
Supongamos que el modelo especificado correctamente es el siguiente:
Y = X 1 1 + (4.54)
Sin embargo, la estimacin se realiza a partir del siguiente modelo:
Y = X 1 1 + X 2 2 + (4.55)
En este caso, se puede demostrar que tanto 1 como 2 son insesgados. Sin
embargo, la varianza del estimador 1 ser mayor. Esto se explica por la prdida de
grados de libertad producto de la presencia de ms parmetros en la estimacin. Luego,
los estimadores si bien son insesgados y consistentes, son ineficientes. Esta prdida de
eficiencia hace ms difcil rechazar la hiptesis nula de que un determinado parmetro vale
cero.

5 TEMAS ESPECFICOS
5.1 Ortogonalidad
La Ortogonalidad entre los regresores de un modelo economtrico implica

incorrelacin entre dichos regresores, mientras que la Multicolinealidad implica
dependencia o correlacin entre esas variables.
Se dice que dos regresores son ortogonales cuando estn linealmente

incorrelacionados, es decir, su coeficiente de correlacin lineal o su covarianza es cero.
As, xi y xj son ortogonales si rij = 0.
Dos grupos de regresores son ortogonales si ( X 1T X 2 ) = 0 , lo que significa

que cada regresor del primer bloque est incorrelacionado con cada regresor del segundo
bloque.
Sea el modelo particionado:
Y = X 11 + X 2 2 + (5.1)
Los estimadores MCO de los vectores de parmetros 1 y 2 de este modelo

coinciden con los que obtendramos efectuando la regresin individual de Y sobre cada
uno de los bloques:
1
1 X 1T X 1 X 1T X 2 X 1T Y
= = T
(5.2)
X 2 X 1 X 2T X 2 X 2T Y
2
0 X1T Y ( X 1 X 1 ) X 1 Y
1 X 1T X 1
1 T 1 T
= = (5.3)
0
2 X 2T X 2 X 2T Y ( X T X )1 X T Y
2 2 2
Las varianzas de los estimadores tambin coinciden con las calculadas al

hacer las regresiones individuales pero no as con los estimadores de las varianzas:
1 2 ( X T X )1
XTX 0
( )
1 1
V = 2 1 1 = 1
(5.4)
( X 2 X 2 )
T
0 X2 X2 2 T


1 2 ( X T X )1
XTX
( ) 0
1 1
V = 2 1 1 = 1
(5.5)
( X 2 X 2 )
T
0 X2 X2 2 T

T
siendo 2 = .
nk
Sin embargo, en las regresiones individuales se tendra:
( )
V 1 = 12 ( X 1T X 1 ) 12 =
uT u
1
(5.6)
n k1
( )
V 2 = 22 ( X 2T X 2 ) 22 =
vT v
1
(5.7)
n k2
Por otra parte, si no existe ortogonalidad, se tendra que:
1 ( X 1 X 1 ) X1 Y ( X 1 X 1 ) X1 X 2 2
T 1 T T 1 T
= (5.8)
T
2 ( X 2 X 2 ) X 2 Y ( X 2 X 2 ) X 2 X 11
1 T T 1 T
La solucin (5.8) indica que 1 es el conjunto de coeficientes o parmetros de

la regresin de Y sobre X1 menos un vector de correccin. De hecho, manipulando
(5.8) resulta:
(
1 ( X1 X 1 ) X 1 Y X 2 2
T
)
1 T
= (5.9)

(
2 ( X 2 X 2 ) X 2 Y X1 1
T 1 T
)
El teorema de Frisch-Waugh establece que el vector 2 es el conjunto de
parmetros que se obtiene de realizar una regresin de los residuos de la regresin de Y
sobre X1 , sobre el conjunto de residuos obtenidos de la regresin de X2 sobre X1. Esto es
lo que normalmente se conoce como extraer el efecto de X1.
Suponiendo una regresin de Y sobre W = ( X 1 , X 2 ) , el coeficiente 2 de X 2

se calcula como:

2 = ( X 2T MX 2 ) ( X 2T MY )
1
(5.10)
(
donde M = I X 1 ( X 1T X 1 ) X 1T
1
) es una matriz de n x n simtrica (M = M )
T
e
idempotente ( M = M T M ) .
Esta matriz M genera el vector de residuos de la regresin de mnimos

cuadrados de Y sobre X 1 cuando pre-multiplica al vector Y, por lo que:
= MY MX 1 = 0 (5.11)
Una manera de interpretar el resultado MX1 = 0 es que la realizacin de una

regresin de X1 en X1 se obtendr un ajuste perfecto, por lo que los residuos sern cero.
Finalmente, dado que en general Y = X + , se obtiene:
Y = Y = ( I M ) Y = PY (5.12)
La matriz P, simtrica e idempotente, se denomina matriz de proyeccin.

Esta matriz se genera a partir de X tal que cuando el vector Y se pre-multiplica por P, se
obtiene como resultados los valores calculados de la regresin por MCO de Y sobre X.
5.2 Multicolinealidad
5.2.1 Definicin de Multicolinealidad
El trmino multicolinealidad (o colinealidad) en Econometra se refiere a una

situacin en la que dos o ms variables explicativas estn fuertemente interrelacionadas y,
por tanto, resulta difcil cuantificar sus efectos individuales sobre la variable
explicada.
Este problema reside, por tanto, en la muestra utilizada y/o de la

especificacin del modelo, y no tiene causas interpretables. S existen, en cambio, una serie
de situaciones en que la multicolinealidad resulta habitual.

En principio, cabe distinguir dos casos:
a) Multicolinealidad Perfecta, que se presenta cuando det ( X T X ) = 0 . En

este caso existen infinitas soluciones para el sistema ( X T X ) = X T Y .
b) Multicolinealidad Fuerte, cuando la relacin entre las variables es muy

fuerte pero no perfecta; es decir, los coeficientes de correlacin lineal no sern
prximos a 1 pero se le aproximarn bastante. En este caso det ( X T X ) 0 y
por lo tanto no existen razones a priori para no poder estimar el modelo.
5.2.2 Causas de la Multicolinealidad
Existencia de alguna relacin causal entre 2 variables explicativas (o

ms).
En economa, la mayora de las variables explicativas estn, de alguna

manera, correlacionadas. Cuando trabajamos con series temporales, la
mayora de las variables econmicas tienen una tendencia creciente;
Granger y Newold demostraron que basta con introducir una tendencia
lineal en dos series temporales independientes para que su correlacin
aumente considerablemente, y por lo tanto, la existencia de esa
tendencia puede ser la causa de un problema de multicolinealidad.
Existencia de una variable explicativa con escasa variabilidad en su

serie.
5.2.3 Efectos de la Multicolinealidad
En el caso de multicolinealidad extrema o perfecta, resulta claro que el

problema fundamental es que es imposible resolver de forma nica el sistema de
ecuaciones normales: ( X T X ) = X T Y .

La multicolinealidad de grado o fuerte da lugar a distintos efectos, que

veremos en ms detalle a continuacin:
Las estimaciones individuales de los parmetros estn mal identificadas,

esto es, el valor estimado de un parmetro puede depender crucialmente
del(los) valor(es) estimado(s) de otro(s).
Se genera una inflacin artificial de la varianza de los parmetros

estimados.
Las estimaciones resultan sensibles con respecto a la muestra utilizada lo

que supone que si, por ejemplo, se ampla la muestra con una nueva
observacin, las estimaciones obtenidas pueden variar sustancialmente.
i) Problemas de Identificacin
No se puede aislar el efecto individual de un regresor sobre el

regresando ya que no se puede mantener la clusula del ceteris
paribus.
En Econometra tradicional, el trmino identificacin alude a la

posibilidad de obtener estimaciones independientes para los parmetros
de un modelo.
Se dice que un modelo est mal identificado cuando el valor estimado

de un(os) parmetro(s) depende crucialmente del(los) valor(es) de
otro(s). En este sentido, puede decirse que la colinealidad da lugar a un
problema de identificacin paramtrica.
Para aclarar esta idea, utilizaremos un ejemplo correspondiente al caso

de multicolinealidad extrema. Sea el modelo:
Y = X 11 + X 2 2 + (5.13)

Supongamos que la segunda variable explicativa puede generarse a

partir de una transformacin lineal de la primera, esto es:
X 2 = 1 + 2 X 1 . Si sustituimos esta igualdad en la ecuacin (2.9) se
obtiene, tras realizar algunas operaciones algebraicas elementales, la
siguiente expresin:
Y = 2 1 + X1 ( 1 + 2 2 ) + (5.14)
{ 14243
0 1
En (5.14) queda clara la imposibilidad de obtener estimaciones

independientes de 1 y 2 sin ms que aplicar MCO.
Este problema tambin se produce en el caso de multicolinealidad de

grado. Para verlo, basta suponer que la relacin entre las variables
explicativas fuera X 2 = 1 + 2 X 1 + u , entonces el modelo (5.14) podra
expresarse como:
Y = 2 1 + X 1 ( 1 + 2 2 ) + 2u + (5.15)
ii) Inflacin de las Estimaciones
Si el determinante de (X X)
T
es aproximadamente igual a cero
(columnas LD), tanto las estimaciones de parmetros, como las de sus
correspondientes varianzas, tendern a estar distorsionadas y, en
general, sern mayores que las que se obtendran si no existiera
multicolinealidad. Por esta razn, se dice que la multicolinealidad causa
un problema de "inflacin de los parmetros estimados y de sus
varianzas".
En general, esta inflacin distorsionar los resultados de los procesos de

inferencia estadstica que se desarrollen a partir de los resultados de la
estimacin. Concretamente, puesto que las varianzas de los parmetros
estimados estn distorsionadas al alza, el estadstico t de significacin
individual de los parmetros:
i
t= : t( n k ) (5.16)
i

tender a no rechazar la hiptesis nula i = 0 ms frecuentemente que

si no existiese multicolinealidad. Es decir, el estadstico t tendr un
menor valor.
Por otra parte, dado que la multicolinealidad no hace variar la bondad

del ajuste, si contrastamos la significancia conjunta de los parmetros a
travs del R 2 del modelo, podemos concluir que los parmetros
conjuntamente son significativos e individualmente no. Este hecho puede
sugerir la existencia de multicolinealidad de grado.
En sntesis:
Intervalos de confianza grandes
Valores muestrales de los estadsticos t pequeos, lo que implica que es

muy difcil rechazar cualquier contraste de no singnificacin de las
variables
Los 2 puntos anteriores nos pueden llevar a rechazar la significacin

individual de todos los regresores y sin embargo no rechazar la
significacin conjunta de todos ellos.
No afecta al R 2 ya que ste mide el efecto conjunto de todos los

regresores sobre el regresando y la multicolinealidad afecta a los valores
individuales de los regresores. Por lo tanto, la regresin podr ser
significativa a pesar de la existencia de multicolinealidad.
No afecta a las predicciones.
iii) Sensibilidad de las Estimaciones con Respecto a los

Datos
Cuando existe un problema de multicolinealidad, ligeros cambios en la

matriz X y el vector Y (por ejemplo, si aadimos o suprimimos algn
dato) pueden llevar a grandes cambios en los coeficientes estimados.
Este hecho puede llevar errneamente a considerar la posibilidad de

cambio estructural, cuando en realidad se trata de un problema de

multicolinealidad.
5.2.4 Deteccin de la Multicolinealidad y su Magnitud
Resulta frecuente que exista un problema de multicolinealidad en los siguientes

casos:
a) Cuando se emplean variables explicativas no estacionarias en media. Es decir,

si dos variables explicativas tienen una tendencia comn, esto puede causar
multicolinealidad. Como veremos ms adelante, transformar las variables para
que sean estacionarias, puede resolver el problema, salvo cuando la
multicolinealidad sea estricta. Esta causa es muy comn en la prctica
economtrica.
b) Cuando se consideran muchas variables explicativas. Lgicamente, a medida

que aumenta el nmero de variables explicativas, es ms fcil que aparezca
una pauta de relacin entre ellas que de lugar a un problema de colinealidad.
c) Cuando la mtrica de las variables da lugar a datos de un orden de magnitud

muy diferente. Puesto que el valor numrico del determinante de ( X T X )
depende de las unidades de medida de las variables contenidas en X, si
dichas variables estn medidas en unidades de un orden de magnitud muy
diferente (por ejemplo kilmetros y centmetros) esto puede dar lugar a una
aparente multicolinealidad, debida a la acumulacin de errores de redondeo.
Este problema se resolvera transformando adecuadamente la mtrica de los
datos.
d) Cuando se incluyen como variables explicativas retardos sucesivos de la

variable endgena o de alguna de las variables explicativas. Esto puede
provocar multicolinealidad porque los valores de una variable econmica en
distintos instantes de tiempo suelen estar correlacionados entre s.

Para decidir si la colinealidad de grado supone un problema para nuestro

anlisis concreto, en primer lugar tendremos que definir claramente cules son los objetivos
ltimos del mismo. Por ejemplo, si nuestra finalidad es predecir la evolucin futura de una
variable, la posible multicolinealidad no nos causa ningn problema. Sin embargo, si el
nfasis est en obtener estimaciones de los parmetros lo ms precisas posibles, la
colinealidad sera un problema muy grave ya que, como hemos visto, da lugar a un alto
grado de imprecisin en las estimaciones individuales.
Evidentemente, caracterizar el problema de colinealidad de grado como

det ( X X ) = 0 no es suficiente para la prctica economtrica ya que: 1) el valor de
T
det ( X T X ) depende de las unidades de medida y 2) no sabemos en qu grado de

proximidad a cero comienzan a hacerse relevantes los problemas que acabamos de
sealar.
Para detectar el posible problema de multicolinealidad estudiaremos dos tipos

de mtodos: mtodos basados en la correlacin entre variables explicativas y mtodos
basados en el tamao de la matriz ( X T X ) .
i) Mtodos Basados en la Correlacin Entre Variables Explicativas.
Para detectar la multicolinealidad se podra calcular la correlacin simple

existente entre pares de las variables exgenas (X). Denotaremos como rij al coeficiente de
correlacin simple entre la variable xi y xj ( rij = rji , i j ) . Al calcular estos coeficientes
simples de correlacin para todos los pares de variables, se tendra una matriz Rx definida
como:
1 r12 .... r1k

r
1 .... r2k
Rx = 21
(5.17)
.... ....

rk1 rk 2 .... 1

Si rij es cercano a la unidad, detectaramos multicolinealidad por la alta

correlacin muestral entre xi y xj. El problema de este mtodo es que slo puede detectar
correlacin entre pares de variables explicativas de la forma xi = x j . Sin embargo, es
posible que existan relaciones de dependencia lineal ms complejas como, por ejemplo
xi = x j + xk , que no detectaramos calculando slo los coeficientes de correlacin
muestral entre pares de variables. En este caso, lo que se puede hacer es un conjunto de
regresiones de cada variable exgena con respecto a las k - 1 restantes.
ii) Mtodos Basados en el Tamao de la Matriz.
Como sabemos, la multicolinealidad es un problema numrico ya que el

determinante de la matriz ( X T X ) es muy pequeo. Entonces, podemos pensar que sera
til medir el "tamao" de ( X T X ) .
Una primera solucin sera calcular el valor numrico del determinante de

( X X ) . El problema es que el determinante de esta matriz depende de las unidades de
T
medida de las variables explicativas.
Otra posibilidad se basa en el hecho de que el determinante de ( X T X ) es

igual al producto de sus valores propios. Entonces, podemos calcular los valores propios y
comprobar si alguno es muy cercano a cero ya que, en este caso, el determinante tambin
tendra un valor prximo a cero. El problema es que el tamao de los valores propios
tambin depende de las unidades de medida de las variables explicativas.
El ltimo mtodo consiste en medir el tamao relativo de los valores propios

de la matriz ( X T X ) . De este modo, eliminamos el problema de las unidades de medida.
Es decir, calculamos los valores propios, los ordenamos de menor a mayor, y obtenemos el
ratio entre el valor propio mximo y el mnimo. Si este cociente es muy grande, existira un
problema de multicolinealidad porque el valor propio mnimo es muy pequeo en relacin
con el ms grande. A la raz cuadrada de este cociente se le llama nmero de condicin
de la matriz X:
max
nmero de condicin = (5.18)
min

5.2.5 Correccin de la Multicolinealidad
Existen diversas soluciones, aunque ninguna resulta plenamente satisfactoria.
Suprimir Variables. La idea consiste en que, si se suprimen variables

que estn altamente correlacionadas con otras, la prdida de capacidad
explicativa del modelo ser pequea, mientras que la multicolinealidad
se reducir. Existe, sin embargo, el riesgo de eliminar variables que
debieran mantenerse en el modelo ya que, como hemos visto, en
situaciones de multicolinealidad las varianzas de los parmetros estn
infladas y muchos parmetros sern formalmente no significativos.
Utilizacin de Estimaciones Externas. Por ejemplo, sea una

funcin de demanda donde el consumo de un pas (Ct) depende, a lo
largo del tiempo, de las variables renta (Yt) y precios (Pt):
Ct = 0 + 1Yt + 2 Pt + t (5.19)
y se sabe que las variables de renta y precios estn altamente

correlacionadas. En este caso, una posible solucin al problema de
multicolinealidad sera estimar el parmetro 1 en una funcin de
consumo con datos de seccin cruzada definida como:
Ct = 1Yt + vt (5.20)
De esta forma, se puede plantear el nuevo modelo de regresin con

datos temporales:
(C Y ) =
t 1 t 0 + 2 Pt + t (5.21)
en donde la variable a explicar ha cambiado con respecto al modelo

original. Sin embargo, esta solucin a la multicolinealidad tiene varios
problemas:
a) Para que la solucin fuese correcta tendramos que tener como

( )
nueva variable dependiente Ct 1Yt , pero no disponemos del
valor del verdadero parmetro 1 sino slo de una estimacin 1 .

b) El parmetro 1 en una regresin con datos de seccin cruzada

tiene una interpretacin distinta que cuando se estima con datos de
series temporales (Largo Plazo vs Corto Plazo).
Incorporar Nuevas Observaciones. Algunas veces, aumentando

el tamao muestral con el que trabajamos podemos reducir el problema
de multicolinealidad; esta podra ser una solucin siempre que la
multicolinealidad fuera un problema muestral. Por supuesto, si existe una
relacin lineal exacta entre algunas variables explicativas
(multicolinealidad estricta) por mucho que aumentemos el nmero de
observaciones, no va a desaparecer el problema.
Imponer Restricciones Sobre los Parmetros. Evidentemente, si

la Teora Econmica o la experiencia emprica sugieren algunas
restricciones razonables sobre los parmetros del modelo ms afectados
por la colinealidad, imponerlas permitir reducir el problema. El riesgo
que se corre es, obviamente, imponer restricciones que no son ciertas.
Transformacin de Variables. Muchas veces el problema de

multicolinealidad surge al trabajar con variables no estacionarias en
media o con una tendencia creciente en el tiempo. En este caso, la
transformacin adecuada para hacer estacionarias las variables sera
diferenciar.
Regresores Cresta. Fueron propuestos por Hoerl y Kennard (1970) y

se basan en perturbar la matriz ( X T X ) en otra parecida ( X T X + kI ) ,
donde lo que hacemos es sumar a la diagonal principal de ( X T X ) una
constante k. La idea es perturbar lo mnimo posible la matriz ( X T X )
para que cambie su tamao y su determinante sea distinto de cero. El
problema de estos regresores es la eleccin de la constante k que ha de
sumarse a la diagonal principal de ( X T X ) , adems de que dichos
estimadores no conservan la propiedad de insesgadez de los MCO. Es
decir:

C = ( X T X + kI ) X T Y = ( X T X + kI ) X T ( X + )
1 1
(5.22)
y bajo las hiptesis habituales sobre el trmino de perturbacin, se tiene

que:
( )
E C = ( X T X + kI ) X T X
1
(5.23)
Adems del problema de elegir el escalar k ptimo para cada problema

en concreto, esta solucin no tiene ninguna interpretacin
econmica. Es decir, resolvemos el problema numrico, pero
perturbamos la matriz ( X T X ) , lo cual supone cambiar la informacin
muestral sobre las variables explicativas. Este remedio a la
multicolinealidad no es muy utilizado en la prctica.
5.2.6 Mtodo de Componentes Principales
El Mtodo de Componentes Principales (MCP) es una tcnica estadstica de

sntesis de la informacin, o reduccin de la dimensin (nmero de variables); ante un
banco de datos con muchas variables, el objetivo ser reducirlas a un menor nmero
perdiendo la menor cantidad de informacin posible.
Es decir, el MCP transforma un conjunto de variables predictoras

correlacionadas en un conjunto menor de variables no correlacionadas, a las que se les
denomina componentes principales.
Los nuevos componentes principales o factores sern una combinacin lineal

de las variables originales, y adems sern independientes entre s. Un aspecto clave en
MCP es la interpretacin de los factores, ya que sta no viene dada a priori, sino que ser
deducida tras observar la relacin de los factores con las variables iniciales (habr que
estudiar tanto el signo como la magnitud de las correlaciones).
Esto no siempre es fcil, y ser de gran importancia el conocimiento que se

tenga sobre la materia de investigacin. Para el anlisis resulta fundamental el concepto de
vectores y valores propios de una matriz.

Las fases del Anlisis de Componentes Principales son las siguientes:
Anlisis de la Matriz de Correlaciones: Un anlisis de

componentes principales tiene sentido si existen altas correlaciones entre las
variables, ya que esto es indicativo de que existe informacin redundante y,
por tanto, pocos factores explicaran gran parte de la variabilidad total.
Seleccin de los Componentes: La eleccin de los factores se

realiza de tal forma que el primero recoja la mayor proporcin posible de
la variabilidad original; el segundo factor debe recoger la mxima
variabilidad posible no recogida por el primero, y as sucesivamente. Del
total de factores se elegirn aquellos que recojan el porcentaje de
variabilidad que se considere suficiente. A stos se les denominar
componentes principales
Anlisis de la Matriz de Componentes: Una vez seleccionados los

componentes principales, se representan en forma de matriz. La matriz
tendr tantas columnas como componentes principales y tantas filas como
variables.
Interpretacin de los Componentes: Para que un componente sea

fcilmente interpretable debe tener las siguientes caractersticas:
o Los coeficientes de los componentes deben ser prximos a 1.
o Una variable debe tener coeficientes elevados slo con un factor.
o No deben existir componentes con coeficientes similares.
Estimacin de los Componentes: Son los valores que tienen los

componentes principales para cada caso, que nos permitirn su
representacin grfica. Supongamos que tenemos un vector p-dimensional
X = ( x1 , x2 ,...., x p ) que presenta una matriz de varianzas y covarianzas
. El mtodo de basa en encontrar un nuevo vector q-dimensional
Z = ( z1 , z2 ,...., z q ) con q < p que cumpla:
zi = ( aij x j )
p
i = 1,...., q (5.24)
j =1

Z = X a (5.25)
Adems debe cumplirse para aiT = ( ai1 , ai 2 ,...., aip ) que:
o var ( zi ) = aiT ai
o cov ( zi , zk ) = aiT ak
o var ( z1 ) var ( z2 ) .... var ( zq )
El objetivo del anlisis de componentes principales es el de maximizar la

suma de cuadrados Z T Z = aT X T Xa = aT a , la cual representa la
variancia de Z, sujeta a que la suma de cuadrados de los coeficientes a sea
igual a 1 (condicin de identificabilidad).
Este proceso de maximizacin con restriccin conduce a una solucin de

orden de la forma:
( X X )a = a
T
(5.26)
donde es el multiplicador de Lagrange, asociado con el problema de

maximizacin, y a la vez es la raz caracterstica de la matriz = ( X T X ) .
La matriz tiene asociados valores y vectores propios ( i , ai ) donde

1 2 .... p . Luego, el i- simo componente principal est dado por:
zi = ( aij x j ) = ai1 x1 + ai 2 x2 + .... + aip x p

p
j =1
(5.27)
donde var ( zi ) = i( i = 1,...., p ) , cov ( zi , zk ) = aiT ak = 0 ( i k ) .

Notar que los valores propios ( i ) son nicos, no as los vectores propios
(y por lo tanto los vectores zi ).

La traza de la matriz se obtiene como la suma de los valores propios

p

tr ( ) = i . Por lo tanto, la proporcin de la varianza explicada por
i =1

el k-simo componente principal es p k
i
i =1
Si la matriz X est centrada y escalada tal que corresponda a la matriz

p
de correlaciones, se cumple que
i =1
i = p.
En otras palabras, los elementos i proporcionan la ponderacin que

tienen los componentes principales en la varianza total de X T X de forma
tal que 1 2 .... p .
Adems de reducir los efectos de la Multicolinealidad, la tcnica de

Componentes Principales se utiliza para:
Detectar la presencia de Datos Outliers.
Revisar la hiptesis de Distribucin Normal Multivariada de las

variables predictoras.
Agrupar elementos de la muestra en subgrupos semejantes (Anlisis

Cluster).
Reduccin de la dimensin en Anlisis Discriminante.
En sntesis, la metodologa para determinar los componentes principales es:
max aT a
(5.28)
s.a. : aT a = 1 ( )
De (5.28) se obtiene que la j-sima variable componente principal para

la r-sima unidad experimental (elemento de la muestra) est dada por:
zrj = aTj ( xr ) (5.29)

donde xr es el vector de variables de la r-sima unidad experimental (por

ejemplo caractersticas del individuo r), es el vector de medias de las
variables x y aTj es el vector propio asociado al j-simo valor propio.
Por lo tanto, los estimadores pueden ser sesgado pero evidentemente ms

eficientes.
Para entender de mejor manera los conceptos recin expuestos,

consideremos la siguiente muestra de las variables x1 y x2, obtenidas de una
distribucin normal bi-variada:
Figura 5.1
Distribucin Normal Bivariada: x1 vs x2
1.5
0.5
7
4
X2
0
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
100
1
-0.5
-1
-1.5
X1

Figura 5.2
Componentes Principales
1.5
2
1
0.5
7
4
X2
100
1
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
-0.5
-1
-1.5
X1
Respecto a la Figura 5.2, es interesante notar que:
x%12 x%22
La ecuacin de la elipse es: + = c , donde x%1 y x%2 corresponden a
1 2
los ejes rotados y c es la distancia entre el plano de corte de la distribucin
normal bivariada (campana) y el plano definido por f ( x1 , x2 ) = 0 .
Los vectores propios son paralelos a los ejes rotados de la elipse.

cov ( x%1 , x%2 ) = 0
Si x1 y x2 no estn correlacionados ( 1,2 = 0 ) , se tendr que 1 = 12

y 2 = 22 . Luego, no es necesario rotar la elipse.
Si 2 = 0 , los puntos caeran en la recta de x%1 , y viceversa. Esto indica

que la correlacin entre ambas variables es uno.
Si 1 = 2 a elipse colapsar a una circunferencia, y los valores propios
quedarn indeterminados (se podr determinar slo uno), ya que la
variabilidad de los datos es la misma en todas las direcciones.

Sin embargo, si las variables x no estn correlacionadas, no tiene

sentido aplicar el MCP. Luego, es necesario determinar si las variables de respuesta x
estn o no correlacionadas antes de aplicar el MCP.
Esto se puede llevar a cabo probando si la matriz es diagonal o no. Si es

diagonal, las variables de respuesta son independientes y no tiene sentido aplicar MCP.
Definiendo la hiptesis nula de que es diagonal, o que es anlogo a decir

que la matriz de correlaciones R es la identidad I, se tiene el siguiente contraste para
muestras grandes:
2 p + 5
n 1 ln R : p ( p 1) 2 (5.30)
2
Si el valor estimado es mayor que el valor crtico tabulado, se rechaza

entonces la hiptesis nula de no correlacin entre las variables de respuesta, por lo que es
factible aplicar el MCP. Notar que ln R = i i ,i .
i i
5.3 Contrastes Multivariantes
5.3.1 Contraste de Razn de Verosimilitud
Como se mencion anteriormente, la funcin de verosimilitud representa la

probabilidad de que la muestra de datos que se est analizando provenga de una
determinada funcin de distribucin.
Dadas las caractersticas de la funcin de verosimilitud, analizar su estructura

original o su logaritmo natural es equivalente en trminos de resultados de los parmetros
estimados y de la inferencia que es posible realizar.
Una expresin de la discrepancia entre los datos observados y el modelo

construido corresponde a la siguiente:
D ( ) = 2 ln L ( ) (5.31)

Cuanto mayor sea la concordancia entre el modelo (parmetros estimados) y

los datos utilizados mayor ser el valor de la expresin (5.31), o menor en trminos de
valor absoluto.
Supongamos que obtenemos un modelo calibrado sin restriccin, para el cual

se obtiene que:
D ( 0 ) = 2ln L ( 0 ) (5.32)
Alternativamente, calibramos un modelo con r restricciones lineales,

obteniendo como resultado:
D ( r ) = 2 ln L ( r ) (5.33)
La diferencia estadstica entre ambos modelos se puede expresar de la

siguiente manera:
L ( 0 )
= 2 ln = 2 ( ln L ( 0 ) ln L ( r ) ) (5.34)
L ( r )
= D ( r ) D ( 0 ) : r2 (5.35)
5.3.2 Contraste Para Matriz de Varianzas y Covarianzas Igual a la Identidad
Si la matriz de varianzas y covarianzas corresponde a la matriz identidad,

se debe no rechazar la siguiente hiptesis nula:
= n ln + n tr ( ) np : 2p ( p +1) 2 (5.36)
Luego, si el valor calculado para es menor que el valor tabulado, no se

rechaza la hiptesis nula y por lo tanto se podra considerar una matriz de varianzas y
covarianzas igual a la matriz identidad. Notar que el nmero de valores distintos de la
p ( p + 1)
matriz de varianzas y covarianzas es .
2

5.3.3 Contraste Para Matriz de Varianzas y Covarianzas Escalar (Esfrica)
Si la matriz de varianzas y covarianzas corresponde a una matriz escalar,

es decir, = 2I ( i
2
= 2j , i j ) , las curvas de nivel sobre la distribucin
multivariante sern circunferencias. Para validar dicha hiptesis, se debe no rechazar la
siguiente hiptesis nula:
2 p tr ( )
= n ln + n np : (2p + 2)( p 1) 2 (5.37)
2
tr ( )
donde 2 = .
p

covarianzas escalar o esfrica. Notar que el nmero de grados de libertad viene dado por
p ( p + 1) ( p + 2 )( p 1) .
la expresin 1 =
2 2
5.3.4 Contraste Para Matriz de Varianzas y Covarianzas Diagonal (No Esfrica)
Si la matriz de varianzas y covarianzas corresponde a una matriz escalar,

es decir, 2I ( i
2
2j , i j ) , las curvas de nivel sobre la distribucin
multivariante sern elipses. Para validar dicha hiptesis, se debe no rechazar la siguiente
hiptesis nula:
p
= n ln i : 2p ( p 1) 2 (5.38)
i =1
donde i son los valores propios de la matriz de varianzas y covarianzas .

covarianzas escalar o esfrica. Notar que el nmero de grados de libertad viene dado por
p ( p + 1) p ( p 1)
la expresin p= . Notar que los contrastes (5.37) y (5.38) pueden
2 2
ser utilizados alternativamente.

5.4 Heterocedasticidad
5.4.1 Definicin de Heterocedasticidad
La heterocedasticidad es la existencia de una varianza no constante en las

perturbaciones aleatorias de un modelo economtrico. En ese caso, la matriz de varianzas
y covarianzas de las perturbaciones se representara del siguiente modo:
12 0 0 .... 0

0 22 0 .... 0
V ( ) = = 2 (5.39)
.... ....
2
0 0 0 .... n
Figura 5.3
Perturbaciones Heterocedsticas
50
40
30
20
10
0
0 5 10 15 20 25 30 35 40 45
-10
-20
-30
-40
Observaciones
Producto de la presencia de una matriz de varianzas y covarianzas no escalar

de las perturbaciones aleatorias, la estimacin correcta de los parmetros del modelo se
realiza mediante MCG:
MCG = ( X T 1 X ) ( X T 1Y )
1
(5.40)

Sin embargo, para la aplicacin de (5.40) en un modelo con n observaciones

y k variables explicativas, sera necesario estimar k + 1 parmetros (considerando el
intercepto) y n varianzas para las perturbaciones. Luego, hay ms incgnitas que
ecuaciones independientes que se puedan construir con las n observaciones.
Por ello, habr que hacer algn supuesto simplificador sobre la causa de la
heterocedasticidad, una vez que esta sea detectada. Evidentemente, encontrar una
simplificacin correcta dotar de plena utilidad (eficiencia) a la estimacin con MCG y, a
en caso contrario, un mal diseo de la causa de la heterocedasticidad (de la matriz )
producir un valor ineficiente de dichos parmetros.
5.4.2 Causas de la Heterocedasticidad
La heterocedasticidad es un problema que surge en muchas aplicaciones,

sobre todo trabajando con datos de seccin cruzada. Por ejemplo, en una relacin que
explica los beneficios de un conjunto de empresas, es lgico pensar que existe una mayor
variacin en los beneficios de las empresas grandes que en los beneficios de las pequeas.
Pero incluso despus de descontar las diferencias de tamaos, puede seguir existiendo
heterocedasticidad. As, la varianza de los beneficios puede depender tambin de la
diversificacin del producto, de los gastos en investigacin y desarrollo, de las
caractersticas de cada empresa y adems, podran variar los beneficios dentro de
empresas de un mismo tamao.
Si bien las que se citan a continuacin no son las nicas posibilidades que dan
lugar a un modelo heterocedstico, s son las ms frecuentes.
a. Variables explicativas cuyo recorrido tenga una gran dispersin

respecto a su propia media.
En esta situacin, los modelos de corte transversal son especialmente

susceptibles a registrar heterocedasticidad. La disposicin arbitraria de las observaciones
en este caso (puede responder, por ejemplo al orden alfabtico de las observaciones de la
endgena o al modo en que se han obtenido los datos o a cualquier otra razn) pueden
agrupar, casualmente, observaciones que presenten valores grandes en una determinada
variable explicativa y lo mismo con valores pequeos de esta misma variable.

Si esta variable es la que est produciendo la distorsin en el modelo de

heterocedasticidad, dicha distorsin ser probablemente mayor en aquellas observaciones
que contengan una mayor carga de sta y menor en las que su peso sea ms pequeo.
Por ello, la varianza de las perturbaciones aleatorias estimada por sub-perodos distintos
de la muestra sera diferente; es decir, habra heterocedasticidad. La misma situacin se
puede dar en modelos de corte temporal en los que la evolucin histrica haya marcado
diferentes perodos en cuanto a los valores de una variable en relacin a su media,
agrupando en algn sub-perodo valores altos y en otros valores pequeos.
b. Omisin de variables relevantes en el modelo especificado.
Evidentemente, cuando se ha omitido una variable en la especificacin, dicha

variable quedar parcialmente recogida en el comportamiento de las perturbaciones
aleatorias, pudiendo introducir en stas su propia variacin, no necesariamente fija.
Recurdese que la hiptesis inicial del MRL de homocedasticidad haca referencia a la
varianza constante de las perturbaciones aleatorias, pero no obligaba a que las variables
explicativas tuvieran tambin varianza constante, hecho que, adems, sera una restriccin
muy poco plausible.
c. Cambio de estructura.
El hecho de que se produzca un cambio de estructura determina un mal ajuste

de los parmetros al conjunto de los datos muestrales. Este no tiene porque influir del
mismo modo en todo el recorrido de la muestra1, pudiendo producir cuantas de desajuste
del modelo diferentes y, por tanto, varianza no constante por sub-perodos.
Al fin y al cabo, el fenmeno del cambio de estructura es equiparable a una

especificacin incorrecta por omisin de variables relevantes: precisamente faltara la
variable ficticia que distingue entre las dos situaciones o estructuras distintas que conviven
en el perodo muestral elegido en el modelo.
d. Empleo de variables no relativizadas.
De un modo similar al comentado en el caso (a), aquellas observaciones que

contengan un valor mayor de una variable explicativa concreta (sospechosa de ser la que
produce la heterocedasticidad) pueden originar valores del error diferentes.

Observadas las causas frecuentes de heterocedasticidad, es fcil deducir que

la varianza no constante de las perturbaciones aleatorias viene casi siempre inducida por
alguna variable, presente o no en el modelo, por lo que se podran distinguir dos
componentes en la varianza heterocedstica resultante del modelo: una cambiante,
proveniente de esa variable que induce el problema, y una constante, que sera la que se
dara si el modelo hubiera sido bien planteado. Matemticamente podramos escribir esto
del siguiente modo:
i2 = f ( 2 Z i ) (5.41)
donde 2 sera el parmetro fijo o parte fija de la varianza, y Z i sera la matriz de

variable o variables que est produciendo ese comportamiento no constante de la
varianza de las perturbaciones aleatorias. Esta funcin podra ser empleada precisamente
como el supuesto simplificador al que anteriormente se haca referencia para posibilitar
la estimacin mediante MCG sin encontrarnos con ms incgnitas que observaciones.
5.4.3 Efectos de la Heterocedasticidad
a. Incorrecta estimacin de parmetros.
Dado que la matriz de varianzas y covarianzas es no escalar, el

procedimiento correcto de estimacin debe incluir la determinacin de la matriz ; es
decir, lo apropiado sera emplear los estimadores MCG o de Aitken cuya expresin es:
MCG = ( X T 1 X ) ( X T 1Y )
1
(5.42)
Por supuesto, se ha demostrado que estos estimadores son lineales,

insesgados, ptimos y consistentes para la estimacin de una estructura no escalar de la
matriz de varianzas y covarianzas siempre y cuando la estimacin de la matriz sea
correcta. Esto, que pudiera parecer una perogrullada, debe llevarnos a una reflexin
importante si miramos por un momento el carcter ms aplicado de la cuestin.
Como ya se ha comentado, el elevado nmero de incgnitas a estimar

respecto al nmero de observaciones (datos) nos obliga a hacer un supuesto simplificador
sobre el comportamiento de la varianza heterocedstica.

Evidentemente, es muy probable que, como con todo supuesto simplificador,

al realizar la estimacin de la matriz bajo ste estemos sufriendo un cierto error o
sesgo, con lo que la eficiencia absoluta terica del estimador de Aitken frente al MCO en
presencia de heterocedasticidad quedara en entredicho.
b. Clculo incorrecto de varianzas y parmetros ineficientes.
En el caso de obviar la heterocedasticidad para la estimacin de los

parmetros; es decir, seguir empleando la expresin MCO, caben dos opciones:
Estimar tambin las varianza como si hubiera homocedasticidad en el

modelo.
Estimar los parmetros con MCO, pero calcular la verdadera varianza

que les correspondera a estos cuando la matriz de varianzas y covarianzas
de la perturbacin aleatoria es no escalar.
Sobre esta reflexin es interesante recordar el experimento realizado por

Goldfeldt y Quandt (1972) en el que pretendan juzgar la ganancia en eficiencia (menor
varianza) en los siguientes casos:
Estimacin de los parmetros con la expresin de MCG y clculo

correcto de sus varianzas correspodientes:
( )
MCG = ( X T 1 X ) ( X T 1Y ) y V MCG = 2 ( X T 1 X )
1 1
Estimacin de los parmetros con la expresin MCO y clculo de las

varianzas con la expresin que correspondera a un supuesto de
homocedasticidad:
( )
MCO = ( X T X ) X T Y y V MC 0 = 2 ( X T X )
1 1
Estimacin de los parmetros con la expresin MCO y clculo de las

varianzas con la expresin que correspondera a un supuesto de
heterocedasticidad:
( )
MCO = ( X T X ) X T Y y V MCG = 2 ( X T X ) ( X T 1 X )( X T X )
1 1 1

Sobre un experimento controlado de generacin de la varianza

heterocedstica se llegaba a las siguientes conclusiones:
1. La mayor varianza por empleo de MCO en vez de MCG en presencia de

heterocedasticidad puede producir un incremento de ms de 10 veces en
la varianza estimada del parmetro constante y valores hasta 4 veces
mayores en las varianzas de los parmetros que acompaan a variables
explicativas.
2. Calcular la varianza de los estimadores ignorando la heterocedasticidad

segn la expresin que correspondera a una matriz de varianzas-
covarianzas escalar, produce un sesgo por infravaloracin de la real del
orden del doble.
c. Invalidez de los contrastes de significancia.
Los contrastes que emplean para su clculo estimaciones de la varianza o de

su raz cuadrada (desviacin tpica), sufrirn un claro sesgo deducible de lo dicho
anteriormente:
Si se elude el problema de la heterocedasticidad y se siguen empleando

MCO, calculando errneamente la varianza que correspondera a estos en
el caso de que hubiera homocedasticidad 2 ( X T X ) , ya se ha
1
comentado que se estara infravalorando la varianza real, por lo que

contrastes de significatividad de los parmetros como la t-estadstica o la F
rechazaran la hiptesis nula con mayor frecuencia de la debida; es decir,
aceptaran la validez de determinadas variables para explicar la endgena
en casos en los que esto es falso ( t > t ) .
Si se emplearan MCO en la estimacin, calculando correctamente su

varianza en caso de heterocedasticidad 2 ( X T X ) (X 1 X )( X T X )
1 T 1
ya se ha comentado que estos parmetros arrojaran una importante

ineficiencia respecto al empleo de MCG, por lo que, al contrario que en el
caso anterior, se aceptara la hiptesis nula de los contrastes de
significatividad ms veces de las reales ( t < t ) .

En sntesis, en presencia de heterocedasticidad, ser insesgado pero

ineficiente, mientras que 2 ser sesgado (en general a la baja). No obstante, si la
heterocedasticidad no se debe a alguna variable X, la estimacin MCO ser
asintticamente correcta.
5.4.4 Deteccin de la Heterocedasticidad
a. Contrastes grficos.
Grfica del error a travs de las distintas observaciones del

modelo: Dado que las series econmicas presentan casi siempre una
tendencia definida (positiva o negativa), la simple grfica de error puede
servir para conocer intuitivamente si el mero transcurso del tiempo da lugar
a un incremento/decremento continuado del error, lo que sera significativo
de una relacin entre la evolucin de las variables del modelo y los valores
cada vez mayores o cada vez menores de ste.
En ambos, la mera evolucin del tiempo est correlacionada con valores

cada vez mayores (izquierda) del error o cada vez menores (derecha), con
lo que el clculo de la varianza por sub-perodos arrojara valores
significativamente diferentes; es decir la serie del error sera
heterocedstica.
Grfica del valor absoluto del error en funcin de una

explicativa sospechosa de producir la heterocedasticidad en el
modelo: Si se ordena de menor a mayor la variable sobre la que se
quiere investigar si produce o no heterocedasticidad y, con ella, los valores
absolutos del error estimado, el hecho de que la nube de puntos obtenida
en su grfica conjunta (la variable en el eje de abcisas y el error absoluto
en el eje de ordenadas) se pudiera aproximar correctamente con una
regresin lineal significara que el incremento de la variable explicativa da
lugar a un incremento de las perturbaciones aleatorias, luego sera causa
de heterocedasticidad en stas.

El coeficiente de correlacin por rangos de Spearman, explicado

posteriormente, podra resultar un sistema numrico de contrastar la misma
idea que subyace en la construccin de este grfico.
b. Contrastes paramtricos.
Varios de los contrastes que se desarrollan en este apartado tendrn un

mtodo para dirimir la significatividad de los valores obtenidos a partir de las tablas
estadsticas de las funciones de densidad conocidas segn la cual se distribuyen en cada
caso los ratios propuestos. Es por esta razn por la que se llaman "paramtricos".
En particular, los contrastes que se presentan parten de una estructura acorde

a la del Multiplicador de Lagrange. De forma muy intuitiva, sin querer hacer una
argumentacin estrictamente acadmica, diremos que en este tipo de contrastes se
propone siempre dos modelos, uno inicial y otro en el que se incorpora algn aadido en
la especificacin. A partir de un ratio sobre los errores de cada uno de estos modelos (o
alguna transformada de estos), se compara si el modelo ms completo aporta suficiente
explicacin adicional de la endgena como para compensar el coste de incorporar ms
variables.
Contraste de Breusch-Pagan: La idea del contraste es comprobar si

se puede encontrar un conjunto de variables Z que sirvan para explicar la
evolucin de la varianza de las perturbaciones aleatorias, estimada sta a
partir del cuadrado de los errores del modelo inicial sobre el que se
pretende comprobar si existe o no heterocedasticidad. El proceso a seguir
para llevar a cabo este contraste es el siguiente:
i) Estimar el modelo inicial, sobre el que se pretende saber si hay o no

heterocedasticidad, empleando MCO y determinando los errores:
T
MCO = ( X T X ) X T Y , i = Yi Yi 2 =
1
Y = X + ,
nk
ii) Calcular una serie con los errores del modelo anterior al cuadrado
estandarizados:

T 2
2 = %i2 = i 2 (5.43)
nk
Este valor al cuadrado nos elimina problemas de interpretacin sobre

la evolucin media del error en el tiempo debidos a la compensacin
de signos que se producira en cualquier clculo agregado. Por otra
parte, la estandarizacin elimina distorsiones debidas a las posibles
distintas dimensiones de los errores originales.
iii) Se estima una regresin del error calculado en el paso (ii) explicado
por una constante y el conjunto de las variables Z que se pretende
saber si producen o no heterocedasticidad en el modelo, obtenindose
la R 2 de este modelo y la varianza de la estimada:
%i2 = 0 + 1Z1i + 2 Z 2i + .... + p Z ip + vi R2% (5.44)
iv) En principio, dado que el modelo tiene trmino constante, se cumple la

regla general de las regresiones segn la cual la varianza de la
endgena real es igual a la suma de la varianza de la endgena
estimada ms la varianza del error obtenido en el modelo. Por ello, si
el modelo es "malo" la varianza de la endgena estimada ser
pequea (es lo mismo que decir que la varianza del error estimado es
grande o que el "modelo tiene mucho error").
En definitiva, y siguiendo el inters que aqu buscamos, si la varianza

de la endgena estimada en este segundo modelo es muy pequea,
estaremos afirmando que el poder explicativo del conjunto de variables
Z sobre la representacin de la varianza de las perturbaciones
aleatorias es escaso.
A partir de esta afirmacin, podramos generar un contraste calculado

con esta varianza, a sabiendas de que cuanto ms cerca de cero se
encuentre, ms probabilidades de homocedasticidad habr en el
modelo. El contraste propuesto es:
n R%2 : p2 1 (5.45)

Si el valor del ratio supera al valor de tablas, se rechaza la hiptesis

nula; es decir, se acepta que el conjunto de variables Z est
produciendo heterocedasticidad en el modelo original. En caso
contrario, se acepta la homocedasticidad.
El contraste de Breusch - Pagan efectivamente nos servir para aceptar

o descartar la presencia de heterocedasticidad debida a ese conjunto
de variables Z citado, pero su operatividad es limitada. Si el conjunto
de las variables Z contiene variables no incluidas en el modelo original,
parece difcil no haberlas tenido en cuenta antes para realizar una
buena especificacin y s tenerlas en cuenta ahora para la
contrastacin. Por otro lado, la lista de variables Z debe ser
necesariamente pequea para poder realizarse el contraste.
Contraste de Glesjer: De forma similar al caso anterior, Glesjer

propone descartar la variacin del error en funcin de una variable Z, que
ahora pueden estar elevadas a una potencia "h" que estara comprendida
entre -1 y 1. El modelo que se propone es:
i) Estimar el modelo inicial, sobre el que se pretende saber si hay o no

heterocedasticidad, empleando MCO y determinando los errores:
T
MCO = ( X T X ) X T Y , i = Yi Yi 2 =
1
Y = X + ,
nk
ii) Estimar cuatro regresiones para los valores absolutos del error del
modelo anterior en funcin de una variable elevada consecutivamente
a " h ", que para cada modelo tomara los valores -1, -0,5, 0,5 y 1:
i = 0 + 1Z h + ui (5.46)
Se escoger la regresin de las cuatro con parmetros significativos y

con mayor R 2 .

iii) Se entiende que, si el valor de esta R 2 es suficientemente grande, se

estar confirmando que existe heterocedasticidad producida por la
variable Z, ya que esta es capaz de explicar la evolucin de la
evolucin del error como estimada de la evolucin de las
perturbaciones aleatorias.
Contraste de White: En este contraste la idea subyacente es

determinar si las variables explicativas del modelo, sus cuadrados y todos
sus cruces posibles no repetidos sirven para determinar la evolucin del
error al cuadrado.
Es decir, si la evolucin de las variables explicativas y de sus varianzas y

covarianzas son significativas para determinar el valor de la varianza
muestral de los errores, entendida sta como una estimacin de las
varianzas de las perturbaciones aleatorias. El proceso a seguir para
realizar este contraste sera el siguiente:
i) Estimar el modelo original por MCO, determinando la serie de los

errores. Escrito esto en forma matricial para un modelo con n
observaciones y k variables explicativas:
T
MCO = ( X T X ) X T Y , i = Yi Yi 2 =
1
Y = X + ,
nk
ii) Estimar un modelo en el que la endgena sera los valores al cuadrado

de los errores obtenidos previamente (paso i) con todas las variables
explicativas del modelo inicial, sus cuadrados y sus combinaciones no
repetidas.
i2 = 0 + 1 X1i + .... + k X ki +

k +1 ( X 1i ) + .... + k + k ( X ki ) +
2 2

R (5.47)
2
k + k +1 ( X 1 X 2 ) + .... + k + k + k ( X 1 X k ) +
i i i i

3k +1 ( X 2i X 3i ) + .... + 4k 1 ( X 2i X ki ) + .... + i

El valor de la R2 de este segundo modelo (paso ii) nos dir si las

variables elegidas sirven o no para estimar la evolucin variante del
error al cuadrado, representativo de la varianza estimada de las
perturbaciones aleatorias.
Evidentemente, si la varianza de stas fuera constante

(homocedasticidad), el carcter no constante de las variables
explicativas implicadas en el modelo no servira para explicar la
endgena, luego la R2 debiera ser muy pequea.
En principio, la R2 , como proporcin de la varianza de la endgena

real que queda explicada por la estimada, debiera ser muy pequea si
la capacidad explicativa de los regresores considerados tambin es
muy pequea, siendo estos regresores, por su construccin,
representativos de varianzas y covarianzas de todas las explicativas
del modelo original.
Dicho esto, evidentemente un valor de la R2 suficientemente pequeo

servir para concluir que no existe heterocedasticidad en el modelo
producida por los valores de las explicativas consideradas en el
modelo inicial.
Para encontrar el valor crtico en esa consideracin de suficientemente

pequeo se emplea la expresin deducida por Breusch y Pagan como
producto del coeficiente R 2 por el nmero de datos del modelo, que
se distribuira del siguiente modo:
n R2 : p2 1 (5.48)
En definitiva, si obtenemos un valor del producto n R2 mayor que el

reflejado por las tablas de 2p 1 , afirmaremos que existe
heterocedasticidad, y viceversa.

Otro modo de contrastar la existencia de heterocedasticidad en el

modelo a partir de la validez o no de los parmetros incluidos en la
regresin propuesta por White vendra dado por el valor del contraste
de significacin conjunta F.
Si dicho contraste afirmara que, en conjunto, las variables explicitadas

tienen capacidad explicativa sobre la endgena, estaramos afirmando
la presencia de heterocedasticidad en el modelo.
Contraste de Spearman: La filosofa de este contraste reside en que

la variable sospechosa de producir heterocedasticidad debera provocar un
crecimiento del residuo estimado al mismo ritmo que ella va creciendo. Por
ello, si ordenramos de menor a mayor tanto la variable sospechosa, por
ejemplo X ij , como el valor absoluto del residuo, i , el cambio de puesto
en ambas, y para cada una de las observaciones, debiera ser del mismo
nmero de puestos respecto al orden original de las series.
En la medida en la que este cambio de puesto respecto al original no sea el

mismo para las dos (una vez ordenadas) se podra hablar de movimientos
no correlacionados.
Dado que la correlacin se mide entre uno y menos uno, Spearman

propone determinar un grado de correlacin en ese cambio de puesto
respecto al inicial de cada una de las variables a partir de la diferencia
entre el nuevo puesto y el inicial:
n
6 di2
rs = 1 i =1
(5.49)
n ( n 2 1)
En esta expresin, una coincidencia mxima (todas las distancias son igual
a cero), dara lugar a una correlacin de Spearman igual a uno; mientras
que una distancia mxima, provocara un valor cero de dicho coeficiente de
correlacin.

Para valorar la significatividad o no de esta correlacin, se conoce la

funcin de distribucin del siguiente ratio bajo la hiptesis nula de no
significatividad, demostrado por el autor:
rs n 2
: tn 2 (5.50)
1 rs2
Con ello, si el resultado del ratio es superior al valor de tablas podremos

afirmar que la correlacin es significativa o, de cara a nuestro inters en
este caso, que hay indicios de heterocedasticidad en el modelo provocada
por la variable X ij .
5.4.5 Correccin de la Heterocedasticidad
Como hemos venido viendo repetidas veces a lo largo del tema, la

heterocedasticidad viene producida por la dependencia de la varianza de las
perturbaciones aleatorias de una o ms variables que, a su vez, pueden estar presentes en
el modelo o no.
Los distintos mtodos de detectar este problema servan para probar, en el

caso en el que sta realmente se diese, la dependencia de la varianza de la perturbacin
aleatoria de un conjunto de variables, a partir de lo que hemos llamado un supuesto
simplificador:
i2 = f ( 2 Z i ) (5.51)
Por lgica, el modo de subsanar el problema detectado ser operar

convenientemente la variables del modelo precisamente eliminando la fuente de
heterocedasticidad que habremos podido definir cuando detectamos la misma.
Como veremos a continuacin, si el conjunto total de las variables del modelo

(endgena incluida) es dividido por la forma estimada de esta funcin de la raz de la
varianza heterocedstica (una vez algn mtodo de deteccin nos haya confirmado que
efectivamente el comportamiento de esta varianza se puede seguir convenientemente con
dicha funcin) estaremos corrigiendo el modelo.

Para comprobar esto, podemos volver a la forma matricial de varianzas

covarianzas no escalar:
12 0 0 .... 0

0 22 0 .... 0
V ( ) = = 2 (5.52)
.... ....
2
0 0 0 .... n
En esta matriz, si dividimos por la raz de i2 = f ( 2 Z i ) , obtendremos una

diagonal principal de unos; es decir, volveramos al caso de una matriz de varianzas y
covarianzas escalar tal y como la que se supone en el modelo bsico de regresin lineal.
Formalmente, para probar esto seguimos los siguientes pasos. Dado que la
matriz es una matriz semidefinida positiva (todos los elementos de su diagonal principal
son necesariamente positivos), siempre podremos descomponerla en dos matrices de la
forma:
= PPT 1 = ( P 1 )( P 1 )
T
(5.53)
Volviendo a la matriz de varianzas y covarianzas no escalar, y uniendo esto a

la funcin que hemos comprobado sirve para definir esta varianza no constante
i2 = f ( 2 Z i ) , es fcil llegar a que la descomposicin = PPT 1 = ( P 1 )( P 1 )
T
es:
1 0 0 .... 0 1 0 0 .... 0

0 2 0 .... 0 0 2 0 .... 0
= 2 PPT (5.54)
.... .... .... ....

0 0 0 .... n 0 0 0 .... n
Si multiplicamos cada variable del modelo por esta matriz O, tal y como se ha
sugerido, obtenemos unas nuevas variables del siguiente tipo:
P 1Y = P 1 X + P 1 Y * = X * + * (5.55)
donde:

(
V ( * ) = E ( * *T ) = E ( P 1 ) * *T ( P 1 )
T
) = (P 1
)( P ) E ( )
1 T * *T
(5.56)
V ( * ) = 1E ( * *T ) = 1 2 = 2 I n (5.57)
Luego, podemos afirmar que el modelo transformado (aquel por el que se han
dividido todas las variables por la desviacin tpica estimada de las perturbaciones
aleatorias) soporta una matriz de varianzas covarianzas de las perturbaciones aleatorias
escalar, con lo que se puede estimar con toda garanta por MCO.
En sntesis, los pasos para corregir la heterocedasticidad son los siguientes:
a) Se estiman los parmetros del modelo por MCO, ignorando por el

momento el problema de la heterocedasticidad de las perturbaciones
aleatorias
b) Se establece un supuesto acerca de la formacin de i2 y se emplean los

residuos de la regresin por MCO para estimar la forma funcional
supuesta.
c) Se divide cada observacin por i2 segn el paso anterior (segn el

valor de esa heterocedasticidad supuesta estimada, siempre y cuando un
contraste nos haya confirmado que el modelo simplificador es bueno).
d) Se estima el modelo original ahora con todas las variables transformadas

segn el paso (c).

5.5 Autocorrelacin
5.5.1 Definicin de Autocorrelacin
Usando datos de series temporales es un problema comn la presencia de

autocorrelacin o correlacin serial de las perturbaciones. Sin embargo, con datos de
seccin cruzada o de panel, es ms habitual encontrar un problema de heterocedasticidad.
En ese caso, la matriz de varianzas y covarianzas de las perturbaciones se representara
del siguiente modo:
1 2 .... n 1

2 1 .... n 2
V ( ) = = 2 (5.58)
1 2 .... ....
n 1
n 2 n 3 .... 1
Supongamos que se ha estimado un modelo por MCO y representamos

grficamente los residuos resultantes:
Figura 5.4
Perturbaciones Autocorrelacionadas
1
0,5
0
0 5 10 15 20 25 30 35 40 45
-0,5
-1
-1,5
Observaciones

El patrn de estos residuos nos muestra que el conocimiento del signo de un

residuo es un buen indicador del signo del residuo en el perodo siguiente y esto es
autocorrelacin. Luego, si se pueden predecir los errores cometidos por un modelo, se
puede por lo tanto mejorar el modelo al pronosticar dichos errores.
5.5.2 Causas de la Autocorrelacin
a) Una explicacin al problema de autocorrelacin son los factores omitidos

en la regresin que estn correlacionados a travs del tiempo. El anlisis
univariante de series temporales nos sugiere que las variables econmicas
siguen distintas estructuras de autocorrelacin.
b) Otra causa comn de la autocorrelacin es la existencia de tendencias y

ciclos en los datos. Es decir, la mayora de las variables econmicas no
son estacionarias en media. Esto significa que si la variable endgena del
modelo tiene una tendencia creciente o presenta un comportamiento
cclico que no es explicado por las exgenas, el trmino de error recoger
ese ciclo o tendencia.
c) Si se omite una variable explicativa no estacionaria en media, esto

tambin provocar autocorrelacin en el trmino de error. Por ejemplo, si
el modelo correcto es:
Y t = X1t 1 + X 2t 2 + t (5.59)
y se trabaja con el modelo Y t = X1t 1 + u t donde u t = X 2t 2 + t ,

entonces presentar autocorrelacin aunque t sea un proceso de ruido
blanco. Sabemos adems que la omisin de variables relevantes provoca
sesgos en el estimador MCO.
d) Otra fuente de autocorrelacin es especificar una relacin lineal entre las

variables cuando la verdadera relacin es no lineal. En este caso, lo
habitual es tener una racha de residuos positivos (o negativos) seguida de
otra racha de residuos negativos (o positivos) y as sucesivamente. Aqu la
causa del problema en los residuos es un error de especificacin en la
forma funcional.

e) Por ltimo, la autocorrelacin puede provenir del hecho de que la relacin

entre las variables econmicas es dinmica y no esttica. Por ejemplo,
trabajamos con el modelo:
Y t = 0 + X t 1 + u t (5.60)
cuando la verdadera relacin es Y t = 0 + X t 1 + Y t 1 2 + et . Por tanto,

u t = Y t 1 2 + et , pero Y t 1 es una funcin de u t 1 y por ello, u t ser una
funcin de u t 1 .
5.5.3 Efectos de la Autocorrelacin
La consecuencia ms grave de la autocorrelacin de las perturbaciones es

que la estimacin MCO deja de ser eficiente y la inferencia estadstica tambin se ver
afectada. Con datos de series temporales, suponer que las perturbaciones son
homocedsticas pero estn correlacionadas equivale a escribir su matriz de covarianzas
como:
V ( ) = 2 (5.61)
donde es una matriz definida positiva y simtrica, pero no diagonal. El estimador MCO
de los parmetros puede escribirse como:
= + ( X T X ) X T
1
(5.62)
Si la E ( ) = 0 y los regresores no estn correlacionados con las

perturbaciones, sigue siendo un estimador insesgado, ya que E = . ( )
Con respecto a la eficiencia del estimador, ahora E( ) se tiene que:
( )
V = E (( )( )
T
) = E (( X X )
T 1
X T T X ( XX )
1
) (5.63)
( )
V = 2 ( X T X ) ( X T X ) ( X T X )

1 1 1

(5.64)
y si : N ( 0; 2 ) entonces:

(
: N ; 2 ( X T X ) ( X T X ) ( X T X )

1 1 1
) (5.65)
Puesto que la matriz de covarianzas del estimador MCO no es 2 ( X T X ) ,

1
cualquier inferencia basada en el estimador ser errnea. Adems, no slo es incorrecta la

2 ( X T X )
1
expresin de la matriz de covarianzas, sino que el estimador habitual de 2
ser ahora sesgado.
5.5.4 Deteccin de la Autocorrelacin
Existen distintos procedimientos de deteccin de la autocorrelacin.

Bsicamente son instrumentos estadsticos y grficos.
Contraste de Durbin-Watson: En la prctica, no se sabe a priori si

existe autocorrelacin y cal puede ser el proceso ms adecuado para
modelizarla.
Existen varios contrastes de autocorrelacin que se construyen usando los

residuos MCO del modelo original. El ms antiguo y conocido es el
estadstico de Durbin y Watson (1950, 1951) para detectar la presencia
de un AR(1).
La hiptesis nula es que en el modelo t = t 1 + vt , se cumple = 0 ,

donde adems vt es ruido blanco. El estadstico de contraste es:
( t 1 )
n 2
( )
t
DW = t =2
2 1 (5.66)
( )
n
2
t
t =1
Esta ltima aproximacin es buena si n es suficientemente grande. El

parmetro es el estimador MCO de en la siguiente regresin:
t = t 1 + vt (5.67)
donde t es el residuo resultante de la estimacin MCO del modelo

original, ignorando la presencia de autocorrelacin.

La solucin MCO es:
( )
n
t t 1
= t =2
(5.68)
( )
n
2
t 1
t =2
El rango de valores que puede tomar el estadstico DW es el siguiente:
o DW = 2 si = 0 .
o DW ( 2, 4 ) si 1 < < 0 .
o DW ( 0, 2 ) si 0 < < 1 .
La distribucin del estadstico DW bajo la hiptesis nula no es conocida. De

hecho, el DW depende de los residuos MCO, MCO = M , y la matriz M
depende de la matriz X , luego la distribucin del estadstico depende de la
matriz de datos y los valores crticos del contraste sern diferentes para
cada posible matriz X.
Durbin y Watson tabularon los valores mximo ( d max ) y mnimo ( d min ) que
pueden tomar dichos valores crticos cuando la H1 : > 0 , los regresores
son fijos y existe trmino constante en el modelo.
Con este estadstico:
o Si H 0 : = 0 frente a H1 : > 0
i) se rechaza H 0 si DW < d min
ii) no se rechaza H 0 si DW > d max
iii) se cae en zona de incertidumbre si d min < DW < d max

o Si la hiptesis a contrastar es H 0 : = 0 frente a H1 : < 0 , puesto

que el estadstico toma valores comprendidos entre 2 y 4, los
valores tabulados d min y d max se comparan con ( 4 DW ) en
lugar de DW.
Este contraste se puede considerar como un contraste de mala

especificacin del modelo. La omisin de variables relevantes, una forma
funcional no apropiada, cambios estructurales no tenidos en cuenta, etc.,
pueden llevar a un valor del estadstico significativo.
Con este estadstico no se puede concluir nada si se cae en una zona de

indeterminacin y tampoco sirve si en el modelo aparecen regresores
estocsticos (como, por ejemplo, algn retardo de la endgena). En este
ltimo caso, el valor del estadstico DW est sesgado hacia el 2, por lo que
se tendera a no rechazar la hiptesis nula de no autocorrelacin.
Finalmente, si la estructura de autocorrelacin existente en los residuos es
de tipo estacional, el contraste de Durbin - Watson, en general, no detecta
este tipo de autocorrelacin.
Si la estructura de autocorrelacin existente es de orden 2 o superior, en

general, el valor del DW nos llevar a rechazar la nula, pero tambin a
trabajar con una estructura de autocorrelacin de orden 1.
Una alternativa propuesta por DW, cuando Y t = 0 + Y t 1 1 + X t 2 + u t ,

corresponde a la siguiente:
n 1
h = : N ( 0;1) (5.69)
( )
1 ( n 1) V 1
donde 1 es el estimador del coeficiente asociado a la variable endgena

rezagada y n es el tamao muestral. Luego, si el valor estimado de h es
mayor al tabulado para un determinado nivel de confiabilidad, no se
rechaza la hiptesis de ausencia de autocorrelacin, es decir, es altamente
probable que exista autocorrelacin.

Contraste de Breusch y Godfrey: Un procedimiento alternativo de

deteccin es el contraste de Breusch y Godfrey donde en la hiptesis nula
se tiene ausencia de autocorrelacin, pero en la hiptesis alternativa se
presenta H1 : t > AR ( p ) H1 : t > MA ( q ) .
Operacionalmente, el test puede llevarse a cabo regresando los residuos

MCO t , sobre las X t , t 1 ,...., t p y comparando n R 2 con 2p . Dado
que X T = 0 , el contraste es equivalente a regresionar t sobre la parte
de los residuos no explicada por las X t .
Si se encuentra algn ajuste, ste es debido a la correlacin entre los

residuos presentes y los residuos retardados.
Este estadstico es muy sencillo de calcular y resuelve los problemas del

contraste de Durbin-Watson.
Contraste de Box y Pierce: Otro estadstico es la Q de Box-Pierce

L
definido como Q = n rj2 donde:
j =1
( )t t j
rj = t
(5.70)
( )
t
t
2
Los valores resultantes se comparan con una distribucin L2 . La principal

diferencia entre el test de Breusch-Godfrey y el de Box-Pierce es el uso de
correlaciones parciales entre los residuos en el primero y el de
correlaciones simples en el segundo. Bajo la hiptesis nula de ausencia de
autocorrelacin, ambos contrastes son asintticamente equivalentes.

Contrastes grficos: La autocorrelacin residual puede detectarse

mediante instrumentos grficos, como por ejemplo, el grfico estandarizado
de los residuos MCO resultantes de la estimacin del modelo original, la
funcin de autocorrelacin simple y la funcin de autocorrelacin parcial. El
uso de estas funciones permite no slo detectar la presencia de
autocorrelacin en los residuos, sino tambin identificar la estructura
concreta que siguen los mismos (de tipo AR, MA o ARMA).
5.5.5 Estimacin bajo Autocorrelacin
Para describir los procedimientos de estimacin ms habituales trabajaremos

con un modelo concreto y un esquema de autocorrelacin de tipo AR(1). Como ejemplo,
supongamos que:
Y t = 0 + X t 1 + t (5.71)
t = t 1 + u t (5.72)
donde u t es un proceso de ruido blanco. El modelo transformado donde el trmino de

error no presenta autocorrelacin es el siguiente:
Y t Y t 1 = 0 (1 ) + ( X t X t 1 ) 1 + u t (5.73)
1424 3 1424 3 14 4244 3
Y% t %0 X% t
Y% t = %0 + X% t 1 + u t (5.74)
Los procedimientos para estimar 0 , 1 y son los siguientes:
Procedimiento iterativo de Cochrane-Orcutt: Las etapas de este

mtodo son las siguientes:
o Aplicar MCO al modelo original (5.71) ignorando la presencia de

autocorrelacin y recuperar los residuos. A partir de ellos, obtener
una estimacin preliminar de como:

( )
n
t t 1
= t =2
(5.75)
( )
n
2
t 1
t =2
o Con la estimacin de la etapa anterior se calculan las variables

transformadas:
Y% t = Y t Y t 1 , X% t = X t X t 1 (5.76)
o Luego se estima por MCO el modelo (5.74) y se recupera la

estimacin del trmino constante 0 , a travs de la relacin
0 0 ( )
% = 1 . Con las estimaciones , se vuelve al modelo
0 1
original (5.71) y se recuperan los nuevos residuos y una nueva

estimacin de , usando de nuevo (5.75).
o Se repite la segunda etapa hasta alcanzar la convergencia. Un

criterio de convergencia puede ser parar cuando se cumple que:
t t 1
< (5.77)
t
Procedimiento iterativo de Hildreth-Hu: Este mtodo calcula el

estadstico de Durbin - Watson del modelo original y obtiene una estimacin
inicial t .
A partir de esta estimacin, se construye una malla de valores

1 , 2 ,..., t ,...., n y se realizan tantas regresiones en el modelo
transformado como valores tenga la malla. A continuacin, se selecciona la
regresin que genere la menor suma residual que se habr obtenido con un
valor m .
A partir de este valor, se vuelve a construir una malla ms fina de valores y

se vuelve a repetir el proceso hasta alcanzar convergencia.

Mtodo de diferencias: la idea es tratar el problema no lineal

directamente planteando como funcin objetivo:
min (tt2 ) = Y t Y t 1 0 (1 ) ( X t X t 1 ) 1
n n 2
(5.78)
t =2 t =2
para obtener simultneamente una estimacin de 0 , 1 y . Una solucin

vlida slo cuando = 1 , es eliminar la autocorrelacin tomando primeras
diferencias a las variables. Es decir, si t no sigue un proceso AR(1) sino un
camino aleatorio, de forma que t = ut y ut es ruido blanco, el modelo
transformado adecuado sera:
Y t = X t 1 + u t (5.79)
donde ha desaparecido el trmino constante del modelo original. Por esta

razn, trabajar con variables temporales estacionarias en media, en muchas
ocasiones resuelve el problema de correlacin serial de los residuos.
5.6 Asimetra, Curtosis y Normalidad
5.6.1 Asimetra
Si una distribucin es simtrica, el sesgo vale cero. Cuanto mayor es el valor

absoluto del estadstico de asimetra, ms sesgada es la distribucin. Un valor positivo
grande indica que la cola de la derecha de la distribucin es larga, y un valor negativo
grande indica una cola izquierda larga. La asimetra o sesgo poblacional se define
como:
E (Y Y )
3
A= (5.80)
3
donde = E (Y Y ) e Y = E (Y ) . A partir de la muestra, la asimetra se estima de la

2
siguiente manera:
(Y Y )
N
1 3
i
N
A = i =1
(5.81)
3

N N
(Y Y )
1 1
Y .
2
donde = i eY = i
N i =1 N i =1
6
La distribucin de este estimador es A : N 0; , por lo que es factible
N
construir el siguiente contraste:
A
: N ( 0;1) (5.82)
6 N
5.6.2 Curtosis
Es una variable aleatoria que mide el espesor de las colas de la curva de

distribucin, en relacin con la distribucin normal. La curtosis de una variable aleatoria
normal es 3. Si la curtosis es mayor que 3, significa que las colas de la distribucin son
gordas; cuando ello ocurre, se dice que la distribucin es leptocrtica, e indica que la
distribucin tiene mayor masa de probabilidad en los extremos que la distribucin normal.
La distribucin es mesocrtica, se corresponde a una normal, y platocrtica si las colas
son flacas. La curtosis poblacional se define como:
E (Y Y )
4
K= (5.83)
4
A partir de la muestra, la curtosis se estima de la siguiente manera:
(Y Y )
N
1 4
i
N
K = i =1
(5.84)
4
N N
(Yi Y ) e Y =
1 1
Y .
2
donde = i
N i =1 N i =1
24
La distribucin de este estimador es K : N 3; , por lo que es factible
N
construir el siguiente contraste:

K 3
: N ( 0;1) (5.85)
24 N
5.6.3 Estadstico Jarque-Bera de Normalidad
Combina informacin sobre asimetra y curtosis para producir una prueba ms

general de normalidad:
N k 2 1
( )
2
JB = A + K 3 : ( 2) (5.86)
2
6 4
De acuerdo a la hiptesis nula, que las observaciones son independientes y

normalmente distribuidas, el estadstico JB sigue una distribucin 2 con 2 grados de
libertad (en muestras grandes).
5.7 Contrastes de Datos Atpicos
La hiptesis nula en este caso ser que todos los datos provienen de la misma
funcin de distribucin multivariante.
Consideremos que existe una observacin sospechosa de ser atpica xi . La

hiptesis nula ser H 0 : E ( xi ) = , mientras que la alternativa ser H1 : E ( xi ) .
Bajo H1 , como la estimacin de i es xi , la estimacin de la varianza ser:
1
Vi = Wi (5.87)
n 1
donde:
( x xi )( x j xi )
n T
Wi = (5.88)
j =1 ( j i )
j

es la estimacin de la suma de los cuadrados de los residuos, y xi es la media de las

observaciones, en ambos casos eliminando la observacin xi .
El contraste finalmente es el siguiente:

(x xi ) Vi 1 ( x j xi ) : 2p
T
j (5.89)
Lo anterior implica que si la observacin xi est muy lejos de la media de las

observaciones xi , que no consideran xi , se rechaza la hiptesis nula de que la esperanza
de xi es igual a la media de los datos. En tal caso, xi s es una observacin atpica que
puede ser eliminada del proceso de estimacin.
El problema de este mtodo se da cuando existe ms de una observacin

atpica, lo que genera una potencia muy baja del contraste. Un alternativa en tal caso
puede ser identificar a priori las observaciones sospechosas, e ir incorporando de a una
segn el contraste (5.89). Evidentemente, se comenzar por aquella observacin que
presente el menor valor calculado de ( x j xi ) Vi 1 ( x j xi ) , y as sucesivamente.
T

6 EXTRAPOLACIN Y SUAVIZAMIENTO
Un modelo de series de tiempo es un mtodo complejo de extrapolacin de

datos. Sin embargo, en determinadas ocasiones, debido a urgencias o poca disponibilidad
de recursos, es factible utilizar mtodos menos complejos. Estos son los denominados
modelos deterministas.
En estos modelos no se hace referencia a la naturaleza aleatoria o estocstica

de la serie. Proporcionan por lo tanto una alternativa simple, econmica y en algunos
casos aceptable de pronstico.
6.1 Extrapolacin de Series de Tiempo
6.1.1 Modelos de Extrapolacin Simple
El modelo de extrapolacin ms simple es el modelo de tendencia lineal:
Yt = a1 + a2 t (6.1)
donde t es el tiempo y ( a1 , a2 ) son parmetros de calibracin. El pronstico para el

perodo t + l es Y = a + a ( t + l ) .
t +l 1 2
Una segunda alternativa corresponde a una de crecimiento exponencial:
Yt = c e rt (6.2)
donde ( c, r ) son parmetros de calibracin. El pronstico para el perodo t + l es

Yt +l = c e r ( t +l ) . Los parmetros en este caso pueden estimarse aplicando logaritmos
naturales a la expresin (6.2): ln Y = ln c + rt Y% = c% + rt .
t t
Un tercer mtodo de extrapolacin es el de tendencia autoregresiva y su

variacin logartmica:
Yt = a1 + a2Yt 1 (6.3)
ln Yt = b1 + b2 ln Yt 1 (6.4)

Una cuarta alternativa corresponde al modelo con tendencia cuadrtica:
Yt = a1 + a2t + a3t 2 (6.5)
Modelos un poco ms complejos corresponden a aquellos que presentan

curvas logsticas:
1
Yt = (6.6)
c + abt
donde ( a, b, c ) son parmetros de calibracin. Al ser un modelo no lineal, debe estimarse

con mtodos no lineales.
Una curva logstica alternativa ms simple de estimar es la siguiente:
Yt = e 1 ( 2
c c t)
(6.7)
La estimacin en este ltimo caso se obtiene aplicando logaritmos de tal forma

de obtener ln Yt = c1 2 Y%t = c1 c2t% .
c
t
6.1.2 Modelos de Promedio Mvil
Este modelo es til cuando creemos que los valores probables a futuro son
promedios de sus valores anteriores. A menudo es razonable suponer que los valores ms
recientes de la serie tienen un mayor impacto que los valores anteriores.
Yt = (1 ) Yt i
i
(6.8)
i =0
En este caso se debe cumplir que 0 < 1 . Si = 1 el pronstico se vuelve

YT +1 = YT , y nos olvidamos de los valores anteriores. A medida que tome un menor valor,
consideramos en mayor medida el impacto de valores anteriores. Debe notarse que

(1 ) = = 1 , por lo que las ponderaciones suman uno.
i
i =0 1 (1 )
Es importante notar que si la serie tiene una tendencia creciente, el modelo

(6.8) subpredecir los valores (y viceversa). Esto recomienda eliminar la tendencia antes
de ajustar el modelo.

6.2 Suavizamiento de Series de Tiempo
Estas tcnicas proporcionan un medio para reducir las fluctuaciones voltiles

de las series de tiempo en el corto plazo. Una de las tcnicas ms simples de
suavizamiento corresponde a considerar el promedio mvil de perodo n:
1 n1
Y%t = Yt i (6.9)
n i=0
Entre mayor sea n, ms suave ser Y%t .
El suavizamiento exponencial corresponde a un promedio mvil ponderado

exponencialmente para el suavizamiento:
n 1
Y%t = (1 ) Yt i
i
(6.10)
i =0
n 1
Si escribimos (1 ) Y%t 1 = (1 ) Yt i , y restamos esta expresin de la
i
i =1
ecuacin (6.10), se obtiene la siguiente frmula recurrente:
Y%t = Yt + (1 ) Y%t 1 (6.11)
Notar que mientras ms cerca est de 1, mayor peso tiene la ponderacin

actual de Yt al generar Y%t ; valores pequeos de , implican en cambio una serie ms
suavizada.

6.3 Estimacin y Pronstico de Modelos de Tendencia
Para ajustar los diversos modelos de tendencia de datos a una serie temporal,
se usa la tcnica de MCO:
T
= argmin (Yt Tt ( ) )
2
(6.12)
t =1
donde es el conjunto de parmetros a calibrar en el modelo y Tt ( ) es la tendencia

que presenta la serie.
El pronstico de la serie, por su parte, se obtiene directamente del modelo

calibrado:
( )
YT +l = TT +l (6.13)
Es interesante notar que la estimacin correcta de MCO requiere que la

media del error de pronstico sea cero.
El intervalo de confianza del pronstico es en este caso, para un 95% de

confiabilidad, el siguiente:
YT +l 1,96 2 (6.14)
donde 2 es la estimacin de la desviacin estndar de la perturbacin de la tendencia.

Luego, la densidad pronosticada es YT +l : N (YT +l ; 2 ) .

7 SERIES DE TIEMPO
Una serie de tiempo es una secuencia de observaciones o datos numricos

ordenadas y equidistantes cronolgicamente sobre una caracterstica de una
unidad observable en diferentes perodos. La caracterstica especfica de una serie
temporal es, por lo tanto, que las observaciones estn ordenadas en el tiempo.
Hay casos en los que la variable observada tiene un patrn de

comportamiento fijo; en trminos estadsticos estamos ante una serie determinista. Por el
contrario, hay otras series que resultan impredecibles. Su pauta de comportamiento no
responde a un patrn fijo, por lo que son puramente aleatorias. Un ejemplo tpico es la
sucesin de nmeros premiados en un sorteo de loteras. En general, las series econmicas
contienen una componente determinista y una componente aleatoria.
La muestra est definida en este caso por un tamao o longitud de N

componentes consecutivos de Yt .
7.1 Procesos Estocsticos
Un proceso estocstico es un conjunto de variables aleatorias

correspondientes a distintos instantes de tiempo. Consecuentemente, una serie temporal
puede considerarse como una realizacin muestral de las n variables aleatorias que
forman su proceso estocstico generador. Es decir, la serie se forma a partir de un proceso
estocstico.
La estructura probabilstica de un proceso estocstico queda completamente

definida por la distribucin conjunta de las variables del mismo (por ejemplo una normal
multivariada f (Y1 , Y2 ,...., YN ) ). Evidentemente, para caracterizar empricamente esta
distribucin conjunta, es necesario observar un cierto nmero de realizaciones del proceso.
Este proceso de observacin repetida no siempre es posible, por lo que suelen
utilizarse hiptesis simplificatorias del proceso estocstico:
Linealidad
Estacionariedad
Normalidad (Gaussiano)

El trmino gaussiano quiere decir que la distribucin conjunta de las variables

que forman el proceso estocstico es una normal multivariante, que puede ser
caracterizada por sus correspondientes vectores de medias y matrices de varianzas-
covarianzas (primeros y segundos momentos).
La caracterizacin de un proceso estocstico lineal gaussiano n-variante

definido en estos trminos an requiere conocer o estimar el valor de n medias, n varianzas
n ( n 1)
y covarianzas, por lo que en la mayor parte de los casos prcticos es necesario
2
recurrir a un supuesto simplificatorio adicional: el de estacionariedad.
7.2 Estacionariedad
7.2.1 Estacionariedad Estricta
Se dice que un proceso estocstico es estrictamente estacionario si la

distribucin conjunta de las variables que lo forman es funcin nicamente de los intervalos
temporales que las separan. As, el proceso Yt es estrictamente estacionario para todo t si
la funcin de distribucin conjunta de (Yi , Yi + k ) es la misma que la de (Y j , Y j + k ) . Luego,
todos los momentos de la funcin de densidad de la variable (de cualquier
orden) son constantes en el tiempo.
7.2.2 Estacionariedad Dbil
Un proceso es dbilmente estacionario si su media es constante e

independiente del tiempo, su varianza es finita y constante, y el valor de la covarianza
entre dos periodos no depende del tiempo en el cual se ha calculado, sino de la distancia
o desfase entre aquellos.
Luego, en una serie estacionaria se cumple:
E (Yt ) = (7.1)
V (Yt ) = 2 = 0 (7.2)
cov (Yt , Yt + k ) = k , k (7.3)

cov (Yt , Yt + k ) k k
k = = = , k (7.4)
V ( Yt ) V ( Yt + k ) 0 0 0
Los modelos de prediccin de series temporales estn diseados para

procesos estacionarios. Si las caractersticas del proceso cambian a lo largo del tiempo,
resultar difcil representar la serie para intervalos de tiempo pasados y futuros mediante
un modelo lineal sencillo.
Sin embargo, por regla general, las series econmicas no son series que
proceden de procesos estacionarios, sino que suelen tener una tendencia creciente o
decreciente, y variabilidad no constante.
Esta limitacin no es tan importante porque, en la prctica, se pueden

transformar las series no estacionarias en otras que s lo son.
Un tipo de proceso estacionario particular es el denominado ruido blanco,

formado por una sucesin de variables aleatorias con distribucin normal,
esperanza cero, varianza constante e incorrelacionadas entre s. La variable
aleatoria t es ruido blanco para cualquier t si t : N ( 0, 2 ) y adems
cov ( t , t + k ) = 0, k 0 .
Luego, en un proceso ruido blanco se cumple k = 0 y k = 0, k 1 . El

inters de este de proceso radica en que, si slo se cuenta con informacin muestral
acerca de su propio pasado, no puede realizarse ninguna previsin mejor que su
esperanza incondicional.
Por lo tanto, los procesos de ruido blanco de esperanza nula resultan tiles
para caracterizar las propiedades ideales del trmino de error de un modelo estocstico
dinmico.

7.2.3 Funcin de Autocorrelacin Simple (FAS)
En la prctica se dispone de una muestra de un proceso estocstico,

Y1 , Y2 ,...., YN , . Se pueden obtener los coeficientes de autocorrelacin y, a partir de ellos, la
funcin de autocorrelacin:
1 n
= Yt
n t =1
(7.5)
1 n
0 =
n 1 t =1
(Yt )2 (7.6)
n k
(Y )(Y
t t +k )
k = t =1
(7.7)
nk
k
k = , k (7.8)
0
La expresin k corresponde entonces a la funcin de autocorrelacin.
Como medida de precisin de se tiene que:
0 n 1
k
V ( ) = 1 + 2 1 k (7.9)
n k =1 n
Si el tamao de la muestra es grande con respecto a k, dividir por n o por n-k

es prcticamente lo mismo, as como el clculo de la media con n o con n-k observaciones:
n k
(Y )(Y t +k ) n k
(Y )(Y
t
t =1 )
nk
t t +k
k = k = t =1
(7.10)
0 1 N n
(Yt ) (Y )
2 2
n 1 t =1 t
t =1
1 k 1

V ( k ) ;
n
1 + 2i =1
i2

(7.11)
La expresin (7.11) corresponde a la varianza aproximada bajo la hiptesis

de normalidad del proceso generador de datos.

Las ecuaciones definidas por (7.10) se conocen como ecuaciones de Yule-

Walker. En trminos matriciales, las ecuaciones de Y-W se pueden escribir de la siguiente
forma:
1 1 1 .... k 1 1

2= 1 1 k 2 2
(7.12)
.... .... O .... ....

k k 1 k 2 .... 1 k
La expresin (7.12) puede usarse para realizar estimaciones preliminares de

los parmetros k en un modelo autorregresivo, reemplazando los valores de k por sus
estimaciones k .
El estadstico Q de Box-Ljung permite contrastar la significancia conjunta de los

coeficientes de autocorrelacin muestral. Se define como:
k2
m
Q ( m) = n ( n + 2) : m2 p q (7.13)
k =1 n k
siendo m un nmero arbitrario utilizado en el clculo.
Bajo la hiptesis nula de que la muestra haya sido generada por un proceso
de ruido blanco, este estadstico se distribuye aproximadamente como una m2 p q .
El valor de m suele fijarse en tres veces la longitud del perodo estacional ms

tres retardos. De esta manera, para series trimestrales tendramos m = 15 y para series
mensuales m = 39. En el caso de datos que carecen de un perodo estacional definido, m
se fija en un nmero "razonable", en funcin de la longitud de la muestra (m = n/4).
A veces resulta interesante contrastar individualmente la significacin de los

2
coeficientes de la FAS muestral. Para ello pueden compararse stos con los valores
n
que, aproximadamente, son los lmites de un intervalo de confianza al 95% bajo la
hiptesis nula de que el verdadero valor del coeficiente es cero. Luego, si un coeficiente
est fuera del intervalo de confianza, se rechaza (aproximadamente) que su verdadero
valor sea cero.

El inters de la FAS consiste en que sus coeficientes pueden interpretarse

como una estimacin del k-simo coeficiente de un modelo MA(k). Si los datos han sido
generados por un modelo MA(q), slo los primeros q coeficientes de autocorrelacin
simple sern distintos de cero, mientras que si los datos han sido generados por un modelo
AR(p), la FAS ser infinita y tender a aproximarse a cero asintticamente.
7.2.4 Funcin de Autocorrelacin Parcial (FAP)
El coeficiente de autocorrelacin parcial k-simo k de la serie Yt se define

como el ltimo coeficiente de una autorregresin de la variable centrada sobre sus ltimos
k valores. Es decir, corresponden a los parmetros del modelo de regresin lineal definido
por Yt = 0 + 1Yt 1 + 2Yt 2 ,...., kYt k + t .
Puede demostrarse que los coeficientes tericos de autocorrelacin parcial

pueden calcularse a partir de los coeficientes de autocorrelacin simple resolviendo las
ecuaciones de Yule-Walker:
1 1 2 .... k 2 1
1 1 .... k 3 2
1
2 1 1 .... k 4 3
det
.... .... ....
k 2 k 3 1 k 1

k = k 1 k 2 k 3 .... 1 k
(7.14)
1 1 2 .... k 2 k 1
1 1 .... k 3 k 2
1
2 1 1 .... k 4 k 3
det
.... .... ....
k 2 k 3 1 1

k 1 k 2 k 3 .... 1 1
El inters de la FAP consiste en que sus coeficientes pueden interpretarse como

una estimacin del k-simo coeficiente de un modelo AR(k). Consecuentemente, si los datos
han sido generados por un modelo AR(p), slo los primeros p coeficientes de
autocorrelacin parcial sern distintos de cero. Por otra parte, si los datos han sido
generados por un modelo MA(q), la FAP ser infinita y tender a aproximarse a cero
asintticamente.

7.2.5 Proceso Ruido Blanco
Se dice que un proceso Yt es un proceso de ruido blanco si es estacionario en

sentido dbil y, adems, k = 0, k > 0 . Corresponde al ms simple de los procesos
estacionarios.
El inters de este de proceso radica en que, si slo se cuenta con informacin

muestral acerca de su propio pasado, no puede realizarse ninguna previsin mejor que su
esperanza incondicional.
Por tanto, los procesos de ruido blanco de esperanza nula resultan tiles para
caracterizar las propiedades ideales del trmino de error de un modelo estocstico
dinmico. Si Yt es independiente e idnticamente distribuido con media cero y varianza
constante, decimos entonces que es un ruido blanco gaussiano:
Yt = t : N ( 0, 2 ) (7.15)
Tanto Yt como t no estn correlacionados en el tiempo. Supondremos

adems que 2 < . Un ejemplo de ruido blanco se presenta en la Figura 7.1:
Figura 7.1
Proceso Ruido Blanco 2 = 2,3
3
1
7
4
0
1
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
100
-1
-2
-3
Observaciones

A continuacin vamos a caracterizar este proceso estacionario,

particularmente su estructura dinmica.
La media incondicional de Yt es la siguiente:
E (Yt ) = E ( t ) = 0 (7.16)
y la varianza incondicional de Yt es:
V (Yt ) = V ( t ) = 2 = 0 (7.17)
Dada la caracterstica de estacionariedad, y que la funcin de

autocovaraianzas depende del espaciamiento y no del tiempo, se tendr que:
2 , si k = 0
k = (7.18)
0 , k 1
Recordar que la varianza corresponde a la autocovarianza de orden cero.

Adems, dado que el ruido blanco es incorrelacionado en el tiempo, todas las
autocovarianzas de orden superior a cero valen cero, como se expuso en (7.18). La
funcin de autocorrelacin es en este caso la siguiente:
k 1 , si k = 0
k = = (7.19)
0 0 , k 1
Luego, la FAS y FAP valen cero siempre, excepto en k = 0. Este es uno caso
particular en que la FAS y la FAP coinciden.
En consecuencia, pronosticar un proceso RB es imposible. Sin

embargo, es deseable que procesos que s sean pronosticables, presenten un error RB.
Otra caracterizacin dinmica de los procesos puede realizarse a partir de

sus momentos condicionados (en el pasado). Los momentos incondicionales requeran ser
constantes para que el proceso sea estacionario; sin embargo, los momentos condicionales
puede que no lo sean.

En el caso del RB gaussiano, los momentos incondicionales son

idnticos a los condicionales. Esto es consistente con que no nos sirve de nada la
informacin pasado y presente para pronosticar en el futuro.
Para determinar si una serie es RB, podemos contrastar si todas sus

autocorrelaciones de manera conjunta son cero. A partir de la ecuacin:
1
k : N 0; (7.20)
n
se obtiene
nk : N ( 0;1) (7.21)
( )
2
n k : 12 (7.22)
Luego, recordando que suma de m variables 12 distribuyen m2 , bajo la

hiptesis nula de que Yt es RB se tendr el estadstico de Box-Pierce:
m
QBP = n k2 : m2 (7.23)
k =1
Notar que el estadstico de Box-Pierce (7.23) es igual al de Box-Liung (7.13),

con la diferencia de que en este ltimo la suma de las autocorrelaciones al cuadrado se
reemplaza por una suma ponderada de las mismas autocorrelaciones. Cuando n es
grande, ambos estadsticos difieren muy poco.

7.3 Ergodicidad
Diremos que un proceso es ergdico si sus promedios estadsticos se

pueden calcular a partir de una realizacin; es decir, si sus promedios estadsticos
coinciden con sus promedios temporales. Lo anterior implica que en un proceso ergdico,
una nica realizacin de Yt nos provee informacin suficiente para estimar su media y sus
autocovarianzas.
En un proceso estocstico ergdico en varianza los valores de la serie

alejados en el tiempo estn poco correlacionados, por lo que k decrece al aumentar el
retardo k. Es decir, cuando la dependencia entre observaciones tiende a cero al aumentar
el retardo, diremos que el proceso es ergdico en varianza.
El hecho de decir que el lmite de una variable aleatoria coincide con una
N
1
constante, se representa analticamente as: sea E (Yt ) = Y ( t ) dt ; un proceso ser
2 N N
ergdico en media si, con probabilidad 1, se cumple:
lim ( E (Yt ) ) = (7.24)

N
N
donde E (Yt ) es una variable aleatoria con media E ( E (Yt ) ) =
1
2N E Y ( t ) dt =
N
y
por lo tanto:
lim ( E ( Yt ) ) = lim ( t2 ) = 0 lim E ( E ( Yt ) ) = 0

2
(7.25)
N N N
Lo anterior implica que cuando la dependencia entre observaciones tiende a

cero al aumentar el retardo, diremos que el proceso es ergdico. En adelante
supondremos que los procesos estacionarios son ergdicos.
En el caso de variables discretas, la ergodicidad implica que:

N
1
N
Y E (Y )
t =1
t t (7.26)
1 N
( Yt E ( Yt ) ) V ( Yt )
2
(7.27)
N 1 t =1

7.4 Teorema de Wold
Si una serie es estacionaria en covarianza, no queda claro qu modelo

debemos ajustarle para describir su evolucin. El teorema de representacin de Wold
(1938) determina cul es el proceso adecuado. Sea Yt cualquier proceso estacionario en
covarianza con media cero. Este proceso se puede representar como sigue:

Yt = i t i (7.28)
i =0

donde 0 = 1 y
i =0
i
2
< .
El teromea de Wold establece que cualquier proceso estacionario se puede

representar como una suma ponderada de los residuos pasados. La expresin (7.28) se
denomina proceso lineal general. Si un proceso estacionario no presenta media cero,
simplemente se analiza la variable desviada respecto a su media: yt = Yt Y .
La media y varianza incondicional de (7.28) son las siguientes:

E (Yt ) = E i t i = i E ( t i ) = i 0 = 0 (7.29)
i =0 i=0 i =0

V (Yt ) = V i t i = i2V ( t i ) = 2 i2 (7.30)
i =0 i =0 i=0
A partir de (7.30) podramos describir las funciones de autocovarianzas y

autocorrelacin, pero dicho clculo es bastante tedioso y no muy revelador.
La media y varianza condicional de (7.28) son las siguientes, donde el

conjunto de informacin disponible es t 1 = (Yt 1 , Yt 2 ,...., Y0 , t 1 , t 2 ,...., 0 ) :
E (Yt t 1 ) = E ( t t 1 ) + 1 E ( t 1 t 1 ) + 2 E ( t 2 t 1 ) + ....
(7.31)
E (Yt t 1 ) = 0 + 1 t 1 + 2 t 2 + .... = i t i
i =1
{
V (Yt t 1 ) = E (Yt E (Yt t 1 ) )
2
} = E {( t t 1 )
2
} = E ( ) =
t
2 2
(7.32)

7.5 Retardos y Diferencias
7.5.1 Operador de Retardos
El operador de retardos L es un operador lineal tal que LY t = Yt i . Sus

i
propiedades son las siguientes:
Lc = c
( L + L )Y = LY + L Y = Y
i j
t
i
t
j
t t i + Yt j
( L L ) Y = L ( L Y ) = LY
i j
t
i j
t
i
t j = Yt i j
LiYt = Yt +i

Para a < 1 , (1 + aL + a 2 L2 + ....) Yt = a i LY
1
i
t = Yt
i =0 1 aL
7.5.2 Operador de Diferencias
El operador de diferencias es un operador tal que Yt = Yt Yt 1 . Notar

adems que:
Yt = (1 L ) Yt
2Yt = Yt 2Yt 1 + Yt 2

7.6 Ecuaciones de Diferencias
7.6.1 Definicin
Una ecuacin de diferencias (en nuestro caso lineal y finita) se puede definir
como una expresin que relaciona el valor de una variable en el momento presente (Yt )
con momentos pasados de la misma:
Yt = 1Yt 1 + 2Yt 2 + .... + pYt p (7.33)
Notar que la relacin entre la variable y sus retardos es lineal. Las ecuaciones
de diferencia pueden presentar trminos adicionales:
Yt = f ( t ) + 1Yt 1 + 2Yt 2 + .... + pYt p (7.34)
Posibles expresiones de la funcin forzadora f ( t ) son:
f (t ) =
f (t ) = + t
f ( t ) = t
f ( t ) = + t + ( L ) t
Las dos primeras expresiones son determinsticas, y las dos segundas son
estocsticas.
Las ecuaciones de diferencias finitas pueden ser resueltas mediante forma

recursiva o mediante resoluciones analticas ms complejas.

7.6.2 Solucin Recursiva
La solucin consiste en sustituir de manera recursiva los valores pasados de la

variable por otros valores (tambin pasados) de tal forma de expresar la variable en
funcin de las condiciones iniciales del proceso y de la funcin f ( t ) . Por ejemplo:
Yt = 1Yt 1 + t (7.35)
Yt = 12Yt 2 + t + 1 t 1 (7.36)
Yt = 13Yt 3 + t + 1 t 1 + 12 t 2 (7.37)
.....
t 1
Yt = 1tY0 + 1i t i (7.38)
i =0
Luego, conocidos los valores de 1i , Y0 y t i , podremos determinar el valor

de Yt . Sin embargo, este mtodo no siempre resulta ser el ms conveniente, y es aplicable
a pocos casos.
7.6.3 Solucin Analtica
Una segunda alternativa corresponde a encontrar la solucin general de la

ecuacin, que denominaremos Yt g . La solucin general est definida como la suma de la
solucin homognea Yt h y de la solucin particular Yt p :
Yt g = Yt h + Yt p (7.39)
La solucin homognea Yt h no es nica, pero la solucin particular Yt p s.

a) Solucin Homognea
La solucin homognea se obtiene a partir del planteamiento de la ecuacin

de diferencias y resolviendo la denominada ecuacin caracterstica. El sistema homogneo
considera nicamente los retardos, y no la funcin f ( t ) .
Sin prdida de generalidad, vamos a proponer una sencilla transformacin

que permite obtener la llamada solucin general para el sistema homogneo de cualquier
ecuacin en diferencias ordinaria, lineal, de diferencias finitas y de coeficientes constantes.
Supongamos el caso ms sencillo de todos, una ecuacin genrica de primer

orden del tipo:
Yt = 0 + 1Yt 1 + t (7.40)
El sistema homogneo es en este caso el siguiente:
Yt 1Yt 1 = 0 (7.41)
Aplicando el operador de rezagos se puede obtener el polinomio

caracterstico:
(1 1L ) Yt = 0 1 = 0 (7.42)
Esta ecuacin (7.42) se denomina ecuacin caracterstica y a sus soluciones

races caractersticas. Realizando el cambio de variable Yt = t , la solucin (raz
caracterstica) de esta ecuacin ser = 1 .
La solucin homognea se define como la funcin suma de las races del

polinomio caracterstico elevadas a t; en este caso es:
Yt h = A1t (7.43)
siendo A una constante ( A R 2 ) . Notar que A1t es solucin de la homognea.
En el caso de segundo orden se obtiene:
Yt = 0 + 1Yt 1 + 2Yt 2 + t (7.44)

Yt 1Yt 1 2Yt 2 = 0 (7.45)
2 1 2 = 0 (7.46)
+ 2 + 4
1 1 2
2
* = (7.47)
1 12 + 42

2
Si todas las races son diferentes, la solucin homognea ser:
Yt h = A11t + A2 2t (7.48)
No obstante, si las races del polinomio caracterstico presentan multiplicidad

(races iguales), la solucin homognea habr que buscarla como:
Yt h = A1 t + A2 t t + ( A3 t t 2 + ...... + Am+1 t t m ) (7.49)

1444424444 3
caso general con ( m +1) soluciones iguales
Los valores de los coeficientes Ai se pueden obtener directamente si se

dispone de las condiciones iniciales de Yt y resolviendo luego un sistema lineal de
ecuaciones.
Supongamos por ejemplo la siguiente ecuacin de diferencias finita:
Yt = 0, 6Yt 1 0, 08Yt 2 (7.50)
El polinomio caracterstico es:
2 0, 6 + 0, 08 = 0 (7.51)
Luego, las races caractersticas son 1 = 0, 2 y 2 = 0, 4 , con multiplicidad

igual a 1. La solucin homognea es:
Yt h = A1 ( 0, 2 ) + A2 ( 0, 4 )
t t
(7.52)
Considerando como segundo ejemplo la siguiente ecuacin de diferencias:
Yt = 4Yt 1 4Yt 2 (7.53)

El polinomio caracterstico es:
2 4 + 4 = 0 (7.54)
Luego, las races caractersticas son 1 = 2 = 2 , por lo que se tiene

multiplicidad igual a 2. La solucin homognea es en este segundo caso:
Yt h = A1 ( 2 ) + A2 ( 2 ) t
t t
(7.55)
Si por ejemplo Y0 = 1 e Y1 = 3 , se puede plantear el siguiente sistema de

ecuaciones:
1 = A1 ( 2 ) + A2 ( 2 ) 0
0 0
(7.56)
3 = A1 ( 2 ) + A2 ( 2 ) ( 1)
1 1
(7.57)
de donde finalmente se obtiene A1 = 1 y A2 = 5 . Notar que es factible obtener soluciones

complejas para las races caractersticas.
b) Solucin Particular
La solucin particular atender a la porcin de la ecuacin no considerada en

el sistema homogneo. Luego, depende de la funcin forzadora f ( t ) .
Vamos a considerar primero el caso en el que el sistema NO contiene

componentes estocsticos. La forma de encontrar con rapidez la solucin particular es
asumir que Yt se comporta de forma anloga a la parte no homognea de la
ecuacin original, parte no homognea que denominaremos g ( t ) . Existen varios
casos, como se presenta a continuacin:
Caso 1: g ( t ) = 0
El caso ilustrado anteriormente con el ejemplo numrico es una situacin

particular de un caso genrico del tipo:
Yt = 0 + 1Yt 1 + 2Yt 2 + .... + pYt p (7.58)

Si asumimos que Yt se comportar como la parte no homognea g ( t )

estamos asumiendo la constancia de Yt :
Yt = g ( t ) Yt = Y (7.59)
Si sustituimos Yt = Y en la ecuacin original (7.58) obtenemos la solucin

particular que, en este caso, ser igual a una constante:
0
Y = 0 + 1Y + 2Y + .... + pY Yt p = (7.60)
1 1 2 .... p
Esta solucin representa precisamente el valor de convergencia de Yt para

infinitas observaciones, siempre y cuando estemos hablando de un proceso Yt
estacionario. Es por eso por lo que, a veces, se define la solucin particular como el punto
de equilibrio del proceso a largo plazo. Notar que el resultado anterior no es vlido si
p
i =1
i =1.
Caso 2: g ( t ) = b t
La ecuacin genrica sera ahora:
Yt = 0 + 1Yt 1 + 2Yt 2 + .... + pYt p + b t (7.61)
lo que equivale a introducir en el proceso estocstico una tendencia determinstica.
En este caso, asumiendo de nuevo que Yt se comporta como g ( t ) debemos

considerar que Yt ser tambin una funcin del tiempo:
g ( t ) = 0 + b t Yt = + t (7.62)
Sustituyendo Yt y g ( t ) en (7.61) obtenemos:
( + t ) 1 ( + ( t 1) ) 2 ( + ( t 2 ) ) .... p ( + ( t p ) ) = 0 + b t
(7.63)
0 (1 + 22 + .... + p p )
* = (7.64)
1 1 2 .... p

b
* = (7.65)
1 1 2 .... p
Yt p = * + * t (7.66)
Caso 3: g ( t ) = b d t
La ecuacin genrica sera ahora:
Yt = 1Yt 1 + 2Yt 2 + .... + pYt p + b d t (7.67)
El patrn ser ahora:
Yt = d t (7.68)
Resolviendo obtenemos:
b
* = (7.69)
1 1d 2 d 2 .... p d p
1
Yt p = *d t (7.70)
Ahora consideraremos el caso en que la funcin forzadora f ( t ) es

estocstica:
Yt = 0 + 1Yt 1 + 2Yt 2 + .... + pYt p + t + 1 t 1 + ..... + q t q (7.71)
q ( L)
p ( L ) Yt = q ( L ) t Yt = t (7.72)
p ( L)
En el caso de un proceso AR(1) se tendr:
Yt = 0 + 1Yt 1 + t (7.73)
La solucin homognea ya es conocida: Yt h = A1 (1 ) . La solucin particular

t

0
en este caso es de la forma: Yt p = b0 + i t i Yt p = + 1i t i .
i =0 1 1 i =0

Luego, la solucin general es:
0
Yt g = A1 (1 ) + + 1i t i
t
(7.74)
1 1 i =0
0

Dado que Y0 = A1 + + 1i t i , se tendr A1 = Y0 0 1i i .
1 1 i =0 1 1 i =0
Luego, resulta entonces:

Yt g = Y0 0 1i i (1 ) + 0 + 1i t i
t
(7.75)
1 1 i =0
14444 3 144 1 1 i =0
4244444 42444 3
Sol Homog Sol Part
Notar que esta solucin es vlida slo si 1 1 , es decir, no existe raz

unitaria (proceso no estacionario). En tal caso, la solucin particular sera:

Yt p = Y0 + 0 t + t i (7.76)
i=0
Se observa que la presencia de la tendencia determinista 0 t domina el

proceso de evolucin del proceso a lo largo del tiempo.
En general, para cualquier proceso lineal con variables y errores rezagados

(7.71), la solucin particular se puede obtener de la proposicin:

Yt p = b0 + b1 t + it t i (7.77)
i =0
Luego, sustituyendo los valores de (7.77) en (7.71) se obtienen los valores de

los parmetros b0 , b1 , i .

7.7 Crculo Unitario
Un proceso autorregresivo ser estacionario (convergente en trminos de su

solucin analtica) si sus races caen dentro del crculo unitario, o si las races de su
polinomio de retardos caen fuera del mismo.
Efectivamente, en un proceso autoregresivo de orden 2, la solucin

homognea tiene la forma general:
Yt h = A1 ( 1 ) + A2 ( 2 ) Yt h = A r t sen ( wt + )
t t
(7.78)
(Teorema de Moivre )
donde A1 y A2 son las constantes arbitrarias habituales que dependen de las condiciones
de borde (iniciales en nuestro caso), y 1 y 2 son las races caractersticas.
El parmetro r es lo que se denomina mdulo o valor absoluto del nmero

complejo, y w representa lo que se denomina frecuencia angular y define el nmero de
ciclos por unidad de tiempo, es decir, la inversa del perodo. La frecuencia se mide en
radianes e indica el nmero de ciclos que hay por unidad de tiempo, y est elegida de
forma que satisfaga simultneamente la expresin:
1
cos ( w ) = (7.79)
2 2
El parmetro representa lo que se denomina fase, que viene a indicar la

situacin del ciclo en cada momento del tiempo.
Sin entrar en el desarrollo completo, esta transformacin parte de la expresin

de las races caractersticas en forma polar. Para ello deben realizarse las siguiente
transformaciones:
= r cos ( w ) ; = r sen ( w ) 2 + 2 = r 2 (7.80)
Luego, r 2 = 1 r = 1 .

Continuando con el anlisis, y dada la forma general (7.78), est claro que la
convergencia (estacionariedad) de la ecuacin en diferencias (proceso autorregresivo)
pasa por que 1 y 2 sean menores que la unidad, o ms estrictamente, que 1 y 2
deben caer dentro de un crculo unitario (y no simplemente que deben ser menores que 1).
La razn es que cuando 1 y 2 son enteras, bastara una recta para

representarlas, por lo que el crculo, es decir las dos dimensiones, seran innecesarias;
pero cuando 1 y 2 son imaginarias, necesitamos una representacin en dos ejes, uno
real y otro imaginario, para representar races imaginarias del tipo:
+ 2 + 4 + i d
1 1 2
= 1
2 2
* = (7.81)
1 12 + 42 1 i d
=
2 2
Si usamos la representacin real/imaginaria, cada una de las races

caractersticas vendr representada por una coordenada del tipo:
1 i d
; +
2 2
=
*
(7.82)
1 i d
2 ;
2

Es decir, una ser la conjugada de la otra. La condicin de convergencia en el

caso de races imaginarias obliga a que el parmetro r de amplitud sea menor que la
unidad en valor absoluto. Este parmetro es precisamente la distancia que separar las
soluciones 1 y 2 del origen del plano real/imaginario sean cuales sean estas.
Luego, necesariamente el par de soluciones 1 y 2 deber estar dentro de

un crculo unitario como en el que se muestra en la ilustracin presentada a continuacin.

i d
1 = 1 ; +
2 2
i d
2 = 1 ;
2 2
Cuando las soluciones son reales, basta el eje horizontal (real) para
representarlas; cuando son imaginarias, deben caer dentro del crculo unitario ya que de
otra forma el radio r sera superior a 1 y la solucin no sera convergente.

8 PROCESOS MEDIA MVIL
En los procesos de media mvil de orden q, cada observacin Yt es generada

por una media ponderada de perturbaciones aleatorias, con un retardo de q perodos. Se
simboliza por MA(q):
Yt = + t + 1 t 1 + 2 t 2 + .... + q t q (8.1)
donde es un trmino constante y t es una variable ruido blanco.
El proceso de media mvil de orden finito es una aproximacin natural y

obvia de la representacin de Wold.
8.1 Procesos MA(1)
El proceso de media mvil de primer orden o MA(1) es:
Yt = + t + 1 t 1 = + (1 + 1 L ) t (8.2)
donde t es una variable ruido blanco: t : N ( 0; 2 ) .
La caracterstica que describe al proceso MA y en particular al MA(1) es que

el valor actual de la serie observada se expresa como funcin de choques actuales y
rezagados inobservables.
Dependiendo del signo de 1 , los choques anteriores alimentarn positiva o

negativamente el valor actual de la serie. Sin embargo, un mayor valor de 1 no se traduce
en una mayor persistencia de los choques pasados, como podra pensarse. El proceso
MA(1) tiene muy poca memoria, independiente del valor del parmetro 1 .

Figura 8.1
Relacin de 2 Procesos MA(1): 1 = 0,4 vs 1 = 0,9 y t : N ( 0;1)
1
0.8
0.6
0.4
0.2
7
4
tetha=0,4
0
tetha=0,9
1
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
100
-0.2
-0.4
-0.6
-0.8
-1
Observaciones
Cuando 1 tiene un mayor valor, la varianza incondicional aumenta; sin

embargo, la dinmica del proceso es la misma en ambos casos (poca memoria).
Los momentos incondicionales de un proceso MA(1) son los siguientes:
E (Yt ) = E ( ) + E ( t ) + 1 E ( t 1 ) = (8.3)
V (Yt ) = V ( ) + V ( t ) + 12V ( t 1 ) = 2 + 12 2 = 2 (1 + 12 ) = 0 (8.4)
cov ( Yt , Yt 1 ) = E ( Yt 1 )( Yt ) = E ( t 1 + 1 t 2 )( t + 1 t 1 ) (8.5)
cov (Yt , Yt 1 ) = 1 = 1 2 (8.6)
cov (Yt , Yt 2 ) = 2 = 0 (8.7)
En general, k = 0 para k > 1. Se dice que el proceso tiene una memoria de

slo un perodo.
Cualquier valor de Yt est correlacionado con Yt 1 e Yt +1 , pero con ningn

otro valor de la serie.

0
0 = =1 (8.8)
0
1
1 = = 12 (8.9)
0 1 + 1
k
k = = 0 , k > 1 (8.10)
0
Un modelo MA(1) siempre es estacionario independiente del valor de 1 .
Por otra parte, los momentos condicionales de un proceso MA(1) son los
siguientes ( t 1 = ( t 1 , t 2 ,....) ) :
E (Yt t 1 ) = E ( ) + E ( t t 1 ) 1 E ( t 1 t 1 ) = + 1 t 1 (8.11)
V (Yt t 1 ) = E Yt E (Yt t 1 ) = E ( t2 t 1 ) = 2
2
(8.12)
Se observa que la media condicional se adapta en forma explcita al conjunto

de informacin, a diferencia de la media incondicional (8.3) que es constante. El hecho de
que la media condicional considere slo el primer rezago del choque, es indicativo de la
memoria del proceso, que tambin est caracterizada por la funcin de autocorrelacin.
Figura 8.2
Correlograma Simple 1 > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
Retardo

Figura 8.3
Correlograma Simple 1 < 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
-0.4
-0.6
-0.8
Retardo
Si adems 1 < 1 , se dice que el proceso es invertible. En dicho caso,

podemos expresar el proceso en trminos de un choque actual y valores rezagados de la
serie en lugar de un choque actual y uno rezagado. A esto se le denomina representacin
autoregresiva (ver seccin 8.4)
8.2 Procesos MA(2)
En este caso, la representacin de momentos no condicionales es la siguiente:
Yt = + t + 1 t 1 + 2 t 2 (8.13)
E (Yt ) = (8.14)
V (Yt ) = 2 + 12 2 + 22 2 = 2 (1 + 12 + 22 ) = 0 (8.15)
cov ( Yt , Yt 1 ) = E ( t + 1 t 1 + 2 t 2 )( t 1 + 1 t 2 + 2 t 3 ) (8.16)
cov (Yt , Yt 1 ) = 1 = 2 (1 + 1 2 ) (8.17)
cov ( Yt , Yt 2 ) = E ( t + 1 t 1 + 2 t 2 )( t 2 + 1 t 3 + 2 t 4 ) (8.18)

cov (Yt , Yt 2 ) = 2 = 2 2 (8.19)
cov (Yt , Yt 3 ) = 3 = 0 (8.20)
En general, k = 0 para k > 2.
0
0 = =1 (8.21)
0
1 +
1 = = 1 2 1 22 (8.22)
0 1 + 1 + 2
2 2
2 = = (8.23)
0 1 + 12 + 22
k
k = = 0 , k 3 (8.24)
0
Un modelo MA(2) siempre es estacionario con independencia del valor de sus

parmetros, y su memoria es de dos perodos.
8.3 Procesos MA(q)
En este caso, la representacin es la siguiente:
Yt = + t + 1 t 1 + 2 t 2 + .... + q t q (8.25)
E (Yt ) = (8.26)
V (Yt ) = 2 + 12 2 + .... + q2 2 = 2 (1 + 12 + .... + q2 ) = 0 (8.27)
cov ( Yt , Yt 1 ) = 1 = 2 (1 + 1 2 + 2 3 + .... + q 1 q ) (8.28)
cov ( Yt , Yt 2 ) = 2 = 2 ( 2 + 1 3 + 2 4 + .... + q 2 q ) (8.29)
.....
cov (Yt , Yt q ) = q = q 2 (8.30)
En general, k = 0 para k > q. Los coeficientes de autocorrelacin pueden

ser obtenidos a partir de las autocovarianzas. Todos los procesos MA de orden finito son
estacionarios.

8.4 Invertibilidad de los Procesos MA(q)
Cualquier proceso MA(q) puede expresarse como un AR( ). Un modelo

MA(1):
Yt = + t + 1 t 1 (8.31)
Yt 1 = + t 1 + 1 t 2 (8.32)
Yt 2 = + t 2 + 1 t 3 (8.33)
.....
Despejando t , t 1 , t 2 , etc. se obtiene:
t = + Yt 1 t 1 (8.34)
t = + Yt 1 ( + Yt 1 1 ( t 2 ) ) = + Yt 1Yt 1 + 1 + 12 ( t 2 ) (8.35)
t = + Yt 1Yt 1 + 1 + 12 ( + Yt 2 1 t 3 ) (8.36)
etc.
Si continuamos eliminando t 3 y siguientes, el procedimiento continuar hasta

el infinito. Esto lleva a expresar Yt como funcin de sus valores retardados ms una
constante y un trmino de error:
Yt = + t 1Yt 1 + 12Yt 2 13Yt 3 + ..... (8.37)

Yt = + t + ( 1) 1iYt i
i
(8.38)
i =1
Esto tiene sentido si 1 < 1 , ya que, de otro modo, el efecto del pasado sera
ms importante para explicar el comportamiento actual. Lo ms lgico es pensar que el
efecto del pasado va siendo cada vez menor y el proceso es invertible.
Si 1 = 1 , es un caso lmite de invertibilidad, en el que el efecto se mantiene

constante con el retardo.

Para un modelo MA(2), la condicin de invertibilidad es L > 1 en el

polinomio 1 1 L 2 L2 = 0 . Para un modelo MA(q), la condicin de invertibilidad es
L > 1 en el polinomio 1 1 L 2 L2 .... q Lq = 0 . Considerar el mdulo es importante,
ya que pueden generarse races complejas.
Debido a que el proceso MA(q) se puede expresar como un AR( ), consta

de infinitos coeficientes de autocorrelacin parcial distintos de cero, aunque a partir del
valor q decaern rpidamente. As, la FAP de un proceso MA se comporta de manera
anloga a como lo hace la FAS en un AR.
8.5 Estimacin de Procesos MA(q)
En este caso, debido a que los errores no son funcin lineal de los parmetros
(no se cumple el supuesto de linealidad requerido para utilizar MCO), la estimacin se
resuelve mediante mtodos numricos.
Analicemos el caso de un MA(1):
Yt = t + 1 t 1 t = Yt 1 t 1 (8.39)
t = Yt Yt = Yt 1 t 1 (8.40)
En forma recursiva se obtiene:
1 = Y1 1 0 (8.41)
2 = Y2 11 = Y2 1 (Y1 1 0 ) = Y2 1Y1 + 12 0 (8.42)
3 = Y3 1 2 = Y3 1 (Y2 1Y1 + 12 0 ) = Y3 1Y2 + 12Y1 13 0 (8.43)
......
n 1
n = ( 1) 1iYn i + ( 1) 1n 0
i n
(8.44)
i =0

El trmino de error no es funcin lineal del parmetro a diferencia de lo que

sucede con los modelos autorregresivos. El modelo se puede estimar a travs de un
proceso iterativo de estimacin no lineal, que utiliza los dos primeros trminos de la
aproximacin de t a travs del desarrollo en serie de Taylor (se consideran despreciables
los trminos de segundo orden y superior).
t (10 )
t +t
0
1
(1 10 ) (8.45)
El parmetro t0 es el valor que toma el residuo despus de sustituir 1 por el

valor inicial 10 en (8.44). Esto implica que se requiere un valor inicial de este parmetro.
t
En este caso se tiene que = t 1 , por lo que se cumple:
1
t t0 (1 10 ) t01 (8.46)
Luego, reemplazando xt = t01 y zt = t0 + 10 t01 se obtiene:
zt = 1 xt + t (8.47)
La expresin (8.47) es una ecuacin de regresin lineal que se puede estimar

directamente mediante MCO. Luego, la estimacin 1 constituye la primera iteracin del
proceso. Este valor se utiliza para realizar una segunda iteracin, como valor inicial, y as
sucesivamente hasta que 1h 1h 1 < .
En el caso de un MA(2) la aproximacin en series de Taylor sera:
t (10 , 20 ) t (10 ,10 )

t +t
0
1
(1 1
0
)+ 2
( 2 20 ) (8.48)
t t
donde = t 1 y = t 2 . Luego se obtiene:
1 2
t t0 + t01 (1 10 ) + t02 ( 2 20 ) (8.49)

Reemplazando x1t = t01 , xt2 = t02 y zt = t0 + 10 t01 + 20 t02 se obtiene:
zt = 1 xt1 + 2 xt2 + t (8.50)
Este mtodo se puede extender para cualquier proceso MA(q) y ARMA(p,q):
Yt = + 1Yt 1 + 2Yt 2 .... pYt p + t 1 t 1 2 t 2 .... q t q (8.51)
Suponiendo que = 0 se obtiene:
t ( 0 , 0 ) t ( 0 , 0 )
( ) + ( 0j )
p q
t +
0 0
(8.52)
i j
t i i j
i =1 j =1
En este caso habr que estimar un total de p + q parmetros, para lo cual se

aplican los procedimientos ya expuestos.
Para efectuar contrastes estadsticos, en la iteracin final se calcula la

estimacin de la matriz de varianzas y covarianzas de los estimadores mediante la
expresin:
tT t
( XT X )
1
V ( , ) = (8.53)
(T p q )
El procedimiento iterativo no siempre es convergente. Si se produce

divergencia el modelo se puede volver a estimar una o ms veces, utilizando diferentes
pronsticos iniciales, con la esperanza de obtener convergencia.
Puede tambin producirse por una mala especificacin del modelo, es decir,
que no sea el que mejor representa la estructura del proceso estocstico que gener la
serie temporal objeto de anlisis.
En este caso, habra que elegir una nueva especificacin. La convergencia del
proceso de estimacin puede que sea ms rpida si el pronstico inicial es bueno. Para
obtener valores iniciales de los parmetros ( , ) pueden utilizarse las estimaciones
realizadas para la FAS y FAP.

8.6 Pronsticos con Procesos MA(q)
Mientras Yt sea estacionario en covarianzas, podemos expresar la

informacin disponible en el tiempo en funcin de valores y choques presentes y pasados:
T = (YT ; YT 1 ; YT 2 ;....; T ; T 1 ; T 2 ;....) (8.54)
A partir de la informacin T , se desea estimar el pronstico ptimo de Y en

algn instante de tiempo futuro T + h. El pronstico ptimo es aquel que minimiza la
prdida esperada.
El pronstico ptimo, bajo estacionariedad dbil, es la esperanza condicional

E (YT + h T ) , es decir, el valor esperado del valor futuro de la serie que se pronostica,
condicionado a la informacin disponible.
Supongamos un modelo MA(2):
Yt = t + 1 t 1 + 2 t 2 (8.55)
con t : N ( 0; 2 ) ; nos encontramos en T y queremos pronosticar para T + 1. Primero,

formulamos el proceso para T + 1:
YT +1 = T +1 + 1 T + 2 T 1 (8.56)
Luego, proyectamos sobre el conjunto de informacin en el tiempo T, lo cual

implica reemplazar todas las innovaciones futuras por cero:
YT +1 T = 1 T + 2T 1 (8.57)
Para pronosticar dos etapas futuras observamos que:
YT + 2 = T + 2 + 1T +1 + 2T (8.58)
YT + 2 T = 2T (8.59)
Al continuar de esta forma vemos que:
YT + h T = 0 h>2 (8.60)

Ahora calculemos los errores de pronstico correspondientes. Para ello, se

debe recordar que el error de pronstico es simplemente la diferencia entre el valor real y
el pronosticado, es decir, T + h T = YT + h YT + h T . Por lo tanto:
T +1 T = T +1 RB (8.61)
T + 2 T = T + 2 + 1T +1 MA(1) (8.62)
T + h T = T + h + 1 T + h1 + 2 T + h 2 h>2 MA(2) (8.63)
Finalmente, la varianza del error de pronstico es:
( )
V T +1 T = 2 (8.64)
( )
V T + 2 T = 2 (1 + 12 ) (8.65)
( )
V T + h T = 2 (1 + 12 + 22 ) h>2 (8.66)
Notar que en h > 2 la varianza del error es la varianza no condicional de Yt .
Analicemos ahora el caso general del modelo MA(q). El modelo es:
Yt = t + 1 t 1 + 2 t 2 + .... + q t q (8.67)
Si h q , el pronstico tiene la forma (anlogo al caso MA(2)):
YT + h T = 0 + " ajuste " (8.68)
Si h > q , el pronstico tiene la forma:
YT + h T = 0 (8.69)
De esta forma, un proceso MA(q) no es pronosticable ms de q perodos

adelante. Toda la dinmica del proceso MA(q), que se aprovecha para pronosticar, se
desvanece cuando llegamos al horizonte q.
Ello es un reflejo del comportamiento de la funcin de autocorrelacin de un

MA(q), la cual se va a cero despus del rezago q.

Por otra parte, los errores de pronstico son los siguientes:
T + h T = MA ( h 1) hq (8.70)
T + h T = MA ( q ) h>q (8.71)
Luego, el error de pronstico a h etapas, cuando h > q , es justamente el

mismo proceso menos su media.
Finalmente, veamos la varianza del error de pronstico:
( )
V T + h T < V ( Yt ) hq (8.72)
( )
V T + h T = V ( Yt ) h>q (8.73)
Notar que la varianza del error de pronstico cuando h q depender del

nmero de perodos h a futuro que queramos predecir.
Ahora construiremos los intervalos de confianza. Dado que

T + h T = YT + h YT + h T , el valor futuro ser entonces el pronstico ms el error:
YT + h = YT + h T + T + h T (8.74)
Si las innovaciones se distribuyen en forma normal, el valor futuro de la serie

tambin tiene forma normal, condicional al conjunto de informacin disponible en el
perodo en el cual se emiti la informacin disponible.
Luego, el intervalo del pronstico a un 95% de confiabilidad es:
YT + h T 1,96 V (T + h T ) (8.75)
Por lo tanto, se obtiene la siguiente funcin de densidad de pronstico a h

etapas futuras:
( (
YT + h : N YT + h T ;V T + h T )) (8.76)

Figura 8.4
Pronstico de un MA(1)
2
1.5
0.5
Proceso
0 Cota Superior
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Cota Inferior
-0.5
-1
-1.5
-2
Tiempo
Sin embargo, hasta ahora se han considerado conocidos los valores de los
parmetros y de las innovaciones. En la prctica se deben estimar (ver seccin 8.5), y
luego utilizar las mismas ecuaciones pero con los estimadores de los parmetros y los
residuos. Este procedimiento es vlido para estimar pronsticos, errores, varianzas e
intervalos.

9 PROCESOS AUTORREGRESIVOS
Representan los valores de una variable durante un instante del tiempo en

funcin de sus valores precedentes. Un modelo autorregresivo de orden p o AR(p) tiene la
forma siguiente:
Yt = + 1Yt 1 + 2Yt 2 + .... + pYt p + t (9.1)
donde es un trmino constante y t es una variable ruido blanco, que representa los
errores del ajuste y otorga el carcter aleatorio a la misma.
9.1 Procesos AR(1)
Yt = + 1Yt 1 + t (9.2)
Si el proceso es estacionario, entonces E (Yt ) = E (Yt 1 ) y V (Yt ) = V (Yt 1 ) .
9.1.1 Media
La media incondicional es:
E (Yt ) = E (Yt 1 ) = (9.3)

= + 1 = (9.4)
1 1
La media condicional es:
E (Yt Yt 1 ) = E ( + 1Yt 1 Yt 1 ) = + 1Yt 1 (9.5)

9.1.2 Varianza
La varianza incondicional es:
V (Yt ) = V (Yt 1 ) = 0 (9.6)
2
0 = 12 0 + 2 0 = (9.7)
1 12
La varianza condicional es:
V (Yt Yt 1 ) = V ( + 1Yt 1 + t Yt 1 ) = 0 + 12V (Yt 1 Yt 1 ) + V ( t Yt 1 ) (9.8)
V (Yt Yt 1 ) = 0 + 2 = 2 (9.9)
La condicin a cumplir para que 0 sea positiva y finita es que 1 < 1 . En ese
caso el modelo es estacionario en media y varianza.
9.1.3 Autocovarianza
cov (Yt , Yt 1 ) = cov (Yt 1 , Yt ) = 1 (9.10)
cov ( Yt , Yt 1 ) = E ( Yt 1 )( Yt ) = E [ yt 1 yt ] (9.11)
Yt = + 1Yt 1 + t = (1 1 ) + 1Yt 1 + t (9.12)
Yt = 1 (Yt 1 ) + t yt = 1 yt 1 + t (9.13)
1 = E [ yt 1 yt ] = E yt 1 (1 yt 1 + t ) = 1E ( yt21 ) + E ( yt 1 t ) = 1 0 (9.14)
La variable yt 1 est correlacionada con t 1 pero no con t , debido a que

sta es una variable ruido blanco y no presenta autocorrelacin. Por otra parte:
2 = E [ yt 2 yt ] = E yt 2 (1 yt 1 + t ) (9.15)
2 = 1 E ( yt 1 yt ) + E ( yt 2 t ) = 1 1 = 12 0 (9.16)
En general, se tendr que k = 1k 0 .

9.1.4 Autocorrelacin
0
0 = =1 (9.17)
0
1
1 = = 1 (9.18)
0
2
2 = = 12 (9.19)
0
k
En general, se tendr que k = = 1k . Los valores de la funcin de
0
autocorrelacin son las sucesivas potencias de 1 .
La condicin 1 < 1 garantiza que los sucesivos valores k converjan a cero,

por lo que la funcin de autocorrelacin o correlograma puede tener dos aspectos
distintos, dependiendo del signo de 1 .
Utilizando el operador de retardos L, podemos establecer de otro modo la

condicin de estacionariedad:
Yt = + 1LYt + t Yt (1 1L ) = + t (9.20)
1424 3
( L)
Para que el proceso AR(1) sea estacionario, 1 < 1 y es equivalente a la

condicin de que la raz del operador polinomial ( L ) debe caer fuera del crculo
unitario, es decir:
1
(1 1L ) = 0 L >1 > 1 1 < 1 (9.21)
1

Figura 9.1
Correlograma Simple 1 > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
Retardo
Figura 9.2
Correlograma Simple 1 < 0
1.5
0.5
0
0 1 2 3 4 5 6 7 8 9
-0.5
-1
-1.5
Retardo

Figura 9.3
Correlograma Parcial 1 > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
Retardo
Figura 9.4
Correlograma Parcial 1 < 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
-0.4
-0.6
-0.8
Retardo

Figura 9.5
Relacin de 2 Procesos AR(1): 1 = 0,4 vs 1 = 0,9
1.5
0.5
7
4
phi=0,4
0
phi=0,9
1
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
100
-0.5
-1
-1.5
Observaciones
Se observa que las fluctuaciones del proceso AR(1) con = 0,9 son ms
persistentes que con = 0,4, a diferencia del MA(1), que tiene poca memoria.
9.2 Procesos AR(2)
Yt = + 1Yt 1 + 2Yt 2 + t (9.22)
9.2.1 Media
E (Yt ) = E (Yt 1 ) = E (Yt 2 ) = (9.23)

= + 1 + 2 = (9.24)
1 1 2
9.2.2 Varianza
V (Yt ) = V (Yt 1 ) = V (Yt 2 ) = 0 (9.25)
0 = V yt = E yt2 = E yt (1 yt 1 + 2 yt 2 + t ) = 1 1 + 2 2 + 2 (9.26)

9.2.3 Autocovarianza
cov (Yt , Yt 1 ) = cov (Yt 1 , Yt ) = 1 (9.27)
1 = cov (Yt , Yt 1 ) = E yt 1 (1 yt 1 + 2 yt 2 + t ) = 1 0 + 2 1 (9.28)
2 = cov ( Yt , Yt 2 ) = E yt 2 (1 yt 1 + 2 yt 2 + t ) = 1 1 + 2 0 (9.29)
En general, se tendr que k = 1 k 1 + 2 k 2 .
9.2.4 Autocorrelacin
0
0 = =1 (9.30)
0
1
1 = = 1 + 1 1 (9.31)
0
2
2 = = 1 1 + 2 (9.32)
0
k
En general, se tendr que k = = 1 k 1 + 2 k 2 .
0
Utilizando el operador de retardos L, podemos establecer de otro modo la

condicin de estacionariedad:
Yt = + 1LYt + 2 L2Y + t Yt (1 1L 2 L2 ) = + t (9.33)

144244 3
( L)
Para que el proceso AR(2) sea estacionario la raz del operador polinomial
( L ) debe caer fuera del crculo unitario, es decir:
(1 L L ) = 0 L > 1
1 2
2
(9.34)
+ 12 + 42
1
22
L* = (9.35)
1 12 + 42

22

1 1
Sea G1 = y G2 = . Si G1 < 1 y G2 < 1 entonces
L1 L2
G1 G2 = G1 G2 < 1 y adems G1 + G2 G1 + G2 < 2 .
Como G1 G2 = 2 y G1 + G2 = 1 , para que un proceso AR(2) sea

estacionario es necesario (aunque no siempre suficiente) que 2 < 1 y 1 < 2 .
12
Las races sern iguales slo si 12 + 42 = 0 2 = . En este caso,
4
1 2
G1 = G1 = . Luego, si 1 < 2 , dado que 2 = 1 , el modelo resultante es
2 4
estacionario puesto con 1 < 2 < 0 .
12
Por otro lado, las races sern reales y diferentes si 12 + 42 > 0 2 > .
4
Puede demostrarse que si G1 < 1 y G2 < 1 entonces:
2 + 1 < 1 (9.36)
2 1 < 1 (9.37)
1 < 2 < 1 (9.38)
Estas tres ltimas condiciones son necesarias y suficientes para que el proceso
AR(2) sea estacionario, incluso cuando las soluciones sean complejas conjugadas.
2 < 1
1 + 2 < 1
1
2 1 < 1
1 < 2

9.3 Procesos AR(p)
Yt = + 1Yt 1 + 2Yt 2 + .... + pYt p + t (9.39)
Si el proceso es estacionario, entonces E ( Yt ) = E (Yt 1 ) = .... = E (Yt p ) y

V (Yt ) = V (Yt 1 ) = .... = V (Yt p ) . Luego:
E ( Yt ) = E ( Yt 1 ) = .... = E (Yt p ) = (9.40)

= + 1 + 2 + .... + p = (9.41)
1 1 2 .... p
La condicin de estacionariedad es que las races de la ecuacin polinomial

( L ) = 0 estn fuera del crculo unidad:
(14444
1 L L .... L ) = 0
1
244443
2
2
p
p
(9.42)
( L)
1
Si Li es una raz de la ecuacin polinomial se demuestra que = i , donde
Li
i son las races de la denominada ecuacin caracterstica:
p 1 p 1 2 p 2 .... p 1 p = 0 (9.43)
Por tanto, la condicin de invertibilidad se puede obtener de forma alternativa

y es que las races de la ecuacin caracterstica deben ser menores a la unidad en valor
absoluto.
Luego, generalizando:
0 = 1 1 + 2 2 + .... + p p + 2 (9.44)
k = 1 k 1 + 2 k 2 + .... + p k p , k 1 (9.45)

El sistema de ecuaciones (9.45) para k = 1...p, relaciona las p primeras

autocovarianzas con los parmetros del proceso. Se denominan ecuaciones de Yule-
Walker:
1 = 1 0 + 2 1 + .... + p p 1 (9.46)
2 = 1 1 + 2 0 + .... + p p 2 (9.47)
.....
p = 1 p 1 + 2 p 2 + .... + p 0 (9.48)
Las ecuaciones de Yule-Walker se pueden expresar en trminos de los

coeficientes de autocorrelacin dividiendo por 0 ambos miembros:
1 = 1 0 + 2 1 + .... + p p1 (9.49)
2 = 1 1 + 2 0 + .... + p p 2 (9.50)
.....
p = 1 p 1 + 2 p 2 + .... + p 0 (9.51)
Mediante estas ecuaciones se pueden obtener los coeficientes o parmetros

del proceso AR(p) con los datos de los coeficientes de autocorrelacin o autocovarianzas.
Si se resuelve sucesivamente el sistema de Yule-Walker bajo la hiptesis de la

serie es un AR(1), AR(2), AR(3), etc., y se toma el ltimo coeficiente de cada uno de los
procesos que corresponde a la funcin de autocorrelacin parcial. Bajo el supuesto de que
p es el orden del proceso autorregresivo, se obtiene que los coeficientes de
autocorrelacin parcial sern distintos de cero para retardos iguales o inferiores a p.
En trminos matriciales, y considerando que 0 = 1, k = k , las ecuaciones

de Y-W pueden escribirse de la siguiente manera:
1 1 1 .... p 1 1

2= 1 1 p 2 2
(9.52)
.... .... O .... ....

p p 1 p2 .... 1 p

Figura 9.6
Correlograma Parcial > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
Retardo
Figura 9.7
Correlograma Parcial < 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
-0.4
-0.6
-0.8
Retardo
Los procesos AR son siempre invertibles, pero deben cumplir ciertas

condiciones para que sean estacionarios; notar la dualidad con los procesos MA.

9.4 Estimacin de Procesos AR(p)
Un proceso autorregresivo no cumple la hiptesis del modelo clsico de

regresin basada en regresores fijos. Son variables aleatorias puesto que son retardos de
la variable Yt que es aleatoria ( wt = Yt si corresponde). Sin embargo, en presencia de
errores que no presentan autocorrelacin, los estimadores MCO tienen buenas
propiedades (consistencia).
Por el contrario, si el trmino de error estuviese correlacionado (no fuese ruido

blanco), estos estimadores seran inconsistentes. En este caso, el modelo estara mal
especificado, puesto que una especificacin correcta debe provocar un trmino de error
con estructura de ruido blanco.
La especificacin es la siguiente:
wt = + 1wt 1 + 2 wt 2 + .... + k wt k + t (9.53)
w = W + (9.54)
w1 1 w0 w1 .... w1 p 1
w
1 w1 w0 .... w2 p
w= 2 , = 1 , W = , = 2
.... .... .... ....

wT k 1 wT 1 wT 2 .... wT p T
Luego, el estimador MCO es simplemente = (W TW ) W T w . Si no se

1
incluye la media , simplemente se suprime la columna de unos en W.
9.5 Pronsticos con Procesos AR(p)
Considere un modelo AR(1):
Yt = + Yt 1 + t t : N ( 0; 2 ) (9.55)
El proceso a una etapa ms es:
YT +1 = + YT + T +1 (9.56)

La proyeccin por su parte es:
YT +1 T = + YT (9.57)
El proceso y la proyeccin en T + 2 son:
YT + 2 = + YT +1 + T + 2 (9.58)
YT + 2 T = + YT +1 T = 2YT + (1 + ) (9.59)
El proceso y la proyeccin en T + h son:
YT + h = + YT + h1 + T + h (9.60)
YT + h T = hYT + (1 + + 2 + ..... + h 1 ) (9.61)
Notar que el pronstico tiende a la media conforme aumente h:

h
(
lim YT + h T =)1
= (9.62)
Luego, no existe informacin til del pasado, ni siquiera reciente, a medida

que aumenta el tamao muestral.
El error de pronstico, por su parte:
T + h = YT + h YT + h T = + YT + h1 + T + h YT + h T (9.63)
T + h = 2YT + h 2 + (1 + ) + T + h + T + h 1 YT + h T (9.64)
T + h = hYT + (1 + + 2 + .... + h 1 )
(9.65)
+ T + h + T + h1 + 2 T + h 2 + .... + 2 h1T +1 YT + h T
T + h = T + h + T + h1 + 2T + h2 + .... + 2 h1 T +1 (9.66)
y su varianza:
V ( T + h ) = 2 (1 + 2 + 4 + .... + 2 h 2 ) (9.67)
Notar que la varianza se incrementa conforme aumenta h, pero converge.

Figura 9.8
Pronstico de un AR(1)
5
4.5
3.5
Proceso
2.5 Cota Superior
Cota Inferior
1.5
0.5
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Tiempo
9.6 Regla de la Cadena Para Pronosticar AR(p)
Dado que cualquier proceso AR(p) estacionario en covarianza puede ser

expresado como un MA de orden infinito, no hay necesidad de tcnicas especiales para
pronsticos autorregresivos.
Sin embargo, existe un mtodo muy sencillo para calcular el pronstico

ptimo de modelos autorregresivos, conocido como regla de la cadena para pronosticar.
Primero se construye el pronstico ptimo a una etapa, y luego se construye el

ptimo a dos etapas, que depende del ptimo a una etapa ya calculado. Despus se
estima el pronstico a tres etapas, el que depende del pronstico a dos etapas ya
calculado, y as sucesivamente.
El proceso a una etapa ms es:
YT +1 = YT + T +1 (9.68)

La proyeccin por su parte es:
YT +1 T = YT (9.69)
YT + 2 = YT +1 + T + 2 (9.70)
YT + 2 T = YT +1 T (9.71)
YT +3 = YT + 2 + T +3 (9.72)
YT +3 T = YT + 2 T (9.73)
Continuando de esta forma, se pueden formular pronsticos para todos y

cada uno de los perodos futuros. Notar que para un AR(1) se necesita el valor ms
reciente de Yt , mientras que para un proceso general AR(p) se necesitan los p valores ms
recientes.
9.7 Dualidad entre Procesos AR y MA
En un modelo AR(p) el trmino t puede representarse como una combinacin finita

de Yt , Yt 1 ,....., Yt p . Anlogamente, Yt puede expresarse como una combinacin
infinita de t , t 1 , t 2 ,.....
En un modelo MA(q) Yt puede expresarse como una combinacin finita de

t , t 1 , t 2 ,....., t q y el trmino t puede representarse como una combinacin
infinita de Yt , Yt 1 , Yt 2 ,..... .
En un modelo AR(p) no se requiere ninguna condicin sobre los parmetros i para

que el proceso sea invertible; sin embargo, cada raz L del polinomio ( L ) debe
estar fuera del crculo unitario para que el proceso sea estacionario.
En un modelo MA(q) no se requiere ninguna condicin sobre los parmetros i para
que el proceso sea estacionario; sin embargo, cara raz L del polinomio ( L ) debe
estar fuera del crculo unitario para que el proceso sea invertible

La FAS de un proceso MA(q) se anula para retardos superiores a q; sin embargo, la

FAP es infinita y est dominada por una combinacin lineal de oscilaciones
armnicas, exponenciales amortiguadas y productos de dichos trminos por
potencias de k.
Recprocamente, la FAP de un proceso AR(p) se anula para retardos superiores a p,

sin embargo, la FAS es infinita y est dominada por una combinacin lineal de
oscilaciones armnicas, exponenciales amortiguadas y productos de dichos trminos
por potencias de k.
9.8 Procesos ARMA(p,q)
Un modelo mixto con componente autorregresiva y con componente de

medias mviles se denomina ARMA (p,q), donde p es el orden de la parte autorregresiva y
q el de la parte de medias mviles:
Yt = + 1Yt 1 + 2Yt 2 + .... + pYt p + t + 1 t 1 + 2 t 2 + .... + q t q (9.74)
( L)
( L ) Yt = ( L ) t Yt = t (9.75)
(L)
La condicin de estacionariedad es que las races de la ecuacin

caracterstica ( L ) = 0 estn fuera del crculo unidad. La condicin de invertibilidad es
que las races de la ecuacin ( L ) = 0 estn fuera del crculo unidad.
Lgicamente, en un proceso ARMA (p,q) tanto la FAS como la FAP tienen

infinitos elementos distintos de cero.
Para estimar modelos ARMA se utiliza el criterio de mxima verosimilitud. La

funcin de verosimilitud se obtiene de la siguiente forma. Supongamos que Yt evoluciona
en el tiempo de acuerdo con un proceso estocstico ARMA gaussiano cuya esperanza
incondicional es nula para todo t; esto implica que la funcin de verosimilitud de la muestra
condicionada a los valores de los parmetros del modelo es:
1
f (Y , , , 2 ) = ( 2 )
n 2 1 2
exp T 1 (9.76)
2

donde:
: Vector de dimensin p x 1 que contiene todos los parmetros de la parte

autorregresiva del modelo.
: Vector de dimensin q x 1 que contiene todos los parmetros de la parte media

mvil del modelo.
: Matriz de varianzas-covarianzas de Yt , de dimensin n n. En general, los

elementos de esta matriz sern funcin de los parmetros , y 2 del modelo.
Transformando logartmicamente la expresin anterior, tras simplificaciones

algrebraicas, se obtiene la funcin:
L (Y , , , 2 ) = ln T 1 (9.77)
Consecuentemente, el problema de estimacin por mxima verosimilitud

queda reducido a buscar los valores de , y 2 que minimizan la funcin anterior,
sustituyendo en cada caso la matriz por su expresin analtica correcta.
Supongamos, por ejemplo, que Yt evoluciona en el tiempo de acuerdo con un

modelo invertible de medias mviles de orden 1: Yt = t + t 1 , < 1 y t : N ( 0, 2 ) .
Por los resultados anteriores, sabemos que la matriz tendr la forma:
1 + 2 .... 0

2 1+ 2 0
= (9.78)
.... O ....

0 0 .... 1 + 2
Por otra parte, si Yt evoluciona en el tiempo de acuerdo con un modelo AR(1)

estacionario Yt = Yt 1 + t , < 1 y t : N ( 0, 2 ) , por resultados anteriores, sabemos
que:
1 .... n 1

2 1 n 2
= (9.79)
1 .... O ....
n1
n 2 .... 1

En el contexto de modelos ARMA, las condiciones de primer orden del

problema de optimizacin dan lugar a un sistema de ecuaciones no lineales. Por ello, es
necesario recurrir a tcnicas numricas para resolverlas de forma aproximada, lo que
provoca una serie de problemas:
Soluciones no exactas: Los procedimientos que se utilizan para resolver estos

problemas generan una secuencia de soluciones tentativas que, idealmente, deben
converger a la solucin ptima. En la prctica, el proceso se interrumpe cuando la
solucin obtenida es "suficientemente buena", lo cual introduce un cierto grado de
arbitraridad en el proceso de estimacin.
Posibilidad de convergencia fuera del ptimo global: El proceso iterativo

de bsqueda puede converger a un ptimo local o, incluso, a una regin "plana" de
la funcin de verosimilitud, creada por un problema de identificacin paramtrica
anlogo al de colinealidad.
Posibilidad de acumulacin de errores de redondeo: Puesto que los

procesos de clculo se desarrollan con una precisin finita, es posible cometer
errores de redondeo capaces de abortar la secuencia de clculos (provocando, por
ejemplo, una divisin por cero) o dar lugar a una convergencia alejada del ptimo.
9.9 Pronsticos de Modelos ARMA(p,q)
Consideremos un proceso ARMA estacionario en covarianza. Como en el

caso de los procesos AR(p), siempre se puede convertir un proceso ARMA en uno de
medias mviles de orden infinito, y luego utilizar las tcnicas de dichos procesos para
pronosticar (ver Captulo 8).
Sin embargo, se dispone de un mtodo ms sencillo que combina las

metodologas consideradas para los MA y los AR.
El proceso en el futuro es:
YT + h = 1YT + h 1 + 2YT + h 2 + .... + pYT + h p + T + h + 1 T + h1 + 2 T + h 2 + .... + q T + h q (9.80)
En el lado derecho hay varios valores futuros de Y y de , y quizs tambin

algunos valores pasado (depende de los valores de h, p y q).

Se debe reemplazar todo el lado derecho por su proyeccin sobre el conjunto

de informacin en el tiempo T. Es decir, se sustituyen todos los valores futuros de Y por sus
pronsticos (obtenidos recursivamente por regla de la cadena) y todos los , tambin por
sus pronsticos ptimos.
YT + h T = 1YT + h 1 T + 2YT + h 2 T + .... + pYT + h p T + T + h T

(9.81)
+ 1T + h 1 T + 2T + h 2 T + .... + qT + h q T
Por ejemplo, para una ARMA(1,1):
Yt = Yt 1 + t + t 1 (9.82)
El proceso en el tiempo T + 1 es:
YT +1 = YT + T +1 + T (9.83)
Al proyectar el lado derecho sobre T se obtiene:
YT +1 T = YT + T (9.84)
El proceso en el tiempo T + 2 es:
YT + 2 = YT +1 + T + 2 + T +1 (9.85)
Al proyectar el lado derecho sobre T se obtiene:
YT + 2 T = YT +1 T (9.86)
Sustituyendo el pronstico a una etapa ya calculado se obtiene:
YT + 2 T = 2YT + T (9.87)

9.10 Procesos ARIMA(p,i,q)
Hasta este momento se han tratado procesos estacionarios. Sin embargo, las
series de datos econmicos suelen caracterizarse por ser no estacionarias: ntese la simple
observacin de una tendencia creciente en el tiempo o de unas fluctuaciones que crecen
en tamao con el paso del tiempo, como, por ejemplo, puede ocurrir con el precio de
algunos activos financieros.
Muchas series econmicas se convierten en aproximadamente estacionarias

despus de aplicar diferencias en una ms etapas. Lo que se hace en tales situaciones es
trabajar con la serie en diferencias especificando y estimando un modelo para ellas.
Una prediccin con estas series hay que traducirla a una prediccin para la
serie origen, en cuyo anlisis est interesado el investigador.
Diferencias de orden uno o de primer orden o primeras diferencias:
Yt = Yt Yt 1 (9.88)
Diferencias de orden dos o segundas diferencias: se aplican primeras

diferencias a la serie ya diferenciada una vez.
( Yt ) = 2Yt = Yt Yt 1 = Yt 2Yt 1 Yt 2 (9.89)
Un ejemplo de proceso estocstico o aleatorio no estacionario es el

denominado paseo o camino aleatorio:
Yt = Yt 1 + t (9.90)
Yt = + Yt 1 + t (9.91)
donde t es ruido blanco. Este es un proceso no estacionario en varianza, ya que:
Yt = Yt 1 + t = Yt 2 + t 1 + t = Yt 3 + t 2 + t 1 + t = ..... (9.92)
N
Yt = t k (9.93)
t =0
V (Yt ) = N 2 (9.94)

La transformacin consiste en tomar primeras diferencias de la variable, con lo

que se produce una nueva serie claramente estacionaria: Yt = Yt Yt 1 = t , variable que
sigue un proceso ruido blanco, estacionario.
La serie Yt es no estacionaria homognea de orden d, si la serie wt = d Yt es

estacionaria. Entonces, Yt es un proceso autorregresivo integrado de media mvil de orden
(p,d,q) y se denomina ARIMA (p,d,q). Si se aplican diferencias de orden d a Yt se obtiene
un proceso estacionario wt del tipo ARMA (p,q).
9.11 Procesos Estacionales
Hasta el momento solamente hemos considerado procesos estocsticos que

no contena un componente estacional. Sin embargo, es posible que las variables
sometidas anlisis se hayan medido como datos de frecuencia inferior al ao y, en
consecuencia, son susceptibles de presentar un componente estacional que tenga un
comportamiento propio.
En este apartado vamos a analizar este tipo de modelos considerando que el

proceso contiene solamente componente estacional. No es el caso ms habitual desde el
punto de vista emprico, pero s que tiene inters desde el punto de vista terico, en
especial de cara a ofrecer una mejor comprensin de aquellos procesos que combinan un
comportamiento estacional con otro no estacional.
Vamos a comenzar analizando el caso autorregresivo para, a continuacin,

estudiar los procesos de medias mviles y, finalmente, los procesos mixtos. A lo largo de
las subsiguientes secciones consideraremos que disponemos datos de frecuencia inferior al
ao, en general s, tal que s = 2,4,12 se interpreta como datos de frecuencia bi-mensual,
trimestral o mensuales, respectivamente.
La principal ventaja de utilizar modelos estacionales, es que

mejora el nivel de prediccin y adems permite aumentar el nmero de
datos utilizados en el proceso de calibracin.

9.11.1 Estacionalidad Mediante Variables Dicotmicas
La utilizacin de variables Dicotmicas, Dummies o Ficticias, es tpicamente

utilizada en la modelacin de procesos estacionales. Para cada estacin diferentes, que
puede ser un mes, trimestre, semestre, estacin del ao, e incluso semana, se considera una
variable ficticia. As, si por ejemplo interesa diferenciar entre meses del ao, deben
considerarse 12 variables ficticias; si el anlisis fuera a partir de trimestres, debieran
considerarse 4 variables ficticias, etc.
Si el anlisis fuera, por ejemplo, considerando las 4 estaciones del ao,

tendramos que definir cuatro variables ficticias: D1, D2, D3 y D4. As, para la primera
temporada (verano por ejemplo), la variable D1 toma el valor 1, mientras que el resto de
las variables toma el valor cero. Para la segunda temporada, la variable D2 toma el valor
1, y el resto toma el valor cero; anlogo para las otras dos temporadas.
De esta forma, el modelo estacional puro considerando s estaciones dentro

del ao, es el siguiente:
s
Yt = i Dit + t (9.95)
i =1
Esta ltima expresin corresponde al modelo ms bsico, definido nicamente

por una constante, que representa la ordenada en el origen. Sin embargo, cada estacin
tiene su propia ordenada en el origen i . Cuando no hay estacionalidad, las i son
iguales, y se pueden eliminar todas las variables ficticias estacionales, para dejar slo el
intercepto acostumbrado.
Luego, en lugar de incorporar un conjunto de s variables ficticias estacionales,

podramos incluir slo (s 1) variables ficticias y una ordenada en el origen (intercepto).
Entonces, el intercepto representa la variable ficticia de la estacin omitida, y
los parmetros i representan el aumento o la reduccin en relacin a la estacin omitida.
Sin embargo, por ningn motivo deben incluirse s variables ficticias
estacionales y tambin el intercepto. Recordar que incluir el intercepto equivale a
incorporar una variable que siempre toma el valor 1. Si analizamos, la suma de las
variables ficticias por estacin tambin es 1.

Luego, si se incluye el intercepto y todo el conjunto de s variables ficticias, se

produce multicolinealidad perfecta, y los parmetros no son estimables.
El modelo tambin puede incorporar un trmino de tendencia determinista de

la siguiente forma:
s
Yt = t + i Dit + t (9.96)
i =1
El pronstico y la varianza del error de prediccin se construyen de manera

anloga a los casos anteriores en que no se consider estacionalidad.
9.11.2 Procesos Autorregresivos Estacionales
Un proceso autorregresivo estacional de orden p es:
Yt = + 1Yt s + 2Yt 2 s + .... + pYt ps + t (9.97)
Este proceso lo podemos expresar en funcin de un polinomio autorregresivo

de retardos de la siguiente manera:
(1 + L + L
1
s
2
2s
+ .... + p Lps ) Yt = + t (9.98)
p ( Ls ) Yt = + t (9.99)
Se observa que existen grandes similitudes entre un autorregresivo estacional

y los modelos autorregresivos comunes. La diferencia principal reside en el hecho de que
aqu las correlaciones no se presentan entre un periodo y el
inmediatamente anterior, sino entre un periodo y s periodos atrs.
9.11.3 Estacionariedad del AR(p) Estacional
Dadas estas semejanzas, los resultados van a ser similares entre s. Por
ejemplo, la primera cuestin que debemos dilucidar es si el proceso autorregresivo
estacional es estacionario o no. Tomando como referencia un proceso autorregresivo
regular, podemos decir que un proceso autorregresivo estacional ser estacionario siempre
que las races del polinomio de retardos p ( Ls ) estn todas fuera del crculo unidad.

Una vez impuesta la condicin de estacionariedad, el clculo de los

momentos del proceso es similar a lo que hicimos con anterioridad para el proceso AR(p).
As la media poblacional del proceso es:
E ( Yt ) = E (Yt s ) = .... = E (Yt ps ) = (9.100)

= + 1 + 2 + .... + p = (9.101)
1 1 2 .... p
Resultado es cualitativamente similar al expuesto para un autorregresivo de

orden p no estacional.
Por otra parte, a funcin de autocovarianzas tiene caractersticas similares a la

de un autorregresivo regular. Primero, tiene infinitos valores distintos de 0, no se anula
nunca. Adems, los coeficientes son decrecientes, en valor absoluto.
9.11.4 Procesos Medias Mviles Estacionales
Un proceso media mvil estacional de orden q es:
Yt = + t + 1 t s + 2 t 2 s + .... + q t qs (9.102)
Este proceso lo podemos expresar en funcin de un polinomio autorregresivo

de retardos de la siguiente manera:
Yt = + (1 + 1 Ls + 2 L2 s + .... + q Lqs ) t (9.103)
Yt = + q ( Ls ) t (9.104)
Como todo proceso que solamente tiene parte de medias mviles, este
proceso ser siempre estacionario. No ser, por el contrario, siempre invertible. Para que
cumpla esta caracterstica es necesario imponerle una condicin similar a la de los
procesos de medias mviles regulares. As, un proceso estacional de medias mviles ser
invertible cuando las races del polinomio autorregresivo de retardos estn todas fuera del
crculo unidad.

El anlisis de los momentos de este proceso se hace de forma similar a como

lo hemos venido realizando. En primer lugar, la media poblacional del proceso se obtiene
como:
E (Yt ) = (9.105)
La funcin de autocorrelacin de un proceso estacional de medias mviles

tiene un comportamiento similar al de un proceso regular de medias mviles, pero con la
particularidad de que esta funcin muestra valores distintos de 0 slo en las
frecuencias estacionales, esto es, para s = 1, 2, ....., q. El resto de los coeficientes
de la funcin se anulan.
9.11.5 Identificacin de s
La existencia de un componente estacional en la serie puede deducirse del

contraste de Kruskal - Wallis por:
a.) El grfico de la serie (la serie presenta valores superiores o inferiores al valor medio
anual, los cuales se repiten frecuentemente para determinar periodos al ao).
b.) Correlograma muestral de dicha serie (FAM presenta valores elevados en los
retardos correspondientes a los periodos estacionales).

10 VECTORES AUTORREGRESIVOS
La extensin ms directa de los modelos univariados autorregresivos es la de

considerar un vector de variables que se correlacionan entre s autorregresivamente. Estos
modelos VAR se pueden representar por un sistema de ecuaciones.
En esta seccin se exponen las principales caractersticas de los modelos VAR,

con el objetivo de analizar su estructura y disear procedimientos de especificacin
emprica.
10.1 Estructura Bsica
Consideremos un modelo de dos variables (Yt1 , Yt 2 ) con un rezago (p = 1):
Yt1 = 01 + 11Yt11 + 21Yt 21 + t1

(10.1)
Yt 2 = 02 + 12Yt11 + 22Yt 21 + t2
donde la estructura de residuos ( t1 , t2 ) tienen valor esperado cero y matriz de varianzas

y covarianzas no singular y constante para todo t, y adems en donde estos residuos no
covaran intertemporalmente.
Podemos definir:
Yt1 01 11 21 t1
Yt = 2 , 0 = 2 , 1 = 2 2
, t = 2
Yt 0 1 2 t
La forma matricial del sistema anterior en conjunto con los supuestos se

pueden representar por:
Yt = 0 + 1Yt 1 + t (10.2)
Un ejemplo de especificacin diferente de VAR puede ser:
Yt1 = 01 + 11Yt11 + 21Yt 21 + 31Yt 2 + t1

(10.3)
Yt 2 = 02 + 12Yt11 + 22Yt 21 + 32Yt1 + t2
donde se define ahora:

Y1 1 31 1 1 21 1
Yt = t2 , A= 2 , 0 = 02 , 1 = 12 2
, t = t2
Yt 3 1 0 1 2 t
AYt = 0 + 1Yt 1 + t (10.4)
Yt = A1 0 + A11 Yt 1 + A1t (10.5)

123 { {
0 1 Ut
Yt = 0 + 1Yt 1 + U t (10.6)
La expresin (10.4) se denomina forma estructural del VAR, mientras que

la expresin (10.6) se denomina forma reducida.
10.2 Estacionariedad del VAR
Al igual que en para el caso univariado, se requiere que este sistema sea
estacionario. Estacionariedad estricta o fuerte impone la condicin que la funcin de
distribucin multivariada sea estable en el tiempo, mientras que estacionariedad en su
versin dbil implica necesariamente que la media, la varianza y las covarianzas
intertemporales entre variables dependientes no cambien en el tiempo.
Para ello, se debe encontrar una dinmica convergente del sistema a travs
de analizar las races del siguiente polinomio:
1 0 11 12
p ( ) = det 1 (10.7)
0 1 12 22
424 3
1
La condicin de estacionariedad consiste en que las races de este polinomio

deben estar fuera del crculo unitario, es decir, deben ser mayores a uno.
Para nuestro vector autorregresivo de un rezago (VAR(1)) el polinomio de

segundo grado se representa por la resolucin del siguiente determinante:
1 11 12
p ( ) = det (10.8)
21 1 22

Luego, se obtiene:
1 (11 + 22 ) + 2 (1122 + 2112 ) = 0 (10.9)
donde se requiere que 1 > 1 y 2 > 1 .
Una definicin alternativa consiste en analizar la estacionariedad del VAR

calculando las races que definan que el siguiente polinomio caracterstico:
1 2 1 0
p ( ) = det 11 12 =0 (10.10)

14 2 0 1
2
243
1
donde si se resuelve la ecuacin caracterstica p ( ) = 0 , entonces define al vector

propio de la matriz 1 .
El determinante (10.10) es un polinomio de grado n, equivalente al nmero de

filas (o columnas) de la matriz analizada . Este polinomio permite obtener las races de
1
1 denominados valores propios. Para que un sistema sea estacionario estas races deben
ser menores que 1 en valor absoluto.
Generalizando a un sistema o vector autorregresivo con d variables y con p

rezagos, la representacin matricial con su respectiva condicin de estacionariedad ser:
Yt = 0 + 1Yt 1 + 2Yt 2 + .... + pYt p + t (10.11)
det ( I 1 + 2 2 + .... + p p ) = 0 (10.12)
donde:
i : son las matrices de d x d de coeficientes
0 : es el vector de interceptos de d x 1
t : N ( 0, ) es un vector ruido blanco de d x 1.
La expresin (10.11) se denomina forma Reducida.

Si el proceso VAR es estacionario, entonces se puede rescribir como:
( L ) Yt = 0 + t Yt = 0 + ( L ) t (10.13)
donde ( L ) = ( I k + 1 L + 2 L2 + 3 L3 + ....) , i son matrices de d x d y 0 = E (Yt ) de

dimensin d x 1.
10.3 Resagos ptimos VAR(p)
Al igual que en modelos univariados existen diversos criterios o funciones a

minimizar, y que permiten definir exactamente el nmero de rezagos (u orden) que deben
presentar los modelos de VAR. Entre los ms utilizados empricamente se encuentran los
criterio de informacin de Akaike (AIC), criterio de informacin Bayesiana de Schwarz
(BIC), y el criterio de Hannan y Quinn (HQ).
Los tres criterios imponen una funcin de prdida considerando el nmero de

parmetros a estimar en el modelo, lo cual determina un factor comn: entre los tres
criterios (AIC < HQ < BIC).
pd2
CIA = ln + 2 (10.14)
T
pd2
BIC = ln + ln (T ) (10.15)
T
pd2
HQ = ln + 2 ln ln ( T ) (10.16)
T
donde:
p define el nmero de rezagos del VAR
T: el nmero de observaciones
d: el nmero de ecuaciones (o variables) del VAR
ln : define el logaritmo del determinante de la matriz de varianzas y covarianzas

estimada de los residuos muestrales de cada ecuacin del sistema VAR.

Los elementos de son calculados considerando la estimacin por mximo

verosimilitud de las varianzas de los residuos (es decir dividiendo por T en lugar de dividir
por T (pd2 + 1)) llegando a definirse por:
t1t1 t1t2 .... t1td

1 t1t2 t2t2 .... t2td
= (10.17)
T .... .... .... ....
t1td t2td .... td td
10.4 Estimacin e Identificacin de Parmetros VAR(p)
La estimacin de parmetros de un VAR consiste en estimar los coeficientes de

la forma reducida (ver ecuacin (10.6)). Ello implica que no es factible identificar los
parmetros de la forma estructural al menos que se pongan restricciones de
identificabilidad.
Una manera de identificar los parmetros se basa en la descomposicin de

Cholesky, que corresponde a una descomposicin triangular. Esta descomposicin no es
nica, pero s explcita.
La estimacin por mxima verosimilitud para la forma reducida (10.6) se

realiza a partir de la siguiente expresin:
ln L =
T
2
T
2 2 t =1
{T
}
ln ( 2 ) ln ( 1 ) ( Yt X ) 1 (Yt X ) (10.18)
1 T
donde = ( 0 , 1 ,...., p ) y X = (1, Yt 1 , Yt 2 ,...., Yt p ) .
ln L =
T
2
ln ( 2 ) ln ( 1 ) U tT 1U t
T
2
1 T
2 t =1
( ) (10.19)
( ln L ) T T 1 T T
1
= Ut Ut = 0
2 2 t =1
( ) (10.20)
T 1 T T
= Ut Ut
T t =1
( ) (10.21)

Asintticamente, este resultado es anlogo al de MCO. De hecho, la

estimacin MV condicionada a las observaciones iniciales es la misma que MCO. La
expresin (10.21) indica que el elemento (i,j) de la matriz de varianzas y covarianzas de
U est dado por 1 ( uit u jt ) .
T
T t =1
10.5 Funcin Impulso Respuesta
Consideremos el modelo en forma reducida dado por:
Yt = 0 + 1Yt 1 + t (10.22)
De manera recursiva, tendremos:

Yt = ( I 1 ) 0 + 1i t i
1
(10.23)
i =0
La expresin (10.23) corresponde a la funcin de impulso-respuesta, que

puede interpretarse como la representacin media mvil de un VAR.
Si los vectores propios son linealmente independientes, entonces:
1 0 .... 0
0 .... 0
1 = Z Z 1 , donde = Z = ( z1 , z2 ,...., zn )
2
,
.... .... .... ....

0 0 .... n
La matriz Z corresponde a la matriz de vectores propios, y la matriz

corresponde a la matriz diagonal de los valores propios.
En este contexto, se satisface que lim k +1Yt k 1 = 0 slo si todos los valores
k
propios de son menor a uno en mdulo. Este ltimo aspecto representa la estabilidad
i
1
del modelo VAR, de tal forma que la influencia de los valores iniciales desaparezca
asintticamente. La analoga con los modelos AR es directa.
Debe notarse que 12 = ( Z Z 1 )( Z Z 1 ) = Z 2 Z 1 , y en general se tendr

que 1p = Z p Z 1 .

10.6 Pronsticos en el VAR(p)
El pronstico con el ECM mnimo viene dado por:

h 1
YT + h E (YT + h Y1 , Y2 ,...., YT ) = ( j T + h j ) (10.24)
j =0
Si la longitud del horizonte de pronstico se denota por H y los vectores de

las variables YH y H para todo este perodo son escritos como

YH = Y{ , Y ,...., Y y = , ,...., T + H , respectivamente, ambos de
T +1 T + 2 T +H
H
{ T +1 T +2

d x1 d x1
dimensin dH x 1 (donde d es el nmero de ecuaciones o componentes del VAR) entonces:
YH E (YH Y1 , Y2 ,...., YT ) = H (10.25)
donde la matriz es de dimensin dH x dH. Esta matriz est dada por:
0 0 0 .... 0
0 0 .... 0
= (10.26)
1
.... .... .... ........

.... 0
H 1 H 2 H 3
La aparicin de ceros en la matriz (10.26) es necesaria debido a problemas

de identificabilidad de los parmetros (Cholesqui).
Adems, como t : N ( 0, ) es un vector ruido blanco, se tiene que:
H : N ( 0, I H ) (10.27)
Basados en (10.25) y (10.27) podemos deducir la matriz de varianzas y

covarianzas de los errores de pronsticos del VAR:
(
V YH E (YH Y1 , Y2 ,...., YT )) = ( I H ) T (10.28)

11 PROCESOS ESTOCSTICOS NO ESTACIONARIOS
En este Captulo comenzamos el estudio de los procesos no estacionarios. Un

proceso puede ser no estacionario en la media, en la varianza, en las covarianzas o en
otras caractersticas de la distribucin de las variables a lo largo del tiempo.
Ser no estacionario en la media si el nivel de la serie no es estable en el

tiempo, pudiendo en particular tener tendencia creciente o decreciente. Ser no
estacionario en la varianza o en las covarianzas si estas varan con el tiempo.
Vamos a considerar la clase de procesos no estacionarios integrados, que son

procesos no estacionarios en la media, pero que pueden convertirse en estacionarios
tomando diferencias.
11.1 Paseo Aleatorio
Hemos visto que los procesos MA finitos son siempre estacionarios y que los
AR lo son si las races de ( B ) = 0 estn fuera del crculo unidad. Consideremos el AR(l):
Yt = + Yt 1 + t (11.1)
Si > 1 el proceso es explosivo; si = 1 el proceso es no estacionario y

tampoco es explosivo, y pertenece a la clase de procesos integrados de orden uno (ya
que su primera diferencia, Yt Yt 1 = t , s es un proceso estacionario). Este proceso se
denomina paseo aleatorio, y corresponde al ms simple de los procesos no estacionarios.
Para calcular la funcin de autocorrelacin de este proceso supondremos que

comienza en t = 0. Entonces, sustituyendo sucesivamente Yt por Yt 1 tendremos:
Yt = t + Y0 + t + t 1 + t 2 + ..... + 1 (11.2)
De (11.2) se observa que el impacto de los choques no se disipa con el

tiempo, a diferencia del caso estacionario. Procesos de memoria corta suelen ser
estacionarios, mientras que procesos de memoria larga pueden ser no estacionarios.

La media y varianza del proceso (11.2) son:
E (Yt ) = t + Y0 (11.3)
V (Yt ) = 2 t V (Yt + k ) = 2 ( t + k ) (11.4)
Se observa que la varianza aumenta con el tiempo, lo mismo con la media

cuando > 0 . Adems se tiene:
cov (Yt , Yt + k ) = 2t (11.5)
Luego, la funcin de autocorrelacin es:
cov (Yt , Yt + k ) 2t t
k = = = (11.6)
V (Yt + k ) V (Yt ) ( t + k ) t (t + k )

Si t es grande, los coeficientes de la funcin de autocorrelacn sern

prximos a uno y decrecern muy lentamente con k.
Este proceso puede ser representado por lanzamientos sucesivos de una

moneda, donde la cara recibe el valor +1 y el sello recibe el valor 1.
El pronstico en este caso (considerando = 0) para un perodo ms

adelante est dado por:
YT +1 = E ( YT +1 T ) = YT + E ( T +1 T ) = YT (11.7)
Para dos perodos ms adelante es:
YT + 2 = E (YT + 2 T ) = E ( YT +1 + T + 2 ) (11.8)
YT + 2 = E (YT + T +1 + T +2 ) = YT (11.9)
Del mismo modo, el pronstico para h perodos ms adelante es tambin YT .

Sin embargo, aunque el pronstico Y ser el mismo independiente de h, la varianza del
T +h
pronstico crecer conforme h se haga mayor.

Para un perodo, el error de pronstico es:
T +1 = YT +1 YT +1 = YT + T +1 Y{T = T +1 (11.10)
1424 3
YT +1 YT +1
y su varianza:
V (T +1 ) = 2 (11.11)
El error de pronstico y su varianza para dos perodos es:
T + 2 = YT + 2 YT + 2 = YT +1 + T + 2 YT = YT + T +1 + T + 2 YT = T +1 + T + 2 (11.12)
V (T + 2 ) = E ( T +1 + T + 2 ) = E ( T2+1 ) + 2 E ( T +1T + 2 ) + E ( T2+ 2 )

2
(11.13)

V (T + 2 ) = 2 2 (11.14)
Sucesivamente, la varianza del error de pronstico para h perodos ms es:
V (T + h ) = h 2 (11.15)
De esta forma, el error estndar del pronstico se incrementa con la raz

cuadrada de h. Por lo tanto, se pueden obtener intervalos de confianza para los
pronsticos, los que se volvern ms amplios conforme aumente el horizonte del
pronstico.
Un extensin simple de este proceso consiste en agregar una tendencia en la

serie, de tal forma de agregar tambin una tendencia al pronstico:
Yt = + Yt 1 + t (11.16)
YT +1 = E ( YT +1 T ) = YT + + E ( T +1 T ) = YT + (11.17)
Para h perodos ms adelante es:
YT + h = YT + h (11.18)
Sin embargo, el error de pronstico y su respectiva varianza ser igual que el

caso sin tendencia.

Figura 11.1
Pronstico de un Paseo Aleatorio Sin Tendencia
3
Proceso
0 Cota Superior
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Cota Inferior
-1
-2
-3
Tiempo
Figura 11.2
Pronstico de un Paseo Aleatorio Con Tendencia
10
Proceso
5 Cota Superior
Cota Inferior
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Tiempo

11.2 Procesos ARIMA
El paseo aleatorio expuesto anteriormente ha sido obtenido admitiendo que la

raz de la parte AR de los procesos AR(1) es unitaria, con lo que se convierte en no
estacionario.
Esta idea puede generalizarse para cualquier proceso ARMA, permitiendo

una o varias races unitarias en el operador AR. Se obtienen entonces procesos del tipo:
(1 L L
1 2
2
.... p Lp ) (1 L ) Yt = (1 1 L 2 L2 .... q Lq ) t (11.19)
d
( L ) d Yt = ( L ) t (11.20)
( L ) wt = ( L ) t (11.21)
La serie Yt es no estacionaria homognea de orden d, si la serie wt = d Yt es

estacionaria. Entonces, Yt es un proceso autorregresivo integrado de media mvil de orden
(p,d,q) y se denomina ARIMA (p,d,q). Si se aplican diferencias de orden d a Yt se obtiene
un proceso estacionario wt del tipo ARMA (p,q).
En esta notacin p es el orden de la parte autorregresiva estacionaria, d es el

nmero de races unitarias (orden de integracin del proceso) y q es el orden de la parte
media mvil.
El paseo aleatorio es el modelo ARIMA (0,1,0) que se caracteriza porque su

funcin de autocorrelacin simple tiene coeficientes que decrecen lentamente. Todos los
procesos ARIMA no estacionarios tienen esta propiedad general.
En consecuencia, la FAS tendr coeficientes positivos que se amortiguarn

linealmente y pueden ser distintos de cero incluso para valores altos de k. Esta propiedad
de persistencia de valores positivos en el correlograma (aunque sean pequeos) y de
decrecimiento lineal caracteriza a los procesos no estacionarios.
Sin embargo, la diferenciacin de una serie para convertirla en

estacionaria slo es adecuado cuando nos encontramos ante tendencias
estocsticas, nunca cuando estamos ante tendencias deterministas.

En el caso de tendencia determinista, el procedimiento habitual es de aplicar

sobre la serie original un filtro sencillo: se estima la regresin de la serie no estacionaria Yt
sobre un trmino de tendencia determinista obtenindose una estimacin de la serie
original Yt : Yt = 0 + 1t
Luego, es suficiente trabajar con la expresin:
(
Y%t = Yt Yt = Yt 0 + 1t ) (11.22)
11.2.1 Identificacin de Procesos ARIMA
El objetivo de esta etapa es buscar un proceso ARMA que haya podido

generar la serie temporal, es decir, que se adapte lo mejor posible a las caractersticas de
dicha serie. Pero esos procesos son estacionarios, por lo que habr que efectuar un anlisis
de la estacionariedad de los datos.
Para analizar la estacionariedad de una serie, se utilizan los siguientes

instrumentos:
Representacin Grfica. Si el grfico de la serie temporal presenta

fluctuaciones cuya amplitud cambia para distintos intervalos del perodo
muestral, se pensar que el proceso que genera la serie es no estacionario. Lo
mismo sucede cuando la tendencia es creciente o decreciente con el tiempo.
El Correlograma. El hecho de que la funcin de autocorrelacin simple

decrece muy lentamente al aumentar el retardo, ha demostrado ser una seal
de tendencia no estacionaria. Puesto que en la prctica se dispone de una
realizacin de un proceso estocstico, podemos obtener los coeficientes de
autocorrelacin muestral y, a partir de ellos, el correlograma muestral. Una vez
representado el correlograma muestral, se conoce si la serie es o no
estacionaria.
Mediante Contrastes de Races Unitarias. Son vlidos para determinar

si existe tendencia determinstica o estocstica; se vern ms adelante.

Grfico Desviacin Tpica de la Media. Si conforme crece la media, la

desviacin tpica aumenta, la varianza del proceso es creciente.
Si la serie temporal no es estacionaria se aplican las transformaciones

adecuadas con objeto de convertirla en estacionaria.
Cuando la serie presente no estacionariedad en media, se suele aplicar

el proceso de diferenciacin. Pero, a veces, la toma de diferencias no es suficiente para
obtener series estacionarias en media y en varianza.
Una solucin consiste en fijar logaritmos de la serie, teniendo en cuenta que

posteriormente hay que deshacer el cambio de variable. En series econmicas que estn
afectadas por una fuerte tendencia, suele ser necesario efectuar alguna transformacin del
tipo Box-Cox, para obtener una serie estacionaria en varianza.
Una vez estacionaria, se determinar el orden de la parte autorregresiva (p) y

el de la parte de medias mviles (q) del proceso ARMA, que se considere haya podido
generar la serie estacionaria.
Para tal fin se utilizan el correlograma estimado y la funcin de

autocorrelacin parcial estimada. Esta ltima puede obtenerse de dos formas alternativas,
prcticamente equivalentes: mediante el sistema de Yule-Walker, y mediante el mtodo de
regresin (MCO o MV).
Se puede utilizar el sistema de Yule-Walker para estimar los coeficientes de

autocorrelacin parcial a partir de los simples estimados:

11 = 1 = 1 (11.23)
1
21 1 1 1
= (11.24)
1
1 2
22
31 1 1 2 1

32 = 1 1 1
2 (etc.) (11.25)

33 2 1 1
3


(
Luego, los valores de 11 , 22 , 33 ,...., kk ) se usan para construir la FAP.
La otra opcin para el clculo de la FAP, consiste en obtener los coeficientes
mediante las siguientes regresiones sucesivas:
Yt = 11Yt 1 + t (11.26)
Yt = 21Yt 1 + 22Yt 2 + t (11.27)
Yt = k1Yt 1 + k 2Yt 2 + .... + kk Yt k + t (11.28)
Las estimaciones kk son la correlacin estimada existente entre Yt e Yt k ,

despus de eliminar el efecto de Yt 1 , Yt 2 ,...., Yt k +1 .
En los modelos AR(p), la FAP presenta los p primeros coeficientes distintos de

cero y el resto nulos. La FAS presenta un decrecimiento rpido de tipo exponencial,
sinusoidal o ambos. En los modelos MA(q), sucede el patrn opuesto: la FAS se anula para
retardos superiores a q y la FAP decrece exponencial o sinusoidalmente.
Sin embargo, la especificacin de los modelos ARMA no se ajusta a unas

normas tan bien definidas. Por ejemplo, en un modelo AR(1), la FAP es cero para k >1,
pero esto no ocurre en un ARMA(1,1), pues a la componente AR(1) hay que superponer la
MA(1) cuya FAP converge exponencialmente a cero.
En la prctica, se puede especificar una de las componentes y

analizar sus residuos. Si el modelo considerado es un ARMA (2,1) se
especifica inicialmente la componente AR(2). Se analizarn estos residuos a
travs del correlograma y si siguen un MA (1), el proceso completo ser un
ARMA (2,1).
Para que una serie sea fcilmente identificable hay que

considerar un tamao mayor a 50.
El estimador k de la FAS es una variable aleatoria cuya varianza se estima

de forma aproximada (Barlett, 1946) por:
1 k 1

V ( k ) =
T
1 + 2
i =1
12

(11.29)

Con un tamao muestral suficientemente grande, k se aproxima a una

distribucin normal. Se puede, por lo tanto, construir un intervalo de confianza al 95%,
para contrastar la hiptesis nula de que k = 0 definido por 1,96 V ( k ) .
Si los coeficientes muestrales caen dentro del intervalo, se concluye que los
coeficientes de autocorrelacin no son significativamente distintos de cero. En la prctica,
esta frmula permite identificar procesos de media mvil, para los cuales k se anula a
partir de algn k > q.
Para la FAP, se ha demostrado (Quenouille, 1949) que, en un proceso AR(p):
( ) 1
V kk = , k > p
T
(11.30)
1
por lo que el intervalo de confianza, al 95%, para contrastar kk = 0 es igual a 1, 96 .
T
Es posible verificar si una muestra procede de un proceso autorregresivo de

un orden p* dado, comprobando si kk cae dentro del intervalo para todo k > p* (es
significativamente igual a cero).
En la prctica, se utilizan estas tcnicas para calcular intervalos de confianza

para todos los coeficientes de autocorrelacin parcial estimados, con independencia de
cul sea el tipo de proceso, que se desconoce de antemano.
Tambin hay que identificar la inclusin o no de trmino independiente

(constante). La media del proceso est ligada al mismo, por lo tanto, si la media observada
se considera significativamente igual a cero, no se introducir trmino independiente en el
modelo.
Esta etapa suele plantear ciertas dificultades y su objetivo consiste, en general,

en la especificacin tentativa de unos pocos modelos con estructuras sencillas. La etapa de
estimacin y la posterior validacin de los resultados confirmarn los indicios o, por el
contrario, servirn de fundamento para la reformulacin de los modelos propuestos.

11.2.2 Estimacin de Procesos ARIMA
Dado que wt = d Yt wt = (1 L ) Yt se puede construir el siguiente modelo

d
ARMA(p,q):
(1 L L
1 2
2
.... p Lp ) wt = (1 1 L 2 L2 .... q Lq ) t (11.31)
El objetivo es la estimacin de los parmetros i y j , para lo cual se dispone

de una muestra de tamao T de la variable Y. Sin embargo, al tomar las diferencias de
orden d, quedarn slo (T d) datos ( w1 , w2 ,...., wT d ) .
Es importante insistir en que las hiptesis que se consideran en el proceso de

estimacin son:
El error es ruido blanco gaussiano: t : N ( 0, 2 ) .
El proceso es estacionario.
El proceso es invertible.
Debemos obtener estimaciones de los p parmetros autorregresivos y los q

parmetros media mvil. La metodologa consiste en elegir los valores de parmetros que
minimizan la suma de diferencias al cuadrado entre la serie de tiempo real wt = d Yt y la
ajustada w t .
De otra forma, podemos escribir la expresin (11.31) en funcin de los

trminos del error gaussiano, considerando eso s que la parte media mvil es invertible:
( L)
( L ) wt = ( L ) t t = wt (11.32)
(L)
Considerando los estimadores y , la expresin sera:
( L )
t = wt (11.33)
( L )
Luego, se debe minimizar la expresin

t
2
t .

Si estn presentes los trminos de media mvil, esta expresin es no lineal, por
lo que deben utilizarse mtodos de estimacin no lineales. Adicionalmente, debe emplearse
algn criterio para inicializar la serie (elegir nmeros para los valores iniciales no
observada).
Supongamos que un total de T + d observaciones estn disponibles para la

serie estacionaria homognea de orden d; denotamos esta observaciones como
(Y d +1;....; Y0 ; Y1;....; YT ) . Despus de diferenciar la serie d veces, obtenemos la serie
estacionaria con T observaciones ( w1;....; wT ) . El problema consiste ahora en estimar el
modelo ARMA(p,q) que se ha especificado para la serie wt .
Dado que t es un proceso rudo blanco, la funcin de log-verosimilitud

condicional asociada al vector de parmetros a estimar es la siguiente:
t
2
l = T ln t
(11.34)
2 2
Dado que los parmetros a estimar estn dentro del segundo trmino de la
derecha, se obtiene que la estimacin por mxima verosimilitud condicionada y mnimos
cuadrados es la misma.
11.2.3 Inicializacin de la Serie
Dado que la expresin

t
2
t depende de los valores pasados (est
condicionada) la estimacin depender por lo tanto de la eleccin de los valores iniciales

de la serie.
La solucin ms comn para escoger los valores iniciales de la serie

corresponde a establecer que dichos valores iniciales son iguales a sus medias no
condicionales.
Las medias no condicionales de los errores t son cero siempre, mientras que
si no existe tendencia, la media no condicional de los wt iniciales tambin ser cero. Esto
proporcionar una aproximacin inicial adecuada si los valores reales de i
no son cercanos a 1 y si T es grande respecto a p y q.

Un mtodo alternativo es inicializar la serie con las medias condicionales. Sin

embargo, este procedimiento es tcnicamente difcil y los beneficios poco importantes. Por
lo tanto, se recomienda inicializar las series en cero. Luego, dado que se
consideraron los valores no condicionales para inicializar la serie, los intervalos van de 1
T
hasta T:
t =1
2
t .
Sin embargo, es importante hacer notar que la estimacin no lineal de los

parmetros, producto de la existencia de media mvil, depender de manera importante
de los valores con los que se inicialice el proceso iterativo.
Si los valores iniciales estn cerca de los verdaderos parmetros, la

estimacin ser ms rpida, pero si los valores iniciales son muy diferentes de los reales,
puede que incluso el procedimiento iterativo de calibracin no converja. Para
ello, es factible utilizar la funcin de autocorrelacin muestral. De hecho, pueden
utilizarse las ecuaciones de Yule-Walker como estimaciones iniciales.
Si el modelo contiene una parte MA, se tendr que las ecuaciones de Yule-
Walker que relacionan la funcin de autocorrelacin con los valores de los parmetros no
ser lineal. Ello implica que se pueden obtener soluciones mltiples para un determinado
estimador de la parte MA.
Esto se hace ms problemtico a medida que aumente q. De hecho, para

obtener estimaciones iniciales para la parte MA(q) es necesario resolver q ecuaciones no
lineales simultneas.
Notar que los valores de los parmetros estimados con las ecuaciones de
Yule-Walker corresponden a la funcin de autocorrelacin muestral, y son por lo tanto una
estimacin de la funcin de correlacin real.
De hecho, para muestras pequeas la funcin de autocorrelacin muestral

estar sesgada en forma descendente en relacin a la funcin de autocorrelacin real.
Despus que se ha estimado el modelo, se utiliza algn procedimiento de

verificacin diagnstica para determinar si fue correcta o no la especificacin inicial del
modelo calibrado. Para ello, esperaramos que los residuos t se parezcan a los errores
verdaderos t , los cuales por suposicin no estn correlacionados (ruido blanco).

Una vez que el modelo ha pasado la etapa de verificacin diagnstica,

puede entonces utilizarse para prediccin.
11.2.4 Validacin de Procesos ARIMA
Por otra parte, es interesante comprobar la capacidad de ajuste a los datos

del modelo propuesto y estimado. Si ste no supera satisfactoriamente este paso, es
necesario reformularlo. Cabe decir que los resultados de la comprobacin de la validez
del modelo suelen dar insinuaciones para proceder a la especificacin de uno diferente.
Algunos anlisis de validacin del modelo son los siguientes:
a) Anlisis de los residuos:
Se parte de la hiptesis de que el trmino de error de un modelo ARIMA es

ruido blanco. Estos errores son inobservables, pero no ocurre lo mismo con los
residuos. Cualquier contraste sobre la perturbacin aleatoria debe basarse en
los residuos del modelo, los cuales deben seguir el comportamiento de un
proceso puramente aleatorio normal. En caso contrario, contendran
informacin relevante para la prediccin.
Con el objeto de estudiar si los residuos se aproximan al comportamiento de

un proceso ruido blanco, se disponen de las siguientes herramientas:
b) Contraste independencia de Box-Pierce y Ljiung-Box
Est destinado a contrastar la independencia o no autocorrelacin de los

residuos. La autocorrelacin se mide por los coeficientes de autocorrelacin de
los residuos rk .
Notar que k corresponde a las autocorrelaciones de Yt , mientras que rk est

relacionado a las de t .
Es un contraste global acerca de la no autocorrelacin de los residuos de las

observaciones separadas un nmero determinado de periodos:
H 0 : r1 = r2 = .... = rk = 0 .

Se utiliza el siguiente estadstico propuesto por Box y Pierce (1970):

m
Q ( m ) = T rt 2 : m2 p q (11.35)
t =1
La eleccin de m es arbitraria (m = T/4). Cuanto mayor sea mel contraste se

extender a desfases mayores, pero la precisin en la estimacin de los rk es
menor y disminuye la potencia del contraste, es decir, aumenta la probabilidad
de no rechazar la hiptesis nula cuando es falsa (error tipo 2).
Se rechazar la hiptesis nula si el valor de Q experimental es superior que el

terico o tabulado de la distribucin a un nivel de significacin dado.
El estadstico de Ljiung-Box es:

m
rt 2
Q ( m ) = T (T + 2 ) : m2 p q (11.36)
t =1 T t
Cuanto mayor sea el nivel de significacin crtico mayor confianza podemos

tener para aceptar la hiptesis nula y viceversa: si toma el valor cero, podemos
rechazar la hiptesis nula al 100% de confianza.
c) Representacin de la FAS y FAP de los residuos
La serie de residuos es aleatoria si los coeficientes de autocorrelacin simple y

parcial son significativamente cero. Anderson (1942) ha demostrado que los
coeficientes de autocorrelacin simples muestrales procedentes de un proceso
ruido blanco, siguen asintticamente la siguiente distribucin:
1
rk : N 0, , k (11.37)
T
En consecuencia, bajo la hiptesis de que rk = 0 , se construye un intervalo de

1,96
confianza al 95% de la forma . Si algn rk cae fuera de los lmites, se
T
rechaza la hiptesis de no autocorrelacin. En este caso hay evidencia de no
aleatoriedad de la serie.

Adems, los errores debern alternar el signo de su coeficiente de

autocorrelacin sin ningn criterio obvio.
Tambin, los coeficientes de la FAP deben ser significativamente cero. En la

prctica se construyen bandas de confianza utilizando la distribucin de una
1
variable ruido blanco cuya varianza es segn se ha visto anteriormente.
T
Hay que tener en cuenta que esta aproximacin realizada sobre la varianza
no es muy adecuada tanto para la FAS como para la FAP, especialmente en
los retardos bajos. Se podra concluir que un coeficiente es estadsticamente no
significativo cuando en realidad lo es.
La FAS y la FAP de los residuos del modelo estimado son instrumentos valiosos
a la hora de reformular el modelo, en caso de que no se comporten como un
proceso ruido blanco.
Supongamos que se ha estimado un AR(1):
Yt = 1Yt 1 t = Yt 1Yt 1 (11.38)
Despus de examinar la FAS y la FAP de la serie t , se llega a la conclusin

de que sigue un modelo MA(1), no un proceso ruido blanco : t = t 1 t 1 .
Sustituyendo en el modelo AR (1):
Yt = 1Yt 1 + t 1 t 1 (11.39)
se puede concluir que Yt es un ARMA(1,1).
d) Representacin Grfica de los residuos
La representacin de los residuos en el tiempo permite observar si la varianza

es constante y si la media est prxima a cero. Adems, se puede verificar si
se ajustan a una distribucin normal y la existencia de residuos atpicos. Un
residuo se considera atpico si el valor absoluto excede en tres o cuatro veces
su desviacin tpica (siendo su media cero).

Para contrastar la existencia de heteroscedasticidad se puede realizar el

contraste de White (1980). Su hiptesis nula es que el trmino de perturbacin
es homocedstico e independiente de los regresores y que la especificacin
lineal es correcta. Para contrastar la normalidad se utiliza el contraste de
Jarque-Bera (1987).
e) Anlisis de los Parmetros Estimados
Primero hay que verificar si los parmetros o coeficientes son significativos. El

estadstico de contraste est construido bajo la hiptesis nula de que el
coeficiente es cero y sigue una distribucin t-student con T - k grados de
libertad, con k igual al nmero de parmetros incluidos.
Si concluimos que alguno no es significativo se puede suprimir.
i i
H 0 : i = 0 : tT k (11.40)
( )
V i
j j
H 0 : j = 0 : tT k (11.41)
( )
V j

H0 : = 0 : tT k (11.42)
( )
V
La aplicacin del contraste anterior requiere un contraste de dos colas, pues la

hiptesis alternativa considera que puede tomar el coeficiente cualquier valor
distinto de cero. Si el valor obtenido es mayor que el terico tabulado, se
rechaza la hiptesis nula y el parmetro es significativo.

Otro aspecto importante es el examen del cumplimiento de las condiciones de

estacionariedad e invertibilidad. Si alguna de las races ( L* ) de:
1 1 L 2 L2 .... p Lp = 0 (11.43)
1 1 L 2 L2 .... q Lq = 0 (11.44)
fuesen inferior a la unidad, el modelo se rechazara.
Si alguna de las races de 1 1L 2 L2 .... p Lp = 0 estuviese prxima a

uno, es posible que la serie original est sub-diferenciada, por lo que puede
que precise alguna diferenciacin adicional (raz unitario, no estacionariedad).
Si alguna de las races de 1 1 L 2 L2 .... q Lq = 0 est prxima a uno, es

posible que el modelo est sobre-diferenciado.
Si existen races comunes ( L*i = L*j ) , se podra utilizar para las predicciones un
modelo con dos parmetros menos, y el modelo sera un ARMA(p-1, q-1).
Es conveniente tambin examinar la matriz de correlacin entre los coeficientes

estimados. Cuando la correlacin entre dos coeficientes es prxima a uno, los
coeficientes estimados son muy inestables, con lo que podran cambiar
bastante de una muestra a otra.
El modelo estimado para el perodo muestral puede diferir del que se

obtendra para los perodos de prediccin. Puede existir este problema siempre
que alguna de las correlaciones entre estimadores tome un valor superior a
0,6.
Para evitar este problema, puede ser eficaz eliminar algn parmetro an a
costa de que el grado de ajuste sea ms pequeo. No obstante, si todos los
coeficientes son significativos no sera aconsejable eliminar coeficientes del
modelo.

f) Anlisis de Bondad de Ajuste
Es factible usar el R 2 y el R 2 ajustado ( R 2 ) . El coeficiente de determinacin

ajustado penaliza la introduccin de parmetros adicionales en el modelo. Si
se introducen parmetros adicionales, aunque no sean apropiados, pueden
incrementar el R 2 . Para evitar este problema se suele utilizar el coeficiente
ajustado.
El modelo se ajusta en mayor medida a los datos cuanto ms prximos a la

unidad estn los coeficientes de determinacin. Pero slo son comparables
en modelos en los que se hayan tomado idntico nmero de
diferencias, debido a que, para que este sea un elemento de comparacin
directa, la varianza de la variable debe ser la misma.
Si se calcula el coeficiente de determinacin R 2 con la varianza de la variable

diferenciada una vez, el resultado no ser comparable con el calculado a
partir del ajuste a un modelo sobre la variable original.
Para paliar el anterior inconveniente, se han propuesto medidas alternativas

destacando el estadstico AIC (Akaike Information Criterion), formulado por
Akaike (1974). Consiste en seleccionar aqul modelo para el que se obtenga
un AIC ms bajo. Otra medida es SC (Schwarz Criterion) y cuanto menor sea
ste, mejor es el ajuste.
g) Anlisis de Estabilidad
La construccin de un modelo ARIMA est justificada por su utilizacin para la

prediccin. Conviene saber entonces si el modelo estimado para el perodo
muestral sigue siendo vlido para perodos futuros.
Se pretende contrastar si el ltimo tramo muestral ha estado generado por la

misma estructura que el resto de las observaciones.

Para esta finalidad se puede aplicar el contraste de estabilidad estructural de

Chow:
T 2 T1 2 T2 2
t 1t + 2 t k
t =1
F= T
t =1 t =1
: F( k ,T 2 k ) (11.45)
1 2 T
2
1t + 2t (T 2k )
2
t =1 t =1
donde k es el nmero de parmetros a estimar, T = T1 + T2 , t es el residuo

del modelo utilizando todo el perodo muestral, 1t es el residuo utilizando los
T1 primeros datos, y 2t es el residuo utilizando los T2 ltimos datos.
Algunos autores aconsejan tomar como segundo tramo muestral un tercio o un

cuarto de la muestra. Si la F calculada o experimental es mayor que la
tabulada o terica a un determinado nivel de significacin, se rechaza la
hiptesis de estabilidad estructural.
11.2.5 Prediccin con Procesos ARIMA
Una vez que el modelo ha sido estimado y sometido a la fase de diagnosis, se

convierte en un instrumento til para la prediccin. Sea el modelo estimado ARMA(p,q),
para la serie wt , siendo la serie original Yt un proceso ARIMA(p,d,q). Se trata de predecir
los valores para la serie no estacionaria Yt , una vez se haya realizado para la serie wt
estacionaria.
Por ejemplo, si wt = Yt Yt 1 , donde wt es estacionaria, la estimacin de esta

serie para el perodo T + 1 es w T +1 . Luego, la correspondiente prediccin de YT +1 est
dada por Y = w + Y . Si hubiera sido una aplicacin de segundo orden
T +1 T +1 T
( wt = Yt 2Yt 1 + Yt 2 ) , la prediccin sera entonces YT +1 = w T +1 + 2YT YT 1 .
La mejor prediccin puntual es aqulla que se obtiene mediante la esperanza

matemtica condicional a toda la informacin disponible hasta el perodo de prediccin. La
expresin de este predictor es la siguiente:
YT +1 = E ( YT +1 YT , YT 1 ,...., Y0 ) (11.46)

YT +1 = + 1YT + 2YT 1 + .... + pYT p +1 + T +1 1 T 2 T 1 .... q T q +1 (11.47)
Tomando esperanzas condicionadas, se obtiene:
YT +1 = + 1YT + 2YT 1 + .... + pYT p +1 1 T 2 T 1 .... q T q+1 (11.48)
donde todas las variables con subndices inferiores a T+1, dejan de ser aleatorias, por lo
que sus esperanzas matemticas coinciden con sus realizaciones y E ( T +1 ) = 0 , por
hiptesis.
Despus de obtener YT +1 se calcula YT + 2 , y as sucesivamente. Los t son

inobservables, por lo que hay que sustituirlos por sus estimaciones, que se obtienen a travs
de los sucesivos residuos del modelo.
Si algn residuo no es posible obtenerlo, se considera igual a su media

terica: cero. Esta solucin es aceptable si el proceso es invertible, dado que, en ese caso,
la importancia de los valores iniciales tiende a desaparecer a medida que aumenta el
tamao muestral.
Cuando dispongamos de los valores observados, se utilizan para efectuar la

prediccin; si no se conocen, se utilizan sus estimaciones en perodos anteriores. A medida
que el horizonte de la prediccin crece, la prediccin por puntos de un modelo ARMA
tiende a la media.
a) Error de Prediccin
La prediccin de una variable aleatoria como es Yt conlleva incertidumbre,

pues depende de la muestra considerada; entonces aparece un error de
prediccin.
Si se conociesen los valores exactos de los coeficientes, cosa imposible en la

mayora de los casos, sera posible obtener una expresin del error de
prediccin como sigue:
t + s = Yt + s Yt + s (11.49)

Escribamos el proceso ARMA, como un proceso de medias mviles de infinitos

trminos, mediante sustituciones sucesivas:
Yt = + 1Yt 1 + 2Yt 2 + .... + pYt p + T +1 1 t 1 2 t 2 .... q t q (11.50)
Yt = % + t + 1 t 1 + 2 t 2 + 3 t 3 + .... (11.51)

Yt + s = % + t + s + 1 t + s 1 + 2 t + s 2 + .... + s 1 t + s s 1 + s + j t j (11.52)
j =0
La prediccin Yt + s se puede basar nicamente en la informacin disponible

hasta el perodo t.
Escribimos la prediccin como una suma ponderada de los trminos de error

que podemos estimar:

Yt + s = % + s + j t j (11.53)
j =0
donde las ponderaciones s + j se elegirn de manera que minimicen el Error

Cuadrtico Medio de prediccin. Luego, y considerando (11.52) y (11.53), el
error de prediccin es:
t + s = Yt + s Yt + s (11.54)

t + s = t + s + 1 t + s 1 + 2 t + s 2 + .... + s 1 t + s s +1 + ( s + j s + j ) t j (11.55)
j =0
El error cuadrtico medio de prediccin, considerando que E ( i , j ) = 0 es

de la forma:

E ( t + s ) = 2 (1 + 12 + 22 + .... + s21 ) + 2 ( s + j s + j )
2 2
(11.56)
j =0
Dado que el error cuadrtico medio se minimiza cuando s + j = s + j ,

finalmente se obtiene:
t + s = t + s + 1 t + s 1 + 2 t + s 2 + .... + s 1 t + s s +1 (11.57)

V (t + s ) = E ( t + s ) = 2 (1 + 12 + 22 + .... + s21 )
2
(11.58)

El uso ms importante de los errores de prediccin es la construccin de

intervalos de confianza para la prediccin. El intervalo de prediccin para el
pronstico de Yt + s es, al 95%, Yt + s 1, 96 (1 + 12 + 22 + .... + s21 ) .
El clculo de los parmetros i se obtiene a partir de las siguientes

relaciones:
( L ) Yt = ( L ) t Yt = ( L ) ( L ) t = ( L ) t
1
(11.59)
14243
( L)
b) Capacidad de Prediccin
Podemos verificar si el modelo sigue siendo vlido para los perodos de

prediccin, una vez se ha comprobado su validez para el periodo muestral.
Para ello, es utiliza el siguiente estadstico:

h
2
t + s +1 t + s
s =0
: h2 (11.60)
2
Donde t2+ s +1 t + s es el error de prediccin de Yt + s +1 utilizando la informacin
disponible en el momento (t + s) y 2 =
t
2
, con k el nmero de
T k
parmetros del modelo (k = p + q).
Si el valor calculado en (11.60) supera al tabulado, habr diferencias

significativas entre los verdaderos valores y los estimados, por lo que se
rechazar la hiptesis nula de estabilidad.

11.3 Orden de Integracin de una Serie: Mtodos No Paramtricos
El orden de integracin se puede determinar de diversas formas. Una de ella

es el uso de mtodos no paramtricos.
Estos mtodos tienen la ventaja de que no es necesario formular ninguna

hiptesis ni calcular la distribucin de un estadstico bajo dicha hiptesis. Por contra, suelen
ser bastante subjetivos y no tan fiables como los mtodos paramtricos. En cualquier caso,
siempre pueden darnos pistas sobre el orden de integracin de la variable.
Es recomendable considerar estos mtodos no paramtricos

antes de calibrar los modelos.
En esta seccin vamos a considerar tres mtodos alternativos: estudio de la

funcin de autocorrelacin, sobrediferenciacn de la serie y estudio de la
varianza para diversos rdenes de integracin. No es conveniente utilizarlos de
forma separada, sino que lo ms habitual es usarlos conjuntamente.
11.3.1 Anlisis de la Funcin de Autocorrelacin
Supongamos que tenemos un proceso autorregresivo de orden 1. Su funcin

de autocorrelacin es igual a k = 1k - Esta funcin de autocorrelacin decae hacia 0,
pero slo se anula en el infinito.
Entonces, el decaimiento que se observa en la funcin de autocorrelacin de

la variable depende del valor del parmetro 1 . Si este toma, por ejemplo, un valor igual a
0.5, entonces para k = 5 el coeficiente de la funcin de autocorrelacin es igual a 0.03. Si
1 = 0.8 , entonces 5 = 0.33 + mientras que la funcin de autocorrelacin toma el valor
0.03 cuando k = 16.
Esto conlleva que cuanto mayor es el valor del parmetro

autorregresivo ms lenta es la convergencia hacia 0 de la funcin de
autocorrelacin.
Si consideramos el caso lmite, 1 = 1 , en el que el proceso no es estacionario,

la funcin de autocorrelacin debera expresar un decaimiento muy lento hacia 0, con
abundantes valores distintos de 0.

Figura 11.3
Correlogramas Para Distintos Procesos
1.2 1.2
1 1
0.8 0.8
rho(k)
rho(k)
0.6 phi = 0.5 0.6 phi = 0.8
0.4 0.4
8
8
0.2 0.2
6
6
4
4
2
2
0 0
0
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
k k
1.2 1.2
1 1
0.8 0.8
rho(k)
rho(k)
0.6 phi = 0.9 0.6 phi = 0.99
0.4 0.4
8
8
0.2 0.2
6
6
4
4
2
2
0 0
0
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
0
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
k k
El problema que presenta este procedimiento es su subjetividad. No queda

claro cundo podemos considerar que el primer valor del coeficiente de autocorrelacin
est suficientemente prximo a la unidad, basta con 0,7 o tiene que ser igual a 0,9999?;
Tampoco queda claro cundo el valor est prximo a 0, ni cunto valores de

la funcin de autocorrelacin deben ser distintos de 0 para considerar que el decaimiento
hacia 0 es lento.

11.3.2 Sobrediferenciacin
La justificacin de este mtodo es la siguiente. Supongamos que tenemos un

proceso estacionario, un ruido blanco por ejemplo: Yt = t . Si tomamos primeras
diferencias, entonces el modelo se convierte en:
Yt Yt 1 = t t 1 (1 L ) Yt = (1 L ) t (11.61)
y que es igual a:
Yt = t + 1 t 1 (11.62)
Esto lo podemos interpretar diciendo que la variable Yt sigue un proceso

MA(1) no invertible con parmetro 1 = 1 . Esta no invertibilidad nos est indicado que el
proceso est sobre diferenciado.
Si tomamos en consideracin ahora la forma que adopta la funcin de

autocorrelacin de un MA(1), es directo comprobar que el primer valor de esta funcin
ser igual a:
1 1
1 = = = 0,5 (11.63)
1 + 1 1 + 1
2
y el resto de los valores sern iguales a 0.
A partir de este resultado particular, podemos sacar la conclusin para el

caso general y decir que si la serie que estamos analizando est
sobrediferenciada, su funcin de autocorrelacin exhibe un
comportamiento de medias mviles con primer valor de la funcin de
autocorrelacin prximo a 0,5.
Entonces, el proceso a seguir es el siguiente.
En primer lugar debemos estudiar la funcin de autocorrelacin simple

(FAS) de la serie en niveles (Yt ) .
Si tenemos dudas sobre el decaimiento lento hacia 0, entonces debemos

calcular la FAS para la variable diferenciada ( Yt ) .

Si sta presenta un comportamiento similar al de un MA(1), con su

primer coeficiente prximo a 0,5 podemos concluir que est
sobrediferenciada y concluir que la variable es estacionaria en niveles
(valores originales de la serie sin diferenciar). En caso contrario, es posible
concluir que la serie es integrada.
11.3.3 Anlisis de la Varianza
Un mtodo asociado al caso anterior es el estudio de la varianza de la

variable para diversos rdenes de integracin. La justificacin del mtodo es la siguiente.
Supongamos que la variable est generada por un paseo aleatorio Yt = Yt 1 + t . La
varianza de la variable Yt es igual a V (Yt ) = t 2 .
Por tanto, es una varianza que tiene hacia infinito. Si tomamos primeras
diferencias, el modelo anterior nos queda de la siguiente manera:
Yt = t (11.64)
Por tanto, es inmediato comprobar que la varianza de la variable en primeras

diferencias es V ( Yt ) = 2 .
Por ltimo, si sobrediferenciamos la variable anterior, el modelo queda as:
2Yt = 2 t = t t 1 (11.65)
de lo que se desprende que V ( Yt ) = V ( t t 1 ) = V ( t ) + V ( t 1 ) = 2 2 .
En virtud de estos resultados, el procedimiento a seguir sera obtener la

varianza de la variable que estamos analizando para diversos valores del parmetro de
diferenciacin d. El orden de integracin seleccionado sera aquel para el que
la varianza de la variable se minimiza.

12 RACES UNITARIAS Y COINTEGRACIN
Los mtodos de estimacin que se usan habitualmente en los trabajos

econmicos aplicados suponen que las medias y varianzas de las variables son constantes,
bien definidas e independientes del tiempo. Sin embargo, estas suposiciones no son
satisfechas por un gran nmero de series temporales de tipo econmico. Las variables
cuyas medias y varianzas cambian a lo largo del tiempo se dicen no estacionarias o con
races unitarias. Utilizar mtodos clsicos de estimacin como MCO para
estimar relaciones con variables no estacionarias produce inferencias
errneas.
Si las medias y varianzas de las variables raz unitaria cambian a lo largo

del tiempo, todos los estadsticos computados en un modelo de regresin,
que usa estas medias y varianzas, tambin dependen del tiempo y no
convergen a su verdadero valor cuando el tamao muestral aumenta.
Incluso los contrastes convencionales de hiptesis estarn muy sesgados hacia el rechazo
de la hiptesis nula de no relacin entre las variables dependiente e independiente.
La aplicacin de tcnicas de cointegracin y races unitarias son

fundamentales para entender los siguientes aspectos:
Determinar si las variables en una regresin son o no estacionarias.
Estimar si las variables satisfacen ciertas condiciones. Estas regresiones

de cointegracin son las relaciones de equilibrio o a largo plazo entre
esas variables.

12.1 Tendencias Determinsticas y Estocsticas
12.1.1 Tendencia Determinstica
En un gran nmero de ocasiones, las series pueden no presentar componente

tendencial alguno, como es el caso de un proceso autorregresivo puro AR(1) en el que los
coeficientes cumplan las condiciones de estacionariedad:
Yt = + 1Yt 1 + t (12.1)
Definir una tendencia en una serie temporal Yt es extremadamente sencillo.

Por ejemplo, la serie:
Yt = + t + t (12.2)
La serie (12.2) presenta obviamente un patrn dominado fundamentalmente

por una tendencia lineal. Este tipo de proceso, se clasifica dentro de aquellos que
vienen definidos por lo que se denomina una tendencia determinista.
Figura 12.1
Proceso con Tendencia Determinista
60
50
40
30
20
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Observaciones

Esta tendencia de tipo determinista puede combinarse con el proceso

autorregresivo presentado en (12.1), para generar otra variedad de proceso con
tendencia determinista que se denomina proceso estacionario sobre una
tendencia. Su expresin sera la siguiente:
Yt = + t + 1Yt 1 + t (12.3)
En este caso, el proceso es dominado por la componente tendencial (para un

valor razonable de la varianza de t ) por lo que distinguir grficamente su evolucin
temporal de un modelo tendencial determinista puro resulta casi imposible; es decir,
diferenciar (12.2) de (12.3) es muy difcil.
12.1.2 Tendencia Estocstica
Si observamos algunas series en economa, podramos caer en la tentacin de

calificarlas entre aquellas con tendencias deterministas como las observadas hasta aqu.
Sin embargo, desde la teora econmica sera muy difcil justificar una tendencia
determinista de este tipo en cualquiera de las series representadas en el acpite anterior.
An a pesar de existir componentes tendenciales importantes desde el
punto de vista terico, seguramente estos no seran de naturaleza
determinista.
Por ejemplo, es muy posible que la productividad tienda a crecer de forma

natural en la medida en que, con el paso del tiempo, se va produciendo la mejora
tecnolgica de los procesos productivos. Tambin es natural que el valor aadido
nominal en determinados productos (como los servicios) tienda a crecer incluso de forma
ligeramente exponencial a medida que una economa va alcanzando ciertos niveles de
desarrollo.
Sin embargo, ambos procesos tericos no se producirn, con

total seguridad, de una manera invariable, constante, predecible y
determinista, con el paso del tiempo.
Frente a la tendencia determinista surge por tanto la necesidad de definir un

componente tendencial, con efectos permanentes en la evolucin de la serie

analizada, pero de naturaleza estocstica. El caso ms comn es el paseo aleatorio

con deriva:
Yt = + Yt 1 + t E (Yt ) = t + Y0 (12.4)
En cualquier caso, es evidente que el paseo aleatorio con deriva resulta

grficamente muy similar al presentado en (12.2) o en (12.3). Esto explica que,
frecuentemente, se califiquen como deterministas series que, probablemente, presenten un
componente tendencial estocstico.
Solamente para muestras grandes un proceso podr ser

distinguido del otro en la medida en que, aunque el paseo aleatorio con deriva
presentar una marcada evolucin tendencial, tender a fluctuar de forma algo
ms visible sobre la lnea tendencial de lo que lo hara un modelo determinista
puro.
Figura 12.2
Proceso con Tendencia Estocstica
45
40
35
30
25
20
15
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Observaciones

Debe tenerse especial cuidado para no confundir la tendencia determinista y

estocstica, ya que entonces tanto uno como otro mtodo resultaran incorrectos de
aplicar. Por ejemplo, si estamos ante un proceso del tipo:
( L ) Yt = 0 + 1t + ( L ) t (12.5)
en el que tenemos tendencia determinista pero no estocstica, si tomamos una primera

diferencia la anterior expresin quedara:
( L ) Yt = 1 + (1 L ) ( L ) t (12.6)
Luego, habramos eliminado la tendencia temporal pero

habramos introducido una raz unitaria en el proceso MA, que ahora sera
no invertible. Debe notarse que este problema tambin se plantear, por las mismas
razones, en el caso en el que sobrediferenciemos una serie ms all de su orden de
integracin.
Anlogamente, cometemos un error an ms importante si intentamos

transformar un modelo con tendencia estocstica aplicando el filtro para la eliminacin de
la tendencia determinista:
En primer lugar, el estadstico t de significacin individual tiende a

infinito para la variable de tendencia determinista
introducida en el filtro. Adems es inconsistente, por lo que resulta
fcil rechazar errneamente la hiptesis de nulidad del parmetro de
tendencia.
El R 2 converge a una distribucin no degenerada, es decir, a medida

que el tamao de la muestra se incrementa no convergen hacia un
escalar, sino hacia una variable aleatoria.
Un efecto adicional comentado por Durlauf y Phillips (1988) es que, en estos

casos, el estadstico DW de la errnea regresin de la serie sobre una
tendencia temporal tiende a acercarse a cero.

12.2 Regresin Espuria
El problema de las regresiones espurias es que tienden a admitirse como

buenas, relaciones econmicas que, en realidad, slo se deben a aspectos
casuales.
Por regresin espuria entendemos tcnicamente aquellas ecuaciones de

regresin que presentan una elevada significatividad conjunta, medida en trminos
del coeficiente de determinacin R 2 o R 2 y, sin embargo, fuertes problemas de
autocorrelacin positiva (reflejados en bajos valores del estadstico Durbin
Watson).
La presencia de un trmino de error fuertemente autocorrelacionado impide

efectuar un proceso de inferencia con mnimas garantas. La probabilidad de un error en el
clculo y en la aplicacin de los test de significancia individual convencionales es muy
importante, sin contar los problemas de ineficiencia en la estimacin propios de una
situacin de matriz de varianzas y covarianzas no escalar para la perturbacin aleatoria.
Este tipo de regresiones aparecen cuando se relacionan series

temporales no estacionarias y se agudizan ms cuando estas estn ms cercanas a
la forma de un paseo aleatorio, es decir, cuanto ms evidente sea la presencia de
tendencias estocsticas en las series.
Supongamos dos variables Yt y X t independientemente generadas por

paseos aleatorios:
Yt = Yt 1 + ut
(12.7)
X t = X t 1 + vt
donde ut y vt son variables aleatorias normales estndar independientes entre s con

media cero y varianza unitaria (ruidos blancos). Dado que Yt y X t estn generadas de
forma independiente, deberamos esperar que no existiera ninguna relacin significativa
entre ambas.

Sin embargo, sobre un conjunto de 1.000 muestras de Yt y X t con 50

observaciones, alrededor de un 65% de las regresiones de Yt sobre X t presentan
contrastes t significativos a un nivel de significatividad del 5%, generando un resultado
absurdo.
Efectivamente, en la regresin:
Yt = 0 + 1 X t + t (12.8)
es claro que, prescindiendo de la constante 0 , se obtiene:
t = Yt 1 X t (12.9)
por lo que imponiendo las restricciones iniciales Y0 = X 0 = 0 tenemos que:
T T
t = ut 1 vt (12.10)
t =0 t =0
Por tanto, es obvio que estamos ante una secuencia t no estacionaria

en varianza. Si esto es as, t presenta una tendencia estocstica, lo que quiere decir
que el error cometido en t no se diluye en t + 1, t + 2, ...., t + s; es imposible por lo tanto
que una regresin en la que los errores se acumulan de forma permanente pueda tener
algn inters.
Ntese que en esta situacin se violan algunas hiptesis bsicas

asumidas en los procesos de inferencia habituales en el contexto del Modelo Bsico de
Regresin Lineal (MCO):
La varianza de t ya hemos dicho que no es constante. En

la expresin (12.10) anterior puede comprobarse con sencillez cmo
se incrementa hacia el infinito a medida que t crece.
No existe incorrelacin serial. La misma expresin para (12.10)

puede utilizarse para comprobar cmo la correlacin entre t y t +1
tiende a uno a medida que t se incrementa.
Dada esta acumulacin de errores de base, ningn test de significancia

puede ser usado con garantas y, por ello, ninguna inferencia ser fiable.

12.3 Deteccin de Races Unitarias
12.3.1 Anlisis Grfico de la Serie
Uno de los mtodos que suelen proponerse como suficientes para la deteccin
de la no estacionariedad de una serie es, errneamente, el del anlisis de representaciones
grficas de la misma.
As, se dice que la simple contemplacin del grfico de evolucin temporal de

la serie permite decidir si la serie es o no estacionaria en virtud, por ejemplo, de la
pendiente que presente.
Efectivamente, pueden confundirse con facilidad

representaciones grficas de procesos con tendencias estocsticas con
procesos con tendencias deterministas.
Por otro lado, incluso con procedimientos tcnicamente elaborados, resulta

an ms complejo diferenciar, por ejemplo, un proceso con una raz unitaria de otro con un
una raz autorregresiva elevada.
No obstante, a pesar de que el anlisis grfico no puede

considerase una herramienta suficiente para el anlisis de la
estacionariedad de una serie, si ha de servir como etapa previa a la
aplicacin de contrastes ms avanzados.
Efectivamente, observar la evolucin grfica de la serie puede permitir

localizar cambios de estructura, comportamientos estacionales o medias y tendencias de
tipo determinista, lo que permitir aplicar, con mayor porcentaje de xito, los test clsicos
de races unitarias.

12.3.2 Anlisis del Correlograma Simple de la Serie
Un procedimiento sencillo que no requiere la aplicacin de ningn contraste

para determinar la presencia de races unitarias en las series, es el de observar el
correlograma de la misma, es decir, la representacin grfica de su funcin de
autocorrelacin simple (FAS).
Distintos trabajos, pero en especial los presentados por Hoskin (1989),

Diebold y Rudebusch y Lo (1991), se han centrado en analizar las variaciones de la
autocorrelacin en funcin del orden de integracin d de una serie.
En general, la regla a aplicar ser sencilla: los valores de la FAS de una

serie con races unitarias descienden muy suavemente hacia el cero
mientras que cuando no hay presencia de races unitarias el descenso es
exponencial.
La serie integrada es una serie de memoria ilimitada

(precisamente por presentar un componente tendencial), la serie no
integrada guarda slo memoria de los shocks ms recientes.
De esta forma, si la serie no estacionaria guarda memoria de los shocks

pasados y recientes, la relacin entre dos valores separados por un lapso de tiempo s
presentarn necesariamente algn tipo de relacin, o sea, los coeficientes de
correlacin entre Yt e Yt s tendern a mantenerse elevados.
Efectivamente, la expresin genrica de la solucin de una ecuacin en

diferencias de primer orden puede expresarse como:
t 1
Yt = 1tY0 + 1i t i (12.11)
i =0
t 1
1 = 1 Yt = Y0 + t i (12.12)
i =0
A partir de las expresiones (12.11) y (12.12) puede calcularse el coeficiente

de autocorrelacin entre Yt e Yt s para cada caso.

Cuando no existe raz unitaria, el trmino 1 (menor que la unidad) fuerza a

los coeficientes de autocorrelacin a descender rpidamente hacia el cero en una
progresin geomtrica de razn 1 ; recordemos que, efectivamente, la expresin de la
serie de coeficientes de autocorrelacin es k = 1k para un AR(1).
En el segundo caso (12.12), sin embargo, la varianza del proceso contiene un

trmino lineal (t - s), el que define ms lento la progresin hacia el cero de los coeficientes
t s
de autocorrelacin. La expresin de los coeficientes de correlacin es ahora k = .
t
Debe recordarse en este punto que la simple observacin del grfico de la

funcin de autocorrelacin puede completarse con el clculo de algunos conocidos
contrastes Q como los propuestos por Box y Pierce (1970) o Ljung y Box (1978):
K
QBP = T k2 : T2 k (12.13)
k =1
K
k2
QLB = T ( T + 2 ) : T2 k (12.14)
k =1 T k
Recordemos que, en ambos casos, la hiptesis a contrastar es que los p

primeros coeficientes de correlacin calculados k son iguales a cero (k = 1, 2,...., p). El
escalar T ser igual al nmero total de coeficientes de correlacin representados en el
correlograma.
Estos contrastes se distribuyen como una 2 con (T - k) grados de libertad.

Dado que lo habitual es aplicarlos sobre los residuos de un modelo ARIMA previamente
estimado, para saber si estamos o no ante un ruido blanco, el parmetro k toma el
valor del nmero de coeficientes estimados de ese modelo ARIMA.
En cambio, si estamos observando los test directamente sobre una serie, y no

sobre los residuos de un modelo, los grados de libertad de la 2 sern entonces p. Si el
estadstico supera el valor de tablas rechazaremos la hiptesis nula de que los p
primeros coeficientes son significativamente nulos.

12.3.3 Utilizacin del Estadstico de Durbin - Watson
El estadstico Durbin Watson (1950), tradicionalmente utilizado para detectar

la presencia de autocorrelacin de primer orden en los residuos de un modelo estimado
por MCO, puede utilizarse segn la propuesta de Sargan y Bhargava (1983) para
detectar la presencia de una raz unitaria en una serie temporal Yt .
El estadstico es de la forma:
( t 1 )
n 2
t
DW = t =2
(12.15)
(tt2 )
n
t =2
Asumiendo que el residuo, de estar autocorrelacionado, seguira un modelo

simple AR(1), el valor del estadstico fluctuar entre 0 y 4. El lmite inferior (0)
correspondera a una situacin de autocorrelacin perfecta positiva, el lmite superior (4), a
una situacin de autocorrelacin perfecta negativa y el valor medio (2), mostrara ausencia
de autocorrelacin.
A fin de utilizar este contraste para la deteccin de races unitarias, la idea es

aplicar la expresin (12.15) sobre los residuos del siguiente modelo:
Yt = 0 + t (12.16)
Si los residuos de este modelo estn correlacionados de forma perfecta

siguiendo un paseo aleatorio, es decir, presentan una raz unitaria ( t = t 1 + ut ) , tambin
podremos decir que Yt es integrada de orden 1 ya que podramos expresar el estadstico
DW como:
( t 1 ) (Y Yt 1 )
n 2 n 2
t t
DW = t =2
= t =2
(12.17)
( ) (Y )
n n 2
2
tt t Yt
t =2 t =2
Si esto es as, el estadstico DW tomar el valor 0. Por tanto, la

hiptesis a contrastar es si el estadstico DW toma un valor
significativamente distinto de cero.

12.4 Contraste de Estacionariedad y de Raz Unitaria
12.4.1 Contraste de Dickey Fuller (DF)
Sin duda alguna, el test ms habitual a la hora de determinar la

estacionariedad de una serie temporal, consiste en la aplicacin del test conocido como de
DickeyFuller (Test DF).
Este es un contraste de No Estacionariedad ya que la hiptesis nula es

precisamente la presencia de una raz unitaria en el proceso generador de datos de la
serie analizada.
Vamos a suponer inicialmente, como modelo de partida para el anlisis de

una determinada serie Yt , el de un proceso estacionario autorregresivo de orden uno sin
constante:
Yt = 1Yt 1 + t (12.18)
Frente a este modelo se plantea, como hiptesis nula ( H0 ) , el modelo

alternativo de un paseo aleatorio no estacionario del tipo:
Yt = Yt 1 + t (12.19)
Sin embargo, para contrastar la nulidad del coeficiente 1 , no podemos

utilizar el contraste t habitual sobre la estimacin por MCO del modelo (12.18).
La razn de ello es que la hiptesis nula que habitualmente se contrasta y, a

partir de la cual se deriva la expresin y propiedades del test t, es la de nulidad del
parmetro (1 = 0 ) de (12.18); sin embargo, en nuestro caso, necesitaramos contrastar
H 0 : 1 = 1 .
Si la hiptesis nula fuera cierta ( H 0 : 1 = 1) , la varianza de Yt no sera

estacionaria sino que crecera con los valores de t segn la expresin de la varianza de
un paseo aleatorio con deriva: V (Yt ) = t 2 .

En estas condiciones, la estimacin del parmetro 1 sera una estimacin

consistente pero sesgada a la baja (funcin de densidad asimtrica) con relacin al
verdadero valor del parmetro y el uso de la distribucin t estndar sera incorrecto.
Si 1 < 1 , la distribucin del estimador es asintticamente Normal, o lo

que es lo mismo, el estadstico t de Student converge hacia una N(0,1) cuando los
grados de libertad tienden a infinito.
En el caso de que 1 > 1 , tambin puede caracterizarse la distribucin del

estimador del parmetro y de su razn t, si bien la convergencia en el lmite no se
produce hacia una Normal sino a una Cauchy.
El problema surge precisamente cuando 1 = 1 , ya que en este caso, la

distribucin del parmetro no puede caracterizarse adecuadamente.
Por tanto, la distribucin de probabilidad asinttica del estimador de MCO del

modelo AR(1) presenta una discontinuidad cuando 1 = 1 y, como sustituto, debern
utilizarse las distribuciones derivadas de forma emprica mediante un
procedimiento de Montecarlo realizado por Dickey (1976).
En este experimento se generaron un elevado nmero de series ruido banco

t para construir el mismo nmero de paseos aleatorios con trmino constante. La
estimacin de los parmetros de inters en cada uno de esos modelos controlados arroj
las siguientes conclusiones:
El 90% de los valores estimados del parmetro 1 estaban menos

alejados de 2.58 errores estndar del verdadero valor (la unidad).



Tras este experimento de Dickey, fue Fuller (1976) quien obtuvo la

distribucin lmite apropiada y public, tabulados, toda una batera de valores crticos,
dado que el valor emprico del contraste vara en funcin del tamao
muestral.
En la prctica, por cuestiones de sencillez operativa, el modelo utilizado para

el contraste DF no es el expuesto al comienzo del epgrafe (12.18) sino otro, equivalente
al anterior, que se obtiene restando a uno y otro lado el trmino Yt 1 :
Yt Yt 1 = 0 + 1Yt 1 Yt 1 + t
Yt = 0 + (1 1) Yt 1 + t = 0 + Yt 1 + t (12.20)
123

Por lo tanto, la hiptesis nula inicial para (12.18), se transforma ahora en

H 0 : = 0 frente a H1 : < 0 .
Decir que es nulo es lo mismo que decir que 1 = 1 , es decir, que existe una
raz unitaria; decir que es menor que cero equivale a decir que 1 < 1 (proceso
autorregresivo estacionario).
El procedimiento bsico para la aplicacin simple del test DF es, a partir de

aqu, aparentemente sencillo:
Se estima el modelo propuesto y se calcula el valor estimado de la t

del parmetro analizado
Una vez calculado se compara con el valor emprico de referencia

obtenido con las tablas de Dickey y Fuller
Si el valor t estimado para el parmetro es inferior al tabulado (dado

un determinado nivel de confianza), admitiremos la hiptesis nula, o sea, la
presencia de una raz unitaria.
Sin embargo, los valores crticos t de referencia para el contraste

DF no slo dependern del tamao muestral, sino tambin del tipo de
modelo estimado (proceso generador de datos supuesto).

Por lo tanto, antes de estimar los parmetros del modelo, hay que decidir si el
proceso generador de datos ser el simple, como el expuesto anteriormente (12.18),
contendr una constante (0 ) , un trmino tendencial determinista ( t ) , o ambas cosas
simultneamente.
Los tres modelos propuestos por Dickey-Fuller son:
Yt = Yt 1 + t (12.21)
Yt = 0 + Yt 1 + t (12.22)
Yt = 0 + t + Yt 1 + t (12.23)
El contraste simple de DF consiste en determinar el valor del parmetro , para

lo cual se utilizar su estimador - Dicho estimador puede ser obtenido mediante MCO:
Una vez decidido el modelo, el estadstico de referencia para el contraste

ser diferente, notndose generalmente por las letras t para el caso ms simple, t para el
caso del modelo con constante y tt para el caso del modelo con tendencia determinista.
Consultar correctamente el etadstico de referencia es fundamental

dado que las diferencias entre los distintos valores de t, t y tt son importantes. Por
ejemplo, para un nivel de significacin del 95% y 100 observaciones los valores crticos
seran 1.95 para t, -2.89 para t y 3.45 para tt .
Tal y como describen de forma muy clara Suriach et al. (1995), los modelos
(12.22) y (12.23) presentados por Dickey y Fuller son en realidad formas reducidas de
determinados modelos estructurales.
As, el modelo (12.22), que contrasta la hiptesis nula de paseo aleatorio con
deriva (0 ) frente a una alternativa de esquema AR(1) estacionario, es la forma reducida
del modelo VAR siguiente:
Yt = + ut ut 1 = Yt 1
Yt = 1(1 3
424 1 ) + 1Yt 1 + t (12.24)
ut = 1ut 1 + t Yt = + 1ut 1 + t
0
Yt = (1 1 ) + (1 1) Yt 1 + t (12.25)
1424 3 123
0

Bajo la hiptesis nula 1 = 1 el trmino constante sera nulo (0 = 0 ) ; luego, su

presencia en el modelo a estimar es irrelevante y slo se justificara para garantizar que, en
el caso de que fuera cierta la hiptesis alternativa H1 : < 0 , el proceso autorregresivo
tenga media no nula.
El modelo (12.23), que contrasta la hiptesis nula de un paseo aleatorio con

deriva frente a la alternativa de un proceso AR(1) estacionario sobre una tendencia
determinista ( t ) , sera la forma reducida del siguiente modelo VAR:
Yt = + t + ut
(12.26)
ut = 1ut 1 + t
en que 0 = (1 1 ) + 1 y = (1 1 ) .
Bajo la hiptesis de raz unitaria 1 = 1 tendramos que 0 = y = 0 .

Luego, como en el caso anterior, la presencia en este caso del parmetro es
irrelevante en el caso de raz unitaria, y su presencia intenta slo garantizar la
consistencia del contraste en una situacin de hiptesis alternativa (proceso estacionario
sobre tendencia determinista).
Tabla 12.4
Valores Crticos de D-F al 95%
MODELO Hiptesis Nula Estadstico Valor Crtico

Yt = Yt 1 + t =0 t -1,95
=0 t -2,89
Yt = 0 + Yt 1 + t 0 = 0 = 0 t / -2,54
0 = = 0 F , -4,71
=0 tt -3,45
0 = 0 = 0 tt / -3,11
Yt = 0 + t + Yt 1 + t =0 =0 t / -2,79
= = 0 F , -6,49
0 = = = 0 F , , -4,88

Dolado et al. (1990) y Perron (1990) propusieron, entre otros autores, seguir
un proceso en etapas a fin de aumentar la probabilidad de xito en la eleccin del modelo
de referencia:
En primer lugar se estimara el modelo menos restringido (con

trmino constante y tendencia determinista).
Dado que el principal error de esta tctica inicial consistira en la escasa

potencia del contraste para el rechazo de la hiptesis nula por inclusin de
variables irrelevantes, si los valores crticos indican rechazo (ausencia
de raz unitaria), terminaramos el procedimiento.
En el caso de no rechazarse la hiptesis nula de presencia de una raz

unitaria, es decir, en el caso en que admitamos la presencia de una raz
unitaria ( H 0 : = 0 ) , pasaramos ahora a examinar la significancia del
parmetro tendencial determinista .
Dado que, en este punto, estaramos bajo la hiptesis ya admitida de que

= 0 , utilizaramos el valor de referencia t / de la Tabla 12.1 y, para mayor
seguridad, tambin el contraste conjunto F , .
Si el trmino tendencial resulta significativo ( 0 ) contrastaremos de

nuevo la presencia de una raz unitaria H 0 : = 0 pero utilizando entonces las
tablas de una normal estandarizada. Sea cual sea el resultado del test, con las
nuevas tablas finalizaramos aqu el contraste admitiendo o rechazando la
presencia de una raz unitaria.
Si el trmino tendencial es no significativo ( = 0 ) , deber replantearse

el modelo inicialmente estimado pasndose a examinar otro con trmino
constante pero sin esta tendencia determinista. Con este modelo se vuelve a
analizar la presencia de una raz unitaria ( H 0 : = 0 ) .
En el caso en que, nuevamente, se sostenga la presencia de una raz

unitaria, se contrastar entonces la adecuacin del trmino independiente 0
con el contraste t / o bien con F , .

Si el trmino independiente resulta significativo, usamos de nuevo las

tablas de una normal para contrastar la presencia de la raz unitaria,
concluyendo de nuevo aqu el contraste.
Slo si la constante 0 es no significativa se utiliza el modelo ms simple

como modelo de referencia contrastndose, de nuevo, la presencia de raz
unitaria. En este caso, no tiene cabida el uso de la distribucin normal
estandarizada.
12.4.2 Contraste de Dickey Fuller Aumentado (DFA)
Est claro que lo expuesto hasta este momento permite contrastar la presencia
de una o ms races unitarias en una determinada serie temporal para la que se
supone un proceso AR(1).
Sin embargo, muchas serie temporales se ajustan ms adecuadamente a

procesos autorregresivos de orden superior AR(2) o AR(3). No parece, por lo
tanto, muy correcto contrastar la presencia de una o ms races unitarias utilizando siempre
la estructura de un modelo AR(1) ya que las races unitarias pueden aparecer tambin en
estructuras ms complejas.
Este problema da lugar a lo que se conoce como test de races unitarias de

Dickey-Fuller Ampliado (DFA). El contraste de DF aumentado (DFA) considera la siguiente
forma reducida:
p
Yt = 0 + t + Yt 1 + i Yt i +1 + t (12.27)
i=2
p
p
donde = 1 i y i = j .
i =1 j =1
El procedimiento es anlogo al expuesto en el test de DF simple; sin embargo,

los estimadores i distribuyen asintticamente como una normal estandarizada.
Para determinar el nmero de rezagos p del modelo (12.27) es posible

considerar criterios alternativos, por ejemplo el criterio de Akaike.

El criterio de Akaike (AIC) considera la siguiente expresin:

2k i2
AIC = + log i (12.28)
n n

donde n es el nmero de observaciones, k es el nmero de parmetros estimados, y es

la serie de residuos obtenidos en la estimacin.
Luego, interesa introducir un a variable adicional (rezago adicional en nuestra

caso) a un modelo con k variables explicativas si AICk +1 < AICk -
De manera complementaria, se puede emplear el criterio modificado de

Akaike (MAIC):
2 (k + )
MAIC = + log ei2 n (12.29)
T k i
1
T
donde = ei2 n
2
Y 2
t 1
i t = k +1
12.4.3 Contraste de Phillips Perron (PP)
El contraste Phillips-Perron (1988) es una correccin no paramtrica del DFA

en el que se elimina el problema de correlacin serial de los residuos. Se ha indicado por
parte de los investigadores que el contraste Phillips - Perron (PP) tiene mayor
potencia que el DFA de forma que en caso de duda parece adecuado atender a sus
resultados.
La diferencia fundamental entre ambos est en que mientras la validez del

procedimiento DF est basada en que los trminos de error son ruido blanco, el
procedimiento de PP modifica los estadsticos despus de la regresin para tener en cuenta
el efecto de los errores autocorrelacionados que aparecen en los resultados.
De esa forma, asintticamente, el estadstico se corrige en la forma apropiada

y se aplica la misma distribucin lmite (DF).

12.5 Cointegracin
Las regresiones que incluyen series temporales pueden ocasionar coeficientes

de determinacin muy altos pero sin reflejar el verdadero grado de asociacin entre las
dos variables, sino que es la tendencia comn presente en ellas (regresin espuria).
Cuando se lleva a cabo la regresin esttica entre variables I(1) afectadas

por tendencias comunes, se encuentra un valor de R 2 elevado sin que exista una relacin
de causalidad. Adems el valor del estadstico de Durbin - Watson (DW) es muy
pequeo lo que indica que los errores de la ecuacin estn autocorrelacionados
positivamente.
Este es el problema de las regresiones espurias que implica no slo que los
estimadores MCO de los coeficientes son ineficientes sino que los estimadores de los
errores estndar son inconsistentes.
En general, la integrabilidad es una propiedad dominante en las series, de

manera que para cualquier combinacin lineal de dos procesos integrados, el proceso
resultante tendr el orden mayor de las variables integradas. Pero, en
ocasiones, la combinacin lineal de dos procesos I(1) es estacionaria.
Si la combinacin lineal de dos variables o procesos no

estacionarios es estacionaria, se dice que las variables estn cointegradas,
es decir, las tendencias se contrarrestan o se cancelan.
Es decir, si Yt es un vector de N series temporales, sus componentes son

cointegradas de orden d,b, que se define como Yt : CI ( d , b ) si:
Todas las componentes de Yt son I(d).
Existe un vector 0 tal que Z t = Yt : I ( d b ) , con b > 0.
La relacin Z t = Yt se denomina relacin de cointegracin, y el vector ,

vector de cointegracin.

Sean dos variables X t e Yt tales que la teora econmica sugiere una

relacin de equilibrio a largo plazo entre ellas.
Supongamos que las series de datos X t e Yt son I(1). En la relacin

Z t = 1Yt + 2 X t , lo normal es que Z t sea I(1). Sin embargo, es posible que exista un
valor particular de = (1 , 2 ) , tal que Z t sea I(0), es decir, estacionaria. En este caso
las series seran CI(1,1), o cointegradas de orden 1.
Sea Yt* = 0 + 1 X t , donde Yt * es el valor de equilibrio a largo plazo

correspondiente a X t . Si hay equilibrio en t, (Yt* Yt ) = 0 , entonces Y t 0 1 X t = 0 .
Como Yt , en general, ser distinto de Yt * , podemos escribir

Yt 0 1 X t = ut , donde ut puede interpretarse como el error o desviacin entre Yt y
su correspondiente valor de equilibrio en el perodo t.
Esta ltima ecuacin es equivalente a Yt 1 X t = 0 + ut . Luego, la relacin

de cointegracin ser:
Y
Z t = Yt = (1 1 ) , Yt = , Z t = 0 + ut (12.30)
X
Si las series son CI(1,1), Z t es estacionaria, por lo que el error ser una
serie estacionaria.
La cointegracin de dos o ms series temporales apunta a la

existencia de una relacin de largo plazo o de equilibrio entre ellas, es
decir, que las desviaciones de la situacin de equilibrio no tienden, en
promedio, a ampliarse con el paso del tiempo.
Por el contrario, si X t e Yt son ambas I(1) pero no son cointegradas, Z t no

es estacionaria, es decir, las dos variables se alejarn una de otra con el paso del tiempo.

As, si X t e Yt son integradas del mismo orden, y si haciendo la regresin

Yt = 0 + 1 X t + ut obtenemos los residuos estacionarios, hay evidencia de que las
dos series son cointegradas, lo cual implicara que la relacin a largo plazo que supone la
teora econmica viene apoyada por la evidencia emprica, y que la regresin efectuada
est libre de resultados espurios.
A la regresin anterior se le conoce como regresin de cointegracin, siendo

el vector = ( 0 ,1 ) el vector de cointegracin.
El anlisis de la cointegracin permite detectar si existe la posibilidad de

obtener estimaciones libres de resultados espurios de los parmetros que definen las
relaciones entre dos o ms series tanto a corto como a largo plazo. Las pruebas t y F
usuales seran vlidas.
En general, si consideramos m variables integradas del mismo orden, el

nmero mximo de vectores de cointegracin es m - 1. Al nmero de vectores de
cointegracin linealmente independientes se le denomina rango de cointegracin.
Una implicancia del concepto de cointegracin es que si X t e Yt cointegran,

tambin lo harn X t e Yt k , puesto que las variables Yt e Yt k lo hacen.
12.6 Deteccin de Cointegracin
12.6.1 Engle y Granger
El primer conjunto de contrastes fue considerado por Engle y Granger (1987).

Supongamos un vector (Yt1 , Yt 2 ,...., Yt k ) y regresionamos Yt1 = 2Yt 2 + 3Yt 3 + ... + k Yt k + ut ,
que puede ser estimada por MCO y a la que se denomina regresin de cointegracin.
Se contrasta la hiptesis nula de que los residuos ut tienen una raz unitaria
contra la alternativa de que son I(0). De esa forma, la hiptesis nula es la no
cointegracin y la alternativa la cointegracin. Podemos aplicar la prueba DF o
ADF. Engle y Granger consideran que existe una relacin de cointegracin entre las
variables si los residuos ut son I(0).

Los valores crticos son distintos de los del contraste de races

unitarias, pues la ut estimada est basada en los parmetros de cointegracin
estimados. Engle y Granger han calculado estos valores, los cuales pueden encontrarse en
Engle y Granger (1987), Engle y Yoo (1987), Phillips y Outlaris (1990) y Mackinnon
(1991). En este contexto, las pruebas DF y ADF se conocen como EG y AEG,
respectivamente. En valor absoluto, los valores crticos de EG y AEG son
mayores a los de DF y ADF, respectivamente.
12.6.2 Durbin y Watson
Un mtodo alternativo para contrastar la cointegracin es el contraste Durbin-

Watson de la regresin de cointegracin (CRDW). Se considera el estadstico DW de la
regresin de cointegracin Yt = 0 + 1 X t + ut y se contrasta la hiptesis nula de
que el estadstico DW es cero para ver si los residuos son estacionarios. Si
no son estacionarios el estadstico DW tender a cero.
As, cuando el valor DW calculado es menor que el tabulado para cierto nivel
de significacin, se acepta la hiptesis nula de no cointegracin. Si es mayor, se acepta la
hiptesis de cointegracin. Los valores crticos de este contraste estn tabulados y pueden
verse en Sargan-Bhargava (1983).
Una regla prctica muy til es que si DW < R 2 las series no estn
cointegradas.
12.6.3 Modelo de Correccin de Errores (MCE)
En el caso de que el vector de variables del modelo est constituido por dos
variables, Yt y X t , la relacin a largo plazo entre ambas variables puede expresarse
como:
Yt* = + X t + t (12.31)
Por otra parte, su relacin a corto plazo puede expresarse, de acuerdo con el
MCE, de forma que las desviaciones respecto a la tendencia a largo plazo tienden a
corregirse.

Si en un perodo el valor observado de Yt es superior al de su tendencia,

E (Yt* X t ) , se supone que se producir en el perodo siguiente una disminucin en Yt
que amortige esa diferencia, y si Yt es inferior a Yt * , se supone que en el perodo
siguiente se producir un aumento de Yt que lo acerque a su tendencia, de forma que las
relacin a corto plazo puede expresarse mediante las dos expresiones siguientes:
Yt = Yt * + g (Yt 1 X t 1 ) (12.32)
144 42444 3
t 1
donde g es un parmetro cuyo valor es menor que cero (para compensar la diferencia
generada en el perodo anterior).
Si aplicamos primeras diferencias a (12.32), sustituimos Yt * por su valor

estimado en la relacin (12.31), y aadimos una perturbacin aleatoria vt obtenemos:
Yt = X t + g t 1 + vt (12.33)
La relacin (12.31) se denomina regresin de cointegracin, y la (12.33)

MCE con relacin contempornea.
De forma similar se procede en el caso de varias variables explicativas, en

cuyo caso apareceran los trminos correspondientes a cada una de dichas variables
explicativas, y la perturbacin retardada estimada (t 1 ) incluira la diferencia entre el
valor retardado de Yt y una combinacin lineal de los valores retardado des todas las
variables explicativas.
As, en el caso de k variables explicativas, tendramos:
Yt* = + 1 X t1 + 2 X t2 + ..... + k X tk + t (12.34)
Yt = 1X t1 + 2 X t2 + .... + k X tk + g t 1 + vt (12.35)
Engle y Granger proponen estimar la relacin (12.35), MCE, en dos etapas,

estimando en la primera etapa por MCO la relacin (12.34), o regresin de cointegracin
para calcular t 1 y, en una segunda etapa estimar los parmetros de (12.35).

El modelo CE con causalidad contempornea presenta en general buenos

resultados, tanto si las variables estn cointegradas como si no, ya que permite tener en
cuenta la relacin causal a largo plazo y las desviaciones a corto plazo.
12.7 Causalidad
Aunque la causalidad es de naturaleza extra-estadstica, es decir, que en un

modelo economtrico viene determinada por antecedentes econmicos, a veces no es fcil
determinar si X t influye sobre Yt o si es Yt la causa de las variaciones de X t .
El test de Granger surge como elemento de ayuda para determinar el sentido

de una relacin causal entre dos variables. El contraste de Granger se basa en estimar los
dos modelos siguientes:
r r
Yt = 0 + iYt i + j X t j + t (12.36)
i =1 j =0
X t = % 0 + % i X t i + % jYt j + %t
r r
(12.37)
i =1 j =0
Las hiptesis a contrastar son las siguientes:
H 0 : i = 0, %i 0; i = 1,...., r
(12.38)
H% 0 : %i = 0, i 0; i = 1,...., r
Si no se rechaza H 0 se concluye que Yt causa las variaciones de X t . Si se no

rechaza H% 0 se concluye que X t causa las variaciones de Yt . Si ninguna de las dos
hiptesis se puede rechazar, entonces ambas variables son independientes. Si se rechazan
ambas, se produce entonces un feedback.
Para ello se aplica un test F de manera complementaria con los test-t; las
restricciones del test F en este caso corresponden a los valores de los parmetros segn
las hiptesis nulas.

13 ANLISIS FACTORIAL
El mtodo de Anlisis Factorial (FA) es una tcnica que se utiliza

frecuentemente para crear nuevas variables que resuman toda la informacin
disponible contenida en las variables originales. Tambin se utiliza para estudiar
la posible relacin existente entre variables medidas en un conjunto de datos.
Un objetivo bsico del FA es determinar si las variables de respuesta (X)

exhiben patrones de relaciones entre s, de tal forma de agrupar dichas variables en
subconjuntos de variables correlacionadas, pero no correlacionadas con las de los otros
subconjuntos. Luego, el FA se utiliza para estudiar la estructura de correlacin entre
variables dentro de un determinado conjunto de datos.
En resumen, el FA tiene por objetivo:
Determinar si existe un conjunto ms pequeo de variables no correlacionadas

que expliquen las relaciones existentes entre las variables originales.
Determinar el nmero de variables subyacentes (Factores).
Interpretar estas nuevas variables.
Evaluar las unidades experimentales (o individuos) del conjunto de datos

(muestra) sobre estas nuevas variables.
Utilizar estas nuevas variables en otros anlisis estadstico de los datos, por
ejemplo para prediccin.
Sin embargo, se debe tener especial cuidado con el mtodo de FA,

particularmente en lo que respecta a la subjetividad que representa su utilizacin
en numerosos aspectos. Esta subjetividad est asociada, por ejemplo, al nmero de
factores que considere el investigador y a la interpretacin de los factores, entre otros. De
hecho, algunos autores sugieren que es posible demostrarse mediante FA cualquier cosa
que se desee.

El modelo matemtico para el anlisis factorial parece ser similar a la

ecuacin de regresin mltiple, pero se debe recordar que en el caso de la regresin
mltiple, sta considera variables simples que son predictoras de la variable dependiente
(criterio). En cambio, en el caso del anlisis factorial, la variable dependiente
se expresa en trminos de una combinacin lineal de grupos de variables
que caracterizan un concepto en particular (factores).
Los factores no son variables independientes simples sino que cada uno est
constituido por un grupo de variables que caracterizan el concepto que representa el
factor.
Es por esta causa que se clasifica esta tcnica entre las tcnicas de
interdependencia. (Tanto las variables a un lado de la ecuacin como en el otro estn
interactuando como criterios y predictoras).
Por lo general, los factores que pueden caracterizar a un grupo de variables

no se conocen con anticipacin, sino que llegan a ser determinados por medio del anlisis
factorial. Estos factores se llama factores comunes, dado que todas la variables en
observacin se llegan a expresar como funciones de ellos.
Cuando no se conoce con anticipacin los factores que constituyen las

variables, se dice que procede una anlisis exploratorio. Pero en cambio, si el
investigador ha elaborado el anlisis anticipando (posiblemente apoyado en la teora) la
existencia de cierto nmero de factores en particular y anticipando qu variables
conforman cada uno de los factores, se trata de un anlisis confirmatorio.
Para efectos del presente tema vamos a proseguir segn un

anlisis exploratorio de factores.
Corresponde al investigador determinar lo que representa o constituye cada

uno de estos factores, para lo cual deber considerar la informacin existente (marco
terico).

EJEMPLO DE MODELO FACTORIAL EXPLORATORIO
Se desea extrapolar, de una provincia un municipio, un modelo de regresin

explicativo del nivel de renta disponible en funcin de una serie de manifestaciones de esa
renta. Para ello, se parte de un amplio conjunto de variables provinciales para 8.000
municipios:
Recaudacin de los distintos impuestos directos e indirectos

Tasa de paro y actividad
Generacin neta de empleo
Kilmetros de carreteras de cada tipo en servicio
Kilmetros de lnea frrea en servicio
Nmero de vehculos de distintos tipos por habitante
Lneas telefnicas por cada 100 habitantes
Camas hospitalarias por cada 1000 habitantes
Empresas creadas y cerradas en el ao
ndice de precios al consumo
ndice de precios industriales
ndice de comercio al por menor
Licencias fiscales concedidas
Con el fin de poder abordar con grados de libertad suficiente la estimacin

del modelo de renta, se intenta resumir en tres factores, sin perder excesiva informacin y
logrando una incorrelacin muy conveniente. El factorial arroj tres factores cuyos
significados se asociaron a:
Factor 1: renta y riqueza personal - familiar
Factor 2: salud y desarrollo del mercado laboral
Factor 3: desarrollo infraestructural

EJEMPLO DE MODELO FACTORIAL CONFIRMATORIO
Se desea medir la capacidad de abstraccin, analtica y memoria de los

alumnos. Se observaron 10 notas de cada alumno de un determinado grupo de
estudiantes universitarios. Entre estas notas, o al menos entre algunas de ellas, se observan
correlaciones elevadas que, en cierta medida, provienen de aptitudes globales del alumno
que no se observan directamente:
Nota en lgebra
Nota en clculo
Nota en estadstica
Nota en derecho comercial
Nota en derecho laboral
Nota en contabilidad financiera y de sociedades
Nota en anlisis de costos
Nota en comunicacin comercial
Nota en administracin
Nota en econometra
Un anlisis factorial permiti que la informacin relativa a estas variables se

resumiese en tres nicos factores de fondo, sin prdida excesiva de informacin y
logrando, de nuevo, una incorrelacin muy conveniente. Cada uno de estos tres factores se
interpret como:
Factor 1: capacidad de abstraccin
Factor 2: memoria
Factor 3: capacidad analtica
Independientemente de estos tres factores relacionados con grupos de

variables (notas) se identific un factor comn que podramos llamar inteligencia en
general y un factor especfico para cada asignatura (su propia dificultad y componentes de
tipo aleatorio relativos a las distintas formas de evaluacin).

13.1 Comparacin Entre FA y MCP
Al igual que el mtodo de Componentes Principales (MCP), el FA es una

tcnica dirigida a las variables.
Una ventaja que presenta el FA respecto al MCP, es que las nuevas variables
creadas (denominadas factores) son en general mucho ms fcil de interpretar.
Recordemos que el MCP genera una transformacin ortogonal de las variables
y no depende de un modelo subyacente. El FA, en cambio, s depende de un
modelo estadstico razonable. Por lo tanto, el MCP es descriptivo y el FA tiene
un modelo estadstico formal.
En el MCP el inters se centra en la explicacin de la variabilidad de las

variables (varianzas), mientras que en el FA el inters se centra en la estructura
de la matriz de varianzas y covarianzas (correlaciones).
Si las variables originales no estn correlacionadas, tal como ocurre con el

MCP, no tiene sentido aplicar FA.
En ambos casos pueden existir problemas con la escala de los valores de las
variables.
13.2 El Modelo de Anlisis Factorial
13.2.1 Hiptesis del FA
Suponga que se observa un vector de respuestas p-variado X, de una

poblacin que tiene media y matriz de varianzas y covarianzas . En el modelo
general de FA se supone que se tienen m factores subyacentes (m < p) denotados por
f1 ,...., f m , tales que:
x j = j + j1 f1 + j 2 f 2 + .... + jm f m + j j = 1, 2,...., p (13.1)
En el modelo anterior se supone que:

iid
f k : N ( 0;1) , k = 1, 2,...., m
j : N ( 0; j ) , j = 1, 2,...., p
iid


cov ( f k ; j ) = 0 , j , k
Sin prdida de generalidad, se puede suponer que j = 0 y que var ( x j ) = 1 .

Este siempre puede ser el caso, si se estandarizan las variables medidas antes de aplicar el
mtodo de FA. Sin embargo, no es necesario estandarizar.
13.2.2 Forma Matricial del FA
En forma matricial, el modelo resulta:
X = F + (13.2)
donde:
X = ( x1 , x2 ,...., x p )
T
(13.3)
F = ( f1 , f 2 ,...., f m )
T
(13.4)
= (1 ,2 ,...., p )
T
(13.5)
11 12 .... 1m
22 .... 2 m
=
21
(13.6)
.... .... .... ....

p1 p 2 .... pm
Luego, en forma matricial, la hiptesis del modelo de FA es la siguiente:
F : N ( 0; I )
1 0 .... 0
0 .... 0
: N ( 0; ) =
2
.... .... .... ....

0 0 .... p
F T = 0

13.3 Ecuaciones del FA
De las expresiones anteriores, debe notarse que:
X = F + (13.7)
=V (X ) (13.8)
= V (F + ) (13.9)
= V ( F ) T + V ( ) (13.10)
= T + (13.11)
Luego, para determinar si existen F, y tales que X = F + , en lugar

de ello se intenta encontrar y de modo que = T + , lo que es equivalente a:
m
jj = 2jk + j (13.12)
k =1
Debe notarse lo siguiente:
Si existen y de modo que = T + , entonces los factores comunes

explican con exactitud las covarianzas entre las variables de respuesta, lo que
se concluye dado que es una matriz diagonal.
m
La varianza de x j se puede dividir como jj = 2jk + j , y la proporcin de
k =1
m
la varianza de x j que se explica por los factores es
k =1
2
jk jj . A esta ltima
expresin se le denomina comunidad de la j-sima variable de respuesta.
cov ( xi ; x j ) = ik jk
m
(recordar que ij = 0 )
k =1
cov ( f k ; x j ) = jk , y se denomina carga de la j-sima variable de respuesta

sobre el la k-simo factor (ver (13.1)).

Si bien los desarrollos hasta ahora expuestos se han basado en la matriz de

varianzas y covarianzas , los procedimientos casi siempre se realizan en torno a la
matriz de correlaciones, matriz que definiremos como P.
Si el FA se ha aplicado a la matriz P, entonces es la matriz de

correlaciones entre las z j y las f k ; es decir, corr ( f k ; z j ) = jk .
m
Del mismo modo, se tendr que
k =1
2
jk + j = 1 , por lo que la comunidad de
m
la j-sima variable es simplemente
k =1
2
jk .
En el resto del Captulo, supondremos que el FA se aplica a la matriz P.
13.3.1 No Unicidad de los Factores
Si el nmero de factores es mayor que uno (m > 1) la matriz de cargas de

los factores no es nica. Es decir, si existen y de modo que P = T + ,
entonces, para toda matriz ortogonal T tal que TT T = I , se cumplir:
P = TT T T + (13.13)
Luego, si es una matriz de cargas, entonces T tambin. Esto representa

un grave dilema para muchos investigadores, mientras que otros lo ven como una ventaja.
Estos ltimos creen que si no son interpretables un determinado conjunto de

factores, entonces puede existir otra solucin que s lo sea.
A esta multiplicacin por la matriz T se le denomina rotacin de factores.
13.3.2 Normalizacin del Modelo Factorial
El anlisis expuesto en la seccin anterior implica que, aunque observemos

toda la poblacin, y los valores de y sean conocidos, no podemos determinar de
manera nica.
La solucin para poder estimar esta matriz es imponer restricciones

adicionales sobre sus trminos. Dos criterios alternativos son:

1) T = Diag
Con esta normalizacin, los vectores que definen el efecto de cada factor
sobre las p variables observadas son ortogonales. De esta manera, los
factores, adems de estar incorrelacionados, producen efectos lo ms distinto
posible sobre las variables. Por otra parte, esta normalizacin asegura una
matriz de cargas nica.
2) T 1 = Diag
Con esta normalizacin, los efectos de los factores sobre las variables,
ponderados por las varianzas de las perturbaciones de cada observacin, se
hacen incorrelacionados. Tambin se define una matriz de cargas nica.
13.4 Resolucin de las Ecuaciones del FA
13.4.1 Nmero de Factores
Si bien se presentan los desarrollos a base de la matriz de correlaciones P, las

tcnicas descritas tambin pueden aplicarse sobre la matriz de varianzas y covarianzas
.
Para determinar si existe un conjunto de m factores subyacentes, se determina

si sera posible la existencia de y tales que P = T + .
El nmero de parmetros desconocidos en y es pm + p; el nmero de

parmetros en P es p ( p + 1) 2 . Luego, las ecuaciones del FA dan origen a p ( p + 1) 2
ecuaciones en p ( m + 1) incgnitas. Recordar que p es el nmero de unidades
experimentales y m es el nmero de factores.
Si por ejemplo p = 20 y m = 5, se tendran 210 ecuaciones y 120 incgnitas

por resolverse.

Si p ( m + 1) > p ( p + 1) 2 m > ( p 1) 2 , se tendra ms incgnitas que

ecuaciones, por lo que la solucin no sera nica. Sin embargo, incluso cuando
m ( p 1) 2 , no existe solucin nica cuando m 2 , ya que a cualquier solucin se le
pueden aplicar rotaciones hacia una cantidad infinita de soluciones.
Sin embargo, es factible que existan soluciones diferentes entre s sin la

necesidad de aplicar rotaciones, ya que F puede ser formado de mltiples maneras.
Por otra parte, dado que deben respetarse ciertas restricciones respecto de
los valores que pueden tomar las cargas jk y las varianzas j , directamente se rechazan
todas aquellas soluciones absurdas (por ejemplo con valores negativos para j o valores
mayores que uno para jk ). Adicionalmente, puede exigirse que T = Diag o
1 T = Diag .
Luego, considerando un nmero elevado de ecuaciones e incgnitas, resulta

bastante difcil resolver el sistema P = T + . No obstante, existen varios programas
computacionales que resuelven adecuadamente las ecuaciones del FA.
13.4.2 Mtodo del Factor Principal
Este es un mtodo para estimar la matriz de cargas que se basa en los

componentes principales.
Supongamos que podemos obtener una estimacin inicial de la matriz ;

entonces, podemos escribir:
( ) = T
(13.14)
( )
Dado que es simtrica, puede descomponerse como:
( ) = HGH = ( HG )( HG )
T 12 12 T
(13.15)
donde H es cuadrada de orden p y ortogonal; G es tambin de orden p pero diagonal y

( )
contiene las races caractersticas de . El modelo factorial (13.11) establece que,
( )
dado que es de rango m, la matriz G debe ser diagonal del tipo:

G(1mm ) 0 m( p m)
G= (13.16)
0( p m)m 0( p m )( p m )
Si llamamos H1 a la matriz (p x m) que contiene los vectores propios

asociados a los valores propios no nulos de G1, podemos entonces tomar como estimador
de la siguiente matriz de (p x m):
12
= H 1 G1 (13.17)
Es interesante notar la normalizacin resultante de este proceso:

12 T 12
T = G1 H 1 H 1 G1 = G1 = Diag (13.18)
1424 3
Im
En la prctica, este mtodo se desarrolla de forma iterativa de la siguiente

manera:
1) (
Partir de una estimacin inicial de i o de i mediante i = Diag
T )
2) Calcular la matriz cuadrada y simtrica Qi = ( i )
3) Obtener la descomposicin espectral de Qi de la forma:
T T
Qi = H i1Gi1 H i1 + H i2 Gi2 H i2 (13.19)
donde Gi1 contiene los m mayores valores propios de Qi , y H i1 sus vectores propios.
Elegiremos m de manera que los restantes valores propios contenidos en Gi2 sean todos
pequeos y en magnitud similar.
12
4) Tomar i +1 = H i1 Gi1 y volver al paso (1).
Los estimadores obtenidos mediante este mtodo iterativo son consistentes

pero ineficientes. Adems, no son invariantes ante transformaciones lineales.

Para poder llevar a cabo este procedimiento, necesitamos obtener

estimadores iniciales de (iteracin cero). Es decir, deben estimarse los elementos de la
diagonal ( jj ) , para luego estimar h2j = s 2j jj . Existen las siguientes alternativas:
i. Tomar jj = 0 . Esto equivale a extraer los componentes principales de .

Supone tomar h 2j = s 2j (en el caso de correlaciones h2j = 1 ), que es
claramente su valor mximo, por lo que podemos comenzar con un sesgo
importante.
1
ii. Tomar jj = , donde sii es el elemento diagonal i-simo de la matriz de
s jj
precisin 1 . Esto equivale a tomar h 2j = s 2j R 2j , donde R 2j es el coeficiente
de correlacin mltiple entre xj y el resto de las variables. Mientras mayor
sea el valor de R 2j , mayor ser la comunidad de h2j . Notar tambin que el
trmino s 2j representa la j-sima columna de valores de la matriz .
A fin de entender el procedimiento descrito, consideremos un conjunto de

observaciones de 3 variables: x1, x2 y x3. Su matriz de varianzas y covarianzas es la
siguiente:
0, 35 0,15 0,19
= 0,15 0,13 0, 03 (13.20)
0,19 0, 03 0,16
1
Paso 1 (iteracin 0): considerando jj = , se obtiene:
s jj
52, 09 47,91 52,88

= 47,91 52, 09 47,12
1
(13.21)
52,88 47,12 60, 21

1
52, 09 0 0
0, 019 0 0

0
1
0 = 0 0 = 0 0, 019 (13.22)
52, 09
0 0, 017
1
0

0 0
60, 21

Paso 2: calculamos la matriz cuadrada y simtrica Q0 = ( 0 ) :
0,35 0,15 0,19 0, 019 0 0

Q0 = 0,15
0,13 0, 03 0 0, 019 0 (13.23)
0,19 0, 03 0,16 0 0 0, 017
0,331 0,15 0,19

Q0 = 0,15 0,11 0, 03 (13.24)
0,19 0, 03 0,143
T T
Paso 3: realizamos la descomposicin espectral Q0 = H 01G01 H 01 + H 02G02 H 02 .
Sin embargo, para ello necesitamos previamente los valores propios de la matriz Q0 . A
partir de (13.24) se deduce directamente que los valores propios de la matriz Q0 son
0.379, 0.094 y 0.108. Dado que uno de ellos es negativo, la matriz no es positiva
definida.
Como hay un valor propio mucho mayor que los dems (0.379) consideraremos slo un
factor. En consecuencia, la descomposicin es la siguiente:
6474 8
vector propio para 0,379
0,331 0,15 0,19 0, 670

T
0, 670
0,15 0,11 0, 03 = 0, 442 0,379 0, 442 +

0,19 0, 03 0,143 0, 596 0,596
(13.25)
0, 036 0, 741 0, 036 0, 741
T
0, 783 0, 438 0, 094 0

+ 0 0, 783 0, 438
0,108
0, 621 0,508 0, 621 0,508
144 42444 3
vectores propios para 0,094 y 0,108
12
Paso 4: calculamos 1 = H 01 G01 :

0, 670 0, 412
1 = 0, 442 0,379 = 0, 272
(13.26)
0,596 0,367
La expresin (13.26) es la primera estimacin de la matriz de cargas. Vamos

a volver al paso 1 para iterar.
(
Paso 1: Estimamos 1 = Diag 11T : )
0,331 0,15 0,19 0, 412

1 = Diag 0,15 0,11 0, 03 0, 272 [ 0, 412 0, 272 0,367 ] (13.27)
0,19 0, 03 0,143 0,367

0,180 0 0
1 = 0 0, 056 0 (13.28)
0 0 0, 025
Paso 2: calculamos la matriz cuadrada y simtrica Q1 = 1 : ( )

0,35 0,15 0,19 0,180 0 0
Q1 = 0,15 0,13 0, 03 0 0, 056 0 (13.29)
0,19 0,03 0,16 0 0 0, 025
0, 05 0,15 0,19
Q1 = 0,15 0, 074 0, 03 (13.30)
0,19 0, 03 0,135
T T
Paso 3: realizamos la descomposicin espectral Q1 = H11G11 H11 + H12G12 H12 . A
partir de (13.30) se deduce directamente que los valores propios de la matriz Q1 son
0.307, 0.067 y 0.215. En consecuencia, la descomposicin es la siguiente:

0, 05 0,15 0,19 0,559 0,559

T
0,15 0, 074 0, 03 = 0, 450 0,307 0, 450 +

0,19 0, 03 0,135 0, 696 0, 696
T
(13.31)
0, 081 0,825 0, 081 0,825
0, 067 0
+ 0,806 0,385 0,806 0,385
0, 215
0, 586 0, 414
0
0,586 0, 414
12
Paso 4: calculamos 2 = H11 G11 :
0,559 0,310
2 = 0, 450 0,307 = 0, 249
(13.32)
0, 696 0,386
Realizando una tercera iteracin se obtiene:
0, 269
3 = 0, 229 (13.33)
0, 407
Finalmente, el modelo con los nuevos parmetros es el siguiente:
0, 269 1
X = F + = 0, 229 f1 + 2
(13.34)
0, 407 3
1424 3
3

1 0 0, 254 0 0

: N 0 ; 0
0, 068 0 (13.35)
2
3 0 0
1444424444
0 0, 011
3

3

13.5 Determinacin de la Cantidad Apropiada de Factores
Antes de iniciarse un FA, debe inferirse el valor de m. Una conjetura inicial

adecuada puede ser determinar el nmero de componentes principales, y considerar dicho
nmero como cantidad de factores. No obstante, el nmero inicial no necesariamente
corresponder con el definitivo.
Se recomienda que el nmero mximo de factores no sea superior a la mitad

p
del nmero de variables menos uno: m 1 .
2
13.5.1 Criterios Subjetivos
No Incluir Factores Triviales: los factores triviales son aquellos que tienen
slo una variable original cargando sobre el factor. Ello implica que dicha
variable no se correlaciona con el resto, y es por s misma un factor
subyacente. En tal caso, se elimina dicha variable antes del FA.
Esto no significa que la variable no sea importante, sino que sus caractersticas
son independientes de las otras variables. En sntesis, no tiene sentido construir
factores si se pueden emplear ellas mismas.
No Eliminar Necesariamente Factores con Valores Pequeos de

j o j (ver (13.1)): Esto hace tender el mtodo de FA a un MCP.
Anlogamente, no es necesario que las comunidades tiendan a uno. Recordar
que en el FA interesa las correlaciones entre las variables, y no su variabilidad
individual como en el MCP.
Si las diferencias entre la matriz de correlaciones observada (P) y la generada

por la solucin de FA ( ) es grande ( P > T ) , puede ser necesario
aumentar el nmero de factores. Anlogamente, si la diferencia es muy
pequea, puede reducirse el nmero de factores.
Si, despus de realizado el ajuste respecto a los factores comunes, se

presentan correlaciones altas entre variables, es factible considerarse el
incremento en el nmero de factores. Por el contrario, si las correlaciones son
pequeas, podra reducirse el nmero de factores.

13.5.2 Criterios Objetivos
El criterio objetivo ms utilizado corresponde al denominado enfoque de

posibilidad mxima, basado en los datos con distribucin normal multivariada.
Este mtodo permite considerar que si por ejemplo, 6 factores son adecuados,
eventualmente pueden ser adecuados tambin 5 4. Pero si 6 factores son inadecuados,
es necesario incrementar el nmero de factores.
Otro criterio utilizado comnmente es el de Akaike (AIC). La cantidad de

factores que presentan el menor valor del estadstico AIC se considera como la mejor
seleccin. Ello requiere evidentemente varias selecciones diferentes de m. Tambin es
factible considerar el criterio de Schwartz (SIC).
Sin embargo, estos mtodos tienden a producir factores triviales, los que
deben eliminarse.
13.6 Rotacin de Factores
Como se mencion antes, un conjunto de factores no siempre se interpreta con

facilidad. De hecho, no es recomendable intentar interpretar los factores sin realizar una
rotacin.
Los procedimientos de rotacin intentan que la mayor cantidad posible de

cargas de los factores ( jk ) estn cercanas a cero, mientras se maximicen la mayor
cantidad posible de las restantes.
Adems, dado que los factores son independientes, sera bueno (pero no
fundamental) que las variables de respuesta no se carguen mucho sobre distintos factores.
Por lo tanto, los factores que afectan a una determinadas variables no afectan
al resto, y viceversa.

1,0
f2
4 6
5
0,0
1 f1
3
2
-1,0
-1,0 0,0 1,0
1,0
f2
4 6
5
0,0
1 f1
3
2
-1,0
-1,0 0,0 1,0

13.6.1 Rotacin VARIMAX
La interpretacin de los factores se facilita si los factores que afectan a unas

variables no lo hacen al resto, y viceversa. Luego, se desea maximizar la varianza de los
coeficientes que definen los efectos de cada factor sobre las variables observadas.
Definamos B = T bij . En 1958, Kaiser propuso como medida de

estructura simple la suma de las varianzas de las cargas elevadas al cuadrado dentro de
cada columna de la matriz de los factores. Se eleva al cuadrado para prescindir de los
signos.
Su criterio por lo tanto es maximizar la varianza de los coeficientes que

definen los efectos de cada factor sobre las variables observadas; es decir, maximizar la
expresin:
p p 2
2

2
jq
m j =1
b 4
b jq p

1 m p 2 p 2
p =
j =1
V = b jq b jq
*
(13.36)
{tij } p q =1 j =1 j =1 q =1 p

2
p
La cantidad dentro de los parntesis b 2jq en esta expresin es la
j =1
varianza de las cargas elevada al cuadrado, dentro de la q-sima columna de B.
Dado que las cargas elevadas al cuadrado se encuentran entre 0 y 1, intentar

maximizar la varianza de las cargas elevadas al cuadrado (dentro de una columna)
equivale a dispersar las cargas elevadas al cuadrado dentro de una columna. Es decir,
forzar la mayor cantidad de cargas hacia 0 y forzar las dems hacia 1. Esto permite una
mejor interpretacin de los factores, ya que existir una correlacin alta para
ciertas variables y una correlacin baja para el resto.
Kaiser suma las varianzas de las cargas elevadas al cuadrado que estn
dentro de una columna, a travs de las distintas columnas (q). La matriz ortogonal T que
produce un mximo para esta suma de varianzas de las columnas da como resultado la
rotacin VARIMAX de Kaiser de la matriz de carga de los factores tij = bij ij .

Notar que el criterio recin expuesto da igual peso a las variables de

respuesta que tengan tanto comunidades grandes como pequeas.
Debido a ello, Kaiser sugiri que sera mejor dividir las cargas de los factores
para cada variable, por la comunidad propia de la variable, y luego maximizar la suma de
las varianzas de las razones elevadas al cuadrado dentro de una columna.
En consecuencia, Kaiser maximizara realmente la expresin:
1 m p b jq p b jq
4 2 2
V = p
{tij } p 2 q =1 j =1 h 4j j =1 h2j
(13.37)

donde h2j es la comunidad de la j-sima variable de respuesta (j = 1, 2, ..., p)
La matriz T que maximiza la suma precedente produce la rotacin VARIMAX

de la matriz de cargas de los factores. Este ajuste da ms peso a las variables que tienen
las comunidades ms grandes y menor a las que tienen comunidades pequeas; es decir,
menos peso a las variables que tienen menos en comn con las dems.
Notar que:
h 2j = 2j1 + 2j 2 + .... + 2jm = b 2j1 + b 2j 2 + .... + b 2jm (13.38)
Es decir, la rotacin no cambia las comunidades (permanecen

constantes). Toda rotacin ortogonal tiene esta propiedad, ya que las rotaciones
ortogonales de las matrices de cargas de los factores no afectan las comunidades de las
variables de respuesta. En consecuencia, las rotaciones ortogonales no afectan las
varianzas especficas de las variables.
13.6.2 Rotacin Oblicua
En la prctica, las rotaciones oblicuas se pueden lograr multiplicando la matriz

por una matriz Q no ortogonal ( QT Q I ) . Las rotaciones oblicuas no producen nuevos
factores que permanecen no correlacionados, lo cual es una contradiccin de las hiptesis
iniciales del FA. Luego, este tipo de rotaciones no tiene mucho sentido.

En el desarrollo inicial de un proceso de FA se supone que existe un conjunto

no correlacionado de factores subyacentes que dirigen o controlan las variables que se
estn midiendo. Luego, permitir rotaciones oblicuas implica por lo tanto desconocer esta
hiptesis. Si bien existen paquetes computacionales que permiten realizar rotaciones
oblicuas, ellas no son recomendables.
1,0
f2
4 6
5
0,0
1 f1
3
2
-1,0
-1,0 0,0 1,0
13.7 Cuantificacin de Factores
La cuantificacin de factores corresponde a asignarle valores a los factores

para cada unidad experimental del conjunto de datos.
La cuantificacin de los factores no es sencilla, pues el modelo para cada

unidad experimental es X = F + donde no se conoce y se estima. En
consecuencia, para un determinado vector de observaciones X, no se puede determinar F
en forma explcita.
A continuacin se presentan algunos mtodos para estimar F.

13.7.1 Mtodo de Barlett
Despus de resolver el modelo de FA, se tiene Z = F + donde

: N ( 0; ) y Z es la variable de respuesta estandarizada. El paso siguiente es hallar F
que minimice:
(Z r ) (
F 1 Z r F ) (13.39)
donde Z r es el vector de datos estandarizados para el r-simo individuo. Para un Z r

dado, la expresin anterior se minimiza cuando:
( )
1
Fr = T 1 T 1Z r (13.40)
Luego, se forma Fr como el vector de las cuantificaciones estimadas de los

factores para el r-simo individuo (r = 1, 2, ...., N).
13.7.2 Mtodo de Thompson
Thompson not que, para datos normalmente distribuidos, la distribucin

conjunta de Z y F era:
Z 0 P
: N ; T (13.41)
F 0 I
Esto implica que la esperanza condicional de F dado Z = Z * es:
E ( F Z = Z * ) = T P 1 Z * (13.42)
Por lo tanto, en el mtodo de Thompson se estima el vector de valores para

los factores del r-simo individuo de la forma:
( )
1
Fr = T
T + Zr (13.43)

13.7.3 Otros Mtodos
Dado que para cuantificar un factor se requiere nicamente que una

determinada variable est altamente correlacionada con un factor y poco correlacionada
con los dems factores, cualquier procedimiento que cumpla estas dos condiciones se
considera aceptable.
Una alternativa puede ser por ejemplo considerar el valor promedio de todas
aquellas variables que tengan correlacin elevada con un determinado factor.
Una segunda alternativa puede ser considerar aquella variable que presenta
una mayor correlacin con el factor como cuantificacin de este mismo.

14 ANLISIS DE CONGLOMERADOS (CLUSTER)
El anlisis cluster consiste en definir esquemas de agrupacin que permita

dividir un gran nmero de unidades experimentales (observaciones) en clases o grupos que
sean semejantes entre s.
Luego, se realizan clasificaciones a partir de datos que no estn inicialmente

clasificados. Por ejemplo, podra interesar analizar la semejanza de clientes de una
determinada tienda comercial. Las variables medidas podran incluir aspectos como la
edad, el nivel educativo, nivel de ingresos, estado civil, nmero de hijos, etc.
Para determinar la semejanza de los grupos dentro de la muestra total, deben

definirse criterios que indiquen cun semejante son las unidades experimentales dentro de
un determinado grupo y cun distintas son del resto.
14.1 Medidas de Semejanza y Desemejanza
14.1.1 Distancia Mtrica
Corresponde a la distancia euclidiana entre valores de dos observaciones:

12
d rs = ( xr xs ) ( xr xs )
T
(14.1)

Como alternativa, que es en la mayora de los casos recomendable, se puede

usar la distancia mtrica estandarizada:
12
d rs = ( zr z s ) ( zr zs )
T
(14.2)

14.1.2 Distancia de Mahalanobis
A diferencia de las anteriores, esta distancia requiere de la matriz de

varianzas y covarianzas ( ) :
12
d rs = ( xr xs ) 1 ( xr xs )
T
(14.3)


14.2 Anlisis Grficos
Es importante hacer notar que diferentes tcnicas de agrupacin pueden

generar resultados completamente distintos. La razn de ello es que cada algoritmo de
agrupacin impone una determinada estructura en la muestra.
Por otra parte, es probable que determinadas tcnicas de agrupacin

identifiquen agrupamientos que en realidad pueden no existir.
Para mitigar estos problemas algortmicos, se pueden utilizar diferentes

tcnicas grficas que permitan validar los resultados de los algoritmos utilizados.
14.2.1 Grficos de Dispersin (Bidimensionales)
Este tipo de grfico es til cuando la dimiensionalidad de los datos es p = 2.

De hecho, es probablemente el mejor mtodo para identificar agrupamientos:
Figura 14.1
Grfico de Dispersin Bidimensional
120
100
80
X2
60
40
20
0
0 10 20 30 40 50 60 70 80 90
X1

14.2.2 Grficos de Dispersin (Tridimensionales)
Son similares a los grficos bidimensionales, aunque en determinados casos,

por su representacin grfica, puede no identificarse de manera adecuada la agrupacin
adecuada de los distintos conjuntos de datos. Ello se debe a que si bien son un
representacin de tres dimensiones, siguen graficndose slo en dos dimensiones.
Figura 14.2
Grfico de Dispersin Tridimensional
x3
x2
x1

Figura 14.3
Grfico de Dispersin de Esferas
140
120
100
80
X2
60
40
20
0
-20 0 20 40 60 80 100
-20
X1
14.2.3 Grficos de Andrews
En 1972, Andrews sugiri que la observacin p-variada para la r-sima

xr = ( xr1 , xr 2 ,...., xrp ) , podra representarse por la
T
observacin experimental, esto es
funcin:
xr1
fr (t ) = + xr 2 sin ( t ) + xr 3 cos ( t ) + xr 4 sin ( 2t ) + xr 5 cos ( 2t ) + .... (14.4)
2
De este modo, los datos correspondientes a un individuo (o unidad

experimental en general) dan lugar a una funcin nica para dicho individuo.
Las curvas resultantes no slo representan la imagen de relaciones entre las

variables, sino que son tiles para hallar o validar agrupamientos que podran existir en los
datos. Tambin son tiles para localizar datos outliers.

Para construir las curvas de Andrews, es importante que las variables de

respuesta se midan en unidades semejantes, por lo que es recomendable estandarizar los
datos antes de construir las grficas.
Figura 14.4
Grficos de Andrews
Notar que las interpretaciones grficas resultantes son afectadas

por el ordenamiento de las variables. Si se cree que ciertas variables son ms
importantes que otras, la ms importante debe tomarse como x1 , la segunda en
importancia debe tomarse como x2 , y as sucesivamente.
En los casos donde se tienen grandes nmeros de variables de respuesta, los

grficos de Andrews pueden construirse luego de un anlisis de MCP. En dicho caso, x1
debe tomarse como la primera calificacin de una componente principal, x2 como la
segunda, etc.

14.2.4 Grficos de Estrellas
Cada dato se representar mediante una estrella que contendr tantos rayos
o puntas como variables se deseen representar. Luego, existir una estrella para cada
unidad experimental.
La longitud del j-simo rayo en la estrella de la i-sima unidad experimental

(xij) depender del valor de la variable j en dicho dato.
Figura 14.5
Grficos de Estrellas
Se utilizan los siguientes criterios para calcular la longitud del rayo:
a) Construir la variable z a partir de la estandarizacin de x. En cada eje se

marca el cero y los valores de la variable z se representan sobre los ejes
en unidades de desviacin estndar.
Se construye la variable z = ( z1 , z 2 ,...., z p ) de manera que la variable

T
b)
z j vale 1 cuando x j es mxima y 0 cuando x j es mnima, de acuerdo
a la siguiente expresin:

xij min i { xij }

zij = (14.5)
max i { xij } min i { xij }
Se construye la variable z = ( z1 , z 2 ,...., z p ) de manera que se cumpla

T
c)
0 z j 1 mediante la siguiente expresin:
xij min i { xij }

zij = (14.6)
max i { xij }
Ejemplo (The World Competitiveness Yearbook 1999):
x : ocho ndices socioeconmicos de un pas

x1 : Economa interna: inversiones, ahorro, consumo
x2 : Economa internacional: inversiones en extranjero, importacin, exportacin
x3 : Gobierno: Poltica fiscal, justicia, seguridad, deuda externa
x4 : Finanzas, sector bancario
x5 : Ciencia y tecnologa: Inversin en I+D, propiedad intelectual, capacidad
tecnolgica
x6 : Organizacin empresarial
x7 : Infraestructura, energa y medio ambiente
x8 : Sociedad: Recursos humanos, desempleo, calidad de vida, educacin

Tabla 14.1
Datos Econmicos de Pases del Mundo
Observacin (i) X1 X2 X3 X4 X5 X6 X7 X8
Canad 61.0 51.5 64.5 67.0 61.0 68.5 69.0 68.0
Australia 60.0 49.5 67.5 67.0 60.0 64.0 73.0 67.0
Noruega 62.5 50.5 57.5 61.0 59.0 60.5 76.0 70.0
Venezuela 30.0 42.0 44.0 35.5 41.0 37.0 42.0 40.5
P. Bajos 64.5 72.0 61.5 72.5 63.0 73.0 69.5 65.0
Hungra 59.5 58.0 51.5 51.5 49.5 51.0 50.5 57.0
Portugal 58.0 54.5 52.0 59.5 42.0 48.0 49.0 57.5
Espaa 57.5 59.0 63.5 64.5 49.5 57.5 55.0 59.0
China 66.5 54.5 62.0 40.5 49.5 42.5 39.0 57.0
Thailandia 44.5 45.5 62.0 39.0 38.0 38.0 39.0 49.5
Brasil 52.0 44.5 50.5 39.0 41.0 48.5 41.0 39.5
Mexico 53.5 40.5 50.5 36.5 39.0 48.5 42.0 43.0

14.2.5 Grficos de Caras de Chernoff
Representan observacin p-dimensional mediante cara bidimensional. Forma

de cabeza, curvatura de boca, tamao de ojo y de nariz, posicin de cejas etc.,
determinados por valores observados de las p variables.

14.3 Mtodos de Agrupacin
14.3.1 Mtodo del Vecino Ms Cercano
En este mtodo se empieza con un nmero de agrupamientos igual al total de

observaciones o unidades experimentales que se disponga. Luego, dependiendo de las
distancias entre puntos, se van agrupando hasta que finalmente se dispone de un nico
grupo que contiene a las N unidades experimentales o individuos:
Empiece con N agrupamientos, en que cada uno de ellos contiene

exactamente una unidad experimental
Enlace los dos puntos ms cercanos, de acuerdo a una de las medidas

de distancia definidas anteriormente (ver punto 14.1)
Defina la desemejanza entre este nuevo agrupamiento y cualquier otro

punto como la distancia mnima entre cualquiera de estos dos puntos
agrupados y el otro punto
Contine combinando los agrupamientos que sean los ms cercanos

entre s de modo que, en cada etapa, la cantidad de agrupamientos se
reduzca en uno, y la desemejanza entre cualquier par de stos siempre se
defina como la distancia entre sus miembros ms cercanos
El nmero apropiado de agrupamientos se encuentra en algn

punto intermedio entre el principio y el final de este proceso.
Para ilustrar este mtodo, consideremos un ejemplo. Las distancias mtricas

para un grupo de 6 individuos se presenta en la siguiente Tabla:
1 2 3 4 5 6
1 - 0,31 0,23 0,32 0,26 0,25
2 - 0,34 0,21 0,36 0,28
3 - 0,31 0,04 0,07
4 - 0,31 0,28
5 - 0,09
6 -

La agrupacin inicial se denota como G0 = {[1] , [ 2] , [3] , [ 4] , [5] , [ 6]} .

Analizando la matriz de desemejanza anterior, se observa que los dos puntos ms
cercanos entre s son el 3 y el 5, con una distancia mtrica de 0,04. Luego, se define una
nueva agrupacin de la forma G1 = {[1] , [ 2] , [3 5] , [ 4] , [6]} .
Posteriormente, debe calcularse una nueva matriz de desemejanza o de

distancias mtricas.
La distancia mtrica entre el grupo [1] y el [3 5] corresponde al mnimo

entre 0,23 y 0,26.
La distancia mtrica entre el grupo [ 2] y el [3 5] corresponde al mnimo
entre 0,34 y 0,36.
entre 0,31 y 0,31.
entre 0,07 y 0,09.
El resto de las distancias se mantiene igual
La nueva matriz de desemejanza es la siguiente:
1 2 3-5 4 6
1 - 0,31 0,23 0,32 0,25
2 - 0,34 0,21 0,28
3-5 - 0,31 0,07
4 - 0,28
6 -
La menor distancia mtrica corresponde ahora a la existente entre los grupos

[ ] [ ] , que es igual a 0,07. Luego, se define una nueva agrupacin de la forma
6 y 3 5
G2 = {[1] , [ 2] , [3 5 6] , [ 4]} .
La distancia mtrica entre el grupo [1] y el [3 5 6] corresponde al mnimo

entre 0,23 y 0,25.

La distancia mtrica entre el grupo [ 2] y el [3 5 6] corresponde al mnimo

entre 0,34 y 0,28.
La distancia mtrica entre el grupo [ 4] y el [3 5 6] corresponde al mnimo
entre 0,31 y 0,28.
1 2 3-5-6 4
1 - 0,31 0,23 0,32
2 - 0,28 0,21
3-5-6 - 0,28
4 -

[ 2] y [ 4] , que es igual a 0,21. Luego, se define una nueva agrupacin de la forma
G3 = {[1] , [ 2 4] , [3 5 6]} .
La distancia mtrica entre el grupo [1] y el [ 2 4] corresponde al mnimo

entre 0,31 y 0,32.
La distancia mtrica entre el grupo [3 5 6] y el [ 2 4] corresponde al
mnimo entre 0,28 y 0,28.
1 2-4 3-5-6
1 - 0,31 0,23
2-4 - 0,28
3-5-6 -

[1] y [3 5 6] , que es igual a 0,23. Luego, se define una nueva agrupacin de la forma
G4 = {[ 2 4] , [1 3 5 6]} .
La distancia mtrica entre el grupo [ 2 4] y el [1 3 5 6] corresponde al

mnimo entre 0,31 y 0,28.

1-3-5-6 2-4
1-3-5-6 - 0,28
2-4 -
Finalmente, se obtiene el grupo G5 = {[1 2 3 4 5 6]} con todos los

individuos.
14.3.2 Diagrama de rbol
Una manera de decidir cundo detener el proceso de agrupacin es construir

un diagrama de rbol jerrquico.
Este tipo de diagrama contiene ramas que une individuos y muestra el orden
en que se asignan los individuos a los agrupamientos. Las longitudes de las ramas son
proporcionales a las distancias mtricas entre los individuos (o grupos de individuos).
Para el ejemplo anterior, en la siguiente Figura se presenta el rbol jerrquico

que se ha obtenido:

Figura 14.6
Diagrama de rbol Jerrquico
2 4 3 5 6 1
0,04
0,07
0,21
0,23
Para determinar la cantidad de agrupaciones a conformar, es factible realizar

una inspeccin visual del rbol jerrquico que se ha construido.
Por ejemplo, con el diagrama de rbol expuesto en la Figura 14.6 no es tan

claro el nmero de agrupaciones que es posible definir. Una alternativa adecuada podra
ser por ejemplo considerar 4 agrupaciones: G2 = {[1] , [ 2] , [3 5 6] , [ 4]} .

Sin embargo, en un diagrama como el que se muestra en la siguiente Figura

14.7, se podran definir claramente 3 agrupaciones:
Figura 14.7
Diagrama de rbol Jerrquico con 3 Agrupaciones

14.3.3 Estadstico F de Beale
Otro procedimiento para determinar el nmero de agrupaciones a considerar

corresponde al propuesto por Beale.
Suponga que se tienen 2 agrupaciones posibles; la primera tiene a su vez C1

agrupaciones y la segunda tiene C2 agrupaciones, tal que C2 < C1 .
Sean W1 y W2 las sumas de cuadrados correspondientes a las distancias

mtricas dentro de cada una de las 2 agrupaciones, calculadas desde las medias de stos.
Es decir, suponga que se tienen nr individuos en el r-simo agrupamiento: r = 1, 2,...., C1 y
r = 1, 2,...., C2 .
Si X rq representa el q-simo vector de observaciones en el r-simo

agrupamiento, entonces:
C1 nr C1
W1 = ( X Xr ) (X X r )
T
(14.7)
r =1 q =1
rq rq

C2 nr C2
W2 = ( X Xr ) (X X r )
T
(14.8)
r =1 q =1
rq rq

Para determinar si la primera agrupacin es mejor que la segunda, Beale

sugiri calcular una pseudo-estadstica tipo F por medio de:
F* =
(W2 W1 ) ( N C1 ) k1 (14.9)
W1 ( N C2 ) k2 ( N C1 ) k1
donde k1 = C12 p y k2 = C2 2 p ; N es el nmero total de individuos (unidades
experimentales) y p es el nmero de variables exgenas.
Si F * es mayor que el valor tabulado de F con ( N C1 ) k1 grados de

libertad en el denominador y ( N C2 ) k2 ( N C1 ) k1 en el numerador (a la inversa de
la expresin (14.9)), entonces se elegira la primera agrupacin (aquella con ms
agrupamientos) sobre la segunda (aquella con menos agrupamientos).

Notar que eventualemente pueden subdividirse las dos agrupaciones iniciales

y repetir el mismo anlisis para determinar finalmente cules seran consideradas
semejantes y cules no.
14.4 Reduccin de la Escala Multidimensional
La reduccin de la escala multidimensional es una tcnica matemtica que

permite mapear en un espacio de menos dimensiones las distancias mtricas entre los
individuos (unidades experimentales) que se encuentran en un espacio de muchas
dimensiones (muchas variables exgenas).
Resulta til, por ejemplo, mapear distancias desde un espacio multidimensional

hacia uno bidimensional, para luego construir y analizar un grfico de dispersin.
Para aplicar esta tcnica, en primer lugar deben calcularse las distancias
mtricas entre todas las parejas de individuos; es razonable antes estandarizar los datos.
Supongamos que Drs representa la distancia mtrica entre el r-simo

individuo y el s-simo individuo, dentro de un espacio muestral p-dimensional:
r = 1, 2,...., N , s = 1, 2,...., N ; N es el nmero total de individuos.
Si se representan respectivamente por Z r y Z s los vectores de valores

(estandarizados) del r-simo y s-simo individuo, la distancia mtrica estandarizada entre
estos dos individuos se expresa como:
12
Drs = ( Z r Z s ) ( Z r Z s )
T
(14.10)

Estas distancias se pueden ordenar desde la ms pequea hasta la ms

grande.
Sean Dr1s1 la distancia entre los dos individuos ms cercanos; Dr2 s2 la

distancia entre los siguientes dos individuos ms cercanos, y as sucesivamente hasta llegar
a DrN ( N 1) 2sN ( N 1) 2 , que es la distancia entre los individuos ms lejados. Note que el nmero
N ( N 1)
de parejas distintas de individuos es .
2

Considere a continuacin la representacin grfica de N individuos en el

espacio bidimensional y denote por d rs la distancia entre el r-simo individuo y el s-simo
individuo, dentro del espacio bidimensional.
En este mismo espacio, sean d r1s1 la distancia entre los dos individuos ms
cercanos; d r2s2 la distancia entre los siguientes dos individuos ms cercanos, y as
sucesivamente hasta llegar a d rN ( N 1) 2 sN ( N 1) 2 , que es la distancia entre los individuos ms
alejados.
La reduccin de escala multidimensional intenta localizar N

puntos en un espacio bidimensional de modo que las distancias entre las
parejas de puntos en este espacio corresponda tanto como pueda con las
distancias verdaderas ordenadas entre los puntos observados:
Dr1s1 < Dr2 s2 < ...... < DrN ( N 1) 2 sN ( N 1) 2 (14.11)
La localizacin de los puntos observados en un espacio reducido se realiza

de tal forma que se minimice la expresin:
N r 1
( D d rs ) Drs
2
rs
E= r =1 s =1
N r 1
(14.12)
D
r =1 s =1
rs
sujeto a (14.11).
Para evaluar la calidad del ajuste, se acostumbra comparar grficamente

las diferencias reales entre las parejas de puntos contra sus distancia
modeladas. Si la representacin grfica de estas parejas de distancias revela una
tendencia montona creciente, entonces se puede deducir que la grfica bidimensional
ilustra con exactitud la cercana de las parejas de puntos.
Evidentemente, para determinar las distancias d rs es necesario utilizar

programas computacionales especficos. Notar tambin que es altamente probable la
inexistencia de soluciones factibles, por lo que resulta necesario relajar algunas de las
restricciones, o incluso todas.


Econometria Catolica de Chile PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Econometria Catolica de Chile PDF

Cargado por

Copyright:

Formatos disponibles

PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE

Pontificia Universidad Catlica de Chile

2.2.4 Indicadores de Bondad de Ajuste......................................... 2-23

Pontificia Universidad Catlica de Chile

5.2.2 Causas de la Multicolinealidad ............................................ 5-59

Pontificia Universidad Catlica de Chile

6.2 Suavizamiento de Series de Tiempo............................... 6-108

Pontificia Universidad Catlica de Chile

9.2 Procesos AR(2)................................................................... 9-151

Pontificia Universidad Catlica de Chile

11.2.4 Validacin de Procesos ARIMA ........................................11-190

Pontificia Universidad Catlica de Chile

13.3.2 Normalizacin del Modelo Factorial................................13-236

Pontificia Universidad Catlica de Chile

1 REPASO DE MATRICES Y ANLISIS DE DATOS

1.1 Operaciones con Matrices

a11 a12 .... a1n a11 a21 .... am1

1.1.1 Matrices Especiales

D = diag(A) es la diagonal de la matriz A de dimensin n x n:

T se denomina triangular superior de la matriz A:

a11 a12 .... a1n

In se denomina matriz identidad de dimensin n x n:

Pontificia Universidad Catlica de Chile

C = A B es definido como cij = aij bij dado que A y B tienen el mismo

C = A B es definido como cij = ( aik bkj ) dado que A y B son matrices

conformables, es decir, A es de r x n y B e de n x p. Debe notarse que:

A B y B A no son necesariamente iguales.

Si A A = A se dice que A es idempotente, y en general ( A) = A, p > 1 .

1.1.4 Operador de Kronecker

a11B a12 B .... a1n B

Se cumplen las siguientes propiedades:

Pontificia Universidad Catlica de Chile

1.1.5 Matrices Particionadas

La matriz A de m x n puede ser particionada en 4 sub-matrices de la forma:

Luego, si B es tambin particionada se puede obtener la siguiente expresin:

A A12 B11 B12 A11B11 + A12 B21 A11B12 + A12 B22

1.1.6 Matriz Inversa

Dada la matriz A de n x n, si existe una matriz B que satisface AB = BA = In,

1.1.7 Matriz Traspuesta

Se cumplen las siguientes propiedades:

Pontificia Universidad Catlica de Chile

Si A = AT se dice que A es simtrica

1.1.8 Traza de una Matriz

La traza de una matriz cuadrada conformable A de n x n se define como la

Debe notarse que para un producto de matrices cuyo resultado

1.1.9 Matrices Ortogonales

Las matrices ortogonales son matrices cuadradas que pueden representar un

Pontificia Universidad Catlica de Chile

Si la operacin realizada es slo un giro, entonces el mdulo o norma de Y

Por lo tanto, debe cumplirse que:

La condicin de ortogonalidad es la que se obtiene de (1.9), de donde se

Luego, una matriz ortogonal debe tener filas (o columnas) que

1.1.10 Vectores Caractersticos y Valores Propios

Dada una matriz cuadrada, existen determinadas propiedades de dicha

Llamaremos vectores propios de una matriz cuadrada de orden n a aquellos

para determinados valores constantes de , que es un escalar, y que se denomina valor

Pontificia Universidad Catlica de Chile

La expresin (1.12) es un sistema de ecuaciones lineal homogneo que tiene

Debe destacarse que:

Si es un valor propio de A, entonces r es un valor propio de Ar

Los valores propios de una matriz y su traspuesta son los mismos

Los vectores caractersticos de una matriz simtrica son ortogonales

Las matrices A y (A + I) tienen los mismos vectores propios, y si es un valor propio