Está en la página 1de 26

Resumen 2 Certamen Econometra

Mtodos de estimacin
(i) Mnimos cuadrados ordinarios y Mxima verosimilitud requieren de
normalidad en su residual i N 0, 2 , (media cero y homocedasticidad), as como
que estn incorrelacionados, es decir, cov i , j 0
Matriz Varianzas y covarianzas MCO

2 0
0

2
2
I 0
0
0
0 2

(ii) Mnimos cuadrados generalizados Se mantiene el requisito de media


cero para sus residuales, pero a diferencia de los anteriores, puede existir
heterocedasticidad, es decir, que la matriz de varianzas y covarianzas de los residuales
es cualquier matriz cuadrada, simtrica y definida positiva N n 0,

g1

...
Matriz Varianzas y covarianzas Var G

g n

Dado lo anterior ante la presencia de autocorrelacin y heterocedasticidad, (que para


lo otros mtodos representan un problema para la estimacin y anlisis), el modelo
puede ser estimado por MCG.
2

Situaciones de G:

G I 2 I

G matriz diagonal general de la forma, G Diag ( 12 , 22 ,..., n2 ) Los


residuales son Heterocedsticos e incorrelacionados

G matriz simtrica general Los residuales son Heterocedsticos y estn


correlacionados, este es el peor escenario para la estimacin.

Los residuales son Homocedsticos e incorrelacionados

I.- Estimacin por Mnimos Cuadrados Generalizados


-

Presencia de heterocedasticidad

La matriz G > 0 , diagonal y 2 G , lo que implica que los residuales se


distribuyen con media cero y varianza , lo que no es aplicable para MCO. Para
transformarlo a homocedsticidad se hace:

y G
*

1 / 2

G
*

Var ( ) G
*

1 / 2

Var ( ) G

1 / 2

x* G

,
1 / 2

1 / 2

1 / 2

1 / 2

Var ( * ) G
2 G G

Varianza de los residuales con homocedsticidad e


Var ( * ) 2 I
incorrelacionados, que se puede estimar por MCO. Aqu cambian las escalas de
medidas, pero las variables siguen siendo las mismas.

Presencia de heterocedasticidad y autocorrelacin

La matriz G es cualquier matriz simtrica y mayor a cero. Para eliminar la


heterocedasticidad y la autocorrelacin existe una matriz V , cuadrada no singular, tal
que:
G VV '
Para transformar el modelo se debe hacer:
i) Multiplicar el modelo por V

y X
*

ii) Estimar por MCO

y V

Xb V

X '* X *

MCG X ' G 1 X

'*

X y

Como obtener V?
-

Cholesky
Jordan

X G y

V es triangular, por lo tanto no es simtrica.


Descomposicin espectral de Jordan.

'

- Descomposicin espectral de Jordan


La matriz G se puede escribir como:

G PP'
Con:
P

Matriz ortogonal, donde sus columnas son los vectores propios de G

P 1 , 2 ,..., n

Matriz diagonal de valores propios de G.

G PP' P

1/ 2

1/ 2

...

P , dado que P es ortogonal P

P' , resultando:

G VV '
De donde

1 / 2

P'

Cmo obtener G?
Si hay homocedsticidad y autocorrelacin, entonces las autocorrelaciones fuera de
la diagonal, se obtienen por proceso estocstico o serie de tiempo.
Si hay heterocedasticidad y autocorrelacin, entonces la matriz G es diagonal. Y
como obtenerlo se ver mas adelante.

Propiedades del estimador MCG MCG

'*
- Es insesgado pues E * 0 y MCG X X *

- Matriz de covarianzas es



Var
MCG

X
'*

X ' (V )'V
X ' G X

*
*
Var ( MCG ) 2 X ' X

Var MCG 2

- Es MELI

E MCG

Estimacin de 2
Conocer G es requisito para aplicar MCG, para su estimacin se debe saber como es
la heterocedasticidad o la autocorrelacin.
Conocer 2 no es requisito. Sin embargo este se puede estimar mediante:

2
i

n p 1

Observaciones
Los problemas de heterocedasticidad y de autocorrelacin pueden causar lo siguiente:
-

El coeficiente de determinacin (R2) no est acotado entre 0 y 1, dado


que el modelo transformado no posee constante y adems de que, el R2
mide la capacidad de explicar la respuesta del modelo y esto no es lo que
interesa en el anlisis.
Estimar por MCO cuando corresponde por MCG produce un sesgo en la
estimacin de la Varianza del estimador beta, por lo que estos dejan de
ser eficientes. El sesgo puede llegar a ser de gran magnitud.

II.- Diagnsticos en la regresin: El caso de las observaciones


Para validar las inferencias que se desprenden de un modelo estimado, se debe asegurar
que el modelo muestral representa adecuadamente la realidad, por lo que se requiere
verificar todos los supuestos y requisitos usados en la estimacin.
Residuales estandarizados
Residual Perturbacin aleatoria que no se puede observar, con varianza
homocedstica 2 en todos los casos.
Si

e Y Y

Con Y x b

b ( x' x) 1 x' y

e y I x( x' x) 1 x'

De donde se obtiene la matriz M x( x' x) 1 x' , la cual es homocedstica si los


elementos de su diagonal son iguales. Sin embargo en general los residuales observados
estimados no tienen la misma varianza
Var (e i ) 2 1 mii

Los elementos de la diagonal de la matriz M corresponden a los valores de


apalancamiento, que explican la distancia entre los errores y el centroide X.

Residuales estudentizados (estandarizados) ri

CME 1 mii

Observaciones atpicas
Una observacin es atpica si posee un residual demasiado grande, en valor absoluto.
Para determinar si una observacin es atpica o no se utiliza:

n p 1;1

CME 1 mii

n p 1;1

Normalmente se dice que los valores de t varan entre 2 y 2,5, por lo que si el
residual estudentizado en valor absoluto es mayor a 2,5, se declarara como atpico.
Si la cantidad de observaciones atpicas es muy grande, puede ocurrir un efecto
sistemtico en los datos, por lo que se debe modificar el modelo
Observaciones atpicas no influyentes: No se hace nada con ellos, dado que no
influyen en la estimacin.
Observaciones atpicas influyentes: Si se determina que por un error de
medicin o de determinacin de valores, se debe revisar los datos, y si se
detecta que los casos atpicos no son de inters, entonces se eliminan de la base
de datos. Si por el contrario se da que la variable de respuesta asuma valores
dentro de lo esperado, pero uno de los predictores es muy distinto de los dems,
no se puede sacar del modelo, dado que si lo explica.
Observaciones influyentes
Una observacin es influyente si al incluirla o no en el modelo cambia
significativamente uno o mas de los coeficientes betas (pendientes de la regresin).
Existen distintos mtodos para determinar si una observacin es o no influyente:
Distancia de Cook
Este mtodo considera la distancia o discrepancia entre, Yh Y( h ) , elevndolo al
cuadrado y estandarizndolo.

Yh
Y

(h)

Estimacin del punto h- simo, usando el modelo con todos los datos.
Estimacin de Yh usando el modelo con (n 1) observaciones.

Dh

rh2 mii
~ Fp 1,n p 1,
( p 1)(1 mii )

Si Dh F , entonces Yh se declara influyente.


Apalancamiento
Dado que el apalancamiento corresponde al elemento i- simo de la diagonal de la
matriz M, y representa la distancia entre la observacin xi y el centroide x , si este valor
es muy grande, significa que esta lejos del promedio y por lo tanto es influyente.
- Influyente si
- No influyente si
- podran ser influyentes

apalancamiento > 0,5


apalancamiento < 0,2
apalancamiento [0,2 ; 0,5]

Residuales estudentizados omitidos


i) Se debe estimar el modelo con (n-1) observaciones, omitiendo la que se esta
estudiando
ii) predecir el valor de Y(h), que corresponde a la observacin omitida
iii) calcular el residual estandarizado y se declara como influyente si:

ri

CME 1 mii

[2,5;2,5]

DFBETA Y DFBETAS
Se utiliza cuando interesa determinar si una observacin h esta afectando a una
pendiente j en particular.
Determinacin:
i)
Se calcula la regresin con y sin la h sima observacin.
ii)
Se obtienen las pendientes para ambos casos.
iii)
Si las diferencias son muy prximas a cero, la observacin h sima no
es influyente.
DFBETA b jh b j (h)
iv)
Suponiendo que los residuales y estimadores b se distribuyen normal, la
diferencia estandarizada es:
b jh b j ( h )
DFBETAS
S*
Con S* como la desviacin tpica de modelo son la variable h sima.

v)

Se compara con la distribucin t de student, entonces si:

DFBETAS

b jh b j ( h )

t La diferencia es significativa y la
S*
observacin es influyente.
vi)

Al ojo se puede decir que una observacin es influyente si:

DFBETAS

2
N

Dcima de normalidad de los residuales


Dado que la normalidad es un requisito para poder estimar por MCO o MV, se
detecta por medio de la dcima de Shapiro y Wilk, la que compara la curva de los
residuales con una curva Normal.

H 0 : El conjunto de residuales tiene una distribucin normal


H a : Los residuales no se distribuyen normal.
El objetivo es correlacionar los residuales con los correspondientes valores
pertenecientes a una distribucin Normal, por lo que si la correlacin es significativa
los residuales se comportan normal.
Procedimiento:
i)
ii)
iii)

Calcular los residuales estudentizados. (ri)


Ordenarlos de menor a mayor.
Calcular para cada uno la Frecuencia Relativa Acumulada (FRA):

i 4
FRAi

n 1

4
iv)
Se calcula para cada FRA, su valor Z, que se obtiene inversamente de la
distribucin N (0,1)
v)
Se calcula la correlacin (r) entre (ri) y Z y si:
r 0,95 Hay normalidad.

vi)
De lo contrario se aplica una dcima para las hiptesis de las
correlaciones, como la de Bartlett:

H0 : 0
Ha : 0
E

r n2
1 r2

~t

n p 1;1

Si E > t , entonces se rechaza la hiptesis nula


Enfoque de Chambers utiliza el mismo procedimiento de Shapiro y Wilk, cambiando
la determinacin de los Z, definindolos como:
Z i 1 N i

; con N1 1 N n 1 n

1
2

Ni

i 0,3175
n 0,365

Independencia entre los residuales


Generalmente en el caso de las variables financieras, estas se ordenan en el tiempo,
por lo que la independencia de los residuales es muy importante.
Si son independientes, se estima el modelo con los mtodos planteados.
Si no son independientes, se debe incurrir a los modelos autorregresivos.
Para establecer la independencia se pueden utilizar la dcima de Durbin y Watson
(autocorrelacin) o la dcima de Rachas.
Dcima de rachas
Se utiliza cuando el tamao de la muestra es menor a 20 y los datos aparecen
ordenados en el tiempo.
Esta dcima es no paramtrica, en el sentido que no hay parmetro poblacional
alguno involucrado en su procedimiento.
Si algn residual fuera igual a cero, se elimina de la muestra.

H 0 : Residuales ocurren al azar aleatoriamente Incorrelacionados /


independientes
Ha :
Si

Residuales con autocorrelacin.

E r Li; Ls

De donde:

No rechazar H0, es decir, los residuales son independientes.


r: Nmero de rachas
Li: lmite inferior de la tabla de Swed y Einsenhart
Ls: lmite superior de la tabla de Swed y Einsenhart

* Para obtener los limites se deben conocer el numero de elementos positivos y el de


elementos negativos.

Comparacin de regresiones
Dado que a veces ocurren cambios estructurales en los modelos, a travs del tiempo,
se utiliza la dcima de Chow para determinar si los coeficientes betas de dos o mas
regresiones son iguales. Esta dcima se trata simplemente de una dcima F de
varianzas.
Requisitos:
i)
Los modelos deben tener las mismas variables en todos los grupos
ii)
Los modelos deben estar estimados con intercepto.
iii)
Los modelos deben tener residuales homocedsticos,
independientes entre los modelos y distribuirse normalmente.
* La normalidad de los residuales se asume.
Sean los modelos:

Yi 0 1 X 1i 2 X 2i ... p X pi i
Y j 0 1 X 1i 2 X 2i ... p X pi i

La hiptesis es:

H 0 : 0 0 ;1 1 ;...; p p y que Var ( i ) Var ( j )

Se deben obtener la suma de cuadrados de los residuales de ambos modelos:


- C1 SCE(Modelo1) , con (g1 = n1 p 1) grados de libertad
- C2 SCE(Modelo2), con (g2 = n2 p 1) grados de libertad
Juntando todos los datos y estimando el modelo con (n = n1 + n2) observaciones se
determina la suma de cuadrados de los residuales: C, con (g = n1 + n2 p 1) grados de
libertad.
Se define

Csum Ci

Cdif C Csum

Se rechaza H0 si el estadgrafo E si:

Cdif
( p 1)
E
F p 1;n 2( p 1);1
Csum
(n 2( p 1))

Dcima para la falta de ajuste del modelo


Si el modelo estimado es correcto, se espera que los promedios mustrales, deben ser
iguales o muy similares a los y estimados, para decir que esta bien ajustado Yi ~ y
La suma de cuadrados de la falta de ajuste es:

SC ( fa ) ( y Yj ) 2

El cuadrado medio de la falta de ajuste es:

CM ( fa )

SC ( fa )
d

Procedimiento:
i)
Estimar el Modelo por MCO y obtener la suma de cuadrados de los
residuales (SCE)
ii)
Ordenar los datos correspondientes de menor a mayor en relacin a la
variable X, creando grupos de datos iguales y posteriormente sacar los promedios de
cada grupo ordenado en relacin al Y promedio.
iii)
Calcular Yii Y

Suma de cuadrados del error Puro.

iv)

Calcular

v)

Obtener SC(fa) SC ( Error) SC( Error _ puro) SC ( fa )

ii

La tabla ANOVA, usando la dcima F es:

Regresin

Gl
p

SC
SC(R)

CM
CM(R)

Residual
Falta de ajuste

np1
dp1

SC(E)
SC(FA)

CM(E)
CM(FA)

Error puro
Total

nd
n1

SC(EP)
SC(T)

CM(EP)

Estadgrafo F
CM ( R)
CM ( E )

CM ( FA)
CM ( EP )

Si la falta de ajuste es significativa, el modelo debe ser ajustado.

III.- Diagnsticos en la regresin: El caso de las variables


Caso del predictor variable
Variables exgenas Variables cuyos valores no se observan y son constantes
conocidas a priori. Existen dos situaciones en que estas variables pueden causar
problemas en la estimacin:
a) X es una variable aleatoria: Muchas veces se registran datos, tomando una
muestra aleatoria de cierta poblacin, por lo que se deben imponer requisitos
adicionales para que se pueda aplicar la estimacin del modelo.

- Las distribuciones condicionales de Y dado X son normales e independientes


con medias condicionales 0 1 X i y varianzas condicionales 2 .
- Las x son variables aleatorias, independientes, cuya distribucin de
probabilidad no involucra a los parmetros betas ni a las varianzas condicionales.
Si estos requisitos no se cumplen, an son validas las estimaciones, pero la
interpretacin de los intervalos de confianza y las probabilidades de error cambian.
b) X determinada con error: muchas veces el valor que X debiera tener se fija
aproximadamente, (presin de un estanque), lo que causa que la estimacin sea sesgada
e inconsistente, dado que los predictores y errores no son independientes.
c) Predictores son variables ficticias: se dice ficticia si es definida por el
investigador a fin de obtener informacin relevante para el modelo, pero de tipo
exgeno al modelo mismo. en general tiene que ver con caractersticas de objetos
muestreados , (como empresas grandes medianas o pequeas) . normalmente se definen
como variables dicotomicas, (0/1)

Heterocedsticidad
Corresponde a una violacin a los requerimientos de la estimacin de los parmetros
por MCO o MV, ya que invalida los resultados.
Se da cuando los residuales no tienen varianza constante e igual y puede presentarse
para uno o ms valores de un predictor o para todos los niveles de todas las variables
predictoras.
Causas
- Coyuntural, propia de la muestra, por ejemplo en la estimacin de ingreso versus
consumo, dado que se produce Heterocedsticidad debido a la gran diferencia que existe
en el consumo a distintos estratos socioeconmicos.

- Datos son promedios: Para que no exista Heterocedsticidad se deben utilizar muestras
con la misma cantidad de observaciones. Porque por ejemplo, en Consumo vs ingreso,
los datos brutos se pueden obtener de encuestas aplicadas en distintas regiones, por lo
que las varianzas dependen inversamente de los tamaos muestrales por regin, dado
que la varianza de un promedio es

2
n

- Omisin de variables: puede provocar que los residuales crezcan con la variable
omitida. Esta causa en un error de especificacin del modelo por lo que la
Heterocedsticidad es falsa o espuria.
Consecuencias de estimar por MCO cuando existe Heterocedsticidad
Estimadores siguen siendo insesgados y lineales, pero no son eficientes y dejan de
tener varianza mnima, es decir, no son MELI.
Deteccin por grficos
- Residuales puros versus variable predictora X:
La forma habitual es una cinta horizontal.
si posee forma de embudo, significa que las varianzas dependen proporcionalmente
de X, y se dice que las varianzas son de la forma i2 CX i

- Residuales cuadrticos versus variable predictora X:

Dcimas para heterocedsticidad


Las dcimas pretenden modelar la heterocedsticidad a los estilos:

i2 CX i2

i2 CX i

i2 CX i e

1) Dcima de igualdad de varianzas de Bartlett


Ventajas

Sirve para cualquier escala, y la probabilidad de cometer error tipo 2


(aceptar una hiptesis falsa, es decir, aceptar que no hay
homocedsticidad cuando si la hay) es baja.

Desventajas

Sensible a la anormalidad de los errores, es decir, no detecta cul o


cules son las varianzas diferentes y se debe aplicar para cada una de
las variables exgenas. Supone distribucin Normal.
H 0 : 12 22 ... n2 2

Homocedsticidad

H a : Uno o ms difieren de los restantes Heterocedsticidad


2
i

Procedimiento:
i)
Se ordenan las variables X de menos a mayor formando grupos con los
datos iguales.
ii)
De cada grupo se obtiene la varianza muestral de los residuales y k, que
es igual al nmero de variables por grupo.
iii)
Se define la varianza total mancomunada:
k

S2

iv)

1S i2

nk

Se rechaza la H0 si:
k

E n k ln S 2 ni 1 ln S i2 > k21;1
1

* Esta dcima no tiene una Hiptesis alternativa que permita corregir la


heterocedsticidad
** Para eliminar la heterocedsticidad se debe transformar la Variable X que produce la
heterocedsticidad tpicamente a X * ln X

2) Dcima de Goldfert y Quandt


Ventajas

Si el grafico de los residuales al cuadrado versus variable predictora,


muestra forma de embudo, esta Dcima es potente. Adems supone
que los residuales se distribuyen normalmente.

Desventajas

Hay que aplicarlo para cada una de las variables X, y en cada caso hay
que estimar dos veces, por cada uno de los grupos.
H 0 : i2 2

H a1 : KX i
2
i

H a 2 : i2 KX 12

Homocedsticidad

Heterocedsticidad

Por cul de las dos hiptesis alternativas se opta? Se debe hacer un grfico para
cada una:
Ha1 ei versus x

Ha2 ei2 versus x

Procedimiento:
i)
ii)

Se deben ordenar los datos en relacin a las variables exgenas de menor


a mayor.
Se dividen en dos grupos y se censuran los valores centrales.

iii)

Dejando dos grupos con n1 y n2 observaciones. n1 n2 , sin son


diferentes se introducira un sesgo en la dcima.

iv)

Respecto a la censura, esta debe ser de un 10% de la muestra


N censurados 0,1n

v)

Se estima cada grupo por separado y se obtienen los cuadrados medios de


los errores CME1 y CME2

vi)

Se calcula el Estadigrafo E

vii)

Bajo el supuesto de normalidad exacta E se distribuye F, por lo que se


rechaza la Hiptesis nula si:

CME1
CME 2

(Mayor/Menor)

E F( n1 p 1);( n 2 p 1);1
* Para eliminar la Heterocedsticidad se hace:

yi
xi

0
xi

1 x1
xi

2 x2
xi

...

p xp
xi

p xp i
yi 0 1 x1 2 x2

...

xi
xi
xi
xi
xi
xi

i
xi

Para H a1 : i2 KX i

Para H a 2 : i2 KX i2

3) Dcima de Harbet White


Ventajas

No requiere ser aplicado para cada X, es decir, es global e indica si


hay o no hay heterocedsticidad en el modelo.

Desventajas

El procedimiento 1 al tener una distribucin 2 con un grado de


libertad, hace que sea psimo , dado que la curva que se genera es
muy distinta a la tpica de la distribucin 2 con tres o mas grados de
libertad.

H 0 : i2 Cte

Homocedsticidad

H a : Cte

Heterocedsticidad

2
i

Procedimiento I:
y x por MCO

i)

Estimar el modelo

ii)

Obtener los ei2 y los Y

iii)

Estimar el modelo ei2 versus Y (Los errores como Y, los estimados


como X)

SCR
del modelo calculado en iii
SCT

iv)

2
Obtener R 2 Raux
respectivo R 2

v)

2
Calcular estadgrafo E nRaux

vi)

Se rechaza la Hiptesis nula, es decir, hay heterocedsticidad si:

E 21;1
O si Valor p de E es menor a , se rechaza la Hiptesis nula.

Procedimiento II:
i)

Estimar el modelo por MCO

ii)

Considerar ei2 0 j x j j x 2j jk x j xk
p

j 1

j 1

iii)

Estimar el modelo auxiliar anterior

iv)

2
Obtener el R 2 Raux
respectivo R 2

v)

2
Calcular Estadgrafo E nRaux

vi)

Se rechaza la hiptesis nula si:

j k

SCR
(modelo calculado en iii)
SCT

E 21 ; con p( p 3) grados de libertad


2

4) Dcima de Park
Ventajas

Dcima potente, poco sensible a la anormalidad de los residuales y


con estadgrafos con distribucin t student que es bastante buena.

Desventajas

Se debe calcular para cada una de las variables X y hace difcil la


interpretacin del modelo transformado. Por otra parte los nuevos
residuales v i , pueden ser, a su vez, heterocedsticos.
H 0 : Homocedsticidad

H a : i2 kxi ei o bien H a : ln i2 ln k ln xi i

Procedimiento:
i)

Estimar el modelo por MCO

ii)

Obtener residuales ei y estimar el nuevo modelo


ln ei2 ln 2 ln xi vi

iii)

Docimar:

Ho : 0
Ha : 0

iv)

Se compara con la t de student y si se acepta la Hiptesis nula, implica


que ke cte , lo que implica homocedsticidad.
2
i

* Para eliminar la Heterocedsticidad se debe dividir el modelo original por x


la causa de la heterocedsticidad.

con Xj

Una vez obtenidos los beta estimados, usando el modelo transformado, estas
estimaciones se remplazan en el modelo original para poder realizar las interpretaciones.
Por su parte las dcimas e inferencias respecto a los parmetros se hacen con el modelo
transformado.
Multicolinealidad
Matemticamente Varias variables son colineales si una combinacin lineal de todas
ellas vale cero, cuando al menos un beta es distinto de cero. Por lo que la variable X
puede escribirse como una combinacin lineal de todas las dems.
Econometra Corresponde a la existencia de una relacin lineal entre alguna o todas
las variables exgenas de un modelo de regresin, en trminos de la muestra. Por lo que
es un problema muestras ms que poblacional.
i) Corr( X i , X j ) 0

Incorrelacionadas, no hay colinealidad.

ii) 0 Corr( X i , X j ) 1

Colinealidad parcial o imperfecta.

iii) Corr( X i , X j ) 1

Colinealidad perfecta.

En econometra la colinealidad perfecta no es admisible y si se presenta se debe


eliminar una variable, debido a que los coeficientes estimados quedan indeterminados y
sus errores estndar son infinitos. Esto se debe a que para la estimacin de los betas, as
1
como para el clculo de la varianza se debe usar la Matriz X ' X y si hay dos o ms
variables perfectamente colineales la matriz X ' X no es de rango completo y no se
puede invertir.
Dado que la colinealidad afecta al modelo nicamente a travs de las variables
exgenas y la asociacin entre las variables se entiende lineal, lo que implica que en
modelos con variables exgenas no lineales, si existe colinealidad es dbil.

Efectos de la Multicolinealidad
Dado que la colinealidad afecta al rango de X ' X , se produce un aumento de la
varianza de los estimadores por encima de lo que debiera ver, lo que a su vez trae otras
consecuencias:
Las dcimas t de student para los son insensibles (poco potentes)
Las observaciones se tornan influyentes, pues pequeos cambios en los
datos producen cambios en las estimaciones b .

i)
ii)

Deteccin de la Multicolinealidad

Calcular correlaciones simples entre variables Correlaciones altas


indican colinealidad
Calcular correlaciones parciales considerando los coeficientes de
determinacin parcial, si R12.234 es alto y R122 .34 , R13.24 , R142 .23 son bajos,
puede haber colinealidad.
La matriz X ' X no es invertible o su inversin presenta dificultades
Dado que cuando hay colinealidad el determinante es cero o casi cero,
de modo que tanto ms pequeo es el determinante, mayor es la
colinealidad.
Encontrar un R 2 alto con pocas significativas Puede indicar
colinealidad.
De acuerdo a los 6 casos siguientes, al examinar las dcimas de F del
ANOVA y las t de Student individuales para cada coeficiente.
Caso
F del ANOVA
t individuales
1
Significativa
Todas Significativas
2
Significativa
Algunas Significativas
3
Significativa
Ninguna Significativa
4
No Significativa
Todas Significativas
5
No Significativa
Alguna Significativa
6
No Significativa
Ninguna Significativa

En caso 3 muestra problemas de Multicolinealidad, Las variables exgenas en


conjunto influyen sobre la respuesta Y, pero no individualmente y los estadgrafos t de
student son muy pequeos pues las varianzas de los b son muy grandes.
En los casos 4 y 5 hay problemas de colinealidad, dado que si la correlacin simple
entre dos variables es muy cercana a -1, el efecto conjunto de las variables es nula,
porque se cancelan, aunque individualmente si produzcan un efecto sobre Y.
En caso 6, puede ocurrir que la muestra usada no permita detectar una relacin que si
existe en la realidad.

Usar los nmeros de condicin de la matriz X ' X Estos nmero


se obtienen de los valores propios de la siguiente manera:

i) Se estandarizan las variables X a varianza 1, dado que los valores propios


dependen de la escala de las variables.
ii) Se obtiene la matriz X ' X usando los valores estandarizados y se calculan
los valores propios si hay colinealidad varios de los valores propios sern
cero o incluso negativos.
iii) Considerando solo los valores propios positivos se calcula el nmero de
condicin de la matriz X ' X :

max
min

max
min

Si C > 1000 o 20 entonces se puede sospechar la existencia de


colinealidad, pero si los ndices son pequeos, si llegase a existir colinealidad, es
un problema menor.
- Usar el ndice Cp de Mallows:
Considerar un modelo con p variables, mas el intercepto p + 1 variables en total.
Cp est relacionado al error cuadrtico medio total de las n observaciones estimadas
para cada subconjunto de las variables X que definen un modelo de regresin.
En el modelo completo (p + 1) el CME es un estimador insesgado de la varianza.
Se define el estadgrafo:
SCE *
Cp*
(n 2 p*)
CME
Con p* numero de variables elegidas mas el intercepto, SCE* es la SCE para las p*
variables y CME es el estimador independiente de la varianza de los residuales,
obtenida con (p+ 1) variables iniciales.
Cp* p *
Cp* p *

Modelos sin sesgo en la estimacin de la varianza.


Modelos con sesgo en la estimacin de la varianza.

Cp* p *
Cp* p *

Se produce un sesgo debido a un modelo incompleto.


Modelo sobre especificado (sobran variables).

h
Otra forma de calcular Cp es:

Cp

(n p 1)(1 R p2* )
1 Rp

n 2p*

VIFh

El coeficiente VIF La idea es medir que tanto se infla la varianza de


los parmetros estimados del modelo con respecto al caso en que las
predictoras son independientes entre si.

1
1 Rh2

; Donde Rh2 es el coeficiente de determinacin mltiple de la


regresin de Xh sobre las p -1 variables restantes.

La variable X0 no est considerada y el VIF se calcula para las p variables exgenas


Tolerancia : TOL 1 Rh2
Si Rh2 0 y VIFh 1

La variable Xh no esta relacionada a las dems

Si VIFh 1

Indica colinealidad

Ademas:
Rh2 0
VIF 0,5
Tol 0,2
La Multicolinealidad existe.

Si

Eliminacin de la Multicolinealidad
-

Usar informacin a priori respecto a la asociacin entre las variables


Eliminar alguna variable que aparezca muy correlacionada a otra, esto es
factible, pero se debe recordar que la eliminacin de una variable
relevante produce un sesgo de especificacin en el modelo y puede
invalidarlo.
Transformar variables, por ejemplo en datos asociados al tiempo como
consumo, ingresa y riqueza, las ltimas dos aparecen asociadas, debido a
que ambas dependen del tiempo, por lo que suele ser mejor considerar
las variaciones en el tiempo. Otra trasformacin puede hacerse a travs
de ratios o razones.
Aumentar la muestra, lo que no es muy factible dado que hay problemas
de costos y de obtencin de datos. Por otra parte se aumentan los grados
de libertad del residual, lo que hace disminuir falsamente las varianzas.

IV.- Autocorrelacin
Introduccin
La estimacin por MCO supone que los errores son variables aleatorias
incorrelacionadas, y por MV que son independientes.
En economa y negocios muchas de las aplicaciones de la regresin tienen que ver
con datos en forma de series de tiempo, lo que implica una correlacin en el tiempo.
Autocorrelacin Correlacin de los residuales consigo mismos, lo que ocurri en el
tiempo anterior afecta a lo de hoy. Siendo un problema potencialmente serio pues
invalida las dcimas de F y t
-

En el caso ms extremo, que se tiene una nica observacin Y por cada


X, los residuales no pueden ser independientes
Cuando se tienen varias observaciones para cada X, los residuales
pueden ser independientes.

La Autocorrelacin, como se dijo es tpico de las series de tiempo, donde las


variables exgenas tienen estructura temporal, y as los valores observados y los
residuales tambien. Si se trata de variables exgenas no aleatorias, y existe dependencia,
entonces se debe a un modelo mal formulado.
Definicin formal
Kendall y Buckland la definen como la correlacin entre elementos de una serie de
observaciones ordenadas en el tiempo o en el espacio.
Tintner La define como la correlacin retardada de una serie de tiempo consigo
misma, atrasada cierto nmero de unidades temporales.
Los errores presentan Autocorrelacin si, para dos tiempos, no necesariamente
consecutivos:
E ( i , j ) 0
Modelos autorregresivos
Un modelo es autorregresivo cuando al presentar Autocorrelacin, esta se puede
modelar.
Se denominan de orden (r) y se anotan AR(r) y a veces se les define con dos
ecuaciones.

Especificacin bi ecuacional del modelo AR(r):


i)

AR(1)

Yt x't t

t t 1 t
Yt x't 1Yt 1 t

ii)

AR(r)

(1)

Yt x't t

t = 1,2,

t t r t

t = r+1, r+2,

Yt x't 1Yt 1 2Yt 2 ... t r Yt r t

(2)

En los modelos (1) y (2) los residuales cumplen los requisitos de estimacin por
MCO, pues lo que es Autocorrelacin est siendo asumido por la presencia de la
variable endgena retardada o rezagada.
La variable rezagada sigue siendo aleatoria, sin embargo para propsitos de
estimacin, se dice que los valores son historia pasada y no se pueden cambiar; es decir,
a las variables Yt k se las trata pre-fijadas, igual que las exgenas.
Sin embargo lo habitual es la inseguridad, en un modelo AR(r), en cuanto a que
autocorrelaciones son significativas por lo que se utiliza el siguiente modelo:

t 1 t 1 2 t 2 ... t r t r t
Este modelo, puede tener adems intercepto y/o variables exgenas, de manera que su
expresin escrita puede ser bastante compliacada.
El modelo AR(1)
Corresponde al caso ms frecuente en econometra, se caracteriza porque se suele
ajustar muy bien a las observaciones, aunque el verdadero modelo sea ms complejo.
Si se sabe que el modelo corecto es AR(1), la estimacin por MCO de los parmetros
se puede realizar considerando el modelo a la fecha t y el modelo a la fecha t 1, para
luego determinar:

Causas

Modelos con inercia Tpico de series temporales y en modelos de


IPC, produccin, indices de empleo, etc. Se da porque partiendo se
recesin, los datos suben a medida que la economa prospera.
Fenmeno de la tela de araa Tpico en agronoma, ganadera, etc. La
decisin de hacer algo hoy depende de lo de ayer y repercute en el
futuro.
Modelos con rezagos La observacin Y en el tiempo t depende del
valor que haya tomado en la fecha t 1, como ocurre con el consumo.
Omisin de variables Si se omiten variables claves del modelo,
produce Autocorrelacin, dado que si las variables omitidas tienen
efectos que se ordenan segn las fechas, y estos efectos estn
correlacionados positivamente entre s, entonces van a estar explicadas
por los trminos de error.
Forma funcional incorrecta Produce Autocorrelacin, dado que
produce rachas de residuos positivos y negativos.

Existencia de tendencias
La presencia de tendencia se da
principalmente por errores sistemticos en el registro de la variable de
respuesta, o por que al medir variables en trminos nominales, estas
suelen presentar una tendencia al alza en el tiempo y si las variables
predictoras no explican esta tendencia, entonces el error si la incorporar
y presentar Autocorrelacin.
Existencia de ciclos Para un modelo AR(1) si:
i) 0 Un residual alto que genere un Y por encima de
promedio, tendr una alta probabilidad de ser seguido por un
residual alto, generando un Y tambin mayor que el promedio. Lo
anterior implica que en momentos de cambio de rgimen, un
residual alto seguido por un residual bajo, generan Y por encima
y debajo del promedio respectivamente, generando ciclos de
valores altos de Y, segidos de valores Y bajos.

ii) 0 Los residuales altos irn seguidos por residuales


bajos y recprocamente
Si los ciclos no son bien explicados por las variables predictoras, entonces los errores
presentarn Autocorrelacin.
Problemas de la Autocorrelacin
Si los residuales presentan Autocorrelacin, estimar un modelo por MCO tiene
consecuencias importantes:
-

Los estimadores de los parmetros de la regresin siguen siendo lineales


e insesgados, pero ya no tienen la propiedad de la varianza minima, por
lo que dejan de ser eficientes.
La estimacin por MCO subestima seriamente la varianza de los errores.
La dcima para los errores no es vlida y sesgada hacia la deteccin de
relaciones inexistentes, debido a que la estimacin de la varianzas de los
estimadores de los betas tambin quedan subestimadas.
El estadgrafo R2 habitual es sesgado y las dcimas F y t de Student
dejan de ser confiables, por lo que no deben aplicarse.

Deteccin de la Autocorrelacin
Graficar los residuales vs el tiempo se debe obtener una banda
horizontal en torno a t = 0, si se obtiene una banda transversal es porque
hay Autocorrelacin.
Dcima de rachas
Dcima de Durbin y Watson Se utiliza para AR (1) y supone que:

i)
ii)

Las variables exgenas son fijas


El modelo incluye un trmino constante o intercepto.

Si no se cumplen las condiciones entonces DW entrega un sesgado, menor, en


valor absoluto, al real.
Esta dcima primero ajusta el modelo por MCO y luego considera si existe
Autocorrelacin y su magnitud.
El estadgrafo de Durbin y Watson es:
t T

DW


t 2

t 1

t T

t 1

Donde

2
t

SCE

2
t

Adems: DW 2(1 ) , del cual se puede obtener la Autocorrelacin.


Este estadgrafo varia entre 0 DW 4
Luego de obtener DW, se deben obtener los limites inferiores y superiores, para
construir la regin de regiones criticas y no criticas de DW . Los limites se obtienen con
el numero de observaciones y el numero de variables.

Hiptesis:
H0 : 0
H a1 : 0

H a2 : 0
Reglas de decisin:
i)

Si 0 DW DI

Se rechaza H0 a favor de la existencia de


Autocorrelacin positiva 0

ii)

Si Ds DW 4 Ds

No rechazar H0 de nula Autocorrelacin.

iii)

Si 4 DI DW 4

Rechazar H0 a favor de la existencia de


Autocorrelacin negativa 0

iv)

Si DI DW D s

La dcima se declara no concluyente y


no hay decisin.

v)

Si 4 Ds DW 4 DI

La dcima se declara no concluyente y


no hay decisin.

Eliminacin de la Autocorrelacin
1.- Caso es conocido El modelo se expresa como la diferencia entre las
observaciones en el perodo t y el perodo t 1 multiplicado por , es decir, se estima
un modelo que tiene una observacin menos y que satisface los requisitos de MCO
2.- Caso es desconocido:

También podría gustarte