Está en la página 1de 20

CONCEPTOS BSICOS SOBRE LA HETEROCEDASTICIDAD EN EL MODELO

BSICO DE REGRESIN LINEAL TRATAMIENTO CON E-VIEWS



Rafael de Arce y Ramn Maha
Dpto. de Economa Aplicada
Universidad Autnoma de Madrid
rafael.dearce@uam.es
ramon.mahia@uam.es

Primera versin: enero de 2001
Revisado febrero 2009

I.-Definicin: Qu es la Heterocedasticidad?
1


El modelo bsico de regresin lineal exige, como hiptesis bsica, que la varianza de las
perturbaciones aleatorias, condicional a los valores de los regresores X, sea constante:

( )
2
/ =
i i
X u Var

aunque generalmente la hiptesis se formula sin mencionar el carcter condicional de la
varianza, simplemente como:
( )
2
=
i
u Var

Para comprender de forma intuitiva esta restriccin podemos razonar del siguiente modo.
Iguales varianzas de u para los distintos valores de x implica necesariamente igual
dispersin (varianza) de y para distintos valores de x
2
lo que implica necesariamente que la
recta de regresin de Y sobre X va a representar con igual precisin la relacin entre x
e y independientemente de los valores de x.

Esto es muy importante porque debe recordarse que el anlisis de regresin es un anlisis de
regresin condicional de y sobre x lo cual implica, por lgica, que si se desea obtener un
parmetro de relacin estable y til entre ambas variables, los valores muestrales de y
deben mostrarse igualmente dispersos ante variaciones de x. Dicho de otro modo, y en
trminos del error, aunque el error puede ser mayor para mayores valores de x (no se fuerza
que el error tenga un tamao igual para el recorrido de x) la dispersin del error alrededor
de la recta de regresin ser la misma. Esto permite considerar como igualmente vlidos todos
los datos muestrales de los regresores x para determinar la relacin condicional de y a los
valores de x sin tener que ponderar ms o menos unos valores u otros de x en funcin de
la menor o mayor dispersin de y en los distintos casos.

En un plano puramente analtico, la matriz de varianzas-covarianzas de las perturbaciones de
un modelo heterocedstico se representara del siguiente modo:


1
Etimolgicamente, por cierto, la palabra deriva de hetero (distinto) y el verbo griego skedanime
que significa dispersar o esparcir.
2
La varianza de U y la Y coinciden
=
(
(
(
(
(

=
(
(
(
(
(

=
2 2
2
2
2
2
1
2
2 1
2
2 2 1
2
1
) ( ... 0 0
0 ... 0 0
0 ... ) ( 0
0 ... 0 ) (
) ( ... ) ( ) (
...
... ) ( ) (
. ... ) (
) ' (
n i
n n n n
I
u E
u E
u E
u E u u E u u E
u E u u E
u E
UU E


Como ya se vio en el captulo introductorio previo sobre el estimador de Aitken, en el caso
concreto de la presencia de una matriz de varianzas-covarianzas no escalar de las
perturbaciones aleatorias, la estimacin mximo verosmil de los parmetros del modelo
resulta ahora:
[ ] Y X X X
MCG 1
1
1
' '

=

Un estimador que goza de buenas propiedades estadsticas (lineal, insesgado, eficiente y
consistente ).

II.- Causas frecuentes de heterocedasticidad

Como siempre solemos apuntar en el anlisis de las causas de los incumplimientos de hiptesis
del MBRL, debe decirse, en primer lugar, que muchos fenmenos de inters son, por
naturaleza, de carcter heterocedstico. La distribucin del gasto, la renta, el ahorro, los
beneficios empresariales, . cientos de ejemplos se corresponden ms con una distribucin
heterocedstica que homocedstica. La variabilidad de los fenmenos econmicos, medida
con muestras temporales o transversales, que justifica el anlisis de regresin, no slo nos
muestra variacin en las medias sino tambin, y a veces de forma fundamental, evidentes
comportamientos heterocedsticos.

En todo caso, y ms all de la heterocedasticidad natural, conviene identificar algunas
situaciones especficas, habituales en la econometra emprica, asociadas al riesgo de
heterocedasticidad. Aunque las que se citan a continuacin no son las nicas posibilidades que
dan lugar a un modelo heterocedstico s se encuentran, probablemente, entre las ms
frecuentes.

A.- Causas relacionadas con la incorrecta especificacin:

A.1.- Omisin de variables relevantes en el modelo especificado.

En este caso no hablamos de las variables seleccionadas, sino, precisamente, de las no
seleccionadas. Cuando se ha omitido una variable en la especificacin, dicha variable quedar
parcialmente recogida en el comportamiento de las perturbaciones aleatorias, pudiendo
contagiar a stas su propia variacin, no necesariamente homocedstica.

Recurdese que la hiptesis de homocedasticidad hace referencia a la varianza constante de
las perturbaciones aleatorias, pero no obliga a que las variables explicativas tengan tambin
varianza constante. As pues, y en trminos generales, la utilizacin de variables exgenas de
naturaleza heterocedstica puede contagiar/provocar un comportamiento heterocedstico de
la perturbacin aleatoria.

A.2.- Cambio de estructura

Un cambio de estructura provoca un mal ajuste de los parmetros al conjunto de los datos
muestrales. Este problema no tiene porque producirse del mismo modo en todo el recorrido
de la muestra
3
, pudiendo generar cuantas de desajuste del modelo diferentes y, por tanto,
varianza no constante por subperodos.

A.3. Forma funcional incorrecta

La utilizacin de una forma funcional incorrecta, por ejemplo la utilizacin de una funcin
lineal en lugar de una logartmica potencial, puede provocar que la calidad del ajuste de la
regresin vare segn los valores de las exgenas, por ejemplo, ajustando bien para los valores
pequeos y mal para los grandes; en ese caso, es posible que en las zonas de peor ajuste
existan, no slo errores mayores, sino tambin errores ms dispersos.

B.- Otras causas

B.1- Variables explicativas con distribucin asimtrica o amplio recorrido

Si una variable explicativa presenta una distribucin asimtrica (por ejemplo la renta),
resultar inevitable que, por ejemplo para el caso de asimetra a derechas, los valores mayores
del regresor estn asociados a una mayor dispersin en el trmino de error de la regresin.

De modo anlogo, las variables con amplio recorrido favorecen la aparicin de
heterocedasticidad en mayor medida que aquellas otras que presentan un agrupamiento muy
claro alrededor del valor de la media. Esto no es tan evidente como el efecto de la asimetra
pero, en cierto modo, y dado que trabajamos con muestras, la seleccin de una muestra que
favorezca la heterocedasticidad es ms probable en el caso de variables con amplios recorridos
que con escasas varianzas. Este riesgo es especialmente elevado en los modelos de corte
transversal ya que la seleccin de los elementos muestrales no viene determinada por el paso
del tiempo y, por tanto, puede agrupar, casualmente, grupos de observaciones que presenten
valores poco o muy dispersos al mismo tiempo.

B.2.- Presencia de puntos atpicos

La presencia de algunos valores atpicos en la muestra de datos implicar necesariamente un
desajuste en la varianza de la perturbacin (en cierto modo, un punto atpico puede
considerarse un elemento muestral perteneciente a otra distribucin y, por tanto,
potencialmente con varianza distinta).

B.3.- Modelos de aprendizaje sobre los errores

Esta causa, apuntada por Gujarati
4
, se refiere a la modelizacin de fenmenos que contienen
un mecanismo de auto - aprendizaje en funcin de los errores (desajustes) previos. En este
tipo de fenmenos, el paso del tiempo implica progresivamente, no slo un menor tamao del
error, sino adems una varianza progresivamente inferior.


3
De hecho, los parmetros estimados "recogern mejor" el comportamiento de la serie en aquella de
las dos estructuras distintas que se produzca durante mayor nmero de observaciones, ya que los
parmetros estimados en presencia de un cambio de estructura sern una media ponderada de los que
resultaran de una estimacin particular
para cada una de las dos submuestras
4
Econometra. D.N Gujarati. Ed. Mc Graw Hill.

En todo caso, sea cul sea el origen del problema, en muchas ocasiones es posible asociar la
varianza no constante de las perturbaciones aleatorias a los valores de alguna de las variables
incluidas
5
en el modelo. Dicho de otro modo, podra suponerse que la varianza de la
perturbacin se compone de una parte constante, homocedstica, y otra parte variable segn
los valores de una determinada variable Z
i
:
) (
2 2
i i
Z f =


donde
2
sera la parte fija de la varianza, y Z
i
la variable (o incluso la matriz de variables)
cuyos valores se asocian con los cambios en la varianza de las perturbaciones aleatorias.

Es muy probable que esta asociacin entre el proceso de heterocedasticidad y una
determinada variable (o una combinacin de ellas) sea algo simplista, probablemente no sea
muy realista y quiz no alcance a ser completamente satisfactoria para explicar todos los
patrones de heterocedasticidad. Sin embargo, asumir este tipo de conexin entre varianza de
U y una/s variable/s est en la base de la mayora de los procedimientos de deteccin de la
heterocedasticidad y, desde luego, resulta imprescindible para los mecanismos de solucin de
la heterocedasticidad. Efectivamente, este tipo de funcin podra ser empleada precisamente
como un supuesto simplificador para posibilitar la estimacin mediante MCG sin
encontrarnos con ms incgnitas (elementos de la matriz ) que observaciones.

III.- Efectos de la heterocedasticidad sobre el MBRL

En trminos generales los efectos de la presencia de heterocedasticidad sobre el MBRL
estimado con Mnimos Cuadrados Ordinarios son:

- El estimador de Mnimos Cuadrados Ordinarios sigue siendo lineal, insesgado y
consistente pero deja de ser eficiente (varianza mnima). Es interesante recordar que
la homocedasticidad de la perturbacin no juega ningn papel relevante en la
insesgadez o la consistencia, propiedades muy importantes que s se alteran, sin
embargo, ante la presencia de regresores estocsticos o, en muchas ocasiones, ante la
omisin de variables relevantes.

- Las varianzas del estimador de Mnimos Cuadrados Ordinarios, adems de no ser
mnimas, no pueden calcularse con la expresin utilizada en presencia de
homocedasticidad

- ( )
1 2
' ) (

= X X V

- Dicho de otro modo, esta expresin es un estimador sesgado de la verdadera varianza
de los parmetros; alternativamente, debe utilizarse la nueva expresin

- [ ] [ ]
1 1 2
' ' ' )

var( cov

= X X X X X X


5
En realidad, cabe tambin pensar en la posibilidad que el patrn de heterocedasticidad est
relacionado con los valores de alguna variable no incluida en el modelo (una variable omitida,
consciente o inconscientemente) aunque, en general, y quiz por un criterio de sencillez operativa, los
mtodos de correccin y deteccin se suelen concentrar en la lista de variables exgenas incluidas en la
especificacin.
- As pues, si se sigue utilizando la versin homocedstica de MCO, se cometer un
error de clculo en la varianza lo que implica, bsicamente, que nuestros clculos t
ya no podrn comprarse con los valores de referencia correctos de distribuciones t, y
lo mismo ocurrir con el resto de clculos derivados de la varianza estimada: el
contraste F ya no se distribuir como una F o los contrastes LM ya no seguirn una
Chi-Cuadrado.

Ante estos dos problemas, caben en realidad distintos escenarios (con distintas repercusiones)
en funcin de la estrategia elegida por el modelizador:

1.- Utilizar MCO considerando la presencia de heterocedasticidad

En ese caso, an resolviendo el problema de clculo, seguimos enfrentando un problema de
eficiencia lo cual significa, en todo caso, significa que los contrastes de significacin habituales
t, F, Chi-Cuadrado tenderan a ser ms exigentes, a ofrecer resultados menos concluyentes
al tiempo que los intervalos de confianza habitualmente computados para los parmetros
tendern a ser ms amplios.

2.- Utilizar MCO ignorando la heterocedasticidad

En este caso, tenemos una varianza que, dado el error de clculo antes mencionado, es un
estimador sesgado del verdadero valor de la varianza (valor correctamente calculado) sin que,
en general, se pueda saber si ese clculo incorrecto sobreestima o subestima el verdadero
valor. As pues, las conclusiones derivadas de la utilizacin de los contrates habituales son,
sencillamente, incorrectas.
6
Conviene adems tener en cuenta que el problema del clculo
incorrecto deriva en realidad de que el estimador insesgado de la varianza de la perturbacin
ya no resulta ser:

k n
e e

=
'
~2


de modo que, adems del error de clculo en la estimacin de la varianza de los parmetros,
todos aquellos contrastes o tests basados en este estimador insesgado sern tambin
incorrectos.

En todo caso, un error frecuente consiste en pensar que cualquier clculo que implique la
utilizacin de los errores de un modelo heterocedstico ser incorrecto cuando, en realidad,
no es as. Un ejemplo interesante es el clculo del coeficiente de determinacin R
2
(o su

6
Sobre esta reflexin puede ser interesante recordar un par de experimentos. El primero, realizado por
Goldfeldt y Quandt en 1972 (Non Linnear Methods in Econometrics. North Holland, pp 280.) lleg a dos
conclusiones: (1) que la prdida de eficiencia de MCO respecto a MCG puede ser de hasta 10 veces en el
parmetro constante y de 4 veces en los parmetros que acompaan a variables explicativas y (2) que el
clculo incorrecto de de la varianza de los estimadores ignorando la heterocedasticidad produce en
general un sesgo por infravaloracin de la real del orden del doble. El segundo, realizado por Davidson y
Mackinnon en 1993 (Estimation and Inference in Econometrics, OUP, Nueva Cork, 19993, pp. 549-550)
concluy que el uso de MCO (con o sin correccin) sobreestima consistentemente el verdadero error
estndar de los parmetros obtenido mediante el procedimiento correcto (MCG) mientras que la
utilizacin de MCO sin corregir tienden a ofrecer menores varianzas que las obtenidos por MCO
corregidos, para los parmetros de pendiente, y mayores para el trmino independiente.


versin corregida) que no se ve afectado por la existencia de heterocedasticidad. La razn
estriba en que el clculo de la R
2
se realiza a partir del clculo de las varianzas poblaciones de
u (
u
) y de y (
y
) y el hecho de que utilicemos conceptos poblaciones, no muestrales,
implica que utilizamos varianzas no condicionales a los valores de x de modo que la R
2

(poblacional) no se ve afectada por la presencia de heterocedasticidad; de hecho, la expresin
n e e'
~2
= estima consistentemente la varianza del error poblacional (
u
).

3.- Utilizar MCG

Es evidente que esta parece la mejor de las soluciones aunque tambin debe observarse que
utilizacin de este estimador exigira conocer o estimar de antemano los valores de los
elementos de . Estimar las n varianzas distintas de partiendo de n observaciones y k
variables explicativas es imposible, de modo que, como se ver ms adelante, la utilizacin de
este estimador exigir asumir algn supuesto simplificador sobre la causa de una eventual
heterocedasticidad, un supuesto simplificador que permita a su vez determinar, de forma
tambin simplificada, la forma de la matriz . Evidentemente, encontrar una simplificacin
correcta de dotar de plena utilidad (eficiencia) a la estimacin con MCG pero, a sensu
contrario, un mal diseo de la causa de la heterocedasticidad y su expresin en no
garantizar esa eficiencia.

IV.- Cmo se detecta la presencia de Heterocedasticidad

Antes de entrar a enumerar y revisar brevemente los principales procedimientos deben
quedar claras dos cuestiones preliminares:

1.- Resultar imposible observar directamente la presencia de heterocedasticidad ya que, en la
mayora de los anlisis economtricos, slo dispondremos de un valor de Y para cada valor
de X (y por tanto de un nico valor de U) por lo que resulta conceptualmente imposible
observar si la varianza de las U para cada valor de X es la misma. Por tanto, la mayor parte
de los mtodos se apoyarn en los residuos obtenidos en un modelo previo (estimado
generalmente con MCO); estos residuos, se utilizarn como una muestra vlida de las
perturbaciones aleatorias desconocidas.

2.- Antes de la aplicacin de mtodos tcnicos (ms o menos informales) debemos
preguntarnos por la existencia de heterocedasticidad desde un punto de vista terico
considerando la naturaleza del problema analizado, las exgenas incluidas y, en definitiva, la
propensin terica del modelo hacia la heterocedasticidad.

A. Contrastes Grficos

A.1) Grfica del error a travs de las distintas observaciones del modelo

Dado que las series econmicas presentan casi siempre una tendencia definida (positiva o
negativa), la simple grfica de error puede servir para conocer intuitivamente si el mero
transcurso del tiempo da lugar a un incremento/decremento continuado del error, lo que sera
significativo de una relacin entre la evolucin de las variables del modelo y los valores cada
vez mayores o cada vez menores de ste.

Grficos del error sintomticos de presencia de heterocedasticidad

-10
-5
0
5
10
1 3 5 7 9
1
1
1
3
1
5
1
7
1
9

-6
-4
-2
0
2
4
6
1 3 5 7 9
1
1
1
3
1
5
1
7
1
9


En ambos, la mera evolucin del tiempo est correlacionada con valores cada vez mayores
(izquierda) del error o cada vez menores (derecha), con lo que el clculo de la varianza por
subperodos arrojara valores significativamente diferentes; es decir la serie del error sera
heterocedstica. Evidentemente, este tipo de grficos SLO tiene sentido si el modelo es
temporal ya que, en el caso del modelo transversal, la ordenacin de valores del eje X
depender del criterio elegido para ordenar la muestra, un criterio que puede no coincidir con
el patrn de crecimiento o decrecimiento de la varianza.

A.2) Grfica del valor cuadrtico del error y los valores de Y y Xs

La representacin de los valores del error al cuadrado
7
y la variable endgena o cada una de
las variables exgenas puede revelar la existencia de algn patrn sistemtico en la varianza
de la perturbacin (se entiende que el error al cuadrado se asocia con la dispersin del error).
Este tipo de grfico, no slo permite obtener una idea preliminar de si existe o no
heterocedasticidad sino tambin de la o las variables que pudieran estar conectadas con la
misma.

B. Contrastes numricos

Todos los procedimientos presentados aqu tratan de cuantificar la presencia de
heterocedasticidad. Algunos de ellos, no slo se limitan a cuantificarla sino que, adems,
permiten valorar la existencia de heterocedasticidad en trminos de probabilidad recurriendo
a distribuciones estadsticas conocidas; este ltimo grupo de contrates se denominan, por ello,
contrastes "paramtricos".
8


B.1.) Contraste de Glesjer

De forma similar al caso anterior, Glesjer propone descartar la variacin del error en funcin
de una variable z, que ahora pueden estar elevadas a una potencia "h" que estara
comprendida entre -1 y 1. El modelo que se propone es:

1. Estimar el modelo inicial, sobre el que se pretende saber si hay o no
heterocedasticidad, empleando MCO y determinando los errores.


7
Eventualmente podran tambin realizarse los grficos con valores absolutos del residuo.
8
En particular, los contrastes que se presentan parten de una estructura acorde a la del Multiplicador de
Lagrange. De forma muy intuitiva, sin querer hacer una argumentacin estrictamente acadmica,
diremos que en este tipo de contrastes se propone siempre dos modelos, uno inicial y otro en el que se
incorpora algn aadido en la especificacin. A partir de un ratio sobre los errores de cada uno de estos
modelos (o alguna transformada de estos), se compara si el modelo ms completo aporta suficiente
explicacin adicional de la endgena como para compensar el coste de incorporar ms variables.

[ ]
i i i
i ki k i i i
y y e
Y X X X
u x x x y

' '

...
1
2 2 1 1 0
=
=
+ + + + + =



2. Estimar cuatro regresiones para los valores absolutos del error del modelo anterior en
funcin de una variable elevada consecutivamente a "h", que para cada modelo
tomara los valores -1, -0,5, 0,5 y 1.

i
h
i
z e
1 0
| | + = { } 1 , 5 . 0 , 5 . 0 , 1 h

Se escoger la regresin de las cuatro con parmetros significativos y con mayor R
2
.

3. Se entiende que, si el valor de esta R
2
es suficientemente grande, se estar
confirmando que existe heterocedasticidad producida por la variable z, ya que esta es
capaz de explicar la evolucin de la evolucin del error como estimada de la evolucin
de las perturbaciones aleatorias. Esta conclusin es especialmente vlida para
muestras grandes segn las propias conclusiones ofrecidas por Glesjer por lo que su
utilizacin parece especialmente adecuada en este tipo de condiciones muestrales.

B.2.) Contraste de Breusch-Pagan

La idea del contraste es comprobar si se puede encontrar un conjunto de variables Z que sirvan
para explicar la evolucin de la varianza de las perturbaciones aleatorias, estimada sta a
partir del cuadrado de los errores del modelo inicial sobre el que se pretende comprobar si
existe o no heterocedasticidad.

El proceso a seguir para llevar a cabo este contraste es el siguiente:

1. Estimar el modelo inicial, sobre el que se pretende saber si hay o no
heterocedasticidad, empleando MCO y determinando los errores.

[ ]
i i i
i ki k i i i
y y e
Y X X X
u x x x y

' '

...
1
2 2 1 1 0
=
=
+ + + + + =




2. Calcular una serie con los errores del modelo anterior al cuadrado estandarizados:

n
e e
e
e
i
i
'

~
2
2
2
2
=
=



3. Estimas una regresin del error calculado en el paso (2) explicado por una constante y
el conjunto de las variables Z que se pretende saber si producen o no
heterocedasticidad en el modelo, obtenindose la R
2
de este modelo y la varianza de la
estimada:

2
~
2 2 1 1 0
2
...
~
e
i pi p i i i
R
z z z e + + + + + =


4. En principio, dado que el modelo tiene trmino constante, se cumple la regla general
de las regresiones segn la cual la varianza de la endgena real es igual a la suma de la
varianza de la endgena estimada ms la varianza del error obtenido en el modelo
(
2

2
~
2
~ 2 2

S S S
e e
+ = ) o su equivalente multiplicando a ambos lados de la igualdad por el
nmero de observaciones n, donde en vez de varianzas hablaremos de Sumas al
cuadrado. Por ello, si el modelo es "malo" la varianza de la endgena estimada ser
pequea (es lo mismo que decir que la varianza del error estimado es grande o que el
"modelo tiene mucho error"). En definitiva, y siguiendo el inters que aqu buscamos,
si la varianza de la endgena estimada en este segundo modelo es muy pequea,
estaremos afirmando que el poder explicativo del conjunto de variables Z sobre la
representacin de la varianza de las perturbaciones aleatorias es escaso. A partir de
esta afirmacin, podramos generar un contraste calculado con la suma residual, a
sabiendas de que cuanto ms cerca de cero se encuentre, ms probabilidades de
homocedasticidad habr en el modelo. El contraste propuesto es:
2
*
~2
n e
i



los autores demuestran que, en el caso de un modelo homocedstico, se distribuye
como una
2
p
, con lo que, si el valor del ratio supera al valor de tablas, se rechaza la
hiptesis nula (homocedasticidad); es decir, se acepta que el conjunto de variables Z
est produciendo heterocedasticidad en el modelo original.

El contraste de Breusch Pagan efectivamente nos servir para aceptar o descartar la presencia
de heterocedasticidad debida a ese conjunto de variables Z citado, pero su operatividad es
limitada. Si el conjunto de las variables Z contiene variables no incluidas en el modelo original,
parece difcil no haberlas tenido en cuenta antes para realizar una buena especificacin y s
tenerlas en cuenta ahora para la contrastacin. Por otro lado, la lista de variables Z debe ser
necesariamente pequea para poder realizarse el contraste.

B.3.) Contraste de White (prueba general de heterocedasticidad de White)

Aunque en apariencia esta prueba es parecida a las mencionadas anteriormente, parece
admitido que algo ms robusta al no requerir supuestos previos como, por ejemplo, la
normalidad de las perturbaciones. Por otro lado, tal y como se ver a continuacin, la prueba
no exigir determinar a priori las variables explicativas de la heterocedasticidad (lo cual no es
necesariamente una virtud) y es por esta razn por lo que se denomina prueba general.

En este contraste la idea subyacente es determinar si las variables explicativas del modelo, sus
cuadrados y todos sus cruces posibles no repetidos sirven para determinar la evolucin del
error al cuadrado. Es decir; si la evolucin de las variables explicativas y de sus varianzas y
covarianzas son significativas para determinar el valor de la varianza muestral de los errores,
entendida sta como una estimacin de las varianzas de las perturbaciones aleatorias.

El proceso a seguir para realizar este contraste sera el siguiente:

1. Estimar el modelo original por MCO, determinando la serie de los errores. Escrito esto
en forma matricial para un modelo con "n" observaciones y "k" variables explicativas:

[ ]
Y Y e
X Y
Y X X X
U X Y


' '

1
=
=
=
+ =



2. Estimar un modelo en el que la endgena sera los valores al cuadrado de los errores
obtenidos previamente (paso 1) con todas las variables explicativas del modelo inicial,
sus cuadrados y sus combinaciones no repetidas.

i i i k i i k k
i i k k ki k k i k ki k i i
x x x x
x x x x x x e


+ + + +
+ + + + + + + + =
+ + +
+ + + +
... ...
... ...
3 2 1 3 3 1 2
2 1 1
2 2
1 1 1 1 0
2


3. El valor de la
2
e
R de este segundo modelo (paso 2) nos dir si las variables elegidas
sirven o no para estimar la evolucin variante del error al cuadrado, representativo de
la varianza estimada de las perturbaciones aleatorias. Evidentemente, si la varianza de
stas fuera constante (homocedasticidad), el carcter no constante de las variables
explicativas implicadas en el modelo no servira para explicar la endgena, luego la
2
e
R
debiera ser muy pequea.

En principio, la
2
e
R , como proporcin de la varianza de la endgena real
9
que queda explicada
por la estimada, debiera ser muy pequea si la capacidad explicativa de los regresores
considerados tambin es muy pequea, siendo estos regresores, por su construccin,
representativos de varianzas y covarianzas de todas las explicativas del modelo original. Dicho
esto, evidentemente un valor de la R
2
suficientemente pequeo servir para concluir que no
existe heterocedasticidad en el modelo producida por los valores de las explicativas
consideradas en el modelo inicial. Para encontrar el valor crtico en esa consideracin de
suficientemente pequeo se emplea la expresin deducida por Breusch y Pagan como
producto del coeficiente R
2
por el nmero de datos del modelo, que se distribuira del
siguiente modo:

1
2

p e
R n

En definitiva, si obtenemos un valor del producto
2

e
R n mayor que el reflejado por las tablas
de
2
1 p
, afirmaremos que existe heterocedasticidad, y viceversa, si este valor es ms pequeo
diremos que se mantiene la homocedasticidad (luego la hiptesis nula de este contraste es la
homocedasticidad).

Otro modo de contrastar la existencia de heterocedasticidad en el modelo a partir de la validez
o no de los parmetros incluidos en la regresin propuesta por White vendra dado por el valor

9
En este caso, la endgena real ser el valor del error muestral al cuadrado de la primera regresin
practicada. En el caso de homocedasticidad, este debe ser casi constante, por lo que difcilmente la
evolucin de otras variables podra explicar un valor fijo. Por ello es intuitivo pensar que cuanto mayor
sea la R
2
de este modelo, ms probable ser la heterocedasticidad.
del contraste de significacin conjunta F. Si dicho contraste afirmara que, en conjunto, las
variables explicitadas tienen capacidad explicativa sobre la endgena, estaramos afirmando la
presencia de heterocedasticidad en el modelo.

B.4.) Contraste a partir del coeficiente de correlacin por rangos de Spearman

La filosofa de este contraste reside en que la variable sospechosa de producir
heterocedasticidad debera provocar un crecimiento del residuo estimado al mismo ritmo que
ella va creciendo. Por ello, si ordenramos de menor a mayor tanto la variable sospechosa,
por ejemplo x
ji
, como el valor absoluto del residuo, |e
i
|, el cambio de puesto en ambas, y para
cada una de las observaciones, debiera ser del mismo nmero de puestos respecto al orden
original de las series. En la medida en la que este cambio de puesto respecto al original no sea
el mismo para las dos (una vez ordenadas) se podra hablar de movimientos no
correlacionados. Dado que la correlacin se mide entre uno y menos uno, Spearman propone
determinar un grado de correlacin en ese cambio de puesto respecto al inicial de cada una
de las variables a partir de la diferencia entre el nuevo puesto y el inicial:

) 1 (
6
1
2
1
2

=
n n
d
r
n
i
i


En esta expresin, una coincidencia mxima (todas las distancias son igual a cero), dara lugar a
una correlacin de Spearman igual a uno; mientras que una distancia mxima, provocara un
valor cero de dicho coeficiente de correlacin
10
.

En la siguiente tabla se hace un pequeo ejemplo numrico de clculo del coeficiente de
Spearman para clarificar lo dicho hasta ahora.


Series originales Series ordenadas
Puesto x
ji
|e
i
| x
ji

Puesto
original
|e
i
|
Puesto
original
d d
2
1 1.838 1,6 424 2 1,2 3 2-3=-1 1
2 424 1,4 501 3 1,3 4 3-4=-1 1
3 501 1,2 688 5 1,4 2 5-2=3 9
4 2.332 1,3 1.838 1 1,5 5 1-5=-4 16
5 688 1,5 2.332 4 1,6 1 4-1=3 9

8 , 0 8 , 1 1
) 1 25 ( 5
30 * 6
1
) 1 (
6
1
2
1
2
= =

=
n n
d
r
n
i
i


En este caso, el grado de correlacin negativa de ambas series sera bastante elevado, dado
que los extremos de correlacin seran +/-1.

10
Realmente, el coeficiente de correlacin por rangos de Spearman es equivalente a emplear el
coeficiente de correlacin lineal
y x
S S
y x
y x r
) , cov(
) , ( = a las variables de puntuacin de orden de ambas
colocadas segn la progresin de una de ellas. Para ver el detalle del denominador, se puede acudir a
Martn-Guzmn y Martn Pliego (1985), pginas 312-314.

Para valorar la significatividad o no de esta correlacin, se conoce la funcin de distribucin del
siguiente ratio bajo la hiptesis nula de no significatividad, demostrado por el autor:

2
2
1
2

n
S
s
t
r
N r


Con ello, si el resultado de la ratio es superior al valor de tablas podremos afirmar que la
correlacin es significativa o, de cara a nuestro inters en este caso, que hay indicios de
heterocedasticidad en el modelo provocada por la variable x
ji
.

B.5) Otros contrastes

Aunque no se comentarn aqu, si es conveniente citar otros contrastes habituales para la
determinacin de la heterocedasticidad, como:

- Contraste de Harvey
- Contraste test de Park
- Contraste RESET de Ramsey
- Golfeld-Quandt
- Contraste de picos
- LM Arch

V. Cmo se corrige

Antes de entrar en los mtodos operativos que permiten la estimacin en presencia de
heterocedasticidad, deben hacerse dos puntualizaciones:

1.- La correccin que se ver en este apartado se plantea como una estrategia adaptativa, de
convivencia con la heterocedasticidad pero, en todo caso, debe entenderse que, en algunas
ocasiones, el problema que genera un comportamiento heterocedstico de la perturbacin
puede resolverse variando la especificacin lo que, sin duda alguna, sera una verdadera
correccin del problema.

2.- La estimacin alternativa al uso de MCO en situaciones de heterocedasticidad es la
utilizacin de MCG y, por tanto, esta es la nica estrategia analticamente correcta para la
solucin del problema. No obstante, y como ya se ha dicho, esto implicara conocer el
verdadero valor de la matriz sigma de varianzas y covarianzas, situacin que, en la prctica, no
es habitual. Por tanto, los mtodos que se presentan aqu suponen una alternativa operativa a
esta hipottica situacin ideal.

1.- Transformacin de las variables originales

Como hemos venido viendo repetidas veces a lo largo del tema, la heterocedasticidad viene
producida por la dependencia de la varianza de las perturbaciones aleatorias de una o ms
variables que, a su vez, pueden estar presentes en el modelo o no. Los distintos mtodos de
detectar este problema servan para probar la dependencia de la varianza de la perturbacin
aleatoria de un conjunto de variables, a partir de lo que hemos llamado un supuesto
simplificador:

) (
2 2
i i
Z f =

Por lgica, el modo de subsanar el problema detectado ser operar convenientemente la
variables del modelo precisamente eliminando la fuente de heterocedasticidad que habremos
podido definir cuando detectamos la misma. Como veremos a continuacin, si el conjunto
total de las variables del modelo (endgena incluida) es dividido por la forma estimada de esta
funcin de la raz de la varianza heterocedstica (una vez algn mtodo de deteccin nos haya
confirmado que efectivamente el comportamiento de esta varianza se puede seguir
convenientemente con dicha funcin) estaremos corrigiendo el modelo.

Para comprobar esto, podemos volver a la forma matricial de varianzas covarianzas no escalar:

= =
(
(
(
(
(

=
(
(
(
(
(

=
2 2
2
2
2
2
1
2
2 1
2
2 2 1
2
1
) ( 0 0 0
... 0 0
) ( 0
. ) (
) ( ) ( ) (
...
) ( ) (
. ) (
) ' (
n i
n n n n
I
u E
u E
u E
u E u u E u u E
u E u u E
u E
UU E


En esta matriz, si dividimos por ) (
2 2
i i
Z f = , obtendremos una diagonal principal de unos;
es decir, volveramos al caso de una matriz de varianzas covarianzas escalar tal y como la que
se supone en el modelo bsico de regresin lineal.

Formalmente, para probar esto seguimos los siguientes pasos. Dado que la matriz es una
matriz semidefinida positiva (todos los elementos de su diagonal principal son necesariamente
positivos), siempre podremos descomponerla en dos matrices de la forma:

' '
1 1 1
= = P P PP

Volviendo a la matriz de varianzas covarianzas no escalar y uniendo esto a la funcin que
hemos comprobado sirve para definir esta varianza no constante ) (
2 2
i i
Z f = , es fcil
llegar a que la descomposicin ' '
1 1 1
= = P P PP es:

'
0 0 0
... 0 0
0
.
0 0 0
... 0 0
0
.
0 0 0
... 0 0
0
.
) ( 0 0 0
... 0 0
) ( 0
. ) (
2 2
1
'
2
1
2
2
2
2
2
1
2
2
2
2
1
PP
u E
u E
u E
n n
n n

=
(
(
(
(
(

(
(
(
(
(

= =
(
(
(
(
(

=
(
(
(
(
(



Si multiplicamos cada variable del modelo por esta matriz P, tal y como se ha sugerido,
obtenemos unas nuevas variables del siguiente tipo:

* * * 1 1 1
U X Y U P x P Y P + = + =



donde:

n
I
P P
UU E
UU E P P P UU P E U U E
2 2 1
1 1 1
2
1 1 1 1 * *
'
) ' (
) ' ( ' ) ' ' ( ) ' (

= =
)
`

=
=
= = =





Por lo que podemos afirmar que el modelo transformado (aquel por el que se han dividido
todas las variables por la desviacin tpica estimada de las perturbaciones aleatorias) soporta
una matriz de varianzas covarianzas de las perturbaciones aleatorias escalar, con lo que se
puede estimar con toda garanta por MCO.

En definitiva, y a modo de breve receta, los pasos para la correccin de la heterocedasticidad
seran los siguientes:

a) Se estiman los parmetros del modelo por MCO, ignorando por el momento el
problema de la heterocedasticidad de las perturbaciones aleatorias
b) Se establece un supuesto acerca de la formacin de
2
i
y se emplean los residuos de
la regresin por MCO para estimar la forma funcional supuesta.
c) Se divide cada observacin por
2

i
segn el paso anterior (segn el valor de esa
heterocedasticidad supuesta estimada, siempre y cuando un contraste nos haya
confirmado que el modelo simplificador es bueno).
d) Se estima el modelo original ahora con todas las variables transformadas segn el paso
c).

2.- Estimacin consistente de White

El procedimiento propuesto por White permite una estimacin que, en trminos asintticos,
permite la utilizacin de los procedimientos de inferencia estadstica clsica.

Bsicamente, la idea consiste en utilizar los errores cuadrticos de una estimacin previa de
MCO como elementos de la matriz de varianzas de la perturbacin (matriz ). White demostr
que, esta estrategia de ponderacin permite obtener estimadores consistentes de las
varianzas de los parmetros. La mayor parte de los paquetes informticos incorporan este
clculo de modo que, en general, su utilizacin parece recomendable, al menos con fines
exploratorios.

En todo caso, deben hacerse dos puntualizaciones que quiz resulten interesantes al que, por
vez primera, se asome a este procedimiento.

1.- Los parmetros estimados consistentemente con White coincidirn con los de la regresin
original MCO (en todo caso, recuerde que el problema de la heterocedasticidad no es un
problema de sesgo ni inconsistencia).

2.- Nada garantiza, a priori, que las varianzas de los parmetros estimados con White sean
menores que las originales, dado que debe recordarse que las MCO originales (mal calculadas)
presentaban un sesgo indeterminado, pero generalmente de infravaloracin de la varianza
real.

VI. Ilustracin del tratamiento de la heterocedasticdad en E-Views

Se propone un modelo para cuantificar las ventas de Burger King (VTASBK) en una serie de 20
pases, proponindose como explicativas las siguientes variables:

PRECIOSBK: Precios Hamburguesa Whoper
PRECIOSMAC: Precios Hamburguesa Big Mac
RENTAPC: Renta per capita del pas

Realizada una primera regresin, los resultados obtenidos son los siguientes:



-30
-20
-10
0
10
20
0
200
400
600
800
1000
2 4 6 8 10 12 14 16 18 20
Residual Actual Fitted


Matriz de correlaciones de las variables

VTASBK PRECIOSBK PRECIOSMAC RENTAPC
VTASBK 1.000000 0.360900 0.226085 0.999566
PRECIOSBK 0.360900 1.000000 0.704328 0.367945
PRECIOSMAC 0.226085 0.704328 1.000000 0.235402
RENTA PC 0.999566 0.367945 0.235402 1.000000

No se da ninguna correlacin entre variables explicativas superior al R
2
obtenido en el modelo,
por lo que no parece haber indicios de multicolinealidad. Tan slo existe una fuerte correlacin
entre PRECIOSBK y PRECIOSMAC (0,7043), en cualquier caso ms pequeo que el 0,99.

A la luz del grfico de residuos, podra pensarse que que los cinco primeros pases presentaran
una varianza mayor que los siguientes, aunque, como suele ocurrir con los grficos, no se
puede apreciar nada claramente.

El siguiente elemento a contrastar sera la presencia de heterocedasticidad en el modelo. El
programa E-Views suministra, con este fin, la posibilidad de detectar la heterocedasticidad,
entre otros, a partir del Test de Residuos de White, ofreciendo dos posibilidades:

- No Cross Terms: Realizar la regresin de los errores al cuadrado de la regresin inicial
del modelo escribiendo como explicativas todas las exgenas de la inicial y sus valores
al cuadrado.
- Cross Terms: igual que la anterior, pero incluyendo adems, como explictivas del error
al cuadrado, los productos no repetidos de todas las variables explicativas del modelo
inicial entre s.

En principio, el contraste expresado por White sera la segunda opcin, pero, en modelos con
escasas observaciones, a lo mejor no es posible realizar la estimacin con tantos regresores y
es ms recomendable la primera opcin (por no eliminar completamente los grados de
libertad).

En nuestro caso, el nmero de observaciones es 20 (pases) y el nmero de explicativas tres
ms la constante, luego el contraste de White con trminos cruzados equivaldra a incluir 10
variables explicativas sobre el cuadrado de los errores de la regresin inicial (la constante, las
tres explicativas, sus tres cuadrados y los tres cruces posibles no repetidos entre ellas).

Para aplicar este contraste en E-views, desde la misma ventana donde se ha realizado la
regresin, se sigue el siguiente trayecto:



Los resultado de este Test de residuos White heteroskedasticity (cross terms) son:

White Heteroskedasticity Test:
F-statistic 7.458779 Probability 0.002102
Obs*R-squared 17.40694 Probability 0.042712

Como resultado, se nos ofrecen dos formas de contrastar la validez de las variables elegidas
para explicar un comportamiento no homogneo del error al cuadrado (estimador de la
varianza de la perturbacin aleatoria en este caso):

- F-stastitic (como siempre con k-1; n-k grados de libertad), nos vendra a dar una
medida de la bondad del modelo (probabilidad de heterocedasticidad si se confirma la
validez conjunta de las variables elegidas para determinar la variacin del error al
cuadrado - la endgena-).

- Obs*R-squared (
1
2

p e
R n ): supuesta la hiptesis nula de homocedasticidad, el
clculo propuesto debera comportarse como una
1 p
con p-1 grados de libertad. En
nuestro caso p=10 (las explicativas de la regresin practicada). (El valor de tablas de
2
1 10
, para el 95% de confianza, es 16,9).

A la luz de lo dicho, ambos estadsticos propuestos afirman, con un 97,9% de probabilidades el
primero y con un 96,73% de probabilidades el segundo, la existencia de heterocedasticidad.

La misma salida nos muestra la regresin utilizada para realizar estos clculos, que sera la
siguiente:

Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 04/04/01 Time: 18:13
Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C -1244.796 761.4100 -1.634856 0.1331
PRECIOSBK -3872.145 4225.294 -0.916420 0.3810
PRECIOSBK^2 1071.919 452.8574 2.367012 0.0395
PRECIOSBK*PRECIOSMAC -423.3863 3433.568 -0.123308 0.9043
PRECIOSBK*RENTAPC 0.065588 0.019299 3.398529 0.0068
PRECIOSMAC 6562.125 4306.578 1.523745 0.1586
PRECIOSMAC^2 -2332.049 3209.945 -0.726507 0.4842
PRECIOSMAC*RENTAPC 0.048495 0.039574 1.225423 0.2485
RENTAPC -0.090230 0.034504 -2.615066 0.0258
RENTAPC^2 -7.94E-07 2.13E-07 -3.719294 0.0040
R-squared 0.870347 Mean dependent var 57.08155
Adjusted R-squared 0.753659 S.D. dependent var 104.1942
S.E. of regression 51.71438 Akaike info criterion 11.03620
Sum squared resid 26743.77 Schwarz criterion 11.53407
Log likelihood -100.3620 F-statistic 7.458779
Durbin-Watson stat 1.810789 Prob(F-statistic) 0.002102




A la luz de esta regresin, es fcil comprobar la significatividad de la variable rentapc y
rentapc^2 para explicar la varianza del error. Tambin los es preciosbk^2 y preciosbk*rentapc.

Para corregir el problema de la heterocedasticidad, habra que emplear Mnimos Cuadrados
Generalizados, o bien transformar todas las variables del modelo predividiendo todas sus
observaciones por la raz cuadrada del valor estimado del error al cuadrado en el modelo que
se ha utilizado para contrastar la presencia de heterocedasticidad y que nos ha informado
sobre la presencia de la misma y la buena explicacin del comportamiento no constante de la
varianza.

El programa E-views permite realizar la estimacin por MCG usando como valor de el
obtenible a partir de la propuesta de White (1980).

El estimador consistente de la matriz de covarianzas para lograr una estimacin correcta de los
parmetros en presencia de heterocedasticidad es el siguiente:

[ ] [ ]
1
1
2 1
' ' '

\
|

=

X X x x e X X
k n
n
n
i
t t it


Para lograr una estimacin empleando esta correccin en E-views, es necesario, una vez se
ejecuta una estimacin lineal normal, pulsar el botn de estimate. Aparecer entonces, a la
derecha, un botn de opciones que, pulsado, permite sealar Heteroskedasticity: consistent
covariance White.





Estimando segn esta propuesta, ya que hemos confirmado la presencia de
heterocedasticidad, los resultados seran los siguientes:

Dependent Variable: VTASBK
Method: Least Squares
Date: 04/20/01 Time: 13:37
Sample: 1 20
Included observations: 20
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob.
C 23.78791 8.785312 2.707691 0.0155
PRECIOSBK -2.356251 7.695290 -0.306194 0.7634
PRECIOSMAC -16.74075 13.70312 -1.221674 0.2395
RENTAPC 0.025278 0.000213 118.6913 0.0000
R-squared 0.999224 Mean dependent var 421.8983
Adjusted R-squared 0.999078 S.D. dependent var 278.2593
S.E. of regression 8.447007 Akaike info criterion 7.282358
Sum squared resid 1141.631 Schwarz criterion 7.481504
Log likelihood -68.82358 F-statistic 6867.346
Durbin-Watson stat 2.376763 Prob(F-statistic) 0.000000

Referencias bibliogrficas

GUJARATI, D. (2006): Principios de Econometra. Mc Graw Hill, Captulo 13. pag.385

GOLFEDLD,SM Y QUANDT (1972): Non Linnear Methods in Econometrics. North Holland, pag.
280.

MARTN-GUZMN Y MARTN PLIEGO (1985): Curso bsico de Estadstica Econmica.
Editorial AC

NOVALES, A. (1993): Econometra. Editorial M'c Graw Hill, segunda edicin. Madrid. Captulo 6,
pgina: 193.

OTERO, JM (1993): Econometra. Series temporales y prediccin. Editorial AC, libros cientficos
y tcnicos. Madrid.

PULIDO, A. y PREZ, J. (2001): Modelos Economtricos. Editorial Pirmide, SA. Madrid. Captulo
14, pgina: 711.

También podría gustarte