Presentación 07 - Multicolinealidad

ECONOMETRÍA
Jorge A. Alarcón Novoa

Contenido
VIOLACION de SUPUESTOS del MODELO de
REGRESION CLASICO
I. Multicolinealidad: causas, consecuencias,
detección, corrección.
Lecturas:
- Gujarati & Porter : Cap. 10 ;
- Wooldrige: Capítulo 3 (sección 3.4) ;
- Alarcón & Nolazco: Capítulo 8.
MULTICOLINEALIDAD
Un supuesto importante del modelo clásico es que no hay una
relación lineal EXACTA (o multicolinealidad) entre las variables
explicativas. Aunque los casos de MC exacta son infrecuentes en la
práctica, las situaciones de multicolinealidad "elevada" suceden
con frecuencia. Entonces, aunque MC se refiere teóricamente a
una relación exacta entre V. Regresoras, en la práctica: MC se
refiere TAMBIÉN a situaciones en las que dos o más variables
regresoras pueden tener una elevada relación lineal.
También en la práctica MC “escasa” sería “manejable” o “aceptable”

Un ejemplo numérico (Gujarati & Porter, 2010)
X2 X3 X3*
10 50 52
15 75 75
18 90 97
24 120 129
30 150 152
X3*= X3 + N° aleatorio (X2 y X3 tienen MC perfecta)
Es importante notar que:
 La MC es definida solo para relaciones lineales entre variables X.
 Si la MC es perfecta, los coeficientes de regresión serán
indeterminados y sus EE infinitos [la matriz (X'X) será singular --
determinante igual a cero y matriz inversa no existe].
 Si la MC es menos que perfecta, los coeficientes de regresión son
determinados pero tienen EE "sobrevaluados". (No perfecta pero alta)
 Aún en el caso de casi MC perfecta, los estimadores MCO son
insesgados. Pero insesgamiento es una propiedad "multimuestral"
o de muestreo repetido (fijos los valores de X, con muestras
repetidas si se estiman los parámetros de regresión para c/u de las
muestras, el promedio de los valores muestrales se aproximará a
los verdaderos valores poblacionales). Pero esto no dice nada de
las propiedades de los estimadores en una muestra dada
(específica). MC es un fenómenos muestral.
2- CAUSAS de MC (entre otras)
(1°) Restricciones en la población o en la propia teoría: ejemplo
consumo -energía- como función de ingreso y tamaño de la
vivienda.
(2°) Método de recolección de información: ejemplo la obtención

de muestras en un "nicho" de información.
(3°) En ST: regresoras comparten una tendencia temporal común.
(4°) Todas las dummies + intercepto en el mismo modelo.
(5°) "Exceso" de variables incrementa las posibilidades de MC.

3- CONSECUENCIAS de la MC
3.1 Con MC perfecta o exacta:
Claramente, en 𝜷 =(X'X)-1(X'Y)
𝜷 será indeterminada pues (X'X)-1 no existe,
Dada la V(𝜷) =2(X'X)-1  V(𝜷) será también indeterminada.

CONSECUENCIAS de la MC, con escalares
Si el modelo fuera: 𝒀𝒊 = 𝜷𝟏 + 𝜷𝟐 𝑿𝟐𝒊 + 𝜷𝟑 𝑿𝟑𝒊 + 𝝁𝒊 (3)
Donde i = 1, 2, 3, … ,n observaciones de la muestra

j = 1, 2, 3 parámetros estimados en el modelo
Es posible obtener estimaciones MCO de los parámetros de (3)

minimizando:
∧
Min  (Yi − Y i )2
b1, b2 y b3 son estimadores de los parámetros 1, 2 y 3
Resolviendo simultáneamente las ecuaciones normales, obtenemos
[( 𝒙𝟐 𝒚)( 𝒙𝟐
𝟑 )−( 𝒙𝟑 𝒚)( 𝒙𝟐 𝒙𝟑 )]
𝒃𝟐 = 𝟐 (4a)
[( 𝒙𝟐
𝟐 )( 𝒙𝟐
𝟑 )−( 𝒙𝟐 𝒙𝟑 ) ]
[( 𝒙𝟑 𝒚)( 𝒙𝟐
𝟐 )−( 𝒙𝟐 𝒚)( 𝒙𝟐 𝒙𝟑 )]
𝒃𝟑 = 𝟐 (4b)
[( 𝒙𝟐
𝟏 )( 𝒙𝟐
𝟐 )−( 𝒙𝟏 𝒙𝟐 ) ]
 Si MC es Perfecta o Exacta :
[( 𝒙𝟐 𝒚)( 𝒙𝟐
𝟑 )−( 𝒙𝟑 𝒚)( 𝒙𝟐 𝒙𝟑 )]
𝒃𝟐 = 𝟐 (4a)
[( 𝒙𝟐
𝟐 )( 𝒙𝟐
𝟑 )−( 𝒙𝟐 𝒙𝟑 ) ]
Supongamos que 𝑿𝟑 = 𝑿𝟐 donde "" es una constante diferente de
cero. Si substituimos esta relación, en (4a), obtenemos (5)-- una
expresión indeterminada.
[( 𝒙𝟐 𝒚)(𝝀𝟐 𝒙𝟐
𝟐 )−(𝝀 𝒙𝟐 𝒚)(𝝀 𝒙𝟐
𝟐 )]
𝒃𝟐 = 𝟐 = (0/0) (5)
[( 𝒙𝟐
𝟐 )(𝝀
𝟐 𝒙𝟐 𝟐
𝟐 )−𝝀 ( 𝒙𝟐
𝟐 ]
)
Con MC perfecta, es comprobable que las varianzas y errores estándar

de b2 y b3 son (individualmente) indeterminados.
Igualmente si 𝑿𝟑 = 𝑿𝟐 :
𝟐
𝟐
𝒙𝟐
𝟑 𝟐 (𝝀 𝒙𝟐
𝟐)
V(b2) =𝝈 será 𝝈
𝒙𝟐 𝒙𝟐
𝟑 −( 𝒙𝟐 𝒙𝟑 )𝟐 ( 𝒙𝟐
𝟐
𝒙𝟐
𝟐 𝟐 𝟐
𝟐 𝟐 )(𝝀 𝟐 )−𝝀 ( 𝒙𝟐 )
Si el denominador es indefinido, entonces V(b2) es TB indefinido.

3.2. Si MC no es Perfecta, pero es ALTA
Ejemplo: 𝑿𝟑 = 𝝀𝑿𝟐 + 𝝎𝒊
Donde 𝝎𝒊 es un término estocástico. Si 𝝎𝒊 es bastante pequeño
(cercano a cero), indicará cuasi- colinealidad perfecta.
Entonces 𝑫𝒆𝒕 𝑿′ 𝑿 0, por tanto (𝑿′ 𝑿)−𝟏 
Los coeficientes de 𝜷 =(X'X)-1(X'Y) son estimables pero

resultan imprecisos.
Intuitivamente si ̂ =  + (XX)-1 (XU);
y (𝑿′ 𝑿)−𝟏  , entonces ̂ será impreciso.
Las 𝑽 𝜷 = 𝝈𝟐 (𝑿′ 𝑿)−𝟏 resultan "infladas".
Si 𝑫𝒆𝒕 𝑿′ 𝑿  0, entonces (𝑿′ 𝑿)−𝟏  ,
luego 𝑽 𝜷  en forma significativam+ alta.
MC “alta” (con escalares)
SI …
𝟐 𝒙𝟐𝟑 𝝈𝟐
V(b2) = 𝝈 =
𝒙𝟐𝟐 𝒙𝟐𝟑 −( 𝒙𝟐 𝒙𝟑 )𝟐 𝒙𝟐𝟐𝒊 (𝟏−𝒓𝟐𝟐𝟑 )
(pp. 194 Gujarati- Porter)
𝒙𝟐𝟐 𝝈𝟐
V(b3) = 𝝈𝟐 =
𝒙𝟐𝟐 𝒙𝟐𝟑 −( 𝒙𝟐 𝒙𝟑 )𝟐 𝒙𝟐𝟑𝒊 (𝟏−𝒓𝟐𝟐𝟑 )
donde 𝒓𝟐𝟑 es el coeficiente de correlación muestral entre X2 y X3
𝒓𝟐𝟐𝟑 es el coeficiente de determinación con X2 (VD) y X3 (regresora).
Conforme 𝒓𝟐𝟐𝟑  crece la velocidad con la cual las varianzas y

covarianzas se incrementan. Esto puede estimarse mediante un
indicador: Factor de Inflación de Varianza (FIV).
En resumen, con 𝜷 =(X'X)-1(X'Y)
V(𝜷) =2(X'X)-1 ,
Estimadores Varianzas
MC exacta No “estimables” No “estimables”
MC solo “alta” Imprecisos + Infladas
→ Con MC “alta” (real), la consecuencia básicamente es:
(1) los estimadores de regresión pueden ser incorrectos,
(2) las varianzas y covarianzas MUESTRALES estarán sobre-

dimensionadas haciendo difícil una estimación eficiente.
IMPLICANCIAS
“SÍNTOMAS” (sintomas)
 Las razones “t”, de “varios” coeficientes, tienden a ser
estadísticamente NO significativas [mientras que R2, tiende a ser
muy alta... también F=f(R2) resulta significativo] → Las pruebas
de hipótesis pierden certeza (se tiende a no rechazar una
hipótesis nula cero). Los intervalos de confianza tienden
también a ser artificialmente “amplios”.
 Es difícil distinguir las influencias separadas de las variables
regresoras (sobre la variable dependiente), pues el efecto estaría
“confundido”.
 Eventualmente signos equivocados en los coeficientes de
regresión: pueden cambiar fácilmente de signo (altamente
"peligroso").
 Los estimadores MCO, y sus errores estándar, son sensibles a
pequeños cambios en la información.
4- DETECCIÓN de la MULTICOLINEALIDAD
Kmenta: “La multicolinealidad es un problema de grado y no de
clase. La distinción importante no es entre la presencia y la
ausencia de MC, sino entre sus diferentes grados”, y puesto que “es
un problema muestral …. no es necesario llevar a cabo pruebas de
detección …. pero se puede medir su grado en cualquier muestra
determinada”.
Lo que se tienen son reglas prácticas de detección.

REGLAS PRÁCTICAS de DETECCIÓN de MC
(1) R2 “elevada” y pocas “t” significativas (síntoma clásico):
Funciona bien en caso de “pocas" variables regresoras. Intuitivo.

(2) Gráficos bi-variadas entre regresoras.
(3) Altas correlaciones "simples" entre pares de regresoras
“alto” (0.7, ¿grave?):
Condición suficiente pero no necesaria para la existencia de MC
(puede existir MC aún con "bajas" correlaciones simples). En
modelos con apenas dos regresoras (o tres) el examen de Coefic.
de correlación simples puede dar una buena idea de la MC.
Ejemplo
EP8.1- En el archivo p8.1.wf1 se tiene información de una región Peruana
un distrito de Lima,
referidos a el consumo de agua en m3 (cagua), que dependería de: su
producto bruto interno en nuevos soles (pib), su población en miles de
personas (pob), y su temperatura promedio en °C (temp); la información
corresponde al período 1988-2006. (a) Estime de manera lineal el
enunciado anterior y realice las pruebas respectivas para probar si existen
problemas de colinealidad; (b) De existir el problema, corríjalo.
Dependent Variable: CAGUA
Method: Least Squares
Date: 08/17/13 Time: 10:58
Sample: 1988 2006
Included observations: 19
Variable Coefficient Std. Error t-Statistic Prob.
C -42159.05 23982.09 -1.757939 0.0991

PIB -0.000968 0.000908 -1.065164 0.3036
POB 163.3868 34.40213 4.749323 0.0003
TEMP -327.9672 1049.883 -0.312385 0.7590
R-squared 0.989622 Mean dependent var 85448.74

Adjusted R-squared 0.987546 S.D. dependent var 15515.01
S.E. of regression 1731.423 Akaike info criterion 17.93594
Sum squared resid 44967402 Schwarz criterion 18.13477
Log likelihood -166.3914 Hannan-Quinn criter. 17.96959
F-statistic 476.7799 Durbin-Watson stat 0.519287
Prob(F-statistic) 0.000000
(4) Correlaciones parciales son también sugeridas (en lugar
de Corr. simples)
Algunos Economistas sugieren usar la regresión de Y “sobre” X2,

X3, X4, … Luego 𝒓𝟐𝟑.𝟒 en lugar de 𝒓𝟐𝟑
Esta prueba ha sido criticada. Economistas sugieren usarlas, pero
tampoco han mostrado ser confiables -puede ser calculadas junto
con las correlaciones simples.
(5) Regresiones auxiliares.
Es una forma de encontrar cuál variable X está relacionada

con las otras Xs: efectuando la regresión de cada 𝑿𝒊 sobre las
Xs restantes, y estimar la R2 correspondiente (𝑹𝟐𝒊 ) y así...
(regresiones auxiliares). Siguiendo la relación entre R2 y F,
entonces la variable:
𝑹𝟐
𝒊 /(𝒌−𝟐)
𝑭𝒊 = sigue distribución F con (k-2) y (n-k+1) GL.
(𝟏−𝑹𝟐
𝒊 )/(𝒏−𝒌+𝟏)
k es el número de parámetros.“i” corresponde a V. Regresora.

Ho: La Xi particular no es colineal con las demás Xs.
Si Fc > Ft (α), rechazamos la Ho.
Si no rechazamos la Ho, podemos mantener la variable en

el modelo.
Regresiones auxiliares.
Desventajas: no es seguro y puede ser engorroso si las

variables regresoras son muchas.
Regla práctica de Klein: sugiere que la MC puede ser un

problema complicado solamente si:
𝑹𝟐𝒊 obtenida de una regresión auxiliar > R2 global (Y sobre Xs).

6. Factores de Inflación de Varianza
Similarmente, en el caso de dos variables independientes, la

VARIABILIDAD es medida de la siguiente forma:
Var (b2) = 2u [( x 32 ) / ( x 22 )( x 32 )−(x2x3)2]

Var (b3) = 2u [( x 22 ) / ( x 22 )( x 32 )−(x2x3)2]
idem denominador
Var( ̂ ) =  u2 (XX)-1
Dado que 2u es desconocida, la varianza residual S2 se usa como
estimación insesgada de2u.
∑( Yi -Ŷi ) 2 ∑e i2
S2 = =
n-k n-k
Varianzas de estimadores de pendientes en modelo tri-variado
(6) Factores de Inflación de Varianza (FIV)-
En un modelo con dos variables regresoras (X2 y X3).

Las fórmulas de las varianzas pueden ser escritas como:
𝝈𝟐 𝝈𝟐
𝑽 𝒃𝟐 = = (𝑭𝑰𝑽𝟐 ) (8)
𝒙𝟐 𝟐
𝟐𝒊 (𝟏−𝑹𝟐𝟑 ) 𝒙𝟐
𝟐𝒊
𝝈𝟐 𝝈𝟐
𝑽 𝒃𝟑 = = (𝑭𝑰𝑽𝟑 )
𝒙𝟐
𝟑𝒊 (𝟏 − 𝑹 𝟐
𝟑𝟐 ) 𝒙𝟐
𝟑𝒊
𝟐𝟑 es el coeficiente de determinación de la regresión auxiliar

𝑹𝟐
X2= f (X3)
𝟏
Entonces el Factor de inflación de Varianza es 𝑭𝑰𝑽 = 𝟐
(𝟏−𝑹𝒊 )
A medida que 𝑹𝟐 𝒊 , varianza y EE de los estimadores 
𝑽 𝒃𝒊 = f (𝝈𝟐 , 𝒙𝟐𝟏𝒊 , 𝑭𝑰𝑽 ) entonces un elevado R obtenido de
2
una regresión auxiliar puede ser, solo, un indicador

superficial de multicolinealidad.
Si FIV > 5 (o 𝑅𝑖2 > 0.7)  tal regresora "i" es muy colineal.
5- MEDIDAS CORRECTIVAS
Éxito depende de la severidad de la MC
1- Eliminación de una o más variables
Es ampliamente usado, pero al eliminar una variable del

modelo, se puede incurrir en un SESGO de ESPECIFICACIÓN
(“contra” la teoría)
𝒀𝒊 = 𝜷𝟏 + 𝜷𝟐 𝑿𝟐𝒊 + 𝜷𝟑 𝑿𝟑𝒊 + 𝝁𝒊 (10)
Si se ajusta sólo (por la eliminación): 𝒀𝒊 = 𝜶𝟏 + 𝜶𝟐 𝑿𝟐𝒊 + 𝜺𝒊
Se puede demostrar que 𝑬(𝜶𝟐 ) ≠ 𝜷𝟐
Entonces el “remedio” podría ser peor que la enfermedad

(por el error de especificación)
2- Uso de Información a priori
Si en 𝒀𝒊 = 𝜷𝟏 + 𝜷𝟐 𝑿𝟐𝒊 + 𝜷𝟑 𝑿𝟑𝒊 + 𝝁𝒊
Si las variables regresoras son altamente colineales; suponga
que a priori se tiene que:
𝜷𝟐 = 𝟏𝟎𝜷𝟑
Entonces 𝒀𝒊 = 𝜷𝟏 + 𝟏𝟎𝜷𝟑 𝑿𝟐𝒊 + 𝜷𝟑 𝑿𝟑𝒊 + 𝝁𝒊
𝒀𝒊 = 𝜷𝟏 + 𝜷𝟑 𝟏𝟎𝑿𝟐𝒊 + 𝑿𝟑𝒊 + 𝝁𝒊
Una vez estimados los nuevos parámetros asociados a la
nueva ecuación transformada (estimar 𝑏1 𝑦 𝑏3 ), entonces se
puede estimar 𝑏2 = 10𝑏3
La información a priori puede provenir de trabajo previo
(meta-análisis) correctamente especificado (no siempre es
posible, y puede probarse la “imposición” con MC
restringidos).
Una variante de uso de “información a priori” es el
conocimiento de uno o más coeficientes. Pueden ser datos
transferidos de corte transversal a series de tiempo o
también información “traída” de un contexto distinto (meta-
análisis).
Ejemplo: si tengo la ecuación de ST (función de demanda):

𝑳𝒏𝑸𝒕 = 𝜷𝟏 + 𝜷𝟐 𝑳𝒏𝑷𝒕 + 𝜷𝟑 𝑳𝒏𝑰𝒕 + 𝝁𝒕 (12)
Y... si se conoce de otro estudio (previo) de corte transversal

que la elasticidad ingreso es 𝜷𝟑  puede plantearse la
siguiente ecuación:
𝑸∗𝒕 = 𝜷𝟏 + 𝜷𝟐 𝑳𝒏𝑷𝒕 + 𝝁𝒕
Donde 𝑸∗𝒕 = 𝑳𝒏 𝑸 − 𝜷𝟑 𝑳𝒏𝑰𝒕
O sea 𝑸∗𝒕 representa el valor de Q después de eliminar el efecto

del ingreso. Ahora puede obtenerse la elasticidad precio 𝜷𝟐 a
partir de la regresión anterior.
3- Transformación de variables
(i) Una solución es usar una ecuación en diferencias:

𝒀𝒕 − 𝒀𝒕−𝟏 = 𝜷𝟏 + 𝜷𝟐 (𝑿𝟐𝒕 − 𝑿𝟐,𝒕−𝟏 ) + 𝜷𝟑 (𝑿𝟑𝒕 − 𝑿𝟑,𝒕−𝟏 ) + 𝝎𝒊 (15)
Este modelo alternativo (en diferencias) frecuentemente reduce la

severidad de la MC pues aún cuando los niveles de X2 y X3 pueden
estar fuertemente correlacionados, no hay razón a priori para
pensar que sus diferencias también lo están.
Desventaja: procedimiento usualm+ no adecuado con CT. En ST no

se asegura “no AC” en el nuevo término de error.
(ii) Otra transformación usada es la transformación de razón
Por ejemplo si en el modelo (13), Y representa Gasto en consumo

de alimentos (US$).
X2: PBI; X3: población total.
Transformación:
𝒀𝒕 𝟏 𝑿𝟐𝒕 𝝁𝒕
= 𝜷𝟏 [ ] + 𝜷𝟏 [ ] + 𝜷𝟑 + [ ]
𝑿𝟑𝒕 𝑿𝟑𝒕 𝑿𝟑𝒕 𝑿𝟑𝒕
La clave es que una de las regresoras sea divisible y conlleve una

transformación “adecuada”, que permita reducir la colinealidad de
las variables originales (puede ser adecuado en CT). En algunos
casos la variable colineal es la que se usa como deflactor.
𝝁𝒕
Potencial problema: El error [ ] podría ser heteroscedástico.
𝑿𝟐𝒕

Presentación 07 - Multicolinealidad

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Presentación 07 - Multicolinealidad

Cargado por

Copyright:

Formatos disponibles

ECONOMETRÍA

Jorge A. Alarcón Novoa

También en la práctica MC “escasa” sería “manejable” o “aceptable”

(2°) Método de recolección de información: ejemplo la obtención

(3°) En ST: regresoras comparten una tendencia temporal común.

(4°) Todas las dummies + intercepto en el mismo modelo.

(5°) "Exceso" de variables incrementa las posibilidades de MC.

3.1 Con MC perfecta o exacta:

Dada la V(𝜷) =2(X'X)-1  V(𝜷) será también indeterminada.

Donde i = 1, 2, 3, … ,n observaciones de la muestra

Es posible obtener estimaciones MCO de los parámetros de (3)

Con MC perfecta, es comprobable que las varianzas y errores estándar

Si el denominador es indefinido, entonces V(b2) es TB indefinido.

Entonces 𝑫𝒆𝒕 𝑿′ 𝑿 0, por tanto (𝑿′ 𝑿)−𝟏 

Los coeficientes de 𝜷 =(X'X)-1(X'Y) son estimables pero

donde 𝒓𝟐𝟑 es el coeficiente de correlación muestral entre X2 y X3

𝒓𝟐𝟐𝟑 es el coeficiente de determinación con X2 (VD) y X3 (regresora).

Conforme 𝒓𝟐𝟐𝟑  crece la velocidad con la cual las varianzas y

MC exacta No “estimables” No “estimables”

MC solo “alta” Imprecisos + Infladas

→ Con MC “alta” (real), la consecuencia básicamente es:

(1) los estimadores de regresión pueden ser incorrectos,

(2) las varianzas y covarianzas MUESTRALES estarán sobre-

Lo que se tienen son reglas prácticas de detección.

Funciona bien en caso de “pocas" variables regresoras. Intuitivo.

Variable Coefficient Std. Error t-Statistic Prob.

C -42159.05 23982.09 -1.757939 0.0991

R-squared 0.989622 Mean dependent var 85448.74

Algunos Economistas sugieren usar la regresión de Y “sobre” X2,

Es una forma de encontrar cuál variable X está relacionada

k es el número de parámetros.“i” corresponde a V. Regresora.

Si no rechazamos la Ho, podemos mantener la variable en

Desventajas: no es seguro y puede ser engorroso si las

Regla práctica de Klein: sugiere que la MC puede ser un

𝑹𝟐𝒊 obtenida de una regresión auxiliar > R2 global (Y sobre Xs).

Similarmente, en el caso de dos variables independientes, la

Var (b2) = 2u [( x 32 ) / ( x 22 )( x 32 )−(x2x3)2]

En un modelo con dos variables regresoras (X2 y X3).

𝟐𝟑 es el coeficiente de determinación de la regresión auxiliar

una regresión auxiliar puede ser, solo, un indicador

1- Eliminación de una o más variables

Es ampliamente usado, pero al eliminar una variable del

𝒀𝒊 = 𝜷𝟏 + 𝜷𝟐 𝑿𝟐𝒊 + 𝜷𝟑 𝑿𝟑𝒊 + 𝝁𝒊 (10)

Si se ajusta sólo (por la eliminación): 𝒀𝒊 = 𝜶𝟏 + 𝜶𝟐 𝑿𝟐𝒊 + 𝜺𝒊

Se puede demostrar que 𝑬(𝜶𝟐 ) ≠ 𝜷𝟐

Entonces el “remedio” podría ser peor que la enfermedad

Ejemplo: si tengo la ecuación de ST (función de demanda):

Y... si se conoce de otro estudio (previo) de corte transversal

O sea 𝑸∗𝒕 representa el valor de Q después de eliminar el efecto

(i) Una solución es usar una ecuación en diferencias:

Este modelo alternativo (en diferencias) frecuentemente reduce la

Desventaja: procedimiento usualm+ no adecuado con CT. En ST no

Por ejemplo si en el modelo (13), Y representa Gasto en consumo

La clave es que una de las regresoras sea divisible y conlleve una

También podría gustarte