Está en la página 1de 7

Econ.

Paulo Roberto Chahuara Vargas LAMBDA

MULTICOLONEALIDAD EN EL MODELO LINEAL GENERAL

1. INTRODUCCIÓN

Sea 𝑌 = 𝑋𝛽 + 𝑢 con 𝑖 = 1, … , 𝑛

 donde el modelo es lineal


 La 𝐸(𝑢) = 0
 No hay heterocedasticidad y correlación serial: 𝑣𝑎𝑟(𝑢) = 𝜎 2 𝐼𝑛
 Bajo Gauss-Markov el 𝛽̂𝑀𝐶𝑂 = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑌 es MELI

Ahora bien, un supuesto también clave es que 𝑝(𝑋) = 𝑘, el cual garantiza que 𝑋 ′ 𝑋 sea invertible, de modo
que el problema de MCO tiene una solución única. Esto se conoce como el supuesto de no multicolonealidad.

2. ¿QUÉ ES MULTICOLONEALIDAD?

La multicolinealidad es un problema que surge cuando las variables explicativas del modelo están
correlacionadas entre sí. Este es un problema complejo, porque en cualquier regresión las variables
explicativas van a presentar algún grado de correlación.

Matemáticamente, existe multicolinealidad cuando tenemos problemas a la hora de invertir la matriz 𝑋 ′ 𝑋. De


hecho, si el |𝑋 ′ 𝑋| = 0 ↔ 𝑝(𝑋) < 𝑘, implica multicolonelidad exacta (perfecta o estricta) y elimina la
posibilidad de encontrar estimaciones únicas. En este caso, alguna variable explicativa es combinación lineal
de otras y el sistema de ecuaciones normales tiene infinitas soluciones. Ahora bien, si |𝑋 ′ 𝑋| ≠ 0 ↔
𝑝(𝑋) = 𝑘 implica multicolonelidad alta (no estricta o de grado). En este caso la correlación entre las
variables explicativas si bien no es perfecta, es “alta”.

3. LAS CONSECUENCIAS DE LA MULTICOLONEALIDAD

El problema de multicolinealidad es un problema de grado. Es decir, si |𝑋 ′ 𝑋| ≠ 0 ↔ 𝑝(𝑋) = 𝑘, este


determinante numéricamente es distinto de cero y por tanto, existe una única solución para las ecuaciones
normales. Así que en principio no se viola ningún supuesto clásico, el teorema de Gauss-Markov sigue siendo
válido. Sin embargo, la multicolinealidad de grado tiene una serie de efectos perniciosos sobre las
estimaciones MCO de los parámetros:

 Las varianzas y covarianzas de los estimadores de los parámetros se hacen muy grandes conforme
aumenta el grado de colinealidad. Es decir:
[𝑎𝑑𝑗(𝑋 ′ 𝑋)]′
𝑣𝑎𝑟(𝛽̂𝑀𝐶𝑂 ) = 𝜎̂ 2 (𝑋 ′ 𝑋)−1 = 𝜎̂ 2
|𝑋 ′ 𝑋|

y al ser el determinante cercano a cero, esto infla las varianzas y covarianzas de los parámetros
estimados. Ello implica que la precisión de la estimación disminuye a medida que aumenta la
multicolinealidad. Más precisamente
𝜎2
𝑣𝑎𝑟(𝛽̂𝑗 ) =
[(1 − 𝑅𝑗2 )𝑆𝑗𝑗 ]

En donde 𝑅𝑗2 es el 𝑅 2 de regresar 𝑋𝑗 en todas las restantes variables explicativas, y 𝑆𝑗𝑗 =


2
∑𝑛𝑖=1(𝑋𝑗𝑖 − 𝑋̅𝑗 )

1
Econ. Paulo Roberto Chahuara Vargas LAMBDA

𝜎2 𝜎2 1
𝑣𝑎𝑟(𝛽̂𝑗 ) = =
[(1 − 𝑅𝑗2 )𝑆𝑗𝑗 ] 𝑛 𝑆𝑗𝑗
(1 − 𝑅𝑗2 ) ( 𝑛 )

𝑆𝑗𝑗
𝑛
es relativamente estable. Entonces hay tres factores que contribuyen a una mayor varianza

𝜎 2 , la varianza del termino de error


𝑛, la cantidad de observaciones
𝑅𝑗2, la correlación entre 𝑋𝑗 y las otras variables.

Es importante ver que la multicolinealidad alta afecta a la varianza de la misma forma que el número
de observaciones (micronumerosidad).

 Ya que la varianza de los estimadores está sesgada al alza, los estadísticos 𝑡 de significación
individual estarán sesgados a la baja. Esto hará que tendamos a no rechazar la 𝐻0 : 𝛽𝑘 = 0 más
frecuentemente de lo que se debiera si no existiese colinealidad alta:
𝛽̂𝑘
𝑡= ~𝑡𝑛−𝑘
√𝑣𝑎𝑟(𝛽̂𝑘 )

 También es interesante resaltar que bajo multicolinealidad alta, seria “común” observar que los
estadísticos “t” de significatividad sean bajos pero – si el modelo es válido - el R2 y el estadístico F de
significatividad global sean altoa ¿Por qué? Intuición: El R2 puede ser alto ya que refleja como las
variables Y explican conjuntamente pues la bondad del ajuste seguirá siendo parecida ante la
presencia de variables explicativas superfluas. Asimismo el estadístico F:
𝑅 2 ⁄𝑘 − 1
𝐹=
(1 − 𝑅 2 )⁄𝑛 − 𝑘

 Otro síntoma de multicolinealidad de grado es que ligeros cambios en las matrices de datos 𝑋 e 𝑌
(por ejemplo, añadiendo o suprimiendo unas pocas observaciones) pueden llevar a grandes cambios
en los parámetros estimados. Esto nos puede llevar erróneamente a considerar la posibilidad de
cambio estructural, cuando en realidad se trata de otro problema.

4. CAUSAS DE LA MULTICOLONEALIDAD

 Reducido tamaño de muestra


 Relación causal entre variables explicativas del modelo
 Escasa variabilidad en las observaciones de las variables independientes
 Variables irrelevantes
 Problemas de escala
 Inclusión de variables explicativas retardadas (modelos de rezagos distribuídos)

5. DETECCIÓN DE LA MULTICOLONEALIDAD

 Correlación lineal simple existente entre pares de variables explicativas. Sin embargo, pueden existir
dependencias lineales más complicadas entre las exógenas y esto nunca lo detectaríamos
calculando sólo coeficientes de correlación simples entre todas las variables.

 Calcular los coeficientes de correlación parcial

2
Econ. Paulo Roberto Chahuara Vargas LAMBDA

 Calcular el valor numérico del determinante de 𝑋 ′ 𝑋.

 Calcular los autovalores de 𝑋 ′ 𝑋 y ver si alguno de estos autovalores es cercano a cero

 Examinar el tamaño relativo de los autovalores. En concreto, se calcula el número de condición de la


matriz 𝑋 ′ 𝑋 como la raíz cuadrada del cociente entre el autovalor más grande y el más pequeño.

𝜆𝑀𝐴𝑋
𝐼=√
𝜆𝑀𝐼𝑁
mientras más grande es el número mayor probabilidad que exista multicolonealidad. Sin embargo no
hay una regla analítica para decidir a partir de qué número de condición empezamos a tener
problemas graves de multicolinealidad. Existen reglas heurísticas como que un número de condición
mayor que 20 ó 25, ya sugiere la presencia de alta colinealidad.

 Factor de inflación de varianza (VIF): Este indicador evalúa el nivel en que la varianza del coeficiente
estimado para la variable ha sido inflada, como consecuencia de que esta variable no es ortogonal
(no es independiente) del resto de variables del modelo.

1
𝑉𝐼𝐹𝑘 =
(1 − 𝑅𝑘2 )

Donde 𝑅𝑘2 representa la bondad de ajuste (coeficiente de determinación) de la regresión entre la


variable explicativa 𝑘 y el resto de variables explicativas del modelo. Si 𝑅𝑘2 es grande significa que el
comportamiento de la variable independiente 𝑘 se puede explicar en gran medida por el
comportamiento de las restantes variables del modelo. Ello implica que la variable 𝑘 no entrega
información diferente a la que están entregando las restantes variables del modelo. La regla sobre
este factor, es que existe multicolinealidad si el promedio de todos los VIF es mayor a 10 o el mayor
de todos los factores VI es superior a 10.

 Procedimiento de Frisch:

El método consiste en el siguiente procedimiento:


1) Se regresiona la variable dependiente con cada una de las variables explicativas por separado; y
se examina sus resultados en base a un criterio a priori y estadístico (v.gr. altos R2 cuadrados, signos
esperados, comportamiento de los residuos, mejor forecast).
2) Se elige la regresión elemental que parece dar el mejor resultado plausible, con ambos criterios a
priori y estadísticos.
3) Luego, se inserta gradualmente variables explicativas adicionales y se examina sus efectos sobre
los coeficientes individuales, sobre sus errores estándar y sobre el R2

Una nueva variable será útil, superflua o detrimental, de acuerdo a:


a) Si la nueva variable mejora el R2, sin producir coeficientes individuales inaceptables
(“equivocados”) en base a las consideraciones a priori, entonces la variable es considerada UTIL, y
es retenida como variable explicativa.
b) Si la nueva variable no mejora el R2, y no afecta en grado considerable los valores de los
coeficientes individuales, entonces esta variable es considerada como SUPERFLUA, es decir, no se
considera dentro de las variables explicativas del modelo, dado que no agrega información adicional.

3
Econ. Paulo Roberto Chahuara Vargas LAMBDA

c) Si la nueva variable afecta considerablemente los signos o los valores de los coeficientes, es
considerada como DETRIMENTAL. Si los coeficientes individuales son afectados de tal manera que
se vuelven inaceptables en base a las consideraciones teóricas a priori, entonces ello es una
advertencia que la multicolinealidad es un serio problema.

OJO: La nueva variable es importante, pero debido a su intercorrelación con las otras variables
explicativas su influencia no puede ser asegurada estadísticamente por los MCO. Esto no significa
que debamos rechazar la variable detrimental, pues si lo hacemos se ignoraría información valiosa
en el intento de especificar la “verdadera” relación. Si se omite la variable detrimental, se debe tener
en mente que haciendo eso se deja que su influencia sea absorvida por los otros coeficientes y por el
término aleatorio, el cual puede volverse correlacionado con las variables dejadas en la función,
violando en consecuencia el supuesto de 𝐸(𝜀|𝑋) = 0.

 Test de Farrar & Glauber

Los autores emplean un conjunto de 3 test estadísticos para verificar multicolinealidad.

- Primero: Un test Chi-cuadrado para detectar la existencia y la severidad de la multicolinealidad en


una función que incluye varias variables explicativas.
Ho: Las variables Xi son ortogonales entre si (no son combinaciones lineales)
H1: Las variables Xi no son ortogonales entre si.
El estadístico
(2𝑘 + 5) 2
𝜒𝑐2 = − [(𝑛 − 1) − ] 𝑙𝑛|𝑟|~𝜒𝑘(𝑘−1)
6 2

Donde 𝑘: N° de variables regresoras (no incluye la constante)


𝑛: Tamaño de la muestra
𝑟: Matriz de correlaciónes entre las variables regresoras

1 𝑟𝑥2𝑥3 𝑟𝑥2𝑥4
𝑟 = [𝑟𝑥2𝑥3 1 𝑟𝑥3𝑥4 ]
𝑟𝑥2𝑥4 𝑟𝑥3𝑥4 1

Si el resultado de la evaluación arroja que se rechaza la hipótesis de existencia de ortogonalidad,


entonces se aceptará la existencia de multicolonealidad. En otras palabras si la probabilidad resultante
del test 𝜒𝑐2 es menor que 0.05, entonces se sospecha la presencia de multicolonealidad en alto grado.

- Segundo: Un test F para localizar qué variable son multicolineales con los demás, mediante la
estimación de regresiones auxiliares de cada variable 𝑥𝐾 versus el resto de variables independientes.
2 2
𝐻0 : 𝑅𝑚𝑎𝑥 = 0 𝑉𝑆 𝐻1 : 𝑅𝑚𝑎𝑥 ≠0
2 ⁄(𝑘 − 1)
𝑅𝑚𝑎𝑥
𝐹𝑘−1,𝑛−𝑘 = 2
(1 − 𝑅𝑚𝑎𝑥 )⁄(𝑛 − 𝑘)

Conociendo el F más alto y contrastándolo contra el valor en tablas, se sabrá cuál es la relación
dominante entre las variables explicativas. Si la probabilidad resultante del test 𝐹 es menor que 0.05,
entonces se sospecha la presencia de multicolonealidad en alto grado.

4
Econ. Paulo Roberto Chahuara Vargas LAMBDA

- Tercero: El objetivo de esta etapa es determinar qué variables son responsables que aparezca la
multicolonealidad. Así, de la regresión escogida en la etapa anterior, se calcula la matriz de coeficientes
de correlación parcial entre las variables explicativas y se escogerá el más alto de ellos. Luego se hace
un test “t”.

𝐻0 : 𝑟𝑚á𝑥 = 0 𝑉𝑆 𝐻1 : 𝑟𝑚á𝑥 ≠ 0 . EL estadístico:

𝑟𝑚á𝑥 √𝑛 − 𝑘
𝑇= ~𝑡(𝑛−𝑘)
2
√1 − 𝑟𝑚𝑎𝑥

Si se rechaza H0 a favor de H1 entonces existe un problema de multicolonealidad.

6. SOLUCIONES

 Aumentar n (incorporar más datos).


 Formalizar la relación entre las variables explicativas (ecuaciones simultaneas).
 Omitir la variable colineal. Cuando la multicolinealidad es exacta, esta solución es perfecta. Cuando
la multicolinealidad es de grado, se incurre en un riesgo al usar esta solución.
 Transformar las variables. Si las variables explicativas tienen una tendencia común en el tiempo y
por ello están altamente correlacionadas, existen transformaciones en los datos que eliminan esta
tendencia común. Una transformación habitual es trabajar con tasas de variación en lugar de con
datos en nivel.
 Regresión por crestas o uso de componentes principales.
 Dejar las cosas como están (recomendación de Klein)

Nota:

𝑦𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖1 + 𝛽̂2 𝑥𝑖2 + ⋯ + 𝛽̂𝑘 𝑥𝑖𝑘 + 𝑒𝑖 con 𝑖 = 1, … , 𝑛


𝑛

𝑀𝑖𝑛 ∑(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖1 − ⋯ − 𝛽̂𝑘 𝑥𝑖𝑘 )2


𝑖=1
𝜕𝑦𝑖
⁄ ̂ =0
𝜕𝛽𝑘
𝑛

∑(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖1 − ⋯ − 𝛽̂𝑘 𝑥𝑖𝑘 ) = 0


𝑖=1
𝑛

∑ 𝑥𝑖1 (𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖1 − ⋯ − 𝛽̂𝑘 𝑥𝑖𝑘 ) = 0


𝑖=1
𝑛

∑ 𝑥𝑖2 (𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖1 − ⋯ − 𝛽̂𝑘 𝑥𝑖𝑘 ) = 0


𝑖=1

𝑛

∑ 𝑥𝑖𝑘 (𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖1 − ⋯ − 𝛽̂𝑘 𝑥𝑖𝑘 ) = 0


𝑖=1

5
Econ. Paulo Roberto Chahuara Vargas LAMBDA

Regresión Parcializada

𝑥𝑖1 = 𝜃̂0 + 𝜃̂1 𝑥𝑖2 + ⋯ + 𝜃̂𝑘 𝑥𝑖𝑘 + 𝑟̂𝑖1 = 𝑥̂𝑖1 + 𝑟̂𝑖1 con 𝑖 = 1, … , 𝑛
𝑛

𝑀𝑖𝑛 ∑(𝑥𝑖1 − 𝜃̂0 − 𝜃̂1 𝑥𝑖2 − ⋯ − 𝜃̂𝑘 𝑥𝑖𝑘 )2


𝑖=1
𝜕𝑥𝑖1
⁄ ̂ =0
𝜕𝜃𝑘
𝑛

∑(𝑥𝑖1 − 𝜃̂0 − 𝜃̂1 𝑥𝑖2 − ⋯ − 𝜃̂𝑘 𝑥𝑖𝑘 ) = 0


𝑖=1
𝑛

∑ 𝑥𝑖2 (𝑥𝑖1 − 𝜃̂0 − 𝜃̂1 𝑥𝑖2 − ⋯ − 𝜃̂𝑘 𝑥𝑖𝑘 ) = 0


𝑖=1

𝑛

∑ 𝑥𝑖𝑘 (𝑦𝑖 − 𝜃̂0 − 𝜃̂1 𝑥𝑖2 − ⋯ − 𝜃̂𝑘 𝑥𝑖𝑘 ) = 0


𝑖=1

Ahora;
𝑛

∑ 𝑥𝑖1 (𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖1 − ⋯ − 𝛽̂𝑘 𝑥𝑖𝑘 ) = 0


𝑖=1
𝑛

∑(𝑥̂𝑖1 + 𝑟̂𝑖1 )(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖1 − ⋯ − 𝛽̂𝑘 𝑥𝑖𝑘 ) = 0


𝑖=1

Pero ∑𝑛𝑖=1 𝑥̂𝑖1 𝑒𝑖 = ∑𝑛𝑖=1(𝜃̂0 + 𝜃̂1 𝑥𝑖2 )𝑒𝑖 = 𝜃̂0 ∑𝑛𝑖=1 𝑒𝑖 + 𝜃̂1 ∑𝑛𝑖=1 𝑥𝑖2 𝑒𝑖 = 0
𝑛

∑ 𝑟̂𝑖1 (𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖1 − ⋯ − 𝛽̂𝑘 𝑥𝑖𝑘 ) = 0


𝑖=1

Pero
𝑛

−𝛽̂0 ∑ 𝑟̂𝑖1 = 0
𝑖=1
−𝛽̂2 ∑𝑛𝑖=1 𝑟̂𝑖1 𝑥𝑖2 =0

−𝛽̂𝑘 ∑𝑛𝑖=1 𝑟̂𝑖1 𝑥𝑖𝑘 =0
𝑛

∑ 𝑟̂𝑖1 (𝑦𝑖 − 𝛽̂1 𝑥𝑖1 ) = 0


𝑖=1

Pero 𝑥𝑖1 = 𝑥̂𝑖1 + 𝑟̂𝑖1 → ∑𝑛𝑖=1 𝑟̂𝑖1 𝑥̂𝑖1 → ∑𝑛𝑖=1(𝜃̂0 + 𝜃̂1 𝑥𝑖2 )𝑟̂𝑖1 = 𝜃̂0 ∑𝑛𝑖=1 𝑟̂𝑖1 + 𝜃̂1 ∑𝑛𝑖=1 𝑥𝑖2 𝑟̂𝑖1 = 0

6
Econ. Paulo Roberto Chahuara Vargas LAMBDA

∑ 𝑟̂𝑖1 (𝑦𝑖 − 𝛽̂1 𝑟̂𝑖1 ) = 0


𝑖=1
∑𝑛𝑖=1 𝑟̂𝑖1 𝑦𝑖
𝛽̂1 =
∑𝑛𝑖=1 𝑟̂𝑖1 2

Los residuos 𝑟̂𝑖1 son la parte de 𝑥𝑖1 que no se correlaciona con 𝑥𝑖2 . Otra forma de decirlo es que 𝑟̂𝑖1 es
𝑥𝑖1 cuando se ha parcializado o extraído el efecto de 𝑥𝑖2 . Así, 𝛽̂1 mide la relación muestral entre 𝑦𝑖 y 𝑥𝑖1
después de parcializar 𝑥𝑖2 .

Pero

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + ⋯ + 𝛽𝑘 𝑥𝑖𝑘 + 𝑢𝑖

Con lo que

∑𝑛𝑖=1 𝑟̂𝑖1 𝑢𝑖
𝛽̂1 = 𝛽1 +
∑𝑛𝑖=1 𝑟̂𝑖1 2
2
∑𝑛𝑖=1 𝑟̂𝑖1 𝑣𝑎𝑟(𝑢𝑖 ) 𝜎2 𝜎2
𝑣𝑎𝑟(𝛽̂1 ) = = =
[∑𝑛𝑖=1 𝑟̂𝑖1 2 ]
2
∑𝑛𝑖=1 𝑟̂𝑖1 2 𝑆𝑇𝐶1 (1 − 𝑅12 )

𝜎2
𝑣𝑎𝑟(𝛽̂𝑗 ) =
[(1 − 𝑅𝑗2 )𝑆𝑗𝑗 ]

En donde 𝑅12 es el 𝑅 2 de regresar 𝑋1 en todas las restantes variables explicativas, y 𝑆𝑇𝐶1 = 𝑆𝑗𝑗 =
2
∑𝑛𝑖=1(𝑋𝑗𝑖 − 𝑋̅𝑗 )

También podría gustarte