Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MULTICOLINEALIDAD
INTRODUCCIÓN
1. CONCEPTO DE MULTICOLINEALIDAD
2. TIPOS DE MULTICOLINEALIDAD
3. IDENTIFICACIÓN
4. TRATAMIENTO
RESUMEN Y CONCLUSIONES
CUESTIONES
98 MÍNIMOS CUADRADOS ORDINARIOS
INTRODUCCIÓN
Una de las hipótesis del modelo de regresión, referida a las variables explicativas,
decía que éstas no debían estar relacionadas entre sí. Cuando esto sucede, se dice
que el modelo presenta problemas de multicolinealidad. Sus consecuencias,
estimaciones poco adecuadas tanto de los parámetros del modelo como de la
desviación típica de la perturbación. Esto conlleva hechos paradójicos, como que los
parámetros no sean significativos pero que el modelo sea adecuado (o a la inversa),
o que las variables sean explicativas o dejen de serlo dependiendo del orden en que
se introduzcan al realizar los cálculos.
1. CONCEPTO DE MULTICOLINEALIDAD
Cuando dos o más variables explicativas están relacionadas entre sí, o toman
valores semejantes (proporcionales) en la muestra observada, entonces se tiene
una situación de multicolinealidad en el modelo.
Figura 4.1: Relación existente entre dos variables. En el caso (a) no existe relación entre ellas, todo
lo contrario de lo que ocurre en (b) donde la relación es perfecta. Por último en (c) se presenta el caso
más habitual, en que las variables tienen cierto grado de relación.
habitual, en el que una variable (Y) esta relacionada con otra (X), aunque esa
relación no es perfecta (total) y la variable X sólo permite explicar en parte a la
variable Y, explicación que aparece representada como la parte común rallada.
Figura 4.2: Las variables explicativas pueden estar relacionadas entre sí (a), y eso hace que la
contribución de cada una a explicar Y sea diferente según el orden en que se han introducido, como
lo indican las zona ralladas en (b) y (c).
El primer caso (Figura 4.2a) y continuando con el ejemplo, corresponde a las dos
variables explicativas, la Renta (X1) y la Riqueza (X2), ambas relacionadas entre sí,
y que contribuyen a explicar en gran medida a la variable Consumo (Y). La
aportación de X1 es relativamente grande, aunque se ve que parte de lo explicado
por ella está también explicado por la variable X2. El circulo de Y representa su
variabilidad, medida por ejemplo como la suma de cuadrados (SCT), con lo que la
parte sombreada podría identificarse como la suma de cuadrados explicada (SCE),
y el resto (en blanco) como la suma de cuadrados del residuo (SCR).
H0 Xi no es explicativa
H1 Xi si es explicativa
Si º la variable no es explicativa
Ejemplo 4.1 En el año 2000 se hizo un estudio en España sobre las bibliotecas existentes y su
funcionamiento. Entre las variables estudiadas se encuentran los GASTOS corrientes, el PERSONAL
contratado y las ADQUISICIONES de fondos para la biblioteca. En la TABLA 4.1 se recogen los
resultados correspondientes a la Comunidad Valenciana, donde los GASTOS corrientes se miden en
miles de pesetas, y las ADQUISICIONES y PERSONAL en unidades.
Tabla 4.1: Gastos corrientes, número de adquisiciones y personal que trabaja en cada uno de los
distintos tipos de biblioteca existentes.
Se desea explicar los GASTOS que se producen en las bibliotecas a través de las
ADQUISICIONES de fondos y del PERSONAL contratado, según el siguiente modelo
102 MÍNIMOS CUADRADOS ORDINARIOS
2. TIPOS DE MULTICOLINEALIDAD
y no existe una solución única (lo que nos interesa), sino infinitas soluciones
(estimaciones) que cumplen:
Ahora bien, si se sustituye la relación que liga a las variables X1 y a X2, el modelo
puede volver a escribirse, ahora de la forma:
Los modelos:
implica que es posible invertir la matriz X’X y las estimaciones MCO de los
parámetros siguen siendo lineales insesgadas óptimas. Sin embargo las varianzas
y covarianzas aumentan al hacerlo la multicolinealidad.
3. IDENTIFICACIÓN
No existe una forma definitiva ni superior a las demás para detectar la existencia
de multicolinelidad. Por ello, para identificar la multicolinealidad se describen en este
apartado dos métodos, de entre los muchos propuestos con este fin:
Aunque tal vez pudiera pensarse que con esta matriz sería posible detectar la
multicolinealidad, en realidad esto no es así. Esta matriz cuantifica la relación entre
parejas de variables explicativas, pero no relaciones más amplias, como que una
variable explicativa X1 este relacionada con dos o más variables explicativas
restantes. En estos casos el porcentaje total explicado de dicha variable explicativa
X1 es la acumulación de los porcentajes explicados por cada una de las variables
104 MÍNIMOS CUADRADOS ORDINARIOS
con la que está relacionada, que individualmente pueden ser pequeños, y que en
la matriz R no hubieran llamado la atención.
Autoevaluación 4.3:¿Cuanto puede valer R2i-resto como máximo para admitir que no existe
multicolinealidad?. ¿Cuál es el valor del coeficiente de correlación en ese caso?. Si se
considera que cuando ρ=0'8 la relación lineal es importante, ¿cuál es el valor de Rii-1?.
El primer método para comprobar la existencia del problema es obtener la matriz de correlación de
las variables explicativas e invertirla. Tenemos el criterio de que si los elementos de la diagonal
principal de la inversa de dicha matriz son mayores que un cierto valor escogido (10 en los libros),
entonces se admite la existencia de multicolinealidad. Los cálculos de las matrices se presentan en
los Cuadros 4.1 y 4.2.
MATRIZ DE CORRELACIÓN
-------------------------------------
ADQUISICIONES PERSONAL
ADQUISICIONES 1 0,98300
PERSONAL 0,98300 1
-------------------------------------
En la diagonal principal se tiene que = 29'6778 > 10, y por lo tanto se admite que existe
multicolinealidad, aunque en el caso de dos variables explicativas no es necesario invertir la matriz,
MULTICOLINEALIDAD 105
pues bastaría con observar que el coeficiente de correlación lineal es 0'98300 y es un valor muy
elevado.
(I.C. $ 1)
donde los valores λmax y λmin, son los valores propios (autovalores) máximo y mínimo,
respectivamente, de la matriz de correlación R o de la matriz X'X.
Autoevaluación 4.5: ¿Cuál es el valor para la prueba?. ¿Por qué tienen esos valores
limite?.
Autoevaluación 4.6: ¿Por qué tiene que ser 20 ó 30 veces más grande uno que otro para
indicar la multicolinealidad?.
Pese a que ya sabemos que existe multicolinealidad en el modelo, vamos a realizar el ajuste de la
siguiente relación lineal entre las variables. Los resultados se recogen en el Cuadro 4.4.
Ninguna de las estimaciones de los parámetros es significativa (P-Value > 0.05), aunque el modelo
si que lo es, y además explica el 85'22% de la variabilidad de los GASTOS, lo cual es totalmente
absurdo, y una indicación más de que existe multicolinealidad.
MULTICOLINEALIDAD 107
Si tratamos de separar la suma de cuadrados explicada en las aportaciones de cada una de las variables
explicativas, tendremos que las variables son significativas dependiendo del orden en que se han
introducido, como se aprecia en los Cuadros 4.5 y 4.6. Esto es sencillo de explicar si recordamos la
Figura 4.3 y tenemos en cuenta que el coeficiente de correlación de las variables explicativas es de
0'9830.
También hay que destacar que las sumas de cuadrados explicadas por las variables, en el caso de que
estuvieran solas en el modelo serían (de los cuadros anteriores):
ADQUISICIONES 5'14343E12
PERSONAL 4'65789E12
4. TRATAMIENTO
En primer lugar, y dado que este problema afecta a los datos, la mejor manera
de eliminar la multicolinealidad es en la propia toma de valores de las variables. Se
debe hacer que X'X sea diagonal, y si esto no es posible, entonces la "solución" del
problema puede ser :
Hay que señalar que ninguno de los métodos presentados anteriormente (y los
no presentados) resultan definitivos para eliminar la multicolinealidad del modelo.
Los motivos de ello se expondrán junto a la explicación de cada uno de los métodos,
cuestiones que se presentarán en los siguientes apartados, haciendo especial
mención de los métodos de las componentes principales y de la eliminación de
parámetros, y presentando someramente los restantes a efectos de que se tengan
referencias de ellos.
(a) (b)
Figura 4.4: Los puntos se distribuyen en una elipse, ocupando los cuadrantes primero y tercero (a),
pero si se produce un cambio de ejes (b), entonces es posible apreciar que no existe relación entre
las nuevas variables.
Por el método de las componentes principales es posible crear otras dos variables, Componente1 y
Componente2, que son independientes entre sí. En la primera tabla del Cuadro 4.7 (Table of
Component Weights) se muestra la participación de cada variable explicativa en las nuevas
componentes. Así Componente1 está formada por la suma ponderada de ambas variables explicativas,
con las ponderaciones 0,999993 y 0,00384509.
Componente1 = 0,999993*ADQUISICIONES+0,00384509*PERSONAL
Ahora podría realizarse el ajuste con las dos nuevas variables (Cuadro 4.8), aunque en realidad
bastaría con utilizar la componente que proviene del primer autovalor, que es el mayor.
110 MÍNIMOS CUADRADOS ORDINARIOS
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 5,14343E12 1 5,14343E12 28,89 0,0017
Residual 1,06832E12 6 1,78053E11
-----------------------------------------------------------------------------
Total (Corr.) 6,21175E12 7
Para decidir qué variables se eliminan del modelo, se debe utilizar el coeficiente
de correlación múltiple R-1 y no los valores del estadístico t de la prueba de hipótesis
de los parámetros.
ajustamos, y tenemos las estimaciones restringidas en donde todos los P-Value (Cuadro 4.9) son
menores de 0'05, consiguiéndose un 82'8016% de explicación de la variabilidad del CONSUMO y
el coeficiente de determinación corregido vale 0'828016. Hay que hacer constar que la estimación se
ha realizado con el modelo centrado.
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 5,14343E12 1 5,14343E12 33,70 0,0007
Residual 1,06832E12 7 1,52617E11
-----------------------------------------------------------------------------
Total 6,21175E12 8
Debemos hacer la prueba F para aceptar o rechazar que los estimadores restringidos son mejores que
los MCO (H0). La prueba dice que si entonces es mejor el restringido.
En primer lugar se rehace el ajuste del modelo completo sin término constante, obteniendo los
resultados que se muestran en el Cuadro 4.10.
112 MÍNIMOS CUADRADOS ORDINARIOS
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 5,29372E12 2 2,64686E12 17,30 0,0032
Residual 9,18027E11 6 1,53004E11
-----------------------------------------------------------------------------
Total 6,21175E12 8
R-squared = 85,2211 percent
R-squared (adjusted for d.f.) = 82,758 percent
y se acepta H0.
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 4,65789E12 1 4,65789E12 20,98 0,0025
Residual 1,55386E12 7 2,2198E11
-----------------------------------------------------------------------------
Total 6,21175E12 8
A diferencia del modelo anterior la explicación conseguida es 74'98% (82'80%), pero como ya
sabemos, el coeficiente de determinación corregido es mejor para comparar los modelos, 0'7498 frente
a 0'8280 anteriormente.
Autoevaluación 4.7: Comprobar que este segundo modelo restringido también es mejor
que el completo, como ocurría con la variable ADQUISICIONES.
MULTICOLINEALIDAD 113
con lo que se tiene una nueva variable a explicar Y’ y ahora es posible estimar el
resto de los parámetros.
RESUMEN Y CONCLUSIONES
1. Una de las hipótesis del modelo de regresión es que las variables explicativas
no estaban relacionadas linealmente entre sí. Cuando esto ocurre se tiene un
problema de multicolinealidad, si bien esta es un problema de los datos más
que del modelo propuesto.
CUESTIONES
a) Indicar qué parámetros son estimables y cuáles no lo son, así como si son
insesgados y de varianza mínima.
b) Supongamos que conocemos el valor del parámetro β3. Indicar si esta
información adicional variaría las conclusiones del apartado a).
multicolinealidad?.