Multicolinealidad

UNIDAD TEMÁTICA 04
MULTICOLINEALIDAD
INTRODUCCIÓN
1. CONCEPTO DE MULTICOLINEALIDAD
2. TIPOS DE MULTICOLINEALIDAD
3. IDENTIFICACIÓN
4. TRATAMIENTO
RESUMEN Y CONCLUSIONES
CUESTIONES
98 MÍNIMOS CUADRADOS ORDINARIOS
INTRODUCCIÓN
Una de las hipótesis del modelo de regresión, referida a las variables explicativas,
decía que éstas no debían estar relacionadas entre sí. Cuando esto sucede, se dice
que el modelo presenta problemas de multicolinealidad. Sus consecuencias,
estimaciones poco adecuadas tanto de los parámetros del modelo como de la
desviación típica de la perturbación. Esto conlleva hechos paradójicos, como que los
parámetros no sean significativos pero que el modelo sea adecuado (o a la inversa),
o que las variables sean explicativas o dejen de serlo dependiendo del orden en que
se introduzcan al realizar los cálculos.
En esta unidad temática se va a estudiar el problema de la multicolinealidad,

comenzando por una explicación de la naturaleza del problema en los dos primeros
apartados, siguiendo por las pruebas para su detección en el tercer apartado, y
terminando por la forma de modificar el modelo para estimar los parámetros, en el
cuarto y último apartado.
1. CONCEPTO DE MULTICOLINEALIDAD
Cuando dos o más variables explicativas están relacionadas entre sí, o toman
valores semejantes (proporcionales) en la muestra observada, entonces se tiene
una situación de multicolinealidad en el modelo.
En primer lugar la multicolinealidad se dará cuando existan relaciones lineales,

exactas o no, entre las variables explicativas del modelo. Éste es el caso, por
ejemplo, de las variables Renta Re y la Riqueza Familiar Ri en el siguiente modelo
para explicar el consumo:
ya que la Riqueza Familiar esta relacionada, evidentemente, con la Renta.
En segundo lugar, la multicolinealidad se dará también en el caso de que exista

una proporcionalidad entre los valores de las variables explicativas, sin haber
realmente una relación entre ellas. El problema surge de una mala asignación de los
valores de las variables explicativas en el experimento a realizar, aunque éste no
suele ser el caso más habitual en el análisis económico, dado que los valores
utilizados vienen impuestos por la actividad económica. No obstante, en los modelos
microeconómicos puede darse este tipo de relaciones. Por ejemplo, si se estudia el
absentismo laboral separando las horas perdidas en función de los departamentos,
puede darse una cierta proporcionalidad entre las horas perdidas por existir
proporcionalidad entre los tamaños de los departamentos.
Si existiendo multicolinealidad se realizara un ajuste, los efectos más destacables

y desconcertantes son que las estimaciones de los parámetros obtenidos son
MULTICOLINEALIDAD 99
globalmente muy significativas, pero ocurre que individualmente no lo son (o

viceversa), y también ocurre que las variables son o dejan de ser explicativas según
el orden en que se han introducido en el modelo (en el ordenador).
La multicolinealidad es un problema porque ésta afecta tanto a las estimaciones

de los parámetros como a la varianza de la perturbación, y por lo tanto falsea las
pruebas de hipótesis para comprobar si son significativos.
La multicolinealidad hace que las varianzas de los parámetros MCO

estimados aumenten de forma drástica con el aumento de la multicolinealidad.
Esto puede llevar a rechazar un parámetro como significativo cuando en
realidad sí lo es (estadístico t muy pequeño).
La existencia de covarianza entre las variables explicativas implica una

mayor covarianza entre las estimaciones bi. Además, al estar correlacionadas,
el valor de bi influye sobre bj. Por ejemplo, si existe correlación positiva de X,
y b2 es menor que β2 entonces la estimación b3 es mayor que β3. Además,
pequeñas variaciones en los datos producen variaciones sustanciales del valor
de las estimaciones de los parámetros.
Al existir multicolinealidad, puede ocurrir que al realizar la descomposición del

ANOVA y obtener la aportación de cada una de las variables explicativas, resulte
que éstas sean significativas dependiendo del orden en que son introducidas en el
modelo. Para entender lo que ocurre se pueden ver las siguientes figuras:
(a) (b) (c)
Figura 4.1: Relación existente entre dos variables. En el caso (a) no existe relación entre ellas, todo
lo contrario de lo que ocurre en (b) donde la relación es perfecta. Por último en (c) se presenta el caso
más habitual, en que las variables tienen cierto grado de relación.
En la Figura 4.1 se representa la relación existente entre dos variables, X e Y. Al

estar separadas (Figura 4.1a) significa que ambas no están relacionadas entre sí,
todo lo contrario que la Figura 4.1b, en la que se muestra el caso en que ambas
están perfectamente relacionadas. La Figura 4.1c corresponde a la situación más
habitual, en el que una variable (Y) esta relacionada con otra (X), aunque esa
relación no es perfecta (total) y la variable X sólo permite explicar en parte a la
variable Y, explicación que aparece representada como la parte común rallada.
En el caso de que se dispongan de dos o más variables explicativas, las

siguientes figuras pueden permitir observar lo que ocurre con ellas, y cómo
contribuye cada variable a explicar la variabilidad de Y.
(a) (b) (c)
Figura 4.2: Las variables explicativas pueden estar relacionadas entre sí (a), y eso hace que la
contribución de cada una a explicar Y sea diferente según el orden en que se han introducido, como
lo indican las zona ralladas en (b) y (c).
El primer caso (Figura 4.2a) y continuando con el ejemplo, corresponde a las dos
variables explicativas, la Renta (X1) y la Riqueza (X2), ambas relacionadas entre sí,
y que contribuyen a explicar en gran medida a la variable Consumo (Y). La
aportación de X1 es relativamente grande, aunque se ve que parte de lo explicado
por ella está también explicado por la variable X2. El circulo de Y representa su
variabilidad, medida por ejemplo como la suma de cuadrados (SCT), con lo que la
parte sombreada podría identificarse como la suma de cuadrados explicada (SCE),
y el resto (en blanco) como la suma de cuadrados del residuo (SCR).
La Figura 4.2b mostraría lo que ocurre cuando se trata de descomponer la suma

de cuadrados explicada en la aportación de cada una de las dos variables. Si la
primera variable introducida al realizar el cálculo es la variable X1, resulta que le
corresponde una suma de cuadrados (SCEX1) que es el área con trazos verticales.
El resto, en trazo horizontal, corresponde a la suma de cuadrados (SCEX2) de la
variable X2. Dado que la suma de cuadrados explicada por X2 es tan pequeña, al
hacer la prueba F para comprobar si es explicativa, la conclusión sería que no lo es.
Existe una prueba basada en el estadístico F para determinar directamente si una

variable Xi es explicativa o no lo es, en vez de hacerlo indirectamente a través del
parámetro β que la acompaña.
H0 Xi no es explicativa
H1 Xi si es explicativa
Si º la variable no es explicativa
En la Figura 4.2c se ha descompuesto la suma de cuadrados explicada utilizando

en primer lugar la variable Riqueza (X2). Ahora la parte de trazos horizontales es
bastante más grande, lo que llevaría a aceptar que Riqueza (X2) es significativa, y
dadas las proporciones de las áreas, también la Renta (X1) podría resultar
significativa.
Autoevaluación 4.1:Si el cociente SCE/SCT es el porcentaje de variabilidad de la variable

estudiada explicado por el modelo, ¿el cociente SCEXi/SCT es el porcentaje de variabilidad
de la variable estudiada explicado por la variable explicativa Xi?.
Ejemplo 4.1 En el año 2000 se hizo un estudio en España sobre las bibliotecas existentes y su
funcionamiento. Entre las variables estudiadas se encuentran los GASTOS corrientes, el PERSONAL
contratado y las ADQUISICIONES de fondos para la biblioteca. En la TABLA 4.1 se recogen los
resultados correspondientes a la Comunidad Valenciana, donde los GASTOS corrientes se miden en
miles de pesetas, y las ADQUISICIONES y PERSONAL en unidades.
Tabla 4.1: Gastos corrientes, número de adquisiciones y personal que trabaja en cada uno de los
distintos tipos de biblioteca existentes.
TIPO GASTOS ADQUISICIONES PERSONAL

Otras importantes no especializadas 731016 44469 118
Públicas 2352338 224548 954
Generales 2137223 212363 789
Otras públicas 215115 12185 165
Instituciones de enseñanza superior 2089013 114969 424
Universitarias 2060572 111789 409
No universitarias 28441 3180 15
Especializadas 999219 73876 284
Fuente: INE, base de datos INEbase
Se desea explicar los GASTOS que se producen en las bibliotecas a través de las
ADQUISICIONES de fondos y del PERSONAL contratado, según el siguiente modelo
2. TIPOS DE MULTICOLINEALIDAD
Según se ha visto en la definición, existe multicolinealidad si las variables

explicativas están relacionadas entre sí o toman valores semejantes en la muestra
observada. Según el grado de relación existente entre ellas, se pueden distinguir
dos clases de multicolinealidad:
- Relación exacta (multicolinealidad exacta).
- Relación aproximada (casi multicolinealidad).
2.1. MULTICOLINEALIDAD EXACTA
La multicolinealidad exacta se produce cuando las variables explicativas tienen

una relación exacta entre sí, como por ejemplo que las variables explicativas X1 y
X2 están relacionadas de forma exacta (X2 = α X1). Entonces, si el modelo tiene la
forma
entonces no es posible invertir (X'X) y por lo tanto obtener la estimación de los

parámetros
y no existe una solución única (lo que nos interesa), sino infinitas soluciones
(estimaciones) que cumplen:
Ahora bien, si se sustituye la relación que liga a las variables X1 y a X2, el modelo
puede volver a escribirse, ahora de la forma:
que sí tiene solución única mediante los MCO.
Los modelos:
proporcionan la misma estimación de la variable explicada ( ), y es así aunque

existan infinitas estimaciones de los valores β1 y β2 del primer modelo.
2.2. CASI MULTICOLINEALIDAD
Este es el caso más frecuente cuando se tiene multicolinealidad en el modelo, y

es el que se ha expuesto en el primer apartado de la unidad temática. La casi
multicolinealidad se produce cuando las variables explicativas están relacionadas
entre sí, con una relación que no es lineal perfecta pero si bastante apreciable. Esto
implica que es posible invertir la matriz X’X y las estimaciones MCO de los
parámetros siguen siendo lineales insesgadas óptimas. Sin embargo las varianzas
y covarianzas aumentan al hacerlo la multicolinealidad.
Lo único que queda es repasar sus efectos:

- varianzas de los estimadores muy grandes.
- covarianzas de los estimadores muy grandes.
- gran sensibilidad de los valores de los coeficientes frente a pequeños
cambios en los datos.
3. IDENTIFICACIÓN
No existe una forma definitiva ni superior a las demás para detectar la existencia
de multicolinelidad. Por ello, para identificar la multicolinealidad se describen en este
apartado dos métodos, de entre los muchos propuestos con este fin:
1) Observar los valores de la matriz de correlación R y su inversa R-1.

2) Método de Belsley, Kuh y Welsch de los autovalores de las matrices X'X o R.
3.1. INVERSA DE LA MATRIZ DE CORRELACIÓN
Si el problema de la multicolinealidad es que existen relaciones lineales entre las

variables explicativas, nada mejor que el coeficiente de correlación lineal para
cuantificar dicha relación. La matriz de correlación R de las variables explicativas es
una matriz simétrica de orden k cuyo término general ij es el coeficiente de
correlación lineal simple entre las variables Xi y Xj.
Por lo tanto la matriz R tiene unos en la diagonal principal, y el resto de los

elementos son los coeficientes de correlación de cada pareja de variables
explicativas.
Autoevaluación 4.2: Si la relación observada es entre tres o más variables explicativas,

entonces ¿cómo se mide la relación?.
Aunque tal vez pudiera pensarse que con esta matriz sería posible detectar la
multicolinealidad, en realidad esto no es así. Esta matriz cuantifica la relación entre
parejas de variables explicativas, pero no relaciones más amplias, como que una
variable explicativa X1 este relacionada con dos o más variables explicativas
restantes. En estos casos el porcentaje total explicado de dicha variable explicativa
X1 es la acumulación de los porcentajes explicados por cada una de las variables
con la que está relacionada, que individualmente pueden ser pequeños, y que en
la matriz R no hubieran llamado la atención.
La inversa de la matriz de correlación, R-1, si que tiene en cuenta esa

dependencia conjunta. Los términos de la diagonal principal, Rii-1, son:
donde R 2i-resto es el coeficiente de determinación de la regresión de Xi frente al resto

de las variables explicativas. Si los valores de Rii-1 son grandes (se propone Rii-1 >10)
entonces eso quiere decir que Xi está muy relacionada con las demás, que existe
multicolinealidad.
Primer criterio: Si Rii-1 > 10 entonces existe multicolinealidad.
Autoevaluación 4.3:¿Cuanto puede valer R2i-resto como máximo para admitir que no existe
multicolinealidad?. ¿Cuál es el valor del coeficiente de correlación en ese caso?. Si se
considera que cuando ρ=0'8 la relación lineal es importante, ¿cuál es el valor de Rii-1?.
El primer método para comprobar la existencia del problema es obtener la matriz de correlación de
las variables explicativas e invertirla. Tenemos el criterio de que si los elementos de la diagonal
principal de la inversa de dicha matriz son mayores que un cierto valor escogido (10 en los libros),
entonces se admite la existencia de multicolinealidad. Los cálculos de las matrices se presentan en
los Cuadros 4.1 y 4.2.
Cuadro 4.1: Matriz de correlación de las variables explicativas.
MATRIZ DE CORRELACIÓN
-------------------------------------
ADQUISICIONES PERSONAL
ADQUISICIONES 1 0,98300
PERSONAL 0,98300 1
-------------------------------------
Cuadro 4.2: Inversa de la matriz de correlación de las variables explicativas.
INVERSA DE MATRIZ DE CORRELACIÓN

------------------------------------------
ADQUISICIONES PERSONAL
ADQUISICIONES 29,67775425 -29,17346985
PERSONAL -29,17346985 29,67775425
------------------------------------------
En la diagonal principal se tiene que = 29'6778 > 10, y por lo tanto se admite que existe
multicolinealidad, aunque en el caso de dos variables explicativas no es necesario invertir la matriz,
pues bastaría con observar que el coeficiente de correlación lineal es 0'98300 y es un valor muy
elevado.
3.2 MÉTODO DE BELSLEY, KUH y WELSCH.
Otra prueba para la detección de multicolinealidad se basa en los autovalores de

la matriz de correlación R (o de la matriz de datos X'X). Así, si es posible encontrar
un vector u y un escalar λ tales que:
entonces se dice que u es una autovector de la la matriz R y que λ es su autovalor.
Belsley, Kuh y Welsch propusieron el índice de acondicionamiento o número de

condición de la matriz R o de X'X, definido como:
(I.C. $ 1)
donde los valores λmax y λmin, son los valores propios (autovalores) máximo y mínimo,
respectivamente, de la matriz de correlación R o de la matriz X'X.
Autoevaluación 4.4: ¿Cuánto vale el cociente de los autovalores de la matriz R en el caso

de que exista independencia de las variables explicativas?
La experiencia señala que los valores de I.C.:
1 # I.C. # 10/20 no existe multicolinealidad

10/20 # I.C. # 20/30 multicolinealidad moderada
20/30 # I.C. existe multicolinealidad elevada
Segundo criterio: Si I.C. > 20/30 existen problemas de multicolinealidad.
Autoevaluación 4.5: ¿Cuál es el valor para la prueba?. ¿Por qué tienen esos valores
limite?.
El índice de condición para cada parámetro bi (o variable explicativa) se define

como
pudiendo existir más de un índice "peligroso".

El segundo método es el ÍNDICE DE ACONDICIONAMIENTO, y para utilizarlo se necesitan los

autovalores de la matriz de correlación, como aparece en el Cuadro 4.3. Calculamos el índice de
acondicionamiento, y si es menor que 10 no habrá problemas:
hay multicolinealidad moderada.
Cuadro 4.3: Autovalores de la matriz de correlación de las variables explicativas.
Principal Components Analysis

-----------------------------------------------
Component Percent of Cumulative
Number Eigenvalue Variance Percentage
1 1,98301 99,150 99,150
2 0,016992 0,850 100,000
-----------------------------------------------
Geométricamente un autovalor sería

la amplitud del eje en la elipse donde se
encuentran las parejas de valores de las
variables explicativas (Figura 4.3).
Si un autovalor es mucho mayor que el

otro, entonces la elipse aparece muy
estirada indicando relación importante
entre las variables explicativas. Si son
parecidos, entonces se tiene un círculo
más que una elipse, indicando que no
hay relación entre las variables
explicativas. Figura 4.3: Interpretación geométrica de un
autovalor
Autoevaluación 4.6: ¿Por qué tiene que ser 20 ó 30 veces más grande uno que otro para
indicar la multicolinealidad?.
Pese a que ya sabemos que existe multicolinealidad en el modelo, vamos a realizar el ajuste de la
siguiente relación lineal entre las variables. Los resultados se recogen en el Cuadro 4.4.
Ninguna de las estimaciones de los parámetros es significativa (P-Value > 0.05), aunque el modelo
si que lo es, y además explica el 85'22% de la variabilidad de los GASTOS, lo cual es totalmente
absurdo, y una indicación más de que existe multicolinealidad.
Cuadro 4.4: Ajuste de GASTOS frente a ADQUISICIONES y PERSONAL.
Multiple Regression Analysis

-----------------------------------------------------------------------------
Dependent variable: GASTOS
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 337024,0 246708,0 1,36609 0,2301
ADQUISICIONES 19,5542 10,5078 1,86093 0,1218
PERSONAL -2430,46 2686,32 -0,904754 0,4071
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 5,29372E12 2 2,64686E12 14,42 0,0084
Residual 9,18027E11 5 1,83605E11
-----------------------------------------------------------------------------
Total (Corr.) 6,21175E12 7
R-squared = 85,2211 percent R-squared (adjusted for d.f.) = 79,3096 percent
Si tratamos de separar la suma de cuadrados explicada en las aportaciones de cada una de las variables
explicativas, tendremos que las variables son significativas dependiendo del orden en que se han
introducido, como se aprecia en los Cuadros 4.5 y 4.6. Esto es sencillo de explicar si recordamos la
Figura 4.3 y tenemos en cuenta que el coeficiente de correlación de las variables explicativas es de
0'9830.
También hay que destacar que las sumas de cuadrados explicadas por las variables, en el caso de que
estuvieran solas en el modelo serían (de los cuadros anteriores):
ADQUISICIONES 5'14343E12
PERSONAL 4'65789E12
Cuadro 4.5: Descomposición de la suma de cuadrados explicada.
Further ANOVA for Variables in the Order Fitted

-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
ADQUISICIONES 5,14343E12 1 5,14343E12 28,01 0,0032 7
PERSONAL 1,50296E11 1 1,50296E11 0,82 0,4071 7
-----------------------------------------------------------------------------
Model 5,29372E12 2
Cuadro 4.6: Descomposición de la suma de cuadrados explicada.
Further ANOVA for Variables in the Order Fitted

-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
PERSONAL 4,65789E12 1 4,65789E12 25,37 0,0040 7
ADQUISICIONES 6,35836E11 1 6,35836E11 3,46 0,1218 7
-----------------------------------------------------------------------------
Model 5,29372E12 2
La suma de cuadrados correspondiente a ADQUISICIONES es ligeramente mayor, por lo que en ese

caso la suma de cuadrados del residuo sería menor y el modelo ofrecerá una mayor explicación. Se
debería optar por esta variable explicativa en el próximo modelo a plantear.
4. TRATAMIENTO
En primer lugar, y dado que este problema afecta a los datos, la mejor manera
de eliminar la multicolinealidad es en la propia toma de valores de las variables. Se
debe hacer que X'X sea diagonal, y si esto no es posible, entonces la "solución" del
problema puede ser :
1. - Método de las componentes principales.

2. - Eliminación de parámetros.
3. - Otros métodos, como la estimación a priori de los parámetros o la regresión
alomada.
Hay que señalar que ninguno de los métodos presentados anteriormente (y los
no presentados) resultan definitivos para eliminar la multicolinealidad del modelo.
Los motivos de ello se expondrán junto a la explicación de cada uno de los métodos,
cuestiones que se presentarán en los siguientes apartados, haciendo especial
mención de los métodos de las componentes principales y de la eliminación de
parámetros, y presentando someramente los restantes a efectos de que se tengan
referencias de ellos.
4.1. COMPONENTES PRINCIPALES
La técnica de las componentes principales tiene por objeto representar un

conjunto de variables observadas en un pequeño número de nuevas variables,
combinación lineal de las anteriores pero no correlacionadas entre sí.
Se transforman las k variables X en otras k variables Z con las propiedades:
- las variables Z no están relacionadas entre sí.

- la primera variable Z será la dirección más representativa del conjunto de
variables X y así sucesivamente.
Geométricamente (para dos variables explicativas) los puntos muestrales tienden

a distribuirse en una elipse, como se muestra en la Figura 4.4a. El método de las
componentes principales consiste en un cambio de ejes de forma que estos sean
ortogonales y que coincidan con las direcciones principales de la elipse, Figura 4.4b.
Así se tiene una variable Z1 de gran variabilidad, y una segunda variable, Z2, que es
independiente de la anterior y con una variabilidad menor. El problema de este
método es que las nuevas variables Z son completamente artificiales, que no se
correspondan con ninguna variable económica con sentido real.
(a) (b)
Figura 4.4: Los puntos se distribuyen en una elipse, ocupando los cuadrantes primero y tercero (a),
pero si se produce un cambio de ejes (b), entonces es posible apreciar que no existe relación entre
las nuevas variables.
Por el método de las componentes principales es posible crear otras dos variables, Componente1 y
Componente2, que son independientes entre sí. En la primera tabla del Cuadro 4.7 (Table of
Component Weights) se muestra la participación de cada variable explicativa en las nuevas
componentes. Así Componente1 está formada por la suma ponderada de ambas variables explicativas,
con las ponderaciones 0,999993 y 0,00384509.
Componente1 = 0,999993*ADQUISICIONES+0,00384509*PERSONAL
Si se opera en la expresión anterior, dando los valores correspondientes observados de ambas

variables explicativas, se tienen los valores de Componente1, tal y como aparece en la segunda tabla
(Table of Principal Components) donde se presentan los valores de las variables.
Cuadro 4.7: Cálculo de las componentes principales de ADQUISICIONES y PERSONAL.
Table of Component Weights Table of Principal Components
Component Component Component Component

1 2 Row 1 2
----------- ------------ ---- ---------- ---------
ADQUISICIONES 0,999993 -0,00384509 1 44469,1 -52,9883
PERSONAL 0,00384509 0,999993 2 224550,0 90,5849
3 212364,0 -27,5614
4 12185,5 118,146
5 114970,0 -18,0697
PCOMP_1=0,999993*ADQUISICIONES+0,00384509*PERSONAL 6 111790,0 -20,8422
PCOMP_2=0,00384509*ADQUISICIONES-0,999993*PERSONAL 7 3180,0 2,7724
8 73876,5 -0,0622
Ahora podría realizarse el ajuste con las dos nuevas variables (Cuadro 4.8), aunque en realidad
bastaría con utilizar la componente que proviene del primer autovalor, que es el mayor.
Cuadro 4.8: Ajuste de GASTOS con la única componente principal de importancia.

-----------------------------------------------------------------------------
Dependent variable: GASTOS
-----------------------------------------------------------------------------
Standard T
-----------------------------------------------------------------------------
CONSTANT 309078,0 241038,0 1,28228 0,2471
PCOMP_1 10,2088 1,89942 5,37467 0,0017
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Model 5,14343E12 1 5,14343E12 28,89 0,0017
Residual 1,06832E12 6 1,78053E11
-----------------------------------------------------------------------------
Total (Corr.) 6,21175E12 7
R-squared = 82,8017 percent

R-squared (adjusted for d.f.) = 79,9353 percent
4.2. ELIMINACIÓN DE PARÁMETROS
Una forma rápida y simple de dar solución al problema de la multicolinealidad es

eliminar del modelo las variables que estén altamente relacionadas con otras. Esto
implica que no se realiza el ajuste del modelo propuesto por la teoría económica.
Entonces obtenemos estimadores sesgados de los parámetros del modelo, pero a
cambio tenemos un error cuadrático medio más pequeño.
Para saber si es posible eliminar alguna variable explicativa, se realiza la prueba

F ya conocida, calculando el estadístico:
donde se supone que se eliminan q variables explicativas causantes del problema

de multicolinealidad.
El procedimiento para hacer la prueba es:
1- Se calcula el estadístico Fcalc, basado en la diferencia de sumas de cuadrados

de los residuos entre las regresiones restringidas SCRr y no restringidas SCRc.
2- Si se tiene que entonces se acepta la hipótesis de que los

estimadores restringidos son mejores en términos de ECM, y en caso
contrario se utilizan los estimadores no restringidos.
De todas formas la mejor manera de solucionar el problema de la

multicolinealidad sigue siendo mediante la toma de datos adecuada, ya que si bien
este método puede ser muy útil, al imponer restricciones para mejorar el ECM, estas
puede que no sean ciertas y por lo tanto no sería adecuado el modelo.
Para decidir qué variables se eliminan del modelo, se debe utilizar el coeficiente
de correlación múltiple R-1 y no los valores del estadístico t de la prueba de hipótesis
de los parámetros.
El primer modelo incluirá a la variable ADQUISICIONES únicamente:
ajustamos, y tenemos las estimaciones restringidas en donde todos los P-Value (Cuadro 4.9) son
menores de 0'05, consiguiéndose un 82'8016% de explicación de la variabilidad del CONSUMO y
el coeficiente de determinación corregido vale 0'828016. Hay que hacer constar que la estimación se
ha realizado con el modelo centrado.
Cuadro 4.9: Ajuste de GASTOS frente a las ADQUISICIONES.

-----------------------------------------------------------------------------
Dependent variable: GASTOS-AVG(GASTOS)
-----------------------------------------------------------------------------
Standard T
-----------------------------------------------------------------------------
ADQUISICIONES-AVG 10,2088 1,75854 5,80529 0,0007
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Model 5,14343E12 1 5,14343E12 33,70 0,0007
Residual 1,06832E12 7 1,52617E11
-----------------------------------------------------------------------------
Total 6,21175E12 8

Debemos hacer la prueba F para aceptar o rechazar que los estimadores restringidos son mejores que
los MCO (H0). La prueba dice que si entonces es mejor el restringido.
En primer lugar se rehace el ajuste del modelo completo sin término constante, obteniendo los
resultados que se muestran en el Cuadro 4.10.
Cuadro 4.10: Tabla ANOVA del modelo completo.
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Model 5,29372E12 2 2,64686E12 17,30 0,0032
Residual 9,18027E11 6 1,53004E11
-----------------------------------------------------------------------------
Total 6,21175E12 8
Se busca en las tablas y sustituimos los valores leídos:
y se acepta H0.
El otro modelo incluirá a la variable PERSONAL
ajustamos, y calculamos las estimaciones restringidas, mostradas en Cuadro 4.11.
Cuadro 4.11: Ajuste de GASTOS frente a PERSONAL.

-----------------------------------------------------------------------------
Dependent variable: GASTOS-AVG(GASTOS)
-----------------------------------------------------------------------------
Standard T
-----------------------------------------------------------------------------
PERSONAL-AVG(PERS 2483,66 542,193 4,58076 0,0025
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Model 4,65789E12 1 4,65789E12 20,98 0,0025
Residual 1,55386E12 7 2,2198E11
-----------------------------------------------------------------------------
Total 6,21175E12 8

A diferencia del modelo anterior la explicación conseguida es 74'98% (82'80%), pero como ya
sabemos, el coeficiente de determinación corregido es mejor para comparar los modelos, 0'7498 frente
a 0'8280 anteriormente.
Autoevaluación 4.7: Comprobar que este segundo modelo restringido también es mejor
que el completo, como ocurría con la variable ADQUISICIONES.
4.3. OTROS MÉTODOS DE ESTIMACIÓN
Como ya se ha mencionado anteriormente, no existe una manera definitiva de

eliminar la multicolinealidad, y por ello se han desarrollado multitud de métodos que
“resuelven” el problema con escaso éxito. A modo de ejemplo se presentan
brevemente dos métodos más, el de estimación a priori de los parámetros y el de
regresión alomada. En el primer método se suponen conocidos algunos parámetros
del modelo de regresión, lo cual es mucho suponer, y en el segundo se utiliza una
argucia matemática para eliminar la multicolinealidad, aunque ni el método, ni los
resultados, tienen una explicación aceptable desde un punto de vista económico.
4.3.1. ESTIMACIÓN A PRIORI DE LOS PARÁMETROS
En ocasiones se dispone de estimaciones de algunos de los parámetros del

modelo obtenidos de otros estudios relevantes e independientes (¿si?). En esos
casos es posible introducir los valores en el modelo y eliminar así el problema de la
multicolinealidad.
Partiendo del modelo habitual:
si se suponen conocidos los parámetros βr a βI, se pasan todos los sumandos

conocidos a un lado de la igualdad,
con lo que se tiene una nueva variable a explicar Y’ y ahora es posible estimar el
resto de los parámetros.
4.3.2. REGRESIÓN ALOMADA O CONTRAÍDA
La regresión alomada parte de la idea de minimizar el ECM y para ello se propone

la estimación de los parámetros del modelo mediante la expresión:
donde c >0 es una constante arbitraria.
La filosofía de este estimador es la de aumentar los valores de la diagonal

principal de X'X de forma que al invertirla los elementos que no pertenezcan a la
diagonal principal tengan valores pequeños, es decir, que las covarianzas de las
estimaciones de los parámetros sean pequeñas. El estimador alomado es sesgado,
pero las varianzas de las estimaciones br son menores que en el caso de MCO.
En resumen, la técnica de regresión alomada consiste esencialmente en un

ajuste numérico arbitrario de los datos muestrales, y al final no se sabe bien cómo
interpretar los estimaciones resultantes.
RESUMEN Y CONCLUSIONES
1. Una de las hipótesis del modelo de regresión es que las variables explicativas
no estaban relacionadas linealmente entre sí. Cuando esto ocurre se tiene un
problema de multicolinealidad, si bien esta es un problema de los datos más
que del modelo propuesto.
2. Cuando existe multicolinealidad no es posible estimar los parámetros del

modelo, o bien la estimación no resulta adecuada. Además los resultados de
las pruebas de hipótesis son contradictorios entre sí.
3. En esta unidad temática se ha analizado el problema de la multicolinealidad

y se han presentado dos pruebas para determinar su existencia. La primera
está basada en la inversa de la matriz de correlación de las variables
explicativas, y la segunda en los autovalores de su matriz de correlación.
Obviamente existen más pruebas que las presentadas aquí, pero no son
definitivas para determinar la multicolinealidad (las dos presentadas tampoco),
y por lo tanto se han obviado.
4. Como la multicolinealidad es un problema de los datos, la solución a la misma

debe provenir de los propios datos. Ahora bien, los datos “son los que son”, y
no se puede hacer nada para evitar la multicolinealidad, por lo que la teoría
propone una serie de “soluciones” a la misma. Al igual que en las pruebas para
su detección, no existe ninguna solución definitiva, y de entre las muchas
propuestas, en la presente unidad temática se han presentado las
componentes principales y la eliminación de variables explicativas.
CUESTIONES
1.- Sea un modelo formulado siguiente de la forma:
a) Indicar qué parámetros son estimables y cuáles no lo son, así como si son
insesgados y de varianza mínima.
b) Supongamos que conocemos el valor del parámetro β3. Indicar si esta
información adicional variaría las conclusiones del apartado a).
2.- ¿Qué significado tienen los elementos de la diagonal principal de la inversa de

la matriz de correlación de las variables explicativas?. Si se ha cuantificado que
Rii-1>10 para que exista alta colinealidad, ¿qué significa eso respecto a la
interpretación dada?
3.- ¿Es posible que la conclusión de la prueba de la inversa de la matriz de

correlación de variables explicativas sea diferente de la del índice de
acondicionamiento?.
4.- Se dispone del número de vehículos matriculados trimestralmente en España

(MATRICULA) y se está interesado en predecir su valor a partir de las
variables producción de vehículos (PRODVEHI), población con edad superior
a los 16 años (POBL16) y número de personas activas (ACTIVA). Dado que
es posible que exista multicolinaealidad, se desea determinar su existencia
antes de realizar el ajuste de un modelo lineal en el que se incluyan todas
ellas.
Matriz de correlación de las variables explicativas

-----------------------------------------------------------------------------
POBL16 ACTIVOS PRODVEHI
POBL16 1 0,988808 0,678097
ACTIVOS 0,988808 1 0,669848
PRODVEHI 0,678097 0,669848 1
Inversa de la matriz de correlación de las variables explicativas

-----------------------------------------------------------------------------
POBL16 ACTIVOS PRODVEHI
POBL16 45,8525 -44,4621 -1,30960
ACTIVOS -44,4621 44,92780 0,05487
PRODVEHI -1,30960 0,05487 1,85128
a) Determinar si existe multicolinealidad entre las variables explicativas mediante

el método de la inversa de la matriz de correlación de las variables explicativas.
b) ¿Cuál es la pareja de variables explicativas con mayor relación lineal entre sí?.
c) ¿Cuál es la variable explicativa que mayor relación tiene con todas las demás?.
d) ¿Cuánto vale el coeficiente de autocorrelación en ese caso?.
e) Si se opta por el método de eliminación para proponer el modelo, ¿cuál de las
variables explicativas debería eliminarse en primer lugar?. ¿Debería eliminarse
una segunda variable explicativa para tener un modelo libre de
multicolinealidad?.
5.- El modelo más simple para explicar el AHORRO PRIVADO a partir de la

RENTA es un modelo lineal, si bien es posible que la relación existente entre
ambos sea diferente en los periodos de tiempo anterior y posterior a la crisis
de 1992 ocurrida en España. Por ese motivo se crea una variable ficticia,
PERIODO, que toma el valor 0 para los años anteriores a la crisis de 1992, y
el valor 1 en los años posteriores, con lo que el modelo ajustado es:
Determinar si existen problemas de multicolinealidad en el modelo.
6.- Se pretende explicar la RECAUDACIÓN anual de los cines en España

atendiendo a la RENTA, al NÚMERO DE ESPECTADORES y al ORIGEN de
la película. Para ello se dispone de los valores de la recaudación medidos en
millones de pesetas, de la renta del país medida en billones de pesetas, del
número de espectadores medido en millones de personas, y el origen de la
película, una variable ficticia que toma el valor 0 cuando se trata de una
película Española y 1 en otro caso. Previamente a la estimación de los
parámetros del posible modelo se obtiene la inversa de la matriz de
correlaciones de las variables explicativas. Explica que problema se detecta
con esta prueba y si debería eliminar alguna variable del modelo.
Inversa de matriz de correlación de variables explicativas

-----------------------------------------------------------------------------
RENTA ESPECTADORES
RENTA 1,009288371 0,096822749
ESPECTADORES 0,096822749 1,009288371
7.- Se desea analizar la evolución del ratio de consumo de pescado congelado-

fresco (CONSUMO.PC-CONSUMO.PF, en miles de Kg) en función del precio
del pescado fresco (PRECIO.PF) en la ciudad de Valencia, teniendo en cuenta
un comportamiento anómalo del sector en el año 1998. Se ajusta el modelo:
¿Existen problemas de multicolinealidad en el modelo propuesto?.
Inversa de matriz correlación de variables explicativas

-----------------------------------------------------------------------------
CONSUMO.PF CONSUMO.PC PRECIO.PF
CONSUMO.PF 7,661173147 -2,860735351 7,533805617
CONSUMO.PC -2,860735351 2,184455238 -3,173380565
PRECIO.PF 7,533805617 -3,173380565 8,524792338

Multicolinealidad

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Multicolinealidad

Cargado por

Copyright:

Formatos disponibles

UNIDAD TEMÁTICA 04

En esta unidad temática se va a estudiar el problema de la multicolinealidad,

En primer lugar la multicolinealidad se dará cuando existan relaciones lineales,

ya que la Riqueza Familiar esta relacionada, evidentemente, con la Renta.

En segundo lugar, la multicolinealidad se dará también en el caso de que exista

Si existiendo multicolinealidad se realizara un ajuste, los efectos más destacables

globalmente muy significativas, pero ocurre que individualmente no lo son (o

La multicolinealidad es un problema porque ésta afecta tanto a las estimaciones

La multicolinealidad hace que las varianzas de los parámetros MCO

La existencia de covarianza entre las variables explicativas implica una

Al existir multicolinealidad, puede ocurrir que al realizar la descomposición del

(a) (b) (c)

En la Figura 4.1 se representa la relación existente entre dos variables, X e Y. Al

En el caso de que se dispongan de dos o más variables explicativas, las

(a) (b) (c)

La Figura 4.2b mostraría lo que ocurre cuando se trata de descomponer la suma

Existe una prueba basada en el estadístico F para determinar directamente si una

En la Figura 4.2c se ha descompuesto la suma de cuadrados explicada utilizando

Autoevaluación 4.1:Si el cociente SCE/SCT es el porcentaje de variabilidad de la variable

TIPO GASTOS ADQUISICIONES PERSONAL

Según se ha visto en la definición, existe multicolinealidad si las variables

2.1. MULTICOLINEALIDAD EXACTA

La multicolinealidad exacta se produce cuando las variables explicativas tienen

entonces no es posible invertir (X'X) y por lo tanto obtener la estimación de los

que sí tiene solución única mediante los MCO.

proporcionan la misma estimación de la variable explicada ( ), y es así aunque

2.2. CASI MULTICOLINEALIDAD

Este es el caso más frecuente cuando se tiene multicolinealidad en el modelo, y

Lo único que queda es repasar sus efectos:

1) Observar los valores de la matriz de correlación R y su inversa R-1.

3.1. INVERSA DE LA MATRIZ DE CORRELACIÓN

Si el problema de la multicolinealidad es que existen relaciones lineales entre las

Por lo tanto la matriz R tiene unos en la diagonal principal, y el resto de los

Autoevaluación 4.2: Si la relación observada es entre tres o más variables explicativas,

La inversa de la matriz de correlación, R-1, si que tiene en cuenta esa

donde R 2i-resto es el coeficiente de determinación de la regresión de Xi frente al resto

Primer criterio: Si Rii-1 > 10 entonces existe multicolinealidad.

Cuadro 4.1: Matriz de correlación de las variables explicativas.

Cuadro 4.2: Inversa de la matriz de correlación de las variables explicativas.

INVERSA DE MATRIZ DE CORRELACIÓN

3.2 MÉTODO DE BELSLEY, KUH y WELSCH.

Otra prueba para la detección de multicolinealidad se basa en los autovalores de

entonces se dice que u es una autovector de la la matriz R y que λ es su autovalor.

Belsley, Kuh y Welsch propusieron el índice de acondicionamiento o número de

Autoevaluación 4.4: ¿Cuánto vale el cociente de los autovalores de la matriz R en el caso

La experiencia señala que los valores de I.C.:

1 # I.C. # 10/20 no existe multicolinealidad

Segundo criterio: Si I.C. > 20/30 existen problemas de multicolinealidad.

El índice de condición para cada parámetro bi (o variable explicativa) se define

pudiendo existir más de un índice "peligroso".

El segundo método es el ÍNDICE DE ACONDICIONAMIENTO, y para utilizarlo se necesitan los

hay multicolinealidad moderada.

Cuadro 4.3: Autovalores de la matriz de correlación de las variables explicativas.

Principal Components Analysis

Geométricamente un autovalor sería

Si un autovalor es mucho mayor que el

Cuadro 4.4: Ajuste de GASTOS frente a ADQUISICIONES y PERSONAL.

Multiple Regression Analysis

R-squared = 85,2211 percent R-squared (adjusted for d.f.) = 79,3096 percent

Cuadro 4.5: Descomposición de la suma de cuadrados explicada.

Further ANOVA for Variables in the Order Fitted

Cuadro 4.6: Descomposición de la suma de cuadrados explicada.

Further ANOVA for Variables in the Order Fitted