Está en la página 1de 20

UNIDAD TEMÁTICA 04

MULTICOLINEALIDAD

INTRODUCCIÓN

1. CONCEPTO DE MULTICOLINEALIDAD
2. TIPOS DE MULTICOLINEALIDAD
3. IDENTIFICACIÓN
4. TRATAMIENTO

RESUMEN Y CONCLUSIONES

CUESTIONES
98 MÍNIMOS CUADRADOS ORDINARIOS

INTRODUCCIÓN

Una de las hipótesis del modelo de regresión, referida a las variables explicativas,
decía que éstas no debían estar relacionadas entre sí. Cuando esto sucede, se dice
que el modelo presenta problemas de multicolinealidad. Sus consecuencias,
estimaciones poco adecuadas tanto de los parámetros del modelo como de la
desviación típica de la perturbación. Esto conlleva hechos paradójicos, como que los
parámetros no sean significativos pero que el modelo sea adecuado (o a la inversa),
o que las variables sean explicativas o dejen de serlo dependiendo del orden en que
se introduzcan al realizar los cálculos.

En esta unidad temática se va a estudiar el problema de la multicolinealidad,


comenzando por una explicación de la naturaleza del problema en los dos primeros
apartados, siguiendo por las pruebas para su detección en el tercer apartado, y
terminando por la forma de modificar el modelo para estimar los parámetros, en el
cuarto y último apartado.

1. CONCEPTO DE MULTICOLINEALIDAD

Cuando dos o más variables explicativas están relacionadas entre sí, o toman
valores semejantes (proporcionales) en la muestra observada, entonces se tiene
una situación de multicolinealidad en el modelo.

En primer lugar la multicolinealidad se dará cuando existan relaciones lineales,


exactas o no, entre las variables explicativas del modelo. Éste es el caso, por
ejemplo, de las variables Renta Re y la Riqueza Familiar Ri en el siguiente modelo
para explicar el consumo:

ya que la Riqueza Familiar esta relacionada, evidentemente, con la Renta.

En segundo lugar, la multicolinealidad se dará también en el caso de que exista


una proporcionalidad entre los valores de las variables explicativas, sin haber
realmente una relación entre ellas. El problema surge de una mala asignación de los
valores de las variables explicativas en el experimento a realizar, aunque éste no
suele ser el caso más habitual en el análisis económico, dado que los valores
utilizados vienen impuestos por la actividad económica. No obstante, en los modelos
microeconómicos puede darse este tipo de relaciones. Por ejemplo, si se estudia el
absentismo laboral separando las horas perdidas en función de los departamentos,
puede darse una cierta proporcionalidad entre las horas perdidas por existir
proporcionalidad entre los tamaños de los departamentos.

Si existiendo multicolinealidad se realizara un ajuste, los efectos más destacables


y desconcertantes son que las estimaciones de los parámetros obtenidos son
MULTICOLINEALIDAD 99

globalmente muy significativas, pero ocurre que individualmente no lo son (o


viceversa), y también ocurre que las variables son o dejan de ser explicativas según
el orden en que se han introducido en el modelo (en el ordenador).

La multicolinealidad es un problema porque ésta afecta tanto a las estimaciones


de los parámetros como a la varianza de la perturbación, y por lo tanto falsea las
pruebas de hipótesis para comprobar si son significativos.

La multicolinealidad hace que las varianzas de los parámetros MCO


estimados aumenten de forma drástica con el aumento de la multicolinealidad.
Esto puede llevar a rechazar un parámetro como significativo cuando en
realidad sí lo es (estadístico t muy pequeño).

La existencia de covarianza entre las variables explicativas implica una


mayor covarianza entre las estimaciones bi. Además, al estar correlacionadas,
el valor de bi influye sobre bj. Por ejemplo, si existe correlación positiva de X,
y b2 es menor que β2 entonces la estimación b3 es mayor que β3. Además,
pequeñas variaciones en los datos producen variaciones sustanciales del valor
de las estimaciones de los parámetros.

Al existir multicolinealidad, puede ocurrir que al realizar la descomposición del


ANOVA y obtener la aportación de cada una de las variables explicativas, resulte
que éstas sean significativas dependiendo del orden en que son introducidas en el
modelo. Para entender lo que ocurre se pueden ver las siguientes figuras:

(a) (b) (c)

Figura 4.1: Relación existente entre dos variables. En el caso (a) no existe relación entre ellas, todo
lo contrario de lo que ocurre en (b) donde la relación es perfecta. Por último en (c) se presenta el caso
más habitual, en que las variables tienen cierto grado de relación.

En la Figura 4.1 se representa la relación existente entre dos variables, X e Y. Al


estar separadas (Figura 4.1a) significa que ambas no están relacionadas entre sí,
todo lo contrario que la Figura 4.1b, en la que se muestra el caso en que ambas
están perfectamente relacionadas. La Figura 4.1c corresponde a la situación más
100 MÍNIMOS CUADRADOS ORDINARIOS

habitual, en el que una variable (Y) esta relacionada con otra (X), aunque esa
relación no es perfecta (total) y la variable X sólo permite explicar en parte a la
variable Y, explicación que aparece representada como la parte común rallada.

En el caso de que se dispongan de dos o más variables explicativas, las


siguientes figuras pueden permitir observar lo que ocurre con ellas, y cómo
contribuye cada variable a explicar la variabilidad de Y.

(a) (b) (c)

Figura 4.2: Las variables explicativas pueden estar relacionadas entre sí (a), y eso hace que la
contribución de cada una a explicar Y sea diferente según el orden en que se han introducido, como
lo indican las zona ralladas en (b) y (c).

El primer caso (Figura 4.2a) y continuando con el ejemplo, corresponde a las dos
variables explicativas, la Renta (X1) y la Riqueza (X2), ambas relacionadas entre sí,
y que contribuyen a explicar en gran medida a la variable Consumo (Y). La
aportación de X1 es relativamente grande, aunque se ve que parte de lo explicado
por ella está también explicado por la variable X2. El circulo de Y representa su
variabilidad, medida por ejemplo como la suma de cuadrados (SCT), con lo que la
parte sombreada podría identificarse como la suma de cuadrados explicada (SCE),
y el resto (en blanco) como la suma de cuadrados del residuo (SCR).

La Figura 4.2b mostraría lo que ocurre cuando se trata de descomponer la suma


de cuadrados explicada en la aportación de cada una de las dos variables. Si la
primera variable introducida al realizar el cálculo es la variable X1, resulta que le
corresponde una suma de cuadrados (SCEX1) que es el área con trazos verticales.
El resto, en trazo horizontal, corresponde a la suma de cuadrados (SCEX2) de la
variable X2. Dado que la suma de cuadrados explicada por X2 es tan pequeña, al
hacer la prueba F para comprobar si es explicativa, la conclusión sería que no lo es.

Existe una prueba basada en el estadístico F para determinar directamente si una


variable Xi es explicativa o no lo es, en vez de hacerlo indirectamente a través del
parámetro β que la acompaña.
MULTICOLINEALIDAD 101

H0 Xi no es explicativa
H1 Xi si es explicativa

Si º la variable no es explicativa

En la Figura 4.2c se ha descompuesto la suma de cuadrados explicada utilizando


en primer lugar la variable Riqueza (X2). Ahora la parte de trazos horizontales es
bastante más grande, lo que llevaría a aceptar que Riqueza (X2) es significativa, y
dadas las proporciones de las áreas, también la Renta (X1) podría resultar
significativa.

Autoevaluación 4.1:Si el cociente SCE/SCT es el porcentaje de variabilidad de la variable


estudiada explicado por el modelo, ¿el cociente SCEXi/SCT es el porcentaje de variabilidad
de la variable estudiada explicado por la variable explicativa Xi?.

Ejemplo 4.1 En el año 2000 se hizo un estudio en España sobre las bibliotecas existentes y su
funcionamiento. Entre las variables estudiadas se encuentran los GASTOS corrientes, el PERSONAL
contratado y las ADQUISICIONES de fondos para la biblioteca. En la TABLA 4.1 se recogen los
resultados correspondientes a la Comunidad Valenciana, donde los GASTOS corrientes se miden en
miles de pesetas, y las ADQUISICIONES y PERSONAL en unidades.

Tabla 4.1: Gastos corrientes, número de adquisiciones y personal que trabaja en cada uno de los
distintos tipos de biblioteca existentes.

TIPO GASTOS ADQUISICIONES PERSONAL


Otras importantes no especializadas 731016 44469 118
Públicas 2352338 224548 954
Generales 2137223 212363 789
Otras públicas 215115 12185 165
Instituciones de enseñanza superior 2089013 114969 424
Universitarias 2060572 111789 409
No universitarias 28441 3180 15
Especializadas 999219 73876 284
Fuente: INE, base de datos INEbase

Se desea explicar los GASTOS que se producen en las bibliotecas a través de las
ADQUISICIONES de fondos y del PERSONAL contratado, según el siguiente modelo
102 MÍNIMOS CUADRADOS ORDINARIOS

2. TIPOS DE MULTICOLINEALIDAD

Según se ha visto en la definición, existe multicolinealidad si las variables


explicativas están relacionadas entre sí o toman valores semejantes en la muestra
observada. Según el grado de relación existente entre ellas, se pueden distinguir
dos clases de multicolinealidad:
- Relación exacta (multicolinealidad exacta).
- Relación aproximada (casi multicolinealidad).

2.1. MULTICOLINEALIDAD EXACTA

La multicolinealidad exacta se produce cuando las variables explicativas tienen


una relación exacta entre sí, como por ejemplo que las variables explicativas X1 y
X2 están relacionadas de forma exacta (X2 = α X1). Entonces, si el modelo tiene la
forma

entonces no es posible invertir (X'X) y por lo tanto obtener la estimación de los


parámetros

y no existe una solución única (lo que nos interesa), sino infinitas soluciones
(estimaciones) que cumplen:

Ahora bien, si se sustituye la relación que liga a las variables X1 y a X2, el modelo
puede volver a escribirse, ahora de la forma:

que sí tiene solución única mediante los MCO.

Los modelos:

proporcionan la misma estimación de la variable explicada ( ), y es así aunque


existan infinitas estimaciones de los valores β1 y β2 del primer modelo.

2.2. CASI MULTICOLINEALIDAD

Este es el caso más frecuente cuando se tiene multicolinealidad en el modelo, y


es el que se ha expuesto en el primer apartado de la unidad temática. La casi
multicolinealidad se produce cuando las variables explicativas están relacionadas
entre sí, con una relación que no es lineal perfecta pero si bastante apreciable. Esto
MULTICOLINEALIDAD 103

implica que es posible invertir la matriz X’X y las estimaciones MCO de los
parámetros siguen siendo lineales insesgadas óptimas. Sin embargo las varianzas
y covarianzas aumentan al hacerlo la multicolinealidad.

Lo único que queda es repasar sus efectos:


- varianzas de los estimadores muy grandes.
- covarianzas de los estimadores muy grandes.
- gran sensibilidad de los valores de los coeficientes frente a pequeños
cambios en los datos.

3. IDENTIFICACIÓN

No existe una forma definitiva ni superior a las demás para detectar la existencia
de multicolinelidad. Por ello, para identificar la multicolinealidad se describen en este
apartado dos métodos, de entre los muchos propuestos con este fin:

1) Observar los valores de la matriz de correlación R y su inversa R-1.


2) Método de Belsley, Kuh y Welsch de los autovalores de las matrices X'X o R.

3.1. INVERSA DE LA MATRIZ DE CORRELACIÓN

Si el problema de la multicolinealidad es que existen relaciones lineales entre las


variables explicativas, nada mejor que el coeficiente de correlación lineal para
cuantificar dicha relación. La matriz de correlación R de las variables explicativas es
una matriz simétrica de orden k cuyo término general ij es el coeficiente de
correlación lineal simple entre las variables Xi y Xj.

Por lo tanto la matriz R tiene unos en la diagonal principal, y el resto de los


elementos son los coeficientes de correlación de cada pareja de variables
explicativas.

Autoevaluación 4.2: Si la relación observada es entre tres o más variables explicativas,


entonces ¿cómo se mide la relación?.

Aunque tal vez pudiera pensarse que con esta matriz sería posible detectar la
multicolinealidad, en realidad esto no es así. Esta matriz cuantifica la relación entre
parejas de variables explicativas, pero no relaciones más amplias, como que una
variable explicativa X1 este relacionada con dos o más variables explicativas
restantes. En estos casos el porcentaje total explicado de dicha variable explicativa
X1 es la acumulación de los porcentajes explicados por cada una de las variables
104 MÍNIMOS CUADRADOS ORDINARIOS

con la que está relacionada, que individualmente pueden ser pequeños, y que en
la matriz R no hubieran llamado la atención.

La inversa de la matriz de correlación, R-1, si que tiene en cuenta esa


dependencia conjunta. Los términos de la diagonal principal, Rii-1, son:

donde R 2i-resto es el coeficiente de determinación de la regresión de Xi frente al resto


de las variables explicativas. Si los valores de Rii-1 son grandes (se propone Rii-1 >10)
entonces eso quiere decir que Xi está muy relacionada con las demás, que existe
multicolinealidad.

Primer criterio: Si Rii-1 > 10 entonces existe multicolinealidad.

Autoevaluación 4.3:¿Cuanto puede valer R2i-resto como máximo para admitir que no existe
multicolinealidad?. ¿Cuál es el valor del coeficiente de correlación en ese caso?. Si se
considera que cuando ρ=0'8 la relación lineal es importante, ¿cuál es el valor de Rii-1?.

El primer método para comprobar la existencia del problema es obtener la matriz de correlación de
las variables explicativas e invertirla. Tenemos el criterio de que si los elementos de la diagonal
principal de la inversa de dicha matriz son mayores que un cierto valor escogido (10 en los libros),
entonces se admite la existencia de multicolinealidad. Los cálculos de las matrices se presentan en
los Cuadros 4.1 y 4.2.

Cuadro 4.1: Matriz de correlación de las variables explicativas.

MATRIZ DE CORRELACIÓN
-------------------------------------
ADQUISICIONES PERSONAL
ADQUISICIONES 1 0,98300
PERSONAL 0,98300 1
-------------------------------------

Cuadro 4.2: Inversa de la matriz de correlación de las variables explicativas.

INVERSA DE MATRIZ DE CORRELACIÓN


------------------------------------------
ADQUISICIONES PERSONAL
ADQUISICIONES 29,67775425 -29,17346985
PERSONAL -29,17346985 29,67775425
------------------------------------------

En la diagonal principal se tiene que = 29'6778 > 10, y por lo tanto se admite que existe
multicolinealidad, aunque en el caso de dos variables explicativas no es necesario invertir la matriz,
MULTICOLINEALIDAD 105

pues bastaría con observar que el coeficiente de correlación lineal es 0'98300 y es un valor muy
elevado.

3.2 MÉTODO DE BELSLEY, KUH y WELSCH.

Otra prueba para la detección de multicolinealidad se basa en los autovalores de


la matriz de correlación R (o de la matriz de datos X'X). Así, si es posible encontrar
un vector u y un escalar λ tales que:

entonces se dice que u es una autovector de la la matriz R y que λ es su autovalor.

Belsley, Kuh y Welsch propusieron el índice de acondicionamiento o número de


condición de la matriz R o de X'X, definido como:

(I.C. $ 1)

donde los valores λmax y λmin, son los valores propios (autovalores) máximo y mínimo,
respectivamente, de la matriz de correlación R o de la matriz X'X.

Autoevaluación 4.4: ¿Cuánto vale el cociente de los autovalores de la matriz R en el caso


de que exista independencia de las variables explicativas?

La experiencia señala que los valores de I.C.:

1 # I.C. # 10/20 no existe multicolinealidad


10/20 # I.C. # 20/30 multicolinealidad moderada
20/30 # I.C. existe multicolinealidad elevada

Segundo criterio: Si I.C. > 20/30 existen problemas de multicolinealidad.

Autoevaluación 4.5: ¿Cuál es el valor para la prueba?. ¿Por qué tienen esos valores
limite?.

El índice de condición para cada parámetro bi (o variable explicativa) se define


como

pudiendo existir más de un índice "peligroso".


106 MÍNIMOS CUADRADOS ORDINARIOS

El segundo método es el ÍNDICE DE ACONDICIONAMIENTO, y para utilizarlo se necesitan los


autovalores de la matriz de correlación, como aparece en el Cuadro 4.3. Calculamos el índice de
acondicionamiento, y si es menor que 10 no habrá problemas:

hay multicolinealidad moderada.

Cuadro 4.3: Autovalores de la matriz de correlación de las variables explicativas.

Principal Components Analysis


-----------------------------------------------
Component Percent of Cumulative
Number Eigenvalue Variance Percentage
1 1,98301 99,150 99,150
2 0,016992 0,850 100,000
-----------------------------------------------

Geométricamente un autovalor sería


la amplitud del eje en la elipse donde se
encuentran las parejas de valores de las
variables explicativas (Figura 4.3).

Si un autovalor es mucho mayor que el


otro, entonces la elipse aparece muy
estirada indicando relación importante
entre las variables explicativas. Si son
parecidos, entonces se tiene un círculo
más que una elipse, indicando que no
hay relación entre las variables
explicativas. Figura 4.3: Interpretación geométrica de un
autovalor

Autoevaluación 4.6: ¿Por qué tiene que ser 20 ó 30 veces más grande uno que otro para
indicar la multicolinealidad?.

Pese a que ya sabemos que existe multicolinealidad en el modelo, vamos a realizar el ajuste de la
siguiente relación lineal entre las variables. Los resultados se recogen en el Cuadro 4.4.

Ninguna de las estimaciones de los parámetros es significativa (P-Value > 0.05), aunque el modelo
si que lo es, y además explica el 85'22% de la variabilidad de los GASTOS, lo cual es totalmente
absurdo, y una indicación más de que existe multicolinealidad.
MULTICOLINEALIDAD 107

Cuadro 4.4: Ajuste de GASTOS frente a ADQUISICIONES y PERSONAL.

Multiple Regression Analysis


-----------------------------------------------------------------------------
Dependent variable: GASTOS
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 337024,0 246708,0 1,36609 0,2301
ADQUISICIONES 19,5542 10,5078 1,86093 0,1218
PERSONAL -2430,46 2686,32 -0,904754 0,4071
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 5,29372E12 2 2,64686E12 14,42 0,0084
Residual 9,18027E11 5 1,83605E11
-----------------------------------------------------------------------------
Total (Corr.) 6,21175E12 7

R-squared = 85,2211 percent R-squared (adjusted for d.f.) = 79,3096 percent

Si tratamos de separar la suma de cuadrados explicada en las aportaciones de cada una de las variables
explicativas, tendremos que las variables son significativas dependiendo del orden en que se han
introducido, como se aprecia en los Cuadros 4.5 y 4.6. Esto es sencillo de explicar si recordamos la
Figura 4.3 y tenemos en cuenta que el coeficiente de correlación de las variables explicativas es de
0'9830.

También hay que destacar que las sumas de cuadrados explicadas por las variables, en el caso de que
estuvieran solas en el modelo serían (de los cuadros anteriores):

ADQUISICIONES 5'14343E12
PERSONAL 4'65789E12

Cuadro 4.5: Descomposición de la suma de cuadrados explicada.

Further ANOVA for Variables in the Order Fitted


-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
ADQUISICIONES 5,14343E12 1 5,14343E12 28,01 0,0032 7
PERSONAL 1,50296E11 1 1,50296E11 0,82 0,4071 7
-----------------------------------------------------------------------------
Model 5,29372E12 2

Cuadro 4.6: Descomposición de la suma de cuadrados explicada.

Further ANOVA for Variables in the Order Fitted


-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
PERSONAL 4,65789E12 1 4,65789E12 25,37 0,0040 7
ADQUISICIONES 6,35836E11 1 6,35836E11 3,46 0,1218 7
-----------------------------------------------------------------------------
Model 5,29372E12 2
108 MÍNIMOS CUADRADOS ORDINARIOS

La suma de cuadrados correspondiente a ADQUISICIONES es ligeramente mayor, por lo que en ese


caso la suma de cuadrados del residuo sería menor y el modelo ofrecerá una mayor explicación. Se
debería optar por esta variable explicativa en el próximo modelo a plantear.

4. TRATAMIENTO

En primer lugar, y dado que este problema afecta a los datos, la mejor manera
de eliminar la multicolinealidad es en la propia toma de valores de las variables. Se
debe hacer que X'X sea diagonal, y si esto no es posible, entonces la "solución" del
problema puede ser :

1. - Método de las componentes principales.


2. - Eliminación de parámetros.
3. - Otros métodos, como la estimación a priori de los parámetros o la regresión
alomada.

Hay que señalar que ninguno de los métodos presentados anteriormente (y los
no presentados) resultan definitivos para eliminar la multicolinealidad del modelo.
Los motivos de ello se expondrán junto a la explicación de cada uno de los métodos,
cuestiones que se presentarán en los siguientes apartados, haciendo especial
mención de los métodos de las componentes principales y de la eliminación de
parámetros, y presentando someramente los restantes a efectos de que se tengan
referencias de ellos.

4.1. COMPONENTES PRINCIPALES

La técnica de las componentes principales tiene por objeto representar un


conjunto de variables observadas en un pequeño número de nuevas variables,
combinación lineal de las anteriores pero no correlacionadas entre sí.

Se transforman las k variables X en otras k variables Z con las propiedades:

- las variables Z no están relacionadas entre sí.


- la primera variable Z será la dirección más representativa del conjunto de
variables X y así sucesivamente.

Geométricamente (para dos variables explicativas) los puntos muestrales tienden


a distribuirse en una elipse, como se muestra en la Figura 4.4a. El método de las
componentes principales consiste en un cambio de ejes de forma que estos sean
ortogonales y que coincidan con las direcciones principales de la elipse, Figura 4.4b.
Así se tiene una variable Z1 de gran variabilidad, y una segunda variable, Z2, que es
independiente de la anterior y con una variabilidad menor. El problema de este
método es que las nuevas variables Z son completamente artificiales, que no se
MULTICOLINEALIDAD 109

correspondan con ninguna variable económica con sentido real.

(a) (b)

Figura 4.4: Los puntos se distribuyen en una elipse, ocupando los cuadrantes primero y tercero (a),
pero si se produce un cambio de ejes (b), entonces es posible apreciar que no existe relación entre
las nuevas variables.

Por el método de las componentes principales es posible crear otras dos variables, Componente1 y
Componente2, que son independientes entre sí. En la primera tabla del Cuadro 4.7 (Table of
Component Weights) se muestra la participación de cada variable explicativa en las nuevas
componentes. Así Componente1 está formada por la suma ponderada de ambas variables explicativas,
con las ponderaciones 0,999993 y 0,00384509.

Componente1 = 0,999993*ADQUISICIONES+0,00384509*PERSONAL

Si se opera en la expresión anterior, dando los valores correspondientes observados de ambas


variables explicativas, se tienen los valores de Componente1, tal y como aparece en la segunda tabla
(Table of Principal Components) donde se presentan los valores de las variables.

Cuadro 4.7: Cálculo de las componentes principales de ADQUISICIONES y PERSONAL.

Table of Component Weights Table of Principal Components

Component Component Component Component


1 2 Row 1 2
----------- ------------ ---- ---------- ---------
ADQUISICIONES 0,999993 -0,00384509 1 44469,1 -52,9883
PERSONAL 0,00384509 0,999993 2 224550,0 90,5849
3 212364,0 -27,5614
4 12185,5 118,146
5 114970,0 -18,0697
PCOMP_1=0,999993*ADQUISICIONES+0,00384509*PERSONAL 6 111790,0 -20,8422
PCOMP_2=0,00384509*ADQUISICIONES-0,999993*PERSONAL 7 3180,0 2,7724
8 73876,5 -0,0622

Ahora podría realizarse el ajuste con las dos nuevas variables (Cuadro 4.8), aunque en realidad
bastaría con utilizar la componente que proviene del primer autovalor, que es el mayor.
110 MÍNIMOS CUADRADOS ORDINARIOS

Cuadro 4.8: Ajuste de GASTOS con la única componente principal de importancia.

Multiple Regression Analysis


-----------------------------------------------------------------------------
Dependent variable: GASTOS
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 309078,0 241038,0 1,28228 0,2471
PCOMP_1 10,2088 1,89942 5,37467 0,0017
-----------------------------------------------------------------------------

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 5,14343E12 1 5,14343E12 28,89 0,0017
Residual 1,06832E12 6 1,78053E11
-----------------------------------------------------------------------------
Total (Corr.) 6,21175E12 7

R-squared = 82,8017 percent


R-squared (adjusted for d.f.) = 79,9353 percent

4.2. ELIMINACIÓN DE PARÁMETROS

Una forma rápida y simple de dar solución al problema de la multicolinealidad es


eliminar del modelo las variables que estén altamente relacionadas con otras. Esto
implica que no se realiza el ajuste del modelo propuesto por la teoría económica.
Entonces obtenemos estimadores sesgados de los parámetros del modelo, pero a
cambio tenemos un error cuadrático medio más pequeño.

Para saber si es posible eliminar alguna variable explicativa, se realiza la prueba


F ya conocida, calculando el estadístico:

donde se supone que se eliminan q variables explicativas causantes del problema


de multicolinealidad.

El procedimiento para hacer la prueba es:

1- Se calcula el estadístico Fcalc, basado en la diferencia de sumas de cuadrados


de los residuos entre las regresiones restringidas SCRr y no restringidas SCRc.

2- Si se tiene que entonces se acepta la hipótesis de que los


estimadores restringidos son mejores en términos de ECM, y en caso
contrario se utilizan los estimadores no restringidos.
MULTICOLINEALIDAD 111

De todas formas la mejor manera de solucionar el problema de la


multicolinealidad sigue siendo mediante la toma de datos adecuada, ya que si bien
este método puede ser muy útil, al imponer restricciones para mejorar el ECM, estas
puede que no sean ciertas y por lo tanto no sería adecuado el modelo.

Para decidir qué variables se eliminan del modelo, se debe utilizar el coeficiente
de correlación múltiple R-1 y no los valores del estadístico t de la prueba de hipótesis
de los parámetros.

El primer modelo incluirá a la variable ADQUISICIONES únicamente:

ajustamos, y tenemos las estimaciones restringidas en donde todos los P-Value (Cuadro 4.9) son
menores de 0'05, consiguiéndose un 82'8016% de explicación de la variabilidad del CONSUMO y
el coeficiente de determinación corregido vale 0'828016. Hay que hacer constar que la estimación se
ha realizado con el modelo centrado.

Cuadro 4.9: Ajuste de GASTOS frente a las ADQUISICIONES.

Multiple Regression Analysis


-----------------------------------------------------------------------------
Dependent variable: GASTOS-AVG(GASTOS)
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
ADQUISICIONES-AVG 10,2088 1,75854 5,80529 0,0007
-----------------------------------------------------------------------------

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 5,14343E12 1 5,14343E12 33,70 0,0007
Residual 1,06832E12 7 1,52617E11
-----------------------------------------------------------------------------
Total 6,21175E12 8

R-squared = 82,8016 percent


R-squared (adjusted for d.f.) = 82,8016 percent

Debemos hacer la prueba F para aceptar o rechazar que los estimadores restringidos son mejores que
los MCO (H0). La prueba dice que si entonces es mejor el restringido.

En primer lugar se rehace el ajuste del modelo completo sin término constante, obteniendo los
resultados que se muestran en el Cuadro 4.10.
112 MÍNIMOS CUADRADOS ORDINARIOS

Cuadro 4.10: Tabla ANOVA del modelo completo.

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 5,29372E12 2 2,64686E12 17,30 0,0032
Residual 9,18027E11 6 1,53004E11
-----------------------------------------------------------------------------
Total 6,21175E12 8
R-squared = 85,2211 percent
R-squared (adjusted for d.f.) = 82,758 percent

Se busca en las tablas y sustituimos los valores leídos:

y se acepta H0.

El otro modelo incluirá a la variable PERSONAL

ajustamos, y calculamos las estimaciones restringidas, mostradas en Cuadro 4.11.

Cuadro 4.11: Ajuste de GASTOS frente a PERSONAL.

Multiple Regression Analysis


-----------------------------------------------------------------------------
Dependent variable: GASTOS-AVG(GASTOS)
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
PERSONAL-AVG(PERS 2483,66 542,193 4,58076 0,0025
-----------------------------------------------------------------------------

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 4,65789E12 1 4,65789E12 20,98 0,0025
Residual 1,55386E12 7 2,2198E11
-----------------------------------------------------------------------------
Total 6,21175E12 8

R-squared = 74,9851 percent


R-squared (adjusted for d.f.) = 74,9851 percent

A diferencia del modelo anterior la explicación conseguida es 74'98% (82'80%), pero como ya
sabemos, el coeficiente de determinación corregido es mejor para comparar los modelos, 0'7498 frente
a 0'8280 anteriormente.

Autoevaluación 4.7: Comprobar que este segundo modelo restringido también es mejor
que el completo, como ocurría con la variable ADQUISICIONES.
MULTICOLINEALIDAD 113

4.3. OTROS MÉTODOS DE ESTIMACIÓN

Como ya se ha mencionado anteriormente, no existe una manera definitiva de


eliminar la multicolinealidad, y por ello se han desarrollado multitud de métodos que
“resuelven” el problema con escaso éxito. A modo de ejemplo se presentan
brevemente dos métodos más, el de estimación a priori de los parámetros y el de
regresión alomada. En el primer método se suponen conocidos algunos parámetros
del modelo de regresión, lo cual es mucho suponer, y en el segundo se utiliza una
argucia matemática para eliminar la multicolinealidad, aunque ni el método, ni los
resultados, tienen una explicación aceptable desde un punto de vista económico.

4.3.1. ESTIMACIÓN A PRIORI DE LOS PARÁMETROS

En ocasiones se dispone de estimaciones de algunos de los parámetros del


modelo obtenidos de otros estudios relevantes e independientes (¿si?). En esos
casos es posible introducir los valores en el modelo y eliminar así el problema de la
multicolinealidad.

Partiendo del modelo habitual:

si se suponen conocidos los parámetros βr a βI, se pasan todos los sumandos


conocidos a un lado de la igualdad,

con lo que se tiene una nueva variable a explicar Y’ y ahora es posible estimar el
resto de los parámetros.

4.3.2. REGRESIÓN ALOMADA O CONTRAÍDA

La regresión alomada parte de la idea de minimizar el ECM y para ello se propone


la estimación de los parámetros del modelo mediante la expresión:

donde c >0 es una constante arbitraria.

La filosofía de este estimador es la de aumentar los valores de la diagonal


principal de X'X de forma que al invertirla los elementos que no pertenezcan a la
diagonal principal tengan valores pequeños, es decir, que las covarianzas de las
estimaciones de los parámetros sean pequeñas. El estimador alomado es sesgado,
pero las varianzas de las estimaciones br son menores que en el caso de MCO.
114 MÍNIMOS CUADRADOS ORDINARIOS

En resumen, la técnica de regresión alomada consiste esencialmente en un


ajuste numérico arbitrario de los datos muestrales, y al final no se sabe bien cómo
interpretar los estimaciones resultantes.

RESUMEN Y CONCLUSIONES

1. Una de las hipótesis del modelo de regresión es que las variables explicativas
no estaban relacionadas linealmente entre sí. Cuando esto ocurre se tiene un
problema de multicolinealidad, si bien esta es un problema de los datos más
que del modelo propuesto.

2. Cuando existe multicolinealidad no es posible estimar los parámetros del


modelo, o bien la estimación no resulta adecuada. Además los resultados de
las pruebas de hipótesis son contradictorios entre sí.

3. En esta unidad temática se ha analizado el problema de la multicolinealidad


y se han presentado dos pruebas para determinar su existencia. La primera
está basada en la inversa de la matriz de correlación de las variables
explicativas, y la segunda en los autovalores de su matriz de correlación.
Obviamente existen más pruebas que las presentadas aquí, pero no son
definitivas para determinar la multicolinealidad (las dos presentadas tampoco),
y por lo tanto se han obviado.

4. Como la multicolinealidad es un problema de los datos, la solución a la misma


debe provenir de los propios datos. Ahora bien, los datos “son los que son”, y
no se puede hacer nada para evitar la multicolinealidad, por lo que la teoría
propone una serie de “soluciones” a la misma. Al igual que en las pruebas para
su detección, no existe ninguna solución definitiva, y de entre las muchas
propuestas, en la presente unidad temática se han presentado las
componentes principales y la eliminación de variables explicativas.
MULTICOLINEALIDAD 115

CUESTIONES

1.- Sea un modelo formulado siguiente de la forma:

a) Indicar qué parámetros son estimables y cuáles no lo son, así como si son
insesgados y de varianza mínima.
b) Supongamos que conocemos el valor del parámetro β3. Indicar si esta
información adicional variaría las conclusiones del apartado a).

2.- ¿Qué significado tienen los elementos de la diagonal principal de la inversa de


la matriz de correlación de las variables explicativas?. Si se ha cuantificado que
Rii-1>10 para que exista alta colinealidad, ¿qué significa eso respecto a la
interpretación dada?

3.- ¿Es posible que la conclusión de la prueba de la inversa de la matriz de


correlación de variables explicativas sea diferente de la del índice de
acondicionamiento?.

4.- Se dispone del número de vehículos matriculados trimestralmente en España


(MATRICULA) y se está interesado en predecir su valor a partir de las
variables producción de vehículos (PRODVEHI), población con edad superior
a los 16 años (POBL16) y número de personas activas (ACTIVA). Dado que
es posible que exista multicolinaealidad, se desea determinar su existencia
antes de realizar el ajuste de un modelo lineal en el que se incluyan todas
ellas.

Matriz de correlación de las variables explicativas


-----------------------------------------------------------------------------
POBL16 ACTIVOS PRODVEHI
POBL16 1 0,988808 0,678097
ACTIVOS 0,988808 1 0,669848
PRODVEHI 0,678097 0,669848 1

Inversa de la matriz de correlación de las variables explicativas


-----------------------------------------------------------------------------
POBL16 ACTIVOS PRODVEHI
POBL16 45,8525 -44,4621 -1,30960
ACTIVOS -44,4621 44,92780 0,05487
PRODVEHI -1,30960 0,05487 1,85128

a) Determinar si existe multicolinealidad entre las variables explicativas mediante


el método de la inversa de la matriz de correlación de las variables explicativas.
b) ¿Cuál es la pareja de variables explicativas con mayor relación lineal entre sí?.
c) ¿Cuál es la variable explicativa que mayor relación tiene con todas las demás?.
d) ¿Cuánto vale el coeficiente de autocorrelación en ese caso?.
e) Si se opta por el método de eliminación para proponer el modelo, ¿cuál de las
variables explicativas debería eliminarse en primer lugar?. ¿Debería eliminarse
una segunda variable explicativa para tener un modelo libre de
116 MÍNIMOS CUADRADOS ORDINARIOS

multicolinealidad?.

5.- El modelo más simple para explicar el AHORRO PRIVADO a partir de la


RENTA es un modelo lineal, si bien es posible que la relación existente entre
ambos sea diferente en los periodos de tiempo anterior y posterior a la crisis
de 1992 ocurrida en España. Por ese motivo se crea una variable ficticia,
PERIODO, que toma el valor 0 para los años anteriores a la crisis de 1992, y
el valor 1 en los años posteriores, con lo que el modelo ajustado es:

Determinar si existen problemas de multicolinealidad en el modelo.

6.- Se pretende explicar la RECAUDACIÓN anual de los cines en España


atendiendo a la RENTA, al NÚMERO DE ESPECTADORES y al ORIGEN de
la película. Para ello se dispone de los valores de la recaudación medidos en
millones de pesetas, de la renta del país medida en billones de pesetas, del
número de espectadores medido en millones de personas, y el origen de la
película, una variable ficticia que toma el valor 0 cuando se trata de una
película Española y 1 en otro caso. Previamente a la estimación de los
parámetros del posible modelo se obtiene la inversa de la matriz de
correlaciones de las variables explicativas. Explica que problema se detecta
con esta prueba y si debería eliminar alguna variable del modelo.

Inversa de matriz de correlación de variables explicativas


-----------------------------------------------------------------------------
RENTA ESPECTADORES
RENTA 1,009288371 0,096822749
ESPECTADORES 0,096822749 1,009288371

7.- Se desea analizar la evolución del ratio de consumo de pescado congelado-


fresco (CONSUMO.PC-CONSUMO.PF, en miles de Kg) en función del precio
del pescado fresco (PRECIO.PF) en la ciudad de Valencia, teniendo en cuenta
un comportamiento anómalo del sector en el año 1998. Se ajusta el modelo:

¿Existen problemas de multicolinealidad en el modelo propuesto?.

Inversa de matriz correlación de variables explicativas


-----------------------------------------------------------------------------
CONSUMO.PF CONSUMO.PC PRECIO.PF
CONSUMO.PF 7,661173147 -2,860735351 7,533805617
CONSUMO.PC -2,860735351 2,184455238 -3,173380565
PRECIO.PF 7,533805617 -3,173380565 8,524792338

También podría gustarte