Está en la página 1de 27

Tema 6:

Multicolinealidad

Máximo Camacho

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 1


Multicolinealidad

h  Bloque I: El modelo lineal clásico


r  Tema 1: Introducción a la econometría
r  Tema 2: El modelo de regresión lineal
r  Tema 3: El método MCO
r  Tema 4: Propiedades de la estimación MCO
r  Tema 5: Inferencia y predicción

i  Bloque II: Extensiones al modelo lineal clásico


r  Tema 6: Multicolinealidad
r  Tema 7: Variables ficticias
r  Tema 8: Heteroscedasticidad
r  Tema 9: Endogeneidad

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 2


Descripción de la clase

  Introducción

  Multicolinealidad exacta
•  Consecuencias sobre la estimación

•  ¿Cómo detectarla?

•  ¿Cómo corregirla?

  Multicolinealidad aproximada
•  Consecuencias sobre la estimación

•  ¿Cómo detectarla?

•  ¿Cómo corregirla?

  Conclusiones

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 3


1. Introducción
1.1. Ejemplo de clase

  En California los responsables de educación quieren estudiar notas en 420


colegios. Datos en 1998

i  Notas Yi

i  Ratio estudiantes por profesor X1i (REP)

i  Porcentaje de alumnos que no hablan bien el idioma X2i (PNI)

i  Porcentaje de alumnos que pueden pedir ayuda para comedor X3i (PAC)
nuevas
i  Porcentaje de alumnos que pueden pedir ayuda por renta baja X4i (PAR)

  ¿Cómo estimamos esta relación?

  Modelo lineal clásico

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 4


1. Introducción
1.2. Supuestos del modelo lineal clásico

  Suponemos relación lineal entre las variables


Yi = β 0 + β1 X 1i + ... + β k X ki + ε i Y = Xβ + ε Yi = χ i ' β + ε i

  Supuestos
  Exogeneidad débil E (ε i χ i ) = E (ε i ) = 0

  Muestras aleatorias ⇒ E (ε i χ j ) = E (ε i ) = 0 E (ε iε j ) = E (ε i )E (ε j ) = 0

Ž  Momentos cuartos finitos ( ) ( )


0 < E ε i4 < ∞,0 < E X 14i < ∞,...,0 < E X ki4 < ∞ ( )
  No multicolinealidad exacta X 1 ,..., X n no son linealmente dependientes

  Normalidad ε X~N

‘  Homoscedasticidad var(ε i X ) = σ 2∀i

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 5


2. Multicolinealidad exacta
2.1. Concepto

  Definición
i  Una o varias variables explicativas son una combinación lineal de otra(s)

  Ejemplos económicos
i  .
Renta regional i = β 0 + β1interési + ε i

i  . i = β0 + β1ingresosi + β 2gastos i + β3beneficioi + ε i


Cotización

  La matriz de explicativas X tiene columnas linealmente dependientes

⎛ Y1 ⎞ ⎛1 X 11  X k 1 ⎞⎛ β 0 ⎞ ⎛ ε 1 ⎞
⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟
⎜ Y2 ⎟ ⎜1 X 12  X k 2 ⎟⎜ β1 ⎟ ⎜ ε 2 ⎟
⎜  ⎟ = ⎜     ⎟⎜  ⎟ ⎜  ⎟
+
⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟
⎜ Y ⎟ ⎜1 X 1n  X kn ⎟⎠⎜⎝ β k ⎟⎠ ⎜⎝ ε n ⎟⎠
⎝ n ⎠ ⎝

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 6


2. Multicolinealidad exacta
2.2. Implicación para el modelo

βˆ ( X ' X )−1
X 'Y
  No podemos encontrar de forma única MCO =

rango ( X ) < K X'X = 0 ∄(X X)-1

i  Teoría: Hemos excluido este caso por supuesto !

i  Pero podría aparecer en aplicaciones prácticas

  ¿Cómo detectarlo?
i  Los programas “se quejarán” de que no podemos invertir matriz (X’X)

i  En Eviews aparece el mensaje “near singular matrix”

  ¿Cómo corregirlo?
i  Se deben a errores del investigador al introducir las explicativas

i  Al aparecer mensaje de error, corregiremos las explicativas

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 7


2. Multicolinealidad exacta
2.2. Implicación para el modelo

  Corrección

i  En el ejemplo de la renta regional, supongamos interési = 4

Renta regionali = β 0 + β1interési + ε i Renta regionali = β 0 + β1 4 + ε i

Renta regionali = α 0 + ε i α 0 = β0 + β1 4

i  En el ejemplo de la cotización sabemos beneficiosi = ingresosi - gastosi

Cotización i = β 0 + β1ingresosi + β 2gastos i + β3beneficioi + ε i

α 0 = β0
Cotización i = α 0 + α1ingresosi + α 2gastos i + ε i α1 = β1 + β3
α 2 = β 2 − β3

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 8


3. Multicolinealidad aproximada
3.1. Concepto

  Definición
i  Una o varias variables explicativas son una combinación lineal aproximada de otra(s)

i  Supongamos que X1 es buena explicativa pero comb. lineal aproximada de las demás

X 1i = α 0 + α 2 X 2i + ... + α k X ki + u1i

  Ejemplos económicos
Porcentaje de alumnos que pueden pedir ayuda por renta baja

Porcentaje de alumnos que pueden pedir ayuda para comedor

Ayudas que recibe una colegio para libros

Ayudas que recibe el colegio para instalaciones

Gasto público en carreteras


Gasto público en mejorar otras comunicaciones

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 9


3. Multicolinealidad aproximada
3.2. Implicación para el modelo

ˆ
β ( X ' X )−1
X 'Y
  Podemos encontrar de forma única MCO =

rango ( X ) = K X'X ≠ 0 ∃ (X X)-1

i  Nota: Hemos excluido la multicolinealidad exacta por el supuesto !

i  Estimadores cumplen buenas propiedades y contrastes e intervalos como siempre

  ¿Qué problemas genera en la estimación?

i  Para entenderlo, supongamos que hacemos la regresión


X 1i = α 0 + α 2 X 2i + ... + α k X ki + u1i

i  Y definimos 2
2
R = 1−
SCR1
= 1−
∑ uˆ1i
1 2
STC1 ( X
∑ 1i 1− X )
Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 10
3. Multicolinealidad aproximada
3.2. Implicación para el modelo

  ¿Qué problemas genera en la estimación?


i  Podemos demostrar (ejercicios de clase y Wooldridge, pág. 102) que
2
∑ uˆ ε σ σ2
βˆ1 = β1 + 1i i (
var βˆ1 X = ) =
(1 − R )∑ (X
∑ uˆ2
1i ∑ uˆ12i 1
2
1i
2
− X1 )

i  Cuanta mayor relación lineal entre X1 y el resto mayor varianza de β̂1

i  Estimación imprecisa e intervalos de confianza muy grandes ⎛⎜ βˆ1 ± tn− K ,α / 2 vâr βˆ1 ⎞⎟
⎝
( )⎠
i  Ejemplos:

i  (
Si X1 no se relacionara ( R21 = 0 ) var βˆ1 X = σ )
2
∑ (X 1i − X1 )
2

i  Si R21 = 0.5 esa varianza se duplica


i  Si R21 = 0.9 esa varianza se multiplica por 10

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 11


3. Multicolinealidad aproximada
3.2. Implicación para el modelo

  Ejemplo simulado (Novales, pág 346)


i  Se generan 50 tripletas de vectores (112 x 1) (ε j j j
)
, X 1 , X 2 (j=1, 2, …50)

i  Bajo 3 supuestos de R21 (0, 0.9 y 0.99). Siempre se cumplen los supuestos clásicos

i  Se generan Y j conociendo la recta poblacional Yi j = 8 + 5 X 1ji − 3 X 2ji + ε i j

i  Se estima MCO 50 veces y los resultados medios

Medias R21 = 0.00 R21 = 0.90 R21 = 0.99

casi esperanzas
β̂ ( 8.0 , 5.1, -3.0 ) ( 7.9, 5.1,-3.2 ) ( 7.9, 5.2, -3.3 )
(insesgados)
( )
var βˆ1 0.23 1.29 11.22
aumentan mucho
var(βˆ )2 0.23 1.06 11.03

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 12


3. Multicolinealidad aproximada
3.2. Implicación para el modelo

  Puede indicar artificialmente variables no son significativas individualmente


i  Supongamos que hacemos el contraste
Yi = β 0 + β1 X 1i + ... + β k X ki + ε i H 0 : βi = 0 H a : βi ≠ 0

i  El estadístico tiene varianza muy grande y tiende a caer en zona de no RH0

r  Con independencia de que X1 se relacione con Y

r  Aunque el R2c sea alto y no caiga al quitar X1

βˆi
t* = ~ tn− K
( )
vâr βˆi

- tn-K,α/2 tn-K,α/2

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 13


3. Multicolinealidad aproximada
3.3. Métodos de detección de multicolinealidad

  Método 1: gráficos de las explicativas


i  En nuestro ejemplo Notasi = β 0 + β1REPi + β 2 PNI i + β3 PACi + β 4 PARi + ε i

i  Esperamos que PAR y PAC se relacionen (negativamente) con la dependiente

i  Esperamos que PAR y PAC se relacionen linealmente (y positivamente)

i  Crítica: los gráficos siempre nos pueden engañar

720 720 80

70
700 700
60
680 680
50
NOTAS
NOTAS

PAR
660 660 40

30
640 640
20
620 620 10

600 600 0
0 10 20 30 40 50 60 70 80 0 20 40 60 80 100 0 20 40 60 80 100

PAR PAC PAC

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 14


3. Multicolinealidad aproximada
3.3. Métodos de detección de multicolinealidad

  Método 2: regresar explicativas entre ellas y ver R2j


σ2
i  Sabemos que ( ) (1 − R ) (X
var βˆ j X = 2 2
− X j)

j ji

i  El problema viene dado por R2j altos que indican alta relación lineal

i  Veamos como son los R2j

REPi = α 0 + α1PNI i + α 2 PACi + α3 PAR3i + ε i ⇒ R12 = 0.04

PNI i = α 0 + α1REPi + α 2 PACi + α3 PAR3i + ε i ⇒ R22 = 0.49

PARi = α 0 + α1REPi + α 2 PNI i + α3 PAC3i + ε i ⇒ R32 = 0.60

PACi = α 0 + α1REPi + α 2 PNI i + α3 PAR3i + ε i ⇒ R42 = 0.74

i  Parece que el problema puede estar con PAR o con PAC

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 15


3. Multicolinealidad aproximada
3.3. Métodos de detección de multicolinealidad

i  Crítica ¿cómo de grande debe ser R2j para preocuparnos por multicolinealidad?

r  En la literatura ha habido algunos intentos de acotarlo

r  Ej: Klien (1962). Sólo nos preocupa si R2j > R2

Notasi = β0 + β1REPi + β2 PNI i + β3 PACi + β 4 PARi + ε i ⇒ R 2 = 0.77

PARi = α 0 + α1REPi + α 2 PNI i + α3 PAC3i + ε i ⇒ R32 = 0.60

PACi = α 0 + α1REPi + α 2 PNI i + α3 PAR3i + ε i ⇒ R42 = 0.74

r  ¿Debemos preocuparnos por multicolinealidad?

i  No hay ninguna razón objetiva para usar esta cota

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 16


3. Multicolinealidad aproximada
3.3. Métodos de detección de multicolinealidad

  Método 3: regresar explicativas entre ellas y contrastes significatividad conjunta

i  Sabemos que REPi = α 0 + α1PNI i + α 2 PACi + α 3 PARi + ε i

* R 2j 3
CSC: H 0 : α1 = 0, α 2 = 0, α 3 = 0 F =
i  j
(1 − R ) (n − 4)
2
j

REPi = α 0 + α1PNI i + α 2 PACi + α 3 PAR3i + ε i ⇒ F1* = 5.77

PNI i = α 0 + α1REPi + α 2 PACi + α3 PAR3i + ε i ⇒ F2* = 133


RH 0
PARi = α 0 + α1REPi + α 2 PNI i + α 3 PAC3i + ε i ⇒ F3* = 208

PACi = α 0 + α1REPi + α 2 PNI i + α 3 PAR3i + ε i ⇒ F4* = 394 3.60

i  Crítica. Con n grande RH0 con demasiada frecuencia: recuerda que R21 = 0.04 !!!

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 17


3. Multicolinealidad aproximada
3.3. Métodos de detección de multicolinealidad

  Método 4: contradicción contraste significatividad global e individuales


i  Supongamos que en el modelo
Yi = β 0 + β1 X 1i + β 2 X 2i + β3 X 3i + β 4 X 4i + ε i

i  Las explicativas X2i , X3i y X4i se relacionan casi linealmente


i  Si las variables se relacionan con la dependiente
r  El contraste de significatividad global, menos afectado por la multicolinealidad,
puede indicar significatividad (incluso al 1%)
r  Y el R2 puede ser alto indicando un buen ajuste
i  Sus contrastes de significatividad individuales
r  Pueden indicar no significatividad
r  Sólo una variable (X1i ) significativa

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 18


3. Multicolinealidad aproximada
3.3. Métodos de detección de multicolinealidad

i  Crítica: casos tan claros no los tendremos en la realidad

Notˆasi = 700.39− 1.01 REPi − 0.13 PNI i − 0.52 PACi − 0.04 PARi ⇒ R = 0.77
2
( 4.69) (0.23) ( 0.03) ( 0.03) ( 0.06)

⎧ t1* = −4.23
βˆi
⎪ *
⎪ t 2 = −3.81 * R2 4
F =
ti* =
( )⎨ *
vâr βˆi ⎪t3 = −16.42 (1 − R ) (n − 5) = 357
2

⎪ t * = −0.78
⎩ 4

*
t3
*
t1 *
t4
* *
t2 F

-1.96 1.96 2.37

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 19


3. Multicolinealidad aproximada
3.3. Métodos de detección de multicolinealidad

r  Globalmente significativas

r  PAR es la única no significativa

r  ¿Se debe a multicolinealidad o a que no es una buena explicativa?

q  Si se debe a multicolinealidad: vamos a ver soluciones

q  Si no se relaciona con la dependiente: deberíamos quitarla del modelo

q  ¿Pero cómo lo sabremos?

q  Lo mejor es acudir al sentido común

r  ¿Cuáles son las soluciones a la multicolinealidad?

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 20


3. Multicolinealidad aproximada
3.4. Soluciones a la multicolinealidad

  Solución 1: añadir información extra-muestral

i  Ampliar la muestra: usando otros colegios de California

r  Crítica: debemos usar toda la información disponible en la primera estimación

i  Usar la estimación de otra muestra

r  Supongamos que usando datos de Texas hemos estimado

Notˆasi = −0.20 PARi


r  Para los datos de California estimamos

Notasi = β 0 + β1REPi + β 2 PNI i + β3 PACi − 0.20 PARi + ε i

r  Crítica: ¿por qué βˆ4Texas = βˆ4California ? ⇒ Restricciones falsas sesgan la estimación

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 21


3. Multicolinealidad aproximada
3.4. Soluciones a la multicolinealidad

  Solución 2: Usar estimadores alternativos a MCO


i  Estimador de Cresta

r  Buscamos un c y un estimador de menor varianza

βˆC = ( X ' X + cI )−1 X ' Y ( )


var βˆc X = σ ( X ' X + cI ) X ' X ( X ' X + cI )
2 −1 −1

r  críticas: el estimador propuesto es sesgado y cómo elegir c

i  Estimador de componentes principales

r  Buscamos combinación lineal de las columnas de X: Z = XB

r  B se busaca de forma que las Zi sean ortogonales (elimina multicolinealidad)

r  Regresamos usando Z Y = Zα + ε

r  críticas: difíciles de interpretar


α̂ da igual si objetivo es predecir
sesgados

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 22


3. Multicolinealidad aproximada
3.4. Soluciones a la multicolinealidad

  Solución 3: Eliminar la variable no significativa (PARi)

i  (Ver tema 5: consecuencias de imponer restricciones ciertas y falsas)

i  Supongamos que eliminamos la variable: imponemos β4 = 0

r  Si no se relaciona con las notas ⇒ Imponemos una restricción cierta

(No sesgo y reducimos la varianza)

r  Si se relaciona con las notas ⇒ Imponemos una restricción falsa

(Introducimos sesgo y reducimos la varianza)

i  ¿Cuándo merece la pena asumir el riesgo de eliminarla?

r  Analizaremos el error cuadrático medio

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 23


3. Multicolinealidad aproximada
3.4. Soluciones a la multicolinealidad

r  Supongamos un modelo más sencillo


Yi = β1 X 1i + β 2 X 2i + ε i β̂1

r  Pensamos que X2 presenta problemas de multicolinealidad con X3 : si β = 0


2

Yi = β1 X 1i + ε i ~
β1

r  ¿ECM? (Ejercicios de clase y Novales, pág 361)


~
( ) ( )
ECM β1 = var βˆ1 + sesgo
2

~ ⎛ βi ⎞
ECM (β1 ) t = ⎜⎜ ⎟
ECM (βˆ1 )
(
= 1 + R22 t 2 − 1 ) ⎝ var(βi ) ⎟⎠

r  Sólo merece la pena si | t |<1 ⇒ algunos autores piden | t* |<<1


r  críticas: q ¿Cuánto podemos considerar t* <<1?
q ¿Queremos estimadores sesgados?

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 24


3. Multicolinealidad aproximada
3.4. Soluciones a la multicolinealidad

r  En nuestro ejemplo

Notˆasi = 700.39 − 1.01 REPi − 0.13 PNI i − 0.52 PACi − 0.04 PARi * βˆ4
t4 = = 0.78
( 4.69 ) (0.23) ( 0.03) ( 0.03) ( 0.06 )
( )
vâr βˆ4

r  ¿Qué hacemos?

q  Mi consejo es acudir al sentido común (teoría económica)

q  Parece que tanto PAC como PAR contienen la misma información sobre los

colegios: nos dicen cuáles tienen más alumnos pobres

q  Podemos eliminar PAR porque PAC ya contiene la información necesaria

para estimar el modelo de notas

Notˆasi = 700.15− 0.99 REPi − 0.12 PNI i − 0.55 PACi


( 4.69 ) (0.24 ) ( 0.03) ( 0.02 )

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 25


4. Conclusión

  X4 puede tener distintas relaciones con las demás ( X-4 ) y la dependiente


  X4 no explicativa y multico, : X4 la eliminamos con contrastes
  X4 explicativa y no multico, X4 explicativa: X4 será explicativa final
  X4 explicativa y multico no severa: X4 será explicativa tras los contrastes
  X4 explicativa y multico severa: acudir al sentido común más contrastes

X-4
X-4 X4
X4

caso 1 caso 3
X-4
X-4
X4

X4
caso 2 caso 4

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 26


5. ¿Qué hemos aprendido?

  Multicolinealidad
i  Relación lineal entre las variables explicativas del modelo
  Exacta
i  Teoría: nunca hay porque suponemos !
i  Práctica: fácil de detectar y resolver

  Aproximada
i  Da lugar a estimaciones imprecisos, varianzas e intervalos de confianza grandes
i  Difícil de detectar y de corregir
  ¿Qué hacer?
i  Asegurarnos de que tenemos multicolinealidad: todas pruebas y teoría económica
i  No significativa y la información sobre Y ya está en las que quedan: eliminarla
i  No significativa pero la información sobre Y ya está en las que quedan: la dejamos

Máximo Camacho Econometría I - ADE+D 11/12 - Tema 6 27

También podría gustarte