Está en la página 1de 32

TEMA 4.

PROBLEMAS FRECUENTES PROVOCADOS POR


LOS DATOS ECONÓMICOS
4.1 Multicolinealidad. Concepto y tipos. Consecuencias
para la estimación y predicción

- Qué es la multicolinealidad

La multicolinealidad significa que las variables independientes


están correlacionadas. Supóngase que la altura de una persona
tiene dos predictores: peso en gramos y peso en kilos. Estos dos
predictores son redundantes, ya que el peso es único
independiente de si se mide en gramos o kilos.

Cuando ocurre esto significa que al menos una de las variables


predictoras es totalmente redundante con otras.
-Tipos de multicolinealidad

• Multicolinealidad exacta o perfecta

• Multicolinealidad aproximada
Multicolinealidad exacta o perfecta
Multicolinealidad aproximada
Multicolinealidad aproximada
Otras consecuencias:

3.- Sin embargo, las medidas y contrastes de bondad global del


ajuste pueden ser satisfactorias (R2, SCE, Contraste significación
global (F), …)

4.- Las estimaciones son muy poco robustas (modelo muy


sensible a la adición de algunas observaciones, o a la
eliminación de una variable explicativa inicialmente no
significativa).

5.- El modelo sirve para predecir pero no para realizar análisis


estructural.
4.2 Cómo detectar y medir el grado de multicolinealidad
Sintomatología en los resultados del modelo:

1.- R2, R2 ajustado, F … las medidas globales son


buenas pero los coeficientes son no significativos
individualmente (t)

2.- Grandes alteraciones en los estimadores al


realizar cambios ligeros en el modelo, por ejemplo, eliminar un
regresor no significativo.

3.- Signos incorrectos en los parámetros estimados según lo


establecido en la teoría económica.
EJERCICIO

Se estiman tres modelos (entre paréntesis se muestra el estadístico de significación individual):

continua ………………….
4.2 Cómo detectar y medir el grado de multicolinealidad
4.2 Cómo detectar y medir el grado de multicolinealidad

Se regresa cada variable explicativa frente al resto de variables explicativas


VIF (variance inflation factor): a medida que es mayor la
multicolinealidad, en uno de los regresores, la variancia de
su coeficiente comienza a crecer. La multicolinealidad infla
la variancia del coeficiente (VIFj).

La VIF tomará un valor mínimo de 1 cuando no hay


colinealidad y no tendrá límite superior en el caso de
multicolinealidad.
¡Importante!
La inversa de la matriz
1
FIV ( x j ) = de correlaciones entre
1 − R 2j coeficientes da como
resultado por FIV en la
diagonal principal

Valores de R2j superiores a 0.7 - 0.8 indicarían una presencia de


multicolinealidad preocupante. La equivalencia en términos de FIV serían
valores superiores a 3.3 – 5.
Datos per-cápita

 En presencia de multicolinealidad, una solución lógica


consiste en eliminar del modelo aquellas variables con
más alto VIF.
EJERCICIO PROPUESTO

(Valores centrados)
EJERCICIO PROPUESTO

Se desea estimar el siguiente modelo:

β2 β3 β 4 ui
Yi = β1 X 2i X 3i X 4i e

Utilizando los siguientes datos


X2 x3 X4
3 12 4
2 10 5
4 4 1
3 9 3

¿Qué problemas pueden presentarse en la estimación de este


modelo con estos datos? Razona y justifica tu respuesta.
4.4. Datos influyentes

xxxx xxxx
xxxx xxxx
. Influencia potencial: Leverage y Mahalanobis

Identifica valores extraños en las X sin tener en cuenta sus


consecuencias

. Influencia real: Distancia de Cook

Identifica el efecto de dichos valores extraños sobre el ajuste


de la recta de regresión
Influencia potencial: Leverage y distancia de Mahalanobis
Para el estudio de la influencia de una observación en el cálculo del
modelo de regresión se debe tener en cuenta la siguiente relación

∧ ∧ ∧ ∧ n
yi = β1 + β 2 x2i + ...... + β k xki = ∑ hii yi i=1,….n
i =1

hii mide la influencia (el peso) de la observación i-ésima en el


cálculo de la y estimada

hii se corresponde con los valores de la diagonal principal de la


matriz H= X(X’X)-1X’ y se conoce como Leverage del i-ésimo
individuo.
La suma de la diagonal principal de la matriz H es igual a k (nº de
parámetros del modelo)
Influencia potencial: Leverage y distancia de Mahalanobis

H= X(X’X) X’
-1

- Es simétrica
- Es idempotente
- 1/N ≤ hii ≤ 1, siendo hii los elementos de la
diagonal principal de H
- Rango (H) = Rango (X) = k
- Tr(H) = k
Influencia potencial: Leverage y distancia de Mahalanobis

Dos criterios
Influencia potencial: Leverage y distancia de Mahalanobis

Demostrar que para el modelo de regresión lineal simple, los


valores de la diagonal principal de H toman la siguiente
expresión:

En general:

(valores centrados con respecto a la media)


Influencia potencial: Leverage y distancia de Mahalanobis
Muchos paquetes estadísticos proporcionan la distancia de
Mahalanobis de los puntos muestrales (medias de las variables
explicativas)

Existe una relación entre el hii (Leverage) y la di (distancia de


Mahalanobis)
1 𝑑𝑑 1 + 𝑑𝑑
ℎ𝑖𝑖𝑖𝑖 = + ≈
𝑛𝑛 𝑛𝑛 − 1 𝑛𝑛

Un valor alto de la distancia de Mahalanobis indica que el punto se


aleja del centro de la nube y, por tanto, es una posible observación
influyente a priori.
EJERCICIO
Sea el modelo de regresión y =β1+β2x2+β3x3 +u sobre los siguientes
datos:
Y x2 x3
2 -1 2
2 0 2
5 1 0
10 5 4
5 1 0

Detecta la influencia potencial de cada observación en la


estimación del modelo
Influencia potencial
Soluciones
Influencia real: Distancia de Cook

Una observación con influencia real afecta a la estimación del modelo:

- Puede afectar a la significación de las variables.


- Cambiar el valor estimado de los coeficientes
- Cambiar el signo de alguno de los coeficientes
- Alterar los contrastes de diagnóstico del modelo: homocedasticidad,
normalidad de los residuos, forma funcional, etc.
- Puede afectar a la capacidad predictiva del modelo

H0: β = β(i)
H1: H0 falso
(donde β(i) es el valor de la estimación del modelo eliminando
previamente la observación (i) de la muestra)
Influencia real: Distancia de Cook

Otras formas de expresarlo:


Influencia real
Soluciones
Outliers: Análisis de los residuos
Un outlier se define como aquella observación que se distancia de la curva de
regresión ostensiblemente, en comparación con el resto.

Consecuencias:

- Forma funcional incorrecta


- Omisión de variable relevante
- Heterocedasticidad
- No normalidad
- Afectar a las medidas de bondad global del modelo

Como detectar la presencia de outliers: Observar los errores

- Residuos estandarizados (e/se) ~ N(0,1)

Prob(|e/se|>1.96)=5% ; Prob(|e/se|>3)=0.27%
Outliers: Análisis de los residuos
2.0

1.5

1.0

0.5

0.0

-0.5

¿Qué hacer? -1.0

-1.5

-2.0

- Eliminar la observación (no recomendado)


76 78 80 82 84 86 88 90 92 94 96 98 00 02 04 06 08

Standardized Residuals

- Análisis de intervención (generar dicotómicas)


- Si el número de outliers es alto: problema de mala especificación, forma
funcional incorrecta, omisión variables relevantes, etc.

¡OJO! El tratamiento de observaciones influyentes o outliers tiene un efecto en


la bondad del ajuste (se estiman con error 0). Para evitar este sesgo:

(1) Estimar el modelo usando como variables explicativas la constante y las


dicotómicas utilizadas en las observaciones influyentes y outliers.
(2) Guardar los residuos de esa regresión
(3) Estimar el modelo original usando como variable explicativa los residuos
del paso anterior y sin incluir dicotómicas. Analizar la bondad del ajuste de
este modelo (R2, F, etc.)
5.4 No Normalidad de las perturbaciones, consecuencias
El contraste de Normalidad Jarque-Bera
El contraste de Normalidad Jarque-Bera

También podría gustarte