Documentos de Académico
Documentos de Profesional
Documentos de Cultura
E y ' X
Error de especificación,
E y ' X
La distribución de u es Falta de normalidad: u no
normal. es normal.
Var u cte. Var u cte.
Homocedasticidad. Hetereocedasticidad.
u independientes entre si. Autocorrelación: u
dependientes.
1
2.12 Multicolinealidad.
Si las variables explicativas están altamente correlacionadas.
Presentan tienen un fuerte grado de mullticolinealidad
Esto genera:
a) Los estimadores tendrán varianzas muy altas.
b) Los estimadores ̂ i serán muy dependientes entre si.
̂ i
Consideremos la matriz de varianzas y covarianzas.
Ejemplo. Para 2 variables:
1 r
~ ~
X'X ~~
x12 ~x1~x2 , X'X
~ 1
2
1 s1 1 r 2 2
1 r s1s2
x1 x2 ~x22 n 1
s2 1 r
2 2
Var ˆ1 2
2 2 2 2
ˆ ˆ ˆ r
, Var , Cov ,
s1 1 r 2 n s22 1 r 2 n s12 s22 1 r 2 n
2 1 2
2
Identificación.
La identificación de las variables colineales se efectúa examinando:
1. La matriz de correlación entre variables explicativas, R y su R -1 [Farrar Glauber,
1967].
2. Las raíces y vectores de la matriz X’X ó R [Silvey, 1969].
3. Los valores singulares de la matriz X [Welsh, 1980; Allende 1984].
La presencia de correlaciones altas entre variables es una señal de Multicolinealidad.
Es posible que exista una alta correlación entre una variable con el resto y sin
embargo sus coeficientes de correlación sean bajos.
Medidas de singularidad.
Una de medida de singularidad se basa en las raíces características de X’X ( o bien e
los valores singulares de la matriz X)
máx i
12
Indice de condicionamiento 1
mín i
Indice de condicionamiento i
máx i , i 1, k 1
i
3
Tratamiento.
La multicolinealidad es un problema de la muestra, luego no tiene una solución simple
ya estamos pidiendo a los datos más información de la que contienen. Las dos únicas
soluciones son:
Otros procedimientos.
4
2.13 Análisis de residuos.
Una vez construídos los modelos de regresión, se tienen que comprobar las hipótesis de:
Normalidad, Homocedasticidad e independencia.
Residuos minimo cuadráticos.
e I V Y
E e 0
Var ei 2 1 vii , donde vii es el término diagonal de V.
Definición.
ei
Se llaman residuos estandarizados a: ri
Sˆ R 1 vii
Sˆ 2
n k 1 SˆR2 ei2 1 vii
Para evitar la dependencia entre numerador y denominador: R i
n k 2
ei
Se define un residuo estudentizado: tˆi t n k 2 g .l .
Sˆ R i 1 vii
Los tres residuos ei, ri y ti tienen un comportamiento asintótico similar y entregan una información
valiosa para detectar deficiencias del modelo.
5
Análisis gráfico de los residuos.
6
2.14 Un test de valores atípicos (outliers).
Para contrastar que un residuo es atípico se utilizan residuos estudentizados: , que tˆi
en la hipótesis de homogeneidad, tiene una distribución t-Student (n-k-2) grados de
libertad.
tˆi tc .
n n n
Sea Ai: el i-ésimo residuo es atípico P Ai 1 P Ai 1 P Ai
i i 1 i 1
T
Test operativo:
1. Fijar T, obtener n
P t tc
2. Encontrar un valor tc (t-Student (n-k-2)g.l.) tal que:
7
2.15 Error de especificación.
Consecuencias.
1. Incluír variables irrelevantes genera un aumento en V ̂
2. Excluir variables relevantes genera sesgo en los ̂
3. Error en la transformación produce contrastes inválidos.
Identificación.
Mediante análisis de residuos
ei v/s f yˆ i ei
v/s f xi v/sei f ,eetc.
i 1
Tratamiento.
Transformaciones, por ejemplo Transformaciones Box-Cox.
8
2.16 Hipótesis de Normalidad.
ei N 0, 2 1 vii
Consecuencias.
La falta de normalidad produce:
• Asimetrías
•
Outliers.
Tratamiento.
Regresión Robusta, Transformaciones regresión logistica, etc
9
2.17 Robustez del modelo y datos influyentes.
En teoría clásica existen observaciones que tienen mayor influencia en las propiedades
del modelo que otras (observaciones influyentes)
Medidas de influencia.
D i
~
~
ˆ i ' X ' X ˆ i ~
;...D i
yˆ i ~
y i
2
, (Estadística de Cook)
k 1 S R
ˆ k 1 S R vii
ˆ 2
10
2.18 Hetereocedasticidad: V ui cte.
Consecuencia.
Identificación.
Análisis de residuos.
Tratamiento.
1. Transformaciones.
2. Aplicación de Mínimos Cuadrados Generalizados.
11
2.19 AUTOCORRELACIÓN.
Q n n 2
rh2
m
2m k 1
h 1 n k
12
Para muestras pequeñas, se utiliza el Test de Durbin-Watson para r(1) ya que el test asintótico de Box-Ljung es poco
potente. Este contraste usa el estadístico:
e e e
t 1
2
t
t 2
2
t
t 2
2
t 1
d 21 r 1
El problema de determinar la distribución del estadístico d cuando (1) es cero l resolvieron Durbin-Watson, tabulando dos
cotas dL y dU, en función de k (nº de variables explicativas) y n (nº de observaciones).
Inconvenientes del Test de Durbin-Watson, ver Wichern (1973).
r (1) 0 d 2
0 r (1) 1 0d 2
1 r (1) 0 2 d 4
13
Tratamiento:
ut t 1 t
14
Si es del tipo: 1 1 2 n 1
1 1 n 2
1
G
2
n 1 n2 1
n
2
1
L , 2 ln 2 2 Y X ' G 1 Y X
2
15
Derivando c/r a se tiene que EMV EMCG
OBS.: El EMCG equivale a transformar las variables para que verifiquen las hipótesis estándares
del modelo de regresión y luego determinar el estimador habitual en las variables transformadas.
2
yi xi ' ei2
m 2
i i
Por lo tanto el EMCG equivale a minimizar una suma cuadrática ponderada de los residuos,
siendo el coeficiente de ponderación 1/i.
16
Regresión Robusta:
Los EMC son poco eficientes cuando la distribución de las perturbaciones tiene colas pesadas.
En tal caso Huber (1981) propone como estimador a
yi xi
min
i
Donde es una función adecuada, se llama función de scores
yi xi
0
i
Dos funciones son: H ,C sign x min x , c
B ,C x 1 x / c
2 2
I x
c ,c
17
2.21 CONSTRUCCIÓN DE MODELOS DE REGRESIÓN.
Regresión de y sobre
(x1,...., xk)
NO
tmin > t
SI
18
2.- Introducción Progresiva:
NO
Rechazar la última x introducida,
mantener la regresión anterior.
19
3.- Regresión Paso a Paso (Stepwise regression):
Calcular la regresión.
20
Criterios de selección de variables.
Cuando se dispone de muchas variables explicativas potenciales, las estrategias de
regresión anteriores definen normalmente un subconjunto posible de modelos y el
problema es seleccionar entre ellos
Suponga que se comparan modelos con la misma variable dependiente pero con
distintas variables explicativas. (Los criterios que se presentan a continuación no son
adecuados para comparar modelos con distinta variable de respuesta, por
ejemplo: [y, lny]. La elección de la transformación debe hacerse escogiendo aquella
que produzca normalidad, homocedastici-dad e independencia y no un mayor R2, ya
que esto puede ser muy engañoso.
Coeficiente de determinación.
Es un mal criterio: R2 aumenta al introducir nuevas variables sea cual sea su efecto,
por lo que siempre se tendría que escoger modelos con muchas variables.
VE y
ˆ y 2
R2 i
VT yi y 2
21
Coeficiente de correlación corregido.
Evita el inconveniente principal de R2; puede comprobarse que este coeficiente
aumentará al introducir una variable si su estadístico t es mayor que uno (t>1). Por lo
tanto, escoger mediante este criterio es equivalente a imponer una regla amplia de
entrada de variables.
i n k 1
2
2 Varianza residual e
R 1 1
Varianza de y yi y n 1
Varianza residual.
2
El modelo con menor varianza residual es también el que tiene mayor R .
Estadístico Cp de Mallows.
Para justificar este criterio, suponga elegir aquel modelo que minimice el error
cuadrático medio de la predicción para los puntos observados.
yˆ p i x' p i ̂ p
22
con distintas variables xp, siendo p el número de parámetros del modelo.
1
minimizar
2
p ˆ p i i
E y m2
1
1
min 2 Var yˆ p i 2 sesgo 2 yˆ p i
Donde
Sˆ R2 k 1
es la varianza residual del modelo con todas las k
ˆ 2
variables, S R p es la varianza residual del modelo con p-1 variables y p
parámetros y n es el número total de datos.
23
Criterio de Akaike.
Akaike (1973) ha propuesto el criterio AIC, derivado de la Teoría de la
Información de Kullback.
min AIC n ln ˆ 2 n 2 p
p
24