Está en la página 1de 24

Hipótesis Realidad

Las variables X toman valores Multicolinealidad: Las


distintos en la variables X toman valores
muestra. semejantes en la muestra.

E y    ' X
Error de especificación,
E y   ' X
La distribución de u es Falta de normalidad: u no
normal. es normal.
Var  u   cte. Var  u   cte.
Homocedasticidad. Hetereocedasticidad.
u independientes entre si. Autocorrelación: u
dependientes.

1
2.12 Multicolinealidad.
Si las variables explicativas están altamente correlacionadas.
Presentan tienen un fuerte grado de mullticolinealidad
Esto genera:
a) Los estimadores tendrán varianzas muy altas.
b) Los estimadores ̂ i serán muy dependientes entre si.
̂ i
Consideremos la matriz de varianzas y covarianzas.
Ejemplo. Para 2 variables:

 1 r 
~  ~
X'X   ~~
x12  ~x1~x2  , X'X  
~ 1
2

1  s1 1  r 2   2

1  r s1s2 

 x1 x2  ~x22  n 1 
  
s2 1  r 
2 2

   
Var  ˆ1   2    
2 2 2 2
ˆ ˆ ˆ r
, Var   , Cov  ,  
s1 1  r 2  n s22 1  r 2  n s12 s22 1  r 2  n
2 1 2

Var  ˆ1 , Var  ˆ 2  , Cov ˆ1 , ˆ 2   


Luego, si r1

2
Identificación.
La identificación de las variables colineales se efectúa examinando:
1. La matriz de correlación entre variables explicativas, R y su R -1 [Farrar Glauber,
1967].
2. Las raíces y vectores de la matriz X’X ó R [Silvey, 1969].
3. Los valores singulares de la matriz X [Welsh, 1980; Allende 1984].
La presencia de correlaciones altas entre variables es una señal de Multicolinealidad.
Es posible que exista una alta correlación entre una variable con el resto y sin
embargo sus coeficientes de correlación sean bajos.
Medidas de singularidad.
Una de medida de singularidad se basa en las raíces características de X’X ( o bien e
los valores singulares de la matriz X)
 máx i  
12

Indice de condicionamiento    1
 mín i  
Indice de condicionamiento  i 
 máx i  , i  1, k  1
i

3
Tratamiento.
La multicolinealidad es un problema de la muestra, luego no tiene una solución simple
ya estamos pidiendo a los datos más información de la que contienen. Las dos únicas
soluciones son:

1. Eliminar regresores, reduciendo el número de parámetros.


2. Incluír información externa a los datos.

Otros procedimientos.

1. En lugar de eliminar directamente las variables se pueden transformar mediante


Componentes Principales y eliminar los componentes menos importantes [Mosteller, Tukey,
(1977)].

2. Otra solución es introducir información externa mediante el enfoque bayesiano [Copas,


1983].

4
2.13 Análisis de residuos.

Una vez construídos los modelos de regresión, se tienen que comprobar las hipótesis de:
Normalidad, Homocedasticidad e independencia.
Residuos minimo cuadráticos.
e   I  V Y
E  e  0
Var  ei    2 1  vii , donde vii es el término diagonal de V.

Definición.
ei
Se llaman residuos estandarizados a: ri 
Sˆ R 1  vii
Sˆ 2

 n  k  1 SˆR2  ei2 1  vii 
Para evitar la dependencia entre numerador y denominador: R i 
 n  k  2
ei
Se define un residuo estudentizado: tˆi   t n  k  2  g .l .
Sˆ R  i  1  vii

Los tres residuos ei, ri y ti tienen un comportamiento asintótico similar y entregan una información
valiosa para detectar deficiencias del modelo.

5
Análisis gráfico de los residuos.

Los gráficos más utilizados son:


ei  f  yˆ i  ó ri  f  yˆ i .
a) Histograma y gráfico probabilístico normal de tˆi ó ri .
b) Gráficos de los residuos con respecto a las predicciones
c) Gráficos de los residuos con respecto a las variables de control.
d) Gráficos de los residuos parciales.
e) Gráficos de los residuos con respecto a las variables omitidas.

6
2.14 Un test de valores atípicos (outliers).

Para contrastar que un residuo es atípico se utilizan residuos estudentizados: , que tˆi
en la hipótesis de homogeneidad, tiene una distribución t-Student (n-k-2) grados de
libertad.  
tˆi  tc .

 n   n  n
Sea Ai: el i-ésimo residuo es atípico P Ai   1  P Ai   1   P Ai 
 i   i 1  i 1

Sea  error tipo I de un contraste individual


n   T  T: Nivel de significación global.
= P(Ai)

  T
Test operativo:
1. Fijar T, obtener n
P t  tc   
2. Encontrar un valor tc (t-Student (n-k-2)g.l.) tal que:

7
2.15 Error de especificación.

Se cometen errores de especificación cuando:


1. Se omite una variable de control importante.
2. Se introducen variables de control innecesarias.
3. Se supone una relación lineal, cuando no lo es.

Consecuencias.
1. Incluír variables irrelevantes genera un aumento en V ̂ 
2. Excluir variables relevantes genera sesgo en los ̂
3. Error en la transformación produce contrastes inválidos.

Identificación.
Mediante análisis de residuos

ei v/s f  yˆ i  ei
v/s f  xi  v/sei f ,eetc.
i  1

Tratamiento.
Transformaciones, por ejemplo Transformaciones Box-Cox.

8
2.16 Hipótesis de Normalidad.

ei  N  0,  2 1  vii  

1. Test de bondad de ajuste.


2. Gráfica de Probabilidad Normal.

Consecuencias.
La falta de normalidad produce:
• Asimetrías

Outliers.

Tratamiento.
Regresión Robusta, Transformaciones regresión logistica, etc

9
2.17 Robustez del modelo y datos influyentes.

En teoría clásica existen observaciones que tienen mayor influencia en las propiedades
del modelo que otras (observaciones influyentes)

Robustez a priori (Robustez de Diseño.)


Robustez
del modelo Robustez a posteriori (Robustez de Parámetros.)

Identificación de Puntos Influyentes. V  X  X ' X  X '  vij


1
 
1
i)  vii  1.
n
ii) Tr V   k  1.
iii) Los términos influyentes vii  v  3S v .

Medidas de influencia.

D i  
 ~
  ~

ˆ    i  ' X ' X ˆ    i  ~ 
;...D i  

yˆ i  ~
y i 
2

, (Estadística de Cook)
 k  1 S R
ˆ  k  1 S R vii
ˆ 2

10
2.18 Hetereocedasticidad: V  ui   cte.

Consecuencia.

El modelo pierde eficiencia y se invalidan todos los contrastes.

Identificación.

Análisis de residuos.

Tratamiento.

1. Transformaciones.
2. Aplicación de Mínimos Cuadrados Generalizados.

11
2.19 AUTOCORRELACIÓN.

Los efectos de la dependencia pueden ser muy graves:


1. Los estimadores son insesgados, pero no eficientes.
2.
̂
Los contrastes para los parámetros no son válidos.
3. Las predicciones son ineficientes.
Identificación:

Cuando se dispone de muestras grandes, se calcula:

Y el estadistico de Box-Ljung (1978)


 nh   n 2
~r  h     et et  h    et 
 t 1   t 1 
Donde m es el nº de coeficientes de autocorrelación.
k es el nº de parámetros para calcular los residuos.

Q  n n  2  
rh2
m
 2m k 1
h 1 n  k

12
Para muestras pequeñas, se utiliza el Test de Durbin-Watson para r(1) ya que el test asintótico de Box-Ljung es poco
potente. Este contraste usa el estadístico:

Teniendo en cuenta que


 n   n 2
d    et  et 1    et 
Se tiene
 t 1   t 1 
Donde r(1) es el coeficiente de autocorrelación a un paso.
n n n

e  e  e
t 1
2
t
t 2
2
t
t 2
2
t 1

d  21  r 1 
El problema de determinar la distribución del estadístico d cuando (1) es cero l resolvieron Durbin-Watson, tabulando dos
cotas dL y dU, en función de k (nº de variables explicativas) y n (nº de observaciones).
Inconvenientes del Test de Durbin-Watson, ver Wichern (1973).

r (1)  0  d 2
0  r (1)  1  0d 2
 1  r (1)  0  2  d  4

13
Tratamiento:

Usando series de tiempo es posible resolver el problema.


yt   0    j xt 1  ut

ut     t 1    t

2.20 MÍNIMOS CUADRADOS GENERALIZADOS.


La autocorrelación y la hetereocedasticidad en la perturbación son casos especiales de la
formulación:
E UU '   2G

Donde G es la matriz de varianzas y covarianzas de las perturbaciones, y en general, es


cualquier matriz simétrica y semidefinida positiva. Este caso generaliza la hipótesis estándar del
modelo de regresión:
E UU '   2 I

Si G=diag(12,…, n2 ) tenemos perturbaciones hetereocedásticas.

14
Si es del tipo:  1 1  2   n 1 
  1 1   n  2 
 1
G   
2
  
 
    
  n 1  n2   1 

Tendremos únicamente autocorrelación.


Finalmente, si G=[ij] ocurren ambas condiciones simultáneamente.
El método de MCG equivale a transformar el problema en otro donde las perturbaciones
verifiquen E[UU’]= 2 I.
Estimación con el método de MCG:
Suponga que G es conocida. Entonces Y~(X, 2G)

  n
2
1
L  ,  2   ln  2  2  Y  X  ' G 1  Y  X 
2

Maximizar L(,2) c/r a es equivalente a minimizar m   Y ' X  ' G 1  Y ' X 

15
Derivando c/r a  se tiene que EMV  EMCG

ˆ   X ' G 1 X  X ' G 1Y


1

OBS.: El EMCG equivale a transformar las variables para que verifiquen las hipótesis estándares
del modelo de regresión y luego determinar el estimador habitual en las variables transformadas.

Aplicaciones para corregir la hetereocedasticidad.


La hetereocedasticidad implica G= diag(1, 2)

2
 yi xi '    ei2 
 m        2 
 i  i 
Por lo tanto el EMCG equivale a minimizar una suma cuadrática ponderada de los residuos,
siendo el coeficiente de ponderación 1/i.

16
Regresión Robusta:
Los EMC son poco eficientes cuando la distribución de las perturbaciones tiene colas pesadas.
En tal caso Huber (1981) propone como estimador a

 yi  xi  
      min
 i 
Donde  es una función adecuada, se llama función de scores
 yi  xi  
     0
 i 
Dos funciones son:  H ,C  sign x   min x , c

 B ,C  x 1   x / c  
2 2
I x
  c ,c 

17
2.21 CONSTRUCCIÓN DE MODELOS DE REGRESIÓN.

Los tres procedimientos o estrategias más utilizados son:


1.- Eliminación Progresiva:

Regresión de y sobre
(x1,...., xk)

Cálculo de los estadísticos


ˆi ˆi Rechazar esa variable.
t n k 1  
ˆ  ˆi  Sˆ R qii El conjunto de variables
Potenciales es k-1.
Hacer k=k-1.
Comparación del menor
Valor de t (tmin) con t.

NO
tmin > t

SI

FIN DEL PROCESO

18
2.- Introducción Progresiva:

Calcular coeficientes simples de Introducir la nueva x y


correlación r(yjxi),  i calcular la nueva regresión.

Regresión entre y y xj siendo Seleccionar la x con r mayor


xj tal que r(yxj) = sup r(yxi).

Cálculo de los residuos de la


Calcular r entre (1) y (2).
regresión (1)..

Cálculo del estadístico t para la


Calcular los residuos (2).
última variable x introducida.

SI Calcular las regresiones entre las


¿Es t significativo? variables no introducidas y el
conjunto de las ya introducidas.

NO
Rechazar la última x introducida,
mantener la regresión anterior.

19
3.- Regresión Paso a Paso (Stepwise regression):

Fijar el nivel de significación .

Calcular el coeficiente de correlación


Parcial entre y, y las variables x no
Introducidas en el modelo.

Seleccionar como variable de entrada


La de máximo coeficiente de
Correlación parcial.

Calcular la regresión.

Calcular el estadístico t para la


última variable introducida.

SI Calcular estadísticos t para las x introducidas


t>t .
* en etapas anteriores
NO
NO ¿Es algún t<t*.?

Rechazar la última variable SI


Introducida. Fin del Programa. Eliminar del modelo esa variable.

20
Criterios de selección de variables.
Cuando se dispone de muchas variables explicativas potenciales, las estrategias de
regresión anteriores definen normalmente un subconjunto posible de modelos y el
problema es seleccionar entre ellos
Suponga que se comparan modelos con la misma variable dependiente pero con
distintas variables explicativas. (Los criterios que se presentan a continuación no son
adecuados para comparar modelos con distinta variable de respuesta, por
ejemplo: [y, lny]. La elección de la transformación debe hacerse escogiendo aquella
que produzca normalidad, homocedastici-dad e independencia y no un mayor R2, ya
que esto puede ser muy engañoso.

Coeficiente de determinación.
Es un mal criterio: R2 aumenta al introducir nuevas variables sea cual sea su efecto,
por lo que siempre se tendría que escoger modelos con muchas variables.
VE   y
ˆ  y  2

R2   i

VT   yi  y  2

21
Coeficiente de correlación corregido.
Evita el inconveniente principal de R2; puede comprobarse que este coeficiente
aumentará al introducir una variable si su estadístico t es mayor que uno (t>1). Por lo
tanto, escoger mediante este criterio es equivalente a imponer una regla amplia de
entrada de variables.

 i  n  k  1
2
2 Varianza residual e
R  1  1
Varianza de y   yi  y  n  1
Varianza residual.
2
El modelo con menor varianza residual es también el que tiene mayor R .

Estadístico Cp de Mallows.
Para justificar este criterio, suponga elegir aquel modelo que minimice el error
cuadrático medio de la predicción para los puntos observados.
yˆ p  i   x' p  i  ̂ p
22
con distintas variables xp, siendo p el número de parámetros del modelo.
1
minimizar
2
 p ˆ p i  i
E y  m2

 1
 1
 
 min  2 Var yˆ p  i   2  sesgo 2 yˆ p  i    
   

Mallows demuestra que esto es equivalente a minimizar


 Sˆ R2  p   Sˆ R2  k 1 
C p  p   n  p  
 Sˆ 2
R  k 1 

Donde
Sˆ R2  k 1
es la varianza residual del modelo con todas las k
ˆ 2
variables, S R  p es la varianza residual del modelo con p-1 variables y p
parámetros y n es el número total de datos.

23
Criterio de Akaike.
Akaike (1973) ha propuesto el criterio AIC, derivado de la Teoría de la
Información de Kullback.

min AIC  n ln ˆ 2  n  2 p
p

Donde ˆ p es el EMV de la varianza y p es el número de parámetros.


2

Otros criterios son:


Hannan Quinnn
Shibata
Bayesiano
Etc

24

También podría gustarte