Documentos de Académico
Documentos de Profesional
Documentos de Cultura
u1 |X
nid(0, 2 )
..
2
u|X = ...
N(0n1 , Inn )
.
un |X
(3.1)
nid(0, 2 )
(3.1) significa que cada error i de las n observaciones que se utilizarn en la regresin
fue generado por un PGD caracterizado por errores con distribucin normal e independiente (nid), con media cero y con varianza 2 . En otras palabras, el error distribuye de
forma normal, idntica (con la misma media y varianza) e independiente (niid).
Note que no fue necesario especificar nid en la expresin de la derecha en (3.1), debido
a que la MVC, Inn 2 , implica independencia al tener elementos no diagonales iguales
a cero. As mismo basta con especificar un vector de media uniforme y un nico escalar
de varianza para denotar una distribucin idntica.
Con el supuesto de normalidad el PGD asumido es ahora
y = X + u ,
(n1)
(nk)(k1)
u N(0, Inn 2 ),
rango(X) = k;
(3.2)
(n1)
(nk)(k1)
(3.3)
(n1)
(3.4)
donde 2 =
u0 u
nk
(3.5)
38
La diferencia crucial respecto al modelo visto anteriormente es que ahora los errores no slo tienen media y varianza definida, sino toda una forma funcional para su
distribucin. Como veremos esto implica que tanto y como tendrn una distribucin
normal. Siendo este el caso se puede indicar con precisin cul es la probabilidad de
que, por ejemplo, la variable aleatoria estudiada tome, por ejemplo, un valor que diste
ms de 3 desviaciones estndar sobre de la media. Tal como muestra la figura 3.1, dicha
probabilidad es aproximadamente 1 99,7 % = 0,3 %.
Figura 3.1: Distribucin Normal
Densidad
68,2 %
95 %
99,7 %
1
0
1
Desviaciones estndar ( )
Como el error se distribuye normal, esto tambin se cumple para y, puesto que1
u|X N(0, 2 I)
y|X = X + u|X N(X , 2 I),
y para , puesto que
y|X N(X , 2 I)
|X = (X 0 X)1 X 0 y|X N((X 0 X)1 X 0 X , (X 0 X)1 X 0 2 X(X 0 X)1 )
N( , 2 (X 0 X)1 ).
(3.6)
3.2
39
(3.7)
(q1)
H0 : b = 0
0
H0 : c = 5
0
H0 : a + b = 1
1
H0 : a = b
H0 : a = 1, b = 2
H0 : a = b = c = 0
1
1
0
1
0
0
a
1 0 b = 0
c
a
0 1 b = 5
c
a
1 0 b = 1
c
a
1 0 b = 0
c
a
0 0
1
b =
1 0
2
c
0 0 a
0
1 0 b = 0
0 1 c
0
Test
t
t
t
t
F
F
(3.8)
40
u u
2
Dividiendo por = 2 (nk)
nk
obtenemos
n k = 100
nk = 5
nk = 2
nk = 1
N(0,1)
0,3
0,2
0,1
0
6
(R r)
t = p
tnk (3.9)
2 R(X 0 X)1 R0
Z = Zi2 n2
Z n2 .
i=1
Z1
nZ1
t=p
=
tn .
Z2
Z2 /n
Distribucin F: Sean Z1 y Z2 variables 2 independientes con k1 y k2 grados de
libertad, respectivamente, entonces
F=
Z1 /n1
Fn1 ,n2
Z2 /n2
Trabajos economtricos suelen presentar no solo el valor de los coeficientes estimados y sus desviaciones tpicas, sino tambin el nivel de significancia o valor p de los
coeficientes estimados. El formato ms comn de presentacin es el que se muestra en
la tabla 3.3, donde algunos coeficientes vienen acompaados de asteriscos asociados a
41
(M1)
(M2)
(M3)
5.99e+04
1.16e+04
4.92e+04
(8.57e+03)
(3.84e+03)
1.94e+04
(1.06e+04)
1.62e+04
(4.14e+03)
Ingreso en 1950
13
0.636
n
R2
(4.42e+03)
1.79
0.848
(0.704)
(0.547)
13
0.314
13
0.731
j
j
tj = q
=
tnk
s
c j]
var[
(3.10)
42
Es decir, una una variable se considera significativa cuando su coeficiente es significativamente distinto de cero asumiendo que en muestreo repetido este se distribuye de
forma normal con la varianza estimada.
Note que ese es otro aspecto que por lo general no es explcito en los software: la
significancia del test t de las tablas 3.3 y 3.5 asume un test de dos colas.
Valor p de j en un software: El valor p o significancia de un coeficiente esti-
(3.11)
(3.12)
43
const
Inequidad1950
Ingreso1950
Coeficiente
Desv. Tpica
Estadstico t
Valor p
49246.9
16167.6
0.848
10618.8
4416.54
0.54729
4.6377
3.6607
1.5498
0.0009
0.0044
0.1522
20239.13
1.96e+08
0.731101
13.59437
125.8782
259.4513
7791.079
4425.705
0.677322
0.001406
257.7565
257.4081
es alta, entonces es probable obtener dicho valor, mientras que si es baja, ser improbable y el coeficiente puede ser considerado significativamente distante de cero. Por
convencin cientfica, consideraremos significativo un coeficiente si obtenemos
un valor p asociado de = 10 % o menos, siendo lo ms comn un criterio de = 5 %.
La forma ms sencilla de plantear la significancia al 5 % es por medio de la pregunta: se encuetra el coeficiente a ms de 2 desviaciones estndar de cero? Con
sIngreso 1950 = 0,547, en el caso de esta variable no se cumple la condicin, pues cae en
el rango 2 0,547 indicado como IC 95 % en el grfico inferior de la figura 3.3.
Tambin podemos hacer la pregunta, cul es la probabilidad de obtener un valor
Ingreso 1950 0,848 si en realidad H0 : Ingreso 1950 = 0? La probabilidad aparece marcada como el rea de franjas /2 en el grfico inferior. Si multiplicamos esa area por
dos obtenemos exactamente 0.1522, el valor p de la tabla 3.5.
En conclusin: Ingreso 1950 no es significativamente distinto de cero (con un nivel de
significancia = 5 %), pues el valor 0,848 se encuentra a tan slo 1,54 desviaciones
estndar (ver valor t en la tabla 3.5) de cero. Sin embargo, la variable s sera significativa
a un nivel de, por ejemplo, 20 % (valor demasiado alto como para ser considerado un
resultado serio).
Veamos ahora el coeficiente Inequidad 1950 . El valor estimado es de 1,6 104 . Es
este un valor significativamente distinto de cero? En esta oportunidad nos encontramos a
ms de dos desviaciones estndar de cero y, por ende, la variable puede ser considerada
significativa al 5 %. Cul es el valor exacto de la significancia del coeficiente? Ser dos
veces esa pequea area bajo la curva en el intervalo [ : 1,6 104 ] que casi ningn
ojo humano es capz de ver en el grfico inferior de la figura 3.4. La variable es bastante
significativa, con un nivel de significancia inferior a 1 %.
Es una variable significativa una con alto impacto sobre la variable dependiente?
No necesariamente. Significancia estadstica es un concepto que poco tiene que ver
44
Ingreso 1950
0,54729
H0 : Ingreso 1950 = 0
IC 95 %
/2
0,4
0,2
0
2
1,5
0,5
0,5
1,5
2,5
1,5
2,5
Ingreso 1950
2
1,5
0,5
0,5
0,4
0,2
1
t =
con frases como la donacin del millonario es un aporte muy significativo para la
fundacin. Note que la magnitud del impacto est medido por j . La significancia
slo nos cuenta cun seguros estamos de que el valor de j es poco probable desde la
perspectiva de H0 : j = 0.
3.2.2
45
tiene que
|X N( , 2 (X 0 X)1 )
j |X N( , var[ j ])
j |X N(0, var[ j ])
j
q
|X N(0, 1)
var[ j ]
j
q
|X
c j]
var[
tnk
nk
nk
1 = P t/2
t1/2
s j
#
"
j j
nk
nk
t1/2
(dada la simetra en t)
= P t1/2
s j
h
i
nk
nk
= P t1/2 s j j j t1/2 s j
h
i
nk
nk
= P t1/2
s j j j t1/2
s j
Finalmente obtenemos:
Frmula: IC de (1 ) 100 % para un coeficiente
h
i
nk
nk
1 = P j t1/2
S j j j + t1/2
S j
(3.13)
regla prctica tiene una precicin con un margen de error 2 % para valores de n k que estn
entre 30 y . Para valores inferiores a 30 es recomendable calcular el valor t crtico exacto.
46
Inequidad 1950
0,44165
H0 : Inequidad 1950 = 0
IC 95 %
/2
0,4
0,2
2,5
1,5
0,5
0,5
1,5
0,5
1,5
Inequidad 1950
3
2,5
1,5
0,5
0,4
0,2
0
4
1
t =
Regresor (x j )
const
Inequidad en 1950
Ingreso en 1950
49246.9
16167.6
0.848176
25586.8
26008.3
0.371266
72907.0
6326.95
2.06762
47
q1
Es decir, cada uno de los q elementos del vector distribuye como una normal estndar.
Como la sumatoria de q variables normales estndar cuadradas se distribuye como una
n2 , tendremos:
(R r)0 [ 2 R(X 0 X)1 R0 ]1 (R r) q2
1q
q1
k)
Cuando H0 contempla que un grupo de coeficientes es igual a cero, despus de una
serie de pasos que omitiremos para no desviar la atencin, la expresin anterior puede
ser reescrita como
F=
(u0r ur u0 u)/(q)
Fq,nk
0
u u/(n
k)
(3.14)
donde ur corresponden a los residuos de una regresin MCO restringida (con los q
regresores excluidos), q denota el nmero de regresores que han sido restringidos a cero
y u representan los residuos del modelo MCO original.
(3.14) es un estadstico de uso comn en tests economtricos. Su interpretacin es
simple: como el modelo MCO reducido siempre tendr un peor ajuste, la diferencia
u0r ur u0 u captura cunto mejora el ajuste con los regresores adicionales. A mayor
diferencia entre u0r ur y u0 u,
ms poder explicativo se gana con los q regresores y ms
significativo figura estadstico. Es decir, si existe una alta discrepancia entre un modelo
con, digamos 5 regresores y otro con 8 regresores (incluyendo los 5 del modelo anterior), entonces (3.14) tendr un valor elevado y significativo, dando cuenta de que los
q = 3 regresores adicionales son relevantes (estadsticamente distintos de cero en forma
1
se hace uso de la expresin ( 2 R(X 0 X)1 R0 ) 2 . Sabemos que existe debido a que R(X 0 X)1 R0 es
una matriz simtrica.
3 Ac
48
conjunta). Para que la significancia de F sea alta basta que al menos uno de los q = 3
coeficientes sea relevante.
En la parte inferior de la tabla 3.5 puede encontrar el valor F(2; 10) = 13,59437 y
su significancia asociada de 0.001406. Cmo interpretamos este estos valores? Como
ve q = 2. Esto tiene relacin con la hiptesis nula:
Frmula: H0 del test F de una regresin en un software
H0 : 2 = 3 = ... = k = 0
(3.15)
Es decir, todas las pendientes, salvo la constante son iguales a cero. En otras palabras,
corresponde a la significancia total del modelo.
3.3
Proyecciones con IC
Tomemos como ejemplo el modelo de estimado en (1.4):
\ = 877,83 0,433ao
precio
Cul es nuestra mejor estimacin del precio del watt de energa solar en 2015? Simplemente:
\ = 877,83 0,433 2015 = 5,335
precio
Tomando ahora el modelo M3 (p. 10), si quisiramos predecir el nivel de ingreso en
2010 para una un pas con las caractersticas que tuvo Argentina en 1950, es decir con
sus niveles de inequidad e ingreso en 1950, la prediccin o pronstico sera
\
PIB
2010 = 49246,9 1 16167,6 2,5048 + 0,848 4934,41 = 12935,5
Asimismo, si deseamos obtener un vector de y0 de n0 pronsticos dada una matrix X 0
de regresores imputados, nuestra proyeccin ser
y0 = X 0
(n0 1)
(3.16)
(n0 k)(k1)
(n 1)
49
= E (X ( ) + u )(X ( ) + u ) |X, X
= E (X 0 (X 0 X)1 X 0 u + u0 )(X 0 (X 0 X)1 X 0 u + u0 )0 |X, X 0
= E (X 0 (X 0 X)1 X 0 u + u0 )(u0 X(X 0 X)1 X 00 + u00 )|X, X 0
= E X 0 (X 0 X)1 X 0 uu0 X(X 0 X)1 X 00 (X 0 (X 0 X)1 X 0 u)u00
u0 (u0 X(X 0 X)1 X 00 ) + u0 u00 |X, X 0
= X 0 (X 0 X)1 X 0 E uu0 |X, X 0 X(X 0 X)1 X 00 X 0 (X 0 X)1 X 0 E uu00 |X, X 0
E u0 u0 |X, X 0 X(X 0 X)1 X 00 + E u0 u00 |X, X 0
0
Los errores
0u 0y u son
ortogonales
00 (es0 decir, independientes), motivo por el cual
0
se cumple E u u |X, X = 0 y E uu |X, X = 0. Por lo tanto,
e0 |X, X 0 = X 0 (X 0 X)1 X 0 2 Inn X(X 0 X)1 X 00 + 2 In0 n0
= 2 X 0 (X 0 X)1 X 00 + 2 In0 n0 ,
|
{z
} | {z }
(1)
(3.17)
(2)
A partir de (3.17) y (3.18) podemos construir dos tipos de IC: (i) el IC de la media
de y0 y (ii) el IC de y0 , incluyendo el error, lo que ampla su IC.
Aplicando el mismo procedimiento que con un coeficiente j podemos obtener un
IC de la prediccin:
i
h
nk
nk
1 = P y0 t1/2
se0 y0 y0 + t1/2
se0 ,
q
b 0 |X, X 0 ] con [e
b 0 |X, X 0 ] = 2 [X 0 (X 0 X)1 X 00 + I 0 ]. Si n0 es
donde se0 = diag
[e
n
b 0 ] con dimendiones n0 n0 , cuyo elemento diagonal
mayor a 1 tendremos una MVC [e
50
101,2
100,9
1,2
IC 95 % de y 10
Pred. media
100,9
100,6
100,6
100,3
100,3
100
100
101
103
107
109 1011
105
MW producidos acumulados [escala log]
101
103
107
109 1011
105
MW producidos acumulados [escala log]
A modo de ejemplo, para la proyeccin para Argentina en los dos escenarios propuestos tenemos 2 = 19586868,038,
[e0 ] = 25291296,02 1371228,44 ,
1371228,44 23074370,36
5704427,98 1371228,44
[E(y0 ) y0 ] =
,
1371228,44 3487502,32
y los resultados de la tabla 3.7, donde el valor crtico de la distribucin t es 2.22814.
Tabla 3.7: Intervalor de confianza de 95 %
Media
IC de la pred. de la media
12935.49122
25581.8004
7613.816779 18257.16565
21420.78326 29742.81753
IC de la prediccin
1730.080129
14878.7596
24140.9023
36284.8412
51
(por ejemplo, excluyendo una variable importante), entoces se invalida todo el anlisis
desde el clculo de en adelante. Si los errores son heterocedsticos, por ejemplo, no
se invalida la proyeccin pero s sus intervalos de confianza.
En otras palabras, el IC nos dice cul es la confianza que se tiene de la proyeccin
cuando todo lo asumido se cumple. Si usted no confa en un investigador, tampoco
debiera confiar en los intervalos de confianza que publica.
3.4
Insesgamiento
x
x
x
x
Desv. estndar
x
x
x
x
x
x
Significancia
e ICs
x
x
x
x
x
x
x
52
x
(e) Autocorrelacin
x
(f) Heterocedasticidad
x
(d) Variable omitida
(c) Heterocedasticidad
variable omitida z
(f) Heterocedasticidad
(e) Autocorrelacin
x
(d) Variable omitida
(c) Heterocedasticidad
Vemos que cuando tenemos un nico regresor x, el anlisis grfico resulta til no
solo para reconocer outliers con apalancamiento, sino tambin para detectar violaciones
53
Contrastes de no linealidad
Los test de linealidad/no linealidad tienen como hiptesis:
H0 : la relacin entre X e y es lineal.
H1 : la relacin entre X e y es no-lineal.
Una forma sencilla de verificar la existencia de no linealidades es correr una regresin auxiliar,
y = X + Z + ,
(3.19)
donde Z es una matriz que contiene versiones no lineales (cuadrados, logaritmos, etc.)
de regresores contenidos en X. Si el test F asociado a la H0 : = 0 es significativo, se
rechaza la H0 de linealidad.
Otra forma ms popular de verificar la existencia de no linealidades es correr la
regresin auxiliar,
u = X + Z + ,
(3.20)
con los residuos u del la regresin original como variable dependiente y donde Z es ahora
una matriz que contiene cuadrados, cubos, logaritmos, etc. (segn se especifique) por lo
general de cada regresor contenido en X (slo k 1 columnas, pues se ignora la constan 2 + con los datos de la figura 3.7b,
te). Si, por ejemplo, se corre la regresin u = x + x
2
el R ser alto, mientras que para la misma regresin con los datos de la figura 3.7a el R2
ser bajo. Es decir, un mayor R2 de (3.20) es indicativo de la presencia de no linealidades.
Cun alto debe ser R2 de (3.20) para rechazar estadsticamente linealidad? Podemos
utilizar el estadstico de prueba nR2 ,
2
LM = n R2 gl
,
(3.21)
(3.22)
54
u2i
Contrastes de heterocedasticidad
Los test de homocadasticidad/heterocedasticidad tienen como hiptesis:
H0 : ui se distribuye con varianza constante a lo largo de X (homocedasticidad).
H1 : ui se distribuye con varianza cambiante a lo largo de X (heterocedasticidad).
El primer paso en un contraste de hete2
rocedasticidad
es cuadrar los residuos de
Figura 3.9: ui de fig. 3.8c
la regresin como se ilustra en las figuras
3.9 y 3.10. El test de Breusch-Pagan
tiene como regresin auxiliar la relacin
lineal
u2i
= Xi + i ,
1
2
u
i
n
(3.23)
3.4.2
55
Tests de normalidad
Si los errores poblacionales se distribuyen de forma normal, entonces los residuos
de una regresin tambin debieran distribuirse de forma normal. La forma tradicional de
verificar este supuesto es mediante la comparacin de la asimetra y la curtosis de los
residuos. Como toda distribucin normal es simtrica (asimetra S = 0) y mesocrtica
(curtosis K = 3), se puede construir el estadstico de prueba de Jarque-Bera,
n 2 1
2
JB =
S + (K 3) 22 ,
(3.24)
6
4
el cual toma mayor valor a mayor asimetra (S) y a mayor discrepancia de la curtosis
respecto de 3. Es decir, a mayor JB, ms anormal es la distribucin de los residuos. Si
JB es suficientemente elevado se puede rechazar la hiptesis nula de normalidad. La
distribucin asinttica de (3.24) es JB 22 .
Con el tiempo se ha hecho popular el contraste de Doornik-Hansen de normalidad multivariada, una variacin del contraste de Jarque-Bera cuyo estadstico de
prueba distribuye igualmente como una chi-cuadrado.
Por ltimo cabe mencionar el diagnstico va un grfico QQ. En l se grafican
los percentiles de la distribucin de la variable en cuestin versus los cuantiles de la
distribucin normal y una lnea de 45 . Si los residuos se distribuyen normales, entonces
cada percentil de la distribucin debe asimilarse al percentil de la distribucin normal y
las observaciones deben estar cercanas a la lnea de 45 . La figura 3.11 muestra un caso
en que los residuos s distribuyen de forma normal y otro en que no.
56
30
20
2
1
10
0
0
-1
-10
-2
-20
-30
-30
-3
-4
-20
-10
10
20
30
Cuantiles de la Normal
3.4.4
-4
-3
-2
-1
Cuantiles de la Normal
Tests de inestabilidad
En la tabla 3.9 se presentan los
resultados
de la regresin
Tabla 3.9: Estimacin de la tasa de crecimiento
de Mxico (1960-2005)
ln(PIB) = 0 + 1 Ao + u
Var dep.: log. PIB per cpita
1960-2005 1960-1981 1982-2005
para tres submuestras del PIB per cpita mexicano. La primera toma to
Ao
0.0159
0.0327
0.00616
tes se restringen a antes de 1981 y des(0.00112)
(0.000911)
(0.00164)
pus de 1981 respectivamente. Como
el modelo es log-nivel, el coeficiente
n
35
21
14
1 se interpreta como la tasa de creciR 2
0.821
0.985
0.364
miento anual del nivel de ingreso en
Desviaciones tpicas entre parntesis
el pas.
* indica significativo al nivel del 10 por ciento
** indica significativo al nivel del 5 por ciento
Los resultados son muy distintos.
Si tomamos el periodo completo la tasa de crecimiento del ingreso de los mexicanos fue
de 1,6 %. Pero durante ese periodo hubo una diferencia notable entre lo que se vio entre
1960 y 1981, con un crecimiento de 3,3 % y luego entre 1982 y 2005, con un crecimiento
de tan slo 0.6 %. Este cambio, el cual resulta evidente a simple vista en la figura 3.12,
corresponde a lo que se denomina cambio estructural.
Si tenemos un modelo con varios regresores es probable que no sea fcil encontrar
cambios estructurales con un simple anlisis grfico, caso en el que podemos recurrir
a un test F denominado contraste de Chow de cambio estructural. El test plantea
como hiptesis nula que un todas las observaciones provienen de un mismo PGD y
como hiptesis alternativa plantea que, dividiendo la muestra en dos, ambas submuestras
provienen de PGD distintos (por ejemplo, que la economa mexicana tuvo tasas de
crecimiento distintas en los dos periodos analizados).
57
(u0r ur u0 u)/(q)
Fq,nk
0
u u/(n
k)
(3.25)
donde ur corresponden a los residuos de una regresin MCO restringida (con los q
regresores excluidos), q denota el nmero de regresores que han sido restringidos a cero
y u representan los residuos del modelo MCO original.
Estadstico F
ln(PIB)
2005
58