Generalidades de la econometría
La econometría es una rama de la economía que consiste en la creación de modelos para estimar
métodos que permitan explicar fenómenos económicos.
1. Especificación: Se definen las variables exógenas y endógenas, así como se formulan los
supuestos y los objetivos
2. Estimación: Se hacen los estudios y se realizan pruebas sobre los datos
3. Validación: Se revisa el modelo y se corroboran los supuestos
4. Pronóstico – Simulación: Se hacen predicciones en base a lo estimado en el modelo.
5. Análisis: Se interpretan los resultados y se confrontan con la teoría.
Los modelos pueden clasificarse según diferentes aspectos, tal y como se resume en la siguiente
tabla.
Para hallar la forma funcional de esta línea es necesario aclarar cuáles son los β. Primero se hará
una explicación para el modelo de dos β y luego se generalizará para n β.
Para minimizar, derivamos con respecto a β 0 e igualamos a 0. El -2 pasa a dividir, de forma que se
elimina. Luego se reparte la sumatoria
S N
2 (Yi β 0 β1X i ) 0
β 0 i 1
N
(Y βˆ
i 1
i 0 βˆ 1X i ) 0
N N N
Yi βˆ 0 βˆ 1X i 0
i 1 i 1 i 1
Queremos despejar β̂ 0 . Para ello, recordemos que la suma de una constante desde 1 hasta N es
multiplicar dicha constante por N. Dicho esto, tenemos:
N N N
Y βˆ Y βˆ
i 1
i 1
i 1
i
i 1
0
N N
Yi βˆ 1 Yi Nβˆ 0
i 1 i 1
N N
Yi Y i
i1
βˆ 1 i 1
βˆ 0
N N
Por último, la definición de media de una variable nos dice que ésta se halla sumando todos los
valores y dividiendo por el número de datos. Entonces
βˆ 0 Y βˆ 1 X
S N
2 (Yi β 0 β1X i )(Xi ) 0
β1 i 1
N
(Y βˆ
i 1
i 0 βˆ 1X i )(Xi ) 0
N N N
YiXi βˆ 0 Xi βˆ 1 Xi 0
2
i 1 i 1 i 1
N N N
YiX i (Y βˆ 1 X) Xi βˆ 1 Xi 0
2
i 1 i 1 i 1
N N N N
YiX i Y X i βˆ 1 X X i βˆ 1 Xi 0
2
i 1 i 1 i1 i 1
N N N N
Y X Y X βˆ (X X X )0
2
i i i 1 i i
i 1 i 1 i 1 i 1
Despejando β̂ 1
N N
Y X i Yi X i
β̂1 i1
N
i1
N
X Xi Xi
2
i1 i1
N N
Cambiamos de signos y sumando y restando por X Yi en el numerador y por X X i obtenemos
i 1 i 1
N N
YiXi Y Xi
βˆ 1 i 1
N
i 1
N
X X Xi
2
i
i1 i1
N N N N
YX Y X X Y X Y
i i i i i
βˆ 1 i1
N
i1
N
i 1
N
i1
N
X X Xi X Xi X Xi
2
i
i 1 i1 i1 i1
Luego, factorizamos
(Y Y)(X X)
i i
β̂1 i1
N
(X X)
i1
i
2
(Y Y)(X X)
i1
i i
βˆ 1 N1
N
(X X)
i1
i
2
N1
Luis Carlos Carvajal Osorio – Final Econometría 1 5
ˆβ Cov(Yi , X i )
1
Var(X i )
Pero estas fórmulas son sólo válidas para el modelo de un solo regresor. Deberemos abordar un
enfoque matricial para generalizar esto para más de un regresor.
Yi β 0 β1 X 1i β2 X 2i ... βk X ki μ i
Despejando μ
N N
ArgMín S ArgMín μ i ArgMín (Yi β 0 β 1 X 1i β 2 X 2i ... β k X ki μ i )2
2
β β i1 β i1
Y xβ μ
μ Y - xβ
μ 1 Y1 1 X 11 X 21 ... X k1 β 0
μ Y β
2 2 1 X 12 X 22 ... X k2 1
... ... ... ... ... ... ... ...
μ N Nx1 YN Nx1 1 X 1N X 2N ... X kN Nx(k1) βk (k1)x1
μ 1 Y1 β 0 β1X 11 β2 X 21 ... βk X k1
μ Y β1X 12 β2 X 22 ... βk X k2
2 2 β 0
... ... ... ... ... ... ...
μ N Nx1 YN Nx1 β1 β1X 1N β2 X 2N ... βk X kN Nx1
μ 12 (Y1 β 0 β1X 11 β2 X 21 ... βk X k1 )2
2 2
μ 2 (Y1 β 0 β1X 12 β2 X 22 ... βk X k2 )
... ...
2 2
μ N Nx1 (Y1 β 0 β1X 1N β2 X 2N ... βk X kN ) Nx1
Procedo a derivar con respecto a cada β e igualar a 0. La única derivada distinta a las demás es la
de β 0 . Las demás serán todas iguales, con la única diferencia en la X que distribuyo
N
ArgMín (Yi β 0 β1X 1i β2 X 2i ... βk X ki μ i )2
β i 1
S N
2 (Yi βˆ 0 βˆ 1X 1i βˆ 2 X 2i ... βˆ k X ki ) 0
β 0 i 1
S N
2 (Yi βˆ 0 βˆ 1X 1i βˆ 2 X 2i ... βˆ k X ki ) 0
β 0 i 1
S N N
2 Yi 2 (βˆ 0 βˆ 1X 1i βˆ 2 X 2i ... βˆ k X ki ) 0
β 0 i 1 i 1
S N
2 (Yi βˆ 0 βˆ 1X 1i βˆ 2 X 2i ... βˆ k X ki )(X1i ) 0
β1 i 1
S N
2 (YiX 1i βˆ 0 X 1i βˆ 1X 1i βˆ 2 X 2iX 1i ... βˆ k X kiX 1i ) 0
2
β1 i 1
S N N
2 YiX 1i 2 (βˆ 0 X 1i βˆ 1X 1i βˆ 2 X 2iX 1i ... βˆ k X kiX 1i ) 0
2
β1 i 1 i 1
X’Xβ. Cada fila representa la derivada respecto a cada parámetro (la tercera fila es para X2, la
cuarta es para X3, y así sucesivamente)
N
Yi
1 1 1 ... 1 Ni1
Y1 YX
X X 12 X 13 ... X 1N
11 Y i 1
i 1i
X Y X 21 X 22 X 23 ... X 2N 2 N
... Yi X 2i
... .... .... .... ... i1
YN
X k1 X k2 X k3 .... X kN (k1)xN Nx1
...
N
Yi X ki
i1 (k1)x1
N N N
X1i X2i Xki
N i1 i1
...
i1
1 1 1 ... 1 N N 2 N N
X11 X12 X13 ... X1N
1 X11 X21 ... Xk1 X1i X1 X1iX2i ... X1iXki
1 ... Xk2 i1 i1 i1 i1
X X X21 X2N
X12 X22
N
...
X22 X23 ...
... ... ... ... ... X2i N
X1iX2i
N 2
X2
N
... X2iXki
.... .... .... ...
1 ...XkN i1
X1N X2N Nx(k 1) i1 i1 i1
Xk1 Xk2 Xk3 .... XkN
(k 1)xN ... .... .... .... ...
N
X
N N
X1iXki X2iXki .... Xki
N 2
i1 ki i1 i1 i1
N N
X 1i
N
X 2i X ki
N
... N N N
N
i 1
N N
i 1
N
i 1
β β 0 β X
1 1i ... β k X ki
i X 1i X
2
X 1i X 2i ... X 1i X ki 0 N i 1 i 1
N
i 1
N
1
0 1i 1 1i
1 i 1 i 1 i 1
β
2
X Xβˆ N N N N 1 β X β X ... β X X
k 1i ki
X 2i X 1i X 2i X2
2
... X 2i X ki ... i 1 i 1 i 1
i1 i 1 i 1 i 1 ...
N ... .... .... .... ... βk N N N
k ki
2
N N N (k 1)x1 β X β X X ... β X
X ki X 1i X ki X 2i X ki .... X ki2
0 ki 1 1i ki
(k 1)x1
i1
i 1 i 1 i 1
i 1 i 1 i 1
Lo único que falta es multiplicar por los escalares. Así, obtenemos que
S
2XY 2XXβˆ
β
S
Ahora, 2X Y 2X Xβˆ 0
β
Despejemos β̂
Luis Carlos Carvajal Osorio – Final Econometría 1 8
2X Xβˆ 2X Y
X Xβˆ X Y
Para obtener β̂ sola, nos “estorba” X’X. Como estas son matrices, no se pueden pasar a dividir. Por
eso, multiplicamos por su inversa (este es el equivalente a pasar a dividir en álgebra lineal). Así
llegamos a
La matriz identidad multiplicada por cualquier matriz da como resultado dicha matriz. Así
βˆ (XX)1 XY
Ahora demostraremos algunas propiedades derivadas de este resultado. Antes de esto, conviene
indicar que toda variable con ^ es estimada. Ŷi Es el valor estimado de Y. Además, el residual se
define como la diferencia entre el valor estimado y el valor real de Y. Esto es μˆ i Yi Yˆi .
N
N N N
Yi
β 0 β1X 1i ... βk X ki Ni1
YX
N i 1 i1 i1
N
β X β X ... β X X
N i 1i
2 i 1
0 1i 1 1i k 1i ki
N
i 1 i 1
...
i 1
Yi 2i
X
N N N i 1
i 1 (k1)x1
N N N N
Si tomamos la primera fila tenemos que β0 β1X1i ... βk Xki Yi
i1 i1 i1 i1
Luis Carlos Carvajal Osorio – Final Econometría 1 9
N N N N
β 0 β X 1 1i β X k ki Y i
i1
i1
i1
i1
N N N N
La expresión de la izquierda es el promedio de todas las variables exógenas. Esto es lo mismo que
el promedio de Ŷ . De ahí concluimos que Yˆ Y
μˆ Y Yˆ
i i i
Si dividimos esta expresión por N, obtenemos i1
i1
i1
. Por definición esto será
N N N
μˆ i Yi Yˆi . Pero Yˆ Y , por tanto μˆ i Yi Yˆi 0 . Esto implica dos cosas. La primera es que la
suma de residuales es 0. Además el valor medio (el valor esperado) de los residuales es cero.
μ 1
μ
N
Esto es Yˆ μˆ Yˆ1 Yˆ2 ... YˆN 1xN 2 Yˆiμˆ i . De acuerdo a la definición de Yˆ Xβˆ
... i1
μ N Nx1
tenemos
N N
La demostración anterior nos dice que cada uno de estos productos es 0. Además la suma de los
N
residuales es 0. Así: Yˆ μˆ
i1
i i 0 0 0 0 0... 0 0
Coeficiente de determinación R2
El coeficiente de determinación R2 es una medida de bondad de ajuste lineal (es decir, busca
N
(Yˆ Yˆ )
i i
2
N N N N
N N
Por propiedades ya demostradas, podemos eliminar los dos términos de la mitad, pues ambos son
iguales a 0
N N N
N (Yˆ Yˆ )
i i
2
N N N
(Y Y )
i1
i i
2
(Y Y ) (Y Y )
i1
i i
2
i1
i i
2
N N N
(Yi Yi )2 μi (Yˆ Yˆ )
2 2
i i
i1
N
N
i1
i1
N
(Y Y ) (Y Y )
i1
i i
2
i1
i i
2
(Y Y )
i1
i i
2
μ
2
i
R2 1 N
i1
(Y Y )
i1
i i
2
1
M0 I ii
N
1
1
i
...
1
1
1
ii 1 1 ... 11xN
...
1 1xN
Luis Carlos Carvajal Osorio – Final Econometría 1 12
1 1 ... 1
1 1 ... 1
ii
...
... ... ...
1 1 ... 1 NxN
1 1 1
N N ... N
1 1 1
1
ii N ...
N N N
... ... ... ...
1 1 ... 1
N N N NxN
1 1 1
...
1 0 ... 0 N N N
0 1 1
1 1 ... 0
1
I ii N ...
N ... ... ... ... N N
... ... ... ...
1 NxN 1
...
0 0 ... 1 1
N N N NxN
1 1 1
1 N N ...
N
1 1 1
M0 N 1 N ...
N
... ... ... ...
1
1
... 1
1
N N N NxN
Esta es una matriz idempotente. Esto significa que al multiplicarse por sí misma da la misma
matriz.
En la diagonal queda el 1-1/N al cuadrado porque se “cruzan” al hacer filas por columnas. El resto
de términos es (1/N) x (1/N), que se repite N-1 veces (el -1 es porque el término que falta es el (1-
1/N)2
En el resto de espacios va el (1-1/N) que se cruza dos veces con (-1/N) y los otros términos son
(1/N) x (1/N), que se repite N-2 veces (el -2 es porque los términos que faltan son los (-1/N) x (1-
1/N)
Luis Carlos Carvajal Osorio – Final Econometría 1 13
1 1 1 1 1 1
1 N N ... N 1 N N ... N
1 1 1 1 1 1
M0M0 1 ... 1 ...
N N N N N N
... ... ... ... ... ... ... ...
1
1
... 1
1 1
1
... 1
1
N N N NxN N N N NxN
1 2 N1 2 1 N2 2 1 N 2
(1 N) ( N2 ) N (1 N) N2 ... (1 ) 2
N N N
2 1 N2 1 2 N1 2 1 N 2
M0M0 N (1 N) N2 (1 ) ( 2 ) ... (1 ) 2
N N N N N
... ... ... ...
2 (1 1 ) N 2 2 (1 1 ) N 2 ... 2 (1 1 ) N 2
N N N2 N N N2 N N N2 NxN
2 1 N2 2 2 N 2 2 1 1
(1 ) 2 2 2 2
N N N N N N N N N N
1 N1 2 1 N 1 2 1 1
(1 )2 ( 2 ) 1 2 2 2 1 1
N N N N N N N N N
1 1 1
1 N N ... N
1 1 1
M0M0 1 ...
N N N
... ... ... ...
1
1
... 1
1
N N N NxN
1 1 1
1 N N ... N Y1
1 1 1 Y
M0 Y 1 ... 2
N N N ...
... ... ... ...
1
1
... 1 N Nx1
1 Y
N N
N NxN
1 Y2 YN
Y1 (1 N) N ... N
Y1 1 YN
M0 Y - Y 2 (1 )...
N N N
...
Y1 Y2 ... YN (1 1 )
N N N N Nx1
Luis Carlos Carvajal Osorio – Final Econometría 1 14
1 N
1 N Yi
Y
i 1
N
Y 1
M0 Y 2 N Yi
i 1
...
1 N
YN Yi
N i1 Nx1
Y1 Y
Y2 Y
M0 Y
...
YN Y Nx1
N
M0 Y (Yi - Y)
i 1
(Y - Y)
i 1
i
2
(M0 Y)(M0 Y)
N
(Y - Y)
i 1
i
2
YM0M0 Y
N
(Y - Y)
i 1
i
2
YM0M0 Y
N
(Y - Y)
i 1
i
2
YM0 Y
N
Haremos un proceso muy similar para hallar (Yˆ - Yˆ )
i1
i
2
(M0 Yˆ )(M0 Yˆ )
(Yˆ - Yˆ )
i 1
i
2
Yˆ M0 Yˆ
Ahora, dada la definición de R2, reemplazaremos estos términos por los recién encontrados
(Yˆ Yˆ ) i i
2
R2 i 1
N
(Y Y )
i 1
i i
2
Luis Carlos Carvajal Osorio – Final Econometría 1 15
Yˆ M0 Yˆ
R2
YM0 Y
Finalmente, reemplacemos Ŷ
Yˆ Xβˆ
Yˆ M0 Yˆ (Xβˆ )M0 Xβˆ
Yˆ M Yˆ βˆ XM Xβˆ
0 0
βˆ XM0 Xβˆ
R 2
YM0 Y
Ahora veremos algunas características de los diferentes componentes del modelo (X, Y, μ)
Sacamos valor esperado a ambos lados. Es importante notar que el valor esperado de Y es Xβ.
Puesto que E(μ ) 0 , entonces μ E[Y Xβ][Y Xβ]' . Ambos paréntesis son μ. Luego
Definamos la covarianza:
Luis Carlos Carvajal Osorio – Final Econometría 1 16
E[μ 3 E(μ 3 )] * E[μ 1 E(μ 1 )] E[μ 2 E(μ 2 )] E[μ 3 E(μ 3 )] ... E[μ N E(μ N )]
...
E[μ N E(μ N )]
Var(μ 1 ) Cov(μ 1μ 2 ) Cov(μ 1μ 3 ) ... Cov(μ 1μ N )
Cov(μ μ ) Var(μ 2 ) Cov(μ 2 μ 3 ) ... Cov(μ 2 μ N )
1 2
Var(μ 1 ) 0 0 ... 0
0 Var(μ 2 ) 0 ... 0
Σμ 0 0 Var(μ 3 ) ... 0
... ... ... ... ...
0 0 0 ... Var(μ N )
σ 2 0 0 ... 0
2
0 σ 0 ... 0
Σμ 0 0 σ 2
... 0
... ... ... ... ...
0 σ 2
0 0 ...
1 0 0 ... 0
0 1 0 ... 0
Σμ σ 2 * 0 0 1 ... 0
... ... ... ... ...
0 0 0 ... 1
Σμ σ 2I
E[βˆ ] β
Antes de hacer la varianza, hallemos otra forma de expresar β estimado, que nos será útil después.
βˆ (X' X) 1 X' Y
βˆ (X' X) 1 X' (Xβ μ)
βˆ (X' X) 1 X' Xβ (X' X) 1 X' μ
βˆ β (X' X) 1 X' μ
βˆ E[[(X' X) 1
X' μ][(X' X)1 X' μ]' ]
βˆ σ (X' X)
2 1
X' X(X' X)1
βˆ σ (X'X) 2 1
Distribuimos y reemplazamos Y.
Luis Carlos Carvajal Osorio – Final Econometría 1 19
~
β (X' X)1 X' Y CY
~
β (X' X)1 X' (Xβ ) C(Xβ )
~
β (X' X)1 X' Xβ (X' X)1 X' μ CXβ Cμ
~
β β (X' X)1 X' μ CXβ Cμ
Ahora, como deseamos obtener un estimador lineal insesgado, el valor esperado debe ser igual al
β poblacional.
~
β β (X' X) 1 X' μ CXβ Cμ
~
E( β ) E(β (X' X) 1 X' μ CXβ C )
~
E( β ) E( β ) E((X' X) 1 X' μ) E(CXβ ) E(C )
~
E( β ) β (X' X) 1 X' E( μ) CXE( β ) CE( )
~
E( β ) β CXβ
Para que este estimador sea insesgado, hay que imponer la siguiente restricción: CX = 0. Por tanto,
X’C’ = 0 también.
Ya con estas definiciones podemos demostrar lo inicial, esto es, que la varianza de β virgulilla es
menor que la de β gorro (la de MCO)
~
β E[(X' X) X'μμ' X(X' X) (X' X) X'μβ' X' C'(X' X) X' ' C'
1 1 1 1
CXβ ' X(X' X)1 CXβ ' X' C'CXβ ' C'
C ' X(X' X)1 C ' X' C'C ' C' ]
~
β (X' X) 1
X'E[ ' ]X(X' X)1 (X' X)1 X'E[ ' ]C'CE[ ' ]X(X' X)1 CE[ ' ]C'
Luis Carlos Carvajal Osorio – Final Econometría 1 20
Para revisar que el estimador de MCO es mejor, la diferencia de varianzas entre β virgulilla y β
gorro debe ser positiva. Entonces
~
β βˆ σ (X' X)2 1
σ 2 CC'-σ 2 (X' X) 1
~
β βˆ σ CC' 2
Este resultado es positivo, puesto que una varianza es siempre positiva y una matriz por su
transpuesta es semidefinida positiva, con lo cual se demuestra el teorema de Gauss – Markov
E[μ 1 ]
E[μ ]
2
E(μ ' ) E[μ 1 ] E[μ 2 ] E[μ 3 ] ... E[μ N ]E[μ 3 ]
...
E[μ N ]
E(μ ' ) E[μ 12 ] E[μ 22 ] E[μ 23 ] ... E[μ N2 ]
E(μ ' ) σ 2 σ 2 σ 2 ... σ 2
E(μ ' ) Nσ 2
μˆ Y Xβˆ
μˆ Y X[(X' X)1 X' Y]
μˆ Y X(X' X)1 X' Y
Ahora remplazamos M. Por propiedades de la traza, puedo cambiar el orden de las matrices y
puedo distribuir el operador traza. Así
Luis Carlos Carvajal Osorio – Final Econometría 1 22
Despejando σ2
El método de Máxima Verosimilitud sugiere que debemos elegir un conjunto de β y de μ tal que
maximicemos la probabilidad de obtener los datos reales (X e Y).
Vamos a suponer que la función de probabilidad conjunta (probabilidad de hallar los X e Y reales
dados los β los μ) es una función normal. Una función normal está dada por
1 1
exp{ (Y x )'(Y x )}
(2 ) 2 N/2
2σ 2
Esta función exponencial se puede volver lineal vía logaritmos. Queda así
1
ln ln1 ln(2π 2 )N/2 (Y x )' (Y x )
2σ 2
N N 1
ln ln1 ln(2 ) ln(σ 2 ) 2 (Y X )' (Y X )
2 2 2σ
N N 1
ln ln(2 ) ln(σ 2 ) 2 (Y X )' (Y X )
2 2 2σ
ln
β (X' X) 1 X' Y
β
ln N 1
2 (Y X )' (Y X ) 0
σ 2
2σ 2(σ 2 )2
ln (Y X )' (Y X ) - Nσ 2
0
σ 2 2(σ 2 ) 2
ln
(Y X )' (Y X ) - Nσ 2 0
σ 2
ln
(Y X )' (Y X ) Nσ 2
σ 2
(Y X )' (Y X )
σ2
N
Este estimador es sesgado, pero cumple con el criterio de consistencia (La varianza tiende a 0 a
medida que N tiende a infinito)
Definición de M
μˆ βˆ σ [{I X(X' X) X' }X(X' X) ]
2 1 1
μˆ βˆ σ [0]
2
Se cancelan términos semejantes
μˆ βˆ 0
β β i1 β i1
(Y Xβ)' (Y X ) 2(r' β' R' )λ (El dos está por facilidad matemática)
2X Y 2X Xβˆ r - 2R' λˆ r 0
β
2(Rβˆ r r) 0
λ
De la primera condición
X Xβˆ r X Y R' λˆ r
Luis Carlos Carvajal Osorio – Final Econometría 1 25
βˆ r βˆ (X X) 1 R' λˆ r
De 2 deducimos que
Rβˆ r r
Es decir,
Reemplazando:
βˆ
r
E[[βˆ r E(βˆ r )][βˆ r E(βˆ r )]' ]
βˆ
r
E[[βˆ r β][βˆ r β]' Definición de matriz varianzas y covarianzas
Valor esperado de β restringido
βˆ
r
E[[M * (X' X) -1 X' μ][M * (X' X) -1 X' μ]' ] Remplazo de la diferencia
βˆ
r
M * (X' X) -1 X' E[ ' ]X(X' X) -1 M*'
Distributiva
βˆ
r
M * (X' X) X' σ X(X' X) M*'
-1 2 -1 Valor esperado de μμ’
βˆ
r
σ 2M * (X' X) -1 X' X(X' X) -1 M*' Reorganización
Definición de β restringido
βˆ r βˆ (X' X) 1 R' [R(X' X) 1 R' ] 1 (r Rβ R(X' X) 1 X' μ)
Reorganización
βˆ r βˆ (X' X) 1 R' [R(X' X) 1 R' ] 1 (r R ) (X' X) 1 R' [R(X' X) 1 R' ] 1 R(X' X) 1 X' μ
βˆ r β (X' X) 1 X' μ (X' X) 1 R' [R(X' X) 1 R' ] 1 δ (X' X) 1 R' [R(X' X) 1 R' ] 1 R(X' X) 1 X' μ Definición de δ y de β MCO
Distributiva
βˆ r β (X' X) 1 X' μ (X' X) 1 R' [R(X' X) 1 R' ] 1 R(X' X) 1 X' μ (X' X) 1 R' [R(X' X) 1 R' ] 1 δ
βˆ r β [ I (X' X) 1 R' [R(X' X) 1 R' ] 1 R](X' X) 1 X' μ (X' X) 1 R' [R(X' X) 1 R' ] 1 δ Factor común
Definición de M*
βˆ r β (X' X) 1 R' [R(X' X) 1 R' ] 1 δ M * (X' X) 1 X' μ
Por definición
Luis Carlos Carvajal Osorio – Final Econometría 1 27
βˆ
r
E[[βˆ r E(βˆ r )][βˆ r E(βˆ r )]' ] Definición de Σ
βˆ
r
1 1 1 1 1 1 1
E[[β (X' X) R' [R(X' X) R' ] δ M * (X' X) X' μ β (X' X) R' [R(X' X) R' ] δ]
Definición de β restringido
[β (X' X) 1 R' [R(X' X) 1 R' ] 1 δ M * (X' X) 1 X' μ β (X' X) 1 R' [R(X' X) 1 R' ] 1 δ]' ]
Términos semejantes se
βˆ
r
E[[M * (X' X) -1 X' μ][M * (X' X) -1 X' μ]' ] Σ cancelan
βˆ
r
M * (X' X) -1 X' E[ ' ]X(X' X) -1 M*' Lo único estocástico es μ
βˆ
r
M * (X' X) -1 X' σ 2 X(X' X) -1 M*' Valor esperado
βˆ
r
σ 2M * (X' X) -1 X' X(X' X) -1 M*'
βˆ
r Matriz por su inversa
σ 2M * (X' X) -1 M*'
βˆ
r
σ 2M * (X' X)-1 M*' σ 2 (X' X)-1 σ 2 (X' X)1 R' [R(X' X)1 R' ]1 R(X' X)-1
βˆ βˆ
r
Vamos entonces a hacer la resta
βˆ βˆ
r
σ 2 (X' X) -1 - σ 2 (X' X) -1 σ 2 (X' X) 1 R' [R(X' X) 1 R' ]1 R(X' X) -1
βˆ βˆ
r
σ 2 (X' X) 1 R' [R(X' X) 1 R' ]1 R(X' X) -1
Luis Carlos Carvajal Osorio – Final Econometría 1 28
Este resultado es una matriz semidefinida positiva. Las matrices semidefinidas positivas sólo se
obtienen en caso de que el término con signo positivo sea mayor al que tiene signo negativo, o lo
que es lo mismo, que el de signo negativo sea menor. En este caso, el signo negativo está en el
estimador de Mínimos Cuadrados Ordinarios Restringidos y dado que tenemos la matriz
semidefinida positiva, dicho estimador debe ser menor que el de MCO
Intervalos de confianza
Intervalo de confianza para β
A diferencia de la estimación puntual, que es la que se desarrolla habitualmente (ejemplo
μˆ ' μˆ
βˆ (X' X)1 X' Y ; σˆ 2 ) la estimación por intervalos plantea que el valor poblacional de la
NK
varianza a estimar se encuentra entre ciertos números (los límites del intervalo) en el 1 – α por
ciento de los casos, donde α es el nivel de significancia. Esto sólo se da en muestreo repetido. Para
un solo intervalo, la estimación sólo tiene dos probabilidades: el valor poblacional está (1) o no
está (0). La probabilidad significa que dado una cantidad de muestras (con X e Y diferentes en cada
muestreo), el (1-α) % de los casos obtendré un intervalo que incluya al valor poblacional.
Para obtener el intervalo de confianza para β, partiremos del supuesto de que βˆ ~ [ , σ 2 (X' X) 1 ]
Por ende, si tenemos un modelo de mínimos cuadrados restringidos:
La matriz R será una matriz de ceros y unos con tamaño (1 x k) con k siendo el número de β,
incluyendo el intercepto, en la que habrá un 1 por cada β al que le quiera hallar el intervalo de
confianza. Por ejemplo, si deseo estimar β3 en un modelo con 4 variables (matriz β de 5 x 1)
tendría una matriz R así:
R 0 0 1 0 0
β1
β
2
Rβ 0 0 1 0 0β3 β3
β4
β5
Definiremos una variable Z como una normal estándar, que se halla restando por la media y
dividiendo por la desviación estándar. Esto es:
Luis Carlos Carvajal Osorio – Final Econometría 1 29
Rβˆ - Rβ
Z ~ N(0,1) .
σ R(X' X) 1 R'
μˆ ' μˆ (N - K)σˆ 2
2
2
~ χ N2 K
σ σ
Si dividimos la variable Z sobre la raíz de la anterior, tendremos una variable que distribuye t de
Student, con lo cual podremos hallar los límites del intervalo.
Rβˆ - Rβ
σ[R(X' X) 1 R' ]1/2 Rβˆ - Rβ
t ~ t nk
(N - K)σˆ 2 1/2 σˆ [R(X' X) 1 R' ]1/2
[ ]
σ2
Para armar el intervalo, diremos que el valor de la distribución quedará entre los valores negativo
y positivo de t nk que generan una probabilidad de α/2, porque debemos repartir entre ambas
colas de la distribución el valor de significancia.
Rβˆ - Rβ
P( t α/2 nk 1
t α/2 nk ) 1 - α
σˆ [R(X' X) R' ] 1/2
P( t nk σˆ [R(X' X) 1 R' ]1/2 Rβˆ - Rβ t α/2 nk σˆ [R(X' X) 1 R' ]1/2 ) 1 - α
α/2
P(-Rβˆ t α/2 nk σˆ [R(X' X) 1 R' ]1/2 -Rβ Rβˆ t α/2 nk σˆ [R(X' X) 1 R' ]1/2 ) 1 - α
P(-Rβˆ t α/2 nk σˆ [R(X' X) 1 R' ]1/2 -Rβ Rβˆ t α/2 nk σˆ [R(X' X) 1 R' ]1/2 ) 1 - α
P(Rβˆ tα/2 nk σˆ [R(X' X)1 R' ]1/2 Rβ Rβˆ tα/2 nk σˆ [R(X' X)1 R' ]1/2 ) 1 - α
Región de confianza para dos o más β
Es posible extender este modelo para hacer regiones de confianza, que estarán definidas cuando
queremos hallar intervalos de confianza simultáneamente para dos o más variables. Si tenemos en
cuenta que multiplicar la variable Z varias veces nos da como resultado una χ2 con los grados de
libertad determinados por el número de veces que haga la multiplicación. Entonces, si tenemos j
restricciones, tendremos esto (hay inversa porque no existe la división de matrices)
Siguiendo la misma lógica que con una sola restricción, definiremos λ como la división de las dos χ2
mencionadas, que a su vez están divididas por sus grados de libertad. Por definición, esta variable
distribuye F con j y N-K grados de libertad
Sin embargo, esta vez no tendremos una desigualdad doble, sino una sencilla puesto que estamos
delimitando una región. Dicha desigualdad estará definida por:
μˆ ' μˆ (N - K)σˆ 2
2
2
~ χ N2 K
σ σ
(N - K)σˆ 2
χ N2 K,1-α/2 χ N2 K, α/2
σ2
Despejamos para la varianza. Hay que tener en cuenta que si invertimos numerador y
denominador, la desigualdad cambiará de sentido. Luego de invertir, obtenemos
1 σ2 1
2
χ N2 K, α/2 (N - K)σˆ 2
χ NK,1-α/2
(N - K)σˆ 2 (N - K)σˆ 2
σ 2
2
Ejemplo ilustrativo
Dado el modelo
Yi β 0 β1 X 1i β2 X 2i
1.6 1 0.6
Luis Carlos Carvajal Osorio – Final Econometría 1 32
P(Rβˆ t α/2 nk σˆ [R(X' X) 1 R' ]1/2 Rβ Rβˆ t α/2 nk σˆ [R(X' X) 1 R' ]1/2 ) 1 - α
Por el mismo método aplicado, podemos demostrar que el intervalo de confianza para β 2 es [1.76,
3.84]
0 1 0
La matriz de restricciones será R
0 0 1
Como nos toca hallar la inversa de esta matriz, repasemos cómo se hace:
Hallamos la matriz adjunta que es la matriz de cofactores transpuesta. Atención con los cambios
de signos.
0.5 1 0.6 - 1
Adj
1 0.6 - 1 0.5
Luis Carlos Carvajal Osorio – Final Econometría 1 33
Luego dividimos todos los términos por el determinante y el resultado es la matriz inversa.
0.6 1
0.7 0.7 - 0.857 1.428
1 0.5 1.428
- 0.714
0.7 0.7
Ya tenemos todos los elementos necesarios para remplazar en la fórmula. Aclaremos que F de 2 y
29 es igual a 3.33.
Sabemos que Y0=X’0β + μ0. Entonces Yˆ 0 X 0 βˆ Con este valor podremos hacer la estimación
puntual de Y.
La diferencia entre el valor estimado y el valor real será Yˆ 0 Y X 0βˆ - X 0β - μ 0 X 0 (βˆ - ) - μ 0
Luis Carlos Carvajal Osorio – Final Econometría 1 34
La varianza de esta diferencia será el valor esperado al cuadrado. Recordemos que una matriz por
su transpuesta es el equivalente a elevar al cuadrado cada término de la matriz.
Finalmente, dentro del primer término, tenemos E[ X 0 (βˆ - β)(βˆ - β)' X 0 ] . La expresión
E[(βˆ - β)(βˆ - β)' ] es la matriz de varianzas y covarianzas de β estimado, que es igual a
E[(βˆ - β)(βˆ - β)' ] σ 2 (X' X) 1 . Reemplazando este valor, tenemos que el primer término es igual a
σ 2 [X 0 (X' X) 1 X 0 ]
El siguiente paso es estandarizar la distribución normal de Y estimado. Esto es, debemos restar por
el valor esperado y dividir por su desviación estándar. Sabiendo que Y estimado es igual a
Yˆ 0 X 0 βˆ , esta distribución queda así
X 0βˆ - Y0
Z ~ N(0,1)
σ[X 0 (X' X) 1 X 0 1] 1/2
μˆ ' μˆ (N - K)σˆ 2
~ χ N2 K
σ2 σ2
Dividimos la distribución normal sobre la raíz cuadrada del cociente de la χ2 y sus grados de
libertad. Entonces
Luis Carlos Carvajal Osorio – Final Econometría 1 35
X 0βˆ - Y0
σ[X 0 (X' X) 1 X 0 1] 1/2 X 0βˆ - Y0
t ~ t nk
(N - K)σˆ 2 1/2 σˆ [X 0 (X' X) 1 X 0 1] 1/2
[ ]
σ2
Por último, el intervalo de confianza lo armaremos de una forma parecida a la hecha con β.
X 0βˆ - Y0
P( t α/2 nk t α/2 nk ) 1 - α
σˆ [X 0 (X' X) X 0 1]
1 1/2
P( t α/2 nk (σˆ [X 0 (X' X) 1 X 0 1] 1/2 ) X 0βˆ - Y0 t α/2 nk (σˆ [X 0 (X' X) 1 X 0 1] 1/2 )) 1 - α
P(-X βˆ t α/2 nk (σˆ [X (X' X) 1 X 1] 1/2 ) -Y X βˆ t α/2 nk (σˆ [X (X' X) 1 X 1] 1/2 )) 1 - α
0 0 0 0 0 0 0
P(X0βˆ t α/2
nk (σˆ [X0 (X' X) X 0 1] ) Y0 X0βˆ t
1 1/2 α/2
nk (σˆ [X0 (X' X) X 0 1]1/2 )) 1 - α
1
Pruebas de Hipótesis
Hipótesis Nula (H0), también llamada hipótesis de investigación. Lo que queremos probar
Hipótesis Alterna (H1), justo lo contrario a la hipótesis nula
Estadístico de prueba, un valor con el cual se demostrará la hipótesis
Región de rechazo: Conjunto de puntos que rechazan la hipótesis nula.
Lo primero que uno debe hacer es definir las hipótesis. La hipótesis debe estar en términos
poblacionales. Luego, se define el estadístico de prueba conveniente (hay que conocer su
distribución y establecer un nivel de significancia, que es el máximo error tipo I permisible. El error
tipo I es rechazar la hipótesis nula siendo ésta verdadera). Se elige la región de rechazo de acuerdo
a las hipótesis planteadas.
Para una sola β, el estadístico de prueba será la distribución t usada para el intervalo de confianza
Rβˆ - Rβ
~ tnk
σˆ [R(X' X)1 R' ]1/2
Ahora, si queremos hacer una prueba conjunta, para más de una β definiremos el estadístico de
prueba con la distribución F, exactamente el mismo usado para la región de confianza.
Pero esta forma puede ser inconveniente. Se pueden usar entonces otras formas de expresar λ
(N - K)σˆ 2
Usaremos el estadístico de prueba 2
~ χ N2 K
σ
La multicolinealidad es un problema que consiste en la existencia de una relación lineal entre los
regresores. Idealmente, los regresores deber ser independientes entre sí, pero este no es siempre
el caso. Este problema sucede porque el determinante de la matriz X’X es 0, por lo cual no hay
inversa. Vamos a demostrar una forma de revisar su existencia.
1
X 11 X 21 Y1
βˆ 1 X 11 X 12 ... X 1n X 21 X 22 X 11 X 12 ... X 1n Y2
ˆ
β 2 X 21 X 22 ... X 2n ... ... X 21 X 22 ... X 2n ...
X 1n X 2n Yn
1
βˆ 1 X 1i2 X X X 1iYi
ˆ
1i 2i
X Y
β 2 X 1iX 2i X 2
2i 2i i
(X 1i X)(X2i X)
ρ x 1 ,x 2
Cov(x 1 , x 2 )
N1
Var(x 1 )Var(x 2 ) (X1i X)2 (X2i X)2
(N 1) 2
( (X1iX 2i ))
2
r1,2
2
(X ) (X
1i
2
2i ) 2
Sabiendo este resultado, podremos seguir. La inversa de una matriz es el inverso multiplicativo de
su determinante por la matriz adjunta. Para nuestro caso, será
X 22i X 1iX 2i
βˆ 1
ˆ
1 (X1i )2 (X 2i )2
X X
1i 2 2i X 1iYi
(X ) 2
(X ) 2
β 2 (X1i ) (X 2i ) ( X 1iX 2i )
2 2 2
1i 2i X 1i X 2iYi
(X1i ) (X2i ) (X1i ) (X2i ) (X1i ) (X2i )
2
(X1i ) (X2i )
2 2 2 2 2 2 2
r1,2
( X 1i2 ) 1
βˆ 1 1 (X1i ) (X 2i ) X 1iYi
2 2
ˆ 2 X Y
2i i
r1,2
β 2 1 r1,2 ( X 2i )
2 1
1i 2i
(X )2 (X )2
r1,2
( X 1i2 ) 1
β̂ σ 2
(X' X) 1
σ
2
(X1i ) (X2i )
2 2
2 r1,2
1 r1,2
( X 22i ) 1
(X1i ) (X 2i )
2 2
1
La expresión se conoce como factor de aumento de la varianza. Hay problemas de
1 r1,2
2
Otro problema que presentan las dummies es que no necesariamente expresan un valor
cuantitativo real. Por ejemplo, una persona estrato 2 no es el doble de rica que una persona
estrato 1.
El modelo de MCO es el mejor modelo que se puede utilizar sólo si todos sus supuestos se
cumplen. Lastimosamente, dichos supuestos son muy restrictivos. La siguiente tabla resumirá los
diferentes supuestos incumplidos, las pruebas de detección y la solución para estas violaciones.
Ω 1 P' P Donde P es una matriz triangular superior. Esta matriz aparecerá en la matriz de
varianzas y covarianzas de μ. Antes de seguir, definamos la notación a usar. X*=PX. Y*=PY y μ*=Pμ.
βˆ MCG (X * X*) 1 X * Y *
βˆ MCG σ 2 (X * X*) 1
βˆ MCG σ 2 ((PX)(PX))1
βˆ MCG σ 2 (X PPX) 1
βˆ MCG σ 2 (X Ω 1 X) 1
NK NK
(PY - PX )' (PY - PXˆ )
ˆ
σˆ MCG
2 MCG MCG
NK
NK
NK
Es posible obtener estos estimadores a través del método de máxima verosimilitud. En este caso,
la función estará dada por
1 1
exp{ (Y x )' Ω1 (Y x )}
(2π 2 )N/2 Ω
1/2 2
2σ
N N 1 1
ln ln1 ln(2 ) ln(σ 2 ) - ln Ω 2 (Y X )' Ω -1 (Y X )
2 2 2 2σ
N N 1 1
ln ln(2 ) ln(σ 2 ) - ln Ω 2 (Y X )' Ω -1 (Y X )
2 2 2 2σ
La derivada respecto a β será muy similar a la presentada en la Demostración 2: ¿Cómo hallar los β
en el modelo general de MCO?. Quedará exactamente igual. ( βˆ (XΩ1X)1 XΩ1Y )
MCG
ln N 1
2 (Y X )' Ω -1 (Y X ) 0
σ 2
2σ 2(σ 2 )2
ln - Nσ 2 (Y X )' Ω -1 (Y X )
0
σ 2 2(σ 2 )2
ln
-Nσ 2 (Y X )' Ω -1 (Y X ) 0
σ 2
ln
(Y X )' Ω -1 (Y X ) Nσ 2
σ 2
ln (Y X )' Ω -1 (Y X )
σ2
σ 2
N
Heteroscedasticidad
La Heteroscedasticidad es la situación en la que hay varias varianzas distintas al interior del
modelo. Esto es, la matriz de varianzas y covarianzas estará dada por
Var(μ 1 ) 0 0 ... 0
0 Var(μ 2 ) 0 ... 0
Σμ 0 0 Var(μ 3 ) ... 0
... ... ... ... ...
0 0 0 ... Var(μ N )
Normalmente asumiríamos que estas varianzas son todas idénticas, pero este no es el caso. Para
solucionar el problema usamos MCG, como ya se mencionó. Así nuestros β serán
βˆ MCG (XΩ1X)1 XΩ1Y . Pero hay un problema, ¿Qué es Ω? Al estimar Ω tenemos Mínimos
Cuadrados Generalizados Factibles (MCGF) βˆ MCGF (X Ω
ˆ 1 X) 1 X Ω
ˆ 1 Y .
Para asumir Ω, definiremos P como una matriz diagonal con el inverso de las desviaciones
estándar.
Luis Carlos Carvajal Osorio – Final Econometría 1 42
1
σ 0 0 ... 0
1
0 1
0 ... 0
σ2
P 1
0 0 ... 0
σ3
... ... ... ... ...
1
0 0 0 ...
σ N
Y1
σ
1
Y2
Y* σ Este método se conoce como Mínimos Cuadrados Ponderados. Este método resulta
2
...
Y
N
σ N Nx1
muy impráctico, por lo cual no tiene mucho uso. Sin embargo, se puede asumir una matriz con dos
varianzas distintas (divido la muestra en dos partes, no necesariamente iguales).
σ 1 0 0 ... 0
0 σ1 0 ... 0
Σμ 0 0 ... ... 0
... ... ... σ 2 ...
0 0 0 ... σ 2
H0 σ 1 σ 2
H1 σ 1 σ 2
(N - K)σˆ 2
Construyamos el estadístico de prueba. Sabemos que 2
~ χ N2 K y además, sabemos que
σ
una distribución F es el cociente de dos distribuciones chi cuadrado divididas por sus grados de
Luis Carlos Carvajal Osorio – Final Econometría 1 43
2
(N1 - K)σˆ 1
2
σ1
(N1 - K)
libertad. Esto implica que 2
~ FN1-K,N2-K . Simplificando esta expresión llegamos a
(N2 - K)σˆ 2
2
σ1
(N2 - K)
2 2
σˆ 1 σˆ 1
2
~ FN1-K,N2-K . La región de rechazo se determinará de acuerdo a 2 FN1-K,N2-K
σˆ 2 σˆ 2
1. Implementar MCO
2. Obtener los residuales al cuadrado
3. Realizar mediante MCO la regresión ln μˆ 2 i α 0 α 1 Z 1i α 2 Z 2i ... α k Z ki ε
4. K
5. Construir
6. Aplicar MCGF
7. Repetir hasta llegar a la convergencia.
FIN