Está en la página 1de 46

BANCO CENTRAL DE RESERVA DEL PERÚ

Curso de Actualización en Economía 2016


Econometría
Profesor Diego Winkelried (Universidad del Pacífico)

Notas de clase 1

Algebra matricial

Estas notas presentan resultados de álgebra matricial que serán de utilidad para el curso de Econometría.

1.1 Productos matriciales


Los productos matriciales son multiplicaciones del tipo fila-columna. Sea A una matriz de dimensión n × m cuya
i-ésima fila es el vector ai 0 (es decir, ai ∈ Rm es la i-ésima columna de A0), sea C una matriz de orden r × s cuya
i-ésima fila es el vector c i 0 (c i ∈ Rs ) y sea B una matriz de dimensión n × r con elemento típico bi j . Así
n X
X r
A0BC = bi j a i c j 0 . (1)
i=1 j=1

1.2 Rango
El rango de una matriz A de dimensión n × r (r ≤ n) es definido como el número de columnas (o filas) linealmente
independientes y se denota como rk(A). Obviamente, rk(A) ≤ r . Cuando rk(A) = r se dice que A tiene rango
completo. Una propiedad de utilidad es que rk(A) = rk(A0A).

1.3 Inversa
La inversa de una matriz cuadrada A de dimensión n × n es otra matriz (única) de dimensión n × n denotada como
A−1 que satisface AA−1 = A−1A = I n . La inversa no siempre existe. Cuando A−1 no existe se dice que A es una
matriz singular, mientras que de existir la inversa A es no singular.
Una matriz cuadrada es no singular si tiene rango completo, rk(A) = n, lo que significa que no existe ningún vector
c , 0 tal que Ac = 0. Si tal vector existiera, entonces A sería singular y por tanto rk(A) < n.
Algunas propiedades de la inversa (para A y B no singulares):
• (A0 ) −1 = (A−1 ) 0 .
• (AB) −1 = B −1A−1 .
• (A + B) −1 = A−1 (A−1 + B −1 ) −1 B −1 .
• A−1 − (A + B) −1 = A−1 (A−1 + B −1 )A−1 .

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 1


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 1 - Algebra matricial

La inversa de una matriz puede calcularse como


adjA
A−1 = ,
det A
donde adjA es la matriz adjunta de A (la traspuesta de la matriz de cofactores de A). La matriz adjunta siempre
existe y se concluye que una condición suficiente para la existencia de la inversa es det A , 0.
En general, es tedioso calcular adjA, con la excepción de una matriz de 2 × 2 (se intercambian los elementos de la
diagonal principal y se cambia el signo a los elementos de la diagonal secundaria):

a b d −b d −b
" # " # " #
1
Si A = , adjA = por tanto A =
−1
. (2)
c d −c a ad − bc −c a

1.4 Inversa y determinante de matrices estructuradas


Un resultado de interés es la fórmula de Woodbury

(A + BCD) −1 = A−1 − A−1 B(C −1 + DA−1 B) −1 DA−1 , (3)

de donde se deduce que, para dos vectores b y d


!
0 −1 1
(A ± bd ) = A ∓−1
A−1bd 0A−1 , (4)
1 ± d 0A−1b
un resultado conocido como la fórmula de Sherman–Morrison. Asimismo,

det(A ± BCD) = det A det(I ± CDA−1 B) . (5)

Por su parte, dos igualdades relacionadas con una matriz simétrica particionada son:
# −1
A B A−1 0 A−1 B
" " # " # f g
= + W −1 B 0A−1 −I , (6)
B0 C 0 0 −I
y

A B
" #
det = det A detW (7)
B0 C

donde W = C − B 0A−1 B es el complemento de Schur de la matriz A.

1.5 Valores y vectores propios


La ecuación característica de una matriz cuadrada A de orden n es

det(A − λI n ) = 0 .

El lado izquierdo es un polinomio de grado n en λ que contiene exactamente n raíces, reales o complejas. Estas
raíces son los valores propios de A. Por construcción, si λi es un valor propio de A, (A − λi I n ) es singular y por
tanto existe un vector hi , 0 que satisface

(A − λi I n )hi = 0 o, alternativamente, Ahi = λi hi .

El vector hi es el vector propio de A asociado con λi . Usualmente hi es normalizado tal que khi k = 1.
Sea Λ una matriz diagonal de orden n que contiene sobre la diagonal los valores propios de A, [Λ]ii = λi y [Λ]i j = 0
para i , j. Asimismo, defina H como la matriz cuadrada de orden n cuyas columnas vienen dadas por los vectores

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 2


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 1 - Algebra matricial

propios correspondientes, H = [ h 1 h 2 · · · hn ]. Si todos valores propios de A son distintos, entonces H es no


singular y A presenta la siguiente descomposición espectral

A = H −1 ΛH o, análogamente, Λ = HAH −1 . (8)

Si A es simétrica, entonces hi0h j = 0 para todo i , j. Ello implica que H es una matriz ortogonal, H −1 = H 0:

A = H 0ΛH o Λ = HAH 0 cuando A es simétrica . (9)

Algunas propiedades importantes:


• Los valores propios de A−1 son λi−1 , esto es los recíprocos de los valores propios de A: A−1 = H −1 Λ−1H .
• Los valores propios de Ak son λki , esto es los valores propios de A a la k-ésima potencia: Ak = H −1 Λk H .
• A es no singular si y sólo si todos sus valores propios son λi , 0.
• El rango de A es el número de valores propios distintos de cero.
• det(A) = det(Λ) = ni=1 λi .
Q

• Si A es idempotente, AA = A, entonces λi = 1 ó λi = 0.
• Si A es ortogonal, A0A = AA0 = I n , entonces λi = ±1.

1.6 Matrices definidas


Una matriz cuadrada y simétrica A es semidefinida positiva (A  0) si para todo vector c , 0 se cumple que la
forma cuadrática c 0Ac ≥ 0. Por su parte, A es definida positiva (A  0) si la desigualdad es estricta c 0Ac > 0.
Igualmente, una matriz cuadrada A es semidefinida negativa (A  0) si c 0Ac ≤ 0, mientras que A es definida
negativa (A ≺ 0) si c 0Ac < 0. Una matriz no es definida si c 0Ac ≥ 0 para algunos vectores c y c 0Ac ≤ 0 para otros.
Entre las propiedades más importantes se tiene:
• Si A = B 0B para cualquier matriz B, entonces A  0: para cualquier c , 0, c 0Ac = d 0d ≥ 0, donde d = Bc.
Si B es de rango completo (es no singular), entonces A  0.
• Si A  0, entonces A es no singular y A−1 es también definida positiva.
• A  0 [resp., A ≺ 0] si todos sus valores propios son positivos [negativos].
A  0 [resp., A  0] si todos sus valores propios son positivos [resp., negativos] y al menos uno es igual a
cero. Es decir, una matriz semidefinida es singular.
• Si A  0, es posible encontrar una matriz B tal que A = BB 0. Usualmente, B se denomina raíz cuadrada
de A y no es necesariamente única. Una manera común de encontrar B es inspirada por la descomposición
espectral (9): B = H Λ1/2 .
• A − B  0 si y sólo si B −1 − A−1  0.

1.7 Traza
La traza de una matriz cuadrada A = [ai j ] es la suma de los elementos de la diagonal:

tr(A) = a 11 + a 22 + . . . + ann . (10)

Algunas propiedades importantes de este operador son:


• tr(A + B + C) = tr(A) + tr(B) + tr(C)
• Bajo la traza el producto matricial es cíclicamente conmutativo: tr(ABC) = tr(BCA) = tr(CAB).
• Para dos matrices semidefinidas positivas, 0 ≤ tr(AB) ≤ tr(A)tr(B).
De la segunda propiedad se desprenden los siguientes colorarios:
• Para un vector y de dimensión n, y 0Ay = tr(y 0Ay) = tr(Ayy 0 ).

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 3


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 1 - Algebra matricial

• tr(A) = ni=1 λi , donde λi son los valores propios de A. Para ello, note que A = H ΛH −1 , donde Λ es la matriz
P
diagonal cuyo i-ésimo es λi . Luego, tr(A) = tr(Λ).
• Si A es idempotente, tr(A) = rk(A). Ello se debe a que los valores propios de A son en este caso iguales a 0
ó 1. El número de valores propios distintos de cero (es decir, iguales a 1) corresponde al rango de A.

1.8 Cálculo vectorial


Sea x ∈ Rn y defina una función д : Rn → R. El vector de primeras derivadas o gradiente ∂д(x )/∂x tiene como
i-ésimo elemento ∂д(x )/∂x i , mientras que la matriz de segundas derivadas o Hessiano ∂ 2д(x )/∂x ∂x 0 es simétrica
y contiene como (i, j)-ésimo elemento ∂ 2д(x )/∂x i ∂x j .
Algunos resultados son:
∂x 0a ∂a 0x ∂x 0a ∂a 0x
• = = a y, análogamente, = = a0 ,
∂x ∂x ∂x 0 ∂x 0
∂Ax ∂Ax
• = A0 y, análogamente, = A0 ,
∂x ∂x 0
∂x 0Ax
• = A + A0 .
∂x
Es bueno notar que las segundas derivadas vectoriales en el Hessiano implican dos operaciones: primero,
diferenciación y segundo post o pre multiplicación. El resultado de primera diferenciación, asociada con ∂x, entra
premultiplicando mientras que el resultado de la segunda diferenciación, asociada con ∂x 0, entra postmultiplicando.
Esta manera de computar la matriz de segundas derivadas es particularmente útil al combinarla con la regla de la
cadena. Por ejemplo,
∂ 2x 0Ax ∂ ∂x 0Ax ∂(A + A0 )x
!
= = = A + A0 .
∂x ∂x 0 ∂x ∂x 0 ∂x
Otros ejemplos ilustrativos son:

∂ 2 (x 0a) 2 ∂ ∂(x 0a) 2 ∂ ∂(x 0a) 2 ∂x 0a ∂(x 0a) 0


!
= = = 2 a = 2aa 0 .
∂x ∂x 0 ∂x ∂x 0 ∂x ∂(x 0a) ∂x 0 ∂x

∂ 2 log(x 0a) ∂ ∂ log(x 0a) ∂ ∂ log(x 0a) ∂x 0a ∂ a0 ∂(x 0a) a 0 aa 0


! !
= = = = − = − .
∂x ∂x 0 ∂x ∂x 0 ∂x ∂(x 0a) ∂x 0 ∂x x 0a ∂x (x 0a) 2 (x 0a) 2
∂ 2 exp(x 0a) ∂ ∂ exp(x 0a) ∂ ∂ exp(x 0a) ∂x 0a ∂ exp(x 0a) 0 ∂ exp(x 0a) ∂(x 0a) 0
!
= = = a = a = exp(x 0a)aa 0 .
∂x ∂x 0 ∂x ∂x 0 ∂x ∂(x 0a) ∂x 0 ∂x ∂(x 0a) ∂x

1.9 Teorema del valor medio


Sea f (x ) una función escalar de la variable escalar x y suponga que f (·) es continua y diferenciable en el intervalo
x ∈ [a,b]. Luego, si f 0 (x ) denota la derivada de f (·) respecto a x, existe un punto c ∈ [a,b] tal que
f (a) = f (b) + f 0 (c)(a − b) . (11)
Al resultado en (11) se le conoce como expansión del valor medio.
El teorema del valor medio se aplica también a funciones vectoriales. Sea f : Rn → Rm una función vectorial que
da como resultado f (x ) ∈ Rm tras ser evaluada en el vector x ∈ Rn . Se asume que f (·) es continua y diferenciable
en un conjunto convexo que contiene los vectores a y b. Defina J (x ) como el Jacobiano de f (·), es decir la matriz
de dimensión m × n que contiene las derivadas de los elementos de f (x ) respecto a los elementos de x. Así,
f (a) = f (b) + J (c)(a − b) . (12)
donde cada elemento del vector c se encuentra en el segmento que conecta los elementos correspondientes de los
vectores a y b. Es decir, c i = λi ai + (1 − λi )bi y por tanto c i ∈ [ai ,bi ], donde x i denota al i-ésimo elemento de x
(para x = a,b,c) y λi ∈ [0, 1] (para i = 1, 2, . . . ,n).

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 4


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
BANCO CENTRAL DE RESERVA DEL PERÚ
Curso de Actualización en Economía 2016
Econometría
Profesor Diego Winkelried (Universidad del Pacífico)

Notas de clase 2

Conceptos generales de estadística multivariada

A continuación se repasan algunos conceptos de estadística multivariada. Se trabajará con dos variables aleatorias,
w e y, y ocasionalmente se hará referencia al comportamiento de un grupo de variables aleatorias recogidas en el
vector w junto con un conjunto de otras variables aleatorias recogidas en el vector y.

2.1 Funciones de probabilidad o funciones de distribución


Sea f (w,y) la función de densidad conjunta de dos variables aleatorias w e y. Esta función dicta el comportamiento
aleatorio de w e y y define cómo una depende de la otra. Por su parte, defina f (w ) y f (y) como las respectivas
funciones de densidades marginales. Las distribuciones marginales rescatan el comportamiento de una de las
variables, una vez que se toma en cuenta todos los posibles eventos que ocurrirán con la otra. Estas funciones se
definen como
Z Z
f (w ) = f (w,y) d y y, de la misma manera, f (y) = f (w,y) d w . (1)

La integración es el modo de descontar toda la influencia de una variable aleatoria sobre la otra.
Finalmente, la función de densidad condicional de w dado y, denotada por f (w | y), da cuenta del comportamiento
de w tomando a y como dado (es decir, ignorando la aleatoriedad en y). Obviamente, los momentos de f (w | y) son
funciones de y. Por la ley multiplicativa de probabilidades, f (w,y) = f (w | y) f (y), se deduce que

f (w, ȳ) f (w̄,y)


f (w | y = ȳ) = y, análogamente, f (y | w = w̄ ) = , (2)
f (ȳ) f (w̄ )

para los puntos en donde f (ȳ) , 0 y/o f (w̄ ) , 0.

2.2 Expectativa
Dada una variable aleatoria w y una función д(·), puede crease una nueva variable aleatoria д(w ). La expectativa o
valor esperado de д(w ) es un promedio ponderado de todos los posibles valores de д(w ), donde las ponderaciones
vienen dadas por la probabilidad de ocurrencia de los diversos valores que puede tomar д(w ):
Z
E( д(w ) ) = д(w ) f (w ) d w . (3)

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 5


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 2 - Conceptos generales de estadística multivariada

Z
A menudo al valor esperado de w, es decir E( w ) = w f (w ) d w, se le conoce como media poblacional.

En el caso de contar con una función de densidad bivariada, por ejemplo de w e y, el valor esperado de una función
arbitraria д(w,y) se define como
Z Z
E( д(w,y) ) = д(w,y) f (w,y) d w d y , (4)

definición que se extiende naturalmente a integrales de órdenes superiores. En general, si w denota un vector de
variables aleatorias, (3) se generaliza a
Z
E( д(w ) ) = д(w ) f (w ) d w . (5)

donde se entiende que la integración es sobre cada elemento del vector w.


El operador de expectativas es tan sólo una integral y como tal hereda sus propiedades. En particular, E( · ) es un
operador lineal: si w 1 ,w 2 , . . . ,w p denotan vectores o matrices con elementos aleatorios y A1 ,A2 , . . . ,Ap ,B denotan
vectores o matrices confortables de constantes (elementos no aleatorios), es fácil verificar que
E( A1w 1 + A2w 2 + . . . + Ap w p + B ) = A1 E( w 1 ) + A2 E( w 2 ) + . . . + Ap E( w p ) + B . (6)

2.3 Matriz de covarianzas


La varianza es la medida de dispersión más popular. Para un escalar w, ésta es definida como
V( w ) = E( (w − E( w )) 2 ) = E( w 2 ) − E( w ) 2 , (7)
y es siempre positiva, al menos que w no sea una variable aleatoria, en cuyo caso V( w ) = 0.
La covarianza entre dos variables aleatorias w e y es la medida de asociación lineal relacionada:
C( w,y ) = E( (w − E( w ))(y − E( y )) ) = E( xy ) − E( x )E( y ) . (8)
La desigualdad de Cauchy-Schwarz implica que C( w,y ) 2 ≤ V( w )V( y ).
Para un vector w ∈ Rn , (7) se generaliza a una matriz de covarianzas de dimensión n × n:
V( w ) = E( (w − E( w ))(w − E( w )) 0 ) = E( ww 0 ) − E( w )E( w ) 0 . (9)
El elemento (i,i) de V( w ) es igual a V( w i ), la varianza del i-ésimo elemento de w, mientras que el elemento (i, j)
contiene la covarianza entre w i y w j . Debido a que C( w i ,w j ) = C( w j ,w i ), la matriz de covarianzas V( w ) es
necesariamente simétrica.
Considere un vector de variables aleatorias de dimensión m × 1 que es formado por combinaciones lineales de los
elementos del vector w (de dimension n × 1), y = Aw donde A es una matriz de constantes de dimensión m × n.
Luego, la matriz de covarianzas de y – de dimensión m × m – viene dada por
V( y ) = E( yy 0 ) − E( y )E( y ) 0 = E( Aww 0A0 ) − E( Aw )E( w 0A0 ) = AV( w )A0 . (10)
En el cálculo anterior la matriz A no es afectada por la expectativa al no contener elementos aleatorios. El resultado
(10) se conoce como la forma sandwich de la matriz de covarianzas. Ésta es una generalización del resultado escalar
V( aw ) = a 2 V( w ) para una constante a.
El resultado en (10) permite concluir que las matrices de covarianza son, en general, definidas positivas. Considere al
vector aleatorio w y un vector de constantes a. El escalar a 0w es una variable aleatoria formada por una combinación
lineal arbitraria de los elementos del vector w. Como tal, su varianza debe ser positiva. Utilizando la forma sandwich
se tiene luego que
V( a 0w ) = a 0V( w )a > 0 . (11)
Dado que a es arbitrario, la desigualdad en (11) se cumple si y sólo si V( w ) es definida positiva, ver sección 1.6.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 6


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 2 - Conceptos generales de estadística multivariada

2.4 Error cuadrático medio


La pregunta de cuán “cerca” se encuentran dos variables aleatorias es central en estadística. El objetivo de los
ejercicios de inferencia es encontrar variables aleatorias observadas que sean ‘cercanas’ a otras variables aleatorias
no observadas o a parámetros (desconocidos) de interés. Estas variables aleatorias de denominan estimadores
cuando la cantidades no observadas son parámetros (no aleatorios), mientras que se llaman predictores si las
variables no observadas son aleatorias. El error cuadrático medio es un criterio de cercanía muy difundido y al
que prestaremos especial atención en este curso.
Sea q el estimador (o predictor) de θ (no observable). El error cuadrático medio de q es
ECM( q,θ ) = E( (q − θ ) 2 ) . (12)
Así, el estimador (o predictor) q es mejor que la alternativa q̄ si ECM( q,θ ) < ECM( q̄,θ ). Note que “mejor” se
refiere a que q está más cerca de θ que q̄, de acuerdo con la distancia esperada tomada como criterio en (12).
Considere ahora el caso multivariado, donde q es el estimador (o predictor) del vector θ (no observable). El error
cuadrático medio matricial es
ECM( q,θ ) = E( (q − θ )(q − θ ) 0 ) . (13)
No es difícil verificar que
ECM( q,θ ) = V( q − θ ) + E( q − θ )E( q − θ ) 0 , (14)
es decir, el error cuadrático medio es la suma de un componente de varianza más un componente de sesgo (al
cuadrado). Cuando θ no es aleatorio, el caso más estudiado en este curso, (14) se simplifica a
ECM( q,θ ) = V( q ) + ( E( q ) − θ )( E( q ) − θ ) 0 . (15)
Note que si q es insesgado, E( q ) = θ , el error cuadrático medio coincide con la matriz de covarianzas de q.
En general, q será preferible a la alternativa q̄ si ECM( q̄,θ ) − ECM( q,θ ) es una matriz semidefinida positiva .
Este postulado es equivalente a la siguiente condición: para toda matriz semi definida positiva A,
E( (q̄ − θ ) 0A(q̄ − θ ) ) ≥ E( (q − θ ) 0A(q − θ ) ) si y sólo si ECM( q̄,θ ) − ECM( q,θ )  0 ,
por lo que pasamos de un criterio de comparación matricial a uno escalar. Cuando A = I las formas cuadráticas
anteriores se suelen llamar función de riesgo.
Asimismo, utilizando A = aa 0, donde a es un vector, es posible estudiar comparaciones de combinaciones lineales
de θ , a 0θ . Dado que ECM( a 0q,a 0θ ) = a 0ECM( q,θ )a, se concluye que

ECM( a 0q̄,a 0θ ) − ECM( a 0q,a 0θ ) = a 0 (ECM( q̄,θ ) − ECM( q,θ ))a ≥ 0


si y sólo si ECM( q̄,θ ) − ECM( q,θ )  0 . (16)

2.5 Método de momentos


El r -ésimo momento poblacional de w es definido como
Z
r
µ r = E( w ) = w r f (w ) d w . (17)

Un momento tiene una contraparte muestral. Si se tiene información de n observaciones, el r -ésimo momento
muestral es
n
1X
mr = (w i ) r . (18)
n i=1

El método de momentos es un principio de estimación que consiste en igualar los momentos poblacionales, que
dependen de parámetros desconocidos, con los momentos muestrales. Es decir, el valor de θ que resuelve igualdades
del tipo mr = µ r (θ ) es un estimador del método de momentos.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 7


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 2 - Conceptos generales de estadística multivariada

2.6 Ley de expectativas iteradas


La ley de expectativas iteradas (LEI) provee un método para computar expectativas que involucran múltiples
variables aleatorias. Sean w e y dos variables aleatorias cuya función densidad conjunta es f (w,y). Si se desea
calcular la expectativa de w, la LEI indica que primero puede calcularse µ (y) = Ew ( w | y ), que es una función
exclusivamente de y (ya que w fue integrada), y luego calcular Ey ( µ (y) ). Formalmente,

E( w ) = Ey ( Ew ( w | y ) ) . (19)

Los subíndices en las expectativas son sólo indicativos. La demostración utiliza propiedades de integración doble y
distribuciones multivariadas (sección 2.1):
Z
Ey ( Ew ( w | y ) ) = Ew ( w | y ) f (y) d y
Z "Z # Z Z
= w f (w | y) d w f (y) d y = w f (w | y) f (y) d w d y
Z Z Z Z
= w f (w,y) d w d y = w f (w,y) d y d w
Z "Z # Z
= w f (w,y) d y d w = w f (w ) d w = E( w ) .

La LEI se generaliza naturalmente a más de dos variables: E( w ) = E( E( w | y ) ) donde w e y son vectores de


dimensión arbitraria, ver (5).

2.7 Independencia
La noción de independencia en estadística apunta a que el comportamiento aleatorio de w será el mismo sin importar
lo que suceda con y. Ello ocurre cuando la función de probabilidad condicional es idéntica a la función de densidad
marginal. Formalmente,

f (w | y) = f (w ) si w e y son independientes . (20)

Una consecuencia importante de (20) y de la descomposición f (w,y) = f (w | y) f (y) es

f (w,y) = f (w ) f (y) si w e y son independientes . (21)

Es decir, si w e y son independientes, la función de densidad conjunta es igual al producto de las respectivas
funciones marginales.

Independencia y expectativas
De (20) se desprende que, para cualquier función д(·) bien comportada en el soporte de w,
Z Z
E( д(w ) | y ) = д(w ) f (w | y) d w = д(w ) f (w ) d w = E( д(w ) ) . (22)

La relación del tipo f (w | y) = f (w ) se cumple también al nivel de expectativas.


Por su parte, combinando (22) con la LEI, se obtiene para dos funciones д(·) y h(·) cualesquiera,

E( д(w )h(y) ) = Ey ( E( д(w )h(y) | y ) ) = Ey ( E( д(w ) | y )h(y) ) = Ey ( Ew ( д(w ) )h(y) ) = E( д(w ) )E( h(y) ) . (23)

La relación del tipo f (w,y) = f (w ) f (y) se cumple también al nivel de expectativas.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 8


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 2 - Conceptos generales de estadística multivariada

Independencia y covarianza
La covarianza (y, por tanto la correlación) entre dos variables aleatorias independientes es cero: Si w e y son
independientes, de (23) se concluye que E( xy ) = E( w )E( y ) y, por tanto, C( x,y ) = E( xy ) − E( w )E( y ) = 0.
El resultado converso no es necesariamente cierto. El hecho que C( w,y ) = 0 no implica necesariamente que w e y
sean independientes. Considere un contraejemplo: sean w e y dos variables aleatorias discretas tal que
- y toma los valores de 1 ó 2 con igual probabilidad;
- una vez obtenido el valor de y, w toma los valores de −y o y con igual probabilidad.
En este caso E( w | y = 1 ) = E( w | y = 2 ) = 0, es decir la expectativa condicional es independiente de y. Para
obtener E( w ) note que existen cuatro posible valores para w, cada uno con probabilidad 41 . Así,
E( w ) = 1
4 (1 − 1 + 2 − 2) = 0.
De este modo se obtiene que E( w ) = E( w | y = ȳ ) para todo ȳ: la expectativa condicional es igual a la
incondicional, un resultado parecido a (22). No obstante, por construcción w e y no son independientes. Si lo
fueran, se tendría que

Pr( w = 1, y = 2 ) = Pr( w = 1 ) Pr( y = 2 ) > 0 ,

igualdad que no se cumple ya que cuando y = 2 es imposible observar w = 1, por tanto Pr( w = 1, y = 2 ) = 0.
Lo que ocurre en este contraejemplo es que y afecta la variabilidad de w pero no su media (diferentes valores de y
resultan en diferentes distribuciones de w que son más o menos disperas alrededor de la media cero). De este modo,
existe dependencia entre w e y que se manifiesta a través del segundo momento, la información sobre y no ayuda a
predecir la media de w.

2.8 Media condicional


Como se aprecia en la demostración de la LEI líneas arriba, la expectativa condicional E( w | y ) es simplemente
una expectativa ordinaria calculada utilizando la distribución condicional f (w | y).
Para un valor dado ȳ, la expectativa condicional E( w | ȳ ) es, como cualquier otra expectativa, determinística o no
aleatoria. Sin embargo, si se considera la expectativa de w condicional a toda posible realización de y, E( w | y ) es
una nueva variable aleatoria al ser una función (determinística) de la variable aleatoria y.
Una propiedad (un poco obvia) de expectativas condicionales es que para cualquier función determinística h(·),
E( h(y) | y ) = h(y). Así,

E( h(y)w | y ) = h(y)E( w | y ) . (24)

Una consecuencia de este resultado junto con la LEI es que si E( w | y ) = E( w ), entonces para cualquier h(·):

E( h(y)w ) = E( E( h(y)w | y ) ) = E( h(y)E( w | y ) ) = E( h(y)E( w ) ) = E( h(y) )E( w ) . (25)

La condición E( w | y ) = E( w ) se denomina independencia de w e y en media condicional y es un requerimiento


más fuerte que la simple falta de correlación – w no sólo no está correlacionado con y sino con toda función que
dependa de y, C( h(y),w ) = 0 – pero más debil que independencia en distribución, ver (20).

2.9 Varianza condicional

La varianza condicional del vector w dado el vector y es V(w | y) = E( ww 0 | y ) − E( w | y )E( w | y ) 0. Ésta, al


igual que E( w | y ), es claramente una función de y. Utilizando la LEI es posible mostrar el siguiente resultado:

V( w ) = E( V( w | y ) ) + V( E( w | y ) ) . (26)

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 9


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 2 - Conceptos generales de estadística multivariada

2.10 Expectativas como predictores


Las expectativas y expectativas condicionales tienen propiedades de optimalidad como predictores.
Suponga que desea predecir una variable aleatoria w mediante una constante µ ¿Cuál es el valor óptimo de µ si la
bondad de la predicción se mide en términos del error cuadrático medio E( k w − µ k 2 )? Note que

(w − µ) 2 = [ (w − E( w )) − (E( w ) − µ) ]2 = (w − E( w )) 2 + (E( w ) − µ) 2 − 2(w − E( w ))(E( w ) − µ) ,

de modo que al tomar expectativas se tiene

E( (w − µ) 2 ) = V( w ) + (E( w ) − µ) 2 .

El primer término, V( w ), no depende de µ, mientras que el segundo es minimizado cuando µ = E( w ). El valor


esperado de w es, pues, la constante que como predictor minimiza el error cuadrático medio.
Un caso más interesante se da cuanto se desea predecir w no en términos de una constante sino de una función del
vector aleatorio y, h(y). Siguiendo un procedimiento similar al anterior, se tiene que

(w − h(y)) 2 = [ ( w − E( w | y ) ) − ( E( w | y ) − h(y) ) ]2
= ( w − E( w | y ) ) 2 + ( E( w | y ) − h(y) ) 2 − 2( w − E( w | y ) )( E( w | y ) − h(y) ) .

La expectativa del tercer término es igual a cero. Para corroborar esta afirmación aplique la LEI junto con (24),

E( ( w − E( w | y ) )( E( w | y ) − h(y) ) ) = E( E( ( w − E( w | y ) )( E( w | y ) − h(y) ) | y ) )
= E( E( ( w−E( w | y ) ) | y )( E( w | y )−h(y) ) ) = E( ( E( w | y )−E( w | y ) )( E( w | y )−h(y) ) ) = E( 0 ) = 0.

De este modo,

E( (w − h(y)) 2 ) = E( ( w − E( w | y ) ) 2 ) + E( ( E( w | y ) − h(y) ) 2 )

es minimizado por h(y) = E( w | y ). El mejor predictor de w basado en la información contenida en y es la


expectativa condicional.
Defina u = w − E( w | y ). Se tienen las siguientes propiedades:
• E( u | y ) = 0 ya que E( u | y ) = E( w | y ) − E( E( w | y ) | y ) = E( w | y ) − E( w | y ) = 0.
• E( u ) = 0, lo que se desprende por la LEI: E( u ) = E( E( u | y ) ) = E( 0 ) = 0. Es decir, el error de predicción
u y el vector y son independientes en media condicional.
• Se desprende además que E( u h(y) | y ) = 0 y del mismo modo que E( u h(y) ) = 0 para cualquier función
h(·)).
• Finalmente, u e y no están correlacionados: C( u,y ) = E( u y ) − E( u )E( y ) = 0.
Estos resultados tienen la siguiente interpretación: u es el error de la mejor predicción de w basada en y. Si u tuviera
alguna dependencia con y, por ejemplo estuviera correlacionado con y, entonces podría utilizarse esta dependencia
para mejorar la proyección basada en y. Dado el carácter de óptimo de E( w | y ), tal dependencia no debe existir.

2.11 Esperanza de una forma cuadrática y estimador de varianzas


Suponga que se dispone de un vector w de dimensión n × 1 tal que E( w ) = µ y V( w ) = Ω. Defina la
forma cuadrática Q = w 0Aw, donde A es una matriz simétrica de dimensión n × n. Utilizando la identidad
E( ww 0 ) = µµ 0 + Ω (que proviene de la definición de la matriz de covarianzas) y el hecho que Q = tr(Q ) ya
que Q es un escalar, se consigue el siguiente resultado de importancia:

E( Q ) = E( tr(Q ) ) = E( tr(Aww 0 ) ) = tr( AE( ww 0 ) ) = µ 0Aµ + tr(AΩ) . (27)

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 10


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 2 - Conceptos generales de estadística multivariada

Estimador de varianza
Una aplicación interesante del resultado anterior se da cuando A = I n −1n 1n 0/n, donde 1n es un vector de dimensión
n × 1 lleno de unos. Dado que 1n 0w = ni=1 w i , donde w i es el i-ésimo elemento de w, 1n se conoce como un vector
P
suma. Por otro lado, es sencillo verificar que en este caso A es simétrica e idempotente. Así, la forma cuadrática
puede escribirse como Q = w 0A0Aw = (Aw ) 0 (Aw ) y equivale al producto interno del vector Aw (es decir, Q es la
suma de cuadrados de los elementos de Aw). Defina a w̄ = 1n 0w/n como el promedio de todos los elementos de w.
Con ello, Aw = w − 1n w̄, de modo que el i-ésimo elemento de Aw es w i − w̄. La forma cuadrática es, pues, igual a
la suma de los cuadrados de los desvíos de los elementos de w respecto a su promedio,
n
X
Q= (w i − w̄ ) 2 .
i=1

Usualmente, se tiene que todos los elementos de w provienen de una misma distribución y no se encuentran
correlacionados entre ellos. En este caso, µ = 1n µ (la media es el mismo escalar para todo w i ) y Ω = σ 2 I n (la
varianza de w i es σ 2 para todo i, y la covarianza entre w i y w j , i , j, es cero). Luego, evaluando el resultado general
en este caso particular se consigue

E( Q ) = µ 2 1n 0A1n + σ 2 tr(A) = σ 2 (n − 1) ,

donde se han utilizado los resultados A1n = 0 y tr(A) = n − 1 (por ser una matriz idempotente). En consecuencia,
se tiene que s 2 = Q/(n − 1) es un estimador insesgado de σ 2 : E( s 2 ) = E( Q )/(n − 1) = σ 2 .

2.12 Momentos de un promedio


Los promedios juegan un rol fundamental en la teoría estadística. Nuevamente, considere un vector w de dimensión
n × 1 tal que E( w ) = µ y V( w ) = Ω. Asimismo, su promedio es igual a w̄ = 1n 0w/n. Note que w no es más que
una combinación lineal de los elementos de w.
En primer lugar,
n
1n 0E( w ) 1n 0 µ 1 X
E( w̄ ) = = = µi . (28)
n n n i=1

La expectativa del promedio es igual al promedio de expectativas (ambos operadores son lineales). En el caso
particular en el que µ i = µ para todo i, se tiene que w̄ es un estimador insesgado de µ, E( w̄ ) = µ.
En segundo lugar, utilizando la forma sandwich de la matriz de covarianzas,
n n n
1n 0w 1n 0 Ω1n
!
1 X 2 X X
V( w̄ ) = V = = ω ii + ωi j , (29)
n n2 n2 i=1 n2 i=1 j=i+1

donde ωi j es el (i, j)-ésimo elemento de Ω, y se ha utilizado el hecho que ωi j = ω ji . El resultado (29) es una
expresión muy general que en la práctica se ve simplificada cuando se imponen supuestos sobre la naturaleza de los
elementos de w. Por ejemplo, si se asume que estos elementos no se encuentran correlacionados, ωi j = 0 para todo
i , j, se tiene que
n
1  1
 X 
V( w̄ ) = ωii  ,
n  n i=1 

es decir, la varianza del promedio es 1/n veces el promedio de las varianzas de los elementos de w. Si se asume,
además, homocedasticidad (ωii = ω para todo i) se llega al resultado más familiar
ω
V( w̄ ) = .
n

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 11


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
Página en blanco
BANCO CENTRAL DE RESERVA DEL PERÚ
Curso de Actualización en Economía 2016
Econometría
Profesor Diego Winkelried (Universidad del Pacífico)

Notas de clase 3

Resultados sobre distribuciones específicas

A continuación se revisan propiedades importantes de variables normalmente distribuidas y distribuidas como chi-
cuadrado. Ambas son de primera importancia en el análisis econométrico.

3.1 Variables normalmente distribuidas


Sea w ∈ Rn un vector cuyos elementos son normalmente distribuidos con media E( w ) = µ ∈ Rn y varianza
V( w ) = Ω (una matriz definida positiva de dimensión n × n). Ello se denota cotidianamente como w ∼ N (µ, Ω) ya
que µ y Ω caracterizan completamente la distribución de w. La función de densidad conjunta de w es
( )
1 1
f (w ) = √ exp − (w − µ) Ω (w − µ) .
0 −1
(1)
( 2π ) n (det Ω) 1/2 2

Resultado 1: Combinaciones lineales


Las variables aleatorias obtenidas como combinaciones lineales de variables normalmente distribuidas, son
normalmente distribuidas. Es decir, si w ∼ N (µ, Ω) luego y = Aw ∼ N (Aµ,AΩA0 ), donde A es una matriz
arbitraria de dimensión m × n matrix (tal que y ∈ Rp ).

Corolario 1: Distribuciones marginales


Si w ∼ N (µ, Ω), entonces w i ∼ N (µ i ,ωii ), donde w i es el i-ésimo elemento de w, µ i es el i-ésimo elemento de µ
y ωii es el elemento (i,i) de Ω. Ello implica que la distribución marginal de todo elemento w i (i = 1, 2, . . . ,n) es
también normal.
Esta proposición se demuestra fácilmente al utilizar el Resultado 1 para un vector A de dimensión 1×n que contiene
1 en la i-ésima posición y cero como cualquier otro elemento, tal que y = Aw = w i .
Más aún, bajo la misma lógica el Corolario se extiende a cualquier subconjunto de w. Considere por ejemplo
w̃ = (w 1 ,w 2 ,w 4 ) 0 ∈ R3 . Luego w̃ ∼ N (Aµ,AΩA0 ), donde
 1 0 0 0 0 · · · 0 
A =  0 1 0 0 0 · · · 0  .
 0 0 0 1 0 · · · 0 

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 13


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 3 - Resultados sobre distribuciones específicas

Resultado 2: Distribución condicional


Suponga que w ∼ N (µ, Ω) y considere la siguiente partición

w1 µ1 Ω11 Ω12
" # " # " #
w= , µ= y Ω= . (2)
w2 µ2 Ω21 Ω22

La distribución de w 1 condicional a w 2 es también normal, w 1 | w 2 ∼ N (µ 1|2 , Ω1|2 ) donde

µ 1|2 = µ 1 + Ω12 Ω−1


22 (w 2 − µ 2 ) y Ω1|2 = Ω11 − Ω12 Ω−1
22 Ω 21 . (3)

Por definición, la distribución de w 1 condicional a w 2 (es decir, tomando w 2 como dado) es igual a

Distribución conjunta entre w 1 y w 2 f (w )


f (w 1 | w 2 ) = = .
Distribución marginal de w 2 f (w 2 )

Siguiendo el Corolario 1, se tiene que si w ∼ N (µ, Ω), entonces w 2 ∼ N (µ 2 , Ω22 ). Así,


( )
+n )/2 1
(2π ) −(n 1 2 (det Ω) −1/2 exp − (w − µ) Ω (w − µ)
0 −1
( )
2 1 1
f (w 1 | w 2 ) = ( ) ≡ exp − B . (4)
/2
1 A 2
(2π ) −n 2 (det Ω22 ) −1/2 exp − (w 2 − µ 2 ) Ω22 (w 2 − µ 2 )
0
2

La siguiente igualdad – sencilla de verificar – se utiliza para obtener f (w 1 | w 2 ):

I n1 −Ω12 Ω−1 I n1 Ω1|2 0


" # " # " #
0
22 Ω = . (5)
0 I n2 −Ω−122 Ω 21 I n 2 0 Ω22

donde la matriz Ω1|2 es definida en (3). Tomando determinantes a (5) – ver ecuación (7) – se consigue

det Ω = det Ω1|2 det Ω22 . (6)

y, por consiguiente, el escalar A en (4) es igual a

A = (2π ) (n1 +n2 )/2−n2 /2 (det Ω/ det Ω22 ) 1/2 = (2π ) n1 /2 (det Ω1|2 ) 1/2 . (7)

Por su parte, tomando inversas a (5) y resolviendo para la inversa de Ω se tiene que

Ω1|2 I
# " −1
I −Ω12 Ω−1
" #" #
0 0
Ω =
−1 22 . (8)
0 I 0 Ω−1
22 −Ω−122 Ω 21 I

Luego de postmultiplicar la primera matriz de (8) por el vector (w − µ) 0 y de premultiplicar la última por w − µ se
obtiene

(w − µ) 0 Ω−1 (w − µ) = (w 1 − µ 1|2 ) 0 Ω−1


1|2 (w 1 − µ 1|2 ) + (w 2 − µ 2 ) Ω 22 (w 2 − µ 2 ) ,
0 −1
(9)

donde el vector µ 1|2 es definido en (3). De este modo, el escalar B en (4) es igual a

B = (w − µ) 0 Ω−1 (w − µ) − (w 2 − µ 2 ) 0 Ω−1
22 (w 2 − µ 2 ) = (w 1 − µ 1|2 ) Ω 1|2 (w 1 − µ 1|2 ) .
0 −1
(10)

Resultado 3: Independencia
Anteriormente se concluyó que un conjunto de variables aleatorias independientes mostrarían covarianza igual a
cero, pero el resultado converso no era necesariamente cierto. El caso de variables normalmente distribuidas es
particular: si dos variables normales tienen covarianza cero entonces son independientes.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 14


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 3 - Resultados sobre distribuciones específicas

Es sencillo verificar este resultado. Si Ω12 = 0 en la partición (2), entonces los momentos de la distribución
condicional w 1 | w 2 en (3) se simplifican a µ 1|2 = µ 1 y Ω1|2 = Ω11 y, por consiguiente, la distribución condicional
es idéntica a la distribución marginal, f (w 1 | w 2 ) = f (w 1 ), ver (20).
Alternativamente, cuando Ω12 = 0 en la partición (2), la forma cuadrática de la distribución conjunta puede
escribirse como la suma de dos formas cuadráticas:

(w − µ) 0 Ω−1 (w − µ) = (w 1 − µ 1 ) 0 Ω−1
11 (w 1 − µ 1 ) + (w 2 − µ 2 ) Ω 22 (w 2 − µ 2 ) .
0 −1

Asimismo, det Ω = det Ω11 det Ω22 . De esta forma, es posible escribir la distribución conjunta de w como el
producto de la distribución de w 1 por la distribución de w 2 , f (w ) = f (w 1 ) f (w 2 ).

Corolario 2
Bajo normalidad y la partición (2), las variables w 1 − µ 1 |2 y w 2 son independientes.
Para aliviar la notación, defina w̃ i = w i − µ i para i = 1, 2. Así,

22 w̃ 2 )w̃ 2 ) = E( w̃ 1w̃ 2 ) − Ω 12 Ω 22 V( w̃ 2 ) = Ω 12 − Ω 12 = 0 .
C( w 1 − µ 1|2 ,w 2 ) = E( (w̃ 1 − Ω12 Ω−1 0 0 −1
(11)

Como era de esperar, w 1 − µ 1|2 puede entenderse como w 1 libre de toda influencia de w 2 .

3.2 Formas cuadráticas y distribución chi-cuadrado


Considere un vector de n variables independientes y normalmante distribuidas, w ∼ N (µ,I n ). Luego, la distribución
de la suma de cuadrados

w 0w = w 12 + w 22 + . . . + w n2 ∼ χn2 (λ) (12)

es chi-cuadrado no centrada con n grados de libertad y parámetro de no centralidad λ = 21 µ 0 µ.


Si w ∼ N (0,I n ), la distribución de w 0w ∼ χn2 es chi-cuadrado (centrada) con n grados de libertad (el parámetro
de no centralidad es cero). En otras palabras, la distribución chi-cuadrado proviene de la suma de cuadrados de
variables normales estándares independientes.
Momentos: Si w ∼ χn2 (λ), entonces E( w ) = n + 2λ y V( w ) = 2n + 8λ.

Resultado 1

Considere w ∼ N (µ,I n ). Luego, Q = w 0Aw ∼ χv2 (λ) donde λ = 21 µ 0Aµ si y sólo si A es simétrica e idempotente de
rango v.
Para verificar este resultado, note que dado que A es simétrica e idempotente, se puede descomponer como
A = H ΛH 0 donde Λ es una matriz diagonal con elementos λii = 1 para i ≤ v (el rango de A) y λii = 0 para
i > v, y H es una matriz ortogonal H 0H = HH 0 = I n .
Defina y = H 0w tal que Q = w 0Aw = w 0H ΛH 0w = y 0Λy. Note que y contiene variables normalmente distribuidas
con media µy = E( y ) = H 0E( w ) = H 0 µ y varianza V( y ) = H 0V( w )H = H 0H = I n . Más aún,
n
X v
X
Q = y 0Λy = λii yi2 = yi2 ,
i=1 i=1

por lo que Q es la suma del cuadrado de v variables normales independientes. El parámetro de no centralidad
satisface 2λ = µy 0 µy = µ 0HH 0 µ = µ 0 µ. Así, la distribución de Q se desprende inmediatamente por la definición de
la distribución chi-cuadrado no centrada.
Como caso particular, si w ∼ N (0,I n ) entonces la forma cuadrática Q = w 0Aw ∼ χv2 se distribuye como chi-
cuadrado con v grados de libertad si y sólo si A es simétrica e idempotente de rango v.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 15


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 3 - Resultados sobre distribuciones específicas

Resultado 2
Suponga que w ∼ N (µ, Ω) donde Ω es la matriz de covarianzas (usualmente no singular) de orden n. Si AΩ es
una matriz idempotente, la forma cuadrática Q = w 0Aw se distribuye como chi-cuadrado con parámetro de no
centralidad λ = 12 µ 0Aµ y v = rk(A) grados de libertad.
Para el caso centrado, µ = 0, si w ∼ N (0, Ω) la forma cuadrática Q = w 0Aw ∼ χv2 donde v es el rango de A, si y
sólo si AΩ es idempotente.

Corolario del Resultado 2


Una aplicación de este resultado es que si w ∼ N (µ, Ω) donde Ω es no singular, entonces la forma cuadrática
Q = w 0 Ω−1w se distribuye como χn2 (λ), donde λ = 12 µ 0 Ω−1 µ.
Una manera alternativa de llegar a esta conclusión sin utilizar el postulado del Resultado 2 es la siguiente: dado que
Ω es definida positiva, puede escribirse como Ω = L 0L lo que implica que Ω−1 = (L−1 )(L−1 ) 0. Defina y = (L−1 ) 0w
tal que Q = w 0 Ω−1w = w 0 (L−1 )(L−1 ) 0w = y 0y. Note que y contiene variables normalmente distribuidas con
media µy = E( y ) = (L−1 ) 0E( w ) = (L−1 ) 0 µ y varianza V( y ) = (L−1 ) 0V( w )(L−1 ) = (L−1 ) 0L 0L(L−1 ) = I n .
El parámetro de no centralidad satisface 2λ = µy 0 µy = µ 0 (L−1 )(L−1 ) 0 µ = µ 0 Ω−1 µ. Así, distribución de Q se
desprende inmediatamente de la definición de la distribución chi-cuadrado no centrada.

Resultado 3
Suponga que w ∼ N (µ, Ω). Luego, Q 1 = w 0Aw y Q 2 = w 0Bw son independentes si y sólo si AΩB = 0.

3.3 Distribución t de student


Si z ∼ N (0, 1) y V ∼ χv2 son dos variables aleatorias independientes, entonces

v
r
τ =z ∼ tv , (13)
V
es una distribución t (de Student) con v grados de libertad.
 v 
Momentos: E( τ ) = 0 y V( τ ) = .
v −2
El caso más conocido de una variable distribuido como t es el siguiente. Suponga que w ∼ N (µ1n ,σ 2 I n ).

Luego, w̄ = 1n 0w/n ∼ (µ,σ 2 /n) por lo que z = n(w̄ − µ). Asimismo, s 2 = w 0 (I n − 1n 1n 0/n)w/(n − 1) es el
estimador insesgado de σ 2 por lo que V = (n − 1)s 2 /σ 2 . w y s 2 son independientes ya que (I n − 1n 1n 0/n)1n = 0.

3.4 Distribución F
Si Q 1 ∼ χv21 y Q 2 ∼ χv22 son dos variables independientes, entonces el ratio ϕ = (Q 1 /v 1 )/(Q 2 /v 2 ) es una variable
aleatoria que se distribuye como F (v 1 ,v 2 ), una F centrada (F de Snedecor).
De los Resultados 1 y 4 se deduce que si w ∼ N (0,I n ), entonces

w 0Aw rk(B)
· ∼ F ( rk(A), rk(B) ) (14)
w 0Bw rk(A)
si A y B son idempotentes y si, además, AB = 0.
Cuando Q 1 ∼ χv21 (λ) tiene un parámetro de no centralidad λ, entonces ϕ = (Q 1 /v 1 )/(Q 2 /v 2 ) es una variable aleatoria
que se distribuye como F (λ; v 1 ,v 2 ), una F no centrada.
!2 "
v1 + λ v2 v2 (v 1 + λ) 2 + (v 1 + 2λ)(v 2 − 2)
! #
Momentos: E( ϕ ) = y V( ϕ ) = 2 .
v1 v2 − 2 v1 (v 2 − 2) 2 (v 2 − 4)

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 16


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
BANCO CENTRAL DE RESERVA DEL PERÚ
Curso de Actualización en Economía 2016
Econometría
Profesor Diego Winkelried (Universidad del Pacífico)

Notas de clase 4

Teoría asintótica (con énfasis en muestras aleatorias)

Obtener resultados analíticos en muestras finitas sobre las propiedades de estadísticos y estimadores de interés
puede ser sumamente engorroso o requerir de supuestos muy restrictivos. La teoría asintótica provee un marco de
análisis en donde se estudian estas propiedades a medida que el tamaño muestral va creciendo indefinidamente,
n → ∞. Este límite “elimina” la aleatoriedad observada en la muestra (digamos, la variabilidad muestral) y provee
aproximaciones del comportamiento de los estadísticos en muestras grandes.

4.1 Convergencia en probabilidad


Una secuencia de variables aleatorias w 1 ,w 2 , . . . (o más compactamente {w n }n=1
∞ ) converge en probabilidad a w si,

para cualquier ϵ > 0,

Pr {kw n − w k > ϵ } → 0 conforme n → ∞. (1)

El límite w se denomina límite probablístico o límite en probabilidad y usualmente se denota como


p
plim w n = w o, alternativamente, w n −→ w . (2)

4.2 Consistencia
Sea qn un estimador del vector de parámetros θ obtenido a partir de una muestra de tamaño n. Luego, {qn }n=1

es la secuencia de estimadores de θ conseguidos a medida que el tamaño muestral aumenta. El estimador qn es


consistente si
p
plim qn = θ o, alternativamente, qn −→ θ . (3)

En otras palabras, un estimador es consistente si converge (en probabilidad) al valor del parámetro que pretende
estimar conforme n tiende a infinito. La consistencia es quizá uno de los requerimientos mínimos (en muchas
ocasiones es el requerimiento) para que un estimador sea considerado aceptable.

4.3 Convergencia en distribución


Sean F 1 (·), F 2 (·), . . . las funciones de distribución acumuladas (fda) asociadas con una secuencia de variables
∞ . Esto es, F (w ) = Pr(w ≤ w ).
aleatorias {w n }n=1 n n

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 17


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 4 - Teoría asintótica (con énfasis en muestras aleatorias)

Suponga que la variable aleatoria w tiene una fda F (·). Luego, w n converge en distribución a w si

Fn (w ) → F (w ) conforme n → ∞. (4)

para todos los valores de w. La fda F (·) usualmente se denomina distribución límite o distribución asintótica y la
convergencia en distribución se denota como
d
w n −−→ w . (5)

4.4 Equivalencia asintótica


d p d
Considere dos secuencias de vectores aleatorios w n y w̃ n . Si w n −−→ w y w n − w̃ n −→ 0, entonces w̃ n −−→ w.
Cuando w n y w̃ n presentan la misma distribución asintótica se dice que son asintóticamente equivalentes.
Notará que la equivalencia asintótica es muy utilizada para simplificar el análisis básicamente para determinar
el comportamiento de un estimador complejo a través de las características de un estimador más sencillo pero
asintóticamente equivalente.

Resultados útiles en econometría

El análisis asintótico de los estimadores más utilizados en econometría consiste escencialmente en tres pasos.
Primero, los estimadores son escritos como funciones (continuas) de momentos muestrales, es decir de promedios
muestrales. Segundo, una batería de teoremas que conforman la teoría asintótica (leyes de grandes números y
teoremas de límite central) muestran cómo estos promedios convergerían en probabilidad a momentos poblacionales
y proveen información sobre su distribución asintótica. Tercero, el teorema del mapeo continuo o el teorema de
Cramér entran en acción. A continuación se presentan resultados vinculados con los dos últimos puntos arriba
mencionados.

4.5 Teorema de Slustky


Un atractivo de los límites probablísticos es que, a pesar de lidiar con variables aleatorias, tienen el mismo
tratamiento que límites ordinarios (aquellos aplicados a secuencias determinísticas) para funciones continuas. Éste
es el teorema de Slutsky:
p
Sea д(.) una función continua de w. Si w n −→ w, entonces
p
д(w n ) −→ д(w ) o, alternativamente, plim д(w n ) = д(plim w n ) . (6)

Note que el operador de expectativas no presenta esta propiedad: en general, E( д(w n ) ) , д(E( w n )).

4.6 Teorema del mapeo continuo


Este teorema es una suerte de generalización del teorema de Slutsky.
d p
Sea д(w,a) una función continua en sus dos argumentos, w y a. Si w n −−→ w y an −→ a, entonces
d
д(w n ,an ) −−→ д(w,a) . (7)

d
Obviamente, si д(.) depende sólo de w n , entonces д(w n ) −−→ д(w ).

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 18


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 4 - Teoría asintótica (con énfasis en muestras aleatorias)

4.7 Teorema de Cramér


d p
Este teorema es un corolario popular del teorema del mapeo continuo. Si qn −−→ N (µ, Ω) y An −→ A, luego
d
An qn −−→ N (Aµ,AΩA0 ) . (8)

Note que An qn = Aqn +(An −A)qn . El segundo término converge, por el teorema del mapeo continuo, a cero por una
variable aleatoria normalmente distribuida, o en concreto converge a cero. Así, se tiene que An qn es asintóticamente
equivalente a Aqn que converge a una distribución normal (note que A no es aleatoria).

4.8 Teorema de Khinchine (Ley débil de los grandes números)


Este teorema sostiene – en términos simples – que, en una muestra aleatoria, promedios muestrales tienden a
expectativas conforme n crece. En otras palabras, momentos muestrales convergen hacia momentos poblacionales.
Suponga que se tiene una muestra w i para i = 1, 2, . . . ,n donde todas las variables aleatorias w i son idéntica e
independientemente distribuidas, iid. Además, considere que E( w i ) = µ para todo i. Luego,
n
1X p
w̄ n = w i −→ µ . (9)
n i=1

4.9 Teorema de Chebyshev


En la ley débil de los grandes números, el supuesto de que todas las w i son iid puede relajarse tras imponer
ciertas restricciones en los momentos de estas variables. Suponga que w i es tal que E( w i ) = µ i , V( w i ) = Ωi y
C( w i ,w j ) = 0 para todo i , j. Sea µ̄ n el promedio de los n vectores µ i . Si
n
1 X
Ωi → 0 (10)
n2 i=1

entonces,
n
1X p
w̄ n − µ̄ n = ( w i − µ i ) −→ 0 . (11)
n i=1

Es decir, el promedio muestral converge en probabilidad al límite del promedio de las medias problacionales:
p
w̄ n −→ lim µ̄ n . (12)
n→∞

4.10 Teorema del Límite Central (Linderberg - Lévy)


Recuerde que si w i ∼ N (µ, Ω) para i = 1, 2, . . . ,n, entonces la distribución muestral del promedio w̄ n (en una
muestra aleatoria) es

w̄ n ∼ N (µ, Ω/n) o, alternativamente, n(w̄ n − µ) ∼ N (0, Ω) . (13)

El teorema del límite central generaliza (asintóticamente) este resultado.


Suponga que w i (i = 1, 2, . . . ,n) son iid con E( w i ) = µ y V( w i ) = Ω, ambas cantidades finitas. Luego,
√ d
n(w̄ n − µ) −−→ N (0, Ω) . (14)

Frecuentemente este resultado se escribe tal que la función límite sea normal estándar. Sea B la raíz cuadrada de Ω,
Ω = BB 0 (ver sección 1.6, p. 3), entonces
√ d
nB −1 (w̄ n − µ) −−→ N (0,I ) . (15)

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 19


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 4 - Teoría asintótica (con énfasis en muestras aleatorias)

4.11 Teorema del Límite Central (Linderberg - Feller)


Suponga que w i (i = 1, 2, . . . ,n) son independientes con E( w i ) = µ i y V( w i ) = Ωi finitas para todo i. Sea µ̄ n el
promedio de los n vectores µ i y defina el límite
n
1X
Ωi → Ω̄ . (16)
n i=1

Luego,
√ d
n(w̄ n − µ̄ n ) −−→ N (0, Ω̄) . (17)

4.12 Ilustración: ley de grandes números y teorema del límite central


Con el propósito de ilustrar el funcionamiento de la ley de grandes números y del teorema del límite central,
considere el siguiente ejercicio de simulación. Para u ∼ N (0, 1) se generan variables aleatorias de la forma
u a − E( u a )
w= p ,
E( u 2a ) − E( u a ) 2
donde a es un número entero. Note que w es una variable estandarizada, de modo que para cualquier valor de a,
E( w ) = 0 y V( w ) = 1. Conforme a se incrementa, la distribución de w se vuelve cada vez más asimétrica, con
una cola larga hacia la derecha. El caso de a = 1 corresponde a w ∼ N (0, 1) y por tanto a puede interpretarse como
una medida de desvío de la normalidad. Asimismo, se disponen de resultados analíticos para a = 1, w̄ ∼ N (0, 1/n)

y nw̄ ∼ N (0, 1). Las medias y varianzas muestrales serán las mismas para a , 1, pero la distribuciones variarán.

Para un valor de a se generan n números aleatorios w y se calcula su promedio w̄ y nw̄. Este procedimiento se
repite un gran número de veces (un millón) y se reporta la distribución muestral de estos estadísticos (dado el gran
número de repeticiones en la simulación, esta distribución será casi idéntica a la distribución muestral analítica).
El panel (a) del Gráfico 1 muestra cómo opera la ley de grandes números. Conforme n se incrementa, la distribución
muestral de w̄ va concentrado cada vez más masa probabilística alrededor de E( w ) = 0. Ello refleja que muestrar
cada vez más observaciones de w (provenientes de la misma distribución) provee información creciente para
caracterizar tal variable aleatoria. En particular, dado que V( w̄ ) = 1/n, cuando n se incrementa la dispersión
de distintas realizaciones de w̄ alrededor de E( w̄ ) = 0 se amortigua. En el límite, conforme n → ∞, V( w̄ ) irá
convergiendo a cero, por lo que plim w̄ deja de ser aleatorio. Gráficamente, la distribución muestral de w̄ colapsa
a una masa de probabilidad igual a 1 ubicada en E( w̄ ) = E( w ), tal y cómo predice la ley débil de los grandes
números.

El panel (b) muestra la distribución muestral de nw̄ para a = 4 (la distribución de w es bastante asimétrica)
y para distintos valores de n. Note que a diferencia de lo ocurrido con la distribución de w̄, estas distribuciones

muestrales no colapsan conforme n → ∞. La razón es simple. La multiplicación de w̄ por n estabiliza la

varianza del estimador y evita que ésta converja a cero, V( nw̄ ) = nV( w̄ ) = 1. Tras estabilizar la varianza y
√ √
mantener la media, que en todo caso es cero, nw̄ = n(w̄ − E( w̄ )), se aprecia que mayores valores de n van
redituando distribuciones cada vez más cercanas a la normal estándar. En particular, se observa cómo a medida que
n se incrementa la asimetría en las distribuciones muestrales va reduciéndose y sus modas van aproximándose a
E( w ) = 0. Éste es el principal postulado del teorema del límite central.
Los paneles (c) y (d) permiten reflexionar sobre el alcance de este teorema. En ambos paneles los casos donde a = 1
corresponden a la distribución normal estándar predicha por el teorema del límite central. En el panel (c) se aprecia
que para tamaños muestrales reducidos (n = 25 en este caso), no hay garantía que las aproximaciones asintóticas
sean satisfactorias. Esto es particularmente cierto cuando la distribución de w es lejana a la normal (a = 4 y a = 6),
características que se transmiten a las distribuciones muestrales de los estadísticos de interés. Por su parte, el panel
(d) muestra cómo un mayor tamaño muestral (en este caso se pasa de n = 25 a n = 100) aminora los efectos de la
no-normalidad y da respaldo empírico al teorema del límite central. En resumen, cuando el tamaño de la muestra

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 20


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 4 - Teoría asintótica (con énfasis en muestras aleatorias)

Gráfico 1. Ilustración de la ley de grandes números y del teorema del límite central

(a) Distribución muestral de w̄ para a = 4 (b) Distribución muestral de nw̄ para a = 4
3.0 0.6
n = 25 n = 25
n = 50 n = 50
n = 100 n = 100
n = 200 n = 200

2.0

0.3

1.0

0 0
−0.6 −0.4 −0.2 0 0.2 0.4 0.6 −2 −1 0 1 2
√ √
(c) Distribución muestral de nw̄ para n = 25 (d) Distribución muestral de nw̄ para n = 100
a=6 a=6
1.2 a=4 1.2 a=4
a=2 a=2
a=1 a=1

0.9 0.9

0.6 0.6

0.3 0.3

0 0
−2 −1 0 1 2 −2 −1 0 1 2


Nota: Los paneles muestran los histogramas de w̄ y nw̄ basados en un millón de repeticiones. En el caso del panel (a) el eje vertical
muestra frecuencias relativas porcentuales, mientras que el eje vertical del resto de paneles son funciones de densidad.

es lo suficientemente grande y las distribuciones de las que provienen los datos no son muy lejanas a la normal (por
ejemplo, no son muy asimétricas), la aproximaciónes asintóticas proveen un marco de inferencia adecuado. Cuán
grande n depende de las características poblacionales de w, y es por tanto una pregunta abierta. Por ejemplo, para
a ≤ 2, n = 25 parece ser razonable, mientras que n = 100 provee aproximaciones aceptables para a ≤ 4.

4.13 El método delta


Suponga que plim qn = θ y que
√ d
n(qn − θ ) −−→ N (0, Ω) . (18)

El método delta provee una herramienta sencilla para derivar la distribución asintótica de una función continua del
vector qn , д(qn ). Utilizando el teorema del valor medio (sección 1.9, p. 4), д(qn ) puede expresarse como

д(qn ) − д(θ ) = J (θ¯n )(qn − θ ) , (19)

donde J (·) es el Jacobiano (la matriz que contiene derivadas parciales) de д(·). Note que si д : Rk → Rp , entonces
J (·) es de dimensión p × k.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 21


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 4 - Teoría asintótica (con énfasis en muestras aleatorias)

Por el postulado del teorema del valor medio, cada elemento del vector θ¯n se encuentra en el segmento que une a
los elementos correspondientes de los vectores qn y θ . Un caso muy particular es que θ¯n es una combinación lineal
convexa de qn y θ : θ¯n = λqn + (1 − λ)θ para λ ∈ [0, 1]. Dado que plim qn = θ , se deduce que plim θ¯n = θ . Luego,
considerando que J (·) es una función continua, el teorema de Slutsky implica que plim J (θ¯n ) = J (θ ). Aplicando
este hallazgo en (19), junto con el teorema de Cramér y la distribución en (18), se obtiene
√ d
n( д(qn ) − д(θ ) ) −−→ N (0, J (θ )ΩJ (θ ) 0 ) . (20)

4.14 Distribución asintótica de formas cuadráticas


Los teoremas de límite central dan un lugar primordial a la distribución normal en el análisis asintótico. Así como
en muestras finitas, a partir de formas cuadráticas de variables normalmente distribuidas en el límite, es posible
encontrar estadísticos cuya distribución converja a una chi-cuadrado. Estos procedimientos son muy utilizados en
el contexto de pruebas de hipótesis.
Suponga que
√ d
n(qn − θ ) −−→ N (0, Ω) . (21)
p
Considere una matriz confortable tal que An −→ A, donde v = rk(A). El teorema de Cramér establece que
√ d
nAn (qn − θ ) −−→ N (0,AΩA0 ) . (22)
Utilizando el Resultado 3 de la p. 15, se obtiene
f√ g0 f√ g d
Q1 = nAn (qn − θ ) (AΩA0 ) −1 nAn (qn − θ ) −−→ χv2 . (23)
p
Dado que An −→ A, el teorema de Slustky establece que una forma cuadrática asintóticamente equivalente a Q 1 es
f√ g0 f√ g d
Q2 = nAn (qn − θ ) (An ΩAn 0 ) −1 nAn (qn − θ ) −−→ χv2 . (24)
p
ya que An ΩAn 0 − AΩA0 −→ 0. Más aún, usualmente Ω es una matriz desconocida y precisa ser reemplazada por
p
un estimator. Si Ωn −→ Ω es un estimador consistente de Ω, se concluye que
d
Q 3 = n · (qn − θ ) 0An 0 (An Ωn An 0 ) −1An (qn − θ ) −−→ χv2 . (25)
es asintóticamente equivalente a Q 2 (y, por tanto, a Q 1 ) en virtud nuevamente del teorema de Slustky.

4.15 Juego de palabras sobre la varianza asintótica


Suponga que
√ d
n(qn − θ ) −−→ N (0, Ω) .
La matriz Ω es la varianza asintótica de qn y se denota AV( qn ) = Ω/n. La división entre n puede causar confusión
ya que es obvio que Ω/n → 0 a medida que n → ∞. Es por ello que el uso de igualdades como AV( qn ) = Ω/n

debe entenderse como que Ω es la varianza de la distribución límite (que es usualmente normal) de n(qn − θ ) o,

en su defecto, el límite de V( n(qn − θ ) ).
a
Usualmente, de manera poco rigurosa, se suele denotar la normalidad asintótica de qn como qn ∼ N (θ , Ω/n).
Ello da énfasis al hecho de que la distribución muestral de qn (la mayoría de veces desconocida), es aproximada
mediante una distribución normal.
p
Rutinariamente se precisa un estimador consistente de Ω, digamos Ω̂ −→ Ω. En este caso lo usual es decir que Ω̂/n
es un estimador consistente de AV( qn ), que deberá entenderse como una forma corta de decir que Ω̂ es consistente

para el límite de V( n(qn − θ ) ).

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 22


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
BANCO CENTRAL DE RESERVA DEL PERÚ
Curso de Actualización en Economía 2016
Econometría
Profesor Diego Winkelried (Universidad del Pacífico)

Notas de clase 5

Mínimos cuadrados: Álgebra y primeras propiedades

El modelo de regresión lineal establece una relación lineal entre la variable aleatoria y llamada variable
dependiente y un conjunto de variables independientes, variables explicativas o regresores recogidas en el vector
x de dimensión k × 1. Para una muestra aleatoria de tamaño n que contiene observaciones independientes indizadas
por i = 1, 2, . . . ,n se postula que

yi = x i 0 β + ε i (1)

donde εi es una variable aleatoria de media cero, E( εi ) = 0 para todo i, denominada error de regresión o
perturbación. El vector β contiene k parámetros desconocidos y el objetivo es estimarlo.
El modelo (1) tiene la siguiente representación matricial:

y = Xβ + ε , (2)

donde y es un vector de dimensión n × 1 cuyo i-ésimo elemento es yi , ε es un vector de dimensión n × 1 cuyo


i-ésimo elemento es εi y X es una matriz de dimensión n × k cuya i-ésima fila es x i 0.

Supuestos ‘clásicos’
Además del supuesto de muestra aleatoria, considere los siguientes supuestos:
S1: εi es independiente en media condicional de x i para todo i, E( εi | x i ) = 0.
S2: εi es homocedástico dado x i para todo i, V( εi | x i ) = E( εi2 | x i ) = σ 2 .
S3: εi | x i ∼ N (0,σi2 ) para todo i.
Veremos cuál es el rol de cada supuesto en el análisis en muestras finitas de estimadores de β en (1). El supuesto
más importante es S1 e implica que la media condicional de yi dado x i es una función lineal:

E( yi | x i ) = x i 0 β bajo el supuesto S1 . (3)

En otras palabras, S1 establece que en la población la relación entre yi y x i es lineal y εi se interpreta como el
desvío de yi respecto a su media condicional, εi = yi − E( yi | x i ). Es decir, es un supuesto sobre la forma funcional
de (1). Note que (3) establece además que E( yi | x i ) = L( yi | x i ) por lo que β es el coeficiente de proyección
lineal de yi sobre x i en la población: β = E( xx 0 ) −1 E( x y ). Más aún, en una muestra se observa yi y x i y a partir

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 23


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

de esa información se desea inferir sobre el vector de parámetros β y la variable aleatoria εi , ambos no observables.
El supuesto S1 permite separar la contribución de estos dos componentes sobre la variable observable yi y es, por
tanto, un supuesto de identificación.

1 Mínimos cuadrados

El principio de estimación más popular en el contexto del modelo lineal es el de mínimos cuadrados. El estimador
de Mínimos Cuadrados Ordinarios (MCO) se obtiene tras minimizar la suma de perturbaciones (vistas como una
función de β) al cuadrado
n n
1 1X 1X 1
Q (β ) = ε (β ) 0ε (β ) = εi (β ) 2 = (yi − x i 0 β ) 2 = (y − X β ) 0 (y − X β ) . (4)
2 2 i=1 2 i=1 2

El vector gradiente de Q (β ) es1


n n n
∂Q (β ) X X X
S(β ) = =− x i (yi − x i β ) = −
0
x i yi + * x i x i 0+ β = −X 0y + (X 0X )β . (5)
∂β i=1 i=1 , i=1 -
El estimador MCO es el vector b de dimension k × 1 que satisface las k condiciones de primer orden S(b) = 0.
Estas condiciones de optimalidad son las denominadas ecuaciones normales y equivalen a X 0Xb = X 0y.
El Hessiano de Q (β ) es igual a
n
∂Q (β ) X
0 = x i x i 0 = X 0X . (6)
∂β ∂β i=1

Un supuesto usual que no hemos detallado, pero que es importante para la existencia de b, es que la matriz X 0X
sea no singular. Si X 0X es definida positiva, las condiciones de segundo orden establecen que Q (·) es estrictamente
convexa y por tanto que el estimador MCO es un mínimo global y es único. Cuando X 0X es semidefinida positiva
(es singular), entonces existen múltiples mínimos locales y en general las ecuaciones normales son satisfechas por
un número indeterminado de vectores b. Una condición suficiente para la no singularidad de X 0X (y por tanto para
la unicidad del estimador MCO) es que el rango de X sea igual a k, lo que se traduce en que las columnas de X
sean linealmente independientes: cada regresor debe contener información única.
Luego, con una matrix X de rango k, las ecuaciones normales se resuelven para

X n −1 n
X
b= * xixi 0+
x i yi = (X 0X ) −1X 0y . (7)
, i=1 - i=1

1.1 Linealidad
Dado X , MCO es un estimador lineal. Ello significa que b es un vector aleatorio que puede ser expresado como una
combinación lineal de los elementos de y, b = W y:
n
X X n −1
b= w i yi donde w i = * x i x i 0+ x i = (X 0X ) −1x i . (8)
i=1 , i=1 -
Un estimador es no lineal cuando no puede ser expresado como en (8). En otras palabras, cuando las ponderaciones
w i dependen de y. La linealidad es un atributo conveniente de b ya que sus propiedades estadísticas en muestras
finitas (dado X ) pueden ser deducidas directamente a través de las características de y o de ε.

1 Recuerde que ∂(Aβ )/∂β = A0 y que ∂(β 0Aβ )/∂β = (A + A0 )β.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 24


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

1.2 Método de momentos


El estimador MCO es también un estimador del método de momentos. Como se mencionó, la relación lineal
en (1) puede entenderse como una proyección lineal de y sobre x y, por consiguiente, en la población β =
E( xx 0 ) −1 E( x y ). Tras reemplazar las expectativas E( xx 0 ) y E( x y ) por sus contrapartes muestrales X 0X /n y
X 0y/n se obtiene (7).
Alternativamente, al surgir β de la proyección lineal de y sobre x se cumple por construcción que E( x i εi ) = 0.
Éstas son las condiciones de momentos que definen al estimador de β. La contraparte muestral de estas condiciones
es X 0e/n = 0, donde e = y − Xb, lo que deriva en las ecuaciones normales.

1.3 Valores predichos y residuos


El vector y puede descomponerse en dos partes: un vector de valores predichos (ŷ, el análogo muestral de X β) y
un vector de residuos (e, el análogo muestral de ε).
El vector de valores predichos de y es ŷ = Xb, donde b es el estimador MCO de β. Tras reemplazar el estimador
b por (7) se obtiene ŷ = X (X 0X ) −1X 0y. Se aprecia que cada elemento de ŷ es una combinación lineal de los
elementos de y. La matriz

P = X (X 0X ) −1X 0 (9)

es una matriz de proyección y, como su nombre sugiere, la operación ŷ = Py proyecta el vector y sobre el espacio
vectorial formado por las columnas de X . Por construcción, la matriz P es simétrica (P = P 0), idempotente (PP = P)
y de rango igual a k (rk(P ) = tr(P ) = tr(X (X 0X ) −1X 0 ) = tr((X 0X ) −1X 0X ) = tr(I k ) = k). Además, se cumple que
PX = X .
Por su parte, el vector de residuos de la regresión es e = y − ŷ = y − Xb. Tras reemplazar b por (7) se obtiene
que e = (I n − X (X 0X ) −1X 0 )y = My donde M = I n − P es la matriz de proyección al espacio ortogonal al espacio
formado por las columnas de X . Por definición, ésta es simétrica (M = M 0), idempotente (MM = M) y de rango
igual a n − k (rk(M ) = tr(M ) = tr(I n − P ) = n − tr(P ) = n − k). Además, se cumple que MX = 0.
Note que debido a que e = My, se tiene que X 0e = X 0My = 0: los residuos son ortogonales a X . Ello se da por
construcción a través de las condiciones de primer orden del problema de minimización que da lugar a MCO (las
ecuaciones normales, S(b) = 0). Una implicancia es que si algunas de las columnas de X es un vector de dimensión
n × 1 lleno de unos 1, es decir si el modelo incluye una constante como regresor (una práctica muy usual), entonces
la suma y por tanto el promedio muestral de los residuos es exactamente igual a cero: 10e = ni=1 ei = 0 donde ei
P
es el i-ésimo elemento de e (ver ejercicio E2, p. 32).
Asimismo, dado que PM = MP = 0 (ya que estas matrices proyectan espacios ortogonales), entonces el vector de
valores predichos es ortogonal al vector de residuos: e 0ŷ = y 0MPy = 0. Este resultado permite entender cómo opera
el estimador MCO: escencialmente el estimador utiliza toda la información disponible en X al dividir el universo
en el espacio formado por las columnas de X , donde cae lo que la regresión predice o explica Py, y su espacio
ortogonal, donde reside el componente no explicado de la regresión My.

1.4 Regresiones particionadas


Considere el modelo de regresión lineal en forma matricial y = X β + ε donde la matriz de regresores X es
particionada en dos bloques X = (X 1 : X 2 ) que contienen k 1 y k 2 = k − k 1 columnas. El vector de parámetros β se
particiona de manera análoga, β = (β 1 0, β 2 0 ) 0. En otras palabras, se expresa (2) como

y = X 1β 1 + X 2β 2 + ε . (10)

El interés se centra en derivar un método para la estimación MCO de β 1 sin necesidad de calcular el estimador MCO
de todo el vector β. El postulado principal de esta sección, conocido como el teorema de Frisch-Waugh-Lovell, es
de utilidad cuando se cuenta con dos conjuntos de variables, un grupo de variables ‘relevantes’ (X 1 ) y un grupo de

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 25


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

variables ‘menos importantes’ (X 2 ). Las variables ‘menos importantes’ son conocidas como variables de control y
su rol es asistir la estimación de β 1 ya que usualmente los parámetros en β 2 no son de interés per se.
Recuerde las ecuaciones normales (X 0X )b = X 0y. Tras particionar este sistema se obtiene

(X 1 0X 1 )b 1 + (X 1 0X 2 )b 2 = X 1 0y , (11a)
(X 2 0X 1 )b 1 + (X 2 0X 2 )b 2 = X 2 0y . (11b)

De (11b) se deduce que

b 2 = (X 2 0X 2 ) −1X 2 0 (y − X 1b 1 ) . (12)

Denote P 2 = X 2 (X 2 0X 2 ) −1X 2 0 a la matriz de proyección (simétrica e idempotente) sobre el espacio formado por
las columnas de X 2 (P 2X 2 = X 2 ) y llame M 2 = I n − P 2 a la matriz de proyección ortogonal a X 2 (M 2X 2 = 0). Tras
reemplazar (12) en (11a) se tiene que

(X 1 0X 1 )b 1 + X 1 0P 2 (y − X 1b 1 ) = X 1 0y que reordenando implica (X 1 0M 2X 1 )b 1 = X 1 0M 2y . (13)

De esta forma,

b 1 = (X 1 0M 2X 1 ) −1X 1 0M 2y . (14)

Note que e 2 = M 2y es el vector de residuos de una regresión de y sobre X 2 . Del mismo modo, cada columna de la
matriz E 1|2 = M 2X 1 (de dimensión n ×k 1 ) es el vector de residuos de la regresión de la columna correspondiente de
X 1 sobre el conjunto de regresores X 2 . Dado que M 2 es simétrica e idempotente, X 1 0M 2X 1 = (M 2X 1 ) 0 (M 2X 1 ) =
E 1|2 0E 1|2 y X 1 0M 2y = (M 2X 1 ) 0 (M 2y) = E 1|2 0e 2 tal que b 1 es el resultado de estimar por MCO una regresión de e 2
sobre E 1|2 : b 1 = (E 1|2 0E 1|2 ) −1 E 1|2 0e 2 .
Este hallazgo sugiere que la estimación MCO de un modelo de regresión lineal puede efectuarse en dos etapas.
Primero, se estiman regresiones auxiliares sobre las variables X 2 y, segundo, utilizando los residuos generados se
consiguen los coeficientes de las variables X 1 . Mediante el procedimiento de preservar los residuos e 2 y E 1|2 se
obtienen las variables y y X 1 tras haber descontado el efecto común que puedan tener con las variables X 2 o, en
jerga econométrica, las variables y y X 1 controlando por X 2 (es decir, netas de X 2 ).
Una aplicación directa se da cuando X 2 = 1, un vector lleno de unos, por lo que el modelo original incluye
una constante. En este caso M 2 = I n − 110/n por lo que e 2 = y − ȳ1, donde ȳ es el promedio muestral de las
observaciones en el vector y. En palabras, ‘corregir’ el efecto de un intercepto en la regresión equivale a ingresar
los datos como desvíos de sus promedios muestrales. Otra aplicación usual se da cuando se incluye como X 2 un
conjunto de variables ficticias (dummies) estacionales o que denotan la pertenencia a un grupo (ver ejercicio E3, p.
32): el teorema sugiere primero desestacionalizar o remover las medias grupales de y y X 1 a través de regresiones
de las variables en cuestión sobre el conjunto de dummies, y utilizar los datos desestacionalizados o como desvíos
de los promedios grupales para obtener los coeficientes de interés.

2 Propiedades en muestras finitas

Recuerde que b es un vector aleatorio. A continuación se describen sus propiedades estadísticas y se estudia cómo
se ven afectadas por diversos supuestos sobre la relación entre x i y εi .

2.1 Sesgo
Tras reemplazar (2) en (7) se obtiene b como una combinacion lineal del vector no observable ε,

b = β + (X 0X ) −1X 0ε . (15)

Tomando expectativas condicionales a X se encuentra que

E( b | X ) = β + (X 0X ) −1X 0E( ε | X ) . (16)

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 26


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

Dada la muestra aleatoria, E( εi | X ) = E( εi | x 1 , . . . ,x n ) = E( εi | x i ) para todo i. Por tanto, el supuesto


S1 implica E( ε | X ) = 0 y permite concluir que E( b | X ) = β: MCO es condicionalmente insesgado. Más
aún, aplicando la LEI, E( b ) = E( E( b | X ) ) = E( β ) = β, se concluye que el insesgamiento se cumple
incondicionalmente.

2.2 Varianza
De (15), b − E( b | X ) = (X 0X ) −1X 0ε. Luego, de (15) se desprende que

V( b | X ) = E( ( b − E( b | X ) )( b − E( b | X ) ) 0 | X ) = (X 0X ) −1X 0 ΩX (X 0X ) −1 , (17)

donde Ω = E( εε 0 | X ). Al tratarse de una muestra aleatoria los elementos de Ω son

(i,i) → E( εi2 | X ) = E( εi2 | x i ) = σi2 ,


(i, j) → E( εi ε j | X ) = E( εi | X )E( ε j | X ) = E( εi | x i )E( ε j | x j ) = 0 ,

es decir, Ω es una matriz diagonal. De este modo, la varianza (condicional) del estimador MCO es

X n −1 n
X X n −1
V( b | X ) = (X X ) X ΩX (X X )
0 −1 0 0 −1
= * xixi 0+
σi x i x i
2 0*
xixi 0+
. (18)
, i=1 - i=1 , i=1 -

El supuesto S2 (es decir, Ω = σ 2 I n ) simplifica considerablemente la expresión de V( b | X ): 2


n
X −1
V( b | X ) = σ (X X ) 2 0 −1
=σ 2*
xixi 0+
. (19)
, i=1 -

2.3 Residuos
Utilizando la definición del modelo lineal (2) se tiene que

e = My = M (X β + ε) = Mε , (20)

de modo que cada elemento del vector e es una combinación lineal de todos los elementos de ε. En el análisis de
regresión, los residuos juegan un rol primordial ya que permiten inferir ciertas propiedades de las perturbaciones
poblacionales, al ser ei un predictor de εi (se reserva el término estimador para variables aleatorias que infieren
sobre un parámetro y predictor para variables aleatorias que infieren sobre otras variables aleatorias). Sin embargo,
las propiedades de e son distintas a las de ε. Ello se debe en parte a que en el modelo lineal ε no está identificado
por la pérdida de grados de libertad, en el contexto de la relación e = Mε donde M es no singular.
En particular, si bien bajo S1

E( e | X ) = ME( ε | X ) = 0 , y por la LEI E( e ) = 0 , (21)

(una consecuencia del insesgamiento de b y que implica E( ŷ | X ) = y) la matriz de covarianzas de e es

V( e | X ) = MV( ε | X )M 0 = M ΩM 0 , (22)

que, a diferencia de Ω con observaciones independientes, no es diagonal: mientras que εi y ε j no presentan


correlación, ei y e j están correlacionados. Note que ei = yi − x i 0b = εi − x i 0 (b − β ) por lo que

2 La varianza de b depende de X y en ese sentido la inferencia es condicional. La varianza no condicional de b es, bajo S2, igual a
V( b ) = σ 2 E( (X 0X ) −1 ), por lo que en general se precisan supuestos sobre la naturaleza aleatoria de X para llegar a conclusiones más
definitivas. El ejercicio E12 muestra, sin embargo, que podrían establecerse ordenamientos categóricos de varianzas no condicionales a
partir de V( b | X ), bajo circunstancias bastante generales.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 27


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

E( ei e j | X ) = E( εi ε j + x i 0 (b − β )(b − β ) 0x j − ε j x i 0 (b − β ) − εi x j 0 (b − β ) | X )
= E( x i 0 (b − β )(b − β ) 0x j | X ) = x i 0V( b | X )x j , 0 . (23)

La expresión (22) se simplifica bajo el supuesto S2: V( e | X ) = σ 2 M, donde se puede apreciar con mayor
claridad la existencia de correlación entre residuos: M no es diagonal. Más aún, a pesar de suponer que εi es
condicionalmente homocedástico, ei es siempre heterocedástico: V( ei | X ) = σ 2mii , donde mii es el i-ésimo
elemento de la diagonal de M y depende de x i .

2.4 Varianza del error


En general, no es posible hallar un estimador insesgado de la matriz de covarianzas (18), aunque sí es posible
encontrar estimadores consistentes (ver NC 6). Sin embargo, bajo el supuesto S2 la matriz de covarianzas
(condicional) de b se reduce a (19) que depende de un único parámetro, σ 2 , que puede ser estimado sin sesgo.
De hecho,
e 0e
s2 = (24)
n −k
es un estimador insesgado de σ 2 . Recuerde que e = Mε de modo que e 0e = ε 0Mε. Así,
E( e 0e | X ) E( ε 0Mε | X ) tr(M E( εε 0 | X )) tr(M Ω)
E( s 2 | X ) = = = = . (25)
n −k n −k n −k n −k
Bajo S2, Ω = σ 2 I n y
tr(M ) n −k
E( s 2 | X ) = σ 2 = σ2 = σ2 (26)
n −k n −k
y por la LEI E( s 2 ) = E( E( s 2 | X ) ) = E( σ 2 ) = σ 2 .3
Un estimador alternativo es σ̃ 2 = e 0e/n que es sesgado (aunque el sesgo no es importante si n es grande): utilizando
los mismos pasos arriba descritos es sencillo verificar que E( σ̃ 2 | X ) = E( σ̃ 2 ) = σ 2 (n − k )/n < σ 2 . La diferencia
se debe a que s 2 incluye una corrección por la pérdida de grados de libertad (el rango de M es n −k). En el ejercicio
E11 (p. 35) se consideran otros estimadores (en general, sesgados).

3 Inferencia en el modelo normal homocedástico

Los supuestos S2 y S3 (note que S3 reemplaza a S1) son la base para un marco de inferencia exacta en el modelo
de regresión lineal. Ellos permiten obtener resultados relevantes para el contraste de hipótesis lineales sobre los
elementos del vector β en muestras finitas.

3.1 Normalidad
Dado X , tanto b − β como e pueden expresarse como combinaciones lineales de ε, ver las ecuaciones (15) y (20).
El supuesto de normalidad S3 implica ε | X ∼ N (0, Ω), lo que lleva a concluir que b | X ∼ N (β, V( b | X )) y del
mismo modo, e | X ∼ N (0, V( e | X )).
Más aún bajo S2 y condicional en X ,

b−β (X 0X ) −1X 0 σ (X X )
" # " # " # " 2 0 −1 #!
0 0
= ε∼N , (27)
e M 0 0 σ 2M

por lo que b y e son independientes (con cero covarianza).

3 Este resultado implica directamente que s 2 (X 0X ) −1 es un estimador insesgado de la varianza σ 2 (X 0X ) −1 definida en (19). Más aún,
utilizando la LEI se tiene que E( s 2 (X 0X ) −1 ) = E( E( s 2 | X )(X 0X ) −1 ) = σ 2 E( (X 0X ) −1 ), por lo que también es un predictor (tomando
en cuenta la aleatoriedad en X ) incondicionalmente insesgado. Ver nota al pie 2.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 28


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

3.2 Varianza del error


En la sección 2.4 se determinó que e 0e = ε 0Mε. Bajo S2 y S3, ε/σ | X ∼ N (0,I n ) y por consiguiente,
(ε/σ ) 0M (ε/σ ) = e 0e/σ 2 ∼ χn−k
2 . Se concluye que

(n − k )s 2
∼ χn−k
2
. (28)
σ2
Es bueno notar que a diferencia de (27), la distribución en (28) depende únicamente del número de grados de
libertad n − k y no depende de X . Ello implica que el resultado en (28) se cumple tanto condicional en X como
incondicionalmente.

3.3 Restricciones lineales


El interés es contrastar hipótesis lineales del tipo H 0 : Rβ = r donde R es una matriz no aleatoria de dimensión q ×k
y r es un vector de constantes de dimensión q × 1. Se asume que las q < k filas de R son linealmente independientes,
de otra forma se incluirían restricciones lineales redundantes. Ello implica que q = rk(R).4
Recuerde que β = (β 1 , β 2 , . . . , βk ) 0. Algunos ejemplos de las matrices R y r bajo diversas restricciones lineales son:
• H 0 : β 1 = 0, entonces q = 1, R = (1, 0, . . . , 0) y r = 0;
• H 0 : β 1 + 2β 2 = −3, entonces q = 1, R = (1, 2, 0, . . . , 0) y r = −3;
• H 0 : ki=1 βi = 0, entonces q = 1, R = (1, 1, . . . , 1) y r = 0;
P

• H 0 : β 1 + β 2 = 1 y además β 1 − β 3 = 0, entonces q = 2,
" # " #
1 1 0 ··· 0 1
R= y r= ;
1 0 −1 · · · 0 0

• H 0 : β 1 + β 2 = 3, β 3 − 2β 4 = 5 y β 1 − β 5 = 0, entonces q = 3,
 1 1 0 0 0 0 · · · 0   3 
R =  0 0 1 −2
 0 0 · · · 0  y r =  5  ;
 1 0 0 0 −1 0 · · · 0   0 

• H 0 : β = 0, entonces q = k, R = I k y r = 0.
Bajo normalidad S3, b | X ∼ N (β, V( b | X )) por lo que Rb − r | X ∼ N (Rβ − r ,R 0V( b | X )R). Si se impone la
hipótesis nula Rb − r | X ∼ N (0,RV( b | X )R 0 ) y por ende

(Rb − r ) 0 (RV( b | X )R 0 ) −1 (Rb − r ) | X ∼ χq2 . (29)

Bajo S2, (29) se simplifica a

(Rb − r ) 0 (R(X 0X ) −1R 0 ) −1 (Rb − r )/σ 2 | X ∼ χq2 . (30)

Los estadísticos del tipo (29) ó (30) se conocen como criterios de Wald. Intuitivamente, casi siempre ocurrirá
que Rb − r , 0 pero la pregunta relevante desde el punto de vista estadístico es si esta discrepancia de cero
puede atribuirse a un simple error de muestreo o si es significativa. Note que cuanto más grande es Rb − r , es
decir en ocasiones donde el estimador MCO b incumple las restricciones notoriamente, el estadístico chi-cuadrado
(una forma cuadrática) toma un valor más alto. Así, un valor elevado de los estadísticos en (29) ó (30) constituye
evidencia en contra de la hipótesis H 0 : Rβ = r .
Si bien la prueba de Wald (30) ofrece una alternativa de contraste H 0 , no es del todo útil en la práctica ya que depende
del parámetro σ 2 que es desconocido y precisa ser reemplazado por un estimador factible. El estadístico (30)

4 Cuando q = k, R es una matriz cuadrada. Si fuera no singular, los coeficientes β satisfarían β = R −1r y no habría problema de estimación.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 29


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

depende de b y de X y de (27) se desprende que es independiente de e y funciones derivadas de este vector, como
s 2 . En otras palabras (30) y (28) son dos variables aleatorias distribuidas como chi-cuadrado que son independientes.
Ello forma la base para construir un estadístico F . Así, bajo la hipótesis nula5

(Rb − r ) 0 (R(X 0X ) −1R 0 ) −1 (Rb − r ) n − k


ϕ= · ∼ F (q,n − k ) . (31)
e 0e q
Note que al igual que (28), la distribución del estadístico ϕ bajo H 0 depende únicamente del número de grados de
libertad n−k y del número de restricciones q. No depende de X . El marco de hipótesis es válido incondicionalmente.
El procedimiento de prueba de hipótesis es mecánico. Dadas las restricciones Rβ = r , se calcula ϕ y ese valor se
compara con las tabulaciones de la función de distribución F con q y n − k grados de libertad. Si ϕ > F α , el valor
crítico al nivel de significación del 100(1 − α )% o el 100α-ésimo percentil de F (q,n − k ), entonces se rechaza H 0 .
Por el contrario, si ϕ < F α entonces no se cuenta con suficiente evidencia como para rechazar H 0 (se ‘acepta’ H 0 ).

Pruebas t
Cuando se contrasta una sola restricción (q = 1) se puede utilizar la distribución de Student para inferencia. Ello se
debe a que si τ ∼ tv (τ se distribuye como una t de Student con v grados de libertad), entonces τ 2 ∼ F (1,v). Así, si
R = c 0 es un vector de dimension 1 × k, (31) implica que
c 0b − r
τ = p ∼ tn−k (32)
s 2c 0 (X 0X ) −1c
puede emplearse para contrastar la hipótesis c 0 β = r . El denominador de (32) es igual a un estimador de la
desviación estándar de c 0b. La aplicación más conocida de la prueba t es el contraste de significación de coeficientes
individuales, H 0 : βh = 0, en cuyo caso c es un vector con 1 en la h-ésima posición y 0 de otro modo, y r = 0.
En este punto, es ilustrativo relacionar la regla de decisión de contrastes de hipótesis con la noción de un intervalo
de confianza. El estadístico τ se distribuye como tn−k . Si tn−k (α/2) denota el 100α/2-ésimo percentil de tn−k , a
partir de (32) se llega al intervalo de confianza
q q
c 0 β ∈ C donde C = { c 0b − tn−k (α/2) × s 2c 0 (X 0X ) −1c, c 0b + tn−k (α/2) × s 2c 0 (X 0X ) −1c } .

La interpretación es la siguiente. Contamos con una muestra de tamaño n conformada por X y ε (y, por tanto,
y), y con esta información calculamos el estimador c 0b como la contraparte muestral de c 0 β. El valor puntual del
estimador c 0b, de hecho, nunca será igual el parámetro poblacional c 0 β, por la aleatoriedad inherente en la muestra
(lo que se conoce como error muestral). Sin embargo, si pudiéramos muestrear repetidamente, esto es acceder a un
número ilimitado de muestras con las mismas características que la muestra efectivamente disponible (esto es, el
mismo tamaño n, la misma matriz X y un nuevo vector de perturbaciones ε ∗ proveniente de la misma distribución
de ε) y estimar c 0b para cada una de estas muestras, el 100α por ciento de los estimadores de c 0 β tendrán valores
contenidos en el intervalo de confianza C.
El procedimiento de prueba de hipótesis consiste en comparar τ con tn−k (α/2). Si |τ | > tn−k (α/2), entonces se
rechaza H 0 . Ello indica que el valor hipotetizado de c 0 β cae fuera de C; es decir, c 0 β ocurriría en casos anómalos
en nuestro muestreo repetido. Por ello, dados los datos y los supuestos del modelo de regresión, no contamos con
la confianza suficiente como para tomar H 0 como una conjetura válida. Por el contrario, si |τ | ≤ tn−k (α/2), el valor
hipotetizado de c 0 β se encuentra contenido en C, lo que indica que la estimación puntual c 0b y su variabilidad
muestral no permiten invalidar H 0 .6

5 Note que bajo H 0 , Rb − r = R(b − β ) = R(X 0X ) −1X 0ε ≡ Aε. Luego, el numerador de (31) es igual a (ε/σ ) 0A0B −1A(ε/σ )/q donde
B = R(X 0X ) −1 R 0 y es igual a una variable χq2 dividida por q. Asimismo, el denominador es igual a (ε/σ ) 0M (ε/σ )/(n − k ) que es igual
a una variable χn−k
2 dividida por n − k, ver (28). Ya que MA = 0, la distribución F en (31) se obtiene al combinar el Resultado 4 y el
Colorario de la p. 16.
6 Aunque los detalles difieren, la misma dualidad entre el estadístico que contrasta H 0 y la región de confianza de Rβ se cumple para las
mútliples restricciones detrás de ϕ.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 30


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

Valor-p
Una probabilidad que tiene un rol especial en el contexto de pruebas de hipótesis es el denominado Valor-p o p-
value. Mecánicamente, en el caso de múltiples restricciones p es igual al percentil de la distribución F (q,n − k ) que
corresponde exactamente al valor del estadístico calculado ϕ, mientras que en el caso de una sola restricción p es
el percentil de la distribución tn−k que corresponde al valor del estadístico τ . El valor p denota el mínimo nivel de
significación para el que H 0 será rechazada.
Bajo la hipótesis nula y en un contexto de muestreo repetido, p es igual a la probabilidad de encontrar un estadístico
(ϕ o τ ) que exceda el valor del estadístico encontrado en la muestra. La regla de decisión respecto a H 0 se puede
entender alternativamente como: si p ≤ α, entonces H 0 se rechaza. Así, el valor-p tiene la virtud de mostrar cuán
sensible puede ser la decisión de rechazar una hipótesis ante distintas elecciones del nivel de significación (que
es impuesto por el investigador). Por ejemplo, p = 0.08 indica que H 0 será rechazada si α = 0.10, pero no será
rechazada si α = 0.05.

Errores tipo I y tipo II


El marco de inferencia descrito puede resumirse de la siguiente manera: (i) se formula una hipótesis H 0 ; (ii) se
construye algún estadístico – por ejemplo, ϕ o τ – que es típicamente una variable aleatoria que refleja la naturaleza
estocástico de los datos; (iii) se evalúa el comportamiento de esta variable aleatoria, bajo el supuesto que H 0
efectivamente se cumple; (iv) se decide si rechazar H 0 o no. Se ha verificado que, bajo el supuesto S3, el estadístico
ϕ se distribuye como una variable F , mientras que τ lo hace como una variable t en caso de cumplirse la hipótesis.
Valores extremos de estos estadísticos conllevan al rechazo de H 0 .
El nivel de significación α, conocido también como tamaño estadístico (statistical size), se define como
α = Pr(Rechazo H 0 | H 0 es verdadera). Es decir α es la probabilidad de cometer un error tipo I (no
encarcelar a un delincuente; no vacunar a un enfermo). El análisis hasta el momento requiere saber sólo el
comportamiento de los estadísticos bajo H 0 . No obstante, otro elemento relevante del marco de inferencia es la
probabilidad de comenter un error tipo II, β = Pr(No rechazo H 0 | H 0 es falsa) (encarcelar a un inocente; vacunar a
una persona sana). Ello requiere conocer el comportamiento de los estadísticos bajo una situación alternativa, donde
no se cumple H 0 .
Suponga que Rβ − r = δ, que puede ser distinto de cero. Bajo normalidad S3, b | X ∼ N (β, V( b | X )) por lo que
Rb − r | X ∼ N (δ,RV( b | X )R 0 ) y el criterio de Wald pasa a ser
1
(Rb − r ) 0 (σ 2R(X 0X ) −1R 0 ) −1 (Rb − r ) | X ∼ χq2 (λ) donde λ = δ 0 (σ 2R(X 0X ) −1R 0 ) −1δ . (33)
2
Ésta es una variable distrbuida como χ 2 no centrada con parámetro de no centralidad λ. Así, se puede concluir que

(Rb − r ) 0 (R(X 0X ) −1R 0 ) −1 (Rb − r ) n − k


ϕ= · ∼ F (λ; q,n − k ) , (34)
e 0e q

es un variable distribuida como F no centrada con parámetro de no centralidad λ. Nótese que λ depende de X y de
δ y, por tanto, el análisis del error tipo II es, necesariamente, condicional a lo que ocurra con estas cantidades.
Finalmente, cuando q = 1, el estadístico τ en (32) se distribuye como una variable t no centrada, tn−k (λ).
La potencia estadística o el poder estadístico (statistical power) de una prueba se define como 1− β, la probabilidad
de rechazo de una hipótesis falsa. El Gráfico 1 (p. 33) ilustra cómo se determina, considerando el estadístico ϕ para
q = 5 y n − k = 100. La línea continua del panel (a) representa la distribución centrada F (5, 100), mientras que la
línea punteada representa la distribución no centrada F (λ = 2; 5, 100). Para un nivel de significación de α = 0.05,
el valor crítico es F α = 2.31 y valores hacia la derecha de F α se asocian con rechazos de H 0 (por construcción el
área hacia la derecha de F α y por debajo de la línea continua es igual a α = 0.05). La potencia es la probabilidad de
rechazo (ϕ > F α ) bajo el supuesto de que H 0 es falsa, es decir bajo el supuesto que la distribución muestral de ϕ es
la no centrada. Esta probabilidad es representada por el área sombreada bajo la curva punteada.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 31


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

De este análisis puede concluirse que la potencia dependen positivamente de α: una menor valor de α implica un
mayor valor de F α y, por tanto, una menor probabilidad de ϕ > F α . Ello ilustra cómo interactúan las probabilidades
de error tipo I y tipo II. Un valor de α muy exigente (muy cercano a cero) implica valores elevados de F α , por lo
que H 0 no será rechazada fácilmente. Si H 0 es verdadera esto es una buena noticia, mientras que si H 0 es falsa,
no la rechazaremos con la fecuencia con la que quisiéramos. Por el contrario, un valor muy laxo de α (digamos,
α = 0.20) induciría a un rechazo cotidiano de H 0 . La prueba en este caso tendría alta potencia, bajo el riesgo de
rechazar hipótesis verdaderas frecuentemente.
El panel (b) es similar al panel (a), pero el parámetro de no centralidad varía de λ = 2 a λ = 10. Claramente, la
potencia es creciente en λ, lo que se confirma en el panel (c) que presenta 1 − β como función de α y de λ.
El parámetro de no centralidad λ, fundamentalmente, de dos cantidades. La primera es, obviamente, el desvío δ. Si
éste es muy reducido, será difícil distinguirlo de cero y, aunque se dé que Rβ = r + δ , r en realidad tenderemos a
no rechazar Rβ = r . La potencia es baja en este caso. Si δ es notoriamente distinto de cero, resulta más probable el
rechazo de H 0 . En segundo lugar, λ depende proporcionalmente del tamaño de la muestra, ya que cuando mayor sea
n, la matriz X 0X contendrá elementos cada vez más grandes. Así, considerando además la relación negativa entre
α y la potencia, una estrategia de inferencia es utilizar valores bajos de α en muestras grandes (donde el parámetro
de no centralidad será, también, grande).

Ejercicios

E1 Proyecciones lineales
Sean y y x dos variables aleatorias con varianzas finitas y positivas. Si se quiere predecir y a partir de una función
lineal de la forma α + βx, muestre que la elección de α y β que minimiza ECM( y,α + βx ) es β = C( x,y )/V( x ) y
α = E( y ) − β E( x ). Encuentre, además, el error cuadrático medio de este predictor lineal.
Considere ahora el predictor de y que se obtiene a partir de la combinación lineal de un vector aleatorio x. En
particular, muestre que el vector β que minimiza ECM( y,x 0 β ) es β = E( xx 0 ) −1 E( x y ).

E2 Intercepto en la regresión
Considere el modelo de regresión y = X β +ε, donde X es tal que existe un vector a de dimensión k ×1 que satisface
1 = Xa, donde 1 es un vector de dimensión n × 1 lleno de unos. Defina el vector x̄ 0 = 10X /n, cuyo j-ésimo elemento
es el promedio muestral de los elementos de la j-ésima columna de X .
• Utilizando las ecuaciones normales del problema de estimación MCO, muestre que ȳ = x̄ 0b, donde b es el
estimador MCO de β.
• Muestre que los residuos de esta regresión tienen una media muestral igual a cero.
Este resultado significa que la línea de regresión (mejor dicho, el plano de regresión) contiene a los promedios de
los datos. Cuando a es igual a un vector unitario, un vector lleno de ceros excepto por el j-ésimo elemento que es
igual a 1, entonces el modelo de regresión incluye una constante como regresor (es un modelo con intercepto).

E3 Variable ficticia o dummy


Considere el modelo de regresión lineal

E( yi | x i ) = β 1 + x i β 2 para i = 1, 2, . . . ,n .

donde x i = 1 si el individuo i pertenece al grupo 1 y x i = 0 si el individuo individuo i pertenece al grupo 2. Muestre


que el estimador MCO de β 2 puede expresarse como b2 = ȳ1 − ȳ2 , donde ȳ j es el promedio de las observaciones del
grupo j (j = 1, 2). Muestre además que el estimador MCO de β 1 es b1 = ȳ2 ¿Podría interpretar estos resultados a la
luz del método de momentos?

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 32


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

Gráfico 1. Potencia estadística


(a) Distribución muestral de ϕ para λ = 0 y λ = 2 (b) Distribución muestral de ϕ para λ = 0 y λ = 2

F centrada F centrada
F no centrada (λ = 2) F no centrada (λ = 10)
Potencia Potencia

0 1 2 3 4 5 0 1 2 3 4 5

(c) Potencia estadística como función de α y λ


1.0

0.8

0.6

0.4

0.2
α = 0.01
α = 0.05
0.0 α = 0.10
0 3 6 9 12 15 18 21 24 27 30

Nota: Las distribuciones F utilizan q = 5 y n − k = 10. En los paneles (a) y (b) la potencia es igual al área sombreada, bajo las distribuciones
no centradas.

E4 Alterando los regresores


Considere el modelo de regresión lineal en forma matricial y = X β + ε, donde β es un vector de k parámetros.
Suponga que los regresores son sometidos a una transformación lineal Z = XA donde A es una matriz no singular
de dimensión k × k: cada columna de Z es una combinación lineal de las columnas de X .
• Muestre que el vector de residuos de la regresión de y sobre X es el mismo que el vector de residuos de la
regresión de y sobre Z . Explique a qué se debe este resultado.
• Compare los estimados MCO de las dos regresiones anteriores.
• Utilizando los resultados previos muestre que si en un modelo de regresión lineal una variable explicativa es
multiplicada por una constante δ , el coeficiente estimado MCO correspondiente es multiplicado por 1/δ .
• Suponga que el modelo contiene una constante (la primera de columna de X es un vector de unos). Muestre,
utilizando los resultados previos, que si una constante δ es sumada a una variable explicativa, el coeficiente
estimado MCO correspondiente no se altera ¿Algún otro coeficiente estimado varía con esta transformación?
• Suponga que todas las variables del modelo están en logaritmos ¿Cuál es el efecto sobre el vector de
coeficientes estimados de cambiar la unidad de medida de las variables originales (por ejemplo, de kilómetros

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 33


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

a millas o de kilos a libras)?

E5 Suma de residuos al cuadrado


Sean b y M el estimador MCO y la matriz de proyección ortogonal, respectivamente, de una regresión de y sobre
X . Considere un vector arbitrario β de dimensión k × 1. Completando cuadrados, muestre que la suma de errores
al cuadrado Q (β ) = (y − X β ) 0 (y − X β ) puede reexpresarse como Q (β ) = y 0My + (β − b) 0X 0X (β − b). Con ello
responda ¿Cuál es el vector β que minimiza Q (·) y cuál es el valor mínimo de esta función?

E6 Suma de residuos al cuadrado II


Suponga que b es el estimador MCO de una regresión de y sobre X y considere un vector arbitrario b ∗ de dimensión
k × 1. Defina Q (b ∗ ) = (y − Xb ∗ ) 0 (y − Xb ∗ ) − (y − Xb) 0 (y − Xb). Muestre que Q (b ∗ ) = (b ∗ − b) 0X 0X (b ∗ − b) y que
Q (b ∗ ) > 0 si b ∗ , b ¿Cómo se puede interpretar este resultado?

E7 Modelo de regresión simple I


Considere el modelo de regresión simple

yi = α + x i β + ε i para i = 1, 2, . . . ,n .

Esta ecuación equivale a (1) con x i = (1,x i ) 0 y β = (α, β ) 0. Por simplicidad, asuma que x i es determinístico.
• Utilizando los resultados matriciales derivados en estas notas – por ejemplo (7) – muestre que los estimadores
MCO de β y α son, respectivamente
Pn Pn
i=1 (x i − x̄ )(yi − ȳ) (x i − x̄ )yi
b= Pn = Pi=1
n y a = ȳ − x̄b ,
i=1 (x i − x̄ ) i=1 (x i − x̄ )
2 2

donde ȳ = ni=1 yi /n y x̄ = ni=1 x i /n son los promedios muestrales de yi e x i . Compare estos resultados con
P P
el caso escalar del ejercicio E1 a la luz del método de momentos.
• Encuentre V( b ), V( a ) y C( a,b ) bajo el supuesto de homocedasticidad S2.

E8 Modelo de regresión simple II


Considere el modelo de regresión

yi = x i β + ε i para i = 1, 2, . . . ,n ,

donde los valores de x i son determinísticos, E( εi ) = 0 y V( εi ) = σ 2 para todo i.


• Obtenga b, el estimador MCO de β, diga si es insesgado y encuentre su varianza.
• Considere el estimador alternativo
Pn
(x i − x̄ )(yi − ȳ)
b = i=1

Pn .
i=1 (x i − x̄ )
2

Como se vio anteriormente, éste sería el estimador MCO de β si el modelo original incluyera una constante.
¿Es b ∗ insesgado? Encuentre la varianza de b ∗ y diga cuál estimador es preferible, ¿b o b ∗ ?
• Considere el estimador alternativo
Pn
yi
b = Pni=1 .

i=1 x i

¿Es b † insesgado? Encuentre la varianza de b † y diga cuál estimador es preferible, ¿b o b † ?

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 34


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

E9 Modelo de regresión simple III


Considere el modelo de regresión simple del ejercicio E7,

yi = α + x i β + ε i para i = 1, 2, . . . ,n ,

y considere el estimador
Pn
x i yi
b = Pi=1
∗∗
n
.
i=1 x i
2

• Muestre que b ∗∗ es sesgado, E( b ) , β, siempre que α , 0.


• Calcule la varianza de b ∗∗ y muestre que es menor a la varianza de b, el estimador MCO analizado en el
ejercicio E7.
• Sea a el estimador MCO de α. Muestre que ECM( b ∗∗ , β ) es menor que ECM( b, β ) si y sólo si α 2 < V( a ).
• Encuentre el estadístico F que contrasta H 0 : α = 0. Concluya que ECM( b ∗∗ , β ) < ECM( b, β ) si y sólo si
F < 1.

E10 Predicción
Suponga que y = X β + dγ + ε donde X es n × k y d es un vector que contiene una variable dummy igual a 1 en la
última observación [d]n = 1 y 0 de otro modo, [d]i = 0 para i < n. Utilizando el teorema de Frisch-Waugh-Lovell
muestre que los estimadores MCO de b y de γ son

b = (X̃ 0X̃ ) −1X̃ 0ỹ y γ̂ = yn − x n 0b ,

donde X̃ es la matriz de dimensión (n − 1) × k que se obtiene al eliminar la última fila de X (x n ) y análogamente ỹ


es el vector de Rn−1 que se obtiene al eliminar el último elemento de y (yn ).
Ello significa que γ̂ es el error de predicción de la regresión de y sobre X en la n-ésima observación, que ha sido
excluida de la regresión a través de la inclusión de la variable ficticia d.

E11 Estimador de varianza


Considere una regresión lineal bajo los supuestos S2 y S3. Considere, además estimadores de σ 2 de la forma

e 0e
sm
2
= ,
m
donde e es el vector de residuos de la regresión y m es una constante por determinar. Claramente, m = n − k reditúa
el estimador insesgado (24). Encuentre el valor de m que minimiza ECM( sm 2 ,σ 2 ).

Ayuda: Recuerde que e 0e/σ 2 ∼ χn−k


2 . Más aún, no olvide que si w ∼ χ 2 , entonces E( w ) = q y V( w ) = 2q.
q

E12 Ordenamientos de varianzas


Sean b 1 y b 2 dos estimadores de β. Suponga que V( b 1 | X )  V( b 2 | X ), para X aleatorio ¿Bajo qué condiciones
V( b 1 )  V( b 2 )? ¿Qué podemos concluir respecto al ordenamiento de V( b 1 ) y V( b 2 ) si b 1 y b 2 son ambos
estimadores insesgados?
Ayuda: Utilice la LEI para varianzas.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 35


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 5 - Mínimos cuadrados: Álgebra y primeras propiedades

Página en blanco

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 36


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
BANCO CENTRAL DE RESERVA DEL PERÚ
Curso de Actualización en Economía 2016
Econometría
Profesor Diego Winkelried (Universidad del Pacífico)

Notas de clase 6

Mínimos cuadrados: Análisis asintótico

Anteriormente analizamos las propiedades en muestras finitas del estimador MCO de β en el modelo lineal
yi = x i 0 β + ε i para i = 1, 2, . . . ,n o matricialmente y = Xβ + ε , (1)
con ayuda de los supuestos clásicos:
S1: εi es independiente en media condicional de x i para todo i, E( εi | x i ) = 0.
S2: εi es condicionalmente homocedástico para todo i, V( εi | x i ) = σ 2 .
S3: εi es normalmente distribuido, dado x i : εi | x i ∼ N (0,σi2 ) para todo i.
A continuación se estudian las propiedades asintóticas (conforme n → ∞) del estimador MCO. El análisis en
muestras grandes permite relajar o debilitar algunos supuestos y, por tanto, provee resultados que se aplican en
contextos más generales. En particular, los supuestos clásicos serán reemplazados por:
S1*: εi y x i no están correlacionados para todo i, E( x i εi ) = 0.
S2*: εi es homocedástico, E( εi2 ) = σ 2 , y C( εi2 ,x i x i 0 ) = 0 para todo i.
Cuando εi es independiente en media condicional de x i significa que εi no está correlacionado con ninguna función
de x i . Es decir, S1 implica S1* pero lo contrario no ocurre necesariamente. Igualmente, note que por construcción
S2* implica

E( εi2x i x i 0 ) = C( εi2 ,x i x i 0 ) + E( εi2 )E( x i x i 0 ) = E( εi2 )E( x i x i 0 ) = σ 2 E( x i x i 0 ) ,


lo que constituye un requerimiento menos exigente que S2. Finalmente, no se requieren supuestos distributivos
de εi . Basta con trabajar con una muestra aleatoria para que los teoremas de límite central otorguen normalidad
asintótica, lo que es el punto de partida de un marco de inferencia en muestras grandes.
Note que X 0X /n y X 0ε/n son promedios muestrales con observaciones típicas x i x i 0 y x i εi , respectivamente. De
este modo, se puede aplicar una ley de grandes números para analizar sus límites probabilísticos. Cuando x i y εi
son iid, por el teorema de Khinchine
n n
X 0X 1X p X 0ε 1 X p
= x i x i 0 −→ E( x i x i 0 ) ≡ Q y = x i εi −→ E( x i εi ) , (2)
n n i=1 n n i=1

y se asumirá que Q es una matriz no singular. Casi siempre, Q y el límite probabilístico de X 0ε/n pueden
ser redefinidos con las condiciones más débiles del teorema de Chebyshev. Dado que tanto x i como εi son

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 37


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 6 - Mínimos cuadrados: Análisis asintótico

independientemente distribuidas en este caso, x i x i 0 y x i εi son también variables aleatorias independientes de x t x t 0


y de x t εt para i , t. Así, bajo la óptica del teorema de Chebyshev
n n n n
X 0X 1X p 1X X 0ε 1 X p 1X
= x i x i 0 −→ lim E( x i x i 0 ) ≡ Q y = x i εi −→ lim E( x i εi ) . (3)
n n i=1 n→∞ n
i=1
n n i=1 n→∞ n
i=1

Por brevedad, asumiremos que x i y εi son iid y por tanto favoreceremos el uso de la ley de grandes números de
Khinchine. No obstante, anotaremos las circunstancias en donde los resultados más generales (3) aplican sin alterar
las principales conclusiones cualitativas del análisis asintótico.

1 Propiedades asintóticas

El estimador MCO es consistente si se trabaja con el supuesto S1* y es asintóticamente normal bajo condiciones
bastante generales.

1.1 Consistencia
De la ecuación (15) de las NC 5 (p. 26) se tiene que
! −1 n −1 n
X 0X X 0ε * 1 X *1
X p
b−β = = x i x i 0+ x i εi + −→ Q −1 E( x i εi ) (4)
n n n
, i=1 - ,n i=1 -
donde se han utilizado los límites probabilísticos en (2) y el teorema de Slustky. De este modo, bajo S1*,
p
b −→ β + Q −1 0 = β (5)

y por tanto MCO es consistente. El uso de la ley débil de los grandes números podría reemplazarse por el teorema
de Chebyshev sin comprometer la consistencia de MCO. En ambos casos, X 0ε/n converge a 0 de acuerdo con S1*.

1.2 Normalidad asintótica


Bajo S1*, E( x i εi ) = 0. De esta forma, el teorema del límite central de Linderberg - Lévy permite concluir que1
n n
X 0ε 1 X √ 1X d
√ = √ x i εi = n * ( x i εi − E( x i εi ) ) + −−→ N (0, E( εi2x i x i 0 )) . (6)
n n i=1 , n i=1 -
Luego, utilizando el teorema de Cramér se llega a
! −1
√ X 0X X 0ε d
n(b − β ) = √ −−→ N (0,Q −1 E( εi2x i x i 0 )Q −1 ) . (7)
n n
√ √
Vale la pena notar que n(b−β ) es una función de dos matrices aleatorias: Q n = X 0X /n y qn = X 0ε/ n. Conforme
n se incrementa, el primer término Q n se aproxima a su límite a una velocidad n, mientras que el segundo qn lo

hace a una tasa n. Es decir, dado que la velocidad de convergencia de qn es menor que la de Q n , llegará un
momento (digamos, un tamaño muestral n 0 tal que para todo n > n 0 ) en donde qn se sigue aproximando a su límite
(una variable aleatoria normalmente distribuida), mientras que Q n ya habrá alcanzado su límite probabilístico Q.
Por ello, la aleatoriedad de Q n qn en muestras grandes la otorga qn , mientras que Q n sólo afecta la varianza, de un
modo casi determinístico. Otra manera de analizar el problema es reescribir (7) como

Q n−1qn = Q −1qn + (Q n−1 − Q −1 )qn (8)

1 Se concluye lo mismo al utilizar el teorema del límite central de Linderberg - Feller con la salvedad de que la varianza asintótica E( εi2x i x i 0 )
debe ser reemplazada por el límite de la expectativa promedio de εi2x i x i 0 .

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 38


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 6 - Mínimos cuadrados: Análisis asintótico

p
donde se ha agregado y restado la expresión Q −1qn . El segundo término es importante. Note que Q n−1 − Q −1 −→ 0
mientras que, siguiendo a (6), qn converge en distribución a un vector normalmente distribuido. Por el teorema
del mapeo continuo se tiene, luego, que este segundo término converge en probabilidad a cero. Es decir, Q n−1qn es
asintóticamente equivalente a Q −1qn . La distribución asintótica de este último término (conocido como la función
de influencia del estimador) es, precisamente, (7).
Finalmente, la varianza asintótica de b se simplifica bajo el supuesto S2*:
√ d
n(b − β ) −−→ N (0,σ 2Q −1 ) . (9)

2 Inferencia en muestras grandes

Una ventaja evidente del enfoque asintótico sobre el análisis en muestras finitas es que el mismo marco teórico
ofrece un procedimiento para el contraste de restricciones no lineales bajo condiciones más generales que en
muestras finitas. Ello es consecuencia de una simple aplicación del método delta. Las fórmulas (10) a (14) líneas
abajo se aplican no sólo a MCO sino que son válidas para una gran variedad de estimadores econométricos
(asegúrese de entenderlas a plenitud).
Defina la función vectorial д : Rk → Rq tal que д(β ) es un vector de dimensión q × 1 y la matriz Jacobiana
J (β ) = [∂д(β )/∂β] tiene rango q. Partiendo de
√ d
n(b − β ) −−→ N (0,V ) , (10)

donde V es la varianza asintótica en (7) o en (9), se tiene que


√ d
n(д(b) − д(β )) −−→ N (0, J (β )V J (β ) 0 ) . (11)

Suponga que se desea contrastar H 0 : д(β ) = 0. Así, bajo la hipótesis nula


d
n · д(b) 0 (J (β )V J (β ) 0 ) −1д(b) −−→ χq2 . (12)
p
Dado que b es consistente bajo S1*, el teorema de Slutsky conlleva a J (b) −→ J (β ). Luego, para un estimador
consistente de V , que denotamos como V n , el estadístico factible
d
w = n · д(b) 0 (J (b)V n J (b) 0 ) −1д(b) −−→ χq2 (13)

es asintóticamente equivalente a (12). Este criterio de Wald es válido asintóticamente para el contraste H 0 : д(β ) = 0
y no requiere de supuestos distributivos. La regla de decisión respecto a la evidencia en torno a H 0 es mecánica.
Si w > χq2 (α ), el 100α-ésimo percentil de χq2 , entonces se rechaza H 0 . De otro modo, no se cuenta con suficiente
evidencia como para rechazar H 0 (en corto, se ‘acepta’ H 0 ).
Un caso particular se da cuando las restricciones son lineales, д(β ) = Rβ − r , J (β ) = R y (13) se reduce a
d
w = n · (Rb − r ) 0 (RV n R 0 ) −1 (Rb − r ) −−→ χq2 . (14)

Conviene comparar esta expresión con la ecuación (29) de las NC 5 (p. 29):

w ∗ = (Rb − r ) 0 (RV( b | X )R 0 ) −1 (Rb − r ) | X ∼ χq2 .

Ambos estadísticos presentan claras similitudes. Mientras que (14) contiene a V n /n como estimador de la varianza
asintótica de b, el estadístico w ∗ utiliza la varianza muestral V( b | X ). Es bueno enfatizar, sin embargo, que
mientras que la elaboración de w requiere condiciones débiles, w ∗ es válido sólo bajo el supuesto distributivo S3.
En la misma línea, el estadístico F presentado en la ecuación (31) de las NC 5 (p. 30), ϕ, incorpora correcciones por
grados de libertad y reemplaza la varianza muestral por un estimador. Bajo los supuestos de las NC 5, ϕ ∼ F (q,n−k ).

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 39


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 6 - Mínimos cuadrados: Análisis asintótico

No obstante, se deduce que únicamente bajo el supuesto de homocedasticidad S2 (o, mejor aún, S2*), el estadístico
ϕq (es decir, ϕ después de remover un ajuste por grados de libertad) es asintóticamente equivalente a w en (14) y
por tanto converge en distribución a una variable chi-cuadrado con q grados de libertad. Más aún, el estadístico ϕ
utiliza s 2 , el estimador insesgado de σ 2 . Ello puede cambiarse por cualquiera de los estimadores barajados en las
NC 5 (e 0e/n presentado en la p. 28 o el estimador deducido en el ejercicio E11, p. 35) sin alterar en absoluto la
distribución asintótica de ϕq (ver sección 2.1 líneas abajo).
Por su parte, cuando se contrasta sólo una restricción, R 0 = c ∈ Rk , el estadístico t converge a una variable aleatoria
z distribuida como normal estándar (recuerde que si a ∼ N (0,σ 2 ) entonces a = σz donde z ∼ N (0, 1)):
√ 0 s
c 0b − r c 0 (b − β ) nc (b − β ) d c 0V c
τ = √ = √ = √ −−→ z =z, (15)
c 0V n c/n c 0V n c/n c 0V n c plim c 0V n c
por el teorema de Cramér aplicado a (10) y el teorema de Slutsky. Luego, si |τ | > z α , el 100α-ésimo percentil de
una normal estándar, entonces se rechaza H 0 : c 0 β = r . De otro modo, se ‘acepta’ H 0 .
En resumen, se ha conseguido un marco de constraste de hipótesis general sin la necesidad de imponer supuestos
distributivos muy estrictos a las variables involucradas en la muestra aleatoria. Un requisito fundamental es contar
con el estimador consistente V n , un punto que se aborda enseguida.

2.1 Varianza con homocedasticidad



Como se vio en las NC 5, bajo S2, la varianza condicional de MCO es V( n(b − β ) | X ) = σ 2 (X 0X /n) −1 y un
estimador insesgado (bajo S1 y S2) es V n = s 2 (X 0X /n) −1 . Para que este estimador sea consistente de la varianza
asintótica en (9), se necesita (por el teorema de Slutsky) que s 2 sea consistente bajo S2*. Note que
!0 ! −1
e 0e n ε 0Mε n  ε 0ε X 0ε X 0X X 0ε  ε 0ε
 !
s =
2
= · = − ≡ +a. (16)
n −k n −k n n − k  n n n n  n
 
p p
Dado que n/(n − k ) → 1 y que X 0ε/n −→ 0, es sencillo verificar que a −→ 0. Por tanto, el límite probabilístico de
s 2 es igual al límite probabilístico de ε 0ε/n que, a su vez, es igual a la varianza no condicional de εi (por la ley débil
de grandes números):
ε 0ε p
−→ E( εi2 ) = V( εi ) = σ 2 si S2* se cumple. (17)
n
p
Se concluye que s 2 −→ σ 2 con las condiciones arriba discutidas. En general, cualquier estimador de la forma e 0e/m
donde m/n → 1 conforme n → ∞ será consistente (ver ejercicio E19, p. 45).

2.2 Varianza robusta

En el caso más general (sin imponer S2*), la varianza asintótica de b es V = Q −1 E( εi2x i x i0 )Q −1 . Dado que ya se
cuenta con un estimador consistente de Q, se precisa un estimador consistente de Ψ = E( εi2x i x i 0 ) para implementar
V n . Sea ei el i-ésimo residuo de la regresión. Luego, el estimador de momentos de Ψ
n
1X 2
Ψ̂ = e xixi 0 , (18)
n i=1 i

es consistente y, usando el teorema de Slustky,


p
V n = (X 0X /n) −1 Ψ̂(X 0X /n) −1 −→ V . (19)

Recuerde que ei = εi − x i 0 (b − β ). Así,


n n n n
1X 2 1X 2 2X 2 1X
Ψ̂ = ei x i x i 0 = εi x i x i 0 − εi x i x i 0[x i 0 (b − β )] + x i x i 0[x i 0 (b − β )]2 = T 1 +T 2 +T 3 . (20)
n i=1 n i=1 n i=1 n i=1

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 40


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 6 - Mínimos cuadrados: Análisis asintótico

El segundo término es tal que kT 2 k ≤ kb − β k[ 2 kx i k 3εi2 /n ] mientras que el tercer témino satisface kT 3 k ≤
P
kb − β k kx i k 4 /n (demostrar estas desigualdades va más allá del alcance de esta clase). En ambos casos se tiene
P
que las normas son menores que kb − β k multiplicado por la norma de promedios que convergen en probabilidad a
cantidades finitas, por la ley débil de los grandes números. Dado que b es consistente, se tiene que plim kb − β k = 0
y, en virtud del teorema de Slustky, se puede concluir que tanto T 2 como T 3 convergen en probabilidad a 0.
p p
Asimismo, es sencillo notar que T 1 −→ E( εi2x i x i 0 ), dictado por el teorema de Khinchine. De este modo,Ψ̂ −→ Ψ.
Más aún, (20) establece la equivalencia asintótica entre el promedio de los términos ei2x i x i 0 y los términos εi2x i x i 0,
por lo que su consistencia ocurre bajo condiciones más generales como las del teorema de Chebyshev:
n n
1X 1X 2
plim Ψ̂ − lim E( εi2x i x i 0 ) = plim Ψ̂ − plim εi x i x i 0 = 0.
n→∞ n n
i=1 i=1

Note la versatilidad que ofrece este estimador. La inferencia correcta del estimador MCO con un estimador de
varianza como (19) es posible valiéndose sólo de un supuesto: el de identificación S1*. No se requiere especificar
la forma de heterocedasticidad V( εi ) o V( εi | x i ), un atributo muy valioso en situaciones donde no se sabe con
certeza la naturaleza de la heterocedasticidad (probablemente, la mayoría de veces). Además, los residuos ei pueden
ser reemplazados por residuos basados en cualquier estimador de β que sea consistente (ver ejercicio E20, p. 45).
Finalmente, el estimador es válido también bajo homocedasticidad (supuesto S2*).
El estimador V n se conoce como estimador robusto (de la varianza), estimador corregido por heterocedasticidad
o estimador consistente de White. Es bueno hacer una aclaración sobre la naturaleza de este estimador. Para ello,
compare la expresión de la varianza de b deducida en la ecuación (18) de las NC 5 (p. 27) con nV n :

V( b | X ) = (X 0X ) −1X 0 ΩX (X 0X ) −1 y nV n = (X 0X ) −1X 0HX (X 0X ) −1 ,

donde Ω = diag(σ12 ,σ22 , . . . ,σn2 ) y H = diag(e 12 ,e 22 , . . . ,en2 ). A primera vista podría pensarse que ei2 es un estimador
consistente de σi2 . Esto es, sin embargo, una conclusión apresurada e incorrecta. Sin imponer restricciones o
estructura a los elementos de Ω, no es posible obtener estimadores consistentes de σi2 . La razón es que conforme
n → ∞, se incrementa también el número de parámetros por estimar y por tanto a pesar de disponer de muestras
cada vez más grandes, no se dispone de más información para la estimación de estos parámetros. Las n varianzas σi2
son lo que se denominan parámetros incidentales. El estimador de White explota (creativamente) el hecho de que
el estadístico relevante para la determinación de la varianza de b es X 0 ΩX /n que es de dimensión k × k (contiene
tan sólo k (k + 1)/2 parámetros) y es estimado consistentemente por X 0HX /n. En resumen, (19) se cumple a pesar
de que H no es necesariamente un buen estimador de Ω.

3 Errores de especificación

Esta sección estudia las consecuencias de estimar modelos mal especificados por MCO, bajo los supuestos S1*
y S2*. Vale la pena aclarar que las conclusiones sobre la eficiencia asintótica relativa de los estimadores que
analizaremos dependen del cumplimiento del supuesto S2*. Bajo formas generales de heterocedasticidad, no es
posible establecer ordenamientos categóricos.
Considere una partición del vector x i = (x 1i 0,x 2i 0 ) 0 que conlleva a la partición X = (X 1 : X 2 ). Luego, el límite
probabilístico de X 0X /n se puede particionar como

X 0X X 1 0X 1 X 1 0X 2
" #
1
=
n n X 2 0X 1 X 2 0X 2
n "
1 X x 1i x 1i 0 x 1i x 2i 0 E( x 1i x 1i 0 ) E( x 1i x 2i 0 ) Q 11 Q 12
# " # " #
p
= −→ = =Q. (21)
n i=1 x 2i x 1i 0 x 2i x 2i 0 E( x 2i x 1i 0 ) E( x 2i x 2i 0 ) Q 21 Q 22

En virtud de S1*, E( x 1i εi ) = 0 y de S2* V( x 1i εi ) = σ 2 E( x 1i x 1i 0 ) = σ 2Q 11 . Luego, por la ley débil de grandes

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 41


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 6 - Mínimos cuadrados: Análisis asintótico

números y el teorema del límite central, se tiene que

X 1 0ε p X 1 0ε d
−→ E( x 1i εi ) = 0 y √ −−→ N ( 0,σ 2Q 11 ) . (22)
n n

Por otro lado, sea M 2 = I n −P 2 = I n −X 2 (X 2 0X 2 ) −1X 2 0 la matriz de proyección (simétrica e idempotente) ortogonal
a X 2 , M 2X 2 = 0. Luego,
! −1
X 1 0M 2X 1 X 1 0X 1 X 1 0X 2 X 2 0X 2 X 2 0X 1 p
= − −→ Q 11 − Q 12Q −1
22 Q 21 ≡ Q 1|2 . (23)
n n n n n

Defina Z = M 2X 1 como una matriz de regresores ‘corregidos’ que tiene la misma dimensión de X 1 . Utilizando
S1*, E( z i εi ) = 0 y de S2* se tiene que V( z i εi ) = σ 2 E( z i z i 0 ), donde z i es la i-ésima columna de Z . Note que
Z 0Z = X 1 0M 2X 1 y por consiguiente plim Z 0Z /n = E( z i z i 0 ) = Q 1 |2 . Así,

X 1 0M 2ε p X 1 0M 2ε d
−→ E( z i εi ) = 0 y √ −−→ N ( 0,σ 2Q 1|2 ) . (24)
n n

Finalmente, requeriremos comparaciones entre Q −1


1|2 y Q 11 . Recuerde que
−1

Q −1
1|2 − Q 11  0
−1
si y sólo si Q 11 − Q 1|2  0

(ver sección 1.6, NC 1, p. 3), lo que se cumple ya que Q 11 − Q 1|2 = Q 21 0Q −1


22 Q 21 y Q 22  0. Es decir, en sentido
matricial, Q 1|2 es mayor que Q 11 .
−1 −1

3.1 Variables omitidas


Suponga que se tiene el modelo lineal

y = X 1β 1 + X 2β 2 + ε , (25)

pero se omite el conjunto de variables en X 2 . Es decir, se estima β 1 por MCO utilizando únicamente a X 1 como
regresores o, en otras palabras, el modelo efectivamente estimado es

y = X 1β 1 + ξ . (26)

siendo ξ un vector de perturbaciones que luego se detalla. Usualmente esta situación se da cuando X 2 son variables
no observables. La pregunta es ¿Cuáles son las implicancias en el estimador MCO de β 1 cuando se utiliza (26) en
lugar de la especificación correcta (25)?
El estimador MCO en (26) es
! −1 ! −1 ! −1
X 1 0X 1 X 1 0y X 1 0X 1 X 1 0X 2 X 1 0X 1 X 1 0ε
!
b malo = = β1 + β2 + (27)
n n n n n n
p
−→ β 1 + Q −1
11 Q 12 β 2 + Q 11 E( x 1i ε i ) = β 1 + Q 11 Q 12 β 2 .
−1 −1

En (27), la segunda igualdad se consigue al reemplazar y por su definición en (25) – el modelo correctamente
espeficado –, mientras que el límite probabilístico utiliza el teorema de Slutsky, la ley débil de grandes números y
las definiciones de las matrices Q i j , ver (21). La última igualdad se cumple bajo S1*, ver (22).
Dado que Q 11 es definida positiva, de (27) se concluye que b malo es inconsistente al menos que Q 12 = 0 (para
casos no triviales con β 2 , 0): b malo es inconsistente si x 1i (las variables incluidas) está correlacionado con x 2i (las
variables omitidas). Ello ilustra lo que se conoce como el sesgo de variables omitidas.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 42


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 6 - Mínimos cuadrados: Análisis asintótico

Esta situación alude a un problema de mucho interés en econometría: β 1 no está identificado en (26).
Puede manipularse (27) para obtener la distribución asintótica de b malo . Se tiene que
! −1 ! −1
X 1 0X 1 X 1 0ε √  X 1 0X 1 X 1 0X 2
!
√  
n(b malo − β 1 − Q −1
11 Q 12 β 2 ) = √ + n 11 12  β 2
− Q −1 Q  (28)
n n  n n 
d
−−→ N (0,σ 2Q −1
11 ) .

El segundo término a la derecha de (28) (aquél postmultiplicado por β 2 ) converge en probabilidad a cero, mientras
que la distribución asintótica proviene de aplicar el teorema de Cramér a (22).
Suponga ahora que se observa X 2 y se estima β 1 basado en el modelo correctamente especificado (25). Por el
teorema de Frisch-Waugh-Lovell (p. 25),
! −1 ! −1
X 1 0M 2X 1 X 1 0M 2y X 1 0M 2X 1 X 1 0M 2ε p
b bueno = = β1 + −→ β 1 , (29)
n n n n

La última igualdad se cumple por (24). No sorprende verificar que MCO es consistente en el modelo correctamente
especificado. La distribución asintótica de b bueno se consigue tras aplicar el teorema de Cramér a (24),
! −1
√ X 1 0M 2X 1 X 1 0M 2ε d
n(b bueno − β 1 ) = √ −−→ N (0,σ 2Q −1
1|2 ) . (30)
n n

Al comparar las distribuciones asintóticas de b malo y la de b bueno se aprecia que la varianza asintótica del estimador
1|2  Q 11 ), lo que se explica porque b malo ignora la variabilidad proveniente de X 2 en
inconsistente es menor (Q −1 −1

la estimación. La pregunta es ¿Es esto deseable? Es difícil establecer un ordenamiento concluyente en términos
del error cuadrático medio, ya que para el caso de b malo éste contiene un sesgo positivo (aumenta el ECM) y
una menor varianza (disminuye el ECM). Sin embargo, un estimador sesgado (inconsistente) con baja variabilidad
(asintótica) puede ser muy inconveniente para la inferencia. En términos simples, b malo se podría encontrar centrado
lo suficientemente lejos de β 1 al punto de que la poca variabilidad del estimador no permita que la distribución
asintótica tenga información útil sobre β 1 , por ejemplo por tener intervalos de confianza angostos que incluso
podrían no incluir a β 1 .

3.2 Variables redundantes


Considere ahora el caso opuesto: en un modelo de regresión se incluyen más regresores que los necesarios
(esencialmente, b malo pasa a ser b malo y vice versa). Es decir, en el modelo
y = X 1β 1 + X 2β 2 + ε , (31)
X 2 contiene variables redundantes o irrelevantes, que implica β 2 = 0 en la población. Para calcular el estimador
MCO de β 1 utilizando la matriz completa de X , se acude al teorema de Frisch-Waugh-Lovell por lo que
! −1 ! −1
X 1 0M 2X 1 X 1 0M 2y X 1 0M 2X 1 X 1 0M 2ε p
b malo = = β1 + −→ β 1 + Q −1
1|2 0 = β 1 . (32)
n n n n
El estimador MCO sigue siendo consistente incluso cuando el modelo estimado contiene variables redundantes. La
distribución asintótica de b malo es idéntica a la del estimador en (30),
√ d
n(b malo − β 1 ) −−→ N (0,σ 2Q −1
1|2 ) . (33)
Note que en este caso el estimador definido en (27) es el estimador ‘correcto’. Sin embargo, dado que β 2 = 0 en la
población, su distribución asintótica pasa a ser
√ d
n(b bueno − β 1 ) −−→ N (0,σ 2Q −1
11 ) . (34)

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 43


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 6 - Mínimos cuadrados: Análisis asintótico

La varianza asintótica de b malo es mayor que la varianza asintótica de b bueno : introducir variables irrelevantes
incrementa la dispersión del estimador MCO. Ello puede causar problemas de inferencia que si bien son
inconvenientes (el ECM podría incrementarse aceleradamente además de dar la impresión – en el extremo – de
que ningún regresor es significativo), son en la práctica menos severos que lo inducido por la omisión de variables.

Ejercicios

E13 Convergencia en media cuadrática


Un estimador qn converge en media cuadrática a θ , si E( qn ) → θ y V( qn ) → 0. Si qn converge en media
cuadrática a θ , entonces plim qn = θ .
Considere el modelo de regresión lineal yi = x i β + εi , donde x i es determinístico. Utilizando el resultado sobre
convergencia en media cuadrática, muestre si el estimador MCO de β es consistente, cuando:

• x i = i y V( εi ) = σ 2i.
• x i = i y V( εi ) = σ 2 .
Ayuda: Recuerde que ni=1 i = n(n + 1)/2 y ni=1 i 2 = n(n + 1)(2n + 1)/6.
P P

E14 Convergencia en distribución y convergencia en probabilidad


√ d p
Suponga que n(b − β ) −−→ N (0,V ) ¿Ello implica b −→ β?
√ √
Ayuda: b − β = ( n) −1 n(b − β ).

E15 Estimadores alternativos


Suponga que en el modelo de regresión lineal

yi = x i β + ε i para i = 1, 2, . . . ,n ,

donde x i > 0 es una variable aleatoria escalar, se cumplen los supuestos S1 y S2. Considere los estimadores:
Pn Pn n
i=1 x i yi yi 1 X yi
b = Pn 2 , b = Pni=1

y b ∗∗ = .
i=1 x i i=1 x i n i=1 x i

Muestre que estos estimadores son consistentes, encuentre sus distribuciones asintóticas y establezca cuál de ellos
es asintóticamente más eficiente.

E16 Motivación para perturbaciones heterocedásticas


Considere un modelo de regresión de la forma yi = x i 0 β i +ui , donde E( ui | x i ) = 0 y V( ui | x i ) = σu2 . A diferencia
de la regresión estándar, el coeficiente de regresión depende de i. Suponga que β i = β + v i , donde v i ∼ iid (0, Ω)
es independiente de x i . Muestre que este modelo de parámetros aleatorios puede expresarse como una regresión
estándar yi = x i 0 β + εi con perturbaciones no correlacionadas, C( εi ,ε j ) = 0 para i , j, y condicionalmente
heterocedásticas, V( εi | x i ) = σi2 .

E17 Método delta


Suponga que se tiene la siguiente regresión y = α 0 + α 1x + α 2x 2 + ε. El valor “óptimo” de x es x ∗ = −α 1 /(2α 2 ).
Explique cómo calcularía un estimador del error estándar de x ∗ y cómo contrastaría H 0 : x ∗ = 1.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 44


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
NC 6 - Mínimos cuadrados: Análisis asintótico

E18 Sobre el estimador s 2


En la sección 2.1 se concluyó que

ε 0ε
s2 = +a.
n
p √ p
Encuentre a y compruebe que a −→ 0 y, más aún, na −→ 0.

E19 Estimador consistente de σ 2


p
En la sección 2.1 se concluyó que s 2 −→ E( εi2 ). Muestre la siguiente generalización de este resultado:
n
1 X p
s̄ =
2
(yi − x i 0b̄) 2 −→ E( εi2 )
m i=1

p
donde b̄ es cualquier estimador consistente, b̄ −→ β (no necesariamente MCO bajo S1*), y m/n → 1.

E20 Estimador consistente de Ψ


Considere el modelo lineal yi = x i 0 β + εi . Estudie la siguiente generalización del resultado en (20):
n
1X p
(yi − x i 0b̄) 2z i z i 0 −→ E( εi2z i z i 0 ) ,
n i=1

p
donde b̄ es cualquier estimador consistente, b̄ −→ β, y z i es cualquier vector (no necesariamente x i ).
Esboce una prueba como la de la sección 2.2 (p. 40). Si gusta, asuma que z i es un escalar, y que existe alguna
constante C tal que | E( ziδ ) | < C, k E( ziδ x i ) k < C y k E( ziδ x i x i 0 ) k < C para todo δ > 0.

Derechos reservados c 2016, Diego Winkelried (Universidad del Pacífico) 45


Prohibida su reproducción y distribución fuera del Banco Central de Reserva del Perú
Página en blanco