teoria asintotica

168
1. Elementos de Teoría Asintótica
Muchas veces no se puede conocer el valor esperado o la varianza muestral de un estimador

para un tamaño muestral definido. Sin embargo, es posible obtener resultados acerca de la
distribución del estimador a medida que crece el tamaño muestral. Por ejemplo, es sabido
que la distribución de la media muestral tiende a una normal a medida que crece n,
independiente de la distribución de las observaciones individuales. El conocimiento de la
conducta de la distribución en el límite, cuando el número de observaciones (n) tiende a
infinito, puede usarse para obtener una distribución aproximada del estimador en una
muestra de tamaño finito. Para esto necesitamos algunos resultados sobre convergencia de
variables aleatorias.
1.1 Convergencia en probabilidad
Si definimos la vecindad de una variable aleatoria o un estimador θ̂ n (que depende de n) en

torno al parámetro θ como θ ± ε, entonces la expresión:
Pr( θ - ε < θ̂ n < θ + ε) = Pr(| θ̂ n - θ | < ε)
indica la probabilidad de que θ̂ n se encuentre en el intervalo determinado por ε.
Por ejemplo, si θ = 20, y ε =0.1, la sentencia indicaría la probabilidad de que θ̂ n esté entre
19.9 y 20.1. O sea, es la probabilidad de que el valor absoluto de la diferencia ( θ̂ n - θ) sea
menor que 0.1.
El intervalo puede ser arbitrariamente pequeño escogiendo un valor apropiado para ε. Si

este intervalo tiende a cero, la variable aleatoria convergerá al valor del parámetro θ.
Definición: θ̂ n converge en probabilidad a una constante θ si:
lim Pr ( θˆ n − θ < ε) =1
n →∞
para cualquier ε positivo.
Esto también se puede escribir como:
lim Pr ( θˆ n − θ > ε) = 0
n→∞
Nota: Apuntes de clases, sujetos a revisión, para uso exclusivo de los alumnos del curso de Teoría
Econométrica del Instituto de Economía de la Pontificia Universidad Católica de Chile, dictado por Juan
Eduardo Coeymans.
169
En forma compacta se escribe: plim θˆ n = θ
En palabras, esto significa que haciendo n suficientemente grande podemos hacer que la
probabilidad de que θ̂ n esté en un intervalo arbitrariamente pequeño alrededor de θ puede
ser tan cercana a uno como queramos. La convergencia en probabilidad implica que a
medida que aumenta n se hace más probable que θ̂ n tome valores cercanos a θ.  O sea, la
masa de la distribución se va concentrando en los valores cercanos a θ.
Gráfico
Si θ̂ n es un estimador y plim θ̂ n = θ, θ̂ n es un estimador consistente de θ.
Convergencia en media cuadrática: “Un estimador cuyo sesgo y varianza tienden a cero,
o sea su error cuadrático medio tiende a cero, es consistente.” Esta es una condición
suficiente pero no necesaria.
Así, si
lim E( θ̂ n - θ)2 = 0
n→∞
entonces θ̂ n es un estimador consistente de θ.
Esto implica que un estimador insesgado cuya varianza tiende a cero es consistente.
Si una variable converge en media cuadrática, también converge en probabilidad, aunque lo

contrario no necesariamente es válido:
La demostración de que convergencia en media cuadrática implica convergencia en

probabilidad se basa en la desigualdad de Chebycheb, la cual a su vez se desprende de la
desigualdad de Markov:
La desigualdad de Markov establece:
1) Pr(Xn ≥ δ) ≤ E(Xn)/ δ
Reemplazando Xn por (Xn - EXn)2 y δ por ε2 se tiene:
Eduardo Coeymans.
170
2) Pr((Xn - EXn)2 > ε 2) ≤ E(Xn - EXn)2 / ε 2
Pero (Xn - EXn)2 > ε 2 implica que |Xn - EXn| > ε
Por lo tanto:
3) Pr(|Xn - EXn| > ε ) ≤ E(Xn - EXn)2 / ε 2
que es la desigualdad de Chebychev, la que también se puede escribir como:
4) Pr(|Xn - EXn| > ε ) ≤ σn2 / ε 2
Cuando el límite de EXn es μ (o sea el sesgo tiende a cero) y la varianza tiende a cero, la
ecuación 4) implica:
lim Pr(|Xn - μ| > ε ) = 0

n →∞
por lo tanto plim Xn = μ
Ejemplo 1: Si los valores de una variable X se han sacado aleatoriamente de cualquier

distribución con media μ y varianza σ2, entonces:
EX n = μ; var(X n ) = σ 2 / n
Claramente plim EX n = μ ya que X n es un estimador insesgado y su varianza tiende a

cero. O sea que la media muestral es un estimador consistente de μ debido a la
convergencia en media cuadrática (que el ECM tienda a cero).
Como ya se dijo, esto último es una condición suficiente de consistencia pero no necesaria.
De hecho, un estimador puede ser consistente aunque su error cuadrático medio no tienda a
cero. Esto se puede ver en el siguiente ejemplo:
Eduardo Coeymans.
171
Ejemplo 2:
Sea θ̂ n una variable aleatoria que puede tomar dos valores, θ y n, con probabilidades
(1-1/n) y 1/n.
E( θ̂ n) = θ (1-1/n) + n(1/n) = θ (1-1/n) + 1

Varianza = (θ − θ (1-1/n) - 1)2 (1-1/n) + (n - θ (1-1/n) – 1)21/n
= (θ/n - 1)2 (1-1/n) + (n - θ (1-1/n) – 1)21/n
Esperanza asintótica = lim E(θˆ n ) = lim (θ(1 − 1 / n ) + 1) = θ + 1

n →∞ n →∞
Varianza asintótica = lim var(θˆn ) = lim E ((θˆn − lim E (θˆn )) 2

n →∞ n →∞ n →∞
1
= lim ( (θ-θ-1) 2 (1- )+(n-θ-1) 21/n )
n→∞ n
= lim ((1-1/n) + (n - θ -1))21/n) = ∞
n→∞
Sin embargo, plim θ̂ n = θ, ya que a medida que n crece, la masa de la distribución se

concentra sobre θ. El segundo valor posible, n, está creciendo al infinito, pero con una
probabilidad tendiendo a cero.
Gráfico:
Nótese que en el ejemplo el sesgo no tiende a cero, ya que permanece igual a 1 y, por otro
lado, la varianza de la distribución muestral tiende a infinito. A pesar de eso, el estimador es
consistente.
Existe otra definición de varianza asintótica, que está referida a la distribución asintótica (o
aproximada) que veremos más adelante, y es:
n →∞ ⎢⎣
{ ( n→∞
)}
= (1 / n) lim E ⎡ n (θˆn ) − lim E (θˆn ) ⎤
2
⎥⎦
Los conceptos de media y varianza asintótica de la distribución muestral difieren de los de

media y varianza de la distribución asintótica. Muchas veces no existe la media o varianza
asintótica de la distribución muestral y, sin embargo, existen los dos primeros momentos de
la distribución asintótica.
Analizar sesgos y varianzas asintóticas y en muestra finita, de una variable que sigue el
siguiente proceso:
Eduardo Coeymans.
172
v
Xn = μ + a/n +
n
donde Ev = 0 y Ev2= σ2
Reglas sobre los plims
La gran ventaja de los plim es la simplicidad de su operatoria, ya que se cumple Teorema

de Slutsky que establece que:
plim g( θ̂ ) = g(plim θ̂ )
Por ejemplo:
plim( θ̂ 2) = (plim θ̂ )2
plim(X/Y) = plimX/plimY
Esta misma regla se hace extensiva a operatoria con matrices:
plimA-1 = (plimA)-1
Apliquemos los plims para analizar la consistencia de los MICO
β̂ = (X'X)-1 XY
= β + (X'X)-1X'u
1 1
= β + ( X ' X ) −1 ( X ' u )
n n
1 1
Si X es fijo: plim ( X' X) = X' X
n n
Si las variables son estocásticas pero estacionarias, los momentos muestrales convergen a
los poblacionales, lo que se puede escribir como:
1
plim ( X ' X ) = ΣXX
n
Eduardo Coeymans.
173
Por otro lado:
⎡ ⎡1 ⎤ ⎤
⎢ p lim ⎢⎣ n ∑ ut⎥ ⎥
⎢ ⎦ ⎥
⎡
⎢ p lim ∑ X u ⎤⎥
1
1 ⎢⎣ n 2t t ⎥
p lim( X ' u) = ⎢ ⎦⎥
n ⎢ ⋅ ⎥
⎢ ⎥
⎢ ⋅ ⎥
⎢ p lim⎡ 1 ∑ X u ⎤⎥
⎢⎣ ⎢⎣ n kt t ⎥
⎦⎥⎦
El plim del primer elemento es el de la media de los errores. Dado que Eu = 0

y var u = σ 2 / n , el plim es igual a cero, por convergencia del error cuadrático medio.
1
Veamos el plim del segundo elemento es decir de ( ∑ X 2 t u t ) . Su valor esperado es
n
siempre = 0 si los X son fijos. Si los X fueran estocásticos e independientes de los u, el
valor esperado también será cero. Por otro lado, su varianza tiende a cero. Veamos esto
1
último. Bajo el supuesto de independencia, la varianza de (
n
∑ X 2tut ) se puede escribir
⎛ σ2 ⎞ ⎛ ∑t =1 X it ⎞⎟ .
n 2
como ⎜ ⎟⎜ El primer término converge claramente cero. El segundo
⎜ n ⎟ ⎜⎜ n ⎟⎟
⎝ ⎠⎝ ⎠
1
converge a una constante, ya que plim ( X' X) = ∑ XX. Luego el plim del producto es cero.
n
De la misma forma se ve que los plim de los otros elementos son también iguales a cero.
Por lo tanto:
1 1
plimβˆ = β + plim( X' X) −1 plim( X' u )
n n
= β + Σ−1 0
plimβ̂ = β
Eduardo Coeymans.
174
Esto significa que los estimadores MICO son consistentes aún con X estocásticos, siempre
que los X sean independientes de los errores.
1.2 Convergencia en distribución

~
Distribución límite: Si la distribución de un estimador θ a medida que crece el tamaño n
tiende a ser casi idéntica a una determinada distribución f, se dice que el estimador
converge en distribución a f o bien, "converge en distribución a una variable Z" donde la
~
distribución de Z es f. En este caso se dice que f es la distribución límite de θ . Por ejemplo,
la distribución límite de una variable t es una normal.
Formalmente, decimos que la sucesión de variables aleatorias {Xn} converge en

distribución a una variable aleatoria X con función de densidad acumulada (fda) igual a
F(X) si:
lim | F(Xn) – F(X) | = 0 en todos los puntos en los que F(X) sea continua.
n→∞
d
Si Xn converge en distribución a X se anota como: X n → X
Ejemplo (de Greene):
Si: Pr(Xn = 1) = 0.5 + 1/(n+1) y Pr(Xn = 2) = 0.5 - 1/(n+1)
La distribución límite es la de una variable Bernoulli que tiene probabilidad 0.5 de salir 1 y
0.5 de salir 2:
Pr(X = 1) = 0.5
Pr(X = 2) = 0.5
Nótese que aquí lo que converge son las probabilidades, no Xn
La media límite y la varianza límite son la media y la varianza de la distribución límite.

Casi siempre estos conceptos coinciden con el límite de la media y el límite de la varianza,
pero no necesariamente siempre es así.
Algunos resultados importantes:
d
1) Si X n → X y plim Yn = c
d
Entonces: X n Yn → cX
Eduardo Coeymans.
175
o sea la distribución límite de Xn Yn es la distribución de cX
En forma similar:
d
2) ( X n / Yn ) → X / c si c ≠ 0
d
3) ( X n + Yn ) → X + c
d
4) Si X n → X y g(Xn) es una función continua, entonces,
d
g( X n) → g ( X )
O sea, si la distribución límite de Xn es la de X, entonces la distribución límite de g(Xn) es

la de g(X).
Este teorema es análogo a la regla de los plims (teorema de Slutsky))
Ejemplo del segundo teorema (Greene):
Supongamos que Xn es una variable tn (t con n grados de libertad) y g(Xn) es el cuadrado de

la variable. O sea g(Xn) = Xn2 = tn2. ¿Cuál es la distribución límite de tn2?
La distribución límite de tn es una normal estándar:

d
tn → N(0,1)
Por lo tanto, según el teorema 4), la distribución límite de tn2 sería la distribución de la
2
normal al cuadrado (N2), la que sabemos es una χ1 , o sea:
d 2
tn2 → N(0,1)2 = χ1
Además, como sabemos que:
tn2 = F(1,n)
Se deduce, entonces, que:

d 2
F(1,n) → χ1
d
5) Si Yn → Y y plim(Xn - Yn) = 0
Eduardo Coeymans.
176
entonces Xn tiene la misma distribución límite de Yn . Esto significa que:

d
Xn → Y
Buscando una distribución límite que no se degenere a través de una transformación

estabilizadora:
En la mayor parte de los casos que vamos a ver, los estimadores tienen un plim. En estos
casos, la distribución límite se degenera, ya que si:
d
θ̂ → θ
donde θ es una constante, significa precisamente que plim θ̂ = θ.
Pero la distribución de θ es la distribución de una constante, por lo que la distribución

límite de θ̂ estaría degenerada.
Por ejemplo, el caso de β̂ k (MICO)

E β̂ = β
Var β̂ = σ2aii
Pero (aii), el elemento de la diagonal de (X'X)-1, tiende a cero a medida que crece n (ej, en
el caso de la pendiente del modelo lineal simple, aii es 1 / ∑ x 2 ). Por lo tanto, la
distribución se concentra en un punto debido a que la varianza tiende a cero. En este caso se
dice que la distribución límite se degenera.
En estos casos, para los efectos de encontrar una distribución aproximada cuando n es
finito, no podemos aplicar directamente la teoría de distribuciones límites. Es decir, no
podemos usar este concepto de distribución como aproximación de la distribución
verdadera para un tamaño n finito. Es necesario usar una transformación estabilizadora:
Lo que podemos hacer es buscar una transformación de la variable para la cual su

distribución resulta independiente de n y, por lo tanto, no se degenera cuando n crece. A
partir de esta distribución podemos encontrar una distribución aproximada para el caso de
que n es finito:
Veamos el caso de la media de una variable X ~ N(μ, σ2). Tenemos:

~
X ∼ N(μ, σ 2 / n )
Eduardo Coeymans.
177
Por lo tanto la distribución límite de X también colapsa.
Una transformación de X que tiene una distribución que no se degenera es la siguiente:
Z = n ( X − μ)
Donde:
EZ = 0, VarZ = n var( X ) = σ2
Por lo tanto, la distribución límite de Z (una función X ) es:
Z ~ N(0, σ2)
Aquí, el límite de la varianza de Z no es cero, sino que es independiente de n.
Z
Como X= +μ y Z es una normal con media 0 y varianza constante, aplicando el
n
σ2
teorema 4) la distribución límite de X ~ N( μ , ) . La distribución así derivada se llama
n
a
distribución “aproximada o asintótica” y se escribe X → N(μ, σ2/n). Nótese la “a” en vez
de la “d” sobre la flechita. La aproximación en este caso particular es perfecta ya que
coincide con la distribución en muestra pequeña.
En el caso de la media, se pudo encontrar ambas distribuciones, de muestra pequeña y

muestra grande y ambas coinciden, pero no siempre es así, ya que muchas veces no es
posible derivar la distribución de muestra pequeña, pero sí es posible encontrar la
distribución límite de la transformación no degenerada y usando el teorema 4), se encuentra
la “distribución aproximada o asintótica”.
En el ejemplo de X se supuso que era un promedio de variables normales. Sin embargo, el

caso más interesante es cuando se trata de un promedio de variables no necesariamente
normales. El Teorema del Límite Central en sus distintas versiones es de valiosa ayuda para
encontrar las distribuciones asintóticas.
Teorema del límite central de Lindberg-Levy (caso univariante): Si X1, X2, ..Xn son
variables aleatorias de cualquier distribución, con media μ y varianza finita σ2 y
Z = n ( X − μ) , entonces la distribución límite de Z es una normal, o sea:
d 2
Z = n ( X − μ) → N (0, σ )
Eduardo Coeymans.
178
d d
Aplicando el teorema 4) de que si X n → X ⇒ g ( X n ) → g ( X ) , podemos encontrar la
distribución límite de una función de Z:
Resumiendo:
n ( X − μ) d
= Z / σ → N(0, 1)
σ
O sea, la distribución límite de Z/σ es la N(0 , 1)
Por otro lado, X es una función de Z ya que:
X = Z/ n + μ
Aplicando la regla 4):
d
X = (Z/ n + μ ) → g(Z) = N(0, σ2)/ n + μ = Ν(μ, σ2/n)
Nótese que la varianza de la última distribución se obtiene al aplicar el operador de varianza

a X = Z/ n + μ.
Este resultado se escribe como:
X ~ AN(μ, σ2/n) o
a
X → N(μ, σ2/n)
y se expresa como que X se distribuye asintóticamente como una normal (aunque de hecho
lo es Z) con media μ y varianza σ2/n (que corresponden a X ). También se expresa como
que la N(μ, σ2/n) es la distribución aproximada de X .
El término σ2/n es la varianza asintótica (y también, en este caso, la varianza para muestra
pequeña).
El teorema del límite central es muy importante puesto que independiente de la distribución
de X, la distribución de la transformación Z converge a una normal.
Una variante del teorema del Límite central de Lindberg es la de Lindberg-Feller:
Eduardo Coeymans.
179
Teorema del Límite Central de Lindberg-Feller, cuando hay desigualdad de varianzas

y medias de las variables que se están promediando:
Supongamos que {Xi} i = 1,.....n , es una muestra extraída de un conjunto de variables

aleatorias, cada una de ellas con media finita μi y varianza finita σi2 .
Definiendo la varianza promedio como:

_
σn 2 = 1/n(σ12 + σ22 + σ32 +...)
Si ningún σi2 domina la varianza promedio, lo que se expresa como:

_
lim max( σi /(n σn ) = 0
n→∞
_
y si σn 2 converge a una constante finita:
_ _
lim σn 2 = σ 2
n→∞
Entonces:
_ _ d _
Z = n ( X n - μn ) → N(0, σ 2)
En econometría casi todos los estimadores se pueden expresar como promedios de

variables aleatorias, con distintas varianzas. El teorema implica, por lo tanto, que
cualquier suma ponderada o promedio ponderado de variables aleatorias,
independiente del comportamiento individual de cada una de ellas, converge a una
normal. Con esta versión del teorema del límite central no se requiere que las
variables provengan de la misma distribución subyacente. Se requiere, esencialmente,
que la media sea una combinación de varias variables aleatorias, donde ninguna debe
predominar en la suma de todas.
La utilidad de todo esto es que si un estimador es una función lineal de variables aleatorias,
aplicando el teorema del límite central se puede obtener la distribución aproximada (o
asintótica) de θ˜ , la que será normal.
~
Si θ es una función lineal de variables aleatorias:
~ d
Z= n ( θ − θ) → N (0, σ 2 )
d
( → significa que se trata de la distribución límite)
Eduardo Coeymans.
180
entonces:
~ a
θ → N (θ, σ 2 / n )
a
( → significa que se trata de la distribución aproximada)
La distribución asintótica de un vector de variables:

~
Sean θ y Z vectores:
~ d
Z = n ( θ − θ) → N (0, ∑)
Entonces:
~ a
θ → N (θ, ∑ / n )
~
∑/n es la matriz de covarianza asintótica (o aproximada de θ )
La eficiencia asintótica se refiere a una comparación entre varianzas (o matrices var) dentro
del conjunto de estimadores consistentes y asintóticamente normales, donde las matrices de
varianza se han obtenido como aproximaciones asintóticas.
O sea, si la matriz var de cualquier otro estimador consistente y AN (asintóticamente

~
normal) excede por una matriz no negativa definida a ∑ /n, entonces θ es a sintóticamente
eficiente.
De igual forma que en el caso univariante, a partir del conocimiento de la distribución

~
límite multivariable de Z se puede obtener la distribución aproximada de θ .
Distribuciones asintóticas de funciones no lineales
La distribución asintótica de una función no lineal de una variable:

~
También a partir de la distribución aproximada de θ , en este caso un escalar, se puede
~
obtener la distribución aproximada de una función no lineal de θ . Esto porque:
~ d ~
Si: n ( θ − θ) → N (0, ∑) , donde θ es un escalar
Eduardo Coeymans.
181
entonces se cumple para una función no lineal g( θ ):

~
~ d
n (g ( θ ) − g ( θ)) → N (0, (g ' ( θ)) 2 ∑)
Por lo tanto:
~ a
g (θ ) → N ( g ( θ ), ( g ' (θ )) 2 ∑ / n)
Este resultado se obtiene de una aproximación de Taylor:

~ ~
g( θ ) ≈ g( θ) + g ' (θ) ( θ − θ)
Por lo tanto, sacando varianza:

~ ~
var g( θ ) ≈ (g ' ( θ)) 2 var(θ )
Ejemplo:
~ d ~
Si: n (θ −θ ) → N (0, ∑) , donde θ es un escalar, ¿cuál es la distribución aproximada de
~ α
θ ?
~
En este caso g (θ ) = θ
~α
Entonces se cumple:
~ α α d ⎛ ⎛ α −1 ⎞2 ⎞
n ( θ -- θ ) → N ⎜⎜ 0, ⎜ αθ ⎟ Σ ⎟⎟
⎝ ⎝ ⎠ ⎠
Por lo tanto:
~ α a ⎛ α ⎛ α −1 ⎞2 Σ ⎞
θ → N ⎜⎜ θ , ⎜ αθ ⎟ ⎟⎟
⎝ ⎝ ⎠ n⎠
Vemos que la varianza depende de parámetros desconocidos. Por lo tanto, para

implementar los tests hay que usar estimadores de éstos que suelen ser los máximo
verosímiles correspondientes.
Eduardo Coeymans.
182
~
La distribución asintótica de una función no lineal de un vector θ se obtiene en forma
~ ~
análoga. Si c( θ ) es un escalar que depende no linealmente de un vector θ de varios
elementos:
a
c(~
, ,
θ ) → N (c( θ), (C (θ) ∑ / n(C (θ))' )
∂c(θ)
C’ es ,
. Como la derivada vectorial es respecto al transpuesto de θ, se trata de un
∂θ
vector fila que contiene las derivadas respecto a cada elemento de θ. Nótese que el signo '
indica derivada cuando va antes del paréntesis (θ) e indica vector transpuesto cuando va
después.
Ejemplo:

~ ⎡ β1 ⎤
Si c(θ ) = ⎢ ⎥
⎣ 1 − β2⎦
⎛ 1 β1 ⎞⎟
C’= ⎜ −
⎜1− β
⎝ 2 (1 − β2 )2 ⎟⎠
Σ/n es la matriz de varianza covarianza asintótica de los distintos elementos de θ .
~
La distribución asintótica de varias funciones no lineales de un vector

~ ~
En el caso que c(θ ) contenga más de una función, c(θ ) sería un vector columna. El
resultado es similar al anterior. Lo único que cambia en este caso son las dimensiones de
C’.
A diferencia del caso lineal en que la matriz varianza de CZ= CvarZC', en el caso no lineal,
C es reemplazado por la matriz de derivadas de c(θ) respecto al vector θ transpuesto. Así,
la primera fila de C´ es el vector de derivadas del primer elemento de c(θ) respecto a cada
elemento de θ. La segunda fila es el vector de derivadas del segundo elemento
de c(θ) respecto a cada elemento de θ y así sucesivamente.
Eduardo Coeymans.
183
Estimadores MICO con X estocástico
Hay tres casos:

1) Variables explicativas en la matriz X que son estocásticas y errores u totalmente
independientes de la matriz X.
2) Variables de la matriz X estocásticas, ausencia de correlación contemporánea pero
dependencia no contemporánea entre u y X.
3) Variables de la matriz X estocásticas, dependencia contemporánea y no
contemporánea entre u y X.
1) Con X estocástico, si los errores u son totalmente independientes de X: (que implica

E(u| X) = 0, cada error es independiente de todos los X)
Por definición:
p(u | X) = p(u, x) / p(x)
Si hay independencia:
p(u, x) = p(u) p(x)
p(u| X) = p(u) p(x)/ p(x) = p(u)
Luego, si E(u| X) = 0 implica E(u) = 0
βˆ = β + (X' X) −1 X' u
Eβˆ = β + E((X' X) −1 X' ) (Eu ) = β

Con el supuesto E(u| X) = 0 también se puede demostrar insesgamiento usando la ley de
expectativas iterativas. Ver archivo recuadro.
Ley de Expectativas Iterativas:
E(Y) = Ex(E(Y|X))
Descomposición de varianza:
Var (Y) = Varx(E(Y|X)) + Ex(Var(Y|X))
Esto tiene un símil en regresión:

Variación total= variación explicada mas variación residual.
En el caso de MICO:
Eduardo Coeymans.
184
β̂ = β + (X’X)-1X’u
E β̂ = Ex(E( β̂ |X))
= Ex(E(β + (X’X)-1X’u|X))
= β + Ex(E(X’X)-1X’u |X))
= β + Ex((X’X)-1X’E(u|X))
Si E(u|X) = 0
E β̂ = β + Ex((X’X)-1X’E(u|X)) = 0
Para la varianza:
Var (Y) = Varx(E(Y|X)) + Ex(Var(Y|X))
La varianza condicional es:

Var( β̂ |X) = σ2(X’X)-1
La incondicional:
Var β̂ = Varx(E( β̂ |X) + Ex(Var( β̂ |X))
Var β̂ = Varx(β) + Ex(σ2(X’X)-1)
Var β̂ = 0 + Ex(σ2(X’X)-1)
Var β̂ = σ2Ex((X’X)-1)
Gauss Markov también se aplica porque si es MELI para cada X lo es para el promedio a
través de X
2) X estocástico, ausencia de correlación contemporánea pero dependencia no

contemporánea entre u y X
Esto es lo que ocurre cuando se estima un modelo con rezagos de la variable dependiente
(Yt-j dentro de las explicativas) pero con errores bien comportados.
En este caso se puede usar MICO, pero se obtienen estimadores sesgados porque no hay
total independencia (contemporánea y no contemporánea) entre una variable explicativa y
el error. Los estimadores, sin embargo, son consistentes porque no hay relación
contemporánea entre el término estocástico y alguna de las variables explicativas.
Si la matriz X contiene rezagos de Y, esta matriz es estocástica y, si bien no hay correlación

contemporánea entre X y u, ambas variables no son independientes porque hay correlación
no contemporánea:
O sea:
cov(Yt-j,ut) = 0, j = 0, 1,2,..
pero:
Eduardo Coeymans.
185
cov (ut, Yt+j) ≠ 0, j = 1,2,..
Por lo tanto:
E((X'X)-1X'u) ≠ E((X'X)-1X')(Eu). Esto implica que E((X'X)-1X'u) ≠ 0 y, por lo tanto, los

estimadores MICO son sesgados.
Si bien los estimadores son sesgados, ellos son consistentes. Para demostrar esto
necesitamos el siguiente teorema:
Teorema de Mann-Wald
Si:
i) E(u) = 0,
ii) E(uu') = σ2I
iii) E(Xi'u) = 0 donde Xi es columna i (⇒ Ε(X'u) = 0)

(esto no es independencia completa, es sólo no correlación contemporánea)
⎛ X' X ⎞
iv) plim ⎜ ⎟ = ∑ xx < ∞
⎝ n ⎠
Entonces:
⎛ X' u ⎞
a) plim ⎜ ⎟=0
⎝ n ⎠
X' u d
b) → N(0, σ 2 ∑ xx )
n
donde:
Σxx = plim(X’X/n)
Apliquemos la primera parte de este teorema, expresando primero a los MICO en una forma
adecuada para sacar plim:
−1
−1 ⎛ X' X ⎞ ⎛ X' u ⎞
β̂ = β + (X' X) X' u = β + ⎜ ⎟ ⎜ ⎟
⎝ n ⎠ ⎝ n ⎠
Eduardo Coeymans.
186
⎛ ⎛ X' X ⎞ −1 ⎛ X' u ⎞ ⎞ ⎛ X' X ⎞

−1
⎛ X' u ⎞
ˆ ⎜
plim β = β + plim ⎜ ⎟ ⎜ ⎟
⎟ = β + plim ⎜ ⎟ plim ⎜ ⎟
⎜⎝ n ⎠ ⎝ n ⎠ ⎟ ⎝ n ⎠ ⎝ n ⎠
⎝ ⎠
= β + (∑ XX ) 0 = β
−1
Respecto a la distribución:
Recordando el primer resultado importante sobre distribuciones límites, esto es que la

distribución asintótica del producto de dos variables, donde conocemos el plim de una de
ellas es:
d
ZY → (plimZ) f (Y)
podemos ver la distribución de β̂ :
El estimador MICO:
−1
⎛ X' X ⎞ ⎛ X' u ⎞
β̂ = β + ⎜ ⎟ ⎜ ⎟
⎝ n ⎠ ⎝ n ⎠
−1
⎛ X' X ⎞ ⎛ X' u ⎞
n (βˆ − β) = n ⎜ ⎟ ⎜ ⎟
⎝ n ⎠ ⎝ n ⎠
−1
⎛ X' X ⎞ ⎛ X' u ⎞
n (βˆ − β) = ⎜ ⎟ ⎜ ⎟
⎝ n ⎠ ⎝ n ⎠
Aplicando Mann-Wald (b) y el teorema para la distribución del producto de dos variables
sobre las cuales conocemos el plim de una de ellas:
d
n (β̂ − β) → (∑ xx ) −1 N(0, σ 2 ∑ xx ) = N ⎡0, σ 2 ∑
⎢⎣
(
xx
−1 ⎤
⎥⎦
)
2 (∑ XX )
a ⎛ −1
⎞
β̂ → N ⎜⎜ β; σ ⎟
⎟
⎝ n ⎠
Eduardo Coeymans.
187
O sea la estimación de la varianza de β̂ se hace con la fórmula tradicional σ2(X’X)-1 ya que

[∑ ]xx
−1
= (X’X)-1
n
3) X estocástico, dependencia contemporánea y no contemporánea entre u y X
⎛ X' u ⎞
En este caso plim ⎜ ⎟ ≠ 0 y los MICO en ese caso serían son inconsistentes. Esto es lo
⎝ n ⎠
que sucede, por ejemplo, cuando hay rezagos de Yt dentro de las variables explicativas y al
mismo tiempo hay un proceso AR(1) para los errores. Una de las formas de eobtener
estimadores consistentes es a través del uso de variables instrumentales, que veremos mas
adelante.
Eduardo Coeymans.

teoria asintotica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

teoria asintotica

Cargado por

Copyright:

Formatos disponibles

168

1. Elementos de Teoría Asintótica

Muchas veces no se puede conocer el valor esperado o la varianza muestral de un estimador

1.1 Convergencia en probabilidad

Si definimos la vecindad de una variable aleatoria o un estimador θ̂ n (que depende de n) en

Pr( θ - ε < θ̂ n < θ + ε) = Pr(| θ̂ n - θ | < ε)

indica la probabilidad de que θ̂ n se encuentre en el intervalo determinado por ε.

El intervalo puede ser arbitrariamente pequeño escogiendo un valor apropiado para ε. Si

Definición: θ̂ n converge en probabilidad a una constante θ si:

para cualquier ε positivo.

Esto también se puede escribir como:

En forma compacta se escribe: plim θˆ n = θ

Si θ̂ n es un estimador y plim θ̂ n = θ, θ̂ n es un estimador consistente de θ.

Si una variable converge en media cuadrática, también converge en probabilidad, aunque lo

La demostración de que convergencia en media cuadrática implica convergencia en

La desigualdad de Markov establece:

Reemplazando Xn por (Xn - EXn)2 y δ por ε2 se tiene:

2) Pr((Xn - EXn)2 > ε 2) ≤ E(Xn - EXn)2 / ε 2

Pero (Xn - EXn)2 > ε 2 implica que |Xn - EXn| > ε

3) Pr(|Xn - EXn| > ε ) ≤ E(Xn - EXn)2 / ε 2

que es la desigualdad de Chebychev, la que también se puede escribir como:

4) Pr(|Xn - EXn| > ε ) ≤ σn2 / ε 2

lim Pr(|Xn - μ| > ε ) = 0

por lo tanto plim Xn = μ

Ejemplo 1: Si los valores de una variable X se han sacado aleatoriamente de cualquier

Claramente plim EX n = μ ya que X n es un estimador insesgado y su varianza tiende a

E( θ̂ n) = θ (1-1/n) + n(1/n) = θ (1-1/n) + 1

Esperanza asintótica = lim E(θˆ n ) = lim (θ(1 − 1 / n ) + 1) = θ + 1

Varianza asintótica = lim var(θˆn ) = lim E ((θˆn − lim E (θˆn )) 2

Sin embargo, plim θ̂ n = θ, ya que a medida que n crece, la masa de la distribución se

Los conceptos de media y varianza asintótica de la distribución muestral difieren de los de

Reglas sobre los plims

La gran ventaja de los plim es la simplicidad de su operatoria, ya que se cumple Teorema

Esta misma regla se hace extensiva a operatoria con matrices:

Apliquemos los plims para analizar la consistencia de los MICO

Por otro lado:

El plim del primer elemento es el de la media de los errores. Dado que Eu = 0

1.2 Convergencia en distribución

Formalmente, decimos que la sucesión de variables aleatorias {Xn} converge en

Ejemplo (de Greene):

Si: Pr(Xn = 1) = 0.5 + 1/(n+1) y Pr(Xn = 2) = 0.5 - 1/(n+1)

Nótese que aquí lo que converge son las probabilidades, no Xn

La media límite y la varianza límite son la media y la varianza de la distribución límite.

Algunos resultados importantes:

o sea la distribución límite de Xn Yn es la distribución de cX

O sea, si la distribución límite de Xn es la de X, entonces la distribución límite de g(Xn) es

Este teorema es análogo a la regla de los plims (teorema de Slutsky))

Ejemplo del segundo teorema (Greene):

Supongamos que Xn es una variable tn (t con n grados de libertad) y g(Xn) es el cuadrado de

La distribución límite de tn es una normal estándar:

Además, como sabemos que:

Se deduce, entonces, que:

entonces Xn tiene la misma distribución límite de Yn . Esto significa que:

Buscando una distribución límite que no se degenere a través de una transformación

Pero la distribución de θ es la distribución de una constante, por lo que la distribución

Por ejemplo, el caso de β̂ k (MICO)

Lo que podemos hacer es buscar una transformación de la variable para la cual su

Veamos el caso de la media de una variable X ~ N(μ, σ2). Tenemos:

Por lo tanto la distribución límite de X también colapsa.

Una transformación de X que tiene una distribución que no se degenera es la siguiente:

Por lo tanto, la distribución límite de Z (una función X ) es:

Aquí, el límite de la varianza de Z no es cero, sino que es independiente de n.

En el caso de la media, se pudo encontrar ambas distribuciones, de muestra pequeña y

En el ejemplo de X se supuso que era un promedio de variables normales. Sin embargo, el