Está en la página 1de 25

Comportamiento asintótico de estimadores

Seguimos con variable X con función de densidad/masa f (x; θ).

Queremos estimar θ.

Dada una muestra aleatoria, definimos un estimador

T = h(X1 , . . . , Xn )

“Esperamos/deseamos” que cuanto mayor sea el tamaño de la muestra n,


más precisa será la estimación.

Nos disponemos ahora a analizar


consistencia de estimadores;
distribución asintótica (exacta/aproximada) de estimadores;

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 1 / 25


Consistencia

Para cada n, tenemos muestra aleatoria (X1 , . . . , Xn ) y estimador

Tn = hn (X1 , . . . , Xn )

Habitual: la sucesión de estimadores (Tn ) se obtiene con funciones hn que


tienen la misma “forma” (promedio, máximo, etc.):
1 Pn
hn (x1 , x2 , . . . , xn ) = n j=1 xj ;

hn (x1 , x2 , . . . , xn ) = max(x1 , x2 , . . . , xn );
...

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 2 / 25


Decimos que una sucesión (Tn ) de estimadores de un parámetro θ (donde
cada Tn es una función de (X1 , . . . , Xn )) es consistente cuando

lim Pθ (|Tn − θ| ≥ ε) = 0 , para todo ε > 0 .


n→∞

Es decir, cuando para n grande, la probabilidad de que Tn yerre siquiera ε


del verdadero valor θ sea casi nula.

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 3 / 25


Criterio habitual:

Lema 1
Sea (Tn )n≥1 una sucesión de estimadores insesgados de θ tales que

lim Vθ (Tn ) = 0 .
n→∞

Entonces la sucesión (Tn )n≥1 es consistente.

Demostración. Como Eθ (Tn ) = θ, por la desigualdad de Chebyshev


tenemos, para ε > 0 dado, que

Vθ (Tn ) n→∞
Pθ (|Tn − θ| ≥ ε) ≤ −−−→ 0.
ε2

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 4 / 25


Lema 2
Sea (Tn )n≥1 una sucesión de estimadores de θ tales que

lim ECMθ (Tn ) = 0 .


n→∞

Entonces la sucesión (Tn )n≥1 es consistente.

Demostración. Por la desigualdad de Markov tenemos, para ε > 0 dado,


que
p
Eθ (|Tn − θ|) Eθ ((Tn − θ)2 )
Pθ (|Tn − θ| ≥ ε) ≤ ≤
p ε ε
ECM(Tn ) n→∞
= −−−→ 0.
ε
donde la segunda desigualdad es consecuencia de la de Cauchy-Schwarz.

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 5 / 25


Ejemplo 1. X y S 2 como estimadores consistentes, respectivamente, de
E(X ) y de V(X ).

Para indicar la dependencia en el tamaño de la muestra, escribiremos


2
X (n) y S(n)

Sabemos que, para cualquier n, X (n) es estimador insesgado de E(X ) y


además que
V(X )
V(X (n) ) = .
n
Ası́ que X (n) es una sucesión consistente de estimadores de E(X ). Esto
requiere, por supuesto, que E(X 2 ) < +∞.

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 6 / 25


2 , pues
Análogamente para S(n)

2
E(S(n) ) = V(X )

y
4
 
2 E (X − E(X ))
V(S(n) )≤
n

con la hipótesis de que E(X 4 ) < +∞.

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 7 / 25


n+1
Ejemplo 2. El estimador Tn = n max(X1 , X2 , . . . , Xn ) del parámetro a
de Unif[0, a].

Como ya sabemos,
Ea (Mn ) = a
y
1
Va (Mn ) = a2 .
n(n + 2)

Ejemplo 3. Estimamos E(X ) con

1
Tn = X (n) + .
n

No son estimadores insesgados, pues E(Tn ) = E(X ) + 1/n, pero sı́ son
consistentes, pues V(Tn ) = V(X )/n y el sesgo 1/n tiende a 0.

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 8 / 25


Distribución exacta/aproximada de Tn

En ocasiones, podemos “determinar” la distribución de Tn , lo que


permitirá obtener cotas de Pθ (|Tn − θ| ≥ ε) mucho mejores que las dadas,
por ejemplo, por la desigualdad de Chebyshev, precisando ası́ mucho más
la confianza en las estimaciones de sucesiones de estimadores consistentes.

Veremos
algunos ejemplos en que podremos calcular explı́citamente la
distribución del estimador;
cómo utilizar el teorema del lı́mite central para obtener la distribución
aproximada del estimador X ;
cómo utilizar el teorema del lı́mite central para obtener la distribución
aproximada de estimadores que dependan de X ;

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 9 / 25


a) Distribución exacta

Ejemplo 1. Sea X ∼ N (µ, σ 2 ).

Sabemos que X (n) ∼ N (µ, σ 2 /n).

La desigualdad de Chebyshev darı́a:

V(X ) σ2
P(|X (n) − µ| ≥ ε) ≤ = .
ε2 nε2

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 10 / 25


Pero también

|X (n) − µ| ε
   √nε 
P(|X (n) − µ| ≥ ε) = P √ ≥ √ =2 1−Φ .
σ/ n σ/ n σ

φ(x)
Usando la estimación 1 − Φ(x) ≤ x , para x > 0, de la cola de la normal
estándar, deducimos:
2σ 1 2 2
P(|X (n) − µ| ≥ ε) ≤ √ √ e −nε /σ .
ε n 2π

Comparación: pongamos que σ = 1 y tomemos ε = 1/n1/4 . Tendrı́amos


r
2 1/4 −√n 1
n e vs √ .
π n

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 11 / 25


Ejemplo 2. Sea X ∼ N (µ, σ 2 ).

2 /σ 2 ∼ χ2 .
Sabemos que (n − 1)S(n) n−1

Ası́ que
 (n − 1)S 2 ε(n − 1) 
2 2 (n)
P(|S(n)− σ | ≥ ε) = P − (n − 1) ≥

σ 2 σ2
 ε  ε 
= P χ2n−1 > (n − 1) 1 + 2 + P χ2n−1 < (n − 1) 1 − 2

σ σ
Una expresión exacta, en términos de percentiles de χ2n−1 .

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 12 / 25


Ejemplo 3. Sea X ∼ unif[0, a].

El estimador es
Mn = max(X1 , X2 , . . . , Xn ) .
n
Como Ea (Mn ) = n+1 a, el estimador es sesgado (aunque asintóticamente,
no).

Conocemos su distribución:
 ε n
Pa (|Mn − a| ≥ ε) = Pa (Mn ≤ a − ε) = 1 − .
a
Ası́ que Mn no sólo es consistente, sino que además la probabilidad de
error de estimación converge exponencialmente a 0.

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 13 / 25


Pero más interesante, si cambiamos la escala del error y consideramos
n
Pa (|Mn − a| ≥ (aε/n)) = 1 − ε/n −→ e −ε
n→∞

Esto nos dice que


n
(a − Mn ) converge en distribución a exp(1) .
a

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 14 / 25


b) Aproximación normal: el teorema del lı́mite central
Recordemos que el teorema del lı́mite central (TLC) afirma que para una
variable Zn que sea suma (o promedio) de n variables iid (con varianza
finita), la versión tipificada de Zn converge en distribución a la normal
estándar.
Aplicación básica. Media muestral X como estimador de E(X ) para una
variable general con E(X 2 ) < +∞.
Si X tiene E(X ) = µ y V(X ) = σ 2 , entonces

n(X − µ) converge en distribución a N (0, σ 2 ) ,

Ası́ que, para n grande,


√ √ √ 
P(|X − µ| ≥ ε) = P( n|(X − µ)| ≥ nε) ≈ 2 1 − Φ( nε/σ) .

En el caso en el que X sea normal, el “≈”es un “=”.

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 15 / 25


Un ejemplo adicional. Cuasivarianza muestral S 2 como estimador de σ 2
para una variable N (µ, σ 2 ).

Una χ2n−1 es una suma de n − 1 variables idénticas e independientes


(cuadrados de normales estándar). Su esperanza es n − 1 y su varianza
2(n − 1).

Por el teorema del lı́mite central tenemos que


2
(n − 1)S(n)
2
− (n − 1)
σp converge en distribución a N (0, 1).
2(n − 1)

Esto nos darı́a que, para n grande,



2 2 ε n − 1 

P(|S(n) − σ | ≥ ε) ≈ 2 1 − Φ √ .
2 σ2

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 16 / 25


c) El método delta

Con frecuencia, el estadı́stico Tn para estimar un cierto parámetro


p es una
2
cierta función de X , por ejemplo, 1/X . O de X , como X . 2

Teorema 3 (Método delta)


Sea Zn una sucesión de variables aleatorias en un espacio (Ω, P) tal que

n (Zn − µ) converge en distribución a N (0, σ 2 )

Sea g una función continua en R, C 2 en un intervalo que contiene a µ y


tal que g 0 (µ) 6= 0. Entonces

n (g (Zn ) − g (µ)) converge en distribución a N (0, |g 0 (µ)|2 σ 2 )

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 17 / 25


(Idea de la) demostración. Se tiene que

n (Zn − µ) ≈ σY ,

donde Y normal estándar.

Obviemos ≈. Ası́
σ
Zn = µ + √ Y .
n
Obsérvese que Zn será proximo a µ para n grande.

Por otro lado,


g (x) ≈ g (µ) + g 0 (µ)(x − µ) ,
si x próximo a µ. Obviemos ≈.

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 18 / 25


Combinando, tenemos que

g 0 (µ)σ
g (Zn ) = g (µ) + g 0 (µ) (Zn − µ) = g (µ) + √ Y.
n

Es decir, √
n (g (Zn ) − g (µ)) = g 0 (µ) σ Y .


Es decir, como la normal estándar es simétrica, n (g (Zn ) − g (µ)) es una
normal de media 0 y varianza |g 0 (µ)|2 σ 2 .

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 19 / 25


Ejemplo 1. Estimador 1/X del parámetro λ para X ∼ exp(λ).

Recordemos que Eλ (X ) = 1/λ y que Vλ (X ) = 1/λ2 .

Denotemos X (n) a la media muestral de tamaño n. Por el teorema del


lı́mite central,

n X (n) − λ1 converge en distribución a N 0, λ12 .
 

Consideremos ahora g (x) = 1/x para x ∈ (0, +∞). Obsérvese que

|g 0 (µ)|2 = |g 0 (1/λ)|2 = λ4 .

Entonces, por el teorema 3,


√  1 
converge en distribución a N 0, λ2 .

n −λ
X (n)

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 20 / 25


Ejemplo 2. X ∼ ber(p). Se tiene que E(X ) = p.

Para estimar p, tomamos la media muestral X (n) . El TLC nos dice que
√  
n X (n) − p converge en distribución a N 0, p(1 − p) ,

Pero para estimar el parámetro q = p/(1 − p) (“odds a favor”),


tomarı́amos
X (n)
1 − X (n)

Consideramos g (x) = x/(1 − x) para x ∈ (0, 1). Se tiene que


g 0 (p) = 1/(1 − p)2 . Entonces

√  X (n) p   p 
n − converge en distribución a N 0, ,
1 − X (n) 1 − p (1 − p)3

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 21 / 25


Ahora queremos estimar el parámetro p(1 − p) (la varianza). Usamos

X (n) (1 − X (n) ).

Consideramos, en x ∈ (0, 1)

g (x) = x(1 − x)

para la que g 0 (x) = 1 − 2x.

Esto nos da, si p 6= 1/2,


√  
d
→ N 0, (1 − 2p)2 p(1 − p) ,

n X (n) (1 − X (n) ) − p(1 − p) −

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 22 / 25


Pero, ¿y si p = 1/2? En este caso, g 0 (p) = 0.

Teorema 4 (Método delta con g 0 (µ) = 0)


Sea Zn una sucesión de variables aleatorias en un espacio (Ω, P) tales que

n(Zn − µ) converge en distribución a N (0, σ 2 ) .

Sea g una función continua en R, C 3 en un intervalo que contiene a µ y


tal que g 0 (µ) = 0, pero g 00 (µ) 6= 0. Entonces

g 00 (µ)σ 2 2
n (g (Zn ) − g (µ)) converge en distribución a χ1
2

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 23 / 25


“Demostración”. Los “=” que siguen son en realidad “≈”. Primero,
1
g (x) − g (µ) = g 00 (µ)(x − µ)2
2
Además,
σ
Zn − µ = √ Y , con Y normal estándar.
n
Concluimos que
1 σ2
g (Zn ) − g (µ) = g 00 (µ) Y 2
2 n
Es decir,
g 00 (µ)σ 2 2
n (g (Zn ) − g (µ)) = Y
2

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 24 / 25


Para la función g (x) = x(1 − x), tenemos que g 00 (x) = −2.

En el caso p = 1/2 tenemos E(X ) = 1/2 y V(X ) = 1/4.

La conclusión, vı́a el teorema 4, es que, si p = 1/2, entonces


  1 2
n X (n) (1 − X (n) ) − p(1 − p) converge en distribución a − χ .
4 1

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 25 / 25

También podría gustarte