Estimadores

Comportamiento asintótico de estimadores
Seguimos con variable X con función de densidad/masa f (x; θ).
Queremos estimar θ.
Dada una muestra aleatoria, definimos un estimador
T = h(X1 , . . . , Xn )
“Esperamos/deseamos” que cuanto mayor sea el tamaño de la muestra n,

más precisa será la estimación.
Nos disponemos ahora a analizar

consistencia de estimadores;
distribución asintótica (exacta/aproximada) de estimadores;
Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 1 / 25

Consistencia
Para cada n, tenemos muestra aleatoria (X1 , . . . , Xn ) y estimador
Tn = hn (X1 , . . . , Xn )
Habitual: la sucesión de estimadores (Tn ) se obtiene con funciones hn que

tienen la misma “forma” (promedio, máximo, etc.):
1 Pn
hn (x1 , x2 , . . . , xn ) = n j=1 xj ;
hn (x1 , x2 , . . . , xn ) = max(x1 , x2 , . . . , xn );
...

Decimos que una sucesión (Tn ) de estimadores de un parámetro θ (donde
cada Tn es una función de (X1 , . . . , Xn )) es consistente cuando
lim Pθ (|Tn − θ| ≥ ε) = 0 , para todo ε > 0 .

n→∞
Es decir, cuando para n grande, la probabilidad de que Tn yerre siquiera ε

del verdadero valor θ sea casi nula.

Criterio habitual:
Lema 1
Sea (Tn )n≥1 una sucesión de estimadores insesgados de θ tales que
lim Vθ (Tn ) = 0 .
n→∞
Entonces la sucesión (Tn )n≥1 es consistente.
Demostración. Como Eθ (Tn ) = θ, por la desigualdad de Chebyshev

tenemos, para ε > 0 dado, que
Vθ (Tn ) n→∞
Pθ (|Tn − θ| ≥ ε) ≤ −−−→ 0.
ε2

Lema 2
Sea (Tn )n≥1 una sucesión de estimadores de θ tales que
lim ECMθ (Tn ) = 0 .

n→∞
Entonces la sucesión (Tn )n≥1 es consistente.
Demostración. Por la desigualdad de Markov tenemos, para ε > 0 dado,

que
p
Eθ (|Tn − θ|) Eθ ((Tn − θ)2 )
Pθ (|Tn − θ| ≥ ε) ≤ ≤
p ε ε
ECM(Tn ) n→∞
= −−−→ 0.
ε
donde la segunda desigualdad es consecuencia de la de Cauchy-Schwarz.

Ejemplo 1. X y S 2 como estimadores consistentes, respectivamente, de
E(X ) y de V(X ).
Para indicar la dependencia en el tamaño de la muestra, escribiremos

2
X (n) y S(n)
Sabemos que, para cualquier n, X (n) es estimador insesgado de E(X ) y

además que
V(X )
V(X (n) ) = .
n
Ası́ que X (n) es una sucesión consistente de estimadores de E(X ). Esto
requiere, por supuesto, que E(X 2 ) < +∞.

2 , pues
Análogamente para S(n)
2
E(S(n) ) = V(X )
y
4

2 E (X − E(X ))
V(S(n) )≤
n
con la hipótesis de que E(X 4 ) < +∞.

n+1
Ejemplo 2. El estimador Tn = n max(X1 , X2 , . . . , Xn ) del parámetro a
de Unif[0, a].
Como ya sabemos,
Ea (Mn ) = a
y
1
Va (Mn ) = a2 .
n(n + 2)
Ejemplo 3. Estimamos E(X ) con
1
Tn = X (n) + .
n
No son estimadores insesgados, pues E(Tn ) = E(X ) + 1/n, pero sı́ son
consistentes, pues V(Tn ) = V(X )/n y el sesgo 1/n tiende a 0.

Distribución exacta/aproximada de Tn
En ocasiones, podemos “determinar” la distribución de Tn , lo que

permitirá obtener cotas de Pθ (|Tn − θ| ≥ ε) mucho mejores que las dadas,
por ejemplo, por la desigualdad de Chebyshev, precisando ası́ mucho más
la confianza en las estimaciones de sucesiones de estimadores consistentes.
Veremos
algunos ejemplos en que podremos calcular explı́citamente la
distribución del estimador;
cómo utilizar el teorema del lı́mite central para obtener la distribución
aproximada del estimador X ;
cómo utilizar el teorema del lı́mite central para obtener la distribución
aproximada de estimadores que dependan de X ;

a) Distribución exacta
Ejemplo 1. Sea X ∼ N (µ, σ 2 ).
Sabemos que X (n) ∼ N (µ, σ 2 /n).
La desigualdad de Chebyshev darı́a:
V(X ) σ2
P(|X (n) − µ| ≥ ε) ≤ = .
ε2 nε2

Pero también

|X (n) − µ| ε
√nε
P(|X (n) − µ| ≥ ε) = P √ ≥ √ =2 1−Φ .
σ/ n σ/ n σ
φ(x)
Usando la estimación 1 − Φ(x) ≤ x , para x > 0, de la cola de la normal
estándar, deducimos:
2σ 1 2 2
P(|X (n) − µ| ≥ ε) ≤ √ √ e −nε /σ .
ε n 2π
Comparación: pongamos que σ = 1 y tomemos ε = 1/n1/4 . Tendrı́amos

r
2 1/4 −√n 1
n e vs √ .
π n

Ejemplo 2. Sea X ∼ N (µ, σ 2 ).
2 /σ 2 ∼ χ2 .
Sabemos que (n − 1)S(n) n−1
Ası́ que
(n − 1)S 2 ε(n − 1)
2 2 (n)
P(|S(n)− σ | ≥ ε) = P − (n − 1)≥

σ 2 σ2
ε ε
= P χ2n−1 > (n − 1) 1 + 2 + P χ2n−1 < (n − 1) 1 − 2

σ σ
Una expresión exacta, en términos de percentiles de χ2n−1 .

Ejemplo 3. Sea X ∼ unif[0, a].
El estimador es
Mn = max(X1 , X2 , . . . , Xn ) .
n
Como Ea (Mn ) = n+1 a, el estimador es sesgado (aunque asintóticamente,
no).
Conocemos su distribución:
ε n
Pa (|Mn − a| ≥ ε) = Pa (Mn ≤ a − ε) = 1 − .
a
Ası́ que Mn no sólo es consistente, sino que además la probabilidad de
error de estimación converge exponencialmente a 0.

Pero más interesante, si cambiamos la escala del error y consideramos
n
Pa (|Mn − a| ≥ (aε/n)) = 1 − ε/n −→ e −ε
n→∞
Esto nos dice que

n
(a − Mn ) converge en distribución a exp(1) .
a

b) Aproximación normal: el teorema del lı́mite central
Recordemos que el teorema del lı́mite central (TLC) afirma que para una
variable Zn que sea suma (o promedio) de n variables iid (con varianza
finita), la versión tipificada de Zn converge en distribución a la normal
estándar.
Aplicación básica. Media muestral X como estimador de E(X ) para una
variable general con E(X 2 ) < +∞.
Si X tiene E(X ) = µ y V(X ) = σ 2 , entonces
√
n(X − µ) converge en distribución a N (0, σ 2 ) ,
Ası́ que, para n grande,

√ √ √
P(|X − µ| ≥ ε) = P( n|(X − µ)| ≥ nε) ≈ 2 1 − Φ( nε/σ) .
En el caso en el que X sea normal, el “≈”es un “=”.

Un ejemplo adicional. Cuasivarianza muestral S 2 como estimador de σ 2
para una variable N (µ, σ 2 ).
Una χ2n−1 es una suma de n − 1 variables idénticas e independientes

(cuadrados de normales estándar). Su esperanza es n − 1 y su varianza
2(n − 1).
Por el teorema del lı́mite central tenemos que

2
(n − 1)S(n)
2
− (n − 1)
σp converge en distribución a N (0, 1).
2(n − 1)
Esto nos darı́a que, para n grande,

√
2 2 ε n − 1

P(|S(n) − σ | ≥ ε) ≈ 2 1 − Φ √ .
2 σ2

c) El método delta
Con frecuencia, el estadı́stico Tn para estimar un cierto parámetro

p es una
2
cierta función de X , por ejemplo, 1/X . O de X , como X . 2
Teorema 3 (Método delta)

Sea Zn una sucesión de variables aleatorias en un espacio (Ω, P) tal que
√
n (Zn − µ) converge en distribución a N (0, σ 2 )
Sea g una función continua en R, C 2 en un intervalo que contiene a µ y

tal que g 0 (µ) 6= 0. Entonces
√
n (g (Zn ) − g (µ)) converge en distribución a N (0, |g 0 (µ)|2 σ 2 )

(Idea de la) demostración. Se tiene que
√
n (Zn − µ) ≈ σY ,
donde Y normal estándar.
Obviemos ≈. Ası́
σ
Zn = µ + √ Y .
n
Obsérvese que Zn será proximo a µ para n grande.
Por otro lado,

g (x) ≈ g (µ) + g 0 (µ)(x − µ) ,
si x próximo a µ. Obviemos ≈.

Combinando, tenemos que
g 0 (µ)σ
g (Zn ) = g (µ) + g 0 (µ) (Zn − µ) = g (µ) + √ Y.
n
Es decir, √
n (g (Zn ) − g (µ)) = g 0 (µ) σ Y .
√
Es decir, como la normal estándar es simétrica, n (g (Zn ) − g (µ)) es una
normal de media 0 y varianza |g 0 (µ)|2 σ 2 .

Ejemplo 1. Estimador 1/X del parámetro λ para X ∼ exp(λ).
Recordemos que Eλ (X ) = 1/λ y que Vλ (X ) = 1/λ2 .
Denotemos X (n) a la media muestral de tamaño n. Por el teorema del

lı́mite central,
√
n X (n) − λ1 converge en distribución a N 0, λ12 .

Consideremos ahora g (x) = 1/x para x ∈ (0, +∞). Obsérvese que
|g 0 (µ)|2 = |g 0 (1/λ)|2 = λ4 .
Entonces, por el teorema 3,

√ 1
converge en distribución a N 0, λ2 .

n −λ
X (n)

Ejemplo 2. X ∼ ber(p). Se tiene que E(X ) = p.
Para estimar p, tomamos la media muestral X (n) . El TLC nos dice que
√
n X (n) − p converge en distribución a N 0, p(1 − p) ,
Pero para estimar el parámetro q = p/(1 − p) (“odds a favor”),

tomarı́amos
X (n)
1 − X (n)
Consideramos g (x) = x/(1 − x) para x ∈ (0, 1). Se tiene que

g 0 (p) = 1/(1 − p)2 . Entonces
√ X (n) p p
n − converge en distribución a N 0, ,
1 − X (n) 1 − p (1 − p)3

Ahora queremos estimar el parámetro p(1 − p) (la varianza). Usamos
X (n) (1 − X (n) ).
Consideramos, en x ∈ (0, 1)
g (x) = x(1 − x)
para la que g 0 (x) = 1 − 2x.
Esto nos da, si p 6= 1/2,

√
d
→ N 0, (1 − 2p)2 p(1 − p) ,

n X (n) (1 − X (n) ) − p(1 − p) −

Pero, ¿y si p = 1/2? En este caso, g 0 (p) = 0.
Teorema 4 (Método delta con g 0 (µ) = 0)

Sea Zn una sucesión de variables aleatorias en un espacio (Ω, P) tales que
√
n(Zn − µ) converge en distribución a N (0, σ 2 ) .
Sea g una función continua en R, C 3 en un intervalo que contiene a µ y

tal que g 0 (µ) = 0, pero g 00 (µ) 6= 0. Entonces
g 00 (µ)σ 2 2
n (g (Zn ) − g (µ)) converge en distribución a χ1
2

“Demostración”. Los “=” que siguen son en realidad “≈”. Primero,
1
g (x) − g (µ) = g 00 (µ)(x − µ)2
2
Además,
σ
Zn − µ = √ Y , con Y normal estándar.
n
Concluimos que
1 σ2
g (Zn ) − g (µ) = g 00 (µ) Y 2
2 n
Es decir,
g 00 (µ)σ 2 2
n (g (Zn ) − g (µ)) = Y
2

Para la función g (x) = x(1 − x), tenemos que g 00 (x) = −2.
En el caso p = 1/2 tenemos E(X ) = 1/2 y V(X ) = 1/4.
La conclusión, vı́a el teorema 4, es que, si p = 1/2, entonces

1 2
n X (n) (1 − X (n) ) − p(1 − p) converge en distribución a − χ .
4 1

Estimadores

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estimadores

Cargado por

Copyright:

Formatos disponibles

Comportamiento asintótico de estimadores

Seguimos con variable X con función de densidad/masa f (x; θ).

Dada una muestra aleatoria, definimos un estimador

“Esperamos/deseamos” que cuanto mayor sea el tamaño de la muestra n,

Nos disponemos ahora a analizar

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 1 / 25

Para cada n, tenemos muestra aleatoria (X1 , . . . , Xn ) y estimador

Habitual: la sucesión de estimadores (Tn ) se obtiene con funciones hn que

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 2 / 25

lim Pθ (|Tn − θ| ≥ ε) = 0 , para todo ε > 0 .

Es decir, cuando para n grande, la probabilidad de que Tn yerre siquiera ε

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 3 / 25

Entonces la sucesión (Tn )n≥1 es consistente.

Demostración. Como Eθ (Tn ) = θ, por la desigualdad de Chebyshev

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 4 / 25

lim ECMθ (Tn ) = 0 .

Entonces la sucesión (Tn )n≥1 es consistente.

Demostración. Por la desigualdad de Markov tenemos, para ε > 0 dado,

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 5 / 25

Para indicar la dependencia en el tamaño de la muestra, escribiremos

Sabemos que, para cualquier n, X (n) es estimador insesgado de E(X ) y

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 6 / 25

con la hipótesis de que E(X 4 ) < +∞.

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 7 / 25

Ejemplo 3. Estimamos E(X ) con

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 8 / 25

En ocasiones, podemos “determinar” la distribución de Tn , lo que

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 9 / 25

Ejemplo 1. Sea X ∼ N (µ, σ 2 ).

Sabemos que X (n) ∼ N (µ, σ 2 /n).

La desigualdad de Chebyshev darı́a:

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 10 / 25

Comparación: pongamos que σ = 1 y tomemos ε = 1/n1/4 . Tendrı́amos

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 11 / 25

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 12 / 25

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 13 / 25

Esto nos dice que

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 14 / 25

Ası́ que, para n grande,

En el caso en el que X sea normal, el “≈”es un “=”.

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 15 / 25

Una χ2n−1 es una suma de n − 1 variables idénticas e independientes

Por el teorema del lı́mite central tenemos que

Esto nos darı́a que, para n grande,

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 16 / 25

Con frecuencia, el estadı́stico Tn para estimar un cierto parámetro

Teorema 3 (Método delta)

Sea g una función continua en R, C 2 en un intervalo que contiene a µ y

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 17 / 25

donde Y normal estándar.

Por otro lado,

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 18 / 25

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 19 / 25

Recordemos que Eλ (X ) = 1/λ y que Vλ (X ) = 1/λ2 .

Denotemos X (n) a la media muestral de tamaño n. Por el teorema del

Consideremos ahora g (x) = 1/x para x ∈ (0, +∞). Obsérvese que

Entonces, por el teorema 3,

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 20 / 25

Pero para estimar el parámetro q = p/(1 − p) (“odds a favor”),

Consideramos g (x) = x/(1 − x) para x ∈ (0, 1). Se tiene que

Pablo Fernández Gallardo (UAM) Estadı́stica I, 2014-2015 November 4, 2014 21 / 25

para la que g 0 (x) = 1 − 2x.

Esto nos da, si p 6= 1/2,