CAPITULO11-ae - METODOS DE OBTENCION DE ESTIMADORES PDF

Capı́tulo 11
Métodos de Obtención de
Estimadores
11.1. Introdución
En el capı́tulo anterior estudiamos las propiedades de los estimadores. Ahora
trataremos de obtener dichos estimadores y que cumplan con las propiedades de
un buen estimador.
Los métodos que encontramos para determinar estimadores son:
El método de los momentos.
El método de la máxima verosimilitud.
El método de la mı́nima χ2 .
El método de los mı́nimos cuadrados.
11.2. Método de los momentos

Según el número de parámetros que deseemos estimar, hemos de plantear y
resolver un sistema de ecuaciones de tal número de parámetros. Primero obten-
dremos los momentos poblacionales en función de los correspondientes parámetros
a estimar y los igualaremos a los momentos muestrales correspondientes. De este
sistema, resolvemos para los parámetros desconocidos, y tenemos ahı́ sus estima-
ciones.
Sea una población cuya f.(d.)p. es f (xi |θ1 , . . . , θk ), con k parámetros descono-
cidos que deseamos estimar y una muestra aleatoria de tamaño n, (X1 , . . . , Xn ).
252
11. Métodos de Obtención de Estimadores 253
Sean α1 , . . . , αk los k-primeros momentos respecto al origen de la población:

 ∞
 X j
Z
X


 xi f (xi |θ1 , . . . , θk ) caso discreto,
j
αj (θ1 . . . , θk ) = x f (x|θ) = Zi=1∞
xj f (x|θ1 , . . . , θk ) dx, caso continuo




−∞
para j = 1, k.
Generalmente αj , será una función de los k-parámetros θ1 , . . . , θk :
αj (θ1 . . . , θk ), j = 1, k .
Sea la m.a. X1 , . . . , Xn de la población y calculándo los k-primeros momentos
respecto al origen, a1 , . . . , aj para estas observaciones muestrales:
n n n
X Xi X Xj i
X Xk i
a1 = , ..., aj = , ..., ak = .
n n n
i=1 i=1 i=1
Luego, igualamos estos momentos muestrales con sus correspondientes pobla-

cionales; y tenemos el sistema
α1 (θ1 , . . . , θk ) = a1
..
.
αj (θ1 , . . . , θk ) = aj
..
.
αk (θ1 , . . . , θk ) = ak
de k ecuaciones con k incógnitas, los parámetros a estimar. Resolviendo el sistema

tenemos las soluciones θ̂1 , . . . , θ̂k .
Propiedades de los estimadores obtenidos por el método de los

momentos
Propiedad 11.1 (Insesgadez) Si los parámetros desconocidos y que pretende-
mos estimar son momentos poblacionales respecto al origen, entonces los esti-
madores obtenidos por este método son insesgados.
Propiedad 11.2 (Consistencia) Bajo condiciones bastante generales los esti-

madores obtenidos por este método son consistentes.
Propiedad 11.3 (Normalidad asintótica) Si los parámetros desconocidos y

que pretendemos estimar son los momentos poblacionales, entonces los estimadores
obtenidos serán asintóticamente normales.
La gran ventaja de este método es la simplicidad de los cálculos en que se in-

curre, por lo que se utiliza éste como primera aproximación a los parámetros. Este
método no suele proporcionar buenos estimadores pues no utiliza la distribución
de la población.
11.3. Método de la máxima verosimilitud

Sea una m.a.s. (X1 , . . . , Xn ) de una población cuya f.(d.)p. es f (xi |θ), donde
θ es un parámetro desconocido que pertenece a un espacio paramétrico Θ, θ ∈ Θ.
Sabemos que la función de verosimilitud L(θ) es dependiente del parámetro θ,
y toma valores distintos según la muestra suministrada concreta.
Definición 11.1 El método de la máxima verosimilitud consiste en elegir

como estimador del parámetro desconocido θ aquel valor θ̂(X1 , . . . , Xn ) que hace
máxima la función de verosimilitud L(θ). Es decir, consiste en encontrar aquel
valor θ̂(X1 , . . . , Xn ) tal que
L(θ̂) = máx L(θ) (11.1)

θ∈Θ
A este estimador θ̂(X1 , . . . , Xn ) se le llama estimador máximo verosimil

o estimador de máxima verosimilitud (EMV) del parámetro θ.
Es decir, este método busca el estimador que máximiza la probabilidad de que

la muestra seleccionada sea obtenida.
Ası́, si tenemos dos posibles valores del parámetro θ1 y θ2 con
L(x|θ1 ) > L(x|θ2 ) ,
entoces la probabilidad de que θ1 sea realmente el parámetro es mayor a que lo

sea θ2 , para una muestra concreta considerada x = (x1 , . . . , xn ).
Generalmente L(θ) suele ser una expresión complicada, por eso es que se con-
sidera ln L(θ) pues L(θ) > 0 y coinciden los máximos de L con los de ln L. Además
n
X
ln L(x|θ) = ln f (x|θ) = ln f (xi |θ) (11.2)
i=1
y el EMV, θ̂, debe verificar

n
X
ln L(x1 , . . . , xn |θ̂) = máx ln L(x1 , . . . , xn |θ) = máx ln f (xi |θ) , (11.3)
θ∈Θ θ∈Θ
i=1
luego, obtenemos la primera derivada, igualamos ésta a cero y de ahı́ resolvemos

para θ o mejor dicho θ̂, y obtenemos la llamada ecuación de verosimilitud 1 :
n
∂ ln L(x1 , . . . , xn |θ) X ∂ ln f (xi |θ)
= =0, (11.4)
∂θ ∂θ
i=1
donde θ̂ = θ̂(X1 , . . . , Xn ) es función de las observacines muestrales, y desechamos

soluciones donde el estimador es una constante.
Si, en su lugar, tenemos una f.(d.)p. de la poblaciñ dependiente de k parámet-
ros, f (x|θ1 , . . . , θk ), entonces los EMV de estos parámetros la obtenemos resolvien-
do el sistema de ecuaciones de verosimilitud en θ1 , . . . , θk .
n
∂ ln L(x1 , . . . , xn |θ1 , . . . , θk ) X ∂ ln f (xi |θ1 , . . . , θk )
= =0
∂θ1 ∂θ1
i=1
.. (11.5)
.
n
∂ ln L(x1 , . . . , xn |θ1 , . . . , θk ) X ∂ ln f (xi |θ1 , . . . , θk )
= =0
∂θk ∂θk
i=1
y tenemos:
θ̂1 = θ̂1 (X1 , . . . , Xn )

..
.
θ̂k = θ̂k (X1 , . . . , Xn ) ,
los EMV de (θ1 , . . . , θk ).

En este método no aceptamos soluciones triviales para los EMV. Tenemos un
EMV en sentido estricto cuando la solución es única; en caso contrario tenemos
EMV en sentido amplio.
Propiedades de los estimadores de máxima verosimilitud

Las siguientes propiedades se cumplen bajo condiciones de regularidad bastante
generales:
Propiedad 11.4 Los EMV son consistentes, es decir ∀ > 0, se verifica
lı́m Pr(|θ̂ − θ| > ) = 0 . (11.6)

n→∞
1
Admitimos lo siguiente condiciones de regularidad: el campo de variación de θ es un intervalo
abierto de R, que el campo de variación de la v.a. poblacional no depende de θ, que f (x|θ) > 0
∂ 2 ln L
y derivable respecto a θ y que se verifica la condición de máximo < 0.
∂θ2 θ=θ̂
Propiedad 11.5 En general los EMV no son insesgados. Pero si no son inses-
gados entonces son asintóticamente insesgados.
Propiedad 11.6 Si existe un estimador eficiente θ̂ del parámetro θ, entonces

también es de máxima verosimilitud y es único. Pero todo estimador de máxima
verosimilitud no es eficiente.
Propiedad 11.7 Los EMV son asintóticamente eficientes.
Propiedad 11.8 Los EMV son ası́ntoticamente normales.
θ̂ ∼ N(θ, Var(θ̂)) ,
donde Var(θ̂) coincide con la cota de Crámer-Rao.
Propiedad 11.9 Si θ̂ es un estimador suficiente del parámetro θ, entonces el

EMV de θ, si es único, es función del estimador suficiente θ̂.
Propiedad 11.10 (Principio de Invarianza de Zehna) Los EMV son invari-

antes frente a transformaciones biunı́vocas. Es decir, si θ̂ es el EMV del parámetro
θ y g(θ) es una función con inversa única, entonces se verifica que g(θ̂), es el EMV
de g(θ).
11.4. Ejemplos
Estos son varios ejemplos que he tomado de libros que aparecen en la bibli-
ografı́a.
Ejemplo 11.1 Demostrar las propiedades de los estimadores obtenidos por el
método de los momentos.
Insesgadez. Puesto que los parámetros a estimar son momentos poblacionales
respecto al origen, αj , tendremos para una muestra aleatoria (X1 , . . . , Xn ) que:
n
1X j
α̂j = aj = Xi , j = 1, . . . , k
n
i=1
Tomando valores esperados resulta que:
n
!
1X j
E(α̂j ) = E Xi
n
i=1
n
!
1 X j
= E Xi
n
i=1
n
1X
= E(Xij )
n
i=1
n
1X
= E(X j )
n
i=1
1
= · nE(X j )
n
= αj
Luego vemos que son estimadores insesgados.
Normalidad asintótica. Como los parámetros a estimar son los momentos
poblacionales, αj , que para una muestra aleatoria simple (X1 , . . . , Xn ) son:
n
X Xj i
α̂j = aj =
n
i=1
X1j Xnj
= + ··· +
n n
resultando que el estimador α̂j = aj se puede expresar como suma de n variables
Xij
aleatorias n , independientes e idénticamente distribuidas con media y varianza:
!
Xij αj
E =
n n
!
Xij 1
Var = Var(Xij )
n n2
1
= E[(Xij − E(Xij ))2 ]
n2
1
= 2 E[(Xij − αj )2 ]
n
1
= 2 (α2j − αj2 )
n
y la media y la varianza del estimador α̂j = aj , será:
n
!
X Xij
E(α̂j ) = E(aj ) = E = αj
n
i=1
n
!
X Xj i
Var(α̂j ) = Var(aj ) = Var
n
i=1
n
!
X Xij α2j − αj2
= Var =
n n
i=1
Luego aplicando el Teorema Central del Limite, para muestras suficientemente

grandes, tenemos que el estimador α̂j = aj sigue una distribución
!
α2j − αj2
α̂j = aj ∼ N αj ,
n
o bien que la variable aleatoria

√
aj − E(aj ) aj − αj n(aj − αj )
p =q 2
= q ∼ N(0, 1) cuando n → ∞
Var(aj ) α 2j −α j α2j − αj2
n
Ejemplo 11.2 Sea (X1 , . . . , Xn ) una muestra aleatoria obtenida de una población
que sigue una distribución de Poisson de parámetro λ, desconocido. Obtener un
estimador del parámetro λ utilizando el método de los momentos.
Solución. Aplicando el método de los momentos igualaremos el momento de
orden uno, respecto al origen, de la población α1 , al momento de orden uno de la
muestra a1 .
∞
X
α1 (λ) = E(X) = xi · Pr(X = xi )
i=1
∞
X λxi −λ
= xi · e
xi !
i=0
∞
−λ
X λxi−1
=e λ
(xi−1 )!
i=0
−λ λ
=e λe
=λ
n
X Xi
a1 = = X̄
n
i=1
Luego igualando
α1 (λ) = a1
resulta que el estimador por el método de los momentos de λ es:

Pn
Xi
λ̂ = X̄ = i=1
n
Este estimador coincide con el que se obtiene por el método de máxima verosimil-
itud.
J
Ejemplo 11.3 Sea (X1 , . . . , Xn ) una muestra aleatoria procedente de una B(p).Obtener
el estimador del parámetro p, utilizando el método de los momentos.
Solución. Sabemos de la distribución B(p) que la media o momento de orden
uno respecto al origen es:
α1 (p) = p
y el momento de orden uno de la muestra es:

n
X Xi
a1 =
n
i=1
Luego igualando ambos momentos resulta:

Pn
Xi
p̂ = i=1
n
Pn
y si hacemos X = i=1 Xi ≡ número de exitos en las n pruebas:
X
p̂ =
n
Este estimador, como veremos después, es también el estimador obtenido por
el método de la máxima verosimilitud. J
Ejemplo 11.4 Obtener, a partir de una muestra aleatoria simple de tamaño n,

el estimador del parámetro a de una distribución exponencial mediante el método
de los momentos.
Solución. Una distribución exponencial de parámetro a tiene como función
de densidad:
−ax
ae x>0
f (x) =
0 x≤0
y además su media es:
1
E(X) = = α1
a
El estimador de a por el método de los momentos se obtiene resolviendo la
ecuación:
α1 = a1
con a1 = X̄.
Por tanto,
1
= X̄
a
con lo que
1
â =
X̄
J
Ejemplo 11.5 Obtener el estimador del parámetro θ de una ley cuya función de
densidad es:
2
f (x|θ) = (θ − x) si 0 < x < θ
θ2
utilizando e método de los momentos para una muestra aleatoria simple de tamaño
2.
Solución. El valor esperado de la variable aleatoria X, se calcula como

Z θ 2 θ
2 2 x x3
α1 = E(X) = x 2 (θ − x) dx = 2 θ −
0 θ θ 2 3 0
3 3

2 θ θ θ
= 2 − =
θ 2 3 3
e igualando esta cantidad al momento muestral con respecto al origen, a1 = X̄,
se tiene:
θ
X̄ =
3
con lo cual el estimador del parámetro θ por el método de los momentos
θ̂ = 3X̄
y si la muestra es de tamaño 2:
X1 + X2
θ̂ = 3
2
J
Ejemplo 11.6 Sea (X1 , . . . , Xn ) una m.a.s. procedente de una población B(p),
en donde p es desconocido. Obtener el estimador de máxima verosimilitud del
parámetro p.
Solución. Sabemos que la función de probabilidad es:
Pr(xi |p) = pxi (1 − p)1−xi , xi = 0, 1, i = 1, . . . , n
La función de verosimilitud es:

n
Y
L(x1 , . . . , xn |p) = Pr(x1 , . . . , xn |p) = Pr(xi |p)
i=1
Pn
n− n
P
xi i=1 xi
=p i=1 (1 − p)
El ln L viene dado por:

n n
! !
X X
ln L(x1 , . . . , xn |p) = xi ln p + n− xi ln(1 − p)
i=1 i=1
Pn
n − ni=1 xi
P Pn
∂ ln L(x1 , . . . , xn |p) i=1 xi xi − np
= − = i=1 =0
∂p p 1−p p(1 − p)
n Pn
i=1 xi X
X
xi − np = 0 ⇒ p̂ = = = x̄
n n
i=1
∂ 2 ln L
Calculando la tenemos:
∂p2
∂ 2 ln L(x1 , . . . , xn |p) − ni=1 xi n − ni=1 xi
P P
= −
∂p2 p2 (1 − p)2
2
Pn Pn 2
−(1 − p) i=1 xi − (n − i=1 xi ) p
=
p2 (1 − p)2
y particularmente para p = x̄, se tiene:
∂ 2 ln L(x1 , . . . , xn |p)

n n
=− + <0
∂p2 x̄ 1 − x̄
con lo cual podemos decir que se trata de un máximo. Luego el estimador de
máxima verosimilitud es
X
p̂ = x̄ =
n
J
Ejemplo 11.7 Dada una población cuya función de densidad es:

f (x|θ) = (1 + θ)xθ Ih0,1i (x)
y una muestra aleatoria (X1 , . . . , Xn ).
Comprobar que el estimador del parámetro θ obtenido por el método de los
momentos no coincide con el estimador máximo-verosimil.
Solución. Para obtener el estimador por el método de los momentos obten-
emos el momento de orden uno respecto al origen de la población y lo igualamos
al momento de orden uno de la muestra
Z 1
α1 = E(X) = x · (1 + θ)xθ dx
0
Z 1
= (1 + θ)x1+θ dx
0
1+θ
=
2P+ θ
n
i=1 Xi
a1 = = X̄
n
Igualando ambos momentos, tenemos:

1+θ 1 − 2X̄
= X̄ ⇒ θ̂ =
2+θ X̄ − 1
que es el estimador obtenido por el método de los momentos.
Para obtener el estimador máximo-verosimil procedemos como sigue
n
Y
L(x1 , . . . , xn |θ) = f (x1 , . . . , xn |θ) = f (xi |θ)
i=1
= (1 + θ)xθ1 · · · (1 + θ)xθn
n
!θ
Y
n
= (1 + θ) xi
i=1
n
X
ln L(x1 , . . . , xn |θ) = n ln(1 + θ) + θ ln xi
i=1
n
∂ ln L(x1 , . . . , xn |θ) n X
= + ln xi = 0
∂θ 1+θ
i=1
n
θ= Pn −1
− i=1 ln xi
Luego el estimador de máxima verosimilitud será

n
θ̂ = Pn −1
− i=1 ln Xi
y como vemos no tiene porque coincidir con el estimador obtenido por el método
de los momentos. J
Ejemplo 11.8 Sea una población cuya función de densidad es:

x
f (x|θ) = θ−1 e− θ IR+
y consideremos una muestra aleatoria (X1 , . . . , Xn ). Se pide
1. Estimador máximo-verosimil del parámetro θ.
2. Comprobar si es insesgado y consistente.
3. Comprobar si el estimador máximo-verosimil es eficiente.

Solución.
1. La función de verosimilitud viene dada por:

n
Y
L(x1 , . . . , xn |θ) = f (x1 , . . . , xn |θ) = f (xi |θ)
i=1
x1 xn
= θ−1 e− P
θ ···θ
−1 −
e θ
n
i=1 xi
= θ−n e− θ
El logaritmo de la función de verosimilitud es:

n
1X
ln L(x1 , . . . , xn |θ) = −n ln θ − xi
θ
1=1
Derivando respecto a θ e igualando a cero tenemos:

n
∂ ln L(x1 , . . . , xn |θ) n 1 X
=− + 2 xi = 0
∂θ θ θ
i=1
Pn
i=1 xi
θ= = x̄
n
Luego el estimador insesgado del parámetro θ será:

Pn
Xi
θ̂ = i=1 = X̄
n
2. Veamos que es insesgado y consistente:
1
Como se trata de una distribución exponencial de parámetro θ, sabemos
que:
E(X) = θ
Var(X) = θ2
Luego
E(θ̂) = E(X̄) = E(X) = θ
Var(X) θ2
Var(θ̂) = Var(X̄) = =
n n
Cuando n → ∞, entonces la Var(θ̂) → 0 y como es estimador θ̂ es insesgado,

resulta que efectivamente el estimador de máxima verosimilitud es consis-
tente, pues el sesgo es nulo y la varianza tiende a cero cuando n tiende a
infinito.
3. Para probar la eficiencia, tendremos que probar que la varianza del estimador
coincide con la cota de Frechet-Cramer-Rao, es decir que,
1
Var(θ̂) = h i2
∂ ln f (x|θ)
nE ∂θ
o bien
1
Var(θ̂) = h i
∂ 2 ln f (x|θ)
−nE ∂θ2
x
ln f (x|θ) = − ln θ − , x>0
θ
∂ ln f (x|θ) 1 x
= − + 2, x>0
∂θ θ θ
∂ 2 ln f (x|θ) 1 2x
2
= 2 − 3, x>0
∂θ θ θ
∂ 2 ln f (x|θ)

1 2X
E = E 2− 3
∂θ2 θ θ
1 2
= − E(X)
θ2 θ3
1 2
= − ·θ
θ2 θ3
1 2 1
= 2
− 2 =− 2
θ θ θ
Ası́ la cota de Frechet-Cramer-Rao será:
1 1 θ2
h i= −1 =

∂ 2 ln f (x|θ) −n n
−nE ∂θ2 θ2
que coincide con la Var(θ̂), siendo por tanto el estimador de máxima verosimil-
itud, para este ejemplo, eficiente.
Ejemplo 11.9 Sea una población cuya distribución de probabilidad viene dada
por:
Pr(X = 1) = p3
Pr(X = 2) = 3p2 q
Pr(X = 3) = 3pq 2
Pr(X = 4) = q 3
con 0 ≤ p ≤ 1 y p + q = 1. Obtener la estimación máximo verosimil del parámetro

p utilizando la realización de una muestra aleatoria simple de tamaño 18, en la
cual el valor 1 se presenta tres veces, el valor 2 se presenta cuatro veces, el valor
3 se presenta cinco veces y el valor 4 aparece seis veces.
Solución. La función de verosimilitud
18
Y
L(x1 , . . . , x18 |p) = Pr(xi |p)
i=1
= (p ) · (3p2 q)4 (3pq 2 )5 (q 3 )6
3 3
= 39 p22 q 32
= 39 p22 (1 − p)32
tomando logaritmos neperianos resulta
ln L(x1 , . . . , x18 |p) = 9 ln 3 + 22 ln p + 32 ln(1 − p)
y derivando con respecto al parámetro p e igualando a cero, se tiene:

∂ ln L(x1 , . . . , x18 |p) 22 32
= − =0
∂p p 1−p
22(1 − p) − 32p = 0
Por tanto la estimación máximo verosimil del parámetro p se obtiene despejando

de la ecuación anterior y es:
22 11
p̂ = = ' 0,407
54 27
J
Ejemplo 11.10 Dada la función de densidad
f (x|θ) = keθ−x si x > θ
con θ > 0, el parámetro desconocido, y k un valor constante. Obtener un estimador

de θ por el método de los momentos basado en la información de una muestra
aleatoria simple de tamaño n.
Solución. En primer lugar calculamos el valor de la constante k para que
f (x|θ) sea verdadera función de densidad:
Z +∞ Z +∞
1= f (x) dx = keθ−x dx
−∞ θ
i+∞
= −keθ−x =k k=1
θ
Para utilizar el método de los momentos, igualamos
α1 (θ) = a1
donde a1 = X̄
Z +∞
α1 (θ) = E(X) = xeθ−x dx
θ
haciendo
u = x ; du = dx
dv = eθ−x dx ; v = −eθ−x
e integrando por partes, se tiene que
h i+∞ Z +∞
θ−x
α1 (θ) = E(X) = −xe + eθ−x dx
θ θ
h i+∞
= θ + −eθ−x =θ+1
θ
Por tanto al igualar el momento poblacional de orden uno respecto al origen con
el muestral:
θ + 1 = X̄
con lo cual el estimador de θ por el método de los momentos es:
θ̂ = X̄ − 1
J
Ejemplo 11.11 Sea X1 , . . . , Xn una muestra aleatoria simple obtenida de una

población X con función de densidad:
x −x
θ2
e θ si x ≥ 0
f (x|θ) =
0 en otro caso
donde θ > 0.
Obtener un estimador de θ por el método de la máxima verosimilitud.
Solución. La función de verosimilitud es:
n n
Y 1 − 1 Pni=1 xi Y
L(x1 , . . . , xn |θ) = f (xi |θ) = e θ xi
θ2n
i=1 i=1
tomando logaritmos neperianos se tiene

n n
1X X
ln L(x1 , . . . , xn |θ) = −2n ln θ − xi + ln xi
θ
i=1 i=1
y derivando con respecto a θ e igualando a cero:

n
∂ ln L(x1 , . . . , xn |θ) −2n 1 X
= + 2 xi + 0 = 0
∂θ θ θ
i=1
entonces
n
X
−2nθ + xi = 0
i=1
con lo cual es estimador de máxima verosimilitud para el parámetro θ es:

n
1 X X̄
θ̂ = xi =
2n 2
i=1
Ejemplo 11.12 Dada una muestra aleatoria simple, X1 , . . . , Xn de una población

X cuya función de densidad es
−x+θ
e si x ≥ θ
f (x) =
0 en el resto
con θ ∈ R; obtener un estimador de θ por el método de máxima verosimilitud.
Solución. Veamos qué ocurre si se aplica
∂ ln L(x1 , . . . , xn |θ)
=0
∂θ
se obtendrı́a que:
n
Y
L(x1 , . . . , xn |θ) = f (xi |θ) = e−x1 +θ · · · e−xn +θ
i=1
nθ− n
P
=e i=1 xi si xi ≥ θ ∀ i = 1, . . . , n
y cero en caso contrario.

n
X
ln L(x1 , . . . , xn |θ) = nθ − xi si xi ≥ θ
i=1
∂ ln L(x1 , . . . , xn |θ)
=n
∂θ
y no existe ningún valor de θ para el cual el resultado anterior sea igual a cero. Este
hecho se produce porque el campo de variación de X depende del parámetro θ.
Por tanto no se puede aplicar el proceso anterior y habrá que encontrar el máximo
de la función de verosimilitud de otra forma:
Se ha encontrado que
nθ − Pn x
e e i=1 i si xi ≥ θ ∀ i = 1, . . . , n
L(x1 , . . . , xn |θ) =
0 en caso contrario
Por tanto máximizar L(x1 , . . . , xn |θ) es lo mismo que maximizar θ; pero como
tiene que ocurrir
θ ≤ mı́n{xi }
i
el máximo valor que puede tomar es la mı́nima observación obtenida en la muestra,

luego el estimador de máxima verosimilitud es:
θ̂ = mı́n{xi }
i
Otra forma de ver esto es la siguiente:
máx L(x1 , . . . , xn |θ) = máx enθ

θ θ
pero como xi ≥ 0 ∀ i = 1, . . . , n es equivalente a decir
mı́n{xi } ≥ θ
i
entonces
en mı́ni {xi } ≥ enθ

por tanto
máx L(x1 , . . . , xn |θ) ≡ máx enθ ≤ en mı́ni {xi }
θ θ
con lo cual
θ̂ = mı́n{xi }
i
J
Ejemplo 11.13 Dado x “exitos” en n intentos, encuentre el estimador de máxima

verosimilitud del parámetro θ de la distribución binomial correspondiente.
Solución. Para encontrar el valor de θ que maximiza

n x
L(x|θ) = θ (1 − θ)n−x
x
será conveniente hacer uso del hecho que el valor de θ que maximiza L(θ) también
maximiza:

n
ln L(θ) = ln + x · ln θ + (n − x) · ln(1 − θ)
x
Ası́ obtendremos
d[ln L(θ)] x n−x
= −
dθ θ 1−θ
y, al igualar esta derivada a 0 y resolver para θ, encontramos que la función
de verosimilitud tiene un máximo en θ = nx . Este es el estimador de máxima
verosimilitud del parámetro binomial θ, y nos referimos a θ̂ = X
n como el estimador
correspondiente de máxima verosimilitud. J
Ejemplo 11.14 Si x1 , x2 , . . . , xn son los valores de una muestra aleatoria de

tamaño n de una población uniforme con α = 0, encuentre el estimador de máxima
verosimilitud de β.
Solución. La función de verosimilitud está dada por
n n
Y 1
L(x|β) = f (xi |β) =
β
i=1
para β mayor que, o igual a, la más grande de las x’s y 0 de otra manera. Puesto
que el valor de esta función de verosimilitud aumenta conforme β disminuye,
debemos hacer β tan pequeña como sea posible, y se sigue que el estimador de
máxima verosimilitud de β es Yn , la estadı́stica de n-ésimo orden. Como este valor
es β = máx{x1 , . . . , xn }, el EMV de β es β̂ = máx{X1 , . . . , Xn }. J
Hay que resaltar que en el ejemplo anterior, el EMV β̂ no parece ser un es-
timador apropiado de β. Puesto que máx{X1 , . . . , Xn } < β con probabilidad 1,
resulta obvio que β̂ tiende a subestimar el valor de β. De hecho, si se asigna a β
cualquier distribución inicial, entonces el estimador Bayes para β resultará mayor
que β̂. La magnitud en que el estimador Bayes supera a β̂, dependerá naturalmente
de la distribución inicial que se utiliza y de los valores observados de X1 , . . . , Xn .
Ejemplo 11.15 No existencia de un EMV. Supóngase de nuevo que X1 , . . . , Xn

constituyen una muestra aleatoria de una distribución uniforme sobre el interva-
lo h0, βi. Sin embargo, supóngase ahora que en lugar de escribir la f.d.p. f (x|β)
de la distribución uniforme considerando desigualdades débiles en su campo de
variación, se escribe de la siguiente forma:

 1 para 0 < x < β,
f (x|β) = β
 0 en otro caso.
La única diferencia entre la f.d.p de la uniforme [0, β] y esta última es que el val-
or de la f.d.p. en cada uno de los dos puntos 0 y β se ha cambiado reemplazando las
desigualdades débiles por desigualdades estrictas. Utilizando esta última ecuación,
vemos que un EMV de β será un valor de β tal que β > xi para i = 1, . . . , n y que
maximiza 1/β n . Hay que tener en cuenta que los valores posibles de β no incluyen
el valor β = máx{x1 , . . . , xn }, puesto que β debe ser estrictamente mayor que ca-
da valor observado xi (i = 1, . . . , n). Puesto que θ se puede elegir arbitrariamente
cerca del valor máx{x1 , . . . , xn } pero no se puede elegir a este valor, resulta que
no existe el EMV de β. J
Los dos ejemplos anteriores ilustran un inconveniente del concepto de un EMV.

En todas las exposiciones previas sobre las f.d.p., se subraya el hecho de que
es irrelevante si se elige la f.d.p. de la distribución uniforme como 1/β sobre el
intervalo abierto 0 < x < β o sobre el intervalo cerrado 0 ≤ x ≤ β. Ahora,
sin embargo, se observa que la existencia de un EMV depende de esta elección
irrelevante y sin importancia. Esta dificultad se elimina fácilmente en este último
ejemplo utilizando la f.d.p. con desigualdades débiles que con estrictas en el campo
de variación de x. En muchos otros problemas también se puede eliminar una
dificultad de este tipo relacionada con la existencia de un EMV, eligiendo una
versión apropiada de la f.d.p. para representar la distribución dada. Sin embargo
la dificultad no siempre se puede eliminar.
Ejemplo 11.16 Si X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una población

uniforme con α = 0, demuestre que el valor más grande de la muestra (esto es
la estadı́stica de n-ésimo orden, Yn ) es un estimador sesgado del parámetro β.

También, modifique este estimor de β para hacerlo insesgado.
Solución. J
Ejemplo 11.17 Calcúlese el estimador máximo-verosimil del parámetro λ de la

distribución de Poisson en muestras aleatorias simples de tamaño n.
Solución. La función de verosimilitud es
n
Y λ xi
L(x|λ) = e−nλ
xi !
i=1
n
X n
X
ln L(x|λ) = −nλ + ln λ xi − ln xi !
i=1 i=1
Pn
∂ ln L(x|λ) i=1 xi
= −n + = 0;
∂λ λ
Pn
xi
λ̂ = i=1 = x̄
n
verificándose la condición de máximo
2
∂ ln L(x|λ) n
2
=− <0
∂λ λ̂=x̄ x̄
J
Ejemplo 11.18 Muestreo de una distribución normal. En la distribución

N(µ, σ 2 ) con varianza conocida, el parámetro µ desconocido se estima mediante el
método de la máxima verosimilitud, en muestras aleatorias simples de tamaño n.
La función de verosimilitud es
L(x|µ) = f (x1 |µ) · · · f (xn |µ)
" # " #
1 x1 − µ 2 1 xn − µ 2

1 1
= exp − ··· exp −
(2π)1/2 σ 2 σ (2π)1/2 σ 2 σ
n
" #
1 1 X
= exp − (xi − µ)2 .
(2πσ 2 )n/2 2σ 2
i=1
De la ecuación anterior se puede observar que L(x|µ) se maximiza en el valor

de µ que minimiza
n
X n
X n
X
Q(µ) = (xi − µ)2 = x2i − 2µ xi + nµ2 .
i=1 i=1 i=1
Si se calcula ahora la derivada dQ(µ)/dµ, se iguala ésta a 0 y se resuelve la

ecuación resultante para µ, se obtiene que µ = x̄n . Resulta, por tanto, que el EMV
de µ es µ̂ = X̄n . J
En el ejemplo anterior se puede observar que el estimador µ̂ no depende del

valor de la varianza σ 2 , que se supuso conocido. El EMV de la media desconocida
µ es simplemente la media muestral X̄n , independientemente del valor de σ 2 . Se
verá esto de nuevo en el siguiente ejemplo, en el que se deben estimar µ y σ 2 .
Ejemplo 11.19 Muestreo de una distribución normal con varianza de-

sconocida. Supóngase de nuevo que X1 , . . . , Xn constituyen una muestra aleato-
ria de una distribución normal, pero supóngase ahora que ambas, la media µ y la
varianza σ 2 son desconocidas. Para cualesquiera valores observados x1 , . . . , xn , la
función de verosimilitud L(x|µ, σ 2 ) de nuevo está dada como en el ejemplo ante-
rior. Esta función se debe maximizar ahora sobre todos los valores posibles de µ y
de σ 2 , donde µ ∈ R, σ 2 ∈ R+ . En lugar de maximizar la función de verosimilitud
f (x|µ, σ 2 ) directamente, es de nuevo más fácil maximizar ln f (x|µ, σ 2 ). Resulta
que
L(x|µ, σ 2 ) = ln f (x|µ, σ 2 )
n
n n 1 X
= − ln(2π) − ln σ 2 − 2 (xi − µ)2 . (11.7)
2 2 2σ
i=1
Se deben obtener los valores de µ y σ 2 para los cuales L(x|µ, σ 2 ) sea máxima,
determinando los valores de µ y σ 2 que satisfacen las dos ecuaciones siguientes:
∂L(x|µ, σ 2 )
= 0, (11.8)
∂µ
∂L(x|µ, σ 2 )
= 0. (11.9)
∂σ 2
De la ecuación (11.7) se obtiene la relación
n n
!
∂L(x|µ, σ 2 ) 1 X 1 X
= 2 (xi − µ) = 2 xi − nµ .
∂µ σ σ
i=1 i=1
Por tanto, de la ecuación (11.8) se obtiene que µ = x̄n .

Además, de la ecuación (11.7),
n
∂L(x|µ, σ 2 ) n 1 X
=− 2 + 4 (xi − µ)2 .
∂σ 2 2σ 2σ
i=1
Cuando µ se reemplaza por el valor x̄n que se acaba de obtener, de la ecuación

(11.9) se obtiene que
n
1X
σ2 = (xi − x̄n )2 .
n
i=1
Ası́ como x̄n se denomina media muestral, el estadı́stico de la parte derecha

de la ecuación anterior se denomina varianza muestral. Es la varianza de una
distribución que asigna probabilidad 1/n a cada uno de los n valores observados
x1 , . . . , xn de la muestra.
Se puede comprobar que los valores de µ y σ 2 que satisfacen las ecuaciones
(11.8) y (11.9), efectivamente proporcionan el valor máximo de L(x|µ, σ 2 ). Por
tanto, los EMV de µ y σ 2 son
n
c2 = 1
X
µ̂ = X̄n y σ (Xi − X̄n )2 .
n
i=1
En otras palabras, los EMV de la media y la varianza de una distribución normal

son la media muestral y la varianza muestral.
J
Ejemplo 11.20 No unicidad de un EMV. Supóngase que X1 , . . . , Xn con-

stituyen una muestra aleatoria de una distribución uniforme sobre el intervalo
hθ,θ + 1i, con parámetro θ desconocido (θ ∈ R). En este ejemplo, la f.d.p. conjunta
fn (x|θ) tiene la forma

1 para θ ≤ xi ≤ θ + 1 (i = 1, . . . , n),
fn (x|θ) =
0 en otro caso.
La condición de que θ ≤ xi para i = 1, . . . , n, es equivalente a la condición
de que θ ≤ mı́n{x1 , . . . , xn }. Análogamente, la condición de que xi ≤ θ + 1 para
i = 1, . . . , n, es equivalente a la condición de que θ ≥ máx{x1 , . . . , xn } − 1. Por
tanto, en lugar de escribir fn (x|θ) en la forma en como ya lo hemos hecho, se
puede utilizar la siguiente forma:

1 para máx{x1 , . . . , xn } − 1 ≤ θ ≤ mı́n{x1 , . . . , xn },
fn (x|θ) =
0 en otro caso.
Entonces, es posible seleccionar como un EMV cualquier valor de θ en el intervalo
máx{x1 , . . . , xn } − 1 ≤ θ ≤ mı́n{x1 , . . . , xn }.
En este ejemplo, el EMV no está especificado unı́vocamente. De hecho, el
método de máxima verosimilitud no proporciona ayuda alguna para elegir un
estimador de θ. La verosimilitud de cualquier valor de θ fuera del intervalo anterior

es realmente 0. Por tanto, ningún valor de θ fuera de este intervalo podrı́a haber
sido estimado y todos los valores dentro del intervalo son EMV. J

CAPITULO11-ae - METODOS DE OBTENCION DE ESTIMADORES PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

CAPITULO11-ae - METODOS DE OBTENCION DE ESTIMADORES PDF

Cargado por

Copyright:

Formatos disponibles

Capı́tulo 11

El método de los momentos.

El método de la máxima verosimilitud.

El método de los mı́nimos cuadrados.

11.2. Método de los momentos

Sean α1 , . . . , αk los k-primeros momentos respecto al origen de la población:

Luego, igualamos estos momentos muestrales con sus correspondientes pobla-

de k ecuaciones con k incógnitas, los parámetros a estimar. Resolviendo el sistema

Propiedades de los estimadores obtenidos por el método de los

Propiedad 11.2 (Consistencia) Bajo condiciones bastante generales los esti-

Propiedad 11.3 (Normalidad asintótica) Si los parámetros desconocidos y

La gran ventaja de este método es la simplicidad de los cálculos en que se in-

11.3. Método de la máxima verosimilitud

Definición 11.1 El método de la máxima verosimilitud consiste en elegir

L(θ̂) = máx L(θ) (11.1)

A este estimador θ̂(X1 , . . . , Xn ) se le llama estimador máximo verosimil

Es decir, este método busca el estimador que máximiza la probabilidad de que

L(x|θ1 ) > L(x|θ2 ) ,

entoces la probabilidad de que θ1 sea realmente el parámetro es mayor a que lo

y el EMV, θ̂, debe verificar

luego, obtenemos la primera derivada, igualamos ésta a cero y de ahı́ resolvemos

donde θ̂ = θ̂(X1 , . . . , Xn ) es función de las observacines muestrales, y desechamos

θ̂1 = θ̂1 (X1 , . . . , Xn )

los EMV de (θ1 , . . . , θk ).

Propiedades de los estimadores de máxima verosimilitud

Propiedad 11.4 Los EMV son consistentes, es decir ∀  > 0, se verifica

lı́m Pr(|θ̂ − θ| > ) = 0 . (11.6)

Propiedad 11.6 Si existe un estimador eficiente θ̂ del parámetro θ, entonces

Propiedad 11.7 Los EMV son asintóticamente eficientes.

Propiedad 11.8 Los EMV son ası́ntoticamente normales.

donde Var(θ̂) coincide con la cota de Crámer-Rao.

Propiedad 11.9 Si θ̂ es un estimador suficiente del parámetro θ, entonces el

Propiedad 11.10 (Principio de Invarianza de Zehna) Los EMV son invari-

Luego aplicando el Teorema Central del Limite, para muestras suficientemente

o bien que la variable aleatoria

resulta que el estimador por el método de los momentos de λ es:

y el momento de orden uno de la muestra es:

Luego igualando ambos momentos resulta:

Ejemplo 11.4 Obtener, a partir de una muestra aleatoria simple de tamaño n,

Solución. El valor esperado de la variable aleatoria X, se calcula como

Pr(xi |p) = pxi (1 − p)1−xi , xi = 0, 1, i = 1, . . . , n

La función de verosimilitud es:

El ln L viene dado por:

Ejemplo 11.7 Dada una población cuya función de densidad es:

Igualando ambos momentos, tenemos:

Luego el estimador de máxima verosimilitud será

Ejemplo 11.8 Sea una población cuya función de densidad es:

2. Comprobar si es insesgado y consistente.

3. Comprobar si el estimador máximo-verosimil es eficiente.

1. La función de verosimilitud viene dada por:

El logaritmo de la función de verosimilitud es:

Derivando respecto a θ e igualando a cero tenemos:

Luego el estimador insesgado del parámetro θ será:

E(θ̂) = E(X̄) = E(X) = θ

Cuando n → ∞, entonces la Var(θ̂) → 0 y como es estimador θ̂ es insesgado,

con 0 ≤ p ≤ 1 y p + q = 1. Obtener la estimación máximo verosimil del parámetro

tomando logaritmos neperianos resulta

ln L(x1 , . . . , x18 |p) = 9 ln 3 + 22 ln p + 32 ln(1 − p)

y derivando con respecto al parámetro p e igualando a cero, se tiene:

Por tanto la estimación máximo verosimil del parámetro p se obtiene despejando

Ejemplo 11.10 Dada la función de densidad

f (x|θ) = keθ−x si x > θ

Propiedad 11.4 Los EMV son consistentes, es decir ∀ > 0, se verifica

lı́m Pr(|θ̂ − θ| > ) = 0 . (11.6)