M To Do Spar Aob Tenere Stim Adores

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/309643099
MÉTODOS PARA OBTENER ESTIMADORES
Book · November 2016
CITATIONS READS
0 10,253
1 author:
Carlos N. Bouza
University of Havana
477 PUBLICATIONS 922 CITATIONS
SEE PROFILE
All content following this page was uploaded by Carlos N. Bouza on 03 November 2016.
The user has requested enhancement of the downloaded file.

MÉTODOS PARA OBTENER
ESTIMADORES
MÉTODO DE MÁXIMA VEROSIMILITUD (MV) EN LA ESTIMACIÓN PUNTUAL
El principio de máxima verosimilitud (PMV)
El método de máxima verosimilitud fue usado desde los 20’s del siglo pasado. Su pionero
fue, como en tantas otras cosas de la estadística, Sir. R. Fisher. Este método soporta
muchos procedimientos que utilizan criterios de convergencia para usar modelos
inferenciales basados en la normalidad asintótica. A pesar de sus propiedades este no es
una panacea pues no siempre provee de métodos aceptables. Este puede ser ineficiente
comparado con otras alternativas. Sin embargo bajo ciertas condiciones de regularidad se
puede aceptar la normalidad asintótica y provee de óptimos en diversos procedimientos
existentes. En muchos casos es simple desarrollar métodos MV y por eso se puede
presentar toda la teoría estadística usando este principio como un enfoque para desarrollar
métodos particulares en la regresión, por ejemplo. Además el PMV posee la propiedad de
invariancia, así que los métodos derivados usándole, bajo ciertas hipótesis, permite
construir estimadores de funciones paramétricas que poseen las propiedades derivadas para
los estimadores del parámetro.
Como se verá, la estimación derivada usando el metidos Máxima Verosimilitud es un

método de optimización, en el que supone que la distribución de probabilidad de las
observaciones es conocida.
Estimadores MV
El modelo estadístico lo representamos a partir de una familia de medidas de probabilidad

P={P ;  }, definida sobre {, }, dominada por una medida de Lebesgue . La
función de densidad de P respecto esta medida se denota f(x; ).  es un intervalo
multidimensional de k, k1
Definición Sea X1,..,Xn una muestra aleatoria independiente de f(x;) y x1,…,xn los valores
observados. La verosimilitud de la muestra es la función de densidad conjunta evaluada en
el punto x1,…,xn : f(x1 ,...,xn; )=f(x:)
La función de verosimilitud  es una función real valuada definida sobre  que es
proporcional a la densidad. Esto es
Definición Sea X1,…,Xn una muestra aleatoria independiente de f(x;). La función de

verosimilitud en el punto x1,…,xn es L(; x)=kf(x:)
Nota Para simplificar se usará L(:x)=L()
1
La inferencia estadística puede enfocarse usando el hecho de que el método debe ser
consistente con la aceptación de que la mejor descripción de los datos es dada por la
maximización de L(:x). En estimación puntual el problema de hallar un valor (estimado)
de =MV de que maximice L(:x). El valor dado como aproximado a es el
estimado máximo verosímil (EMV). Una definición formal es la siguiente
Definición. Sea L() la verosimilitud en el punto  (espacio paramétrico). Un

estimador Máximo Verosímil de  es el estadístico MV:n, x=(x1,..,xn) (x1,..,xn)=
MV ,tal que  se tiene que L(x;n) L(x;  )
La función de verosimilitud se obtiene a partir de la función de densidad, intercambiando

los papeles entre parámetro y estimador. En una función de verosimilitud consideramos que
las observaciones, están fijadas. Está claro que si, para un determinado valor de θ, la
verosimilitud es pequeña, es poco probable que ese sea el valor correcto para el parámetro
que ha generado los datos que observamos. Si por el contrario la verosimilitud es grande,
es porque es muy probable que ese sea el valor correcto. De ahí la lógica de considerar
como una buena estimación de θ aquel valor que maximizas la función de verosimilitud.
Ejemplo. Se lanza 100 veces una moneda y se observa la sucesión de resultados ¨Cara¨ (C),
Cruz¨ (X). Denotemos las correspondientes probabilidades como P(C )=p, P(X)=1-p=q.
La moneda fue seleccionada de un grupo de 6 aleatoriamente. Estas están numeradas en
forma tal que la moneda j tiene probabilidad p= j/20 de que aparezca la C. Si la C aparece
25 veces nuestro estimador MV de p es pMV=0,25. De ahí que podamos considerar que lo
mas verosímil sea que la moneda seleccionada fuera la j=5.
La estimación MV la podemos algoritmizar como sigue:
𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑟 𝑢𝑛𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑦 𝑜𝑏𝑡𝑒𝑛𝑒𝑟 (𝑥1 , … , 𝑥𝑛 )𝐿(𝑥1 , … , 𝑥𝑛 |𝜃) = 𝑓(𝑥1 , … , 𝑥𝑛 |𝜃)

𝜃̂ = 𝐴𝑟𝑔𝑀𝑎𝑥  𝐿(𝑥1 , … , 𝑥𝑛 |𝜃)
Como MV =Arg Max L(x; ) es el estimador máximo verosímil de , el problema de

estimar el parámetro de interés es un problema de optimización y su solución provee de los
estimados de este para unos datos x.
En el caso de tener varios parámetros el procedimiento es similar.
Definición Sea X una v.a. que sigue una distribución f(x), 𝐾 y
𝑛
𝐿(𝑥1 , … . , 𝑥𝑛 ) = ∏ 𝑓( 𝑥𝑖 )

𝑖=1
la función de verosimilitud para una muestra aleatoria simple de tamaño n. El vector
𝑇
𝜃̂ = (𝜃̂1 , … , 𝜃̂𝐾 ) = 𝐴𝑟𝑔𝑀𝑎𝑥𝜃∈ 𝐿 (𝑥1 , … , 𝑥𝑛 )
recibe el nombre de estimación máximo-verosímil de . La función de la muestra
𝜃̂(𝑥1 , … , 𝑥𝑛 ) se denomina entonces estimador máximo-verosímil de .
2
Cabe señalar que, aunque hablamos del estimador máximo verosímil de un parámetro,
puede suceder que la ecuación de verosimilitud (la derivada de la función de verosimilitud,
o su logaritmo, igualada a cero) tenga más de una solución y, por tanto, tendríamos varios
posibles estimadores posibles para un mismo parámetro.
Es frecuente que sea imposible obtener una solución analítica del problema de optimización
que plantea la estimación MV. Este es el caso cuando el modelo es complejo dado el
numero de parámetros o la función de probabilidad tiene una expresión complicad para
hallar extremos. En tales situaciones no hay una solución factible en todos los puntos del
espacio paramétrico .
Además cuando están envueltos varios parámetros  puede crecer mucho y evaluar la
función de verosimilitud se puede hacer muy difícil e incluso imposible de ahí que entren
en juego modelos de optimización numérica. Estos pueden identificar, con relativa rapidez,
conjuntos de parámetros que sean verosímiles para los datos observados.
Podemos apuntar que una ventaja es que el estimador MV tiene propiedades asintóticas
óptimas entre todos los estimadores consistentes y normales asintóticamente. Una seria
desventaja es que cometeremos un grave error si nos utilizamos una distribución
equivocada, pues el estimador depende de la distribución en el proceso de optimización.
Por otra parte no podremos asegurar que las propiedades de estos estimadores sean válidas
en el caso de muestras pequeñas.
Un resultado clave es el de la invarianza de la estimación máximo verosímil dado en

siguiente teorema
Teorema.. Sea P={P ;  }, definida sobre {, }, dominada por una medida de
Lebesgue . y g:  una aplicación de  en el intervalo r-dimensional, (kr1),
Entonces si MV es un EMV de  también lo es g(MV) para g()
Demostración:
Tomemos G(w)={; , g()-w} como el conjunto asociado (coset) g en  y la función

inducida por la función de verosimilitud de g().
M(w, X)=SupG(w) L(, x) .
Este coset es una partición de  y MV es un EMV de  el que pertenece a un solo conjunto
G(w*) de esta partición. Como
L(MV ,x)Sup G(w*) L(, x)=M(w*,x) Sup w M(w,x)=Sup L(, x)= L(MV ,x)
Se tiene que M(w*,x)=Sup w M(w,x) por lo que w* es EMV de g(). Notando que MV
G(w*), g(MV)-w*
3
Nota En muchas demostraciones del principio de la invarianza se utiliza la hipótesis de
que g es biunívoca pero en esta se obvia esta al usar otros recursos basados en los cosets.
Ejemplo Sea Xi una variable iid log normal (log XiN(, 2)). Entonces como
E(log Xi)=exp2), V(log Xi)=2(exp (2 )-1)
Los EMV son
n exp mS), nn2(exp (S )-1)
tomando
m=i=1n log Xi/n, S=i=1n (log Xi-m)2/n.
La estimación máximo verosímil y los estadísticos suficientes se vinculan mediante el

siguiente teorema:
Teorema.: Sea X1,…,Xn un muestra independiente y aleatoria de f(x;). Si existe T=t(x),

estadístico suficiente para y el problema
ˆ  ArgMaxL( , x)
tiene solución el EMV de también existe y es único siendo función de .
Demostración
Sea g(t(x; )) la fd de T. Tomemos la función de verosimilitud
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = 𝐿() = 𝑔(𝑡(𝑥1 , … , 𝑥𝑛 ); 𝜃)ℎ(𝑥1 , … , 𝑥𝑛 )
Dada la suficiencia h(x1 ,...,xn) no depende de y g es función de . Estas van a ser

maximizadas simultáneamente. Como solo hay un valor de que maximiza L() y
𝑔(𝑡(𝑥1 , … , 𝑥𝑛 ); 𝜃), este valor tiene que ser función del ES 𝑡(𝑥1 , … , 𝑥𝑛 ) . Por lo que el EMV
es función del ES T . 
Idealmente ˆ  ArgMaxL( , x) tiene una expresión analítica pero este no es generalmente

el caso. Si lo fuera vale aplicar los métodos del Análisis Matemático y diferenciar L(x:)
con respecto a igualar a cero. En este caso tenemos dos posible casos: problemáticos:
(i) L(x:) no es diferenciable sobre el espacio de definición de X.

(ii) L(x:) es diferenciable, pero el máximo se alcanza en la frontera el espacio de
definición de X
El problema de derivar un EMV no es simplemente buscar el máximo aunque

frecuentemente podemos obtenerle hallando la solución del sistema:
L( x,  )
0

  2 L( x,  ) 
  0
  2 
   n
4
L( x,  )
Nota  0 es llamada ecuación de verosimilitud

Ejemplo.Sea la distribución uniforme en el intervalo (0:). L(x:) es
 n 0  xi  
L ; x1 ,..., x n   
0 en otro caso
Como -n es una función decreciente en en [0,], L() es maximizada para el valor
mínimo de .tal que las variables están en el rango de definición dado. Por tanto
 MV  X (n) , el estadístico de orden n de la muestra, es el EMV.
Ejemplos.
i) Sea X una variable aleatoria con fdp exponencial truncada

−(𝑥−𝜃)
𝑓(𝑥; 𝜃) = {𝑒 𝑠𝑖 0 < 𝑥 < ∞
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
La FM es
𝑛 𝑛
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏ 𝑒 −(𝑥𝑖 −𝜃) = 𝑒 −(∑𝑖=1 𝑥𝑖 −𝑛𝜃)
𝑖=1
Esta es un función creciente del exponente por lo que su EMV es el EO 1, o sea

𝜃̂𝑀𝑉 =Min{x1,…,xn}=X(1)
En la práctica puede ser más conveniente el utilizar el logaritmo de L() si f(x,)>0 para
todo . Pues en tales casos
[ L( x,  )]  log[ L( x,  )]
0 0
 
  2 log[ L( x,  )]    2 [ L( x,  )]  [ L( x,  )]  2    2 [ L( x,  )] 
    
      0
 2          
    n  L ( x, )  L ( x, )      L ( x, )    n
n
Entonces
  2 [ L( x,  )]    2 log[ L( x,  )] 
   0    0
 L( x,  )    n   2    n
ii) Sea X una variable con distribución exponencial

−𝜃𝑥
𝑓(𝑥; 𝜃) = {𝜃𝑒 𝑠𝑖 0 < 𝑥 < ∞
La FMV es
5
𝑛 𝑛
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏  𝑒 −𝑥𝑖 = 𝜃 𝑛 𝑒 −𝜃 ∑𝑖=1 𝑥𝑖
𝑖=1
Su logaritmo es
𝑛
𝐿∗ (𝜃) = 𝑛𝑙𝑛(𝜃) − 𝜃 ∑ 𝑥𝑖
𝑖=1
y
𝐿∗ (𝜃) 𝑛 𝑛
= −∑ 𝑥𝑖 = 0
 𝜃 𝑖=1
Por lo que
𝑛
𝜃𝑀𝑉 =
∑𝑛𝑖=1 𝑥𝑖
iii) Sea X una variable con distribución normal

𝑥−𝜇
−( )
𝑒 2𝜎2
𝑓(𝑥; 𝜃) = , −∞ < 𝑥 < ∞
√2𝜋𝜎 2
Como la FMV es
1 𝑥−𝜇 2
− ( ) 𝑛 1 𝑥 −𝜇 2
𝑛 𝑒 2 𝜎 −
2 − ∑𝑛 ( 𝑖 )
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏ = (√2𝜋𝜎 )
2 𝑒 2 𝑖=1 𝜎
𝑖=1 √2𝜋𝜎 2
𝑛 1 𝑛 𝑥𝑖 − 𝜇 2
𝐿∗ () = 𝐿∗ (𝜇, 𝜎 ) = − 𝑙𝑛(√2𝜋) − 𝑛𝑙𝑛(𝜎) − ∑ ( )
2 2 𝑖=1 𝜎
Ahora tenemos un vector de parámetros por lo que calculamos las derivadas parciales
respecto a cada parámetro:
𝐿(𝜃 ∗ ) ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)
= =0
 𝜎2
𝐿(𝜃 ∗ ) 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2

=− + =0
 𝜎 𝜎3
Resolviendo del sistema se obtiene que
𝑛 ∑𝑛𝑖=1 𝑥𝑖 2
∑𝑛𝑖=1 𝑥𝑖 √∑𝑖=1 (𝑥𝑖 − 𝑛 )
𝜃𝑀𝑉 = , = (𝑥̅ , 𝑆𝑛 ).
𝑛 𝑛
( )
6
iv) Ejemplo. Sea una variable con distribución Binomial Xj. Si hay k variables con esa
𝑛! 𝑥
distribución trabajamos con la distribución Multinomial ∏𝑘 ∏𝑘𝑗=1 𝑃𝑗 𝑗 , 0 ≤ 𝑥𝑗 . Si
𝑗=1 𝑥𝑗 !
usamos el estimador de máxima verosimilitud
𝑛! 𝑥
𝐿(𝜃1 = 𝑃1 , … , 𝜃𝑘 = 𝑃𝑘 ; 𝑋1 = 𝑥1 , … . , 𝑋𝑘 = 𝑥𝑘 ) = ∏𝑘 ∏𝑘𝑗=1 𝑃𝑗 𝑗 , 0 ≤ 𝑥𝑗 ≤ 𝑛,
𝑗=1 𝑥𝑗 !
∑𝑘𝑗=1 𝑥𝑗 = 𝑛
Este método nos lleva a que
𝑥 𝑥
𝜃𝑀𝑉 = (𝑃̂1 = 𝑛1 , … . , 𝑃̂𝑘 = 𝑛𝑘 ) , 𝑗 = 1, … , 𝑘
𝑥
Si el número de sucesos observados en la categoría j es xj = 0, resulta que 𝑃̂𝑗 = 𝑛𝑗 = 0. Esto
resultado no es matemáticamente consistente, pues diríamos que el suceso j es imposible.

Nota El logaritmo de L() está muy relacionado con el concepto de entropía en la Teoría de
la Información a través de la medida de información de Fisher.
El Principio de Máxima Verosimilitud es usado también en el desarrollo de Pruebas de
Hipótesis.
Nota. Un EMV no tiene que ser un estimador insesgado y tampoco tiene que ser único.
Al no tener un expresión explicita del EMV se debe recurrir a resolver el problema de
optimización usando algoritmos computacionales. El método de Newton-Raphson es muy
utilizado en las rutinas en uso en los diferentes softwares.
Estimación EMV mediante el cómputo numérico
Como se ha señalado es muy difícil en ocasiones resolver la ecuación de verosimilitud

incluso cuando la teoría nos asegura la existencia y unicidad del EMV optimo. Tomemos
como ejemplo el caso de la familia exponencial de k parámetros en el que esta ecuación,
como se ha visto, es

 T ( X i ) 
n
 i 1 
E   w( 1 ,..., k ), j  1,..., k
 n   j
 
Este sistema es en la práctica no lineal con mucha frecuencia. Por ello se han desarrollado
diversos algoritmos para resolver casos particulares que han aparecido en las aplicaciones.
En particular el comportamiento de los métodos iterativos envueltos plantea un problema

de estudio. El análisis del comportamiento de la sucesión de estimadores, cuando n es
grande es importante para establecer si es adecuado aceptar las aproximaciones normales,
la insesgadez asintótica etc. En particular recibe mucha atención el argüir bajo
condiciones de regularidad es suficiente hacer solo una iteración para obtener una
aproximación adecuada para la solución, el EMV.
Bajo la ciertas condiciones de regularidad si * es el verdadero valor de  podemos hacer

un desarrollo limite de su score en una vecindad de este.
7
 S 
 , S n ( )  S n ( *)  (   *) n  ,  1   *
   1
Tomemos =MV
 S 
0  S n ( MV )  S n ( *)  ( MV   *) n  ,  *   1   MV
   1
Si
 Sn  Sn ( n )
   0   MV   * 
   1  S 
 n
   1
Esta relación es la base de los métodos iterativos al definir una sucesión recurrente
 t
MV ,n , t 
 0 de orden 1 que ligue tMV,n con t-1MV,n diferenciado por la evaluación de
S n

.
En todos los casos el punto de partida *MV,n debe ser un estimador convergente de *.
Un caso que has sido muy estudiado es el de la distribución de Cauchy.

1
f ( x;  )   

 1  (x  ) 2  , x  ,
Para ella
 2( X i   )

n
L( ; X 1 ,..., X n )  , X i  ,  
 i 1 1  ( X i  ) 2
no haya solución analítica de la ecuación de verosimilitud
2( xi   )

n
0
i 1 1  ( xi   ) 2
Esta tiene varios máximos locales. Tomando el logaritmo de la función de verosimilitud
observamos que
ln L( ; X 1 ,..., X n )  n ln   
n
i 1
 
ln 1  ( X i  ) 2 , X i  ,  
 
Como ln 1  ( X i   ) 2 tiene un máximo en =Xi hay n máximos locales. Por tanto la
solución de este problema pasa por el uso de un método numérico.
Veamos varios de estos métodos,
Método de Newton-Raphson
Este se basa en la expansión alrededor de la ecuación d verosimilitud alrededor de la raíz de
la ecuación de verosimilitud MV . El método consiste en aproximar las curva y=Sn() por su
tangente. Sea (tMV,n, Sn((tMV,n) un punto de la curva. La ecuación tangente es
S n t
y  S n ( MV
t
,n )  (   MV ,n )
t
( MV ,n )

Haciendo y=0 se obtiene la fórmula de Newton-Raphson
8
t 1 S n ( MV
t
,n )
 MV , n   MV , n 
t
 S n 
 
   1tMV , n
Tomemos el desarrollo en series

0 ln L( ; X ,..., X ) 
 1 n
 2
 ln L( ; X ,..., X )  (  ) ln L(  v(   ); X ,..., X ),
 1 1 n MV 1
 2 1 MV 1 1 n
v [0,1]
1 es una solución inicial. Si v=0 se obtiene un aproximación. Sea la sucesión
t 1 S n ( MV
t
,n )
 MV ,n   MV
t
,n 
 S n 
 
    MV
t
,n
Comenzando con un valor 1 cerca de la raíz y si es acotada

2
ln L( t ; X 1 ,..., X n ), t  1,..., T
 2
es frecuente que la secuencia generada converja a la raíz. Por ello tiene sentido que 1 sea
computada usando un estimador consistente de . En tales casos es aceptable aceptar que
con un solo ciclo se obtiene una solución adecuada. Puede haber problemas de
convergencia si en una de las iteraciones se cae en un punto de inflexión de la
verosimilitud. Otro problema es que converja un mínimo relativo en vez de a un máximo.
Par evitar las irregularidades se puede usar una de las siguiese variantes
1. Método de Newton de la derivada fija

La sucesión es dada por
t 1 S n ( MV
t
,n ) 1
 MV ,n   MV
t
,n  at , at 
n  S n 
 
    MV
0
,n
Esta sucesión puede es más estable que el método general si se elige adecuadamente a
sucesión {at}. La raíz va a ser cubierto en forma mas regular por este método pero si la
curva de verosimilitud no es suave es muy es muy frecuente que se encuentre atrapada a
búsqueda en un máximo local. Este evita calcular la derivada de Sn en cada etapa y se
garantiza su convergencia a un máximo relativo.
Método de los Scores
La sucesión en este método es

t 1 S n ( MV
t
,n ) 1
 MV , n   MV ,n  at
t
, at 
n I ( MV
t
,n )
9
Una decisión usual es usar la información de Fisher I(). En la iteración t se tiene
 
 t11 ln L( 2 t 1 ; X 1 ,..., X n )   t11 ln L( 1t 1 ; X 1 ,..., X n )
t   
ln L( t 1 ; X 1 ,..., X n )  ln L( 1t 1 ; X 1 ,..., X n
2
  1   t
Si ln L( t ; X 1 ,..., X n )  0   t
  t2   t21
  1   t11
Si ln L( t ; X 1 ,..., X n )  0   t
  t2   t
Este método de iteración continúa hasta converger un máximo local.
Método de substitución
Se consideran dos puntos a* y b*, a*<b*, tales que Sn (a*)>0, Sn (b*)<0. La recta que une
(a*,Sn (a*)) y (b*, Sn (b*)) corta el eje horizontal en un punto
a * S n (b*)  b * S n (a*)
* 
S n (b*)  S n (a*)
Cuando Sn(0)>0 se procede a iterar a partir del punto (0, b*). Si Sn(0)>0 se itera a partir
del punto (a*,0). Así que el algoritmo trabaja como sigue
Fijar a0 , b0 , Sn (a0 )  0, Sn (b0 )  0 a0  b0
at S n (bt )  bt S n (at )
 0 t 1 
S n (bt )  S n (at )
S n ( nt )  0  at   nt , bt  bt 1
S n ( nt )  0  at  at 1 , bt 1   nt
a  bt
Si at  bt     MV  t
2
En la práctica se escogen a0 y b0 como valores alrededor de un estimador convergente. Lo
mas usual es tomar (a0, b0)(*-, *+), >0, con Sn(*-)>0 y Sn (*+)<0.
El error de aproximación en el ciclo t es acotado por

 2Sn
Sup
 (bt  at ) 2 ( at ,bt )  2
 0   nt  , 
8  2Sn
inf
( at ,bt )  2
Métodos de Whittaker-Robinson
10
Este es un caso particular del método de Newton con derivada fija con at=1, para todo t=1.
La sucesión recurrente utilizada en este método es
t 1
 MV ,n   MV ,n  S n ( MV ,n )
t t
En este se calcula una raíz de la ecuación ()=0. Tomemos dos funciones arbitrarias tales
que ()=01()=2(). El método es sugerido por el gráfico de las curvas 1() y 2()
la raíz buscada esta en su intersección. Comúnmente se usa 1()= y 2()=Sn()+.
Ejemplo Sea la distribución de Cauchy.

1
f ( x;  )   

 1  (x  ) 2  , x  ,
Para ella como

  
1 1 0 du
dx 
 
 1  (x  ) 2
 1  u   0,5
 2
es razonable usar como punto inicial la mediana de la muestra.
Algunas propiedades de los EMV
Los EMV poseen una serie de propiedades intrínsecas.
Los estimadores de máxima verosimilitud tienen ciertas propiedades deseables adicionales

pues son:
 .Son consistentes (𝜃̂ →𝑛→ ).

 Son invariantes frente a transformaciones biunívocas, (si T es unl estimador máximo
verosímil de y g es una función biunívoca g(T) es el estimador máximo verosímil de
g().
 Si T es un estadístico suficiente de , su estimador máximo verosímil, es función de
la muestra a través de T.
 Son asintóticamente normales; (f (T) tiende a ser una N(E(T), V(T) ) si n)
 Son asintóticamente eficientes, ( entre todos los estimadores consistentes de , los
de máxima verosimilitud son los de varianza mínima,).
 No siempre son insesgados pero en general se pueden derivar de ellos.
Algunas de ellas las veremos a continuación.
Teorema. Si existe una estadístico suficiente para el modelo (, P )n el EMV MV es
función de este.
Demostración
Como es suficiente factorizamos y tenemos que L(x, )=-h(x) (T,) y

MaxL( x,) Max  (T,)
11
Buscamos un valor tal que (T,n) (T,), para todo  por lo que este tiene que ser
función de T. 
Nota. Un EMV no tiene que ser suficiente.
Ejemplo. Sea X con distribución U(, 2), como f(x;)=1(, 2) (x)/  tenemos que
L(X, )=1(0Inf XSup X 2) (x)/ n.
(Inf X, Sup X) es suficiente pero el EMV es la solución de
ArgMax L(X; )= ArgMin =MV=Sup X/2=0,5X(n)
que no es suficiente.
Veamos la eficiencia.
Teorema. Si existe un estimador eficiente de  este es idéntico al único EMV cs-P ( casi
seguramente para P)
Demostración
Si T es eficiente usando la desigualdad de Frechet-Darmois-Cramer-Rao y aplicando

L(x,  )
Cauchy-Schwarz a y a T-

L( x,  )
 k ( )(T  ), cs  P

Por lo que T=MV, cs.
Teorema. (Consistencia): Si se cumplen

H1:  es un abierto de .
H2. * P P*.
H3. f(x, )>0, x, .
L(x,  )
H4  x, .

Si adicionalmente o es el valor particular de  , existe una sucesión de soluciones de la
ecuación de verosimilitud que converge ( n o , cs, si n+.).
Demostración
Sea (x1,...,xn,...) una sucesión y n el conjunto de ellas y
n(x1,...,xn,...)=- n(x)
n (x,)=Log[L(x, )/L(x,o)]=ni=1 Log[L(xi, )/f(xi,o)]
Por H3 tenemos que
12
 n LogL( x,  )
0 0
 
Veamos que si existe N(o)n de medida nula P*= P o ( N ( o ))  0 tal que x N(o) y
>0, existe una solución n(x) [0 -, 0 +] de la ecuación de verosimilitud cuando
n+.
Tomando ={w, w=0 1/m, m1} se tiene que [0 –1,o+1].. Denotemos para
todo w L=Log f(u, w)/f(u,0 ), u.
Como Log es cóncava de la desigualdad de Jensen obtenemos usando H2 y H3 que

E 0 L  0 .
Note que
ni=1 Log f(xi, w)/f(xi,0 )/n=n(x, w)/n
es una media por lo que converge a E [Log f(u, w)/f(u,0 )] que es negativa excepto en un
conjunto de medida P*-nula.
Note que  es un conjunto numerable y que N(0)=  w Nw es de probabilidad P*-nula.
Sea una sucesión que no pertenezca a N(0). Para cualquier >0 podemos hallar w’ y w’’
de  para los cuales 0 -<w’< 0 <w’’< 0 +
De ahí que n* tal que n>n*

n(x,w’)<0
n(x,w’’)<0
Por lo que n(x, 0 )=0. De ahí que n(x,w) obtiene su máximo en el compacto [w’, w’’] en
un punto 0. Entonces tenemos que n es diferente de w’ y de w’’ pues n(x, 0 )=0 y MV.
 n ( x,  n )
Es la solución de 0

Notas.
1. MV es un máximo local de la verosimilitud
2. Toda raíz de la ecuación de verosimilitud converge.
Veamos que existen EMV que no son consistentes
Ejemplo. Si X1,…,Xn. X i=1,0, es una muestra de la distribución de Bernoulli

𝜃 𝑠𝑖 𝜃 𝑒𝑠 𝑟𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝑃𝜃 (𝑋 = 1) = { ,0 < 𝜃 < 1
1 − 𝜃 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
La familia de funciones de densidad es
𝜃 𝑋 (1 − 𝜃)1−𝑋 𝑠𝑖 𝜃 𝑒𝑠 𝑟𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝑓 (𝑋; 𝜃) = { 1−𝑋 ,0 < 𝜃 < 1
𝜃 (1 − 𝜃) 𝑋 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
13
∑𝑛
𝑖=1 𝑋𝑖
El EMV es 𝜃̂𝑛 = pero
𝑛
𝜃 𝑠𝑖 𝜃 𝑒𝑠 𝑟𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝜃̂𝑛 𝜃  𝑐𝑠 { ,0 < 𝜃 < 1
1 − 𝜃 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Por lo que es inconsistente.
Teorema.(Normalidad Asintótica): Si a las hipótesis del teorema anterior le adicionamos

H5. x, , existe la segunda derivada de f(x,)=f, (f’’(x,)=f’’).
H6 x, , 2 Log[f(x,)]/ 2.
H7 . , 0<I()<+.
H8 , podemos derivar dos veces bajo el signo integral.
Se tiene que E(f’/f)=E(f’’/f)=0 y toda raíz de la ecuación de verosimilitud tal que n0 es
 
asintóticamente normal  n n    
ley 1 
N (0,
 I ( 0 ) 

Demostración
Sea
Sn()/n=n (x,)=ni=1 fLog[f(xi, )//n
Para todo ,
n (x,)= n (x,0)+(-o) [n (x,’)/
con ’]Min (, o), Max (, o)[
Para n = tenemos que

n (x,n)= 0=n (x,0)+(n-o) [n (x,’’)/
con ’’]Min (n, o), Max (n, o)[ obteniéndose que si
  LogL( x, 0  
E 0   =A=-I(0)
  2 
 
Bn= [n (x,0)/ -A
Cn= n (x,’’)/ -n (x,0)/
Como se cumplen las hipótesis que soportan la existencia de la información de Fisher

tenemos que
Bn=[ni=1 2 Log[f(xi, 0)/ 2 ]/n+I(0)= =ni=1 Zi/n
Entonces La Ley Fuerte de los Grandes números soporta la convergencia BnE(Zi).
Por otra parte H8 permite establecer que para todo i
E(Zi)= I(0)- I(0)=0

Y
Cn=[ni=1 2 Log[f(xi, ’’)/ 2 ]- 2 [Log[f(xi, 0)/ 2 ]/n
14
Podemos comprobar que
|Cn|<Supx 2 Log[f(xi, ’’)/ 2 ]-[2 Log[f(xi, 0)/ 2]
y usando H6 se evidencia que ’’0, cs y de ahí que Cn 0 cs para 0 por lo que
A+Bn+Cn- I(0)
Entonces podemos escribir
(n-o)n1/2 =[n (x,0)n1/2 ]/[I(0)-Bn-Cn]
Como se vio en anteriormente n (x,0)n1/2 tiende en Ley a la normal N(0, I(0)) por lo que
I(0)-Bn-Cn- I(0) cs y en probabilidad
En virtud de que si XnX en Ley y Yna en probabilidad entonces

XnYn-1Ley X/a
(MV-0)n1/2 Ley N(0, 1/I(o)
Notas.
i) En la practica si n entonces MV se distribuye asintóticamente N(0, 1/nI(o)).

ii) La convergencia en Ley no soporta necesariamente que E(MV)o y que V(MV) ,
1/nI(o) pues tal esperanza puede no existir.
Ejemplo. Sea X una v.a. N(,1) con =-1 y la muestra iid (X1 ,..,Xn ). Un EMV es
1
 MV  n
X
i 1
i
n
y
n
X i
i 1
N(,1/n)
n
Ahora
2
 n 
exp  u   
E  MV  
n   2  du
2
  u
Esta integral no existe sin embargo
15
 n 

 X
i 1
i


n  0 
 n 
 
 
Se distribuye N(0,1). Tomando f(u)=1/u como se sabe:
“Si f:N+ y limn f(n)=+, se tiene una constante real Q y para la sucesión (Xn), n>1,
f (n)X n  Q  ley
N (0,  2 ) , siendo la función g : derivable , entonces
f (n)g ( X n )  g (Q) 
ley
N (0, g ' 2 (Q) 2 ) ’’
Usando este resultado
  n  
 
   Xi 



n f  i 1
  f ( 0 )  
ley
N 0, f '  0  
  n  
   
 
   
De ahí que en este problema (n-0)n1/2 leyN(0, 0) pues I(0)= 02
La familia exponencial
Es un método de uso común buscar un EMV y tratar de hallar un estimador insesgado que
sea función de este. Se supone que haciendo esto se obtiene un estimador insesgado de
mínima varianza, considerando, erróneamente, que este es función de un estadístico
suficiente y minimal. Esto no es cierto excepto en ciertas familias de distribuciones. Una
de ellas es la exponencial. Cuando se trabaja con una densidad de la familia exponencial se
garantiza que el EMV sea función del estadístico suficiente minimal garantizándose su
unicidad. Consideremos esta familia .
{∑𝑘 𝜃𝑗 𝑇𝑗 (𝑥)+𝑤(𝜃)}
Proposición . Sea la familia 𝑓(𝑥; 𝜃) = ℎ(𝑥)𝑒 𝑗=1 , 𝑎 < 𝑥 < 𝑏, 𝜃𝑘 y
que se cumplen las hipótesis
H1. Son continuas las derivadas parciales de w()

𝜕2
H2. − ‖𝜕𝜃 𝜕𝜃 𝑤(𝜃), 𝑖, 𝑗 = 1, … , 𝑘‖ es definida positiva para todo .
𝑖 𝑗
H3. E(Ti(X))<+, i=1,…,k, .
Entonces el EMV de  es la solución del sistema de ecuaciones
∑𝑛𝑖=1 𝑇( 𝑋𝑖 ) 𝜕𝑤()
– = , 𝑖 = 1, … , 𝑘
𝑛 𝜕𝜃𝑖
16
Además la solución ̂ es única y es un estadístico suficiente minimal. Si ∇𝑤(𝜃) es vector
𝜕𝑤()
gradiente de ‖ 𝜕𝜃 , 𝑖 = 1, … , 𝑘‖ entonces 𝐸(∇𝑤(𝜃)) = ∇𝑤(𝜃), 
𝑖
Demostración
En este caso
𝑛 𝑘 𝑛
𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , ) = ∑ log h(𝑋𝑖 ) + ∑ 𝜃𝑗 ∑ Tj (𝑋𝑖 ) + 𝑛∇(𝜃)

𝑖=1 𝑗=1 𝑖=1
Hallando sus derivadas obtenemos que el EMV sea una de las raíces del sistema de
∑𝑛
𝑖=1 𝑇(𝑋𝑖 ) 𝜕𝑤() 𝜕2 𝑙𝑜𝑔𝐿(𝑋1 ,…,𝑋𝑛 ,)
ecuaciones – = , 𝑖 = 1, … , 𝑘. Por otra parte por H2, como ,
𝑛 𝜕𝜃𝑖 𝜕𝜃𝑖 𝜕𝜃𝑗
la raíz del sistema es única y es un punto de máximo. Además dado que
𝑛 𝑛
(∑ T1 (𝑋𝑖 ) , … , ∑ Tk (𝑋𝑖 ))
𝑖=1 𝑖=1
Es un estadístico suficiente minimal la unicidad del estimador implica que 𝜃̂ = (𝜃̂1 , . . , 𝜃̂𝑘 )
es suficiente y por tanto minimal.
H3 garantiza que 𝐸(∇𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )) = 0, . De ahí que se cumpla lo
∑𝑛
𝑖=1 𝑇(𝑋𝑖 ) 𝜕𝑤()
establecido en la proposición que 𝐸 ( ) = −𝐸 ( ) , 𝑖 = 1, … , 𝑘 . 
𝑛 𝜕𝜃𝑖
Note que el EMV puede existir incluso cuando H1 no es válida. En el caso analizado de
una distribución de la familia exponencial con  el radio () de curvatura de
𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , ) en  satisface la relación
𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
−
()−1 = 𝜕𝜃 2
3
2 2
𝜕 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
[1 + ( ) ]
𝜕𝜃
𝜕 𝑙𝑜𝑔𝐿(𝑋1 ,…,𝑋𝑛 ,)
Como = 0 el radio de curvatura del EMV está determinado por
𝜕𝜃
−1 𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
(𝜃̂) = −
𝜕𝜃 2
Considerando las condiciones de la proposición anterior la información de Fisher fija que
−1
−1 𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
(𝜃) = 𝐼(𝜃) = − [
̂ ̂ ]
𝜕𝜃 2
Otro razonamiento sostenido por este resultado es que dado la invarianza de los EMV si
j() =j(1,…,k) es la inversa de j(1,…,k) y tenemos el EMV
𝜃̂𝑗 = 𝜃𝑗 (𝜑̂1 , … , 𝜑̂𝑘 ), 𝑗 = 1, … , 𝑘
Reparametrizando tenemos que
{∑𝑘 (𝑥)+𝛾(𝜑)}
𝑓(𝑥; 𝜃) = ℎ(𝑥)𝑒 𝑗=1 𝜑𝑗𝑇𝑗 ,
𝜑 = (𝜑1 , … , φk ), 𝛾(𝜑) = 𝑤(𝜃1 (𝜑̂1 , … , 𝜑̂𝑘 ), … , 𝜃𝑘 (𝜑̂1 , … , 𝜑̂𝑘 ))
17
La proposición anterior fija que necesariamente  posee derivada continuas respecto a cada
j, j=1,…,k. La matriz de derivada generada por las transformaciones es
𝜕𝑗 (𝜑)
𝐻=‖ , 𝑗 = 1, … , 𝑘‖
𝜕𝜑𝑗
Consideremos que esta es no singular, esto es 1 ,…k son linealmente independientes. El
gradiente es ahora
() =HTw(1(1,…,k),…, (k (1,…,k))= HT w().
El EMV * es la solución del sistema
M=- HT w().

∑𝑛
𝑖=1 𝑇𝑗 (𝑋𝑖 )
donde M= ‖𝑀𝑗 = , 𝑗 = 1, … , 𝑘‖ , 𝛻𝜃 w(θ(φ)) es el vector gradiente evaluado en
𝑛
(). Las correspondientes matrices de información de Fisher son determinadas como
I()=HTI()H y I()=(H-1)T- I()H-1.
Estos razonamientos son útiles en muchas ocasiones en la derivación de estimadores y

errores.
Ejemplo. Sea la muestra normal bivariada independiente {(Xi, Yi), i=1,…,n} con E(Z)=0,
Z=X, Y. y matriz de correlación
1 𝜌
𝑉=[ ],
𝜌 1
La densidad de la normal bivariada la podemos escribir en términos de la familia
exponencial como
1
𝑓(𝑥, 𝑦) = 𝑒𝑥𝑝{𝜑1 𝑇1 (𝑥, 𝑦) + 𝜑2 𝑇2 (𝑥, 𝑦) + 𝛾(𝜑1 , 𝜑2 )},
2𝜋
1 𝜌 ln(4𝜑12 −𝜑22 )
𝑇1 (𝑥, 𝑦) = 𝑥 2 + 𝑦 2 , 𝑇2 = 𝑥𝑦, 𝜑1 = − 2𝜎2 (1−𝜌2 ) , 𝜑2 = 𝜎2 (1−𝜌2 ) , 𝛾(𝜑1 , 𝜑2 ) = 2
Derivando obtenemos
𝜕 4𝜑1 𝜕 𝜑2
𝛾(𝜑1 , 𝜑2 ) = 2 2, 𝛾(𝜑1 , 𝜑2 ) = − 2
𝜕𝜑1 4𝜑1 − 𝜑2 𝜕𝜑2 4𝜑1 − 𝜑22
El sistema de ecuaciones a resolver es

∑𝑛𝑖=1 𝑋𝑖2 + 𝑌𝑖2 4𝜑̂1
=
𝑛 4𝜑̂12 − 𝜑̂22
∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 𝜑̂2
=
𝑛 4𝜑̂1 − 𝜑̂22
2
2𝜑 𝜑2
Dado que 𝜎 2 = − 4𝜑2 −𝜑
1
2,𝜌 = − aplicando el hecho de los EMV son invariantes
1 2 2𝜑1
∑𝑛 2
2 𝑖=1 𝑋𝑖 + 𝑌𝑖2 4𝜑̂1
𝜎̂ =
2𝑛 4𝜑̂12 − 𝜑̂22
18
∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
𝜌̂ = 2 𝑛
∑𝑖=1 𝑋𝑖2 + 𝑌𝑖2
La matriz de información de Fisher en términos de 1 y 2 es obtenida al calcular
𝜕2 4(4𝜑12 + 𝜑22 ) 𝜕 2 4𝜑12 + 𝜑22

𝛾(𝜑1 , 𝜑 2 ) = − , 𝛾(𝜑 1 , 𝜑 2 ) = − ,
𝜕𝜑12 (4𝜑12 − 𝜑22 )2 𝜕𝜑22 (4𝜑12 − 𝜑22 )2
𝜕2 8(𝜑1 𝜑2 )
𝛾(𝜑1 , 𝜑2 ) =
𝜕𝜑1 𝜕𝜑2 (4𝜑12 − 𝜑22 )2
Esta es
8(𝜑1 𝜑2 )
4(4𝜑12 + 𝜑22 ) −
1 (4𝜑12 − 𝜑22 )2
𝐼(𝜑) =
(4𝜑12 − 𝜑22 )2 8(𝜑1 𝜑2 )
− 4𝜑12 + 𝜑22
[ (4𝜑12 − 𝜑22 )2 ]
Para obtenerla en términos de los parámetros de la densidad consideremos que las

marginales son N(0,2) y las condicionales N(Z,2(1-2)), Z= X,Y. Entonces
𝐸(𝑋 2 𝑌 ) = 𝐸(𝑋 𝑌 2 ) = 3𝜌𝜎 4 ; 𝐸(𝑋 2 𝑌 2 ) = 𝜎 4 (1 + 2𝜌2 ), 𝐸(𝑍 4 ) = 3𝜎 4 , 𝑍 = 𝑋, 𝑌;

𝐸(𝑇1 (𝑋 , 𝑌 ) − 2𝜌𝑇2 (𝑋 𝑌 ))2 = 8𝜎 4 (1 − 𝜌2 );
𝐸(𝑇1 (𝑋 , 𝑌 ) − 2𝜌𝑇2 (𝑋 𝑌 )) = 2𝜎 2 (1 − 𝜌2 );
Por tanto , dado que =(2, )

2
𝜕 (𝑙𝑛𝐿(𝑋1 , … , 𝑋𝑛 , )) 1
𝐸 [( ) ]= 4
𝜕 2 𝜎
2
𝜕 𝑙𝑛𝐿(𝑋1 , … , 𝑋𝑛 , )
𝐸 [( ) ]
𝜕𝜌
1 + 𝜌2 𝜕 𝑙𝑛𝐿(𝑋1 , … , 𝑋𝑛 , ) 𝜕 𝑙𝑛𝐿(𝑋1 , … , 𝑋𝑛 , )
= 𝐸 [( × ) ]
(1 − 𝜌2 )2 𝜕𝜎 2 𝜕𝜌
𝜌
=−
(1 − 𝜌2 )𝜎 2
De ahí que la matriz de información de Fisher en términos de los parámetros de la
distribución es
1 𝜌
− (1−𝜌2 )𝜎2
𝜎4
𝐼(𝜎 2 , 𝜌) = [ ]
𝜌 1+𝜌2
− (1−𝜌2 )𝜎2 (1−𝜌2 )2
19
EL MÉTODO DE LOS MOMENTOS
Suponga que hacemos un experimento aleatorio en el que podemos observar la VA X. con

una distribución con parámetros desconocidos k . El experimento es repetido
independientemente y se observa.
(X1, X2, ..., Xn).
El método de los momentos consiste en construir estimadores de los parámetros igualando

los momentos poblacionales
µi() = E(X i | )
a los muestrales
Mi(X) = nj=1 Xji / n
Definición :Un estimador de momentos del parámetro g()=g(1 ,.,k ) es el estadístico
( µ1(W1, W2, ..., Wk), …, µk(W1, W2, ..., Wk))= *M
que utiliza los estimadores W1, W2, ..., Wk de los momentos desconocidos al resolver el
sistema de ecuaciones
µ1(W1, W2, ..., Wk) = M1(X1, X2, ..., Xn)

µ2(W1, W2, ..., Wk) = M2(X1, X2, ..., Xn)
···
µk(W1, W2, ..., Wk) = Mk(X1, X2, ..., Xn) 
Tenemos k ecuaciones con k incógnitas por lo que el sistema puede ser resuelto.
Como se sabe Mi(X) tiene una distribución que converge a una normal. Por tanto un
estimador de momentos es asintóticamente normal.
Las propiedades más notables de ellos son:
Propiedad 1. (Consistencia) *M  casi seguramente si n
Propiedad 2. (Normalidad Asintótica) (*M -)n1/2 N(0, ) en ley si n+, donde la

matriz  depende de los momentos utilizados para construir el estimador de momentos. 
Por ejemplo, si tenemos la muestra (X1, X2, ..., Xn) de la misma distribución con media y
varianza desconocidas
𝑛
𝑋𝑖
𝑀1 = ∑ ,
𝑛
𝑖=1
20
𝑛
(𝑋𝑖 − 𝑀1 )2
𝑆𝑛2 =∑ = 𝑀2 − 𝑀12
𝑛
𝑖=1
Son los estimadores de momentos de la media y la varianza respectivamente.
Ejemplo Si X(P,) como E(X)=P/ y V(X)=P/2 tenemos que son estimadores de ellos:
Sn2 =M2-M12 por lo que P/Sn2 estima a 2 y Sn22 a P; =Mn estima a P.
Sustituyendo obtenemos como estimadores de momento a p*=Mn2 /Sn2 y *= Mn /Sn2.
Los estimadores de momento pueden ser una opción mejor que la de utilizar Estimador
Máximo Verosímil.
Ejemplo. Si XU (0,) su esperanza es 𝐸(𝑋) = /2 . Al tomar una muestra de tamaño n
𝜃2
𝐸(𝑋̅) = 𝜃/2. Entonces 𝜃̂𝑛 = 2𝑋̅ cuya varianza es 𝑉(𝜃̂𝑛 ) = 4𝑉(𝑋̅) = . Entonces la 3𝑛
𝜃2
̂𝑀𝑉 )
𝑉(𝜃 𝑛(𝑛+2) 3
eficiencia relativa es ̂𝑛 )
= 𝜃2
= 𝑛+2 ≤ 1. Por tanto el estimador de momentos es
𝑉(𝜃
3𝑛
más eficiente que el Estimador Máximo Verosímil.
A partir del Teorema Central del Límite

𝜃
√𝑛(𝑋̅ −2 )
𝜃 𝑠𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑦𝑒 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 𝑁(0,1).
2√3
De ahí que
√3𝑛(𝜃̂𝑛 − 𝜃)
~𝑁(0,1) 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒
𝜃
La velocidad de convergencia es rápida pues se usa directamente el TCL. 
MÉTODO DE MÍNIMA DISTANCIA CHI CUADRADA.
Sea X una VA con una ley de probabilidad P,  y una muestra iid. La VA es
discretizada haciendo una partición C1,…,Ck de su espacio de definición. Sea ni el número
de observaciones clasificadas en la clase Ci. El vector (n1,…,nk)T es una variable con
distribución multinomial
𝑘 𝑘 𝑘
𝑛! 𝑛
𝑀(𝑛, 𝑝1 , … , 𝑝𝑘 ) = ∏ 𝑝𝑖 𝑖 , ∑ 𝑛𝑖 = 𝑛, ∑ 𝑝𝑖 = 1.
∏𝑘𝑖=1 𝑛𝑖 !
𝑖=1 𝑖=1 𝑖=1
Algunas medidas Chi cuadradas son
𝑘
(𝑛𝑖 − 𝑛𝑝𝑖 )2 2
𝐷𝑃 (𝜃) = ∑ ,  𝑑𝑒 𝑃𝑒𝑎𝑟𝑠𝑜𝑛
𝑛𝑝𝑖
𝑖=1
𝑘
(𝑛𝑖 − 𝑛𝑝𝑖 )2 2
𝐷𝑁 (𝜃) = ∑ ,  𝑑𝑒 𝑁𝑒𝑦𝑚𝑎𝑛
𝑛𝑝𝑖
𝑖=1
21
𝑘
𝑛𝑖 2
𝐷𝑉 (𝜃) = 2 ∑ 𝑛𝑖 log ,  𝑑𝑒 𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑
𝑛𝑝𝑖
𝑖=1
𝑘
𝑛𝑝𝑖 2
𝐷𝐾 (𝜃) = 2𝑛 ∑ 𝑛𝑖 log ,  𝑑𝑒 𝐾𝑢𝑙𝑙𝑏𝑎𝑐𝑘
𝑛𝑖
𝑖=1
𝑘
𝑓𝑖 𝑝𝑖 2 𝑛𝑖
𝐷𝐿𝐵 (𝜃) = ∑ 𝑛𝑓𝑖 (1 − 𝑓𝑖 ) ( log − 𝑙𝑜𝑔 ) , 𝑓𝑖 = ,
1 − 𝑓𝑖 1 − 𝑝𝑖 𝑛
𝑖=1
2 𝑑𝑒 𝐿𝑜𝑔𝑖𝑡 𝑑𝑒 𝐵𝑒𝑟𝑘𝑠𝑜𝑛
Definición. Un estimador  se dice que Chi-cuadrado mínimo si DA()DA() para todo

. O sea es la solución del problema de optimización =argmin DA().
Para el caso del DP().

𝑘 𝑘 𝑘
(𝑛𝑖 − 𝑛𝑝𝑖 )2 𝑛𝑓𝑖2 𝑘 𝑘 𝑓𝑖2
𝐷𝑃 (𝜃) = ∑ =∑ + 𝑛 ∑ 𝑝𝑖 − ∑ 𝑛𝑖 = 𝑛 (∑ − 1)
𝑛𝑝𝑖 𝑝𝑖 𝑖=1 𝑖=1 𝑝𝑖
𝑖=1 𝑖=1 𝑖=1
Entonces tenemos que
𝑘 𝑘
𝑓𝑖2 𝑓2
∑  ∑ 𝑖 , 
𝑝𝑖 ( ) 𝑝𝑖 ( )
𝑖=1 𝑖=1
El estimador es la solución del sistema
𝑘
𝜕 𝑓𝑖2 𝜕𝑝𝑖 ()
𝐷 (𝜃) = 0,  ∑ 2 = 0, 𝑖 = 1, … , 𝑘
𝜕𝜃𝑖 𝑃 𝑝 𝑖 ( ) 𝜕𝜃𝑖
𝑖=1
Como
𝜕2
( ) 𝐷 (𝜃) 𝑒𝑠 𝑑𝑒𝑓𝑖𝑛𝑖𝑑𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎 𝑒𝑛 𝜃𝑃
𝜕𝜃𝑗 𝜃𝑖 𝑃
Este tiene una serie de propiedades similares a los de los EMV. Esto es obtenido al analizar
la relación entre los problemas de minimización de las medidas Chi-cuadradas y la
𝑛! 𝑘 𝑘
maximización de log log ∏𝑘 ∏𝑘𝑖=1 𝑝𝑖𝑛𝑖 = log 𝑛! + ∑𝑖=1 log 𝑛𝑖 + ∑𝑖=1 𝑛𝑖 log 𝑝𝑖
𝑖=1 𝑛𝑖 !
Entonces tenemos
Propiedad 3. P0, el verdadero valor del parámetro.
Propiedad 4.  es asintóticamente normal (√𝑛(𝜃 − 𝜃0 ) →𝐿𝑒𝑦 𝑁(0, 𝐼 −1 (𝜃0 ))
Ejemplo. Sea X una variable con distribución de Poisson. Debemos minimizar
𝑓𝑥2
D()=∑𝑛𝑥=0 𝑝
𝑥 ()
22
𝑛 𝑛
𝐷() = ∑ 𝑥! 𝑓𝑥2 𝑒 −𝑥𝑙𝑜𝑔 = ∑ 𝛾𝑥 ()

𝑥=0 𝑥=0
𝑛
𝜕 𝑥
𝐷() = ∑ (1 − ) 𝛾𝑥 () = ℎ𝑥 ()
𝜕 
𝑥=0
Entonces el estimador Chi-cuadrado es la raíz de hx()=0.
Este es un problema numérico que podemos resolver usando un método como el de Newton
usando como punto inicial 𝑋̅.
La ecuación de la tangente a la curva y=hx() es
𝑦 − ℎ𝑥 (𝑋̅) 𝜕
= ( ℎ𝑥 ())
 − 𝑋̅ 𝜕 =𝑋̅
Su intersección con el eje horizontal y=0 es en
ℎ𝑥 (𝑋̅)
+ 𝑋̅ = 
𝜕
( ℎ𝑥 ())
𝜕 =𝑋̅
Como
𝑛
𝜕 𝑥 2 𝑥
ℎ𝑥 () = ∑ ((1 − ) + 2 ) 𝛾𝑥 ()
𝜕  
𝑥=0
tenemos que la primera aproximación

𝑥
∑𝑛𝑥=0 (1 − ̅ ) 𝑥! 𝑓𝑥2 𝑒 𝑋̅−𝑥𝑙𝑜𝑔𝑋̅
𝑃 = 𝑋̅ − 𝑋
𝑥 2 𝑥
∑𝑛𝑥=0 [(1 − ̅ ) + ] 𝑥! 𝑓𝑥2 𝑒 𝑋̅−𝑥𝑙𝑜𝑔𝑋̅
𝑋 𝑋̅ 2
La que puede usarse como estimación de .
MÉTODOS PARA DERIVAR ESTIMADORES DE UN PARÁMETRO DE POSICIÓN
Estimación de E(X)
El problema es estimar =E(X) es el más frecuentemente usado en la estadística. Diversos

métodos llevan a derivar el mismo estimador como adecuado.
∑𝑛𝑖=1 𝑋𝑖
𝑋̅ =
𝑛
A partir de su definición misma se tiene que es
23
Propiedades
i) Es un estimador insesgado de 
ii) 𝑋̅ →𝑐𝑠 𝜃
𝑉(𝑋)
iii) Si las variables son iid 𝑉(𝑋̅) = 𝑛 →𝑛→∞ 0
O sea que es determinado fácilmente que es un estimador insesgado, convergente y

eficiente (consistente en el sentido de Fisher).
Si la muestra no es independiente
∑𝑛𝑖=1 𝑉(𝑋𝑖 ) ∑𝑛𝑖=1 ∑𝑛−1

𝑖≠𝑗 𝐶𝑜𝑣(𝑋𝑖 , 𝑋𝑗 ) 𝑛𝜎 2 + 𝑛(𝑛 − 1)𝜌𝜎 2 𝐶𝑜𝑣(𝑋𝑖 , 𝑋𝑗 )
̅̅̅ =
𝑉(𝑋) + = ,𝜌 =
𝑛 2 𝑛 2 𝑛 2 𝜎2
Note que la propiedad iii se sigue manteniendo válida.
̅̅̅ ofrece la base principal para la Inferencia Estadística con
El Error Estándar de la Media √𝑉(𝑋)
relación a la media de una población que se desconoce.
Estimador Equivariante
Sea  un parámetro de posición y la densidad f(x,) de la medida de probabilidad P

tal que esta puede escribirse como f(x-) y sea {X1,…,Xn} una muestra iid de esta
densidad.
Definición.. Se dice que = {T:∀𝜏, 𝑇(𝑋1 − 𝜏, … . , 𝑋𝑛 − 𝜏) = 𝑇(𝑋1 , … . , 𝑋𝑛 ) − } es la

clase de un estimadores Equivariantes de  .
Podemos representar un estimador Equivariante usando la expresión alternativa
𝑇(𝑋1 − 𝑋𝑖 , … . , 0, 𝑋𝑖+1 − 𝑋𝑖 , … , 𝑋𝑛 − 𝑋𝑖 ) + 𝑋𝑖 = 𝑇(𝑋1 , … . , 𝑋𝑛 ) = 𝑋𝑖 + 𝑖 (𝑌)
Si {a1,…,an} es una sucesión de constantes reales tales que a1+…+an =1

𝑛 𝑛
𝑇(𝑋1 , … . , 𝑋𝑛 ) = ∑ 𝑎𝑖 𝑋𝑖 + ∑ 𝑖 (𝑌) = 𝑈𝑎 (𝑋1 , … . , 𝑋𝑛 ) + (𝑌)

𝑖=1 𝑖=1
Si consideramos la pérdida cuadrática tenemos el siguiente resultado en la clase.
Proposición. Para todo T el riesgo R (T,) no depende de.
Demostración
Tomemos =- entonces
R(T,)=(T(x1,..,xn)-)2 f(x1-,…, xn-))dx1… dxn
24
Lo podemos escribir como
R(T)=T2(x1-,..,xn-) f(x1-,…, xn-))dx1… dxn=T2(u1,..,un) f(u1,…,un))du1… dun=R(T,0)
Estimador de Pitman
Estos estimadores son muy útiles en el desarrollo de estimadores de parámetros de posición

usando estadísticos lineales. Estos se relacionan con los estimadores equivariante.
Definición . Se dice que TP es un estimador de Pitman del parámetro de posición  si

R(TP,) R(T,), para todo T. (TP=arg minT R(T,0))
Consideremos 𝑇(𝑋1 , … . , 𝑋𝑛 ) = ∑𝑛𝑖=1 𝑎𝑖 𝑋𝑖 + ∑𝑛𝑖=1 𝑖 (𝑌) = 𝑈𝑎 (𝑋1 , … . , 𝑋𝑛 ) + (𝑌) .

𝑈𝑎 (𝑋1 , … . , 𝑋𝑛 ), ∑𝑛𝑖=1 𝑎𝑖 = 1 es un estadístico lineal. Veamos como obtener un estimador
de Pitman
Proposición . TP es el estimador de Pitman de  si tiene la forma 𝑇𝑃 = 𝑈𝑎 − 𝐸=0 (𝑈𝑎 𝑌) y

E0(TPY)=.
Demostración
Tomemos 𝑇(𝑋1 , … . , 𝑋𝑛 ) = 𝑈𝑎 (𝑋1 , … . , 𝑋𝑛 )𝐸0 (𝑈𝑎 𝑌) + (𝑌) se sigue que T, T=TP
+(Y). Para que sea un estimador de Pitman debe cumplirse que R(TP,) R(T,), T.
Como
R(T,0)=E0(T2)=E0(TTP)2= E0(T-TP)2+ E0(TP)2+ 2E0(TP(T-TP))
El último término es
E0(TP(T-TP))= E0(TP(Y))=EY E0Y(TP(Y))= EY((Y) E0Y(TP)=0
Por tanto, como
E0(T2)=E0(T-TP)2+ E0(TP)2
Se tiene que R(TP,0) R(T,0),  T. 
̅ 𝑋1 𝑜 𝑋(1)
Nota . En la práctica lo usual es que se utilice 𝑈𝑎 = 𝑋,
Si X es continua y su densidad es del tipo f(x-) tenemos la densidad conjunta

𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥) = 𝑓𝑋1 ,𝑌 (𝑥, 𝑦)
La marginal
𝑓𝑦 (𝑦2 , … , 𝑦𝑛 ) = ∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)𝑑𝑥
25
Y la condicional
𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)
𝑓𝑋1 𝑌 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥) =
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)𝑑𝑥
Entonces
∫ 𝑥 𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)𝑑𝑥
𝐸0 (𝑋1 𝑌) =
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)𝑑𝑥
Tomando x=x1-u
∫ (𝑥1 − 𝑢) 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
𝐸0 (𝑋1 𝑌) = =
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
∫ 𝑢 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
= 𝑥1 −
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
Esto justifica el siguiente resultado
Proposición . Si X es continua y la densidad es f(x-) entonces

∫ 𝑢𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 −𝑢,…,𝑥𝑛 −𝑢)𝑑𝑢
𝑇𝑃 = 
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 −𝑢,…,𝑥𝑛 −𝑢)𝑑𝑢
Ejemplo. Sea X una variable con distribución N(,1) y {X1,..,Xn} una muestra iid y la
transformación A:nn tal que
𝑋̅
𝑋1
𝑋 − 𝑋1 𝑈
( ⋮ )→( 2 )=( )
⋮ 𝑌
𝑋𝑛
𝑋𝑛 − 𝑋1
La distribución conjunta de (X1,..,Xn)T es
1 00 ⋯ 0
 010 ⋯ 0
𝑁 (⋮) , ⋮⋮⋮⋮∙ ⋯ ⋮
𝜃 𝑛×1 00 ⋯ 1
( ( )𝑛×𝑛 )
La matriz de la aplicación lineal es
1 1 1
⋯
𝑛 𝑛 𝑛
−1 1 ⋯ 0
𝐴=
⋮ ⋱ 0
⋮ ⋱0
( 1 01 )
Entonces podemos decir que
26
1
0⋯0
𝜃 𝑛
0 2 1⋯
𝑈 0
( ) ~𝑁 ( ) , 𝐴𝐴𝑇 , 𝐴𝐴𝑇 = ⋮ 1 ⋱ 0
𝑌 ⋮
⋮ 0 ⋱ 0
0
( ) ⋮ 1
( 0 ⋯ 0 12 )
De ahí que 𝑋̅ es independiente de Y por lo que 𝐸𝜃 (𝑋̅𝑌) = 𝐸𝜃 (𝑋̅) = , 𝑦 𝐸0 (𝑋̅𝑌) = 0.
Entonces el estimador de Pitman de  es 𝑇𝑃 = 𝑋̅ que es un estimador eficiente.
MÉTODOS PARA DERIVAR ESTIMADORES DE UN PARÁMETRO DE ESCALA
Estimación de V(X)=
A partir de la definición de la varianza se tiene una motivación intuitiva utilizar la varianza

muestral
2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 ∑𝑛𝑖=1 𝑋 2 𝑖 − 𝑛𝑋̅ 2
𝑆 𝑛 = =
𝑛 𝑛
Este es un estimador desarrollado al aplicar el método de los momentos. Al aplicar el

método de máxima verosimilitud aparece en algunas distribuciones. Sin embargo como
∑𝑛𝑖=1 𝐸(𝑋 2 𝑖 ) − 𝑛𝐸(𝑋̅ 2

) 𝜃 𝑛−1
2
𝐸(𝑆 𝑛
)= = 𝜃 + 𝐸(𝑋)2 − 𝐸(𝑋)2 − = 𝜃
𝑛 𝑛 𝑛
Este no es insesgado. Sin embargo podemos hacer una pequeña transformación para
obtener uno que si lo sea. Frecuentemente usamos
2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆 𝑛−1 =
𝑛−1
Note que en el caso en que no se mantiene la independencia de las variables
∑𝑛𝑖=1 𝐸(𝑋𝑖 )2 − 𝑛𝐸(𝑋̅)2 𝑛(𝐸(𝑋 )2 + 𝜃) − 𝑛(𝐸(𝑋̅)2 + 𝑉(𝑋̅))

𝐸(𝑆 2 𝑛−1 ) = =
𝑛−1 𝑛 −1
𝑛𝜇 2 + 𝑛𝜃 − (1 + (𝑛 − 1)𝜌𝜃 − 𝑛𝜇 2 )
= = (1 − 𝜌)𝜃
𝑛−1
Por tanto
𝜃̂ = 𝑆 2 𝑛−1 /(1 − 𝜌)
27
es insesgado.
En el que se corrige el sesgo que aparece en S2n.
En varias distribuciones aparece la posibilidad de utilizar otro estimador de la varianza y

será necesaria hacer las comparaciones requeridas para establecer que estimador es
preferible.
Ejemplo. Sea X una variable con distribución Poisson y tomemos una muestra iid de esta
distribución. En este caso tenemos dos estimadores intuitivos de .
𝜃̂𝑚 = 𝑋̅, 𝜃̂𝑣 = 𝑆𝑛2
Ahora
𝜃 𝑛𝜃(1 + 2𝜃)
𝑉(𝜃̂𝑚 ) = 𝑉(𝑋̅) = , 𝑉(𝜃̂𝑣 ) = 𝑉(𝑆𝑛2 ) =
𝑛 (𝑛 − 1)2
La eficiencia relativa es
𝑉(𝜃̂𝑚 ) (𝑛 + 1)2
= 2 <1
𝑉(𝑋̅) 𝑛 (1 + 2𝜃)
Por lo que es preferible estimar  usando la media que usando la varianza muestral.
Estimación de la desviación típica 
Si la distribución de X es una N(, ) y queremos estimar = tenemos que

2
(𝑛 − 1)𝑆𝑛−1
~2 (𝑛 − 1)
𝜎2
En particular
2
(𝑛 − 1)𝑆𝑛−1 𝑛−1
𝑌= 2
~( , 1)
2𝜎 2
Consideremos la ley de Sn-1. La densidad de Y es

𝑛−3
𝑒 −𝑦 𝑦 2
𝑓𝑌 (𝑦) = , 𝑦+
𝑛−1
( 2 )
2𝑌
Haciendo el cambio de variable 𝑆𝑛−1 = 𝜎√𝑛−1
𝑛−1
𝑛−1 2
𝑛−1 2 − 𝑠
2𝜎2 𝑠 𝑛−2
( 2 ) 𝑒
𝑓𝑆𝑛−1 (𝑠) = 2𝜎 , 𝑠+
𝑛−1
( 2 )
28
Se sabe que para la ley gamma
𝑛−1
( 2 + 𝑘)
𝑘)
∀𝑘 > 0, 𝐸(𝑌 =
𝑛−1
( 2 )
Considerando
𝑛−1
2𝑘
(𝑛 − 1)𝑘 𝑆𝑛−1  ( 2 + 𝑘)
𝐸( )=
2𝑘 𝜎 2𝑘 𝑛−1
( 2 )
Si k=1/2
𝑛
√𝑛 − 1 𝑆𝑛−1  (2 )
𝐸( )=
𝑛−1
√2 𝜎 ( 2 )
De ahí que
√2 𝜎 (𝑛)
𝐸(𝑆𝑛−1 ) = 2
𝑛−1
√𝑛 − 1 ( 2 )
Entonces es un estimador sesgado con sesgo
√2  (𝑛)
𝐵(𝑆𝑛−1 ) = ( 2 − 1) 𝜎
𝑛−1
√𝑛 − 1 ( 2 )
Estos resultados nos permiten establecer la proposición siguiente:
Proposición. Si X se distribuye N (,2) un estimador insesgado de  es

−1
√2  (𝑛)
𝑇 = 𝑆𝑛−1 ( 2 )
𝑛−1
√𝑛 − 1 ( 2 )
y
−2
√2  (𝑛)
𝑉(𝑇) = 𝜎 2 [( 2 ) − 1]
𝑛−1
√𝑛 − 1 ( 2 )
Demostración
Usando los resultados anteriores y como

𝑛
22 (2)
2
𝑉(𝑆𝑛−1 ) = 𝜎 (1 − )
𝑛−1
(𝑛 − 1) 2 ( 2 )
29
Se prueba la proposición.
Se sabe que
 S2n-1cs2 si n.
 2
√𝑛(𝑆𝑛−1 − 𝜎 2 ) →𝐿𝑒𝑦 𝑁(0, √𝜇4 − 𝜇 2 2 ) y en el caso normal 4=34 y 22=4
Entonces, como la aplicación √𝑢 es continua tenemos las siguientes propiedades
Propiedades
i) 𝑆𝑛−1 →𝑐𝑠 𝜎
2
ii) √𝑛(𝑆𝑛−1 − 𝜎 ) →𝐿𝑒𝑦 𝑁(0, 𝐼()), 𝐼() = 𝜎2
√2 (𝑛)
2
iii) 𝐵(𝑆𝑛−1 ) = ( 𝑛−1 − 1) 𝜎 →𝑛→∞ 0
√𝑛−1( 2 )
−1
√2 (𝑛)
2
iv) 𝑇 = 𝑆𝑛−1 ( 𝑛−1 ) →𝑛→∞ 𝜎
√𝑛−1( 2 )
Si aplicamos el método de MV se tiene 𝜎̂𝑀𝑉 = 𝑆𝑛 el que tiene por esperanza y varianza a

𝑛 𝑛
2  (2) 𝑛−1 22 (2)
𝐸(𝜎̂𝑀𝑉 ) = √ 𝜎, 𝑉(𝜎̂𝑀𝑉 ) = ( − ) 𝜎2
𝑛  (𝑛 − 1) 𝑛 2 𝑛−1
𝑛 ( 2 )
2
Este estimador es idéntico al obtenido por el método de los momentos
En el caso no normal vale aplicar el método de los momentos. Como se apuntó 𝜎̂𝑀𝑉 = 𝜎̂𝑛
en el caso normal. Usando este método tenemos que el estimador sigue siendo 𝜎̂𝑀 = 𝑆𝑛 .
𝑛
Puede utilizarse la transformación 𝜎̂𝑛−1 = √𝑛−1 𝜎̂𝑛 = 𝑆𝑛−1. En ambos casos se tienen las
propiedades siguientes
Propiedades
i) Convergen a 
ii) Son asintóticamente normales con varianza 2/2
Ejemplo. Si X se distribuye 2(K) entonces como 4=12K(K+4)

√𝑛(𝜎̂𝑛−1 − 𝜎) →𝐿𝑒𝑦 𝑁(0, √𝐾 + 6).
MÉTODO BAYESIANO
El Principio de la estimación Bayesiana
30
Consideremos que  y que la medida de probabilidad que describe la aleatoriedad de
X, P. Esta es generada como la ley marginal de () la que describe el comportamiento
de . El estudio del problema de la estimación de  es llevado a cabo a través de
considerar las densidades asociadas a estas medidas: f () y f (x|). Dado el marco que
utilizamos podemos escribir
f ( x, )  f ( x |  ) f ( )  f ( | x) f ( x)
f ( x)   f ( x |  ) f ( )d

Donde f (|x) es llamada ley posteriori de  al observar la realización x de X y f(x) es la ley

marginal de X.
Como deseamos hacer una decisión sobre el valor de  el problema de estimación puntual
Bayesiana no es sino el de buscar una regla Bayesiana, que como vimos consiste en, fijar
una función de pérdida L ( ˆ, ) dada la distribución a priori (). Es decir, debemos
minimizar al esperanza a posteriori, o sea resolver el problema de optimización
Minˆ  L(ˆ, ) f ( | x)d


Es simple determinar que
ArgMinˆ  L(ˆ, ) f ( | x)d    f ( | x)d

 
si L(ˆ, )  (ˆ   ) 2
De ahí que se tenga la validez del siguiente resultado
Proposición. Si  y la distribución a priori del parámetro es (), cuya densidad es f

(), el estimador de Bayes es la esperanza de  calculada usando a ley condicional a
posteriori de (|X=x), f (|x)
Ejemplo. Si X es una variable con distribución binomial, B(n,), y

 p  q  p 1
 ( )  f ( )   (1   ) q 1
 p q 
f x |   f  
f  | x  
f x 
Es decir si asumimos que la densidad a priori es una Beta con p y q conocidos
31
 p  q  p 1
1
f ( x)   f x |   f  d  C xn x (1   ) n x  (1   ) q 1 d 
 0
 p q 
 p  q   p  q  p  x n  q  x 
1
 C xn 
 p q  0
 x p 1 (1   ) nq  x1 d  C xn
 p q n  p  q 
Busquemos a la ley a posteriori, esta es
f ( x |  ) f ( )  p  q n  q  x 
f ( | x)    x  p 1 (1   ) n q  x 1
f ( x) n  p  q 
Xp
Entonces f ( | x)    p  x, n  p  x   ˆ 
n pq
Este es bien diferente del EMV e insesgado *=X/n.
Ante el desconocimiento de () debemos recurrir a la información suministrada por la

distribución empírica. Esto lleva a los métodos de estimación Bayesianos-empíricos.
Consideremos que la densidad a priori es f (,),  desconocido. Regresando a la expresión
básica
f  ( x, )   f ( x |  ) f ( ,  )d

y
f x |   f  ,  
f  | x   cs(M)
f  x 
El estimador de Bayes es, para la función de pérdida cuadrática,
ˆB  ArgMinˆ    f ( | x,  )d


Esta depende de las observaciones X y de. Este parámetro se estimará usando algún otro
método usando el modelo marginal y f(x) y se obtiene *(X). Entonces, usando la regla de
la substitución (plug-in-rule) el estimador Bayesiano empírico es
ˆBE  ArgMinˆ    f ( | x,  * ( X ))d


Ejemplo. Si X se distribuye Poisson P() y  es una variable con distribución exponencial
(1,), + la marginal de X es

x
f  ( x)   f x |   f  d  exp( ) exp( )d 
 0
x!

 x
 exp (1   ) 1    d ((1   ) )d
x
0 1   
x 1
x!
32
La a posteriori es calculada y se obtiene
f ( x |  ) f ( ,  ) 1 x
f ( | x,  )    (1   ) x1 exp (1   ) 
f  ( x) x!
De ahí que f(|x, ) es la densidad de una variable con distribución exponencial (x+1,
+1), +. Calculemos la regla de Bayes. Esta es
X 1
 (1   ) x1 exp (1   ) d 
1 x1
ˆB ( X ,  )  

x!  1
El EMV de  es =X-1 por lo que
X 1
ˆBE  ArgMinˆ    f ( | x,  * ( X ))d  X
1
 1
X
Este es un método muy usado en la práctica.
Otra forma de enfrentar este problema es a través del uso de la simulación.
Estructura de los estimadores Bayesianos
Podemos establecer, usando el principio de Bayes, que no solo es esencial poseer un

modelo estadístico {,A,P; } sino que también requerimos del espacio medible
{,V,()}. Las densidades respectivas las designamos por f(x;), respecto a la medida
sigma finita M, y f(, respecto a la medida sigma finita M*). En general k, k1.
Tomando D como el conjunto de las posible decisiones (estimadores )tal que todo dD,
d:, es una función A-medible sobre . Fijamos una función de pérdida L(,d) definida
sobre D como L(,d)=()Wd(x)-. La función de riesgo de la regla (estimador ) d es
R (, d)=()W d(x)-f(x;) M (dx).
Este riesgo es considerado una función sobre  para cada estimador d. El riesgo a priori de
d respecto a () es
R (, d)= (d) R (, d).
Como L (, d)=() Wd(x)-. Es acotada en  para cada también lo está R (, d) para
cada d. Dado que W ()0 podemos fijar que R (, d) puede expresarse como
𝑅(𝜋, 𝑑) = ∫ ()(𝑑) ∫ 𝑊(|𝑑(𝑥) − 𝜃|) 𝑓(𝑥; 𝜃)𝑀(𝑑𝑥)

 
= ∫ 𝑓𝜋 (𝑥)𝑀(𝑑𝑥) ∫ ()𝑊(|𝑑(𝑥) − 𝜃|)(𝑑𝑥)

 
33
Definició. El riesgo a posteriori de d dada la distribución a priori () dado que X=x es
𝑅(, 𝑑) = ∫ ()𝑊(|𝑑(𝑥) − 𝜃|)(𝑑𝑥).
El principio Bayesiano considera que una vez que tenemos la realización de la variable
aleatoria X=x solo es relevante analizar el riesgo a posteriori.
Definición . El estimador Bayesiano de  respecto a la distribución a priori () es la reglas

dD que minimiza el riesgo a posteriori al observar X=x.
O sea que
𝜃𝜋 = 𝐴𝑟𝑔𝑖𝑛𝑓𝑑∈𝐷 ∫ ()𝑊(|𝑑(𝑥) − 𝜃|)(𝑑𝑥)


Proposición. El estimador de Bayes también minimiza el riesgo a priori.
Demostración
Usando el Lema de Fatou tenemos la relación siguiente

𝑖𝑛𝑓𝑑∈𝐷 ∫ 𝑓𝜋 (𝑥)𝑀(𝑑𝑥) ∫ ()𝑊(|𝑑(𝑥) −
𝜃|)(𝑑𝑥)  ∫ 𝑓𝜋 (𝑥)𝑀(𝑑𝑥) 𝑖𝑛𝑓𝑑∈𝐷 ∫ ()𝑊(|𝑑(𝑥) − 𝜃|)(𝑑𝑥) =
∫ 𝑓𝜋 (𝑥)𝑀(𝑑𝑥) ∫ ()𝑊(|𝜃𝜋 − 𝜃|)(𝑑𝑥) = 𝑅(𝜋, 𝜃𝜋 ) ≥ 𝑖𝑛𝑓𝑑∈𝐷 𝑅(𝜋, 𝑑)
El problema práctico más importante es determinar la distribución a priori para los modelos
que aparecen más frecuentemente en la práctica. Este plantea la selección de las llamadas
distribuciones apriori conjugadas.
Ejemplo. Sea la muestra {X1,…, Xn} iid de acuerdo a una N (,1),

0 𝑠𝑖 |𝑑 − 𝜇| > ∆
𝐿(𝜃, 𝑑) = 𝑊(|𝑑 − 𝜇|) = {
Consideremos el estadístico suficiente y completo Tn=ni=1Xi y que la densidad a priori f

𝑇𝑛 1
()= (2)-1/2exp {-2/2}. Entonces la distribución a posteriori de  es 𝑁 ( 1 , 1 ).
𝑛+ 𝑛+
𝜏 𝜏
Entonces
𝑅(, 𝑑(𝑇𝑛 )) = ∫ 𝑊(|𝑑(𝑥) − 𝜇|)𝑓(𝜇)𝑑𝜇 = ∫ 𝑓(𝜇)𝑑𝜇

 
= 1 − 𝑃(𝜇 ∈ ]𝑑(𝑇𝑛 − ∆, 𝑑(𝑇𝑛 + ∆[)
𝑇𝑛 𝑇𝑛
𝑑(𝑇𝑛 + ∆ − 1 𝑑(𝑇𝑛 − ∆ − 1
𝑛+ 𝑛+
=1−  𝜏 − 𝜏
1 1
√ 1 √ 1
𝑛+ 𝑛+
[ ( 𝜏 ) ( 𝜏 )]
34
De ahí que el estimador Bayesiano es aquel que maximiza el término entre corchetes.
Diferenciando obtenemos las densidades respectivas y el máximo T0 debe satisfacer la
ecuación 𝜑(𝑇0 + ∆ − 𝜀) = 𝜑(𝑇0 − ∆ − 𝜀). De la condición de simetría de la densidad de
una normal se tiene que T0= es la única raíz. Como la segunda derivada del sistema en T0
𝑑(𝑇𝑛) 𝑇𝑛
es -2() este es un punto de máximo. Denotando 𝑇 = 1
,𝜀 = 1 el estimador
√𝑛+ 𝑛+
𝜏 𝜏
𝑇𝑛
Bayesiano es 𝜇̂ 𝜏 (𝑇𝑛 ) = 1 y es único. 
𝑛+
𝜏
Nota . lim 𝜇̂ 𝜏 (𝑇𝑛 ) = 𝑋̅.
𝑛→∞
Se puede probar que se puede mejorar las decisiones Bayesianas tomando en cuenta una
clase más amplia de estimadores que contenga reglas aleatorizadas. Los estimadores
aleatorizados son la distribuciones condicionales definidas sobre el espacio paramétrico .
El estadístico condiciona al resultado X=x y genera aleatoriamente un valor del parámetro
 usando la distribución condicional (X=x). en este contexto un estimador no
aleatorizado no es más que aquel en que el punto 𝜃̂(𝑋) tiene probabilidad uno. Esto es lo
que soporta el uso de métodos intensivos de computación en la practica de la aplicaciones
en el contexto del principio bayesiano. En todo caso si la función de perdida es convexa, y
se tiene pleno conocimiento del problema es preferible usar el estimador no aleatorizado
pues partiendo de la función de riesgo
𝑅(𝜃, 𝜋) = ∫ 𝑓(𝑥; )𝑀(𝑑𝑥) ∫ (𝑑𝜃̂𝑥)𝐿(𝜃, 𝜃̂)

 
Dada la convexidad de la pérdida
∫ (𝑑𝜃̂ 𝑥)𝐿(𝜃, 𝜃̂) 𝑐𝑠(𝑀) 𝐿(, 𝐸𝜋 (𝜃̂𝑋)


Sea el estimador no aleatorizado 𝜃̂𝜋 =𝑐𝑠(𝑀) 𝐸𝜋 (𝜃̂𝑋) sustituyendo tenemos que
𝑅(𝜃, 𝜋) ∫ 𝑓(𝑥; )𝑀(𝑑𝑥)𝐿(𝜃, 𝜃̂𝜋 ) = 𝑅(𝜃, 𝜃̂𝜋 )


Esto soporta el siguiente resultado
Proposición . Si el estimador Bayesiano existe y la pérdida es convexa este pude ser

hallado en la clase de los estimadores no aleatorizados.
GRANDES CLASES DE ESTIMADORES
La Clase de los L-Estimadores
35
Los L-estimadores se basan en los estadísticos de orden. Al tomar la muestra esta se
ordena: (X1,…,Xn) (X(1),…,X(n)), X(1)…X(n). El prefijo “L” es fijado por el sentido de
que estos son estimadores lineales
Definición. T es un L-estimador si su forma funcional es
𝑇 = ∑ 𝑎𝑛,𝑖 ℎ(𝑥(𝑖) ), 𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑖𝑖𝑑 𝑑𝑒 𝑡𝑎𝑚𝑎ñ𝑜 𝑛

𝑖∈𝑠
Donde h: es una aplicación medible.
Los coeficientes an,i son denominados scores y son generados por un medida positiva M
sobre I=0,1. Si le particionamos en
𝑖−1 𝑖
𝐼(𝑖) = [ , ] , 𝑖 = 1, … , 𝑛
𝑛 𝑛
Tenemos que si m es una densidad de probabilidad generada por M
𝑎𝑛,𝑖 = ∫ 𝑚(𝑠)𝑑𝑠 = 𝑀(𝐼(𝑖))

𝐼(𝑖)
Son L-estimadores
1
 𝑇 = 𝑋̅, 𝑎𝑛,𝑖 = 𝑛 , 𝑖 = 1, … , 𝑛, la media aritmética
𝑋 1 𝑛
 𝑖
𝑇(𝑟) = ∑𝑖∈{𝑟+1,…,𝑛−𝑟} 𝑛−2𝑟 , 𝑎𝑛,𝑖 = 𝑛−2𝑟 , 𝑟 = 1, … , ⌊ 2⌋ la media r-truncada
𝑋 +𝑀 0 𝑠𝑖 𝑡 ≠ 𝑖, 𝑗
 𝑇 = 𝑀(𝑖, 𝑗) = (𝑖) 2 (𝑗) 𝑎𝑛,𝑡 = {1 , estimador de Hodges-Lehmann
𝑝𝑎𝑟𝑎 𝑡 = 𝑖, 𝑗
2
La Clase de los M-Estimadores
La clase de los M-estimadores se conforma por aquellos basados en la solución de un

problema de optimización. De ahí su denominación de M pues plantean un problema de
minimización o de maximización. Su definición formal es la que sigue:
Definición. T es un M-estimador del parámetro  si para la función objetivo (a) está

definido como
𝑇 = 𝑎𝑟𝑔𝑚𝑖𝑛 ∑𝑖∈𝑠 𝜌(𝑥𝑖 , 𝜃), 𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑖𝑖𝑑 𝑑𝑒 𝑡𝑎𝑚𝑎ñ𝑜 𝑛
A esta pertenecen
Los EMV si (x,)=-log f(x;), donde f es la función de densidad de X.
 Chi-cuadrados al minimizar la distancia D().

 Mínimos cuadrados en la que se minimiza la norma L2: (x,)=(x-)2
36
 Mínima distancia absoluta en la que se minimiza la norma L1: (x,)=x-
La clase de los R-estimadores
Su nombre proviene del uso de los rangos. Si Xi ocupa el lugar Ri en la muestra ordenada. O
sea si 𝑋𝑖 = 𝑋(𝑅𝑖 ) podemos usar los rangos como substitutos de los valores de X. Los
estadísticos que se basan en ellos son denominados estadísticos de rango.
Definición. T es un R-estimador del parámetro  si su forma funcional es

𝑇 = ∑𝑖∈𝑠 𝑐𝑛,𝑖 𝑎𝑛 (𝑅𝑖 ), 𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑖𝑖𝑑 𝑑𝑒 𝑡𝑎𝑚𝑎ñ𝑜 𝑛.
Los scores an(Ri) son generados por una función genérica 𝐽: ]0,1[ → .
Es frecuente usar
𝑖−0,5
 𝑎𝑛 (𝑅𝑖 ) = 𝐽 ([ ])
𝑛
𝑖
 𝑎𝑛 (𝑅𝑖 ) = 𝐽 ([𝑛+1])
 𝑎𝑛 (𝑅𝑖 ) = 𝑛 ∫[𝑖−1, 𝑖 [ 𝐽(𝑡)𝑑𝑡
𝑛 𝑛
Estos caracterizan la mayor parte de los estadísticos usados en la estadística no paramétrica

como los del tipo Wilcoxon.
BIBLIOGRAFÍA
 Andersen, E. (1970): Sufficiency and Exponential Families for Discrete Sample

Spaces. Journal of the American Statistical Association, Vol. 65, 1248–1255..
 Bickel, P. J. & Doksum, K. A. (2001): Mathematical statistics, Volume1: Basic and
selected topics Pearson Prentice–Hall.
 Baburaj, C. (2011): Statistical Estimation: Theory of Estimation, P LAMBERT
Academic Publishing,
 Casella, G.& Berger, R. L. (2002): Statistical Inference, 2nd ed. Duxbury Press.
 Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, Oxfor University
Press, Oxford.
 Fieller, N. (2003): Lecture notes on Statistical Theory, Universiy of Sheffield,
Sheffield
 Johnson, N.L., S. Kotz, & N. Balakrishnan (1994): Continuous Univariate
Distributions, Volume 1, 2nd edition, Wiley and sons, N. York.
 Hampel, F.R., E. M. Ronchetti, P. J. Rousseeuw & W. A. Stahel (2005): Robust
Statistics - The Approach Based on Influence Functions,, Wiley, Chichester
 Huber, P. J. (2004):,Robust Statistics, Wiley, N. York.
 Keener, R. W. (2006): Statistical Theory: Notes for a Course in Theoretical
Statistics.Springer, Berlin.
37
 Kupperman, M. (1958) Probabilities of Hypotheses and Information-Statistics in
Sampling from Exponential-Class Populations, Annals of Mathematical Statistics, 9
, 571–575.
 Lehmann, E. L. & Casella, G. (1998): Theory of Point Estimation (2nd ed.):
Springer, N. York.
 Maronna, R., R. Douglas Martin & V. Yohai (2006): Robust Statistics - Theory and
Methods. Wiley
 Mukhopadhyay, Parimal (2004): An Introduction to Estimating Functions.: Alpha
Science International, Ltd. Press, Harrow, UK.
 Newey, W.; McFadden, D. (1994): Large sample estimation and hypothesis testing.
In Handbook of Econometrics, Vol. 4, Elsevier Science.
 Serfling, R.J. (2002): Approximation theorems of mathematical statistics. Wiley
Series in Probability and Mathematical Statistics. John Wiley & Sons Inc.,
Hoboken, NJ:.
 Shao, J; (2003): Mathematical Statistics. ( 2nd edition): Springer;
 Stat 543 Spring (2005): Minimal Sufficient Statistics in Exponential families,
http://www.public.iastate.edu/~vardeman/stat543/Handouts/Bahadur.pdf,
consultado Septiembre 12, 2012.
 Small, C. & G.; Jinfang Wang (2003): Numerical methods for nonlinear estimating
equations. Oxford Statistical Science Series. 29. New York.
 Tassi, P. (2004): Methodes Statistiques. Economica, Paris
 Teukolsky, W.H., SA., Vetterling, W. T. & Flannery, B.P. (2007):"Section 15
Robust Estimation", Numerical Recipes: The Art of Scientific Computing (3rd ed.),
Cambridge University Press, New York:
 Young, G. A. & Smith, R. L. (2005): Essentials of Statistical Inference. Cambridge
University Press.
EJERCICIOS
1. En una urna tenemos N bolas numeradas pero N no se conoce. Un decisor desea
saber cuantas bolas hay. Selecciona una bola anota su número (uno entre 1 y N) y la
reemplaza y repite el experimento n veces. basándose en los números observados X1,..,Xn.
halle el estimador
a) De momentos
b) El EMV.
2. Si X se distribuye B(p) y p {1/2, 1} pruebe que el EMV de p es

1 𝑠𝑖 𝑋̅ = 𝑛
𝑝𝑛 = {1 ̅
𝑠𝑖 𝑋 < 𝑛
2
Analice su significado y pruebe que en este caso particular es mejor que 𝑋̅.
3. Considerando pn definido en el ejercicio anterior pruebe que
1 𝑠𝑖 𝑝 = 1
1 1 𝑛+1 1
𝐸(𝑝𝑛 ) = { + ( ) 𝑠𝑖 𝑝 =
2 2 2
38
4. Pruebe que
0 𝑠𝑖 𝑝 = 1
1 𝑛+2 1
𝐸(𝑝𝑛 − 𝑝)2 = {( ) 𝑠𝑖 𝑝 =
2 2
Calcule su sesgo y diga si este es asintóticamente insesgado y consistente.

5. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Gamma (, ) siendo
𝑋̅
 el parámetro de forma conocido pero el de escala >0 no. Derive que 𝛽𝑀𝑉 = 𝛼
6. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Beta (, b) siendo 
𝑛
>0 y b=1. Derive que 𝛼𝑀𝑉 = − ∑𝑛
𝑖=1 ln 𝑋𝑖
7. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Pareto Par () siendo el
𝑛
parámetro de forma >0 .Derive que 𝛼𝑀𝑉 = ∑𝑛
𝑖=1 ln 𝑋𝑖
𝐼[𝑐−𝑑𝑐+𝑑] (𝑥)
8. Si X1,..,Xn son va i.i.d. U[c − d, c + d] con densidad 𝑓(𝑥|𝑐, 𝑑) = halle el
2𝑑
estimador de (𝑐, 𝑑)(0, )
a) De momentos
b) El EMV.
9. En una cafetería hay dos entradas. Se estudia el número de arribos cada 10 minutos.
Se cree que el parámetro de esta es 1=5 para la primera y 2=1 para la segunda.
a) Número de clientes que entran a la cafetería en 10 minutos.
b) Si no se conocen los parámetros tomamos muestras en 7 días consecutivos y se
obtienen los resultados 2, 4, 6, 5, 8, 6, 4.
c) Bajo la hipótesis de independencia plantee un modelo con esos datos
d) Estime la esperanza usando el EMV del parámetro.
e) Estime la varianza el EMV y el de momentos. Compárelos.
10. Las reclamaciones por choques de autos a una compañía de seguros es una
distribución de Pareto.
𝑎𝑏 𝑎 𝑎𝑏
(𝑓(𝑥|𝑎, 𝑏)) = { 𝑥 𝑎+1 𝑥 ≥ 𝑏 , 𝑎 > 1, 𝑏 > 0, 𝐸(𝑋) = ,
𝑎−1
𝑎𝑏 2
𝑠𝑖 𝑎 > 2 ∃𝑉(𝑋) =
(𝑎 − 2)(𝑎 − 1)2
Los resultados que se poseen son los siguientes en cientos de la unidades monetaria: 15,
11, 16, 71, 10, 27, 32, 10, 31, 11, 12, 18, 16, 10, 10, 14
Use los datos y si
a) b= 10 .
(i) Determine el EMV de a y calcule su estimado..
(ii) Derive el EMV `para E(X).
(ii)i Derive el estimador de momentos para E(X).
b) Si a = 2,1
(i) Pruebe que el EMV de b es T = min(X1,…,Xn) y de el estimado
(ii) Use el método de los momentos para construir un estimador de
b y calcule el estimado.
(iii) Compare los dos estimados.
39
11. Sea una variable aleatoria con momento de segundo orden
𝜋
∫−𝜋 𝑡 2 (1 + cos(𝑡))𝑑𝑡
𝜇2 =
2𝜋
∑𝑛 2
𝑖=1 𝑋𝑖 𝜋2
Pruebe que 𝛼̂ = 0,5 ( − )
𝑛 3
12. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Uniforme U(0,)
siendo  >0 Derive que 𝛼𝑀 = 2𝑋̅.
13. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Gamma (, ), pruebe
𝑋̅
usando del método de momentos que los estimadores 𝛼̂ = 2 , 𝛽̂ = 𝛼̂ −1
𝑆𝑛
14. Si tenemos la muestra 1,25 3,45 1,03, 1,29 3,21 4,01 3,29 1,12 y las
distribución es la dada en el ejercicio anterior estime sus parámetros.
15. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Beta (,1) pruebe
usando el método de los momentos que estima  el estimador M= M1 / (1 – M1 ).
16. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Pareto Par(),  > 1
diga si le estima U = M1/ (M1 - 1).
17. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Uniforme U(0,)
siendo  >0 Derive que 𝛼𝑀 = 2𝑋̅.
18. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Gamma (, ), pruebe
𝑋̅
usando del método de momentos que los estimadores de estos son 𝛼̂ = 2 , 𝛽̂ = 𝛼̂ −1
𝑆𝑛
19. Sea X1, . . . ,Xn una muestral aleatoria iid con función de densidad
𝑓(𝑥|𝜃) = 𝑒 −(𝑥−𝜃) , 𝑥>0
(a) Pruebe que X(1)=Min (X1, . . . ,Xn) es EMV de .
(b) Pruebe que este estimador es sesgado y consistente (halle su densidad y compruebe
que su esperanza es +1/n).
(c) Halle es estimador de momentos y compare los dos estimadores.
|𝑥−𝑎|
𝑒𝑥𝑝(− )
20. Sea la distribución doble exponencial (𝑓(𝑥|𝑎, 𝑏)) = 𝑏
, 𝑥, 𝑎, 𝑏 >
2𝑏
0, 𝐸(𝑋) = 𝑎 = 1, 𝑉(𝑋) = 𝑏 2
a) De momentos
b) El EMV.(considere la muestra ordenada y considere los casos n par e impar por
separado.).
20 Sea X1, . . . ,Xn una muestra aleatoria iid con función de densidad
𝜃 3 𝑥 2 𝑒 −𝜃𝑥
𝑓(𝑥|𝜃) = , 𝑥>0
2
(a)Halle un EMV para  y halle su esperanza.
1
(b) pruebe que es insesgado 𝜃̂ = 2 ∑𝑛𝑖=1 𝑛𝑋 .
𝑖
(c) Halle 𝑉(𝜃̂).
21. Sea X1, . . . ,Xn una muestral aleatoria iid con función de densidad Poisson,
E(Xi)=mi, >0, mi conocidas, i=1,…,n. y *= log .Halle su media y varianza.
Y el EMV de *.
40
22. Si X1, ..., Xn es una sucesión de variables Bernoulli con el mismo parámetro 0<p<1
y Y= X1 + ··· + Xn pruebe que es un estimador insesgado de mínima varianza para 𝜎 2 =
𝑌 𝑌2
𝑝(1 − 𝑝) 𝑒𝑠 𝜎̂ 2 = 𝑛 − 𝑛(𝑛−1).
23. Si X1, ..., Xn es una sucesión de variables Poisson y Y= X1 + ··· + Xn pruebe que es
𝑛 −𝑌
un estimador insesgado de mínima varianza para 𝑃(𝑋 = 0) 𝑒𝑠 (𝑛−1) .
24. . Se considera una población representada por una variable aleatoria X , de suerte
que ϑ y σ , representan los parámetros media y varianza poblacional,
respectivamente. Si estimamos la media poblacional, ϑ , a través de la media
muestral x a comprobar que dicho estimador es consistente (Supuesto extraídas
muestras de tamaño n, muestreo aleatorio simple).
25. La función de densidad f(x; a) = ae-ax, x ≥ 0, contiene el parámetro a, del cual se
sabe que puede tomar uno de los tres valores siguientes: 0,5; 1; 1,5. Se toma una
muestra aleatoria de tamaño uno, resultando un valor comprendido entre 1,7 y 2,6.
Basándose en el principio de estimación de la máxima verosimilitud, determínese, a
partir de la información suministrada por la muestra, por cual de los tres valores que
puede tomar el parámetro debemos optar.
26. El tiempo de vida de una determinada especie animal sigue una distribución
exponencial Exp. ( ) La cual tiene por función de densidad con X>0 y siendo 
>0 un parámetro desconocido. Con objeto de estimar el parámetro  y, en
consecuencia, la ley de probabilidad que rige su tiempo de vida, se tomó al azar una
muestra aleatoria de diez animales de la especie en estudio, obteniéndose los
siguientes tiempos de vida en días: 1456, 900, 1450, 650, 666, 943, 790, 840, 790,
840 y 1500.
Determinar la estimación de máxima verosimilitud del parámetro .
27. El tiempo de vida en días X de los individuos de una población afectados de una
nueva enfermedad es una variable aleatoria continua con función de densidad
f (x) = 2φ 2x−3 φ si x > 0 y f (x) = 0 φ si x ≤φ siendo φ > 0 un parámetro
desconocido. Con objeto de estimar el parámetro φ , se extrajo una muestra
aleatoria simple de dicha población, obteniéndose los siguientes tiempos de vida, en
días, de los 10 individuos seleccionados, todos los cuales fallecieron por la
enfermedad en estudio: 398, 356, 615, 265, 650, 325, 400, 223, 368, 680.
Determinar la estimación de la máxima verosimilitud de φ .
28. Si X=A+BZ+e, E(e )=0, V(e )=Q y A, B son parámetros desconocidos halle
estimadores de A y B usando el método de los mínimos cuadrados. Derive si este es
insesgado.
EJERCICIOS AVANZADOS
1. . Sea 𝑋𝑖 , … , 𝑋𝑛 , 𝑋𝑖 ~𝑈(0, 𝜃), pruebe que 𝑇 = 𝑀𝑎𝑥(𝑋𝑖 , … , 𝑋𝑛 ) es el EMV de .

2. Considere que trabajamos con una familia absolutamente continua de distribuciones
tales que E(Y(x))=+x, , 0, V(Y(x))=2< para cada xD. Se observa {(Xi,Yi
), i=1,…,n}. Halle los estimadores insesgado óptimos de ,  y 2.
41
3. Sea una variable con distribución de la familia de Pareto 𝑓(𝑥; 𝛼, 𝜎) =
𝜎 𝛼 𝜎+1
{𝛼 ( 𝑥 ) 𝑠𝑖 𝑥[𝛼, ∞[, 𝜎+ ,  +
Halle el estimador insesgado optimo de  si X1,…,Xn es una sucesión de variables
aleatorias iid con  conocida .
4. Sean X1,…,Xn variables aleatorias iid con una densidad del tipo +(1,1) descrita
−(𝑥−𝛼)
como 𝑓(𝑥; 𝛼) = {𝑒 𝑠𝑖 𝑥 ≥ 𝛼,  
Derive el estimador insesgado óptimo de la función de distribución.
5. Sea X1,…,Xn una sucesión de variables aleatorias iid con densidad Pareto
𝜎 𝛼 𝜎+1
𝑓(𝑥; 𝛼, 𝜎) = {𝛼 (𝑥 ) 𝑠𝑖 𝑥[𝛼, ∞[, 𝜎+ ,  +
Halle el estimador insesgado óptimo de r
6. Sea X1, . . . ,Xn una muestra aleatoria iid con función de densidad
𝑒 −𝜃 𝜃 𝑥
𝑓(𝑥|𝜃) = , 𝑥 = 1,2, ..
(1 − 𝑒 −𝜃 )𝑥!
𝑋 𝑠𝑖 𝑋𝑖 ≥ 2
Tomando 𝑌𝑖 = { 𝑖
Pruebe que 𝑌̅ es un estimador insesgado y eficiente con eficiencia con
1 − 𝑒 −𝜃
𝐸𝑓(𝑍̅) =
1 − (𝜃𝑒 −𝜃 (1 − 𝑒 −𝜃 ))−2
42
View publication stats

M To Do Spar Aob Tenere Stim Adores

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

M To Do Spar Aob Tenere Stim Adores

Cargado por

Copyright:

Formatos disponibles

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

MÉTODOS PARA OBTENER ESTIMADORES

Book · November 2016

The user has requested enhancement of the downloaded file.

El principio de máxima verosimilitud (PMV)

Como se verá, la estimación derivada usando el metidos Máxima Verosimilitud es un

El modelo estadístico lo representamos a partir de una familia de medidas de probabilidad

Definición Sea X1,…,Xn una muestra aleatoria independiente de f(x;). La función de

Nota Para simplificar se usará L(:x)=L()

Definición. Sea L() la verosimilitud en el punto  (espacio paramétrico). Un

La función de verosimilitud se obtiene a partir de la función de densidad, intercambiando

La estimación MV la podemos algoritmizar como sigue:

𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑟 𝑢𝑛𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑦 𝑜𝑏𝑡𝑒𝑛𝑒𝑟 (𝑥1 , … , 𝑥𝑛 )𝐿(𝑥1 , … , 𝑥𝑛 |𝜃) = 𝑓(𝑥1 , … , 𝑥𝑛 |𝜃)

Como MV =Arg Max L(x; ) es el estimador máximo verosímil de , el problema de

En el caso de tener varios parámetros el procedimiento es similar.

𝐿(𝑥1 , … . , 𝑥𝑛 ) = ∏ 𝑓( 𝑥𝑖 )

Un resultado clave es el de la invarianza de la estimación máximo verosímil dado en

Tomemos G(w)={; , g()-w} como el conjunto asociado (coset) g en  y la función

M(w, X)=SupG(w) L(, x) .

La estimación máximo verosímil y los estadísticos suficientes se vinculan mediante el

Teorema.: Sea X1,…,Xn un muestra independiente y aleatoria de f(x;). Si existe T=t(x),

Sea g(t(x; )) la fd de T. Tomemos la función de verosimilitud

𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = 𝐿() = 𝑔(𝑡(𝑥1 , … , 𝑥𝑛 ); 𝜃)ℎ(𝑥1 , … , 𝑥𝑛 )

Dada la suficiencia h(x1 ,...,xn) no depende de y g es función de . Estas van a ser

Idealmente ˆ  ArgMaxL( , x) tiene una expresión analítica pero este no es generalmente

(i) L(x:) no es diferenciable sobre el espacio de definición de X.

El problema de derivar un EMV no es simplemente buscar el máximo aunque

Ejemplo.Sea la distribución uniforme en el intervalo (0:). L(x:) es

i) Sea X una variable aleatoria con fdp exponencial truncada

Esta es un función creciente del exponente por lo que su EMV es el EO 1, o sea

ii) Sea X una variable con distribución exponencial

iii) Sea X una variable con distribución normal

𝐿(𝜃 ∗ ) 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2

Resolviendo del sistema se obtiene que

Estimación EMV mediante el cómputo numérico

Como se ha señalado es muy difícil en ocasiones resolver la ecuación de verosimilitud

En particular el comportamiento de los métodos iterativos envueltos plantea un problema

Bajo la ciertas condiciones de regularidad si * es el verdadero valor de  podemos hacer

Un caso que has sido muy estudiado es el de la distribución de Cauchy.

Veamos varios de estos métodos,

Comenzando con un valor 1 cerca de la raíz y si es acotada

1. Método de Newton de la derivada fija

Método de los Scores

La sucesión en este método es

El error de aproximación en el ciclo t es acotado por

Ejemplo Sea la distribución de Cauchy.

es razonable usar como punto inicial la mediana de la muestra.

Algunas propiedades de los EMV

Los EMV poseen una serie de propiedades intrínsecas.

Los estimadores de máxima verosimilitud tienen ciertas propiedades deseables adicionales

 .Son consistentes (𝜃̂ →𝑛→ ).

Algunas de ellas las veremos a continuación.

Como es suficiente factorizamos y tenemos que L(x, )=-h(x) (T,) y

Nota. Un EMV no tiene que ser suficiente.

(Inf X, Sup X) es suficiente pero el EMV es la solución de

ArgMax L(X; )= ArgMin =MV=Sup X/2=0,5X(n)

Si T es eficiente usando la desigualdad de Frechet-Darmois-Cramer-Rao y aplicando

Teorema. (Consistencia): Si se cumplen

n (x,)=Log[L(x, )/L(x,o)]=ni=1 Log[L(xi, )/f(xi,o)]

Por H3 tenemos que

Como Log es cóncava de la desigualdad de Jensen obtenemos usando H2 y H3 que

ni=1 Log f(xi, w)/f(xi,0 )/n=n(x, w)/n

Note que  es un conjunto numerable y que N(0)=  w Nw es de probabilidad P*-nula.