Documentos de Académico
Documentos de Profesional
Documentos de Cultura
net/publication/309643099
CITATIONS READS
0 10,253
1 author:
Carlos N. Bouza
University of Havana
477 PUBLICATIONS 922 CITATIONS
SEE PROFILE
All content following this page was uploaded by Carlos N. Bouza on 03 November 2016.
El método de máxima verosimilitud fue usado desde los 20’s del siglo pasado. Su pionero
fue, como en tantas otras cosas de la estadística, Sir. R. Fisher. Este método soporta
muchos procedimientos que utilizan criterios de convergencia para usar modelos
inferenciales basados en la normalidad asintótica. A pesar de sus propiedades este no es
una panacea pues no siempre provee de métodos aceptables. Este puede ser ineficiente
comparado con otras alternativas. Sin embargo bajo ciertas condiciones de regularidad se
puede aceptar la normalidad asintótica y provee de óptimos en diversos procedimientos
existentes. En muchos casos es simple desarrollar métodos MV y por eso se puede
presentar toda la teoría estadística usando este principio como un enfoque para desarrollar
métodos particulares en la regresión, por ejemplo. Además el PMV posee la propiedad de
invariancia, así que los métodos derivados usándole, bajo ciertas hipótesis, permite
construir estimadores de funciones paramétricas que poseen las propiedades derivadas para
los estimadores del parámetro.
Estimadores MV
Definición Sea X1,..,Xn una muestra aleatoria independiente de f(x;) y x1,…,xn los valores
observados. La verosimilitud de la muestra es la función de densidad conjunta evaluada en
el punto x1,…,xn : f(x1 ,...,xn; )=f(x:)
La función de verosimilitud es una función real valuada definida sobre que es
proporcional a la densidad. Esto es
1
La inferencia estadística puede enfocarse usando el hecho de que el método debe ser
consistente con la aceptación de que la mejor descripción de los datos es dada por la
maximización de L(:x). En estimación puntual el problema de hallar un valor (estimado)
de =MV de que maximice L(:x). El valor dado como aproximado a es el
estimado máximo verosímil (EMV). Una definición formal es la siguiente
Ejemplo. Se lanza 100 veces una moneda y se observa la sucesión de resultados ¨Cara¨ (C),
Cruz¨ (X). Denotemos las correspondientes probabilidades como P(C )=p, P(X)=1-p=q.
La moneda fue seleccionada de un grupo de 6 aleatoriamente. Estas están numeradas en
forma tal que la moneda j tiene probabilidad p= j/20 de que aparezca la C. Si la C aparece
25 veces nuestro estimador MV de p es pMV=0,25. De ahí que podamos considerar que lo
mas verosímil sea que la moneda seleccionada fuera la j=5.
Definición Sea X una v.a. que sigue una distribución f(x), 𝐾 y
𝑛
2
Cabe señalar que, aunque hablamos del estimador máximo verosímil de un parámetro,
puede suceder que la ecuación de verosimilitud (la derivada de la función de verosimilitud,
o su logaritmo, igualada a cero) tenga más de una solución y, por tanto, tendríamos varios
posibles estimadores posibles para un mismo parámetro.
Es frecuente que sea imposible obtener una solución analítica del problema de optimización
que plantea la estimación MV. Este es el caso cuando el modelo es complejo dado el
numero de parámetros o la función de probabilidad tiene una expresión complicad para
hallar extremos. En tales situaciones no hay una solución factible en todos los puntos del
espacio paramétrico .
Además cuando están envueltos varios parámetros puede crecer mucho y evaluar la
función de verosimilitud se puede hacer muy difícil e incluso imposible de ahí que entren
en juego modelos de optimización numérica. Estos pueden identificar, con relativa rapidez,
conjuntos de parámetros que sean verosímiles para los datos observados.
Podemos apuntar que una ventaja es que el estimador MV tiene propiedades asintóticas
óptimas entre todos los estimadores consistentes y normales asintóticamente. Una seria
desventaja es que cometeremos un grave error si nos utilizamos una distribución
equivocada, pues el estimador depende de la distribución en el proceso de optimización.
Por otra parte no podremos asegurar que las propiedades de estos estimadores sean válidas
en el caso de muestras pequeñas.
Teorema.. Sea P={P ; }, definida sobre {, }, dominada por una medida de
Lebesgue . y g: una aplicación de en el intervalo r-dimensional, (kr1),
Entonces si MV es un EMV de también lo es g(MV) para g()
Demostración:
Este coset es una partición de y MV es un EMV de el que pertenece a un solo conjunto
G(w*) de esta partición. Como
L(MV ,x)Sup G(w*) L(, x)=M(w*,x) Sup w M(w,x)=Sup L(, x)= L(MV ,x)
Se tiene que M(w*,x)=Sup w M(w,x) por lo que w* es EMV de g(). Notando que MV
G(w*), g(MV)-w*
3
Nota En muchas demostraciones del principio de la invarianza se utiliza la hipótesis de
que g es biunívoca pero en esta se obvia esta al usar otros recursos basados en los cosets.
Ejemplo Sea Xi una variable iid log normal (log XiN(, 2)). Entonces como
E(log Xi)=exp2), V(log Xi)=2(exp (2 )-1)
Los EMV son
n exp mS), nn2(exp (S )-1)
tomando
m=i=1n log Xi/n, S=i=1n (log Xi-m)2/n.
Demostración
4
L( x, )
Nota 0 es llamada ecuación de verosimilitud
n 0 xi
L ; x1 ,..., x n
0 en otro caso
Como -n es una función decreciente en en [0,], L() es maximizada para el valor
mínimo de .tal que las variables están en el rango de definición dado. Por tanto
MV X (n) , el estadístico de orden n de la muestra, es el EMV.
Ejemplos.
En la práctica puede ser más conveniente el utilizar el logaritmo de L() si f(x,)>0 para
todo . Pues en tales casos
[ L( x, )] log[ L( x, )]
0 0
2 log[ L( x, )] 2 [ L( x, )] [ L( x, )] 2 2 [ L( x, )]
0
2
n L ( x, ) L ( x, ) L ( x, ) n
n
Entonces
2 [ L( x, )] 2 log[ L( x, )]
0 0
L( x, ) n 2 n
5
𝑛 𝑛
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏ 𝑒 −𝑥𝑖 = 𝜃 𝑛 𝑒 −𝜃 ∑𝑖=1 𝑥𝑖
𝑖=1
Su logaritmo es
𝑛
𝐿∗ (𝜃) = 𝑛𝑙𝑛(𝜃) − 𝜃 ∑ 𝑥𝑖
𝑖=1
y
𝐿∗ (𝜃) 𝑛 𝑛
= −∑ 𝑥𝑖 = 0
𝜃 𝑖=1
Por lo que
𝑛
𝜃𝑀𝑉 =
∑𝑛𝑖=1 𝑥𝑖
Como la FMV es
1 𝑥−𝜇 2
− ( ) 𝑛 1 𝑥 −𝜇 2
𝑛 𝑒 2 𝜎 −
2 − ∑𝑛 ( 𝑖 )
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏ = (√2𝜋𝜎 )
2 𝑒 2 𝑖=1 𝜎
𝑖=1 √2𝜋𝜎 2
𝑛 1 𝑛 𝑥𝑖 − 𝜇 2
𝐿∗ () = 𝐿∗ (𝜇, 𝜎 ) = − 𝑙𝑛(√2𝜋) − 𝑛𝑙𝑛(𝜎) − ∑ ( )
2 2 𝑖=1 𝜎
Ahora tenemos un vector de parámetros por lo que calculamos las derivadas parciales
respecto a cada parámetro:
𝐿(𝜃 ∗ ) ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)
= =0
𝜎2
𝑛 ∑𝑛𝑖=1 𝑥𝑖 2
∑𝑛𝑖=1 𝑥𝑖 √∑𝑖=1 (𝑥𝑖 − 𝑛 )
𝜃𝑀𝑉 = , = (𝑥̅ , 𝑆𝑛 ).
𝑛 𝑛
( )
6
iv) Ejemplo. Sea una variable con distribución Binomial Xj. Si hay k variables con esa
𝑛! 𝑥
distribución trabajamos con la distribución Multinomial ∏𝑘 ∏𝑘𝑗=1 𝑃𝑗 𝑗 , 0 ≤ 𝑥𝑗 . Si
𝑗=1 𝑥𝑗 !
usamos el estimador de máxima verosimilitud
𝑛! 𝑥
𝐿(𝜃1 = 𝑃1 , … , 𝜃𝑘 = 𝑃𝑘 ; 𝑋1 = 𝑥1 , … . , 𝑋𝑘 = 𝑥𝑘 ) = ∏𝑘 ∏𝑘𝑗=1 𝑃𝑗 𝑗 , 0 ≤ 𝑥𝑗 ≤ 𝑛,
𝑗=1 𝑥𝑗 !
∑𝑘𝑗=1 𝑥𝑗 = 𝑛
Este método nos lleva a que
𝑥 𝑥
𝜃𝑀𝑉 = (𝑃̂1 = 𝑛1 , … . , 𝑃̂𝑘 = 𝑛𝑘 ) , 𝑗 = 1, … , 𝑘
𝑥
Si el número de sucesos observados en la categoría j es xj = 0, resulta que 𝑃̂𝑗 = 𝑛𝑗 = 0. Esto
resultado no es matemáticamente consistente, pues diríamos que el suceso j es imposible.
Nota El logaritmo de L() está muy relacionado con el concepto de entropía en la Teoría de
la Información a través de la medida de información de Fisher.
El Principio de Máxima Verosimilitud es usado también en el desarrollo de Pruebas de
Hipótesis.
Nota. Un EMV no tiene que ser un estimador insesgado y tampoco tiene que ser único.
Al no tener un expresión explicita del EMV se debe recurrir a resolver el problema de
optimización usando algoritmos computacionales. El método de Newton-Raphson es muy
utilizado en las rutinas en uso en los diferentes softwares.
7
S
, S n ( ) S n ( *) ( *) n , 1 *
1
Tomemos =MV
S
0 S n ( MV ) S n ( *) ( MV *) n , * 1 MV
1
Si
Sn Sn ( n )
0 MV *
1 S
n
1
Esta relación es la base de los métodos iterativos al definir una sucesión recurrente
t
MV ,n , t
0 de orden 1 que ligue tMV,n con t-1MV,n diferenciado por la evaluación de
S n
.
En todos los casos el punto de partida *MV,n debe ser un estimador convergente de *.
Método de Newton-Raphson
Este se basa en la expansión alrededor de la ecuación d verosimilitud alrededor de la raíz de
la ecuación de verosimilitud MV . El método consiste en aproximar las curva y=Sn() por su
tangente. Sea (tMV,n, Sn((tMV,n) un punto de la curva. La ecuación tangente es
S n t
y S n ( MV
t
,n ) ( MV ,n )
t
( MV ,n )
Haciendo y=0 se obtiene la fórmula de Newton-Raphson
8
t 1 S n ( MV
t
,n )
MV , n MV , n
t
S n
1tMV , n
Tomemos el desarrollo en series
0 ln L( ; X ,..., X )
1 n
2
ln L( ; X ,..., X ) ( ) ln L( v( ); X ,..., X ),
1 1 n MV 1
2 1 MV 1 1 n
v [0,1]
1 es una solución inicial. Si v=0 se obtiene un aproximación. Sea la sucesión
t 1 S n ( MV
t
,n )
MV ,n MV
t
,n
S n
MV
t
,n
Par evitar las irregularidades se puede usar una de las siguiese variantes
Esta sucesión puede es más estable que el método general si se elige adecuadamente a
sucesión {at}. La raíz va a ser cubierto en forma mas regular por este método pero si la
curva de verosimilitud no es suave es muy es muy frecuente que se encuentre atrapada a
búsqueda en un máximo local. Este evita calcular la derivada de Sn en cada etapa y se
garantiza su convergencia a un máximo relativo.
9
Una decisión usual es usar la información de Fisher I(). En la iteración t se tiene
t11 ln L( 2 t 1 ; X 1 ,..., X n ) t11 ln L( 1t 1 ; X 1 ,..., X n )
t
ln L( t 1 ; X 1 ,..., X n ) ln L( 1t 1 ; X 1 ,..., X n
2
1 t
Si ln L( t ; X 1 ,..., X n ) 0 t
t2 t21
1 t11
Si ln L( t ; X 1 ,..., X n ) 0 t
t2 t
Este método de iteración continúa hasta converger un máximo local.
Método de substitución
Se consideran dos puntos a* y b*, a*<b*, tales que Sn (a*)>0, Sn (b*)<0. La recta que une
(a*,Sn (a*)) y (b*, Sn (b*)) corta el eje horizontal en un punto
a * S n (b*) b * S n (a*)
*
S n (b*) S n (a*)
Cuando Sn(0)>0 se procede a iterar a partir del punto (0, b*). Si Sn(0)>0 se itera a partir
del punto (a*,0). Así que el algoritmo trabaja como sigue
Fijar a0 , b0 , Sn (a0 ) 0, Sn (b0 ) 0 a0 b0
at S n (bt ) bt S n (at )
0 t 1
S n (bt ) S n (at )
S n ( nt ) 0 at nt , bt bt 1
S n ( nt ) 0 at at 1 , bt 1 nt
a bt
Si at bt MV t
2
En la práctica se escogen a0 y b0 como valores alrededor de un estimador convergente. Lo
mas usual es tomar (a0, b0)(*-, *+), >0, con Sn(*-)>0 y Sn (*+)<0.
Métodos de Whittaker-Robinson
10
Este es un caso particular del método de Newton con derivada fija con at=1, para todo t=1.
La sucesión recurrente utilizada en este método es
t 1
MV ,n MV ,n S n ( MV ,n )
t t
En este se calcula una raíz de la ecuación ()=0. Tomemos dos funciones arbitrarias tales
que ()=01()=2(). El método es sugerido por el gráfico de las curvas 1() y 2()
la raíz buscada esta en su intersección. Comúnmente se usa 1()= y 2()=Sn()+.
Teorema. Si existe una estadístico suficiente para el modelo (, P )n el EMV MV es
función de este.
Demostración
11
Buscamos un valor tal que (T,n) (T,), para todo por lo que este tiene que ser
función de T.
Ejemplo. Sea X con distribución U(, 2), como f(x;)=1(, 2) (x)/ tenemos que
L(X, )=1(0Inf XSup X 2) (x)/ n.
que no es suficiente.
Veamos la eficiencia.
Teorema. Si existe un estimador eficiente de este es idéntico al único EMV cs-P ( casi
seguramente para P)
Demostración
Demostración
Sea (x1,...,xn,...) una sucesión y n el conjunto de ellas y
n(x1,...,xn,...)=- n(x)
12
n LogL( x, )
0 0
Veamos que si existe N(o)n de medida nula P*= P o ( N ( o )) 0 tal que x N(o) y
>0, existe una solución n(x) [0 -, 0 +] de la ecuación de verosimilitud cuando
n+.
Tomando ={w, w=0 1/m, m1} se tiene que [0 –1,o+1].. Denotemos para
todo w L=Log f(u, w)/f(u,0 ), u.
Note que
es una media por lo que converge a E [Log f(u, w)/f(u,0 )] que es negativa excepto en un
conjunto de medida P*-nula.
Sea una sucesión que no pertenezca a N(0). Para cualquier >0 podemos hallar w’ y w’’
de para los cuales 0 -<w’< 0 <w’’< 0 +
13
∑𝑛
𝑖=1 𝑋𝑖
El EMV es 𝜃̂𝑛 = pero
𝑛
𝜃 𝑠𝑖 𝜃 𝑒𝑠 𝑟𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝜃̂𝑛 𝜃 𝑐𝑠 { ,0 < 𝜃 < 1
1 − 𝜃 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Por lo que es inconsistente.
Demostración
Sea
Sn()/n=n (x,)=ni=1 fLog[f(xi, )//n
Para todo ,
n (x,)= n (x,0)+(-o) [n (x,’)/
con ’]Min (, o), Max (, o)[
14
Podemos comprobar que
A+Bn+Cn- I(0)
Entonces podemos escribir
Como se vio en anteriormente n (x,0)n1/2 tiende en Ley a la normal N(0, I(0)) por lo que
Notas.
Ejemplo. Sea X una v.a. N(,1) con =-1 y la muestra iid (X1 ,..,Xn ). Un EMV es
1
MV n
X
i 1
i
n
y
n
X i
i 1
N(,1/n)
n
Ahora
2
n
exp u
E MV
n 2 du
2
u
Esta integral no existe sin embargo
15
n
X
i 1
i
n 0
n
Se distribuye N(0,1). Tomando f(u)=1/u como se sabe:
“Si f:N+ y limn f(n)=+, se tiene una constante real Q y para la sucesión (Xn), n>1,
f (n)X n Q ley
N (0, 2 ) , siendo la función g : derivable , entonces
f (n)g ( X n ) g (Q)
ley
N (0, g ' 2 (Q) 2 ) ’’
n
Xi
n f i 1
f ( 0 )
ley
N 0, f ' 0
n
De ahí que en este problema (n-0)n1/2 leyN(0, 0) pues I(0)= 02
La familia exponencial
Es un método de uso común buscar un EMV y tratar de hallar un estimador insesgado que
sea función de este. Se supone que haciendo esto se obtiene un estimador insesgado de
mínima varianza, considerando, erróneamente, que este es función de un estadístico
suficiente y minimal. Esto no es cierto excepto en ciertas familias de distribuciones. Una
de ellas es la exponencial. Cuando se trabaja con una densidad de la familia exponencial se
garantiza que el EMV sea función del estadístico suficiente minimal garantizándose su
unicidad. Consideremos esta familia .
{∑𝑘 𝜃𝑗 𝑇𝑗 (𝑥)+𝑤(𝜃)}
Proposición . Sea la familia 𝑓(𝑥; 𝜃) = ℎ(𝑥)𝑒 𝑗=1 , 𝑎 < 𝑥 < 𝑏, 𝜃𝑘 y
que se cumplen las hipótesis
∑𝑛𝑖=1 𝑇( 𝑋𝑖 ) 𝜕𝑤()
– = , 𝑖 = 1, … , 𝑘
𝑛 𝜕𝜃𝑖
16
Además la solución ̂ es única y es un estadístico suficiente minimal. Si ∇𝑤(𝜃) es vector
𝜕𝑤()
gradiente de ‖ 𝜕𝜃 , 𝑖 = 1, … , 𝑘‖ entonces 𝐸(∇𝑤(𝜃)) = ∇𝑤(𝜃),
𝑖
Demostración
En este caso
𝑛 𝑘 𝑛
Hallando sus derivadas obtenemos que el EMV sea una de las raíces del sistema de
∑𝑛
𝑖=1 𝑇(𝑋𝑖 ) 𝜕𝑤() 𝜕2 𝑙𝑜𝑔𝐿(𝑋1 ,…,𝑋𝑛 ,)
ecuaciones – = , 𝑖 = 1, … , 𝑘. Por otra parte por H2, como ,
𝑛 𝜕𝜃𝑖 𝜕𝜃𝑖 𝜕𝜃𝑗
la raíz del sistema es única y es un punto de máximo. Además dado que
𝑛 𝑛
(∑ T1 (𝑋𝑖 ) , … , ∑ Tk (𝑋𝑖 ))
𝑖=1 𝑖=1
Es un estadístico suficiente minimal la unicidad del estimador implica que 𝜃̂ = (𝜃̂1 , . . , 𝜃̂𝑘 )
es suficiente y por tanto minimal.
H3 garantiza que 𝐸(∇𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )) = 0, . De ahí que se cumpla lo
∑𝑛
𝑖=1 𝑇(𝑋𝑖 ) 𝜕𝑤()
establecido en la proposición que 𝐸 ( ) = −𝐸 ( ) , 𝑖 = 1, … , 𝑘 .
𝑛 𝜕𝜃𝑖
Note que el EMV puede existir incluso cuando H1 no es válida. En el caso analizado de
una distribución de la familia exponencial con el radio () de curvatura de
𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , ) en satisface la relación
𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
−
()−1 = 𝜕𝜃 2
3
2 2
𝜕 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
[1 + ( ) ]
𝜕𝜃
𝜕 𝑙𝑜𝑔𝐿(𝑋1 ,…,𝑋𝑛 ,)
Como = 0 el radio de curvatura del EMV está determinado por
𝜕𝜃
−1 𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
(𝜃̂) = −
𝜕𝜃 2
Considerando las condiciones de la proposición anterior la información de Fisher fija que
−1
−1 𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
(𝜃) = 𝐼(𝜃) = − [
̂ ̂ ]
𝜕𝜃 2
Otro razonamiento sostenido por este resultado es que dado la invarianza de los EMV si
j() =j(1,…,k) es la inversa de j(1,…,k) y tenemos el EMV
𝜃̂𝑗 = 𝜃𝑗 (𝜑̂1 , … , 𝜑̂𝑘 ), 𝑗 = 1, … , 𝑘
Reparametrizando tenemos que
{∑𝑘 (𝑥)+𝛾(𝜑)}
𝑓(𝑥; 𝜃) = ℎ(𝑥)𝑒 𝑗=1 𝜑𝑗𝑇𝑗 ,
𝜑 = (𝜑1 , … , φk ), 𝛾(𝜑) = 𝑤(𝜃1 (𝜑̂1 , … , 𝜑̂𝑘 ), … , 𝜃𝑘 (𝜑̂1 , … , 𝜑̂𝑘 ))
17
La proposición anterior fija que necesariamente posee derivada continuas respecto a cada
j, j=1,…,k. La matriz de derivada generada por las transformaciones es
𝜕𝑗 (𝜑)
𝐻=‖ , 𝑗 = 1, … , 𝑘‖
𝜕𝜑𝑗
Consideremos que esta es no singular, esto es 1 ,…k son linealmente independientes. El
gradiente es ahora
Ejemplo. Sea la muestra normal bivariada independiente {(Xi, Yi), i=1,…,n} con E(Z)=0,
Z=X, Y. y matriz de correlación
1 𝜌
𝑉=[ ],
𝜌 1
La densidad de la normal bivariada la podemos escribir en términos de la familia
exponencial como
1
𝑓(𝑥, 𝑦) = 𝑒𝑥𝑝{𝜑1 𝑇1 (𝑥, 𝑦) + 𝜑2 𝑇2 (𝑥, 𝑦) + 𝛾(𝜑1 , 𝜑2 )},
2𝜋
1 𝜌 ln(4𝜑12 −𝜑22 )
𝑇1 (𝑥, 𝑦) = 𝑥 2 + 𝑦 2 , 𝑇2 = 𝑥𝑦, 𝜑1 = − 2𝜎2 (1−𝜌2 ) , 𝜑2 = 𝜎2 (1−𝜌2 ) , 𝛾(𝜑1 , 𝜑2 ) = 2
Derivando obtenemos
𝜕 4𝜑1 𝜕 𝜑2
𝛾(𝜑1 , 𝜑2 ) = 2 2, 𝛾(𝜑1 , 𝜑2 ) = − 2
𝜕𝜑1 4𝜑1 − 𝜑2 𝜕𝜑2 4𝜑1 − 𝜑22
2𝜑 𝜑2
Dado que 𝜎 2 = − 4𝜑2 −𝜑
1
2,𝜌 = − aplicando el hecho de los EMV son invariantes
1 2 2𝜑1
∑𝑛 2
2 𝑖=1 𝑋𝑖 + 𝑌𝑖2 4𝜑̂1
𝜎̂ =
2𝑛 4𝜑̂12 − 𝜑̂22
18
∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
𝜌̂ = 2 𝑛
∑𝑖=1 𝑋𝑖2 + 𝑌𝑖2
La matriz de información de Fisher en términos de 1 y 2 es obtenida al calcular
19
EL MÉTODO DE LOS MOMENTOS
µi() = E(X i | )
a los muestrales
que utiliza los estimadores W1, W2, ..., Wk de los momentos desconocidos al resolver el
sistema de ecuaciones
Tenemos k ecuaciones con k incógnitas por lo que el sistema puede ser resuelto.
Como se sabe Mi(X) tiene una distribución que converge a una normal. Por tanto un
estimador de momentos es asintóticamente normal.
Por ejemplo, si tenemos la muestra (X1, X2, ..., Xn) de la misma distribución con media y
varianza desconocidas
𝑛
𝑋𝑖
𝑀1 = ∑ ,
𝑛
𝑖=1
20
𝑛
(𝑋𝑖 − 𝑀1 )2
𝑆𝑛2 =∑ = 𝑀2 − 𝑀12
𝑛
𝑖=1
Ejemplo Si X(P,) como E(X)=P/ y V(X)=P/2 tenemos que son estimadores de ellos:
Sn2 =M2-M12 por lo que P/Sn2 estima a 2 y Sn22 a P; =Mn estima a P.
Sustituyendo obtenemos como estimadores de momento a p*=Mn2 /Sn2 y *= Mn /Sn2.
Los estimadores de momento pueden ser una opción mejor que la de utilizar Estimador
Máximo Verosímil.
Ejemplo. Si XU (0,) su esperanza es 𝐸(𝑋) = /2 . Al tomar una muestra de tamaño n
𝜃2
𝐸(𝑋̅) = 𝜃/2. Entonces 𝜃̂𝑛 = 2𝑋̅ cuya varianza es 𝑉(𝜃̂𝑛 ) = 4𝑉(𝑋̅) = . Entonces la 3𝑛
𝜃2
̂𝑀𝑉 )
𝑉(𝜃 𝑛(𝑛+2) 3
eficiencia relativa es ̂𝑛 )
= 𝜃2
= 𝑛+2 ≤ 1. Por tanto el estimador de momentos es
𝑉(𝜃
3𝑛
más eficiente que el Estimador Máximo Verosímil.
De ahí que
√3𝑛(𝜃̂𝑛 − 𝜃)
~𝑁(0,1) 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒
𝜃
La velocidad de convergencia es rápida pues se usa directamente el TCL.
Sea X una VA con una ley de probabilidad P, y una muestra iid. La VA es
discretizada haciendo una partición C1,…,Ck de su espacio de definición. Sea ni el número
de observaciones clasificadas en la clase Ci. El vector (n1,…,nk)T es una variable con
distribución multinomial
𝑘 𝑘 𝑘
𝑛! 𝑛
𝑀(𝑛, 𝑝1 , … , 𝑝𝑘 ) = ∏ 𝑝𝑖 𝑖 , ∑ 𝑛𝑖 = 𝑛, ∑ 𝑝𝑖 = 1.
∏𝑘𝑖=1 𝑛𝑖 !
𝑖=1 𝑖=1 𝑖=1
Algunas medidas Chi cuadradas son
𝑘
(𝑛𝑖 − 𝑛𝑝𝑖 )2 2
𝐷𝑃 (𝜃) = ∑ , 𝑑𝑒 𝑃𝑒𝑎𝑟𝑠𝑜𝑛
𝑛𝑝𝑖
𝑖=1
𝑘
(𝑛𝑖 − 𝑛𝑝𝑖 )2 2
𝐷𝑁 (𝜃) = ∑ , 𝑑𝑒 𝑁𝑒𝑦𝑚𝑎𝑛
𝑛𝑝𝑖
𝑖=1
21
𝑘
𝑛𝑖 2
𝐷𝑉 (𝜃) = 2 ∑ 𝑛𝑖 log , 𝑑𝑒 𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑
𝑛𝑝𝑖
𝑖=1
𝑘
𝑛𝑝𝑖 2
𝐷𝐾 (𝜃) = 2𝑛 ∑ 𝑛𝑖 log , 𝑑𝑒 𝐾𝑢𝑙𝑙𝑏𝑎𝑐𝑘
𝑛𝑖
𝑖=1
𝑘
𝑓𝑖 𝑝𝑖 2 𝑛𝑖
𝐷𝐿𝐵 (𝜃) = ∑ 𝑛𝑓𝑖 (1 − 𝑓𝑖 ) ( log − 𝑙𝑜𝑔 ) , 𝑓𝑖 = ,
1 − 𝑓𝑖 1 − 𝑝𝑖 𝑛
𝑖=1
2 𝑑𝑒 𝐿𝑜𝑔𝑖𝑡 𝑑𝑒 𝐵𝑒𝑟𝑘𝑠𝑜𝑛
Este tiene una serie de propiedades similares a los de los EMV. Esto es obtenido al analizar
la relación entre los problemas de minimización de las medidas Chi-cuadradas y la
𝑛! 𝑘 𝑘
maximización de log log ∏𝑘 ∏𝑘𝑖=1 𝑝𝑖𝑛𝑖 = log 𝑛! + ∑𝑖=1 log 𝑛𝑖 + ∑𝑖=1 𝑛𝑖 log 𝑝𝑖
𝑖=1 𝑛𝑖 !
Entonces tenemos
𝑓𝑥2
D()=∑𝑛𝑥=0 𝑝
𝑥 ()
22
𝑛 𝑛
Este es un problema numérico que podemos resolver usando un método como el de Newton
usando como punto inicial 𝑋̅.
𝑦 − ℎ𝑥 (𝑋̅) 𝜕
= ( ℎ𝑥 ())
− 𝑋̅ 𝜕 =𝑋̅
ℎ𝑥 (𝑋̅)
+ 𝑋̅ =
𝜕
( ℎ𝑥 ())
𝜕 =𝑋̅
Como
𝑛
𝜕 𝑥 2 𝑥
ℎ𝑥 () = ∑ ((1 − ) + 2 ) 𝛾𝑥 ()
𝜕
𝑥=0
Estimación de E(X)
i) Es un estimador insesgado de
ii) 𝑋̅ →𝑐𝑠 𝜃
𝑉(𝑋)
iii) Si las variables son iid 𝑉(𝑋̅) = 𝑛 →𝑛→∞ 0
Si la muestra no es independiente
Estimador Equivariante
Demostración
24
Lo podemos escribir como
Estimador de Pitman
Demostración
Tomemos 𝑇(𝑋1 , … . , 𝑋𝑛 ) = 𝑈𝑎 (𝑋1 , … . , 𝑋𝑛 )𝐸0 (𝑈𝑎 𝑌) + (𝑌) se sigue que T, T=TP
+(Y). Para que sea un estimador de Pitman debe cumplirse que R(TP,) R(T,), T.
Como
El último término es
E0(TP(T-TP))= E0(TP(Y))=EY E0Y(TP(Y))= EY((Y) E0Y(TP)=0
E0(T2)=E0(T-TP)2+ E0(TP)2
̅ 𝑋1 𝑜 𝑋(1)
Nota . En la práctica lo usual es que se utilice 𝑈𝑎 = 𝑋,
25
Y la condicional
𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)
𝑓𝑋1 𝑌 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥) =
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)𝑑𝑥
Entonces
∫ 𝑥 𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)𝑑𝑥
𝐸0 (𝑋1 𝑌) =
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)𝑑𝑥
Tomando x=x1-u
∫ (𝑥1 − 𝑢) 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
𝐸0 (𝑋1 𝑌) = =
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
∫ 𝑢 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
= 𝑥1 −
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
Esto justifica el siguiente resultado
Ejemplo. Sea X una variable con distribución N(,1) y {X1,..,Xn} una muestra iid y la
transformación A:nn tal que
𝑋̅
𝑋1
𝑋 − 𝑋1 𝑈
( ⋮ )→( 2 )=( )
⋮ 𝑌
𝑋𝑛
𝑋𝑛 − 𝑋1
La distribución conjunta de (X1,..,Xn)T es
1 00 ⋯ 0
010 ⋯ 0
𝑁 (⋮) , ⋮⋮⋮⋮∙ ⋯ ⋮
𝜃 𝑛×1 00 ⋯ 1
( ( )𝑛×𝑛 )
La matriz de la aplicación lineal es
1 1 1
⋯
𝑛 𝑛 𝑛
−1 1 ⋯ 0
𝐴=
⋮ ⋱ 0
⋮ ⋱0
( 1 01 )
Entonces podemos decir que
26
1
0⋯0
𝜃 𝑛
0 2 1⋯
𝑈 0
( ) ~𝑁 ( ) , 𝐴𝐴𝑇 , 𝐴𝐴𝑇 = ⋮ 1 ⋱ 0
𝑌 ⋮
⋮ 0 ⋱ 0
0
( ) ⋮ 1
( 0 ⋯ 0 12 )
Estimación de V(X)=
2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 ∑𝑛𝑖=1 𝑋 2 𝑖 − 𝑛𝑋̅ 2
𝑆 𝑛 = =
𝑛 𝑛
Este no es insesgado. Sin embargo podemos hacer una pequeña transformación para
obtener uno que si lo sea. Frecuentemente usamos
2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆 𝑛−1 =
𝑛−1
Por tanto
𝜃̂ = 𝑆 2 𝑛−1 /(1 − 𝜌)
27
es insesgado.
Ejemplo. Sea X una variable con distribución Poisson y tomemos una muestra iid de esta
distribución. En este caso tenemos dos estimadores intuitivos de .
𝜃̂𝑚 = 𝑋̅, 𝜃̂𝑣 = 𝑆𝑛2
Ahora
𝜃 𝑛𝜃(1 + 2𝜃)
𝑉(𝜃̂𝑚 ) = 𝑉(𝑋̅) = , 𝑉(𝜃̂𝑣 ) = 𝑉(𝑆𝑛2 ) =
𝑛 (𝑛 − 1)2
La eficiencia relativa es
𝑉(𝜃̂𝑚 ) (𝑛 + 1)2
= 2 <1
𝑉(𝑋̅) 𝑛 (1 + 2𝜃)
Por lo que es preferible estimar usando la media que usando la varianza muestral.
En particular
2
(𝑛 − 1)𝑆𝑛−1 𝑛−1
𝑌= 2
~( , 1)
2𝜎 2
2𝑌
Haciendo el cambio de variable 𝑆𝑛−1 = 𝜎√𝑛−1
𝑛−1
𝑛−1 2
𝑛−1 2 − 𝑠
2𝜎2 𝑠 𝑛−2
( 2 ) 𝑒
𝑓𝑆𝑛−1 (𝑠) = 2𝜎 , 𝑠+
𝑛−1
( 2 )
28
Se sabe que para la ley gamma
𝑛−1
( 2 + 𝑘)
𝑘)
∀𝑘 > 0, 𝐸(𝑌 =
𝑛−1
( 2 )
Considerando
𝑛−1
2𝑘
(𝑛 − 1)𝑘 𝑆𝑛−1 ( 2 + 𝑘)
𝐸( )=
2𝑘 𝜎 2𝑘 𝑛−1
( 2 )
Si k=1/2
𝑛
√𝑛 − 1 𝑆𝑛−1 (2 )
𝐸( )=
𝑛−1
√2 𝜎 ( 2 )
De ahí que
√2 𝜎 (𝑛)
𝐸(𝑆𝑛−1 ) = 2
𝑛−1
√𝑛 − 1 ( 2 )
√2 (𝑛)
𝐵(𝑆𝑛−1 ) = ( 2 − 1) 𝜎
𝑛−1
√𝑛 − 1 ( 2 )
29
Se prueba la proposición.
Se sabe que
S2n-1cs2 si n.
2
√𝑛(𝑆𝑛−1 − 𝜎 2 ) →𝐿𝑒𝑦 𝑁(0, √𝜇4 − 𝜇 2 2 ) y en el caso normal 4=34 y 22=4
Propiedades
i) 𝑆𝑛−1 →𝑐𝑠 𝜎
2
ii) √𝑛(𝑆𝑛−1 − 𝜎 ) →𝐿𝑒𝑦 𝑁(0, 𝐼()), 𝐼() = 𝜎2
√2 (𝑛)
2
iii) 𝐵(𝑆𝑛−1 ) = ( 𝑛−1 − 1) 𝜎 →𝑛→∞ 0
√𝑛−1( 2 )
−1
√2 (𝑛)
2
iv) 𝑇 = 𝑆𝑛−1 ( 𝑛−1 ) →𝑛→∞ 𝜎
√𝑛−1( 2 )
Propiedades
i) Convergen a
ii) Son asintóticamente normales con varianza 2/2
MÉTODO BAYESIANO
30
Consideremos que y que la medida de probabilidad que describe la aleatoriedad de
X, P. Esta es generada como la ley marginal de () la que describe el comportamiento
de . El estudio del problema de la estimación de es llevado a cabo a través de
considerar las densidades asociadas a estas medidas: f () y f (x|). Dado el marco que
utilizamos podemos escribir
f ( x, ) f ( x | ) f ( ) f ( | x) f ( x)
f ( x) f ( x | ) f ( )d
Como deseamos hacer una decisión sobre el valor de el problema de estimación puntual
Bayesiana no es sino el de buscar una regla Bayesiana, que como vimos consiste en, fijar
una función de pérdida L ( ˆ, ) dada la distribución a priori (). Es decir, debemos
minimizar al esperanza a posteriori, o sea resolver el problema de optimización
si L(ˆ, ) (ˆ ) 2
31
p q p 1
1
f ( x) f x | f d C xn x (1 ) n x (1 ) q 1 d
0
p q
p q p q p x n q x
1
C xn
p q 0
x p 1 (1 ) nq x1 d C xn
p q n p q
f ( x | ) f ( ) p q n q x
f ( | x) x p 1 (1 ) n q x 1
f ( x) n p q
Xp
Entonces f ( | x) p x, n p x ˆ
n pq
f ( x, ) f ( x | ) f ( , )d
y
f x | f ,
f | x cs(M)
f x
El estimador de Bayes es, para la función de pérdida cuadrática,
0 1
x 1
x!
32
La a posteriori es calculada y se obtiene
f ( x | ) f ( , ) 1 x
f ( | x, ) (1 ) x1 exp (1 )
f ( x) x!
De ahí que f(|x, ) es la densidad de una variable con distribución exponencial (x+1,
+1), +. Calculemos la regla de Bayes. Esta es
X 1
(1 ) x1 exp (1 ) d
1 x1
ˆB ( X , )
x! 1
El EMV de es =X-1 por lo que
X 1
ˆBE ArgMinˆ f ( | x, * ( X ))d X
1
1
X
Tomando D como el conjunto de las posible decisiones (estimadores )tal que todo dD,
d:, es una función A-medible sobre . Fijamos una función de pérdida L(,d) definida
sobre D como L(,d)=()Wd(x)-. La función de riesgo de la regla (estimador ) d es
Este riesgo es considerado una función sobre para cada estimador d. El riesgo a priori de
d respecto a () es
Como L (, d)=() Wd(x)-. Es acotada en para cada también lo está R (, d) para
cada d. Dado que W ()0 podemos fijar que R (, d) puede expresarse como
33
Definició. El riesgo a posteriori de d dada la distribución a priori () dado que X=x es
𝑅(, 𝑑) = ∫ ()𝑊(|𝑑(𝑥) − 𝜃|)(𝑑𝑥).
El principio Bayesiano considera que una vez que tenemos la realización de la variable
aleatoria X=x solo es relevante analizar el riesgo a posteriori.
O sea que
Demostración
El problema práctico más importante es determinar la distribución a priori para los modelos
que aparecen más frecuentemente en la práctica. Este plantea la selección de las llamadas
distribuciones apriori conjugadas.
34
De ahí que el estimador Bayesiano es aquel que maximiza el término entre corchetes.
Diferenciando obtenemos las densidades respectivas y el máximo T0 debe satisfacer la
ecuación 𝜑(𝑇0 + ∆ − 𝜀) = 𝜑(𝑇0 − ∆ − 𝜀). De la condición de simetría de la densidad de
una normal se tiene que T0= es la única raíz. Como la segunda derivada del sistema en T0
𝑑(𝑇𝑛) 𝑇𝑛
es -2() este es un punto de máximo. Denotando 𝑇 = 1
,𝜀 = 1 el estimador
√𝑛+ 𝑛+
𝜏 𝜏
𝑇𝑛
Bayesiano es 𝜇̂ 𝜏 (𝑇𝑛 ) = 1 y es único.
𝑛+
𝜏
Nota . lim 𝜇̂ 𝜏 (𝑇𝑛 ) = 𝑋̅.
𝑛→∞
Se puede probar que se puede mejorar las decisiones Bayesianas tomando en cuenta una
clase más amplia de estimadores que contenga reglas aleatorizadas. Los estimadores
aleatorizados son la distribuciones condicionales definidas sobre el espacio paramétrico .
El estadístico condiciona al resultado X=x y genera aleatoriamente un valor del parámetro
usando la distribución condicional (X=x). en este contexto un estimador no
aleatorizado no es más que aquel en que el punto 𝜃̂(𝑋) tiene probabilidad uno. Esto es lo
que soporta el uso de métodos intensivos de computación en la practica de la aplicaciones
en el contexto del principio bayesiano. En todo caso si la función de perdida es convexa, y
se tiene pleno conocimiento del problema es preferible usar el estimador no aleatorizado
pues partiendo de la función de riesgo
35
Los L-estimadores se basan en los estadísticos de orden. Al tomar la muestra esta se
ordena: (X1,…,Xn) (X(1),…,X(n)), X(1)…X(n). El prefijo “L” es fijado por el sentido de
que estos son estimadores lineales
Los coeficientes an,i son denominados scores y son generados por un medida positiva M
sobre I=0,1. Si le particionamos en
𝑖−1 𝑖
𝐼(𝑖) = [ , ] , 𝑖 = 1, … , 𝑛
𝑛 𝑛
Son L-estimadores
1
𝑇 = 𝑋̅, 𝑎𝑛,𝑖 = 𝑛 , 𝑖 = 1, … , 𝑛, la media aritmética
𝑋 1 𝑛
𝑖
𝑇(𝑟) = ∑𝑖∈{𝑟+1,…,𝑛−𝑟} 𝑛−2𝑟 , 𝑎𝑛,𝑖 = 𝑛−2𝑟 , 𝑟 = 1, … , ⌊ 2⌋ la media r-truncada
𝑋 +𝑀 0 𝑠𝑖 𝑡 ≠ 𝑖, 𝑗
𝑇 = 𝑀(𝑖, 𝑗) = (𝑖) 2 (𝑗) 𝑎𝑛,𝑡 = {1 , estimador de Hodges-Lehmann
𝑝𝑎𝑟𝑎 𝑡 = 𝑖, 𝑗
2
A esta pertenecen
36
Mínima distancia absoluta en la que se minimiza la norma L1: (x,)=x-
Su nombre proviene del uso de los rangos. Si Xi ocupa el lugar Ri en la muestra ordenada. O
sea si 𝑋𝑖 = 𝑋(𝑅𝑖 ) podemos usar los rangos como substitutos de los valores de X. Los
estadísticos que se basan en ellos son denominados estadísticos de rango.
Los scores an(Ri) son generados por una función genérica 𝐽: ]0,1[ → .
Es frecuente usar
𝑖−0,5
𝑎𝑛 (𝑅𝑖 ) = 𝐽 ([ ])
𝑛
𝑖
𝑎𝑛 (𝑅𝑖 ) = 𝐽 ([𝑛+1])
𝑎𝑛 (𝑅𝑖 ) = 𝑛 ∫[𝑖−1, 𝑖 [ 𝐽(𝑡)𝑑𝑡
𝑛 𝑛
BIBLIOGRAFÍA
37
Kupperman, M. (1958) Probabilities of Hypotheses and Information-Statistics in
Sampling from Exponential-Class Populations, Annals of Mathematical Statistics, 9
, 571–575.
Lehmann, E. L. & Casella, G. (1998): Theory of Point Estimation (2nd ed.):
Springer, N. York.
Maronna, R., R. Douglas Martin & V. Yohai (2006): Robust Statistics - Theory and
Methods. Wiley
Mukhopadhyay, Parimal (2004): An Introduction to Estimating Functions.: Alpha
Science International, Ltd. Press, Harrow, UK.
Newey, W.; McFadden, D. (1994): Large sample estimation and hypothesis testing.
In Handbook of Econometrics, Vol. 4, Elsevier Science.
Serfling, R.J. (2002): Approximation theorems of mathematical statistics. Wiley
Series in Probability and Mathematical Statistics. John Wiley & Sons Inc.,
Hoboken, NJ:.
Shao, J; (2003): Mathematical Statistics. ( 2nd edition): Springer;
Stat 543 Spring (2005): Minimal Sufficient Statistics in Exponential families,
http://www.public.iastate.edu/~vardeman/stat543/Handouts/Bahadur.pdf,
consultado Septiembre 12, 2012.
Small, C. & G.; Jinfang Wang (2003): Numerical methods for nonlinear estimating
equations. Oxford Statistical Science Series. 29. New York.
Tassi, P. (2004): Methodes Statistiques. Economica, Paris
Teukolsky, W.H., SA., Vetterling, W. T. & Flannery, B.P. (2007):"Section 15
Robust Estimation", Numerical Recipes: The Art of Scientific Computing (3rd ed.),
Cambridge University Press, New York:
Young, G. A. & Smith, R. L. (2005): Essentials of Statistical Inference. Cambridge
University Press.
EJERCICIOS
1. En una urna tenemos N bolas numeradas pero N no se conoce. Un decisor desea
saber cuantas bolas hay. Selecciona una bola anota su número (uno entre 1 y N) y la
reemplaza y repite el experimento n veces. basándose en los números observados X1,..,Xn.
halle el estimador
a) De momentos
b) El EMV.
38
4. Pruebe que
0 𝑠𝑖 𝑝 = 1
1 𝑛+2 1
𝐸(𝑝𝑛 − 𝑝)2 = {( ) 𝑠𝑖 𝑝 =
2 2
39
11. Sea una variable aleatoria con momento de segundo orden
𝜋
∫−𝜋 𝑡 2 (1 + cos(𝑡))𝑑𝑡
𝜇2 =
2𝜋
∑𝑛 2
𝑖=1 𝑋𝑖 𝜋2
Pruebe que 𝛼̂ = 0,5 ( − )
𝑛 3
12. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Uniforme U(0,)
siendo >0 Derive que 𝛼𝑀 = 2𝑋̅.
13. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Gamma (, ), pruebe
𝑋̅
usando del método de momentos que los estimadores 𝛼̂ = 2 , 𝛽̂ = 𝛼̂ −1
𝑆𝑛
14. Si tenemos la muestra 1,25 3,45 1,03, 1,29 3,21 4,01 3,29 1,12 y las
distribución es la dada en el ejercicio anterior estime sus parámetros.
15. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Beta (,1) pruebe
usando el método de los momentos que estima el estimador M= M1 / (1 – M1 ).
16. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Pareto Par(), > 1
diga si le estima U = M1/ (M1 - 1).
17. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Uniforme U(0,)
siendo >0 Derive que 𝛼𝑀 = 2𝑋̅.
18. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Gamma (, ), pruebe
𝑋̅
usando del método de momentos que los estimadores de estos son 𝛼̂ = 2 , 𝛽̂ = 𝛼̂ −1
𝑆𝑛
19. Sea X1, . . . ,Xn una muestral aleatoria iid con función de densidad
𝑓(𝑥|𝜃) = 𝑒 −(𝑥−𝜃) , 𝑥>0
(a) Pruebe que X(1)=Min (X1, . . . ,Xn) es EMV de .
(b) Pruebe que este estimador es sesgado y consistente (halle su densidad y compruebe
que su esperanza es +1/n).
(c) Halle es estimador de momentos y compare los dos estimadores.
|𝑥−𝑎|
𝑒𝑥𝑝(− )
20. Sea la distribución doble exponencial (𝑓(𝑥|𝑎, 𝑏)) = 𝑏
, 𝑥, 𝑎, 𝑏 >
2𝑏
0, 𝐸(𝑋) = 𝑎 = 1, 𝑉(𝑋) = 𝑏 2
a) De momentos
b) El EMV.(considere la muestra ordenada y considere los casos n par e impar por
separado.).
20 Sea X1, . . . ,Xn una muestra aleatoria iid con función de densidad
𝜃 3 𝑥 2 𝑒 −𝜃𝑥
𝑓(𝑥|𝜃) = , 𝑥>0
2
(a)Halle un EMV para y halle su esperanza.
1
(b) pruebe que es insesgado 𝜃̂ = 2 ∑𝑛𝑖=1 𝑛𝑋 .
𝑖
(c) Halle 𝑉(𝜃̂).
21. Sea X1, . . . ,Xn una muestral aleatoria iid con función de densidad Poisson,
E(Xi)=mi, >0, mi conocidas, i=1,…,n. y *= log .Halle su media y varianza.
Y el EMV de *.
40
22. Si X1, ..., Xn es una sucesión de variables Bernoulli con el mismo parámetro 0<p<1
y Y= X1 + ··· + Xn pruebe que es un estimador insesgado de mínima varianza para 𝜎 2 =
𝑌 𝑌2
𝑝(1 − 𝑝) 𝑒𝑠 𝜎̂ 2 = 𝑛 − 𝑛(𝑛−1).
23. Si X1, ..., Xn es una sucesión de variables Poisson y Y= X1 + ··· + Xn pruebe que es
𝑛 −𝑌
un estimador insesgado de mínima varianza para 𝑃(𝑋 = 0) 𝑒𝑠 (𝑛−1) .
24. . Se considera una población representada por una variable aleatoria X , de suerte
que ϑ y σ , representan los parámetros media y varianza poblacional,
respectivamente. Si estimamos la media poblacional, ϑ , a través de la media
muestral x a comprobar que dicho estimador es consistente (Supuesto extraídas
muestras de tamaño n, muestreo aleatorio simple).
25. La función de densidad f(x; a) = ae-ax, x ≥ 0, contiene el parámetro a, del cual se
sabe que puede tomar uno de los tres valores siguientes: 0,5; 1; 1,5. Se toma una
muestra aleatoria de tamaño uno, resultando un valor comprendido entre 1,7 y 2,6.
Basándose en el principio de estimación de la máxima verosimilitud, determínese, a
partir de la información suministrada por la muestra, por cual de los tres valores que
puede tomar el parámetro debemos optar.
26. El tiempo de vida de una determinada especie animal sigue una distribución
exponencial Exp. ( ) La cual tiene por función de densidad con X>0 y siendo
>0 un parámetro desconocido. Con objeto de estimar el parámetro y, en
consecuencia, la ley de probabilidad que rige su tiempo de vida, se tomó al azar una
muestra aleatoria de diez animales de la especie en estudio, obteniéndose los
siguientes tiempos de vida en días: 1456, 900, 1450, 650, 666, 943, 790, 840, 790,
840 y 1500.
Determinar la estimación de máxima verosimilitud del parámetro .
27. El tiempo de vida en días X de los individuos de una población afectados de una
nueva enfermedad es una variable aleatoria continua con función de densidad
f (x) = 2φ 2x−3 φ si x > 0 y f (x) = 0 φ si x ≤φ siendo φ > 0 un parámetro
desconocido. Con objeto de estimar el parámetro φ , se extrajo una muestra
aleatoria simple de dicha población, obteniéndose los siguientes tiempos de vida, en
días, de los 10 individuos seleccionados, todos los cuales fallecieron por la
enfermedad en estudio: 398, 356, 615, 265, 650, 325, 400, 223, 368, 680.
Determinar la estimación de la máxima verosimilitud de φ .
28. Si X=A+BZ+e, E(e )=0, V(e )=Q y A, B son parámetros desconocidos halle
estimadores de A y B usando el método de los mínimos cuadrados. Derive si este es
insesgado.
EJERCICIOS AVANZADOS
41
3. Sea una variable con distribución de la familia de Pareto 𝑓(𝑥; 𝛼, 𝜎) =
𝜎 𝛼 𝜎+1
{𝛼 ( 𝑥 ) 𝑠𝑖 𝑥[𝛼, ∞[, 𝜎+ , +
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Halle el estimador insesgado optimo de si X1,…,Xn es una sucesión de variables
aleatorias iid con conocida .
4. Sean X1,…,Xn variables aleatorias iid con una densidad del tipo +(1,1) descrita
−(𝑥−𝛼)
como 𝑓(𝑥; 𝛼) = {𝑒 𝑠𝑖 𝑥 ≥ 𝛼,
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Derive el estimador insesgado óptimo de la función de distribución.
5. Sea X1,…,Xn una sucesión de variables aleatorias iid con densidad Pareto
𝜎 𝛼 𝜎+1
𝑓(𝑥; 𝛼, 𝜎) = {𝛼 (𝑥 ) 𝑠𝑖 𝑥[𝛼, ∞[, 𝜎+ , +
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Halle el estimador insesgado óptimo de r
6. Sea X1, . . . ,Xn una muestra aleatoria iid con función de densidad
𝑒 −𝜃 𝜃 𝑥
𝑓(𝑥|𝜃) = , 𝑥 = 1,2, ..
(1 − 𝑒 −𝜃 )𝑥!
𝑋 𝑠𝑖 𝑋𝑖 ≥ 2
Tomando 𝑌𝑖 = { 𝑖
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Pruebe que 𝑌̅ es un estimador insesgado y eficiente con eficiencia con
1 − 𝑒 −𝜃
𝐸𝑓(𝑍̅) =
1 − (𝜃𝑒 −𝜃 (1 − 𝑒 −𝜃 ))−2
42