Está en la página 1de 19

DEPARTAMENTO DE ESTADISTICA

INFERENCIA
M.V.H.-2016-II

CAPITULO 2
ESTIMACION PUNTUAL
Informalmente estimacin es el proceso de extraccin de informacin de los datos acerca del valor de un cierto
parmetro.
Los datos se asumiran como los resultados de una muestra al azar de alguna poblacin y el parmetro a ser
estimado ser una caracterstica global de la poblacin.
Sean x" x# ... los resultados de observaciones sucesivas. La clave de aplicar mtodos estadsticos es
considerar los datos x" x# .... como valores de algunas variables aleatorias X" , X# ,.... Esto implica hacer uso
del hecho de que si algn experimento de tomar n observaciones fuera a repetirse, el nuevo conjunto de puntos
probablemente ser diferente. Las leyes estadsticas que gobiernan la variabilidad de los datos, bajo la hipottica
o real repeticin, constituye la base en la cual podemos construir la teora de inferencia estadstica. En la teora
de estimacin se supone que la distribucin de la i-sima observacinm Xi es conocida, excepto por el valor del
parmetro, digamos ). Un estimador de ) es entonces una receta o regla, que nos permite calcular una
aproximacin del parmetro basado en la muestra X" X2 ,....,Xn .
Un estimador puntual para el parmetro ), es cualquier funcin T(X1 ,...,Xn ) de una muestra aleatoria, esto es,
cualquier estadstico es un estimador puntual. Como T es una variable aleatoria, entonces es natural hacerse las
dos preguntas siguientes:
1.- Cmo podemos juzgar la calidad de los estimadores (con la idea de elegir el mejor estimador)?
2.- Hay mtodos para obtener estimadores?
El intento sistemtico de responder ambas preguntas conduce a una de las historias exitosas en estadstica, que
lleva a una teora con estructuras conceptuales claras y elegantes apoyada por teoremas poderosos.
La situacin emprica es que observamos valores de variables independientes X" X2 ,....,Xn. muestreada de la
misma distribucin f(x/)). Esta distribucin depende de un parmetro, el cual en una situacin real puede asumir
algn valor ) (desconocido para el observador) en un espacio paramtrico @. En otras palabras, tratamos con
una familia de distribuciones indexada por ).
Por ejemplo:
Xi Bernoulli ()), )= p ;
; @ =(0, 1)
#
Xi N (), 5 ),
)= .
; @ =
Xi N (., )),
)= 5 #
; @ =+
Xi N ()" , )# ),
)=. 5# ; @ = x+
Por lo tanto, sea T= T(X" X2 ,....,Xn. ) el estimador para una muestra aleatoria de tamao n que elegimos como
medio para aproximarnos a ). T es una funcin de las observaciones X" X2 ,....,Xn que por supuesto no depende
de ).
Si (x1 ,...,xn ) son los valores observados de la muestra aleatoria (X1 ,...,Xn ), entonces:
Estimador de )= Funcin de la muestra = T(X1 ,...,Xn )=Variable aleatoria
Valor estimado de )= Funcin de los valores observados de la muestra = T(x1 ,...,xn )= Nmero fijo.

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

I.- METODOS CLASICOS PARA OBTENER ESTIMADORES


1. Mtodo por Analoga-Mtodo de los Momentos.
Este mtodo consiste simplemente en la construccin de una analoga muestral de alguna cantidad poblacional
que depende del parmetro, comparar los dos y resolver finalmente la ecuacin resultante respecto del
parmetro de inters. En la mayora de los casos la cantidad poblacional a considerar es un momento de la
variable. As el mtodo de construccin recibe ms bin el nombre de mtodo de momentos (Karl-Pearson
1800).
Mtodo de los Momentos. Sea ) un parmetro desconocido y suponga que deseamos estimar una funcin de ),
q()). Suponga que mj ()) = EX j ) , j=1, 2, ..,r son los r primeros momentos de la poblacin que se est
muestreando.
!Xi j
n

Definamos el j-simo momento muestral m


s j por : m
sj =

i=1

, j=1, 2,..
n
Para aplicar el mtodo de momentos al problema de estimar q()), necesitamos ser capaces de expresar q como
una funcin continua g de los primeros r momentos poblacionales. Esto es:
q())= g( m1 ()),....,mr ()
El mtodo de momentos, por analoga en la muestra, proporciona como estimador a
T(X
q()) = g( m
s 1 ,....,m
s r
)=s
donde se ha sustitudo los momentos poblacionales por los momentos muestrales.
Veamos algunos ejemplos.
Ejemplo 1. Considere una distribucin Poisson()) y suponga que se desea estimar q())=P(X=0) en base a una
muestra aleatoria de tamao n.
/) )0 )
Como q())=P(X=0)=
=/ y el primer momento poblacional en una distribucin Poisson()) es el propio
!x
parmetro ), tenemos que q()) se puede escribir en trminos de m1 ()) como:
q())=/m1 ()) =/E(X)

As el estimador por momentos es: s


q()) =/ ms " / X .
Ejemplo 2. Sea X U ), ), ) 0. Obtengamos el estimador por momentos de ).
)
"
)2
Como m1 ())=0 y m2 ()) = ( x2 dx =
#)
$
)
#

Podemos escribir q()) = )= 3 E(X ), de donde el estimador por momentos de ) es


s
) =3

!X #
i

Observacin. En general podemos decir que:


a) El mtodo de momentos conduce a procedimientos que son fciles de calcular y por lo tanto vlidos como
estimadores preliminares.
b) Si la muestra es de tamao grande, estos estimadores estn cercanos a los valores de los parmetros (son
consistentes).
2

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

c) La principal dificultad o desventaja es que no proporciona un nico estimador, ver Ejemplo 3 a continuacin,
e incluso pueden no ser razonables, ver Ejemplo 4.

Ejemplo 3. Sea X Poisson()). Como E(X)=), entonces un estimador por momentos de ) es X , pero como
!X#i

tambin )=Var(X) = E(X# ) (E(X))# , otro estimador por momentos de ) sera s


)=
X # =
n
(n1) 2
n S .
Ejemplo 4. Considere una poblacin con ) elementos, marcados consecutivamente de 1 a ). La poblacin es
muestreada con reemplazo y n elementos son observados registrndose sus etiquetas X1 ,...,Xn .
Determinemos el estimador por momentos para ), el tamao de la poblacin.
La funcin de probalidad para la observacin (etiqueta) X es
f(x/)) =

y E(X)=!x
)

x=1

"
)

"
)=

para x=1, 2,....,)


() +1)
#

Por lo tanto un estimador por momento para ) es s


) # X 1.

s
) no es un estimador razonable ya que si X(n) # X 1 se estara estimando el tamao de la poblacin con
un valor inferior a pesar que se observa una etiqueta mayor.

2. Mtodo de Mxima Verosimilitud


Sea X1 , X# Xn una muestra aleatoria de una distribucin f(x/)).
Si las observaciones son: X" x1 , X2 =x2 ,...,Xn =xn , entonces la distribucin conjunta de la muestra es :
f(x1 ,... xn /)) =f(x1 /)).... f(xn /)) = L()/(x1 ,... xn )

.......................

(2.1)

Como sabemos el producto (2.1), considerado como una funcin del parmetro ), se llama la funcin de
verosimilitud de la muestra.
Definicin 2.1.(Estimadores mximos Verosmiles). Dada una muestra observada (fija)
x = (x1 ,... xn ), el valor s
)
s
= ) (
x ) que maximiza la funcin de verosimilitud, se denomina el estimador mximo verosmil de ) (EMV de
)). Estos es
L( s
) (
x )/
x ) = Sup)@ L()/
x)
Ejemplo 5. Suponga que @=0 , "# y la funcin de probabilidades est dada a continuacin :
x
P)! (X=x)
P)1/2 (X=x)

1
0
0.1

2
1
0.9

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

As, si x=1 es observado, el nico estimador razonable de ) es s


) = "# , ya que el valor x=1 no podra haberse
producido cuando )=0. En cambio si se observa x=2 , entonces s
) =0.
Ejemplo 6. Determinemos el EMV para el tamao de una poblacin ( Ejemplo 4).
Notemos que en este caso el parmetro toma valores enteros, esto es @=.
La funcin de probabilidad conjunta para las etiquetas observadas x1 ,... xn es
"
f(x1 ,... xn /))=( )n para xi =1,....,) ai=1,..,n
)
As la funcin de verosimilitud es:

0
si ) xn ) )=1,2,..,x(n) "

" 2
(
) si )=x(n)
L()/x1 ,... xn )= x(n)

( " )n
si ) x(n) )=x(n " x(n #
)
Claramente esta funcin logra su mximo valor en )=x(n) y por lo tanto el EMV del tamao de la poblacin es
Xn) .
Por lo general, cuando ) es un escalar, los EMV pueden a menudo obtenerse slo por inspeccin.
Ejemplo 7. Obtengamos el EMV de la media de una distribucin normal con varianza conocida , en base a una
sola observacin x .
Aqu )=. y @=. Como f(x/.) =
"

"

"

#15#

"

/ #5# x.) _ x _ , entonces la funcin de verosimilitud es

#15#
que como una funcin de . corresponde al grfico de una densidad N(x, 5# que sabemos que logra su mximo
en el valor .=x. As el EMV de . es .
s=x.
L(./x) = f(x/.)=

/ #5# .x) , _ . _

Observacin. Si )=()1 , )# )k ) y la funcin de verosimilitud es diferenciable en )i , los posibles candidatos


para EMV son los valores de )1 , )# )k . que satisfacen
$ L(
) /x
) =0 , i=1,..,k
$)i
Ejemplo 8. Se tiene 5 ensayos Bernoulli independientes con probabilidad de xito ). Claramente es irrelevante
saber en qu ensayos se producen los xitos y en cuales los fracasos. Lo que interesa es conocer el nmero total
de xitos Y= !Xi .
5

i=1

La funcin de verosimilitud para Y=y es


L()/y) = f(y/)) = )y (1 ))5y , y=0, 1, 2, 3, 4, 5 en el espacio @=0, 1.
4

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

Para encontrar EMV de ) derivamos L()/y) respecto de ).

L )y) = y)y1 (1 ))5y )y (5 y)(1 ))4y =0


)y1 (1 ))4y (y 5))=0
La funcin L()/y) es maximizada en
Si y=1 , s
) =0.2.

y
para y=1, 2, 3, 4.
5

Si y=2 : s
) =0.4.

Si y=3: s
) =0.6.

Si y=4: s
) =0.8

Para y=0 : L()/0) = (1 ))5 y el mximo ocurre en )=0


Para y=5: L()/5) =)5 y el mximo ocurre en )=1
y
(aunque para y=0 e y=5 el resultado no se puede establecer
5.
tomando derivadas ya que los extremos ocurren en las fronteras de @).
En definitiva, el EMV de ) para un y dado es

Ejemplo 9. Sea X1 ,..,Xn iid N(), 1), entonces


1 n/2 "# !xi))2
L()/x1 ,... xn )=(
) /
21
"# !xi ) )2
dL
1
"xi )) =0
= ( )n/2 /
d ) 21
dL

entonces
=0 ssi "xi )) =0 ssi )=x
d)
Ahora

"
"
2
2
"xi ) )
"xi ) )
d# L d 1 n/2 #
1 n/2 #
"xi )) # n
"xi )) = ( ) /
=
) /
#
d ) d ) 21
21
de donde
"
"xi
x )2
d L
1 n/2 #
) # n
= ( ) /
"xi nx
)

x
#
d)
21
"
"xi
x )2
1 n/2 #
nx
) # n
nx
=( ) /
21
"
"xi
x )2
1 n/2 #
= n( ) /
0.
21
#

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

Por lo tanto el EMV de ) es X .


Observacin. Dado que L()/x
) es la probabilidad (al menos proporcional) de observar los valores muestrales
x , ella es siempre no negativa para cualquier valor posible de ), as podramos considerar, en la bsqueda del

EMV el logaritmo natural de L() /x


). Dado que la funcin ln es una funcin estrictamente creciente en (0, _)
ln
) /x
entonces Mx L() /x
)
y
Mx
(L(

)) coinciden. Por lo tanto, si @ es abierto y 68(L() /x


)) es diferenciable
s
en ) para
x fijo, entonces ) (x
) existe y debe satisfacer la ecuacin de verosimilitud
d
ln(L(s
) /x
))= 0.
d)
Ejemplo 10. Sea X el nmero de clientes que llegan a una estacin de servicio durante n horas. Si suponemos
que las llegadas constituyen un Proceso de Poisson, entonces X Poisson(n-), donde - representa el nmero
de llegadas en una hora o simplemente la tasa de llegada que deseamos estimar. En la prctica - 0 .
Como X toma los valores 0,1, 2, ... con probabilidades
/n- -n)x
P(X=x) f( x/-) =
, x=0, 1, 2,...
x!
y la funcin de verosimilitud es L(-/x) =

/n- -n)x
,-0
x!

entonces la ecuacin de verosimilitud es :


d
x
ln(L(-/x))= n + =0
ds= x
que tiene como solucin nica n
Si x 0 este es el estimador mximo verosmil de -. Si x=0 el EMV de - no existe, sin embargo el mximo es
aproximado cuando - tiende a 0.

Algunas Propiedades de los Estimadores Mximos Verosmiles.


Principio de Invarianza. Sea L()/x
), ) @ la funcin de verosimilitud y sea h una aplicacin del espacio
paramtrico @ en algn espacio paramtrico @*. Suponga que estamos interesados en estimar h()) en el nuevo
espacio paramtrico @*.
Si s
) es el EMV del parmetro ), entonces h(s
) ) es el EMV del parmetro h(s
) ).
El principio de invarianza es vlido tambin en el caso de parmetros multidimensionales y funciones
unidimensionales de tales parmetros.
Ejemplo 11. Sea X1 ,..., Xn una muestra aleatoria de f(x/.,5), donde . y 5 son la media y desviacin estndar.
As, )=(., 5) es un vector bidimensional y suponga qu/ @= . 0, 5 0. Suponga que queremos estimar el
5
coeficiente de variacin V=
.

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

s=
El principio de invarianza asegura que si .
sy5
s son los EMV de . y 5, entonces V

5
s
.
s

es el EMV de V.

Principio de Verosimilitud. Los EMV no dependen del diseo de experimento.


Considere dos conjuntos de datos
x e y , obtenidos de la misma poblacin, aunque posiblemente de acuerdo a

dos planes de muestreo diferentes. Sean L1 ()/x


) sus funciones de verosimilitudes.
) y L2 ()/y

Si L1 ()/x
) es constante en relacin a ), entonces ambos conjuntos de datos
x e y conducen a la
) / L2 ()/y

misma conclusin acerca de ) .


Ejemplo 12. Suponga que se desea estimar la probabilidad de xito, ), en ensayos Bernoulli. Un experimento
consiste simplemente en fijar el nmero n de observaciones y registrar el nmero de xitos . Si observamos x
xitos la funcin de verosimilitud es
L" )x) = a nx b)x (1 ))nx
Otro experimento decide fijar x y tomar observaciones hasta registrar los x xitos. En este caso la probabilidad
que la observacin termine en el ensayo n est dada por la distribucin Binomial Negativa, de manera que la
verosimilitud es:
1 x
nx
L2 )n) = nx
" ) (1 ) )
En el primer experimento x es variable aleatoria y n es fijo. En el experimento 2 , x est fijo y n es aleatorio.
La razn de estas funciones de verosimilitudes es:
a nx b
L" )x)

que no depende de ).
nx"

L2 )n)
1
x
Veremos que el estimador mximo verosmil de ), en cualquier caso, es s
)= .
n
EMV de muestras censuradas. Otra propiedad importante de los EMV es que ellos pueden obtenerse a partir de
muestras en las cuales algunos datos son slo parcialmente observables.
Ejemplo 13. Suponga que queremos estimar -, parmetro de una distribucin exponencial, donde X=duracin
de una pieza de un equipo. El experimento tpico consiste en poner a trabajar n copias del equipo en cuestin
para probar y observar las duraciones X1 ,.....,Xn . Suponga que el experimento es interrumpido despus de un
tiempo T y an algunos equipos continuan trabajando. Los datos entonces tiene la forma de un cierto nmero
X1 ,.....,Xm de duraciones observadas, mientras que los restantes n m equipos sabemos solamente que
Xm+1 T,......,Xn T.
En el caso continuo, podemos considerar que la funcin de densidad f(x/))x P(x X x+x). Luego
podemos considerar la funcin de verosimilitud como:
L(-/x
) P(x" X" x" +x).......P(xm Xm xm +x) P(Xm+1 T)......P(Xn T)
(x)m f(x" /)) f(x# /))........f(xm /)) P(Xm+1 T)......P(Xn T)
7

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

-!x3
m

(x) /

i=1

(/-T )nm

De donde
m
$ lnL(-/x
) = m "xi T(n m) =0 s=
m
$!
i=1

xi +T(n m)

i=1

II.-. PERDIDA RIESGO Y ADMISIBILIDAD


Nuestro objetivo en esta seccin es revisar los criterios para evaluar un estimador considerando un tamao fijo n
de la muestra.
Considere un experimento que toma n observaciones X" ,Xn de una distribucin f(x/)) para estimar ). El
estimador s
) ser usado para algn propsito especfico y el grado de xito de lograr este objetivo depende cun
cerca s
) y ) estn.
En el caso ms sencillo el grado de xito puede ser una funcin decreciente del error s
) ) de manera que
entre ms pequeo el error, ms probable es un grado alto de xito.
Para construir una teora general, podemos asumir que la situacin puede ser representada adecuadamente
especificando una funcin de prdida, 6( s
) , ) ), que describe las consecuencias negativas de proceder como si el
s
valor del parmetro fuera ) , mientras que en realidad es ).
Si el investigador decide usar el estimador T=T(X" ,Xn ), entonces su prdida 6(T, )) depender de la muestra
(es una variable aleatoria) y el comportamiento de T puede ser evaluado a travs de la prdida esperada:
R) (T) =E) 6(TX" ,Xn , ))
La funcin R se denomina la funcin de riesgo, que como su notacin lo sugiere es una funcin del parmetro
desconocido ).
Definicin 2.2. El estimador T1 domina al estimador T2 o T1 es R-mejor que T2 , si para todo ) @ se tiene:
R ) T" R ) T2
donde la desigualdad estricta se verifica para al menos un valor de ).
Un estimador T se dir inadmisible si existe un estimador T* que es R-mejor que T. En otro caso se dir que T
es admisible.
En la prctica, la bsqueda de la clase de estimadores admisibles para una especfica funcin de prdida 6 puede
ser muy difcil.
Para construir una teora general, es necesario elegir una funcin de prdida que pueda ser aceptada por una
mayora de usuarios de la estadistica. Esta funcin de prdida es la prdida Error cuadrado que es:

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

6(T, )) =(T ))2


El uso de esta funcin de prdida tiene sentido slo para estimadores con segundos momentos finitos (es decir
con varianzas finitas). El riesgo de un estimador T con funcin de prdida error cuadrado adquiere su propia
notacin y nombre.
R) (T) = E) ( T ))2 = ECM) (T) I<<9< G?+.<+.9 Q /.39 ./ X
Observacin. ECM) (T)= E) ( T ))2 = E) ( T E(T) +E(T) ))2
2
2
= E) ( T E(T) ) + E(T) )

2
= Var(T) + E(T) )
Ejemplo 14. Suponga que tomamos una muestra aleatoria X1 ,....,Xn de una distribucin uniforme en el
intervalo 0, ), de manera que:
1/) si 0 x )
f(x/)
0
e.o.c
El objetivo es estimar el rango ).

Sean

T# = (1+ n" ) T1 = n"


n X(n) dos estimadores de ) .

T" = Mximo (X1 ,....,Xn ) = X(n) y

Comparemos el ECM) (T1 ) y el ECM) (T2 ).


La densidad de T1 es fT" t) =
)

Luego E(T1 ) = ( t
0

ntn1
,0t)
)n

ntn1
n
dt =
)
n
)
n+1

E(T#1 ) = ( t#
0

ntn1
n #
dt =
) .
n
)
n+#

n #
n
n
)
) #
)2 .
n+#
n+1
(n+1)2 (n+2)
#)#
Por lo tanto, el ECM) (T1 )

(n+1)(n+2)
y Var(T"

n+1
Para T# = n+1
n T1 tenemos: E(T2 ) = n E(T1 ) =

De donde ECM(T2 ) =Var(T2 ) =(

n+1 n
n n+1 ) =) .

n+1 2
n+1 2
n
)#
2
) Var(T1 ) = (
)
)
=

n
n
(n+1)2 (n+2)
n(n+2)

ECM(T2 ) n+1
=
1 por lo tanto T1 es un estimador inadmisible ya que existe T2 , un
ECM(T" )
2n
estimador que es mejor para todo valor de ). Por supuesto que T2 no es necesariamente admisible.
Ahora, para n 1:

III.- PROPIEDADES DE LOS ESTIMADORES


Consistencia. Como dijimos, una de las propiedades bsicas de un buen estimador es que proporcione
informacin crecientemente ms precisa acerca de ), al aumetar el tamao de muestra n. La propiedad de

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

consistencia de un estimador satisface esta caracterstica, ya que describe una propiedad lmite de la
distribucion de probabilidades del estimador,cuando el tamao de muestra aumenta sin lmite (n _).
Definicin 2.3. El estimador Tn , n=1, 2,... del parmetro ) se dice consistente si Tn converge a ) en
probabilidad; esto es, para cada % 0
limnp_ PTn ) % =0

limnp_ PTn ) % =1

Ejemplo 15. Veamos la consistencia del estimador T1 = X(n) del Ejemplo 14.
La distribucin para T1 = X(n) est dada por su funcin de distribucin acumulada
t
P(T1 t) = P(X1 t,....,Xn t) = ( )n
)
Luego si 0 % ), entonces
PT1 ) % " PT1 ) % " (
Como

)% n
)
)

)% n
p 0 cuando np_, el estimador T" es consistente.
)

Ahora si usamos el estimador T3 = (n+1) X(1) para ) tenemos


)%
)+%

PT3 ) %= P) % (n+1) X(1) )+% =P


X(1)
n+1
n+1
)+% n
)% n
1 1

= 1 1
)n+1
)n+1
)% n
)+% n
1

1
)n+1
)n+1
como sabemos que
+
(1+ )n p /+ cuando np_ se tiene:
n
lim np_ PT3 ) %= /

) %
)

) %
)

>0

que muestra que T3 = (n+1) X(1) no es consistente para estimar a ).


Observacin. De la desigualdad de Tchevichev, sabemos que para todo % 0:
"
"
P(s
) ) %) = # E) (s
) ))# = # ECM) (s
)
%
%
de donde se sigue que si el ECM) (s
) 0 cuando n _, esto es Var) (s
) 0 y E) (s
) ) cuando n _,
entonces s
) es consistente

10

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

Ejemplo 16. Sea X" ...,Xn una muestra aleatoria de una poblacin N(., 5# ), . y 5# desconocidos.
S# es un estimador consistente para 5# .
En efecto, sabemos que E(S# 5# por lo que lmn_ E(S# 5#
n1 #
n1 #
(n 1)#
#
y como
S ; n 1), entonces 2(n 1) = Var( # S ) =
VarS#
#
%
5
5
5
2
54 0 cuando n _.
n1
Por lo tanto, S# es un estimador consistente para 5#
VarS# =

Insesgamiento. Como un estimador T es una variable aleatoria con su propia distribucin de probabilidades,
podramos estar interesados en el valor central de su distribucin, E(T), con la idea que este valor coincida con
el parmetro ).
Definicin 2.4.. Un estimador T tal que E) (T) = ), para cada ) se llama insesgado.
La diferencia B) T E) (T) ) se denomina la funcin sesgo o simplemente el sesgo de T.
B) T =0 ssi T es insesgado
Si B) T 0 entonces T es positivamente sesgado
Si limn_ E) T(X" Xn =) , entonces T es asintticamente insesgado.

Ejemplo 17. Vimos que E(X . no importando la distribucin de probabilidades de la cual se extrae la
muestra. As,

X es un estimador insesgado para ., parmetro en una densidad Normal

X es un estimador insesgado de p, parmetro de una Bernoulli

X es un estimador de -, parmetro de una Poisson.


Eficiencia. La propiedad de insesgamiento es compartida por varios estimadores y para poder elegir entre ellos
podramos comparar sus varianzas. As si T1 y T# son dos estimadores insesgados para el parmetro ) y si
Var(T1 ) Var(T2 ), entonces T1 vara menos que T2 alrededor de ) sobre repetidas muestras, entonces parece
lgico usar T" (x1 ,...,xn ) en lugar de T2 (x1 ,...,xn ) como valor estimado para ), basado en una muestra cualquiera
(x1 ,...,xn ).
Definicin 2.5. Si T1 y T# son dos estimadores insesgados para el parmetro ) y si
Var(T1 ) Var(T2 ), entonces diremos que el estimador T1 es ms eficiente que el estimador T2 .
Observacin. Dentro de la clase de los estimadores insesgados, podemos a menudo encontrar uno, T*, que es el
mejor entre todos los estimadores insesgados. Esto es:
ECM(T*) =Var) (T*) Var) (T) ECM(T) , a T estimador insesgado de )
con desigualdad estricta para al menos un valor de ).

11

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

T* se denomina estimador uniformemente insesgado de mnima varianza ,UMVUE, (uniformly minimum


variance unbiased estimator).
Dificultades con la propiedad de insesgamiento
1.- Los estimadores insesgados pueden no existir.
2.-La propiedad de insesgamiento no es invariante bajo transformaciones funcionales.
Ejemplo 18. Sea X1 , X# Xn una muestra aleatoria de una N(., 52 ).
Sabemos que E(S2 ) = 5# , pero E(S) 5.
3.- An cuando los estimadores UMVU existan, ellos pueden ser no admisibles.
Ejemplo 19. Sea X1 , X2 una muestra aleatoria de tamao 2 de una distribucin exponencial(-), - desconocido.
"
"
Sabemos que E(Xi ) =
y Var(Xi ) = # , a i " #
Tres estimadores insegados para la media poblacional .= -" son:
T" = X" ,

T# =X2

T$

X" +X2
2 =

X.

De stos tres el ms eficiente es T$ ya que tiene la menor varianza (Var(T1 )=Var(T2 ) = -"# Var(T$ = #-" # a -).
Probaremos ms adelante que T3 es un estimador UMVU, pero es inadmisible ya que el estimador
T% X1 X2 , la media geomtrica muestral, es mejor en el sentido que su ECM es menor. Esto es,
ECM(T$ ) = #-" #

41
2- 2

ECM(T4 ).

Podramos encontrar otro estimador mejor que X1 X2 ?.


La respuesta la entrega la Desigualdad de Crmer-Rao, que proporciona una cota inferior para la varianza de
cualquier estimador insesgado, T(X
), de E) T(X
))=q()), cuando se muestrea de una distribucin de
probabilidades, f(x/)), que satisface ciertas condiciones de regularidad.
Estas condiciones son:
i) El conjunto ;=
x : f(x
/)) 0 no depende de ).
Para todo
x ;, ) @, $)$ 68(f(x
/))) existe y es finito.
ii) Si T es un estadstivo tal que E(T) _, a) @, entonces son intercambiables las operaciones de
derivacin e integracin respecto de ) en :
(

_
_

....(

_
_

T(x
) f(x
/))dx

12

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

Esto es,
$
$)

_
_

....(

_
_

T(x
) f(x
/))dx
= (

_
_

....(

$
T(x
) $) f(x
/))dx
.
_

Teorema 2.1. Desigualdad de Crmer-Rao. Suponga que


X =X1 ,.....,Xn es una muestra aleatoria de una
variable aleatoria X cuya funcin de probabilidad o funcin de densidad f(x/)) depende de un parmetro
desconocido ), y que satisface las condiciones de regularidad i) y ii) dadas anteriormente. Sea T(X)
- un
estimador insesgado de q( )), con Var(T(X)
)

_
.
Entonces
Var) (T(X)
- )

( dd) q())#

#
nE $)$ 68 f(X/))

..............................................................(2.2)

El lado derecho de (2.2) es la cota inferior de Crmer-Rao. La idea es que si existe un estimador T insesgado
de q()) cuya varianza coincida con la cota inferior, entonces estamos en presencia del mejor estimador
insesgado de q()). La desigualdad de Crmer-Rao para el caso de estimadores insesgado de ) toma la forma:
Var(T)

1
$
#
nE 68 f(X/))
$)

...................................................

(2.3)

#
Observacin . La expresin E $)$ 68 f(X/)) en (2.2) o (2.3) se conoce como la informacin de Fisher
acerca de ) contenida en la observacin X y se denota por I()).

La cantidad de Informacin de Fisher, I()), se justifica con el siguiente razonamiento: Sea p la probabilidad de
un evento A cualquiera. Si P(A) est cerca de 1, entonces la ocurrencia de A no es noticia y podemos considerar
que la cantidad de informacin es cercana a 0, mientras que para P(A) cercana a 0, indicara que el evento A es
muy raro y s que sera noticia, lo que implicara una cantidad de informacin alta. En base a este razonamiento
podemos asumir que la cantidad de informacin en la ocurrencia de un evento con probabilidad p, debera ser
igual a una funcin decreciente de p como : log( 1p )= log p.
Ahora en el caso de estimacin, podemos definir la cantidad de informacin acerca de ) en el evento X=x,
donde X f(x/)). Aqu f(x/)) juega el papel de la probabilidad p del evento X=x. Como estaremos interesados
1
en la informacin acerca de ), parece natural considerar la tasa de cambio de log(
) bajo la variacin de )
f(x/))
en el punto x, esto es la derivada
$
1
$
" $
log(
f(x/))
)= log(f(x/))=
$)
f(x/))
$)
f(x/)) $)

..........................

2.4

Omitimos el efecto del signo considerando el cuadrado de la cantidad (2.4) y eliminamos la restriccin para el
valor especfico x tomando promedio (esperanza). Estas consideraciones nos conducen a la siguiente definicin.

13

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

Definicin 2.6. Sea X una variable aleatoria cuya distribucin f(x/)) es positiva y es la misma para todo ).
Suponga que f(x/)) es dos veces diferenciable con respecto a ) para cada x. La informacin de Fisher acerca de
), en una sola observacin X , se define por
I())= E

$
#
68 f(X/))
$)

si la esperanza existe.
La informacin de Fisher acerca de ), en una muestra de tamao n es: In ()) = nI()).
Definicion 2.7. Cualquier estimador insesgado de ) que satisface las condiciones de regularidad y cuya varianza
logra igualar la cota inferior de Crmer-Rao (2.3)se denomina eficiente.
nI())
La razn
se denomina la eficiencia de T.
Var(T)
Ms general, dado dos estimadores insesgados T" y T2 de ), la razn de sus varianzas

Var(T1 )
se denomina la
Var(T# )

eficiencia relativa de T2 con respecto a T1 .


Ejemplo 20. Se desea estimar la probabilidad de xito ) sobre la base de n esnsayos Bernoulli. Tenemos que
1
n
I()) =
y por lo tanto la informacin en la muestra de tamao n es In ()) =
.
)(1 ))
)(1 ))
n
Si A=!Xi es el nmero total de xitos, podemos producir el estadstico T= A como un estimador de ). Como
n

i=1

A Bin(n, )) se tiene:
n)
n)(1 ))
"
)(1 ))
=)
y Var(T) = # Var(A)=
=
.
2
n
n
n
n
Como Var(T) iguala a la cota de Crmer-Rao , In1()) , muestra que T es eficiente.
E(T) = "n E(A) =

Finalmente, como ya estamos familiarizados con las propiedades ms importante de los estimadores de un
parmetro ), veremos que generalmente los estimadores mximos verosmiles son consistentes, asintticamente
insesgados y asintticamente eficientes.
Teorema 2.2. Si T=T(X
) es un estimador eficiente de ), basado en una muestra aleatoria de la distribucin
nI()) T(X ) )) tiene una distribucin asintticamente N(0, 1).
f(x/)), entonces la variable aleatoria

"
Esto es, T aprox N(),
) si n es grande.
nI())
Observacin. El Teorema 2.2 se verifica si cambiamos "estimador eficiente T(X
)" por "estimador mximo
verosmil s
) (X
) de ), provisto que estos estimadores se obtengan de resolver la ecuacin
$
$
s
68 f(X
/))=0 de manera que
68 f(X

/) ) =0.
$)
$)

14

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

Ejemplo 21. Sea


X =(X1 ,...,Xn ) una muestra aleatoria de una distribucin Geomtrica ()). Determinemos la
distribucin aproximada del EMV de ).
Supongamos que la muestra observada es
x =(x1 ,...,xn ). La funcin de verosimilitud de la muestra est dada por
!xi n

n
L()/x
) =f(x
/))= ) (1 ))

$
$)

68 f(x
/) ) = 0

n
+
)

!x i n

Por lo tanto, el EMV de ) es s


) (X
)=

1)
1

2
Ahora I()) =E $)$ ln f(X/)) =E

1
( 1) = 0 de donde s
) (x
es el valor estimado para ).
)=
x

As por la observacin del Teorema 2.3,

aprox.N(),

"
).
nI())

$
2
(ln)+(x 1)ln(1 ))
$)

= E 1)
E

(x1) 2
1)

" x) 2

) 1 )

X 1/) 2
1
2
=
E X 1/)
1 )
(1 ))2
") )

Por lo tanto

aprox.N(),

1
1
)2
X =
Var
=
.
(1 ))2
(1 ))2 (1 )) )2

)2 (1 ))
).
n

Suficiencia. Una vez que hemos adoptado un modelo estadstico nos gustara dejar de lado cualquier
informacin irrelevante en la muestra, relacionado con ). Sea
X una muestra aleatoria, sea
x los valores
muestrales observados y designemos por ; el espacio muestral de
X . Cualquier estadstico T(X
) define una
forma de reduccin de datos o resumen de los datos. Un investigador que usa slo el valor observado del
estadstico, T(x
x , tratar como iguales las dos muestras
x y y que
), en lugar de la muestra observada

satisfgan T(x
)=
T(y
),
an
cuando
las
muestras
x
y
y
sean
distintas
en
algn
sentido.

La reduccin de datos en trminos de un estadstico particular puede ser considerado como una particin del
espacio muestral ; , ; n . Sea 7 =t : T(x
x ;, la imagen de ; bajo T(x).
)=t, para algn
- Entonces T(x
)
particiona el espacio muestral en los conjuntos At , t 7 definidos por At =
x ;:T(x
)=t.
Los estadsticos resumen los datos de manera que en lugar de reportar la muestra completa
x reportan slo que
T(x
x At.
)=t o equivalentemente que
Ejemplo 22. Considere una muestra aleatoria X" , X2 , X3 de una distribucin Bernoulli()) y sea el estadstico
!
T(X
) = Xi . Entonces de acuerdo a la definicin de T, el espacio de valores que asume T es 7 =0,1,2,3 y el
3

i=1

15

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

espacio muestral ;=(0,0,0),(1,0,0),(0,1,0),(0,0,1),(1,1,0),(0,1,1),(1,0,1), (1,1,1) queda particionado en los


conjuntos:
A0 =(0,0,0), A1 = (1,0,0),(0,1,0),(0,0,1), A2 =(1,1,0),(0,1,1),(1,0,1) y A3 = (1,1,1).
Veremos dos principios de reduccin de datos: El principio de suficiencia y el principio de verosimilitud. Este
ltimo involucra la funcin de verosimilitud que como ya vimos, describe una funcin del parmetro
determinado por la muestra observada, que contiene toda la informacin acerca de ).
El primero promueve resumir los datos de manera de no descartar informacin sobre ). Un estadstico
suficiente para un parmetro ) es un estadstico que captura toda la informacin acerca de ) contenida en la
muestra. Cualquier informacin adicional en la muestra, fuera del valor del estadstico suficiente, no contiene
ms informacin acerca de ). Estas consideraciones conducen a la tcnica de reducir los datos, conocida como
el principio de suficiencia.
Principio de Suficiencia. Si T(X
) es un estadstico suficiente para ), entonces cualquier inferencia acerca de )
depender de la muestra
X slo a travs del valor de T(X
x y y son dos puntos muestrales tal
). Esto es, si

que T(
x ) =T( y ), entonces la inferencia acerca de ) debera ser la misma si
X=
x o
X = y es observada.

Definicin 2.8 . Un estadstico T(X


X dado el
) es suficiente para ) si la distribucin condicional de la muestra
valor de T(X
) no depende de ).
Observacin. Si T(X
) tiene una distribucin continua, entonces P) ( T(X
)=t) =0 at y se hace necesario una
nocin ms sofisticada de probabilidad condicional de la que hemos visto en pre-grado. Luego haremos los
clculos considerando el caso discreto, pero daremos el resultado para el caso continuo.
Para verificar que T(X
x y t, la
) es suficiente para ), debemos comprobar que para cualquier valor fijo de
distribucin condicional, ms bin la probabilidad condicional P) (
X=
x / T(X
) = t) es la misma para todos
los valores de ).
Sea t tal que P) ( T(X
x At ( lo que indica que T(
x ) t) entonces P) (
X=
x/
) = t) sea mayor a cero. Si
T(X
)
=t)=0
y
por
lo
tanto
slo
debemos
verificar
que
P
(
X
=
x
/
T(X
)
=T(
x
))
no
depende
de
)
.
)

En efecto, por definicin P) (


X=
x / T(X
x )) =
) =T(

P) (
X=
x y T(X
x ))
) =T(
P) ( T(X
x ))
) =T(

Pero como el evento


X=
x T(X
x )ssi
X=
x
x ;: T(X
x ) entonces
) =T(
) =T(

X=
x T(X
x )=
X=
x .
) =T(
As, P) (
X=
x / T(X
x )) =
) =T(

P) (
X=
x y T(X
x ))
P) (
X=
x )
) =T(
=
P) ( T(X
x ))
P) ( T(X
x ))
) =T(
) =T(

f(x /))
=
debe ser independiente de ).
fT (t/))
Donde f(x
/)) es la funcin de probabilidad conjunta de la muestra y fT (t/)) es la funcin de probabilidad de
T(X
).

16

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

Teorema 2.3. Si f(x


X y fT (t/)) es la
/)) es la funcin de probabilidad o la funcin de densidad conjunta de
funcin de probabilidad o funcin de densidad de T(X
),
entonces
T(X
)
es
un
estadstico
suficiente
para ) si

f(x /))
para cada
x en el espacio muestral ;, la razn
es constante como una funcin de ).
fT (t/))
Ejemplo 23 . Considere una muestra aleatoria X" , X2 , X3 de una distribucin Bernoulli()) y sean los estadstico
"
!
T" (X
) = Xi y T# (X
) = 6 (X1 +2X# +3X3 ). Mostremos que T" es un estadstico suficiente para estimar ), en
3

i=1

cambio T2 no lo es.
La funcin de probabilidad conjunta de la muestra aleatoria es
! xi

3!xi

f(x1 ,x2 ,x$ ) )


Como

vimos

en

el

i"

(1 ))

Ejemplo

i"

, para todo (x1 ,x2 ,x$ ) ;

2.4,

fT (t/))= 3t )t (1 ))3t con t = !xi 71 .


3

i=1

estadstico suficiente para ).

0,1,2,3 y como T" Binomial(n=3, p=)) tenemos


f(x /))
1
As = $ independiente de ) y por lo tanto T1 es un
fT (t/)) t

71 =

Ahora para T# tenemos 7# = 0, 6" , 62 , 63 , 64 , 65 ,1. Supongamos que


x =(1,1,0) es observado, entonces T2 (1,1,0)= "#
y

f((1,1,0)/)) )# " ))
=
= ) y por lo tanto T2 no es suficiente para ).
) " ))
fT2 ( "# /))

Notemos que fT2 ( "# /))=P) (T2 = "# ) =P((0,0,1)+(1,1,0))=) " ))# +)# " )) ) " ))
Ejemplo 24. Sea X1 ,...,Xn una muestra aleatoria de una distribucin N(., 52 ), con 52 conocida. Mostremos que

X es un estadstico suficiente para ..


La densidad conjunta de la muestra x- est dada por:
n
f( x- /.) = (215# # exp #5" # !xi
x )# +n
x .)#

y como X N(., 52 /n), entonces

f
X x . (215 /n # exp
1

As

n
#5 #

x .)#

f( x- /.)
"
"

"xi

x )# que no depende de ..
n1 exp

#
#
n (215 2
x .
#5

f
X

En lugar de chequear la suficiencia por la definicin, tenemos un resultado muy sencillo debido inicialmente a
Fisher 1922 que se conoce como el Teorema de Factorizacin.

17

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

Teorema 2.4. Teorema de Factorizacin. (Fisher 1922, Neyman 1935, Halmos y Savage 1949)
Sea f(x
X.
/)) la funcin de probabilidad conjunta o la funcin de densidad conjunta de una muestra aleatoria
Un estadstico T(X
) es un estadstico suficiente para ) si y slo si existen funciones g(t/)) y h(x)
- tales que, para
todo
x y todo valor ) @ se satisface:
f(x
/))=g(t/)) h(x)
donde g(t/)) y h(x)
x , pero no de ). La funcin g depende de ) y de
- son funciones no negativas, h depende de
x observado nicamente a travs del valor del estadstico T(
x ).

Ejemplo 25. Sea X1 ,...,Xn una muestra aleatoria de una distribucin N(., 52 ), con 52 conocida.
Vimos en el Ejemplo 24 que la funcin de densidad de la muestra es:
f( x- /.) = (215# # exp
n

"
#5 #

! x i
x )# exp

n
#5 # x

.)#

h(x)
- g(x /.)

Notemos que g(
x /.) depende de la muestra slo a travs de
x . Por lo tanto, X es un estadstico suficiente para
..
Ejemplo 26. Sponga que X1 ,...,Xn es una muestra aleatoria de una distribucin U(0, )), ) 0 desconocido.
Encontremos un estadstico suficiente para ).
La densidad conjunta de una muestra observada x1 ,...,xn es
f(x1 ,...,xn / )) =

( ") n
0

para 0 xi ) , ai=1,..,n
e.o.c.

Como xi ) para todo i es equivalente a afirmar que xn) ), entonces podemos escribir la densidad conjunta
de la muestra como:
f(x1 ,...,xn / )) = ( ") n I! ) (xn) )
" n
donde h(x)
- =1 y g(xn) /))) = ( ) I! ) (xn) ).

IA (x) =

(Recuerde que la funcin indicadora de un conjunto A se define por:

"
0

si x A
si x A

).

As Xn) =Mx X1 ,...,Xn es un estadstico suficiente para ).


Observacin. Los estadsticos suficientes para un parmetro ) no son nicos. Cada transformacin inyectiva de
un estadstico suficiente es nuevamente suficiente. En el Ejemplo 23, !Xi es suficiente para ) como tambin
3

!X i

i=1

X=

i=1

18

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
M.V.H.-2016-II

El concepto de estadstico suficiente se puede extender a un estadstico suficiente multidimensional, conocido


ms bin como estadsticos conjuntamente suficientes . El punto es que hay casos donde no es conveniente
reducir la informacin acerca del parmetro a un slo nmero y tenemos en tales casos un vector (T1 ,T2 ,...,Tk ).
como estadstico suficiente. Esta situacin ocurre tpicamente cuando el parmetro es tambin un vector,
digamos )= ()" )= y el caso ms comn es que el estadstico suficiente y el vector de parmetros tengan la
misma longitud, esto es k=s .
Definicin 2.9 El estadstico k dimensional (T1 ,T2 ,...,Tk ) es conjuntamente suficiente para )=()" )k ), si la
funcin de densidad o funcin de probabilidad de la muestra
X , para cada
x y ) @, satisface:
f(x
x ),T2 (
x ),...,Tk (
x )/ )) h(x)
/))=g(T1 (
donde h(x)
- no depende de ) y g depende de ) y de x- slo a travs de los estadsticos T1 ,T2 ,...,Tk .
Ejemplo 27.
desconocidos

Suponga que X1 ,...,Xn es una muestra aleatoria de una distribucin U+,, con + ,

" n
f(x
/+,,)= ( , + ) x" + y xn ,
Luego si definimos para dos nmeros cualesquiera c y d :

h(c,d) =

"
0

si c d
.
si c d

entonces para cualquier


x n , podemos escribir
f(x
/+,,)=

h(+, x(1) ) h(x(n) ,,)


(, +)n

Dado que esta expresin depende de


x nicamente a travs de los valores de las funciones x" y xn resulta
que el estadstico (X" , Xn ) es suficiente para (+ ,
Ejemplo 28. Sea X1 ,...,Xn v.a. iidN(., 52 ). Determinemos un estadstico suficiente para )=(., 52 ).
La densidad conjunta de la muestra es:
f( x- /., 52 ) = (215# # exp
n

"
#5 #

!xi .)#

= (215# # exp

"
#5 #

! x i
x )# exp

= (215# # exp

"
#5 #

(n ")s# exp

n
#5 #

n
#5 #

.)#
(x

.)# (1)
(x

,s2 / (., 52 ) h(x )


= g(x

As T=(T1 ,T# X , S# es un estadstico suficiente para )=(., 52 ) en el modelo normal.

19