Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Notas de Estadistica
Notas de Estadistica
Introduccion a la Inferencia
Estadstica
1
A LA INFERENCIA ESTADISTICA
2 CHAPTER 2. INTRODUCCION
cada pajaro se define X(a) como el largo del pajaro y Y (a) el area de las
alas.
# {a P, X(a) x}
FX (x) =
#P
# {a P : X(a) x, Y (a) y}
FXY (x, y) =
#P
# {a P ; X(a) = i}
i = , i = 1, 2, 3.
#P
Ejemplo 3: Para el ejemplo 3 de 2.1, podemos usar para la distribucion
F (x, y) el modelo N (1 , 2 , 12 , 22 , ).
(iii) Si > x > x0 , entonces f (x0 ) < f (x) < f (). Es decir, a medida
que se alejan del verdadero valor los posibles resultados tiene menor
probabilidad.
Eleccion del modelo: La eleccion del modelo puede ser hecha en base
a consideraciones teoricas, o porque la experiencia indica que ajusta bien.
Por ejemplo, si F es la distribucion del tiempo de espera hasta que un de-
terminado mecanismo falle, y por consideraciones teoricas podemos suponer
que el mecanismo tiene falta de desgaste, podemos suponer como modelo
para F la familia exponencial (). En otros problemas puede suceder que
no se pueda elegir el modelo en base a consideraciones teoricas, pero si la
experiencia indica a traves de estudios anteriores, por ejemplo, que puede
ser bien aproximada por una distribucion normal, entonces se usara como
modelo la familia N (, 2 ).
Veremos en el transcurso del curso, metodos para poner a prueba el
modelo elegido, es decir metodos para determinar si el modelo elegido puede
describir dentro de una aproximacion aceptable la distribucion de la variable
(o variables) en la poblacion. Esto se hara en el captulo 6.
2.4. INFERENCIA ESTADISTICA 7
Procedimientos de dise no: Son los procedimientos para elegir las obser-
vaciones que componen la muestra, de manera que con pocas observaciones
se pueda obtener la mayor informacion posible sobre q(1 , 2 , . . . , k ).
y en el caso que F (x) sea una distribucion discreta o continua con funcion
de frecuencia o de probabilidad p, (2.1) sera equivalente a
no n, 2 podra
En general, si se tuviese una muestra aleatoria de tama
estimarse por
n
1X
bn2 =
(Xi X n )2
n i=1
En el problema (b), cuando se quiere conocer la produccion total, es decir
q(, 2 ) = 1000, podemos usar para esta estimacion 1000 X 20 . Es decir,
el procedimiento de inferencia sera el siguiente. Se hace el promedio de las
observaciones que componen la muestra, y se lo multiplica por 1000.
En el problema (c), es decir el problema de decidir si < 200 o 200,
el procedimiento de inferencia puede ser el siguiente: se decidira que < 200
si X 20 < 200 y se decidira que 200 si X 20 200.
Los problemas (a) y (b) son los que se denominan de estimaci on puntual,
mientras que el problema (c) es un problema de test de hip otesis, ya que
en base a la muestra se desea decidir entre dos opciones y determinar las
probabilidades de error. Como veremos mas adelante, las dos hipotesis no
se consideraran en forma simetrica y se determinara cual de los dos errores
a cometer es mas grave, para poder controlar su probabilidad.
Concepto de estadstico
Supongamos dado un problema de inferencia estadstica donde se ob-
serva un vector muestra X = (X1 , X2 , . . . , Xn ) con distribucion en la familia
F (x1 , x2 , . . . , xn ; ) con y donde se quiera inferir acerca de q(). Esta
inferencia se tendra que hacer a partir de X, es decir, por funciones de X.
Luego se define como estadstico a cualquier funcion medible que tenga como
argumento a X y que tome valores en un espacio euclideo de dimension finita.
En el ejemplo 1, hemos visto que la estimacion de y 2 se haca mediante
el estadstico
n n
!
X Xi X (Xi X n )2
T = r(X) = ,
i=1
n i=1
n
Estimaci
on puntual
3.1 Introducci
on
1
2 PUNTUAL
CHAPTER 3. ESTIMACION
3.2 M
etodo de los momentos
y por lo tanto, si puede expresarse como una funcion continua de E (g(X1 )),
se puede esperar que cuando n es grande el valor b que satisface la ecuacion
(3.1) estara cerca de .
En general, se toman como funciones g las funciones generadoras de mo-
mentos, ya que se supone que los parametros de la distribucion se relacionan
con los momentos a traves de alguna funcion continua.
Pn
b 2 = (X1 , . . . , Xn ) = (1/n)
Luego i=1 Xi2 es el estimador de 2 resultante.
P P
Indiquemos por X = n1 ni=1 Xi y por b 2 = n1 n 2
i=1 (Xi X) . Entonces,
despejando del sistema anterior, los estimadores de los momentos para y
resultan ser
b = 1 (X1 , X2 , . . . , Xn ) = X
b2
y
2
X
b = 2 (X1 , X2 , . . . , Xn ) =
.
b2
3.3 M
etodo de m
axima verosimilitud
Definici b
on 1: Diremos (X) es un estimador de maxima verosimilitud
(E.M.V.) de , si se cumple
b
p(X, (X)) = max p(X, )
x
0 1
0 0.3 0.6
1 0.7 0.4
1 1
y despejando b resulta
n
b 1 , X2 , . . . , X n ) = 1 X
(X Xi .
nk i=1
Por lo tanto,
ln p(x, , 2 ) x
=
2
y
ln p(x, , 2 ) 1 1
2
= 2 + ( 2 )2 (x )2 .
2 2
Luego el sistema (3.3) se transforma en el sistema
n
X
b2 = 0
b)/
(Xi
i=1
n
X 1 1
2
b )2 = 0
+ 4 (Xi
b
2 b
2
i=1
n
X
b(X1 , X2 , . . . , Xn ) =
Xi /n = X
i=1
Xn
b 2 (X1 , X2 , . . . , Xn ) =
(Xi X)2 /n
i=1
que son los mismos estimadores que encontramos por el metodo de los mo-
mentos.
1
p(x, , ) = x1 e x ,
()
con lo cual
ln p(x, , ) 0 ()
= ln + ln x
()
y
ln p(x, , )
= x,
0
donde () indica la derivada de la funcion (). Luego el sistema (3.3) se
transforma en el sistema
3.3. METODO
DE MAXIMA VEROSIMILITUD 9
n
X
b+ 0 ()
b
n ln ln(Xi ) n = 0
()b
i=1
b
n
nX = 0 ,
b
1 Pn b . Pero, este sistema no tiene una soluci
b=
con X = n i=1 Xi . Luego X
on
b obtenemos la ecuaci
explcita ya que al reemplazar el valor de on no lineal
n
X 0 ()
b
b ln(X) +
n ln ln(Xi ) n =0,
()b
i=1
b = max p(x, )
p(x, ) (3.4)
y
b = max p (x, )
p (x, ) (3.5)
3.4 M
etodo de cuadrados mnimos
Xi = Si (1 , . . . , p ) + i 1in (3.6)
(i) E(i ) = 0
(ii) Var(i ) = 2
3.4. METODO DE CUADRADOS MINIMOS 11
Xi = 1 Gi + 2 + i 1in
Si (1 , 2 ) = 1 Gi + 2 1in
X = u(G, H, 1 , 2 , . . . , p ) +
u1 (G, H, ) = 1 G + 2 H + 3
o
u2 (G, H, ) = 1 G2 + 2 H 2 + 3 HG + 4 H + 5 G + 6
o
u3 (G, H, ) = 1 e2 G + 3 e4 H .
Supongamos que se hagan n experimentos. En el experimento i-esimo
se fijan G y H iguales respectivamente a Gi y Hi y se observa un valor Xi .
Luego se tendra
Xi = u(Gi , Hi , 1 , 2 , . . . , p ) + i 1in
donde se puede suponer que las i satisfacen (i), (ii) y (iii). Luego, si lla-
mamos
Si (1 , 2 , . . . , p ) = u(Gi , Hi , 1 , 2 , . . . , p )
12 PUNTUAL
CHAPTER 3. ESTIMACION
que es equivalente a:
n
X b
Si ()
b
(Xi Si ()) =0 j = 1, 2, . . . , p .
i=1
j
Igual que en el caso de los E.M.V. estas condiciones son necesarias para el
E.M.C. pero no son suficientes. Tambien se deberan cumplir las condiciones
de segundo orden, y se debera verificar que se trata de un mnimo absoluto
y no local.
Si () Si ()
= Gi y =1.
1 2
n
X
(X b1 Gi b2 )Gi = 0
i=1
n
X
(Xi b1 Gi b2 ) = 0 .
i=1
n
X .X
n
b1 = (Xi X)(Gi G) (Gi G)2 ,
i=1 i=1
b2 = X b1 G ,
donde n n
1X 1X
X= Xi y G= Gi .
n i=1 n i=1
`2 (, d) = (d q())2
que es una funcion que desde el punto de vista matematico es mas sencilla
que `1 , ya que es derivable en todo punto.
La funcion de perdida cuadratica fue la primera utilizada en Estadstica,
y a
un hoy la mas difundida. De ahora en adelante, salvo mencion en contrario
supondremos que la funcion de perdida es `2 . La perdida media, o riesgo,
correspondiente esta dada por
R2 (, ) = E((X) q())2
y sera llamada en adelante error cuadratico medio, e indicada por ECM ().
Luego
ECM () = R2 (, ) = E ((X) q())2 (3.8)
La funcion ECM () nos proporciona un criterio para determinar si un es-
timador 1 (X) de q() es mejor que otro 2 (X), basta verificar
ECM (1 ) ECM (2 )
3.5. CRITERIOS PARA MEDIR LA BONDAD DE UN ESTIMADOR 15
R( 0 , ) R(, )
R(, ) + R( 0 , )
R( , ) < = R(, ) (3.12)
2
lo que contradice el hecho de que (X) es admisible.
Definici
on 1: Se dice que (X) es un estimador insesgado para q() si
E ((X)) = q() .
Luego, se tiene
2
b 2 ) = EF (X 2 ) EF (X )
EF ( (3.13)
Por otro lado, se tiene
n
1 X 1
VarF (X) = 2
VarF (Xi ) = VarF (X) .
n i=1 n
Como
2
VarF (X) = EF (X ) (EF (X))2 ,
resulta
2 1
EF (X ) = VarF (X) + (EF (X))2 = VarF (X) + (EF (X))2 (3.14)
n
y reemplazando (3.14) en (3.13) resulta
1
b 2 ) = EF (X 2 ) (EF (X))2
EF ( VarF (X) = VarF (X)(1 1/n)
n
n1 n1
= VarF (X) = q2 (F ).
n n
b 2 no es un estimador insesgado para VarF (X), aunque
Esto prueba que
el sesgo es VarF (X)/n, y por lo tanto, tiende a 0 cuando n tiende a infinito.
El sesgo puede corregirse dividiendo b 2 por (n 1)/n, obteniendo as el
estimador insesgado
n
2 n 2 1 X
s = b
= (Xi X)2
n1 n 1 i=1
que denominaremos varianza muestral.
Definici
on 2: Se dira que (X) es un estimador insesgado de mnima
varianza para q(), uniformemente en (IMVU) si:
3.7. ESTADISTICOS SUFICIENTES 19
(b) dado otro estimador insesgado para q(), (X), se cumple Var ((X))
Var ( (X)) .
donde xi vale 0 o 1.
Si queremos estimar el parametro , parece razonable pensar que solo se
debera utilizar la cantidad total de artculos defectuosos del lote, ya que el or-
den en que han aparecido los mismos parece irrelevante para el conocimiento
P
de . Por lo tanto, es de esperar que el estadstico T = ni=1 Xi sea suficiente.
Para ver si esta conjetura es correcta, calculemos la distribucion de
X = (X1 , . . . , Xn ) dado T = t:
pX,T (x1 , x2 , . . . , xn , t, )
pX|T (x1 , . . . , xn , |t) = (3.15)
pT (t, )
El numerador de este cociente es la probabilidad conjunta:
P (X1 = x1 , . . . , Xn = xn , r(X1 , . . . , Xn ) = t)
(
t (1 )nt si r(x1 , . . . , xn ) = t
=
0 si r(x1 , . . . , xn ) 6= t
Pn
y como el estadstico T = i=1 Xi sigue una ley binomial Bi(, n) el denom-
inador de (3.15) vale
n
pT (t, ) = t (1 )nt
t
As resulta
1/ n si r(x1 , . . . , xn ) = t
pX|T (x1 , . . . , xn , |t) = t
0 si r(x1 , . . . , xn ) 6= t .
Una caracterizacion u
til de los estadsticos suficientes es la proporcionada
por el siguiente teorema:
3.7. ESTADISTICOS SUFICIENTES 21
es suficiente para 1 y 2 .
F0 = {F (x, ) 0 } F.
p(x, 34 )
U = g(x) = = 32T n
p(x, 14 )
intuitivo que tenemos de estadstico suficiente, para estimar una funcion q()
deberan bastar estimadores que dependan solo de T, ya que en T esta toda
la informacion que X contiene sobre el parametro . Esto es justamente lo
que afirma el siguiente teorema.
(T) = E((X)|T).
Luego se tiene
P ( (T) = (X)) = 1
n: Podemos escribir
Demostracio
Luego, usando
se obtiene
E (( (T) q())((X) (T))) = 0 .
26 PUNTUAL
CHAPTER 3. ESTIMACION
y resulta
ECM () ECM ( ) .
Ademas igualdad se cumple solo si P ((X) = (T)) = 0 .
Luego ya se ha demostrado (i) y (ii). Para mostrar (iii) supongamos que
es insesgado, luego se tiene
Sumando en i se tiene
n
X
E(Xi |T ) = n (T ) .
i=1
luego
n
T 1X
(T ) = = Xi .
n n i=1
Es facil ver que
Var ( (T )) Var ((X))
ya que
exponencial a k par
ametros si la correspondiente funcion de densidad discreta
o continua se puede escribir como
2
1 1 2 +( )x
= e 2 2 x 2 2 2
2 2
2
e 22 ( 1 2 )x2 + 2 x
= p e 2 (3.19)
2 2 )
Luego esta 2
2 2 es una familia exponencial a dos parametros con A(, ) =
e /2 / 2 2 ; c1 (, 2 ) = (1/2 2 ); c2 (, 2 ) = / 2 ; r1 (x) = x2 ;
r2 (x) = x; h(x) = 1.
n P
donde A () = A()n ; ri (x1 , . . . , xn ) =
j=1 ri (xj ), h (x1 , . . . , xn ) =
Qn
i=1 h(xj ), y por lo tanto el Teorema 2 queda demostrado.
seg
un corresponda, son infinitamente derivables y se puede derivar dentro
de los signos integral o sumatoria, respectivamente.
Demostracio n: No se dara en este curso, puede consultarse en el Teorema
9 de 2.7 de Lehmann [4].
(ii)
A0 ()
E (r(X)) =
A()c0 ()
3.10. FAMILIAS EXPONENCIALES 31
(iii)
E (r(x))
Var (r(x)) =
c0 ()
se tiene Z Z
1
= ... ec()r(x) h(x)dx1 . . . dxq
A()
Como el segundo miembro de esta igualdad satisface las condiciones del
Lema 1 con m(x) = 1, resulta infinitamente derivable y luego tambien A(),
con lo cual queda demostrado (i).
Por otro lado se tiene
Z Z
A() ... ec()r(x) h(x)dx1 . . . dxq = 1
y usando el Lema 1 que nos permite derivar dentro del signo integral resulta
Z Z
0
A () ... ec()r(x) h(x)dx1 . . . dxq +
Z Z
A()c0 () ... r(x)ec()r(x) dx1 . . . dxq = 0
y esta u
ltima ecuacion se puede escribir
A0 ()
+ c0 ()E (r(x)) = 0
A()
y luego
A0 ()
E (r(x)) =
c0 ()A()
y se ha demostrado (ii).
(iii) se deja para resolver en el Problema 3 de 3.10.
32 PUNTUAL
CHAPTER 3. ESTIMACION
Sea = /(1 ); luego cuando [0, 1], toma los valores en IR+ (reales
no negativos).
Poniendo (3.20) en funcion de resulta
k
X k
(1 )k g(x) x = 0 IR+
x=0
x
Luego
k
X k
Q() = g(x) x = 0 IR+
x=0
x
Pero Q() es un polinomio de grado k con infinitas races, luego todos sus
coeficientes deben ser 0. Por lo tanto,
k
g(x) =0 x = 0, 1, . . . , k ,
x
y entonces
g(x) = 0 x = 0, 1, . . . , k .
Con lo que queda probado que T (X) = X es un estadstico completo.
3.11. ESTADISTICOS COMPLETOS 33
luego Z
g(x)dx = 0, IR+
0
R
Sea G() = 0 g(x)dx, entonces se tiene
G() = 0 IR+
y sea = { = (1 , 2 , . . . , k ) : i = ci (); }.
a) Si contiene k + 1 puntos (1) , . . . , (k+1) tales que
{(j) (1) , 2 j k + 1} son linealmente independientes, entonces
el estadstico suficiente T = (r1 (X), . . . , rk (X)) es minimal suficiente.
34 PUNTUAL
CHAPTER 3. ESTIMACION
Consideremos la subfamilia
Pk
F0 = {p(x, (j) ) = A( (j) )e c(
i=1 i
(j) )ri (x) h(x)
Pk (j)
i ri (x)
= A( (j) )e i=1 h(x) 1 j k + 1} .
que es equivalente a
k k
!
X (2) (1) X (k+1) (1)
T = r () (x) = [i i ]ri (x), . . . , [i i ]ri (x) .
i=1 i=1
E (g(T )) = 0
luego
r
X s
X
g(ti )p(ti , ) + g(t0i )p(t0i , ) = 0
i=1 i=1
con lo cual
r
X s
X
g(ti )A()ec( )ti h(ti ) + g(t0i )A()ec( )ti h(t0i ) = 0
0
,
i=1 i=1
de donde se obtiene
r
X s
X
c( )/v) ti v
g(t0i )h(t0i )(ec( )/v) )ti v = 0
0
g(ti )h(ti )(e ) + .
i=1 i=1
Llamando = ec( )/v resulta que como hay infinitos posibles valores
de c(), el conjunto de posibles valores de , tambien es infinito. Luego
tenemos
r
X s
X 0
g(ti )h(ti )wi + g(t0i )h(t0i )wi = 0
i=1 i=1
Multiplicando por w la u
ltima ecuacion resulta
r
X s
X 0
P () = g(ti )h(ti )zi + g(t0i )h(t0i )zi = 0
i=1 i=1
Luego el polinomio P () tiene infinitas races y por lo tanto, todos los coe-
ficientes deben ser 0, es decir, g(ti )h(ti ) = 0, 1 i r y g(t0i )h(t0i ) =
0, 1 i s. Como h(ti ) > 0, 1 i r y h(t0i ) > 0, 1 i s,
36 PUNTUAL
CHAPTER 3. ESTIMACION
1 1
= { = (1 , 2 , 3 , 4 ) con 1 = 2 , 2 = 2 3 = 2 4 = 2 } ,
2 1 2 2 1 2
g(T ) = (T ) [m(T )] = (T ) (U )
3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 37
n:
Demostracio
P (1 (T) 2 (T) = 0) = 1,
(ii) Sea (T) un estimador insesgado de q(), y sea 1 (X) otro estimador
insesgado. Si llamamos 1 (T) = E(1 (X)|T) sabemos por el Teorema
1 de la seccion 3.9 que 1 (T) es insesgado y
Var () Var (1 )
= { = (1 , 2 , . . . , k ) : i = ci (); }
contiene una esfera en IRk . Sea T = (r1 (X), . . . , rk (X)), luego si (T) es
un estimador insesgado de q(), entonces (T) es un estimador IMVU para
q().
Demostracio n: Inmediata a partir de los Teoremas 3 de seccion 3.10 y 1
de seccion 3.12.
3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 39
T = (X1 , X2 , X12 , X22 ) era minimal suficiente pero no era completo. Se puede
mostrar que en este caso no hay ning un estimador IMVU (ver Problema 7
de 3.11).
Luego una condicion necesaria para que q() tenga un estimador IMVU
es que sea un polinomio de grado menor o igual a kn. Se puede mostrar que
es tambien una condicion suficiente aunque no lo demostraremos.
Por lo tanto no existen estimadores IMVU, por ejemplo, para e , ln ,
sen . Esto no quiere decir que no existen buenos estimadores. Si q()
es continua, un buen estimador sera (T ) = q(T /nk) ya que T /nk es un
estimador IMVU de .
(D) " 2 #
ln p(X, )
0 < I() = E <
I() se denomina n
umero de informaci
on de Fisher.
Esta u
ltima ecuacion es equivalente a
Z Z ln p(x, )
... IS (x)p(x, )dx = 0
la cual implica
ln p(X, )
E (X, ) = E =0 (3.23)
Como I() = E 2 (X, ), (3.23) implica que Var (X, ) = I()
(ii) De la igualdad
2 p(x,)
2 ln p(x, ) 2
= 2 (x, )
2 p(x, )
se obtiene que
Z Z
2 ln p(X, ) 2 p(x, )
E = ... dx E 2 (X, ) . (3.24)
2 2
Utilizando (3.22) con h(x) = IS (x) se obtiene que el primer termino del lado
derecho de (3.24) es igual a cero, de donde el resultado.
(i)
|q 0 ()|2
Var ((X))
I()
(ii) (i) vale como igualdad si y solo si (X) es estadstico suficiente de una
familia exponencial, es decir si y solo si
p(x,)
n: (i) Sea (x, ) =
Demostracio . Por el Lema 1 tenemos que
R R
donde c() = a()d y B() = b()d. Luego, despejando p(x, ) resulta
p(x, ) = eB() e(x)c() eg(x)
y llamando A() = eB() y h(x) = eg(x) ; resulta (3.25).
Supongamos ahora que se cumple (3.25), mostraremos que se cumple
(3.30).
Si se cumple (3.25), tomando logaritmos se tiene
ln p(x, ) = ln A() + c()(x) + ln h(x)
y derivando se obtiene
ln p(x, ) A0 ()
= + c0 ()(x)
A()
y por lo tanto se cumple (3.30). Esto prueba el punto (ii).
y por lo tanto,
n
In () = .
(1 )
Pn
Consideremos el estimador insesgado de , X = (1/n) i=1 Xi . Se tiene
que
(1 ) 1
Var (X) = =
n I()
y por lo tanto, de acuerdo con la observacion 2 es IMVU. Esto es un ejemplo
donde el estimador IMVU satisface la desigualdad de RaoCramer como
igualdad. Esto podramos haberlo visto directamente mostrando que X es
el estadstico suficiente de una familia exponencial.
Veremos ahora un ejemplo donde el estimador IMVU satisface la de-
sigualdad de RaoCramer estrictamente.
Sea q() = (1 ) = Var (X1 ). Conocemos por el ejemplo 2 de la
seccion 3.3, que
n
1 X
(X1 , X2 , . . . , Xn ) = s2 = (Xi X)2
n 1 i=1
q 0 ()2
Var ((X1 , . . . , Xn )) > (3.32)
nI1 ()
Definici
on 1: n (X1 , . . . , Xn ) es una sucesi
on fuertemente consistente de
estimadores de q() si
Definici
on 2: n (X1 , . . . , Xn ) es una sucesi
on debilmente consistente de
estimadores de q() si
2
Luego, X n EF (X1 )2 c.t.p. y como n/(n 1) converge a 1 se tiene que
y
lim s2 = Var (X1 ) c.t.p.
n n
E (n (X1 , . . . , Xn ) q())2
P (|n (X1 , . . . , Xn ) q()| )
2
2
Var (n ) + E (n ) q()
2
y por lo tanto,
lim Var (n (X1 , . . . , Xn )) = 0.
n
Luego con probabilidad 1 existe n0 tal que para todo n n0 la ecuacion que
define bn tiene solucion y es fuertemente consistente para .
Demostracio n: Sea > 0. Hay que demostrar que, con probabilidad 1,
existe n0 tal que
|bn | < para n n0 .
Supongamos que g() es estrictamente creciente. El caso contrario se de-
muestra en forma analoga. Luego, se tiene,
Luego, con probabilidad 1, dado > 0 existe n0 tal que para todo n n0 se
tiene
n
1X
g() h(Xi ) g() + .
n i=1
52 PUNTUAL
CHAPTER 3. ESTIMACION
b definido por
Se puede demostrar que bajo condiciones muy generales n
(3.33) es fuertemente consistente.
Sin embargo, bajo condiciones muy generales, existen estimadores (por ejem-
plo, los de maxima verosimilitud), que para n grande satisfacen aproximada-
mente (3.37) y la igualdad en (3.38). Para precisar estas propiedades dare-
mos la siguiente definicion:
Las hipotesis que se han supuesto en este teorema son mas fuertes que
las estrictamente necesarias con el objetivo de simplificar la demostracion.
Tambien se puede demostrar un teorema similar para el caso de mas de un
parametro. Una demostracion mas general se puede ver en la seccion 5.5 de
Zacks [7].
Definici
on 1: Sea f (x) una funcion definida sobre un intervalo de IR y que
toma valores en IR. Diremos que f (x) es convexa si:
E(h(Y )) h(E(Y ))
Teorema 3: Sea f : IR IR tal que f (x) > 0 para todo x; luego f (x) es
convexa.
n: Puede verse en cualquier libro de calculo.
Demostracio
pero Z +
(q(x)/p(x))p(x)dx = 1 (3.40)
d2 ( ln x) 1
2
= 2 >0.
dx x
Luego, estamos en condiciones de aplicar la desigualdad de Jensen (Teorema
2), con Y = q(X)/p(X) y h(x) = ln x. En estas condiciones obtenemos
Z +
q(X) q(X) q(x)
Ep ln > ln Ep = ln p(x)dx = ln 1 = 0.
p(X) p(X) p(x)
Demostraci
on del Teorema 1 de Secci
on 3.16
P
Sea Ln (X1 , . . . , Xn , ) = (1/n) ni=1 ln p(Xi , ). Luego bn satisface
Ln (X1 , . . . , Xn , bn ) = max Ln (X1 , . . . , Xn , ) y
Ln (X1 , . . . , Xn , bn )
=0.
Ademas se tiene
1X n p(X , + )
i
Ln (X1 , . . . , Xn , + ) Ln (X1 , . . . , Xn , ) = ln (3.41)
n i=1 p(Xi , )
1X n p(X , )
i
Ln (X1 , . . . , Xn , ) Ln (X1 , . . . , Xn , ) = ln (3.42)
n i=1 p(Xi , )
y
Ln (X1 , . . . , Xn , + ) < Ln (X1 , . . . , Xn , ) .
Ln (X1 , . . . , Xn , n )
=0,
pero hemos supuesto que bn era el u nico que satisfaca esta igualdad. Luego,
bn = n y por lo tanto bn ( , + ).
58 PUNTUAL
CHAPTER 3. ESTIMACION
n0 K. Luego si n n0 :
P (|Xn | ) P ( n|Xn | K) .
Como n(Xn ) converge en distribucion a una variable con distribucion
N (0, 2 ), se tiene
lim P (|Xn | ) lim P ( n|Xn | K) = P (|X| K) < .
n n
Luego
lim (P |Xn | ) < para todo > 0 ,
n
Demostraci
on del Teorema 1 de la secci
on 3.17. Indiquemos por
(x, ) 2 (x, )
0 (x, ) = y 00 (x, ) = .
2
El estimador de maxima verosimilitud satisface:
n
X
(Xi , bn ) = 0 .
i=1
i=1 i=1
2 i=1
Por otro lado, como 0 (Xi , ) son n variables aleatorias, independientes igual-
mente distribuidas, por la ley de los grandes n umeros implica que
n
1X
0 (Xi , ) E( 0 (X1 , ) en probabilidad. (3.47)
n i=1
60 PUNTUAL
CHAPTER 3. ESTIMACION
E ( 0 (X1 , )) = I1 () .
D(X1 , . . . , Xn , ) I1 () en probabilidad,
con lo que queda probado (a). Para probar (b) observemos que, como las
variables aleatorias
ln p(Xi , )
(Xi , ) =
son independientes e igualmente distribuidas con esperanza 0 y varianza
I1 () (ver Lema 1 de la seccion 3.13), por el Teorema Central del lmite
n
1 X
(Xi , )
n i=1
Estimadores Bayesianos y
Minimax
1
2 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX
Con lo cual,
Z Z
r(, ) = E (E(`(, (X))|)) = ... R(, )()d. (4.4)
donde
1
D= . (4.14)
(n/ 2 ) + (1/2 )
Finalmente, usando (1) obtenemos
2
1 x
f (|x) = C3 (x, 2 , 2 , )exp ( D + (4.15)
2D 2 2
Luego, esta densidad, excepto una funcion que depende solo de x, co-
rresponde a una distribucion
n
x
N D 2
+ 2 ,D . (4.16)
donde
n/ 2
w= .
(n/ 2 ) + (1/2 )
Por lo tanto, nuevamente, el estimador de Bayes es un promedio ponderado
y la media de la distribucion
del estimador IMVU de la teora frecuentista X
a priori . Los pesos son inversamente proporcionales a las varianzas 2 /n
y 2 de ambos estimadores. A medida que el tama no de la muestra n crece,
el peso del estimador basado en la informacion a priori tiende a 0. Es decir,
a medida que el tama no de la muestra crece, la informacion a priori tiene
menos relevancia para determinar el estimador de Bayes.
b) Para cada valor de x existe un valor, que indicaremos (x), que mi-
nimiza E (`(, d)|X = x).
E (` (, (x)) |X = x) E (` (, (x)) |X = x)
E (q()w()|X = x)
(x) =
E (w()|X = x)
4.2 Utilizaci
on de m
etodos bayesianos para resolver
problemas frecuentistas
En esta seccion vamos a mostrar como los resultados de la teora bayesiana
pueden ser u tiles, aunque no se comparta ese punto de vista. Es decir, vere-
mos que los resultados de esta teora se pueden usar para resolver problemas
que surgen de la teora frecuentista.
Consideremos una muestra X = (X1 , ..., , Xn ) con distribucion conjunta
f (x, ) donde el vector de parametros . Supongamos que queremos
8 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX
estimar = q() y que tenemos una funcion de perdida `(, d). En el enfoque
frecuentista un estimador (X) de queda caracterizado por su funcion de
riesgo Z
R(, ) = E (`(, (X)) = `(, (x))f (x, )dx. (4.18)
R( , ) R(, ) .
M R( ) M R(). (4.20)
Definici
on 1. Un estimador satisfaciendo (4.20) se denomina minimax.
r( , ) r(, ). (4.21)
b) si 0 es el u
nico estimador Bayes respecto de 0 , 0 es el u
nico esti-
mador minimax,
c) 0 es la distribuci
on menos favorable.
n. Como el riesgo de 0 es constante se cumple que
Demostracio
Z
r(0 , 0 ) = R(0 , )0 ()d = sup R(0 , ). (4.23)
a) Consideremos un estimador 6= 0 , luego como
y por lo tanto, 0 es el u
nico estimador minimax.
c) Sea otra distribucion a priori y el estimador Bayes respecto de .
Luego, por ser Bayes se cumple
r( , ) r(0 , ). (4.27)
r( , ) r(0 , 0 )
n + a
E (a,b ) = , (4.29)
n+a+b
4.2. ESTIMADORES MINIMAX 11
y
n(1 )
var (a,b ) = , (4.30)
(n + a + b)2
Luego, usando (4.29) y (4.30) se deduce que
R(a,b , ) = E((a,b )2 )
= var (a,b ) + ( E (a,b ))2
n(1 ) n + a 2
= +
(n + a + b)2 n+a+b
n(1 ) + (a + b) 2 2a(a + b) + a2
2
=
(n + a + b)2
(n + (a + b)2 ) 2 + (n 2a(a + b)) + a2
= . (4.31)
(n + a + b)2
Para que (4.31) sea constante en , los coeficientes en y 2 del numer-
ador deben ser 0. Por lo tanto, se debe cumplir
n + (a + b)2 = 0, n 2a(a + b) = 0
La solucion de este sistema de ecuaciones es a = b = n/2, y por lo tanto
el estimador de Bayes correspondiente, que sera minimax, estara dado por
T + ( n/2)
mmax = . (4.32)
n+ n
La correspondiente funcion de riesgo esta dada por
n/4 1
R(mmax , ) = = .
(n + n)2 4( n + 1)2
lim r(k , k ) = C.
k
12 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX
Entonces es minimax.
Demostracio n: Sea 0 otro estimador para q(). Se cumple entonces que
Z
sup R( 0 , ) R( 0 , )k ()d = r( 0 , k ) r(k , k ). (4.33)
Con lo cual, tomando lmite en ambos miembros de (4.33), y usando (ii)
se obtiene
M R( 0 ) = sup R( 0 , ) C = M R(),
y por lo tanto, es minimax.
donde
n/ 2
wk = . (4.34)
(n/ 2 ) + (1/2k )
Es facil ver que
lim wk = 1 (4.35)
k
y que
1/4k
lim 2k (1 wk )2 = lim 2k 2 =0 (4.36)
k k ((n/ 2 ) + (1/2k ))
Por otro lado, se tiene
2
R(k , ) = var (k ) + ( E (k ))2 = wk2 + (1 wk )2 2 . (4.37)
n
Luego
2
r(k , k ) = Ek (R(k , )) = wk2 + (1 wk )2 2k .
n
Con lo cual, usando (4.35) y (4.36) se concluye que
2
lim r(k , k ) =
k n
4.2. ESTIMADORES MINIMAX 13
Intervalos y Regiones de
Confianza
1
2 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA
La longitud de S(X)
L = b(X) a(X)
dependera del nivel elegido, cuanto mas chico sea , o sea, cuanto mas
grande sea la probabilidad con que el intervalo cubra al verdadero valor del
parametro, mas grande sera la longitud de aquel, o sea, menos precisa la
estimacion de .
P (z 2 V z 2 ) = 1 P (V z 2 ) P (V z 2 )
= 1 =1 .
2 2
Si reemplazamos V por n(X n )/0 se tendra
! !
Xn
P z 2 n z 2 =1 ,
0
ya que
P [ S(X)] = 1 .
Conviene precisar nuevamente el significado de esta igualdad. Para fijar
ideas, supongamos = 0.05. La expresion S(X) cubre a con probabili-
dad 0.95, indica que si un experimentador extrayese un n umero suficiente-
mente grande de muestras X de tama no n de una distribucion N (, 02 ) y
construyese las regiones S(X) correspondientes a cada una de ellas, aproxi-
madamente el 95% de estas regiones S(X) contendran el parametro . Esto
es, dada X, la afirmacion S(X) cubre a tiene probabilidad 0.95 de ser
correcta y probabilidad 0.05 de ser falsa.
y su longitud es 1.96.
Supongamos ahora que se quiere conocer cual debera ser el numero de
observaciones para que el intervalo sea de longitud 0.1. Entonces
2 2
0.1 = 1.96 o sea n = 1.96 = 39.2
n 0.1
(iv) U dado por (5.1) tiene distribucion Tn1 , de Student con n 1 grados
de libertad.
P (U > tn, ) =
P (tn1, 2 U tn1, 2 ) = 1 .
P (U > 2n, ) =
P
Demostracio n: (i) Sea W = ni=1 (Xi )2 / 2 . Como las variables Yi =
P
(Xi )/ son independientes, con distribucion N (0, 1) y W = ni=1 Yi2
entonces W tiene distribucion 2n . Luego:
P (2n1,1 W 2n1, ) = 1
1 m+n
X
X m+n = Xi
m + n i=1
10 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA
y por lo tanto,
X
FV W (v, w) = P (V v, W w) = P (V v , W w , n = i)
i=0
X (X m+i )
= P( m + i v , W w , n = i) .
i=0
P
En virtud del Teorema 2, se tiene que m j=1 Xj es independiente de sm y
por otra parte, cada Xj con j > m tambien es independiente de sm . Por
P Pm+i
lo tanto, como X m+i = (1/(m + i))( m j=1 Xj + j=m+1 Xj ) se deduce que
X m+i es independiente de sm .
Por otro lado, de acuerdo con su definicion, n depende solo de sm . Luego,
el suceso
(X m+i )
{ m+i v}
es independiente de {W w} {n = i} y por lo tanto,
X (X m+i )
FV W (v, w) = P( m + i v)P (W w , n = i) .
i=1
Pero, por el Teorema 2, para cada i fijo m + i(X m+i )/ tiene dis-
tribucion N (0, 1). Luego si (v) es la funcion de distribucion de una variable
N (0, 1), se tendra
X
FV W (v, w) = (v)P (W w , n = i)
i=1
X
= (v) P (W w , n = i) .
i=0
P
Pero i=1 P (W w , n = i) = P (W w) = FW (w). Por lo tanto, se tiene
y como
P (tm1, 2 U tm1, 2 ) = 1
y
n2
X
E( (Yi Y )2 ) = (n2 1) 2 .
i=1
donde
1 1
2
=s 2
+ (5.11)
n1 n2
14 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA
Teorema 1: Sean X1 , ..., Xn1 y Y1 , ..., Yn2 dos muestras aleatorias indepen-
dientes de las distribuciones N(1 , 2 ) y N(2 , 2 ) respectivamente. Sean
Pn1 2
i=1 (Xi X)
V =
2
Pn2 2
i=1 (Yi Y )
W =
2
Luego
(ii) La variable
Z = V +W
tiene distribucion 2n1 +n2 2 .
(iv) El intervalo
h i
tn +n 2,
+ tn +n 2,
,
1 2 2 1 2 2
Z2 = 12 + 22 21 2 ,
donde
n n
1X 1 X
Z= Zi , s2Z = (Zi Z)2 .
n i=1 n 1 i=1
16 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA
Nota 2: Muchas veces, en los casos reales, interesara decidir antes de tomar
la muestra, si conviene usar un dise no de muestras aleatorias independien-
tes entre s provenientes de distribuciones N (1 , 2 ), N (2 , 2 ) o muestras
apareadas provenientes de una distribucion bivariada, N (1 , 2 , 2 , 2 , ).
Por ejemplo, si se quiere estimar la diferencia de rendimientos de dos
variedades de un cereal, uno podra preguntarse cual de los dos dise nos
siguientes proveera mas informacion sobre esta diferencia:
(i) Elegir al azar en el terreno considerado 2n parcelas de area A. En n de
ellas elegidas al azar cultivar la variedad 1 y en en los restantes cultivar
la variedad 2.
o sea si
t22n2,
2
>1 (5.13)
t2n1,
2
tendiendo a 0 cuando n .
Luego, para que sea mas conveniente tomar muestras apareadas es una
condicion necesaria que > 0. Para muestras grandes esta condicion es
practicamente suficiente ya que se hace muy peque no.
Sea, por ejemplo, n = 20 y = 0.05, luego = 0.03. Luego basta que
> 0.03 para que el dise no apareado sea mas eficiente. Para un ejemplo
practico, ver ejercicio 3 de 5.4. Por otra parte, por (5.13) resulta que en caso
de tomarse muestras apareadas convendra elegir los pares de manera que
sea lo mas grande posible.
18 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA
Definici
on 1: Se dira que una region S(X) es insesgada si
P ( S(X)) P ( 0 S(X)) , 0 .
b) Sea S(X) = [a(X), b(X)]. Luego si S 0 (X) = [a0 (X), b0 (X)] es otro
intervalo insesgado de nivel 1 , se tiene
lim P ( Sn (X1 , . . . , Xn )) = 1 .
n
n:
Demostracio
P ( Sn (X1 , . . . , Xn )) = P (A Gn (X1 , . . . , Xn , ) B)
= P (A Un B)
= [b1 , b2 ]
se tendra que
Vn N (0, 1) en distribucion.
Luego, un intervalo de confianza para , con nivel asintotico 1 estara
dado por
( )
n(X )
Sn (X1 , . . . , Xn ) = : z 2 z 2
sn
sn sn
= X z 2 , X + z 2 .
n n
donde I1 () es el n
umero de informacion de Fisher de X1 .
Luego, si llamamos
q
Un = n I1 () (bn )
se tendra que
Un N (0, 1) en distribucion.
Por lo tanto, una region de confianza para de nivel asintotico 1 estara
dada por
q
Sn = { : z 2 n I1 ()(bn ) z 2 }
5.7. REGIONES DE CONFIANZA BASADAS EN EMV 23
q b b
Si llamamos Un = n I1 (n )(n ), resulta que
Un N (0, 1) en distribucion.
Luego, si tomamos
s s
S1 = X t n1, , X + tn1, ,
4 n 4 n
Pn 2 Pn 2
i=1 (Xi X) i=1 (Xi X)
y S2 = ,
2n1, 2n1,1
4 4
! !
n(X ) S2
= P z z P n1,1 2 2n1,
2 2 2 2
2
= (1 )(1 ) = (1 )
La condicion
n(X )2
2
z 2
2
S2 S2
2
2 2
n1, 2 n1,1 2
G(X, (X)) = B .
Luego,
5.9.1 Comparaci
on de cotas superiores e inferiores de con-
fianza
As como en el caso de intervalos de confianza interesaba que tuviesen longi-
tud lo mas corta posible, cabe preguntarse como sera deseable que fuesen las
cotas superiores e inferiores. Planteado de otra manera, dadas por ejemplo
dos cotas superiores 1 (X) y 2 (X), existe algun criterio para compararlas
y concluir por ejemplo que una es mas conveniente que otra? Analogamente
en el caso de cotas inferiores.
Como en el caso de cota superior se tiene controlada la posibilidad que
(X) este por debajo de , ya que esto solo puede suceder con probabilidad
, el riesgo no controlado es que (X) sobreval ue muy por encima de lo
necesario. Esta sobrevaluacion que la llamaremos C(X, ) estara dada por
(
(X) si (X) >
C(X, ) =
0 si (X)
REFERENCIAS
3. Tate, R.F. y Klett, G.W. (1959) Optimal Confidence Intervals for the
variance of a Normal Distribution, J. Amer. Statist. Assoc. 54: 674
682.
Tests de Hip
otesis
6.1 Introducci
on
El test de hipotesis es una manera formal de decidir entre dos opciones, o
sea, es una manera de distinguir entre distribuciones de probabilidad en base
a variables aleatorias generadas por una de ellas. Veamos un ejemplo para
tener una idea de lo que significan.
1
2
CHAPTER 6. TESTS DE HIPOTESIS
D 1 = {0, 1, . . . , D0 } o D 2 = {D0 + 1, . . . , N }
Esto puede ser expresado como que el comerciante debe decidir entre dos
hipotesis:
H : D 1 contra K : D 2
Por ahora, no tenemos ning un criterio para elegir entre dos tests, ni entre
los muchos otros que podran definirse. En los parrafos siguientes atacaremos
el problema de definir criterios para comparar diferentes tests, y el de elegir
un test optimo.
H : 1 contra K : 2
Definici
on 2. La regi on crtica R, de un test , es el conjunto de puntos
X que llevan a la decision de rechazar H y la regi
on de aceptaci
on A es el
conjunto de puntos X que llevan a aceptar H.
Dado un test para un problema de test de hipotesis se podra incurrir en
dos tipos de error.
se deciden por alguno de los modelos fabricados por ella. Se desea testear si
la afirmacion hecha por la empresa es exagerada o no.
Supongamos que se toma una muestra de compradores que, para facilidad
en los calculos, consideraremos de tama
no n = 6.
Las hipotesis en cuestion son:
t 0 1 2 3 4 5 6
Por lo tanto,
y
P 1 (3 = 1) = P 1 (T < 3) = 22/64 > 0.25
2 2
y tratar de elegir de forma tal que tenga el error de tipo I deseado. Para
eso se requiere
Definici
on 4. Se llama funci
on de potencia del test (X) a la funcion
() = P (rechazar H),
() = P ((X) = 1) = E ((X)) .
y resulta
() = E ((X)) .
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
() 1 0.944 0.85 0.736 0.616 0.498 0.389 0.295 0.215 0.149 0.1
(B) El se
nor W no esta tuberculoso.
Es claro que el medico responsable de la decision considerara mucho mas
grave rechazar (A) cuando es cierta, que rechazar (B) cuando es cierta (esto
es lo mismo que aceptar H cuando es falsa), puesto que en el primer caso
6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 9
Definici
on 5. El nivel de significaci
on de un test esta definido por
= sup ()
1
Luego, es el supremo de la probabilidad de cometer un error de tipo 1.
Por lo tanto, fijado , se buscara un test que tenga nivel de significacion
menor o igual que . Un test con esta propiedad asegurara que la probabili-
dad de rechazar la hipotesis nula H, cuando esta es cierta, no sea mayor que
.
Como existen muchos tests que tienen nivel de significacion menor o igual
que para un problema determinado, debemos dar un criterio para elegir
uno entre todos ellos. Resulta natural elegir entre todos los tests con la
restriccion de que su nivel de significacion sea menor o igual que aquel
que tenga menor probabilidad de error de tipo 2. Esto motiva la siguiente
definicion.
(b) Dado otro test de nivel menor o igual que entonces se tiene
( 2 ) ( 2 )
10
CHAPTER 6. TESTS DE HIPOTESIS
1 = {0 } ; 2 = { IR : 6= 0 }.
Si se toma una alternativa fija 1 < 0 , el test mas potente de nivel para
esta alternativa no coincide con el test mas potente para una alternativa
2 > 0 , como veremos mas adelante.
Definici on 7. Diremos que un es un test uniformemente m as potente,
UMP, de nivel menor o igual que para H : 1 contra K : 2 ,
si es el mas potente de nivel menor o igual que para todo 2 2 , es
decir, si el mismo test es optimo cualquiera sea la alternativa fija 2 2
considerada.
Lo ideal sera encontrar (cuando existan) tests uniformemente mas po-
tentes de nivel menor o igual que . Estudiaremos casos donde estos tests
existen y otros donde no. En estos u ltimos habra que elegir otros criterios
para seleccionar el test a usar.
Definicion 8. El nivel crtico o p-valor es el menor valor de significacion
para el que rechazamos la hipotesis H para una observacion dada x.
En el Ejemplo 1 de la seccion 2, por ejemplo si observamos X = 2 el
p-valor del test {k } que rechaza para valores peque
nos de T , sera p = 7/64.
Prefijado el nivel de significacion , y evaluado el p- valor, p, del test
utilizado, rechazaremos H si p < .
A esta altura, la logica de los tests puede parecer mas clara. Es un
argumento por contradiccion destinado a mostrar que la hipotesis nula lleva
a conclusiones absurdas y que por lo tanto, debe ser rechazada.
Supongamos que para un conjunto de datos dado, se eval ua el estadstico
del test y se obtiene un pvalor de 0.001. Para interpretarlo, debemos pensar
que la hipotesis nula es cierta e imaginamos a otros investigadores repitiendo
la experiencia en identicas condiciones. El valor 0.001 dice que solo un
investigador de cada 1000 puede obtener un valor del estadstico tan extremo
como el obtenido. Por lo tanto, la diferencia entre los datos y lo que se espera
de ellos bajo H no puede atribuirse meramente a variacion aleatoria. Este
6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 11
6.3 Tests
optimos para el caso de hip
otesis simple
contra hip
otesis simple
El caso mas simple de problema de test de hipotesis es la situacion donde
1 y 2 contengan cada uno un elemento. En este caso, se dice, H y K son
hipotesis simples.
Si 1 tuviera mas de un elemento, H se llamara hip
otesis compuesta, y
lo mismo vale para K en relacion a 2 .
En el caso en que H y K sean simples, un problema de test de hipotesis
sera de la forma
H : = 1 contra K : = 2
Supongamos que X sea un vector discreto (o continuo) bajo 1 y 2 y que
las funciones de densidad correspondientes sean p(x, 1 ) y p(x, 2 ). Luego,
intuitivamente, parece razonable rechazar H si la probabilidad de obtener
el valor observado x bajo 2 es grande comparada con la probabilidad de
obtener x bajo 1 , es decir, cuando
p(x, 2 )
L21 = k
p(x, 1 )
donde k es una constante que depende del nivel . Por lo tanto, se podra
pensar en construir un test de la forma
1 si L21 > k
(X) = si L21 = k
0 si L21 < k
o equivalentemente,
1 si p(x, 2 ) > k p(x, 1 )
(X) = si p(x, 2 ) = k p(x, 1 ) (6.1)
0 si p(x, 2 ) < k p(x, 1 )
12
CHAPTER 6. TESTS DE HIPOTESIS
(ii) Sea un test de la forma (6.1) que satisface (6.3) para > 0 y de la
forma (6.2) para = 0. Luego ese test es el mas potente de nivel
menor o igual que para
H : = 1 contra K : = 2 .
Luego,
P 1 (L21 k0 ) (1 )
= .
P 1 (L21 = k0 )
Luego, por (6.5) 0 < 1 y ademas E 1 ((X)) = .
Demostraremos (ii) en el caso continuo, el caso discreto es analogo reem-
plazando las integrales por sumatorias. Supongamos que sea de la forma
(6.1) y satisfaga (6.3). Luego, por satisfacer (6.3) su nivel es igual a .
Para mostrar que es el test mas potente de nivel menor o igual que
, solo falta mostrar que dado otro test de nivel menor o igual que se
tiene
( 2 ) ( 2 ) (6.6)
(a) Supongamos primero > 0 con lo cual k < en (6.1). Sea de nivel
menor o igual que . Consideremos la expresion
Luego, de acuerdo con (6.1), se tendra (x) = 1 y por lo tanto (x) (x),
de donde, U (x) 0.
Si p(x, 2 ) = k p(x, 1 ), es claro que U (x) = 0.
Finalmente, si
p(x, 2 ) < k p(x, 1 ) ,
Por lo tanto,
Z Z
((x) (x))p(x, 2 )dx k ((x) (x))p(x, 1 )dx
o equivalentemente,
( 2 ) ( 2 ) k ( ( 1 ) ( 1 )) .
( 1 ) ( 1 ) 0
con lo cual,
( 2 ) ( 2 ) .
( 2 ) ( 2 ) = E 2 ((X)) E 2 ( (X))
Z
= [(X) (X)] p(x, 2 )dx
{x: p(x, 1 )=0}
Z
+ [(X) (X)] p(x, 2 )dx
{x: p(x, 1 )>0}
Z
= [1 (X)] p(x, 2 )dx 0 .
{x: p(x, 1 )=0}
E 2 ((X)) = E 2 ( (X))
se cumple
Z
0 = [(X) (X)] p(x, 2 )dx
{x: p(x, 1 )=0}
Z
+ [(X) (X)] p(x, 2 )dx
{x: p(x, 1 )>0}
Z
= [1 (X)] p(x, 2 )dx .
{x: p(x, 1 )=0}
Por otra parte, la funcion U (x) definida en (6.7) es no negativa y por (6.8)
R
U (x)dx = 0. Luego, U (x) debe ser nula excepto en un conjunto N de
medida 0. Es decir, ((x) (x))(p(x, 2 ) k p(x, 1 )) = 0 para x / N.
Por lo tanto, (x) = (x) en el conjunto {x : p(x, 2 ) 6= k p(x, 1 )} N c
de donde el resultado.
Observaci on. Si L21 es una variable continua no hay que preocuparse por
, ya que P (L21 = k ) = 0.
o sea (X1 , . . . , Xn ) = 1 si
n 2 /2 2 +n (X )2 /2 2
ei=1 (Xi 2 ) 0 i=1 i 1 0 k
o equivalentemente, (X1 , . . . , Xn ) = 1 si
n
X n
X
(Xi 2 )2 + (Xi 1 )2 202 ln k .
i=1 i=1
E1 ((X1 , . . . , Xn ) = (6.9)
(X n 1 ) (k 0 /n 1 )
n n
0 0
Pn
donde X n = (1/n) i=1 Xi . Nuevamente n(k 0 /n 1 )/0 es una cons-
tante que llamaremos k 00 . Luego el test puede ser escrito de la forma
(X n 1 )
(X1 , . . . , Xn ) = 1 si n k 00 .
0
Calculemos k 00 . De acuerdo con el Teorema de NeymanPearson, de-
bera tenerse que
= E1 ((X1 , . . . , Xn ))
= P1 ((X1 , . . . , Xn ) = 1)
(X n 1 )
= P1 ( n k 00 ) .
0
Pero cuando es 1 , n(X n 1 )/0 es N (0, 1). Luego, k 00 debe ser igual
a z .
Finalmente, el test queda como
n (X 1)
1 si 0 z
(X1 , . . . , Xn ) = (6.10)
0 si n (X 1)
< z
0
18
CHAPTER 6. TESTS DE HIPOTESIS
Luego, la funcion de potencia del test definido por (6.10) esta dada por
(X n ) (1 )
() = E ((X)) = P ( n z + n )
0 0
Pero cuando el valor de la media es , n(X n )/0 tiene distribucion
N (0, 1). Luego si es la funcion de distribucion de una variable aleatoria
N (0, 1), se tendra
(1 )
() = 1 (z + n ).
0
B. (1 ) = .
6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 19
Teorema 2.
y para
(b) H : 1 contra K : < 1 .
Su funcion de potencia viene dada por
() = (z + n(1 )/0 )
X i = + i
y por lo tanto, el test mas potente de nivel 0.05 esta dado por (X) = 1 si
(X 0.7)
64 z0.05 .
0.1
En las tablas se encuentra que z0.05 = 1.65. As, el test rechaza H, es
decir, acepta el producto si
1.65 0.1
X + 0.7 = 0.68 .
8
Supongamos ahora que se quiere conocer la probabilidad de cometer error
de tipo 2, o sea, de aceptar H cuando es falsa (rechazar el producto cuando
6.4. FAMILIAS DE CVM 21
H : = 0 contra K : = 1 .
(e) H : = 0 contra K : 6= 0
H : 0 contra K : < 0
obteniendose tests uniformemente mas potentes para estos problemas.
La obtencion de tests uniformemente mas potentes para hipotesis unilate-
rales a partir de NeymanPearson es siempre posible para ciertas familias de
distribuciones que tienen una propiedad llamada de cociente de verosimilitud
mon otono.
1n I[0,2 ] (t)
g1 2 (t) = ,
2n I[0,1 ] (t)
se tiene que
p(x, 2 )
= g1 2 (r(x)).
p(x, 1 )
Po lo tanto, bastara mostrar que g1 2 (t) es monotona en S. Pero
(
(1 /2 )n si 0 t 1
g1 2 (t) =
si 1 t 2 .
se satisface
E1 ((X)) = . (6.15)
H : 1 contra K : > 1 .
y si llamamos k 0 = g1 2 (k ) resulta
p(X, 2 )
1 si > k0
p(X, 1 )
p(X, 2 )
(X) =
si = k0
p(X, 1 )
p(X, 2 )
0 si < k0 .
p(X, 1 )
Como (X) satisface (6.15), usando el Teorema 1 de 6.3 resulta que (X)
es el test mas potente de nivel menor o igual que para H : = 1 contra
K : = 2 . Como no depende de 2 , este resultado vale para todo 2 > 1 ,
luego es el test UMP de nivel menor o igual que para H : = 1 contra
K : > 2 .
(iii) Solo demostraremos que () es monotona no decreciente.
Sean y cualesquiera, tales que < . Si llamamos =
E ((X)), resulta por (ii) que (X) es el test mas potente a nivel menor o
igual que para las hipotesis simples
H : = contra K : = .
(X) = .
E ( (X)) E ((X))
26
CHAPTER 6. TESTS DE HIPOTESIS
pero,
E ( (X)) = = E ((X)) = ( )
y ademas
E ((X)) = ( )
por lo tanto,
( ) ( ) ,
con lo que queda demostrado que () es monotona no decreciente.
Para demostrar (iv), primero mostraremos que (X) es un test de nivel
menor o igual que para
H : 1 contra K : > 1
o sea que
sup () .
1
por (6.15).
Consideremos ahora otro test (X) de nivel menor o igual que para
H : 1 contra K : > 1 , luego (X) es de nivel menor o igual que
para H : = 1 contra K : > 1 , pero por (ii) (X) es el test uniformemente
mas potente para este problema, por lo tanto
() () > 1 .
(ii) Sea (X) es un test de la forma (6.16) que satisface (6.17). Luego
es el test uniformemente mas potente a nivel menor o igual que para
H : = 1 contra K : < 1 .
(iii) () es monotona no creciente para todo y estrictamente decreciente
para todo tal que 0 < () < 1.
(iv) Sea un test de la forma (6.16) que satisface (6.17). Luego es el
test uniformemente mas potente de nivel menor o igual que para
H : 1 contra K : < 1 .
Para una version mas completa de este Teorema, ver Teorema 2 de 3.3
en Lehmann [2].
X n i
P1 (T k ) = ( ) (1 1 )ni .
i 1
k in
8 12 6 1
pT (t) 27 27 27 27
19 7 1
P 1 (T > k) 1 27 27 27 0
3
6.4. FAMILIAS DE CVM 29
1 7
P 1 (T > 2) = < 0.1 < P 1 (T 2) = P 1 (T > 1) =
3 27 3 3 27
y sera entonces
1
0.1 27
= 6 = 0.27 .
27
donde k verifica
E1 ((X)) = . (6.21)
de donde resulta
n
k = 1 1 .
30
CHAPTER 6. TESTS DE HIPOTESIS
H1 : = 0 contra K1 : = 1 (1 > 0 )
y para
H2 : = 0 contra K2 : = 2 (2 < 0 ) .
Pero, por el Teorema 3 de la Seccion 6.3 el test mas potente para H1
contra K1 esta dado por
(X 0 )
1 si n z
0
1 (X) =
(X 0 )
0 si n < z
0
y el test mas potente para H2 contra K2 esta dado por
(X 0 )
1 si n z
0
2 (X) =
(X 0 )
0 si n > z
0
Entonces, por la unicidad dada en el Teorema de Neyman-Pearson,
debera coincidir con 1 y con 2 lo cual es imposible.
Recordemos que en el caso de estimadores puntuales tampoco existe en
general uno de menor error cuadratico medio. Una manera de poder definir
un estimador optimo que se propuso en el Captulo 3 fue restringiendo los
estimadores a la clase de los insesgados. En el caso de test se procede
en forma similar, restringiremos la clase de tests considerados a los que
6.5. TESTS INSESGADOS 31
Definici
on 1. Sea una familia de distribuciones F (x, ) con . Se dira
que un test para testear H : 1 contra K : 2 es insesgado si
sup () inf ()
1 2
(1 ) =
() 6= 1 .
Definici
on 2. Se dira que un test para testear H : 1 contra
K : 2 es uniformemente m
as potente de nivel entre los insesgados,
IUMP, si
() 2
() () 2 .
b ) = max p(X, )
p(X, 1
1
y
b 2 ) = max p(X, ) .
p(X,
2
b1 y
Si b 2 no dependieran de la muestra, podramos considerar el test
mas potente para testear H* : = b 1 contra K* : =
b 2 , el cual es de la
forma
1 si L < k
(X) = si L = k
0 si L > k
donde
1 b1)
p(X,
L= =
L21 b2)
p(X,
6.6. TEST DEL COCIENTE DE MAXIMA VEROSIMILITUD 33
sup 1 p(X, )
L=
sup 2 p(X, )
y que
1
n n (Xi X)2
2 2 i=1
sup p(X, ) = (202 ) 2 e 0 .
34
CHAPTER 6. TESTS DE HIPOTESIS
Luego,
1
2 2
(ni=1 (Xi 0 )2 ni=1 (Xi X)2 )
L = e 0
y como
n
X n
X
(Xi 0 )2 (Xi X)2 = n(X 0 )2
i=1 i=1
resulta n
(X0 )2
2 2
L = e . 0
Sea T = n|X 0 |/0 . Luego, L = g(T ) con g decreciente. Luego (X)
es equivalente a
|X 0 |
1 si n k0
0
(X) =
|X0 |
0 si n 0 < k 0 .
es de dimension dos.
Por lo tanto utilizaremos el test basado en L . El estimador de maxima
P
verosimilitud de (, 2 ) restringido a 1 es (0 , ni=1 (Xi 0 )2 /n) y el esti-
mador de maxima verosimilitud de (, 2 ) sin restricciones es
P
(X, ni=1 (Xi X)2 /n).
6.6. TEST DEL COCIENTE DE MAXIMA VEROSIMILITUD 35
Luego, se tiene
1
sup p(X, , 2 ) = Pn n
(, 2 ) 1 n n (Xi 0 )2 2
e (2)
2 2 i=1
n
y
1
sup p(X, , 2 ) = Pn n .
(, 2 ) n n (Xi X)2 2
e (2)
2 2 i=1
n
Como n n
X X
(Xi 0 )2 = (Xi X)2 + n(X 0 )2
i=1 i=1
se tiene que
" # n
n(X 0 )2 2
L = 1 + Pn 2
.
i=1 (Xi X)
Sea ahora
(X 0 )
T = n
s
Pn
donde s2 = i=1 (Xi X)2 /(n 1). Luego,
" #n
2
1
L = T2
1+ n1
y k debera ser elegido de manera que el test resulte con nivel de significacion
, es decir, de manera que
P0 (|T | k ) = .
36
CHAPTER 6. TESTS DE HIPOTESIS
k = tn1, 2 .
1 = {(, 2 ) : 0 , 2 > 0}
y
2 = {(, 2 ) : > 0 , 2 > 0} .
Luego, la dimension de 1 es igual a la de 2 , y el test del cociente de
maxima verosimilitud debera hacerse con L y no con L . Como
1
Pn
n (Xi )2
p(X, , 2 ) = (2 2 ) 2 e 22 i=1 (6.24)
resulta
n
n n 1 X
ln p(X, , 2 ) = ln(2) ln 2 2 (Xi )2 . (6.25)
2 2 2 i=1
y para 2 es
n
1X
b22 =
b 2 )2 .
(Xi
n i=1
n
X n
max p(X, , 2 ) = [2 e bj )2 /n] 2
(Xi
(, 2 ) j
i=1
para j = 1, 2, de donde
"P #n "P #n
n n
(Xi b 2 )2
2 2
i=1 (Xi X) + n(X b 2 )2 2
L= Pi=1
n = Pn
i=1 (Xi b 1 )2
2 b 1 )2
i=1 (Xi X) + (X
"P #n
n
(X X) 2 + n(X )2 2
i=1 i 0
si X 0
Pn
i=1 (Xi X)
2
L=
" Pn #n
2 2
i=1 (Xi X)
Pn si X > 0 .
2 2
i=1 (Xi X) + n(X 0 )
Si llamamos
n(X 0 )
T = r Pn
2
(Xi X)
i=1
n1
se tiene
T 2 n2
(1 + n1 ) si X 0
L=
T 2 n2
(1 + n1 ) si X > 0 .
38
CHAPTER 6. TESTS DE HIPOTESIS
Esto es equivalente a
1 si |T | k 0 y T >0
(X) =
|T | < k 0 y T >0
0 si
T <0 ,
de donde, se deduce que
(
1 si T k 0
(X) =
0 si T < k 0 .
Debemos ver ahora que se puede elegir k 0 de modo que el test resulte
de nivel igual . Esto significa que
sup P,2 (T k 0 ) = .
{0 , 2 >0}
6.6. TEST DEL COCIENTE DE MAXIMA VEROSIMILITUD 39
P0 ,2 (T k 0 ) = .
k 0 = tn1, .
Debemos probar ahora que este test tiene realmente nivel , es decir que,
P,2 (T tn1, ) 0 .
cn,k () = P (X k),
cn,k () = P (X k) = E [P (X k|V )] ,
pero
! r
U + v
P (X k|V = v) = P p k |V = v = 1 (k ) .
v/n n
Luego esta u
ltima probabilidad, para k, n y v fijos, es una funcion cre-
ciente de . Por lo tanto, si 1 < 2 se tiene
o sea
P (X1 k) < P (X2 k),
y por lo tanto cn,k () es creciente en .
T =q Pn =r Pn
1
n1 i=1 (Xi X)2 1 i=1
(Xi X)2
n1 2
resulta
n (X)
+ n (
0)
T = r Pn .
1 i=1
(Xi X)2
n1 2
P
Llamando U = n(X )/ y V = ni=1 (Xi X)2 / 2 se tiene que
U y V son independientes, y cuando los valores de los parametros son y
6.6. TEST DEL COCIENTE DE MAXIMA VEROSIMILITUD 41
Para calcular la potencia de estos tests se pueden utilizar las tablas cons-
trudas por Owen [4].
o equivalentemente
Pn !
i=1 (Xi X)2 k
P 2 2 =.
0 02 0
Pn
Como i=1 (Xi X)2 /02 tiene distribucion 2n1 cuando 2 = 02 , se
tiene que
k = 02 2n1, .
con + = .
Si queremos que el test resulte insesgado, la derivada de la funcion de
potencia debe ser cero en 0 . Pero,
Pn !
2 i=1 (Xi X)2 k 0 02
( ) = P2
2 2
Pn !
i=1 (Xi X)2 k 00 02
+P2 < ,
2 2
Se puede mostrar que los tests obtenidos en los Ejemplos 1 a 5 son IUMP.
Para estos resultados pueden consultarse el Captulo 5 de Lehmann [3] o el
Captulo 5 de Ferguson [2].
lim sup n () =
n
1
Es decir, que el nivel del test n (X1 , . . . , Xn ) se acerca a cuando el tama
no
de la muestra tiende a infinito.
6.7. TEST CON NIVEL DE SIGNIFICACION
ASINTOTICO 45
6.7.1 Distribuci
on asint
otica del test del cociente de m
axima
verosimilitud
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribucion de densidad
o probabilidad dada por p(x, ) con = (1 , . . . , p ) , donde es un
conjunto de IRp que contiene una esfera.
Supongamos que 1 es un conjunto de dimension menor que p, digamos
de dimension p j, donde 1 j p. 1 puede venir expresado de varias
formas diferentes. Por ejemplo, puede venir dado por j relaciones funcionales
entre los parametros 1 , . . . , p , es decir,
1 = { : g1 () = 0; g2 () = 0, . . . , gj () = 0}
46
CHAPTER 6. TESTS DE HIPOTESIS
Para ver la teora asintotica del test del cociente de verosimilitud se puede
ver Wald [5] y Chernoff [1]. Nosotros solo daremos la distribucion en el caso
particular IR y H : = 0 contra K : 6= 0 .
(B) Para todo x, p(x, ) tiene derivada tercera respecto de continua y tal
que
3 ln p(x, ) 2 (x, )
= K
3 2
para todo x S y para todo , donde
ln p(x, )
(x, ) = .
(D) " 2 #
ln p(X1 , )
0 < I1 () = E <.
Indiquemos ademas por `0 , `00 y `000 las derivadas hasta el orden tres respecto
de de la funcion ` y por
(x, ) 2 (x, )
0 (x, ) = y 00 (x, ) = .
2
48
CHAPTER 6. TESTS DE HIPOTESIS
Luego, bn verifica
n
X
`0 (bn ) = (Xi , bn ) = 0 .
i=1
Pero,
E0 ( 0 (X1 , 0 )) = I1 (0 ) ,
luego, usando (6.32) y (6.33) se obtiene que
n (bn 0 )2 An 21 en distribucion. (6.34)
Por lo tanto, a partir de (6.31) y (6.34) deducimos que bastara probar que
Rn 0 en probabilidad. (6.35)
X (1 X)
Z = 2 ln L = 2T ln + 2(n T ) ln
0 1 0
6.8 Relaci
on entre regiones de confianza y test
En esta seccion se estudiara la relacion que existe entre tests y regiones de
confianza.
Supongamos que se tiene un vector aleatorio X con distribucion perte-
neciente a la familia F (x, ) con y supongamos que para cada 0
se tiene un test no aleatorizado de nivel , 0 , para H : = 0 contra
K : 6= 0 .
Se puede construir una region de confianza de nivel (1 ) para
definiendo
S(X) = { : (X) = 0}
Es decir, S(X) es el conjunto de todos los tales que la hipotesis de
que el valor verdadero es , es aceptada cuando se observa X.
Demostraremos que S(X) as definida, es una region de confianza de nivel
1 para
P 0 ( 0 (X) = 1) = P 0 ( 0
/ S(X)) = 1P 0 ( 0 S(X)) = 1(1) = .
H : = 0 contra K: 6= 0
ENTRE REGIONES DE CONFIANZA Y TEST
6.8. RELACION 51
(
1 0 si
/ S(X)
0 (X) =
0 si
0 S(X)
pero 0 S(X) si y solo si |0 X| tn1, 2 (s/ n), luego
|X 0 |
1 si n > tn1, 2
s
0 (X) =
|X 0 |
0 si n tn1, 2 .
s
Por lo tanto, este test coincide con el obtenido en el Ejemplo 2 de 6.6,
cuando obtuvimos el test del CMV para este problema. Recprocamente, a
partir de esta familia de tests si se usara el procedimiento indicado anterior-
mente para obtener intervalos de confianza, se llegara al intervalo inicial.
Por lo tanto,
r
n1 n2 |X Y 0 |
1 si tn1 +n2 2, 2
n1 + n 2 s
0 (X) =
r
n1 n2 |X Y 0 |
0 si < t(n1 +n2 2), 2 .
n1 + n 2 s
H : = 0 contra K : K( 0 )
S(X) = { : (X) = 0}
sera una region con nivel de confianza 1 . De la misma forma que antes
S(X) sera el conjunto de todos los tales que la hipotesis de que es
el verdadero valor es aceptada cuando se observa X.
H1 : = 0 contra K1 : > 0
H2 : = 0 contra K2 : < 0
S(X) = { : (X) = 0}
6.9. COTAS DE CONFIANZA OPTIMAS 53
P { S(X)} = P { (X) = 0} = 1
0 () () > 0
0
o sea,
P {0 (X) = 1} P {0 (X) = 1} > 0 .
Por lo tanto,
E0 (0 (X)) = .
Mostraremos que
(a) k () es una funcion no decreciente de .
= E0 (0 (X)) = P0 (T k (0 ))
E1 (0 (X)) = P1 (T k (0 )) .
Como ademas
= E1 (1 (X)) = P1 (T k (1 )) ,
tendremos
= P1 (T k (1 )) P1 (T k (0 )) ,
6.9. COTAS DE CONFIANZA OPTIMAS 55
k (1 ) k (0 ) .
Pn (T k) Pn (T k (n )) = . (6.38)
P (T k) = lim Pn (T k) . (6.39)
n
P (T k) = P (T k ())
S(X) = { : (X)}
Dado 0 definamos
(
1 si 0
0 (X) =
0 si 0 > .
resulta igual a
n
S(X) = { IR : max Xi 1 } =
1in
max Xi
1in
= { IR :
n
}
1
y sera
max Xi
1in
(X) = n
1
puesto que este es el menor valor que puede tomar que pertenece a S(X).
Resulta entonces que
max Xi
1in
I = [(X), +) = [
n
, +)
1
K : > 0 , es de la forma
(X 0 )
1 si n > z
0
0 (X) =
(X 0 )
0 si n z
0
Luego,
0
(X) = X z
n
es la mejor cota inferior para y
0
I = [(X), +) = [X z , +)
n
Sn (X1 , . . . , Xn ) = { : n (X) = 0} .
(X 0 )
np
0 (1 0 )
REFERENCIAS
Estimaci
on Robusta
xi = + ui , 1 i n, (7.1)
1
2 ROBUSTA
CHAPTER 7. ESTIMACION
entonces
EF (u) = (1 )E (u) + EH (u). (7.4)
Ademas, si EH (u) = 0, se tiene
f = (1 ) + h,
y luego
Z Z Z
EF (u) = uf (u)du = (1) u(u)du+ uh(u)du = (1)E (u)+EH (u).
Teorema Central del Lmite. Sean para cada n natural, vn1 , ...vnn ,
v variables aleatoria independientes igualmente disribuidas. Supong-
amos que existan constantes M > 0 y m > 0, tales que |vni | M y
limn var(vni ) m. Luego se tiene que
n
1 X (vni E(vni )) D
N(0, 1).
n1/2 i=1 var(vni )1/2
7.1. EL PROBLEMA DE LA ROBUSTEZ PARA EL MODELO DE POSICION5
lim P (n1/2 (
n ) y) = (2f ()y), (7.6)
n
f minimiza
Equivalentemente, podemos decir que
n
X
xi
S() = f , (7.12)
i=1
donde
f (u) = log f (u) + log f (0).
Por ejemplo, si f corresponde a la distribucion N(0,1). Entonces
f (u) = u2 /2, y entonces el estimador de maxima verosimilitud mini-
miza n
1 X
S() = 2 (xi )2 ,
2 i=1
o equivalentemente, el que minimiza
n
X
S() = (xi )2 ,
i=1
el cual es precisamente xn .
Si f corresponde a la distribucion doble exponencial, entonces
1
f (u) = e|u| , < u < ,
2
y por lo tanto f (u) = |u|. Entonces en este caso el estimador de
maxima verosimilitud corresponde a minimizar
n
X
S() = |xi |, (7.13)
i=1
Media
Mediana
3
Huber
2
1
0
-3 -2 -1 0 1 2 3
S() S(0 ).
3
2
2
Media Mediana Huber
1
1
0
0
-1
-1
-1
-2
-2
-2
-3
-3
-3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
y luego A() = 0.
(iv) Supongamos que A() = 0. Veremos que no puede haber otra
raz de A. Sea primero > , como en este caso A es estrictamente
decreciente se tendra A( ) < 0. Similarmente se demuestra que si
< , entonces A( ) > 0.
Como vamos a ver mas adelante la funcion cumple un papel muy
importante en la teora de M-estimadores. Para la funcion correspon-
diente a la media, resulta (u) = u, para la funcion correspondi-
ente mediana (u) = |u|, y para la funciones H k , las correspondientes
H
derivadas k estan dadas por
k
si u < k
kH (u) = u si |u| k .
k si u>k
la cual corresponde a una identidad truncada. En Fig. 7.2 se grafican
estas tres funciones .
EF ((u)) = 0. (7.17)
EF (u ) < EF (u) = 0.
14 ROBUSTA
CHAPTER 7. ESTIMACION
Por lo tanto
!
x ( + )
EF = EF (u ) < 0. (7.18)
Similarmente se puede probar que
!
x ( )
EF = EF (u + ) > 0. (7.19)
Sea ahora
n
1X xi
Gn ( ) = ,
n i=1
luego el M-estimador
n satisface
Gn (
n ) = 0. (7.20)
<
n < + .
n.
Esto prueba la consistencia de
El siguiente teorema muestra la asintotica normalidad de los M-
estimadores
donde
EF 2 (u)
V (, F ) = . (7.21)
(EF 0 (u))2
Demostracion. El M-estimador
n satisface
n
!
X xi
n
= 0,
i=1
y haciendo un desarrollo de Taylor en el punto se tiene
n
n
n
X xi X n 1 X
xi xi n n )2
(
0= 0 + 00 ,
i=1 i=1 2 i=1 2
y luego
n
1 X
((xi )/)
1/2
n1/2 i=1
n (
n ) = n n .
1 X 0 1 1X 00
((xi )/) 2 (
n ) ((xi n )/)
n i=1 2 n i=1
(7.22)
Sea n n
1 X 1 X
An = ((xi )/) = (ui ) ,
n1/2 i=1 n1/2 i=1
n n
1X 1X
Bn = 0 ((xi )/) = 0 (ui ) ,
n i=1 n i=1
y
n
1 1X
Cn = (
n ) 00 ((xi n )/) .
2 n i=1
16 ROBUSTA
CHAPTER 7. ESTIMACION
Luego
An
n1/2 (
n ) = . (7.23)
1 Bn + 2 Cn
Por el Teorema Central del Lmite se tiene
D
An N (0, EF ( 2 (u))). (7.24)
Finalmente, por hipotesis existe una constante K tal que | 00 (u)| <
p
K. Luego |Cn | < (K/2)( n ). Usando el hecho de que n , se
tiene que
p
Cn 0. (7.26)
Usando (7.23)-(7.26) se deduce el Teorema.
V () = sup V (, F ).
F V
2 = A mediana{|xi
n |, 1 i n},
donde
n = mediana{xi : 1 i n},
y donde A es una constante que hace que el estimador sea consistente
a en el caso de que las observaciones sean una muestra aleatoria de
una N(, 2 ).
18 ROBUSTA
CHAPTER 7. ESTIMACION
xi
n = (
n ) + ui
mediana{|xi
n |, 1 i n} = mediana{|(
n ) + ui |, 1 i n}.
lim mediana{|xi
n |, 1 i n} = lim mediana{|ui |, 1 i n} }
n n
y usando (7.29)
lim mediana{|xi
n |, 1 i n} = B c.s.
n
2(B) 1 = 0.5,
o sea
(B) = 0.75, B = 1 (0.75) = 0.675.
Luego se tendra que el estimador MAD de viene dado por
1
2 =
mediana{|xi
n |, 1 i n}.
0.6745
Cuando el M-estimador se obtiene minimizando (7.28), la ecuacion
(7.15) se transforma en
7.2. M-ESTIMADORES DE POSICION 19
n
X
xi
= 0. (7.30)
i=1
Las propiedades asintoticas del estimador
solucion de (7.30) son
similares a las del estimador correspondiente al caso de conocida. El
siguiente Teorema se dara sin demostracion.
1.0
Media Huber
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
(
1 si |u| k
wkH (u) = k .
|u|
si |u| > k
El grafico de esta funcion se encuentra en la Figura 7.3.
xi () = +
((xi
)/
) .
Luego se tiene
((xi ) = (xi ()
)/ )/
,
h
n
1X
h+1 = x (
h ). (7.35)
n i=1 i
Es interesante calcular los pseudovalores correspondientes a kH , los
cuales estan dados por
k si xi < k
xi () = xi si |xi | k
.
+ k
V si xi > + k
X
k(n+ n ) + (xi
h )/
iD0 n+ n 1 X
h+1 =
h +
=
k + xi .
n0 n0 n0 iD0
Observese que el miembro derecho de esta u ltima formula solo de-
pende de D , D0 y D+ . Estos tres conjuntos forman una particion del
conjunto {1, 2, ..., n}. Es claro que hay un n
umero finito de estas parti-
ciones, y por lo tanto si h converge lo debe hacer en un numero finito
de pasos.