Apunte Estadística

Notas de Estadstica
Autores: Graciela Boente- Vctor Yohai

Contenido
1. Introduccin a la inferencia estadstica
2. Estimacin puntual
3. Estimadores Bayesianos y Minimax
4. Intervalos y regiones de confianza
5. Tests de hiptesis
6. Estimacin robusta
Chapter 2
Introducci on a la Inferencia
Estadstica
2.1 Poblaciones nitas
Frecuentemente en los problemas de las diferentes disciplinas se estudia el
comportamiento de varias variables denidas sobre un conjunto de obje-
tos. El conjunto de objetos sera denominado poblacion y sera representado
por P = {a
1
, a
2
, . . . , a
n
}; a
1
, a
2
, . . . , a
n
seran denominados los elementos
de la poblacion P. Sobre esos elementos se observan variables, indicadas
X
1
, X
2
, . . . , X
k
, que son caractersticas que cambian de individuo a indi-
viduo. Luego para cada elemento a en P, estara denido
X
1
(a), X
2
(a), . . . , X
k
(a).
Ejemplo 1: Consideremos una poblacion P formada por un conjunto de
1000 parcelas que constituyen una explotacion agrcola y donde se cultiva
solamente trigo. Sea X(a) la cosecha en la parcela a durante un determinado
a no medida en kilogramos.
Ejemplo 2: Consideremos el conjunto P de votantes en una determinada
eleccion donde se presentan 3 candidatos, que denominamos 1, 2 y 3. De-
nimos X(a) como el n umero del candidato votado por a.
Ejemplo 3: Supongamos que la poblacion P consiste de todos los pajaros
de una especie determinada que habitan en una region determinada. Para
1
2 CHAPTER 2. INTRODUCCI
ON A LA INFERENCIA ESTAD
ISTICA
cada pajaro se dene X(a) como el largo del pajaro y Y (a) el area de las
alas.
Distribucion de una variable en la poblacion. Llamaremos distribucion
de una variable X en la poblacion P a la distribucion que se obtiene cuando
se elige al azar un elemento de la poblacion, es decir, cuando se le da a todo
elemento de la poblacion la misma probabilidad. Luego se tiene
F
X
(x) =
#{a P, X(a) x}
#P
donde #A indica el n umero de elementos de A. Del mismo modo se dene
distribucion conjunta de dos o mas variables en la poblacion P. Luego si X
e Y son variables denidas sobre la poblacion P sera
F
XY
(x, y) =
#{a P : X(a) x, Y (a) y}
#P
Observese que la distribucion de una variable denida en una poblaci on
nita es necesariamente discreta, ya que la variable correspondiente toma
solo un n umero nito de valores.
2.2 Poblaciones innitas
En muchos problemas interesa la distribucion de una variable aleatoria X (o
de varias variables X
1
, X
2
, . . . , X
k
) que se observan cada vez que se repite un
mismo experimento perfectamente denido. En estos casos, cada elemento
a estudiar corresponde al resultado de un experimento, pero no existe un
conjunto nito jo de experimentos denido de antemano, ya que al menos
teoricamente se puede repetir el experimento tantas veces como se quiera.
Se puede pensar entonces en una poblacion innita compuesta por los inni-
tos posibles experimentos que teoricamente se pueden realizar, aunque tal
poblacion no tiene existencia real.
Ejemplo 1: El experimento consiste en tirar una moneda y X vale 0 o 1
seg un caiga ceca o cara.
Ejemplo 2: El experimento consiste en repartir 10 cartas elegidas al azar
de un mazo de 52. X es el n umero de corazones, e Y el n umero de sietes.
2.3. MODELOS PARA LA DISTRIBUCION DE UNA VARIABLE 3
Ejemplo 3: El experimento consiste en fabricar y probar una lampara; X
es el tiempo de duracion de la misma.
Ejemplo 4: Se desea medir una magnitud fsica, cuyo valor verdadero es
desconocido. Cada medicion esta afectada de un error aleatorio. Luego lo
que se observa al hacer una medicion es una variable X = +, donde es
el error. La medicion se puede repetir tantas veces como se quiera.
Lo que hace que una poblacion sea innita es que el experimento pueda
repetirse innitas veces y no el n umero de posibles resultados que puede ser
nito como puede verse en los ejemplos 1 y 2.
Distribucion de una variable en una poblacion innita. En el caso de
poblacion innita se puede suponer que cada vez que se repite el experimento
se observa una variable aleatoria X (o varias variables X
1
, X
2
, . . . , X
k
) con
una cierta distribucion F(x) (o distribucion conjunta F(x
1
, x
2
, . . . , x
k
)), y
que a diferentes experimentos corresponden variables aleatorias independien-
tes. De acuerdo a la ley de los grandes n umeros, F(x) puede verse como el
lmite en casi todo punto de la distribucion emprica asociada a n repeti-
ciones independientes del experimento. Es decir, si se realiza una sucesion
de experimentos y los valores observados son x
1
, x
2
, . . . , x
n
, . . ., entonces si
F
n
(x) = #{x
i
: x
i
x, 1 i n} / n se tendra F
n
(x) F(x) en c.t.p.
La distribucion F(x) sera denominada distribucion de la variable X en la
poblacion innita considerada.
2.3 Modelos para la distribucion de una variable
en una poblacion
Tanto en el caso de poblaciones nitas como en el de poblaciones inni-
tas, la distribucion F puede ser muy complicada e irregular. Sin embargo,
frecuentemente puede ser aproximada por una distribucion de forma relati-
vamente sencilla. Consideremos el ejemplo 1 de 2.1. Como la poblacion es
nita, la distribucion real de X es discreta. Sin embargo, como el n umero
de parcelas es muy grande, 1000, y como es muy probable que los valores
X(a
i
) sean todos diferentes (pueden diferir muy poco, pero es muy difcil
que haya 2 exactamente iguales), resulta que la probabilidad de cada uno de
los valores es muy peque na (1/1000). Por lo tanto, se puede pensar que la
distribucion real puede aproximarse por una distribucion continua de forma
ISTICA
sencilla, por ejemplo una distribucion normal. Esto sugiere la introducci on
del concepto de modelo.
Llamaremos modelo de la distribucion de una variable en una poblacion a
un conjunto de hipotesis que se suponen validas para la distribucion de una
variable en una poblacion. Mas formalmente, supongamos que la variable
tiene distribucion F perteneciente a una familia F. Al jar el modelo, se
establecen hipotesis sobre la familia F que, en general, se cumpliran en forma
aproximada. La bondad de un modelo para describir la distribucion de una
poblacion estara dada por el grado de aproximacion que tengan las hipotesis
del modelo con la distribucion real.
Por lo tanto, de acuerdo a lo que dijimos anteriormente, se podra usar
un modelo continuo para la distribucion de variables en poblaciones nitas.
Clasicaremos los modelos en parametricos y no parametricos.
Modelos parametricos: Consisten en suponer que la distribucion F(x)
de la variable en la poblacion pertenece a una familia de distribuciones que
depende de un n umero nito de parametros reales. As, ejemplos de modelos
parametricos son los siguientes:
(a) F(x) pertenece a la familia N(,
2
),
(b) F(x) pertenece a la familia B
i
(, n),
(c) F(x) pertenece a la familia P(),
(d) F(x) pertenece a la familia (),
(e) Si F(x, y) es la distribucion de dos variables, un modelo puede ser
F(x, y) pertenece a la familia N(
1
,
2
,
2
1
,
2
2
, ),
(f) Si F(x
1
, x
2
, . . . , x
k
) es la distribucion de k variables un modelo puede
ser F(x
1
, . . . , x
k
) pertenece a la familia M(
1
,
2
, . . . ,
k
, n).
En general, un modelo parametrico tendra la siguiente forma. Si F(x)
es la distribucion de una variable X, entonces F(x) pertenece a la familia
F = {F(x,
1
,
2
, . . . ,
k
) }, donde = (
1
,
2
, . . . ,
k
) es el vector
de parametros que toma valores en un conjunto R
k
. Esto signica
que existe alg un valor , digamos
0
tal que F(x,
0
) coincide con la
distribucion F(x) (aunque en la realidad no coincidira, sino que resultara
parecida).
2.3. MODELOS PARA LA DISTRIBUCION DE UNA VARIABLE 5
Ejemplo 1: Para el ejemplo 1 de 2.1, podemos usar el modelo denido por
la familia de distribuciones N(,
2
).
Ejemplo 2: Para el ejemplo 2 de 2.1 , podemos usar el modelo M(
1
,
2
,
3
, 1).
En este caso, el modelo sera exacto con
i
=
#{a P; X(a) = i}
#P
, i = 1, 2, 3.
Ejemplo 3: Para el ejemplo 3 de 2.1, podemos usar para la distribucion
F(x, y) el modelo N(
1
,
2
,
2
1
,
2
2
, ).
Ejemplo 4: Para el ejemplo 3 de 2.2 podemos usar el modelo ().
Ejemplo 5: Para el ejemplo 4 de 2.2 se puede usar el modelo N(,
2
).
Modelos no parametricos: En los modelos no parametricos se supone
que la distribucion F(x) de la variable (o de las variables si hay mas de una)
en la poblacion, pertenece a una familia F, pero esta familia no puede ser
indicada con un n umero nito de parametros reales.
Ejemplo 6: Consideremos nuevamente el ejemplo 4 de 2.2. Un modelo no
parametrico razonable sera el siguiente. Sea el valor verdadero que se
quiere medir, luego la distribucion de X (el valor observado en una medicion
pertenece a la familia F de todas las distribuciones tales que:
(i) Son continuas con densidad f(x),
(ii) f( + x) = f( x) es decir son simetricas alrededor del verdadero
valor , por lo tanto la probabilidad de un error positivo es la misma
que de uno de igual valor absoluto pero negativo.
(iii) Si > x > x
, entonces f(x
) < f(x) < f(). Es decir, a medida

que se alejan del verdadero valor los posibles resultados tiene menor
probabilidad.
Esta familia de distribuciones F descripta por (i), (ii) y (iii) no puede
ser indicada por un n umero nito de parametros.
ISTICA
Ventajas relativas de los modelos parametricos y no parametricos
La ventaja fundamental de los modelos parametricos, consiste en que la
distribucion que se elige para representar a la distribucion de la variable en
la poblacion puede ser descripta por un n umero nito de parametros. Esto
permite inclusive la posibilidad de tabulacion. Por ejemplo en el caso de
la familia N(,
2
) basta tabular la distribucion N(0, 1). Para obtener otra
distribucion de la familia basta con realizar una transformacion lineal. En
el caso de la familia P() basta tabularla para algunos valores de . Por
ejemplo, para valores de escalonados de 0.1 en 0.1. Para otros valores de
, la distribucion se puede obtener por interpolacion.
Ademas, como la descripcion del modelo tiene una formulacion analtica
relativamente simple, su tratamiento matematico es mas sencillo y las con-
clusiones a las que se pueden arribar mas fuertes.
Los modelos no parametricos carecen de estas ventajas, pero en recom-
pensa tienen mucha mayor exibilidad. Esto se debe a que la familia de posi-
bles distribuciones para la poblacion es mas numerosa y por lo tanto mayor
es la posibilidad que haya en esta familia una distribucion muy proxima a
la real.
Por ejemplo, en el caso del ejemplo 6 de 2.3 ya no representa el valor
esperado de la variable X, que podra no existir. Por lo tanto, su valor apro-
ximado no podra conocerse promediando los valores observados como en el
caso parametrico, en el que se supone, por ejemplo, que X tiene distribucion
N(,
2
).
Eleccion del modelo: La eleccion del modelo puede ser hecha en base
a consideraciones teoricas, o porque la experiencia indica que ajusta bien.
Por ejemplo, si F es la distribucion del tiempo de espera hasta que un de-
terminado mecanismo falle, y por consideraciones teoricas podemos suponer
que el mecanismo tiene falta de desgaste, podemos suponer como modelo
para F la familia exponencial (). En otros problemas puede suceder que
no se pueda elegir el modelo en base a consideraciones teoricas, pero si la
experiencia indica a traves de estudios anteriores, por ejemplo, que puede
ser bien aproximada por una distribucion normal, entonces se usara como
modelo la familia N(,
2
).
Veremos en el transcurso del curso, metodos para poner a prueba el
modelo elegido, es decir metodos para determinar si el modelo elegido puede
describir dentro de una aproximacion aceptable la distribucion de la variable
(o variables) en la poblacion. Esto se hara en el captulo 6.
2.4. INFERENCIA ESTADISTICA 7
2.4 Muestra de una distribucion. Inferencia es-
tadstica
Supongamos que hemos denido un modelo para la distribucion F de una
variable en una poblacion, y para jar ideas supongamos que hemos elegido
un modelo parametrico F(x, ) con = (
1
,
2
, . . . ,
k
) , donde R
k
.
En general, va a interesar saber sobre F algo mas que el hecho de pertenecer
a la familia F(x, ). Puede interesar conocer totalmente la distribucion, es
decir, el valor de , o algunas caractersticas de la misma.
Ejemplo 1: Volvamos al ejemplo 1 de 2.1 y supongamos que hemos elegido
para la distribucion de X en la poblacion la familia N(,
2
). Consideremos
tres problemas diferentes.
(a) Interesa conocer la distribucion F completamente. En este caso hace
falta conocer los valores de ambos parametros, y
2
.
(b) Se requiere solo el conocimiento de la produccion total. Como hay
1000 parcelas la produccion total sera 1000 y por lo tanto bastara
con conocer .
(c) Se ha jado una meta de producir al menos 200 toneladas de trigo y
lo unico que interesa es saber si se cumple o no la meta. Luego en este
caso lo unico que interesa es saber si < 200 o 200, aunque no
interesa el valor exacto de .
Volvamos al problema general, la caracterstica numerica que interesa de
la distribucion puede ser expresada como q(
1
,
2
, . . . ,
k
), donde q(
1
,
2
, . . . ,
k
)
es una funcion de en R si interesa una sola caracterstica numerica, o en
R
h
si interesan h caractersticas. En el ejemplo 1, tendramos para (a)
q(,
2
) = (,
2
); para (b) q(,
2
) = 1000 y para (c)
q(,
2
) =
0, si < 200
1, si 200
.
As, en este ultimo caso q(,
2
) = 0 nos indica que no se cumplio la meta y
q(,
2
) = 1 indica que se cumplio.
Para conocer el valor de q(
1
,
2
, . . . ,
k
) exactamente, deberamos cono-
cer el valor de la variable X en toda la poblacion. As, en el ejemplo 1,
ISTICA
deberamos conocer la produccion de todas las parcelas. Observar el valor
de la variable para todos los elementos de la poblacion puede ser muy cos-
toso, o a un imposible, como en el caso de poblaciones innitas. Inclusive en
el caso de poblaciones nitas puede ser imposible si se quiere la informacion
con cierta premura. En el ejemplo 1, si se pueden cosechar solo 20 parcelas
por da, se necesitaran 50 das para conocer cual es la produccion de cada
una de las 1000 parcelas. Si se quisiera el primer da de la cosecha hacer
una estimacion de la produccion total, esta debera hacerse en base a los
resultados de las 20 parcelas cosechadas ese da.
Se puede denir la Estadstica como la ciencia que estudia los procedi-
mientos para determinar el valor de una o varias caractersticas q(
1
, . . . ,
k
)
de una distribucion de una variable en una poblacion que se supone pertenece
a una familia F(x,
1
,
2
, . . . ,
k
) observando solo unos pocos elementos si se
trata de una poblacion nita o realizando unos pocos experimentos en el
caso de una poblacion innita. Al conjunto de estas pocas observaciones en
base a las cuales se determinara q(
1
,
2
, . . . ,
k
) se denomina muestra. Si el
modelo es no parametrico esta formulacion cambiara ligeramente, como se
vera mas adelante.
Los procedimientos estadsticos pueden clasicarse en dos grandes tipos:
procedimientos de dise no y procedimientos de inferencia.
Procedimientos de dise no: Son los procedimientos para elegir las obser-
vaciones que componen la muestra, de manera que con pocas observaciones
se pueda obtener la mayor informacion posible sobre q(
1
,
2
, . . . ,
k
).
Procedimientos de inferencia: Son los procedimientos que permiten a
partir de la muestra inferir la caracterstica de la distribucion de la variable
en la poblacion que interesa, es decir q(
1
,
2
, . . . ,
k
).
Para ejemplicar, volvemos nuevamente al Ejemplo 1. En este caso un
posible dise no, no necesariamente el optimo, para la seleccion de la muestra
de 20 observaciones puede ser el siguiente. Se elige la primera parcela al azar.
El rendimiento de esta parcela sera una variable aleatoria que llamaremos
X
1
y que tendra distribucion N(,
2
). La segunda parcela se elige al azar
entre todas las que quedan. El rendimiento de esta parcela sera una varia-
ble aleatoria que llamaremos X
2
. Como la poblacion de parcelas es grande
(hay 1000 parcelas), la distribucion de la variable X practicamente no se
modicara despues de la extraccion de la primera parcela, por lo tanto a
los efectos practicos, X
2
puede ser considerada como una variable aleatoria
independiente de X
1
y con la misma distribucion N(,
2
). Repitiendo este
procedimiento tendremos variables aleatorias X
1
, X
2
, . . . , X
20
que podemos
considerar independientes y cada una con una distribucion N(,
2
). De-
nominaremos a X
1
, X
2
, . . . , X
20
muestra aleatoria de tama no 20 de la dis-
tribucion N(,
2
).
En general, se dira que X
1
, X
2
, . . . , X
n
es una muestra aleatoria de
tama no n de una distribucion F(x) si X
1
, X
2
, . . . , X
n
son variables aleato-
rias (o vectores aleatorios) independientes e identicamente distribudas con
distribucion F(x). Es decir si
F
X
1
,X
2
,...,X
n
(x
1
, x
2
, . . . , x
n
) = F(x
1
) F(x
2
) . . . F(x
n
) (2.1)
y en el caso que F(x) sea una distribucion discreta o continua con funcion
de frecuencia o de probabilidad p, (2.1) sera equivalente a
p
X
1
,X
2
,...,X
n
(x
1
, x
2
, . . . , x
n
) = p(x
1
) p(x
2
) . . . p(x
n
)
En el caso de poblaciones nitas, una muestra aleatoria de tama no n se ob-
tendra observando n elementos de la poblacion elegidos al azar. Para que las
variables fuesen estrictamente independientes los elementos deberan elegirse
uno a uno y ser restitudos en la poblacion antes de elegir el proximo. Sin
embargo si el tama no de la muestra es relativamente peque no respecto al to-
tal de la poblacion, aunque no se haga la restitucion las variables observadas
seran aproximadamente independientes, y a los nes practicos podemos con-
siderarla una muestra aleatoria.
En el caso de poblaciones innitas, la muestra aleatoria se obtendra sim-
plemente repitiendo el experimento n veces y observando cada vez el vector
de variables correspondiente.
Consideremos ahora como a partir de la muestra X
1
, X
2
, . . . , X
20
que
hemos obtenido, utilizando procedimientos de inferencia resolvemos los pro-
blemas (a), (b) y (c) que hemos planteado.
El problema (a) consista en encontrar aproximadamente la distribucion
de la variable X en la poblacion, es decir, estimar y
2
.
Denamos X
n
= (1/n)
n
i=1
X
i
; luego para estimar se puede usar X
20
.
Es de esperar que X
20
se aproxima a ya que de acuerdo a la ley de los
grandes n umeros lim
n
X
n
= c.t.p.
El procedimiento estadstico para estimar a partir de la muestra, es
formar el promedio de los valores que la componen; es decir X
20
. Esto es
un procedimiento de inferencia estadstica, ya que a partir de una muestra
10CHAPTER 2. INTRODUCCI
ISTICA
de 20 observaciones, inferimos el valor caracterstico de la distribucion de
la variable en la poblacion.
Similarmente se puede estimar
2
. Partimos de
2
= Var X
i
= E(X
2
i
)
(E(X
i
))
2
. Dado que E(X
2
i
) puede estimarse por (1/20)
20
i=1
X
2
i
,
2
puede
estimarse por

2
20
=
1
20
20
i=1
X
2
i
X
2
20
Haciendo manipulaciones algebraicas, se obtiene

2
20
=
1
20
20
i=1
(X
i
X
20
)
2
En general, si se tuviese una muestra aleatoria de tama no n,
2
podra
estimarse por

2
n
=
1
n
n
i=1
(X
i
X
n
)
2
En el problema (b), cuando se quiere conocer la produccion total, es decir
q(,
2
) = 1000, podemos usar para esta estimacion 1000 X
20
. Es decir,
el procedimiento de inferencia sera el siguiente. Se hace el promedio de las
observaciones que componen la muestra, y se lo multiplica por 1000.
En el problema (c), es decir el problema de decidir si < 200 o 200,
el procedimiento de inferencia puede ser el siguiente: se decidira que < 200
si X
20
< 200 y se decidira que 200 si X
20
200.
Los problemas (a) y (b) son los que se denominan de estimacion puntual,
mientras que el problema (c) es un problema de test de hipotesis, ya que
en base a la muestra se desea decidir entre dos opciones y determinar las
probabilidades de error. Como veremos mas adelante, las dos hipotesis no
se consideraran en forma simetrica y se determinara cual de los dos errores
a cometer es mas grave, para poder controlar su probabilidad.
Los procedimientos que hemos propuesto no son los unicos posibles, ni
necesariamente los mejores; solamente fueron introducidos para ejemplicar
la naturaleza de los procedimientos estadsticos. Podemos formular una
primera generalizacion de la situacion descripta en el Ejemplo 1 diciendo
que un problema de inferencia estadstica parametrica consistira en: dada
una muestra aleatoria de tama no n, X
1
, X
2
, . . . , X
n
de la distribucion de
una variable en una poblacion de la cual se conoce solamente que pertenece
a una familia F = {F(x,
1
,
2
, . . . ,
k
) con = (
1
,
2
, . . . ,
k
) }, donde
R
k
, se quiere inferir conocimiento de algunas caractersticas de esta
distribucion, denidas por una funcion q() que va de en R
h
, siendo h el
n umero de caractersticas en las que se esta interesado.
Ejemplo 2: Volvamos al ejemplo 6 de 2.3. Supongamos que se quiere
conocer . Observemos que si F es la distribucion de la variable X, en-
tonces de acuerdo con las hipotesis del modelo para toda F F se tiene
que es la esperanza correspondiente a la distribucion F, si es que esta
existe (puede no existir) y tambien es la mediana correspondiente a F
(la mediana siempre existe). Luego es una cierta funcion de F, digamos
= q(F). Si queremos estimar , debemos tomar una muestra aleatoria
de F, digamos de tama no n; X
1
, X
2
, . . . , X
n
. Esto se lograra repitiendo n
veces la medicion de . Consideremos ahora el procedimiento para inferir .
Si estuviesemos seguros que F tiene esperanza podramos usar para estimar
, X
n
= (1/n)
n
i=1
X
i
, ya que de acuerdo a la ley de los grandes n umeros
debera converger a E(X
i
) = . Sin embargo la existencia de esperanza no
es una hipotesis que hemos requerido para que F F. En caso que F no
tenga esperanza, se puede mostrar que X
n
no converge a y por lo tanto
no sera un buen estimador.
En este caso, podemos usar el siguiente procedimiento: ordenamos las
X
i
, obteniendo X
(1)
< X
(2)
< X
(3)
< < X
(n)
, donde X
(1)
es la menor
de las X
i
, X
(2)
la siguiente, hasta llegar a X
(n)
, que sera la mayor de todas.
Supongamos que n = 2p + 1, luego estimamos por = X
(p+1)
, es decir
por la observacion central. Si n = 2p podemos tomar como = (X
(p)
+
X
(p+1)
)/2. Por ejemplo, si tuviesemos 7 mediciones y estas resultasen 6.22;
6.25; 6.1; 6.23; 6.18; 6.15; 6.29, se tendra X
(1)
= 6.1; X
(2)
= 6.15; X
(3)
=
6.18; X
(4)
= 6.22; X
(5)
= 6.23; X
(6)
= 6.25 y X
(7)
= 6.29. Estimaramos
por = X
(4)
= 6.22. Se puede mostrar que este procedimiento da resultados
razonables para una familia F como la estudiada.
El ejemplo 2 nos sugiere la siguiente formulacion del problema de infe-
rencia estadstica no parametrica: Dada una muestra aleatoria de tama no
n, X
1
, . . . , X
n
de la distribucion F de una variable en una poblacion, y de
la cual se sabe solamente que pertenece a una familia F que no puede ser
indicada por un n umero nito de parametros reales, interesa conocer algunas
caractersticas de F expresadas como una funcion q(F) que va de F a R
h
,
siendo h el n umero de caractersticas que interesan.
El siguiente ejemplo nos permitira formular un tipo de problemas de
inferencia estadstica mas general que el estudiado hasta ahora.
12CHAPTER 2. INTRODUCCI
ISTICA
Ejemplo 3: Supongamos que el rendimiento por hectarea de un cierto
cultivo depende de la cantidad de fertilizante que se usa y que la relacion es
de la forma
X = aG +b +
donde G es la cantidad de fertilizante usado por hectarea, X el rendimiento
por hectarea y un termino aleatorio que tiene en cuenta todos los otros
factores que intervienen en la determinacion de los rendimientos, a y b son
parametros desconocidos.
Supongamos que se cultivan n parcelas usando respectivamente
G
1
, G
2
, . . . , G
n
cantidad de fertilizante por hectarea y sean los rendimien-
tos respectivos observados X
1
, X
2
, . . . , X
n
. Luego se tendra:
X
i
= aG
i
+b +
i
1 i n
Supongamos que las
i
son variables aleatorias independientes igualmente
distribudas con distribucion N(0,
2
), donde
2
es desconocido. Los valores
G
1
, G
2
, . . . , G
n
son valores numericos conocidos (no variables aleatorias).
Luego en este caso las variables aleatorias X
i
, 1 i n, seran inde-
pendientes con distribucion N(aG
i
+b,
2
) y por lo tanto no son igualmente
distribudas. En este caso estamos interesados en conocer los parametros a y
b que establecen la relacion entre G y X quizas tambien en
2
que establece
la varianza de , es decir del termino residual.
Estos parametros deben ser estimados a partir del vector muestra X =
(X
1
, X
2
, . . . , X
n
). Sin embargo, el vector X tiene componentes con diferentes
distribuciones. Se podran dar ejemplos donde las variables no sean tampoco
independientes.
Esto nos sugiere un concepto mas amplio de problema estadstico que los
vistos anteriormente.
Un problema de inferencia estadstica parametrica general consistira en:
dado un vector muestra X = (X
1
, X
2
, . . . , X
n
) de cuya distribucion conjunta
se conoce solamente que pertenece a una familia
F = {F(x
1
, x
2
, . . . , x
n
,
1
,
2
, . . . ,
k
) con = (
1
,
2
, . . . ,
k
) R
k
},
inferir conocimiento sobre una funcion q() de en R
h
.
En el ejemplo 3, = (a, b,
2
) y la densidad correspondiente a la dis-
tribucion es
p(x
1
, x
2
, . . . , x
n
; a, b,
2
) =
1
(2)
n/2
e
1
2
2
n
i=1
(x
i
a G
i
b)
2
La funcion q() dependera del problema que interesa. Si se quiere conocer
la relacion entre G y X lo que interesara sera q() = (a, b). Si interesa saber
cual es el rendimiento promedio cuando se utilizan 200 kg por hectarea, lo
que interesara conocer sera q() = 200 a + b. Si interesa saber solamente
si el fertilizante tiene un efecto positivo, la funcion q() estara dada por
q() =
0 si a 0
1 si a > 0
.
Un procedimiento de inferencia estadstica para este problema se vera en
el ejemplo 1 de la seccion 3.4. Una teora general que abarca este problema
se vera en el captulo 7.
De la misma forma se podra formular el concepto de problema de infe-
rencia estadstica no parametrica general.
Concepto de estadstico
Supongamos dado un problema de inferencia estadstica donde se ob-
serva un vector muestra X = (X
1
, X
2
, . . . , X
n
) con distribucion en la familia
F(x
1
, x
2
, . . . , x
n
; ) con y donde se quiera inferir acerca de q(). Esta
inferencia se tendra que hacer a partir de X, es decir, por funciones de X.
Luego se dene como estadstico a cualquier funcion medible que tenga como
argumento a X y que tome valores en un espacio euclideo de dimension nita.
En el ejemplo 1, hemos visto que la estimacion de y
2
se haca mediante
el estadstico
T = r(X) =
i=1
X
i
n
,
n
i=1
(X
i
X
n
)
2
n
En el ejemplo 3, se uso el estadstico T = r(X) = X

(p+1)
.
Hasta ahora, hemos supuesto que el parametro de existir es jo. Exis-
te otra aproximacion, en la cual, el parametro es una variable aleatoria.
Los procedimientos estadsticos bayesianos suponen que es una variable
aleatoria no observable, a valores en un espacio con distribucion . La
distribucion a priori establecida antes de tomar la muestra, se modica en
base a los datos para determinar la distribucion a posteriori, que resume lo
que se puede decir del parametro en base a las suposiciones hechas y a los
datos.
Los metodos estadsticos, que van desde el analisis de datos hasta el
analisis bayesiano, permiten sacar en forma creciente conclusiones cada vez
mas fuertes, pero lo hacen al precio de hipotesis cada vez mas exigentes y,
por lo tanto, menos vericables.
Chapter 3
Estimaci on puntual
3.1 Introduccion
En este captulo introduciremos algunos conceptos de la teora de estimacion
puntual. Los resultados que se desarrollaran, se aplican al problema de ajus-
tar distribuciones de probabilidad a los datos. Muchas familias de distribu-
ciones, como la normal, N(,
2
), o la Poisson, P(), dependen de un n umero
nito de parametros y salvo que estos se conozcan de antemano, deben ser
estimados para conocer aproximadamente la distribucion de probabilidad.
Consideremos el siguiente problema de inferencia estadstica parametri-
ca. Supongamos se ha observado un vector muestra X = (X
1
, X
2
, . . . , X
n
)
de cuya distribucion solo se conoce que pertenece a una familia
F = {F(x
1
, x
2
, . . . , x
n
, ) donde = (
1
, . . . ,
p
) IR
p
}. Suponga-
mos que interese conocer aproximadamente q(), donde q() es una funcion
de en IR. La unica informacion que se tiene sobre es el vector X, por lo
tanto cualquier estimacion que se haga de , debera estar basada en X. Un
estimador puntual de q() sera cualquier estadstico (X) de IR
n
en IR.
Un buen estimador (X) debera tener la propiedad de que cualquiera sea
el valor de , que es desconocido, la diferencia (X) q() sea peque na. En
que sentido esta diferencia es peque na sera especicado mas adelante.
As en el ejemplo 1 de 2.4 se tena para el problema (a) necesidad de
estimar q
1
(,
2
) = y q
2
(,
2
) =
2
, para el problema (b) se requera
estimar q(,
2
) = 1000 . En cambio el problema (c) no era de estimacion,
ya que lo que se buscaba no era aproximar q(,
2
) que vale 0 o 1 seg un
< 200 o 200, sino decidir si q(,
2
) era 0 o 1.
1
2 CHAPTER 3. ESTIMACI
ON PUNTUAL
Tambien podemos considerar problemas de estimacion puntual no
parametrica. En este caso solo se conoce que el vector muestra
X = (X
1
, X
2
, . . . , X
n
) tiene una distribucion F(x
1
, x
2
, . . . , x
n
) perteneciente
a una familia F, pero esta familia no puede indicarse con un n umero nito
de parametros, y quiere estimarse una funcion q(F) que va de F en IR. El
ejemplo 2 de 2.4 es un ejemplo de este tipo.
El ejemplo 3 de 2.4 es otro ejemplo de estimacion puntual parametrica.
Comenzaremos describiendo distintos metodos de estimacion que intui-
tivamente parecen razonables, su justicacion queda diferida para mas ade-
lante.
3.2 Metodo de los momentos
Sea X = (X
1
, X
2
, . . . , X
n
) una muestra aleatoria de una familia de distribu-
ciones F(x, ), donde IR, y supongamos que se quiera estimar
.
Sea g una funcion de IR en IR, luego el metodo de los momentos estima
, por el valor

= (X) que satisface la ecuacion
1
n
n
i=1
g(X
i
) = E
(g(X
1
)), (3.1)
donde E
(X) signica la esperanza de X cuando X tiene la distribuci on

F(x, ). La justicacion heurstica de este metodo se basa en el hecho que
de acuerdo a la ley de los grandes n umeros
1
n
n
i=1
g(X
i
) E
(g(X
1
)) c.t.p.
y por lo tanto, si puede expresarse como una funcion continua de E
(g(X
1
)),
se puede esperar que cuando n es grande el valor

que satisface la ecuacion
(3.1) estara cerca de .
En general, se toman como funciones g las funciones generadoras de mo-
mentos, ya que se supone que los parametros de la distribucion se relacionan
con los momentos a traves de alguna funcion continua.
Ejemplo 1: Sea X
1
, X
2
, . . . , X
n
una muestra aleatoria de una distribuci on
de la cual solo se conoce que esta en la familia N(, 1). Usando el metodo
3.2. M
ETODO DE LOS MOMENTOS 3

de los momentos y usando g(x) = x se obtiene
1
n
n
i=1
X
i
= E
(X
1
) = .
Luego = (1/n)
n
i=1
X
i
es el estimador de resultante.
Ejemplo 2: Sea X
1
, X
2
, . . . , X
n
una muestra aleatoria de una distribucion
N(0,
2
). Usando el metodo de los momentos con g(x) = x
2
se obtiene
1
n
n
i=1
X
2
i
= E
(X
2
1
) =
2
.
Luego
2
= (X
1
, . . . , X
n
) = (1/n)
n
i=1
X
2
i
es el estimador de
2
resultante.
Ejemplo 3: Sea X
1
, X
2
, . . . , X
n
P(), usando la funcion g
1
(x) = x se obtiene como estimador de
1
n
n
i=1
X
i
= E
(X
i
) =

.
Luego el estimador de los momentos resultantes usando la funcion g
1
resulta
1
=
1
(X
1
, X
2
, . . . , X
n
) =
1
n
n
i=1
X
i
.
Tambien podemos usar la funcion g
2
(x) = x
2
. Recordando que
E
(X
2
1
) = Var
(X
1
) + (E
(X
1
))
2
= +
2
,
obtenemos
1
n
n
i=1
X
2
1
= E
(X
2
1
) =

+
2
,
y resolviendo esta ecuacion de segundo grado el valor resulta
=
1
2

_
1
4
+
n
i=1
X
2
i
n
.
Como el parametro es positivo, la solucion que interesa es la positiva.
Luego el estimador correspondiente a g
2
vendra dado por
2
=
2
(X
1
, X
2
, . . . , X
n
) =
1
2
+
_
1
4
+
n
i=1
X
2
i
n
ON PUNTUAL
Luego observamos que eligiendo distintas funciones g, obtenemos diferentes
estimadores. Todava no estamos en condiciones de comparar uno con otro,
por lo que dejamos este punto sin resolver hasta mas adelante.
Generalizacion cuando hay varios parametros: Supongamos que se
tiene una muestra aleatoria X
1
, X
2
, . . . , X
n
de una distribucion perteneciente
a la familia F = {F(x,
1
,
2
, . . . ,
p
) con = (
1
,
2
, . . . ,
p
) IR
p
}.
Para estimar
1
,
2
, . . . ,
p
por el metodo de los momentos se procede
como sigue: Se consideran k funciones g
1
, g
2
, . . . , g
p
de IR en IR y se resuelve
el siguiente sistema
1
n
n
i=1
g
j
(X
i
) = E
(g
j
(X
1
)) j = 1, 2, . . . , p .
Ejemplo 4: Sea X
1
, X
2
, . . . , X
n
N(,
2
). Consideremos g
1
(x) = x y g
2
(x) = x
2
. Como se tiene
E
,
2 (g
1
(X
1
)) = y E
,
2 (g
2
(X
1
)) =
2
+
2
,
para estimar y
2
se debera resolver el sistema
1
n
n
i=1
X
i
=
1
n
n
i=1
X
2
i
=
2
+
2
.
Luego, se tiene
=
1
(X
1
, X
2
, . . . , X
n
) =
1
n
n
i=1
X
i
y

2
=
2
(X
1
, X
2
, . . . , X
n
) =
1
n
n
i=1
X
2
i

_
1
n
n
i=1
X
i
_
2
=
1
n
n
i=1
(X
i
)
2
que coinciden con los estimadores que habamos propuesto en el ejemplo 1
de 2.4.
Ejemplo 5: Sea X
1
, X
2
, . . . , X
n
(, ). Consideremos g
1
(x) = x y g
2
(x) = x
2
. Como se tiene
E
,
(g
1
(X
1
)) =

y E
,
(g
2
(X
1
)) =
( + 1)
2
,
3.3. M
ETODO DE M
AXIMA VEROSIMILITUD 5
para estimar y se debera resolver el sistema
1
n
n
i=1
X
i
=

1
n
n
i=1
X
2
i
=
( +1)
2
.
Indiquemos por X =
1
n
n
i=1
X
i
y por
2
=
1
n
n
i=1
(X
i
X)
2
. Entonces,
despejando del sistema anterior, los estimadores de los momentos para y
resultan ser
=
1
(X
1
, X
2
, . . . , X
n
) =
X

2
y
=
2
(X
1
, X
2
, . . . , X
n
) =
X
2

2
.
Estimacion de q(). Si lo que interesa estimar es una funcion de , q()
y esta funcion es continua, el metodo de los momentos consistira en estimar
primero por

y luego q() se estimara por q(
). La justicacion de esto
reside en que si

esta proximo a , entonces como q es continua, q(
) estara
proxima a q().
3.3 Metodo de maxima verosimilitud
Supongamos que se observa un vector muestra X = (X
1
, X
2
, . . . , X
n
) dis-
creto o continuo cuya funcion de densidad discreta o continua pertenezca a
una familia p(x, ), y se quiera estimar .
En el caso discreto p(x, ) representa la probabilidad de observar el vector
x = (x
1
, x
2
, . . . , x
n
), cuando el valor del parametro es . Es razonable pensar
que si hemos observado el vector x, este tendra alta probabilidad. Luego se
podra estimar como el valor que hace maxima p(x, ). Un razonamiento
analogo se puede hacer en el caso continuo, recordando que la probabilidad
de un hipercubo con centro en x y de arista , cuando es peque no tiene
probabilidad aproximadamente igual p(x, )
n
. Esto sugiere la siguiente
denici on:
ON PUNTUAL
Denicion 1: Diremos

(X) es un estimador de maxima verosimilitud
(E.M.V.) de , si se cumple
p(X,
(X)) = max
p(X, )
Ejemplo 1: Supongamos que puede tomar valores = 1 o = 0 y que
p(x, ) viene dado por
x
0 1
0 0.3 0.6
1 0.7 0.4
1 1
Supongamos que se observe una muestra de tama no 1 con valor X. Luego
el estimador de maxima verosimilitud viene dado por
(X) =
_
1 si X = 0
0 si X = 1
Computo del E.M.V.: Supongamos ahora que es un subconjunto
abierto de IR
p
, que el soporte de p(x, ) no depende de y que p(x, )
tiene derivadas parciales respecto a todas las componentes
i
.
Como la funcion ln() (logaritmo natural) es monotona creciente, maxi-
mizar p(x, ) sera equivalente a maximizar lnp(x, ). Luego el E.M.V.

(X)
debe vericar:
lnp(X, )
i
= 0 i = 1, 2, . . . , p . (3.2)
Hasta ahora hemos supuesto que X es un vector con una distribucion
arbitraria. Supongamos ahora que X = (X
1
, X
2
, . . . , X
n
) es una muestra
aleatoria de una distribucion discreta o continua con densidad p(x, ). Luego
se tiene
p(x, ) = p(x
1
, x
2
, . . . , x
n
, ) =
n
j=1
p(x
j
, )
3.3. M
ETODO DE M
y bajo las condiciones dadas anteriormente, el sistema de ecuaciones (3.2)
se transforma en
n
i=1
lnp(x
i
,
j
= 0 j = 1, 2, . . . , p . (3.3)
Supongamos que indicamos por
j
(x, ) =
ln p(x,
j
, entonces (3.3) puede
escribirse como
n
i=1
j
(x
i
, ) = 0 j = 1, 2, . . . , p .
Esta ecuacion corresponde a la forma general de los denominados Mestimadores,
que veremos mas adelante.
Por supuesto que tanto (3.2) como (3.3) son condiciones necesarias pero
no sucientes para que sea un maximo. Para asegurarse que

es un
maximo deberan vericarse las condiciones de segundo orden respectivas.
Ademas debe vericarse que no se trata de un maximo relativo sino absoluto.
Ejemplo 2: Sea X
1
, X
2
, . . . , X
n
Bi(, k), con k conocido, luego cada variable X
i
tiene funcion de densidad
p(x, ) =
_
k
x
_

x
(1 )
kx
y
lnp(x, )
=
x

k x
1
=
x k
(1 )
.
Luego (3.3) se transforma en la ecuacion
n
i=1
X
i
k
(1

)
= 0 ,
y despejando

resulta
(X
1
, X
2
, . . . , X
n
) =
1
nk
n
i=1
X
i
.
Ejemplo 3: Sea X
1
, X
2
, . . . , X
n
N(,
2
). Busquemos los E.M.V. de y
2
. La funcion de densidad de cada
variable X
i
es
p(x, ,
2
) =
_
1
2
2
_
e
1
2
2
(x)
2
.
ON PUNTUAL
Por lo tanto,
lnp(x, ,
2
)
=
x
2
y
lnp(x, ,
2
)
2
=
1
2
2
+ (
2
)
2
1
2
(x )
2
.
Luego el sistema (3.3) se transforma en el sistema
n
i=1
(X
i
)/
2
= 0
n
i=1
1
2
2
+
1
2
4
(X
i
)
2
= 0
que tiene como solucion
(X
1
, X
2
, . . . , X
n
) =
n
i=1
X
i
/n = X

2
(X
1
, X
2
, . . . , X
n
) =
n
i=1
(X
i
X)
2
/n
que son los mismos estimadores que encontramos por el metodo de los mo-
mentos.
Ejemplo 4: Sea X
1
, X
2
, . . . , X
n
(, ). La densidad de X
i
esta dada por
p(x, , ) =
1
()

x
1
e
x
,
con lo cual
lnp(x, , )
= ln + lnx

()
()
y
lnp(x, , )
x ,
donde
() indica la derivada de la funcion (). Luego el sistema (3.3) se

transforma en el sistema
3.3. M
ETODO DE M
n ln
+
n
i=1
ln(X
i
) n

( )
( )
= 0
n
nX = 0 ,
con X =
1
n
n
i=1
X
i
. Luego

=

X
. Pero, este sistema no tiene una solucion
explcita ya que al reemplazar el valor de

obtenemos la ecuacion no lineal
n
_
ln ln(X)
_
+
n
i=1
ln(X
i
) n

( )
( )
= 0 ,
que puede resolverse, por ejemplo mediante, el algoritmo de Newton-Raphson.
Para iniciar el proceso, se puede tomar como estimador inicial el estimador
de los momentos, por ejemplo.
En este caso, el estimador de maxima verosimilitud no coincide con el
estimador de los momentos.
Invarianza de los E.M.V. Supongamos que = q() es una funcion
biunvoca de sobre , donde IR
p
. Luego la densidad p(x, ) se puede
expresar en funcion de ya que = q
1
(). Denominemos a la densidad
de X como funcion de por p
(x, ). Claramente se tiene

p
(x, ) = p(x, q
1
())
Luego se denen los E.M.V.

y

por
p(x,
) = max
p(x, ) (3.4)
y
p
(x,
) = max
(x, ) (3.5)
El siguiente teorema muestra que los estimadores de maxima verosimili-
tud son invariantes por transformaciones biunvocas.
Teorema 1: Si

es E.M.V. de , entonces

= q(
) es E.M.V. de .
Demostraci
on: Como

es E.M.V. de se tendra que (3.4) vale. Como
= q(
), (3.4) se puede escribir como

p(x, q
1
(
)) = max
p(x, q
1
())
ON PUNTUAL
pero, esta ecuacion de acuerdo a la denicion de p
es equivalente a
p
(x,
) = max
(x, ) ,
luego

satisface (3.5) y por lo tanto es un E.M.V. de .
Ejemplo 5: De acuerdo al Teorema 1, en el ejemplo 2, el E.M.V. de =
q() = ln sera
= ln
= ln
_
X
k
_
.
En general, si = q(), aunque q no sea bunvoca, se dene el estimador
de maxima verosimilitud de por
= q(
) .
Ejemplo 6: Supongamos que en el ejemplo 3 interese encontrar el E.M.V.
de = q(,
2
) = /
2
. Aunque esta transformacion no es biunvoca, el
E.M.V. de sera
= q( ,
2
) =
X
n
i=1
(X
i
X)
2
/n
=
n
i=1
X
i
n
i=1
(X
i
X)
2
pues basta completar la transformacion dada a una transformacion biunvoca,
tomando por ejemplo, q
1
(,
2
) = .
3.4 Metodo de cuadrados mnimos
Supongamos que X
1
, X
2
, . . . , X
n
son variables aleatorias de la forma
X
i
= S
i
(
1
, . . . ,
p
) +
i
1 i n (3.6)
donde = (
1
,
2
, . . . ,
p
) es un vector de parametros desconocido, del cual
lo unico que se conoce es que esta en un conjunto IR
p
y
i
son variables
aleatorias con
(i) E(
i
) = 0
(ii) Var(
i
) =
2
3.4. M
ETODO DE CUADRADOS M
INIMOS 11
(iii)
1
,
2
, . . . ,
n
son variables aleatorias independientes.
Ejemplo 1: Consideremos el ejemplo 3 de 2.4. Luego, en este caso, poniendo
1
en lugar de a y
2
en lugar de b, se tiene
X
i
=
1
G
i
+
2
+
i
1 i n
donde las variables
i
satisfacen (i), (ii) y (iii).
Luego si llamamos:
S
i
(
1
,
2
) =
1
G
i
+
2
1 i n
estamos en la situacion descripta por la ecuacion (3.6).
Ejemplo 2: Podemos generalizar el ejemplo 1 por la siguiente situacion.
Supongamos que la variable X depende de otras dos variables G y H y que
la forma de la dependencia es
X = u(G, H,
1
,
2
, . . . ,
p
) +
donde = (
1
, . . . ,
p
) se conoce que pertenece a un conjunto IR
p
, y
donde es una variable aleatoria que aglutina todos los otros factores que
determina X y que son desconocidos.
Por ejemplo se pueden tener
u
1
(G, H, ) =
1
G +
2
H +
3
o
u
2
(G, H, ) =
1
G
2
+
2
H
2
+
3
HG +
4
H +
5
G +
6
o
u
3
(G, H, ) =
1
e
2
G
+
3
e
4
H
.
Supongamos que se hagan n experimentos. En el experimento i-esimo
se jan G y H iguales respectivamente a G
i
y H
i
y se observa un valor X
i
.
Luego se tendra
X
i
= u(G
i
, H
i
,
1
,
2
, . . . ,
p
) +
i
1 i n
donde se puede suponer que las
i
satisfacen (i), (ii) y (iii). Luego, si lla-
mamos
S
i
(
1
,
2
, . . . ,
p
) = u(G
i
, H
i
,
1
,
2
, . . . ,
p
)
ON PUNTUAL
obtenemos que las variables X
i
satisfacen (3.6).
Llamaremos estimador de cuadrados mnimos (E.C.M.) al valor
(X
1
, X
2
, . . . , X
n
) que hace mnima la expresion
n
i=1
(X
i
S
i
(
1
,
2
, . . . ,
p
))
2
,
es decir si
n
i=1
(X
i
S
i
(
))
2
= min
i=1
(X
i
S
i
())
2
. (3.7)
Este estimador tiene la siguiente justicacion intuitiva: Se desea que
S
i
(
1
. . .
p
) ajuste bien a X
i
, y por lo tanto los terminos residuales
i
deberan ser peque nos. Esto se logra minimizando la suma de los cuadrados
de las desviaciones respectivas.
Se puede demostrar que si ademas de satisfacer (i), (ii) y (iii), los
i
tienen distribucion normal, entonces el E.M.C. coincide con el E.M.V. Esto
se vera en el problema 3 de 3.4.
Computacion de los E.C.M.: Si es abierto y si las funciones
S
i
(
1
,
2
, . . . ,
p
) son derivables respecto a cada
i
,

debera satisfacer el
sistema de ecuaciones siguiente
n
i=1
(X
i
S
i
(
))
2
j
= 0 j = 1, 2, . . . , p ,
que es equivalente a:
n
i=1
(X
i
S
i
(
))
S
i
(
j
= 0 j = 1, 2, . . . , p .
Igual que en el caso de los E.M.V. estas condiciones son necesarias para el
E.M.C. pero no son sucientes. Tambien se deberan cumplir las condiciones
de segundo orden, y se debera vericar que se trata de un mnimo absoluto
y no local.
Ejemplo 3: Volvemos al ejemplo 1. Luego se tiene
S
i
()
1
= G
i
y
S
i
()
2
= 1 .
Luego (3.7) se transforma en
3.5. CRITERIOS PARA MEDIR LA BONDAD DE UN ESTIMADOR 13
n
i=1
(X

1
G
i

2
)G
i
= 0
n
i=1
(X
i

1
G
i

2
) = 0 .
Es facil ver la que la solucion de este sistema viene dada por
1
=
n
i=1
(X
i
X)(G
i
G)
_
n
i=1
(G
i
G)
2
,
2
= X

1
G,
donde
X =
1
n
n
i=1
X
i
y G =
1
n
n
i=1
G
i
.
Geometricamente la recta X =

1
G +

2
tiene la propiedad siguiente:
Minimaza la suma de los cuadrados de las distancias de los puntos (G
i
, X
i
)
a la recta, si esta distancia se la mide paralelamente al eje de las X. Es decir
si X
i
=
1
G
1
+
2
, la recta X =

1
G+

2
hace mnimo

n
i=1
(X
i
X
i
)
2
.
Para un mayor desarrollo de los metodos de cuadrados mnimos, consul-
tar Draper y Smith [2].
3.5 Criterios para medir la bondad de un estima-
dor
Supongamos que se tenga una muestra X = (X
1
, X
2
, . . . , X
n
) de cuya dis-
tribucion solo se conoce que pertenece a la familia
F = {F(x, ) donde IR
p
}. Supongamos ademas que se esta in-
teresado en estimar una funcion real q(). Para poder elegir el estimador
(X) que se utilizara, se debera dar un criterio para comparar dos estima-
dores cualesquiera. Esto se hara como sigue:
Es razonable pensar que dado un estimador (X) de q(), el error
(X) q() producira un perjuicio o perdida dado por un real no nega-
tivo, que dependera por un lado del valor del estimador (X) y por otro del
valor verdadero del vector de parametros.
ON PUNTUAL
As llamaremos funcion de perdida a una funcion (, d) no negativa que
nos indica cuanto se pierde cuando el valor del estimador es d y el valor
verdadero del vector de parametros es . Entonces si usamos el estimador
(X) la perdida sera
(, (X))
y esta perdida sera una variable aleatoria ya que depende de X. Para eva-
luar globalmente el estimador (X) se puede utilizar el valor medio de esta
perdida, que indicara de acuerdo a la ley de los grandes n umeros aproximada-
mente la perdida promedio, si estimamos q() muchas veces con vectores X
independientes. Luego, denimos la funcion de perdida media del estimador
o funci on de riesgo R(, ) a
R(, ) = E
((, (X)))
Un primer ejemplo de funcion de perdida puede obtenerse tomando el error
absoluto, es decir
1
(, d) = |d q()|
y en este caso, la perdida media corresponde a un estimador (X) viene dada
por
R
1
(, ) = E
(|(Xq()|)
Si consideramos como funcion de perdida el cuadrado del error tenemos
2
(, d) = (d q())
2
que es una funcion que desde el punto de vista matematico es mas sencilla
que
1
, ya que es derivable en todo punto.
La funcion de perdida cuadratica fue la primera utilizada en Estadstica,
y a un hoy la mas difundida. De ahora en adelante, salvo mencion en contrario
supondremos que la funcion de perdida es
2
. La perdida media, o riesgo,
correspondiente esta dada por
R
2
(, ) = E((X) q())
2
y sera llamada en adelante error cuadratico medio, e indicada por ECM
().
Luego
ECM
() = R
2
(, ) = E
((X) q())
2
(3.8)
La funcion ECM
() nos proporciona un criterio para determinar si un es-

timador
1
(X) de q() es mejor que otro
2
(X), basta vericar
ECM
(
1
) ECM
(
2
)
3.5. CRITERIOS PARA MEDIR LA BONDAD DE UN ESTIMADOR 15
En este orden de ideas, un estimador optimo
podra denirse mediante la

siguiente condicion: Para cualquier otro estimador se tiene
ECM
) ECM
() (3.9)
Sin embargo, salvo en casos triviales no existiran tales estimadores optimos.
Para mostrar esto denamos para cada posible valor , el estimador
constante
(X) = q() que no depende del valor de la muestra. Luego si
satisface (3.9), debe cumplirse:

ECM
) ECM
) = E
((q() q())
2
) = 0
Pero como ECM
) 0 y
2
(, d) = 0 implica que d = q(), se obtiene
P
(X) = q()) = 1 (3.10)

(donde P
() indica la probabilidad del evento cuando el valor de los

parametros esta dado por el vector ). La ecuacion (3.10) signica que a
partir de la muestra se puede estimar sin error q(). Esta situacion solo se
da muy raramente, por ejemplo, cuando q() es constante.
Otro ejemplo algo diferente de funcion de perdida, corresponde a la
funcion
3
(, d) = I
{|q()d|>c}
donde I
{|q()d|>c}
es la funcion que vale 1 si |q() d| > c y 0 en caso
contrario. Esta perdida da origen a la funcion de riesgo
R
3
(, ) = P
(|(X) q()| > c) .

A diferencia de las anteriores, en este caso,
3
(, d) = 0 no implica implica
q() = d. Por otra parte, esta perdida no es convexa como funcion de d
mientras que
1
y
2
lo son. En muchas situaciones, se podran obtener
procedimientos de estimacion mas efectivos para perdidas convexas.
El estimador
con E.C.M. mnimo uniformemente en como se indica

en (3.9) no existe, salvo en casos excepcionales, debido a que la clase de
todos los posibles estimadores es muy amplia y contiene estimadores poco
razonables como los
(X) denidos anteriormente. Por lo tanto, una man-

era de obtener estimadores optimos consistira en restringir primero la clase
de los estimadores considerados, y luego buscar aquel con E.C.M. uni-
formemente menor dentro de esta clase. Otra forma de obtener estimadores
optimos consistira en minimizar alg un criterio general basado en la funcion
de riesgo, como el maximo riesgo.
ON PUNTUAL
Antes de empezar el estudio de las clases de estimadores daremos una
nocion importante.
Denicion 1: Se dice que un estimador (X) de q() es inadmisible
respecto de la perdida (, d), si existe otro estimador
(X) mejor que el, es

decir, si existe
(X) tal que

R(
, ) R(, )
El estimador (X) se dira admisible si no es inadmisible, es decir, si no existe
ning un otro estimador que sea uniformemente mejor que el.
El siguiente Teorema muestra la ventaja de utilizar perdidas convexas.
Teorema 1. Supongamos que (, d) es una perdida estrictamente convexa
en d y que (X) es admisible para q(). Si
(X) es otro estimador de q()

con el mismo riesgo que (X) entonces P
((X) =
(X)) = 1.
Demostraci
on. Supongamos que P
((X) =
(X)) < 1 y sea
(X) =
((X) +
(X)) /2. Luego, por ser (, d) convexa se cumple

(,
(X)) <
(, (X)) +(,
(X))
2
(3.11)
salvo si (X) =
(X). Luego, tomando esperanza en ambos miembros de

(3.11) se obtiene
R(
, ) <
R(, ) +R(
, )
2
= R(, ) (3.12)
lo que contradice el hecho de que (X) es admisible.
3.6 Estimadores insesgados
Una propiedad razonable que se puede exigir a un estimador esta dada
por la siguiente denicion:
Denicion 1: Se dice que (X) es un estimador insesgado para q() si
E
((X)) = q() .
Esto signica que si calculamos el estimador para varias muestras in-
dependientes, y luego promediamos los valores as obtenidos, entonces de
3.6. ESTIMADORES INSESGADOS 17
acuerdo a la ley de los grandes n umeros el promedio converge al valor q()
que queremos estimar.
Denicion 2: Si un estimador no es insesgado, se dice sesgado, deniendose
el sesgo del estimador como E
((X)) q().
Cuando (X) es un estimador insesgado, su ECM coincide con su va-
rianza ya que
ECM
() = E
[((X) q())
2
] = E
[((X) E
((X)))
2
] = Var
((X)).
Para ilustrar estas deniciones veremos algunos ejemplos.
Ejemplo 1: Supongamos tener una variable X de cuya distribucion F en la
poblacion solo se sabe que tiene esperanza nita, es decir solo se conoce que
pertenece a F, donde F es la familia de todas las distribuciones con esperanza
nita. Sea X
1
, X
2
, . . . , X
n
una muestra aleatoria de F y supongamos que se
quiere estimar q
1
(F) = E
F
(X). Estamos frente a un problema de estimacion
no parametrica, ya que la familia no puede indicarse con un n umero nito
de parametros. Un posible estimador para q
1
(F) es X = (1/n)
n
i=1
X
i
. El
estimador X es insesgado ya que
E
F
(X) = E
F
_
1
n
n
i=1
X
i
_
=
1
n
n
i=1
E
F
(X
i
) = E
F
(X) = q
1
(F)
X se denomina media muestral.
Ejemplo 2: Supongamos ahora que se conoce que la distribucion F de X en
la poblacion pertenece a la familia F de todas las distribuciones que tienen
segundo momento nito, es decir tales que E
F
(X
2
) < . Supongamos
que se quiere estimar q
2
(F) = Var
F
(X) a partir de una muestra aleatoria
X
1
, X
2
, . . . , X
n
. Ya hemos visto que un estimador adecuado podra ser

2
=
1
n
n
i=1
(X
i
X)
2
Veremos que
2
no es un estimador insesgado de q
2
(F). Desarrollando el
cuadrado del segundo miembro en la denicion obtenemos

2
=
n
i=1
X
2
i
nX
2
n
.
ON PUNTUAL
Luego, se tiene
E
F
(
2
) = E
F
(X
2
) E
F
(X
2
) (3.13)
Por otro lado, se tiene
Var
F
(X) =
1
n
2
n
i=1
Var
F
(X
i
) =
1
n
Var
F
(X) .
Como
Var
F
(X) = E
F
(X
2
) (E
F
(X))
2
,
resulta
E
F
(X
2
) = Var
F
(X) + (E
F
(X))
2
=
1
n
Var
F
(X) + (E
F
(X))
2
(3.14)
y reemplazando (3.14) en (3.13) resulta
E
F
(
2
) = E
F
(X
2
) (E
F
(X))
2
1
n
Var
F
(X) = Var
F
(X)(1 1/n)
=
n 1
n
Var
F
(X) =
n 1
n
q
2
(F).
Esto prueba que
2
no es un estimador insesgado para Var
F
(X), aunque
el sesgo es Var
F
(X)/n, y por lo tanto, tiende a 0 cuando n tiende a innito.
El sesgo puede corregirse dividiendo
2
por (n 1)/n, obteniendo as el
estimador insesgado
s
2
=
n
n 1

2
=
1
n 1
n
i=1
(X
i
X)
2
que denominaremos varianza muestral.
Ejemplo 3: Sea X
1
, X
2
, . . . , X
n
de la cual se conoce unicamente que pertenece a la familia N(,
2
) y su-
pongamos que se quieran estimar y
2
. Como se tiene
= E
,
2 (X) ;
2
= Var
,
2 (X)
por lo visto en Ejemplos 1 y 2, resulta que X y s
2
son estimadores insesgados
de y
2
respectivamente.
Si nos restringimos a la clase de los estimadores insesgados, se podra en-
contrar frecuentemente, estimadores optimos. Daremos la siguiente denicion:
Denicion 2: Se dira que (X) es un estimador insesgado de mnima
varianza para q(), uniformemente en (IMVU) si:
3.7. ESTAD
ISTICOS SUFICIENTES 19
(a) (X) es insesgado para q()
(b) dado otro estimador insesgado para q(),
(X), se cumple Var
((X))
Var
(X)) .
3.7 Estadsticos sucientes
Consideremos un vector aleatorio Xde dimension n cuya distribucion pertenece
a una familia F = {F(x, ) con IR
p
}. El vector X interesa en
cuanto nos provee informacion sobre el valor verdadero de . Puede ocur-
rir que una parte de la informacion contenida en X carezca de interes para
el conocimiento de , y por consiguiente convenga eliminarla simplicando
as la informacion disponible.
Al realizar esta simplicacion, eliminando de X toda la informacion irre-
levante, se obtendra otro vector T que puede ser de dimension menor que
n.
Llamaremos estadstico a cualquier funcion medible T = r(X) con valores
en un espacio eucldeo de dimension nita.
Si la funcion r no es biunvoca, del conocimiento de T no se podra
reconstruir el valor de X, por lo que T conservara solo una parte de la
informacion que hay en X. El estadstico T sera llamado suciente cuando
conserve toda la informacion relevante para el conocimiento de . Esto se
formalizara en la siguiente denicion.
Denicion 1: Sea X un vector aleatorio de dimension n cuya distribucion
es F(x, ) con . Se dice que un estadstico T = r(X) es suciente
para si la distribucion de X condicional a que T = t es independiente de
para todo t.
Esto puede interpretarse como armando que una vez conocido el valor t
de T, la distribucion de X es independiente de y por lo tanto no contiene
informacion suplementaria sobre . En otros terminos: una vez conocido
el valor de T podemos olvidarnos del valor X, ya que en T esta toda la
informacion que X tiene sobre .
Ejemplo 1: Supongamos que una maquina produce cierto artculo, exis-
tiendo la probabilidad de que lo produzca defectuoso. Supongamos ademas
que se observa un lote de n artculos producidos sucesivamente por la maquina,
ON PUNTUAL
de manera que la aparicion de uno defectuoso resulte independiente del re-
sultado obtenido para los restantes artculos del lote.
Consideremos las variable aleatorias X
i
, 1 i n, que valen 1 o 0
seg un el i-esimo artculo observado sea o no defectuoso. Entonces cada una
de las variables X
1
, X
2
, . . . , X
n
sigue una ley binomial Bi(, 1), de modo que
la funcion de probabilidad puntual conjunta es igual a
p(x
1
, x
2
, . . . , x
n
, ) =
n
i=1
x
i
(1 )
n
n
i=1
x
i
donde x
i
vale 0 o 1.
Si queremos estimar el parametro , parece razonable pensar que solo se
debera utilizar la cantidad total de artculos defectuosos del lote, ya que el or-
den en que han aparecido los mismos parece irrelevante para el conocimiento
de . Por lo tanto, es de esperar que el estadstico T =
n
i=1
X
i
sea suciente.
Para ver si esta conjetura es correcta, calculemos la distribucion de
X = (X
1
, . . . , X
n
) dado T = t:
p
X|T
(x
1
, . . . , x
n
, |t) =
p
X,T
(x
1
, x
2
, . . . , x
n
, t, )
p
T
(t, )
(3.15)
El numerador de este cociente es la probabilidad conjunta:
P
(X
1
= x
1
, . . . , X
n
= x
n
, r(X
1
, . . . , X
n
) = t)
=
_

t
(1 )
nt
si r(x
1
, . . . , x
n
) = t
0 si r(x
1
, . . . , x
n
) = t
y como el estadstico T =
n
i=1
X
i
sigue una ley binomial Bi(, n) el denom-
inador de (3.15) vale
p
T
(t, ) =
_
n
t
_
t
(1 )
nt
As resulta
p
X|T
(x
1
, . . . , x
n
, |t) =
_
_
1/
_
n
t
_
si r(x
1
, . . . , x
n
) = t
0 si r(x
1
, . . . , x
n
) = t .
De esta manera p
X/T
es independiente de y por lo tanto el estadstico
T = X
i
es suciente para .
Una caracterizacion util de los estadsticos sucientes es la proporcionada
por el siguiente teorema:
3.7. ESTAD
Teorema 1 (de factorizacion): Sea X un vector aleatorio con funcion de
densidad o funcion de probabilidad puntual p(x, ), . Entonces, el
estadstico T = r(X) es suciente para si y solo si existen dos funciones g
y h tales que
p(x, ) = g(r(x), )h(x) (3.16)
Demostraci
on: La haremos solo para el caso discreto. Supongamos primero

que existen dos funciones g y h tales que p(x, ) se factoriza seg un (3.16).
Entonces la funcion de densidad conjunta vale
p
XT
(x, t, ) =
_
g(t, )h(x) si r(x) = t
0 si r(x) = t
y la densidad marginal p
T
(t, ) esta dada por
p
T
(t, ) =

r(x)=t
p
XT
(x, t, ) =

r(x)=t
g(r(x), )h(x)
= g(t, )

r(x)=t
h(x) = g(t, )h
(t)
donde las sumatorias se realizan sobre todos los x = (x
1
, x
2
, . . . , x
n
) tales
que r(x) = t. As resulta la funcion de densidad condicional
p
X|T
(x, |t) =
_
h(x)/h
(t) si r(x) = t
0 si r(x) = t
y por lo tanto la distribucion de X dado T = t es independiente de para
todo t.
Recprocamente, si suponemos que T = r(X) es suciente para , se
tiene
P
(X = x) = P
(X = x, T = r(x)) = p
XT
(x, r(x), )
= p
X|T
(x, |r(x))p
T
(r(x), )
El primero de los factores del ultimo miembro es por hipotesis indepen-
diente de y por eso podemos llamarlo h(x); mientras que el segundo que
depende de x a traves de t puede denominarse g(r(x), ). El teorema queda
demostrado. Para una demostracion general, ver Teorema 8 y Corolario 1
de Lehmann [4]. Tambien se puede ver Bahadur [1].
ON PUNTUAL
Ejemplo 2: Supongamos que las variables aleatorias X
1
, X
2
, . . . , X
n
son
independientes y que estan uniformemente distribudas en el intervalo [
1
,
2
]
de manera que su funcion de densidad conjunta vale
p(x
1
, . . . , x
n
,
1
,
2
) =
_
(
2
1
)
n
si
1
x
i

2
, i, 1 i n
0 en el resto deIR
n
Si denimos los estadsticos
r
1
(X) = min{X
i
: 1 i n} y r
2
(X) = max{X
i
: 1 i n}
y si denotamos con I
[
1
,
2
]
(y) a la funcion caracterstica del intervalo [
1
,
2
]
(que vale 1 para todo y del intervalo y 0 fuera del mismo), resulta:
p(x
1
, . . . , x
n
,
1
,
2
) = (
2
1
)
n
I
[
1
,
2
]
(r
1
(x
1
, . . . , x
n
))I
[
1
,
2
]
(r
2
(x
1
, . . . , x
n
))
Por lo tanto la funcion de densidad p(x, ) se factoriza como en (3.16) con
h(x) = 1. La funcion g que depende de X a traves de r
1
(x) y r
2
(x) vale en
este caso
g(r
1
(x), r
2
(x), ) = (
2

1
)
n
I
[
1
,
2
]
(r
1
(x))I
[
1
,
2
]
(r
2
(x))
Esto demuestra que el estadstico
T = (r
1
(X) , r
2
(X))
es suciente para
1
y
2
.
El siguiente resultado es Corolario inmediato del Teorema 1.
Corolario. Sea X un vector aleatorio con funcion de densidad o funcion de
probabilidad puntual p(x, ), . Supongamos que la familia {p(x, )}
tiene soporte com un, independiente de . Entonces, una condicion necesaria
y suciente para que T sea suciente para es que jados
1
y
2
el cociente
p(x,
1
)
p(x,
2
)
sea funcion de T.
El siguiente Teorema muestra que una funcion biunvoca de un estadstico
suciente es tambien un estadstico suciente. Esta propiedad es intuitiva-
mente razonable: si T contiene toda la informacion relevante acerca de , y
T
es una funcion biunvoca de T, entonces tambien T
la contiene ya que
el vector T puede reconstruirse a partir del vector T
.
3.8. ESTAD
ISTICOS MINIMALES SUFICIENTES 23

Teorema 2: Si X es un vector aleatorio con una distribucion F(x, ), con
si T = r(X) es un estadstico suciente para y si m es una funcion
biunvoca de T entonces el estadstico T
= m(T) tambien es suciente para

.
Demostraci
on: Apliquemos el teorema de factorizacion a la funcion de

densidad del vector X:
p(x, ) = g(r(x), )h(x) = g(m
1
(m(r(x)), )h(x)
El primer factor del ultimo miembro es una funcion g
(r
(x), ), donde
r
(x) = m(r(x)), y esto prueba que T
= r
(X) es suciente para .

3.8 Estadsticos minimales sucientes
De la nocion intuitiva de suciencia, se deduce que si T es suciente para
y T = H(U) entonces U es suciente para , ya que el conocimiento de
U permite conocer T que es el que contiene toda la informacion relevante
sobre . Mas a un, salvo que H sea biunvoca T da una mayor reduccion de
la muestra original que U. Este hecho motiva la siguiente denicion.
Denicion 1: Sea X un vector aleatorio de dimension n cuya distribucion
es F(x, ) con . Se dice que un estadstico T = r(X) es minimal
suciente para si dado cualquier otro estadstico U = g(X) suciente para
existe una funcion H tal que T = H(U).
En muchas situaciones, es facil construir estadsticos minimal sucientes.
Sea S() = {x : p(x, ) > 0}, S() se llama el soporte de la densidad
o de la probabilidad puntual p(x, ), seg un corresponda. Para simplicar,
supondremos que las posibles distribuciones del vector X tienen todas el
mismo soporte, es decir, que el conjunto S() no depende de .
Teorema 1. Supongamos que X tiene una distribucion perteneciente a una
familia nita de distribuciones F = {F(x,
i
) 1 i k} con densidades
o probabilidades puntuales p(x,
i
), 1 i k todas con el mismo soporte.
Entonces el estadstico
T = r(x) =
_
p(x,
2
)
p(x,
1
)
, . . . ,
p(x,
k
)
p(x,
1
)
_
es minimal suciente.
ON PUNTUAL
Demostraci
on. Obviamente, para todo 1 i < j k el cociente

p(x,
i
)/p(x,
j
) es funcion de T. Por lo tanto, por el Corolario del teo-
rema de Factorizacion, T es suciente.
Sea ahora U un estadstico suciente para . Entonces, utilizando el Coro-
lario anterior se cumple que para todo 2 i k, el cociente
p(x,
i
)
p(x,
1
)
es una
funcion de U. Luego, T es funcion de U y T es minimal suciente.
En muchas situaciones, se pueden obtener estadsticos minimales su-
cientes combinando el Teorema 1 con el siguiente Teorema.
Teorema 2. Supongamos que X tiene una distribucion perteneciente a una
familia de distribuciones F = {F(x, ) } con densidades o probabil-
idades puntuales p(x, ), todas con el mismo soporte. Sea
F
0
= {F(x, )
0
} F.
Supongamos ademas que T = r(X) es un estadstico minimal suciente para

0
y suciente para , entonces T es minimal suciente para .
Demostraci
on. Sea U un estadstico suciente para , entonces U es

suciente para
0
. Por lo tanto, T es funcion de U, con lo cual T es
minimal suciente.
Ejemplo 1. Sean X
1
, . . . , X
n
Bi(, 1), 0 < < 1. Hemos visto que T =

n
i=1
X
i
es suciente para
(0, 1). Queremos ver que es minimal suciente.
Para ello consideremos la familia nita F
0
= {Bi(1/4, 1), Bi(3/4, 1)}.
Luego, un estadstico minimal suciente para esta familia esta dado por
U = g(x) =
p(x,
3
4
)
p(x,
1
4
)
= 3
2Tn
que es una funcion biunvoca de T. Por lo tanto, T es un estadstico min-
imal suciente para F
0
y suciente para (0, 1), con lo cual es minimal
suciente para (0, 1).
3.9 Estimadores basados en estadsticos sucientes
Supongamos que X es un vector correspondiente a una muestra de una
distribucion que pertenece a la familia F(x, ) con . Supongamos que
T = r(X) es un estadstico suciente para . Luego de acuerdo al concepto
3.9. ESTIMADORES BASADOS EN ESTAD
intuitivo que tenemos de estadstico suciente, para estimar una funcion q()
deberan bastar estimadores que dependan solo de T, ya que en T esta toda
la informacion que X contiene sobre el parametro . Esto es justamente lo
que arma el siguiente teorema.
Teorema 1 (RaoBlackwell): Sea X un vector de una distribucion pertene-
ciente a la familia F(x, ) con . Sea T un estadstico suciente para
y (X) un estimador de q(). Denamos un nuevo estimador
(T) = E((X)|T).
Luego se tiene
(i) ECM
) ECM
(),
(ii) La igualdad en (i) se satisface si y solo si
P
(T) = (X)) = 1
(iii) Si (X) es insesgado, entonces
(T) tambien lo es.

Demostraci
on: Podemos escribir

ECM
() = E
(((X) q())
2
)
= E
([(
(T) q()) + ((X)
(T))]
2
)
= E
((
(T) q())
2
) +E
(((X)
(T))
2
)
+ 2 E
((
(T) q())((X)
(T))) (3.17)
Luego, usando
E
((
(T) q())((X)
(T))) = E
[E((
(T) q())((X)
(T))|T]
= E
[(
(T) q())E((X)
(T)|T]
y
E
((X)
(T)|T) = E((X)|T)
(T) =
(T)
(T) = 0 ,
se obtiene
E
((
(T) q())((X)
(T))) = 0 .
ON PUNTUAL
Luego (3.17) se transforma en
ECM
() = ECM
) +E
(((X)
(T))
2
)
y resulta
ECM
() ECM
) .
Ademas igualdad se cumple solo si P
((X) =
(T)) = 0 .
Luego ya se ha demostrado (i) y (ii). Para mostrar (iii) supongamos que
es insesgado, luego se tiene
E
(T)) = E
(E((X)|T)) = E
((X)) = q()
Luego se cumple (iii).
Observacion: El estimador
(T) = E((X)|T) es realmente un estimador

ya que depende solo de T (y por lo tanto de X) y no de , ya que por ser T
un estadstico suciente la distribucion de (X) condicional T = t es inde-
pendiente de , por lo tanto lo mismo sucede con la esperanza condicional.
Ejemplo 1: Sea X
1
, X
2
, . . . , X
n
Bi(, 1). Luego (X
1
, . . . , X
n
) = X
1
es un estimador insesgado de . Un
estadstico suciente para es T =

n
i=1
X
i
(ver ejemplo 1 de 3.7). Por lo
tanto, de acuerdo al teorema de RaoBlackwell,
(T) = E((X
1
, . . . , X
n
)|T)
sera otro estimador insesgado de y Var
) Var
(). Vamos a calcular

entonces
(T).
Por ser X
1
, X
2
, . . . , X
n
identicamente distribudas y como T es invariante
por permutaciones entre X
1
, X
2
, . . . , X
n
, la distribucion conjunta de (X
i
, T)
es la misma para todo i. Por lo tanto, E(X
i
|T) sera independiente de i (ver
Problema 1 de 3.9). Luego
E(X
i
|T) = E(X
1
|T) =
(T) 1 i n .
Sumando en i se tiene
n
i=1
E(X
i
|T) = n
(T) .
Pero ademas vale que
n
i=1
E(X
i
|T) = E
_
n
i=1
X
i
|T
_
= E(T|T) = T ,
3.10. FAMILIAS EXPONENCIALES 27
luego
(T) =
T
n
=
1
n
n
i=1
X
i
.
Es facil ver que
Var
(T)) Var
((X))
ya que
Var
(T)) = (1 )/n y Var
((X)) = (1 ) .
3.10 Familias exponenciales
Denicion: Se dice que una familia de distribuciones continuas o discretas
en IR
q
, F(x, ), donde x = (x
1
, . . . , x
q
) y IR
p
es una familia
exponencial a k par ametros si la correspondiente funcion de densidad discreta
o continua se puede escribir como
p(x, ) = A()e
k
i=1
c
i
()r
i
(x)
h(x) (3.18)
donde c
1
(), . . . , c
k
() son funciones de en IR, A() es una funcion de
en IR
+
(reales no negativos), r
1
(x), . . . , r
k
(x) son funciones de IR
q
en IR y
h(x) es una funcion de IR
q
en IR
+
.
Ejemplo 1: Sea la familia Bi(, n) con n jo y en (0,1). Luego
p(x, ) =
_
n
x
_
x
(1 )
nx
= (1 )
n
_

1
_
n
_
n
x
_
x = 0, 1, . . . , n
= (1 )
n
e
x ln(/(1))
_
n
x
_
Luego esta familia es exponencial a un parametro con A() = (1 )
n
;
r(x) = x; c() = ln(/(1 )) y h(x) =
_
n
x
_
.
Ejemplo 2: Sea la familia N(,
2
) con IR y
2
real positivo. Luego,
su densidad viene dada por
p(x, ,
2
) =
1
2
2
e
1
2
2
(x)
2
ON PUNTUAL
=
1
2
2
e
1
2
2
x
2
+(

2
)x

2
2
2
=
e

2
2
2
_
2
2
)
e
(
1
2
2
)x
2
+

2
x
(3.19)
Luego esta es una familia exponencial a dos parametros con A(,
2
) =
e
2
/2
2
/
2
2
; c
1
(,
2
) = (1/2
2
); c
2
(,
2
) = /
2
; r
1
(x) = x
2
;
r
2
(x) = x; h(x) = 1.
Ejemplo 3: Sea la familia P(). Se puede mostrar que es exponencial a un
parametro. Ver problema 2.i) de 3.10.
Ejemplo 4: Sea la familia (). Se puede mostrar que es exponencial a un
parametro. Ver problema 2.ii) de 3.10.
Ejemplo 5: Sea la familia de distribuciones normales bivariadas
N(
1
,
2
,
2
1
,
2
2
, ). Es exponencial a 5 parametros. Ver problema 2.iii)
de 3.10.
Teorema 1: Una familia exponencial a k parametros cuya funcion de den-
sidad viene dada por (3.18) tiene como estadstico suciente para el vector
T = r(X) = (r
1
(X), . . . , r
k
(X)).
Demostraci
on. Inmediata a partir del Teorema 1 de 3.9.

El siguiente teorema establece la propiedad mas importante de las fami-
lias exponenciales.
Teorema 2: Sea X
1
, X
2
, . . . , X
n
que pertenece a una familia exponencial a k parametros, cuya funcion de den-
sidad viene dada por (3.18). Luego la distribucion conjunta de X
1
, . . . , X
n
tambien pertenece a una familia exponencial a k parametros y el estadstico
suciente para es el vector
T
= (T
1
, . . . , T
k
), donde T
i
=
n
j=1
r
i
(X
j
), 1 i k
Demostraci
on: Es inmediata, ya que por (3.18) se tiene

p(x
1
, x
2
, . . . , x
n
, ) =
n
j=1
p(x
i
, )
= (A())
n
e
c
1
()
n
i=1
r
1
(x
j
)++c
k
()
n
i=1
r
k
(x
j
)
n
j=1
h(x
j
)
= A
()e
c
1
()r
1
(x
1
,...,x
n
)++c
k
()r
k
(x
1
,...,x
n
)
h
(x
1
, . . . , x
n
)
donde A
() = A()
n
; r
i
(x
1
, . . . , x
n
) =

n
j=1
r
i
(x
j
), h
(x
1
, . . . , x
n
) =
n
i=1
h(x
j
), y por lo tanto el Teorema 2 queda demostrado.
Este ultimo Teorema nos arma que para familias exponenciales de k
parametros, cualquiera sea el tama no de la muestra, siempre existe un es-
tadstico suciente de solo k componentes. Es decir, que toda la infor-
macion se puede resumir en k variables aleatorias. Se puede mostrar que
esta propiedad bajo condiciones generales caracteriza a las familias expo-
nenciales. Para esta caracterizacion se puede consultar Seccion 2.5 de Zacks
[7] y Dynkin [3].
Ejemplo 3: Volvamos al ejemplo 1. Supongamos que tomamos una muestra
aleatoria X
1
, X
2
, . . . , X
n
de una distribucion Bi(, n) con n jo. Luego la
distribucion conjunta de la muestra pertenecera a una familia exponencial a
un parametro con estadstico suciente T =
n
i=1
X
i
.
Ejemplo 4: Sea X
1
, . . . , X
n
una muestra de una distribucion pertene-
ciente a la familia N(,
2
). Luego, de acuerdo a lo visto en el ejemplo 2 y
al teorema 2, la distribucion conjunta de X
1
, X
2
, . . . , X
n
pertenece a
una familia exponencial a dos parametros y con estadstico suciente
T =
_
n
i=1
X
2
i
,

n
i=1
X
i
_
.
El siguiente teorema establece que las familias de distribuciones de los
estadsticos sucientes de una familia exponencial a k parametros tambien
forma una familia exponencial a k parametros.
Teorema 3: Sea X un vector cuya distribucion pertenece a una familia
exponencial a k parametros cuya funcion de densidad satisface (3.18). Luego
la funcion de densidad de los estadsticos sucientes T = (r
1
(X), . . . , r
k
(X))
es de la forma
p
T
(t
1
, t
2
, . . . , t
k
, ) = A()e
c
1
()t
1
++c
k
()t
k
h
(t
1
, . . . , t
k
)
Por lo tanto la familia de distribuciones de T tambien forma una familia
exponencial a k parametros.
Demostraci
on: Solo se hara para el caso discreto. Para el caso general se

puede consultar Lema 8 de 2.7 en Lehmann [4]. En el caso particular elegido
se tiene:
p(x, ) = A()e
k
j=1
c
j
()r
j
(x)
h(x)
ON PUNTUAL
Luego si T = r(x) = (r
1
(X), . . . , r
k
(X)) y si t = (t
1
, . . . , t
k
), se tendra
p
T
(t, ) =

{x: r(x)=t}
p(x, ) =

{x: r(x)=t}
A()e
k
j=1
c
j
()r
j
(x)
h(x)
= A()e
k
j=1
c
j
()t
j
{x: r(x)=t}
h(x) = A()e
k
j=1
c
j
()t
j
h
(t)
con h
(t) =
{x:r(x)=t}
h(x).
El siguiente lema es de caracter tecnico y nos sera util en lo que sigue.
Lema 1: Sea X = (X
1
, . . . , X
q
) un vector aleatorio cuya distribuci on
pertenece a una familia exponencial a un parametro discreta o continua con
densidad dada por p(x, ) = A()e
c()r(x)
h(x); con , donde es un
abierto en IR y c() innitamente derivable. Luego, si m(x) es un estadstico
tal que
_
. . .
_
|m(x)|p(x, )dx
1
. . . dx
q
<
o
x
1
. . .
x
q
|m(x)|p(x, ) <
seg un sea X continua o discreta, entonces las expresiones
_
. . .
_
m(x)e
c()r(x)
h(x)dx
1
. . . dx
q
o
x
1
. . .
x
q
m(x)e
c()r(x)
h(x)
seg un corresponda, son innitamente derivables y se puede derivar dentro
de los signos integral o sumatoria, respectivamente.
Demostraci
on: No se dara en este curso, puede consultarse en el Teorema

9 de 2.7 de Lehmann [4].
Teorema 4: Sea X = (X
1
, . . . , X
q
) un vector aleatorio cuya distribucion
pertenece a una familia exponencial a un parametro con densidad dada por
p(x, ) = A()e
c()r(x)
h(x) con , donde es un abierto en IR y c() es
innitamente derivable. Luego se tiene:
(i) A() es innitamente derivable.
(ii)
E
(r(X)) =
A
()
A()c
()
(iii)
Var
(r(x)) =
E
(r(x))
()
Demostraci
on: Supongamos que X sea continuo. El caso discreto es

totalmente similar. Como
_
. . .
_
A()e
c()r(x)
h(x)dx
1
. . . dx
q
= 1
se tiene
1
A()
=
_
. . .
_
e
c()r(x)
h(x)dx
1
. . . dx
q
Como el segundo miembro de esta igualdad satisface las condiciones del
Lema 1 con m(x) = 1, resulta innitamente derivable y luego tambien A(),
con lo cual queda demostrado (i).
Por otro lado se tiene
A()
_
. . .
_
e
c()r(x)
h(x)dx
1
. . . dx
q
= 1
y usando el Lema 1 que nos permite derivar dentro del signo integral resulta
A
()
_
. . .
_
e
c()r(x)
h(x)dx
1
. . . dx
q
+
A()c
()
_
. . .
_
r(x)e
c()r(x)
dx
1
. . . dx
q
= 0
y esta ultima ecuacion se puede escribir
A
()
A()
+c
()E
(r(x)) = 0
y luego
E
(r(x)) =
A
()
c
()A()
y se ha demostrado (ii).
(iii) se deja para resolver en el Problema 3 de 3.10.
ON PUNTUAL
3.11 Estadsticos completos
Sea X un vector aleatorio cuya distribucion pertenece a la familia F(x, )
con . Hasta ahora hemos visto que tomando estimadores insesgados
de una funcion q() basados en estadsticos sucientes se logra mejorar la
estimacion. Lo que no conocemos es si puede haber mas de un estimador
insesgado, basado en un estadstico suciente T dado. Veremos que bajo
ciertas condiciones hay uno solo.
Denicion 1: Sea X un vector aleatorio cuya distribucion pertenece a una
familia F(x, ) con . Un estadstico T = r(X) se dice completo si
E
(g(T)) = 0 para todo implica que P
(g(T) = 0) = 1 para todo

Ejemplo 1: Sea X una variable aleatoria con distribucion Bi(, k) con k
jo y 0 1. Sea g tal que E
(g(X)) = 0, para todo . Mostraremos que

g(x) = 0, x = 0, 1, . . . , k. Tenemos
E
(g(X)) =
k
x=0
g(x)
_
k
x
_
x
(1 )
kx
= 0 [0, 1] (3.20)
Sea = /(1 ); luego cuando [0, 1], toma los valores en IR
+
(reales
no negativos).
Poniendo (3.20) en funcion de resulta
(1 )
k
k
x=0
g(x)
_
k
x
_
x
= 0 IR
+
Luego
Q() =
k
x=0
g(x)
_
k
x
_
x
= 0 IR
+
Pero Q() es un polinomio de grado k con innitas races, luego todos sus
coecientes deben ser 0. Por lo tanto,
g(x)
_
k
x
_
= 0 x = 0, 1, . . . , k ,
y entonces
g(x) = 0 x = 0, 1, . . . , k .
Con lo que queda probado que T(X) = X es un estadstico completo.
3.11. ESTAD
ISTICOS COMPLETOS 33
Ejemplo 2: Sea X
1
, X
2
, . . . , X
n
que pertenece a la familia Bi(, k). Sea T = r(X
1
, . . . , X
n
) = X
1
+ X
2
+
+X
n
. Luego T es un estadstico suciente y tiene distribucion Bi(, nk),
por lo tanto de acuerdo a lo visto en el ejemplo 1 es completo.
Ejemplo 3: Consideremos una variable X con distribucion U[0, ], IR
+
.
Sea T = X. Luego se puede demostrar que T es un estadstico completo. La
demostracion de este hecho esta fuera de los alcances de este curso. De todos
modos, veremos una proposicion mas debil relacionada con completitud. Sea
g de IR
+
en IR una funcion continua. Luego veremos que si E
(g(X)) = 0
para todo en IR
+
, entonces g(x) = 0
E
(g(X)) =
1
)
_

0
g(x)dx = 0, 0,
luego
_

0
g(x)dx = 0, IR
+
Sea G() =
_
0
g(x)dx, entonces se tiene
G() = 0 IR
+
Usando el Teorema Fundamental del Calculo Integral se tiene que
G()
= g() = 0 IR
+
Lo que faltara ver es que en el caso en que g no es continua, E
(g(X)) =
0 IR
+
implica g(x) = 0 con probabilidad 1.
El siguiente teorema muestra que bajo condiciones muy generales el es-
tadstico suciente correspondiente a una familia exponencial es completo.
Teorema 1: Sea una familia exponencial a k parametros, discreta o continua
con funcion de densidad dada por
p(x, ) = A()e
c
1
()r
1
(x)+...+c
k
()r
k
(x)
h(x)
y sea = { = (
1
,
2
, . . . ,
k
) :
i
= c
i
(); }.
a) Si contiene k + 1 puntos
(1)
, . . . ,
(k+1)
tales que
{
(j)
(1)
, 2 j k + 1} son linealmente independientes, entonces
el estadstico suciente T = (r
1
(X), . . . , r
k
(X)) es minimal suciente.
ON PUNTUAL
b) Si un conjunto que contiene una esfera en IR
k
, entonces estadstico
suciente T = (r
1
(X), . . . , r
k
(X)) es completo.
Demostraci
on: a) Como T es suciente para

F = {p(x, ) = A()e
c
1
()r
1
(x)+...+c
k
()r
k
(x)
h(x) }, de acuerdo al
Teorema 2 de la seccion 3.8 bastara probar que T es minimal suciente para
una subfamilia nita de F. Sean
(j)
, 1 j k + 1, tales que
(j)
= (
(j)
1
, . . . ,
(j)
k
) =
_
c
1
(
(j)
), . . . , c
k
(
(j)
)
_
.
Consideremos la subfamilia
F
0
= {p(x,
(j)
) = A(
(j)
)e
k
i=1
c
i
(
(j)
)r
i
(x)
h(x)
= A(
(j)
)e
k
i=1

(j)
i
r
i
(x)
h(x) 1 j k + 1} .
Luego, por el Teorema 1 de la seccion 3.8 un estadstico minimal suciente
para F
0
esta dado por
T
= r
(x) =
_
p(x,
(2)
)
p(x,
(1)
)
, . . . ,
p(x,
(k+1)
)
p(x,
(1)
)
_
=
_
_
A(
(2)
)e
(2)
1
r
1
(x)+...+
(2)
k
r
k
(x)
A(
(1)
)e
(1)
1
r
1
(x)+...+
(1)
k
r
k
(x)
, . . . ,
A(
(k+1)
)e
(k+1)
1
r
1
(x)+...+
(k+1)
k
r
k
(x)
A(
(1)
)e
(1)
1
r
1
(x)+...+
(1)
k
r
k
(x)
_
_
que es equivalente a
T
= r
()
(x) =
_
k
i=1
[
(2)
i

(1)
i
]r
i
(x), . . . ,
k
i=1
[
(k+1)
i

(1)
i
]r
i
(x)
_
.
Como T
= MT donde la matriz M IR
kk
es no singular, ya que su
jesima columna es el vector
(j+1)
(1)
, T es equivalente a T
y por lo
tanto, es minimal suciente para F
0
, de donde se obtiene el resultado.
b) Para una demostracion general se puede ver Teorema 1 de Seccion 4.3 de
Lehmann [4]. En este curso solo se demostrara para el caso que k = 1, y
que T = r(X) toma un n umero nito de valores racionales. De acuerdo al
teorema 3, en este caso la funcion de densidad de T sera de la forma:
p(t, ) = A()e
c()t
h(t)
3.11. ESTAD
ISTICOS COMPLETOS 35
Supongamos que los posibles valores de T que tienen probabilidad positiva
es el conjunto A = {t
1
, t
2
, . . . , t
r
} {t
1
, t
2
, . . . , t
s
} donde los t
i
y los t
j
son racionales no negativos.
Sea v un m ultiplo com un de los denominadores de todos los racionales t
i
y t
j
y sean w
i
= vt
i
1 i r y w
i
= vt
i
, 1 i s. Luego los w
i
y los w
i
son naturales. Finalmente sea w = max
1is
w
i
, z
i
= w
i
+ w, 1 i r
y z
i
= w
i
+ w, 1 i s. Luego los z
i
y los z
i
son naturales y todos
diferentes.
Supongamos que
E
(g(T)) = 0
luego
r
i=1
g(t
i
)p(t
i
, ) +
s
i=1
g(t
i
)p(t
i
, ) = 0
con lo cual
r
i=1
g(t
i
)A()e
c()t
i
h(t
i
) +
s
i=1
g(t
i
)A()e
c()t
i
h(t
i
) = 0 ,
de donde se obtiene
r
i=1
g(t
i
)h(t
i
)(e
c()/v)
)
t
i
v
+
s
i=1
g(t
i
)h(t
i
)(e
c()/v)
)
t
i
v
= 0 .
Llamando = e
c()/v
resulta que como hay innitos posibles valores
de c(), el conjunto de posibles valores de , tambien es innito. Luego
tenemos
r
i=1
g(t
i
)h(t
i
)
w
i
+
s
i=1
g(t
i
)h(t
i
)
w
i
= 0
Multiplicando por
w
la ultima ecuacion resulta
P() =
r
i=1
g(t
i
)h(t
i
)
z
i
+
s
i=1
g(t
i
)h(t
i
)
z
i
= 0
Luego el polinomio P() tiene innitas races y por lo tanto, todos los coe-
cientes deben ser 0, es decir, g(t
i
)h(t
i
) = 0, 1 i r y g(t
i
)h(t
i
) =
0, 1 i s. Como h(t
i
) > 0, 1 i r y h(t
i
) > 0, 1 i s,
ON PUNTUAL
resulta que g(t
i
) = 0 1 i r y g(t
i
) = 0 1 i s. Con lo cual,
P
(g(T) = 0) = 1 para todo .

Ejemplo 4: Sea X
1
una variable N(,
2
1
) y X
2
independiente de X
1
una
variable N(,
2
2
), luego si = (,
2
1
,
2
2
) la densidad de X = (X
1
, X
2
)
puede escribirse como
p(x
1
, x
2
, ) =
1
2
1
2
e
2
(
1
2
2
1
1
2
2
2
)
e
(
1
2
2
1
)x
2
1
+(
1
2
2
2
)x
2
2
+(

2
1
)x
1
+(

2
2
)x
2
Por lo tanto es una familia exponencial a 4 parametros, pero no satisface
la condicion del Teorema 1 ya que el conjunto
= { = (
1
,
2
,
3
,
4
) con
1
=
1
2
2
1
,
2
=
1
2
2
2
3
=

2
1
4
=

2
2
} ,
esta en una supercie de dimension 3, ya que depende de 3 parametros,
2
1
,
2
2
y , y por lo tanto no contiene ninguna esfera de IR
4
. Como el
Teorema 1 de la seccion 3.11 da un condicion suciente pero no necesaria
para completitud, no se deduce que T = (X
1
, X
2
, X
2
1
, X
2
2
) no sea completo.
Sin embargo, dado que E
,
2
1
,
2
2
(X
1
X
2
) = = 0 y X
1
X
2
no es igual
a 0 resulta que T no es completo.
El Teorema 1 nos permite, sin embargo, deducir que T es minimal su-
ciente.
Por lo tanto, hemos visto un estadstico minimal suciente no necesari-
amente es completo. El siguiente resultado establece la recproca.
Teorema 2: Sea T un estadstico suciente y completo para . Si existe
un estadstico minimal suciente para entonces T es minimal suciente.
Demostraci
on. La haremos solo en el caso en que el estadstico minimal

suciente y el estadstico suciente y completo T tienen dimension 1. Sea U
el estadstico minimal suciente para , luego por ser T suciente se cumple
que U = m(T). Queremos ver que m es biunvoca.
Sea (t) la funcion arcotangente. Luego : IR [0, 2] es una funcion
estrictamente creciente y acotada. Por lo tanto, E
((T)) < y bastara

mostrar que (T) es funcion de U.
Denamos (U) = E ((T)|U). Como U es suciente (U) es un es-
tadstico. Luego, si
g(T) = (T) [m(T)] = (T) (U)
3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 37
se cumple que E
[g(T)] = 0 para todo . Por lo tanto,

P
((T) = (U)) = 1 para todo , y entonces T es equivalente a

U.
El siguiente Teorema es util en muchas situaciones, donde probar inde-
pendencia entre estadsticos puede resultar laborioso.
Teorema 3: (Teorema de Basu) Sea T un estadstico suciente y completo
para . Sea U = g(X) un estadstico cuya distribucion no depende de
entonces U es independiente de T.
Demostraci
on. Sea A un suceso, como U tiene distribucion independiente

de , p
A
= P(U A) no depende de .
Sea
A
(t) = P(U A|T = t). Como T es suciente
A
(T) es un estadstico.
Por otra parte, E
(
A
(T) p
A
) = 0 para todo , con lo cual la com-
pletitud de T implica que P
(
A
(T) = p
A
) = 1 para todo y por lo
tanto, U es independiente de T.
3.12 Estimadores insesgados de mnima varianza
uniformemente
El siguiente teorema nos da un metodo para construir estimadores IMVU
cuando se conoce un estadstico que es a la vez suciente y completo.
Teorema 1 (Lehmann-Schee): Sea X un vector aleatorio de cuya dis-
tribucion pertenece a la familia F(x, ) con . Sea T un estadstico
suciente y completo. Luego dada una funcion q() de en IR, se tiene que
(i) Existe a lo sumo un estimador insesgado de q(), basado en T.
(ii) Si (T) es un estimador insesgado de q(), entonces (T) es IMVU.
(iii) Si (X) es un estimador insesgado para q(), luego
(T) = E((X)|T)
es un estimador IMVU para q().
Demostraci
on:
(i) Sean
1
(T) y
2
(T) dos estimadores insesgados de q(). Luego
E
(
1
(T)
2
(T)) = q() q() = 0
ON PUNTUAL
luego como T es completo
P
(
1
(T)
2
(T) = 0) = 1,
(ii) Sea (T) un estimador insesgado de q(), y sea
1
(X) otro estimador
insesgado. Si llamamos
1
(T) = E(
1
(X)|T) sabemos por el Teorema
1 de la seccion 3.9 que
1
(T) es insesgado y
Var
1
) Var
(
1
) (3.21)
Pero de acuerdo a (i) se tiene que
1
(T) = (T) con probabilidad 1.
Luego
Var
1
) = Var
()
y luego de 3.21 resulta que
Var
() Var
(
1
)
y (ii) queda demostrado.
(iii) Como
(T) es por el Teorema 1 de la seccion 3.9 insesgado, de (ii) se

deduce que es un estimador IMVU para q().
De acuerdo al punto (ii) de este teorema, en el caso de tener un estadstico
suciente y completo T, cualquier estimador insesgado basado en T es un
estimador IMVU. El punto (iii) nos indica como construir un estimador
IMVU de q() a partir de cualquier estimador insesgado.
Teorema 2: Sea X un vector aleatorio cuya distribucion pertenece a una
familia exponencial a k parametros con funcion de densidad dada por
p(x, ) = A()e
c
1
()r
1
(x)++c
k
()r
k
(x)
h(x)
donde toma valores en el conjunto . Supongamos ademas que
= { = (
1
,
2
, . . . ,
k
) :
i
= c
i
(); }
contiene una esfera en IR
k
. Sea T = (r
1
(X), . . . , r
k
(X)), luego si (T) es
un estimador insesgado de q(), entonces (T) es un estimador IMVU para
q().
Demostraci
on: Inmediata a partir de los Teoremas 3 de seccion 3.10 y 1

de seccion 3.12.
3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 39
Ejemplo 1: Sea X
1
, X
2
, . . . , X
n
perteneciente a la familia Bi(, k) con k jo. Luego, la distribucion conjunta
de la muestra viene dada por
p(x
1
, x
2
, . . . , x
n
, ) =
_
k
x
1
__
k
x
2
_
. . .
_
k
x
n
_
n
i=1
x
i
(1 )
nk
n
i=1
x
i
= (1 )
nk
e
(
n
i=1
x
i
) ln(/(1))
_
k
x
1
__
k
x
2
_
. . .
_
k
x
n
_
Esta familia constituye una familia exponencial, con estadstico suciente
T =

n
i=1
X
i
. Por otro lado c() = ln/(1 ) toma todos los posibles
valores de IR cuando vara en el intervalo (0,1). Luego T es un estadstico
suciente y completo. Como (T) = T/nk es un estimador insesgado de ,
resulta un estimador IMVU de .
Ejemplo 2: Sea X
1
, X
2
, . . . , X
n
perteneciente a la familia N(,
2
). Luego usando (3.19) resulta que la
distribucion conjunta de la muestra viene dada por
p(x
1
, . . . , x
n
, ,
2
) =
1
2
2
)
n/2
e
n
2
2
2
e
1
2
2
n
i=1
X
2
i
+

n
i=1
X
i
Luego constituye una familia exponencial a dos parametros con estadstico
suciente T =
_
n
i=1
X
2
i
,

n
i=1
X
i
_
. Mostraremos ahora que T es com-
pleto. Bastara mostrar que
= {(
1
,
2
) :
1
=
1
2
2
,
2
=

2
, IR,
2
IR
+
}
contiene una esfera.
Mostraremos que contiene todo (
1
,
2
) IR
2
con
1
< 0.
Sea (
1
,
2
) con
1
< 0, tenemos que mostrar que viene de un par (,
2
)
con
2
> 0. Para ver esto basta tomar
2
= 1/2
1
y =
2
2
=
2
/2
1
.
Luego T es completo.
Como X es un estimador insesgado de , y como depende de T, resulta
que es IMVU de .
Por otro lado s
2
=
n
i=1
(X
i
X)
2
/(n 1) =
_
n
i=1
X
2
i
nX
2
)/(n 1)
es un estimador insesgado de
2
y ademas depende de T, luego es IMVU
para
2
.
Ejemplo 3: Sea X
1
una variable N(,
2
1
) y X
2
independiente de X
1
una va-
riable N(,
2
2
). Vimos en el Ejemplo 4 de la seccion 3.11 que
ON PUNTUAL
T = (X
1
, X
2
, X
2
1
, X
2
2
) era minimal suciente pero no era completo. Se puede
mostrar que en este caso no hay ning un estimador IMVU (ver Problema 7
de 3.11).
Ejemplo 4: El siguiente ejemplo muestra que no siempre existen estima-
dores IMVU. Volvamos al ejemplo 1 y supongamos que se quiera estimar
q(). Como T =

n
i=1
X
i
es un estadstico suciente, un estimador IMVU
de q() debera estar basado en T. Supongamos que (T) es un estimador
IMVU para q(). Como T tiene distribucion Bi(, kn) y (T) es insesgado
se tendra
q() = E
((T)) =
kn
i=0
(t)
_
kn
t
_
r
(1 )
knt
Luego una condicion necesaria para que q() tenga un estimador IMVU
es que sea un polinomio de grado menor o igual a kn. Se puede mostrar que
es tambien una condicion suciente aunque no lo demostraremos.
Por lo tanto no existen estimadores IMVU, por ejemplo, para e
, ln,
sen . Esto no quiere decir que no existen buenos estimadores. Si q()
es continua, un buen estimador sera (T) = q(T/nk) ya que T/nk es un
estimador IMVU de .
Ejemplo 5: En este ejemplo veremos que un estimador IMVU puede ser
mejorado en su error cuadratico medio por otro estimador no insesgado.
Volvamos al ejemplo 2 y supongamos que se desea estimar
2
. Hemos visto
que un estimador IMVU para
2
es s
2
=
n
i=1
(X
i
X)
2
/(n1), sin embargo
veremos que s
2
no es admisible.
Sea
2
c
= c U donde U =

n
i=1
(X
i
X)
2
. Luego, s
2
=
2
1
n1
. Sabemos
que U/
2
tiene distribucion
2
n1
, por lo tanto, E
2 (U) = (n 1)
2
y
Var
2 (U) = 2 (n 1)
4
. Con lo cual,
ECM
2 (
2
c
) = E
2
_
(
2
c

2
)
2
_
= Var
2 (
2
c
) +
_
E
2 (
2
c
)
2
_
2
= c
2
Var
2 (U) +
_
c E
2 (U)
2
_
2
= 2 c
2
(n 1)
4
+
_
c (n 1)
2
2
_
2
=
4
_
c
2
(n + 1)(n 1) 2(n 1)c + 1
_
3.13. DESIGUALDAD DE RAOCRAMER 41
Luego, el ECM de
2
c
es un polinomio de grado 2 en c que alcanza su mnimo
cuando c = 1/(n + 1). Por lo tanto, U/(n + 1) tiene menor ECM que el
estimador IMVU s
2
.
Como caraterizamos los estimadores IMVU cuando no existe un es-
tadstico suciente y completo?
Lema 1: Sea
0
un estimador insesgado de q(). Dado cualquier otro
estimador insesgado de q(), se cumple que =
0
U con E
(U) = 0
.
Luego como ECM
() = V ar
() = V ar
(
0
U) = E
{(
0
U)
2
}
q()
2
, para encontrar el estimador IMVU basta minimizar E
{(
0
U)
2
}, o
sea, basta encontrar la proyeccion de
0
sobre el espacio de los estimadores
del 0.
Teorema 3: Supongamos que X es un vector aleatorio de cuya distribucion
pertenece a la familia F(x, ) con . Sea = {(X) : E
2
(X) < }.
Sea U = {{(X) : E
(X)} = 0 . Una condicion necesaria y

suciente para que , insesgado, sea IMVU para q() es que E
(U) = 0,
, U U.
3.13 Desigualdad de RaoCramer
En esta seccion mostraremos que bajo hipotesis muy generales, la varianza
de un estimador insesgado no puede ser inferior a cierta cota.
Supongamos que X = (X
1
, . . . , X
n
) es un vector aleatorio de cuya dis-
tribucion pertenece a la familia de distribuciones discreta o continua con
densidad p(x, ), con ; donde es un conjunto abierto de IR. Su-
pongamos ademas que se cumplen las siguientes condiciones (en lo que sigue
suponemos que X es continuo, para el caso discreto habra que reemplazar
todos los signos
_
por

):
(A) El conjunto S = {x : p(x, ) > 0} es independiente de .
(B) Para todo x, p(x, ) es derivable respecto de .
(C) Si h(X) es un estadstico tal que E
[|h(X)|] < para todo

entonces se tiene
__

. . .
_

h(x)p(x, )dx
_
=
_

. . .
_

h(x)
p(x, )
dx
ON PUNTUAL
donde dx = (dx
1
, . . . , dx
n
) (o sea se puede derivar dentro del signo
integral)
(D)
0 < I() = E
_
_
lnp(X, )
_
2
_
<
I() se denomina n umero de informacion de Fisher.
Lema 1: Supongamos que se cumplan las condiciones A, B, C y D. Sea
(x, ) =
p(x,)
. Entonces,
(i) E
(X, ) = 0 y Var
(X, ) = I().
(ii) Si ademas existe la derivada segunda de p(x, ) respecto de y si para
todo estadstico h(X) tal que, E
[|h(X)|] < para todo , se

cumple que
2
__

. . .
_

h(x)p(x, )dx
_
=
_

. . .
_

h(x)
2
p(x, )
2
dx
(3.22)
entonces
I() = E
2
lnp(X, )
2
= E
(X, )
Demostraci
on: (i) Por ser p(x, ) una densidad, si S es el conjunto denido

en la condicion (A) se tiene
_

. . .
_

p(x, )dx =
_
S
. . .
_
p(x, )dx =
_

. . .
_

p(x, )I
S
(x)dx = 1
donde I
S
es la funcion indicadora del conjunto S.
Luego aplicando la condicion (C) a h(x) = I
S
(x) se obtiene derivando ambos
miembros que
_

. . .
_

p(x, )
I
S
(x)dx = 0,
y por lo tanto
_

. . .
_

_
p(x, )
_
p(x, )
_
I
S
(x)p(x, )dx = 0 .
Esta ultima ecuacion es equivalente a
_

. . .
_

_
lnp(x, )
_
I
S
(x)p(x, )dx = 0
la cual implica
E
(X, ) = E
_
lnp(X, )
_
= 0 (3.23)
Como I() = E
2
(X, ), (3.23) implica que Var
(X, ) = I()
(ii) De la igualdad
2
lnp(x, )
2
=
2
p(x,)
2
p(x, )

2
(x, )
se obtiene que
E
2
lnp(X, )
2
=
_

. . .
_

2
p(x, )
2
dx E
2
(X, ) . (3.24)
Utilizando (3.22) con h(x) = I
S
(x) se obtiene que el primer termino del lado
derecho de (3.24) es igual a cero, de donde el resultado.
Teorema 1 (RaoCramer): Bajo las condiciones A, B, C y D si (X) es un
estimador insesgado de q() tal que E
2
(X) < se tiene
(i)
Var

((X))
|q
()|
2
I()
(ii) (i) vale como igualdad si y solo si (X) es estadstico suciente de una
familia exponencial, es decir si y solo si
p(x, ) = A()e
c()(x)
h(x) (3.25)
Demostraci
on: (i) Sea (x, ) =

p(x,)
. Por el Lema 1 tenemos que

E
(X, ) = 0 y Var
(X, ) = I(). (3.26)

Por otro lado, como (X) es insesgado se tiene
E
((X)) =
_

. . .
_

(x)p(x, )I
S
(x)dx = q()
ON PUNTUAL
y luego aplicando la hipotesis C, tomando h(X) = (X)I
S
(X) se obtiene
derivando ambos miembros que
_

. . .
_

(x)
p(x, )
I
S
(x)dx = q
()
de donde
E
[(X)(X, )] =
_

. . .
_

(x)(x, )p(x, )dx

=
_

. . .
_

(x)
lnp(x, )
I
S
(x)p(x, )dx
= q
() (3.27)
Teniendo en cuenta (3.26), (3.27) se puede escribir como
Cov ((X), (X, )) = q
() (3.28)
De acuerdo a la desigualdad de CauchySchwartz,
Cov(X, Y )
2
Var(X), Var(Y ), y vale la igualdad si y solo si
P(Y = aX + b) = 1 para algunas constantes a y b. Por lo tanto, usando
(3.28) resulta
_
q
()
2
Var
((X)) Var
((X, )) (3.29)
y la igualdad vale si y solo si
lnp(X, )
= (x, ) = a()(x) +b() con probabilidad 1. (3.30)

Usando (3.26) y (3.29) resulta
Var
((X)
q
()
2
I()
(3.31)
que es lo que se arma en (i).
(ii) (3.31) valdra como igualdad si y solo si cumple (3.30). Mostraremos que
(3.30) se cumple si y solo si se cumple (3.25).
Integrando respecto de en (3.30), se obtiene
lnp(x, ) = (x)
_
a()d +g(x) +
_
b()d
que se puede escribir como
lnp(x, ) = (x)c() +g(x) +B()
donde c() =
_
a()d y B() =
_
b()d. Luego, despejando p(x, ) resulta
p(x, ) = e
B()
e
(x)c()
e
g(x)
y llamando A() = e
B()
y h(x) = e
g(x)
; resulta (3.25).
Supongamos ahora que se cumple (3.25), mostraremos que se cumple
(3.30).
Si se cumple (3.25), tomando logaritmos se tiene
lnp(x, ) = lnA() +c()(x) + lnh(x)
y derivando se obtiene
lnp(x, )
=
A
()
A()
+c
()(x)
y por lo tanto se cumple (3.30). Esto prueba el punto (ii).
Observacion 1: Si (X) es un estimador insesgado de q() y Var
((x)) =
[q
()]
2
/I() para todo . Entonces del punto (i) del Teorema 1 resulta
que (X) es IMVU. Por lo tanto esto da otro criterio para vericar si un
estimador insesgado dado es IMVU.
Observacion 2: Si p(x, ) = A()e
c()(x)
h(x), y si (X) es un estimador
insesgado de q(), entonces (X) es un estimador IMVU de q(). Esto resulta
de (i) y (ii).
Observacion 3: Si (X) es un estimador de , su varianza debe ser mayor
o igual que 1/I(). Luego se puede esperar que cuanto mayor sea I() (como
1/I() sera menor) existe la posibilidad de encontrar estimadores con menor
varianza y por lo tanto mas precisos. De ah el nombre de n umero de
informacion que se le da a I(). Es decir cuanto mayor es I(), mejores
estimadores de se pueden encontrar, y por lo tanto se puede decir que mas
informacion da el vector X sobre . El hecho de que se pueden encontrar
estimadores con varianza aproximadamente igual a 1/I() sera cierto para n
grande. Para esto consultar seccion 3.13 y el apendice (B) de este captulo.
Para una generalizacion del Teorema de RaoCramer el caso en que es un
vector puede consultarse el Teorema 4.3.1 de Zacks [7] y el Teorema 7.3 de
Lehmann [5].
El siguiente teorema nos indica que una muestra aleatoria de tama no
n X
1
, X
2
, . . . , X
n
de una familia con densidad p(X, ) nos da n veces mas
informacion que una sola observacion.
ON PUNTUAL
Teorema 2: Sea X
1
, . . . , X
n
una muestra aleatoria de una distribucion con
densidad p(x, ) con IR. Luego, si se denomina I
n
() al n umero
de informacion de X
1
, X
2
, . . . , X
n
y I
1
() al n umero de informacion de X
1
,
entonces se tiene I
n
() = nI
1
().
Demostraci
on: Se tiene que

p(x
1
, x
2
, . . . , x
n
, ) =
n
i=1
p(x
i
, )
y entonces
lnp(x
1
, . . . , x
n
, ) =
n
i=1
lnp(x
i
, ) .
Por lo tanto,
lnp(x
1
, . . . , x
n
, )
=
n
i=1
lnp(x
i
, )
Con lo cual, por ser X

1
, . . . , X
n
independientes, se tiene
I() = Var
_
lnp(X
1
, . . . , X
n
, )
_
=
n
i=1
Var
_
lnp(X
i
, )
_
= nI
1
() .
Ejemplo 1: Sea X
1
, X
2
, . . . , X
n
perteneciente a la familia Bi(, 1). Luego se tiene
p(x, ) =
x
(1 )
1x
luego
lnp(x, ) = xln + (1 x) ln(1 )
y por lo tanto
lnp(x, )
=
x

1 x
1
=
x
(1 )
luego
I
1
() = E
_
_
lnp(X
1
, )
_
2
_
=
_
1
(1 )
_
2
E
(X )
2
=
_
1
(1 )
_
2
Var
(X )
2
=
1
(1 )
y por lo tanto,
I
n
() =
n
(1 )
.
Consideremos el estimador insesgado de , X = (1/n)
n
i=1
X
i
. Se tiene
que
Var
(X) =
(1 )
n
=
1
I()
y por lo tanto, de acuerdo con la observacion 2 es IMVU. Esto es un ejemplo
donde el estimador IMVU satisface la desigualdad de RaoCramer como
igualdad. Esto podramos haberlo visto directamente mostrando que X es
el estadstico suciente de una familia exponencial.
Veremos ahora un ejemplo donde el estimador IMVU satisface la de-
sigualdad de RaoCramer estrictamente.
Sea q() = (1 ) = Var
(X
1
). Conocemos por el ejemplo 2 de la
seccion 3.3, que
(X
1
, X
2
, . . . , X
n
) = s
2
=
1
n 1
n
i=1
(X
i
X)
2
es un estimador insesgado de q(). Ademas se tiene
(X
1
, . . . , X
n
) =
1
n 1
_
n
i=1
X
2
i
nX
2
_
=
1
n 1
_
n
i=1
X
i
nX
2
_
=
n
n 1
X(1 X)
Luego (X
1
, . . . , X
n
) depende del estadstico suciente y completo X y
por lo tanto es IMVU.
Sin embargo se tendra que
Var
((X
1
, . . . , X
n
)) >
q
()
2
nI
1
()
(3.32)
ya que (X
1
, . . . , X
n
) no es el estadstico suciente de una familia exponen-
cial.
Para la vericacion directa de (3.32) ver Problema 11 de 3.13.
ON PUNTUAL
3.14 Consistencia de estimadores
La teora asintotica estudia las propiedades de los procedimientos de infe-
rencia estadstica cuando el tama no de la muestra n que se utiliza es grande,
mas precisamente, en el lmite cuando n tiende a innito.
Una propiedad deseable para un estimador, es que cuando n es grande la
sucesion
n
(X
1
, . . . , X
n
) se aproxime en alg un sentido al valor que queremos
estimar. Para precisar estas ideas introduciremos el concepto de consistencia.
Sea F = {F(x, ) con } una familia de distribuciones y supongamos
que para cada n se tiene un estimador
n
(X
1
, . . . , X
n
) de q() basado en una
muestra aleatoria de tama no n. Daremos la siguiente denicion:
Denicion 1:
n
(X
1
, . . . , X
n
) es una sucesion fuertemente consistente de
estimadores de q() si
lim
n
n
(X
1
, . . . , X
n
) = q() c.t.p.
o sea si P
(
n
(X
1
, . . . , X
n
) q()) = 1 para todo .
Denicion 2:
n
(X
1
, . . . , X
n
) es una sucesion debilmente consistente de
estimadores de q() si
lim
n
n
(X
1
, . . . , X
n
) = q() en probabilidad.
Es decir, para todo > 0 y
lim
n
P
(|
n
(X
1
, . . . , X
n
) q()| > ) = 0 .
Observacion 1: Puesto que convergencia en c.t.p. implica convergencia
en probabilidad, entonces toda sucesion fuertemente convergente tambien lo
sera debilmente.
Ejemplo 1: Sea X
1
, . . . , X
n
una muestra aleatoria de una funcion de dis-
tribucion F(x) totalmente desconocida, tal que E
F
(X
1
) existe. Llamemos
q(F) a E
F
(X
1
). Si
n
(X
1
, . . . , X
n
) = X
n
=
1
n
n
i=1
X
i
,
3.14. CONSISTENCIA DE ESTIMADORES 49
por la ley fuerte de los grandes n umeros este estimador resulta fuertemente
consistente para q(F).
Si ademas E
F
(X
2
) < , entonces
n
(X
1
, . . . , X
n
) = s
2
n
=
1
n 1
n
i=1
(X
i
X
n
)
2
=
1
n 1
n
i=1
X
2
i

n
n 1
X
2
n
es fuertemente consistente para q(F) = Var
F
X
1
. En efecto,
s
2
n
=
n
n 1
1
n
n
i=1
X
2
i

n
n 1
X
2
n
.
Por la ley fuerte de los grande n umeros
1
n
n
i=1
X
2
i
E
F
(X
2
1
) c.t.p. y
1
n
n
i=1
X
i
E
F
(X
1
) c.t.p.
Luego, X
2
n
E
F
(X
1
)
2
c.t.p. y como n/(n 1) converge a 1 se tiene que
lim
n
s
2
n
= Var
F
(X
1
) c.t.p.
Observacion 2: Si X
1
, . . . , X
n
es una muestra aleatoria de una distribucion
N(,
2
) se tiene que X
n
es fuertemente consistente para y s
2
n
es fuerte-
mente consistente para
2
, ya que por lo visto recien
lim
n
X
n
= E(X
1
) c.t.p.
y
lim
n
s
2
n
= Var (X
1
) c.t.p.
y sabemos que E(X
1
) = y Var(X
1
) =
2
.
El siguiente teorema nos da una condicion suciente para que una sucesion
de estimadores sea debilmente consistente.
Teorema 1: Sea, para todo n,
n
=
n
(X
1
, . . . , X
n
) un estimador de q()
basado en una muestra aleatoria de tama no n. Si Var
(
n
) 0 y E
(
n
)
q(), entonces
n
(X
1
, . . . , X
n
) es debilmente consistente.
Demostraci
on: Debemos ver que

lim
n
P
(|
n
(X
1
, . . . , X
n
) q()| > ) = 0 > 0.
ON PUNTUAL
Por la desigualdad de Markov se tiene
P
(|
n
(X
1
, . . . , X
n
) q()| )
E
(
n
(X
1
, . . . , X
n
) q())
2
Var
(
n
) +
_
E
(
n
) q()
2
Como por hipotesis E
(
n
) q()) 0 y (Var
(
n
)) 0 se obtiene el
resultado.
El siguiente teorema muestra que si
n
(X
1
, . . . , X
n
) es una sucesion de
estimadores IMVU para q() entonces cumple la hipotesis del Teorema 1.
Teorema 2: Sea
n
(X
1
, . . . , X
n
) una sucesion de estimadores IMVU para
q(), donde X
1
, . . . , X
n
es una muestra aleatoria de una distribucion perte-
neciente a la familia F(x, ), . Luego Var
(
n
(X
1
, . . . , X
n
)) tiende a
cero si n tiende a innito.
Demostraci
on: Sea
n
(X
1
, . . . , X
n
) =
n
i=1
1
(X
i
)
n
luego E
n
) = E
(
1
) = q(), es decir
n
es un estimador insesgado de
q().
Por otro lado, Var
n
(X
1
, . . . , X
n
)) = Var
(
1
(X
1
))/n. Por ser
n
(X
1
, . . . , X
n
) IMVU de q() se cumple
Var
(
n
(X
1
, . . . , X
n
)) Var
n
(X
1
, . . . , X
n
)) = Var
(
1
(X
1
))/n
y por lo tanto,
lim
n
Var
(
n
(X
1
, . . . , X
n
)) = 0.
Corolario 1: Si
n
(X
1
, . . . , X
n
) es una sucesion de estimadores IMVU para
q() donde X
1
, . . . , X
n
es una muestra aleatoria de una distribucion perte-
neciente a la familia F = {F(x, ) con } entonces
n
(X
1
, . . . , X
n
) es
una sucesion de estimadores debilmente consistentes.
Demostraci
on: Resulta inmediatamente de los teoremas 1 y 2.

3.15. CONSISTENCIA DE LOS ESTIMADORES DE LOS MOM... 51
3.15 Consistencia de los estimadores de los mo-
mentos
En este parrafo demostraremos la consistencia de los estimadores de los
momentos.
Teorema 3: Sea X
1
, . . . , X
n
una muestra aleatoria de una distribucion per-
teneciente a la familia F = {F(x, ) con IR}, h(x) una funcion
continua con valores en IR y supongamos que E
(h(X
1
)) = g() es, como
funcion de , continua y estrictamente monotona. Sea el estimador de mo-
mentos

n
denido como la solucion de
1
n
n
i=1
h(X
i
) = E
(h(X
1
)) = g().
Luego con probabilidad 1 existe n
0
tal que para todo n n
0
la ecuacion que
dene

n
tiene solucion y es fuertemente consistente para .
Demostraci
on: Sea > 0. Hay que demostrar que, con probabilidad 1,

existe n
0
tal que
|
n
| < para n n
0
.
Supongamos que g() es estrictamente creciente. El caso contrario se de-
muestra en forma analoga. Luego, se tiene,
g( ) < g() < g( +) .
Sea = min(g( +) g(), g() g( )); luego
g( ) g() < g() < g() + g( +) .
Por otro lado, por la ley fuerte de los grandes n umeros
lim
n
1
n
n
i=1
h(X
i
) = g() c.t.p.
Luego, con probabilidad 1, dado > 0 existe n
0
tal que para todo n n
0
se
tiene
g()
1
n
n
i=1
h(X
i
) g() + .
ON PUNTUAL
De esta desigualdad se inere que
g( )
1
n
h(X
i
) g( +) para n n
0
y como g() es continua y estrictamente creciente, para n n
0
existe un
unico valor

n
que satisface
1
n
h(X
i
) = E
n
(h(X
1
)) = g(
n
)
Ademas dicho valor debe estar entre y +, es decir que

n
+
para n n
0
que es lo que queramos demostrar.
3.16 Consistencia de los estimadores de maxima
verosimilitud
En esta seccion enunciaremos un teorema que establece la consistencia de
los estimadores de maxima verosimilitud para el caso de un solo parametro.
La demostracion se dara en el Apendice A.
max
i=1
p(x
i
, ) =
n
i=1
p(x
i
,
n
) (3.33)
Se puede demostrar que bajo condiciones muy generales

n
denido por
(3.33) es fuertemente consistente.
Teorema 1: Sea X
1
, . . . , X
n
discreta o continua con densidad en la familia p(x, ) con , donde es
un intervalo abierto de IR. Supongamos que p(x, ) es derivable respecto de
y que el conjunto S = {x : p(x, ) = 0} es independiente de para todo
. Sea

n
el estimador de maxima verosimilitud de , que satisface
n
i=1
lnp(x
i
,
n
)
= 0 (3.34)
Supongamos nalmente que la ecuacion (3.34) tiene a lo sumo una solucion
y que =
implica que p(x, ) = p(x,
). Entonces lim
n
n
= c.t.p.,
es decir,

n
es una sucesion de estimadores fuertemente consistente.
3.17. ESTIMADORES EFICIENTES 53
Con el objetivo de simplicar la demostracion, la condiciones utilizadas
en el Teorema 1 son mas fuertes que las estrictamente necesarias para que
el teorema sea valido. El teorema tambien vale en el caso de que haya mas
de un parametro. Para una demostracion mas general se puede consultar el
Teorema 5.3.1 de Zacks [7] y en Wald [6].
3.17 Estimadores asintoticamente normales y e-
cientes
Sea X
1
, X
2
, . . . , X
n
una muestra aleatoria de una distribucion con densi-
dad perteneciente a la familia p(x, ) con , donde es un intervalo
abierto de IR, y sea
n
(X
1
, . . . , X
n
) un estimador insesgado de q(). Luego
suponiendo las condiciones A, B, C y D del Teorema 1 de la seccion 3.13 se
tiene
E
[
n
(X
1
, . . . , X
n
)] = q() (3.35)
Var
(
n
(X
1
, . . . , X
n
))
[q
()]
2
nI
1
()
. (3.36)
(3.35) y (3.36) son equivalentes a:
E
n(
n
(X
1
, . . . , X
n
) q())] = 0 (3.37)
Var
n(
n
(X
1
, . . . , X
n
) q())]
[q
()]
2
I
1
()
. (3.38)
El mismo Teorema 1 de 3.13, establece que solo excepcionalmente habra
estimadores que satisfagan simultaneamente (3.37), y la igualdad en (3.38)
para n nito. En efecto, esto sucede unicamente si se cumplen
q() = E
(
n
(X
1
, . . . , X
n
)) y p(x, ) = A()e
c()
n
(x
1
,...,x
n
)
h(x
1
, . . . , x
n
)
Sin embargo, bajo condiciones muy generales, existen estimadores (por ejem-
plo, los de maxima verosimilitud), que para n grande satisfacen aproximada-
mente (3.37) y la igualdad en (3.38). Para precisar estas propiedades dare-
mos la siguiente denicion:
Denicion 1: Se dice que
n
(X
1
, . . . , X
n
) es una sucesion de estimado-
res asintoticamente normal y eciente (A.N.E.) si

n(
n
(X
1
, . . . , X
n
)
q()) converge en distribucion a una normal con media cero y varianza
[q
()]
2
/I
1
().
ON PUNTUAL
Es decir que si
n
(X
1
, . . . , X
n
) es A.N.E., para n grande se comporta
aproximadamente como si tuviese distribucion N(q(), [q
()]
2
/nI
1
()), es
decir como si fuera insesgado con varianza [q
()]
2
/nI
1
(), que es la menor
varianza posible de acuerdo con el Teorema de RaoCramer.
El siguiente Teorema, demostrado en el Apendice B, establece que bajo
condiciones muy generales los estimadores de maxima verosimilitud son
A.N.E.
Teorema 1: Sea X
1
, . . . , X
n
discreta o continua con densidad perteneciente a la familia p(x, ) con
y un abierto en IR. Supongamos que p(x, ) tiene derivada tercera respecto
de continua y que satisface las condiciones A, C y D del Teorema 1 de 3.13.
Sea (x, ) =
ln p(x,)
y supongamos ademas que
3
lnp(x, )
2
(x, )
K
para todo x S y para todo (S es el mismo que en la condicion A).
Sea

n
un estimador de maxima verosimilitud de consistente y sea q()
derivable con q
() = 0 para todo . Entonces q(
n
) es A.N.E. para estimar
q().
Las hipotesis que se han supuesto en este teorema son mas fuertes que
las estrictamente necesarias con el objetivo de simplicar la demostracion.
Tambien se puede demostrar un teorema similar para el caso de mas de un
parametro. Una demostracion mas general se puede ver en la seccion 5.5 de
Zacks [7].
3.18 Apendice A: Demostracion de la consistencia
de los estimadores de maxima verosimilitud
Comenzaremos probando algunas propiedades de funciones convexas.
Denicion 1: Sea f(x) una funcion denida sobre un intervalo de IR y que
toma valores en IR. Diremos que f(x) es convexa si:
f(x +(1 )y) f(x) + (1 )f(y) con 0 1
3.18. AP
ENDICE A 55
y diremos que f(x) es estrictamente convexa si:
f(x + (1 )y) < f(x) +(1 )f(y) 0 < < 1.
Teorema 1: Sea f(x) : IR IR una funcion convexa. Sean
1
, . . . ,
n
tales
que 0
i
1 y

n
i=1
i
= 1. Entonces se tiene:
f
_
n
i=1
i
x
i
_
i=1
i
f(x
i
)
Ademas, si f(x) es estrictamente convexa y hay al menos un
i
que cumple
0 <
i
< 1 (esto es equivalente a que haya por lo menos dos
i
> 0),
entonces:
f
_
n
i=1
i
x
i
_
<
n
i=1
i
f(x
i
)
Demostraci
on: Por induccion (para n = 2 se obtiene la denicion 1).

Teorema 2 (Desigualdad de Jensen): Sea Y una variable aleatoria y h :
IR IR una funcion convexa, luego se tiene
E(h(Y )) h(E(Y ))
Ademas si h es estrictamente convexa y Y no es constante con probabilidad
1 se tiene:
E(h(Y )) > h(E(Y ))
Demostraci
on: Solo haremos el caso en que Y es discreta y toma un

n umero nito de valores.
Supongamos que Y toma los valores y
1
, y
2
, . . . , y
k
con probabilidades
p
1
, p
2
, . . . , p
k
. Luego aplicando el Teorema 1 se obtiene:
h(E(Y )) = h
_
k
i=1
y
i
p
i
_
i=1
h(y
i
)p
i
= E(h(Y ))
En el caso en que h sea estrictamente convexa y Y no sea constante, hay al
menos dos p
i
mayores que cero, luego tambien por el Teorema 1 obtenemos:
h(E(Y )) = h
_
k
i=1
y
i
p
i
_
<
k
i=1
h(y
i
)p
i
= E(h(Y ))
ON PUNTUAL
Teorema 3: Sea f : IR IR tal que f(x) > 0 para todo x; luego f(x) es
convexa.
Demostraci
on: Puede verse en cualquier libro de calculo.

Teorema 4: Sean p y q dos densidades o dos funciones de densidad discretas
o continuas distintas. Luego se tiene:
E
p
_
ln
q(X)
p(X)
_
< 0
(donde E
p
signica que se calcula la esperanza considerando que X tiene
una distribucion discreta o continua cuya densidad o probabilidad puntual
es p).
Demostraci
on: Primero veremos que q(X)/p(X) no es constante con prob-

abilidad 1. La demostracion se hara suponiendo que X es continua. El caso
discreto es totalmente analogo. Supongamos que q(X)/p(X) = k c.t.p.,
donde k es una constante. Luego E
p
(q(X)/p(X)) = k. Esto es:
_
+
(q(x)/p(x))p(x)dx = k (3.39)
pero
_
+
(q(x)/p(x))p(x)dx = 1 (3.40)
pues q(x) es una densidad. Luego, de (3.39) y (3.40) resulta k = 1. Entonces
p(X) = q(X) c.t.p. y esto contradice la hipotesis. Por lo tanto q(X)/p(X)
no es constante.
Por otro lado ln(x) es una funcion estrictamente convexa ya que:
d
2
(lnx)
dx
2
=
1
x
2
> 0 .
Luego, estamos en condiciones de aplicar la desigualdad de Jensen (Teorema
2), con Y = q(X)/p(X) y h(x) = lnx. En estas condiciones obtenemos
E
p
_
ln
q(X)
p(X)
_
> ln
_
E
p
q(X)
p(X)
_
= ln
_
+
q(x)
p(x)
p(x)dx = ln1 = 0.
Luego E
p
[ln(q(X)/p(X))] > 0 y E
p
[ln(q(X)/p(X))] < 0 con lo que obte-
nemos la tesis.
3.18. AP
ENDICE A 57
Demostracion del Teorema 1 de Seccion 3.16
Sea L
n
(X
1
, . . . , X
n
, ) = (1/n)
n
i=1
lnp(X
i
, ). Luego

n
satisface
L
n
(X
1
, . . . , X
n
,
n
) = max
L
n
(X
1
, . . . , X
n
, ) y
L
n
(X
1
, . . . , X
n
,
n
)
= 0 .
Ademas se tiene
L
n
(X
1
, . . . , X
n
, +) L
n
(X
1
, . . . , X
n
, ) =
1
n
n
i=1
ln
_
p(X
i
, +)
p(X
i
, )
_
(3.41)
L
n
(X
1
, . . . , X
n
, ) L
n
(X
1
, . . . , X
n
, ) =
1
n
n
i=1
ln
_
p(X
i
, )
p(X
i
, )
_
(3.42)
Como =
implica p(X
1
, ) = p(X
1
,
), aplicando el Teorema 4 resulta

que
E
_
ln
_
p(X
1
, +)
p(X
1
, )
__
< 0 (3.43)
E
_
ln
_
p(X
1
, )
p(X
1
, )
__
< 0 (3.44)
Entonces, de (3.41), (3.42), (3.43) y (3.44) y de la ley fuerte de los grandes
n umeros resulta que con probabilidad igual a 1 existe un n
0
tal que n > n
0
implica:
L
n
(X
1
, . . . , X
n
, ) < L
n
(X
1
, . . . , X
n
, )
y
L
n
(X
1
, . . . , X
n
, +) < L
n
(X
1
, . . . , X
n
, ) .
Luego, para n > n
0
en el intervalo ( , + ) existe un maximo relativo,
digamos
n
, que satisface
L
n
(X
1
, . . . , X
n
,
n
)
= 0 ,
pero hemos supuesto que

n
era el unico que satisfaca esta igualdad. Luego,
n
=
n
y por lo tanto

n
( , +).
ON PUNTUAL
3.19 Apendice B: Demostracion de la normalidad
y eciencia asintotica de los estimadores de
maxima verosimilitud
Demostraremos previamente un lema.
Lema 1: Sea X
1
, . . . , X
n
una sucesion de variables aleatorias tales que
n(X
n
) converge en distribucion a N(0,
2
). Sea g(x) una funci on
denida en IR tal que g
() = 0 y g
(x) es continua en x = . Luego

se tiene que

n(g(X
n
) g()) converge en distribucion a una distribucion
N(0,
2
(g
())
2
).
Demostraci
on: Primero demostraremos que X

n
en probabilidad.
Sean > 0 y > 0 arbitrarios y X una variable aleatoria con distribuci on
N(0,
2
). Luego existe K sucientemente grande tal que P(|X| > K) < .
Por otro lado, P(|X
n
| > ) = P(
n|X
n

n). Sea n
0
tal que
n
0
K. Luego si n n
0
:
P(|X
n
| ) P(
n|X
n
| K) .
Como

n(X
n
) converge en distribucion a una variable con distribuci on
N(0,
2
), se tiene
lim
n
P(|X
n
| ) lim
n
P(
n|X
n
| K) = P(|X| K) < .
Luego
lim
n
(P|X
n
| ) < para todo > 0 ,
por lo tanto, lim
n
P(|X
n
| ) = 0 y resulta X
n
en probabilidad.
Por otra parte, el teorema del valor medio implica que
n(g(X
n
) g()) =

ng
(
n
)(X
n
) (3.45)
con
n
un punto intermedio entre X
n
y . Luego,
n
en probabilidad y
como g
(x) es continua en , g
(
n
) g
() en probabilidad.
Por lo tanto, como por hipotesis

n(X
n
) converge en distribuci on
a una N(0,
2
) y g
(
n
) g
() en probabilidad, aplicando la propiedad

5 de 1.8, resulta que

n(g(X
n
) g()) converge en distribucion a una
N(0,
2
(g
())
2
).
3.19. AP
ENDICE B 59
Demostracion del Teorema 1 de la seccion 3.17. Indiquemos por
(x, ) =
(x, )
(x, ) =

2
(x, )
2
.
El estimador de maxima verosimilitud satisface:
n
i=1
(X
i
,
n
) = 0 .
Desarrollando en serie de Taylor alrededor de se obtiene:
n
i=1
(X
i
, ) +
_
n
i=1
(X
i
, )
_
(
n
) +
1
2
_
n
i=1
(X
i
,
n
)
_
(
n
)
2
= 0 ,
donde
n
es un punto intermedio entre

n
y . Despejando (
n
) y mul-
tiplicando ambos miembros por

n se obtiene:
n(
n
) =

n
i=1
(X
i
, )/
n
(1/n)
n
i=1
(X
i
, ) + (1/2n)
_
n
i=1
(X
i
,
n
)
_
(
n
)
Sea D(X
1
, . . . , X
n
, ) el denominador de esta ultima expresion. Vamos a
demostrar que:
(a)
D(X
1
, . . . , X
n
, ) I
1
() = E
[(X, )]
2
en probabilidad.
(b)

n
i=1
(X
i
, )/
n converge en distribucion a una distribucion N(0, I

1
())
Probemos (a). Como |
(X
i
, )| K para todo , se tiene que
1
2n
n
i=1
(X
i
,
n
)(
n
)
K
2
|(
n
)|
y luego como

n
es consistente se deduce que:
1
n
n
i=1
(X
i
,
n
)(
n
) 0 en probabilidad. (3.46)
Por otro lado, como
(X
i
, ) son n variables aleatorias, independientes igual-
mente distribuidas, por la ley de los grandes n umeros implica que
1
n
n
i=1
(X
i
, ) E(
(X
1
, ) en probabilidad. (3.47)
ON PUNTUAL
Pero de acuerdo con el Lema 1 de la seccion 3.13
E
(X
1
, )) = I
1
() .
Luego, usando (3.46) y (3.47) se obtiene:
D(X
1
, . . . , X
n
, ) I
1
() en probabilidad,
con lo que queda probado (a). Para probar (b) observemos que, como las
variables aleatorias
(X
i
, ) =
lnp(X
i
, )
son independientes e igualmente distribuidas con esperanza 0 y varianza

I
1
() (ver Lema 1 de la seccion 3.13), por el Teorema Central del lmite
1
n
n
i=1
(X
i
, )
converge en distribucion a N(0, I
1
()).
Luego

n(
n
) converge en distribucion a una ley N(0, I
1
()/(I
1
()
2
)
o sea N(0, 1/I
1
()).
Consideremos ahora el estimador de maxima verosimilitud q() dado por
q(
n
).
Por el Lema 1 se tendra que

n(q(
n
) q()) converge en distribucion
a una N(0, (q
())
2
/I
1
()).
3.19. AP
ENDICE B 61
REFERENCIAS DEL CAPITULO 3
[1 ] Bahadur, R.R. (1954). Suciency and Statistical Decision Functions.
Annals of Mathematical Statistics 25, 423462.
[2 ] Draper, N. and Smith, H. (1966). Applied Regression Analysis. J.
Wiley & Sons.
[3 ] Dynkin, E.B. (1961). Necessary and Sucient Statistics for Families
of Distributions. Selected Translations of Mathematical Statistics and
Probability 1, 2341.
[4 ] Lehmann, E.L. (1994). Testing Statistical Hypothesis. Chapman &
Hall.
[5 ] Lehmann, E.L. (1983). Theory of Point Estimation. J. Wiley & Sons.
[6 ] Wald, A.N. (1949). Note on the Consistency of the Maximum Like-
lihood Estimates. Annals of Mathematical Statistics 20, 595601.
[7 ] Zacks, S. (1971). The Theory of Statistical Inference. J. Wiley &
Sons.
Chapter 4
Estimadores Bayesianos y
Minimax
4.1 Enfoque Bayesiano del problema de la esti-
macion puntual
Consideremos nuevamente un problema estadstico de estimacion parametrico.
Se observa un vector X = (X
1
, ..., X
n
), que puede ser, por ejemplo, aunque
no necesariamente, una muestra aleatoria de cierta distribucion) con densi-
dad discreta o continua en la familia f(x, ), con = (
1
, ...,
p
) IR
p
.
El enfoque llamadado frecuentista que hemos estudiado no supone ning un
conocimiento previo de . El enfoque bayesiano, por lo contrario, supone que
se tiene alguna informacion previa sobre . Esta informacion esta expresada
por medio de una distribucion sobre , denominada distribucion a priori.
Aqu supondremos que esta distribucion a priori, indicada por , tiene una
densidad (). La distribucion a priori puede tener distintas interpretaciones
seg un el problema. Se pueden dar las siguientes alternativas
La distribucion a priori esta basada en experiencias previas similares.
La distribucion a priori expresa una creencia subjetiva.
El hecho de que el enfoque bayesiano considere una distribucion de prob-
abilidades sobre , supone tratar a como una variable aleatoria, y por lo
tanto a esta variable la denominaremos para distinguirla del valor que
toma . Esta notacion puede llevar a confusion dado que tambien llamamos
1
2 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX
al conjunto de valores de . Sin embargo, por el contexto quedara claro
el signicado de este smbolo en cada caso.
Dado que consideramos ahora el valor del parametro como el valor de
una variable aleatoria, la interpretacion de la familia de densidades f(x, )
en el enfoque bayesiano tambien cambia. En el enfoque bayesiano f(x, )
se interpreta como la distribucion condicional de la muestra X dado que la
variable toma el valor .
Una vez observada la muestra X se puede calcular la distribucion condi-
cional de dada X. Esta distribucion se denomina distribucion a posteriori
y esta dada por
f(|x) =
f(x, )()
...
f(x, t)(t)dt
. (4.1)
En efecto el numerador de (4.1) corresponde a la densidad conjunta de
X y , y el denominador a la densidad marginal de X.
Si la distribucion de fuese discreta, habra que reemplazar las integrales
del denominador por las correspondientes sumatorias. En lo sucesivo, supon-
dremos que las distribuciones de X y de son continuas, pero el tratamiento
en el caso discreto es similar.
Una de las ventajas del enfoque bayesiano es que se pueden denir en
forma natural estimadores optimos, sin necesidad de restricciones poco na-
turales como la de estimadores insesgados a la que debimos recurrir en
el enfoque frecuentista. Para ver esto supongamos que queremos estimar
= q() y consideremos una funcion de perdida (, d) que indica el costo
de estimar = q() utilizando del valor d. Supongamos que se tiene un es-
timador

= (x). Luego la perdida sera una variable aleatoria (, (X)),
y la perdida esperada que llamaremos riesgo de Bayes esta dada por
r(, ) = E((, (X))), (4.2)
donde aqu la esperanza se toma con respecto a la distribucion conjunta de
X y . Por lo tanto, dada la distribucion priori , un estimador optimo sera
aquel que minimice r(, ). Este estimador se denomina estimador de Bayes
correspondiente a la distribucion a priori y sera representado por
.
Luego, la funcion de riesgo de la teora frecuentista, R(, ) , estara dada
por
R(, ) = E
((, (X)))
= E((, (X))| = ) =
(, (x))f(x, )dx. (4.3)

4.1. ESTIMADORES BAYESIANOS 3
Con lo cual,
r(, ) = E
(E((, (X))|)) =
...
R(, )()d. (4.4)

Consideremos como caso particular la funcion de perdida cuadratica, es
decir,
(, d) = (q() d)
2
.
En este caso, el estimador de Bayes sera la funcion
(X) que minimiza el

error cuadratico medio
E(((X) q())
2
)
y por lo tanto, de acuerdo a la teora de esperanza condicional, este sera
unico y estara dado por
(x) = E(q()|X = x) =
...
q()f(|x)d,
es decir, sera la esperanza condicional de q() con respecto a la distribucion
a posteriori de .
Ejemplo 1. Sea X = (X
1
, ..., X
n
) una muestra independiente de una
distribucion Bi(, 1), y supongamos que la distribucion a priori de sea
una distribucion (a, b), es decir, con una densidad
() =
(a + b)
(a)(b)
a1
(1 )
b1
I
[0,1]
(). (4.5)
Es conocido que esta distribucion tiene la siguiente esperanza y varianza
E() =
a
a + b
, (4.6)
var() =
ab
(a + b)
2
(a + b + 1)
=
E() (1 E())
a + b + 1
. (4.7)
Luego si se conoce la media y la varianza de la distribucion a priori de
, se pueden determinar a y b. La formula (4.7) muestra que para un dado
valor de la esperanza, la varianza depende de a + b, tendiendo a 0 cuando
a + b +.
La distribucion de la muestra X
1
, X
2
, ...X
n
dado el valor de tiene una
funcion de probabilidad puntual dada por
f(x
1
, ..x
n
, ) =
n
i=1
x
i
(1 )
n
n
i=1
x
i
. (4.8)
Luego usando (4.1) se tiene que la distribucion a posteriori de tiene una
densidad dada por
f(|x
1
, ..., x
n
) =

n
i=1
x
i
+a1
(1 )
n
n
i=1
x
i
+b1
1
0
t
n
i=1
x
i
+a1
(1 t)
n
n
i=1
x
i
+b1
dt
. (4.9)
Ahora bien, el denominador de esta expresion es igual a
(n + a + b)
(a +
n
i=1
x
i
)(n
n
i=1
x
i
+ b)
por lo tanto, la distribucion a posteriori de dado X = x es
(a +
n
i=1
x
i
, n
n
i=1
+b).
Supongamos que la funcion de perdida es cuadratica. Luego el estimador
de Bayes, que indicaremos por
a,b
, esta dado por E(|X), y de acuerdo a
(4.6) tendremos que
a,b
=
T + a
a + b + n
=
n
n + a + b
T
n
+
a + b
a + b + n
a
a + b
, (4.10)
donde T =

n
i=1
X
i
. Por lo tanto, el estimador de Bayes se comporta como
un promedio ponderado de dos estimadores: el IMVU
1
= T/n que no usa
la informacion de la distribucion a priori y
2
= a/(a + b) que corresponde
a la esperanza de la distribucion a priori y que se usara si no se hubiese
observado la muestra. Tambien vemos que el peso asignado a
2
tiende a 0
cuando el tama no de la muestra n aumenta.
De acuerdo a (4.10), el estimador de Bayes correspondiente a una dis-
tribucion a priori (a, b) puede interpretarse como el estimador frecuentista
correspondiente a una muestra de tama no n +a +b con

n
i=1
X
i
+a exitos.
Observacion 1. En el ejemplo anterior hemos partido de una distribuci on
a priori (a, b), y hemos obtenido que la distribucion a posteriori tambien
esta en la misma familia, ya que es (a +
n
i=1
x
i
, n
n
i=1
x
i
+b). Se dice
entonces que la familia de distribuciones beta es la conjugada de la familia
de distribuciones binomial.
Ejemplo 2. Sea X = (X
1
, ..., X
n
) una muestra independiente de una dis-
tribucion N(,
2
), con
2
conocido, y supongamos que la distribucion a
priori de sea N(,
2
).
Luego la densidad de la muestra X = (X
1
, ..., X
n
) dado esta dada por
f(x, ) =
1
(2)
n/2
n
exp
1
2
2
n
i=1
(x
i
)
2
, (4.11)
4.1. ESTIMADORES BAYESIANOS 5
donde exp(x) = e
x
. La densidad de la distribucion a priori esta dada por
() =
1
(2)
1/2
exp
( )
2
2
2
(4.12)
Luego multiplicando (4.11) y (4.12), desarrollando los cuadrados y haciendo
alg un manipuleo algebraico, se obtiene que distribucion conjunta de X y
esta dada por
f
X,
(x, ) = C
1
(x,
2
, ,
2
)exp
2
2
2
+
1
n x
2
+

,
donde C
1
(x,
2
, ,
2
) no depende de . Completando cuadrados, se obtiene
f
X,
(x, ) = C
2
(x,
2
, ,
2
)exp
1
2D
n x
2
+

, (4.13)
donde
D =
1
(n/
2
) + (1/
2
)
. (4.14)
Finalmente, usando (1) obtenemos
f(|x) = C
3
(x,
2
,
2
, )exp
1
2D
( D
2
+

2
(4.15)
Luego, esta densidad, excepto una funcion que depende solo de x, co-
rresponde a una distribucion
N
n x
2
+

, D
. (4.16)
Como se trata de la distribucion condicional de dado X = x, podemos
considerar a C
3
como constante. Luego la distribucion a posteriori de esta
dada por (4.16).
Supongamos nuevamente que consideramos una funcion de perdida cuadra-
tica. El estimador de Bayes estara dado, en ese caso, por la esperanza condi-
cional de dado X, y por lo tanto de acuerdo a (4.16) y (4.14) estara dado
por
(X) = D
n

X
2
+

= w

X + (1 w), (4.17)
donde
w =
n/
2
(n/
2
) + (1/
2
)
.
Por lo tanto, nuevamente, el estimador de Bayes es un promedio ponderado
del estimador IMVU de la teora frecuentista

X y la media de la distribucion
a priori . Los pesos son inversamente proporcionales a las varianzas
2
/n
y
2
de ambos estimadores. A medida que el tama no de la muestra n crece,
el peso del estimador basado en la informacion a priori tiende a 0. Es decir,
a medida que el tama no de la muestra crece, la informacion a priori tiene
menos relevancia para determinar el estimador de Bayes.
Observacion 2. En este ejemplo partimos de una distribucion a priori en
la familia N(,
2
), y obtenemos que la distribucion a posteriori esta dada
por (4.16), y por lo tanto esta en la misma familia normal. Luego la familia
de distribuciones conjugadas de la familia normal con varianza conocida es
la familia normal.
Veamos algunas propiedades de los estimadores Bayes para funciones de
perdida arbitrarias.
Teorema 1. Sea
un estimador Bayes respecto de la distribucion a priori

y supongamos que
es unico, entonces
es admisible.
Demostraci
on. Supongamos que existe otro estimador
tan bueno como
, es decir, R(
, ) R(
, ) para todo . Integrando respecto a la

distribucion a priori de en ambos miembros de la desigualdad, obtenemos
r(
, ) r(
, ). Con lo cual, por la unicidad
.
Se puede obtener un resultado de admisibilidad para reglas Bayes sin
pedir unicidad, siempre y cuando, sea abierto, la distribucion a priori
tenga una densidad positiva para todo y la funcion de riesgo R(, )
sea continua en para todo estimador .
Hemos visto que en el caso de la perdida cuadratica, el estimador Bayes
poda obtenerse como la esperanza de la distribucion a posteriori de . El
siguiente Teorema da una manera de obtener el estimador Bayes para el caso
de otras funciones de perdida.
Teorema 2. Sea la distribucion de y F
(x) la distribucion condicional

de X dado . Supongamos que se cumplen las siguientes condiciones para
estimar q() utilizando la perdida (, d)
4.2. ESTIMADORES MINIMAX 7
a) Existe un estimador
0
con riesgo nito.
b) Para cada valor de x existe un valor, que indicaremos
(x), que mi-

nimiza E ((, d)|X = x).
Entonces,
(x) es un estimador de Bayes respecto a .

Demostraci
on. Sea (X) un estimador con riesgo Bayes nito. Luego,

como la perdida es nonegativa, E ((, (X))|X = x) es nita para casi todo
x. Por lo tanto, tenemos
E ( (, (x)) |X = x) E ( (,
(x)) |X = x)
de donde, tomando esperanza respecto a la distribucion marginal de X,
obtenemos r(, ) r(
, ) y por lo tanto,
es un estimador Bayes.
Corolario Sea una distribucion a priori para y supongamos que se
cumplen las condiciones del Teorema 2.
a) Para la perdida (, d) = w()(q() d)
2
, donde w() > 0 y
E(w()) < , la regla Bayes
esta dada por
(x) =
E (q()w()|X = x)
E (w()|X = x)
b) Para la perdida (, d) = |q() d|, la regla Bayes
(x) es la mediana
de la distribucion a posteriori de q() condicional a x
c) Para la perdida (, d) = I
|q()d|>c
, la regla Bayes
es el punto
medio del intervalo I de longitud 2c que maximiza P(q() I|X = x)
4.2 Utilizacion de metodos bayesianos para resolver
problemas frecuentistas
En esta seccion vamos a mostrar como los resultados de la teora bayesiana
pueden ser utiles, aunque no se comparta ese punto de vista. Es decir, vere-
mos que los resultados de esta teora se pueden usar para resolver problemas
que surgen de la teora frecuentista.
Consideremos una muestra X = (X
1
, ..., , X
n
) con distribucion conjunta
f(x, ) donde el vector de parametros . Supongamos que queremos
estimar = q() y que tenemos una funcion de perdida (, d). En el enfoque
frecuentista un estimador (X) de queda caracterizado por su funcion de
riesgo
R(, ) = E
((, (X)) =
(, (x))f(x, )dx. (4.18)

Como es desconocido, lo ideal sera encontrar un estimador
(X) tal
que, dado cualquier otro estimador (x) se tuviese
R(
, ) R(, ) .
Como ya hemos visto al comienzo del curso estos estimadores no existen
excepto en casos muy poco interesantes.
Una alternativa es comparar los estimadores a traves del maximo riesgo.
Dado un estimador (X) de su maximo riesgo se dene por
MR() = sup
R(, ). (4.19)
El criterio de comparar los estimadores por su maximo riesgo es pesimista,
ya que actua como si el parametro fuese a tomar el valor mas desfavorable
para el estimador. Un estimador optimo de acuerdo a este criterio es un
estimador
tal que dado cualquier otro estimador se tiene

MR(
) MR(). (4.20)
Denicion 1. Un estimador satisfaciendo (4.20) se denomina minimax.
Vamos a ver como la teora bayesiana nos ayuda a encontrar estimadores
minimax. Para ello, consideremos una distribucion a priori con densidad
(). El correspondiente estimador de Bayes
verica que, dado cualquier

otro estimador , se tiene
r(
, ) r(, ). (4.21)
Luego, de acuerdo a (4.4) se tendra entonces que para cualquier estimador
R(
, )()d
R(, )()d. (4.22)

Sea r
= r(
, ), es decir, el mnimo riesgo de Bayes cuando la dis-

tribucion a priori es .
Denicion 2. Se dira que una distribucion a priori
0
es menos favorable
si, para cualquier otra distribucion , se tiene r
0
.
Naturalmente uno se puede preguntar para que distribuciones a priori el
estimador Bayes
sera minimax. Un procedimiento minimax, al minimizar

el maximo riesgo, trata de comportarse lo mejor posible en la peor situacion.
Por lo tanto, uno puede esperar que el estimador minimax sea Bayes para
la peor distribucion posible que es la distribucion menos favorable.
El siguiente Teorema nos permite usar la teora bayesiana para encontrar
estimadores minimax.
Teorema 1. Supongamos que se tiene una distribucion a priori
0
tal que
el estimador de Bayes
0
tiene funcion de riesgo, R(
, ), constante en .
Entonces:
a)
0
es un estimador minimax,
b) si
0
es el unico estimador Bayes respecto de
0
,
0
es el unico esti-
mador minimax,
c)
0
es la distribucion menos favorable.
Demostraci
on. Como el riesgo de
0
es constante se cumple que
r(
0
,
0
) =
R(
0
, )
0
()d = sup
R(
0
, ). (4.23)
a) Consideremos un estimador =
0
, luego como
MR() = sup
R(, ) R(, )
tomando esperanza respecto a la distribucion a priori
0
obtenemos
MR() = sup
R(, )
R(, )
0
()d = r(,
0
). (4.24)
Como
0
es Bayes respecto de
0
, se cumple que
r(,
0
) r(
0
,
0
). (4.25)
Con lo cual, a partir de (4.23), (4.24) y (4.25) obtenemos
MR() r(
0
,
0
) = sup
R(
0
, ) = MR(
0
)
y por lo tanto,
0
es minimax.
b) Supongamos ahora que
0
es el unico estimador Bayes, luego se
cumple
r(,
0
) > r(
0
,
0
). (4.26)
Con lo cual, utilizando ahora (4.23), (4.24) y (4.26) obtenemos
MR() r(,
0
) > r(
0
,
0
) = MR(
0
)
y por lo tanto,
0
es el unico estimador minimax.
c) Sea otra distribucion a priori y
el estimador Bayes respecto de .

Luego, por ser
Bayes se cumple
r(
, ) r(
0
, ). (4.27)
Por otra parte, como el riesgo de
0
es constante se verica
r(
0
, ) =
R(
0
, )()d
= sup
R(
0
, ) = r(
0
,
0
), (4.28)
Por lo tanto, (4.27) y (4.28) nos permiten concluir que
r(
, ) r(
0
,
0
)
con lo cual,
0
es la distribucion menos favorable.
Ejemplo 3. Consideremos el Ejemplo 1 de estimacion bayesiana para la
familia binomial, usando distribuciones a priori en la familia (a, b) y como
f uncion de perdida la funcion (, d) = ( d)
2
. Luego hemos visto que el
unico estimador de Bayes esta dado por
a,b
=
T + a
n + a + b
,
con T =

n
i=1
X
i
.
Si encontramos a y b tales que R(
a,b
, ) es constante, ese estimador sera
minimax y la distribucion a priori correspondiente sera la distribucion menos
favorable. Como E
(T) = n y var(T) = n(1 ) se tiene

E
(
a,b
) =
n + a
n + a + b
, (4.29)
y
var
(
a,b
) =
n(1 )
(n + a + b)
2
, (4.30)
Luego, usando (4.29) y (4.30) se deduce que
R(
a,b
, ) = E((
a,b
)
2
)
= var
(
a,b
) + ( E
(
a,b
))
2
=
n(1 )
(n + a + b)
2
+

n + a
n + a + b
2
=
n(1 ) + (a + b)
2
2
2a(a + b) + a
2
(n + a + b)
2
=
(n + (a + b)
2
)
2
+ (n 2a(a + b)) + a
2
(n + a + b)
2
. (4.31)
Para que (4.31) sea constante en , los coecientes en y
2
del numer-
ador deben ser 0. Por lo tanto, se debe cumplir
n + (a + b)
2
= 0, n 2a(a + b) = 0
La solucion de este sistema de ecuaciones es a = b =

n/2, y por lo tanto
el estimador de Bayes correspondiente, que sera minimax, estara dado por
mmax
=
T + (
n/2)
n +
n
. (4.32)
La correspondiente funcion de riesgo esta dada por
R(
mmax
, ) =
n/4
(n +
n)
2
=
1
4(
n + 1)
2
.
El Teorema 1 no nos permite obtener un estimador minimax en el caso
de la media de una distribucion normal. El siguiente Teorema resultara util
en esa situacion.
Teorema 2. Supongamos que (X) sea un estimador tal que
(i) R(, ) = C ,
(ii) existe una sucesion de distribuciones a priori
k
tales que
lim
k
r(
k
,
k
) = C.
Entonces es minimax.
Demostraci
on: Sea
otro estimador para q(). Se cumple entonces que

sup
R(
, )
R(
, )
k
()d = r(
,
k
) r(
k
,
k
). (4.33)
Con lo cual, tomando lmite en ambos miembros de (4.33), y usando (ii)
se obtiene
MR(
) = sup
R(
, ) C = MR(),
y por lo tanto, es minimax.
Ejemplo 4. Consideremos una muestra aleatoria X = (X
1
, ..., X
n
) de una
distribucion N(,
2
), donde
2
conocida. El estimador (X) =

X tiene como
funcion de riesgo R(, ) =
2
/n, y por lo tanto se cumple la condicion (i)
del Teorema 2. Por otro lado, consideremos una sucesion de distribuciones a
priori
k
=N(0,
2
k
) con
2
k
+. Usando la funcion de perdida cuadratica,
de acuerdo a lo visto en el ejemplo 2, los estimadores de Bayes son
k
= w
k

X,
donde
w
k
=
n/
2
(n/
2
) + (1/
2
k
)
. (4.34)
Es facil ver que
lim
k
w
k
= 1 (4.35)
y que
lim
k
2
k
(1 w
k
)
2
= lim
k
2
k
1/
4
k
((n/
2
) + (1/
2
k
))
2
= 0 (4.36)
Por otro lado, se tiene
R(
k
, ) = var
k
) + ( E
k
))
2
= w
2
k
2
n
+ (1 w
k
)
2
2
. (4.37)
Luego
r(
k
,
k
) = E
k
(R(
k
, )) = w
2
k
2
n
+ (1 w
k
)
2
2
k
.
Con lo cual, usando (4.35) y (4.36) se concluye que
lim
k
r(
k
,
k
) =

2
n
Por lo tanto se cumple la condicion (ii) del Teorema 2, y el estimador
(X) =

X es minimax. El Teorema 2 no nos permite obtener la unicidad
del estimador minimax.
Chapter 5
Intervalos y Regiones de
Conanza
5.1 Regiones de conanza Denicion y Ejemplos
Consideremos nuevamente el problema de estimacion. Dado un vector X
con distribucion perteneciente a la familia F(x, ) con , un estimador
puntual de es una funcion

= (X) que representa un unico valor que
aproxima a . Si se da solamente ese valor no se tendra ninguna idea de la
precision de dicha aproximacion, es decir de las posibles diferencias entre y
. Una forma de obtener informacion sobre la precision de la estimacion, en

el caso de que sea unidimensional, es proporcionar un intervalo [a(X), b(X)]
de manera que la probabilidad de que dicho intervalo contenga el verdadero
valor sea alta, por ejemplo, 0.95.
En este caso, la precision con que se conoce depende de la longitud del
intervalo, es decir, de b(X) a(X), cuanto mas peque na sea esa longitud,
mas determinado quedara .
Si es un vector de IR
p
, en vez de dar un intervalo para estimarlo, se
debera dar una cierta region de IR
p
, por ejemplo, esferica o rectangular.
La siguiente denicion formaliza estos conceptos.
Denicion 1: Dado un vector X con distribucion perteneciente a la fa-
milia F(x, ) con , una region de conanza S(X) para con nivel
de conanza 1 sera una funcion que a cada X le hace corresponder un
subconjunto de de manera que P
( S(X)) = 1 para todo .

Es decir, S(X) cubre el valor verdadero del parametro con probabilidad
1
2 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA
1 . El valor de debe ser jado de acuerdo al grado de seguridad con
que se quiere conocer ; generalmente se toma = 0.05 o = 0.01.
Como caso particular, cuando sea unidimensional se dira que S(X) es
un intervalo de conanza si S(X) es de la forma
S(X) = [a(X), b(X)]
La longitud de S(X)
L = b(X) a(X)
dependera del nivel elegido, cuanto mas chico sea , o sea, cuanto mas
grande sea la probabilidad con que el intervalo cubra al verdadero valor del
parametro, mas grande sera la longitud de aquel, o sea, menos precisa la
estimacion de .
Ejemplo 1: Sea X
1
, . . . , X
n
una muestra de una poblacion con distribucion
N(,
2
0
) donde es desconocido y
2
0
conocido. Supongamos que se necesite
un intervalo de conanza para de nivel 1 .
Consideremos X
n
= (1/n)
n
i=1
X
i
. Sabemos que X
n
tiene distribuci on
N(,
2
0
/n). Luego V =

n(X
n
)/
0
, tendra distribucion N(0, 1). La
ventaja de la variable aleatoria V sobre X
n
es que tiene distribucion inde-
pendiente de .
Denimos z
tal que P(V z
) = ; y por simetra P(V z
) = .
Luego
P(z
2
V z
2
) = 1 P(V z
2
) P(V z
2
)
= 1

2

2
= 1 .
Si reemplazamos V por

n(X
n
)/
0
se tendra
P
_
z
n
_
X
n
0
_
z
2
_
= 1 ,
con lo cual, despejando resulta
P
(X
n
z
n
X
n
+z
n
) = 1 .
Por lo tanto, un intervalo de conanza para de nivel 1 sera
S(X) =
_
X
n
z
n
, X
n
+z
n
_
5.2. PROCEDIMIENTOS GENERALES PARA OBTENER REG... 3
ya que
P
[ S(X)] = 1 .
Conviene precisar nuevamente el signicado de esta igualdad. Para jar
ideas, supongamos = 0.05. La expresion S(X) cubre a con probabili-
dad 0.95, indica que si un experimentador extrayese un n umero suciente-
mente grande de muestras X de tama no n de una distribucion N(,
2
0
) y
construyese las regiones S(X) correspondientes a cada una de ellas, aproxi-
madamente el 95% de estas regiones S(X) contendran el parametro . Esto
es, dada X, la armacion S(X) cubre a tiene probabilidad 0.95 de ser
correcta y probabilidad 0.05 de ser falsa.
Ejemplo 2: Un fsico hace 16 mediciones de cierta magnitud (a determinar),
dichas mediciones X
i
seran X
i
= +
i
donde
i
son los errores de medicion.
Supongamos que los
i
son variables aleatorias independientes con dis-
tribucion N(0, 4) (dato que se conoce por experimentos anteriores).
Supongamos que el promedio de las 16 observaciones obtenidas es X
16
=
20 y consideremos el problema de encontrar un intervalo de conanza para
con nivel 0.95; luego = 0.05 y de las tablas normales se obtiene z
/2
=
z
0.025
= 1.96.
Luego el intervalo de conanza sera:
_
20
1.96
16
, 20 +
1.96
16
_
= [19.02 , 20.98],
y su longitud es 1.96.
Supongamos ahora que se quiere conocer cual debera ser el n umero de
observaciones para que el intervalo sea de longitud 0.1. Entonces
0.1 = 1.96
2
n
o sea

n = 1.96
2
0.1
= 39.2
de donde, n = (39.2)
2
= 1536.64. Por lo tanto, se necesitan 1537 observa-
ciones para obtener un intervalo con la longitud deseada.
5.2 Procedimientos generales para obtener regio-
nes de conanza
Teorema 1: Sea X un vector aleatorio cuya distribucion pertenece a la
familia F(x, ), , y sea U = G(X, ) una variable aleatoria cuya
distribucion es independiente de . Sean A y B tales que P(A U B) =
1. Luego, si se dene S(X) = { : A G(X, ) B}, se tiene que S(X)
es una region de conanza a nivel (1 ) para .
Demostraci
on:
P
( S(X)) = P
(A G(X, ) B) =
= P
(A U B) = P(A U B) = 1
la pen ultima igualdad es valida pues la distribucion de U es independiente
de .
Cabe preguntarse bajo que condiciones S(X) es un intervalo, en el caso en
que es unidimensional. Notemos que, en ese caso, si G(X, ) es monotona
como funcion de , para cada valor de X dado, entonces
h
X
() = G(X, )
tiene inversa.
Supongamos h
X
() creciente, resulta entonces
S(X) = { : h
1
X
(A) h
1
X
(B)}
es decir, S(X) es un intervalo.
Si h
X
() es decreciente, resultara en forma analoga,
S(X) = { : h
1
X
(B) h
1
X
(A)}
Nota: En el Ejemplo 1, consideramos U =

n(X
n
)/
0
y vimos que
esta variable aleatoria tiene distribucion N(0, 1), o sea, independiente de .
En ese ejemplo tomamos A = z
/2
y B = z
/2
. Tambien podramos haber
tomado A = z
y B = z
donde y son arbitrarios tales que + = .

El hecho de tomar = = /2 se debe a que de esta forma se obtiene el
intervalo mas peque no posible (Ver problema 1 de 5.1).
Veamos que el procedimiento que hemos usado en dicho ejemplo es el
que se deduce del Teorema 1.
De acuerdo al Teorema 1,
S(X) = { : z
2
G(X, ) z
2
} =
=
_
: z
n(X
n
)
0
z
2
_
=
=
_
: z
n
+X
n
X
n
+z
n
_
.
Vamos a tratar de usar un procedimiento similar para el caso de tener una
muestra X
1
, X
2
, . . . , X
n
de una distribucion N(,
2
) donde ahora tambien
2
es desconocido. En este caso, parece natural reemplazar
2
por un esti-
mador del mismo. Sabemos que el estimador IMVU para
2
es
s
2
=
1
n 1
n
i=1
(X
i
X)
2
,
y luego podramos denir
U =
n(X )
s
(5.1)
Para poder aplicar el metodo que nos proporciona el Teorema 1, debemos
demostrar que U tiene una distribucion que no depende de y
2
y, ademas,
debemos conocer esa distribucion. Esto se hara en el siguiente Teorema.
Teorema 2: Sea X
1
, ..., X
n
N(,
2
). Luego
(i) V =

n(X ) tiene distibucion N(0, 1)
(ii) W =
n
i=1
(X
i
X)
2
/
2
tiene distribucion
2
con n-1 grados de liber-
tad
(iii) V y W son independientes
(iv) U dado por (5.1) tiene distribucion T
n1
, de Student con n1 grados
de libertad.
Demostraci
on: Sea Y
i
= (X
i
)/, 1 i n. Luego estas variables
forman una muestra aleatoria de una distribucion N(0, 1). Ademas, es facil
vericar que
V =

n Y , W =
n
i=1
Y
2
i
, U =
V
_
W/(n 1)
, (5.2)
Sea a
1
el vector la n-dimensional con todas sus componentes iguales a
1/
n. Como a
1
= 1, se puede completar una base ortonormal a
1
, . . . , a
n
.
Sea A la matriz de n n cuyas las son a
1
,...a
n
. Como las las de A son
ortogonales y de norma 1, la matriz A resulta ortogonal. Consideremos
la transformacion Z = AY, donde Y = (Y
1
, ..., Y
n
)
y Z = (Z
1
, ..., Z
n
)
.
Luego, por una propiedad de los vectores normales respecto de transforma-
ciones ortogonales, las variables Z
1
, ..., Z
n
son tambien independientes con
distribucion N(0, 1). Por otro lado, resulta
Z
1
=
n
i=1
Y
i
n
=

n Y = V (5.3)
y el punto (i) queda demostrado.
Ademas, se tiene que:
n
i=1
(Y
i
Y )
2
=
n
i=1
Y
2
i
nY
2
=
n
i=1
Y
2
i
Z
2
1
. (5.4)
Como A es ortogonal se deduce que
n
i=1
Z
2
i
=
n
i=1
Y
2
i
,
y usando (5.2) y (5.4) obtenemos
W =
n
i=2
Z
2
i
,
y por lo tanto queda demostrado (ii).
Como V depende de Z
1
y W de Z
2
, ..., Z
n
tambien queda demostrado
(iii).
Finalmente, (iv) se deduce de los puntos (i), (ii), (iii) del Teorema y de
(5.2).
Estamos ahora en condiciones de encontrar intervalos de conanza para
la media, en el caso de una muestra aleatoria con media y varianza descono-
cidas.
Denamos t
n,
por la ecuacion
P(U > t
n,
) =
donde U es una variable aleatoria T
n
. Luego, analogamente al caso normal,
se tiene:
P(t
n,
2
U t
n,
2
) = 1
Teorema 3: Sea X
1
, X
2
, . . . , X
n
una muestra aleatoria cuya distribucion
pertenece a la familia N(,
2
) con y
2
desconocidos. Luego si
X =
n
i=1
X
i
n
y s
2
=
n
i=1
(X
i
X)
2
n 1
se tiene que un intervalo de conanza con nivel (1) para esta dado por:
_
X t
n1,
2
s
n
, X +t
n1,
2
s
n
_
Demostraci
on: Por el Teorema 2 se tiene que U =

n(X )/s tiene
distribucion T
n1
y luego
P(t
n1,
2
U t
n1,
2
) = 1 .
Luego, por el Teorema 1
_
: t
n1,
X
s
n t
n1,
2
_
es una region de conanza para con nivel 1 . Pero esta region es
equivalente a
_
: X t
n1,
2
s
n
X +t
n1,
2
s
n
_
.
En el proximo Teorema encontraremos intervalos de conanza para la
varianza, en el caso de una muestra normal, con media conocida o no.
Denamos
2
n,
por la ecuacion
P(U >
2
n,
) =
donde U es una variable aleatoria con distribucion
2
n
.
Teorema 4: Sea X
1
, . . . , X
n
una muestra aleatoria cuya distribucion pertenece
a la familia N(,
2
). Sean y tales que + =
(i) Si es conocido, un intervalo de conanza de nivel 1 para
2
esta
dado por:
_
n
i=1
(X
i
)
2
2
n,

2
n
i=1
(X
i
)
2
2
n,1
_
(ii) Si es desconocido, un intervalo de conanza de nivel 1 para
2
esta dado por:
_
n
i=1
(X
i
X)
2
2
n1,

2
n
i=1
(X
i
X)
2
2
n1,1
_
Demostraci
on: (i) Sea W =

n
i=1
(X
i
)
2
/
2
. Como las variables Y
i
=
(X
i
)/ son independientes, con distribucion N(0, 1) y W =

n
i=1
Y
2
i
entonces W tiene distribucion
2
n
. Luego:
P(
2
n,1
W
2
n,
) = P(W
2
n,1
) P(W >
2
n,
) =
= 1 = 1
Entonces, una region de conanza a nivel 1 esta dada por
_
2
:
2
n,1

n
i=1
(X
i
)
2
2

2
n,
_
=
=
_
2
:
1
2
n,
n
i=1
(X
i
)
2
2

1
2
n,1
_
y esto es equivalente a la region denida en (i).
(ii) Denamos ahora
W =
n
i=1
(X
i
X)
2
2
Sabemos por el Teorema 2 (ii) que W tiene distribucion
2
n1
. Por lo tanto:
P(
2
n1,1
W
2
n1,
) = 1
Entonces, una region de conanza de nivel 1 esta dada por:
_
2
:
2
n1,1

n
i=1
(X
i
X)
2
2

2
n1,
_
=
_
2
:
1
2
n1,
n
i=1
(X
i
X)
2

1
2
n1,1
_
=
_
2
:
n
i=1
(X
i
X)
2
2
n1,

2
n
i=1
(X
i
X)
2
2
n1,1
_
.
5.3. PROCEDIMIENTOS EN DOS PASOS PARA ENCONTRAR... 9
5.3 Procedimiento en dos pasos para encontrar un
intervalo de longitud prejada para la media
de una N(,
2
), y desconocidos
Volvamos a considerar el intervalo de conanza para cuando
2
es desco-
nocido, en el caso de una muestra con distribucion N(,
2
). La longitud de
dicho intervalo, L(X
1
, . . . , X
n
), esta dada por
L(X
1
, . . . , X
n
) = 2t
n1,
2
s
n
Como se ve, este intervalo tiene longitud variable, ya que depende de s,
que es una variable aleatoria dependiente de los valores que toma la mues-
tra. Luego, es imposible calcular n de modo que la longitud del intervalo
sea igual a un n umero prejado. Esto es comprensible, ya que logicamente
cuanto mas grande sea la varianza, mas grande debe ser la muestra necesaria
para obtener la misma precision en la estimacion de . Como
2
no es cono-
cida, no se podra asegurar con una muestra de tama no jo una determinada
precision, es decir, una determinada longitud del intervalo. Una manera de
solucionar este problema es tomando dos muestras, una inicial para estimar
2
, y en base a esta estimacion, determinar el tama no de otra muestra com-
plementaria que nos permita obtener un intervalo con la longitud deseada.
Seguidamente describimos el metodo. Supongamos que se quiera obtener
un intervalo de conanza de longitud L para la media , de una poblacion
normal con media y varianza desconocida. Se toma una muestra inicial de
tama no m : X
1
, . . . , X
m
. Este valor m inicial, puede ser cualquier valor
mayor que dos. A partir de este valor inicial estimamos
2
por:
s
2
m
=
1
m1
m
i=1
(X
i
X
m
)
2
donde X
m
=
1
m
m
i=1
X
i
Luego, la muestra complementaria se debe tomar de tama no n donde n
satisface
2t
m1,
2
s
m
m+n
L (5.5)
Sea X
m+1
, . . . , X
m+n
la muestra complementaria y
X
m+n
=
1
m+n
m+n
i=1
X
i
El intervalo de conanza de nivel 1 estara dado por:
_
X
m+n
t
m1,
2
s
m
m+n
, X
m+n
+t
m1,
2
s
m
m+n
_
(5.6)
Este intervalo tiene longitud 2t
m1,
2
s
m
/
m+n que por (5.5) es menor o

igual que L.
El siguiente Teorema muestra que el intervalo dado por (5.6) es un in-
tervalo de conanza para de nivel 1 .
Teorema 5: Sean X
1
, ...X
n
variables aleatorias independientes con dis-
tribucion N(,
2
), donde n se elige satisfaciendo (5.5). Luego el intervalo
dado por (5.6) es un intervalo de conanza de nivel 1- de longitud menor
o igual que L.
Demostraci
on: Comencemos por mostrar las siguientes proposiciones:

(i) W = (m1)s
2
m
/
2
tiene distribucion
2
m1
(ii) V =

m+n(X
m+n
)/ tiene distribucion N(0, 1)
(iii) V y W son independientes
(iv)

m+n(X
m+n
)/s
m
tiene distribucion T
m1
En el Teorema 2 ya ha sido probado (i).
Podra parecer que (ii) fue demostrada en el mismo Teorema. Sin em-
bargo, esto es no es cierto ya que lo que se demostro es que el prome-
dio normalizado de observaciones N(,
2
) tiene distribucion N(0, 1), para
un tama no de muestra jo. En nuestro caso, n es un n umero aleatorio,
ya que depende del valor s
m
, obtenido con las primeras m observaciones.
Comencemos obteniendo la funcion de distribucion conjunta de V y W,
F
V W
(v, w) = P(V v, W w).
Llamemos A
i
al evento {n = i}. Los sucesos A
i
son obviamente disjuntos y
ademas

i=1
A
i
= , donde es el espacio muestral.
Dado un evento cualquiera A, se tiene
A =
_
i=1
(A A
i
)
P(A) =
i=1
P(A A
i
),
5.3. PROCEDIMIENTOS EN DOS PASOS PARA ENCONTRAR... 11
y por lo tanto,
F
V W
(v, w) = P(V v, W w) =
i=0
P(V v , W w, n = i)
=
i=0
P(
m+i
(X
m+i
)
v , W w, n = i) .
En virtud del Teorema 2, se tiene que

m
j=1
X
j
es independiente de s
m
y
por otra parte, cada X
j
con j > m tambien es independiente de s
m
. Por
lo tanto, como X
m+i
= (1/(m + i))(
m
j=1
X
j
+
m+i
j=m+1
X
j
) se deduce que
X
m+i
es independiente de s
m
.
Por otro lado, de acuerdo con su denicion, n depende solo de s
m
. Luego,
el suceso
{
m+i
(X
m+i
)
v}
es independiente de {W w} {n = i} y por lo tanto,
F
V W
(v, w) =
i=1
P(
m+i
(X
m+i
)
v)P(W w, n = i) .
Pero, por el Teorema 2, para cada i jo

m+i(X
m+i
)/ tiene dis-
tribucion N(0, 1). Luego si (v) es la funcion de distribucion de una variable
N(0, 1), se tendra
F
V W
(v, w) =
i=1
(v)P(W w, n = i)
= (v)
i=0
P(W w, n = i) .
Pero

i=1
P(W w, n = i) = P(W w) = F
W
(w). Por lo tanto, se tiene
F
V W
(v, w) = (v)F
W
(w) (5.7)
y como
F
V
(v) = lim
w
F
V W
(v, w) = (v) lim
w
F
W
(w) = (v) ,
hemos demostrado (ii).
Para demostrar (iii) reemplacemos en (5.7) (v) por F
V
(v) y obtenemos
F
V W
(v, w) = F
V
(v)F
W
(w)
lo que implica que V y W son independientes.
(iv) se deduce inmediatamente de (i), (ii) y (iii), teniendo en cuenta que
m+n(X
m+n
)
s
m
=
m+n(X
m+n
)/
((m1)s
2
m
/(m1)
2
)
1/2
Llamemos U a esta ultima variable, de acuerdo a (iv) se tiene que U tiene
distribucion independiente de y
2
y ademas
P(t
m1,
2
U t
m1,
2
) = 1
Luego, de acuerdo con el metodo general para obtener regiones de conanza,
se tendra que una region de conanza para de nivel (1 ) estara dada
por:
_
: t
m1,
m+n(X
m+n
)
s
m
t
m1,
2
_
=
_
: X
m+n
t
m1,
2
s
m
m+n
X
m+n
+t
m1,
2
s
m
m+n
_
.
Nota: El tama no de la muestra inicial, m, puede ser, en principio, cualquiera
con la condicion de que sea mayor que dos. El valor mas conveniente a
usar dependera del conocimiento previo que se tenga sobre
2
. Si m es
muy peque no, la estimacion de
2
sera poco conable y habra que tomar
una segunda muestra grande, con lo cual aumentara el costo. Si se toma
muy grande, es probable que se tomen mas observaciones que las necesarias.
Lo ideal sera elegir m cerca del n umero total de observaciones que seran
necesarias si se conociera
2
.
5.4 Intervalos de conanza para diferencia de me-
dias de una distribucion normal
5.4.1 Muestras independientes
Supongamos primero que se tienen dos muestras aleatorias X
1
, . . . , X
n
1
y
Y
1
, . . . , Y
n
2
independientes entre s, de distribuciones N(
1
,
2
) y N(
2
,
2
)
5.4. INTERVALOS DE CONFIANZA PARA DIFERENCIA... 13
respectivamente con
1
,
2
y
2
desconocidos, y se desea encontrar un in-
tervalo de conanza para =
1

2
. Observemos que

= Y X es un
estimador insesgado de . Es facil demostrar utilizando el Teorema 2 de la
seccion 3.12 que este estimador es IMVU.
La varianza de este estimador es
=
2
_
1
n
1
+
1
n
2
_
(5.8)
Por lo tanto,
U =

=
_
n
1
n
2
n
1
+n
2
X Y (
1

2
)
(5.9)
tiene distribucion N(0,1).
Como es desconocido, no podemos utilizar U para encontrar un inter-
valo de conanza para . La solucion a este problema es reemplazar por
un estimador. Un estimador insesgado de
2
es
s
2
=
1
n
1
+n
2
2
_
n
1
i=1
(X
i
X)
2
+
n
2
i=1
(Y
i
Y )
2
_
Para demostrar que s
2
es insesgado basta recordar que de acuerdo a lo
visto en el Captulo 3 se tiene
E(
n
1
i=1
(X
i
X)
2
) = (n
1
1)
2
y
E(
n
2
i=1
(Y
i
Y )
2
) = (n
2
1)
2
.
Tambien del Teorema 2 de la Seccion 3.12 se puede deducir que s
2
es
IMVU. Luego, denimos el estadstico T reemplazando en U el parametro
por el estimador s, es decir,
T =

=
_
n
1
n
2
n
1
+n
2
X Y (
1

2
)
s
(5.10)
donde

2
= s
2
_
1
n
1
+
1
n
2
_
(5.11)
El siguiente Teorema prueba que T tiene distribucion de Student con
n
1
+n
2
2 grados de libertad
Teorema 1: Sean X
1
, ..., X
n
1
y Y
1
, ..., Y
n
2
dos muestras aleatorias indepen-
dientes de las distribuciones N(
1
,
2
) y N(
2
,
2
) respectivamente. Sean
V =
n
1
i=1
(X
i
X)
2
2
W =
n
2
i=1
(Y
i
Y )
2
2
Luego
(i) U denida en (5.9), V y W son variables aleatorias independientes con
distribuciones N(0, 1),
2
n
1
1
y
2
n
2
1
respectivamente.
(ii) La variable
Z = V +W
tiene distribucion
2
n
1
+n
2
2
.
(iii) La variable T denida en (5.10) tiene distribucion T
n
1
+n
2
2
.
(iv) El intervalo
_
t
n
1
+n
2
2,
,

+t
n
1
+n
2
2,
_
es un intervalo de conanza a nivel 1 para =
1

2
.
Demostraci
on: Ya hemos demostrado que U tiene distribucion N(0, 1).

Por otra parte, en el Teorema 2 de la Seccion 5.2, se demostro la indepen-
dencia entre X y V y entre Y y W. Como ademas resulta X independiente de
W (la primera depende de X
1
, . . . , X
n
1
y la segunda de Y
1
, . . . , Y
n
2
) y Y inde-
pendiente de V , resulta U independiente de V y W. En el mismo Teorema se
demostro que V y W tienen distribuciones
2
n
1
1
y
2
n
2
1
, respectivamente.
Resulta entonces claro que V y W son tambien independientes.
Para demostrar (ii) basta utilizar el hecho de que suma de variables
2
independientes tiene tambien distribucion
2
con n umero de grados de
libertad igual a la suma de los grados de libertad de los sumandos.
El resultado (iii) resulta inmediato de los puntos (i) y (ii). El resultado
(iv) resulta de aplicar (ii) y el Teorema 1 de la Seccion 5.2.
En el caso mas simple en que
2
sea conocido, se puede tambien encontrar
facilmente un intervalo de conanza para utilizando el estadstico U.
Si X
1
, . . . , X
n
1
y Y
1
, . . . , Y
n
2
son muestras aleatorias independientes en-
tre s de distribuciones N(
1
,
2
1
) y N(
2
,
2
2
) con
1
,
2
,
2
1
y
2
2
descono-
cidos (
2
1
=
2
2
), el problema de encontrar una region de conanza para
2
con nivel exacto 1 no tiene una solucion totalmente satisfactoria.
Este problema se conoce con el nombre de BehrensFisher. Sin embargo, es
posible encontrar en forma sencilla un intervalo de conanza para
1

2
de nivel asintotico 1 (ver denicion 1 y problema 7 de 5.6).
Nota 1: Si X
1
, . . . , X
n
1
y Y
1
, . . . , Y
n
2
son muestras aleatorias independientes
entre s de distribuciones N(
1
,
2
1
) y N(
2
,
2
2
) respectivamente, con
1
,
2
conocidos o no, entonces:
(1) Si
2
1
=
2
2
=
2
se pueden encontrar intervalos de conanza para
2
(o para ) (ver problema 1 de 5.4).
(2) Si no se puede suponer
2
1
=
2
2
es posible encontrar intervalos de
conanza para
2
2
/
2
1
(o para
2
/
1
) (ver problema 2 de 5.4).
5.4.2 Muestras apareadas
Supongamos ahora que (X
1
, Y
1
), . . . , (X
n
, Y
n
) es una muestra aleatoria de
una distribucion normal bivariada N(
1
,
2
,
2
1
,
2
2
, ) con
1
,
2
,
2
1
,
2
2
, de-
sconocidos y que se desea encontrar un intervalo de conanza para
=
1

2
.
En este caso podemos denir las variables Z
i
= X
i
Y
i
, 1 i n. Estas
variables forman una muestra de una distribucion N(,
2
Z
), con
2
Z
=
2
1
+
2
2
2
1
2
,
y por lo tanto, de acuerdo a lo visto en el Teorema 3 de la Seccion 5.2
tenemos que un intervalo de conanza de nivel 1 esta dado por
_
Z t
n1,
2
s
Z
n
, Z +t
n1,
2
s
Z
n
_
(5.12)
donde
Z =
1
n
n
i=1
Z
i
, s
2
Z
=
1
n 1
n
i=1
(Z
i
Z)
2
.
Nota 2: Muchas veces, en los casos reales, interesara decidir antes de tomar
la muestra, si conviene usar un dise no de muestras aleatorias independien-
tes entre s provenientes de distribuciones N(
1
,
2
), N(
2
,
2
) o muestras
apareadas provenientes de una distribucion bivariada, N(
1
,
2
,
2
,
2
, ).
Por ejemplo, si se quiere estimar la diferencia de rendimientos de dos
variedades de un cereal, uno podra preguntarse cual de los dos dise nos
siguientes proveera mas informacion sobre esta diferencia:
(i) Elegir al azar en el terreno considerado 2n parcelas de area A. En n de
ellas elegidas al azar cultivar la variedad 1 y en en los restantes cultivar
la variedad 2.
(ii) Elegir al azar n parcelas de area 2A y dividir cada una de ellas en
dos mitades de la misma area. y luego estas en dos mitades. En cada
mitad de una parcela cultivar una variedad distinta.
En el primer caso, tendramos un dise no correspondiente a muestras
aleatorias normales independientes entre s. En el segundo, uno correspon-
diente a muestras apareadas que podran ser consideradas provenientes de
una normal bivariada con un cierto cociente de correlacion .
Trataremos de determinar cual de los dos dise nos es mejor, comparando
las longitudes de los intervalos de conanza respectivos. Para esto supon-
dremos que las varianzas para los rendimientos de ambos cereales son los
mismos.
Para el caso de muestras independientes tendremos n
1
= n
2
= n, y la
longitud del intervalo viene dado por
L
1
= 2t
2n2,
2
s
2
n
donde
s
2
=
1
2n 2
_
n
i=1
(X
i
X)
2
+
n
i=1
(Y
i
Y )
2
_
y para el caso de muestras para muestras apareadas
L
2
= 2t
n1,
s
2
Z
n
donde
s
2
Z
=
1
n 1
n
i=1
(Z
i
Z)
2
.
Como estas longitudes dependen de la muestra considerada, y por lo
tanto son aleatorias, consideraremos cual dise no nos provee el intervalo con
menor longitud cuadrada esperada. Es decir, compararemos las esperanzas
de los cuadrados de las longitudes. Se toman cuadrados por la unica razon
de simplicar el calculo de las esperanzas. Como s
2
y s
2
Z
son estimadores
insesgados de
2
y de
2
Z
= 2(1 )
2
, se tiene
E(L
2
1
) =
4 2
2
t
2
2n2,
2
n
y en el caso de muestras apareadas
E(L
2
2
) =
4 2
2
(1 )t
2
n1,
2
n
Luego resulta
E(L
2
2
)
E(L
2
1
)
= (1 )
t
2
n1,
2
t
2
2n2,
2
Por lo tanto sera mejor tomar muestras apareadas si
(1 )
t
2
n1,
2
t
2
2n2,
2
< 1
o sea si
> 1
t
2
2n2,
2
t
2
n1,
2
(5.13)
Se puede mostrar que t
n,
2
tiende a z
2
en forma monotona decreciente
cuando n . Luego se tendra que
= 1
t
2
2n2,
2
t
2
n1,
2
> 0
tendiendo a 0 cuando n .
Luego, para que sea mas conveniente tomar muestras apareadas es una
condicion necesaria que > 0. Para muestras grandes esta condicion es
practicamente suciente ya que se hace muy peque no.
Sea, por ejemplo, n = 20 y = 0.05, luego = 0.03. Luego basta que
> 0.03 para que el dise no apareado sea mas eciente. Para un ejemplo
practico, ver ejercicio 3 de 5.4. Por otra parte, por (5.13) resulta que en caso
de tomarse muestras apareadas convendra elegir los pares de manera que
sea lo mas grande posible.
5.5 Optimalidad de los intervalos de conanza
Sea X un vector cuya distribucion pertenece a la familia F(x, ) con
IR y sea S(X) = [a(X), b(X)] un intervalo de conanza con nivel 1 para
. Como ya lo hemos observado en 5.1, la precision de nuestra estimacion
vendra dada por la longitud del intervalo, es decir, por L(X) = b(X) a(X)
y por lo tanto, sera conveniente que esta fuese lo menor posible. Como
ya lo hemos visto, L(X) es en general una variable aleatoria; luego parece
razonable como criterio para medir la bondad de un intervalo de conanza
considerar E
(L(X)).
Luego, un intervalo de conanza con nivel 1 , [a(X), b(X)], puede ser
considerado optimo si, para todo otro intervalo de conanza de nivel 1 ,
[a
(X), b
(X)] se tiene
E
(b(X) a(X)) E
(b
(X) a
(X)) .
Sin embargo, igual que en el caso de estimacion puntual, es posible
mostrar que salvo ejemplos triviales no existen intervalos con esta propiedad.
La unica forma de encontrar intervalos optimos es restringir la clase de posi-
bles intervalos.
Una forma de restringir los posibles intervalos de conanza o en general
las regiones de conanza, es exigiendo la siguiente propiedad.
Denicion 1: Se dira que una region S(X) es insesgada si
P
( S(X)) P
S(X)) ,
.
Es decir que S(X) es insesgado si el valor verdadero tiene mayor probabi-
lidad de estar en la region que cualquier otro valor
.
Luego parece natural buscar el intervalo de conanza de menor longi-
tud entre los intervalos de conanza insesgados. Luego surge la siguiente
denicion:
Denicion 2: Se dira que un intervalo de conanza S(X) es insesgado de
mnima longitud esperada uniformemente en (IMLEU) con nivel (1 ) si
a) S(X) es insesgado y tiene nivel (1 ).
b) Sea S(X) = [a(X), b(X)]. Luego si S
(X) = [a
(X), b
(X)] es otro
intervalo insesgado de nivel 1 , se tiene
E
(b(X) a(X)) E
(b
(X) a
(X)) .
5.6. REGIONES DE CONFIANZA CON NIVEL ASINT... 19
Se puede mostrar que los intervalos obtenidos para cuando X
1
, . . . , X
n
es una muestra aleatoria de N(,
2
) para el caso de
2
conocido o desco-
nocido (en Ejemplo 1 de 5.1 y Teorema 3 de 5.2) son realmente IMLEU.
Tambien, los intervalos obtenidos para
2
cuando es conocido o descono-
cido en el Teorema 4 de 5.2 es IMLEU, si y se eligen de manera que
la longitud esperada sea mnima. Se puede mostrar que para n grande es-
tos y se aproximan a /2 (ver [3]). Los procedimientos desarrollados
en 5.4 para encontrar intervalos de conanza para las diferencias de medias
tambien son IMLEU.
El estudio detallado de la optimalidad de estos procedimientos puede
verse en Pratt [2]. Estos resultados dependen de resultados relacionados con
la teora de tests optimos que puede verse en Lehmann [1].
5.6 Regiones de conanza con nivel asintotico
(1 )
En muchos problemas estadsticos, es imposible o muy complicado encontrar
regiones de conanza con un nivel dado. En su reemplazo se pueden construir
regiones cuyo nivel sea aproximadamente el deseado, tendiendo a el a medida
que el tama no de la muestra aumenta. La siguiente denicion formaliza esta
idea.
Denicion 1: Sea X
1
, X
2
, . . . , X
n
perteneciente a la familia F(x, ), . Se dice que S
n
(X
1
, . . . , X
n
) es una
sucesion de regiones de conanza con nivel asintotico 1 si:
lim
n
P
( S
n
(X
1
, . . . , X
n
)) = 1 .
El siguiente Teorema nos da un procedimiento para construir intervalos
de conanza con nivel asintotico (1 ).
Teorema 1: Sea X
1
, . . . , X
n
perteneciente a la familia F(x, ), . Supongamos que para cada n se
tienen denidas funciones U
n
= G
n
(X
1
, . . . , X
n
, ) tales que U
n
converge a U
en distribucion, donde U es una variable aleatoria con distribucion indepen-
diente de . Sean A y B puntos de continuidad de F
U
, tales que P(A U
B) = 1. Denamos S
n
(X
1
, . . . , X
n
) = { : A G
n
(X
1
, . . . , X
n
, ) B}.
Luego, S
n
(X
1
, . . . , X
n
) es una sucesion de regiones de conanza con nivel
asintotico (1 ).
Demostraci
on:
P
( S
n
(X
1
, . . . , X
n
)) = P
(A G
n
(X
1
, . . . , X
n
, ) B)
= P
(A U
n
B)
Luego, lim
n
P
( S
n
(X
1
, . . . , X
n
)) = lim
n
P
(A U
n
B) =
P
(A U B) = P(A U B) = 1 .
Ejemplo 1: Sea X
1
, . . . , X
n
una muestra independiente de una distribucion
B
i
(, 1). Denamos:
U
n
=
n
i=1
X
i
n
_
n(1 )
Sabemos por el Teorema Central del Lmite que U
n
converge en distribucion
a una ley N(0, 1); por lo tanto, una sucesion de regiones de conanza con
nivel asintotico 1 vendra dada por:
S
n
(X
1
, . . . , X
n
) =
_
: z
n
i=1
X
i
n
_
n(1 )
z
2
_
=
_
_
_
:
_
n
i=1
X
i
n
_
n(1 )
_
2
z
2
2
_
_
_
=
_
_
_
:
_
n
i=1
X
i
_
2
+n
2
2
2n
n
i=1
X
i
z
2
2
n(1 )
_
_
_
=
_
_
_
:
2
(n
2
+nz
2
2
)
_
2n
n
i=1
X
i
+z
2
2
n
_
+
_
n
i=1
X
i
_
2
0
_
_
_
= [
1
,
2
]
donde

1
y

2
son las races de la ecuacion
2
(n
2
+nz
2
2
)
_
2n
n
i=1
X
i
+z
2
2
n
_
+
_
n
i=1
X
i
_
2
= 0
La siguiente propiedad, que daremos sin demostracion y que es equiva-
lente a la propiedad 5 de 1.8, nos permitira encontrar un intervalo de con-
anza mas sencillo para en el ejemplo anterior.
Propiedad 1: Sea X
n
una sucesion de variables aleatorias, X una variable
aleatoria y a una constante. Supongamos que X
n
X en distribucion.
5.6. REGIONES DE CONFIANZA CON NIVEL ASINT... 21
Sea ademas, una sucesion de variables aleatorias Y
n
tal que Y
n
a en
probabilidad; luego Y
n
X
n
aX en distribucion.
Volvamos ahora al Ejemplo 1. U
n
se puede escribir
U
n
=
n(X )
_
(1 )
Por otro lado, sabemos que un estimador consistente de es X. Luego
1
_
X(1 X)
1
_
(1 )
en probabilidad.
Con lo cual, usando la propiedad anterior y llamando
V
n
=
n(X )
_
X(1 X)
se tiene que V
n
N(0, 1) en distribucion.
Por lo tanto, un intervalo de conanza para de nivel 1 , viene dado
por
S
n
(X
1
, . . . , X
n
) =
_
_
_
: z
n(X )
_
X(1 X)
z
2
_
_
_
=
_
_
X z
2
_
X(1 X)
n
, X +z
2
_
X(1 X)
n
_
_
Ejemplo 2: Supongamos que se tiene una muestra aleatoria X
1
, . . . , X
n
de
una distribucion totalmente desconocida y solo se sabe que E(X
1
) = y
Var(X
1
) =
2
son nitos. Se quiere encontrar un intervalo de conanza para
con nivel asintotico 1 . Sea
U
n
=

n(X )/
Por el Teorema Central del Lmite, sabemos que U
n
N(0, 1) en dis-
tribucion.
Por otro lado,
s
2
n
=
1
n 1
n
i=1
(X
i
X)
2
es un estimador fuertemente consistente de
2
. Luego, s
n
en probabi-
lidad.
Con lo cual, utilizando la Propiedad 1, si
V
n
=

n(X )/s
n
se tendra que
V
n
Luego, un intervalo de conanza para , con nivel asintotico 1 estara
dado por
S
n
(X
1
, . . . , X
n
) =
_
: z
n(X )
s
n
z
2
_
=
_
X z
2
s
n
n
, X +z
2
s
n
n
_
.
5.7 Regiones de conanza basadas en estimadores
de maxima verosimilitud
Veamos ahora un procedimiento que nos permitira, en condiciones bastante
generales, encontrar regiones de conanza con nivel asintotico (1 ).
Sea X
1
, X
2
, . . . , X
n
una muestra aleatoria de una distribucion con densi-
dad f(x, ). Sabemos, que bajo condiciones muy generales (ver Captulo 3) el
estimador de maxima verosimilitud,EMV,
tiene distribucion asintoticamente

normal. Mas precisamente, cuando IR bajo condiciones de regularidad,
n(
n
) N(0,
1
I
1
()
) en distribucion,
donde I
1
() es el n umero de informacion de Fisher de X
1
.
Luego, si llamamos
U
n
=

n
_
I
1
() (
n
)
se tendra que
U
n
Por lo tanto, una region de conanza para de nivel asintotico 1 estara
dada por
S
n
= { : z
n
_
I
1
()(
n
) z
2
}
5.7. REGIONES DE CONFIANZA BASADAS EN EMV 23
Observese que este fue el procedimiento que se uso en el Ejemplo 1 de
(5.6)(demostrarlo).
Esta region no tiene porque ser un intervalo, y puede ser difcil de calcu-
lar. En el caso en que I
1
() sea continua, se podra obtener un intervalo de
conanza a nivel asintotico (1 ), de la siguiente forma relativamente sim-
ple: Sabemos que

n
en probabilidad, ya que el E.M.V. es consistente,
entonces si I
1
() es continua, se tiene
lim
n
I
1
(
n
) = I
1
() en probabilidad.
Si llamamos U
n
=

n
_
I
1
(
n
)(
n
), resulta que
U
n
Por lo tanto, un intervalo de conanza para de nivel de conanza asintotico
1 vendra dado por:
S
n
= { : z
n
_
I
1
(
n
)(
n
) z
2
}
=
_
_
2
_
I
1
(
n
)
n
,

n
+
z
2
_
I
1
(
n
)
n
_
_
.
La longitud de estos intervalos es
L = 2z
2
1
n
_
I
1
(
n
)
.
Luego, bajo condiciones en que vale el Teorema de consistencia del EMV se
tiene
lim
n
nL = 2z
2
1
_
I
1
()
c.t.p.
y bajo condiciones muy generales, tambien se puede mostrar que
lim
n
nE
(L) = 2z
2
1
_
I
1
()
.
Puede demostrarse que bajo condiciones muy generales, para todo intervalo
I insesgado, con nivel asintotico 1 se tendra
lim
n
nE
(L
I
) 2z
2
1
_
I
1
()
donde, L
I
indica la longitud del intervalo I. Por lo tanto, los intervalos
obtenidos a partir del estimador de maxima verosimilitud pueden consider-
arse asintoticamente insesgados de menor longitud esperada.
Para ver estas propiedades en detalle, consultar Wilks [4, pp. 374376].
Luego de la descripcion de los metodos para obtener intervalos de con-
anza a nivel asintotico, podra pensarse en los casos que es posible encon-
trarlos en lugar de los intervalos exactos. Sin embargo, la convergencia del
nivel de conanza al valor deseado depende fuertemente de la distribucion y
podra ser necesario un tama no de muestra grande para que la aproximacion
del nivel asintotico sea aceptable. En general, no se puede determinar el
tama no de muestra n para el cual la aproximacion asintotica es suciente-
mente buena usando consideraciones teoricas. En la mayora de los casos
es necesario estudiar este problema por metodos de Monte Carlo que se
estudiaran mas adelante.
5.8 Regiones de conanza simultaneas
Supongamos que se tiene un vector aleatorio X cuya distribucion pertenece
a la familia F(x, ) y que = (
1
,
2
). Ocurre a veces que se tienen regiones
de conanza para
1
y
2
por separado, es decir, se tienen S
1
(X) y S
2
(X),
tales que:
P(
1
S
1
(X)) = 1 y P(
2
S
2
(X)) = 1
pero P(
1
S
1
(X),
2
S
2
(X)) 1 .
Luego, S
1
(X) S
2
(X) no es una region de conanza simultanea de nivel
(1 ) para (
1
,
2
).
Una forma de conseguir que la probabilidad simultanea de que
1
y
2
esten en S
1
(X) y S
2
(X) respectivamente, sea al menos (1 ) se obtiene
considerando regiones de conanza de nivel (1 /2) para
1
y
2
, es decir,
tales que:
P(
1
S
1
(X)) = 1

2
y P(
2
S
2
(X)) = 1

2
.
Luego, si A
c
indica el complemento del conjunto A,
P(
1
S
1
(X),
2
S
2
(X) = 1 P[(
1
S
1
(X))
c
(
2
S
2
(X))
c
] .
Como P(A B) P(A) +P(B), se deduce que
P(
1
S
1
(X),
2
S
2
(X)) 1 P(
1
/ S
1
(X)) P(
2
/ S
2
(X))
= 1

2

2
= 1 .
5.8. REGIONES DE CONFIANZA SIMULT
ANEAS 25
Es decir, tomando regiones de conanza para cada parametro de nivel 1/2
nos aseguramos un nivel simultaneo mayor o igual que 1 . Este procedi-
miento se puede generalizar inmediatamente para el caso que se requieran re-
giones simultaneas para kparametros. Bastara tomar para cada parametro
un region de nivel /k.
Ejemplo 1: Sea X
1
, . . . , X
n
N(,
2
). Hemos visto que un intervalo de conanza para de nivel 1
esta dado por:
S
1
=
_
X t
n1,
2
s
n
, X +t
n1,
2
s
n
_
,
mientras que un intervalo de conanza para
2
de nivel 1 esta dado por:
S
2
=
_
_
n
i=1
(X
i
X)
2
2
n1,
2
,
n
i=1
(X
i
X)
2
2
n1,1
2
_
_
.
Luego, si tomamos
S
1
=
_
X t
n1,
4
s
n
, X +t
n1,
4
s
n
_
,
y S
2
=
_
_
n
i=1
(X
i
X)
2
2
n1,
4
,
n
i=1
(X
i
X)
2
2
n1,1
4
_
_
S
1
S
2
es una region de conanza simultanea para (,
2
) de nivel mayor o
igual que 1 .
El inconveniente que tiene este metodo es que el nivel es mayor que el
deseado, esto ofrece mas seguridad que la deseada de que los valores de los
parametros estaran dentro de la region, pero por otra parte las regiones
resultan mas grandes que lo necesario y por lo tanto, sera mas imprecisa la
determinacion de los parametros.
Obtendremos ahora en el caso normal una region de conanza simultanea
para y
2
de nivel exactamente igual a 1 .
Sea X
1
, . . . , X
n
una muestra aleatoria de una distribucion N(,
2
). Sabe-
mos que U =

n(X )/ y V = S
2
/
2
, donde S
2
=

n
i=1
(X
i
X)
2
son
independientes con distribucion N(0, 1) y
2
n1
respectivamente. Luego, se
tendra
P
_
z
2
n(X )
z
2
,
2
n1,1
S
2
2

2
n1,
2
_
=
= P
_
z
2
n(X )
z
2
_
P
_
n1,1
S
2
2

2
n1,
2
_
= (1 )(1 ) = (1 )
2
Tomemos = 1 (1 )
1/2
, entonces (1 )
2
= (1 ); luego
S
n
=
_
(,
2
) : z
2
n(X )
z
2
,
2
n1,1
S
2
2

2
n1,
2
_
es una region de conanza simultanea para (,
2
) de nivel 1 . Para
estudiar la forma de S
n
podemos escribir
S
n
=
_
_
_
(,
2
) :
n(X )
2
z
2
2

2
,
S
2
2
n1,
2

2
S
2
2
n1,1
2
_
_
_
La condicion
n(X )
2
z
2
2
nos indica la region del plano (,
2
), por encima de la parabola
2
= n(X )
2
/z
2
2
y la condicion
S
2
2
n1,
2

2
S
2
2
n1,1
2
indica la franja horizontal comprendida entre las rectas horizontales
2
= S
2
/
2
n1,
2
y S
2
/
2
n1,1
2
.
5.9 Cotas superiores e inferiores de conanza
En los ejemplos vistos anteriormente interesaba conocer el parametro desco-
nocido con la mayor precision posible y para este proposito lo mas adecuado
era construir intervalos de conanza de longitud tan peque na como era posi-
ble. En esta seccion, estudiaremos otro tipo de regiones de conanza que
surgen naturalmente cuando se esta interesado en conocer una cota superior
o inferior del parametro.
Consideremos el siguiente ejemplo. En el Departamento de Control de un
laboratorio se recibe un frasco con cierta droga que puede contener alguna
impureza indeseada.
5.9. COTAS SUPERIORES E INFERIORES DE CONFIANZA 27
Supongamos que se hagan n mediciones de la concentracion de la im-
pureza, las que estan afectadas de un error, luego se observan X
1
, . . . , X
n
donde
X
i
= +
i
, 1 i n
donde es el valor verdadero de la concentracion de la impureza y los
i
son variables aleatorias N(0,
2
) independientes. Luego X
1
, . . . , X
n
es una
muestra de una distribucion N(,
2
).
En este caso, solo se estara interesado en determinar si la droga es acep-
table o no, y para esto mas que un intervalo de conanza interesara tener
una cota superior (X), (X = (X
1
, . . . , X
n
)) tal que la probabilidad de que
(X
1
, . . . , X
n
) sea alta. De esta manera se tendra acotada con proba-
bilidad grande la concentracion de impureza de la droga.
Esto sugiere la siguiente denicion.
Denicion 1: Sea X un vector cuya distribucion pertenece a la familia
F(x, ), donde IR. Se dira que (X) es una cota superior de
conanza con nivel de conanza (1 ) para si P((X) ) = 1 o
sea si (, (X)] es una region de conanza de nivel 1 . A este tipo de
region de conanza semirrecta izquierda se denomina tambien intervalo de
conanza unilateral izquierdo con nivel 1 .
Denicion 2: Sea X un vector cuya distribucion pertenece a la familia
F(x, ) con IR. Se dira que (X) es una cota inferior de conanza
con nivel de conanza 1 si P((X) ) = 1, o sea si [(X), ) es una
region de conanza de nivel 1 . A este tipo de region la denominaremos
intervalo de conanza unilateral derecho.
El siguiente Teorema nos da un procedimiento general para obtener cotas
superiores e inferiores de conanza con nivel 1 .
Teorema. Sea Xun vector aleatorio cuya distribucion pertenece a la familia
F(x, ) con IR. Sea G(x, ) una funcion estrictamente monotona en
y tal que U = G(X, ) tiene distribucion independiente de . Consideremos
A y B tales que P(U A) = y P(U B) = .
(a) Si G(x, ) es creciente y continua en , las cotas superiores e inferior
con nivel de conanza 1 vienen dadas respectivamente por las
soluciones a las siguientes ecuaciones
G(X, (X)) = B y G(X, (X)) = A .
(b) Si G(X, ) es decreciente y continua en cambio (X) y (X) vienen
dadas respectivamente por
G(X, (X)) = A y G(X, (X)) = B .
Demostraci
on: La haremos solo para el caso que G(x, ) es creciente en

y para la cota superior. En este caso (X) esta denida por
G(X, (X)) = B .
Luego,
P
( (X)) = P
(G(X, ) G(X, (X)))

= P
(G(X, ) B) = P(U B) = 1 .
Ejemplo 1: Supongamos que como en el ejemplo de la droga, donde se
quera medir la concentracion de impureza, X = (X
1
, . . . , X
n
) es una muestra
aleatoria de una distribucion N(,
2
) y supongamos que
2
sea conocido.
Luego,
U = G(X, ) =
n(X )
tiene distribucion N(0, 1). Por lo tanto, en este caso A = z
y B = z
.
Luego, como G(x, ) es decreciente en se tendra que las cotas superiores
e inferiores de conanza de nivel de conanza 1 se obtendran de la
siguiente forma.
Sean (X) y (X)) denidas por
n(X (X))
= z
n(X (X))
= z
es decir, despejando se obtiene

(X) = X +z
n
(X) = X z
n
Ejemplo 2: Sea X
1
, . . . , X
n
N(,
2
) y supongamos
2
desconocido; luego sabemos que
U = G(X, ) =
n(X )
s
5.9. COTAS SUPERIORES E INFERIORES DE CONFIANZA 29
n1
.
Luego, procediendo como en el Ejemplo 1, obtendremos como cota supe-
rior e inferior de conanza con nivel 1
(X) = X +t
n1,
2
s
n
, y (X) = X t
n1,
2
s
n
5.9.1 Comparacion de cotas superiores e inferiores de con-
anza
As como en el caso de intervalos de conanza interesaba que tuviesen longi-
tud lo mas corta posible, cabe preguntarse como sera deseable que fuesen las
cotas superiores e inferiores. Planteado de otra manera, dadas por ejemplo
dos cotas superiores
1
(X) y
2
(X), existe alg un criterio para compararlas
y concluir por ejemplo que una es mas conveniente que otra? Analogamente
en el caso de cotas inferiores.
Como en el caso de cota superior se tiene controlada la posibilidad que
(X) este por debajo de , ya que esto solo puede suceder con probabilidad
, el riesgo no controlado es que (X) sobreval ue muy por encima de lo
necesario. Esta sobrevaluacion que la llamaremos C(X, ) estara dada por
C(X, ) =
_
(X) si (X) >
0 si (X)
Luego parece razonable buscar cotas superiores que minimicen E
(C(X, ))
uniformemente en .
Del mismo modo en el caso de cotas inferiores, se puede denir la sub-
valuacion por
D(X, ) =
_
(X) si > (X)
0 si (X)
y en este caso interesara minimizar E
(D(X, )) uniformemente en .
La teora de la optimalidad de las cotas de conanza se deriva de la teora
de optimalidad de los tests y por lo tanto se pospone hasta el Captulo 6.
Solamente diremos que contrariamente a lo que suceda con intervalos de
conanza, existen en casos no triviales cotas uniformemente optimas. Por
ejemplo, los procedimientos derivados en el Ejemplo 1 tienen esta propiedad.
En el caso del Ejemplo 2, no existen procedimientos uniformemente optimos.
De todos modos los procedimientos derivados en ese ejemplo son uniforme-
mente optimos si se restringe al conjunto de procedimientos insesgados. (Una
cota es insesgada si su intervalo de conanza unilateral asociado es una region
de conanza insesgada.)
REFERENCIAS
1. Lehmann, E.L. (1994) Testing Statistical Hypothesis. Chapman and
Hall.
2. Pratt, E. (1961) Length of Condence Intervals, J. Amer. Statist.
Assoc. 16: 243258.
3. Tate, R.F. y Klett, G.W. (1959) Optimal Condence Intervals for the
variance of a Normal Distribution, J. Amer. Statist. Assoc. 54: 674
682.
4. Wilks, S.S. (1962) Mathematical Statistics, J. Wiley and Sons.
Chapter 6
Tests de Hipotesis
6.1 Introduccion
El test de hipotesis es una manera formal de decidir entre dos opciones, o
sea, es una manera de distinguir entre distribuciones de probabilidad en base
a variables aleatorias generadas por una de ellas. Veamos un ejemplo para
tener una idea de lo que signican.
Ejemplo 1. Supongamos que un comerciante debe comprar un carga-
mento de N manzanas. El comerciante ignora que parte del cargamento no
se encuentra en buen estado. Como inspeccionar todo el cargamento es muy
costoso, decide elegir al azar una muestra de n manzanas.
Sea X el n umero de manzanas en mal estado que observa en la muestra.
Luego si D es el n umero de manzanas en mal estado que hay en el carga-
mento, se tiene que la distribucion de X es hipergeometrica y su funcion de
probabilidad puntual esta dada por
p(x, D) =
_
D
x
__
N D
n x
_
_
N
n
_
si max(0, D N +n) x min(n, D)
y D puede tomar valores en el conjunto = {0, 1, 2, . . . , N}.
Supongamos que se hubiese convenido que el cargamento debera tener
no mas de D
0
manzanas en mal estado. Luego, en base a la variable X, que
el comerciante observa, debe decidir si el cargamento satisface los requisitos
1
2 CHAPTER 6. TESTS DE HIP
OTESIS
convenidos. Es decir, debe decidir entre dos alternativas
D
1
= {0, 1, . . . , D
0
} o D
2
= {D
0
+ 1, . . . , N}
Esto puede ser expresado como que el comerciante debe decidir entre dos
hipotesis:
H : D
1
contra K : D
2
y esta decision debe hacerla a partir del valor observado X.
Un test sera una regla de decision basada en X. Esto puede ser expresado
matematicamente como una funcion (X) que toma dos valores: 1 y 0. 1
signicara que rechaza H y por lo tanto acepta K y 0 que acepta H.
Supongamos por ejemplo que N = 1000, n = 100 y D
0
= 150. Un posible
test esta dado por:
1
(X) =
_
1 si X > 15
0 si X 15 .
De acuerdo con este test se rechaza el cargamento, es decir, se decide que
D
2
si se observa en la muestra mas de 15 manzanas en mal estado. Si
se quisiera usar un test mas seguro para el comprador (en el sentido de que
la probabilidad de aceptar un cargamento con mas de 150 manzanas en mal
estado sea menor) se podra usar, por ejemplo,
2
(X) =
_
1 si X > 5
0 si X 5 .
Por ahora, no tenemos ning un criterio para elegir entre dos tests, ni entre
los muchos otros que podran denirse. En los parrafos siguientes atacaremos
el problema de denir criterios para comparar diferentes tests, y el de elegir
un test optimo.
Ejemplo 2. Supongamos que para curar una determinada enfermedad se
emplea una droga que cura la enfermedad con una probabilidad
0
conocida.
Se ha obtenido una nueva droga y se quiere determinar si vale la pena cambiar
la droga. Para ello se prueba la nueva droga con n pacientes obteniendose
los resultados X
1
, . . . , X
n
, donde X
i
= 1 indica que el iesimo paciente se
curo y X
i
= 0, que no se curo. Sea la probabilidad de curar de la nueva
droga, la cual no es conocida.
6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 3
Se esta dispuesto a cambiar de droga si la nueva droga es tal que
0
+ 0.05, es decir si esta ultima cura al menos un 5% mas de pacientes que
la vieja. Luego, se tiene que decidir entre dos hipotesis:
H :
0
+ 0.05 y K : >
0
+ 0.05
Un test sera una funcion (X
1
, . . . , X
n
) que toma valores 1 o 0.
(X
1
, . . . , X
n
) = 0 indicara que aceptamos H, es decir, no se contin ua usando
la droga vieja.
Para ejemplicar, supongamos que
0
= 0.8 y n = 100. Un posible test
sera
(X
1
, . . . , X
n
) =
_
_
1 si

100
i=1
X
i
85
0 si

100
i=1
X
i
< 85 .
Este test acepta K, es decir, cambia de droga si 85 pacientes o mas
resultan curados.
Si se quisiera ser mas conservador, es decir, estar mas seguro que la droga
tiene la probabilidad de curar mayor que 0.85 antes de tomar la decision de
cambiarla, se podra usar el test
(X
1
, . . . , X
n
) =
_
_
1 si

100
i=1
X
i
90
0 si

100
i=1
X
i
< 90 .
6.2 Formulacion general del problema del test de
hipotesis
Supongamos que se obtiene un vector aleatorio X = (X
1
, ..., X
n
) cuya funcion
de distribucion pertenece a la familia F(x, ) con IR
p
. Sean
1
y
2
tales que
1

2
= y
1

2
= . Un test para este problema sera
una regla basada en X para decidir entre las dos hipotesis
H :
1
contra K :
2
Denicion 1. Se llama test a una funcion : IR
n
[0, 1].
Se dice que un test es no aleatorizado si toma solamente los valores 0
o 1.
OTESIS
Cuando (X) = 1 se rechazara la hipotesis H y por lo tanto, se aceptara
K. En cambio, (X) = 0 indicara que se acepta H.
Si el test toma valores distintos de 0 y 1 se dice que es un test aleatorizado.
En este caso, el valor (x) indica con que probabilidad se rechaza H si se
observa X = x, es decir, (x) = P(rechazar H|X = x)
Por ejemplo, (X) = 1/2 indicara que si observamos el vector X debemos
rechazar H con probabilidad 1/2, es decir, podramos tirar una moneda y si
saliera ceca aceptarla, (X) = 1/6 indicara que si observamos X debemos
rechazar H con probabilidad 1/6; en este caso podramos tirar un dado; si
saliese 1 rechazaramos H y en los demas casos la aceptaramos.
La aleatorizacion introduce en la decision un elemento extra no al fenome-
no estudiado, como el lanzamiento de una moneda o un dado, con que hemos
ejemplicado. Por lo tanto, se evitan en lo posible los tests aleatorizados en
los casos practicos. Sin embargo, desde el punto de vista teorico, conviene
como se vera, admitir la posibilidad de tests aleatorizados.
En la mayora de las situaciones, los tests vienen dados como funciones
de un estadstico, llamado estadstico del test, que, por ejemplo, como en el
caso de la seccion anterior, sirven para rechazar H para valores grandes. En
general, el estadstico del test sirve para medir la diferencia entre los datos
y lo que se espera de ellos bajo H.
Denicion 2. La region crtica R, de un test , es el conjunto de puntos
X que llevan a la decision de rechazar H y la region de aceptacion A es el
conjunto de puntos X que llevan a aceptar H.
Dado un test para un problema de test de hipotesis se podra incurrir en
dos tipos de error.
Denicion 3. Se llamara error de tipo 1 al que se comete al rechazar la
hipotesis H, cuando es verdadera. Se llamara error de tipo 2 al que se comete
al aceptar H, cuando esta hipotesis es falsa.
Luego, para un test no aleatorizado, la probabilidad de cometer un error
de tipo 1 sera P
(R), cuando
1
. Mientras que la probabilidad de error
de tipo 2, sera P
(A) = 1 P
(R), cuando
2
.
Ejemplo 1 (donde se visualiza la necesidad de introducir tests aleator-
izados). Supongamos que una empresa automotriz sostiene que domina la
mitad del mercado, esto es que la mitad de los compradores de automoviles
se deciden por alguno de los modelos fabricados por ella. Se desea testear si
la armacion hecha por la empresa es exagerada o no.
Supongamos que se toma una muestra de compradores que, para facilidad
en los c alculos, consideraremos de tama no n = 6.
Las hipotesis en cuestion son:
H : = 1/2 contra K : < 1/2
donde es la probabilidad de que un comprador tomado al azar compre un
automovil de la empresa.
Consideremos para cada comprador i, la variable X
i
tal que X
i
= 1 si el
comprador se decide por un auto fabricado por la empresa; X
i
= 0 en caso
contrario. Luego, cada X
i
tendra distribucion Bi(, 1).
Supongamos tambien que se quiere tener una probabilidad de error de
tipo 1 de 0.25, es decir que la probabilidad de rechazar H cuando es verdadera
es del 25%.
Parecera intuitivo considerar un test de la forma
k
(X) =
_
1 si X < k
0 si X k
Consideremos los test
2
y
3
. Veamos que ninguno de ellos satisface la
exigencia planteada para el error de tipo 1.
Suponiendo que las decisiones de los compradores son independientes
entre s, T =

6
i=1
X
i
, tiene distribucion Bi(, 6).
Calculemos la probabilidad de error de tipo 1 para ambos tests. Para
ello usaremos la tabla de la distribucion Bi(6, 1/2).
t 0 1 2 3 4 5 6
P1
2
(T = t) 1/64 6/64 15/64 20/64 15/64 6/64 1/64
Por lo tanto,
P1
2
(
2
= 1) = P1
2
(T < 2) = 7/64 < 0.25
y
P1
2
(
3
= 1) = P1
2
(T < 3) = 22/64 > 0.25
Resulta claro entonces que no podremos elegir un test en la familia de
tests no aleatorizados
k
con un error de tipo 1 igual a 0.25.
OTESIS
Tendra sentido, en esta situacion, plantearse un test de la forma
(X) =
_
_
1 si T < 2
si T = 2
0 si T > 2
y tratar de elegir de forma tal que tenga el error de tipo I deseado. Para
eso se requiere
P1
2
((X) = 1) = P1
2
(T < 2) + P1
2
(T = 2) = 0.25 .
Luego, se debera cumplir
7
64
+
15
64
= 0.25,
o sea = 3/5.
Una forma de efectivizar el test, en este caso, podra ser la siguiente.
Cuando se observa que T < 2, se rechaza H; cuando se observa que T > 2,
se acepta H; cuando se observa T = 2 se colocan en una urna tres bolillas
rojas y dos bolillas negras y se extrae una al azar; si resulta roja se rechaza
H y si no se acepta.
Notemos que si en lugar de pedir que la probabilidad de error de tipo 1
sea 0.25 hubiesemos pedido que fuera 0.10; el test hubiera resultado de la
forma
(X) =
_
_
1 si T < 1
0.9 si T = 1
0 si T > 1
O sea, cuanto mas exigentes somos respecto del error de tipo 1, mas estricta
es la cota dada para el estadstico del test.
Debemos destacar que en este ejemplo, y en los anteriores, el test se
basa en un estadstico cuya distribucion es conocida cuando H es cierta.
Conocer esa distribucion hace posible denir la region de rechazo que tendra
probabilidad prejada bajo H. El valor elegido como cota o punto de corte,
para tomar la decision, se llama valor crtico y por lo tanto, separa la region
de aceptacion de la region de rechazo.
Volvamos al problema general de test de hipotesis planteado al comienzo
de esta seccion. Sea H :
1
y K :
2
; sea (X) un test para estas
dos hipotesis. Entonces
Denicion 4. Se llama funci on de potencia del test (X) a la funcion
() = P
(rechazar H),
donde P
indica la probabilidad cuando es el valor verdadero.

En el caso que es un test no aleatorizado se tiene
() = P
((X) = 1) = E
((X)) .
Si es aleatorizado, (X) puede interpretarse como la probabilidad de
rechazar H, condicional a observar X; luego se tiene
(X) = P(rechazar H|X)
y resulta
() = P
( rechazar H) = E
(P( rechazar H|X)) = E
((X)) .
Por lo tanto, en todos los casos se tiene
() = E
((X)) .
Expresemos ahora las probabilidades de los errores de un test en terminos
de
()
La probabilidad que ocurra un error de tipo 1 sera
() para
1
.
La probabilidad que ocurra un error de tipo 2 sera (1
()) para

2
.
Un buen test debera tener errores de tipo 1 y 2 peque nos, y por lo tanto
debe tener una funcion de potencia
() que tome valores cercanos a 0 para

1
y valores cercanos a 1 para
2
.
En realidad, no podemos hacer ambos errores peque nos simultaneamente.
Mas a un, para un tama no de muestra dado para que decrezca la probabilidad
de que ocurra un error de tipo 1, debemos aumentar la probabilidad de que
ocurra un error de tipo 2 (o sea disminuir la potencia). Si queremos que
ambos sean peque nos debemos aumentar la cantidad de observaciones.
Por ejemplo, en el Ejemplo 1, el test
cumpla
(1/2) = 0.10. Por

otra parte, se verica que
() = (1 )
6
+ 5.4 (1 )
5
, con lo cual
OTESIS
tenemos la tabla siguiente que da la funcion de potencia del test
para
algunos valores de [0, 1/2]
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
() 1 0.944 0.85 0.736 0.616 0.498 0.389 0.295 0.215 0.149 0.1
Como vemos, la funcion de potencia de
es una funcion decreciente de

en el intervalo [0, 1/2] que tiende a 1 cuando 0 y tiende a 0.1 cuando
1/2. Es decir, la probabilidad de error 2 tiende a 0 cuando 0 y por
lo tanto, se logran detectar bien alternativas lejanas a la hipotesis H.
Para los procedimientos que daremos 1P(error de tipo 1) P(error de tipo 2).
El objetivo sera encontrar procedimientos con la menor probabilidad de tipo
2, jada la probabilidad de tipo 1, es decir, buscaremos procedimientos con
potencia grande para
2
.
6.2.1 Nivel de signicacion de un test
La teora clasica de test de hipotesis considera que el error de tipo 1 es mucho
mas grave que el error de tipo 2. Es decir, la situacion de las hipotesis H y K
no es simetrica; es mucho mas grave rechazar H cuando es cierta que acep-
tarla cuando es falsa. Esto signica que se debe tener mucha evidencia sobre
que H es falsa antes de rechazarla. Se observa en el Ejemplo 2 de la seccion
1, que esta simetra corresponde a una situacion real, puesto que antes de
cambiar de droga, es decir rechazar H, habra que tener un grado de certeza
muy alto respecto de que la nueva droga es mejor que la primera. Desde
ahora en adelante H se denominara hipotesis nula y K hipotesis alternativa.
Veamos un ejemplo que servira para jar ideas y claricar la mecanica
de eleccion de H
Ejemplo 1. Supongamos que se quiere decidir si un paciente tiene o no tu-
berculosis, para proceder, en caso armativo, a suministrarle un tratamiento
adecuado. Tendremos entonces dos hipotesis:
(A) El se nor W esta tuberculoso;
(B) El se nor W no esta tuberculoso.
Es claro que el medico responsable de la decision considerara mucho mas
grave rechazar (A) cuando es cierta, que rechazar (B) cuando es cierta (esto
es lo mismo que aceptar H cuando es falsa), puesto que en el primer caso
se expone al paciente a una agudizacion grave de su enfermedad, mientras
que en el segundo se le aplicara un tratamiento que no necesita y cuyas
consecuencias nunca seran comparables con el da no de no tratarlo estando
enfermo.
Luego la hipotesis nula sera H : El se nor W esta tuberculoso; y la
alternativa K : El se nor W no esta tuberculoso.
Como dijimos mas arriba, supondremos que el error de tipo 1 (rechazar
H cuando es cierta), es el mas grave. Por lo tanto se va requerir que el
error de tipo 1 del test a utilizar no sea mayor que un n umero 0 < < 0.5
prejado. Este n umero es generalmente peque no (entre 0.01 y 0.10) y se
lo determina de acuerdo a la importancia del error de tipo 1. La siguiente
denicion formaliza este concepto.
Denicion 5. El nivel de signicacion de un test esta denido por
= sup
()
Luego, es el supremo de la probabilidad de cometer un error de tipo 1.
Por lo tanto, jado , se buscara un test que tenga nivel de signicacion
menor o igual que . Un test con esta propiedad asegurara que la probabili-
dad de rechazar la hipotesis nula H, cuando esta es cierta, no sea mayor que
.
Como existen muchos tests que tienen nivel de signicacion menor o igual
que para un problema determinado, debemos dar un criterio para elegir
uno entre todos ellos. Resulta natural elegir entre todos los tests con la
restriccion de que su nivel de signicacion sea menor o igual que aquel
que tenga menor probabilidad de error de tipo 2. Esto motiva la siguiente
denici on.
Denicion 6. Consideremos un problema general de test de hipotesis donde
se observa un vector X con distribucion F(x, ),con , y se tiene que
decidir entre las hipotesis H:
1
y K:
2
. Diremos que un test
es el test mas potente de nivel menor o igual que para una alternativa ja
2

2
si
(a) sup
() , es decir si tiene nivel de signicacion menor o

igual que
(b) Dado otro test
de nivel menor o igual que entonces se tiene
(
2
)
(
2
)
OTESIS
Es decir, la probabilidad de error cuando
2
es el verdadero valor es menor
para el test que para cualquier otro
de nivel menor o igual que (o

sea, (1
(
2
)) (1
(
2
)) ).
Es claro que si cambiamos la alternativa
2

2
por otro
2

2
, el test
mas potente para esta
2
no tiene porque coincidir con el correspondiente a
2
. Por ejemplo, si se quiere testear H : =
0
contra K : =
0
, para una
distribucion N(,
2
0
) con
2
0
conocida, resultara
1
= {
0
} ;
2
= { IR : =
0
}.
Si se toma una alternativa ja
1
<
0
, el test mas potente de nivel para
esta alternativa no coincide con el test mas potente para una alternativa
2
>
0
, como veremos mas adelante.
Denicion 7. Diremos que un es un test uniformemente mas potente,
UMP, de nivel menor o igual que para H :
1
contra K :
2
,
si es el mas potente de nivel menor o igual que para todo
2

2
, es
decir, si el mismo test es optimo cualquiera sea la alternativa ja
2

2
considerada.
Lo ideal sera encontrar (cuando existan) tests uniformemente mas po-
tentes de nivel menor o igual que . Estudiaremos casos donde estos tests
existen y otros donde no. En estos ultimos habra que elegir otros criterios
para seleccionar el test a usar.
Denicion 8. El nivel crtico o p-valor es el menor valor de signicaci on
para el que rechazamos la hipotesis H para una observacion dada x.
En el Ejemplo 1 de la seccion 2, por ejemplo si observamos X = 2 el
p-valor del test {
k
} que rechaza para valores peque nos de T, sera p = 7/64.
Prejado el nivel de signicacion , y evaluado el p- valor, p, del test
utilizado, rechazaremos H si p < .
A esta altura, la logica de los tests puede parecer mas clara. Es un
argumento por contradiccion destinado a mostrar que la hipotesis nula lleva
a conclusiones absurdas y que por lo tanto, debe ser rechazada.
Supongamos que para un conjunto de datos dado, se eval ua el estadstico
del test y se obtiene un pvalor de 0.001. Para interpretarlo, debemos pensar
que la hipotesis nula es cierta e imaginamos a otros investigadores repitiendo
la experiencia en identicas condiciones. El valor 0.001 dice que solo un
investigador de cada 1000 puede obtener un valor del estadstico tan extremo
como el obtenido. Por lo tanto, la diferencia entre los datos y lo que se espera
de ellos bajo H no puede atribuirse meramente a variacion aleatoria. Este
6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 11
hecho lleva a una contradiccion y por lo tanto, a abandonar nuestra hipotesis
de que H era cierta.
Es tentador pensar que el pvalor da la probabilidad de que H sea cierta,
pero no es as. No importa cuantas veces se repita el experimento, H sera
siempre cierta o siempre falsa. Es decir, el nivel crtico da la probabilidad
de obtener evidencia en contra de la hipotesis nula suponiendo que esta sea
cierta. Por lo tanto, cuanto menor sea el p-valor mas evidencia en contra de
H tenemos, suponiendo que H es cierta.
6.3 Tests optimos para el caso de hipotesis simple
contra hipotesis simple
El caso mas simple de problema de test de hipotesis es la situacion donde
1
y
2
contengan cada uno un elemento. En este caso, se dice, H y K son
hipotesis simples.
Si
1
tuviera mas de un elemento, H se llamara hipotesis compuesta, y
lo mismo vale para K en relacion a
2
.
En el caso en que H y K sean simples, un problema de test de hipotesis
sera de la forma
H : =
1
contra K : =
2
Supongamos que X sea un vector discreto (o continuo) bajo
1
y
2
y que
las funciones de densidad correspondientes sean p(x,
1
) y p(x,
2
). Luego,
intuitivamente, parece razonable rechazar H si la probabilidad de obtener
el valor observado x bajo
2
es grande comparada con la probabilidad de
obtener x bajo
1
, es decir, cuando
L
21
=
p(x,
2
)
p(x,
1
)
k
donde k
es una constante que depende del nivel . Por lo tanto, se podra

pensar en construir un test de la forma
(X) =
_
_
1 si L
21
> k
si L
21
= k
0 si L
21
< k
o equivalentemente,
(X) =
_
_
1 si p(x,
2
) > k
p(x,
1
)
si p(x,
2
) = k
p(x,
1
)
0 si p(x,
2
) < k
p(x,
1
)
(6.1)
OTESIS
donde 0
1, correspondiendo el caso k
= + al test
(X) =
_
1 si p(x,
1
) = 0
0 si p(x,
1
) > 0
(6.2)
que tiene nivel 0.
Si queremos que el test (6.1) tenga nivel debemos elegir k
tales
que se cumpla
E
1
((X)) = . (6.3)
Notemos que entonces, en este tipo de test k
es una funcion decreciente

de .
Un test de la forma (6.1) se llama test del cociente de verosimilitud. El
siguiente teorema establece que se pueden elegir k
de manera que
se cumpla (6.3) y que usando estos valores en (6.1) se obtiene un test mas
potente de nivel menor o igual que . Sin embargo, los tests de la forma (6.1)
no garantizan la unicidad y es por ello, que para obtenerla le permitiremos
a
depender de x.
Teorema 1 (de NeymanPearson)
(i) Dado 0 1 se pueden elegir k
, 0
1, tales que el test

de la forma (6.1) satisfaga (6.3).
(ii) Sea un test de la forma (6.1) que satisface (6.3) para > 0 y de la
forma (6.2) para = 0. Luego ese test es el mas potente de nivel
menor o igual que para
H : =
1
contra K : =
2
.
(iii) Si
es un test uniformemente mas potente de nivel > 0 para

H : =
1
versus K : =
2
entonces
es de la forma
(X) =
_
_
1 si p(x,
2
) > k
p(x,
1
)
(x) si p(x,
2
) = k
p(x,
1
)
0 si p(x,
2
) < k
p(x,
1
)
(6.4)
excepto quizas en un conjunto N tal que P
1
(N) = P
2
(N) = 0.
Si
es un test uniformemente mas potente de nivel 0 para

H : =
1
versus K : =
2
entonces
es de la forma (6.2)
excepto quizas en un conjunto N tal que P
1
(N) = P
2
(N) = 0.
Demostraci
on: (i) Si = 0 el test (6.2) tiene nivel 0. Sea entonces,

0 < 1.
Extendamos la denicion de la variable aleatoria L
21
al caso en que el
denominador es 0,
L
21
=
_
_
_
p(x,
2
)
p(x,
1
)
si p(x,
1
) > 0
1 si p(x,
1
) = 0
.
Luego,
E
1
((X)) = P
1
(L
21
> k
) + P
1
(L
21
= k
)
= 1 P
1
(L
21
k
) +
1
(L
21
= k
) .
Si existe una constante k
0
tal que P
1
(L
21
k
0
) = tomamos k
= k
0
y
= 0. En caso contrario, siempre existe k

0
tal que
P
1
(L
21
< k
0
) 1 < P
1
(L
21
k
0
) (6.5)
y se cumple, P
1
(L
21
= k
0
) > 0. Denamos k
= k
0
y
=
P
1
(L
21
k
0
) (1 )
P
1
(L
21
= k
0
)
.
Luego, por (6.5) 0 <
1 y ademas E
1
((X)) = .
Demostraremos (ii) en el caso continuo, el caso discreto es analogo reem-
plazando las integrales por sumatorias. Supongamos que sea de la forma
(6.1) y satisfaga (6.3). Luego, por satisfacer (6.3) su nivel es igual a .
Para mostrar que es el test mas potente de nivel menor o igual que
, solo falta mostrar que dado otro test
de nivel menor o igual que se

tiene
(
2
)
(
2
) (6.6)
(a) Supongamos primero > 0 con lo cual k
< en (6.1). Sea
de nivel
menor o igual que . Consideremos la expresion
U(x) = [(x)
(x)] [p(x,
2
) k
p(x,
1
)] . (6.7)
Mostraremos que U(x) 0.
Supongamos primero que
p(x,
2
) > k
p(x,
1
) .
OTESIS
Luego, de acuerdo con (6.1), se tendra (x) = 1 y por lo tanto (x)
(x),
de donde, U(x) 0.
Si p(x,
2
) = k
p(x,
1
), es claro que U(x) = 0.
Finalmente, si
p(x,
2
) < k
p(x,
1
) ,
entonces usando nuevamente (6.1), (x) = 0, con lo cual (x)
(x) y
por lo tanto U(x) 0.
Resulta entonces que
_
[(x)
(x)] [p(x,
2
) k
p(x,
1
)] dx =
_
U(x)dx 0 .
Por lo tanto,
_
((x)
(x))p(x,
2
)dx k
_
((x)
(x))p(x,
1
)dx
o equivalentemente,
(
2
)
(
2
) k
(
1
)
(
1
)) .
Por (6.3) se tiene
(
1
) = , como
es un test de nivel de signicacion

menor o igual que ,
(
1
) , y entonces resulta
(
1
)
(
1
) 0
con lo cual,
(
2
)
(
2
) .
Esto demuestra que es el test mas potente de nivel de signicacion menor
o igual que si su nivel no es cero.
(b) Si = 0, como el test dado por (6.2) tiene nivel cero queremos ver que
dado
con nivel 0 se cumple (6.6). Como
tiene nivel 0,
_

(x)p(x,
1
)dx = 0 .
Por lo tanto,
(x) = 0 en el conjunto {x : p(x,

1
) > 0} excepto quizas
en un conjunto de medida 0. Por lo tanto, como (x) = 0 si p(x,
1
) > 0 y
(x) = 1 si p(x,
1
) = 0 se tiene
(
2
)
(
2
) = E
2
((X)) E
2
(
(X))
=
_
{x: p(x,
1
)=0}
[(X)
(X)] p(x,
2
)dx
+
_
{x: p(x,
1
)>0}
[(X)
(X)] p(x,
2
)dx
=
_
{x: p(x,
1
)=0}
[1
(X)] p(x,
2
)dx 0 .
(iii) Haremos primero el caso = 0. Sea el test de la forma (6.2) y
un test de nivel 0. Hemos visto que entonces
(x) = 0 en el conjunto
{x : p(x,
1
) > 0} excepto quizas en un conjunto N
1
de medida 0. Luego,
P
1
(N
1
) = P
2
(N
1
) = 0 y
(x) = (x) en {x : p(x,

1
) > 0} N
1
.
Falta ver que
(x) = (x) = 1 en {x : p(x,

1
) = 0} excepto quizas un
conjunto de medida 0. Como
E
2
((X)) = E
2
(
(X))
se cumple
0 =
_
{x: p(x,
1
)=0}
[(X)
(X)] p(x,
2
)dx
+
_
{x: p(x,
1
)>0}
[(X)
(X)] p(x,
2
)dx
=
_
{x: p(x,
1
)=0}
[1
(X)] p(x,
2
)dx .
Pero
1 luego el integrando es no negativo y la integral es cero si y solo

si
= 1 en el conjunto {x : p(x,
1
) = 0} {x : p(x,
2
) > 0} excepto
quizas en un conjunto N
2
de medida 0. Luego si
N = N
1
N
2
({x : p(x,
1
) = 0} {x : p(x,
2
) = 0})
se tiene P
1
(N) = P
2
(N) = 0 y
(x) = (x) para x / N.

Supongamos ahora > 0. Sea
un test de nivel uniformemente

mas potente para H versus K y el test dado por (6.1) que tambien es
uniformemente mas potente para H versus K por lo visto en (ii). Luego se
cumple
E
1
((X)) = E
1
(
(X)) y E
2
((X)) = E
2
(
(X)) (6.8)
OTESIS
Por otra parte, la funcion U(x) denida en (6.7) es no negativa y por (6.8)
_
U(x)dx = 0. Luego, U(x) debe ser nula excepto en un conjunto N de
medida 0. Es decir, ((x)
(x))(p(x,
2
) k
p(x,
1
)) = 0 para x / N.
Por lo tanto, (x) =
(x) en el conjunto {x : p(x,

2
) = k
p(x,
1
)} N
c
de donde el resultado.
Observacion. Si L
21
es una variable continua no hay que preocuparse por
, ya que P(L
21
= k
) = 0.
Ejemplo 1. Sea X
1
, . . . , X
n
perteneciente a N(,
2
0
) donde
2
0
es conocido, y supongamos que se quiere
decidir entre H : =
1
contra K : =
2
. Supongamos primero que
2
>
1
. En este caso, el test mas potente rechaza H si
p(X
1
, . . . , X
n
;
2
)
p(X
1
, . . . , X
n
;
1
)
k
donde p(X
1
, . . . , X
n
; ) indica la densidad conjunta de X = (X
1
, . . . , X
n
)
cuando X
i
tiene distribucion N(,
2
0
). Luego, (X
1
, . . . , X
n
) = 1 si
L
21
=
(2
0
)
n/2
e
n
i=1
(X
i
2
)
2
/2
2
0
(2
0
)
n/2
e
n
i=1
(X
i
1
)
2
/2
2
0
k
o sea (X
1
, . . . , X
n
) = 1 si
e
n
i=1
(X
i
2
)
2
/2
2
0
+
n
i=1
(X
i
1
)
2
/2
2
0
k
o equivalentemente, (X
1
, . . . , X
n
) = 1 si
i=1
(X
i

2
)
2
+
n
i=1
(X
i

1
)
2
2
2
0
lnk
.
Desarrollando el primer miembro de esta desigualdad, se tiene que
(X
1
, . . . , X
n
) = 1 si
2(
2

1
)
n
i=1
X
i
2
2
0
lnk
+n
2
2
n
2
1
.
Como
2
1
> 0, se tiene que (X
1
, . . . , X
n
) = 1 si
n
i=1
X
i

2
2
0
lnk
+n
2
2
n
2
1
2(
2

1
)
pero el segundo miembro de esta desigualdad es una constante, llamemosla
k
.
Luego, el test mas potente es de la forma
(X
1
, . . . , X
n
) = 1 si
n
i=1
X
i
k
(puesto que las regiones de rechazo planteadas inicialmente y esta ultima

son equivalentes). La constante k
debera elegirse de modo que

E
1
((X
1
, . . . , X
n
) = (6.9)
Para encontrar el k
que hace que (6.9) se satisfaga, necesitaramos una

tabla de la distribucion N(n
1
, n
2
0
), pero para trabajar mas comodamente
transformamos el estadstico

n
i=1
X
i
en otro cuya distribucion sea N(0, 1).
Para esto escribimos el test de la siguiente forma (X
1
, . . . , X
n
) = 1 si
n
(X
n
1
)
n
(k
/n
1
)
0
donde X
n
= (1/n)
n
i=1
X
i
. Nuevamente

n(k
/n
1
)/
0
es una cons-
tante que llamaremos k
. Luego el test puede ser escrito de la forma

(X
1
, . . . , X
n
) = 1 si

n
(X
n
1
)
0
k
.
Calculemos k
. De acuerdo con el Teorema de NeymanPearson, de-

bera tenerse que
= E
1
((X
1
, . . . , X
n
))
= P
1
((X
1
, . . . , X
n
) = 1)
= P
1
(
n
(X
n
1
)
0
k
) .
Pero cuando es
1
,

n(X
n
1
)/
0
es N(0, 1). Luego, k
debe ser igual

a z
.
Finalmente, el test queda como
(X
1
, . . . , X
n
) =
_
_
1 si

n
(X
1
)
0
z
0 si

n
(X
1
)
0
< z
(6.10)
OTESIS
En este caso, no debemos preocuparnos por el caso en que L
21
= k
ya
que la variable L
21
es continua.
Si se hubiera tenido que
2
<
1
, el test mas potente de nivel de signi-
cacion hubiese resultado
(X
1
, . . . , X
n
) =
_
_
1 si

n
(X
n
1
)
0
z
0 si

n
(X
n
1
)
0
> z
(6.11)
De (6.10) resulta que el test mas potente para H : =
1
contra
K : =
2
no depende de
2
, es decir es el mismo cualquiera sea
2
>
1
.
Por lo tanto, el test dado por (6.10) es el test uniformemente mas potente
de nivel menor o igual que para H : =
1
contra K : >
1
.
Analogamente el test dado por (6.11) es el test uniformemente mas po-
tente de nivel menor o igual que para H : =
1
contra K : <
1
.
Calculemos ahora la funcion de potencia del test dado por (6.10), el
que se puede escribir, haciendo manipuleo algebraico, como
(X
1
, . . . , X
n
) =
_
_
1 si

n
(X
n
)
0
z
n
(
1
)
0
0 si

n
(X
n
)
0
< z
n
(
1
)
0
(6.12)
Luego, la funcion de potencia del test denido por (6.10) esta dada por
() = E
((X)) = P
n
(X
n
)
0
z
n
(
1
)
0
)
Pero cuando el valor de la media es ,

n(X
n
)/
0
tiene distribucion
N(0, 1). Luego si es la funcion de distribucion de una variable aleatoria
N(0, 1), se tendra
() = 1 (z
n
(
1
)
0
) .
Estudiaremos algunas propiedades de
().
A.
() para n jo es una funcion creciente de , ya que es una funci on

creciente.
B.
(
1
) = .
C. lim
+
() = 1 lim
x
(x) = 1 0 = 1.
D. lim
() = 1 lim
x+
(x) = 1 1 = 0.
E. Para
2
jo,
2
>
1
, se tiene
lim
n
(
2
) = 1 lim
n
(x) = 1 0 = 1.
De aqu se deduce que tomando n grande, para un
2
jo, la probabilidad
de error de tipo 2 se puede hacer tan peque no como se quiera.
De A y B resulta que
sup
() = ,
y luego resulta un test de nivel igual que para H :
1
contra
K : >
1
.
Veamos ahora que es el test de nivel , uniformemente mas potente
para estas mismas hipotesis. Sea
otro test de nivel menor o igual que

para H :
1
; tambien tendra este nivel para H : =
1
, pero es el test
uniformemente mas potente para H : =
1
contra K : >
1
. Entonces
se tiene
()
() >
1
y resulta el test mas potente de nivel menor o igual que para H :
1
contra K : >
1
.
Luego hemos demostrado el siguiente teorema
Teorema 2.
(i) El test dado por (6.10) es el uniformemente mas potente de nivel
(a) H : =
1
contra K : >
1
y para
(b) H :
1
contra K : >
1
.
Su funcion de potencia viene dada por
() = 1 (z
n(
1
)/
0
).
(b) En forma similar el test dado por (6.11) es el uniformemente mas
potente de nivel menor o igual que para
(a) H : =
1
contra K : <
1
OTESIS
y para
(b) H :
1
contra K : <
1
.
Su funcion de potencia viene dada por
() = (z
n(
1
)/
0
)
Ejemplo 2. Supongamos que se mide el grado de impurezas de un producto
qumico. El metodo de medicion esta afectado por un error que se supone
N(0,
2
0
), con
2
0
conocida igual a 0.01. Ademas los errores correspondientes
a diferentes mediciones son independientes entre s. Se sabe que el producto
es aceptable si el grado de impurezas es menor o igual que 0.7. Se hacen 64
observaciones, X
1
, . . . , X
64
, y se quiere decidir entre las hipotesis: < 0.7 o
0.7. Se quiere encontrar un test de modo que la probabilidad de aceptar
el producto, cuando este no satisfaga las condiciones, sea menor que 0.05.
Sabemos que cada X
i
puede escribirse
X
i
= +
i
donde es el grado de impureza y
i
el error de medicion para la observacion
iesima. Como los
i
se supusieron normales e independientes, las X
i
seran
una muestra aleatoria de la distribucion N(,
2
0
).
Lo primero que tenemos que determinar es cual hipotesis es H y cual K.
Tomamos H : 0.7, ya que rechazar esta hipotesis equivale a aceptar el
producto, y esto queremos hacerlo solamente si estamos muy seguros de su
bondad. Luego, se tiene el problema:
H : 0.7 contra K : < 0.7
y por lo tanto, el test mas potente de nivel 0.05 esta dado por (X) = 1 si
64
(X 0.7)
0.1
z
0.05
.
En las tablas se encuentra que z
0.05
= 1.65. As, el test rechaza H, es
decir, acepta el producto si
X
1.65 0.1
8
+ 0.7 = 0.68 .
Supongamos ahora que se quiere conocer la probabilidad de cometer error
de tipo 2, o sea, de aceptar H cuando es falsa (rechazar el producto cuando
6.4. FAMILIAS DE CVM 21
cumple la especicacion). Tenemos que calcular la funcion de potencia del
test. De acuerdo con lo que hemos visto, sera
() =
_
1.65 8
( 0.7)
0.1
_
= (54.35 80) .
Si queremos, por ejemplo, calcular
(0.65), esto sera uno menos la pro-

babilidad de rechazar el producto cuando = 0.65, luego
(0.65) = (54.35 80 0.65) = (2.35) = 0.99 .

Esto quiere decir que la probabilidad de rechazar la droga, cuando = 0.65
es 0.01.
6.4 Tests uniformemente mas potentes para hipotesis
unilaterales
Hemos visto en el paragrafo anterior la forma de encontrar tests mas potentes
en el caso de hipotesis simples
H : =
0
contra K : =
1
.
Esta situacion es principalmente de interes teorico puesto que a un las situa-
ciones mas simples que se presentan en la practica, cuando IR, implican
problemas de la forma
(a) H : =
0
contra K : >
0
(b) H : =
0
contra K : <
0
(c) H :
0
contra K : >
0
(d) H :
0
contra K : <
0
(e) H : =
0
contra K : =
0
Los problemas (a) a (d) se denominan unilaterales y al (e) bilateral.
Hemos visto que para el caso N(,
2
0
) con
2
0
conocido se puede extender el
test de NeymanPearson a hipotesis compuestas de la forma
H : =
0
contra K : >
0
H :
0
contra K : >
0
H : =
0
contra K : <
0
OTESIS
H :
0
contra K : <
0
obteniendose tests uniformemente mas potentes para estos problemas.
La obtencion de tests uniformemente mas potentes para hipotesis unilate-
rales a partir de NeymanPearson es siempre posible para ciertas familias de
distribuciones que tienen una propiedad llamada de cociente de verosimilitud
monotono.
Denicion 1. Una familia de distribuciones discretas o continuas con den-
sidad (o funcion de probabilidad puntual) p(x, ), IR se dice de
cociente de verosimilitud monotono (CVM) en el estadstico T = r(X) donde
r toma valores reales, si para todo par
1
<
2
se tiene
(i) Las distribuciones correspondientes a p(x,
1
) y p(x,
2
) son distintas
(ii) p(x,
2
)/p(x,
1
) = g
2
(r(x)), donde g
2
(t) es una funcion no decre-
ciente en el conjunto
S = {t : t = r(x) con p(x,
1
) > 0o p(x,
2
) > 0}
Observacion. A los efectos de la Denicion 1 si p(x,
1
) = 0 y p(x,
2
) > 0,
el cociente p(x,
2
)/p(x,
1
) se considerara igual a .
Es sencillo mostrar que las familias exponenciales a un parametro con
c() estrictamente monotona son de CVM.
Teorema 1. Sea la familia exponencial a un parametro con funcion de
densidad o probabilidad p(x, ) = A()e
c()r(x)
h(x) con IR. Luego,
(i) Si c() es estrictamente creciente la familia dada es de CVM en r(X)
(ii) Si c() es estrictamente decreciente la familia dada es de CVM en
r(X)
Demostraci
on. Solo demostraremos (i). La parte (ii) se demuestra iden-

ticamente. En este caso se tiene si
1
<
2
p(x,
2
)
p(x,
1
)
=
A(
2
)
A(
1
)
e
(c(
2
)c(
1
))r(x)
= g
2
(r(x))
donde
g
2
(t) =
A(
2
)
A(
1
)
e
(c(
2
)c(
1
))t
es una funcion creciente.
Por otro lado, por ser c estrictamente monotona,
1
=
2
implica
c(
1
) = c(
2
) y luego p(x,
1
) y p(x,
2
) corresponden a distribuciones difer-
entes. Luego, la familia dada es de cociente de verosimilitud monotono en
T = r(X).
Vamos a mostrar ahora que existen familias de CVM que no son expo-
nenciales. Para ello consideramos el siguiente ejemplo
Ejemplo 1. Consideremos una muestra aleatoria (X
1
, . . . , X
n
) de una dis-
tribucion U[0, ] con IR
+
.
Luego, la familia de distribuciones conjuntas de X = (X
1
, . . . , X
n
) se
puede escribir
p(x, ) =
1
n
I
[0,]
( max
1in
x
i
) I
[0,]
( min
1in
x
i
) . (6.13)
Mostraremos que esta familia es de CVM en r(X) = max
1in
X
i
. Sea
2
>
1
, luego, el conjunto S = {t : r(x) con p(x,
1
) > 0 o p(x,
2
) > 0}
resulta igual al intervalo [0,
2
]. Deniendo
g
2
(t) =

n
1
n
2
I
[0,
2
]
(t)
I
[0,
1
]
(t)
,
se tiene que
p(x,
2
)
p(x,
1
)
= g
2
(r(x)).
Po lo tanto, bastara mostrar que g
2
(t) es monotona en S. Pero
g
2
(t) =
_
(
1
/
2
)
n
si 0 t
1
si
1
t
2
.
Con lo cual, g
2
(t) es monotona y la familia dada por (6.13) es de
CVM en r(X). Por otro lado, la familia dada por (6.13) no es exponencial
de acuerdo a lo visto en el ejercicio 2 del Captulo 3.
Ejemplo 2. Consideremos una variable aleatoria X con distribucion C(, 1),
IR, o sea, su densidad viene dada por
p(x, ) =
1
[1 + (x )
2
]
.
OTESIS
Veremos que esta familia no es de cociente de verosimiltud monotono en
r(X) = X.
Sea
2
>
1
, luego, se tiene que
p(x,
2
)
p(x,
1
)
=
_
1 + (x
1
)
2
[1 + (x
2
)
2
]
= g
2
(x).
Sin embargo, la funcion g
2
(x) no es monotona en x ya que
lim
x
g
2
(x) = lim
x+
g
2
(x) = 1.
El siguiente teorema nos permite encontrar tests UMP para familia con
la propiedad de CVM.
Teorema 1. Sea X un vector aleatorio con funcion de probabilidad o
densidad perteneciente a la familia p(x, ) con IR, que tiene la
propiedad de ser de CVM en T = r(X). Luego
(i) Existen k
tales que si denimos

(X) =
_
_
1 si T > k
si T = k
0 si T < k
(6.14)
se satisface
E
1
((X)) = . (6.15)
(ii) Sea es un test de la forma (6.14) que satisface (6.15). Luego es
el test uniformemente mas potente UMP de nivel menor o igual que
para
H : =
1
contra K : >
1
.
(iii)
() es monotona no decreciente para todo y estrictamente creciente

para todo tal que 0 <
() < 1.
(iv) Sea un test de la forma (6.14) que satisface (6.15). Luego, es el
test uniformemente mas potente de nivel menor o igual que para
H :
1
contra K : >
1
.
Demostraci
on: La demostracion de (i) es identica a la dada en el Teorema

de Neyman-Pearson.
Demostraremos (ii) suponiendo que si
2
>
1
p(x,
2
)
p(x,
1
)
= g
2
(r(x))
con g
2
(t) estrictamente creciente. (Esta hipotesis no es necesaria, basta
con que sea no decreciente.) En este caso, dado
2
>
1
el test dado por
(6.14) se puede escribir como
(X) =
_
_
1 si g
2
(r(X)) > g
2
(k
si g
2
(r(X)) = g
2
(k
)
0 si g
2
(r(X)) < g
2
(k
)
y si llamamos k
= g
2
(k
) resulta
(X) =
_
_
1 si
p(X,
2
)
p(X,
1
)
> k
si
p(X,
2
)
p(X,
1
)
= k
0 si
p(X,
2
)
p(X,
1
)
< k
.
Como (X) satisface (6.15), usando el Teorema 1 de 6.3 resulta que (X)
es el test mas potente de nivel menor o igual que para H : =
1
contra
K : =
2
. Como no depende de
2
, este resultado vale para todo
2
>
1
,
luego es el test UMP de nivel menor o igual que para H : =
1
contra
K : >
2
.
(iii) Solo demostraremos que
() es monotona no decreciente.
Sean
cualesquiera, tales que
<
. Si llamamos
=
E
((X)), resulta por (ii) que (X) es el test mas potente a nivel menor o
igual que
para las hipotesis simples

H : =
contra K : =
.
Consideremos ahora el test
(X) =
es un test de nivel
, luego
es menos potente que en
, es decir,
E
(X)) E
((X))
OTESIS
pero,
E
(X)) =
= E
((X)) =
)
y ademas
E
((X)) =
)
por lo tanto,
) ,
con lo que queda demostrado que
() es monotona no decreciente.
Para demostrar (iv), primero mostraremos que (X) es un test de nivel
H :
1
contra K : >
1
o sea que
sup
() .
Como
() es monotona creciente se tiene:

sup
() =
(
1
) =
por (6.15).
Consideremos ahora otro test
(X) de nivel menor o igual que para

H :
1
contra K : >
1
, luego
(X) es de nivel menor o igual que

para H : =
1
contra K : >
1
, pero por (ii) (X) es el test uniformemente
mas potente para este problema, por lo tanto
()
() >
1
.
Analogamente se demuestra el siguiente teorema
Teorema 2. Sea X un vector aleatorio con funcion de densidad pertene-
ciente a la familia p(x, ) con IR. Supongamos que esta familia es
CMV en r(X). Luego
(i) Existen k
tales que si denimos

(X) =
_
_
1 si r(X) < k
si r(X) = k
0 si r(X) > k
(6.16)
se satisface
E
1
((X)) = (6.17)
(ii) Sea (X) es un test de la forma (6.16) que satisface (6.17). Luego
es el test uniformemente mas potente a nivel menor o igual que para
H : =
1
contra K : <
1
.
(iii)
() es monotona no creciente para todo y estrictamente decreciente

para todo tal que 0 <
() < 1.
(iv) Sea un test de la forma (6.16) que satisface (6.17). Luego es el
test uniformemente mas potente de nivel menor o igual que para
H :
1
contra K : <
1
.
Para una version mas completa de este Teorema, ver Teorema 2 de 3.3
en Lehmann [2].
Ejemplo 3. Consideremos una muestra aleatoria X
1
, . . . , X
n
de una dis-
tribucion perteneciente a la familia N(,
2
0
) con
2
0
conocido. Luego, es
facil demostrar que la familia de distribuciones de la muestra es exponencial
con r(X) =

n
i=1
X
i
y c() = /
2
0
. Como c() es creciente de acuerdo
al Teorema 1, esta familia es de CMV en r(X). Entonces para testear H :

1
contra K : >
1
, el test UMP de nivel menor o igual que , es de
la forma
(X) =
_
_
1 si
n
i=1
X
i
k
0 si
n
i=1
X
i
< k
con E
1
((X) = .
En la Seccion 6.3 ya habamos demostrado este resultado y hallado el
valor de k
.
Ejemplo 4. Sea X
1
, . . . , X
n
perteneciente a la familia Bi(, 1).
En este caso la familia de distribuciones de X
1
, . . . , X
n
es exponencial
con T = r(X) =

n
i=1
X
i
y c() = ln(/(1 )); como c() es creciente,
esta familia es de CMV en r(X).
Luego, el test UMP de nivel menor o igual que para H :
1
contra
K : >
1
sera de la forma
(X) =
_
_
1 si T > k
si T = k
0 si T < k
OTESIS
k
deberan ser elegidos de modo que

E
1
((X)) = P
1
(T > k
) +
1
(T = k
) = . (6.18)
Como T tiene distribucion Bi(, n) que es discreta, puede suceder que
exista o no k tal que
P
1
(T > k) = (6.19)
Si existe k satisfaciendo (6.19), tomaremos ese valor como k
= 0.
Si no existe k que verique (6.19), siempre existira k tal que
P
1
(T > k) < < P
1
(T k) . (6.20)
Este valor k sera el k
que eligiremos y reemplazandolo en (6.18) obten-

dremos
=
P
1
(T > k
)
P
1
(T = k
)
=
P
1
(T > k
)
P
1
(T k
) P
1
(T > k
)
.
Por (6.20) resulta que 0 <
< 1.
Para encontrar el k
que verica (6.19) o (6.20) deberan usarse tablas bino-

miales.
Recordemos nalmente que
P
1
(T k
) =

k
in
(
n
i
)
i
1
(1
1
)
ni
.
Supongamos que se tiene una muestra aleatoria X
1
, X
2
, X
3
de una dis-
tribucion Bi(, 1) y se quiere testear H : 1/3 contra K : > 1/3 con
nivel de signicacion menor o igual que 0.1.
Cuando = 1/3, la distribucion de T =

3
i=1
X
i
esta dada por
t 0 1 2 3
p
T
(t)
8
27
12
27
6
27
1
27
y por lo tanto, tenemos
k 1 0 1 2 3
P1
3
(T > k) 1
19
27
7
27
1
27
0
Por lo tanto, no existe k
que verique (6.19) y el valor k
= 2 verica
(6.20), pues
P1
3
(T > 2) =
1
27
< 0.1 < P1
3
(T 2) = P1
3
(T > 1) =
7
27
y
sera entonces
=
0.1
1
27
6
27
= 0.27 .
Como ejercicio se sugiere gracar la funcion de potencia de este test, y
siendo el test aleatorizado, sugerir un mecanismo para decidir en caso en que
T = 2.
Ejemplo 5. Sea X
1
, . . . , X
n
perteneciente a la familia U[0, ].
El test uniformemente mas potente para H :
1
contra K : >
1
,
sera de la forma
(X) =
_
_
1 si max
1in
X
i
k
0 si max
1in
X
i
< k
donde k
verica
E
1
((X)) = . (6.21)
Teniendo en cuenta que la funcion de distribucion de T = max
1in
X
i
es
F
T
(t) =
_
_
0 si t < 0
(t/)
n
con 0 t
1 si t > 1
y que debe cumplirse (6.21), se tiene 0 k

1
y
P
1
_
max
1in
X
i
k
_
= 1 (k
/
1
)
n
= ,
de donde resulta
k
=
1
n
1 .
OTESIS
6.5 Tests insesgados
En la mayora de los casos en que la hipotesis alternativa es una hipotesis
compuesta, no existe un test uniformemente mas potente.
Ejemplo 1. Supongamos que se tiene una muestra aleatoria X
1
, . . . , X
n
2
0
) con
0
conocido y se desea testear H : =
0
contra K : =
0
. Es facil demostrar que no existe un test uniformemente
mas potente a nivel menor o igual que .
Supongamos que tal test existiera y llamemoslo ; entonces sera el test
mas potente a nivel menor o igual que para
H
1
: =
0
contra K
1
: =
1
(
1
>
0
)
y para
H
2
: =
0
contra K
2
: =
2
(
2
<
0
) .
Pero, por el Teorema 3 de la Seccion 6.3 el test mas potente para H
1
contra K
1
esta dado por
1
(X) =
_
_
1 si

n
(X
0
)
0
z
0 si

n
(X
0
)
0
< z
y el test mas potente para H

2
contra K
2
esta dado por
2
(X) =
_
_
1 si

n
(X
0
)
0
z
0 si

n
(X
0
)
0
> z
Entonces, por la unicidad dada en el Teorema de Neyman-Pearson,

debera coincidir con
1
y con
2
lo cual es imposible.
Recordemos que en el caso de estimadores puntuales tampoco existe en
general uno de menor error cuadratico medio. Una manera de poder denir
un estimador optimo que se propuso en el Captulo 3 fue restringiendo los
estimadores a la clase de los insesgados. En el caso de test se procede
en forma similar, restringiremos la clase de tests considerados a los que
6.5. TESTS INSESGADOS 31
llamaremos insesgados y luego se buscara el test uniformemente mas potente
en esta clase.
Denicion 1. Sea una familia de distribuciones F(x, ) con . Se dira
que un test para testear H :
1
contra K :
2
es insesgado si
sup
() inf
()
El sentido de esta desigualdad es que la probabilidad de rechazar H
cuando
2
, es decir cuando H es falsa, no pude ser menor que cuando

1
, es decir cuando H es verdadera.
Por lo tanto, un test insesgado de nivel tiene funcion de potencia menor
o igual que para
1
y mayor o igual que para
2
.
Observemos que un test UMP de nivel es insesgado.
Observacion. Si la funcion de potencia
() del test es una funcion

continua de y es un test insesgado de nivel , entonces
() debe valer
en la frontera
F
entre
1
y
2
.
En particular, si IR,
1
= {
1
} y
2
= {
1
}, o sea, si estamos
testeando H : =
1
contra K : =
1
, y es un test insesgado de nivel
se tiene
(
1
) =
() =
1
.
Por lo tanto, si la funcion de potencia
() es derivable respecto de ,
debe cumplir
(
1
) =

()|
=
1
= 0 . (6.22)
En el caso particular de las familias exponenciales, la funcion de potencia
de cualquier test es derivable y por lo tanto, los tests insesgados cumplen
(6.22).
Denicion 2. Se dira que un test para testear H :
1
contra
K :
2
es uniformemente m as potente de nivel entre los insesgados,
IUMP, si
(a) tiene nivel , o sea,
sup
() =
OTESIS
(b) es insesgado, es decir,
()
2
(c) Dado otro test
insesgado y de nivel se verica
()
()
2
.
En la proxima Seccion daremos un procedimiento general para encontrar
tests para un problema determinado. En muchos casos este procedimiento
da como resultado el test insesgado uniformente mas potente.
La teora de los tests insesgados uniformemente mas potentes escapa a
las posibilidades de este curso y puede verse en Lehmann [3] o en Ferguson
[2].
6.6 Test del cociente de maxima verosimilitud
Supongamos que se observa un vector X, cuya distribucion tiene funcion de
densidad p(x, ), y se quiere testear H :
1
contra K :
2
(
1

2
= ).
Un procedimiento intuitivamente razonable y que da buenos resultados
en una gran variedad de situaciones es el siguiente.
Tomemos estimadores de maxima verosimilitud de , suponiendo
1
,
llamemoslo

1
y analogamente suponiendo
2
,

2
; luego
p(X,
1
) = max
1
p(X, )
y
p(X,
2
) = max
2
p(X, ) .
Si

1
y

2
no dependieran de la muestra, podramos considerar el test
mas potente para testear H* : =

1
contra K* : =

2
, el cual es de la
forma
(X) =
_
_
1 si L < k
si L = k
0 si L > k
donde
L =
1
L
21
=
p(X,
1
)
p(X,
2
)
6.6. TEST DEL COCIENTE DE M
y k
se elige de manera que el test resulte de nivel .

En algunos casos

1
y

2
pueden no existir, pero siempre tiene sentido
hablar de L denido por
L =
sup
1
p(X, )
sup
2
p(X, )
Intuitivamente, este test puede interpretarse como rechazando H :
1
cuando el valor mas probable de
2
tiene probabilidad considerablemente
mas grande que el valor mas probable de
1
.
En muchos casos, como por ejemplo cuando la dimension de
1
es menor
que la dimension de =
1

2
, y p(x, ) es continua, resulta que
sup
2
p(X, ) = sup
p(X, ) (6.23)
En este caso, el test del cociente de maxima verosimilitud resulta equi-
valente a
(X) =
_
_
1 si L
< k
si L
= k
0 si L
> k
donde
L
=
sup
1
p(X, )
sup
p(X, )
.
En general, es mas facil aplicar la forma del test basada en L
cuando es
posible, es decir, cuando (6.23) se cumple.
Ejemplo 1. Se tiene una muestra aleatoria X
1
, . . . , X
n
de una distribucion
N(,
2
0
) con
0
conocido y se quiere testear H : =
0
contra K : =
0
Como en este caso
1
= {
0
} tiene dimension cero (se reduce a un
punto) y = { : < < +} tiene dimension uno, podemos usar el
test basado en L
.
Es claro que
sup
1
p(X, ) = (2
2
0
)
n
2
e
1
2
2
0
n
i=1
(X
i
0
)
2
y que
sup
p(X, ) = (2
2
0
)
n
2
e
1
2
2
0
n
i=1
(X
i
X)
2
.
OTESIS
Luego,
L
= e
1
2
2
0
(
n
i=1
(X
i
0
)
2
n
i=1
(X
i
X)
2
)
y como
n
i=1
(X
i

0
)
2
i=1
(X
i
X)
2
= n(X
0
)
2
resulta
L
= e
n
2
2
0
(X
0
)
2
.
Sea T =

n|X
0
|/
0
. Luego, L
= g(T) con g decreciente. Luego (X)

es equivalente a
(X) =
_
_
1 si

n
|X
0
|
0
k
0 si

n
|X
0
|
0
< k
.
Observese que este test resulta muy razonable intuitivamente, ya que se
rechaza la hipotesis de que =
0
si X diere sensiblemente de
0
.
k
debe elegirse de modo tal que resulte de nivel , es decir que

P
0
(
n
|X
0
|
0
k
) = .
Pero como, cuando =
0
se tiene que
n(X
0
)/
0
tiene distribuci on
N(0, 1), resulta que k
= z
/2
.
Ejemplo 2. Sea X
1
, . . . , X
n
N(,
2
) con varianza
2
desconocida y se desea testear H : =
0
contra
K : =
0
. En este caso,
1
= {(
0
,
2
) : 0 <
2
< }
resulta de dimension uno, y
= {(
1
,
2
) : < < , 0 <
2
< }
es de dimension dos.
Por lo tanto utilizaremos el test basado en L
. El estimador de maxima
verosimilitud de (,
2
) restringido a
1
es (
0
,
n
i=1
(X
i
0
)
2
/n) y el esti-
mador de maxima verosimilitud de (,
2
) sin restricciones es
(X,
n
i=1
(X
i
X)
2
/n).
Luego, se tiene
sup
(,
2
)
1
p(X, ,
2
) =
1
e
n
2
(2)
n
2
_
n
i=1
(X
i
0
)
2
n
_n
2
y
sup
(,
2
)
p(X, ,
2
) =
1
e
n
2
(2)
n
2
_
n
i=1
(X
i
X)
2
n
_n
2
.
Por lo tanto, L
esta dado por

L
=
_
n
i=1
(X
i
X)
2
n
i=1
(X
i

0
)
2
_n
2
.
Como
n
i=1
(X
i

0
)
2
=
n
i=1
(X
i
X)
2
+n(X
0
)
2
se tiene que
L
=
_
1 +
n(X
0
)
2
n
i=1
(X
i
X)
2
_
n
2
.
Sea ahora
T =

n
(X
0
)
s
donde s
2
=

n
i=1
(X
i
X)
2
/(n 1). Luego,
L
=
_
1
1 +
T
2
n1
_n
2
Como la funcion 1/(1+t
2
/(n1)) es monotona decreciente de |t|, el test
del cociente de maxima verosimilitud resulta equivalente a
(X) =
_
1 si |T| k
0 si |T| < k
y k
debera ser elegido de manera que el test resulte con nivel de signicacion
, es decir, de manera que
P
0
(|T| k
) = .
OTESIS
Como T tiene distribucion student con n 1 grados de libertad, resulta
k
= t
n1,
2
.
Observese que este test es completamente analogo al del Ejemplo 1, con
la diferencia que se reemplaza por s y z
/2
por t
n1,
2
.
Ejemplo 3. Sea X
1
, . . . , X
n
N(,
2
) con media y varianza desconocidas. Supongamos que se quiere
testear H :
0
contra K : >
0
. En este caso,
1
= {(,
2
) :
0
,
2
> 0}
y
2
= {(,
2
) : >
0
,
2
> 0} .
Luego, la dimension de
1
es igual a la de
2
, y el test del cociente de
maxima verosimilitud debera hacerse con L y no con L
. Como
p(X, ,
2
) = (2
2
)
n
2
e
1
2
2
n
i=1
(X
i
)
2
(6.24)
resulta
lnp(X, ,
2
) =
n
2
ln(2)
n
2
ln
2
1
2
2
n
i=1
(X
i
)
2
. (6.25)
Teniendo en cuenta que
n
i=1
(X
i
)
2
=
n
i=1
(X
i
X)
2
+n(X )
2
se obtiene que el estimador de maxima verosimilitud de en
1
, es igual a

1
=
_
X si X
0
0
si X >
0
(6.26)
y que el estimador de maxima verosimilitud de en
2
, es igual a

2
=
_
X si X >
0
0
si X
0
.
(6.27)
El estimador de maxima verosimilitud de
2
, para
1
es

2
1
=
1
n
n
i=1
(X
i

1
)
2
y para
2
es

2
2
=
1
n
n
i=1
(X
i

2
)
2
.
Luego, reemplazando en (6.24) se obtiene
max
(,
2
)
j
p(X, ,
2
) = [2 e
n
i=1
(X
i

j
)
2
/n]
n
2
para j = 1, 2, de donde
L =
_
n
i=1
(X
i

2
)
2
n
i=1
(X
i

1
)
2
_n
2
=
_
n
i=1
(X
i
X)
2
+n(X
2
)
2
n
i=1
(X
i
X)
2
+ (X
1
)
2
_n
2
y usando (6.26) y (6.27) se deduce
L =
_
_
_
n
i=1
(X
i
X)
2
+n(X
0
)
2
n
i=1
(X
i
X)
2
_n
2
si X
0
_

n
i=1
(X
i
X)
2
n
i=1
(X
i
X)
2
+n(X
0
)
2
_n
2
si X >
0
.
Si llamamos
T =
n(X
0
)
_
n
i=1
(X
i
X)
2
n1
se tiene
L =
_
_
(1 +
T
2
n1
)
n
2
si X
0
(1 +
T
2
n1
)
n
2
si X >
0
.
OTESIS
Luego, el test del cociente de maxima verosimilitud es de la forma
(X) =
_
_
1 si
_
_
1 +
T
2
n 1
k
y X
0
(A)
1
1 +
T
2
n1
k
y X >
0
(B)
0 si
_
_
1 +
T
2
n 1
> k
y X
0
(C)
1
1 +
T
2
n1
> k
y X >
0
(D) .
Tomemos ahora k
< 1 (con k
1 se llega al mismo resultado), en este caso

la primera desigualdad de (A) no puede ocurrir y la primera desigualdad de
(C) ocurre siempre, luego (X) se transforma en
(X) =
_
_
1 si
1
1 +
T
2
n1
k
y X >
0
0 si
_
_
X
0
1
1 +
T
2
n1
> k
y X >
0
.
Esto es equivalente a
(X) =
_
_
1 si |T| k
y T > 0
0 si
_
_
|T| < k
y T > 0
T < 0 ,
de donde, se deduce que
(X) =
_
1 si T k
0 si T < k
.
Debemos ver ahora que se puede elegir k
de modo que el test resulte

de nivel igual . Esto signica que
sup
{
0
,
2
>0}
P
,
2 (T k
) = .
Se puede pensar que el caso mas desfavorable, en el cual hay mayor
probabilidad de rechazar H, es en el caso lmite =
0
; por lo tanto parece
razonable elegir k
de manera que
P
0
,
2 (T k
) = .
Pero cuando =
0
, T tiene distribucion de Student con n 1 grados
de libertad, y por lo tanto debemos tomar
k
= t
n1,
.
El test resulta entonces
(X) =
_
1 si T t
n1,
0 si T < t
n1,
.
Debemos probar ahora que este test tiene realmente nivel , es decir que,
P
,
2 (T t
n1,
)
0
.
Para ello necesitaremos la siguiente denicion.
Denicion 1. Llamaremos distribucion de Student no central con n gra-
dos de libertad y parametro de no centralidad , < < , que
simbolizaremos por T
n
() a la distribucion de
U +
_
V/n
donde U tiene distribucion N(0, 1) donde V tiene distribucion
2
n
siendo U
y V independientes.
Teorema 1. Sea X
una variable aleatoria con distribucion de Student no

central T
n
(), denamos c
n,k
() por
c
n,k
() = P(X k),
luego, c
n,k
() es una funcion monotona creciente de .
Demostraci
on. Como X
n
(); se puede escribir
X
=
U +
_
V/n
OTESIS
donde U es una variable aleatoria N(0, 1) y V tiene distribucion
2
n
, inde-
pendientes. Luego,
c
n,k
() = P(X
k) = E [P(X
k|V )] ,
pero
P(X
k|V = v) = P
_
U +
_
v/n
k |V = v
_
= 1 (k
_
v
n
) .
Luego esta ultima probabilidad, para k, n y v jos, es una funcion cre-
ciente de . Por lo tanto, si
1
<
2
se tiene
P(X
1
k|V = v) < P(X
2
k|V = v)
con lo cual, tomando esperanza se obtiene
E(P(X
1
k)|V ) < E(P(X
2
k)|V )
o sea
P(X
1
k) < P(X
2
k),
y por lo tanto c
n,k
() es creciente en .
Volvamos ahora al Ejemplo 3. Vamos a mostrar que el test dado por
(X) =
_
1 si T t
n1,
0 si T < t
n1,
tiene nivel de signicacion . Como
T =
n(X
0
)
_
1
n1
n
i=1
(X
i
X)
2
=
n
(X
0
)
_
1
n1
n
i=1
(X
i
X)
2
2
resulta
T =
n
(X)
n
(
0
)
_
1
n1
n
i=1
(X
i
X)
2
2
.
Llamando U =

n(X )/ y V =

n
i=1
(X
i
X)
2
/
2
se tiene que
U y V son independientes, y cuando los valores de los parametros son y
2
, U tiene distribucion N(0, 1) y V tiene distribucion
2
n1
. Luego T tiene
distribucion T
n1
() donde =

n(
0
)/. Ademas,
(,
2
) = P
,
2 (T t
n1,
) = c
n1,t
n1,
() .
Resulta, por el Teorema 1, que
(,
2
) es una funcion creciente de
para cada
2
jo. Como, por otra parte,
(
0
,
2
) = , para todo
2
, se
tiene
(,
2
) < <
0
y el test tiene nivel de signicacion . Tambien, a partir de la expresion
de
(,
2
) se obtiene que el test es insesgado.
Analogamente, en el caso de testear H :
0
contra K : <
0
, el
test del cociente de maxima verosimilitud vendra dado por
(X) =
_
1 si T t
n1,
0 si T > t
n1,
.
Para calcular la potencia de estos tests se pueden utilizar las tablas cons-
trudas por Owen [4].
Ejemplo 4. Supongamos nuevamente que tenemos una muestra aleatoria
X
1
, . . . , X
n
2
) con y
2
desconocidos. Se desea
testear H :
2

2
0
contra K :
2
>
2
0
.
Se deduce haciendo un razonamiento analogo al ejemplo anterior que el
test del cociente de maxima verosimilitud es de la forma
(X) =
_
_
1 si
n
i=1
(X
i
X)
2
k
0 si
n
i=1
(X
i
X)
2
< k
.
La constante k
se debe elegir de manera que

sup
2
0
P
2
_
n
i=1
(X
i
X)
2
k
_
= .
Determinemos k
por el valor de
2
mas desfavorable, o sea,
2
0
. Luego,
debemos elegir k
tal que
P
2
0
_
n
i=1
(X
i
X)
2
k
_
=
OTESIS
o equivalentemente
P
2
0
_
n
i=1
(X
i
X)
2
2
0
2
0
_
= .
Como

n
i=1
(X
i
X)
2
/
2
0
tiene distribucion
2
n1
cuando
2
=
2
0
, se
tiene que
k
=
2
0
2
n1,
.
Para mostrar que el test tiene realmente nivel de signicacion , bastara
mostrar que la funcion de potencia es una funcion creciente y esto se deduce
como sigue. Sea D
n
(k) = P(Y k), donde Y es una variable aleatoria con
distribucion
2
n
. Luego
(
2
) = P
2
_
n
i=1
(X
i
X)
2

2
0
2
n1,
_
= P
2
_
n
i=1
(X
i
X)
2
2
0
2
n1,
2
_
= D
n1
_
2
0
2
n1,
2
_
,
ya que cuando la varianza de cada X
i
es
2
resulta que

n
i=1
(X
i
X)
2
/
2
tiene distribucion
2
n1
.
Como D
n
(k) es una funcion decreciente de k,
(
2
) es una funcion
creciente de
2
.
Ejemplo 5. Sea X
1
, . . . , X
n
N(,
2
) con y
2
desconocidos y supongamos que se quiere testear
H :
2
=
2
0
contra K :
2
=
2
0
.
En este caso, el test del cociente de maxima verosimilitud es de la forma
(X) =
_
_
1 si
n
i=1
(X
i
X)
2
2
0
k
1 si
n
i=1
(X
i
X)
2
2
0
< k
0 en cualquier otro caso,

Para que tenga nivel de signicacion , se debe cumplir que
(
2
0
) = P
2
0
_
n
i=1
(X
i
X)
2
2
0
k
_
+P
2
0
_
n
i=1
(X
i
X)
2
2
0
< k
_
= .
Luego, se debe tener que
k
=
2
n1,
y k
=
2
n1,1
(6.28)
con + = .
Si queremos que el test resulte insesgado, la derivada de la funcion de
potencia debe ser cero en
0
. Pero,
(
2
) = P
2
_
n
i=1
(X
i
X)
2
2

k
2
0
2
_
+P
2
_
n
i=1
(X
i
X)
2
2
<
k
2
0
2
_
,
con lo cual si llamamos Y a una variable con distribucion
2
n1
obtenemos
(
2
) = P
2
_
Y
k
2
0
2
_
+P
2
_
Y <
k
2
0
2
_
= 1 P
2
_
Y <
k
2
0
2
_
+P
2
_
Y <
k
2
0
2
_
.
Por lo tanto, si f
Y
(y) indica a la densidad de Y , la condicion
(
2
0
) = 0 es
equivalente a
f
Y
(k
) k
= f
Y
(k
) k
de donde se obtiene que k
y k
deberan ser elegidos de forma que

e
k
/2
(k
)
n1
2
= e
k
/2
(k
)
n1
2
(6.29)
En la practica se eligen = /2 y = /2, aunque no satisfaga (6.29).
Se puede mostrar que para n los y que satisfacen (6.28) y hacen
que se satisfaga (6.29) se aproximan a los valores elegidos. En realidad, la
OTESIS
aproximacion es buena con tal que n no sea muy peque no. Luego, el test
que se usa viene dado por
(X) =
_
_
1 si
_
_
n
i=1
(X
i
X)
2

2
0
2
n1,
2
n
i=1
(X
i
X)
2

2
0
2
n1,1
2
0 si
2
0
2
n1,1
i=1
(X
i
X)
2

2
0
2
n1,
2
Se puede mostrar que los tests obtenidos en los Ejemplos 1 a 5 son IUMP.
Para estos resultados pueden consultarse el Captulo 5 de Lehmann [3] o el
Captulo 5 de Ferguson [2].
6.7 Test con nivel de signicacion asintotico
La mayora de los test de hipotesis, por ejemplo, los del cociente de verosimil-
itud, son de la forma
(X) =
_
_
1 si T > k
si T = k
0 si T < k
donde T es un estadstico basado en la muestra. Para encontrar k
se re-
quiere conocer la distribucion de T para
1
. Como en muchos casos esta
distribucion es muy compleja se puede reemplazar esta distribucion por una
asintotica. En este caso el test tendra un nivel de signicacion aproximado
al deseado para muestras grandes. Esto motiva la siguiente denicion.
Denicion 1. Sea X
1
, . . . , X
n
perteneciente a la familia F(x, ), y supongamos que se quiere testear
la hipotesis H :
1
contra K :
2
. Se dira que una sucesion de test
n
(X
1
, . . . , X
n
) tiene nivel de signicacion asintotico si
lim
n
sup
n
() =
Es decir, que el nivel del test
n
(X
1
, . . . , X
n
) se acerca a cuando el tama no
de la muestra tiende a innito.
6.7. TEST CON NIVEL DE SIGNIFICACI
ON ASINT
OTICO 45
Ejemplo 1. Supongamos que X
1
, . . . , X
n
es una muestra aleatoria de una
distribucion desconocida con media y varianza
2
.
Supongamos que se quiere testear H :
0
contra K : >
0
.
Llamemos
X =
n
i=1
X
i
n
y s
2
=
n
i=1
(X
i
X)
2
n 1
.
Ya hemos demostrado que
n
(X
0
)
s
converge en distribucion a la N(0, 1) cuando la esperanza de las variables X
i
es
0
. Luego, si denimos
n
(X
1
, . . . , X
n
) =
_
_
1 si

n
(X
0
)
s
z
0 si

n
(X
0
)
s
< z
este test tiene nivel de signicacion asintotico .

Del mismo modo, si se quiere testear H : =
0
contra K : =
0
, un
test de nivel de signicacion asintotico sera
n
(X
1
, . . . , X
n
) =
_
_
1 si

n
|X
0
|
s
z
0 si

n
|X
0
|
s
< z
6.7.1 Distribucion asint otica del test del cociente de maxima

verosimilitud
Sea X = (X
1
, . . . , X
n
) una muestra aleatoria de una distribucion de densidad
o probabilidad dada por p(x, ) con = (
1
, . . . ,
p
) , donde es un
conjunto de IR
p
que contiene una esfera.
Supongamos que
1
es un conjunto de dimension menor que p, digamos
de dimension p j, donde 1 j p.
1
puede venir expresado de varias
formas diferentes. Por ejemplo, puede venir dado por j relaciones funcionales
entre los parametros
1
, . . . ,
p
, es decir,
1
= { : g
1
() = 0; g
2
() = 0, . . . , g
j
() = 0}
OTESIS
o bien, en forma parametrica
1
= { = (
1
, ...
p
) :
1
= h
1
(), . . . ,
p
= h
p
(), },
donde = (
1
, . . . ,
pj
) y IR
pj
de dimension p j.
Supongamos que se esta interesado en el siguiente problema de test de
hipotesis:
H :
1
contra K :
2
con =
1
2
. Luego, el test del cociente de maxima verosimilitud es de
la forma
(X) =
_
1 si L
(X) k
0 si L
(X) > k
donde
L
(X) =
sup
1
p(X, )
sup
p(X, )
.
Para determinar k
es necesario conocer la distribucion de L
(X) bajo H.
Muchas veces esta es muy complicada y puede depender del valor particular

1
que se considere. Sin embargo, se puede mostrar que, bajo condi-
ciones de regularidad muy generales en p(x, ), la distribucion asintotica de
Z = 2 lnL
cuando
1
es
2
j
. Luego un test de nivel de signicacion
asintotico esta dado por
(X) =
_
_
1 si Z
2
j,
0 si Z <
2
j,
Para ver la teora asintotica del test del cociente de verosimilitud se puede
ver Wald [5] y Cherno [1]. Nosotros solo daremos la distribucion en el caso
particular IR y H : =
0
contra K : =
0
.
Teorema 1. Sea X
1
, . . . , X
n
discreta o continua con densidad perteneciente a la familia p(x, ) con
y un abierto en IR. Indiquemos por p(x, ) la densidad conjunta del vector
X = (X
1
, . . . , X
n
).
Supongamos que se cumplen las siguientes condiciones (en lo que sigue
suponemos que X es continuo, para el caso discreto habra que reemplazar
todos los signos
_
por

):
(A) El conjunto S = {x : p(x, ) > 0} es independiente de .
ON ASINT
OTICO 47
(B) Para todo x, p(x, ) tiene derivada tercera respecto de continua y tal
que
3
lnp(x, )
2
(x, )
K
para todo x S y para todo , donde
(x, ) =
lnp(x, )
.
(C) Si h(X) es un estadstico tal que E
[|h(X)|] < para todo

entonces se tiene
__

. . .
_

h(x)p(x, )dx
_
=
_

. . .
_

h(x)
p(x, )
dx
donde dx = (dx
1
, . . . , dx
n
).
(D)
0 < I
1
() = E
_
_
lnp(X
1
, )
_
2
_
< .
Sea

n
un estimador de maxima verosimilitud de consistente, entonces
si
L
(X) =
p(X,
0
)
sup
p(X, )
=
p(X,
0
)
p(X,
n
)
.
se tiene que Z = 2 ln(L
(X)) tiene distribucion asintotica

2
1
con lo cual
el test
(X) =
_
_
1 si Z
2
1,
0 si Z <
2
1,
tiene nivel de signicacion asintotico .
Demostraci
on. Sea
() = lnp(X, ) =
n
i=1
ln(p(X
i
, )) .
Indiquemos ademas por
las derivadas hasta el orden tres respecto

de de la funcion y por
(x, ) =
(x, )
(x, ) =

2
(x, )
2
.
OTESIS
Luego,

n
verica
n
) =
n
i=1
(X
i
,
n
) = 0 .
Con lo cual, desarrollando en serie de Taylor alrededor de

n
se obtiene:
(
0
) (
n
) =
n
)(
0

n
) +
1
2
(
1
n
)(
0

n
)
2
=
1
2
(
0

n
)
2
_
n
i=1
(X
i
,
1
n
)
_
=
1
2
_
n(
0
n
)
2
_
1
n
n
i=1
(X
i
,
0
) +R
n
,
donde
1
n

n
y
0
y
R
n
=
1
2
_
n(
0
n
)
2
_
_
1
n
n
i=1
(X
i
,
1
n
)
1
n
n
i=1
(X
i
,
0
)
_
.
Aplicando el Teorema del valor medio se obtiene
R
n
=
1
2
_
n(
0
n
)
2
_
_
1
n
n
i=1
(X
i
,
2
n
)(
1
n
0
)
_
(6.30)
donde
2
n
1
n
y
0
. Observemos que por ser

n
consistente, se obtiene entonces que
j
n

0
en probabilidad para j = 1, 2.
Reemplazando, obtenemos que
Z = 2
_
(
n
) (
0
)
_
=
_
n(
0
)
2
_
A
n
R
n
(6.31)
donde A
n
=
1
n
n
i=1
(X
i
,
0
).
Hemos visto en el Teorema 1 de 3.17 que cuando =
0
n(
0
) N(0,
1
I
1
(
0
)
) en distribucion,
con lo cual
I
1
(
0
) n(
0
)
2

2
1
en distribucion. (6.32)
Por otra parte, la ley de los grandes n umeros implica que
1
n
n
i=1
(X
i
,
0
) E(
(X
1
,
0
)) en probabilidad. (6.33)
ON ASINT
OTICO 49
Pero,
E
0
(
(X
1
,
0
)) = I
1
(
0
) ,
luego, usando (6.32) y (6.33) se obtiene que
_
n(
0
)
2
_
A
n

2
1
en distribucion. (6.34)
Por lo tanto, a partir de (6.31) y (6.34) deducimos que bastara probar que
R
n
0 en probabilidad. (6.35)
Como |
(X
i
, )| K para todo , se tiene que
1
2n
n
i=1
(X
i
,
2
n
)(
1
n
0
)

K
2
|(
1
n

0
)|
y luego como
1
n

0
en probabilidad se deduce que:
1
n
n
i=1
(X
i
,
2
n
)(
1
n
0
) 0 en probabilidad. (6.36)
Pero, (6.32) implica que n(
n

0
)
2
esta acotado en probabilidad, luego
(6.35)se obtiene de (6.30) y (6.36).
Ejemplo 1. Sea X
1
, . . . , X
n
una muestra de una distribucion perteneciente
a la familia Bi(, 1), 0 < < 1, y supongamos que se quiere testear
H : =
0
contra K : =
0
. Luego el test del cociente de maxima verosimil-
itud es
L
=
p(x,
0
)
sup
p(x, )
=

T
0
(1
0
)
nT
X
T
(1 X)
nT
,
donde T =

n
i=1
X
i
. Luego,
Z = 2 ln L
= 2T ln
X
0
+ 2(n T) ln
(1 X)
1
0
tiene una distribucion asintotica
2
1
bajo H y un test de nivel asintotico
estara dado por
(X) =
_
_
1 si Z >
2
1,
0 si Z <
2
1,
.
OTESIS
6.8 Relacion entre regiones de conanza y test
En esta seccion se estudiara la relacion que existe entre tests y regiones de
conanza.
Supongamos que se tiene un vector aleatorio X con distribucion perte-
neciente a la familia F(x, ) con y supongamos que para cada
0
se tiene un test no aleatorizado de nivel ,
0
, para H : =
0
contra
K : =
0
.
Se puede construir una region de conanza de nivel (1 ) para
deniendo
S(X) = { :
(X) = 0}
Es decir, S(X) es el conjunto de todos los tales que la hipotesis de
que el valor verdadero es , es aceptada cuando se observa X.
Demostraremos que S(X) as denida, es una region de conanza de nivel
1 para
P
( S(X)) = P
(X) = 0) = 1 P
(X) = 1) = 1 .
Recprocamente, si se tiene una region de conanza S(X) de nivel 1
para , se puede construir un test de nivel ,
0
, para H : =
0
contra
K : =
0
.
Denamos
0
(X) =
_
1 si
0
/ S(X)
0 si
0
S(X) .
Mostraremos que este test tiene realmente nivel de signicacion . Efec-
tivamente,
P
0
(
0
(X) = 1) = P
0
(
0
/ S(X)) = 1P
0
(
0
S(X)) = 1(1) = .
Ejemplo 1. Sea X
1
, . . . , X
n
N(,
2
).
En el captulo anterior hemos demostrado que un intervalo de conanza
a nivel (1 ) para viene dado por
S(X) = [X t
n1,
2
s
n
, X +t
n1,
2
s
n
]
Construyamos el test correspondiente de nivel para
H : =
0
contra K: =
0
6.8. RELACI
ON ENTRE REGIONES DE CONFIANZA Y TEST 51
0
(X) =
_
1 si
0
/ S(X)
0 si
0
S(X)
pero
0
S(X) si y solo si |
0
X| t
n1,
2
(s/
n), luego
0
(X) =
_
_
1 si

n
|X
0
|
s
> t
n1,
2
0 si

n
|X
0
|
s
t
n1,
2
.
Por lo tanto, este test coincide con el obtenido en el Ejemplo 2 de 6.6,
cuando obtuvimos el test del CMV para este problema. Recprocamente, a
partir de esta familia de tests si se usara el procedimiento indicado anterior-
mente para obtener intervalos de conanza, se llegara al intervalo inicial.
Ejemplo 2. Sea X
1
, . . . , X
n
1
N(
1
,
2
) y sea Y
1
, . . . , Y
n
2
una muestra aleatoria de una distribucion N(
2
,
2
)
independiente de la primera. Se ha visto en el Captulo 5 que
T =
_
n
1
n
2
n
1
+n
2
(X Y (
1
+
2
))
s
donde
s
2
=
1
n
2
+n
1
2
_
n
1
i=1
(X
i
X)
2
+
n
2
i=1
(Y
i
Y )
2
_
tiene distribucion de Student con n
1
+ n
2
2 grados de libertad y que un
intervalo de conanza para
1
2
esta dado por
S(X) =
_
X Y t
n
1
+n
2
2,
2
s
n
1
+n
2
n
1
n
2
, X Y +t
(n
1
+n
2
2),
2
s
n
1
+n
2
n
1
n
2
_
Luego, si se quiere testear H :
1

2
=
0
contra K :
1

2
=
0
, con
nivel de signicacion , se puede obtener un test haciendo
0
(X) =
_
1 si
0
/ S(X)
0 si
0
S(X)
pero
0
S(X) si y solo si
_
n
1
n
2
n
1
+n
2
|X Y
0
|
s
t
n
1
+n
2
2,
2
.
OTESIS
Por lo tanto,
0
(X) =
_
_
1 si
_
n
1
n
2
n
1
+n
2
|X Y
0
|
s
t
n
1
+n
2
2,
2
0 si
_
n
1
n
2
n
1
+n
2
|X Y
0
|
s
< t
(n
1
+n
2
2),
2
.
Hasta aqu hemos estudiado la relacion entre regiones de conanza de
nivel 1 para y test de hipotesis para las hipotesis H : =
0
contra
K : =
0
. Esta situacion se puede generalizar al caso de
H : =
0
contra K : K(
0
)
donde K(
0
) indica una alternativa cualquiera que no contiene a
0
si para
cada
0
se tiene un test de nivel ,
0
, resultara que
S(X) = { :
(X) = 0}
sera una region con nivel de conanza 1 . De la misma forma que antes
S(X) sera el conjunto de todos los tales que la hipotesis de que es
el verdadero valor es aceptada cuando se observa X.
6.9 Cotas de conanza optimas
Se vera ahora como la existencia de tests uniformemente mas potentes para
hipotesis unilaterales permite la construccion de intervalos de conanza uni-
laterales optimas en el sentido denido en la seccion 5.9.
Hemos demostrado en 6.4 que para familias de cociente de verosimilitud
monotono existen tests UMP para las hipotesis:
H
1
: =
0
contra K
1
: >
0
H
2
: =
0
contra K
2
: <
0
En estos casos vale el siguiente teorema
Teorema 1. Sea
0
el test no aleatorizado (si existe) UMP para H
1
contra
K
1
, de nivel . Dada X
1
, . . . , X
n
y siendo
S(X) = { :
(X) = 0}
6.9. COTAS DE CONFIANZA

OPTIMAS 53
i) S(X) es una region de conanza de nivel 1 para .
ii) Si
0
es cualquier otro test no aleatorizado de nivel para esas
hipotesis y
S
(X) = { :
(X) = 0}
entonces P
{
0
S(X)} P
{
0
S
(X)} para todo >

0
.
Demostraci
on. i) Por la denicion de S(X) sabemos que S(X) si y

solo si
(X) = 0, luego
P
{ S(X)} = P
(X) = 0} = 1
por ser
de nivel .
ii) Igual que en i) S
(X) sera una region de conanza de nivel 1 . Por

ser
0
(X) el test UMP para H
1
contra K
1
resulta que
0
()
0
() >
0
o sea,
P
0
(X) = 1} P
0
(X) = 1} >
0
.
Por lo tanto,
P
0
(X) = 0} P
0
(X) = 0} >
0
.
pero como
0
S(X) si y solo si
0
(X) = 0 y
0
S
(X) si y solo si
0
(X) = 0, resulta
P
{
0
S(X)} P
{
0
S
(X)} >
0
.
Un teorema similar puede demostrarse para H
2
contra K
2
.
Veamos como son las regiones S(X) en el caso del Teorema 1.
Teorema 2. Sea X con distribucion perteneciente a una familia F(x, )
de cociente de verosimilitud monotono en T = r(X). Supongamos que la
funcion de distribucion F
T
(t, ) de T es continua para todo . Sea, para
cada
0
,
0
(X) el test UMP para H
1
: =
0
contra K
1
: >
0
, o sea:
0
(X) =
_
1 si T > k
(
0
)
0 si T k
(
0
)
OTESIS
Si ademas F
T
(t, ) es continua en para cada t jo, la region de conanza
S(X) = { :
(X) = 0} = { : T = r(X) k
()}
es el intervalo I = [(X), +), donde
(X) = inf{ : T k
()} .
Demostraci
on. Ya hemos demostrado que si se tiene una familia

de cociente de verosimilitud monotono en T = r(X), el test UMP para
H
1
: =
0
contra K
1
: >
0
es de la forma
0
(X) =
_
_
1 si T > k
(
0
)
(
0
) si T = k
(
0
)
0 si T < k
(
0
)
con k
(
0
) y
(
0
) tales que
E
0
(
0
(X)) = .
Como T tiene distribucion continua, no es necesario aleatorizar y por lo
tanto, el test UMP resulta
0
(X) =
_
1 si T > k
(
0
)
0 si T k
(
0
) .
Mostraremos que
(a) k
() es una funcion no decreciente de .

(b) k
() es una funcion continua a derecha.

(a) Sabemos que por ser
0
el test UMP de nivel para H
1
contra K
1
, la
funcion de potencia de
0
es mayor o igual que el nivel para todo >
0
.
Luego, dado cualquier
1
>
0
se cumple
= E
0
(
0
(X)) = P
0
(T k
(
0
))
E
1
(
0
(X)) = P
1
(T k
(
0
)) .
Como ademas
= E
1
(
1
(X)) = P
1
(T k
(
1
)) ,
tendremos
= P
1
(T k
(
1
)) P
1
(T k
(
0
)) ,

OPTIMAS 55
y por lo tanto, es posible tomar k
(
1
) tal que
k
(
1
) k
(
0
) .
Con lo cual, k
() es una funcion no decreciente de .

(b) Sea
n
una sucesion decreciente que converge a , luego como k
(.) es
no decreciente se tiene
k
(
n
) k
() (6.37)
Sea k = lim
n
k
(
n
) = inf
n1
k
(
n
). Por (6.37) k k
(), bastara
mostrar que k k
().
Como k k
(
n
) se cumple
P
n
(T k) P
n
(T k
(
n
)) = . (6.38)
Pero ademas, como F
T
(k, ) es continua en se tiene
P
(T k) = lim
n
P
n
(T k) . (6.39)
Por lo tanto, (6.38) y (6.39) implican que
P
(T k) = P
(T k
())
luego, es posible tomar k
() tal que k k
(). Con lo cual, k = k
() y
k
() es continua a derecha.
Veamos ahora que S(X) si y solo si (X).
Si S(X) entonces T k
() de donde { : T k
()} y
(X) que es el nmo de este conjunto.
Si > (X) entonces existe
tal que T k
) con (X) <
.
Pero como k
(.) es creciente, resulta T k
() y por lo tanto, S(X).

Si = (X), existe una sucesion
n
decreciente que converge a y tal que
n
{ : T k
()}. Por lo tanto, T k
(
n
). Luego, la continuidad
a derecha de k
() implica que T k
() y por lo tanto, S(X).

Teorema 3. Sea X = (X
1
, . . . , X
n
) una muestra aleatoria de una dis-
tribucion perteneciente a una familia F(x, ) de cociente de verosimilitud
monotono en T = r(X) y sea, para cada
0
,
0
(X) el test UMP para
H
1
: =
0
contra K
1
: >
0
, o sea:
0
(X) =
_
1 si T > k
(
0
)
0 si T k
(
0
)
OTESIS
suponiendo que la distribucion, F
T
(t, ), de T(X) es continua para todo .
Supongamos ademas F
T
(t, ) es continua en para cada t jo.
En estas condiciones
(X) = inf{ : T k
()}
es una cota inferior para uniformemente optima.
Demostraci
on. De acuerdo a la denicion de cota inferior con nivel de

conanza 1 uniformemente optima debera demostrarse que
i) P
( (X)) = 1 para todo ,

ii) si
es otra cota inferior a nivel para

E
(D(, )) E
(D(,
)) para todo (6.40)

donde D es una medida de la subevaluacion de respecto de , denida
por
D(, ) =
_
si >
0 si .
(i) se deduce del Teorema 1, ya que
S(X) = { : (X)}
es un intervalo de nivel de conanza 1 .
(ii) Demostraremos que dada cualquier otra cota
a nivel 1
P
} P
} para todo
. (6.41)
Dado
denamos
(X) =
_
1 si
0 si
>
.
Luego
(X) es un test de nivel para H : =
contra K : >
. Como
(X) es el UMP para estas hipotesis, por Teorema 1, ii) sabemos que
P
(X)} P
(X)} para todo
y como esto se puede hacer para todo
resulta (6.41).

OPTIMAS 57
Se podra demostrar que si cumple (6.41) entonces cumple (6.40).
Intuitivamente esto parece razonable, puesto que una cota inferior de
que cumple (6.41) es, en alg un sentido, la mayor cota inferior y, en este
caso, el defecto que presenta respecto de debera ser lo mas peque no
posible. Sin embargo la demostracion de esta implicacion esta fuera de los
alcances de este curso. (Para la demostracion ver Lehmann [3], ejercicio 21,
pagina 117.)
Ejemplo 1. Sea X
1
, . . . , X
n
U[0, ]. Sabemos que el test UMP para H : =
0
contra K : >
0
es de la
forma
0
(X) =
_
_
_
1 si max
1in
X
i
>
0
n
1
0 si max
1in
X
i

0
n
1
En este caso, si T = max
1in
X
i
y k
() =
n
1
S(X) = { IR :
(X) = 0} = { IR : T k
()}
resulta igual a
S(X) = { IR : max
1in
X
i

n
1 } =
= { IR :
max
1in
X
i
n
1
}
y sera
(X) =
max
1in
X
i
n
1
puesto que este es el menor valor que puede tomar que pertenece a S(X).
Resulta entonces que
I = [(X), +) = [
max
1in
X
i
n
1
, +)
es un intervalo de conanza unilateral para de nivel 1 y que es la
mejor cota inferior para .
Ejemplo 2. Sea X
1
, . . . , X
n
N(,
2
0
) con
2
0
conocido. Sabemos que el test UMP para H : =
0
contra
OTESIS
K : >
0
, es de la forma
0
(X) =
_
_
1 si

n
(X
0
)
0
> z
0 si

n
(X
0
)
0
z
Procediendo en forma similar a la del Ejemplo 1, resulta

S(X) = { IR : X z
n
} .
Luego,
(X) = X z
n
es la mejor cota inferior para y
I = [(X), +) = [X z
n
, +)
es un intervalo unilateral de nivel 1 para .
6.10 Relacion entre intervalos de conanza con nivel
asintotico 1 y test con nivel de signicacion
asintotico
Supongamos que X
1
, . . . , X
n
es una muestra aleatoria de una distribuci on
perteneciente a la familia F(x, ) y que para cada
0
se tenga una sucesi on
de test
n
0
(X
1
, . . . , X
n
) con nivel de signicacion asintotico 1 para
H : =
0
contra K : =
0
. Luego, puede construirse una sucesion de
intervalos de conanza con nivel asintotico 1 deniendo
S
n
(X
1
, . . . , X
n
) = { :
n
(X) = 0} .
Recprocamente, dada una sucesion de intervalos de conanza
S
n
(X
1
, . . . , X
n
) de nivel asintotico 1 , si denimos
n
0
(X) =
_
1 si
0
/ S(X
1
, . . . , X
n
)
0 si
0
S(X
1
, . . . , X
n
)
6.10. RELACION ENTRE INTERVALOS DE CONFIANZA... 59
se tiene que
n
0
es una sucesion de test con nivel de signicacion asintotico
para H : =
0
contra K : =
0
. (Se deja como ejercicio la demostracion
de estos enunciados.)
Ejemplo 1. Sea X
1
, . . . , X
n
Bi(, 1). Ya se ha visto que
n
(X
0
)
_
0
(1
0
)
converge en distribucion a la N(0, 1) cuando =
0
.
Un intervalo de conanza para , con nivel asintotico 1 viene dado
por
S
n
(X) = { :

n
|X |
_
(1 )
< z
2
}
Luego, un test de signicacion asintotico para H : =
0
contra K : =
0
,
viene dado por
(X) =
_
_
1 si

n
|X
0
|
_
0
(1
0
)
z
2
0 si

n
|X
0
|
_
0
(1
0
)
< z
2
.
OTESIS
REFERENCIAS
1. Cherno, H. (1954). On the distribution of the likelihood ratio. Ann.
Math. Statist. 25: 573-578.
2. Ferguson, T.S. (1967). Mathematical Statistics. A Decision Theoretic
Approach. Academic Press.
3. Lehmann, E.L. (1994). Testing Statistical Hypothesis. Chapman and
Hall.
4. Owen, D.B. (1965). The power of Students t test. J. Amer. Statist.
Assoc. 60: 320-333.
5. Wald, A. (1943). Tests of statistical hypothesis concerning several
parameters when the number of observations is large. Trans. Am.
Math. Soc. 54: 426-483.
Chapter 7
Estimaci on Robusta
7.1 El problema de la robustez para el
modelo de posici on
Sea el modelo de posicion y escala
x
i
= +u
i
, 1 i n, (7.1)
donde y son parametros de posicion y escala respectivamente,
u
1
, ..., u
n
son variables i.i.d. con distribucion F. En este caso, x
1
, ..., x
n
resulta una muestra aleatoria de F
, donde F
(x) = F((x)/) Por

ejemplo las x
i
pueden ser distintas mediciones de una misma magnitud
fsica medida con un error u
i
.
Si F = , la funcion de una distribucion N(0,1), entonces las x
i
tienen distribucion N(,
2
). Por lo tanto, un estimador optimo de
es x =

n
i=1
x
i
/n. Efectivamente este estimador es IMVU y minimax.
Es importante se nalar que para que x tenga estas propiedades, la dis-
tribucion de los u
i
debe ser exactamente N(0,1). Sin embargo, en la
mayora de las aplicaciones practicas a lo sumo se puede asegurar los
errores de medici on tienen distribucion aproximadamente normal. Por
lo tanto, cabe preguntarse cual sera el comportamiento de estimador x
en este caso.
Una forma de determinar distribuciones aproximadamente normales
es considerar entornos de contaminacion de la funci on de distribucion
1
ON ROBUSTA
de la N(0,1). Un entorno de contaminacion de tama no de la dis-
tribucion se dene por
V
= {F : F = (1 ) +H con H arbitraria}. (7.2)

La distribucion F = (1 ) + H corresponde a que las obser-
vaciones con probabilidad 1 provienen de la distribucion y con
probabilidad de la distribucion H.
En efecto supongamos que se tienen tres variables aleatoria inde-
pendientes : Z con distribucion , V con distribucion H, y W con
distribucion Bi(1, ). Denamos entonces la variable aleatoria U de la
siguiente manera
U =
_
Z si W = 0
V si W = 1
.
Luego
F
U
(u) = P(U u) = P(U u, W = 0) +P(U u, W = 1)
= P(U u| W = 0)P(W = 0) +P(U u| W = 1)P(W = 1)
= (1 )(u) +H(u).
Con lo cual, si es peque no (por ejemplo .05 o .10) esto signicara
que la gran mayora de las observaciones se obtendran a partir de la
distribucion , es decir seran normales. Por lo tanto, podemos armar
que si es peque no y F V
, entonces F esta cerca de . Supongamos

que tenemos una muestra aleatoria x
1
, ..., x
n
de F V
. Por lo tanto
una proporcion (1 ) de las observaciones estaran dadas por (7.1)
con u
i
proveniente de una distribucion , y una proporcion tendran
el correspondiente u
i
proveniente de la distribucion H. Estas ultimas
observaciones seran denominadas puntos atpicos o outliers, y pueden
ser debidas a realizaciones del experimento en circunstancias anormales
u otros factores de error como, por ejemplo, una equivocaci on en la
transcripcion del dato.
Lo que vamos a mostrar a continuacion es que aunque sea peque no
el comportamiento del estimador x puede ser muy ineciente para dis-
tribuciones F V
.
Primero mostraremos que si
F = (1 ) +H, (7.3)
7.1. EL PROBLEMA DE LAROBUSTEZ PARA EL MODELODE POSICI
ON3
entonces
E
F
(u) = (1 )E
(u) +E
H
(u). (7.4)
Adem as, si E
H
(u) = 0, se tiene
var
F
(u) = (1 )var
(u) +var
H
(u). (7.5)
Para mostrar (7.4) supongamos que la H tiene densidad h , y sea
la densidad correspondiente a . Luego la densidad de F es
f = (1 ) +h,
y luego
E
F
(u) =
_

uf(u)du = (1)
_

u(u)du+
_

uh(u)du = (1)E
(u)+E
H
(u).
Para mostrar (7.5), observemos que
var
F
(u) =
_

u
2
f(u)du
= (1 )
_

u
2
(u)du +
_

u
2
h(u)du =
= (1 ) + var
H
(u).
Consideremos ahora al estimador = x, donde la muestra x
1
, ..., x
n
son
generadas por (7.1) donde las u
i
son independientes con distribucion
dada por (7.3) con E
H
(u) = 0
Luego
var
F
( x) =

2
var
F
(u)
n
=

2
((1 ) + var
H
(u))
n
.
Luego, si = 0, entonces var( x) =
2
/n. En cambio una contami-
naci on de tama no puede producir un aumento de la varianza ilimitado,
ya que var
H
(u) puede ser ilimitada, inclusive innita.
Esta extrema sensibilidad de x a una contaminacion con una pro-
porcion peque na de outliers tambien puede verse de la siguiente forma.
Supongamos que se tiene una muestra x
1
, ..., x
n
y se agrega una obser-
vaci on x
n+1.
Si esta observaci on es un outlier, su inuencia en x puede
ON ROBUSTA
ser ilimitada. En efecto sean x
n
y x
n+1
el promedio basado en n y n+1
observaciones respectivamente. Luego se tiene
x
n+1
=
n
n + 1
x
n
+
1
n + 1
x
n+1
= x
n
+
1
n + 1
(x
n+1
x
n
),
y por lo tanto e x
n+1
puede tomar valores tan altos ( o tan bajos) como
se quiera con tal de tomar x
n+1
sucientemente lejos de x
n
.
Supongamos que tenemos el modelo de posicion dado por (7.1)
donde la distribucion F de los u
i
es simetrica respecto de 0. Como
en este caso es tambien la mediana de las observaciones, un esti-
mador alternativo sera =mediana(x
1
, ..., x
n
). Ordenemos los datos
x
1
, ..., x
n
de menor a mayor obteniendo los valores x
(1)
... x
(n)
.
Luego la mediana estara dada por
=
_
x
(m+1)
si n = 2m+ 1
x(
m)
+x
(m+1)
si n = 2m
.
Veamos que este estimador es mucho mas resistente a outliers que
la media. En efecto, para que la mediana tome un valor ilimitado no es
suciente agregar un outlier, sino se requiere por lo menos n/2 outliers.
Un estimador como la mediana que es poco sensible a outliers se
denomina robusto
La distribucion de para muestras nitas es muy complicada a un
en el caso de muestras normales. Sin embargo, podremos derivar su
distribucion asintotica. Para ello necesitamos una version del Teo-
rema Central del Lmite para arreglos triangulares que enunciaremos
sin demostracion.
Teorema Central del Lmite. Sean para cada n natural, v
n1
, ...v
nn
,
v variables aleatoria independientes igualmente disribuidas. Supong-
amos que existan constantes M > 0 y m > 0, tales que |v
ni
| M y
lim
n
var(v
ni
) m. Luego se tiene que
1
n
1/2
n
i=1
(v
ni
E(v
ni
))
var(v
ni
)
1/2
D
N(0, 1).
7.1. EL PROBLEMA DE LAROBUSTEZ PARA EL MODELODE POSICI
ON5
El siguiente Teorema establece la distribucion asintotica de la me-
diana.
Teorema 1. Sea x
1
, ..., x
n
F con una unica mediana y con una densidad f tal que f() > 0.
Entonces si
n
es la mediana de la muestra, se tiene que
n
1/2
(
n
)
D
N
_
0,
1
4f
2
()
_
.
Demostraci on: Para facilitar la demostracion consideraremos solo el caso
que n = 2m+ 1. Tenemos que demostrar
lim
n
P(n
1/2
(
n
) y) = (2f()y), (7.6)
donde es la funcion de distribucion correspondiente a N(0,1)
Es inmediato que
P(n
1/2
(
n
) y) = P
_

n
+
y
n
1/2
_
. (7.7)
Sea
v
ni
=
_
_
1 si x
i
+
y
n
1/2
0 si x
i
> +
y
n
1/2
, 1 i n. (7.8)
Como v
ni
tiene distribucion Bi(F( +yn
1/2
, 1) se tiene
E(v
ni
) =
n
= F( +
y
n
1/2
),
y
var(v
ni
) =
n
(1
n
).
De acuerdo a la denicion de mediana se tiene que
P
_

n
+
y
n
1/2
_
= P
_
n
i=1
v
ni

n
2
_
= P
_
1
n
1/2
n
i=1
(v
ni
n
)
(
n
(1
n
))
1/2

(n/2 n
n
)
(n
n
(1
n
))
1/2
_
. (7.9)
ON ROBUSTA
Como |v
ni
| 1, y lim
n
var(v
ni
) = 1/4. se cumplen las hipotesis
del Teorema Central del Lmite. Luego
1
n
1/2
n
i=1
(v
ni
n
)
(
n
(1
n
))
1/2
D
N(0, 1). (7.10)
Usando el hecho de que F() = 1/2, y el Teorema del Valor Medio
tenemos
(n/2 n
n
)
n
1/2
= n
1/2
_
F() F( +
y
n
1/2
)
_
= n
1/2
f(
n
)
y
n
1/2
= yf(
n
),
donde
n
es un punto intermedio entre y
n
. Luego usando el hecho
que
n
1/2 y
n
, resulta
(n/2 n
n
)
(n
n
(1
n
))
1/2
2yf(). (7.11)
Luego, usando (7.7), (7.9), (7.10) y (7.11) tenemos que
lim
n
P(n
1/2
(
n
) y) = P
_

n
+
y
n
1/2
_
= 1 (2f()y) = (2f()y),
y por lo tanto hemos probado (7.6).
Observacion 1. El Teorema 1 implica que
n
p
. Tambien puede
probarse que
n
a.s.
, pero no se dara la demostracion.
Apliquemos ahora este resultado al modelo (7.1) y supongamos que
la distribucion F de las u
i
sea simetrica respecto de 0 con densidad f.
En este caso se tendra que la mediana de la distribucion F
es y
f
(x) =
1
f
_
x
_
,
y por lo tanto,
f
() =
1
f(0).
Luego, de acuerdo al Teorema 1, se tendra
n
1/2
(
n
)
D
N
_
0,

2
4f
2
(0)
_
.
7.2. M-ESTIMADORES DE POSICI
ON 7
Si F = , entonces f(0) = 1/
2 y entonces
n
1/2
(
n
)
D
N
_
0,

2
2
_
.
Por otro lado, n
1/2
( x
n
) tiene distribucion N(0,
2
). Por lo tanto
la varianza asintotica de
n
es aproximadamente 57% mas alta que la
varianza de x
n
. Esto signica que la propiedad que tiene la mediana
de ser poco sensible a observaciones atpicas tiene como contrapartida
negativa ser 57% menos eciente que x
n
en el caso de errores normales.
De todas maneras esto es menos grave que el comportamiento de x
n
bajo una contaminaci on con outliers. En efecto, recordemos que en
este caso una fracci on de outliers tan peque na como se quisiera poda
provocar que la varianza se hiciese innita.
Sin embargo, lo ideal sera tener un estimador robusto, es decir
poco sensible a outliers y que simultaneamente fuera altamente eciente
cuando los datos son normales. En las secciones siguientes vamos a
tratar entonces de encontrar estimadores con estas propiedades.
7.2 M-estimadores de posici on
7.2.1 Denicion de M-estimadores
Consideremos el modelo (7.1) y supongamos que conozcamos la dis-
tribucion F de las u
i
. y el parametro de escala . Estas hipotesis no
son muy realistas y mas adelante las eliminaremos. Sin embargo sera
conveniente suponerlas momentaneamente para simplicar el planteo
del problema. Supongamos que F tiene una densidad que llamaremos
f = F
. Luego, la densidad de cada x

i
sera
f
(x) =
1
f
_
x
_
,
y luego la funci on de verosimilitud correspondiente a la muestra x
1
, ..., x
n
sera
L() =
1
n
n
i=1
f
_
x
i
_
.
ON ROBUSTA
Tomando logaritmos, como se supone conocida, se tendra que el
estimador de maxima verosimilitud de que llamaremos
f
( la f como
subscripto indica que corresponde a que las u
i
tienen densidad f) estara
dado por el valor que maximiza
n
i=1
log f
_
x
i

_
.
Equivalentemente, podemos decir que
f
minimiza
S() =
n
i=1
f
_
x
i

_
, (7.12)
donde
f
(u) = log f(u) + log f(0).
Por ejemplo, si f corresponde a la distribucion N(0,1). Entonces
f
(u) = u
2
/2, y entonces el estimador de maxima verosimilitud mini-
miza
S() =
1
2
2
n
i=1
(x
i
)
2
,
o equivalentemente, el que minimiza
S() =
n
i=1
(x
i
)
2
,
el cual es precisamente x
n
.
Si f corresponde a la distribucion doble exponencial, entonces
f(u) =
1
2
e
|u|
, < u < ,
y por lo tanto
f
(u) = |u|. Entonces en este caso el estimador de
maxima verosimilitud corresponde a minimizar
S() =
n
i=1
|x
i
|, (7.13)
y el valor que minimiza (7.13) es precisamente la mediana de la muestra.
ON 9
En el parrafo anterior hemos visto los inconvenientes de media y
la mediana muestral. Si conocieramos exactamente f, podramos uti-
lizar el estimador de maxima verosimilitud, del cual conocemos que
tiene varianza asintotica mnima y que esta dado por (7.12). Como
en general se tiene solo un conocimiento aproximado de f, por ejem-
plo que corresponde a una distribucion de V
, Huber (1964) deni o los

M-estimadores para el modelo de posicion como el valor valor que
minimiza
S() =
n
i=1
_
x
i
_
, (7.14)
donde la funci on es elegida independientemente de f y de tal manera
que tenga las propiedades deseadas:
1. El estimador es altamente eciente cuando f corresponde a la
distribucion N(0,1)
2. El estimador es poco sensible a contaminaci on por outliers, en
particular es altamente eciente para toda f correspondiente a
una distribucion de V
.
A la funcion que dene al M-estimador se le pedira las siguientes
propiedades
A1 La funcion es derivable. Denominaremos =
.
A2 La funcion es par.
A3 La funcion (u) es monotona no decreciente en |u|.
A4 Se cumple que (0) = 0.
Huber (1964) propuso una familia de funciones intermedias entre
las correspondientes a la distribucion N(0,1) y a la doble exponencial.
Esta funciones es cuadratica para valores de valor absoluto peque nos
y lineal para valores absolutos grandes. Mas precisamente, para cada
k 0 se dene
H
k
por
H
k
(u) =
_
_
ku k
2
/2 si u < k
u
2
/2 si |u| k
ku k
2
/2 si u > k
.
ON ROBUSTA
-3 -2 -1 0 1 2 3
0
1
2
3
4
Huber
Media
Mediana
Figure 7.1: Funciones correspondientes a la Media (en negro), la
mediana (en rojo) y el M-estimador con funcion de Huber (en verde)
En la Figura 7.1 se gracan las funciones correspondiente la media
a la mediana y a la funcion de Huber. Observese que las funciones
H
k
resultan derivables en todos los puntos, incluidos los puntos de cambio
k y k. Mas adelante mostraremos que eligiendo k convenientemente
los M-estimadores basadas en estas funciones gozan de las propiedades
1 y 2 enunciadas en esta seccion.
Para encontrar el valor mnimo de S() en (7.14) que dene el M-
estimador podemos encontrar sus punto crticos derivando. De esta
manera obtenemos la siguiente ecuaci on
A() =
n
i=1
_
x
i

_
= 0. (7.15)
El siguiente Teorema muestra que bajo ciertas condiciones la ecuaci on
7.15 tiene solucion y corresponde a un mnimo de S().
Teorema 2. Supongamos que es continua impar, no decreciente y
para alg un a se tiene (a) > 0. Entonces
ON 11
(i) La ecuaci on (7.15) tiene al menos una raz.
(ii) Toda raz de (7.15) corresponde a un mnimo de S().
(iii) Las races de (7.15) forman un intervalo.
(iv) Si es estrictamente creciente hay una unica raz de (7.15).
Demostraci on. (i) Sea M = max
1in
x
i
y m = min
1in
x
i
. Sea
1
=
ma y
2
= M+a. Luego (x
i
1
)/ a para todo i y (x
i
2
)/
a para todo i. Luego ((x
i

1
)/) (a) > 0 para todo i y
((x
i

2
)/) (a) = (a) < 0 para todo i. Luego A(
1
) > 0
y A(
2
) < 0. Como A() es continua, existe un punto
0
entre
2
y
1
tal que A(
0
) = 0.
(ii) Como S
() = (1/)A(),es facil ver que S() S(

0
) =
(1/)
_
0
A(u)du. Supongamos que
0
es una raz de A(). Supong-
amos que
0
> 0. Habra que mostrar que
S(
0
) S(), . (7.16)
Vamos a mostrar (7.16) solamente para >
0
. El caso <
0
se
demostrara similarmente. Tomemos >
0
, luego
S() =
1
0
A(u)du.
Como es no decreciente resulta A no creciente. Luego como
A(
0
) = 0, resulta A() 0 para >
0
. Por lo tanto resulta
_
0
A(u)du 0, y por lo tanto
S() S(
0
).
En el caso <
0
se demuestra similarmente que tambien vale
(7.16).
(iii) Supongamos que
1
<
2
sean races de A, y sea un valor tal
que
1
< <
2
. Tenemos que mostrar que tambien A() = 0. Como
A es no creciente se tendra
0 = A(
1
) A() A(
2
) = 0.
ON ROBUSTA
-3 -2 -1 0 1 2 3
-
3
-
2
-
1
0
1
2
3
-3 -2 -1 0 1 2 3
-
3
-
2
-
1
0
1
2
3
-3 -2 -1 0 1 2 3
-
3
-
2
-
1
0
1
2
3
Huber Media Mediana
Figure 7.2: Funciones correspondientes a la Media (en negro), la
mediana (en rojo) y el M-estimador con funcion de Huber (en verde)
y luego A() = 0.
(iv) Supongamos que A() = 0. Veremos que no puede haber otra
raz de A. Sea primero
> , como en este caso A es estrictamente

decreciente se tendra A(
) < 0. Similarmente se demuestra que si
< , entonces A(
) > 0.
Como vamos a ver mas adelante la funcion cumple un papel muy
importante en la teora de M-estimadores. Para la funcion correspon-
diente a la media, resulta (u) = u, para la funcion correspondi-
ente mediana (u) = |u|, y para la funciones
H
k
, las correspondientes
derivadas
H
k
estan dadas por
H
k
(u) =
_
_
k si u < k
u si |u| k
k si u > k
.
la cual corresponde a una identidad truncada. En Fig. 7.2 se gracan
estas tres funciones .
Como consecuencia de la propiedad A2, la funci on es impar .
ON 13
Para que el M-estimador sea robusto como veremos mas adelante se
requerira que la funcion sea acotada.
7.2.2 Propiedades asintoticas de M-estimadores
La condici on de consistencia de Fisher, requerida para que el M-estimador
converja a esta dada por
E
F
_
_
x
__
= 0,
y de acuerdo a (7.1), esto es equivalente a
E
F
((u)) = 0. (7.17)
Esta condici on se cumple automaticamente si F tiene una densidad
simetrica respecto de 0 ya que en ese caso se tendra
E
F
((u)) =
_

uf(u)du = 0,
ya que uf(u) sera una funcion impar.
Luego, se tendra el siguiente Teorema que muestra la consistencia
de los M-estimadores:
Teorema 3. Sean x
1
, ...x
n
variables aleatorias independientes que sat-
isfacen el modelo (7.1). Consideremos un estimador
n
solucion de
(7.15), donde y F satisfacen (7.17) . Luego
n
converge en casi todo
punto a en cualquiera de los siguientes casos
1. La funcion es estrictamente creciente.
2. La funcion es no decreciente, (u) > (0) y F(u) > F(0) para
todo u > 0.
Demostraci on: Solamente mostraremos el Teorema para el caso 1. Con-
sideremos > 0. Luego como es estrictamente creciente tenemos que
(u ) < (u), y luego
E
F
(u ) < E
F
(u) = 0.
ON ROBUSTA
Por lo tanto
E
F
_
x ( +)
_
= E
F
(u ) < 0. (7.18)
Similarmente se puede probar que
E
F
_
x ( )
_
= E
F
(u +) > 0. (7.19)
Sea ahora
G
n
(
) =
1
n
n
i=1
_
x
i

_
,
luego el M-estimador
n
satisface
G
n
(
n
) = 0. (7.20)
Por otro lado usando la ley de los grandes n umeros y (7.18) y (7.19)
se tiene que con probabilidad 1 existe un n
0
tal que para todo n > n
0
se tiene que
G
n
( +) < 0, G
n
( ) > 0,
y por lo tanto como G
n
es monotona decreciente, se tiene que el valor

n
satisfaciendo (7.20) tendra que satisfacer que
<
n
< +.
Esto prueba la consistencia de
n
.
El siguiente teorema muestra la asintotica normalidad de los M-
estimadores
Teorema 4. Sean x
1
, ...x
n
n
solucion de
(7.15), donde y F satisfacen (7.17). Supongamos que
n
es consis-
tente, y que adem as tiene dos derivadas continuas y
es acotada.
Luego se tiene que
n
1/2
(
n
)
D
N(0,
2
V (, F)),
ON 15
donde
V (, F) =
E
F
2
(u)
(E
F
(u))
2
. (7.21)
Demostraci on. El M-estimador
n
satisface
n
i=1
_
x
i

n
_
= 0,
y haciendo un desarrollo de Taylor en el punto se tiene
0 =
n
i=1
_
x
i

i=1
_
x
i

_

n
+
1
2
n
i=1
_
x
i

_
(
n
)
2
2
,
donde
n
n
y .
Luego, haciendo un despeje parcial de (
n
) se tiene
(
n
) =
n
i=1
((x
i
)/)
1
i=1
((x
i
)/)
1
2
(
n
)
2
n
i=1
((x
i
n
)/)
,
y luego
n
1/2
(
n
) =
1
n
1/2
n
i=1
((x
i
)/)
1
n
n
i=1
((x
i
)/)
1
2
2
(
n
)
1
n
n
i=1
((x
i

n
)/)
.
(7.22)
Sea
A
n
=
1
n
1/2
n
i=1
((x
i
)/) =
1
n
1/2
n
i=1
(u
i
) ,
B
n
=
1
n
n
i=1
((x
i
)/) =
1
n
n
i=1
(u
i
) ,
y
C
n
=
1
2
(
n
)
1
n
n
i=1
((x
i
n
)/) .
ON ROBUSTA
Luego
n
1/2
(
n
) =
A
n
1
B
n
+
2
C
n
. (7.23)
Por el Teorema Central del Lmite se tiene
A
n
D
N(0, E
F
(
2
(u))). (7.24)
Por la Ley Fuerte de los Grandes N umeros se tiene
B
n
p
E
F
(
(u)). (7.25)
Finalmente, por hipotesis existe una constante K tal que |
(u)| <
K. Luego |C
n
| < (K/2)(
n
). Usando el hecho de que
n
p
, se
tiene que
C
n
p
0. (7.26)
Usando (7.23)-(7.26) se deduce el Teorema.
7.2.3 M-estimador minimax para la varianza asintotica
El problema que vamos a desarrollar en esta secci on es el de elegir la
funcion o equivalentemente la funci on del M-estimador. En esta
secci on vamos a utilizar como criterio minimizar la varianza asintotica
del M-estimador dada en (7.21). Si conocieramos la distribucion F de
las u
i
, utilizaramos el M-estimador que tiene como funcion la dada
por
(u) =
d log f(u)
du
,
es decir el estimador de maxima verosimilitud. Este estimador mini-
miza la varianza asintotica V (, F) dada en (7.21). Cuando existe la
posibilidad de que hubieran outliers la distribucion F no es conocida
exactamente y por lo tanto no podemos usar este estimador.
La solucion que propuso Huber (1964) es la siguiente. supongamos
que F este en el entorno de contaminacion dado por (7.2), pero re-
stringiendo H a distribuciones simetricas respecto de 0. Para esto
denimos un nuevo entorno de distribuciones de
V
= {F : F = (1 ) +H con H simetrica}. (7.27)

ON 17
Luego, si usa el M-estimador basado en la funcion . la mayor var-
ianza posible en este entorno esta dada por
V
() = sup
FV
V (, F).
El criterio de Huber para elegir el M-estimador es utilizar la funcion
que minimice V
(). Estos estimadores se denominaran minimax

(minimizan la maxima varianza asintotica en el entorno de contami-
naci on V
. En Huber (1964) se muestra que
esta en la familia
H
k
,
donde k depende de la cantidad de contaminacion .
7.2.4 M-estimadores con escala desconocida
La denici on de los M-estimadores dada en (7.14) supone que es
conocida. Sin embargo, en la practica es desconocida. En estos
casos podemos reemplazar en esta ecuaci on por un estimador , y el
M-estimador se denira por el valor que minimiza
S() =
n
i=1
_
x
i

n
_
. (7.28)
Si queremos que el M-estimador resultante de sea robusto, sera
necesario que tambien lo sea. El estimador insesgado usual de dado
por

2
=
1
n
i=1
(x
i
x)
2
no es robusto. En efecto, es facil ver que una observacion lo pueda
llevar fuera de todo lmite. Un estimador robusto de es el llamado
MAD (median absolute deviation), que esta denido por

2
= A mediana{|x
i

n
|, 1 i n},
donde

n
= mediana{x
i
: 1 i n},
y donde A es una constante que hace que el estimador sea consistente
a en el caso de que las observaciones sean una muestra aleatoria de
una N(,
2
).
ON ROBUSTA
Vamos ahora a deducir cual debe ser el valor de A. Sean x
1
, ..., x
n
una muestra de una distribucion N(,
2
). Entonces podemos escribir
x
i
= + u
i
, donde u
1
, ..., u
n
es una muestra aleatoria de una dis-
tribucion N(0,1). En este caso tenemos que
x
i

n
= (
n
) +u
i
y
mediana{|x
i

n
|, 1 i n} = mediana{|(
n
)+u
i
|, 1 i n}.
Como de acuerdo a lo visto en Observaci on 1, lim(
n
) = 0 casi
seguramente, se tendra que
lim
n
mediana{|x
i

n
|, 1 i n} = lim
n
mediana{|u
i
|, 1 i n} }
= lim
n
mediana{|u
i
|, 1 i n}, c.s.. (7.29)
Si u es N(0,1), entonces |u| tiene distribucion 2 1. Sea entonces
B = mediana(2 1), luego por lo visto en Observaci on 1 se tiene
lim
n
mediana{|u
i
|, 1 i n} = B, c.s.
y usando (7.29)
lim
n
mediana{|x
i

n
|, 1 i n} = B c.s.
Luego A = 1/B. La constante B se calcula de la siguiente manera
2(B) 1 = 0.5,
o sea
(B) = 0.75, B =
1
(0.75) = 0.675.
Luego se tendra que el estimador MAD de viene dado por

2
=
1
0.6745
mediana{|x
i

n
|, 1 i n}.
Cuando el M-estimador se obtiene minimizando (7.28), la ecuaci on
(7.15) se transforma en
ON 19
n
i=1
_
x
i

_
= 0. (7.30)
Las propiedades asintoticas del estimador solucion de (7.30) son
similares a las del estimador correspondiente al caso de conocida. El
siguiente Teorema se dara sin demostracion.
Teorema 5. Sean x
1
, ...x
n
n
solucion de
(7.30), donde es impar y F es simetrica respecto de 0. Supongamos
que
n
es consistente a y
n
es consistente a , y que adem as tiene
dos derivadas continuas y
es acotada. Luego se tiene que

n
1/2
(
n
)
D
N(0,
2
V (, F)),
donde V esta dada por (7.21)
7.2.5 Algoritmos para calcular M-estimadores
A continuaci on vamos a describir tres algoritmos para computar el M-
estimador denido como la solucion de (7.30).
Algoritmo basado en medias ponderadas iteradas (MPI)
Llamemos w(u) = (u)/u. Luego la ecuaci on (7.30).se puede escribir
como
n
i=1
(x
i
)w
_
x
i

_
= 0,
o sea
n
i=1
x
i
w
_
x
i

_
= w
_
x
i

_
,
y haciendo un despeje parcialde se tiene
=
n
i=1
x
i
w((x
i
)/ )
n
i=1
w( (x
i
)/ )
. (7.31)
ON ROBUSTA
En realidad esta expresion no es un verdadero despeje, ya que el
miembro derecho tambien aparece . Sin embargo esta formula nos va
a sugerir un algoritmo iterativo para calcular .
En efecto, consideremos un estimador inicial
0
de , como por
ejemplo la mediana.Luego podemos denir

1
=
n
i=1
x
i
w((x
i

0
)/ )
n
i=1
w( (x
i

0
)/ )
,
y en general si ya tememos denido
h
, podemos denir
h+1
por

h+1
=
n
i=1
x
i
w((x
i

h
)/ )
n
i=1
w( (x
i

h
)/ )
. (7.32)
Se puede mostrar que este si es continua, entonces cuando este
algoritmo iterativo converge, lo hace a una soluci on de (7.30). En efecto
supongamos que lim
h

h
= , luego tomando limite en ambos lados
de (7.32), se tendr a
=
n
i=1
x
i
w((x
i
)/ )
n
i=1
w( (x
i
)/ )
. (7.33)
Pero esta ecuaci on es precisamente (7.31) , que ya hemos visto es
equivalente a (7.30).
La ecuaci on (7.33) muestra a como promedio pesado de las x
i
y
pesos proporcionales a w( (x
i
)/ ) . Como en general w(u) es una
funcion par monotona no creciente en |u|, (7.33) se puede interpretar
como que el M-estimador da a cada observacion un peso que penaliza
las observaciones para las cuales |x
i
|/ es grande. Para la media
se tiene w(u) = 1, y para el estimador basado en la funcion
H
k
, la
correspondiente funcion de peso esta dada por
ON 21
-3 -2 -1 0 1 2 3
0
.
5
0
.
6
0
.
7
0
.
8
0
.
9
1
.
0
-3 -2 -1 0 1 2 3
0
.
5
0
.
6
0
.
7
0
.
8
0
.
9
1
.
0
Huber Media
Figure 7.3: Funciones de peso w correspondientes a la Media (en negro)
y al M-estimador con funcion de Huber (en verde)
w
H
k
(u) =
_
1 si |u| k
k
|u|
si |u| > k
.
El graco de esta funcion se encuentra en la Figura 7.3.
Algoritmo basado en medias de pseudovalores iteradas (MPVI)
Denamos el pseudovalor x
i
() por
x
i
() = + ((x
i
)/ ) .
Luego se tiene
((x
i
)/ ) = (x
i
() )/ ,
y reemplazando en (7.30) se tiene la ecuaci on para el M-estimador es
n
i=1
(x
i
( ) )/ = 0.
ON ROBUSTA
Haciendo un despeje parcial de se tiene
=
1
n
n
i=1
x
i
( ). (7.34)
Es decir, se tiene expresado el M-estimador como promedio simple
de los pseudo valores. Esta formula no permite calcular el M-estimador
directamente, ya que el miembro derecho tambien depende de . Sin
embargo, nos sugiere el siguiente algoritmo iterativo. Partiendo de un
estimador inicial
0
, consideramos la siguiente formula recursiva para

h

h+1
=
1
n
n
i=1
x
i
(
h
). (7.35)
Es interesante calcular los pseudovalores correspondientes a
H
k
, los
cuales estan dados por
x
i
() =
_
_
k si x
i
< k
x
i
si |x
i
| k
+k V si x
i
> +k
.
Es decir, si x
i
pertenece al intervalo [k , +k ], el pseudovalor
x
i
() es igual a la observaci on x
i
. Si x
i
esta fuera de este intervalo el
psudovalor se dene como el extremo del intervalo mas cercano.
Vamos a ver ahora que si lim
h

h
= y es continua, entonces
es el M-estimador solucion de (7.30). En efecto, tomando lmite en
ambos miembros de (7.35) se obtiene (7.34), que ya hemos visto es
equivalente a (7.30).
Algoritmo de Newton Raphson (NR)
De acuerdo a lo visto anteriormente, el algoritmo de Newton Raphson
para calcular la raz de (7.30) tiene la siguiente formula recursiva

h+1
=
h
+
n
i=1
((x
i

h
)/ )
n
i=1
((x
i

h
)/ )
. (7.36)
ON 23
Para el caso de que =
H
k
, esta formula toma una expresion
particularmente interesante.
Para cada valor dividamos el conjunto de observaciones en tres
conjuntos
D
= {i : (x
i

h
)/ < k},
D
0
= {i : |x
i

h
|/ k},
D
+
= {i : (x
i

h
)/ > k}.
Es facil ver que se tiene
H
k
((x
i

h
)/ ) =
_
_
k si i D
(x
i

h
)/ si i D
0
k si i D
+
,
y
H
k
((x
i

h
)/ ) =
_
_
0 si i D
(
h
)
1 si i D
0
(
h
)
0 si i D
+
(
h
)
.
Llamando n
, n
0
y n
, al n umero de elementos de D
, D
0
y D
+
y reemplazando en (7.36), se tiene

h+1
=
h
+
k(n
+
n
) +
iD
0
(x
i

h
)/
n
0
=
n
+
n
n
0
k+
1
n
0
iD
0
x
i
.
Observese que el miembro derecho de esta ultima formula solo de-
pende de D
, D
0
y D
+
. Estos tres conjuntos forman una particion del
conjunto {1, 2, ..., n}. Es claro que hay un n umero nito de estas parti-
ciones, y por lo tanto si
h
converge lo debe hacer en un n umero nito
de pasos.
Convergencia de los algoritmos iterativos
Se puede demostrar que los 3 algoritmos iterativos que hemos estudiado
MPI, MPVI, y NR convergen a la raz de (7.30) cuando es monotona
no decreciente cuando esta es unica. Si (7.30) tiene mas de una raz, se
puede demostrar que si [
1
,
2
] es el intervalo de soluciones, entonces
dado > 0, existe h
0
tal que
h
[
1
,
2
+] para todo h > h
0
.

Apunte Estadística

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte Estadística

Cargado por

Copyright:

Formatos disponibles

Notas de Estadstica

Autores: Graciela Boente- Vctor Yohai

) < f(x) < f(). Es decir, a medida

En el ejemplo 3, se uso el estadstico T = r(X) = X

(X) signica la esperanza de X cuando X tiene la distribuci on

ETODO DE LOS MOMENTOS 3

() indica la derivada de la funcion (). Luego el sistema (3.3) se

(x, ). Claramente se tiene

), (3.4) se puede escribir como

() nos proporciona un criterio para determinar si un es-

podra denirse mediante la

(X) = q() que no depende del valor de la muestra. Luego si

satisface (3.9), debe cumplirse:

(X) = q()) = 1 (3.10)

() indica la probabilidad del evento cuando el valor de los

(|(X) q()| > c) .

con E.C.M. mnimo uniformemente en como se indica

(X) denidos anteriormente. Por lo tanto, una man-

(X) mejor que el, es

(X) tal que

(X) es otro estimador de q()

on. Supongamos que P

(X)) < 1 y sea

(X)) /2. Luego, por ser (, d) convexa se cumple

(X). Luego, tomando esperanza en ambos miembros de

(X), se cumple Var

on: La haremos solo para el caso discreto. Supongamos primero

es una funcion biunvoca de T, entonces tambien T

ISTICOS MINIMALES SUFICIENTES 23

= m(T) tambien es suciente para

on: Apliquemos el teorema de factorizacion a la funcion de

(x) = m(r(x)), y esto prueba que T

(X) es suciente para .

on. Obviamente, para todo 1 i < j k el cociente

on. Sea U un estadstico suciente para , entonces U es

(T) tambien lo es.

on: Podemos escribir

(T) q()) + ((X)

(T) = E((X)|T) es realmente un estimador

(). Vamos a calcular

(T)) = (1 )/n y Var

on. Inmediata a partir del Teorema 1 de 3.9.

on: Es inmediata, ya que por (3.18) se tiene

on: Solo se hara para el caso discreto. Para el caso general se

on: No se dara en este curso, puede consultarse en el Teorema

on: Supongamos que X sea continuo. El caso discreto es

(g(T)) = 0 para todo implica que P

(g(T) = 0) = 1 para todo

(g(X)) = 0, para todo . Mostraremos que

on: a) Como T es suciente para

(g(T) = 0) = 1 para todo .

on. La haremos solo en el caso en que el estadstico minimal

((T)) < y bastara

[g(T)] = 0 para todo . Por lo tanto,

((T) = (U)) = 1 para todo , y entonces T es equivalente a

on. Sea A un suceso, como U tiene distribucion independiente

(T) es por el Teorema 1 de la seccion 3.9 insesgado, de (ii) se

on: Inmediata a partir de los Teoremas 3 de seccion 3.10 y 1

(X)} = 0 . Una condicion necesaria y

[|h(X)|] < para todo

[|h(X)|] < para todo , se

on: (i) Por ser p(x, ) una densidad, si S es el conjunto denido

on: (i) Sea (x, ) =

. Por el Lema 1 tenemos que