Ciencias Sociales PDF

Notas de Estadstica
Autores: Graciela Boente- Vctor Yohai

Contenido
1. Introduccin a la inferencia estadstica

2. Estimacin puntual
3. Estimadores Bayesianos y Minimax
4. Intervalos y regiones de confianza
5. Tests de hiptesis
6. Estimacin robusta
Chapter 2
Introduccion a la Inferencia
Estadstica
2.1 Poblaciones finitas
Frecuentemente en los problemas de las diferentes disciplinas se estudia el

comportamiento de varias variables definidas sobre un conjunto de obje-
tos. El conjunto de objetos sera denominado poblaci on y sera representado
por P = {a1 , a2 , . . . , an }; a1 , a2 , . . . , an seran denominados los elementos
de la poblacion P. Sobre esos elementos se observan variables, indicadas
X1 , X2 , . . . , Xk , que son caractersticas que cambian de individuo a indi-
viduo. Luego para cada elemento a en P, estara definido
X1 (a), X2 (a), . . . , Xk (a).
Ejemplo 1: Consideremos una poblacion P formada por un conjunto de

1000 parcelas que constituyen una explotacion agrcola y donde se cultiva
solamente trigo. Sea X(a) la cosecha en la parcela a durante un determinado
a
no medida en kilogramos.
Ejemplo 2: Consideremos el conjunto P de votantes en una determinada

eleccion donde se presentan 3 candidatos, que denominamos 1, 2 y 3. Defi-
nimos X(a) como el n umero del candidato votado por a.
Ejemplo 3: Supongamos que la poblacion P consiste de todos los pajaros

de una especie determinada que habitan en una region determinada. Para
1
A LA INFERENCIA ESTADISTICA
2 CHAPTER 2. INTRODUCCION
cada pajaro se define X(a) como el largo del pajaro y Y (a) el area de las
alas.
Distribuci on de una variable en la poblaci on. Llamaremos distribuci on

de una variable X en la poblacion P a la distribucion que se obtiene cuando
se elige al azar un elemento de la poblacion, es decir, cuando se le da a todo
elemento de la poblacion la misma probabilidad. Luego se tiene
# {a P, X(a) x}
FX (x) =
#P
donde # A indica el n umero de elementos de A. Del mismo modo se define

distribucion conjunta de dos o mas variables en la poblacion P. Luego si X
e Y son variables definidas sobre la poblacion P sera
# {a P : X(a) x, Y (a) y}
FXY (x, y) =
#P
Observese que la distribucion de una variable definida en una poblacion

finita es necesariamente discreta, ya que la variable correspondiente toma
solo un numero finito de valores.
2.2 Poblaciones infinitas
En muchos problemas interesa la distribucion de una variable aleatoria X (o

de varias variables X1 , X2 , . . . , Xk ) que se observan cada vez que se repite un
mismo experimento perfectamente definido. En estos casos, cada elemento
a estudiar corresponde al resultado de un experimento, pero no existe un
conjunto finito fijo de experimentos definido de antemano, ya que al menos
teoricamente se puede repetir el experimento tantas veces como se quiera.
Se puede pensar entonces en una poblaci on infinita compuesta por los infini-
tos posibles experimentos que teoricamente se pueden realizar, aunque tal
poblacion no tiene existencia real.
Ejemplo 1: El experimento consiste en tirar una moneda y X vale 0 o 1

seg
un caiga ceca o cara.
Ejemplo 2: El experimento consiste en repartir 10 cartas elegidas al azar

de un mazo de 52. X es el n
umero de corazones, e Y el n
umero de sietes.
2.3. MODELOS PARA LA DISTRIBUCION DE UNA VARIABLE 3
Ejemplo 3: El experimento consiste en fabricar y probar una lampara; X

es el tiempo de duracion de la misma.
Ejemplo 4: Se desea medir una magnitud fsica, cuyo valor verdadero es

desconocido. Cada medicion esta afectada de un error aleatorio. Luego lo
que se observa al hacer una medicion es una variable X = + , donde es
el error. La medicion se puede repetir tantas veces como se quiera.
Lo que hace que una poblacion sea infinita es que el experimento pueda
repetirse infinitas veces y no el n
umero de posibles resultados que puede ser
finito como puede verse en los ejemplos 1 y 2.
Distribuci on de una variable en una poblaci on infinita. En el caso de

poblacion infinita se puede suponer que cada vez que se repite el experimento
se observa una variable aleatoria X (o varias variables X1 , X2 , . . . , Xk ) con
una cierta distribucion F (x) (o distribucion conjunta F (x1 , x2 , . . . , xk )), y
que a diferentes experimentos corresponden variables aleatorias independien-
tes. De acuerdo a la ley de los grandes n umeros, F (x) puede verse como el
lmite en casi todo punto de la distribucion emprica asociada a n repeti-
ciones independientes del experimento. Es decir, si se realiza una sucesion
de experimentos y los valores observados son x1 , x2 , . . . , xn , . . ., entonces si
Fn (x) = # {xi : xi x, 1 i n} / n se tendra Fn (x) F (x) en c.t.p.
La distribucion F (x) sera denominada distribucion de la variable X en la
poblacion infinita considerada.
2.3 Modelos para la distribuci

on de una variable
en una poblaci
on
Tanto en el caso de poblaciones finitas como en el de poblaciones infini-

tas, la distribucion F puede ser muy complicada e irregular. Sin embargo,
frecuentemente puede ser aproximada por una distribucion de forma relati-
vamente sencilla. Consideremos el ejemplo 1 de 2.1. Como la poblacion es
finita, la distribucion real de X es discreta. Sin embargo, como el numero
de parcelas es muy grande, 1000, y como es muy probable que los valores
X(ai ) sean todos diferentes (pueden diferir muy poco, pero es muy difcil
que haya 2 exactamente iguales), resulta que la probabilidad de cada uno de
los valores es muy peque na (1/1000). Por lo tanto, se puede pensar que la
distribucion real puede aproximarse por una distribucion continua de forma
sencilla, por ejemplo una distribucion normal. Esto sugiere la introduccion

del concepto de modelo.
Llamaremos modelo de la distribuci on de una variable en una poblaci on a
un conjunto de hipotesis que se suponen validas para la distribucion de una
variable en una poblacion. Mas formalmente, supongamos que la variable
tiene distribucion F perteneciente a una familia F. Al fijar el modelo, se
establecen hipotesis sobre la familia F que, en general, se cumpliran en forma
aproximada. La bondad de un modelo para describir la distribucion de una
poblacion estara dada por el grado de aproximacion que tengan las hipotesis
del modelo con la distribucion real.
Por lo tanto, de acuerdo a lo que dijimos anteriormente, se podra usar
un modelo continuo para la distribucion de variables en poblaciones finitas.
Clasificaremos los modelos en parametricos y no parametricos.
Modelos param etricos: Consisten en suponer que la distribucion F (x)

de la variable en la poblacion pertenece a una familia de distribuciones que
depende de un n umero finito de parametros reales. As, ejemplos de modelos
parametricos son los siguientes:
(a) F (x) pertenece a la familia N (, 2 ),
(b) F (x) pertenece a la familia Bi (, n),
(c) F (x) pertenece a la familia P (),
(d) F (x) pertenece a la familia (),
(e) Si F (x, y) es la distribucion de dos variables, un modelo puede ser

F (x, y) pertenece a la familia N (1 , 2 , 12 , 22 , ),
(f) Si F (x1 , x2 , . . . , xk ) es la distribucion de k variables un modelo puede

ser F (x1 , . . . , xk ) pertenece a la familia M (1 , 2 , . . . , k , n).
En general, un modelo parametrico tendra la siguiente forma. Si F (x)

es la distribucion de una variable X, entonces F (x) pertenece a la familia
F = {F (x, 1 , 2 , . . . , k ) }, donde = (1 , 2 , . . . , k ) es el vector
de parametros que toma valores en un conjunto Rk . Esto significa
que existe algun valor , digamos 0 tal que F (x, 0 ) coincide con la
distribucion F (x) (aunque en la realidad no coincidira, sino que resultara
parecida).
2.3. MODELOS PARA LA DISTRIBUCION DE UNA VARIABLE 5
Ejemplo 1: Para el ejemplo 1 de 2.1, podemos usar el modelo definido por

la familia de distribuciones N (, 2 ).
Ejemplo 2: Para el ejemplo 2 de 2.1 , podemos usar el modelo M (1 , 2 , 3 , 1).

En este caso, el modelo sera exacto con
# {a P ; X(a) = i}
i = , i = 1, 2, 3.
#P
Ejemplo 3: Para el ejemplo 3 de 2.1, podemos usar para la distribucion
F (x, y) el modelo N (1 , 2 , 12 , 22 , ).
Ejemplo 4: Para el ejemplo 3 de 2.2 podemos usar el modelo ().
Ejemplo 5: Para el ejemplo 4 de 2.2 se puede usar el modelo N (, 2 ).
Modelos no param etricos: En los modelos no parametricos se supone

que la distribucion F (x) de la variable (o de las variables si hay mas de una)
en la poblacion, pertenece a una familia F, pero esta familia no puede ser
indicada con un n umero finito de parametros reales.
Ejemplo 6: Consideremos nuevamente el ejemplo 4 de 2.2. Un modelo no

parametrico razonable sera el siguiente. Sea el valor verdadero que se
quiere medir, luego la distribucion de X (el valor observado en una medicion
pertenece a la familia F de todas las distribuciones tales que:
(i) Son continuas con densidad f (x),
(ii) f ( + x) = f ( x) es decir son simetricas alrededor del verdadero

valor , por lo tanto la probabilidad de un error positivo es la misma
que de uno de igual valor absoluto pero negativo.
(iii) Si > x > x0 , entonces f (x0 ) < f (x) < f (). Es decir, a medida
que se alejan del verdadero valor los posibles resultados tiene menor
probabilidad.
Esta familia de distribuciones F descripta por (i), (ii) y (iii) no puede

ser indicada por un n
umero finito de parametros.
Ventajas relativas de los modelos param etricos y no param etricos

La ventaja fundamental de los modelos parametricos, consiste en que la
distribucion que se elige para representar a la distribucion de la variable en
la poblacion puede ser descripta por un n umero finito de parametros. Esto
permite inclusive la posibilidad de tabulacion. Por ejemplo en el caso de
la familia N (, 2 ) basta tabular la distribucion N (0, 1). Para obtener otra
distribucion de la familia basta con realizar una transformacion lineal. En
el caso de la familia P () basta tabularla para algunos valores de . Por
ejemplo, para valores de escalonados de 0.1 en 0.1. Para otros valores de
, la distribucion se puede obtener por interpolacion.
Ademas, como la descripcion del modelo tiene una formulacion analtica
relativamente simple, su tratamiento matematico es mas sencillo y las con-
clusiones a las que se pueden arribar mas fuertes.
Los modelos no parametricos carecen de estas ventajas, pero en recom-
pensa tienen mucha mayor flexibilidad. Esto se debe a que la familia de posi-
bles distribuciones para la poblacion es mas numerosa y por lo tanto mayor
es la posibilidad que haya en esta familia una distribucion muy proxima a
la real.
Por ejemplo, en el caso del ejemplo 6 de 2.3 ya no representa el valor
esperado de la variable X, que podra no existir. Por lo tanto, su valor apro-
ximado no podra conocerse promediando los valores observados como en el
caso parametrico, en el que se supone, por ejemplo, que X tiene distribucion
N (, 2 ).
Eleccion del modelo: La eleccion del modelo puede ser hecha en base
a consideraciones teoricas, o porque la experiencia indica que ajusta bien.
Por ejemplo, si F es la distribucion del tiempo de espera hasta que un de-
terminado mecanismo falle, y por consideraciones teoricas podemos suponer
que el mecanismo tiene falta de desgaste, podemos suponer como modelo
para F la familia exponencial (). En otros problemas puede suceder que
no se pueda elegir el modelo en base a consideraciones teoricas, pero si la
experiencia indica a traves de estudios anteriores, por ejemplo, que puede
ser bien aproximada por una distribucion normal, entonces se usara como
modelo la familia N (, 2 ).
Veremos en el transcurso del curso, metodos para poner a prueba el
modelo elegido, es decir metodos para determinar si el modelo elegido puede
describir dentro de una aproximacion aceptable la distribucion de la variable
(o variables) en la poblacion. Esto se hara en el captulo 6.
2.4. INFERENCIA ESTADISTICA 7
2.4 Muestra de una distribuci

on. Inferencia es-
tadstica
Supongamos que hemos definido un modelo para la distribucion F de una

variable en una poblacion, y para fijar ideas supongamos que hemos elegido
un modelo parametrico F (x, ) con = (1 , 2 , . . . , k ) , donde Rk .
En general, va a interesar saber sobre F algo mas que el hecho de pertenecer
a la familia F (x, ). Puede interesar conocer totalmente la distribucion, es
decir, el valor de , o algunas caractersticas de la misma.
Ejemplo 1: Volvamos al ejemplo 1 de 2.1 y supongamos que hemos elegido

para la distribucion de X en la poblacion la familia N (, 2 ). Consideremos
tres problemas diferentes.
(a) Interesa conocer la distribucion F completamente. En este caso hace

falta conocer los valores de ambos parametros, y 2 .
(b) Se requiere solo el conocimiento de la produccion total. Como hay

1000 parcelas la produccion total sera 1000 y por lo tanto bastara
con conocer .
(c) Se ha fijado una meta de producir al menos 200 toneladas de trigo y

lo u
nico que interesa es saber si se cumple o no la meta. Luego en este
caso lo u nico que interesa es saber si < 200 o 200, aunque no
interesa el valor exacto de .
Volvamos al problema general, la caracterstica numerica que interesa de

la distribucion puede ser expresada como q(1 , 2 , . . . , k ), donde q(1 , 2 , . . . , k )
es una funcion de en R si interesa una sola caracterstica numerica, o en
Rh si interesan h caractersticas. En el ejemplo 1, tendramos para (a)
q(, 2 ) = (, 2 ); para (b) q(, 2 ) = 1000 y para (c)
(
2 0, si < 200
q(, ) = .
1, si 200
ltimo caso q(, 2 ) = 0 nos indica que no se cumplio la meta y

As, en este u
2
q(, ) = 1 indica que se cumplio.
Para conocer el valor de q(1 , 2 , . . . , k ) exactamente, deberamos cono-
cer el valor de la variable X en toda la poblacion. As, en el ejemplo 1,
deberamos conocer la produccion de todas las parcelas. Observar el valor

de la variable para todos los elementos de la poblacion puede ser muy cos-
toso, o aun imposible, como en el caso de poblaciones infinitas. Inclusive en
el caso de poblaciones finitas puede ser imposible si se quiere la informacion
con cierta premura. En el ejemplo 1, si se pueden cosechar solo 20 parcelas
por da, se necesitaran 50 das para conocer cual es la produccion de cada
una de las 1000 parcelas. Si se quisiera el primer da de la cosecha hacer
una estimacion de la produccion total, esta debera hacerse en base a los
resultados de las 20 parcelas cosechadas ese da.
Se puede definir la Estadstica como la ciencia que estudia los procedi-
mientos para determinar el valor de una o varias caractersticas q(1 , . . . , k )
de una distribucion de una variable en una poblacion que se supone pertenece
a una familia F (x, 1 , 2 , . . . , k ) observando solo unos pocos elementos si se
trata de una poblacion finita o realizando unos pocos experimentos en el
caso de una poblacion infinita. Al conjunto de estas pocas observaciones en
base a las cuales se determinara q(1 , 2 , . . . , k ) se denomina muestra. Si el
modelo es no parametrico esta formulacion cambiara ligeramente, como se
vera mas adelante.
Los procedimientos estadsticos pueden clasificarse en dos grandes tipos:
procedimientos de dise no y procedimientos de inferencia.
Procedimientos de dise no: Son los procedimientos para elegir las obser-
vaciones que componen la muestra, de manera que con pocas observaciones
se pueda obtener la mayor informacion posible sobre q(1 , 2 , . . . , k ).
Procedimientos de inferencia: Son los procedimientos que permiten a

partir de la muestra inferir la caracterstica de la distribucion de la variable
en la poblacion que interesa, es decir q(1 , 2 , . . . , k ).
Para ejemplificar, volvemos nuevamente al Ejemplo 1. En este caso un

posible dise
no, no necesariamente el optimo, para la seleccion de la muestra
de 20 observaciones puede ser el siguiente. Se elige la primera parcela al azar.
El rendimiento de esta parcela sera una variable aleatoria que llamaremos
X1 y que tendra distribucion N (, 2 ). La segunda parcela se elige al azar
entre todas las que quedan. El rendimiento de esta parcela sera una varia-
ble aleatoria que llamaremos X2 . Como la poblacion de parcelas es grande
(hay 1000 parcelas), la distribucion de la variable X practicamente no se
modificara despues de la extraccion de la primera parcela, por lo tanto a
los efectos practicos, X2 puede ser considerada como una variable aleatoria
independiente de X1 y con la misma distribucion N (, 2 ). Repitiendo este

procedimiento tendremos variables aleatorias X1 , X2 , . . . , X20 que podemos
considerar independientes y cada una con una distribucion N (, 2 ). De-
nominaremos a X1 , X2 , . . . , X20 muestra aleatoria de tama no 20 de la dis-
2
tribucion N (, ).
En general, se dira que X1 , X2 , . . . , Xn es una muestra aleatoria de
tama no n de una distribuci on F (x) si X1 , X2 , . . . , Xn son variables aleato-
rias (o vectores aleatorios) independientes e identicamente distribudas con
distribucion F (x). Es decir si
FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = F (x1 ) F (x2 ) . . . F (xn ) (2.1)
y en el caso que F (x) sea una distribucion discreta o continua con funcion
de frecuencia o de probabilidad p, (2.1) sera equivalente a
pX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = p(x1 ) p(x2 ) . . . p(xn )
En el caso de poblaciones finitas, una muestra aleatoria de tama no n se ob-

tendra observando n elementos de la poblacion elegidos al azar. Para que las
variables fuesen estrictamente independientes los elementos deberan elegirse
uno a uno y ser restitudos en la poblacion antes de elegir el proximo. Sin
embargo si el tama no de la muestra es relativamente peque no respecto al to-
tal de la poblacion, aunque no se haga la restitucion las variables observadas
seran aproximadamente independientes, y a los fines practicos podemos con-
siderarla una muestra aleatoria.
En el caso de poblaciones infinitas, la muestra aleatoria se obtendra sim-
plemente repitiendo el experimento n veces y observando cada vez el vector
de variables correspondiente.
Consideremos ahora como a partir de la muestra X1 , X2 , . . . , X20 que
hemos obtenido, utilizando procedimientos de inferencia resolvemos los pro-
blemas (a), (b) y (c) que hemos planteado.
El problema (a) consista en encontrar aproximadamente la distribucion
de la variable X en la poblacion, es decir, estimar y 2 .
P
Definamos X n = (1/n) ni=1 Xi ; luego para estimar se puede usar X 20 .
Es de esperar que X 20 se aproxima a ya que de acuerdo a la ley de los
grandes n umeros limn X n = c.t.p.
El procedimiento estadstico para estimar a partir de la muestra, es
formar el promedio de los valores que la componen; es decir X 20 . Esto es
un procedimiento de inferencia estadstica, ya que a partir de una muestra
de 20 observaciones, inferimos el valor caracterstico de la distribucion de

la variable en la poblacion.
Similarmente se puede estimar 2 . Partimos de 2 = Var Xi = E(Xi2 )
P
(E(Xi ))2 . Dado que E(Xi2 ) puede estimarse por (1/20) 20 2 2
i=1 Xi , puede
estimarse por
20
2 1 X 2
b20
= X 2 X 20
20 i=1 i
Haciendo manipulaciones algebraicas, se obtiene
20
2 1 X
b20
= (Xi X 20 )2
20 i=1
no n, 2 podra
En general, si se tuviese una muestra aleatoria de tama
estimarse por
n
1X
bn2 =
(Xi X n )2
n i=1
En el problema (b), cuando se quiere conocer la produccion total, es decir
q(, 2 ) = 1000, podemos usar para esta estimacion 1000 X 20 . Es decir,
el procedimiento de inferencia sera el siguiente. Se hace el promedio de las
observaciones que componen la muestra, y se lo multiplica por 1000.
En el problema (c), es decir el problema de decidir si < 200 o 200,
el procedimiento de inferencia puede ser el siguiente: se decidira que < 200
si X 20 < 200 y se decidira que 200 si X 20 200.
Los problemas (a) y (b) son los que se denominan de estimaci on puntual,
mientras que el problema (c) es un problema de test de hip otesis, ya que
en base a la muestra se desea decidir entre dos opciones y determinar las
probabilidades de error. Como veremos mas adelante, las dos hipotesis no
se consideraran en forma simetrica y se determinara cual de los dos errores
a cometer es mas grave, para poder controlar su probabilidad.
Los procedimientos que hemos propuesto no son los u nicos posibles, ni

necesariamente los mejores; solamente fueron introducidos para ejemplificar
la naturaleza de los procedimientos estadsticos. Podemos formular una
primera generalizacion de la situacion descripta en el Ejemplo 1 diciendo
que un problema de inferencia estadstica parametrica consistira en: dada
una muestra aleatoria de tama no n, X1 , X2 , . . . , Xn de la distribucion de
una variable en una poblacion de la cual se conoce solamente que pertenece
a una familia F = {F (x, 1 , 2 , . . . , k ) con = (1 , 2 , . . . , k ) }, donde
Rk , se quiere inferir conocimiento de algunas caractersticas de esta

distribucion, definidas por una funcion q() que va de en Rh , siendo h el
n
umero de caractersticas en las que se esta interesado.
Ejemplo 2: Volvamos al ejemplo 6 de 2.3. Supongamos que se quiere

conocer . Observemos que si F es la distribucion de la variable X, en-
tonces de acuerdo con las hipotesis del modelo para toda F F se tiene
que es la esperanza correspondiente a la distribucion F , si es que esta
existe (puede no existir) y tambien es la mediana correspondiente a F
(la mediana siempre existe). Luego es una cierta funcion de F , digamos
= q(F ). Si queremos estimar , debemos tomar una muestra aleatoria
de F , digamos de tama no n; X1 , X2 , . . . , Xn . Esto se lograra repitiendo n
veces la medicion de . Consideremos ahora el procedimiento para inferir .
Si estuviesemos seguros que F tiene esperanza podramos usar para estimar
P
, X n = (1/n) ni=1 Xi , ya que de acuerdo a la ley de los grandes n umeros
debera converger a E(Xi ) = . Sin embargo la existencia de esperanza no
es una hipotesis que hemos requerido para que F F. En caso que F no
tenga esperanza, se puede mostrar que X n no converge a y por lo tanto
no sera un buen estimador.
En este caso, podemos usar el siguiente procedimiento: ordenamos las
Xi , obteniendo X (1) < X (2) < X (3) < < X (n) , donde X (1) es la menor
de las Xi , X (2) la siguiente, hasta llegar a X (n) , que sera la mayor de todas.
Supongamos que n = 2p + 1, luego estimamos por b = X (p+1) , es decir
por la observacion central. Si n = 2p podemos tomar como b = (X (p) +
X (p+1) )/2. Por ejemplo, si tuviesemos 7 mediciones y estas resultasen 6.22;
6.25; 6.1; 6.23; 6.18; 6.15; 6.29, se tendra X (1) = 6.1; X (2) = 6.15; X (3) =
6.18; X (4) = 6.22; X (5) = 6.23; X (6) = 6.25 y X (7) = 6.29. Estimaramos
por b = X (4) = 6.22. Se puede mostrar que este procedimiento da resultados
razonables para una familia F como la estudiada.
El ejemplo 2 nos sugiere la siguiente formulacion del problema de infe-

rencia estadstica no parametrica: Dada una muestra aleatoria de tama no
n, X1 , . . . , Xn de la distribucion F de una variable en una poblacion, y de
la cual se sabe solamente que pertenece a una familia F que no puede ser
indicada por un n umero finito de parametros reales, interesa conocer algunas
caractersticas de F expresadas como una funcion q(F ) que va de F a Rh ,
siendo h el n umero de caractersticas que interesan.
El siguiente ejemplo nos permitira formular un tipo de problemas de
inferencia estadstica mas general que el estudiado hasta ahora.
Ejemplo 3: Supongamos que el rendimiento por hectarea de un cierto

cultivo depende de la cantidad de fertilizante que se usa y que la relacion es
de la forma
X = aG + b +
donde G es la cantidad de fertilizante usado por hectarea, X el rendimiento
por hectarea y un termino aleatorio que tiene en cuenta todos los otros
factores que intervienen en la determinacion de los rendimientos, a y b son
parametros desconocidos.
Supongamos que se cultivan n parcelas usando respectivamente
G1 , G2 , . . . , Gn cantidad de fertilizante por hectarea y sean los rendimien-
tos respectivos observados X1 , X2 , . . . , Xn . Luego se tendra:
Xi = aGi + b + i 1in
Supongamos que las i son variables aleatorias independientes igualmente
distribudas con distribucion N (0, 2 ), donde 2 es desconocido. Los valores
G1 , G2 , . . . , Gn son valores numericos conocidos (no variables aleatorias).
Luego en este caso las variables aleatorias Xi , 1 i n, seran inde-
pendientes con distribucion N (aGi + b, 2 ) y por lo tanto no son igualmente
distribudas. En este caso estamos interesados en conocer los parametros a y
b que establecen la relacion entre G y X quizas tambien en 2 que establece
la varianza de , es decir del termino residual.
Estos parametros deben ser estimados a partir del vector muestra X =
(X1 , X2 , . . . , Xn ). Sin embargo, el vector X tiene componentes con diferentes
distribuciones. Se podran dar ejemplos donde las variables no sean tampoco
independientes.
Esto nos sugiere un concepto mas amplio de problema estadstico que los
vistos anteriormente.
Un problema de inferencia estadstica parametrica general consistira en:
dado un vector muestra X = (X1 , X2 , . . . , Xn ) de cuya distribuci on conjunta
se conoce solamente que pertenece a una familia
F = {F (x1 , x2 , . . . , xn , 1 , 2 , . . . , k ) con = (1 , 2 , . . . , k ) Rk },
inferir conocimiento sobre una funcion q() de en Rh .
En el ejemplo 3, = (a, b, 2 ) y la densidad correspondiente a la dis-
tribucion es
1 Pn
12 (x a Gi b)2
p(x1 , x2 , . . . , xn ; a, b, 2 ) = n/2
e 2 i=1 i
(2)
La funcion q() dependera del problema que interesa. Si se quiere conocer
la relacion entre G y X lo que interesara sera q() = (a, b). Si interesa saber
cual es el rendimiento promedio cuando se utilizan 200 kg por hectarea, lo

que interesara conocer sera q() = 200 a + b. Si interesa saber solamente
si el fertilizante
( tiene un efecto positivo, la funcion q() estara dada por
0 si a 0
q() = .
1 si a > 0
Un procedimiento de inferencia estadstica para este problema se vera en
el ejemplo 1 de la seccion 3.4. Una teora general que abarca este problema
se vera en el captulo 7.
De la misma forma se podra formular el concepto de problema de infe-
rencia estadstica no parametrica general.
Concepto de estadstico
Supongamos dado un problema de inferencia estadstica donde se ob-
serva un vector muestra X = (X1 , X2 , . . . , Xn ) con distribucion en la familia
F (x1 , x2 , . . . , xn ; ) con y donde se quiera inferir acerca de q(). Esta
inferencia se tendra que hacer a partir de X, es decir, por funciones de X.
Luego se define como estadstico a cualquier funcion medible que tenga como
argumento a X y que tome valores en un espacio euclideo de dimension finita.
En el ejemplo 1, hemos visto que la estimacion de y 2 se haca mediante
el estadstico
n n
!
X Xi X (Xi X n )2
T = r(X) = ,
i=1
n i=1
n
En el ejemplo 3, se uso el estadstico T = r(X) = X (p+1) .
Hasta ahora, hemos supuesto que el parametro de existir es fijo. Exis-

te otra aproximacion, en la cual, el parametro es una variable aleatoria.
Los procedimientos estadsticos bayesianos suponen que es una variable
aleatoria no observable, a valores en un espacio con distribucion . La
distribucion a priori establecida antes de tomar la muestra, se modifica en
base a los datos para determinar la distribucion a posteriori, que resume lo
que se puede decir del parametro en base a las suposiciones hechas y a los
datos.
Los metodos estadsticos, que van desde el analisis de datos hasta el
analisis bayesiano, permiten sacar en forma creciente conclusiones cada vez
mas fuertes, pero lo hacen al precio de hipotesis cada vez mas exigentes y,
por lo tanto, menos verificables.
Chapter 3
Estimaci
on puntual
3.1 Introducci
on
En este captulo introduciremos algunos conceptos de la teora de estimacion

puntual. Los resultados que se desarrollaran, se aplican al problema de ajus-
tar distribuciones de probabilidad a los datos. Muchas familias de distribu-
ciones, como la normal, N (, 2 ), o la Poisson, P (), dependen de un n umero
finito de parametros y salvo que estos se conozcan de antemano, deben ser
estimados para conocer aproximadamente la distribucion de probabilidad.
Consideremos el siguiente problema de inferencia estadstica parametri-
ca. Supongamos se ha observado un vector muestra X = (X1 , X2 , . . . , Xn )
de cuya distribucion solo se conoce que pertenece a una familia
F = {F (x1 , x2 , . . . , xn , ) donde = (1 , . . . , p ) IRp }. Suponga-
mos que interese conocer aproximadamente q(), donde q() es una funcion
de en IR. La u nica informacion que se tiene sobre es el vector X, por lo
tanto cualquier estimacion que se haga de , debera estar basada en X. Un
estimador puntual de q() sera cualquier estadstico (X) de IRn en IR.
Un buen estimador (X) debera tener la propiedad de que cualquiera sea
el valor de , que es desconocido, la diferencia (X) q() sea peque na. En
que sentido esta diferencia es peque na sera especificado mas adelante.
As en el ejemplo 1 de 2.4 se tena para el problema (a) necesidad de
estimar q1 (, 2 ) = y q2 (, 2 ) = 2 , para el problema (b) se requera
estimar q(, 2 ) = 1000 . En cambio el problema (c) no era de estimacion,
ya que lo que se buscaba no era aproximar q(, 2 ) que vale 0 o 1 seg un
< 200 o 200, sino decidir si q(, 2 ) era 0 o 1.
1
2 PUNTUAL
CHAPTER 3. ESTIMACION
Tambien podemos considerar problemas de estimacion puntual no

parametrica. En este caso solo se conoce que el vector muestra
X = (X1 , X2 , . . . , Xn ) tiene una distribucion F (x1 , x2 , . . . , xn ) perteneciente
a una familia F, pero esta familia no puede indicarse con un n umero finito
de parametros, y quiere estimarse una funcion q(F ) que va de F en IR. El
ejemplo 2 de 2.4 es un ejemplo de este tipo.
El ejemplo 3 de 2.4 es otro ejemplo de estimacion puntual parametrica.
Comenzaremos describiendo distintos metodos de estimacion que intui-
tivamente parecen razonables, su justificacion queda diferida para mas ade-
lante.
3.2 M
etodo de los momentos
Sea X = (X1 , X2 , . . . , Xn ) una muestra aleatoria de una familia de distribu-

ciones F (x, ), donde IR, y supongamos que se quiera estimar
.
Sea g una funcion de IR en IR, luego el metodo de los momentos estima
, por el valor b = (X) que satisface la ecuacion
n
1X
g(Xi ) = Eb

(g(X1 )), (3.1)
n i=1
donde E (X) significa la esperanza de X cuando X tiene la distribucion

F (x, ). La justificacion heurstica de este metodo se basa en el hecho que
de acuerdo a la ley de los grandes n umeros
n
1X
g(Xi ) E (g(X1 )) c.t.p.
n i=1
y por lo tanto, si puede expresarse como una funcion continua de E (g(X1 )),
se puede esperar que cuando n es grande el valor b que satisface la ecuacion
(3.1) estara cerca de .
En general, se toman como funciones g las funciones generadoras de mo-
mentos, ya que se supone que los parametros de la distribucion se relacionan
con los momentos a traves de alguna funcion continua.
Ejemplo 1: Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribucion

de la cual solo se conoce que esta en la familia N (, 1). Usando el metodo

3.2. METODO DE LOS MOMENTOS 3
de los momentos y usando g(x) = x se obtiene

n
1X
Xi = E b b.
(X1 ) =
n i=1
Pn
b = (1/n)
Luego i=1 Xi es el estimador de resultante.

N (0, 2 ). Usando el metodo de los momentos con g(x) = x2 se obtiene
n
1X
X 2 = Eb (X12 ) =
b2 .
n i=1 i
Pn
b 2 = (X1 , . . . , Xn ) = (1/n)
Luego i=1 Xi2 es el estimador de 2 resultante.

P (), usando la funcion g1 (x) = x se obtiene como estimador de
n
1X b.
Xi = Eb (Xi ) =
n i=1
Luego el estimador de los momentos resultantes usando la funcion g1 resulta

n
b 1X
1 = 1 (X1 , X2 , . . . , Xn ) = Xi .
n i=1
Tambien podemos usar la funcion g2 (x) = x2 . Recordando que

E (X12 ) = Var (X1 ) + (E (X1 ))2 = + 2 ,
obtenemos n
1X b+
b2 ,
X 2 = Eb (X12 ) =
n i=1 1
y resolviendo esta ecuacion de segundo grado el valor resulta
v
u
n
u X Xi2
b = 1 t1 +
.
2 4 i=1 n
Como el parametro es positivo, la solucion que interesa es la positiva.

Luego el estimador correspondiente a g2 vendra dado por
v
u n
u X Xi2
b 2 = 2 (X1 , X2 , . . . , Xn ) = 1 + t 1 +

2 4 i=1 n
4 PUNTUAL
Luego observamos que eligiendo distintas funciones g, obtenemos diferentes

estimadores. Todava no estamos en condiciones de comparar uno con otro,
por lo que dejamos este punto sin resolver hasta mas adelante.
Generalizaci on cuando hay varios par ametros: Supongamos que se

tiene una muestra aleatoria X1 , X2 , . . . , Xn de una distribucion perteneciente
a la familia F = {F (x, 1 , 2 , . . . , p ) con = (1 , 2 , . . . , p ) IRp }.
Para estimar 1 , 2 , . . . , p por el metodo de los momentos se procede
como sigue: Se consideran k funciones g1 , g2 , . . . , gp de IR en IR y se resuelve
el siguiente sistema
n
1X
gj (Xi ) = E b (gj (X1 )) j = 1, 2, . . . , p .
n i=1

N (, 2 ). Consideremos g1 (x) = x y g2 (x) = x2 . Como se tiene
E,2 (g1 (X1 )) = y E,2 (g2 (X1 )) = 2 + 2 ,
para estimar y 2 se debera resolver el sistema
n
1X
Xi b
=
n i=1
n
1X
X2 =
b2 +
b2 .
n i=1 i
Luego, se tiene
n
1X
b = 1 (X1 , X2 , . . . , Xn ) =
Xi
n i=1
y
n n
!2 n
2 1X 1X 1X
b = 2 (X1 , X2 , . . . , Xn ) =
X2 Xi = b )2
(Xi
n i=1 i n i=1 n i=1
que coinciden con los estimadores que habamos propuesto en el ejemplo 1
de 2.4.

(, ). Consideremos g1 (x) = x y g2 (x) = x2 . Como se tiene
( + 1)
E, (g1 (X1 )) = y E, (g2 (X1 )) = ,
2

3.3. METODO
DE MAXIMA VEROSIMILITUD 5
para estimar y se debera resolver el sistema

n
1X
Xi = bb
n i=1
n
1X
X 2 = b(bb+1) .
n i=1 i 2
P P
Indiquemos por X = n1 ni=1 Xi y por b 2 = n1 n 2
i=1 (Xi X) . Entonces,
despejando del sistema anterior, los estimadores de los momentos para y
resultan ser
b = 1 (X1 , X2 , . . . , Xn ) = X

b2

y
2
X
b = 2 (X1 , X2 , . . . , Xn ) =
.
b2

Estimaci on de q(). Si lo que interesa estimar es una funcion de , q()

y esta funcion es continua, el metodo de los momentos consistira en estimar
primero por b y luego q() se estimar b La justificaci
a por q(). on de esto
b b estar
reside en que si esta proximo a , entonces como q es continua, q() a
proxima a q().
3.3 M
etodo de m
axima verosimilitud
Supongamos que se observa un vector muestra X = (X1 , X2 , . . . , Xn ) dis-

creto o continuo cuya funcion de densidad discreta o continua pertenezca a
una familia p(x, ), y se quiera estimar .
En el caso discreto p(x, ) representa la probabilidad de observar el vector
x = (x1 , x2 , . . . , xn ), cuando el valor del parametro es . Es razonable pensar
que si hemos observado el vector x, este tendra alta probabilidad. Luego se
podra estimar como el valor que hace maxima p(x, ). Un razonamiento
analogo se puede hacer en el caso continuo, recordando que la probabilidad
de un hipercubo con centro en x y de arista , cuando es peque no tiene
n
probabilidad aproximadamente igual p(x, ) . Esto sugiere la siguiente
definicion:
6 PUNTUAL
Definici b
on 1: Diremos (X) es un estimador de maxima verosimilitud
(E.M.V.) de , si se cumple
b
p(X, (X)) = max p(X, )

Ejemplo 1: Supongamos que puede tomar valores = 1 o = 0 y que

p(x, ) viene dado por

x
0 1
0 0.3 0.6
1 0.7 0.4
1 1
Supongamos que se observe una muestra de tama no 1 con valor X. Luego

el estimador de maxima verosimilitud viene dado por
(
b 1 si X = 0
(X) =
0 si X = 1
Computo del E.M.V.: Supongamos ahora que es un subconjunto

abierto de IRp , que el soporte de p(x, ) no depende de y que p(x, )
tiene derivadas parciales respecto a todas las componentes i .
Como la funcion ln() (logaritmo natural) es monotona creciente, maxi-
b
mizar p(x, ) sera equivalente a maximizar ln p(x, ). Luego el E.M.V. (X)
debe verificar:
ln p(X, )
=0 i = 1, 2, . . . , p . (3.2)
i
Hasta ahora hemos supuesto que X es un vector con una distribucion
arbitraria. Supongamos ahora que X = (X1 , X2 , . . . , Xn ) es una muestra
aleatoria de una distribucion discreta o continua con densidad p(x, ). Luego
se tiene n Y
p(x, ) = p(x1 , x2 , . . . , xn , ) = p(xj , )
j=1

3.3. METODO
y bajo las condiciones dadas anteriormente, el sistema de ecuaciones (3.2)

se transforma en
n
X b
ln p(xi , )
=0 j = 1, 2, . . . , p . (3.3)
i=1
j
b)
ln p(x,
Supongamos que indicamos por j (x, ) = j , entonces (3.3) puede
escribirse como
n
X
j (xi , ) = 0 j = 1, 2, . . . , p .
i=1
Esta ecuacion corresponde a la forma general de los denominados M estimadores,

que veremos mas adelante.
Por supuesto que tanto (3.2) como (3.3) son condiciones necesarias pero
no suficientes para que sea un maximo. Para asegurarse que b es un
maximo deberan verificarse las condiciones de segundo orden respectivas.
Ademas debe verificarse que no se trata de un maximo relativo sino absoluto.

Bi(, k), con k conocido, luego cada variable Xi tiene funcion de densidad
!
k
p(x, ) = x (1 )kx
x
y
ln p(x, ) x kx x k
= = .
1 (1 )
Luego (3.3) se transforma en la ecuacion
n
X Xi k b
=0,
b )
(1 b
i=1
y despejando b resulta
n
b 1 , X2 , . . . , X n ) = 1 X
(X Xi .
nk i=1

N (, 2 ). Busquemos los E.M.V. de y 2 . La funcion de densidad de cada
variable Xi es
1 1 2
2
p(x, , ) = e 2 2 (x) .
2 2
8 PUNTUAL
Por lo tanto,
ln p(x, , 2 ) x
=
2
y
ln p(x, , 2 ) 1 1
2
= 2 + ( 2 )2 (x )2 .
2 2
Luego el sistema (3.3) se transforma en el sistema
n
X
b2 = 0
b)/
(Xi
i=1
n
X 1 1
2
b )2 = 0
+ 4 (Xi
b
2 b
2
i=1
que tiene como solucion
n
X
b(X1 , X2 , . . . , Xn ) =
Xi /n = X
i=1
Xn
b 2 (X1 , X2 , . . . , Xn ) =
(Xi X)2 /n
i=1
que son los mismos estimadores que encontramos por el metodo de los mo-
mentos.

(, ). La densidad de Xi esta dada por
1
p(x, , ) = x1 e x ,
()
con lo cual
ln p(x, , ) 0 ()
= ln + ln x
()
y
ln p(x, , )
= x,

0
donde () indica la derivada de la funcion (). Luego el sistema (3.3) se
transforma en el sistema

3.3. METODO
n
X
b+ 0 ()
b
n ln ln(Xi ) n = 0
()b
i=1
b
n
nX = 0 ,
b

1 Pn b . Pero, este sistema no tiene una soluci
b=
con X = n i=1 Xi . Luego X
on
b obtenemos la ecuaci
explcita ya que al reemplazar el valor de on no lineal
n
X 0 ()
b
b ln(X) +
n ln ln(Xi ) n =0,
()b
i=1
que puede resolverse, por ejemplo mediante, el algoritmo de Newton-Raphson.

Para iniciar el proceso, se puede tomar como estimador inicial el estimador
de los momentos, por ejemplo.
En este caso, el estimador de maxima verosimilitud no coincide con el
estimador de los momentos.
Invarianza de los E.M.V. Supongamos que = q() es una funcion

biunvoca de sobre , donde IRp . Luego la densidad p(x, ) se puede
expresar en funcion de ya que = q 1 (). Denominemos a la densidad
de X como funcion de por p (x, ). Claramente se tiene
p (x, ) = p(x, q 1 ())

b y
Luego se definen los E.M.V. b por
b = max p(x, )
p(x, ) (3.4)

y
b = max p (x, )
p (x, ) (3.5)

El siguiente teorema muestra que los estimadores de maxima verosimili-

tud son invariantes por transformaciones biunvocas.
b es E.M.V. de , entonces
Teorema 1: Si b = q()
b es E.M.V. de .
Demostracio n: Como b es E.M.V. de se tendr

a que (3.4) vale. Como
b b
= q(), (3.4) se puede escribir como
b = max p(x, q 1 ())
p(x, q 1 ())

10 PUNTUAL
pero, esta ecuacion de acuerdo a la definicion de p es equivalente a

b = max p (x, ) ,
p (x, )

b satisface (3.5) y por lo tanto es un E.M.V. de .
luego
Ejemplo 5: De acuerdo al Teorema 1, en el ejemplo 2, el E.M.V. de =

q() = ln sera

b = ln b = ln X .

k
En general, si = q(), aunque q no sea bunvoca, se define el estimador

de maxima verosimilitud de por
b = q()
b .
Ejemplo 6: Supongamos que en el ejemplo 3 interese encontrar el E.M.V.

de = q(, 2 ) = / 2 . Aunque esta transformacion no es biunvoca, el
E.M.V. de sera
P
n
b = q( X i=1 Xi
b 2 ) = Pn
b, = Pn
2 2
i=1 (Xi X) /n i=1 (Xi X)
pues basta completar la transformacion dada a una transformacion biunvoca,

tomando por ejemplo, q1 (, 2 ) = .
3.4 M
etodo de cuadrados mnimos
Supongamos que X1 , X2 , . . . , Xn son variables aleatorias de la forma
Xi = Si (1 , . . . , p ) + i 1in (3.6)
donde = (1 , 2 , . . . , p ) es un vector de parametros desconocido, del cual

nico que se conoce es que esta en un conjunto IRp y i son variables
lo u
aleatorias con
(i) E(i ) = 0
(ii) Var(i ) = 2

3.4. METODO DE CUADRADOS MINIMOS 11
(iii) 1 , 2 , . . . , n son variables aleatorias independientes.
Ejemplo 1: Consideremos el ejemplo 3 de 2.4. Luego, en este caso, poniendo

1 en lugar de a y 2 en lugar de b, se tiene
Xi = 1 Gi + 2 + i 1in
donde las variables i satisfacen (i), (ii) y (iii).

Luego si llamamos:
Si (1 , 2 ) = 1 Gi + 2 1in
estamos en la situacion descripta por la ecuacion (3.6).
Ejemplo 2: Podemos generalizar el ejemplo 1 por la siguiente situacion.

Supongamos que la variable X depende de otras dos variables G y H y que
la forma de la dependencia es
X = u(G, H, 1 , 2 , . . . , p ) +
donde = (1 , . . . , p ) se conoce que pertenece a un conjunto IRp , y

donde es una variable aleatoria que aglutina todos los otros factores que
determina X y que son desconocidos.
Por ejemplo se pueden tener
u1 (G, H, ) = 1 G + 2 H + 3
o
u2 (G, H, ) = 1 G2 + 2 H 2 + 3 HG + 4 H + 5 G + 6
o
u3 (G, H, ) = 1 e2 G + 3 e4 H .
Supongamos que se hagan n experimentos. En el experimento i-esimo
se fijan G y H iguales respectivamente a Gi y Hi y se observa un valor Xi .
Luego se tendra
Xi = u(Gi , Hi , 1 , 2 , . . . , p ) + i 1in
donde se puede suponer que las i satisfacen (i), (ii) y (iii). Luego, si lla-
mamos
Si (1 , 2 , . . . , p ) = u(Gi , Hi , 1 , 2 , . . . , p )
12 PUNTUAL
obtenemos que las variables Xi satisfacen (3.6).
Llamaremos estimador de cuadrados mnimos (E.C.M.) al valor

b P
(X nima la expresion ni=1 (Xi Si (1 , 2 , . . . , p ))2 ,
1 , X2 , . . . , Xn ) que hace m
es decir si
n
X n
X
b 2 = min
(Xi Si ()) (Xi Si ())2 . (3.7)
i=1 i=1
Este estimador tiene la siguiente justificacion intuitiva: Se desea que

Si (1 . . . p ) ajuste bien a Xi , y por lo tanto los terminos residuales i
deberan ser peque nos. Esto se logra minimizando la suma de los cuadrados
de las desviaciones respectivas.
Se puede demostrar que si ademas de satisfacer (i), (ii) y (iii), los i
tienen distribucion normal, entonces el E.M.C. coincide con el E.M.V. Esto
se vera en el problema 3 de 3.4.
Computaci on de los E.C.M.: Si es abierto y si las funciones

b deber
Si (1 , 2 , . . . , p ) son derivables respecto a cada i , a satisfacer el
sistema de ecuaciones siguiente
Pn b 2
i=1 (Xi Si ())
=0 j = 1, 2, . . . , p ,
j
que es equivalente a:
n
X b
Si ()
b
(Xi Si ()) =0 j = 1, 2, . . . , p .
i=1
j
Igual que en el caso de los E.M.V. estas condiciones son necesarias para el
E.M.C. pero no son suficientes. Tambien se deberan cumplir las condiciones
de segundo orden, y se debera verificar que se trata de un mnimo absoluto
y no local.
Ejemplo 3: Volvemos al ejemplo 1. Luego se tiene
Si () Si ()
= Gi y =1.
1 2
Luego (3.7) se transforma en

3.5. CRITERIOS PARA MEDIR LA BONDAD DE UN ESTIMADOR 13
n
X
(X b1 Gi b2 )Gi = 0
i=1
n
X
(Xi b1 Gi b2 ) = 0 .
i=1
Es facil ver la que la solucion de este sistema viene dada por
n
X .X
n
b1 = (Xi X)(Gi G) (Gi G)2 ,
i=1 i=1
b2 = X b1 G ,
donde n n
1X 1X
X= Xi y G= Gi .
n i=1 n i=1
Geometricamente la recta X = b1 G + b2 tiene la propiedad siguiente:

Minimaza la suma de los cuadrados de las distancias de los puntos (Gi , Xi )
a la recta, si esta distancia se la mide paralelamente al eje de las X. Es decir
P
si Xi = 1 G1 + 2 , la recta X = b1 G + b2 hace mnimo ni=1 (Xi Xi )2 .
Para un mayor desarrollo de los metodos de cuadrados mnimos, consul-

tar Draper y Smith [2].
3.5 Criterios para medir la bondad de un estima-

dor
Supongamos que se tenga una muestra X = (X1 , X2 , . . . , Xn ) de cuya dis-

tribucion solo se conoce que pertenece a la familia
F = {F (x, ) donde IRp }. Supongamos ademas que se esta in-
teresado en estimar una funcion real q(). Para poder elegir el estimador
(X) que se utilizara, se debera dar un criterio para comparar dos estima-
dores cualesquiera. Esto se hara como sigue:
Es razonable pensar que dado un estimador (X) de q(), el error
(X) q() producira un perjuicio o perdida dado por un real no nega-
tivo, que dependera por un lado del valor del estimador (X) y por otro del
valor verdadero del vector de parametros.
14 PUNTUAL
As llamaremos funcion de perdida a una funcion `(, d) no negativa que

nos indica cuanto se pierde cuando el valor del estimador es d y el valor
verdadero del vector de parametros es . Entonces si usamos el estimador
(X) la perdida sera
`(, (X))
y esta perdida sera una variable aleatoria ya que depende de X. Para eva-
luar globalmente el estimador (X) se puede utilizar el valor medio de esta
perdida, que indicara de acuerdo a la ley de los grandes n
umeros aproximada-
mente la perdida promedio, si estimamos q() muchas veces con vectores X
independientes. Luego, definimos la funcion de perdida media del estimador
o funcion de riesgo R(, ) a
R(, ) = E (`(, (X)))
Un primer ejemplo de funcion de perdida puede obtenerse tomando el error

absoluto, es decir
`1 (, d) = |d q()|
y en este caso, la perdida media corresponde a un estimador (X) viene dada
por
R1 (, ) = E (|(X q()|)
Si consideramos como funcion de perdida el cuadrado del error tenemos
`2 (, d) = (d q())2
que es una funcion que desde el punto de vista matematico es mas sencilla
que `1 , ya que es derivable en todo punto.
La funcion de perdida cuadratica fue la primera utilizada en Estadstica,
y a
un hoy la mas difundida. De ahora en adelante, salvo mencion en contrario
supondremos que la funcion de perdida es `2 . La perdida media, o riesgo,
correspondiente esta dada por
R2 (, ) = E((X) q())2
y sera llamada en adelante error cuadratico medio, e indicada por ECM ().
Luego
ECM () = R2 (, ) = E ((X) q())2 (3.8)
La funcion ECM () nos proporciona un criterio para determinar si un es-
timador 1 (X) de q() es mejor que otro 2 (X), basta verificar
ECM (1 ) ECM (2 )
3.5. CRITERIOS PARA MEDIR LA BONDAD DE UN ESTIMADOR 15
En este orden de ideas, un estimador optimo podra definirse mediante la

siguiente condicion: Para cualquier otro estimador se tiene
ECM ( ) ECM () (3.9)
Sin embargo, salvo en casos triviales no existiran tales estimadores optimos.

Para mostrar esto definamos para cada posible valor , el estimador
constante (X) = q() que no depende del valor de la muestra. Luego si
satisface (3.9), debe cumplirse:
ECM ( ) ECM ( ) = E ((q() q())2 ) = 0
Pero como ECM ( ) 0 y `2 (, d) = 0 implica que d = q(), se obtiene
P ( (X) = q()) = 1 (3.10)
(donde P () indica la probabilidad del evento cuando el valor de los

parametros esta dado por el vector ). La ecuacion (3.10) significa que a
partir de la muestra se puede estimar sin error q(). Esta situacion solo se
da muy raramente, por ejemplo, cuando q() es constante.
Otro ejemplo algo diferente de funcion de perdida, corresponde a la
funcion
`3 (, d) = I{|q( )d|>c}
donde I{|q( )d|>c} es la funcion que vale 1 si |q() d| > c y 0 en caso
contrario. Esta perdida da origen a la funcion de riesgo
R3 (, ) = P (|(X) q()| > c) .
A diferencia de las anteriores, en este caso, `3 (, d) = 0 no implica implica

q() = d. Por otra parte, esta perdida no es convexa como funcion de d
mientras que `1 y `2 lo son. En muchas situaciones, se podran obtener
procedimientos de estimacion mas efectivos para perdidas convexas.
El estimador con E.C.M. mnimo uniformemente en como se indica
en (3.9) no existe, salvo en casos excepcionales, debido a que la clase de
todos los posibles estimadores es muy amplia y contiene estimadores poco
razonables como los (X) definidos anteriormente. Por lo tanto, una man-
era de obtener estimadores optimos consistira en restringir primero la clase
de los estimadores considerados, y luego buscar aquel con E.C.M. uni-
formemente menor dentro de esta clase. Otra forma de obtener estimadores
optimos consistira en minimizar alg
un criterio general basado en la funcion
de riesgo, como el maximo riesgo.
16 PUNTUAL
Antes de empezar el estudio de las clases de estimadores daremos una

nocion importante.
Definici on 1: Se dice que un estimador (X) de q() es inadmisible

respecto de la perdida `(, d), si existe otro estimador 0 (X) mejor que el, es
decir, si existe 0 (X) tal que
R( 0 , ) R(, )
El estimador (X) se dira admisible si no es inadmisible, es decir, si no existe

ningun otro estimador que sea uniformemente mejor que el.
El siguiente Teorema muestra la ventaja de utilizar perdidas convexas.
Teorema 1. Supongamos que `(, d) es una perdida estrictamente convexa
en d y que (X) es admisible para q(). Si 0 (X) es otro estimador de q()
con el mismo riesgo que (X) entonces P ((X) = 0 (X)) = 1.
Demostracio n. Supongamos que P ((X) = 0 (X)) < 1 y sea (X) =
((X) + 0 (X)) /2. Luego, por ser `(, d) convexa se cumple
`(, (X)) + `(, 0 (X))

`(, (X)) < (3.11)
2
salvo si (X) = 0 (X). Luego, tomando esperanza en ambos miembros de
(3.11) se obtiene
R(, ) + R( 0 , )
R( , ) < = R(, ) (3.12)
2
lo que contradice el hecho de que (X) es admisible.
3.6 Estimadores insesgados
Una propiedad razonable que se puede exigir a un estimador esta dada

por la siguiente definicion:
Definici
on 1: Se dice que (X) es un estimador insesgado para q() si
E ((X)) = q() .
Esto significa que si calculamos el estimador para varias muestras in-

dependientes, y luego promediamos los valores as obtenidos, entonces de
3.6. ESTIMADORES INSESGADOS 17
acuerdo a la ley de los grandes n

umeros el promedio converge al valor q()
que queremos estimar.
Definicion 2: Si un estimador no es insesgado, se dice sesgado, definiendose
el sesgo del estimador como E ((X)) q().
Cuando (X) es un estimador insesgado, su ECM coincide con su va-
rianza ya que
ECM () = E [((X) q())2 ] = E [((X) E ((X)))2 ] = Var ((X)).
Para ilustrar estas definiciones veremos algunos ejemplos.
Ejemplo 1: Supongamos tener una variable X de cuya distribucion F en la

poblacion solo se sabe que tiene esperanza finita, es decir solo se conoce que
pertenece a F, donde F es la familia de todas las distribuciones con esperanza
finita. Sea X1 , X2 , . . . , Xn una muestra aleatoria de F y supongamos que se
quiere estimar q1 (F ) = EF (X). Estamos frente a un problema de estimacion
no parametrica, ya que la familia no puede indicarse con un n umero finito
P
de parametros. Un posible estimador para q1 (F ) es X = (1/n) ni=1 Xi . El
estimador X es insesgado ya que
1 X
n 1X n
EF (X) = EF Xi = EF (Xi ) = EF (X) = q1 (F )
n i=1
n i=1
X se denomina media muestral.
Ejemplo 2: Supongamos ahora que se conoce que la distribucion F de X en

la poblacion pertenece a la familia F de todas las distribuciones que tienen
segundo momento finito, es decir tales que EF (X 2 ) < . Supongamos
que se quiere estimar q2 (F ) = VarF (X) a partir de una muestra aleatoria
X1 , X2 , . . . , Xn . Ya hemos visto que un estimador adecuado podra ser
n
1X
b2 =
(Xi X)2
n i=1
Veremos que b 2 no es un estimador insesgado de q2 (F ). Desarrollando el

cuadrado del segundo miembro en la definicion obtenemos
Pn 2 2
2 i=1 Xi nX
b =
.
n
18 PUNTUAL
Luego, se tiene
2
b 2 ) = EF (X 2 ) EF (X )
EF ( (3.13)
Por otro lado, se tiene
n
1 X 1
VarF (X) = 2
VarF (Xi ) = VarF (X) .
n i=1 n
Como
2
VarF (X) = EF (X ) (EF (X))2 ,
resulta
2 1
EF (X ) = VarF (X) + (EF (X))2 = VarF (X) + (EF (X))2 (3.14)
n
y reemplazando (3.14) en (3.13) resulta
1
b 2 ) = EF (X 2 ) (EF (X))2
EF ( VarF (X) = VarF (X)(1 1/n)
n
n1 n1
= VarF (X) = q2 (F ).
n n
b 2 no es un estimador insesgado para VarF (X), aunque
Esto prueba que
el sesgo es VarF (X)/n, y por lo tanto, tiende a 0 cuando n tiende a infinito.
El sesgo puede corregirse dividiendo b 2 por (n 1)/n, obteniendo as el
estimador insesgado
n
2 n 2 1 X
s = b
= (Xi X)2
n1 n 1 i=1
que denominaremos varianza muestral.

nicamente que pertenece a la familia N (, 2 ) y su-
de la cual se conoce u
pongamos que se quieran estimar y 2 . Como se tiene
= E,2 (X) ; 2 = Var,2 (X)
por lo visto en Ejemplos 1 y 2, resulta que X y s2 son estimadores insesgados
de y 2 respectivamente.
Si nos restringimos a la clase de los estimadores insesgados, se podra en-

contrar frecuentemente, estimadores optimos. Daremos la siguiente definicion:
Definici
on 2: Se dira que (X) es un estimador insesgado de mnima
varianza para q(), uniformemente en (IMVU) si:
3.7. ESTADISTICOS SUFICIENTES 19
(a) (X) es insesgado para q()
(b) dado otro estimador insesgado para q(), (X), se cumple Var ((X))
Var ( (X)) .
3.7 Estadsticos suficientes
Consideremos un vector aleatorio X de dimension n cuya distribucion pertenece

a una familia F = {F (x, ) con IRp }. El vector X interesa en
cuanto nos provee informacion sobre el valor verdadero de . Puede ocur-
rir que una parte de la informacion contenida en X carezca de interes para
el conocimiento de , y por consiguiente convenga eliminarla simplificando
as la informacion disponible.
Al realizar esta simplificacion, eliminando de X toda la informacion irre-
levante, se obtendra otro vector T que puede ser de dimension menor que
n.
Llamaremos estadstico a cualquier funcion medible T = r(X) con valores
en un espacio eucldeo de dimension finita.
Si la funcion r no es biunvoca, del conocimiento de T no se podra
reconstruir el valor de X, por lo que T conservara solo una parte de la
informacion que hay en X. El estadstico T sera llamado suficiente cuando
conserve toda la informacion relevante para el conocimiento de . Esto se
formalizara en la siguiente definicion.
Definici on 1: Sea X un vector aleatorio de dimension n cuya distribucion

es F (x, ) con . Se dice que un estadstico T = r(X) es suficiente
para si la distribucion de X condicional a que T = t es independiente de
para todo t.
Esto puede interpretarse como afirmando que una vez conocido el valor t
de T, la distribucion de X es independiente de y por lo tanto no contiene
informacion suplementaria sobre . En otros terminos: una vez conocido
el valor de T podemos olvidarnos del valor X, ya que en T esta toda la
informacion que X tiene sobre .
Ejemplo 1: Supongamos que una maquina produce cierto artculo, exis-

tiendo la probabilidad de que lo produzca defectuoso. Supongamos ademas
que se observa un lote de n artculos producidos sucesivamente por la maquina,
20 PUNTUAL
de manera que la aparicion de uno defectuoso resulte independiente del re-

sultado obtenido para los restantes artculos del lote.
Consideremos las variable aleatorias Xi , 1 i n, que valen 1 o 0
segun el i-esimo artculo observado sea o no defectuoso. Entonces cada una
de las variables X1 , X2 , . . . , Xn sigue una ley binomial Bi(, 1), de modo que
la funcion de probabilidad puntual conjunta es igual a
n n
p(x1 , x2 , . . . , xn , ) = i=1 xi (1 )ni=1 xi
donde xi vale 0 o 1.
Si queremos estimar el parametro , parece razonable pensar que solo se
debera utilizar la cantidad total de artculos defectuosos del lote, ya que el or-
den en que han aparecido los mismos parece irrelevante para el conocimiento
P
de . Por lo tanto, es de esperar que el estadstico T = ni=1 Xi sea suficiente.
Para ver si esta conjetura es correcta, calculemos la distribucion de
X = (X1 , . . . , Xn ) dado T = t:
pX,T (x1 , x2 , . . . , xn , t, )
pX|T (x1 , . . . , xn , |t) = (3.15)
pT (t, )
El numerador de este cociente es la probabilidad conjunta:
P (X1 = x1 , . . . , Xn = xn , r(X1 , . . . , Xn ) = t)
(
t (1 )nt si r(x1 , . . . , xn ) = t
=
0 si r(x1 , . . . , xn ) 6= t
Pn
y como el estadstico T = i=1 Xi sigue una ley binomial Bi(, n) el denom-
inador de (3.15) vale
n
pT (t, ) = t (1 )nt
t
As resulta

1/ n si r(x1 , . . . , xn ) = t
pX|T (x1 , . . . , xn , |t) = t

0 si r(x1 , . . . , xn ) 6= t .
De esta manera pX/T es independiente de y por lo tanto el estadstico

T = Xi es suficiente para .
Una caracterizacion u
til de los estadsticos suficientes es la proporcionada
por el siguiente teorema:
3.7. ESTADISTICOS SUFICIENTES 21
Teorema 1 (de factorizacion): Sea X un vector aleatorio con funcion de

densidad o funcion de probabilidad puntual p(x, ), . Entonces, el
estadstico T = r(X) es suficiente para si y solo si existen dos funciones g
y h tales que
p(x, ) = g(r(x), )h(x) (3.16)
Demostracio n: La haremos solo para el caso discreto. Supongamos primero

que existen dos funciones g y h tales que p(x, ) se factoriza seg
un (3.16).
Entonces la funcion de densidad conjunta vale
(
g(t, )h(x) si r(x) = t
pXT (x, t, ) =
0 6 t
si r(x) =
y la densidad marginal pT (t, ) esta dada por

X X
pT (t, ) = pXT (x, t, ) = g(r(x), )h(x)
r(x)=t r(x)=t
X
= g(t, ) h(x) = g(t, )h (t)
r(x)=t
donde las sumatorias se realizan sobre todos los x = (x1 , x2 , . . . , xn ) tales

que r(x) = t. As resulta la funcion de densidad condicional
(
h(x)/h (t) si r(x) = t
pX|T (x, |t) =
0 6 t
si r(x) =
y por lo tanto la distribucion de X dado T = t es independiente de para

todo t.
Recprocamente, si suponemos que T = r(X) es suficiente para , se
tiene
P (X = x) = P (X = x, T = r(x)) = pXT (x, r(x), )

= pX|T (x, |r(x))pT (r(x), )
El primero de los factores del u

ltimo miembro es por hipotesis indepen-
diente de y por eso podemos llamarlo h(x); mientras que el segundo que
depende de x a traves de t puede denominarse g(r(x), ). El teorema queda
demostrado. Para una demostracion general, ver Teorema 8 y Corolario 1
de Lehmann [4]. Tambien se puede ver Bahadur [1].
22 PUNTUAL
Ejemplo 2: Supongamos que las variables aleatorias X1 , X2 , . . . , Xn son

independientes y que estan uniformemente distribudas en el intervalo [1 , 2 ]
de manera que su funcion de densidad conjunta vale
(
(2 1 )n si 1 xi 2 , i, 1 i n
p(x1 , . . . , xn , 1 , 2 ) =
0 en el resto deIRn
Si definimos los estadsticos
r1 (X) = min{Xi : 1 i n} y r2 (X) = max{Xi : 1 i n}
y si denotamos con I[1 ,2 ] (y) a la funcion caracterstica del intervalo [1 , 2 ]

(que vale 1 para todo y del intervalo y 0 fuera del mismo), resulta:
p(x1 , . . . , xn , 1 , 2 ) = (2 1 )n I[1 ,2 ] (r1 (x1 , . . . , xn ))I[1 ,2 ] (r2 (x1 , . . . , xn ))
Por lo tanto la funcion de densidad p(x, ) se factoriza como en (3.16) con

h(x) = 1. La funcion g que depende de X a traves de r1 (x) y r2 (x) vale en
este caso
g(r1 (x), r2 (x), ) = (2 1 )n I[1 ,2 ] (r1 (x))I[1 ,2 ] (r2 (x))
Esto demuestra que el estadstico
T = (r1 (X) , r2 (X))
es suficiente para 1 y 2 .
El siguiente resultado es Corolario inmediato del Teorema 1.
Corolario. Sea X un vector aleatorio con funcion de densidad o funcion de

probabilidad puntual p(x, ), . Supongamos que la familia {p(x, )}
tiene soporte com un, independiente de . Entonces, una condicion necesaria
y suficiente para que T sea suficiente para es que fijados 1 y 2 el cociente
p(x, 1 )
p(x, )
sea funcion de T.
2
El siguiente Teorema muestra que una funcion biunvoca de un estadstico

suficiente es tambien un estadstico suficiente. Esta propiedad es intuitiva-
mente razonable: si T contiene toda la informacion relevante acerca de , y
T es una funcion biunvoca de T, entonces tambien T la contiene ya que
el vector T puede reconstruirse a partir del vector T .
3.8. ESTADISTICOS MINIMALES SUFICIENTES 23
Teorema 2: Si X es un vector aleatorio con una distribucion F (x, ), con

si T = r(X) es un estadstico suficiente para y si m es una funcion
biunvoca de T entonces el estadstico T = m(T) tambien es suficiente para
.
Demostracio n: Apliquemos el teorema de factorizacion a la funcion de
densidad del vector X:
p(x, ) = g(r(x), )h(x) = g(m1 (m(r(x)), )h(x)
El primer factor del u ltimo miembro es una funcion g (r (x), ), donde

r (x) = m(r(x)), y esto prueba que T = r (X) es suficiente para .
3.8 Estadsticos minimales suficientes
De la nocion intuitiva de suficiencia, se deduce que si T es suficiente para

y T = H(U) entonces U es suficiente para , ya que el conocimiento de
U permite conocer T que es el que contiene toda la informacion relevante
sobre . Mas aun, salvo que H sea biunvoca T da una mayor reduccion de
la muestra original que U. Este hecho motiva la siguiente definicion.
Definici on 1: Sea X un vector aleatorio de dimension n cuya distribucion

es F (x, ) con . Se dice que un estadstico T = r(X) es minimal
suficiente para si dado cualquier otro estadstico U = g(X) suficiente para
existe una funcion H tal que T = H(U).
En muchas situaciones, es facil construir estadsticos minimal suficientes.
Sea S() = {x : p(x, ) > 0}, S() se llama el soporte de la densidad
o de la probabilidad puntual p(x, ), seg un corresponda. Para simplificar,
supondremos que las posibles distribuciones del vector X tienen todas el
mismo soporte, es decir, que el conjunto S() no depende de .
Teorema 1. Supongamos que X tiene una distribucion perteneciente a una

familia finita de distribuciones F = {F (x, i ) 1 i k} con densidades
o probabilidades puntuales p(x, i ), 1 i k todas con el mismo soporte.
Entonces el estadstico

p(x, 2 ) p(x, k )
T = r(x) = ,...,
p(x, 1 ) p(x, 1 )
es minimal suficiente.
24 PUNTUAL
Demostracio n. Obviamente, para todo 1 i < j k el cociente

p(x, i )/p(x, j ) es funcion de T. Por lo tanto, por el Corolario del teo-
rema de Factorizacion, T es suficiente.
Sea ahora U un estadstico suficiente para . Entonces, utilizando el Coro-
p(x, i )
lario anterior se cumple que para todo 2 i k, el cociente p(x, 1 ) es una
funcion de U. Luego, T es funcion de U y T es minimal suficiente.
En muchas situaciones, se pueden obtener estadsticos minimales sufi-
cientes combinando el Teorema 1 con el siguiente Teorema.
Teorema 2. Supongamos que X tiene una distribucion perteneciente a una
familia de distribuciones F = {F (x, ) } con densidades o probabil-
idades puntuales p(x, ), todas con el mismo soporte. Sea
F0 = {F (x, ) 0 } F.
Supongamos ademas que T = r(X) es un estadstico minimal suficiente para

0 y suficiente para , entonces T es minimal suficiente para .
Demostracio n. Sea U un estadstico suficiente para , entonces U es
suficiente para 0 . Por lo tanto, T es funcion de U, con lo cual T es
minimal suficiente.
Ejemplo 1. Sean X1 , . . . , Xn una muestra aleatoria de una distribucion
P
Bi(, 1), 0 < < 1. Hemos visto que T = ni=1 Xi es suficiente para
(0, 1). Queremos ver que es minimal suficiente.
Para ello consideremos la familia finita F0 = {Bi(1/4, 1), Bi(3/4, 1)}.
Luego, un estadstico minimal suficiente para esta familia esta dado por
p(x, 34 )
U = g(x) = = 32T n
p(x, 14 )
que es una funcion biunvoca de T . Por lo tanto, T es un estadstico min-

imal suficiente para F0 y suficiente para (0, 1), con lo cual es minimal
suficiente para (0, 1).
3.9 Estimadores basados en estadsticos suficientes
Supongamos que X es un vector correspondiente a una muestra de una

distribucion que pertenece a la familia F (x, ) con . Supongamos que
T = r(X) es un estadstico suficiente para . Luego de acuerdo al concepto
3.9. ESTIMADORES BASADOS EN ESTADISTICOS SUFICIENTES 25
intuitivo que tenemos de estadstico suficiente, para estimar una funcion q()
deberan bastar estimadores que dependan solo de T, ya que en T esta toda
la informacion que X contiene sobre el parametro . Esto es justamente lo
que afirma el siguiente teorema.
Teorema 1 (RaoBlackwell): Sea X un vector de una distribucion pertene-

ciente a la familia F (x, ) con . Sea T un estadstico suficiente para
y (X) un estimador de q(). Definamos un nuevo estimador
(T) = E((X)|T).
Luego se tiene
(i) ECM ( ) ECM (),
(ii) La igualdad en (i) se satisface si y solo si
P ( (T) = (X)) = 1
(iii) Si (X) es insesgado, entonces (T) tambien lo es.
n: Podemos escribir
Demostracio
ECM () = E (((X) q())2 )

= E ([( (T) q()) + ((X) (T ))]2 )
= E (( (T) q())2 ) + E (((X) (T))2 )
+ 2 E (( (T) q())((X) (T))) (3.17)
Luego, usando
E (( (T) q())((X) (T))) = E [E(( (T) q())((X) (T))|T]

= E [( (T) q())E((X) (T)|T]
E ((X) (T)|T) = E((X)|T) (T) = (T) (T) = 0 ,
se obtiene
E (( (T) q())((X) (T))) = 0 .
26 PUNTUAL
Luego (3.17) se transforma en
ECM () = ECM ( ) + E (((X) (T))2 )
y resulta
ECM () ECM ( ) .
Ademas igualdad se cumple solo si P ((X) = (T)) = 0 .
Luego ya se ha demostrado (i) y (ii). Para mostrar (iii) supongamos que
es insesgado, luego se tiene
E ( (T)) = E (E((X)|T)) = E ((X)) = q()
Luego se cumple (iii).
Observaci on: El estimador (T) = E((X)|T) es realmente un estimador

ya que depende solo de T (y por lo tanto de X) y no de , ya que por ser T
un estadstico suficiente la distribucion de (X) condicional T = t es inde-
pendiente de , por lo tanto lo mismo sucede con la esperanza condicional.

Bi(, 1). Luego (X1 , . . . , Xn ) = X1 es un estimador insesgado de . Un
P
estadstico suficiente para es T = ni=1 Xi (ver ejemplo 1 de 3.7). Por lo
tanto, de acuerdo al teorema de RaoBlackwell, (T ) = E((X1 , . . . , Xn )|T )
sera otro estimador insesgado de y Var ( ) Var (). Vamos a calcular
entonces (T ).
Por ser X1 , X2 , . . . , Xn identicamente distribudas y como T es invariante
por permutaciones entre X1 , X2 , . . . , Xn , la distribucion conjunta de (Xi , T )
es la misma para todo i. Por lo tanto, E(Xi |T ) sera independiente de i (ver
Problema 1 de 3.9). Luego
E(Xi |T ) = E(X1 |T ) = (T ) 1in.
Sumando en i se tiene
n
X
E(Xi |T ) = n (T ) .
i=1
Pero ademas vale que

n
X X
n
E(Xi |T ) = E Xi |T = E(T |T ) = T ,
i=1 i=1
3.10. FAMILIAS EXPONENCIALES 27
luego
n
T 1X
(T ) = = Xi .
n n i=1
Es facil ver que
Var ( (T )) Var ((X))
ya que
Var ( (T )) = (1 )/n y Var ((X)) = (1 ) .
3.10 Familias exponenciales
Definicion: Se dice que una familia de distribuciones continuas o discretas

en IR , F (x, ), donde x = (x1 , . . . , xq ) y IRp es una familia
q
exponencial a k par
ametros si la correspondiente funcion de densidad discreta
o continua se puede escribir como
p(x, ) = A()ei=1 ci ( )ri (x) h(x)

k
(3.18)
donde c1 (), . . . , ck () son funciones de en IR, A() es una funcion de

en IR+ (reales no negativos), r1 (x), . . . , rk (x) son funciones de IRq en IR y
h(x) es una funcion de IRq en IR+ .
Ejemplo 1: Sea la familia Bi(, n) con n fijo y en (0,1). Luego

n n n

p(x, ) = x (1 )nx = (1 )n 1 x = 0, 1, . . . , n
x x
n
= (1 )n ex ln(/(1))
x
Luego esta familia es exponencial a un parametro con A() = (1 )n ;

n
r(x) = x; c() = ln(/(1 )) y h(x) = .
x
Ejemplo 2: Sea la familia N (, 2 ) con IR y 2 real positivo. Luego,

su densidad viene dada por
1 1 2
p(x, , 2 ) = e 2 2 (x)
2 2
28 PUNTUAL
2
1 1 2 +( )x
= e 2 2 x 2 2 2
2 2
2
e 22 ( 1 2 )x2 + 2 x
= p e 2 (3.19)
2 2 )
Luego esta 2
2 2 es una familia exponencial a dos parametros con A(, ) =
e /2 / 2 2 ; c1 (, 2 ) = (1/2 2 ); c2 (, 2 ) = / 2 ; r1 (x) = x2 ;
r2 (x) = x; h(x) = 1.
Ejemplo 3: Sea la familia P (). Se puede mostrar que es exponencial a un

parametro. Ver problema 2.i) de 3.10.
Ejemplo 4: Sea la familia (). Se puede mostrar que es exponencial a un

parametro. Ver problema 2.ii) de 3.10.
Ejemplo 5: Sea la familia de distribuciones normales bivariadas

N (1 , 2 , 12 , 22 , ). Es exponencial a 5 parametros. Ver problema 2.iii)
de 3.10.
Teorema 1: Una familia exponencial a k parametros cuya funcion de den-

sidad viene dada por (3.18) tiene como estadstico suficiente para el vector
T = r(X) = (r1 (X), . . . , rk (X)).
n. Inmediata a partir del Teorema 1 de 3.9.
Demostracio
El siguiente teorema establece la propiedad mas importante de las fami-

lias exponenciales.
Teorema 2: Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribucion

que pertenece a una familia exponencial a k parametros, cuya funcion de den-
sidad viene dada por (3.18). Luego la distribucion conjunta de X1 , . . . , Xn
tambien pertenece a una familia exponencial a k parametros y el estadstico
suficiente para es el vector
n
X
T = (T1 , . . . , Tk ), donde Ti = ri (Xj ), 1ik
j=1
n: Es inmediata, ya que por (3.18) se tiene

Demostracio
Q
p(x1 , x2 , . . . , xn , ) = nj=1 p(xi , )
Q
= (A())n ec1 ( )i=1 r1 (xj )++ck ( )i=1 rk (xj ) n
n n
j=1 h(xj )
= A ()ec1 ( )r1 (x1 ,...,xn )++ck ( )rk (x1 ,...,xn )

h (x1 , . . . , xn )
n P
donde A () = A()n ; ri (x1 , . . . , xn ) =
j=1 ri (xj ), h (x1 , . . . , xn ) =
Qn
i=1 h(xj ), y por lo tanto el Teorema 2 queda demostrado.
Este u ltimo Teorema nos afirma que para familias exponenciales de k

parametros, cualquiera sea el tama no de la muestra, siempre existe un es-
tadstico suficiente de solo k componentes. Es decir, que toda la infor-
macion se puede resumir en k variables aleatorias. Se puede mostrar que
esta propiedad bajo condiciones generales caracteriza a las familias expo-
nenciales. Para esta caracterizacion se puede consultar Seccion 2.5 de Zacks
[7] y Dynkin [3].
Ejemplo 3: Volvamos al ejemplo 1. Supongamos que tomamos una muestra

aleatoria X1 , X2 , . . . , Xn de una distribucion Bi(, n) con n fijo. Luego la
distribucion conjunta de la muestra pertenecera a una familia exponencial a
P
un parametro con estadstico suficiente T = ni=1 Xi .
Ejemplo 4: Sea X1 , . . . , Xn una muestra de una distribucion pertene-

ciente a la familia N (, 2 ). Luego, de acuerdo a lo visto en el ejemplo 2 y
al teorema 2, la distribucion conjunta de X1 , X2 , . . . , Xn pertenece a
una familia exponencial a dos parametros y con estadstico suficiente
Pn 2 Pn X .
T = i=1 Xi , i=1 i
El siguiente teorema establece que las familias de distribuciones de los

estadsticos suficientes de una familia exponencial a k parametros tambien
forma una familia exponencial a k parametros.
Teorema 3: Sea X un vector cuya distribucion pertenece a una familia

exponencial a k parametros cuya funcion de densidad satisface (3.18). Luego
la funcion de densidad de los estadsticos suficientes T = (r1 (X), . . . , rk (X))
es de la forma
pT (t1 , t2 , . . . , tk , ) = A()ec1 ( )t1 ++ck ( )tk h (t1 , . . . , tk )
Por lo tanto la familia de distribuciones de T tambien forma una familia

exponencial a k parametros.
Demostracio n: Solo se hara para el caso discreto. Para el caso general se
puede consultar Lema 8 de 2.7 en Lehmann [4]. En el caso particular elegido
se tiene: Pk
c ( )rj (x)
p(x, ) = A()e j=1 j h(x)
30 PUNTUAL
Luego si T = r(x) = (r1 (X), . . . , rk (X)) y si t = (t1 , . . . , tk ), se tendra

X X Pk
)rj (x)
c (
j=1 j
pT (t, ) = p(x, ) = A()e h(x)
{x: r(x)=t} {x: r(x)=t}
Pk X Pk
c ( )tj )tj
c (
= A()e j=1 j h(x) = A()e j=1 j h (t)
{x: r(x)=t}
P
con h (t) = {x:r(x)=t} h(x).
El siguiente lema es de caracter tecnico y nos sera u

til en lo que sigue.
Lema 1: Sea X = (X1 , . . . , Xq ) un vector aleatorio cuya distribucion

pertenece a una familia exponencial a un parametro discreta o continua con
densidad dada por p(x, ) = A()ec()r(x) h(x); con , donde es un
abierto en IR y c() infinitamente derivable. Luego, si m(x) es un estadstico
tal que Z Z
... |m(x)|p(x, )dx1 . . . dxq <
o
x1 . . . xq |m(x)|p(x, ) <
un sea X continua o discreta, entonces las expresiones
seg
Z Z
... m(x)ec()r(x) h(x)dx1 . . . dxq o x1 . . . xq m(x)ec()r(x) h(x)
seg
un corresponda, son infinitamente derivables y se puede derivar dentro
de los signos integral o sumatoria, respectivamente.
Demostracio n: No se dara en este curso, puede consultarse en el Teorema
9 de 2.7 de Lehmann [4].
Teorema 4: Sea X = (X1 , . . . , Xq ) un vector aleatorio cuya distribucion

pertenece a una familia exponencial a un parametro con densidad dada por
p(x, ) = A()ec()r(x) h(x) con , donde es un abierto en IR y c() es
infinitamente derivable. Luego se tiene:
(i) A() es infinitamente derivable.
(ii)
A0 ()
E (r(X)) =
A()c0 ()
(iii)
E (r(x))

Var (r(x)) =
c0 ()
Demostracio n: Supongamos que X sea continuo. El caso discreto es

totalmente similar. Como
Z Z
... A()ec()r(x) h(x)dx1 . . . dxq = 1
se tiene Z Z
1
= ... ec()r(x) h(x)dx1 . . . dxq
A()
Como el segundo miembro de esta igualdad satisface las condiciones del
Lema 1 con m(x) = 1, resulta infinitamente derivable y luego tambien A(),
con lo cual queda demostrado (i).
Por otro lado se tiene
Z Z
A() ... ec()r(x) h(x)dx1 . . . dxq = 1
y usando el Lema 1 que nos permite derivar dentro del signo integral resulta
Z Z
0
A () ... ec()r(x) h(x)dx1 . . . dxq +
Z Z
A()c0 () ... r(x)ec()r(x) dx1 . . . dxq = 0
y esta u
ltima ecuacion se puede escribir
A0 ()
+ c0 ()E (r(x)) = 0
A()
y luego
A0 ()
E (r(x)) =
c0 ()A()
y se ha demostrado (ii).
(iii) se deja para resolver en el Problema 3 de 3.10.
32 PUNTUAL
3.11 Estadsticos completos
Sea X un vector aleatorio cuya distribucion pertenece a la familia F (x, )

con . Hasta ahora hemos visto que tomando estimadores insesgados
de una funcion q() basados en estadsticos suficientes se logra mejorar la
estimacion. Lo que no conocemos es si puede haber mas de un estimador
insesgado, basado en un estadstico suficiente T dado. Veremos que bajo
ciertas condiciones hay uno solo.
Definicion 1: Sea X un vector aleatorio cuya distribucion pertenece a una

familia F (x, ) con . Un estadstico T = r(X) se dice completo si
E (g(T)) = 0 para todo implica que P (g(T) = 0) = 1 para todo
Ejemplo 1: Sea X una variable aleatoria con distribucion Bi(, k) con k

fijo y 0 1. Sea g tal que E (g(X)) = 0, para todo . Mostraremos que
g(x) = 0, x = 0, 1, . . . , k. Tenemos
k
X k
E (g(X)) = g(x) x (1 )kx = 0 [0, 1] (3.20)
x=0
x
Sea = /(1 ); luego cuando [0, 1], toma los valores en IR+ (reales
no negativos).
Poniendo (3.20) en funcion de resulta
k
X k
(1 )k g(x) x = 0 IR+
x=0
x
Luego
k
X k
Q() = g(x) x = 0 IR+
x=0
x
Pero Q() es un polinomio de grado k con infinitas races, luego todos sus
coeficientes deben ser 0. Por lo tanto,
k
g(x) =0 x = 0, 1, . . . , k ,
x
y entonces
g(x) = 0 x = 0, 1, . . . , k .
Con lo que queda probado que T (X) = X es un estadstico completo.
3.11. ESTADISTICOS COMPLETOS 33

que pertenece a la familia Bi(, k). Sea T = r(X1 , . . . , Xn ) = X1 + X2 +
+ Xn . Luego T es un estadstico suficiente y tiene distribucion Bi(, nk),
por lo tanto de acuerdo a lo visto en el ejemplo 1 es completo.
Ejemplo 3: Consideremos una variable X con distribucion U [0, ], IR+ .

Sea T = X. Luego se puede demostrar que T es un estadstico completo. La
demostracion de este hecho esta fuera de los alcances de este curso. De todos
modos, veremos una proposicion mas debil relacionada con completitud. Sea
g de IR+ en IR una funcion continua. Luego veremos que si E (g(X)) = 0
para todo en IR+ , entonces g(x) = 0
Z
1
E (g(X)) = g(x)dx = 0, 0,
) 0
luego Z
g(x)dx = 0, IR+
0
R
Sea G() = 0 g(x)dx, entonces se tiene
G() = 0 IR+
Usando el Teorema Fundamental del Calculo Integral se tiene que

G()
= g() = 0 IR+

Lo que faltara ver es que en el caso en que g no es continua, E (g(X)) =
0 IR+ implica g(x) = 0 con probabilidad 1.
El siguiente teorema muestra que bajo condiciones muy generales el es-

tadstico suficiente correspondiente a una familia exponencial es completo.
Teorema 1: Sea una familia exponencial a k parametros, discreta o continua

con funcion de densidad dada por
p(x, ) = A()ec1 ( )r1 (x)+...+ck ( )rk (x) h(x)
y sea = { = (1 , 2 , . . . , k ) : i = ci (); }.
a) Si contiene k + 1 puntos (1) , . . . , (k+1) tales que
{(j) (1) , 2 j k + 1} son linealmente independientes, entonces
el estadstico suficiente T = (r1 (X), . . . , rk (X)) es minimal suficiente.
34 PUNTUAL
b) Si un conjunto que contiene una esfera en IRk , entonces estadstico

suficiente T = (r1 (X), . . . , rk (X)) es completo.
Demostracio n: a) Como T es suficiente para

F = {p(x, ) = A()ec1 ( )r1 (x)+...+ck ( )rk (x) h(x) }, de acuerdo al
Teorema 2 de la seccion 3.8 bastara probar que T es minimal suficiente para
una subfamilia finita de F. Sean (j) , 1 j k + 1, tales que

(j) (j)
(j) = (1 , . . . , k ) = c1 ( (j) ), . . . , ck ( (j) ) .
Consideremos la subfamilia
Pk
F0 = {p(x, (j) ) = A( (j) )e c(
i=1 i
(j) )ri (x) h(x)
Pk (j)
i ri (x)
= A( (j) )e i=1 h(x) 1 j k + 1} .
Luego, por el Teorema 1 de la seccion 3.8 un estadstico minimal suficiente

para F0 esta dado por
!
p(x, (2) ) p(x, (k+1) )
T = r (x) = ,...,
p(x, (1) ) p(x, (1) )
(2) (2) (k+1) (k+1)

A( (2) )e1 r1 (x)+...+k rk (x)
A( (k+1) )e1 r1 (x)+...+k rk (x)

= (1) (1)
,..., (1) (1)
(1) 1 r1 (x)+...+k rk (x) (1) 1 r1 (x)+...+k rk (x)
A( )e A( )e
que es equivalente a
k k
!
X (2) (1) X (k+1) (1)
T = r () (x) = [i i ]ri (x), . . . , [i i ]ri (x) .
i=1 i=1
Como T = M T donde la matriz M IRkk es no singular, ya que su

jesima columna es el vector (j+1) (1) , T es equivalente a T y por lo
tanto, es minimal suficiente para F0 , de donde se obtiene el resultado.
b) Para una demostracion general se puede ver Teorema 1 de Seccion 4.3 de
Lehmann [4]. En este curso solo se demostrara para el caso que k = 1, y
que T = r(X) toma un n umero finito de valores racionales. De acuerdo al
teorema 3, en este caso la funcion de densidad de T sera de la forma:
p(t, ) = A()ec( )t h(t)

3.11. ESTADISTICOS COMPLETOS 35
Supongamos que los posibles valores de T que tienen probabilidad positiva

es el conjunto A = {t1 , t2 , . . . , tr } {t01 , t02 , . . . , t0s } donde los ti y los t0j
son racionales no negativos.
Sea v un m
ultiplo com un de los denominadores de todos los racionales ti
y tj y sean wi = vti 1 i r y wi0 = vt0i , 1 i s. Luego los wi y los wi0
0
son naturales. Finalmente sea w = max1is wi0 , zi = wi + w, 1 i r

y zi0 = wi0 + w, 1 i s. Luego los zi y los zi0 son naturales y todos
diferentes.
Supongamos que
E (g(T )) = 0
luego
r
X s
X
g(ti )p(ti , ) + g(t0i )p(t0i , ) = 0
i=1 i=1
con lo cual
r
X s
X
g(ti )A()ec( )ti h(ti ) + g(t0i )A()ec( )ti h(t0i ) = 0
0
,
i=1 i=1
de donde se obtiene
r
X s
X
c( )/v) ti v
g(t0i )h(t0i )(ec( )/v) )ti v = 0
0
g(ti )h(ti )(e ) + .
i=1 i=1
Llamando = ec( )/v resulta que como hay infinitos posibles valores
de c(), el conjunto de posibles valores de , tambien es infinito. Luego
tenemos
r
X s
X 0
g(ti )h(ti )wi + g(t0i )h(t0i )wi = 0
i=1 i=1
Multiplicando por w la u
ltima ecuacion resulta
r
X s
X 0
P () = g(ti )h(ti )zi + g(t0i )h(t0i )zi = 0
i=1 i=1
Luego el polinomio P () tiene infinitas races y por lo tanto, todos los coe-
ficientes deben ser 0, es decir, g(ti )h(ti ) = 0, 1 i r y g(t0i )h(t0i ) =
0, 1 i s. Como h(ti ) > 0, 1 i r y h(t0i ) > 0, 1 i s,
36 PUNTUAL
resulta que g(ti ) = 0 1 i r y g(t0i ) = 0 1 i s. Con lo cual,

P (g(T ) = 0) = 1 para todo .
Ejemplo 4: Sea X1 una variable N (, 12 ) y X2 independiente de X1 una

variable N (, 22 ), luego si = (, 12 , 22 ) la densidad de X = (X1 , X2 )
puede escribirse como
1 2 ( 1 2 1 2 ) ( 1 2 )x21 +( 1 2 )x22 +( 2 )x1 +( 2 )x2

2 2 2 2
p(x1 , x2 , ) = e 1 2 e 1 2 1 2
2 1 2
Por lo tanto es una familia exponencial a 4 parametros, pero no satisface

la condicion del Teorema 1 ya que el conjunto
1 1
= { = (1 , 2 , 3 , 4 ) con 1 = 2 , 2 = 2 3 = 2 4 = 2 } ,
2 1 2 2 1 2
esta en una superficie de dimension 3, ya que depende de 3 parametros,

12 , 22 y , y por lo tanto no contiene ninguna esfera de IR4 . Como el
Teorema 1 de la seccion 3.11 da un condicion suficiente pero no necesaria
para completitud, no se deduce que T = (X1 , X2 , X12 , X22 ) no sea completo.
Sin embargo, dado que E,2 ,2 (X1 X2 ) = = 0 y X1 X2 no es igual
1 2
a 0 resulta que T no es completo.
El Teorema 1 nos permite, sin embargo, deducir que T es minimal sufi-
ciente.
Por lo tanto, hemos visto un estadstico minimal suficiente no necesari-
amente es completo. El siguiente resultado establece la recproca.
Teorema 2: Sea T un estadstico suficiente y completo para . Si existe

un estadstico minimal suficiente para entonces T es minimal suficiente.
Demostracio n. La haremos solo en el caso en que el estadstico minimal
suficiente y el estadstico suficiente y completo T tienen dimension 1. Sea U
el estadstico minimal suficiente para , luego por ser T suficiente se cumple
que U = m(T ). Queremos ver que m es biunvoca.
Sea (t) la funcion arcotangente. Luego : IR [0, 2] es una funcion
estrictamente creciente y acotada. Por lo tanto, E ((T )) < y bastara
mostrar que (T ) es funcion de U .
Definamos (U ) = E ((T )|U ). Como U es suficiente (U ) es un es-
tadstico. Luego, si
g(T ) = (T ) [m(T )] = (T ) (U )
3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 37
se cumple que E [g(T )] = 0 para todo . Por lo tanto,

P ((T ) = (U )) = 1 para todo , y entonces T es equivalente a
U.
El siguiente Teorema es u til en muchas situaciones, donde probar inde-
pendencia entre estadsticos puede resultar laborioso.
Teorema 3: (Teorema de Basu) Sea T un estadstico suficiente y completo

para . Sea U = g(X) un estadstico cuya distribucion no depende de
entonces U es independiente de T.
Demostracio n. Sea A un suceso, como U tiene distribucion independiente
de , pA = P (U A) no depende de .
Sea A (t) = P (U A|T = t). Como T es suficiente A (T) es un estadstico.
Por otra parte, E (A (T) pA ) = 0 para todo , con lo cual la com-
pletitud de T implica que P (A (T) = pA ) = 1 para todo y por lo
tanto, U es independiente de T.
3.12 Estimadores insesgados de mnima varianza

uniformemente
El siguiente teorema nos da un metodo para construir estimadores IMVU

cuando se conoce un estadstico que es a la vez suficiente y completo.
Teorema 1 (Lehmann-Scheffe): Sea X un vector aleatorio de cuya dis-

tribucion pertenece a la familia F (x, ) con . Sea T un estadstico
suficiente y completo. Luego dada una funcion q() de en IR, se tiene que
(i) Existe a lo sumo un estimador insesgado de q(), basado en T.
(ii) Si (T) es un estimador insesgado de q(), entonces (T) es IMVU.
(iii) Si (X) es un estimador insesgado para q(), luego (T) = E((X)|T)

es un estimador IMVU para q().
n:
Demostracio
(i) Sean 1 (T) y 2 (T) dos estimadores insesgados de q(). Luego
E (1 (T) 2 (T)) = q() q() = 0

38 PUNTUAL
luego como T es completo
P (1 (T) 2 (T) = 0) = 1,
(ii) Sea (T) un estimador insesgado de q(), y sea 1 (X) otro estimador
insesgado. Si llamamos 1 (T) = E(1 (X)|T) sabemos por el Teorema
1 de la seccion 3.9 que 1 (T) es insesgado y
Var (1 ) Var (1 ) (3.21)
Pero de acuerdo a (i) se tiene que 1 (T) = (T) con probabilidad 1.

Luego
Var (1 ) = Var ()
y luego de 3.21 resulta que
Var () Var (1 )
y (ii) queda demostrado.
(iii) Como (T) es por el Teorema 1 de la seccion 3.9 insesgado, de (ii) se

deduce que es un estimador IMVU para q().
De acuerdo al punto (ii) de este teorema, en el caso de tener un estadstico

suficiente y completo T, cualquier estimador insesgado basado en T es un
estimador IMVU. El punto (iii) nos indica como construir un estimador
IMVU de q() a partir de cualquier estimador insesgado.
Teorema 2: Sea X un vector aleatorio cuya distribucion pertenece a una

familia exponencial a k parametros con funcion de densidad dada por
p(x, ) = A()ec1 ( )r1 (x)++ck ( )rk (x) h(x)
donde toma valores en el conjunto . Supongamos ademas que
= { = (1 , 2 , . . . , k ) : i = ci (); }
contiene una esfera en IRk . Sea T = (r1 (X), . . . , rk (X)), luego si (T) es
un estimador insesgado de q(), entonces (T) es un estimador IMVU para
q().
Demostracio n: Inmediata a partir de los Teoremas 3 de seccion 3.10 y 1
de seccion 3.12.
3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 39

perteneciente a la familia Bi(, k) con k fijo. Luego, la distribucion conjunta
de la muestra viene dada por
k k k n n
p(x1 , x2 , . . . , xn , ) = ... i=1 xi (1 )nki=1 xi
x1 x2 xn
k k k
= (1 )nk e (n
i=1 xi ) ln(/(1)) ...
x1 x2 xn
Esta familia constituye una familia exponencial, con estadstico suficiente
P
T = ni=1 Xi . Por otro lado c() = ln /(1 ) toma todos los posibles
valores de IR cuando vara en el intervalo (0,1). Luego T es un estadstico
suficiente y completo. Como (T ) = T /nk es un estimador insesgado de ,
resulta un estimador IMVU de .

perteneciente a la familia N (, 2 ). Luego usando (3.19) resulta que la
distribucion conjunta de la muestra viene dada por
1 2 Pn Pn
n 2 1 2 X 2 + 2 X
p(x1 , . . . , xn , , 2 ) = e 2 e 2 i=1 i i=1 i
2 2 )n/2
Luego constituye una familia exponencial
a dos parametros con estadstico
Pn 2 Pn
suficiente T = i=1 Xi , i=1 Xi . Mostraremos ahora que T es com-
pleto. Bastara mostrar que
1
= {(1 , 2 ) : 1 = 2
, 2 = 2 , IR, 2 IR+ }
2
contiene una esfera.
Mostraremos que contiene todo (1 , 2 ) IR2 con 1 < 0.
Sea (1 , 2 ) con 1 < 0, tenemos que mostrar que viene de un par (, 2 )
con 2 > 0. Para ver esto basta tomar 2 = 1/2 1 y = 2 2 = 2 /21 .
Luego T es completo.
Como X es un estimador insesgado de , y como depende de T, resulta
que es IMVU de . P
P 2
Por otro lado s2 = ni=1 (Xi X)2 /(n 1) = n 2
i=1 Xi nX )/(n 1)
es un estimador insesgado de 2 y ademas depende de T, luego es IMVU
para 2 .
Ejemplo 3: Sea X1 una variable N (, 12 ) y X2 independiente de X1 una va-

riable N (, 22 ). Vimos en el Ejemplo 4 de la seccion 3.11 que
40 PUNTUAL
T = (X1 , X2 , X12 , X22 ) era minimal suficiente pero no era completo. Se puede
mostrar que en este caso no hay ning un estimador IMVU (ver Problema 7
de 3.11).
Ejemplo 4: El siguiente ejemplo muestra que no siempre existen estima-

dores IMVU. Volvamos al ejemplo 1 y supongamos que se quiera estimar
P
q(). Como T = ni=1 Xi es un estadstico suficiente, un estimador IMVU
de q() debera estar basado en T . Supongamos que (T ) es un estimador
IMVU para q(). Como T tiene distribucion Bi(, kn) y (T ) es insesgado
se tendra
Xkn kn
q() = E ((T )) = (t) r (1 )knt
i=0
t
Luego una condicion necesaria para que q() tenga un estimador IMVU
es que sea un polinomio de grado menor o igual a kn. Se puede mostrar que
es tambien una condicion suficiente aunque no lo demostraremos.
Por lo tanto no existen estimadores IMVU, por ejemplo, para e , ln ,
sen . Esto no quiere decir que no existen buenos estimadores. Si q()
es continua, un buen estimador sera (T ) = q(T /nk) ya que T /nk es un
estimador IMVU de .
Ejemplo 5: En este ejemplo veremos que un estimador IMVU puede ser

mejorado en su error cuadratico medio por otro estimador no insesgado.
Volvamos al ejemplo 2 y supongamos que se desea estimar 2 . Hemos visto
P
que un estimador IMVU para 2 es s2 = ni=1 (Xi X)2 /(n1), sin embargo
veremos que s2 no es admisible.
Pn
bc2 = c U donde U =
Sea 2 2
i=1 (Xi X) . Luego, s = b 2 1 . Sabemos
n1
que U/ 2 tiene distribucion 2n1 , por lo tanto, E2 (U ) = (n 1) 2 y
Var2 (U ) = 2 (n 1) 4 . Con lo cual,
h i
bc2 ) = E2 (
ECM2 ( bc2 2 )2
h i2
bc2 ) + E2 (
= Var2 ( bc2 ) 2
h i2
= c2 Var2 (U ) + c E2 (U ) 2
h i2
= 2 c2 (n 1) 4 + c (n 1) 2 2
h i
= 4 c2 (n + 1)(n 1) 2(n 1)c + 1
3.13. DESIGUALDAD DE RAOCRAMER 41
bc2 es un polinomio de grado 2 en c que alcanza su mnimo

Luego, el ECM de
cuando c = 1/(n + 1). Por lo tanto, U/(n + 1) tiene menor ECM que el
estimador IMVU s2 .
Como caraterizamos los estimadores IMVU cuando no existe un es-
tadstico suficiente y completo?
Lema 1: Sea 0 un estimador insesgado de q(). Dado cualquier otro

estimador insesgado de q(), se cumple que = 0 U con E (U ) = 0
.
Luego como ECM () = V ar () = V ar (0 U ) = E {(0 U )2 }
q()2 , para encontrar el estimador IMVU basta minimizar E {(0 U )2 }, o
sea, basta encontrar la proyeccion de 0 sobre el espacio de los estimadores
del 0.
Teorema 3: Supongamos que X es un vector aleatorio de cuya distribucion

pertenece a la familia F (x, ) con . Sea = {(X) : E 2 (X) < }.
Sea U = {{(X) : E (X)} = 0 . Una condicion necesaria y
suficiente para que , insesgado, sea IMVU para q() es que E (U ) = 0,
, U U.
3.13 Desigualdad de RaoCramer
En esta seccion mostraremos que bajo hipotesis muy generales, la varianza

de un estimador insesgado no puede ser inferior a cierta cota.
Supongamos que X = (X1 , . . . , Xn ) es un vector aleatorio de cuya dis-
tribucion pertenece a la familia de distribuciones discreta o continua con
densidad p(x, ), con ; donde es un conjunto abierto de IR. Su-
pongamos ademas que se cumplen las siguientes condiciones (en lo que sigue
suponemos que X R
es continuo, para el caso discreto habra que reemplazar
P
todos los signos por ):
(A) El conjunto S = {x : p(x, ) > 0} es independiente de .

(B) Para todo x, p(x, ) es derivable respecto de .
(C) Si h(X) es un estadstico tal que E [|h(X)|] < para todo
entonces se tiene
Z Z Z Z
p(x, )
... h(x)p(x, )dx = ... h(x) dx

42 PUNTUAL
donde dx = (dx1 , . . . , dxn ) (o sea se puede derivar dentro del signo

integral)
(D) " 2 #
ln p(X, )
0 < I() = E <

I() se denomina n
umero de informaci
on de Fisher.
Lema 1: Supongamos que se cumplan las condiciones A, B, C y D. Sea

(x, ) = p(x,)
. Entonces,
(i) E (X, ) = 0 y Var (X, ) = I().
(ii) Si ademas existe la derivada segunda de p(x, ) respecto de y si para

todo estadstico h(X) tal que, E [|h(X)|] < para todo , se
cumple que
Z Z Z Z
2 2 p(x, )
... h(x)p(x, )dx = ... h(x) dx
2 2
(3.22)
entonces
2 ln p(X, ) (X, )
I() = E 2
= E

Demostracio n: (i) Por ser p(x, ) una densidad, si S es el conjunto definido

en la condicion (A) se tiene
Z Z Z Z Z Z
... p(x, )dx = ... p(x, )dx = ... p(x, )IS (x)dx = 1
S
donde IS es la funcion indicadora del conjunto S.

Luego aplicando la condicion (C) a h(x) = IS (x) se obtiene derivando ambos
miembros que
Z Z
p(x, )
... IS (x)dx = 0,

y por lo tanto
Z Z
p(x, ) .
... p(x, ) IS (x)p(x, )dx = 0 .

Esta u
ltima ecuacion es equivalente a
Z Z ln p(x, )

... IS (x)p(x, )dx = 0

la cual implica
ln p(X, )
E (X, ) = E =0 (3.23)

Como I() = E 2 (X, ), (3.23) implica que Var (X, ) = I()
(ii) De la igualdad
2 p(x,)
2 ln p(x, ) 2
= 2 (x, )
2 p(x, )
se obtiene que
Z Z
2 ln p(X, ) 2 p(x, )
E = ... dx E 2 (X, ) . (3.24)
2 2
Utilizando (3.22) con h(x) = IS (x) se obtiene que el primer termino del lado
derecho de (3.24) es igual a cero, de donde el resultado.
Teorema 1 (RaoCramer): Bajo las condiciones A, B, C y D si (X) es un

estimador insesgado de q() tal que E 2 (X) < se tiene
(i)
|q 0 ()|2
Var ((X))
I()
(ii) (i) vale como igualdad si y solo si (X) es estadstico suficiente de una
familia exponencial, es decir si y solo si
p(x, ) = A()ec()(x) h(x) (3.25)
p(x,)
n: (i) Sea (x, ) =
Demostracio . Por el Lema 1 tenemos que
E (X, ) = 0 y Var (X, ) = I(). (3.26)
Por otro lado, como (X) es insesgado se tiene

Z Z
E ((X)) = ... (x)p(x, )IS (x)dx = q()

44 PUNTUAL
y luego aplicando la hipotesis C, tomando h(X) = (X)IS (X) se obtiene

derivando ambos miembros que
Z Z p(x, )
... (x) IS (x)dx = q 0 ()

de donde
Z Z
E [(X)(X, )] = ... (x)(x, )p(x, )dx

Z Z
ln p(x, )
= ... (x) IS (x)p(x, )dx

= q 0 () (3.27)
Teniendo en cuenta (3.26), (3.27) se puede escribir como
Cov ((X), (X, )) = q 0 () (3.28)
De acuerdo a la desigualdad de CauchySchwartz,

Cov(X, Y ) 2 Var(X), Var(Y ), y vale la igualdad si y solo si
P (Y = aX + b) = 1 para algunas constantes a y b. Por lo tanto, usando
(3.28) resulta
0 2
q () Var ((X)) Var ((X, )) (3.29)
y la igualdad vale si y solo si
ln p(X, )
= (x, ) = a()(x) + b() con probabilidad 1. (3.30)

Usando (3.26) y (3.29) resulta
q 0 ()2
Var ((X) (3.31)
I()
que es lo que se afirma en (i).
(ii) (3.31) valdra como igualdad si y solo si cumple (3.30). Mostraremos que
(3.30) se cumple si y solo si se cumple (3.25).
Integrando respecto de en (3.30), se obtiene
Z Z
ln p(x, ) = (x) a()d + g(x) + b()d
que se puede escribir como
ln p(x, ) = (x)c() + g(x) + B()

R R
donde c() = a()d y B() = b()d. Luego, despejando p(x, ) resulta
p(x, ) = eB() e(x)c() eg(x)
y llamando A() = eB() y h(x) = eg(x) ; resulta (3.25).
Supongamos ahora que se cumple (3.25), mostraremos que se cumple
(3.30).
Si se cumple (3.25), tomando logaritmos se tiene
ln p(x, ) = ln A() + c()(x) + ln h(x)
y derivando se obtiene
ln p(x, ) A0 ()
= + c0 ()(x)
A()
y por lo tanto se cumple (3.30). Esto prueba el punto (ii).
Observaci on 1: Si (X) es un estimador insesgado de q() y Var ((x)) =

[q 0 ()]2 /I() para todo . Entonces del punto (i) del Teorema 1 resulta
que (X) es IMVU. Por lo tanto esto da otro criterio para verificar si un
estimador insesgado dado es IMVU.
Observaci on 2: Si p(x, ) = A()ec()(x) h(x), y si (X) es un estimador

insesgado de q(), entonces (X) es un estimador IMVU de q(). Esto resulta
de (i) y (ii).
Observaci on 3: Si (X) es un estimador de , su varianza debe ser mayor

o igual que 1/I(). Luego se puede esperar que cuanto mayor sea I() (como
1/I() sera menor) existe la posibilidad de encontrar estimadores con menor
varianza y por lo tanto mas precisos. De ah el nombre de n umero de
informacion que se le da a I(). Es decir cuanto mayor es I(), mejores
estimadores de se pueden encontrar, y por lo tanto se puede decir que mas
informacion da el vector X sobre . El hecho de que se pueden encontrar
estimadores con varianza aproximadamente igual a 1/I() sera cierto para n
grande. Para esto consultar seccion 3.13 y el apendice (B) de este captulo.
Para una generalizacion del Teorema de RaoCramer el caso en que es un
vector puede consultarse el Teorema 4.3.1 de Zacks [7] y el Teorema 7.3 de
Lehmann [5].
El siguiente teorema nos indica que una muestra aleatoria de tama no

n X1 , X2 , . . . , Xn de una familia con densidad p(X, ) nos da n veces mas
informacion que una sola observacion.
46 PUNTUAL
Teorema 2: Sea X1 , . . . , Xn una muestra aleatoria de una distribucion con

densidad p(x, ) con IR. Luego, si se denomina In () al n umero
de informacion de X1 , X2 , . . . , Xn y I1 () al n
umero de informacion de X1 ,
entonces se tiene In () = nI1 ().
n: Se tiene que
Demostracio
n
Y
p(x1 , x2 , . . . , xn , ) = p(xi , )
i=1
y entonces
n
X
ln p(x1 , . . . , xn , ) = ln p(xi , ) .
i=1
Por lo tanto,
n
ln p(x1 , . . . , xn , ) X ln p(xi , )
=
i=1

Con lo cual, por ser X1 , . . . , Xn independientes, se tiene
n
X
ln p(X1 , . . . , Xn , ) ln p(Xi , )
I() = Var = Var = nI1 () .
i=1


perteneciente a la familia Bi(, 1). Luego se tiene
p(x, ) = x (1 )1x
luego
ln p(x, ) = x ln + (1 x) ln(1 )
y por lo tanto
ln p(x, ) x 1x x
= =
1 (1 )
luego

ln p(X1 , ) 2
I1 () = E

h 1 i2
= E (X )2
(1 )
h 1 i2
= Var (X )2
(1 )
1
=
(1 )
y por lo tanto,
n
In () = .
(1 )
Pn
Consideremos el estimador insesgado de , X = (1/n) i=1 Xi . Se tiene
que
(1 ) 1
Var (X) = =
n I()
y por lo tanto, de acuerdo con la observacion 2 es IMVU. Esto es un ejemplo
donde el estimador IMVU satisface la desigualdad de RaoCramer como
igualdad. Esto podramos haberlo visto directamente mostrando que X es
el estadstico suficiente de una familia exponencial.
Veremos ahora un ejemplo donde el estimador IMVU satisface la de-
sigualdad de RaoCramer estrictamente.
Sea q() = (1 ) = Var (X1 ). Conocemos por el ejemplo 2 de la
seccion 3.3, que
n
1 X
(X1 , X2 , . . . , Xn ) = s2 = (Xi X)2
n 1 i=1
es un estimador insesgado de q(). Ademas se tiene

n
!
1 X 2
(X1 , . . . , Xn ) = Xi2 nX
n1 i=1
n
!
1 X 2
= Xi nX
n 1 i=1
n
= X(1 X)
n1
Luego (X1 , . . . , Xn ) depende del estadstico suficiente y completo X y

por lo tanto es IMVU.
Sin embargo se tendra que
q 0 ()2
Var ((X1 , . . . , Xn )) > (3.32)
nI1 ()
ya que (X1 , . . . , Xn ) no es el estadstico suficiente de una familia exponen-

cial.
Para la verificacion directa de (3.32) ver Problema 11 de 3.13.
48 PUNTUAL
3.14 Consistencia de estimadores
La teora asintotica estudia las propiedades de los procedimientos de infe-

rencia estadstica cuando el tama no de la muestra n que se utiliza es grande,
mas precisamente, en el lmite cuando n tiende a infinito.
Una propiedad deseable para un estimador, es que cuando n es grande la
sucesion n (X1 , . . . , Xn ) se aproxime en alg
un sentido al valor que queremos
estimar. Para precisar estas ideas introduciremos el concepto de consistencia.
Sea F = {F (x, ) con } una familia de distribuciones y supongamos

que para cada n se tiene un estimador n (X1 , . . . , Xn ) de q() basado en una
muestra aleatoria de tamano n. Daremos la siguiente definicion:
Definici
on 1: n (X1 , . . . , Xn ) es una sucesi
on fuertemente consistente de
estimadores de q() si
lim n (X1 , . . . , Xn ) = q() c.t.p.

n
o sea si P (n (X1 , . . . , Xn ) q()) = 1 para todo .
Definici
on 2: n (X1 , . . . , Xn ) es una sucesi
on debilmente consistente de
estimadores de q() si
lim n (X1 , . . . , Xn ) = q() en probabilidad.

n
Es decir, para todo > 0 y
lim P (|n (X1 , . . . , Xn ) q()| > ) = 0 .

n
Observaci on 1: Puesto que convergencia en c.t.p. implica convergencia

en probabilidad, entonces toda sucesion fuertemente convergente tambien lo
sera debilmente.
Ejemplo 1: Sea X1 , . . . , Xn una muestra aleatoria de una funcion de dis-

tribucion F (x) totalmente desconocida, tal que EF (X1 ) existe. Llamemos
q(F ) a EF (X1 ). Si
n
1X
n (X1 , . . . , Xn ) = X n = Xi ,
n i=1
3.14. CONSISTENCIA DE ESTIMADORES 49
por la ley fuerte de los grandes n

umeros este estimador resulta fuertemente
consistente para q(F ).
Si ademas EF (X 2 ) < , entonces
n n
1 X 1 X n 2
n (X1 , . . . , Xn ) = s2n = (Xi X n )2 = Xi2 Xn
n 1 i=1 n 1 i=1 n1
es fuertemente consistente para q(F ) = VarF X1 . En efecto,

n
n 1X n 2
s2n = X2 X .
n 1 n i=1 i n1 n
Por la ley fuerte de los grande n

umeros
n n
1X 1X
X 2 EF (X12 ) c.t.p. y Xi EF (X1 ) c.t.p.
n i=1 i n i=1
2
Luego, X n EF (X1 )2 c.t.p. y como n/(n 1) converge a 1 se tiene que
lim s2 = VarF (X1 ) c.t.p.

n n
Observaci on 2: Si X1 , . . . , Xn es una muestra aleatoria de una distribucion

N (, 2 ) se tiene que X n es fuertemente consistente para y s2n es fuerte-
mente consistente para 2 , ya que por lo visto recien
lim X n = E(X1 ) c.t.p.

n
y
lim s2 = Var (X1 ) c.t.p.
n n
y sabemos que E(X1 ) = y Var(X1 ) = 2 .

El siguiente teorema nos da una condicion suficiente para que una sucesion
de estimadores sea debilmente consistente.
Teorema 1: Sea, para todo n, n = n (X1 , . . . , Xn ) un estimador de q()

basado en una muestra aleatoria de tama no n. Si Var (n ) 0 y E (n )
q(), entonces n (X1 , . . . , Xn ) es debilmente consistente.
n: Debemos ver que

Demostracio
lim P (|n (X1 , . . . , Xn ) q()| > ) = 0 > 0.

n
50 PUNTUAL
Por la desigualdad de Markov se tiene
E (n (X1 , . . . , Xn ) q())2
P (|n (X1 , . . . , Xn ) q()| )
2
2
Var (n ) + E (n ) q()

2
Como por hipotesis E (n ) q()) 0 y (Var (n )) 0 se obtiene el

resultado.
El siguiente teorema muestra que si n (X1 , . . . , Xn ) es una sucesion de

estimadores IMVU para q() entonces cumple la hipotesis del Teorema 1.
Teorema 2: Sea n (X1 , . . . , Xn ) una sucesion de estimadores IMVU para

q(), donde X1 , . . . , Xn es una muestra aleatoria de una distribucion perte-
neciente a la familia F (x, ), . Luego Var (n (X1 , . . . , Xn )) tiende a
cero si n tiende a infinito.
n: Sea
Demostracio
Pn
i=1 1 (Xi )
n (X1 , . . . , Xn ) =
n
luego E (n ) = E (1 ) = q(), es decir n es un estimador insesgado de

q().
Por otro lado, Var (n (X1 , . . . , Xn )) = Var (1 (X1 ))/n. Por ser
n (X1 , . . . , Xn ) IMVU de q() se cumple
Var (n (X1 , . . . , Xn )) Var (n (X1 , . . . , Xn )) = Var (1 (X1 ))/n
y por lo tanto,
lim Var (n (X1 , . . . , Xn )) = 0.
n
Corolario 1: Si n (X1 , . . . , Xn ) es una sucesion de estimadores IMVU para

q() donde X1 , . . . , Xn es una muestra aleatoria de una distribucion perte-
neciente a la familia F = {F (x, ) con } entonces n (X1 , . . . , Xn ) es
una sucesion de estimadores debilmente consistentes.
n: Resulta inmediatamente de los teoremas 1 y 2.
Demostracio
3.15. CONSISTENCIA DE LOS ESTIMADORES DE LOS MOM... 51
3.15 Consistencia de los estimadores de los mo-

mentos
En este parrafo demostraremos la consistencia de los estimadores de los

momentos.
Teorema 3: Sea X1 , . . . , Xn una muestra aleatoria de una distribucion per-

teneciente a la familia F = {F (x, ) con IR}, h(x) una funcion
continua con valores en IR y supongamos que E (h(X1 )) = g() es, como
funcion de , continua y estrictamente monotona. Sea el estimador de mo-
mentos bn definido como la solucion de
n
1X
h(Xi ) = E (h(X1 )) = g().
n i=1
Luego con probabilidad 1 existe n0 tal que para todo n n0 la ecuacion que
define bn tiene solucion y es fuertemente consistente para .
Demostracio n: Sea > 0. Hay que demostrar que, con probabilidad 1,
existe n0 tal que
|bn | < para n n0 .
Supongamos que g() es estrictamente creciente. El caso contrario se de-
muestra en forma analoga. Luego, se tiene,
g( ) < g() < g( + ) .
Sea = min(g( + ) g(), g() g( )); luego
g( ) g() < g() < g() + g( + ) .
Por otro lado, por la ley fuerte de los grandes n

umeros
n
1X
lim h(Xi ) = g() c.t.p.
n n
i=1
Luego, con probabilidad 1, dado > 0 existe n0 tal que para todo n n0 se
tiene
n
1X
g() h(Xi ) g() + .
n i=1
52 PUNTUAL
De esta desigualdad se infiere que

1X
g( ) h(Xi ) g( + ) para n n0
n
y como g() es continua y estrictamente creciente, para n n0 existe un
nico valor bn que satisface
u
1X
h(Xi ) = Eb
n
(h(X1 )) = g(bn )
n
Ademas dicho valor debe estar entre y +, es decir que bn +

para n n0 que es lo que queramos demostrar.
3.16 Consistencia de los estimadores de m

axima
verosimilitud
En esta seccion enunciaremos un teorema que establece la consistencia de

los estimadores de maxima verosimilitud para el caso de un solo parametro.
La demostracion se dara en el Apendice A.
n
Y n
Y
max p(xi , ) = b )
p(xi , (3.33)
n
i=1 i=1
b definido por
Se puede demostrar que bajo condiciones muy generales n
(3.33) es fuertemente consistente.
Teorema 1: Sea X1 , . . . , Xn una muestra aleatoria de una distribucion

discreta o continua con densidad en la familia p(x, ) con , donde es
un intervalo abierto de IR. Supongamos que p(x, ) es derivable respecto de
y que el conjunto S = {x : p(x, ) 6= 0} es independiente de para todo
. Sea bn el estimador de maxima verosimilitud de , que satisface
n
X ln p(xi , bn )
=0 (3.34)
i=1

Supongamos finalmente que la ecuacion (3.34) tiene a lo sumo una solucion

y que 6= 0 implica que p(x, ) 6= p(x, 0 ). Entonces limn bn = c.t.p.,
es decir, bn es una sucesi
on de estimadores fuertemente consistente.
3.17. ESTIMADORES EFICIENTES 53
Con el objetivo de simplificar la demostracion, la condiciones utilizadas

en el Teorema 1 son mas fuertes que las estrictamente necesarias para que
el teorema sea valido. El teorema tambien vale en el caso de que haya mas
de un parametro. Para una demostracion mas general se puede consultar el
Teorema 5.3.1 de Zacks [7] y en Wald [6].
3.17 Estimadores asint

oticamente normales y efi-
cientes
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribucion con densi-

dad perteneciente a la familia p(x, ) con , donde es un intervalo
abierto de IR, y sea n (X1 , . . . , Xn ) un estimador insesgado de q(). Luego
suponiendo las condiciones A, B, C y D del Teorema 1 de la seccion 3.13 se
tiene
E [n (X1 , . . . , Xn )] = q() (3.35)
[q 0 ()]2
Var (n (X1 , . . . , Xn )) . (3.36)
nI1 ()
(3.35) y (3.36) son equivalentes a:

E [ n(n (X1 , . . . , Xn ) q())] = 0 (3.37)
[q 0 ()]2
Var [ n(n (X1 , . . . , Xn ) q())] . (3.38)
I1 ()
El mismo Teorema 1 de 3.13, establece que solo excepcionalmente habra
estimadores que satisfagan simultaneamente (3.37), y la igualdad en (3.38)
para n finito. En efecto, esto sucede unicamente si se cumplen
q() = E (n (X1 , . . . , Xn )) y p(x, ) = A()ec()n (x1 ,...,xn ) h(x1 , . . . , xn )
Sin embargo, bajo condiciones muy generales, existen estimadores (por ejem-
plo, los de maxima verosimilitud), que para n grande satisfacen aproximada-
mente (3.37) y la igualdad en (3.38). Para precisar estas propiedades dare-
mos la siguiente definicion:
Definici on 1: Se dice que n (X1 , . . . , Xn ) es una sucesion de estimado-

res asint oticamente normal y eficiente (A.N.E.) si n(n (X1 , . . . , Xn )
q()) converge en distribucion a una normal con media cero y varianza
[q 0 ()]2 /I1 ().
54 PUNTUAL
Es decir que si n (X1 , . . . , Xn ) es A.N.E., para n grande se comporta

aproximadamente como si tuviese distribucion N (q(), [q 0 ()]2 /nI1 ()), es
decir como si fuera insesgado con varianza [q 0 ()]2 /nI1 (), que es la menor
varianza posible de acuerdo con el Teorema de RaoCramer.
El siguiente Teorema, demostrado en el Apendice B, establece que bajo

condiciones muy generales los estimadores de maxima verosimilitud son
A.N.E.

discreta o continua con densidad perteneciente a la familia p(x, ) con
y un abierto en IR. Supongamos que p(x, ) tiene derivada tercera respecto
de continua y que satisface las condiciones A, C y D del Teorema 1 de 3.13.
Sea (x, ) = ln
p(x,)
y supongamos ademas que
3 ln p(x, ) 2 (x, )

3
= 2
K

para todo x S y para todo (S es el mismo que en la condicion A).
Sea bn un estimador de maxima verosimilitud de consistente y sea q()
derivable con q 0 () 6= 0 para todo . Entonces q(bn ) es A.N.E. para estimar
q().
Las hipotesis que se han supuesto en este teorema son mas fuertes que
las estrictamente necesarias con el objetivo de simplificar la demostracion.
Tambien se puede demostrar un teorema similar para el caso de mas de un
parametro. Una demostracion mas general se puede ver en la seccion 5.5 de
Zacks [7].
3.18 Ap endice A: Demostraci

on de la consistencia
de los estimadores de m
axima verosimilitud
Comenzaremos probando algunas propiedades de funciones convexas.
Definici
on 1: Sea f (x) una funcion definida sobre un intervalo de IR y que
toma valores en IR. Diremos que f (x) es convexa si:
f (x + (1 )y) f (x) + (1 )f (y) con 0 1

3.18. APENDICE A 55
y diremos que f (x) es estrictamente convexa si:
f (x + (1 )y) < f (x) + (1 )f (y) 0 < < 1.
Teorema 1: Sea f (x) : IR IR una funcion convexa. Sean 1 , . . . , n tales

P
que 0 i 1 y ni=1 i = 1. Entonces se tiene:
X
n n
X
f i xi i f (xi )
i=1 i=1
Ademas, si f (x) es estrictamente convexa y hay al menos un i que cumple

0 < i < 1 (esto es equivalente a que haya por lo menos dos i > 0),
entonces:
X
n n X
f i xi < i f (xi )
i=1 i=1
n: Por induccion (para n = 2 se obtiene la definicion 1).

Demostracio
Teorema 2 (Desigualdad de Jensen): Sea Y una variable aleatoria y h :

IR IR una funcion convexa, luego se tiene
E(h(Y )) h(E(Y ))
Ademas si h es estrictamente convexa y Y no es constante con probabilidad

1 se tiene:
E(h(Y )) > h(E(Y ))
Demostracio n: Solo haremos el caso en que Y es discreta y toma un

n
umero finito de valores.
Supongamos que Y toma los valores y1 , y2 , . . . , yk con probabilidades
p1 , p2 , . . . , pk . Luego aplicando el Teorema 1 se obtiene:
X
k n
X
h(E(Y )) = h yi pi h(yi )pi = E(h(Y ))
i=1 i=1
En el caso en que h sea estrictamente convexa y Y no sea constante, hay al

menos dos pi mayores que cero, luego tambien por el Teorema 1 obtenemos:
X
k k
X
h(E(Y )) = h yi pi < h(yi )pi = E(h(Y ))
i=1 i=1
56 PUNTUAL
Teorema 3: Sea f : IR IR tal que f (x) > 0 para todo x; luego f (x) es
convexa.
n: Puede verse en cualquier libro de calculo.
Demostracio
Teorema 4: Sean p y q dos densidades o dos funciones de densidad discretas

o continuas distintas. Luego se tiene:
q(X)
Ep ln <0
p(X)
(donde Ep significa que se calcula la esperanza considerando que X tiene

una distribucion discreta o continua cuya densidad o probabilidad puntual
es p).
Demostracio n: Primero veremos que q(X)/p(X) no es constante con prob-
abilidad 1. La demostracion se hara suponiendo que X es continua. El caso
discreto es totalmente analogo. Supongamos que q(X)/p(X) = k c.t.p.,
donde k es una constante. Luego Ep (q(X)/p(X)) = k. Esto es:
Z +
(q(x)/p(x))p(x)dx = k (3.39)

pero Z +
(q(x)/p(x))p(x)dx = 1 (3.40)

pues q(x) es una densidad. Luego, de (3.39) y (3.40) resulta k = 1. Entonces

p(X) = q(X) c.t.p. y esto contradice la hipotesis. Por lo tanto q(X)/p(X)
no es constante.
Por otro lado ln(x) es una funcion estrictamente convexa ya que:
d2 ( ln x) 1
2
= 2 >0.
dx x
Luego, estamos en condiciones de aplicar la desigualdad de Jensen (Teorema
2), con Y = q(X)/p(X) y h(x) = ln x. En estas condiciones obtenemos
Z +
q(X) q(X) q(x)
Ep ln > ln Ep = ln p(x)dx = ln 1 = 0.
p(X) p(X) p(x)
Luego Ep [ ln(q(X)/p(X))] > 0 y Ep [ln(q(X)/p(X))] < 0 con lo que obte-

nemos la tesis.

3.18. APENDICE A 57
Demostraci
on del Teorema 1 de Secci
on 3.16
P
Sea Ln (X1 , . . . , Xn , ) = (1/n) ni=1 ln p(Xi , ). Luego bn satisface
Ln (X1 , . . . , Xn , bn ) = max Ln (X1 , . . . , Xn , ) y
Ln (X1 , . . . , Xn , bn )
=0.

Ademas se tiene
1X n p(X , + )
i
Ln (X1 , . . . , Xn , + ) Ln (X1 , . . . , Xn , ) = ln (3.41)
n i=1 p(Xi , )
1X n p(X , )
i
Ln (X1 , . . . , Xn , ) Ln (X1 , . . . , Xn , ) = ln (3.42)
n i=1 p(Xi , )
Como 6= 0 implica p(X1 , ) 6= p(X1 , 0 ), aplicando el Teorema 4 resulta

que

p(X1 , + )
E ln <0 (3.43)
p(X1 , )

p(X1 , )
E ln <0 (3.44)
p(X1 , )
Entonces, de (3.41), (3.42), (3.43) y (3.44) y de la ley fuerte de los grandes
n
umeros resulta que con probabilidad igual a 1 existe un n0 tal que n > n0
implica:
Ln (X1 , . . . , Xn , ) < Ln (X1 , . . . , Xn , )
y
Ln (X1 , . . . , Xn , + ) < Ln (X1 , . . . , Xn , ) .
Luego, para n > n0 en el intervalo ( , + ) existe un maximo relativo,

digamos n , que satisface
Ln (X1 , . . . , Xn , n )
=0,

pero hemos supuesto que bn era el u nico que satisfaca esta igualdad. Luego,
bn = n y por lo tanto bn ( , + ).
58 PUNTUAL
3.19 Apendice B: Demostraci on de la normalidad

y eficiencia asint
otica de los estimadores de
maxima verosimilitud
Demostraremos previamente un lema.
Lema 1: Sea X1 , . . . , Xn una sucesion de variables aleatorias tales que
n(Xn ) converge en distribucion a N (0, 2 ). Sea g(x) una funcion

definida en IR tal que g 0 () 6= 0 y g 0 (x) es continua en x = . Luego

se tiene que n(g(Xn ) g()) converge en distribucion a una distribucion
N (0, 2 (g 0 ())2 ).
Demostracio n: Primero demostraremos que Xn en probabilidad.
Sean > 0 y > 0 arbitrarios y X una variable aleatoria con distribucion
N (0, 2 ). Luego existe K suficientemente grande tal que P (|X| > K) < .

Por otro lado, P (|Xn | > ) = P ( n|Xn k n). Sea n0 tal que
n0 K. Luego si n n0 :

P (|Xn | ) P ( n|Xn | K) .

Como n(Xn ) converge en distribucion a una variable con distribucion
N (0, 2 ), se tiene

lim P (|Xn | ) lim P ( n|Xn | K) = P (|X| K) < .
n n
Luego
lim (P |Xn | ) < para todo > 0 ,
n
por lo tanto, limn P (|Xn | ) = 0 y resulta Xn en probabilidad.

Por otra parte, el teorema del valor medio implica que

n(g(Xn ) g()) = ng 0 (n )(Xn ) (3.45)
con n un punto intermedio entre Xn y . Luego, n en probabilidad y

como g 0 (x) es continua en , g 0 (n ) g 0 () en probabilidad.

Por lo tanto, como por hipotesis n(Xn ) converge en distribucion
a una N (0, 2 ) y g 0 (n ) g 0 () en probabilidad, aplicando la propiedad

5 de 1.8, resulta que n(g(Xn ) g()) converge en distribucion a una
N (0, 2 (g 0 ())2 ).

3.19. APENDICE B 59
Demostraci
on del Teorema 1 de la secci
on 3.17. Indiquemos por
(x, ) 2 (x, )
0 (x, ) = y 00 (x, ) = .
2
El estimador de maxima verosimilitud satisface:
n
X
(Xi , bn ) = 0 .
i=1
Desarrollando en serie de Taylor alrededor de se obtiene:

n n
! n
!
X X 1 X
(Xi , ) + (Xi , ) (bn ) +
0
(Xi , n ) (bn )2 = 0 ,
00
i=1 i=1
2 i=1
donde n es un punto intermedio entre bn y . Despejando (bn ) y mul-

tiplicando ambos miembros por n se obtiene:
P
b ni=1 (Xi , )/ n
n(n ) = P Pn
(1/n) ni=1 0 (Xi , ) + (1/2n) bn )
00 (X , ) (
i n
i=1
Sea D(X1 , . . . , Xn , ) el denominador de esta u

ltima expresion. Vamos a
demostrar que:
(a)
D(X1 , . . . , Xn , ) I1 () = E [(X, )]2 en probabilidad.
Pn
(b) i=1 (Xi , )/ n converge en distribucion a una distribucion N (0, I1 ())
Probemos (a). Como | 00 (Xi , )| K para todo , se tiene que

1 Xn K

(Xi , n )(bn ) |(bn )|
00
2n 2
i=1
y luego como bn es consistente se deduce que:

n
1X
00 (Xi , n )(bn ) 0 en probabilidad. (3.46)
n i=1
Por otro lado, como 0 (Xi , ) son n variables aleatorias, independientes igual-
mente distribuidas, por la ley de los grandes n umeros implica que
n
1X
0 (Xi , ) E( 0 (X1 , ) en probabilidad. (3.47)
n i=1
60 PUNTUAL
Pero de acuerdo con el Lema 1 de la seccion 3.13
E ( 0 (X1 , )) = I1 () .
Luego, usando (3.46) y (3.47) se obtiene:
D(X1 , . . . , Xn , ) I1 () en probabilidad,
con lo que queda probado (a). Para probar (b) observemos que, como las
variables aleatorias
ln p(Xi , )
(Xi , ) =

son independientes e igualmente distribuidas con esperanza 0 y varianza
I1 () (ver Lema 1 de la seccion 3.13), por el Teorema Central del lmite
n
1 X
(Xi , )
n i=1
converge en distribucion a N(0, I1 ()).

Luego n(bn ) converge en distribucion a una ley N (0, I1 ()/(I1 ()2 )
o sea N (0, 1/I1 ()).
Consideremos ahora el estimador de maxima verosimilitud q() dado por
q(bn ).

Por el Lema 1 se tendra que n(q(bn ) q()) converge en distribucion
a una N (0, (q 0 ())2 /I1 ()).

3.19. APENDICE B 61
REFERENCIAS DEL CAPITULO 3
[1 ] Bahadur, R.R. (1954). Sufficiency and Statistical Decision Functions.

Annals of Mathematical Statistics 25, 423462.
[2 ] Draper, N. and Smith, H. (1966). Applied Regression Analysis. J.

Wiley & Sons.
[3 ] Dynkin, E.B. (1961). Necessary and Sufficient Statistics for Families

of Distributions. Selected Translations of Mathematical Statistics and
Probability 1, 2341.
[4 ] Lehmann, E.L. (1994). Testing Statistical Hypothesis. Chapman &

Hall.
[5 ] Lehmann, E.L. (1983). Theory of Point Estimation. J. Wiley & Sons.
[6 ] Wald, A.N. (1949). Note on the Consistency of the Maximum Like-

lihood Estimates. Annals of Mathematical Statistics 20, 595601.
[7 ] Zacks, S. (1971). The Theory of Statistical Inference. J. Wiley &

Sons.
Chapter 4
Estimadores Bayesianos y
Minimax
4.1 Enfoque Bayesiano del problema de la esti-

maci
on puntual
Consideremos nuevamente un problema estadstico de estimacion parametrico.
Se observa un vector X = (X1 , ..., Xn ), que puede ser, por ejemplo, aunque
no necesariamente, una muestra aleatoria de cierta distribucion) con densi-
dad discreta o continua en la familia f (x, ), con = (1 , ..., p ) IRp .
El enfoque llamadado frecuentista que hemos estudiado no supone ning un
conocimiento previo de . El enfoque bayesiano, por lo contrario, supone que
se tiene alguna informacion previa sobre . Esta informacion esta expresada
por medio de una distribucion sobre , denominada distribucion a priori.
Aqu supondremos que esta distribucion a priori, indicada por , tiene una
densidad (). La distribucion a priori puede tener distintas interpretaciones
segun el problema. Se pueden dar las siguientes alternativas
La distribucion a priori esta basada en experiencias previas similares.
La distribucion a priori expresa una creencia subjetiva.
El hecho de que el enfoque bayesiano considere una distribucion de prob-

abilidades sobre , supone tratar a como una variable aleatoria, y por lo
tanto a esta variable la denominaremos para distinguirla del valor que
toma . Esta notacion puede llevar a confusion dado que tambien llamamos
1
2 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX
al conjunto de valores de . Sin embargo, por el contexto quedara claro

el significado de este smbolo en cada caso.
Dado que consideramos ahora el valor del parametro como el valor de
una variable aleatoria, la interpretacion de la familia de densidades f (x, )
en el enfoque bayesiano tambien cambia. En el enfoque bayesiano f (x, )
se interpreta como la distribucion condicional de la muestra X dado que la
variable toma el valor .
Una vez observada la muestra X se puede calcular la distribucion condi-
cional de dada X. Esta distribucion se denomina distribucion a posteriori
y esta dada por
f (x, )()
f (|x) = R R . (4.1)
... f (x, t)(t)dt
En efecto el numerador de (4.1) corresponde a la densidad conjunta de
X y , y el denominador a la densidad marginal de X.
Si la distribucion de fuese discreta, habra que reemplazar las integrales
del denominador por las correspondientes sumatorias. En lo sucesivo, supon-
dremos que las distribuciones de X y de son continuas, pero el tratamiento
en el caso discreto es similar.
Una de las ventajas del enfoque bayesiano es que se pueden definir en
forma natural estimadores optimos, sin necesidad de restricciones poco na-
turales como la de estimadores insesgados a la que debimos recurrir en
el enfoque frecuentista. Para ver esto supongamos que queremos estimar
= q() y consideremos una funcion de perdida `(, d) que indica el costo
de estimar = q() utilizando del valor d. Supongamos que se tiene un es-
timador = (x). Luego la perdida sera una variable aleatoria `(, (X)),
y la perdida esperada que llamaremos riesgo de Bayes esta dada por
r(, ) = E(`(, (X))), (4.2)
donde aqu la esperanza se toma con respecto a la distribucion conjunta de

X y . Por lo tanto, dada la distribucion priori , un estimador optimo sera
aquel que minimice r(, ). Este estimador se denomina estimador de Bayes
correspondiente a la distribucion a priori y sera representado por .
Luego, la funcion de riesgo de la teora frecuentista, R(, ) , estara dada
por
R(, ) = E (`(, (X)))

Z
= E(`(, (X))| = ) = `(, (x))f (x, )dx. (4.3)
4.1. ESTIMADORES BAYESIANOS 3
Con lo cual,
Z Z
r(, ) = E (E(`(, (X))|)) = ... R(, )()d. (4.4)
Consideremos como caso particular la funcion de perdida cuadratica, es

decir,
`(, d) = (q() d)2 .
En este caso, el estimador de Bayes sera la funcion (X) que minimiza el
error cuadratico medio
E(((X) q())2 )
y por lo tanto, de acuerdo a la teora de esperanza condicional, este sera
u
nico y estara dado por
Z Z
(x) = E(q()|X = x) = ... q()f (|x)d,
es decir, sera la esperanza condicional de q() con respecto a la distribucion

a posteriori de .
Ejemplo 1. Sea X = (X1 , ..., Xn ) una muestra independiente de una

distribucion Bi(, 1), y supongamos que la distribucion a priori de sea
una distribucion (a, b), es decir, con una densidad
(a + b) a1
() = (1 )b1 I[0,1] (). (4.5)
(a)(b)
Es conocido que esta distribucion tiene la siguiente esperanza y varianza
a
E() = , (4.6)
a+b
ab E() (1 E())
var() = = . (4.7)
(a + b)2 (a + b + 1) a+b+1
Luego si se conoce la media y la varianza de la distribucion a priori de
, se pueden determinar a y b. La formula (4.7) muestra que para un dado
valor de la esperanza, la varianza depende de a + b, tendiendo a 0 cuando
a + b +.
La distribucion de la muestra X1 , X2 , ...Xn dado el valor de tiene una
funcion de probabilidad puntual dada por
Pn Pn
xi
f (x1 , ..xn , ) = i=1 (1 )n i=1
xi
. (4.8)
Luego usando (4.1) se tiene que la distribucion a posteriori de tiene una

densidad dada por
Pn Pn
xi +a1
i=1 (1 )n i=1
xi +b1
f (|x1 , ..., xn ) = R 1 Pn Pn . (4.9)
x +a1
0 t
i=1 i (1 t)n i=1 xi +b1 dt
Ahora bien, el denominador de esta expresion es igual a
(n + a + b)
Pn Pn
(a + i=1 xi )(n i=1 xi + b)
por lo tanto, la distribucion a posteriori de dado X = x es
P P
(a + ni=1 xi , n ni=1 +b).
Supongamos que la funcion de perdida es cuadratica. Luego el estimador
de Bayes, que indicaremos por a,b , esta dado por E(|X), y de acuerdo a
(4.6) tendremos que
T +a n T a+b a
a,b = = + , (4.10)
a+b+n n+a+b n a+b+n a+b
P
donde T = ni=1 Xi . Por lo tanto, el estimador de Bayes se comporta como
un promedio ponderado de dos estimadores: el IMVU 1 = T /n que no usa
la informacion de la distribucion a priori y 2 = a/(a + b) que corresponde
a la esperanza de la distribucion a priori y que se usara si no se hubiese
observado la muestra. Tambien vemos que el peso asignado a 2 tiende a 0
cuando el tama no de la muestra n aumenta.
De acuerdo a (4.10), el estimador de Bayes correspondiente a una dis-
tribucion a priori (a, b) puede interpretarse como el estimador frecuentista
P
correspondiente a una muestra de tama no n + a + b con ni=1 Xi + a exitos.
Observaci on 1. En el ejemplo anterior hemos partido de una distribucion

a priori (a, b), y hemos obtenido que la distribucion a posteriori tambien
P P
esta en la misma familia, ya que es (a + ni=1 xi , n ni=1 xi + b). Se dice
entonces que la familia de distribuciones beta es la conjugada de la familia
de distribuciones binomial.
Ejemplo 2. Sea X = (X1 , ..., Xn ) una muestra independiente de una dis-

tribucion N(, 2 ), con 2 conocido, y supongamos que la distribucion a
priori de sea N(, 2 ).
Luego la densidad de la muestra X = (X1 , ..., Xn ) dado esta dada por
n
!
1 1 X
f (x, ) = exp (xi )2 , (4.11)
(2)n/2 n 2 2 i=1
4.1. ESTIMADORES BAYESIANOS 5
donde exp(x) = ex . La densidad de la distribucion a priori esta dada por

!
1 ( )2
() = exp (4.12)
(2)1/2 22
Luego multiplicando (4.11) y (4.12), desarrollando los cuadrados y haciendo

algun manipuleo algebraico, se obtiene que distribucion conjunta de X y
esta dada por
!
2 n 1 n
x
fX, (x, ) = C1 (x, 2 , , 2 )exp 2
+ 2 + 2
+ 2 ,
2
donde C1 (x, 2 , , 2 ) no depende de . Completando cuadrados, se obtiene

2 !
2 2 1 n
x
fX, (x, ) = C2 (x, , , )exp D + 2 , (4.13)
2D 2
donde
1
D= . (4.14)
(n/ 2 ) + (1/2 )
Finalmente, usando (1) obtenemos
2
1 x
f (|x) = C3 (x, 2 , 2 , )exp ( D + (4.15)
2D 2 2
Luego, esta densidad, excepto una funcion que depende solo de x, co-
rresponde a una distribucion

n
x
N D 2
+ 2 ,D . (4.16)

Como se trata de la distribucion condicional de dado X = x, podemos

considerar a C3 como constante. Luego la distribucion a posteriori de esta
dada por (4.16).
Supongamos nuevamente que consideramos una funcion de perdida cuadra-
tica. El estimador de Bayes estara dado, en ese caso, por la esperanza condi-
cional de dado X, y por lo tanto de acuerdo a (4.16) y (4.14) estara dado
por !
nX
(X) = D + 2 = wX + (1 w), (4.17)
2
donde
n/ 2
w= .
(n/ 2 ) + (1/2 )
Por lo tanto, nuevamente, el estimador de Bayes es un promedio ponderado
y la media de la distribucion
del estimador IMVU de la teora frecuentista X
a priori . Los pesos son inversamente proporcionales a las varianzas 2 /n
y 2 de ambos estimadores. A medida que el tama no de la muestra n crece,
el peso del estimador basado en la informacion a priori tiende a 0. Es decir,
a medida que el tama no de la muestra crece, la informacion a priori tiene
menos relevancia para determinar el estimador de Bayes.
Observaci on 2. En este ejemplo partimos de una distribucion a priori en

la familia N(, 2 ), y obtenemos que la distribucion a posteriori esta dada
por (4.16), y por lo tanto esta en la misma familia normal. Luego la familia
de distribuciones conjugadas de la familia normal con varianza conocida es
la familia normal.
Veamos algunas propiedades de los estimadores Bayes para funciones de
perdida arbitrarias.
Teorema 1. Sea un estimador Bayes respecto de la distribuci on a priori

y supongamos que es u nico, entonces es admisible.
Demostracio n. Supongamos que existe otro estimador tan bueno como
, es decir, R( , ) R( , ) para todo . Integrando respecto a la
distribucion a priori de en ambos miembros de la desigualdad, obtenemos
r( , ) r( , ). Con lo cual, por la unicidad = .
Se puede obtener un resultado de admisibilidad para reglas Bayes sin

pedir unicidad, siempre y cuando, sea abierto, la distribucion a priori
tenga una densidad positiva para todo y la funcion de riesgo R(, )
sea continua en para todo estimador .
Hemos visto que en el caso de la perdida cuadratica, el estimador Bayes

poda obtenerse como la esperanza de la distribucion a posteriori de . El
siguiente Teorema da una manera de obtener el estimador Bayes para el caso
de otras funciones de perdida.
Teorema 2. Sea la distribuci on de y F (x) la distribuci

on condicional
de X dado . Supongamos que se cumplen las siguientes condiciones para
estimar q() utilizando la perdida `(, d)
4.2. ESTIMADORES MINIMAX 7
a) Existe un estimador 0 con riesgo finito.
b) Para cada valor de x existe un valor, que indicaremos (x), que mi-
nimiza E (`(, d)|X = x).
Entonces, (x) es un estimador de Bayes respecto a .

Demostracio n. Sea (X) un estimador con riesgo Bayes finito. Luego,
como la perdida es nonegativa, E (`(, (X))|X = x) es finita para casi todo
x. Por lo tanto, tenemos
E (` (, (x)) |X = x) E (` (, (x)) |X = x)
de donde, tomando esperanza respecto a la distribucion marginal de X,

obtenemos r(, ) r( , ) y por lo tanto, es un estimador Bayes.
Corolario Sea una distribuci on a priori para y supongamos que se

cumplen las condiciones del Teorema 2.
a) Para la perdida `(, d) = w()(q() d)2 , donde w() > 0 y

E(w()) < , la regla Bayes est
a dada por
E (q()w()|X = x)
(x) =
E (w()|X = x)
b) Para la perdida `(, d) = |q() d|, la regla Bayes (x) es la mediana

on a posteriori de q() condicional a x
de la distribuci
c) Para la perdida `(, d) = I|q( )d|>c , la regla Bayes es el punto

medio del intervalo I de longitud 2c que maximiza P (q() I|X = x)
4.2 Utilizaci
on de m
etodos bayesianos para resolver
problemas frecuentistas
En esta seccion vamos a mostrar como los resultados de la teora bayesiana
pueden ser u tiles, aunque no se comparta ese punto de vista. Es decir, vere-
mos que los resultados de esta teora se pueden usar para resolver problemas
que surgen de la teora frecuentista.
Consideremos una muestra X = (X1 , ..., , Xn ) con distribucion conjunta
f (x, ) donde el vector de parametros . Supongamos que queremos
estimar = q() y que tenemos una funcion de perdida `(, d). En el enfoque
frecuentista un estimador (X) de queda caracterizado por su funcion de
riesgo Z
R(, ) = E (`(, (X)) = `(, (x))f (x, )dx. (4.18)
Como es desconocido, lo ideal sera encontrar un estimador (X) tal

que, dado cualquier otro estimador (x) se tuviese
R( , ) R(, ) .
Como ya hemos visto al comienzo del curso estos estimadores no existen

excepto en casos muy poco interesantes.
Una alternativa es comparar los estimadores a traves del maximo riesgo.
Dado un estimador (X) de su maximo riesgo se define por
M R() = sup R(, ). (4.19)

El criterio de comparar los estimadores por su maximo riesgo es pesimista,
ya que actua como si el parametro fuese a tomar el valor mas desfavorable
para el estimador. Un estimador optimo de acuerdo a este criterio es un
estimador tal que dado cualquier otro estimador se tiene
M R( ) M R(). (4.20)
Definici
on 1. Un estimador satisfaciendo (4.20) se denomina minimax.
Vamos a ver como la teora bayesiana nos ayuda a encontrar estimadores

minimax. Para ello, consideremos una distribucion a priori con densidad
(). El correspondiente estimador de Bayes verifica que, dado cualquier
otro estimador , se tiene
r( , ) r(, ). (4.21)
Luego, de acuerdo a (4.4) se tendra entonces que para cualquier estimador

Z Z
R( , )()d R(, )()d. (4.22)
Sea r = r( , ), es decir, el mnimo riesgo de Bayes cuando la dis-

tribucion a priori es .
Definici on 2. Se dira que una distribucion a priori 0 es menos favorable

si, para cualquier otra distribucion , se tiene r r0 .
Naturalmente uno se puede preguntar para que distribuciones a priori el

estimador Bayes sera minimax. Un procedimiento minimax, al minimizar
el maximo riesgo, trata de comportarse lo mejor posible en la peor situacion.
Por lo tanto, uno puede esperar que el estimador minimax sea Bayes para
la peor distribucion posible que es la distribucion menos favorable.
El siguiente Teorema nos permite usar la teora bayesiana para encontrar
estimadores minimax.
Teorema 1. Supongamos que se tiene una distribuci on a priori 0 tal que

el estimador de Bayes 0 tiene funci
on de riesgo, R( , ), constante en .
Entonces:
a) 0 es un estimador minimax,
b) si 0 es el u
nico estimador Bayes respecto de 0 , 0 es el u
nico esti-
mador minimax,
c) 0 es la distribuci
on menos favorable.
n. Como el riesgo de 0 es constante se cumple que
Demostracio
Z
r(0 , 0 ) = R(0 , )0 ()d = sup R(0 , ). (4.23)

a) Consideremos un estimador 6= 0 , luego como
M R() = sup R(, ) R(, )

tomando esperanza respecto a la distribucion a priori 0 obtenemos
Z
M R() = sup R(, ) R(, )0 ()d = r(, 0 ). (4.24)

Como 0 es Bayes respecto de 0 , se cumple que
r(, 0 ) r(0 , 0 ). (4.25)
Con lo cual, a partir de (4.23), (4.24) y (4.25) obtenemos
M R() r(0 , 0 ) = sup R(0 , ) = M R(0 )

y por lo tanto, 0 es minimax.

b) Supongamos ahora que 0 es el u nico estimador Bayes, luego se
cumple
r(, 0 ) > r(0 , 0 ). (4.26)
Con lo cual, utilizando ahora (4.23), (4.24) y (4.26) obtenemos
M R() r(, 0 ) > r(0 , 0 ) = M R(0 )
y por lo tanto, 0 es el u
nico estimador minimax.
c) Sea otra distribucion a priori y el estimador Bayes respecto de .
Luego, por ser Bayes se cumple
r( , ) r(0 , ). (4.27)
Por otra parte, como el riesgo de 0 es constante se verifica

Z
r(0 , ) = R(0 , )()d
= sup R(0 , ) = r(0 , 0 ), (4.28)

Por lo tanto, (4.27) y (4.28) nos permiten concluir que
r( , ) r(0 , 0 )
con lo cual, 0 es la distribucion menos favorable.
Ejemplo 3. Consideremos el Ejemplo 1 de estimacion bayesiana para la

familia binomial, usando distribuciones a priori en la familia (a, b) y como
uncion de perdida la funcion `(, d) = ( d)2 . Luego hemos visto que el
f
u
nico estimador de Bayes esta dado por
T +a
a,b = ,
n+a+b
P
con T = ni=1 Xi .
Si encontramos a y b tales que R(a,b , ) es constante, ese estimador sera
minimax y la distribucion a priori correspondiente sera la distribucion menos
favorable. Como E (T ) = n y var(T ) = n(1 ) se tiene
n + a
E (a,b ) = , (4.29)
n+a+b
y
n(1 )
var (a,b ) = , (4.30)
(n + a + b)2
Luego, usando (4.29) y (4.30) se deduce que
R(a,b , ) = E((a,b )2 )
= var (a,b ) + ( E (a,b ))2

n(1 ) n + a 2
= +
(n + a + b)2 n+a+b
n(1 ) + (a + b) 2 2a(a + b) + a2
2
=
(n + a + b)2
(n + (a + b)2 ) 2 + (n 2a(a + b)) + a2
= . (4.31)
(n + a + b)2
Para que (4.31) sea constante en , los coeficientes en y 2 del numer-
ador deben ser 0. Por lo tanto, se debe cumplir
n + (a + b)2 = 0, n 2a(a + b) = 0

La solucion de este sistema de ecuaciones es a = b = n/2, y por lo tanto
el estimador de Bayes correspondiente, que sera minimax, estara dado por

T + ( n/2)
mmax = . (4.32)
n+ n
La correspondiente funcion de riesgo esta dada por
n/4 1
R(mmax , ) = = .
(n + n)2 4( n + 1)2
El Teorema 1 no nos permite obtener un estimador minimax en el caso

de la media de una distribucion normal. El siguiente Teorema resultara u
til
en esa situacion.
Teorema 2. Supongamos que (X) sea un estimador tal que

(i) R(, ) = C ,
(ii) existe una sucesi

on de distribuciones a priori k tales que
lim r(k , k ) = C.
k
Entonces es minimax.
Demostracio n: Sea 0 otro estimador para q(). Se cumple entonces que
Z
sup R( 0 , ) R( 0 , )k ()d = r( 0 , k ) r(k , k ). (4.33)

Con lo cual, tomando lmite en ambos miembros de (4.33), y usando (ii)
se obtiene
M R( 0 ) = sup R( 0 , ) C = M R(),

y por lo tanto, es minimax.
Ejemplo 4. Consideremos una muestra aleatoria X = (X1 , ..., Xn ) de una

tiene como
distribucion N(, 2 ), donde 2 conocida. El estimador (X) = X
funcion de riesgo R(, ) = 2 /n, y por lo tanto se cumple la condicion (i)
del Teorema 2. Por otro lado, consideremos una sucesion de distribuciones a
priori k =N(0, 2k ) con 2k +. Usando la funcion de perdida cuadratica,
de acuerdo a lo visto en el ejemplo 2, los estimadores de Bayes son

k = wk X,
donde
n/ 2
wk = . (4.34)
(n/ 2 ) + (1/2k )
Es facil ver que
lim wk = 1 (4.35)
k
y que
1/4k
lim 2k (1 wk )2 = lim 2k 2 =0 (4.36)
k k ((n/ 2 ) + (1/2k ))
Por otro lado, se tiene
2
R(k , ) = var (k ) + ( E (k ))2 = wk2 + (1 wk )2 2 . (4.37)
n
Luego
2
r(k , k ) = Ek (R(k , )) = wk2 + (1 wk )2 2k .
n
Con lo cual, usando (4.35) y (4.36) se concluye que
2
lim r(k , k ) =
k n
Por lo tanto se cumple la condicion (ii) del Teorema 2, y el estimador

(X) = X es minimax. El Teorema 2 no nos permite obtener la unicidad
del estimador minimax.
Chapter 5
Intervalos y Regiones de
Confianza
5.1 Regiones de confianza Definici

on y Ejemplos
Consideremos nuevamente el problema de estimacion. Dado un vector X
con distribucion perteneciente a la familia F (x, ) con , un estimador
puntual de es una funcion b = (X) que representa un u nico valor que
aproxima a . Si se da solamente ese valor no se tendra ninguna idea de la
precision de dicha aproximacion, es decir de las posibles diferencias entre y
b Una forma de obtener informaci
. on sobre la precision de la estimacion, en
el caso de que sea unidimensional, es proporcionar un intervalo [a(X), b(X)]
de manera que la probabilidad de que dicho intervalo contenga el verdadero
valor sea alta, por ejemplo, 0.95.
En este caso, la precision con que se conoce depende de la longitud del
intervalo, es decir, de b(X) a(X), cuanto mas peque na sea esa longitud,
mas determinado quedara .
Si es un vector de IRp , en vez de dar un intervalo para estimarlo, se
debera dar una cierta region de IRp , por ejemplo, esferica o rectangular.
La siguiente definicion formaliza estos conceptos.
Definicion 1: Dado un vector X con distribucion perteneciente a la fa-

milia F (x, ) con , una regi on de confianza S(X) para con nivel
de confianza 1 sera una funcion que a cada X le hace corresponder un
subconjunto de de manera que P ( S(X)) = 1 para todo .
Es decir, S(X) cubre el valor verdadero del parametro con probabilidad
1
2 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA
1 . El valor de debe ser fijado de acuerdo al grado de seguridad con

que se quiere conocer ; generalmente se toma = 0.05 o = 0.01.
Como caso particular, cuando sea unidimensional se dira que S(X) es
un intervalo de confianza si S(X) es de la forma
S(X) = [a(X), b(X)]
La longitud de S(X)
L = b(X) a(X)
dependera del nivel elegido, cuanto mas chico sea , o sea, cuanto mas
grande sea la probabilidad con que el intervalo cubra al verdadero valor del
parametro, mas grande sera la longitud de aquel, o sea, menos precisa la
estimacion de .
Ejemplo 1: Sea X1 , . . . , Xn una muestra de una poblacion con distribucion

N (, 02 ) donde es desconocido y 02 conocido. Supongamos que se necesite
un intervalo de confianza para de nivel 1 .
P
Consideremos X n = (1/n) ni=1 Xi . Sabemos que X n tiene distribucion

N (, 02 /n). Luego V = n(X n )/0 , tendra distribucion N (0, 1). La
ventaja de la variable aleatoria V sobre X n es que tiene distribucion inde-
pendiente de .
Definimos z tal que P (V z ) = ; y por simetra P (V z ) = .
Luego
P (z 2 V z 2 ) = 1 P (V z 2 ) P (V z 2 )

= 1 =1 .
2 2

Si reemplazamos V por n(X n )/0 se tendra
! !
Xn
P z 2 n z 2 =1 ,
0
con lo cual, despejando resulta

0 0
P (X n z 2 X n + z 2 ) = 1 .
n n
Por lo tanto, un intervalo de confianza para de nivel 1 sera

0 0
S(X) = X n z 2 , X n + z 2
n n
5.2. PROCEDIMIENTOS GENERALES PARA OBTENER REG... 3
ya que
P [ S(X)] = 1 .
Conviene precisar nuevamente el significado de esta igualdad. Para fijar
ideas, supongamos = 0.05. La expresion S(X) cubre a con probabili-
dad 0.95, indica que si un experimentador extrayese un n umero suficiente-
mente grande de muestras X de tama no n de una distribucion N (, 02 ) y
construyese las regiones S(X) correspondientes a cada una de ellas, aproxi-
madamente el 95% de estas regiones S(X) contendran el parametro . Esto
es, dada X, la afirmacion S(X) cubre a tiene probabilidad 0.95 de ser
correcta y probabilidad 0.05 de ser falsa.
Ejemplo 2: Un fsico hace 16 mediciones de cierta magnitud (a determinar),

dichas mediciones Xi seran Xi = + i donde i son los errores de medicion.
Supongamos que los i son variables aleatorias independientes con dis-
tribucion N (0, 4) (dato que se conoce por experimentos anteriores).
Supongamos que el promedio de las 16 observaciones obtenidas es X 16 =
20 y consideremos el problema de encontrar un intervalo de confianza para
con nivel 0.95; luego = 0.05 y de las tablas normales se obtiene z/2 =
z0.025 = 1.96.
Luego el intervalo de confianza sera:
" #
1.96 4 1.96 4
20 , 20 + = [19.02 , 20.98],
16 16
y su longitud es 1.96.
Supongamos ahora que se quiere conocer cual debera ser el numero de
observaciones para que el intervalo sea de longitud 0.1. Entonces
2 2
0.1 = 1.96 o sea n = 1.96 = 39.2
n 0.1
de donde, n = (39.2)2 = 1536.64. Por lo tanto, se necesitan 1537 observa-

ciones para obtener un intervalo con la longitud deseada.
5.2 Procedimientos generales para obtener regio-

nes de confianza
Teorema 1: Sea X un vector aleatorio cuya distribucion pertenece a la
familia F (x, ), , y sea U = G(X, ) una variable aleatoria cuya
distribucion es independiente de . Sean A y B tales que P (A U B) =

1 . Luego, si se define S(X) = { : A G(X, ) B}, se tiene que S(X)
es una region de confianza a nivel (1 ) para .
n:
Demostracio
P ( S(X)) = P (A G(X, ) B) =
= P (A U B) = P (A U B) = 1
la pen
ultima igualdad es valida pues la distribucion de U es independiente
de .
Cabe preguntarse bajo que condiciones S(X) es un intervalo, en el caso en

que es unidimensional. Notemos que, en ese caso, si G(X, ) es monotona
como funcion de , para cada valor de X dado, entonces
hX () = G(X, )
tiene inversa.
Supongamos hX () creciente, resulta entonces
S(X) = { : h1 1
X (A) hX (B)}
es decir, S(X) es un intervalo.

Si hX () es decreciente, resultara en forma analoga,
S(X) = { : h1 1
X (B) hX (A)}

Nota: En el Ejemplo 1, consideramos U = n(X n )/0 y vimos que
esta variable aleatoria tiene distribucion N (0, 1), o sea, independiente de .
En ese ejemplo tomamos A = z/2 y B = z/2 . Tambien podramos haber
tomado A = z y B = z donde y son arbitrarios tales que + = .
El hecho de tomar = = /2 se debe a que de esta forma se obtiene el
intervalo mas pequeno posible (Ver problema 1 de 5.1).
Veamos que el procedimiento que hemos usado en dicho ejemplo es el
que se deduce del Teorema 1.
De acuerdo al Teorema 1,
S(X) = { : z 2 G(X, ) z 2 } =
( )
n(X n )
= : z 2 z 2 =
0

0 0
= : z 2 + X n X n + z 2 .
n n
Vamos a tratar de usar un procedimiento similar para el caso de tener una

muestra X1 , X2 , . . . , Xn de una distribucion N (, 2 ) donde ahora tambien
2 es desconocido. En este caso, parece natural reemplazar 2 por un esti-
mador del mismo. Sabemos que el estimador IMVU para 2 es
n
1 X
s2 = (Xi X)2 ,
n 1 i=1
y luego podramos definir

n(X )
U= (5.1)
s
Para poder aplicar el metodo que nos proporciona el Teorema 1, debemos
demostrar que U tiene una distribucion que no depende de y 2 y, ademas,
debemos conocer esa distribucion. Esto se hara en el siguiente Teorema.
Teorema 2: Sea X1 , ..., Xn una muestra aleatoria de una distribucion

N(, 2 ). Luego

(i) V = n(X ) tiene distibucion N (0, 1)
Pn
(ii) W = i=1 (Xi X)2 / 2 tiene distribucion 2 con n-1 grados de liber-
tad
(iii) V y W son independientes
(iv) U dado por (5.1) tiene distribucion Tn1 , de Student con n 1 grados
de libertad.
Demostracio n: Sea Yi = (Xi )/, 1 i n. Luego estas variables

forman una muestra aleatoria de una distribucion N (0, 1). Ademas, es facil
verificar que
Xn
V
V = nY, W = Yi2 , U = p , (5.2)
i=1 W/(n 1)
Sea a1 el vector fila n-dimensional con todas sus componentes iguales a

1/ n. Como ka1 k = 1, se puede completar una base ortonormal a1 , . . . , an .
Sea A la matriz de n n cuyas filas son a1 ,...an . Como las filas de A son
ortogonales y de norma 1, la matriz A resulta ortogonal. Consideremos
la transformacion Z = AY, donde Y = (Y1 , ..., Yn )0 y Z = (Z1 , ..., Zn )0 .

Luego, por una propiedad de los vectores normales respecto de transforma-
ciones ortogonales, las variables Z1 , ..., Zn son tambien independientes con
distribucion N (0, 1). Por otro lado, resulta
n
X Yi
Z1 = = nY =V (5.3)
i=1
n
y el punto (i) queda demostrado.

Ademas, se tiene que:
n
X n
X n
X
2
(Yi Y )2 = Yi2 nY = Yi2 Z12 . (5.4)
i=1 i=1 i=1
Como A es ortogonal se deduce que

n
X n
X
Zi2 = Yi2 ,
i=1 i=1
y usando (5.2) y (5.4) obtenemos

n
X
W = Zi2 ,
i=2
y por lo tanto queda demostrado (ii).

Como V depende de Z1 y W de Z2 , ..., Zn tambien queda demostrado
(iii).
Finalmente, (iv) se deduce de los puntos (i), (ii), (iii) del Teorema y de
(5.2).
Estamos ahora en condiciones de encontrar intervalos de confianza para

la media, en el caso de una muestra aleatoria con media y varianza descono-
cidas.
Definamos tn, por la ecuacion
P (U > tn, ) =
donde U es una variable aleatoria Tn . Luego, analogamente al caso normal,

se tiene:
P (tn, 2 U tn, 2 ) = 1
Teorema 3: Sea X1 , X2 , . . . , Xn una muestra aleatoria cuya distribucion

pertenece a la familia N (, 2 ) con y 2 desconocidos. Luego si
Pn Pn
i=1 Xi X)2
i=1 (Xi
X= y s2 =
n n1
se tiene que un intervalo de confianza con nivel (1 ) para esta dado por:

s s
X tn1, 2 , X + tn1, 2
n n

Demostracio n: Por el Teorema 2 se tiene que U = n(X )/s tiene
distribucion Tn1 y luego
P (tn1, 2 U tn1, 2 ) = 1 .
Luego, por el Teorema 1

( )
X
: tn1, 2 n tn1, 2
s
es una region de confianza para con nivel 1 . Pero esta region es

equivalente a

s s
:X t n1, X + tn1, .
2 n 2 n
En el proximo Teorema encontraremos intervalos de confianza para la

varianza, en el caso de una muestra normal, con media conocida o no.
Definamos 2n, por la ecuacion
P (U > 2n, ) =
donde U es una variable aleatoria con distribucion 2n .
Teorema 4: Sea X1 , . . . , Xn una muestra aleatoria cuya distribucion pertenece

a la familia N (, 2 ). Sean y tales que + =
(i) Si es conocido, un intervalo de confianza de nivel 1 para 2 esta
dado por: "P #
n 2 Pn 2
i=1 (Xi ) 2 i=1 (Xi )

2n, 2n,1
(ii) Si es desconocido, un intervalo de confianza de nivel 1 para 2

esta dado por:
"P Pn #
n
i=1 (Xi X)2 2 i=1 (Xi X)
2

2n1, 2n1,1
P
Demostracio n: (i) Sea W = ni=1 (Xi )2 / 2 . Como las variables Yi =
P
(Xi )/ son independientes, con distribucion N (0, 1) y W = ni=1 Yi2
entonces W tiene distribucion 2n . Luego:
P (2n,1 W 2n, ) = P (W 2n,1 ) P (W > 2n, ) =

= 1 =1
Entonces, una region de confianza a nivel 1 esta dada por

( Pn )
2
i=1 (Xi )
2 : 2n,1 2n, =
2
( Pn )
2 1 i=1 (Xi )2 1
= :
2n, 2 2n,1
y esto es equivalente a la region definida en (i).

(ii) Definamos ahora
Pn
i=1 (Xi X)2
W =
2
Sabemos por el Teorema 2 (ii) que W tiene distribucion 2n1 . Por lo tanto:
P (2n1,1 W 2n1, ) = 1
Entonces, una region de confianza de nivel 1 esta dada por:

( Pn )
2 i=1 (Xi X)2
: 2n1,1 2n1,
2
( )
2 1 2 1
= : Pn 2
2n1, i=1 (X i X) 2 n1,1
( Pn Pn )
2 i=1 (Xi X)2 2 i=1 (Xi X)
2
= : .
2n1, 2n1,1
5.3. PROCEDIMIENTOS EN DOS PASOS PARA ENCONTRAR... 9
5.3 Procedimiento en dos pasos para encontrar un

intervalo de longitud prefijada para la media
de una N (, 2), y desconocidos
Volvamos a considerar el intervalo de confianza para cuando 2 es desco-
nocido, en el caso de una muestra con distribucion N (, 2 ). La longitud de
dicho intervalo, L(X1 , . . . , Xn ), esta dada por
s
L(X1 , . . . , Xn ) = 2tn1, 2
n
Como se ve, este intervalo tiene longitud variable, ya que depende de s,

que es una variable aleatoria dependiente de los valores que toma la mues-
tra. Luego, es imposible calcular n de modo que la longitud del intervalo
sea igual a un n umero prefijado. Esto es comprensible, ya que logicamente
cuanto mas grande sea la varianza, mas grande debe ser la muestra necesaria
para obtener la misma precision en la estimacion de . Como 2 no es cono-
cida, no se podra asegurar con una muestra de tama no fijo una determinada
precision, es decir, una determinada longitud del intervalo. Una manera de
solucionar este problema es tomando dos muestras, una inicial para estimar
2 , y en base a esta estimacion, determinar el tamano de otra muestra com-
plementaria que nos permita obtener un intervalo con la longitud deseada.
Seguidamente describimos el metodo. Supongamos que se quiera obtener
un intervalo de confianza de longitud L para la media , de una poblacion
normal con media y varianza desconocida. Se toma una muestra inicial de
tama no m : X1 , . . . , Xm . Este valor m inicial, puede ser cualquier valor
mayor que dos. A partir de este valor inicial estimamos 2 por:
m m
1 X 1 X
s2m = (Xi X m )2 donde Xm = Xi
m 1 i=1 m i=1
Luego, la muestra complementaria se debe tomar de tama

no n donde n
satisface
sm
2tm1, 2 L (5.5)
m+n
Sea Xm+1 , . . . , Xm+n la muestra complementaria y
1 m+n
X
X m+n = Xi
m + n i=1
El intervalo de confianza de nivel 1 estara dado por:

sm s
X m+n t m1, , Xm+n + t m1, m (5.6)
2 m+n 2 m+n

Este intervalo tiene longitud 2tm1, 2 sm / m + n que por (5.5) es menor o
igual que L.
El siguiente Teorema muestra que el intervalo dado por (5.6) es un in-
tervalo de confianza para de nivel 1 .
Teorema 5: Sean X1 , ...Xn variables aleatorias independientes con dis-

tribucion N(, 2 ), donde n se elige satisfaciendo (5.5). Luego el intervalo
dado por (5.6) es un intervalo de confianza de nivel 1- de longitud menor
o igual que L.
n: Comencemos por mostrar las siguientes proposiciones:
Demostracio
(i) W = (m 1)s2m / 2 tiene distribucion 2m1

(ii) V = m + n(X m+n )/ tiene distribucion N (0, 1)
(iii) V y W son independientes

(iv) m + n(X m+n )/sm tiene distribucion Tm1
En el Teorema 2 ya ha sido probado (i).

Podra parecer que (ii) fue demostrada en el mismo Teorema. Sin em-
bargo, esto es no es cierto ya que lo que se demostro es que el prome-
dio normalizado de observaciones N (, 2 ) tiene distribucion N (0, 1), para
un tama no de muestra fijo. En nuestro caso, n es un n umero aleatorio,
ya que depende del valor sm , obtenido con las primeras m observaciones.
Comencemos obteniendo la funcion de distribucion conjunta de V y W ,
FV W (v, w) = P (V v, W w).
Llamemos Ai al evento {n = i}. Los sucesos Ai son obviamente disjuntos y
S
ademas i=1 Ai = , donde es el espacio muestral.
Dado un evento cualquiera A, se tiene

[
A = (A Ai )
i=1
X
P (A) = P (A Ai ),
i=1
5.3. PROCEDIMIENTOS EN DOS PASOS PARA ENCONTRAR... 11
y por lo tanto,

X
FV W (v, w) = P (V v, W w) = P (V v , W w , n = i)
i=0

X (X m+i )
= P( m + i v , W w , n = i) .
i=0

P
En virtud del Teorema 2, se tiene que m j=1 Xj es independiente de sm y
por otra parte, cada Xj con j > m tambien es independiente de sm . Por
P Pm+i
lo tanto, como X m+i = (1/(m + i))( m j=1 Xj + j=m+1 Xj ) se deduce que
X m+i es independiente de sm .
Por otro lado, de acuerdo con su definicion, n depende solo de sm . Luego,
el suceso
(X m+i )
{ m+i v}

es independiente de {W w} {n = i} y por lo tanto,

X (X m+i )
FV W (v, w) = P( m + i v)P (W w , n = i) .
i=1

Pero, por el Teorema 2, para cada i fijo m + i(X m+i )/ tiene dis-
tribucion N (0, 1). Luego si (v) es la funcion de distribucion de una variable
N (0, 1), se tendra

X
FV W (v, w) = (v)P (W w , n = i)
i=1

X
= (v) P (W w , n = i) .
i=0
P
Pero i=1 P (W w , n = i) = P (W w) = FW (w). Por lo tanto, se tiene
FV W (v, w) = (v)FW (w) (5.7)
y como
FV (v) = lim FV W (v, w) = (v) lim FW (w) = (v) ,

w w
hemos demostrado (ii).

Para demostrar (iii) reemplacemos en (5.7) (v) por FV (v) y obtenemos
FV W (v, w) = FV (v)FW (w)
lo que implica que V y W son independientes.

(iv) se deduce inmediatamente de (i), (ii) y (iii), teniendo en cuenta que

m + n(X m+n ) m + n(X m+n )/
=
sm ((m 1)s2m /(m 1) 2 )1/2
Llamemos U a esta u ltima variable, de acuerdo a (iv) se tiene que U tiene
distribucion independiente de y 2 y ademas
P (tm1, 2 U tm1, 2 ) = 1
Luego, de acuerdo con el metodo general para obtener regiones de confianza,

se tendra que una region de confianza para de nivel (1 ) estara dada
por:
( )
m + n(X m+n )
: tm1, 2 tm1, 2
sm

sm sm
= : X m+n tm1, 2
X m+n + tm1, 2
.
m+n m+n
Nota: El tama no de la muestra inicial, m, puede ser, en principio, cualquiera

con la condicion de que sea mayor que dos. El valor mas conveniente a
usar dependera del conocimiento previo que se tenga sobre 2 . Si m es
muy peque no, la estimacion de 2 sera poco confiable y habra que tomar
una segunda muestra grande, con lo cual aumentara el costo. Si se toma
muy grande, es probable que se tomen mas observaciones que las necesarias.
Lo ideal sera elegir m cerca del n umero total de observaciones que seran
necesarias si se conociera 2 .
5.4 Intervalos de confianza para diferencia de me-

dias de una distribuci
on normal
5.4.1 Muestras independientes
Supongamos primero que se tienen dos muestras aleatorias X1 , . . . , Xn1 y
Y1 , . . . , Yn2 independientes entre s, de distribuciones N (1 , 2 ) y N (2 , 2 )
5.4. INTERVALOS DE CONFIANZA PARA DIFERENCIA... 13
respectivamente con 1 , 2 y 2 desconocidos, y se desea encontrar un in-

tervalo de confianza para = 1 2 . Observemos que = Y X es un
estimador insesgado de . Es facil demostrar utilizando el Teorema 2 de la
seccion 3.12 que este estimador es IMVU.
La varianza de este estimador es

2 2 1 1

= + (5.8)
n1 n2
Por lo tanto,
r n1 n2 X Y (1 2 )

U= = (5.9)
n1 + n 2
tiene distribucion N(0,1).

Como es desconocido, no podemos utilizar U para encontrar un inter-
valo de confianza para . La solucion a este problema es reemplazar por
un estimador. Un estimador insesgado de 2 es
n1 n2
!
1 X X
2 2 2
s = (Xi X) + (Yi Y )
n1 + n 2 2 i=1 i=1
Para demostrar que s2 es insesgado basta recordar que de acuerdo a lo

visto en el Captulo 3 se tiene
n1
X
E( (Xi X)2 ) = (n1 1) 2
i=1
y
n2
X
E( (Yi Y )2 ) = (n2 1) 2 .
i=1
Tambien del Teorema 2 de la Seccion 3.12 se puede deducir que s2 es

IMVU. Luego, definimos el estadstico T reemplazando en U el parametro
por el estimador s, es decir,
r n1 n2 X Y (1 2 )

T = = (5.10)
n1 + n 2 s
donde
1 1
2
=s 2
+ (5.11)
n1 n2
El siguiente Teorema prueba que T tiene distribucion de Student con

n1 + n2 2 grados de libertad
Teorema 1: Sean X1 , ..., Xn1 y Y1 , ..., Yn2 dos muestras aleatorias indepen-
dientes de las distribuciones N(1 , 2 ) y N(2 , 2 ) respectivamente. Sean
Pn1 2
i=1 (Xi X)
V =
2
Pn2 2
i=1 (Yi Y )
W =
2
Luego
(i) U definida en (5.9), V y W son variables aleatorias independientes con

distribuciones N (0, 1), 2n1 1 y 2n2 1 respectivamente.
(ii) La variable
Z = V +W
tiene distribucion 2n1 +n2 2 .
(iii) La variable T definida en (5.10) tiene distribucion Tn1 +n2 2 .
(iv) El intervalo
h i
tn +n 2,
+ tn +n 2,
,
1 2 2 1 2 2
es un intervalo de confianza a nivel 1 para = 1 2 .
Demostracio n: Ya hemos demostrado que U tiene distribucion N (0, 1).

Por otra parte, en el Teorema 2 de la Seccion 5.2, se demostro la indepen-
dencia entre X y V y entre Y y W . Como ademas resulta X independiente de
W (la primera depende de X1 , . . . , Xn1 y la segunda de Y1 , . . . , Yn2 ) y Y inde-
pendiente de V , resulta U independiente de V y W . En el mismo Teorema se
demostro que V y W tienen distribuciones 2n1 1 y 2n2 1 , respectivamente.
Resulta entonces claro que V y W son tambien independientes.
Para demostrar (ii) basta utilizar el hecho de que suma de variables
independientes tiene tambien distribucion 2 con n
2 umero de grados de
libertad igual a la suma de los grados de libertad de los sumandos.
El resultado (iii) resulta inmediato de los puntos (i) y (ii). El resultado
(iv) resulta de aplicar (ii) y el Teorema 1 de la Seccion 5.2.
En el caso mas simple en que 2 sea conocido, se puede tambien encontrar

facilmente un intervalo de confianza para utilizando el estadstico U .
Si X1 , . . . , Xn1 y Y1 , . . . , Yn2 son muestras aleatorias independientes en-
tre s de distribuciones N (1 , 12 ) y N (2 , 22 ) con 1 , 2 , 12 y 22 descono-
cidos (12 6= 22 ), el problema de encontrar una region de confianza para
1 2 con nivel exacto 1 no tiene una solucion totalmente satisfactoria.
Este problema se conoce con el nombre de BehrensFisher. Sin embargo, es
posible encontrar en forma sencilla un intervalo de confianza para 1 2
de nivel asintotico 1 (ver definicion 1 y problema 7 de 5.6).
Nota 1: Si X1 , . . . , Xn1 y Y1 , . . . , Yn2 son muestras aleatorias independientes

entre s de distribuciones N (1 , 12 ) y N (2 , 22 ) respectivamente, con 1 , 2
conocidos o no, entonces:
(1) Si 12 = 22 = 2 se pueden encontrar intervalos de confianza para 2

(o para ) (ver problema 1 de 5.4).
(2) Si no se puede suponer 12 = 22 es posible encontrar intervalos de

confianza para 22 /12 (o para 2 /1 ) (ver problema 2 de 5.4).
5.4.2 Muestras apareadas

Supongamos ahora que (X1 , Y1 ), . . . , (Xn , Yn ) es una muestra aleatoria de
una distribucion normal bivariada N (1 , 2 , 12 , 22 , ) con 1 , 2 , 12 , 22 , de-
sconocidos y que se desea encontrar un intervalo de confianza para
= 1 2 .
En este caso podemos definir las variables Zi = Xi Yi , 1 i n. Estas
variables forman una muestra de una distribucion N(,Z2 ), con
Z2 = 12 + 22 21 2 ,
y por lo tanto, de acuerdo a lo visto en el Teorema 3 de la Seccion 5.2

tenemos que un intervalo de confianza de nivel 1 esta dado por

sZ sZ
Z tn1, 2 , Z + tn1, 2 (5.12)
n n
donde
n n
1X 1 X
Z= Zi , s2Z = (Zi Z)2 .
n i=1 n 1 i=1
Nota 2: Muchas veces, en los casos reales, interesara decidir antes de tomar
la muestra, si conviene usar un dise no de muestras aleatorias independien-
tes entre s provenientes de distribuciones N (1 , 2 ), N (2 , 2 ) o muestras
apareadas provenientes de una distribucion bivariada, N (1 , 2 , 2 , 2 , ).
Por ejemplo, si se quiere estimar la diferencia de rendimientos de dos
variedades de un cereal, uno podra preguntarse cual de los dos dise nos
siguientes proveera mas informacion sobre esta diferencia:
(i) Elegir al azar en el terreno considerado 2n parcelas de area A. En n de
ellas elegidas al azar cultivar la variedad 1 y en en los restantes cultivar
la variedad 2.
(ii) Elegir al azar n parcelas de area 2A y dividir cada una de ellas en

dos mitades de la misma area. y luego estas en dos mitades. En cada
mitad de una parcela cultivar una variedad distinta.
En el primer caso, tendramos un dise no correspondiente a muestras
aleatorias normales independientes entre s. En el segundo, uno correspon-
diente a muestras apareadas que podran ser consideradas provenientes de
una normal bivariada con un cierto cociente de correlacion .
Trataremos de determinar cual de los dos dise
nos es mejor, comparando
las longitudes de los intervalos de confianza respectivos. Para esto supon-
dremos que las varianzas para los rendimientos de ambos cereales son los
mismos.
Para el caso de muestras independientes tendremos n1 = n2 = n, y la
longitud del intervalo viene dado por
s
s2
L1 = 2t2n2, 2 2
n
donde !
n
X n
X
2 1 2 2
s = (Xi X) + (Yi Y )
2n 2 i=1 i=1
y para el caso de muestras para muestras apareadas
s
s2Z
L2 = 2tn1, 2
n
donde n
1 X
s2Z = (Zi Z)2 .
n 1 i=1
Como estas longitudes dependen de la muestra considerada, y por lo

tanto son aleatorias, consideraremos cual dise no nos provee el intervalo con
menor longitud cuadrada esperada. Es decir, compararemos las esperanzas
de los cuadrados de las longitudes. Se toman cuadrados por la u nica razon
2 2
de simplificar el calculo de las esperanzas. Como s y sZ son estimadores
insesgados de 2 y de Z2 = 2(1 ) 2 , se tiene
4 2 2 t22n2,
E(L21 ) = 2
n
y en el caso de muestras apareadas
4 2 2 (1 )t2n1,
E(L22 ) = 2
n
Luego resulta
E(L22 ) t2n1,
2
= (1 ) 2
E(L21 ) t2n2,
2
Por lo tanto sera mejor tomar muestras apareadas si

t2n1,
2
(1 ) <1
t22n2,
2
o sea si
t22n2,
2
>1 (5.13)
t2n1,
2
Se puede mostrar que tn, 2 tiende a z 2 en forma monotona decreciente

cuando n . Luego se tendra que
t22n2,
2
=1 >0
t2n1,
2
tendiendo a 0 cuando n .
Luego, para que sea mas conveniente tomar muestras apareadas es una
condicion necesaria que > 0. Para muestras grandes esta condicion es
practicamente suficiente ya que se hace muy peque no.
Sea, por ejemplo, n = 20 y = 0.05, luego = 0.03. Luego basta que
> 0.03 para que el dise no apareado sea mas eficiente. Para un ejemplo
practico, ver ejercicio 3 de 5.4. Por otra parte, por (5.13) resulta que en caso
de tomarse muestras apareadas convendra elegir los pares de manera que
sea lo mas grande posible.
5.5 Optimalidad de los intervalos de confianza

Sea X un vector cuya distribucion pertenece a la familia F (x, ) con
IR y sea S(X) = [a(X), b(X)] un intervalo de confianza con nivel 1 para
. Como ya lo hemos observado en 5.1, la precision de nuestra estimacion
vendra dada por la longitud del intervalo, es decir, por L(X) = b(X) a(X)
y por lo tanto, sera conveniente que esta fuese lo menor posible. Como
ya lo hemos visto, L(X) es en general una variable aleatoria; luego parece
razonable como criterio para medir la bondad de un intervalo de confianza
considerar E (L(X)).
Luego, un intervalo de confianza con nivel 1 , [a(X), b(X)], puede ser
considerado optimo si, para todo otro intervalo de confianza de nivel 1 ,
[a0 (X), b0 (X)] se tiene
E (b(X) a(X)) E (b0 (X) a0 (X)) .
Sin embargo, igual que en el caso de estimacion puntual, es posible

mostrar que salvo ejemplos triviales no existen intervalos con esta propiedad.
La u nica forma de encontrar intervalos optimos es restringir la clase de posi-
bles intervalos.
Una forma de restringir los posibles intervalos de confianza o en general
las regiones de confianza, es exigiendo la siguiente propiedad.
Definici
on 1: Se dira que una region S(X) es insesgada si
P ( S(X)) P ( 0 S(X)) , 0 .
Es decir que S(X) es insesgado si el valor verdadero tiene mayor probabi-

lidad de estar en la region que cualquier otro valor 0 .
Luego parece natural buscar el intervalo de confianza de menor longi-
tud entre los intervalos de confianza insesgados. Luego surge la siguiente
definicion:
Definicion 2: Se dira que un intervalo de confianza S(X) es insesgado de

mnima longitud esperada uniformemente en (IMLEU) con nivel (1 ) si
a) S(X) es insesgado y tiene nivel (1 ).
b) Sea S(X) = [a(X), b(X)]. Luego si S 0 (X) = [a0 (X), b0 (X)] es otro
intervalo insesgado de nivel 1 , se tiene
E (b(X) a(X)) E (b0 (X) a0 (X)) .

5.6. REGIONES DE CONFIANZA CON NIVEL ASINT... 19
Se puede mostrar que los intervalos obtenidos para cuando X1 , . . . , Xn

es una muestra aleatoria de N (, 2 ) para el caso de 2 conocido o desco-
nocido (en Ejemplo 1 de 5.1 y Teorema 3 de 5.2) son realmente IMLEU.
Tambien, los intervalos obtenidos para 2 cuando es conocido o descono-
cido en el Teorema 4 de 5.2 es IMLEU, si y se eligen de manera que
la longitud esperada sea mnima. Se puede mostrar que para n grande es-
tos y se aproximan a /2 (ver [3]). Los procedimientos desarrollados
en 5.4 para encontrar intervalos de confianza para las diferencias de medias
tambien son IMLEU.
El estudio detallado de la optimalidad de estos procedimientos puede
verse en Pratt [2]. Estos resultados dependen de resultados relacionados con
la teora de tests optimos que puede verse en Lehmann [1].
5.6 Regiones de confianza con nivel asint

otico
(1 )
En muchos problemas estadsticos, es imposible o muy complicado encontrar
regiones de confianza con un nivel dado. En su reemplazo se pueden construir
regiones cuyo nivel sea aproximadamente el deseado, tendiendo a el a medida
que el tamano de la muestra aumenta. La siguiente definicion formaliza esta
idea.
Definici on 1: Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribucion

perteneciente a la familia F (x, ), . Se dice que Sn (X1 , . . . , Xn ) es una
sucesion de regiones de confianza con nivel asintotico 1 si:
lim P ( Sn (X1 , . . . , Xn )) = 1 .
n
El siguiente Teorema nos da un procedimiento para construir intervalos

de confianza con nivel asintotico (1 ).

perteneciente a la familia F (x, ), . Supongamos que para cada n se
tienen definidas funciones Un = Gn (X1 , . . . , Xn , ) tales que Un converge a U
en distribucion, donde U es una variable aleatoria con distribucion indepen-
diente de . Sean A y B puntos de continuidad de FU , tales que P (A U
B) = 1. Definamos Sn (X1 , . . . , Xn ) = { : A Gn (X1 , . . . , Xn , ) B}.
Luego, Sn (X1 , . . . , Xn ) es una sucesion de regiones de confianza con nivel
asintotico (1 ).
n:
Demostracio
P ( Sn (X1 , . . . , Xn )) = P (A Gn (X1 , . . . , Xn , ) B)
= P (A Un B)
Luego, limn P ( Sn (X1 , . . . , Xn )) = limn P (A Un B) =

P (A U B) = P (A U B) = 1 .
Ejemplo 1: Sea X1 , . . . , Xn una muestra independiente de una distribucion

Bi (, 1). Definamos: Pn
Xi n
Un = pi=1
n(1 )
Sabemos por el Teorema Central del Lmite que Un converge en distribucion
a una ley N (0, 1); por lo tanto, una sucesion de regiones de confianza con
nivel asintotico 1 vendra dada por:
( Pn )
i=1 Xi n
Sn (X1 , . . . , Xn ) = : z 2 p z
n(1 ) 2
!2
Pn
Xi n
= : pi=1 z 2
n(1 ) 2
!2
n
X n
X
= : Xi + n2 2 2n Xi z 2 n(1 )
2
i=1 i=1
! !2
n
X n
X
= : 2 (n2 + nz 2 ) 2n Xi + z 2 n + Xi 0
2 2
i=1 i=1
= [b1 , b2 ]
donde b1 y b2 son las races de la ecuacion

n
! n
!2
X X
2 2 2 2
(n + nz ) 2n Xi + z n + Xi =0
2 2
i=1 i=1
La siguiente propiedad, que daremos sin demostracion y que es equiva-

lente a la propiedad 5 de 1.8, nos permitira encontrar un intervalo de con-
fianza mas sencillo para en el ejemplo anterior.
Propiedad 1: Sea Xn una sucesion de variables aleatorias, X una variable

aleatoria y a una constante. Supongamos que Xn X en distribucion.
5.6. REGIONES DE CONFIANZA CON NIVEL ASINT... 21
Sea ademas, una sucesion de variables aleatorias Yn tal que Yn a en

probabilidad; luego Yn Xn aX en distribucion.
Volvamos ahora al Ejemplo 1. Un se puede escribir

n(X )
Un = p
(1 )
Por otro lado, sabemos que un estimador consistente de es X. Luego

1 1
q p en probabilidad.
X(1 X) (1 )
Con lo cual, usando la propiedad anterior y llamando

n(X )
Vn = q
X(1 X)
se tiene que Vn N (0, 1) en distribucion.

Por lo tanto, un intervalo de confianza para de nivel 1 , viene dado
por

n(X )
Sn (X1 , . . . , Xn ) = : z 2 q z 2

X(1 X)
q q
X(1 X) X(1 X)
= X z 2 , X + z 2
n n
Ejemplo 2: Supongamos que se tiene una muestra aleatoria X1 , . . . , Xn de

una distribucion totalmente desconocida y solo se sabe que E(X1 ) = y
Var(X1 ) = 2 son finitos. Se quiere encontrar un intervalo de confianza para
con nivel asintotico 1 . Sea

Un = n(X )/
Por el Teorema Central del Lmite, sabemos que Un N (0, 1) en dis-

tribucion.
Por otro lado,
n
1 X
s2n = (Xi X)2
n 1 i=1
es un estimador fuertemente consistente de 2 . Luego, sn en probabi-

lidad.
Con lo cual, utilizando la Propiedad 1, si

Vn = n(X )/sn
se tendra que
Vn N (0, 1) en distribucion.
Luego, un intervalo de confianza para , con nivel asintotico 1 estara
dado por
( )
n(X )
Sn (X1 , . . . , Xn ) = : z 2 z 2
sn

sn sn
= X z 2 , X + z 2 .
n n
5.7 Regiones de confianza basadas en estimadores

de m
axima verosimilitud
Veamos ahora un procedimiento que nos permitira, en condiciones bastante
generales, encontrar regiones de confianza con nivel asintotico (1 ).
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribucion con densi-
dad f (x, ). Sabemos, que bajo condiciones muy generales (ver Captulo 3) el
estimador de maxima verosimilitud,EMV, b tiene distribuci
on asintoticamente
normal. Mas precisamente, cuando IR bajo condiciones de regularidad,
b 1
n(n ) N (0, ) en distribucion,
I1 ()
donde I1 () es el n
umero de informacion de Fisher de X1 .
Luego, si llamamos
q
Un = n I1 () (bn )
se tendra que
Un N (0, 1) en distribucion.
Por lo tanto, una region de confianza para de nivel asintotico 1 estara
dada por
q
Sn = { : z 2 n I1 ()(bn ) z 2 }
5.7. REGIONES DE CONFIANZA BASADAS EN EMV 23
Observese que este fue el procedimiento que se uso en el Ejemplo 1 de

(5.6)(demostrarlo).
Esta region no tiene porque ser un intervalo, y puede ser difcil de calcu-
lar. En el caso en que I1 () sea continua, se podra obtener un intervalo de
confianza a nivel asintotico (1 ), de la siguiente forma relativamente sim-
ple: Sabemos que bn en probabilidad, ya que el E.M.V. es consistente,
entonces si I1 () es continua, se tiene
lim I1 (bn ) = I1 () en probabilidad.

n
q b b
Si llamamos Un = n I1 (n )(n ), resulta que
Un N (0, 1) en distribucion.
Por lo tanto, un intervalo de confianza para de nivel de confianza asintotico

1 vendra dado por:
q b b
Sn = { : z n I1 (n )(n ) z 2 }

2

z 2 z 2
= bn q b
, n + q b
.
b
I1 (n ) n I1 (n ) n
La longitud de estos intervalos es

1
L = 2z 2 q .
n I1 (bn )
Luego, bajo condiciones en que vale el Teorema de consistencia del EMV se

tiene
1
lim n L = 2z 2 p c.t.p.
n I1 ()
y bajo condiciones muy generales, tambien se puede mostrar que
1
n E (L) = 2z 2 p
lim .
n I1 ()
Puede demostrarse que bajo condiciones muy generales, para todo intervalo
I insesgado, con nivel asintotico 1 se tendra
1
lim n E (LI ) 2z 2 p
n I1 ()
donde, LI indica la longitud del intervalo I. Por lo tanto, los intervalos

obtenidos a partir del estimador de maxima verosimilitud pueden consider-
arse asintoticamente insesgados de menor longitud esperada.
Para ver estas propiedades en detalle, consultar Wilks [4, pp. 374376].
Luego de la descripcion de los metodos para obtener intervalos de con-
fianza a nivel asintotico, podra pensarse en los casos que es posible encon-
trarlos en lugar de los intervalos exactos. Sin embargo, la convergencia del
nivel de confianza al valor deseado depende fuertemente de la distribucion y
podra ser necesario un tama no de muestra grande para que la aproximacion
del nivel asintotico sea aceptable. En general, no se puede determinar el
tama no de muestra n para el cual la aproximacion asintotica es suficiente-
mente buena usando consideraciones teoricas. En la mayora de los casos
es necesario estudiar este problema por metodos de Monte Carlo que se
estudiaran mas adelante.
5.8 Regiones de confianza simult

aneas
Supongamos que se tiene un vector aleatorio X cuya distribucion pertenece
a la familia F (x, ) y que = (1 , 2 ). Ocurre a veces que se tienen regiones
de confianza para 1 y 2 por separado, es decir, se tienen S1 (X) y S2 (X),
tales que:
P (1 S1 (X)) = 1 y P (2 S2 (X)) = 1
pero P (1 S1 (X), 2 S2 (X)) 1 .
Luego, S1 (X) S2 (X) no es una region de confianza simultanea de nivel
(1 ) para (1 , 2 ).
Una forma de conseguir que la probabilidad simultanea de que 1 y 2
esten en S1 (X) y S2 (X) respectivamente, sea al menos (1 ) se obtiene
considerando regiones de confianza de nivel (1 /2) para 1 y 2 , es decir,
tales que:

P (1 S1 (X)) = 1 y P (2 S2 (X)) = 1 .
2 2
Luego, si Ac indica el complemento del conjunto A,
P (1 S1 (X), 2 S2 (X) = 1 P [(1 S1 (X))c (2 S2 (X))c ] .
Como P (A B) P (A) + P (B), se deduce que
P (1 S1 (X), 2 S2 (X)) 1 P (1
/ S1 (X)) P (2
/ S2 (X))

= 1 =1 .
2 2

5.8. REGIONES DE CONFIANZA SIMULTANEAS 25
Es decir, tomando regiones de confianza para cada parametro de nivel 1/2

nos aseguramos un nivel simultaneo mayor o igual que 1 . Este procedi-
miento se puede generalizar inmediatamente para el caso que se requieran re-
giones simultaneas para kparametros. Bastara tomar para cada parametro
un region de nivel /k.
Ejemplo 1: Sea X1 , . . . , Xn una muestra aleatoria de una distribucion

N (, 2 ). Hemos visto que un intervalo de confianza para de nivel 1
esta dado por:

s s
S1 = X tn1, 2 , X + tn1, 2 ,
n n
mientras que un intervalo de confianza para 2 de nivel 1 esta dado por:

Pn 2 Pn 2
i=1 (Xi X) i=1 (Xi X)
S2 = , .
2n1, 2n1,1
2 2
Luego, si tomamos

s s
S1 = X t n1, , X + tn1, ,
4 n 4 n

Pn 2 Pn 2
i=1 (Xi X) i=1 (Xi X)
y S2 = ,
2n1, 2n1,1
4 4
S1 S2 es una region de confianza simultanea para (, 2 ) de nivel mayor o

igual que 1 .
El inconveniente que tiene este metodo es que el nivel es mayor que el
deseado, esto ofrece mas seguridad que la deseada de que los valores de los
parametros estaran dentro de la region, pero por otra parte las regiones
resultan mas grandes que lo necesario y por lo tanto, sera mas imprecisa la
determinacion de los parametros.
Obtendremos ahora en el caso normal una region de confianza simultanea
para y 2 de nivel exactamente igual a 1 .
Sea X1 , . . . , Xn una muestra aleatoria de una distribucion N (, 2 ). Sabe-
P
mos que U = n(X )/ y V = S 2 / 2 , donde S 2 = ni=1 (Xi X)2 son
independientes con distribucion N (0, 1) y 2n1 respectivamente. Luego, se
tendra
!
n(X ) 2 S2 2
P z z , n1,1 2 n1, =
2 2 2 2
! !
n(X ) S2
= P z z P n1,1 2 2n1,
2 2 2 2
2
= (1 )(1 ) = (1 )
Tomemos = 1 (1 )1/2 , entonces (1 )2 = (1 ); luego

( )
2 n(X ) 2 S2 2
Sn = (, ) : z z , n1,1 2 n1,
2 2 2 2
es una region de confianza simultanea para (, 2 ) de nivel 1 . Para

estudiar la forma de Sn podemos escribir

n(X )2 S2 S2
Sn = (, 2 ) : 2 , 2
z 2 2 2
2
n1, 2 n1,1 2
La condicion
n(X )2
2
z 2
2
nos indica la region del plano (, 2 ), por encima de la parabola

2 = n(X )2 /z 2 y la condicion
2
S2 S2
2
2 2
n1, 2 n1,1 2
indica la franja horizontal comprendida entre las rectas horizontales

2 = S 2 /2 y S 2 /2 .
n1, 2 n1,1 2
5.9 Cotas superiores e inferiores de confianza

En los ejemplos vistos anteriormente interesaba conocer el parametro desco-
nocido con la mayor precision posible y para este proposito lo mas adecuado
era construir intervalos de confianza de longitud tan peque na como era posi-
ble. En esta seccion, estudiaremos otro tipo de regiones de confianza que
surgen naturalmente cuando se esta interesado en conocer una cota superior
o inferior del parametro.
Consideremos el siguiente ejemplo. En el Departamento de Control de un
laboratorio se recibe un frasco con cierta droga que puede contener alguna
impureza indeseada.
5.9. COTAS SUPERIORES E INFERIORES DE CONFIANZA 27
Supongamos que se hagan n mediciones de la concentracion de la im-

pureza, las que estan afectadas de un error, luego se observan X1 , . . . , Xn
donde
X i = + i , 1in
donde es el valor verdadero de la concentracion de la impureza y los i
son variables aleatorias N (0, 2 ) independientes. Luego X1 , . . . , Xn es una
muestra de una distribucion N (, 2 ).
En este caso, solo se estara interesado en determinar si la droga es acep-
table o no, y para esto mas que un intervalo de confianza interesara tener
una cota superior (X), (X = (X1 , . . . , Xn )) tal que la probabilidad de que
(X1 , . . . , Xn ) sea alta. De esta manera se tendra acotada con proba-
bilidad grande la concentracion de impureza de la droga.
Esto sugiere la siguiente definicion.
Definici on 1: Sea X un vector cuya distribucion pertenece a la familia

F (x, ), donde IR. Se dira que (X) es una cota superior de
confianza con nivel de confianza (1 ) para si P ((X) ) = 1 o
sea si (, (X)] es una region de confianza de nivel 1 . A este tipo de
region de confianza semirrecta izquierda se denomina tambien intervalo de
confianza unilateral izquierdo con nivel 1 .
Definici on 2: Sea X un vector cuya distribucion pertenece a la familia

F (x, ) con IR. Se dira que (X) es una cota inferior de confianza
con nivel de confianza 1 si P ((X) ) = 1, o sea si [(X), ) es una
region de confianza de nivel 1 . A este tipo de region la denominaremos
intervalo de confianza unilateral derecho.
El siguiente Teorema nos da un procedimiento general para obtener cotas
superiores e inferiores de confianza con nivel 1 .
Teorema. Sea X un vector aleatorio cuya distribucion pertenece a la familia
F (x, ) con IR. Sea G(x, ) una funcion estrictamente monotona en
y tal que U = G(X, ) tiene distribucion independiente de . Consideremos
A y B tales que P (U A) = y P (U B) = .
(a) Si G(x, ) es creciente y continua en , las cotas superiores e inferior

con nivel de confianza 1 vienen dadas respectivamente por las
soluciones a las siguientes ecuaciones
G(X, (X)) = B y G(X, (X)) = A .

(b) Si G(X, ) es decreciente y continua en cambio (X) y (X) vienen

dadas respectivamente por
G(X, (X)) = A y G(X, (X)) = B .
Demostracio n: La haremos solo para el caso que G(x, ) es creciente en

y para la cota superior. En este caso (X) esta definida por
G(X, (X)) = B .
Luego,
P ( (X)) = P (G(X, ) G(X, (X)))

= P (G(X, ) B) = P (U B) = 1 .
Ejemplo 1: Supongamos que como en el ejemplo de la droga, donde se

quera medir la concentracion de impureza, X = (X1 , . . . , Xn ) es una muestra
aleatoria de una distribucion N (, 2 ) y supongamos que 2 sea conocido.
Luego,
n(X )
U = G(X, ) =

tiene distribucion N (0, 1). Por lo tanto, en este caso A = z y B = z .
Luego, como G(x, ) es decreciente en se tendra que las cotas superiores
e inferiores de confianza de nivel de confianza 1 se obtendran de la
siguiente forma.
Sean (X) y (X)) definidas por

n(X (X)) n(X (X))
= z , = z

es decir, despejando se obtiene

(X) = X + z (X) = X z
n n
Ejemplo 2: Sea X1 , . . . , Xn una muestra aleatoria de una distribucion

N (, 2 ) y supongamos 2 desconocido; luego sabemos que

n(X )
U = G(X, ) =
s
5.9. COTAS SUPERIORES E INFERIORES DE CONFIANZA 29
tiene distribucion Tn1 .

Luego, procediendo como en el Ejemplo 1, obtendremos como cota supe-
rior e inferior de confianza con nivel 1
s s
(X) = X + tn1, 2 , y (X) = X tn1, 2
n n
5.9.1 Comparaci
on de cotas superiores e inferiores de con-
fianza
As como en el caso de intervalos de confianza interesaba que tuviesen longi-
tud lo mas corta posible, cabe preguntarse como sera deseable que fuesen las
cotas superiores e inferiores. Planteado de otra manera, dadas por ejemplo
dos cotas superiores 1 (X) y 2 (X), existe algun criterio para compararlas
y concluir por ejemplo que una es mas conveniente que otra? Analogamente
en el caso de cotas inferiores.
Como en el caso de cota superior se tiene controlada la posibilidad que
(X) este por debajo de , ya que esto solo puede suceder con probabilidad
, el riesgo no controlado es que (X) sobreval ue muy por encima de lo
necesario. Esta sobrevaluacion que la llamaremos C(X, ) estara dada por
(
(X) si (X) >
C(X, ) =
0 si (X)
Luego parece razonable buscar cotas superiores que minimicen E (C(X, ))

uniformemente en .
Del mismo modo en el caso de cotas inferiores, se puede definir la sub-
valuacion por
(
(X) si > (X)
D(X, ) =
0 si (X)
y en este caso interesara minimizar E (D(X, )) uniformemente en .

La teora de la optimalidad de las cotas de confianza se deriva de la teora
de optimalidad de los tests y por lo tanto se pospone hasta el Captulo 6.
Solamente diremos que contrariamente a lo que suceda con intervalos de
confianza, existen en casos no triviales cotas uniformemente optimas. Por
ejemplo, los procedimientos derivados en el Ejemplo 1 tienen esta propiedad.
En el caso del Ejemplo 2, no existen procedimientos uniformemente optimos.
De todos modos los procedimientos derivados en ese ejemplo son uniforme-

mente optimos si se restringe al conjunto de procedimientos insesgados. (Una
cota es insesgada si su intervalo de confianza unilateral asociado es una region
de confianza insesgada.)
REFERENCIAS
1. Lehmann, E.L. (1994) Testing Statistical Hypothesis. Chapman and

Hall.
2. Pratt, E. (1961) Length of Confidence Intervals, J. Amer. Statist.

Assoc. 16: 243258.
3. Tate, R.F. y Klett, G.W. (1959) Optimal Confidence Intervals for the
variance of a Normal Distribution, J. Amer. Statist. Assoc. 54: 674
682.
4. Wilks, S.S. (1962) Mathematical Statistics, J. Wiley and Sons.

Chapter 6
Tests de Hip
otesis
6.1 Introducci
on
El test de hipotesis es una manera formal de decidir entre dos opciones, o
sea, es una manera de distinguir entre distribuciones de probabilidad en base
a variables aleatorias generadas por una de ellas. Veamos un ejemplo para
tener una idea de lo que significan.
Ejemplo 1. Supongamos que un comerciante debe comprar un carga-

mento de N manzanas. El comerciante ignora que parte del cargamento no
se encuentra en buen estado. Como inspeccionar todo el cargamento es muy
costoso, decide elegir al azar una muestra de n manzanas.
Sea X el n
umero de manzanas en mal estado que observa en la muestra.
Luego si D es el n umero de manzanas en mal estado que hay en el carga-
mento, se tiene que la distribucion de X es hipergeometrica y su funcion de
probabilidad puntual esta dada por
! !
D N D
x nx
p(x, D) = ! si max(0, D N + n) x min(n, D)
N
n
y D puede tomar valores en el conjunto = {0, 1, 2, . . . , N }.

Supongamos que se hubiese convenido que el cargamento debera tener
no mas de D0 manzanas en mal estado. Luego, en base a la variable X, que
el comerciante observa, debe decidir si el cargamento satisface los requisitos
1
2
CHAPTER 6. TESTS DE HIPOTESIS
convenidos. Es decir, debe decidir entre dos alternativas
D 1 = {0, 1, . . . , D0 } o D 2 = {D0 + 1, . . . , N }
Esto puede ser expresado como que el comerciante debe decidir entre dos
hipotesis:
H : D 1 contra K : D 2
y esta decision debe hacerla a partir del valor observado X.

Un test sera una regla de decision basada en X. Esto puede ser expresado
matematicamente como una funcion (X) que toma dos valores: 1 y 0. 1
significara que rechaza H y por lo tanto acepta K y 0 que acepta H.
Supongamos por ejemplo que N = 1000, n = 100 y D0 = 150. Un posible
test esta dado por:
(
1 si X > 15
1 (X) =
0 si X 15 .
De acuerdo con este test se rechaza el cargamento, es decir, se decide que

D 2 si se observa en la muestra mas de 15 manzanas en mal estado. Si
se quisiera usar un test mas seguro para el comprador (en el sentido de que
la probabilidad de aceptar un cargamento con mas de 150 manzanas en mal
estado sea menor) se podra usar, por ejemplo,
(
1 si X > 5
2 (X) =
0 si X 5 .
Por ahora, no tenemos ning un criterio para elegir entre dos tests, ni entre
los muchos otros que podran definirse. En los parrafos siguientes atacaremos
el problema de definir criterios para comparar diferentes tests, y el de elegir
un test optimo.
Ejemplo 2. Supongamos que para curar una determinada enfermedad se

emplea una droga que cura la enfermedad con una probabilidad 0 conocida.
Se ha obtenido una nueva droga y se quiere determinar si vale la pena cambiar
la droga. Para ello se prueba la nueva droga con n pacientes obteniendose
los resultados X1 , . . . , Xn , donde Xi = 1 indica que el iesimo paciente se
curo y Xi = 0, que no se curo. Sea la probabilidad de curar de la nueva
droga, la cual no es conocida.
6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 3
Se esta dispuesto a cambiar de droga si la nueva droga es tal que

0 + 0.05, es decir si esta u
ltima cura al menos un 5% mas de pacientes que
la vieja. Luego, se tiene que decidir entre dos hipotesis:
H : 0 + 0.05 y K : > 0 + 0.05
Un test sera una funcion (X1 , . . . , Xn ) que toma valores 1 o 0.

(X1 , . . . , Xn ) = 0 indicara que aceptamos H, es decir, no se contin
ua usando
la droga vieja.
Para ejemplificar, supongamos que 0 = 0.8 y n = 100. Un posible test
sera P

1 si 100i=1 Xi 85
(X1 , . . . , Xn ) =

0 P
si 100i=1 Xi < 85 .
Este test acepta K, es decir, cambia de droga si 85 pacientes o mas

resultan curados.
Si se quisiera ser mas conservador, es decir, estar mas seguro que la droga
tiene la probabilidad de curar mayor que 0.85 antes de tomar la decision de
cambiarla, se podra usar el test
P100

1 si i=1 Xi 90
(X1 , . . . , Xn ) =

0 P100
si i=1 Xi < 90 .
6.2 Formulacion general del problema del test de

hip
otesis
Supongamos que se obtiene un vector aleatorio X = (X1 , ..., Xn ) cuya funcion
de distribucion pertenece a la familia F (x, ) con IRp . Sean 1 y
2 tales que 1 2 = y 1 2 = . Un test para este problema sera
una regla basada en X para decidir entre las dos hipotesis
H : 1 contra K : 2
Definici on 1. Se llama test a una funcion : IRn [0, 1].

Se dice que un test es no aleatorizado si toma solamente los valores 0
o 1.
4
Cuando (X) = 1 se rechazara la hipotesis H y por lo tanto, se aceptara

K. En cambio, (X) = 0 indicara que se acepta H.
Si el test toma valores distintos de 0 y 1 se dice que es un test aleatorizado.
En este caso, el valor (x) indica con que probabilidad se rechaza H si se
observa X = x, es decir, (x) = P (rechazar H|X = x)
Por ejemplo, (X) = 1/2 indicara que si observamos el vector X debemos
rechazar H con probabilidad 1/2, es decir, podramos tirar una moneda y si
saliera ceca aceptarla, (X) = 1/6 indicara que si observamos X debemos
rechazar H con probabilidad 1/6; en este caso podramos tirar un dado; si
saliese 1 rechazaramos H y en los demas casos la aceptaramos.
La aleatorizacion introduce en la decision un elemento extra
no al fenome-
no estudiado, como el lanzamiento de una moneda o un dado, con que hemos
ejemplificado. Por lo tanto, se evitan en lo posible los tests aleatorizados en
los casos practicos. Sin embargo, desde el punto de vista teorico, conviene
como se vera, admitir la posibilidad de tests aleatorizados.
En la mayora de las situaciones, los tests vienen dados como funciones
de un estadstico, llamado estadstico del test, que, por ejemplo, como en el
caso de la seccion anterior, sirven para rechazar H para valores grandes. En
general, el estadstico del test sirve para medir la diferencia entre los datos
y lo que se espera de ellos bajo H.
Definici
on 2. La regi on crtica R, de un test , es el conjunto de puntos
X que llevan a la decision de rechazar H y la regi
on de aceptaci
on A es el
conjunto de puntos X que llevan a aceptar H.
Dado un test para un problema de test de hipotesis se podra incurrir en
dos tipos de error.
Definici on 3. Se llamara error de tipo 1 al que se comete al rechazar la

hipotesis H, cuando es verdadera. Se llamara error de tipo 2 al que se comete
al aceptar H, cuando esta hipotesis es falsa.
Luego, para un test no aleatorizado, la probabilidad de cometer un error
de tipo 1 sera P (R), cuando 1 . Mientras que la probabilidad de error
de tipo 2, sera P (A) = 1 P (R), cuando 2 .
Ejemplo 1 (donde se visualiza la necesidad de introducir tests aleator-

izados). Supongamos que una empresa automotriz sostiene que domina la
mitad del mercado, esto es que la mitad de los compradores de automoviles
se deciden por alguno de los modelos fabricados por ella. Se desea testear si
la afirmacion hecha por la empresa es exagerada o no.
Supongamos que se toma una muestra de compradores que, para facilidad
en los calculos, consideraremos de tama
no n = 6.
Las hipotesis en cuestion son:
H : = 1/2 contra K : < 1/2
donde es la probabilidad de que un comprador tomado al azar compre un

automovil de la empresa.
Consideremos para cada comprador i, la variable Xi tal que Xi = 1 si el
comprador se decide por un auto fabricado por la empresa; Xi = 0 en caso
contrario. Luego, cada Xi tendra distribucion Bi(, 1).
Supongamos tambien que se quiere tener una probabilidad de error de
tipo 1 de 0.25, es decir que la probabilidad de rechazar H cuando es verdadera
es del 25%.
Parecera intuitivo considerar un test de la forma
(
1 si X < k
k (X) =
0 si X k
Consideremos los test 2 y 3 . Veamos que ninguno de ellos satisface la

exigencia planteada para el error de tipo 1.
Suponiendo que las decisiones de los compradores son independientes
P
entre s, T = 6i=1 Xi , tiene distribucion Bi(, 6).
Calculemos la probabilidad de error de tipo 1 para ambos tests. Para
ello usaremos la tabla de la distribucion Bi(6, 1/2).
t 0 1 2 3 4 5 6
P 1 (T = t) 1/64 6/64 15/64 20/64 15/64 6/64 1/64

2
Por lo tanto,
P 1 (2 = 1) = P 1 (T < 2) = 7/64 < 0.25

2 2
y
P 1 (3 = 1) = P 1 (T < 3) = 22/64 > 0.25
2 2
Resulta claro entonces que no podremos elegir un test en la familia de

tests no aleatorizados k con un error de tipo 1 igual a 0.25.
6
Tendra sentido, en esta situacion, plantearse un test de la forma

1 si T < 2
(X) = si T = 2

0 si T > 2
y tratar de elegir de forma tal que tenga el error de tipo I deseado. Para
eso se requiere
P 1 ((X) = 1) = P 1 (T < 2) + P 1 (T = 2) = 0.25 .

2 2 2
Luego, se debera cumplir

7 15
+ = 0.25,
64 64
o sea = 3/5.
Una forma de efectivizar el test, en este caso, podra ser la siguiente.
Cuando se observa que T < 2, se rechaza H; cuando se observa que T > 2,
se acepta H; cuando se observa T = 2 se colocan en una urna tres bolillas
rojas y dos bolillas negras y se extrae una al azar; si resulta roja se rechaza
H y si no se acepta.
Notemos que si en lugar de pedir que la probabilidad de error de tipo 1
sea 0.25 hubiesemos pedido que fuera 0.10; el test hubiera resultado de la
forma

1 si T < 1
(X) = 0.9 si T = 1

0 si T > 1
O sea, cuanto mas exigentes somos respecto del error de tipo 1, mas estricta
es la cota dada para el estadstico del test.
Debemos destacar que en este ejemplo, y en los anteriores, el test se
basa en un estadstico cuya distribucion es conocida cuando H es cierta.
Conocer esa distribucion hace posible definir la region de rechazo que tendra
probabilidad prefijada bajo H. El valor elegido como cota o punto de corte,
para tomar la decision, se llama valor crtico y por lo tanto, separa la region
de aceptacion de la region de rechazo.
Volvamos al problema general de test de hipotesis planteado al comienzo

de esta seccion. Sea H : 1 y K : 2 ; sea (X) un test para estas
dos hipotesis. Entonces
Definici
on 4. Se llama funci
on de potencia del test (X) a la funcion
() = P (rechazar H),
donde P indica la probabilidad cuando es el valor verdadero.

En el caso que es un test no aleatorizado se tiene
() = P ((X) = 1) = E ((X)) .
Si es aleatorizado, (X) puede interpretarse como la probabilidad de

rechazar H, condicional a observar X; luego se tiene
(X) = P (rechazar H|X)
y resulta
() = P ( rechazar H) = E (P ( rechazar H|X)) = E ((X)) .
Por lo tanto, en todos los casos se tiene
() = E ((X)) .
Expresemos ahora las probabilidades de los errores de un test en terminos

de ()
La probabilidad que ocurra un error de tipo 1 sera () para 1 .
La probabilidad que ocurra un error de tipo 2 sera (1 ()) para

2 .
Un buen test debera tener errores de tipo 1 y 2 peque

nos, y por lo tanto
debe tener una funcion de potencia () que tome valores cercanos a 0 para
1 y valores cercanos a 1 para 2 .
En realidad, no podemos hacer ambos errores peque nos simultaneamente.
Mas a
un, para un tama no de muestra dado para que decrezca la probabilidad
de que ocurra un error de tipo 1, debemos aumentar la probabilidad de que
ocurra un error de tipo 2 (o sea disminuir la potencia). Si queremos que
ambos sean peque nos debemos aumentar la cantidad de observaciones.
Por ejemplo, en el Ejemplo 1, el test cumpla (1/2) = 0.10. Por
otra parte, se verifica que () = (1 )6 + 5.4 (1 )5 , con lo cual
8
tenemos la tabla siguiente que da la funcion de potencia del test para

algunos valores de [0, 1/2]
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
() 1 0.944 0.85 0.736 0.616 0.498 0.389 0.295 0.215 0.149 0.1
Como vemos, la funcion de potencia de es una funcion decreciente de

en el intervalo [0, 1/2] que tiende a 1 cuando 0 y tiende a 0.1 cuando
1/2. Es decir, la probabilidad de error 2 tiende a 0 cuando 0 y por
lo tanto, se logran detectar bien alternativas lejanas a la hipotesis H.
Para los procedimientos que daremos 1P (error de tipo 1) P (error de tipo 2).
El objetivo sera encontrar procedimientos con la menor probabilidad de tipo
2, fijada la probabilidad de tipo 1, es decir, buscaremos procedimientos con
potencia grande para 2 .
6.2.1 Nivel de significaci

on de un test
La teora clasica de test de hipotesis considera que el error de tipo 1 es mucho
mas grave que el error de tipo 2. Es decir, la situacion de las hipotesis H y K
no es simetrica; es mucho mas grave rechazar H cuando es cierta que acep-
tarla cuando es falsa. Esto significa que se debe tener mucha evidencia sobre
que H es falsa antes de rechazarla. Se observa en el Ejemplo 2 de la seccion
1, que esta simetra corresponde a una situacion real, puesto que antes de
cambiar de droga, es decir rechazar H, habra que tener un grado de certeza
muy alto respecto de que la nueva droga es mejor que la primera. Desde
ahora en adelante H se denominara hip otesis nula y K hipotesis alternativa.
Veamos un ejemplo que servira para fijar ideas y clarificar la mecanica
de eleccion de H
Ejemplo 1. Supongamos que se quiere decidir si un paciente tiene o no tu-

berculosis, para proceder, en caso afirmativo, a suministrarle un tratamiento
adecuado. Tendremos entonces dos hipotesis:
(A) El se
nor W esta tuberculoso;
(B) El se
nor W no esta tuberculoso.
Es claro que el medico responsable de la decision considerara mucho mas
grave rechazar (A) cuando es cierta, que rechazar (B) cuando es cierta (esto
es lo mismo que aceptar H cuando es falsa), puesto que en el primer caso
se expone al paciente a una agudizacion grave de su enfermedad, mientras

que en el segundo se le aplicara un tratamiento que no necesita y cuyas
consecuencias nunca seran comparables con el da no de no tratarlo estando
enfermo.
Luego la hipotesis nula sera H : El senor W esta tuberculoso; y la
alternativa K : El senor W no esta tuberculoso.
Como dijimos mas arriba, supondremos que el error de tipo 1 (rechazar
H cuando es cierta), es el mas grave. Por lo tanto se va requerir que el
error de tipo 1 del test a utilizar no sea mayor que un numero 0 < < 0.5
prefijado. Este numero es generalmente peque no (entre 0.01 y 0.10) y se
lo determina de acuerdo a la importancia del error de tipo 1. La siguiente
definicion formaliza este concepto.
Definici
on 5. El nivel de significaci
on de un test esta definido por
= sup ()
1
Luego, es el supremo de la probabilidad de cometer un error de tipo 1.
Por lo tanto, fijado , se buscara un test que tenga nivel de significacion
menor o igual que . Un test con esta propiedad asegurara que la probabili-
dad de rechazar la hipotesis nula H, cuando esta es cierta, no sea mayor que
.
Como existen muchos tests que tienen nivel de significacion menor o igual
que para un problema determinado, debemos dar un criterio para elegir
uno entre todos ellos. Resulta natural elegir entre todos los tests con la
restriccion de que su nivel de significacion sea menor o igual que aquel
que tenga menor probabilidad de error de tipo 2. Esto motiva la siguiente
definicion.
Definici on 6. Consideremos un problema general de test de hipotesis donde

se observa un vector X con distribucion F (x, ),con , y se tiene que
decidir entre las hipotesis H: 1 y K: 2 . Diremos que un test
es el test m
as potente de nivel menor o igual que para una alternativa fija
2 2 si
(a) sup 1 () , es decir si tiene nivel de significacion menor o
igual que
(b) Dado otro test de nivel menor o igual que entonces se tiene
( 2 ) ( 2 )
10
Es decir, la probabilidad de error cuando 2 es el verdadero valor es menor

para el test que para cualquier otro de nivel menor o igual que (o
sea, (1 ( 2 )) (1 ( 2 )) ).
Es claro que si cambiamos la alternativa 2 2 por otro 02 2 , el test
mas potente para esta 02 no tiene porque coincidir con el correspondiente a
2 . Por ejemplo, si se quiere testear H : = 0 contra K : 6= 0 , para una
distribucion N (, 02 ) con 02 conocida, resultara
1 = {0 } ; 2 = { IR : 6= 0 }.
Si se toma una alternativa fija 1 < 0 , el test mas potente de nivel para
esta alternativa no coincide con el test mas potente para una alternativa
2 > 0 , como veremos mas adelante.
Definici on 7. Diremos que un es un test uniformemente m as potente,
UMP, de nivel menor o igual que para H : 1 contra K : 2 ,
si es el mas potente de nivel menor o igual que para todo 2 2 , es
decir, si el mismo test es optimo cualquiera sea la alternativa fija 2 2
considerada.
Lo ideal sera encontrar (cuando existan) tests uniformemente mas po-
tentes de nivel menor o igual que . Estudiaremos casos donde estos tests
existen y otros donde no. En estos u ltimos habra que elegir otros criterios
para seleccionar el test a usar.
Definicion 8. El nivel crtico o p-valor es el menor valor de significacion
para el que rechazamos la hipotesis H para una observacion dada x.
En el Ejemplo 1 de la seccion 2, por ejemplo si observamos X = 2 el
p-valor del test {k } que rechaza para valores peque
nos de T , sera p = 7/64.
Prefijado el nivel de significacion , y evaluado el p- valor, p, del test
utilizado, rechazaremos H si p < .
A esta altura, la logica de los tests puede parecer mas clara. Es un
argumento por contradiccion destinado a mostrar que la hipotesis nula lleva
a conclusiones absurdas y que por lo tanto, debe ser rechazada.
Supongamos que para un conjunto de datos dado, se eval ua el estadstico
del test y se obtiene un pvalor de 0.001. Para interpretarlo, debemos pensar
que la hipotesis nula es cierta e imaginamos a otros investigadores repitiendo
la experiencia en identicas condiciones. El valor 0.001 dice que solo un
investigador de cada 1000 puede obtener un valor del estadstico tan extremo
como el obtenido. Por lo tanto, la diferencia entre los datos y lo que se espera
de ellos bajo H no puede atribuirse meramente a variacion aleatoria. Este
6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 11
hecho lleva a una contradiccion y por lo tanto, a abandonar nuestra hipotesis

de que H era cierta.
Es tentador pensar que el pvalor da la probabilidad de que H sea cierta,
pero no es as. No importa cuantas veces se repita el experimento, H sera
siempre cierta o siempre falsa. Es decir, el nivel crtico da la probabilidad
de obtener evidencia en contra de la hipotesis nula suponiendo que esta sea
cierta. Por lo tanto, cuanto menor sea el p-valor mas evidencia en contra de
H tenemos, suponiendo que H es cierta.
6.3 Tests
optimos para el caso de hip
otesis simple
contra hip
otesis simple
El caso mas simple de problema de test de hipotesis es la situacion donde
1 y 2 contengan cada uno un elemento. En este caso, se dice, H y K son
hipotesis simples.
Si 1 tuviera mas de un elemento, H se llamara hip
otesis compuesta, y
lo mismo vale para K en relacion a 2 .
En el caso en que H y K sean simples, un problema de test de hipotesis
sera de la forma
H : = 1 contra K : = 2
Supongamos que X sea un vector discreto (o continuo) bajo 1 y 2 y que
las funciones de densidad correspondientes sean p(x, 1 ) y p(x, 2 ). Luego,
intuitivamente, parece razonable rechazar H si la probabilidad de obtener
el valor observado x bajo 2 es grande comparada con la probabilidad de
obtener x bajo 1 , es decir, cuando
p(x, 2 )
L21 = k
p(x, 1 )
donde k es una constante que depende del nivel . Por lo tanto, se podra
pensar en construir un test de la forma

1 si L21 > k
(X) = si L21 = k

0 si L21 < k
o equivalentemente,

1 si p(x, 2 ) > k p(x, 1 )
(X) = si p(x, 2 ) = k p(x, 1 ) (6.1)

0 si p(x, 2 ) < k p(x, 1 )
12
donde 0 1, correspondiendo el caso k = + al test

(
1 si p(x, 1 ) = 0
(X) = (6.2)
0 si p(x, 1 ) > 0
que tiene nivel 0.

Si queremos que el test (6.1) tenga nivel debemos elegir k y tales
que se cumpla
E 1 ((X)) = . (6.3)
Notemos que entonces, en este tipo de test k es una funcion decreciente
de .
Un test de la forma (6.1) se llama test del cociente de verosimilitud. El
siguiente teorema establece que se pueden elegir k y de manera que
se cumpla (6.3) y que usando estos valores en (6.1) se obtiene un test mas
potente de nivel menor o igual que . Sin embargo, los tests de la forma (6.1)
no garantizan la unicidad y es por ello, que para obtenerla le permitiremos
a depender de x.
Teorema 1 (de NeymanPearson)

(i) Dado 0 1 se pueden elegir k y , 0 1, tales que el test
de la forma (6.1) satisfaga (6.3).
(ii) Sea un test de la forma (6.1) que satisface (6.3) para > 0 y de la
forma (6.2) para = 0. Luego ese test es el mas potente de nivel
menor o igual que para
H : = 1 contra K : = 2 .
(iii) Si es un test uniformemente mas potente de nivel > 0 para

H : = 1 versus K : = 2 entonces es de la forma

1 si p(x, 2 ) > k p(x, 1 )
(X) = (x) si p(x, 2 ) = k p(x, 1 ) (6.4)

0 si p(x, 2 ) < k p(x, 1 )
excepto quizas en un conjunto N tal que P 1 (N ) = P 2 (N ) = 0.
Si es un test uniformemente mas potente de nivel 0 para

H : = 1 versus K : = 2 entonces es de la forma (6.2)
excepto quizas en un conjunto N tal que P 1 (N ) = P 2 (N ) = 0.
Demostracio n: (i) Si = 0 el test (6.2) tiene nivel 0. Sea entonces,

0 < 1.
Extendamos la definicion de la variable aleatoria L21 al caso en que el
denominador es 0,

p(x, 2 )
p(x, 1 )
si p(x, 1 ) > 0
L21 = .
1 si p(x, 1 ) = 0
Luego,
E 1 ((X)) = P 1 (L21 > k ) + P 1 (L21 = k )

= 1 P 1 (L21 k ) + P 1 (L21 = k ) .
Si existe una constante k0 tal que P 1 (L21 k0 ) = tomamos k = k0 y

= 0. En caso contrario, siempre existe k0 tal que
P 1 (L21 < k0 ) 1 < P 1 (L21 k0 ) (6.5)
y se cumple, P 1 (L21 = k0 ) > 0. Definamos k = k0 y
P 1 (L21 k0 ) (1 )
= .
P 1 (L21 = k0 )
Luego, por (6.5) 0 < 1 y ademas E 1 ((X)) = .
Demostraremos (ii) en el caso continuo, el caso discreto es analogo reem-
plazando las integrales por sumatorias. Supongamos que sea de la forma
(6.1) y satisfaga (6.3). Luego, por satisfacer (6.3) su nivel es igual a .
Para mostrar que es el test mas potente de nivel menor o igual que
, solo falta mostrar que dado otro test de nivel menor o igual que se
tiene
( 2 ) ( 2 ) (6.6)
(a) Supongamos primero > 0 con lo cual k < en (6.1). Sea de nivel
menor o igual que . Consideremos la expresion
U (x) = [(x) (x)] [p(x, 2 ) k p(x, 1 )] . (6.7)
Mostraremos que U (x) 0.

Supongamos primero que
p(x, 2 ) > k p(x, 1 ) .

14
Luego, de acuerdo con (6.1), se tendra (x) = 1 y por lo tanto (x) (x),
de donde, U (x) 0.
Si p(x, 2 ) = k p(x, 1 ), es claro que U (x) = 0.
Finalmente, si
p(x, 2 ) < k p(x, 1 ) ,
entonces usando nuevamente (6.1), (x) = 0, con lo cual (x) (x) y

por lo tanto U (x) 0.
Resulta entonces que
Z Z

[(x) (x)] [p(x, 2 ) k p(x, 1 )] dx = U (x)dx 0 .
Por lo tanto,
Z Z

((x) (x))p(x, 2 )dx k ((x) (x))p(x, 1 )dx
o equivalentemente,
( 2 ) ( 2 ) k ( ( 1 ) ( 1 )) .
Por (6.3) se tiene ( 1 ) = , como es un test de nivel de significacion

menor o igual que , ( 1 ) , y entonces resulta
( 1 ) ( 1 ) 0
con lo cual,
( 2 ) ( 2 ) .
Esto demuestra que es el test mas potente de nivel de significacion menor

o igual que si su nivel no es cero.
(b) Si = 0, como el test dado por (6.2) tiene nivel cero queremos ver que
dado con nivel 0 se cumple (6.6). Como tiene nivel 0,
Z
(x)p(x, 1 )dx = 0 .
Por lo tanto, (x) = 0 en el conjunto {x : p(x, 1 ) > 0} excepto quizas

en un conjunto de medida 0. Por lo tanto, como (x) = 0 si p(x, 1 ) > 0 y
(x) = 1 si p(x, 1 ) = 0 se tiene
( 2 ) ( 2 ) = E 2 ((X)) E 2 ( (X))
Z
= [(X) (X)] p(x, 2 )dx
{x: p(x, 1 )=0}
Z
+ [(X) (X)] p(x, 2 )dx
{x: p(x, 1 )>0}
Z
= [1 (X)] p(x, 2 )dx 0 .
{x: p(x, 1 )=0}
(iii) Haremos primero el caso = 0. Sea el test de la forma (6.2) y

un test de nivel 0. Hemos visto que entonces (x) = 0 en el conjunto
{x : p(x, 1 ) > 0} excepto quizas en un conjunto N1 de medida 0. Luego,
P 1 (N1 ) = P 2 (N1 ) = 0 y (x) = (x) en {x : p(x, 1 ) > 0} N1 .
Falta ver que (x) = (x) = 1 en {x : p(x, 1 ) = 0} excepto quizas un
conjunto de medida 0. Como
E 2 ((X)) = E 2 ( (X))
se cumple
Z
0 = [(X) (X)] p(x, 2 )dx
{x: p(x, 1 )=0}
Z
+ [(X) (X)] p(x, 2 )dx
{x: p(x, 1 )>0}
Z
= [1 (X)] p(x, 2 )dx .
{x: p(x, 1 )=0}
Pero 1 luego el integrando es no negativo y la integral es cero si y solo

si = 1 en el conjunto {x : p(x, 1 ) = 0} {x : p(x, 2 ) > 0} excepto
quizas en un conjunto N2 de medida 0. Luego si
N = N1 N2 ({x : p(x, 1 ) = 0} {x : p(x, 2 ) = 0})
se tiene P 1 (N ) = P 2 (N ) = 0 y (x) = (x) para x

/ N.
Supongamos ahora > 0. Sea un test de nivel uniformemente
mas potente para H versus K y el test dado por (6.1) que tambien es
uniformemente mas potente para H versus K por lo visto en (ii). Luego se
cumple
E 1 ((X)) = E 1 ( (X)) y E 2 ((X)) = E 2 ( (X)) (6.8)

16
Por otra parte, la funcion U (x) definida en (6.7) es no negativa y por (6.8)
R
U (x)dx = 0. Luego, U (x) debe ser nula excepto en un conjunto N de
medida 0. Es decir, ((x) (x))(p(x, 2 ) k p(x, 1 )) = 0 para x / N.
Por lo tanto, (x) = (x) en el conjunto {x : p(x, 2 ) 6= k p(x, 1 )} N c
de donde el resultado.
Observaci on. Si L21 es una variable continua no hay que preocuparse por
, ya que P (L21 = k ) = 0.
Ejemplo 1. Sea X1 , . . . , Xn una muestra aleatoria de una distribucion

perteneciente a N (, 02 ) donde 02 es conocido, y supongamos que se quiere
decidir entre H : = 1 contra K : = 2 . Supongamos primero que
2 > 1 . En este caso, el test mas potente rechaza H si
p(X1 , . . . , Xn ; 2 )
k
p(X1 , . . . , Xn ; 1 )
donde p(X1 , . . . , Xn ; ) indica la densidad conjunta de X = (X1 , . . . , Xn )
cuando Xi tiene distribucion N (, 02 ). Luego, (X1 , . . . , Xn ) = 1 si
n 2 /2 2
(2 0 )n/2 ei=1 (Xi 2 ) 0
L21 = n 2 /2 2
k
(2 0 )n/2 ei=1 (Xi 1 ) 0
o sea (X1 , . . . , Xn ) = 1 si
n 2 /2 2 +n (X )2 /2 2
ei=1 (Xi 2 ) 0 i=1 i 1 0 k
o equivalentemente, (X1 , . . . , Xn ) = 1 si
n
X n
X
(Xi 2 )2 + (Xi 1 )2 202 ln k .
i=1 i=1
Desarrollando el primer miembro de esta desigualdad, se tiene que

(X1 , . . . , Xn ) = 1 si
n
X
2(2 1 ) Xi 202 ln k + n22 n21 .
i=1
Como 2 1 > 0, se tiene que (X1 , . . . , Xn ) = 1 si

n
X 202 ln k + n22 n21
Xi
i=1
2(2 1 )
pero el segundo miembro de esta desigualdad es una constante, llamemosla

k0 .
Luego, el test mas potente es de la forma
n
X
(X1 , . . . , Xn ) = 1 si Xi k 0
i=1
(puesto que las regiones de rechazo planteadas inicialmente y esta u

ltima
son equivalentes). La constante k 0 debera elegirse de modo que
E1 ((X1 , . . . , Xn ) = (6.9)
Para encontrar el k 0 que hace que (6.9) se satisfaga, necesitaramos una

tabla de la distribucion N (n1 , n02 ), pero para trabajar mas comodamente
P
transformamos el estadstico ni=1 Xi en otro cuya distribucion sea N (0, 1).
Para esto escribimos el test de la siguiente forma (X1 , . . . , Xn ) = 1 si
(X n 1 ) (k 0 /n 1 )
n n
0 0
Pn
donde X n = (1/n) i=1 Xi . Nuevamente n(k 0 /n 1 )/0 es una cons-
tante que llamaremos k 00 . Luego el test puede ser escrito de la forma
(X n 1 )
(X1 , . . . , Xn ) = 1 si n k 00 .
0
Calculemos k 00 . De acuerdo con el Teorema de NeymanPearson, de-
bera tenerse que
= E1 ((X1 , . . . , Xn ))
= P1 ((X1 , . . . , Xn ) = 1)
(X n 1 )
= P1 ( n k 00 ) .
0

Pero cuando es 1 , n(X n 1 )/0 es N (0, 1). Luego, k 00 debe ser igual
a z .
Finalmente, el test queda como

n (X 1)
1 si 0 z
(X1 , . . . , Xn ) = (6.10)

0 si n (X 1)
< z
0
18
En este caso, no debemos preocuparnos por el caso en que L21 = k ya

que la variable L21 es continua.
Si se hubiera tenido que 2 < 1 , el test mas potente de nivel de signifi-
cacion hubiese resultado

n (X n 1)
1 si 0
z
(X1 , . . . , Xn ) = (6.11)

0 si n (X n 1)
> z
0
De (6.10) resulta que el test mas potente para H : = 1 contra

K : = 2 no depende de 2 , es decir es el mismo cualquiera sea 2 > 1 .
Por lo tanto, el test dado por (6.10) es el test uniformemente mas potente
de nivel menor o igual que para H : = 1 contra K : > 1 .
Analogamente el test dado por (6.11) es el test uniformemente mas po-
tente de nivel menor o igual que para H : = 1 contra K : < 1 .
Calculemos ahora la funcion de potencia del test dado por (6.10), el
que se puede escribir, haciendo manipuleo algebraico, como

n (X n0) z + n (1)
1 si 0
(X1 , . . . , Xn ) = (6.12)

0 si n (X n0) < z + n (1)
0
Luego, la funcion de potencia del test definido por (6.10) esta dada por
(X n ) (1 )
() = E ((X)) = P ( n z + n )
0 0

Pero cuando el valor de la media es , n(X n )/0 tiene distribucion
N (0, 1). Luego si es la funcion de distribucion de una variable aleatoria
N (0, 1), se tendra
(1 )
() = 1 (z + n ).
0
Estudiaremos algunas propiedades de ().
A. () para n fijo es una funcion creciente de , ya que es una funcion

creciente.
B. (1 ) = .
C. lim+ () = 1 limx (x) = 1 0 = 1.
D. lim () = 1 limx+ (x) = 1 1 = 0.
E. Para 2 fijo, 2 > 1 , se tiene
lim (2 ) = 1 lim (x) = 1 0 = 1.

n n
De aqu se deduce que tomando n grande, para un 2 fijo, la probabilidad

de error de tipo 2 se puede hacer tan peque
no como se quiera.
De A y B resulta que
sup () = ,
1
y luego resulta un test de nivel igual que para H : 1 contra

K : > 1 .
Veamos ahora que es el test de nivel , uniformemente mas potente
para estas mismas hipotesis. Sea otro test de nivel menor o igual que
para H : 1 ; tambien tendra este nivel para H : = 1 , pero es el test
uniformemente mas potente para H : = 1 contra K : > 1 . Entonces
se tiene
() () > 1
y resulta el test mas potente de nivel menor o igual que para H : 1
contra K : > 1 .
Luego hemos demostrado el siguiente teorema
Teorema 2.
(i) El test dado por (6.10) es el uniformemente mas potente de nivel

(a) H : = 1 contra K : > 1
y para
(b) H : 1 contra K : > 1 .
Su funcion de potencia viene dada por

() = 1 (z + n(1 )/0 ).
(b) En forma similar el test dado por (6.11) es el uniformemente mas

potente de nivel menor o igual que para
(a) H : = 1 contra K : < 1
20
y para
(b) H : 1 contra K : < 1 .
Su funcion de potencia viene dada por

() = (z + n(1 )/0 )
Ejemplo 2. Supongamos que se mide el grado de impurezas de un producto

qumico. El metodo de medicion esta afectado por un error que se supone
N (0, 02 ), con 02 conocida igual a 0.01. Ademas los errores correspondientes
a diferentes mediciones son independientes entre s. Se sabe que el producto
es aceptable si el grado de impurezas es menor o igual que 0.7. Se hacen 64
observaciones, X1 , . . . , X64 , y se quiere decidir entre las hipotesis: < 0.7 o
0.7. Se quiere encontrar un test de modo que la probabilidad de aceptar
el producto, cuando este no satisfaga las condiciones, sea menor que 0.05.
Sabemos que cada Xi puede escribirse
X i = + i
donde es el grado de impureza y i el error de medicion para la observacion

iesima. Como los i se supusieron normales e independientes, las Xi seran
una muestra aleatoria de la distribucion N (, 02 ).
Lo primero que tenemos que determinar es cual hipotesis es H y cual K.
Tomamos H : 0.7, ya que rechazar esta hipotesis equivale a aceptar el
producto, y esto queremos hacerlo solamente si estamos muy seguros de su
bondad. Luego, se tiene el problema:
H : 0.7 contra K : < 0.7
y por lo tanto, el test mas potente de nivel 0.05 esta dado por (X) = 1 si
(X 0.7)
64 z0.05 .
0.1
En las tablas se encuentra que z0.05 = 1.65. As, el test rechaza H, es
decir, acepta el producto si
1.65 0.1
X + 0.7 = 0.68 .
8
Supongamos ahora que se quiere conocer la probabilidad de cometer error
de tipo 2, o sea, de aceptar H cuando es falsa (rechazar el producto cuando
6.4. FAMILIAS DE CVM 21
cumple la especificacion). Tenemos que calcular la funcion de potencia del

test. De acuerdo con lo que hemos visto, sera

( 0.7)
() = 1.65 8 = (54.35 80) .
0.1
Si queremos, por ejemplo, calcular (0.65), esto sera uno menos la pro-
babilidad de rechazar el producto cuando = 0.65, luego
(0.65) = (54.35 80 0.65) = (2.35) = 0.99 .
Esto quiere decir que la probabilidad de rechazar la droga, cuando = 0.65

es 0.01.
6.4 Tests uniformemente m

as potentes para hip
otesis
unilaterales
Hemos visto en el paragrafo anterior la forma de encontrar tests mas potentes
en el caso de hipotesis simples
H : = 0 contra K : = 1 .
Esta situacion es principalmente de interes teorico puesto que a

un las situa-
ciones mas simples que se presentan en la practica, cuando IR, implican
problemas de la forma
(a) H : = 0 contra K : > 0
(b) H : = 0 contra K : < 0
(c) H : 0 contra K : > 0
(d) H : 0 contra K : < 0
(e) H : = 0 contra K : 6= 0
Los problemas (a) a (d) se denominan unilaterales y al (e) bilateral.

Hemos visto que para el caso N (, 02 ) con 02 conocido se puede extender el
test de NeymanPearson a hipotesis compuestas de la forma
H : = 0 contra K : > 0
H : 0 contra K : > 0
H : = 0 contra K : < 0
22
H : 0 contra K : < 0
obteniendose tests uniformemente mas potentes para estos problemas.
La obtencion de tests uniformemente mas potentes para hipotesis unilate-
rales a partir de NeymanPearson es siempre posible para ciertas familias de
distribuciones que tienen una propiedad llamada de cociente de verosimilitud
mon otono.
Definicion 1. Una familia de distribuciones discretas o continuas con den-

sidad (o funcion de probabilidad puntual) p(x, ), IR se dice de
cociente de verosimilitud monotono (CVM) en el estadstico T = r(X) donde
r toma valores reales, si para todo par 1 < 2 se tiene
(i) Las distribuciones correspondientes a p(x, 1 ) y p(x, 2 ) son distintas
(ii) p(x, 2 )/p(x, 1 ) = g1 2 (r(x)), donde g1 2 (t) es una funcion no decre-

ciente en el conjunto
S = {t : t = r(x) con p(x, 1 ) > 0o p(x, 2 ) > 0}
Observaci on. A los efectos de la Definicion 1 si p(x, 1 ) = 0 y p(x, 2 ) > 0,

el cociente p(x, 2 )/p(x, 1 ) se considerara igual a .
Es sencillo mostrar que las familias exponenciales a un parametro con
c() estrictamente monotona son de CVM.
Teorema 1. Sea la familia exponencial a un parametro con funcion de

densidad o probabilidad p(x, ) = A()ec()r(x) h(x) con IR. Luego,
(i) Si c() es estrictamente creciente la familia dada es de CVM en r(X)
(ii) Si c() es estrictamente decreciente la familia dada es de CVM en

r(X)
Demostracio n. Solo demostraremos (i). La parte (ii) se demuestra iden-

ticamente. En este caso se tiene si 1 < 2
p(x, 2 ) A(2 ) (c(2 )c(1 ))r(x)
= e = g1 2 (r(x))
p(x, 1 ) A(1 )
donde
A(2 ) (c(2 )c(1 ))t
g1 2 (t) = e
A(1 )
es una funcion creciente.

Por otro lado, por ser c estrictamente monotona, 1 6= 2 implica
c(1 ) 6= c(2 ) y luego p(x, 1 ) y p(x, 2 ) corresponden a distribuciones difer-
entes. Luego, la familia dada es de cociente de verosimilitud monotono en
T = r(X).
Vamos a mostrar ahora que existen familias de CVM que no son expo-
nenciales. Para ello consideramos el siguiente ejemplo
Ejemplo 1. Consideremos una muestra aleatoria (X1 , . . . , Xn ) de una dis-

tribucion U [0, ] con IR+ .
Luego, la familia de distribuciones conjuntas de X = (X1 , . . . , Xn ) se
puede escribir
1
p(x, ) = I ( max xi ) I[0,] ( min xi ) . (6.13)
n [0,] 1in 1in
Mostraremos que esta familia es de CVM en r(X) = max1in Xi . Sea

2 > 1 , luego, el conjunto S = {t : r(x) con p(x, 1 ) > 0 o p(x, 2 ) > 0}
resulta igual al intervalo [0, 2 ]. Definiendo
1n I[0,2 ] (t)
g1 2 (t) = ,
2n I[0,1 ] (t)
se tiene que
p(x, 2 )
= g1 2 (r(x)).
p(x, 1 )
Po lo tanto, bastara mostrar que g1 2 (t) es monotona en S. Pero
(
(1 /2 )n si 0 t 1
g1 2 (t) =
si 1 t 2 .
Con lo cual, g1 2 (t) es monotona y la familia dada por (6.13) es de

CVM en r(X). Por otro lado, la familia dada por (6.13) no es exponencial
de acuerdo a lo visto en el ejercicio 2 del Captulo 3.
Ejemplo 2. Consideremos una variable aleatoria X con distribucion C(, 1),

IR, o sea, su densidad viene dada por
1
p(x, ) = .
[1 + (x )2 ]
24
Veremos que esta familia no es de cociente de verosimiltud monotono en

r(X) = X.
Sea 2 > 1 , luego, se tiene que

p(x, 2 ) 1 + (x 1 )2
= = g1 2 (x).
p(x, 1 ) [1 + (x 2 )2 ]
Sin embargo, la funcion g1 2 (x) no es monotona en x ya que

limx g1 2 (x) = limx+ g1 2 (x) = 1.
El siguiente teorema nos permite encontrar tests UMP para familia con
la propiedad de CVM.
Teorema 1. Sea X un vector aleatorio con funcion de probabilidad o

densidad perteneciente a la familia p(x, ) con IR, que tiene la
propiedad de ser de CVM en T = r(X). Luego
(i) Existen k y tales que si definimos

1 si T > k
(X) = si T = k (6.14)

0 si T < k
se satisface
E1 ((X)) = . (6.15)
(ii) Sea es un test de la forma (6.14) que satisface (6.15). Luego es

el test uniformemente mas potente UMP de nivel menor o igual que
para
H : = 1 contra K : > 1 .
(iii) () es monotona no decreciente para todo y estrictamente creciente

para todo tal que 0 < () < 1.
(iv) Sea un test de la forma (6.14) que satisface (6.15). Luego, es el

test uniformemente mas potente de nivel menor o igual que para
H : 1 contra K : > 1 .
Demostracio n: La demostracion de (i) es identica a la dada en el Teorema

de Neyman-Pearson.
Demostraremos (ii) suponiendo que si 2 > 1

p(x, 2 )
= g1 2 (r(x))
p(x, 1 )
con g1 2 (t) estrictamente creciente. (Esta hipotesis no es necesaria, basta
con que sea no decreciente.) En este caso, dado 2 > 1 el test dado por
(6.14) se puede escribir como

1 si g1 2 (r(X)) > g1 2 (k )
(X) = si g1 2 (r(X)) = g1 2 (k )

0 si g1 2 (r(X)) < g1 2 (k )
y si llamamos k 0 = g1 2 (k ) resulta

p(X, 2 )

1 si > k0

p(X, 1 )

p(X, 2 )
(X) =
si = k0

p(X, 1 )

p(X, 2 )

0 si < k0 .
p(X, 1 )
Como (X) satisface (6.15), usando el Teorema 1 de 6.3 resulta que (X)
es el test mas potente de nivel menor o igual que para H : = 1 contra
K : = 2 . Como no depende de 2 , este resultado vale para todo 2 > 1 ,
luego es el test UMP de nivel menor o igual que para H : = 1 contra
K : > 2 .
(iii) Solo demostraremos que () es monotona no decreciente.
Sean y cualesquiera, tales que < . Si llamamos =
E ((X)), resulta por (ii) que (X) es el test mas potente a nivel menor o
igual que para las hipotesis simples
H : = contra K : = .
Consideremos ahora el test
(X) = .
es un test de nivel , luego es menos potente que en , es decir,
E ( (X)) E ((X))
26
pero,
E ( (X)) = = E ((X)) = ( )
y ademas
E ((X)) = ( )
por lo tanto,
( ) ( ) ,
con lo que queda demostrado que () es monotona no decreciente.
Para demostrar (iv), primero mostraremos que (X) es un test de nivel
H : 1 contra K : > 1
o sea que
sup () .
1
Como () es monotona creciente se tiene:

sup () = (1 ) =
1
por (6.15).
Consideremos ahora otro test (X) de nivel menor o igual que para
H : 1 contra K : > 1 , luego (X) es de nivel menor o igual que
para H : = 1 contra K : > 1 , pero por (ii) (X) es el test uniformemente
mas potente para este problema, por lo tanto
() () > 1 .
Analogamente se demuestra el siguiente teorema
Teorema 2. Sea X un vector aleatorio con funcion de densidad pertene-

ciente a la familia p(x, ) con IR. Supongamos que esta familia es
CMV en r(X). Luego
(i) Existen k y tales que si definimos

1 si r(X) < k
(X) = si r(X) = k (6.16)

0 si r(X) > k
se satisface
E1 ((X)) = (6.17)
(ii) Sea (X) es un test de la forma (6.16) que satisface (6.17). Luego
es el test uniformemente mas potente a nivel menor o igual que para
H : = 1 contra K : < 1 .
(iii) () es monotona no creciente para todo y estrictamente decreciente
para todo tal que 0 < () < 1.
(iv) Sea un test de la forma (6.16) que satisface (6.17). Luego es el
test uniformemente mas potente de nivel menor o igual que para
H : 1 contra K : < 1 .
Para una version mas completa de este Teorema, ver Teorema 2 de 3.3
en Lehmann [2].
Ejemplo 3. Consideremos una muestra aleatoria X1 , . . . , Xn de una dis-

tribucion perteneciente a la familia N (, 02 ) con 02 conocido. Luego, es
facil demostrar que la familia de distribuciones de la muestra es exponencial
P
con r(X) = ni=1 Xi y c() = /02 . Como c() es creciente de acuerdo
al Teorema 1, esta familia es de CMV en r(X). Entonces para testear H :
1 contra K : > 1 , el test UMP de nivel menor o igual que , es de
la forma n
X

1 si Xi k

i=1
(X) =

n

X

0 si Xi < k
i=1
con E1 ((X) = .
En la Seccion 6.3 ya habamos demostrado este resultado y hallado el
valor de k .

perteneciente a la familia Bi(, 1).
En este caso la familia de distribuciones de X1 , . . . , Xn es exponencial
P
con T = r(X) = ni=1 Xi y c() = ln (/(1 )); como c() es creciente,
esta familia es de CMV en r(X).
Luego, el test UMP de nivel menor o igual que para H : 1 contra
K : > 1 sera de la forma

1 si T > k
(X) = si T = k

0 si T < k
28
k y deberan ser elegidos de modo que
E1 ((X)) = P1 (T > k ) + P1 (T = k ) = . (6.18)
Como T tiene distribucion Bi(, n) que es discreta, puede suceder que

exista o no k tal que
P1 (T > k) = (6.19)
Si existe k satisfaciendo (6.19), tomaremos ese valor como k y = 0.
Si no existe k que verifique (6.19), siempre existira k tal que
P1 (T > k) < < P1 (T k) . (6.20)
Este valor k sera el k que eligiremos y reemplazandolo en (6.18) obten-

dremos
P1 (T > k ) P1 (T > k )
= = .
P1 (T = k ) P1 (T k ) P1 (T > k )
Por (6.20) resulta que 0 < < 1.

Para encontrar el k que verifica (6.19) o (6.20) deberan usarse tablas bino-
miales.
Recordemos finalmente que
X n i
P1 (T k ) = ( ) (1 1 )ni .
i 1
k in
Supongamos que se tiene una muestra aleatoria X1 , X2 , X3 de una dis-

tribucion Bi(, 1) y se quiere testear H : 1/3 contra K : > 1/3 con
nivel de significacion menor o igual que 0.1.
P
Cuando = 1/3, la distribucion de T = 3i=1 Xi esta dada por
t 0 1 2 3
8 12 6 1
pT (t) 27 27 27 27
y por lo tanto, tenemos

k 1 0 1 2 3
19 7 1
P 1 (T > k) 1 27 27 27 0
3
Por lo tanto, no existe k que verifique (6.19) y el valor k = 2 verifica

(6.20), pues
1 7
P 1 (T > 2) = < 0.1 < P 1 (T 2) = P 1 (T > 1) =
3 27 3 3 27
y sera entonces
1
0.1 27
= 6 = 0.27 .
27
Como ejercicio se sugiere graficar la funcion de potencia de este test, y

siendo el test aleatorizado, sugerir un mecanismo para decidir en caso en que
T = 2.

perteneciente a la familia U [0, ].
El test uniformemente mas potente para H : 1 contra K : > 1 ,
sera de la forma

1 si max Xi k
1in
(X) =

0 si max Xi < k
1in
donde k verifica
E1 ((X)) = . (6.21)
Teniendo en cuenta que la funcion de distribucion de T = max1in Xi

es

0 si t < 0
FT (t) = (t/)n con 0 t

1 si t > 1
y que debe cumplirse (6.21), se tiene 0 k 1 y

P1 max Xi k = 1 (k /1 )n = ,
1in
de donde resulta

n
k = 1 1 .
30
6.5 Tests insesgados

En la mayora de los casos en que la hipotesis alternativa es una hipotesis
compuesta, no existe un test uniformemente mas potente.
Ejemplo 1. Supongamos que se tiene una muestra aleatoria X1 , . . . , Xn

de una distribucion N (, 02 ) con 0 conocido y se desea testear H : = 0
contra K : 6= 0 . Es facil demostrar que no existe un test uniformemente
mas potente a nivel menor o igual que .
Supongamos que tal test existiera y llamemoslo ; entonces sera el test
mas potente a nivel menor o igual que para
H1 : = 0 contra K1 : = 1 (1 > 0 )
y para
H2 : = 0 contra K2 : = 2 (2 < 0 ) .
Pero, por el Teorema 3 de la Seccion 6.3 el test mas potente para H1
contra K1 esta dado por

(X 0 )

1 si n z

0
1 (X) =

(X 0 )

0 si n < z
0
y el test mas potente para H2 contra K2 esta dado por

(X 0 )

1 si n z

0
2 (X) =

(X 0 )

0 si n > z
0
Entonces, por la unicidad dada en el Teorema de Neyman-Pearson,
debera coincidir con 1 y con 2 lo cual es imposible.
Recordemos que en el caso de estimadores puntuales tampoco existe en
general uno de menor error cuadratico medio. Una manera de poder definir
un estimador optimo que se propuso en el Captulo 3 fue restringiendo los
estimadores a la clase de los insesgados. En el caso de test se procede
en forma similar, restringiremos la clase de tests considerados a los que
6.5. TESTS INSESGADOS 31
llamaremos insesgados y luego se buscara el test uniformemente mas potente

en esta clase.
Definici
on 1. Sea una familia de distribuciones F (x, ) con . Se dira
que un test para testear H : 1 contra K : 2 es insesgado si
sup () inf ()
1 2
El sentido de esta desigualdad es que la probabilidad de rechazar H

cuando 2 , es decir cuando H es falsa, no pude ser menor que cuando
1 , es decir cuando H es verdadera.
Por lo tanto, un test insesgado de nivel tiene funcion de potencia menor
o igual que para 1 y mayor o igual que para 2 .
Observemos que un test UMP de nivel es insesgado.
Observaci on. Si la funcion de potencia () del test es una funcion
continua de y es un test insesgado de nivel , entonces () debe valer
en la frontera F entre 1 y 2 .
En particular, si IR, 1 = {1 } y 2 = {1 }, o sea, si estamos
testeando H : = 1 contra K : 6= 1 , y es un test insesgado de nivel
se tiene
(1 ) =
() 6= 1 .
Por lo tanto, si la funcion de potencia () es derivable respecto de ,

debe cumplir

0 (1 ) = ()|=1 = 0 . (6.22)

En el caso particular de las familias exponenciales, la funcion de potencia
de cualquier test es derivable y por lo tanto, los tests insesgados cumplen
(6.22).
Definici
on 2. Se dira que un test para testear H : 1 contra
K : 2 es uniformemente m
as potente de nivel entre los insesgados,
IUMP, si
(a) tiene nivel , o sea,

sup () =
1
32
(b) es insesgado, es decir,
() 2
(c) Dado otro test insesgado y de nivel se verifica
() () 2 .
En la proxima Seccion daremos un procedimiento general para encontrar

tests para un problema determinado. En muchos casos este procedimiento
da como resultado el test insesgado uniformente mas potente.
La teora de los tests insesgados uniformemente mas potentes escapa a
las posibilidades de este curso y puede verse en Lehmann [3] o en Ferguson
[2].
6.6 Test del cociente de m

axima verosimilitud
Supongamos que se observa un vector X, cuya distribucion tiene funcion de
densidad p(x, ), y se quiere testear H : 1 contra K : 2
(1 2 = ).
Un procedimiento intuitivamente razonable y que da buenos resultados
en una gran variedad de situaciones es el siguiente.
Tomemos estimadores de maxima verosimilitud de , suponiendo 1 ,
b 1 y an
llamemoslo alogamente suponiendo 2 , b 2 ; luego
b ) = max p(X, )
p(X, 1
1
y
b 2 ) = max p(X, ) .
p(X,
2
b1 y
Si b 2 no dependieran de la muestra, podramos considerar el test
mas potente para testear H* : = b 1 contra K* : =
b 2 , el cual es de la
forma

1 si L < k
(X) = si L = k

0 si L > k
donde
1 b1)
p(X,
L= =
L21 b2)
p(X,

6.6. TEST DEL COCIENTE DE MAXIMA VEROSIMILITUD 33
y k se elige de manera que el test resulte de nivel .

En algunos casos b y b pueden no existir, pero siempre tiene sentido
1 2
hablar de L definido por
sup 1 p(X, )
L=
sup 2 p(X, )
Intuitivamente, este test puede interpretarse como rechazando H : 1

cuando el valor mas probable de 2 tiene probabilidad considerablemente
mas grande que el valor mas probable de 1 .
En muchos casos, como por ejemplo cuando la dimension de 1 es menor
que la dimension de = 1 2 , y p(x, ) es continua, resulta que
sup p(X, ) = sup p(X, ) (6.23)

2
En este caso, el test del cociente de maxima verosimilitud resulta equi-
valente a

1 si L < k
(X) = si L = k

0 si L > k
donde
sup 1 p(X, )
L = .
sup p(X, )
En general, es mas facil aplicar la forma del test basada en L cuando es
posible, es decir, cuando (6.23) se cumple.
Ejemplo 1. Se tiene una muestra aleatoria X1 , . . . , Xn de una distribucion

N (, 02 ) con 0 conocido y se quiere testear H : = 0 contra K : 6= 0
Como en este caso 1 = {0 } tiene dimension cero (se reduce a un
punto) y = { : < < +} tiene dimension uno, podemos usar el
test basado en L .
Es claro que
1
n n (Xi 0 )2
2 2 i=1
sup p(X, ) = (202 ) 2 e 0
1
y que
1
n n (Xi X)2
2 2 i=1
sup p(X, ) = (202 ) 2 e 0 .

34
Luego,
1

2 2
(ni=1 (Xi 0 )2 ni=1 (Xi X)2 )
L = e 0
y como
n
X n
X
(Xi 0 )2 (Xi X)2 = n(X 0 )2
i=1 i=1
resulta n
(X0 )2
2 2
L = e . 0

Sea T = n|X 0 |/0 . Luego, L = g(T ) con g decreciente. Luego (X)
es equivalente a

|X 0 |

1 si n k0
0
(X) =

|X0 |
0 si n 0 < k 0 .
Observese que este test resulta muy razonable intuitivamente, ya que se

rechaza la hipotesis de que = 0 si X difiere sensiblemente de 0 .
k 0 debe elegirse de modo tal que resulte de nivel , es decir que
|X 0 |
P 0 ( n k ) = .
0

Pero como, cuando = 0 se tiene que n(X 0 )/0 tiene distribucion
N (0, 1), resulta que k 0 = z/2 .

N (, 2 ) con varianza 2 desconocida y se desea testear H : = 0 contra
K : 6= 0 . En este caso,
1 = {(0 , 2 ) : 0 < 2 < }
resulta de dimension uno, y
= {(1 , 2 ) : < < , 0 < 2 < }
es de dimension dos.
Por lo tanto utilizaremos el test basado en L . El estimador de maxima
P
verosimilitud de (, 2 ) restringido a 1 es (0 , ni=1 (Xi 0 )2 /n) y el esti-
mador de maxima verosimilitud de (, 2 ) sin restricciones es
P
(X, ni=1 (Xi X)2 /n).

Luego, se tiene
1
sup p(X, , 2 ) = Pn n
(, 2 ) 1 n n (Xi 0 )2 2
e (2)
2 2 i=1
n
y
1
sup p(X, , 2 ) = Pn n .
(, 2 ) n n (Xi X)2 2
e (2)
2 2 i=1
n
Por lo tanto, L esta dado por

"P #n
n
(Xi X)2 2
L = Pni=1 2
.
i=1 (Xi 0 )
Como n n
X X
(Xi 0 )2 = (Xi X)2 + n(X 0 )2
i=1 i=1
se tiene que
" # n
n(X 0 )2 2
L = 1 + Pn 2
.
i=1 (Xi X)
Sea ahora
(X 0 )
T = n
s
Pn
donde s2 = i=1 (Xi X)2 /(n 1). Luego,
" #n
2
1
L = T2
1+ n1
Como la funcion 1/(1 + t2 /(n 1)) es monotona decreciente de |t|, el test

del cociente de maxima verosimilitud resulta equivalente a
(
1 si |T | k
(X) =
0 si |T | < k
y k debera ser elegido de manera que el test resulte con nivel de significacion
, es decir, de manera que
P0 (|T | k ) = .
36
Como T tiene distribucion student con n 1 grados de libertad, resulta
k = tn1, 2 .
Observese que este test es completamente analogo al del Ejemplo 1, con

la diferencia que se reemplaza por s y z/2 por tn1, 2 .

N (, 2 ) con media y varianza desconocidas. Supongamos que se quiere
testear H : 0 contra K : > 0 . En este caso,
1 = {(, 2 ) : 0 , 2 > 0}
y
2 = {(, 2 ) : > 0 , 2 > 0} .
Luego, la dimension de 1 es igual a la de 2 , y el test del cociente de
maxima verosimilitud debera hacerse con L y no con L . Como
1
Pn
n (Xi )2
p(X, , 2 ) = (2 2 ) 2 e 22 i=1 (6.24)
resulta
n
n n 1 X
ln p(X, , 2 ) = ln(2) ln 2 2 (Xi )2 . (6.25)
2 2 2 i=1
Teniendo en cuenta que

n
X n
X
2
(Xi ) = (Xi X)2 + n(X )2
i=1 i=1
se obtiene que el estimador de maxima verosimilitud de en 1 , es igual a

(
X si X 0
b1 =
(6.26)
0 si X > 0
y que el estimador de maxima verosimilitud de en 2 , es igual a

(
X si X > 0
b2 =
(6.27)
0 si X 0 .
El estimador de maxima verosimilitud de 2 , para 1 es

n
1X
b12 =
b 1 )2
(Xi
n i=1

y para 2 es
n
1X
b22 =
b 2 )2 .
(Xi
n i=1
Luego, reemplazando en (6.24) se obtiene
n
X n
max p(X, , 2 ) = [2 e bj )2 /n] 2
(Xi
(, 2 ) j
i=1
para j = 1, 2, de donde
"P #n "P #n
n n
(Xi b 2 )2
2 2
i=1 (Xi X) + n(X b 2 )2 2
L= Pi=1
n = Pn
i=1 (Xi b 1 )2
2 b 1 )2
i=1 (Xi X) + (X
y usando (6.26) y (6.27) se deduce
"P #n

n
(X X) 2 + n(X )2 2

i=1 i 0
si X 0

Pn

i=1 (Xi X)
2
L=

" Pn #n

2 2

i=1 (Xi X)

Pn si X > 0 .
2 2
i=1 (Xi X) + n(X 0 )
Si llamamos

n(X 0 )
T = r Pn
2
(Xi X)
i=1
n1
se tiene

T 2 n2
(1 + n1 ) si X 0
L=

T 2 n2
(1 + n1 ) si X > 0 .
38
Luego, el test del cociente de maxima verosimilitud es de la forma

T2

1+ k y X 0 (A)

n1

1 si

1

k y X > 0 (B)

1+ T2
n1
(X) =

T2

1+ > k y X 0 (C)

n1

0 si

1

T2
> k y X > 0 (D) .
1+ n1
Tomemos ahora k < 1 (con k 1 se llega al mismo resultado), en este caso

la primera desigualdad de (A) no puede ocurrir y la primera desigualdad de
(C) ocurre siempre, luego (X) se transforma en

1

1 si k y X > 0

1+ T2

n1

(X) =
X 0

0 si

1

> k y X > 0 .
T2
1+ n1
Esto es equivalente a

1 si |T | k 0 y T >0

(X) =
|T | < k 0 y T >0

0 si

T <0 ,
de donde, se deduce que
(
1 si T k 0
(X) =
0 si T < k 0 .
Debemos ver ahora que se puede elegir k 0 de modo que el test resulte
de nivel igual . Esto significa que
sup P,2 (T k 0 ) = .
{0 , 2 >0}

Se puede pensar que el caso mas desfavorable, en el cual hay mayor

probabilidad de rechazar H, es en el caso lmite = 0 ; por lo tanto parece
razonable elegir k 0 de manera que
P0 ,2 (T k 0 ) = .
Pero cuando = 0 , T tiene distribucion de Student con n 1 grados

de libertad, y por lo tanto debemos tomar
k 0 = tn1, .
El test resulta entonces

(
1 si T tn1,
(X) =
0 si T < tn1, .
Debemos probar ahora que este test tiene realmente nivel , es decir que,
P,2 (T tn1, ) 0 .
Para ello necesitaremos la siguiente definicion.
Definicion 1. Llamaremos distribucion de Student no central con n gra-

dos de libertad y parametro de no centralidad , < < , que
simbolizaremos por Tn () a la distribucion de
U +
p
V /n
donde U tiene distribucion N (0, 1) donde V tiene distribucion 2n siendo U

y V independientes.
Teorema 1. Sea X una variable aleatoria con distribucion de Student no

central Tn (), definamos cn,k () por
cn,k () = P (X k),
luego, cn,k () es una funcion monotona creciente de .

n. Como X tiene distribucion Tn (); se puede escribir
Demostracio
U +
X = p
V /n
40
donde U es una variable aleatoria N (0, 1) y V tiene distribucion 2n , inde-

pendientes. Luego,
cn,k () = P (X k) = E [P (X k|V )] ,
pero
! r
U + v
P (X k|V = v) = P p k |V = v = 1 (k ) .
v/n n
Luego esta u
ltima probabilidad, para k, n y v fijos, es una funcion cre-
ciente de . Por lo tanto, si 1 < 2 se tiene
P (X1 k|V = v) < P (X2 k|V = v)
con lo cual, tomando esperanza se obtiene
E (P (X1 k)|V ) < E (P (X2 k)|V )
o sea
P (X1 k) < P (X2 k),
y por lo tanto cn,k () es creciente en .
Volvamos ahora al Ejemplo 3. Vamos a mostrar que el test dado por

(
1 si T tn1,
(X) =
0 si T < tn1,
tiene nivel de significacion . Como

n(X 0 ) n (X

0)
T =q Pn =r Pn
1
n1 i=1 (Xi X)2 1 i=1
(Xi X)2
n1 2
resulta

n (X)
+ n (

0)
T = r Pn .
1 i=1
(Xi X)2
n1 2
P
Llamando U = n(X )/ y V = ni=1 (Xi X)2 / 2 se tiene que
U y V son independientes, y cuando los valores de los parametros son y

2 , U tiene distribucion N (0, 1) y V tiene distribucion 2n1 . Luego T tiene

distribucion Tn1 () donde = n( 0 )/. Ademas,
(, 2 ) = P,2 (T tn1, ) = cn1,tn1, () .
Resulta, por el Teorema 1, que (, 2 ) es una funcion creciente de

para cada 2 fijo. Como, por otra parte, (0 , 2 ) = , para todo 2 , se
tiene
(, 2 ) < < 0
y el test tiene nivel de significacion . Tambien, a partir de la expresion
de (, 2 ) se obtiene que el test es insesgado.
Analogamente, en el caso de testear H : 0 contra K : < 0 , el
test del cociente de maxima verosimilitud vendra dado por
(
1 si T tn1,
(X) =
0 si T > tn1, .
Para calcular la potencia de estos tests se pueden utilizar las tablas cons-
trudas por Owen [4].
Ejemplo 4. Supongamos nuevamente que tenemos una muestra aleatoria

X1 , . . . , Xn de una distribucion N (, 2 ) con y 2 desconocidos. Se desea
testear H : 2 02 contra K : 2 > 02 .
Se deduce haciendo un razonamiento analogo al ejemplo anterior que el
test del cociente de maxima verosimilitud es de la forma
n

X

1
si (Xi X)2 k
(X) = i=1
n
X

0
si (Xi X)2 < k .
i=1
La constante k se debe elegir de manera que

n
!
X
2
sup P2 (Xi X) k =.
2 02 i=1
Determinemos k por el valor de 2 mas desfavorable, o sea, 02 . Luego,

debemos elegir k tal que
n
!
X
P 2 (Xi X)2 k =
0
i=1
42
o equivalentemente
Pn !
i=1 (Xi X)2 k
P 2 2 =.
0 02 0
Pn
Como i=1 (Xi X)2 /02 tiene distribucion 2n1 cuando 2 = 02 , se
tiene que
k = 02 2n1, .
Para mostrar que el test tiene realmente nivel de significacion , bastara

mostrar que la funcion de potencia es una funcion creciente y esto se deduce
como sigue. Sea Dn (k) = P (Y k), donde Y es una variable aleatoria con
distribucion 2n . Luego
n
!
X
( 2 ) = P2 (Xi X)2 02 2n1,
i=1
Pn !
i=1 (Xi X)2 02 2n1,
= P 2
2 2
!
02 2n1,
= Dn1 ,
2
P
ya que cuando la varianza de cada Xi es 2 resulta que ni=1 (Xi X)2 / 2
tiene distribucion 2n1 .
Como Dn (k) es una funcion decreciente de k, ( 2 ) es una funcion
creciente de 2 .

N (, 2 ) con y 2 desconocidos y supongamos que se quiere testear
H : 2 = 02 contra K : 2 6= 02 .
En este caso, el test del cociente de maxima verosimilitud es de la forma
Pn

i=1 (Xi X)2

1 si k0

02

Pn
(X) = i=1 (Xi X)2

1 si < k 00

02

0 en cualquier otro caso,

Para que tenga nivel de significacion , se debe cumplir que

Pn !
2
i=1 (Xi X)
(02 ) = P 2 k0
0 02
Pn !
2
i=1 (Xi X) 00
+P2 <k =.
0 02
Luego, se debe tener que
k 0 = 2n1, y k 00 = 2n1,1 (6.28)
con + = .
Si queremos que el test resulte insesgado, la derivada de la funcion de
potencia debe ser cero en 0 . Pero,
Pn !
2 i=1 (Xi X)2 k 0 02
( ) = P2
2 2
Pn !
i=1 (Xi X)2 k 00 02
+P2 < ,
2 2
con lo cual si llamamos Y a una variable con distribucion 2n1 obtenemos

! !
2 k 0 02 k 00 02
( ) = P2 Y + P 2 Y <
2 2
! !
k 0 02 k 00 02
= 1 P 2 Y < + P 2 Y < .
2 2
Por lo tanto, si fY (y) indica a la densidad de Y , la condicion 0 (02 ) = 0 es

equivalente a
fY (k 0 ) k 0 = fY (k 00 ) k 00
de donde se obtiene que k 0 y k 00 deberan ser elegidos de forma que
0 n1 00 n1
ek /2 (k 0 ) 2 = ek /2 (k 00 ) 2 (6.29)
En la practica se eligen = /2 y = /2, aunque no satisfaga (6.29).

Se puede mostrar que para n los y que satisfacen (6.28) y hacen
que se satisfaga (6.29) se aproximan a los valores elegidos. En realidad, la
44
aproximacion es buena con tal que n no sea muy peque

no. Luego, el test
que se usa viene dado por
n
X

(Xi X)2 02 2n1,

2

i=1

1 si

Xn
(X) =

(Xi X)2 02 2n1,1

2

i=1

n
X

2 2

0 si 0 n1,1 2 (Xi X)2 02 2n1,
2
i=1
Se puede mostrar que los tests obtenidos en los Ejemplos 1 a 5 son IUMP.
Para estos resultados pueden consultarse el Captulo 5 de Lehmann [3] o el
Captulo 5 de Ferguson [2].
6.7 Test con nivel de significaci

on asint
otico
La mayora de los test de hipotesis, por ejemplo, los del cociente de verosimil-
itud, son de la forma

1 si T > k
(X) = si T = k

0 si T < k
donde T es un estadstico basado en la muestra. Para encontrar k se re-

quiere conocer la distribucion de T para 1 . Como en muchos casos esta
distribucion es muy compleja se puede reemplazar esta distribucion por una
asintotica. En este caso el test tendra un nivel de significacion aproximado
al deseado para muestras grandes. Esto motiva la siguiente definicion.
Definici on 1. Sea X1 , . . . , Xn una muestra aleatoria de una distribucion

perteneciente a la familia F (x, ), y supongamos que se quiere testear
la hipotesis H : 1 contra K : 2 . Se dira que una sucesion de test
n (X1 , . . . , Xn ) tiene nivel de significacion asintotico si
lim sup n () =
n
1
Es decir, que el nivel del test n (X1 , . . . , Xn ) se acerca a cuando el tama
no
de la muestra tiende a infinito.
6.7. TEST CON NIVEL DE SIGNIFICACION
ASINTOTICO 45
Ejemplo 1. Supongamos que X1 , . . . , Xn es una muestra aleatoria de una

distribucion desconocida con media y varianza 2 .
Supongamos que se quiere testear H : 0 contra K : > 0 .
Llamemos
Pn Pn
i=1 Xi 2 X)2
i=1 (Xi
X= y s = .
n n1
Ya hemos demostrado que
(X 0 )
n
s
converge en distribucion a la N (0, 1) cuando la esperanza de las variables Xi
es 0 . Luego, si definimos

(X 0 )

1 si n z
s
n (X1 , . . . , Xn ) =

(X 0 )
0 si n < z
s
este test tiene nivel de significacion asintotico .
Del mismo modo, si se quiere testear H : = 0 contra K : 6= 0 , un
test de nivel de significacion asintotico sera

|X 0 |

1 si n z
s
n (X1 , . . . , Xn ) =

|X 0 |
0 si n < z
s
6.7.1 Distribuci
on asint
otica del test del cociente de m
axima
verosimilitud
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribucion de densidad
o probabilidad dada por p(x, ) con = (1 , . . . , p ) , donde es un
conjunto de IRp que contiene una esfera.
Supongamos que 1 es un conjunto de dimension menor que p, digamos
de dimension p j, donde 1 j p. 1 puede venir expresado de varias
formas diferentes. Por ejemplo, puede venir dado por j relaciones funcionales
entre los parametros 1 , . . . , p , es decir,
1 = { : g1 () = 0; g2 () = 0, . . . , gj () = 0}
46
o bien, en forma parametrica
1 = { = (1 , ...p ) : 1 = h1 (), . . . , p = hp (), },
donde = (1 , . . . , pj ) y IRpj de dimension p j.

Supongamos que se esta interesado en el siguiente problema de test de
hipotesis:
H : 1 contra K : 2
con = 1 2 . Luego, el test del cociente de maxima verosimilitud es de
la forma (
1 si L (X) k
(X) =
0 si L (X) > k
donde
sup 1 p(X, )
L (X) = .
sup p(X, )
Para determinar k es necesario conocer la distribucion de L (X) bajo H.
Muchas veces esta es muy complicada y puede depender del valor particular
1 que se considere. Sin embargo, se puede mostrar que, bajo condi-
ciones de regularidad muy generales en p(x, ), la distribucion asintotica de
Z = 2 ln L cuando 1 es 2j . Luego un test de nivel de significacion
asintotico esta dado por

1 si Z 2j,
(X) =

0 si Z < 2j,
Para ver la teora asintotica del test del cociente de verosimilitud se puede
ver Wald [5] y Chernoff [1]. Nosotros solo daremos la distribucion en el caso
particular IR y H : = 0 contra K : 6= 0 .
Teorema 1. Sea X1 , . . . , Xn una muestra aleatoria de una distribucion

discreta o continua con densidad perteneciente a la familia p(x, ) con
y un abierto en IR. Indiquemos por p(x, ) la densidad conjunta del vector
X = (X1 , . . . , Xn ).
Supongamos que se cumplen las siguientes condiciones (en lo que sigue
suponemos que X R
es continuo, para el caso discreto habra que reemplazar
P
todos los signos por ):
(A) El conjunto S = {x : p(x, ) > 0} es independiente de .

ASINTOTICO 47
(B) Para todo x, p(x, ) tiene derivada tercera respecto de continua y tal
que
3 ln p(x, ) 2 (x, )

= K
3 2
para todo x S y para todo , donde
ln p(x, )
(x, ) = .

(C) Si h(X) es un estadstico tal que E [|h(X)|] < para todo

entonces se tiene
Z Z Z Z
p(x, )
... h(x)p(x, )dx = ... h(x) dx

donde dx = (dx1 , . . . , dxn ).
(D) " 2 #
ln p(X1 , )
0 < I1 () = E <.

Sea bn un estimador de maxima verosimilitud de consistente, entonces

si
p(X, 0 ) p(X, 0 )
L (X) = = .
sup p(X, ) p(X, bn )
se tiene que Z = 2 ln (L (X)) tiene distribucion asintotica 21 con lo cual
el test

1 si Z 21,
(X) =

0 si Z < 21,
tiene nivel de significacion asintotico .
n. Sea
Demostracio
n
X
`() = ln p(X, ) = ln (p(Xi , )) .
i=1
Indiquemos ademas por `0 , `00 y `000 las derivadas hasta el orden tres respecto
de de la funcion ` y por
(x, ) 2 (x, )
0 (x, ) = y 00 (x, ) = .
2
48
Luego, bn verifica
n
X
`0 (bn ) = (Xi , bn ) = 0 .
i=1
Con lo cual, desarrollando en serie de Taylor alrededor de bn se obtiene:

1
`(0 ) `(bn ) = `0 (bn )(0 bn ) + `00 (n1 )(0 bn )2
2 !
Xn
1
= (0 bn )2 0 (Xi , n1 )
2 i=1
1 1X n
= n(0 bn )2 0 (Xi , 0 ) + Rn ,
2 n i=1
donde n1 es un punto intermedio entre bn y 0 y

!
1 1X n
1X n
Rn = n(0 bn )2 0 (Xi , n1 ) 0 (Xi , 0 ) .
2 n i=1 n i=1
Aplicando el Teorema del valor medio se obtiene

!
1 1X n
Rn = n(0 bn )2 00 (Xi , n2 )(n1 0 ) (6.30)
2 n i=1
donde n2 es un punto intermedio entre n1 y 0 . Observemos que por ser bn

consistente, se obtiene entonces que nj 0 en probabilidad para j = 1, 2.
Reemplazando, obtenemos que

Z = 2 `(bn ) `(0 ) = n(bn 0 )2 An Rn (6.31)
P
donde An = n1 ni=1 0 (Xi , 0 ).
Hemos visto en el Teorema 1 de 3.17 que cuando = 0
1
n(bn 0 ) N(0, ) en distribucion,
I1 (0 )
con lo cual
I1 (0 ) n (bn 0 )2 21 en distribucion. (6.32)
Por otra parte, la ley de los grandes n
umeros implica que
n
1X
0 (Xi , 0 ) E( 0 (X1 , 0 )) en probabilidad. (6.33)
n i=1
ASINTOTICO 49
Pero,
E0 ( 0 (X1 , 0 )) = I1 (0 ) ,
luego, usando (6.32) y (6.33) se obtiene que

n (bn 0 )2 An 21 en distribucion. (6.34)
Por lo tanto, a partir de (6.31) y (6.34) deducimos que bastara probar que
Rn 0 en probabilidad. (6.35)
Como | 00 (Xi , )| K para todo , se tiene que

1 X n K

(Xi , n )(n 0 ) |(n1 0 )|
00 2 1
2n 2
i=1
y luego como n1 0 en probabilidad se deduce que:

n
1X
00 (Xi , n2 )(n1 0 ) 0 en probabilidad. (6.36)
n i=1
Pero, (6.32) implica que n(bn 0 )2 esta acotado en probabilidad, luego

(6.35)se obtiene de (6.30) y (6.36).
Ejemplo 1. Sea X1 , . . . , Xn una muestra de una distribucion perteneciente

a la familia Bi(, 1), 0 < < 1, y supongamos que se quiere testear
H : = 0 contra K : 6= 0 . Luego el test del cociente de maxima verosimil-
itud es
p(x, 0 ) T (1 0 )nT
L = = 0T ,
sup p(x, ) X (1 X)nT
Pn
donde T = i=1 Xi . Luego,
X (1 X)
Z = 2 ln L = 2T ln + 2(n T ) ln
0 1 0
tiene una distribucion asintotica 21 bajo H y un test de nivel asintotico

estara dado por

1 si Z > 21,
(X) =

0 si Z < 21, .
50
6.8 Relaci
on entre regiones de confianza y test
En esta seccion se estudiara la relacion que existe entre tests y regiones de
confianza.
Supongamos que se tiene un vector aleatorio X con distribucion perte-
neciente a la familia F (x, ) con y supongamos que para cada 0
se tiene un test no aleatorizado de nivel , 0 , para H : = 0 contra
K : 6= 0 .
Se puede construir una region de confianza de nivel (1 ) para
definiendo
S(X) = { : (X) = 0}
Es decir, S(X) es el conjunto de todos los tales que la hipotesis de
que el valor verdadero es , es aceptada cuando se observa X.
Demostraremos que S(X) as definida, es una region de confianza de nivel
1 para
P ( S(X)) = P ( (X) = 0) = 1 P ( (X) = 1) = 1 .
Recprocamente, si se tiene una region de confianza S(X) de nivel 1

para , se puede construir un test de nivel , 0 , para H : = 0 contra
K : 6= 0 .
Definamos (
1 si 0
/ S(X)
0 (X) =
0 si 0 S(X) .
Mostraremos que este test tiene realmente nivel de significacion . Efec-
tivamente,
P 0 ( 0 (X) = 1) = P 0 ( 0
/ S(X)) = 1P 0 ( 0 S(X)) = 1(1) = .

N (, 2 ).
En el captulo anterior hemos demostrado que un intervalo de confianza
a nivel (1 ) para viene dado por
s s
S(X) = [X tn1, 2 , X + tn1, 2 ]
n n
Construyamos el test correspondiente de nivel para
H : = 0 contra K: 6= 0
ENTRE REGIONES DE CONFIANZA Y TEST
6.8. RELACION 51
(
1 0 si
/ S(X)
0 (X) =
0 si
0 S(X)

pero 0 S(X) si y solo si |0 X| tn1, 2 (s/ n), luego

|X 0 |

1 si n > tn1, 2
s
0 (X) =

|X 0 |
0 si n tn1, 2 .
s
Por lo tanto, este test coincide con el obtenido en el Ejemplo 2 de 6.6,
cuando obtuvimos el test del CMV para este problema. Recprocamente, a
partir de esta familia de tests si se usara el procedimiento indicado anterior-
mente para obtener intervalos de confianza, se llegara al intervalo inicial.
Ejemplo 2. Sea X1 , . . . , Xn1 una muestra aleatoria de una distribucion

N (1 , 2 ) y sea Y1 , . . . , Yn2 una muestra aleatoria de una distribucion N (2 , 2 )
independiente de la primera. Se ha visto en el Captulo 5 que
r
n1 n2 (X Y (1 + 2 ))
T =
n1 + n 2 s
donde !
n1
X n2
X
2 1 2 2
s = (Xi X) + (Yi Y )
n2 + n 1 2 i=1 i=1
tiene distribucion de Student con n1 + n2 2 grados de libertad y que un
intervalo de confianza para 1 2 esta dado por
" s s #
n1 + n 2 n1 + n 2
S(X) = X Y tn1 +n2 2, 2 s , X Y + t(n1 +n2 2), 2 s
n1 n2 n1 n2
Luego, si se quiere testear H : 1 2 = 0 contra K : 1 2 6= 0 , con

nivel de significacion , se puede obtener un test haciendo
(
1 si 0
/ S(X)
0 (X) =
0 si 0 S(X)
pero 0 S(X) si y solo si

r
n1 n2 |X Y 0 |
tn1 +n2 2, 2 .
n1 + n 2 s
52
Por lo tanto,
r

n1 n2 |X Y 0 |

1 si tn1 +n2 2, 2

n1 + n 2 s
0 (X) =

r

n1 n2 |X Y 0 |

0 si < t(n1 +n2 2), 2 .
n1 + n 2 s
Hasta aqu hemos estudiado la relacion entre regiones de confianza de

nivel 1 para y test de hipotesis para las hipotesis H : = 0 contra
K : 6= 0 . Esta situacion se puede generalizar al caso de
H : = 0 contra K : K( 0 )
donde K( 0 ) indica una alternativa cualquiera que no contiene a 0 si para

cada 0 se tiene un test de nivel , 0 , resultara que
S(X) = { : (X) = 0}
sera una region con nivel de confianza 1 . De la misma forma que antes
S(X) sera el conjunto de todos los tales que la hipotesis de que es
el verdadero valor es aceptada cuando se observa X.
6.9 Cotas de confianza

optimas
Se vera ahora como la existencia de tests uniformemente mas potentes para
hipotesis unilaterales permite la construccion de intervalos de confianza uni-
laterales optimas en el sentido definido en la seccion 5.9.
Hemos demostrado en 6.4 que para familias de cociente de verosimilitud
mon otono existen tests UMP para las hipotesis:
H1 : = 0 contra K1 : > 0
H2 : = 0 contra K2 : < 0
En estos casos vale el siguiente teorema
Teorema 1. Sea 0 el test no aleatorizado (si existe) UMP para H1 contra

K1 , de nivel . Dada X1 , . . . , Xn y siendo
S(X) = { : (X) = 0}

6.9. COTAS DE CONFIANZA OPTIMAS 53
i) S(X) es una region de confianza de nivel 1 para .
ii) Si 0 es cualquier otro test no aleatorizado de nivel para esas

hipotesis y
S (X) = { : (X) = 0}
entonces P {0 S(X)} P {0 S (X)} para todo > 0 .
Demostracio n. i) Por la definicion de S(X) sabemos que S(X) si y

solo si (X) = 0, luego
P { S(X)} = P { (X) = 0} = 1
por ser de nivel .

ii) Igual que en i) S (X) sera una region de confianza de nivel 1 . Por
ser 0 (X) el test UMP para H1 contra K1 resulta que
0 () () > 0
0
o sea,
P {0 (X) = 1} P {0 (X) = 1} > 0 .
Por lo tanto,
P {0 (X) = 0} P {0 (X) = 0} > 0 .
pero como 0 S(X) si y solo si 0 (X) = 0 y 0 S (X) si y solo si

0 (X) = 0, resulta
P {0 S(X)} P {0 S (X)} > 0 .
Un teorema similar puede demostrarse para H2 contra K2 .

Veamos como son las regiones S(X) en el caso del Teorema 1.
Teorema 2. Sea X con distribucion perteneciente a una familia F (x, )

de cociente de verosimilitud monotono en T = r(X). Supongamos que la
funcion de distribucion FT (t, ) de T es continua para todo . Sea, para
cada 0 , 0 (X) el test UMP para H1 : = 0 contra K1 : > 0 , o sea:
(
1 si T > k (0 )
0 (X) =
0 si T k (0 )
54
Si ademas FT (t, ) es continua en para cada t fijo, la region de confianza
S(X) = { : (X) = 0} = { : T = r(X) k ()}
es el intervalo I = [(X), +), donde
(X) = inf{ : T k ()} .
Demostracio n. Ya hemos demostrado que si se tiene una familia

de cociente de verosimilitud monotono en T = r(X), el test UMP para
H1 : = 0 contra K1 : > 0 es de la forma

1 si T > k (0 )
0 (X) = (0 ) si T = k (0 )

0 si T < k (0 )
con k (0 ) y (0 ) tales que
E0 (0 (X)) = .
Como T tiene distribucion continua, no es necesario aleatorizar y por lo

tanto, el test UMP resulta
(
1 si T > k (0 )
0 (X) =
0 si T k (0 ) .
Mostraremos que
(a) k () es una funcion no decreciente de .
(b) k () es una funcion continua a derecha.

(a) Sabemos que por ser 0 el test UMP de nivel para H1 contra K1 , la
funcion de potencia de 0 es mayor o igual que el nivel para todo > 0 .
Luego, dado cualquier 1 > 0 se cumple
= E0 (0 (X)) = P0 (T k (0 ))
E1 (0 (X)) = P1 (T k (0 )) .
Como ademas
= E1 (1 (X)) = P1 (T k (1 )) ,
tendremos
= P1 (T k (1 )) P1 (T k (0 )) ,

y por lo tanto, es posible tomar k (1 ) tal que
k (1 ) k (0 ) .
Con lo cual, k () es una funcion no decreciente de .

(b) Sea n una sucesion decreciente que converge a , luego como k (.) es
no decreciente se tiene
k (n ) k () (6.37)
Sea k = limn k (n ) = inf n1 k (n ). Por (6.37) k k (), bastara
mostrar que k k ().
Como k k (n ) se cumple
Pn (T k) Pn (T k (n )) = . (6.38)
Pero ademas, como FT (k, ) es continua en se tiene
P (T k) = lim Pn (T k) . (6.39)
n
Por lo tanto, (6.38) y (6.39) implican que
P (T k) = P (T k ())
luego, es posible tomar k () tal que k k (). Con lo cual, k = k () y

k () es continua a derecha.
Veamos ahora que S(X) si y solo si (X).
Si S(X) entonces T k () de donde { : T k ()} y
(X) que es el nfimo de este conjunto.
Si > (X) entonces existe 0 tal que T k ( 0 ) con (X) < 0 .
Pero como k (.) es creciente, resulta T k () y por lo tanto, S(X).
Si = (X), existe una sucesion n decreciente que converge a y tal que
n { : T k ()}. Por lo tanto, T k (n ). Luego, la continuidad
a derecha de k () implica que T k () y por lo tanto, S(X).
Teorema 3. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una dis-

tribucion perteneciente a una familia F (x, ) de cociente de verosimilitud
monotono en T = r(X) y sea, para cada 0 , 0 (X) el test UMP para
H1 : = 0 contra K1 : > 0 , o sea:
(
1 si T > k (0 )
0 (X) =
0 si T k (0 )
56
suponiendo que la distribucion, FT (t, ), de T (X) es continua para todo .

Supongamos ademas FT (t, ) es continua en para cada t fijo.
En estas condiciones
(X) = inf{ : T k ()}
es una cota inferior para uniformemente optima.

Demostracio n. De acuerdo a la definicion de cota inferior con nivel de
confianza 1 uniformemente optima debera demostrarse que
i) P ( (X)) = 1 para todo ,
ii) si es otra cota inferior a nivel para
E (D(, )) E (D(, )) para todo (6.40)
donde D es una medida de la subevaluacion de respecto de , definida

por (
si >
D(, ) =
0 si .
(i) se deduce del Teorema 1, ya que
S(X) = { : (X)}
es un intervalo de nivel de confianza 1 .

(ii) Demostraremos que dada cualquier otra cota a nivel 1
P { 0 } P { 0 } para todo 0 . (6.41)
Dado 0 definamos
(
1 si 0
0 (X) =
0 si 0 > .
Luego 0 (X) es un test de nivel para H : = 0 contra K : > 0 . Como

0 (X) es el UMP para estas hipotesis, por Teorema 1, ii) sabemos que
P { 0 (X)} P { 0 (X)} para todo 0
y como esto se puede hacer para todo 0 resulta (6.41).

Se podra demostrar que si cumple (6.41) entonces cumple (6.40).

Intuitivamente esto parece razonable, puesto que una cota inferior de
que cumple (6.41) es, en algun sentido, la mayor cota inferior y, en este
caso, el defecto que presenta respecto de debera ser lo mas peque no
posible. Sin embargo la demostracion de esta implicacion esta fuera de los
alcances de este curso. (Para la demostracion ver Lehmann [3], ejercicio 21,
pagina 117.)

U [0, ]. Sabemos que el test UMP para H : = 0 contra K : > 0 es de la
forma
1 si max Xi > 0 n 1
1in
0 (X) =
0 si max Xi 0 n 1
1in

n
En este caso, si T = max1in Xi y k () = 1
S(X) = { IR : (X) = 0} = { IR : T k ()}
resulta igual a

n
S(X) = { IR : max Xi 1 } =
1in
max Xi
1in
= { IR :
n
}
1
y sera
max Xi
1in
(X) = n
1
puesto que este es el menor valor que puede tomar que pertenece a S(X).
Resulta entonces que
max Xi
1in
I = [(X), +) = [
n
, +)
1
es un intervalo de confianza unilateral para de nivel 1 y que es la

mejor cota inferior para .

N (, 02 ) con 02 conocido. Sabemos que el test UMP para H : = 0 contra
58
K : > 0 , es de la forma

(X 0 )

1 si n > z

0
0 (X) =

(X 0 )

0 si n z
0
Procediendo en forma similar a la del Ejemplo 1, resulta

0
S(X) = { IR : X z } .
n
Luego,
0
(X) = X z
n
es la mejor cota inferior para y
0
I = [(X), +) = [X z , +)
n
es un intervalo unilateral de nivel 1 para .
6.10 Relacion entre intervalos de confianza con nivel

asint
otico 1 y test con nivel de significaci
on
asint
otico
Supongamos que X1 , . . . , Xn es una muestra aleatoria de una distribucion
perteneciente a la familia F (x, ) y que para cada 0 se tenga una sucesion
de test n 0 (X1 , . . . , Xn ) con nivel de significacion asintotico 1 para
H : = 0 contra K : 6= 0 . Luego, puede construirse una sucesion de
intervalos de confianza con nivel asintotico 1 definiendo
Sn (X1 , . . . , Xn ) = { : n (X) = 0} .
Recprocamente, dada una sucesion de intervalos de confianza

Sn (X1 , . . . , Xn ) de nivel asintotico 1 , si definimos
(
1 si 0 / S(X1 , . . . , Xn )
n 0 (X) =
0 si 0 S(X1 , . . . , Xn )
6.10. RELACION ENTRE INTERVALOS DE CONFIANZA... 59
se tiene que n 0 es una sucesion de test con nivel de significacion asintotico

para H : = 0 contra K : 6= 0 . (Se deja como ejercicio la demostracion
de estos enunciados.)

Bi(, 1). Ya se ha visto que
(X 0 )
np
0 (1 0 )
converge en distribucion a la N (0, 1) cuando = 0 .

Un intervalo de confianza para , con nivel asintotico 1 viene dado
por
|X |
Sn (X) = { : n p < z 2 }
(1 )
Luego, un test de significacion asintotico para H : = 0 contra K : 6= 0 ,
viene dado por

|X 0 |

1 si np z 2

0 (1 0 )
(X) =

|X 0 |

0 si np < z 2 .
0 (1 0 )
60
REFERENCIAS
1. Chernoff, H. (1954). On the distribution of the likelihood ratio. Ann.

Math. Statist. 25: 573-578.
2. Ferguson, T.S. (1967). Mathematical Statistics. A Decision Theoretic

Approach. Academic Press.
3. Lehmann, E.L. (1994). Testing Statistical Hypothesis. Chapman and

Hall.
4. Owen, D.B. (1965). The power of Students t test. J. Amer. Statist.

Assoc. 60: 320-333.
5. Wald, A. (1943). Tests of statistical hypothesis concerning several

parameters when the number of observations is large. Trans. Am.
Math. Soc. 54: 426-483.
Chapter 7
Estimaci
on Robusta
7.1 El problema de la robustez para el

modelo de posici
on
Sea el modelo de posicion y escala
xi = + ui , 1 i n, (7.1)
donde y son parametros de posicion y escala respectivamente,

u1 , ..., un son variables i.i.d. con distribucion F . En este caso, x1 , ..., xn
resulta una muestra aleatoria de F , donde F (x) = F ((x)/) Por
ejemplo las xi pueden ser distintas mediciones de una misma magnitud
fsica medida con un error ui .
Si F = , la funcion de una distribucion N(0,1), entonces las xi
tienen distribucion N(, 2 ). Por lo tanto, un estimador optimo de
P
es x = ni=1 xi /n. Efectivamente este estimador es IMVU y minimax.
Es importante se nalar que para que x tenga estas propiedades, la dis-
tribucion de los ui debe ser exactamente N(0,1). Sin embargo, en la
mayora de las aplicaciones practicas a lo sumo se puede asegurar los
errores de medicion tienen distribucion aproximadamente normal. Por
lo tanto, cabe preguntarse cual sera el comportamiento de estimador x
en este caso.
Una forma de determinar distribuciones aproximadamente normales
es considerar entornos de contaminacion de la funcion de distribucion
1
2 ROBUSTA
de la N(0,1). Un entorno de contaminacion de tama

no de la dis-
tribucion se define por
V = {F : F = (1 ) + H con H arbitraria}. (7.2)
La distribucion F = (1 ) + H corresponde a que las obser-
vaciones con probabilidad 1 provienen de la distribucion y con
probabilidad de la distribucion H.
En efecto supongamos que se tienen tres variables aleatoria inde-
pendientes : Z con distribucion , V con distribucion H, y W con
distribucion Bi(1, ). Definamos entonces la variable aleatoria U de la
siguiente manera (
Z si W = 0
U= .
V si W = 1
Luego
FU (u) = P (U u) = P (U u, W = 0) + P (U u, W = 1)
= P (U u| W = 0)P (W = 0) + P (U u| W = 1)P (W = 1)
= (1 )(u) + H(u).
Con lo cual, si es peque no (por ejemplo .05 o .10) esto significara
que la gran mayora de las observaciones se obtendran a partir de la
distribucion , es decir seran normales. Por lo tanto, podemos afirmar
que si es pequeno y F V , entonces F esta cerca de . Supongamos
que tenemos una muestra aleatoria x1 , ..., xn de F V . Por lo tanto
una proporcion (1 ) de las observaciones estaran dadas por (7.1)
con ui proveniente de una distribucion , y una proporcion tendran
el correspondiente ui proveniente de la distribucion H. Estas u ltimas
observaciones seran denominadas puntos atpicos o outliers, y pueden
ser debidas a realizaciones del experimento en circunstancias anormales
u otros factores de error como, por ejemplo, una equivocacion en la
transcripcion del dato.
Lo que vamos a mostrar a continuacion es que aunque sea peque no
el comportamiento del estimador x puede ser muy ineficiente para dis-
tribuciones F V.
Primero mostraremos que si
F = (1 ) + H, (7.3)

7.1. EL PROBLEMA DE LA ROBUSTEZ PARA EL MODELO DE POSICION3
entonces
EF (u) = (1 )E (u) + EH (u). (7.4)
Ademas, si EH (u) = 0, se tiene
varF (u) = (1 )var (u) + varH (u). (7.5)
Para mostrar (7.4) supongamos que la H tiene densidad h , y sea

la densidad correspondiente a . Luego la densidad de F es
f = (1 ) + h,
y luego
Z Z Z
EF (u) = uf (u)du = (1) u(u)du+ uh(u)du = (1)E (u)+EH (u).

Para mostrar (7.5), observemos que

Z
varF (u) = u2 f (u)du

Z Z
2
= (1 ) u (u)du + u2 h(u)du =

= (1 ) + varH (u).
Consideremos ahora al estimador

= x, donde la muestra x1 , ..., xn son
generadas por (7.1) donde las ui son independientes con distribucion
dada por (7.3) con EH (u) = 0
Luego
2 varF (u) 2 ((1 ) + varH (u))

varF (
x) = = .
n n
Luego, si = 0, entonces var( x) = 2 /n. En cambio una contami-
nacion de tamano puede producir un aumento de la varianza ilimitado,
ya que varH (u) puede ser ilimitada, inclusive infinita.
Esta extrema sensibilidad de x a una contaminacion con una pro-
porcion pequena de outliers tambien puede verse de la siguiente forma.
Supongamos que se tiene una muestra x1 , ..., xn y se agrega una obser-
vacion xn+1. Si esta observacion es un outlier, su influencia en x puede
4 ROBUSTA
ser ilimitada. En efecto sean xn y xn+1 el promedio basado en n y n + 1

observaciones respectivamente. Luego se tiene
n 1 1
xn+1 = xn + xn+1 = xn + (xn+1 xn ),
n+1 n+1 n+1
y por lo tanto e xn+1 puede tomar valores tan altos ( o tan bajos) como
se quiera con tal de tomar xn+1 suficientemente lejos de xn .
Supongamos que tenemos el modelo de posicion dado por (7.1)
donde la distribucion F de los ui es simetrica respecto de 0. Como
en este caso es tambien la mediana de las observaciones, un esti-
mador alternativo sera =mediana(x1 , ..., xn ). Ordenemos los datos
x1 , ..., xn de menor a mayor obteniendo los valores x(1) ... x(n) .
Luego la mediana estara dada por
(
x(m+1) si n = 2m + 1

= .
x(m) +x(m+1) si n = 2m
Veamos que este estimador es mucho mas resistente a outliers que

la media. En efecto, para que la mediana tome un valor ilimitado no es
suficiente agregar un outlier, sino se requiere por lo menos n/2 outliers.
Un estimador como la mediana que es poco sensible a outliers se
denomina robusto
La distribucion de para muestras finitas es muy complicada a
un
en el caso de muestras normales. Sin embargo, podremos derivar su
distribucion asintotica. Para ello necesitamos una version del Teo-
rema Central del Lmite para arreglos triangulares que enunciaremos
sin demostracion.
Teorema Central del Lmite. Sean para cada n natural, vn1 , ...vnn ,
v variables aleatoria independientes igualmente disribuidas. Supong-
amos que existan constantes M > 0 y m > 0, tales que |vni | M y
limn var(vni ) m. Luego se tiene que
n
1 X (vni E(vni )) D
N(0, 1).
n1/2 i=1 var(vni )1/2

7.1. EL PROBLEMA DE LA ROBUSTEZ PARA EL MODELO DE POSICION5
El siguiente Teorema establece la distribucion asintotica de la me-

diana.
Teorema 1. Sea x1 , ..., xn una muestra aleatoria de una distribucion
F con una u nica mediana y con una densidad f tal que f () > 0.
n es la mediana de la muestra, se tiene que
Entonces si
!
1/2 D 1
n (
n ) N 0, 2 .
4f ()
Demostracion: Para facilitar la demostracion consideraremos solo el caso

que n = 2m + 1. Tenemos que demostrar
lim P (n1/2 (
n ) y) = (2f ()y), (7.6)
n
donde es la funcion de distribucion correspondiente a N(0,1)

Es inmediato que

y
P (n1/2 (
n ) y) = P
n + . (7.7)
n1/2
Sea
y
1 si xi +
vni = n1/2y , 1 i n. (7.8)

0 si xi > +
n1/2
Como vni tiene distribucion Bi(F ( + yn1/2 , 1) se tiene
y
E(vni ) = n = F ( + ),
n1/2
y
var(vni ) = n (1 n ).
De acuerdo a la definicion de mediana se tiene que
n
!
y X n
P
n + =P vni
n1/2 i=1 2
n
!
1 X (vni n ) (n/2 nn )
=P . (7.9)
n1/2 i=1 (n (1 n ))1/2 (nn (1 n ))1/2
6 ROBUSTA
Como |vni | 1, y limn var(vni ) = 1/4. se cumplen las hipotesis

del Teorema Central del Lmite. Luego
n
1 X (vni n ) D
N (0, 1). (7.10)
n1/2 i=1 (n (1 n )) 1/2
Usando el hecho de que F () = 1/2, y el Teorema del Valor Medio

tenemos

(n/2 nn ) 1/2 y 1/2 y
= n F () F ( + ) = n f ( n ) = yf (n ),
n1/2 n1/2 n1/2
donde n es un punto intermedio entre y n . Luego usando el hecho
que n 1/2 y n , resulta
(n/2 nn )
2yf (). (7.11)
(nn (1 n ))1/2
Luego, usando (7.7), (7.9), (7.10) y (7.11) tenemos que

y
lim P (n1/2 (
n ) y) = P
n +
n n1/2
= 1 (2f ()y) = (2f ()y),
y por lo tanto hemos probado (7.6).

p
Observaci on 1. El Teorema 1 implica que n . Tambien puede
a.s.
n , pero no se dara la demostracion.
probarse que
Apliquemos ahora este resultado al modelo (7.1) y supongamos que
la distribucion F de las ui sea simetrica respecto de 0 con densidad f .
En este caso se tendra que la mediana de la distribucion F es y

1 x
f (x) = f ,

y por lo tanto,
1
f (0).
f () =

Luego, de acuerdo al Teorema 1, se tendra
!
1/2 D 2
n (
n ) N 0, 2 .
4f (0)

7.2. M-ESTIMADORES DE POSICION 7

Si F = , entonces f (0) = 1/ 2 y entonces

1/2 D
n n ) N 0, 2 .
(
2
Por otro lado, n1/2 (

xn ) tiene distribucion N(0, 2 ). Por lo tanto
n es aproximadamente 57% mas alta que la
la varianza asintotica de
varianza de xn . Esto significa que la propiedad que tiene la mediana
de ser poco sensible a observaciones atpicas tiene como contrapartida
negativa ser 57% menos eficiente que xn en el caso de errores normales.
De todas maneras esto es menos grave que el comportamiento de xn
bajo una contaminacion con outliers. En efecto, recordemos que en
este caso una fraccion de outliers tan peque na como se quisiera poda
provocar que la varianza se hiciese infinita.
Sin embargo, lo ideal sera tener un estimador robusto, es decir
poco sensible a outliers y que simultaneamente fuera altamente eficiente
cuando los datos son normales. En las secciones siguientes vamos a
tratar entonces de encontrar estimadores con estas propiedades.
7.2 M-estimadores de posici

on
7.2.1 Definici
on de M-estimadores
Consideremos el modelo (7.1) y supongamos que conozcamos la dis-
tribucion F de las ui . y el parametro de escala . Estas hipotesis no
son muy realistas y mas adelante las eliminaremos. Sin embargo sera
conveniente suponerlas momentaneamente para simplificar el planteo
del problema. Supongamos que F tiene una densidad que llamaremos
f = F 0 . Luego, la densidad de cada xi sera

1 x
f (x) = f ,

y luego la funcion de verosimilitud correspondiente a la muestra x1 , ..., xn
sera
n
1 Y xi
L() = n f .
i=1
8 ROBUSTA
Tomando logaritmos, como se supone conocida, se tendra que el

estimador de maxima verosimilitud de que llamaremos f ( la f como
subscripto indica que corresponde a que las ui tienen densidad f ) estara
dado por el valor que maximiza
n
X
xi
log f .
i=1
f minimiza
Equivalentemente, podemos decir que
n
X
xi
S() = f , (7.12)
i=1
donde
f (u) = log f (u) + log f (0).
Por ejemplo, si f corresponde a la distribucion N(0,1). Entonces
f (u) = u2 /2, y entonces el estimador de maxima verosimilitud mini-
miza n
1 X
S() = 2 (xi )2 ,
2 i=1
o equivalentemente, el que minimiza
n
X
S() = (xi )2 ,
i=1
el cual es precisamente xn .
Si f corresponde a la distribucion doble exponencial, entonces
1
f (u) = e|u| , < u < ,
2
y por lo tanto f (u) = |u|. Entonces en este caso el estimador de
maxima verosimilitud corresponde a minimizar
n
X
S() = |xi |, (7.13)
i=1
y el valor que minimiza (7.13) es precisamente la mediana de la muestra.

En el parrafo anterior hemos visto los inconvenientes de media y

la mediana muestral. Si conocieramos exactamente f, podramos uti-
lizar el estimador de maxima verosimilitud, del cual conocemos que
tiene varianza asintotica mnima y que esta dado por (7.12). Como
en general se tiene solo un conocimiento aproximado de f , por ejem-
plo que corresponde a una distribucion de V , Huber (1964) definio los
M-estimadores para el modelo de posicion como el valor valor que
minimiza n
X xi
S() = , (7.14)
i=1
donde la funcion es elegida independientemente de f y de tal manera
que tenga las propiedades deseadas:
1. El estimador es altamente eficiente cuando f corresponde a la

distribucion N(0,1)
2. El estimador es poco sensible a contaminacion por outliers, en
particular es altamente eficiente para toda f correspondiente a
una distribucion de V.
A la funcion que define al M-estimador se le pedira las siguientes

propiedades
A1 La funcion es derivable. Denominaremos = 0 .

A2 La funcion es par.
A3 La funcion (u) es monotona no decreciente en |u|.
A4 Se cumple que (0) = 0.
Huber (1964) propuso una familia de funciones intermedias entre

las correspondientes a la distribucion N(0,1) y a la doble exponencial.
Esta funciones es cuadratica para valores de valor absoluto peque nos
y lineal para valores absolutos grandes. Mas precisamente, para cada
k 0 se define H
k por

ku k 2 /2 si u < k
H
k (u) = u2 /2 si |u| k .

ku k 2 /2 si u>k
10 ROBUSTA
Media
Mediana
3
Huber
2
1
0
-3 -2 -1 0 1 2 3
Figure 7.1: Funciones correspondientes a la Media (en negro), la

mediana (en rojo) y el M-estimador con funcion de Huber (en verde)
En la Figura 7.1 se grafican las funciones correspondiente la media

a la mediana y a la funcion de Huber. Observese que las funciones H k
resultan derivables en todos los puntos, incluidos los puntos de cambio
k y k. Mas adelante mostraremos que eligiendo k convenientemente
los M-estimadores basadas en estas funciones gozan de las propiedades
1 y 2 enunciadas en esta seccion.
Para encontrar el valor mnimo de S() en (7.14) que define el M-
estimador podemos encontrar sus punto crticos derivando. De esta
manera obtenemos la siguiente ecuacion
n
X
xi
A() = = 0. (7.15)
i=1
El siguiente Teorema muestra que bajo ciertas condiciones la ecuacion

7.15 tiene solucion y corresponde a un mnimo de S().
Teorema 2. Supongamos que es continua impar, no decreciente y

para alg
un a se tiene (a) > 0. Entonces

(i) La ecuacion (7.15) tiene al menos una raz.
(ii) Toda raz de (7.15) corresponde a un mnimo de S().
(iii) Las races de (7.15) forman un intervalo.
(iv) Si es estrictamente creciente hay una u

nica raz de (7.15).
Demostracion. (i) Sea M = max1in xi y m = min1in xi . Sea 1 =

ma y 2 = M +a. Luego (xi 1 )/ a para todo i y (xi 2 )/
a para todo i. Luego ((xi 1 )/) (a) > 0 para todo i y
((xi 2 )/) (a) = (a) < 0 para todo i. Luego A(1 ) > 0
y A(2 ) < 0. Como A() es continua, existe un punto 0 entre 2 y 1
tal que A(0 ) = 0.
(ii) Como
R
S 0 () = (1/)A(),es facil ver que S() S(0 ) =
(1/) 0 A(u)du. Supongamos que 0 es una raz de A(). Supong-
amos que 0 > 0. Habra que mostrar que
S(0 ) S(), . (7.16)
Vamos a mostrar (7.16) solamente para > 0 . El caso < 0 se

demostrara similarmente. Tomemos > 0 , luego
Z
1
S() = A(u)du.
0
Como es no decreciente resulta A no creciente. Luego como

A(0 ) = 0, resulta A() 0 para > 0 . Por lo tanto resulta
R
0 A(u)du 0, y por lo tanto
S() S(0 ).
En el caso < 0 se demuestra similarmente que tambien vale

(7.16).
(iii) Supongamos que 1 < 2 sean races de A, y sea un valor tal
que 1 < < 2 . Tenemos que mostrar que tambien A() = 0. Como
A es no creciente se tendra
0 = A(1 ) A() A(2 ) = 0.

12 ROBUSTA
3
2
2
Media Mediana Huber
1
1
0
0
-1
-1
-1
-2
-2
-2
-3
-3
-3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Figure 7.2: Funciones correspondientes a la Media (en negro), la

mediana (en rojo) y el M-estimador con funcion de Huber (en verde)
y luego A() = 0.
(iv) Supongamos que A() = 0. Veremos que no puede haber otra
raz de A. Sea primero > , como en este caso A es estrictamente
decreciente se tendra A( ) < 0. Similarmente se demuestra que si
< , entonces A( ) > 0.
Como vamos a ver mas adelante la funcion cumple un papel muy
importante en la teora de M-estimadores. Para la funcion correspon-
diente a la media, resulta (u) = u, para la funcion correspondi-
ente mediana (u) = |u|, y para la funciones H k , las correspondientes
H
derivadas k estan dadas por

k
si u < k
kH (u) = u si |u| k .

k si u>k
la cual corresponde a una identidad truncada. En Fig. 7.2 se grafican
estas tres funciones .
Como consecuencia de la propiedad A2, la funcion es impar .

Para que el M-estimador sea robusto como veremos mas adelante se

requerira que la funcion sea acotada.
7.2.2 Propiedades asint

oticas de M-estimadores
La condicion de consistencia de Fisher, requerida para que el M-estimador
converja a esta dada por

x
EF = 0,

y de acuerdo a (7.1), esto es equivalente a
EF ((u)) = 0. (7.17)
Esta condicion se cumple automaticamente si F tiene una densidad

simetrica respecto de 0 ya que en ese caso se tendra
Z
EF ((u)) = uf (u)du = 0,

ya que uf (u) sera una funcion impar.

Luego, se tendra el siguiente Teorema que muestra la consistencia
de los M-estimadores:
Teorema 3. Sean x1 , ...xn variables aleatorias independientes que sat-

isfacen el modelo (7.1). Consideremos un estimador n solucion de
(7.15), donde y F satisfacen (7.17) . Luego n converge en casi todo
punto a en cualquiera de los siguientes casos
1. La funcion es estrictamente creciente.
2. La funcion es no decreciente, (u) > (0) y F (u) > F (0) para

todo u > 0.
Demostracion: Solamente mostraremos el Teorema para el caso 1. Con-

sideremos > 0. Luego como es estrictamente creciente tenemos que
(u ) < (u), y luego
EF (u ) < EF (u) = 0.
14 ROBUSTA
Por lo tanto
!
x ( + )
EF = EF (u ) < 0. (7.18)

Similarmente se puede probar que
!
x ( )
EF = EF (u + ) > 0. (7.19)

Sea ahora
n
1X xi
Gn ( ) = ,
n i=1
luego el M-estimador
n satisface
Gn (
n ) = 0. (7.20)
Por otro lado usando la ley de los grandes n

umeros y (7.18) y (7.19)
se tiene que con probabilidad 1 existe un n0 tal que para todo n > n0
se tiene que
Gn ( + ) < 0, Gn ( ) > 0,
y por lo tanto como Gn es monotona decreciente, se tiene que el valor
n satisfaciendo (7.20) tendra que satisfacer que
<
n < + .
n.
Esto prueba la consistencia de
El siguiente teorema muestra la asintotica normalidad de los M-
estimadores

(7.15), donde y F satisfacen (7.17). Supongamos que n es consis-
00
tente, y que ademas tiene dos derivadas continuas y es acotada.
Luego se tiene que
D
n1/2 (
n ) N (0, 2 V (, F )),

donde
EF 2 (u)
V (, F ) = . (7.21)
(EF 0 (u))2
Demostracion. El M-estimador
n satisface
n
!
X xi
n
= 0,
i=1
y haciendo un desarrollo de Taylor en el punto se tiene
n
n
n
X xi X n 1 X
xi xi n n )2
(
0= 0 + 00 ,
i=1 i=1 2 i=1 2
donde n es un punto intermedio entre

n y .
n ) se tiene
Luego, haciendo un despeje parcial de (
n
X
((xi )/)
i=1
(
n ) = n n ,
1X 0 n ) X
1 ( 00
((xi )/) ((xi n )/)
i=1 2 2 i=1
y luego
n
1 X
((xi )/)
1/2
n1/2 i=1
n (
n ) = n n .
1 X 0 1 1X 00
((xi )/) 2 (
n ) ((xi n )/)
n i=1 2 n i=1
(7.22)
Sea n n
1 X 1 X
An = ((xi )/) = (ui ) ,
n1/2 i=1 n1/2 i=1
n n
1X 1X
Bn = 0 ((xi )/) = 0 (ui ) ,
n i=1 n i=1
y
n
1 1X
Cn = (
n ) 00 ((xi n )/) .
2 n i=1
16 ROBUSTA
Luego
An
n1/2 (
n ) = . (7.23)
1 Bn + 2 Cn
Por el Teorema Central del Lmite se tiene
D
An N (0, EF ( 2 (u))). (7.24)
Por la Ley Fuerte de los Grandes N

umeros se tiene
p
Bn EF ( 0 (u)). (7.25)
Finalmente, por hipotesis existe una constante K tal que | 00 (u)| <
p
K. Luego |Cn | < (K/2)( n ). Usando el hecho de que n , se
tiene que
p
Cn 0. (7.26)
Usando (7.23)-(7.26) se deduce el Teorema.
7.2.3 M-estimador minimax para la varianza asint

otica
El problema que vamos a desarrollar en esta seccion es el de elegir la
funcion o equivalentemente la funcion del M-estimador. En esta
seccion vamos a utilizar como criterio minimizar la varianza asintotica
del M-estimador dada en (7.21). Si conocieramos la distribucion F de
las ui , utilizaramos el M-estimador que tiene como funcion la dada
por
d log f (u)
(u) = ,
du
es decir el estimador de maxima verosimilitud. Este estimador mini-
miza la varianza asintotica V (, F ) dada en (7.21). Cuando existe la
posibilidad de que hubieran outliers la distribucion F no es conocida
exactamente y por lo tanto no podemos usar este estimador.
La solucion que propuso Huber (1964) es la siguiente. supongamos
que F este en el entorno de contaminacion dado por (7.2), pero re-
stringiendo H a distribuciones simetricas respecto de 0. Para esto
definimos un nuevo entorno de distribuciones de
V = {F : F = (1 ) + H con H simetrica}. (7.27)

Luego, si usa el M-estimador basado en la funcion . la mayor var-

ianza posible en este entorno esta dada por
V () = sup V (, F ).
F V
El criterio de Huber para elegir el M-estimador es utilizar la funcion

que minimice V (). Estos estimadores se denominaran minimax
(minimizan la maxima varianza asintotica en el entorno de contami-
nacion V . En Huber (1964) se muestra que esta en la familia kH ,
donde k depende de la cantidad de contaminacion .
7.2.4 M-estimadores con escala desconocida

La definicion de los M-estimadores dada en (7.14) supone que es
conocida. Sin embargo, en la practica es desconocida. En estos
casos podemos reemplazar en esta ecuacion por un estimador
, y el
M-estimador se definira por el valor
que minimiza
n
X
xi
S() = . (7.28)
i=1 n
Si queremos que el M-estimador resultante de sea robusto, sera
necesario que
tambien lo sea. El estimador insesgado usual de dado
por
1X
2 = (xi x)2
n i=1
no es robusto. En efecto, es facil ver que una observacion lo pueda
llevar fuera de todo lmite. Un estimador robusto de es el llamado
MAD (median absolute deviation), que esta definido por
2 = A mediana{|xi
n |, 1 i n},
donde

n = mediana{xi : 1 i n},
y donde A es una constante que hace que el estimador sea consistente
a en el caso de que las observaciones sean una muestra aleatoria de
una N(, 2 ).
18 ROBUSTA
Vamos ahora a deducir cual debe ser el valor de A. Sean x1 , ..., xn

una muestra de una distribucion N(, 2 ). Entonces podemos escribir
xi = + ui , donde u1 , ..., un es una muestra aleatoria de una dis-
tribucion N(0,1). En este caso tenemos que
xi
n = (
n ) + ui
mediana{|xi
n |, 1 i n} = mediana{|(
n ) + ui |, 1 i n}.
Como de acuerdo a lo visto en Observacion 1, lim(

n ) = 0 casi
seguramente, se tendra que
lim mediana{|xi
n |, 1 i n} = lim mediana{|ui |, 1 i n} }
n n
= lim mediana{|ui |, 1 i n}, c.s.. (7.29)

n
Si u es N(0,1), entonces |u| tiene distribucion 2 1. Sea entonces

B = mediana(2 1), luego por lo visto en Observacion 1 se tiene
lim mediana{|ui |, 1 i n} = B, c.s.

n
y usando (7.29)
lim mediana{|xi
n |, 1 i n} = B c.s.
n
Luego A = 1/B. La constante B se calcula de la siguiente manera
2(B) 1 = 0.5,
o sea
(B) = 0.75, B = 1 (0.75) = 0.675.
Luego se tendra que el estimador MAD de viene dado por
1
2 =
mediana{|xi
n |, 1 i n}.
0.6745
Cuando el M-estimador se obtiene minimizando (7.28), la ecuacion
(7.15) se transforma en

n
X
xi
= 0. (7.30)
i=1

Las propiedades asintoticas del estimador
solucion de (7.30) son
similares a las del estimador correspondiente al caso de conocida. El
siguiente Teorema se dara sin demostracion.

(7.30), donde es impar y F es simetrica respecto de 0. Supongamos
que n es consistente a y n es consistente a , y que ademas tiene
dos derivadas continuas y 00 es acotada. Luego se tiene que
D
n1/2 (
n ) N (0, 2 V (, F )),
donde V esta dada por (7.21)
7.2.5 Algoritmos para calcular M-estimadores

A continuacion vamos a describir tres algoritmos para computar el M-
estimador definido como la solucion de (7.30).
Algoritmo basado en medias ponderadas iteradas (MPI)

Llamemos w(u) = (u)/u. Luego la ecuacion (7.30).se puede escribir
como !
Xn
xi
(xi )w = 0,
i=1
o sea ! !
Xn
xi xi
xi w = w ,
i=1

y haciendo un despeje parcialde
se tiene
n
X
xi w ((xi
)/
)
i=1

= Xn . (7.31)
w ( (xi
)/
)
i=1
20 ROBUSTA
En realidad esta expresion no es un verdadero despeje, ya que el

miembro derecho tambien aparece . Sin embargo esta formula nos va
a sugerir un algoritmo iterativo para calcular
.
En efecto, consideremos un estimador inicial 0 de , como por
ejemplo la mediana.Luego podemos definir
n
X
xi w ((xi
0 )/
)
i=1

1 = Xn ,
w ( (xi
0 )/
)
i=1
y en general si ya tememos definido

h , podemos definir
h+1 por
n
X
xi w ((xi
h )/
)
i=1
h+1 =
Xn . (7.32)
w ( (xi
h )/
)
i=1
Se puede mostrar que este si es continua, entonces cuando este

algoritmo iterativo converge, lo hace a una solucion de (7.30). En efecto
supongamos que limh h = , luego tomando limite en ambos lados
de (7.32), se tendra
n
X
xi w ((xi
)/
)
i=1

= Xn . (7.33)
w ( (xi
)/
)
i=1
Pero esta ecuacion es precisamente (7.31) , que ya hemos visto es

equivalente a (7.30).
La ecuacion (7.33) muestra a como promedio pesado de las xi y
pesos proporcionales a w ( (xi )/ ) . Como en general w(u) es una
funcion par monotona no creciente en |u|, (7.33) se puede interpretar
como que el M-estimador da a cada observacion un peso que penaliza
las observaciones para las cuales |xi |/
es grande. Para la media
se tiene w(u) = 1, y para el estimador basado en la funcion kH , la
correspondiente funcion de peso esta dada por

1.0
1.0
Media Huber
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Figure 7.3: Funciones de peso w correspondientes a la Media (en negro)

y al M-estimador con funcion de Huber (en verde)
(
1 si |u| k
wkH (u) = k .
|u|
si |u| > k
El grafico de esta funcion se encuentra en la Figura 7.3.
Algoritmo basado en medias de pseudovalores iteradas (MPVI)

Definamos el pseudovalor xi () por
xi () = +
((xi
)/
) .
Luego se tiene
((xi ) = (xi ()
)/ )/
,
y reemplazando en (7.30) se tiene la ecuacion para el M-estimador es

n
X
(xi (
)
)/
= 0.
i=1
22 ROBUSTA
Haciendo un despeje parcial de

se tiene
n
1X

= x (
). (7.34)
n i=1 i
Es decir, se tiene expresado el M-estimador como promedio simple

de los pseudo valores. Esta formula no permite calcular el M-estimador
directamente, ya que el miembro derecho tambien depende de . Sin
embargo, nos sugiere el siguiente algoritmo iterativo. Partiendo de un
estimador inicial 0 , consideramos la siguiente formula recursiva para
h
n
1X
h+1 = x (
h ). (7.35)
n i=1 i
Es interesante calcular los pseudovalores correspondientes a kH , los
cuales estan dados por

k si xi < k

xi () = xi si |xi | k
.

+ k
V si xi > + k
Es decir, si xi pertenece al intervalo [ k , + k

], el pseudovalor
xi () es igual a la observacion xi . Si xi esta fuera de este intervalo el
psudovalor se define como el extremo del intervalo mas cercano.
Vamos a ver ahora que si limh h =
y es continua, entonces
es el M-estimador solucion de (7.30). En efecto, tomando lmite en

ambos miembros de (7.35) se obtiene (7.34), que ya hemos visto es
equivalente a (7.30).
Algoritmo de Newton Raphson (NR)

De acuerdo a lo visto anteriormente, el algoritmo de Newton Raphson
para calcular la raz de (7.30) tiene la siguiente formula recursiva
n
X
((xi
h )/
)
i=1
h+1 =
h +
X n . (7.36)
0
((xi
h )/
)
i=1

Para el caso de que = kH , esta formula toma una expresion

particularmente interesante.
Para cada valor dividamos el conjunto de observaciones en tres
conjuntos
D = {i : (xi
h )/
< k},
D0 = {i : |xi
h |/
k},
D+ = {i : (xi
h )/
> k}.
Es facil ver que se tiene

k si i D
kH ((xi ) = (xi
h )/ h )/
si i D0 ,

k si i D+
y
0
si i D (
h )
kH0 ((xi ) = 1
h )/ si i D0 (
h ) .

0 si i D+ (
h )
Llamando n , n0 y n , al numero de elementos de D , D0 y D+
y reemplazando en (7.36), se tiene
X
k(n+ n ) + (xi
h )/

iD0 n+ n 1 X
h+1 =
h +
=
k + xi .
n0 n0 n0 iD0
Observese que el miembro derecho de esta u ltima formula solo de-
pende de D , D0 y D+ . Estos tres conjuntos forman una particion del
conjunto {1, 2, ..., n}. Es claro que hay un n
umero finito de estas parti-
ciones, y por lo tanto si h converge lo debe hacer en un numero finito
de pasos.
Convergencia de los algoritmos iterativos

Se puede demostrar que los 3 algoritmos iterativos que hemos estudiado
MPI, MPVI, y NR convergen a la raz de (7.30) cuando es monotona
no decreciente cuando esta es unica. Si (7.30) tiene mas de una raz, se
puede demostrar que si [ 1 ,
2 ] es el intervalo de soluciones, entonces
dado > 0, existe h0 tal que h [ 1 , 2 + ] para todo h > h0 .

Ciencias Sociales PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ciencias Sociales PDF

Cargado por

Copyright:

Formatos disponibles

Notas de Estadstica

Autores: Graciela Boente- Vctor Yohai

1. Introduccin a la inferencia estadstica

2.1 Poblaciones finitas

Frecuentemente en los problemas de las diferentes disciplinas se estudia el

Ejemplo 1: Consideremos una poblacion P formada por un conjunto de

Ejemplo 2: Consideremos el conjunto P de votantes en una determinada

Ejemplo 3: Supongamos que la poblacion P consiste de todos los pajaros

Distribuci on de una variable en la poblaci on. Llamaremos distribuci on

donde # A indica el n umero de elementos de A. Del mismo modo se define

Observese que la distribucion de una variable definida en una poblacion

2.2 Poblaciones infinitas

En muchos problemas interesa la distribucion de una variable aleatoria X (o

Ejemplo 1: El experimento consiste en tirar una moneda y X vale 0 o 1

Ejemplo 2: El experimento consiste en repartir 10 cartas elegidas al azar

Ejemplo 3: El experimento consiste en fabricar y probar una lampara; X

Ejemplo 4: Se desea medir una magnitud fsica, cuyo valor verdadero es

Distribuci on de una variable en una poblaci on infinita. En el caso de

2.3 Modelos para la distribuci

Tanto en el caso de poblaciones finitas como en el de poblaciones infini-

sencilla, por ejemplo una distribucion normal. Esto sugiere la introduccion

Modelos param etricos: Consisten en suponer que la distribucion F (x)

(a) F (x) pertenece a la familia N (, 2 ),

(b) F (x) pertenece a la familia Bi (, n),

(c) F (x) pertenece a la familia P (),

(d) F (x) pertenece a la familia (),

(e) Si F (x, y) es la distribucion de dos variables, un modelo puede ser

(f) Si F (x1 , x2 , . . . , xk ) es la distribucion de k variables un modelo puede

En general, un modelo parametrico tendra la siguiente forma. Si F (x)

Ejemplo 1: Para el ejemplo 1 de 2.1, podemos usar el modelo definido por

Ejemplo 2: Para el ejemplo 2 de 2.1 , podemos usar el modelo M (1 , 2 , 3 , 1).

Ejemplo 4: Para el ejemplo 3 de 2.2 podemos usar el modelo ().

Ejemplo 5: Para el ejemplo 4 de 2.2 se puede usar el modelo N (, 2 ).

Modelos no param etricos: En los modelos no parametricos se supone

Ejemplo 6: Consideremos nuevamente el ejemplo 4 de 2.2. Un modelo no

(i) Son continuas con densidad f (x),

(ii) f ( + x) = f ( x) es decir son simetricas alrededor del verdadero

Esta familia de distribuciones F descripta por (i), (ii) y (iii) no puede

Ventajas relativas de los modelos param etricos y no param etricos

2.4 Muestra de una distribuci

Supongamos que hemos definido un modelo para la distribucion F de una

Ejemplo 1: Volvamos al ejemplo 1 de 2.1 y supongamos que hemos elegido

(a) Interesa conocer la distribucion F completamente. En este caso hace

(b) Se requiere solo el conocimiento de la produccion total. Como hay

(c) Se ha fijado una meta de producir al menos 200 toneladas de trigo y

Volvamos al problema general, la caracterstica numerica que interesa de

ltimo caso q(, 2 ) = 0 nos indica que no se cumplio la meta y

deberamos conocer la produccion de todas las parcelas. Observar el valor

Procedimientos de inferencia: Son los procedimientos que permiten a

Para ejemplificar, volvemos nuevamente al Ejemplo 1. En este caso un

independiente de X1 y con la misma distribucion N (, 2 ). Repitiendo este

FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = F (x1 ) F (x2 ) . . . F (xn ) (2.1)

pX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = p(x1 ) p(x2 ) . . . p(xn )

En el caso de poblaciones finitas, una muestra aleatoria de tama no n se ob-

de 20 observaciones, inferimos el valor caracterstico de la distribucion de

Los procedimientos que hemos propuesto no son los u nicos posibles, ni

Rk , se quiere inferir conocimiento de algunas caractersticas de esta

Ejemplo 2: Volvamos al ejemplo 6 de 2.3. Supongamos que se quiere

El ejemplo 2 nos sugiere la siguiente formulacion del problema de infe-

Ejemplo 3: Supongamos que el rendimiento por hectarea de un cierto

cual es el rendimiento promedio cuando se utilizan 200 kg por hectarea, lo

En el ejemplo 3, se uso el estadstico T = r(X) = X (p+1) .

Hasta ahora, hemos supuesto que el parametro de existir es fijo. Exis-