Está en la página 1de 253

Curso de Inferencia y Decision

Guadalupe Gomez y Pedro Delicado


Departament dEstadstica i Investigacio Operativa
Universitat Polit`ecnica de Catalunya

Enero de 2006

Indice abreviado
Captulo 1. Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Captulo 2. Principios para reducir los datos . . . . . . . . . . . . . . . . . . . . 25
Captulo 3. Estimaci
on puntual 1: Construcci
on de estimadores . 45
Captulo 4. Estimaci
on puntual 2: Evaluaci
on de estimadores . . . . 87
Captulo 5. Contrastes de hip
otesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
Captulo 6. Estimaci
on por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 183
Captulo 7. Introducci
on a la Teora de la Decisi
on . . . . . . . . . . . . . 215
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

Indice general

Indice abreviado

Indice general

II

Pr
ologo

VII

1. Introducci
on

1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . .

1.2.2. Distribucion de una variable aleatoria. Funciones de distribucion, de probabilidad y de densidad . . . . . . . . . .

1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . .

1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . .

1.2.5. Modelo parametrico . . . . . . . . . . . . . . . . . . . . .

1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . .

1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . .

12

1.3.1. Familias de localizacion y escala . . . . . . . . . . . . . .

12

1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . .

13

1.4. Muestreo de una distribucion normal . . . . . . . . . . . . . . . .

13

1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . .

16

1.5. Leyes de los Grandes N


umeros y Teorema Central del Lmite . .

18

1.5.1. Leyes de los grandes n


umeros . . . . . . . . . . . . . . . .

18

1.5.2. Teorema central del lmite . . . . . . . . . . . . . . . . . .

19

1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . .

20

1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . .

21

iii

INDICE GENERAL

iv
2. Principios para reducir los datos

25

2.1. Principio de suficiencia . . . . . . . . . . . . . . . . . . . . . . . .


2.1.1. Estadsticos suficientes r-dimensionales

26

. . . . . . . . . .

31

2.1.2. Estadsticos suficientes minimales . . . . . . . . . . . . . .

32

2.1.3. Estadsticos ancilares . . . . . . . . . . . . . . . . . . . . .

35

2.1.4. Estadsticos completos . . . . . . . . . . . . . . . . . . . .

36

2.2. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . .

38

2.3. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . .

41

3. Estimaci
on puntual 1: Construcci
on de estimadores

45

3.1. La funcion de distribucion emprica y el metodo de los momentos

45

3.1.1. Teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . .

47

3.1.2. Principio de sustitucion . . . . . . . . . . . . . . . . . . .

50

3.1.3. El metodo de los momentos . . . . . . . . . . . . . . . . .

51

3.2. Estimadores de maxima verosimilitud . . . . . . . . . . . . . . .

53

3.2.1. Calculo del estimador maximo verosmil . . . . . . . . . .

56

3.2.2. Calculo numerico de los estimadores de maxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

3.2.3. Principio de invariancia del estimador maximo verosmil .

70

3.3. Estimacion Bayesiana . . . . . . . . . . . . . . . . . . . . . . . .

71

3.3.1. Distribuciones a priori y a posteriori . . . . . . . . . . . .

71

3.3.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . .

75

3.3.3. Funciones de perdida . . . . . . . . . . . . . . . . . . . . .

79

3.3.4. Estimadores de Bayes . . . . . . . . . . . . . . . . . . . .

80

3.4. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . .

83

4. Estimaci
on puntual 2: Evaluaci
on de estimadores

87

4.1. Error cuadratico medio . . . . . . . . . . . . . . . . . . . . . . . .

87

4.1.1. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . .

91

4.2. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . .

94

4.2.1. Teorema de Cramer-Rao. Informacion de Fisher . . . . . .

96

4.2.2. Version multivariante del teorema de Cramer-Rao. . . . . 105


4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-Scheffe 108

INDICE GENERAL

4.3. Comportamiento asintotico . . . . . . . . . . . . . . . . . . . . . 114


4.3.1. Consistencia

. . . . . . . . . . . . . . . . . . . . . . . . . 114

4.3.2. Normalidad asintotica . . . . . . . . . . . . . . . . . . . . 116


4.3.3. Metodo delta . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.3.4. Eficiencia relativa asintotica . . . . . . . . . . . . . . . . . 124
4.4. Teora asintotica para el estimador maximo verosmil . . . . . . . 125
4.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5. Contrastes de hip
otesis

141

5.1. Definiciones basicas. Contraste de hipotesis simples . . . . . . . . 141


5.1.1. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . 142
5.1.2. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 144
5.1.3. Conclusiones de un contraste: el p-valor . . . . . . . . . . 148
5.2. Contrastes uniformemente mas potentes . . . . . . . . . . . . . . 149
5.2.1. Lema de Neyman-Pearson para alternativas compuestas . 150
5.2.2. Razon de verosimilitud monotona. Teorema de Karlin-Rubin152
5.3. Contrastes insesgados. Contrastes localmente mas potentes . . . 155
5.4. Consistencia y eficiencia para contrastes . . . . . . . . . . . . . . 157
5.5. Test de la razon de verosimilitudes . . . . . . . . . . . . . . . . . 158
5.5.1. Relacion con el Lema de Neyman-Pearson.

. . . . . . . . 159

5.5.2. Propiedades de los contrastes de razon de verosimilitudes 160


5.6. Contrastes relacionados con el de maxima verosimilitud . . . . . 163
5.6.1. Test del score.

. . . . . . . . . . . . . . . . . . . . . . . . 163

5.6.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . 164


5.6.3. Contrastes en presencia de parametros secundarios. . . . . 166
5.7. Contrastes bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 170
5.7.1. Ventaja a priori y a posteriori. Factor de Bayes . . . . . . 171
5.7.2. Contraste de dos hipotesis simples. . . . . . . . . . . . . . 172
5.7.3. Contraste de dos hipotesis compuestas.

. . . . . . . . . . 173

5.7.4. Contraste de hipotesis nula simple frente a alternativa


compuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.8. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 177

INDICE GENERAL

vi
6. Estimaci
on por intervalos

183

6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . 183


6.2. Metodos para construir intervalos de confianza . . . . . . . . . . 185
6.2.1. Inversion de un contraste de hipotesis . . . . . . . . . . . 185
6.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . . . 189
6.2.3. Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . 193
6.2.4. Intervalos de verosimilitud . . . . . . . . . . . . . . . . . . 195
6.3. Evaluacion de estimadores por intervalos . . . . . . . . . . . . . . 196
6.3.1. Intervalos de longitud mnima . . . . . . . . . . . . . . . . 197
6.3.2. Relacion con contrastes de hipotesis y optimalidad . . . . 200
6.4. Intervalos de confianza asintoticos . . . . . . . . . . . . . . . . . 202
6.4.1. Intervalos basados en el estimador de maxima verosimilitud203
6.4.2. Intervalos basados en la funcion score. . . . . . . . . . . . 205
6.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 210
7. Introducci
on a la Teora de la Decisi
on

215

7.1. Elementos basicos en un problema de decision . . . . . . . . . . . 215


7.1.1. Comparacion de reglas de decision. . . . . . . . . . . . . . 217
7.2. Teora de la decision e inferencia estadstica . . . . . . . . . . . . 218
7.2.1. Estimacion puntual. . . . . . . . . . . . . . . . . . . . . . 218
7.2.2. Contrastes de hipotesis. . . . . . . . . . . . . . . . . . . . 221
7.2.3. Estimacion por intervalos. . . . . . . . . . . . . . . . . . . 223
7.3. El problema de decision bayesiano . . . . . . . . . . . . . . . . . 225
7.4. Admisibilidad de las reglas de decision . . . . . . . . . . . . . . . 229
7.4.1. Comparacion de reglas de decision. . . . . . . . . . . . . . 229
7.4.2. B
usqueda de reglas admisibles y clases completas. . . . . 230
7.4.3. Admisibilidad de la media muestral bajo normalidad. . . 232
7.5. Reglas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
7.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 238
Referencias

243

Pr
ologo
Este documento es el fruto de nuestra experiencia como docentes de la asignatura Inferencia y Decisi
on (Licenciatura en Ciencias y Tecnicas Estadsticas,
Universitat Polit`ecnica de Catalunya) durante los cursos 99-03.
Cuando se preparo por primera vez la docencia de Inferencia y Decisi
on se
penso en seguir lo mas fielmente posible alg
un libro de texto que por contenidos
y profundidad se adaptase a los objetivos de esta asignatura. Ante la inexistencia de libros en castellano o catalan dirigidos especficamente para alumnos
de Inferencia y Decisi
on, se opto por usar como texto de referencia el libro de
Casella y Berger (1990). Durante el desarrollo del curso se vio en varias ocasiones la necesidad de completarlo con otros libros. Ante esta situacion (ausencia
de textos en castellano y cierta insatisfaccion con el libro elegido) consideramos
conveniente escribir este documento. En el se recogen y amplan los apuntes preparados para las clases teoricas y las listas de problemas resueltas en las clases
pr
acticas.
El objetivo principal de la asignatura Inferencia y Decisi
on es proporcionar
una solida base teorica de los fundamentos de la Inferencia Estadstica y de la
Teora de la Decision. Confiamos en que este Curso de Inferencia y Decisi
on
contribuya a lograrlo.

vii

Captulo 1

Introducci
on
Referencias: Casella-Berger: 1.4, 2.1, 2.2, 2.3, captulo 3, 5.1, 5.2,
5.4.

En este curso de Inferencia y Decision se desarrollan ideas y herramientas


matematicas que la estadstica utiliza para analizar datos. Se estudiaran tecnicas
para estimar parametros, contrastar hipotesis y tomar decisiones. Es importante
no perder de vista que en la aplicacion de la estadstica se necesita mucho mas
que el conocimiento matematico. La recogida y la interpretacion de los datos es
un arte. Requiere sentido com
un y puede llegar a plantear cuestiones filosoficas.

Ejemplo 1
Se desea estimar la proporcion de estudiantes universitarios que no se duchan
desde hace dos das o mas. Supongamos que podemos entrevistar a 20 estudiantes.
Que se entiende por estudiante?
Como se puede asegurar que la muestra sea aleatoria?
Querran contestar a la pregunta? Problema de falta de respuesta (missing
data).
Diran la verdad? Problema de error de medida (measurement error).
Si resulta que entre los 20 estudiantes no hay ninguna mujer, estaremos
satisfechos con el estimador que obtengamos?
Supongamos que p = 5/20. Que valores son plausibles para p?
En este caso el problema se plantea en terminos de la variable aleatoria
X = n
umero de personas que no se ducharon ayer ni hoy B(20, p)
1


CAPITULO 1. INTRODUCCION

n en un contexto de inferencia parametrica.


y es un ejemplo de estimacio
.

Ejemplo 2
Estudio de la aspirina.
Con el fin de determinar si la aspirina tiene alg
un efecto preventivo en los ataques
cardacos se desarrollo un estudio controlado entre medicos (aproximadamente
22.000) entre 40 y 84 a
nos que tomaron bien una aspirina (325 mg.) bien un
placebo durante cinco a
nos. Los resultados del estudio fueron los siguientes:

Aspirina
Placebo

Sufren ataques
cardacos
104
189

No sufren
ataques cardacos
10933
10845

Ataques por
cada 1000 personas
9.42
17.13

Hay suficiente evidencia para concluir que la aspirina protege contra los ataque
n o el contraste de
de corazon? Se plantea aqu un problema de decisio
tesis.
una hipo
.
.

1.1.

Datos y modelos

Los datos que aparecen en los problemas estadsticos pueden suponerse provenientes de un experimento, es decir, son valores en un espacio muestral.
Experimento: Termino de acepcion muy amplia que incluye cualquier procedimiento que produce datos.
Espacio muestral: Conjunto de todos los posibles resultados de un experimento.

Ejemplo 3
Se desea estudiar la proporcion de enfermos que responde positivamente a una
nueva terapia.
Se podra pensar en administrar la medicina a todos los enfermos que lo
deseen y utilizar como resultado del estudio las respuestas de los pacientes tratados con la nueva terapia, aunque esta muestra responde a un experimento
no controlado y puede ser difcil obtener resultados extrapolables a toda la poblacion. Sera mas aconsejable identificar la poblacion a la que esta dirigida la

1.2. VARIABLE ALEATORIA

nueva terapia y tratar a un subconjunto aleatorio de tama


no n de esa poblacion
relevante con la nueva medicina.
En los dos casos el espacio muestral es una secuencia de responde/no responde. En el primer caso el n
umero de pacientes es variable y el espacio muestral
debera incluir las secuencias de todas las posibles longitudes (tantas como posibles n
umeros de pacientes), mientras que en el segundo caso el espacio muestral
consistira en las secuencias de longitud n.
.
.

Definimos un modelo para un experimento como una coleccion de distribuciones de probabilidad sobre el espacio muestral.

Ejemplo 3, p
agina 2. Continuaci
on. Sea p la proporcion de individuos que
responden positivamente a la nueva terapia. Hay una probabilidad p de observar
una respuesta positiva en cada caso muestreado. Si el tama
no de la poblacion
de referencia es mucho mas grande que el de la muestra, n, es razonable suponer
que las respuestas de los individuos son independientes. Entonces el modelo es
P = {P (X1 = x1 , . . . , Xn = xn ) =

n
Y

pxi (1 p)1xi , 0 < p < 1}.

i=1

Se trata de un modelo parametrico de dimension finita. El espacio parametrico


es {p : 0 < p < 1} IR.
Los problemas de inferencia en este modelo consistiran en hacer afirmaciones (en forma de estimacion puntual, estimacion por intervalos o contrastes de
hipotesis) sobre cuan verosmiles son los posibles valores del parametro p.
.
.

1.2.
1.2.1.

Variable aleatoria
Variables y vectores aleatorios

Consideramos un experimento aleatorio cuyos resultados pertenecen al espacio muestral . Modelizamos este proceso suponiendo que existe una terna
(, A, P), donde es el espacio muestral, P() es el conjunto de partes de ,
A P() es una -algebra, y P : A [0, 1] es una medida de probabilidad
que refleja las caractersticas aleatorias del experimento realizado. A esa terna
se le llama espacio de probabilidad.
Los resultados de un experimento aleatorio no son analizados en bruto, sino
que se les da una representaci
on numerica que facilita su tratamiento. Esto se


CAPITULO 1. INTRODUCCION

hace mediante la definicion de variables aleatorias. Dado un espacio de


probabilidad (, A, P) y el espacio medible (IR, B), donde B es la -algebra de
Borel definida sobre la recta real IR, una variable aleatoria es una funcion
X : IR
medible, es decir, X 1 (B) A para todo B B.
Si el espacio muestral es finito o numerable, diremos que es un espacio
discreto y las variables aleatorias asociadas al experimento normalmente estaran definidas como X : Z. Si es no numerable, entonces diremos que
es un espacio continuo y X : IR.
A partir de un mismo experimento se pueden definir diferentes variables
aleatorias. Por ejemplo, si lanzamos dos monedas simultaneamente, el espacio
muestral asociado a este experimento es = {CC, C+, +C, ++}. Se pueden
definir diversas variables aleatorias:
X1 = n
umero de caras, X2 = n
umero de cruces,
X3 = cuadrado del n
umero de caras = X12 , etc.
Usualmente los datos estan modelizados por un vector de variables aleatorias
X = (X1 , . . . , Xn ), donde las Xi toman valores en Z o en IR. A X le llamaree
e
mos vector aleatorio o tambien variable aleatoria multidimensional.

1.2.2.

Distribuci
on de una variable aleatoria. Funciones de
distribuci
on, de probabilidad y de densidad

La realizacion de un experimento aleatorio da lugar a un resultado


que es aleatorio. Por lo tanto X() es un valor de IR tambien aleatorio. Es decir,
la variable aleatoria X induce una medida de probabilidad en IR. A esa medida
n de X o ley de X. Una de las formas
de probabilidad se le llama distribucio
n de
de caracterizar la distribucion de una variable aleatoria es dar su funcio
n FX , que esta definida as:
distribucio
FX (x) = P(X x) = P({ : X() x}) = P(X 1 (, x]).
En el caso de que X sea una variable aleatoria discreta, es decir, en el
caso de que X solo tome una cantidad finita o numerable de valores de IR, su
n de probabilidad
distribucion tambien puede caracterizarse por su funcio
n de masa de probabilidad) fX , definida como
(o funcio
fX : IR [0, 1], fX (x) = P(X = x).
Esa funcion solo es no nula en un conjunto finito o numerable. Supondremos en
adelante, sin perdida de generalidad, que ese conjunto esta contenido en Z. A

1.2. VARIABLE ALEATORIA

partir de la funcion de masa de probabilidad se puede calcular la probabilidad


de que la variable aleatoria X tome valores en cualquier elemento A de B:
X
P(X A) =
fX (x).
xA

La funcion de distribucion y la funcion de masa de probabilidad se relacionan


de la siguiente forma:
X
FX (x) =
fX (u), fX (x) = FX (x) FX (x ),
ux

donde FX (x ) = lmh0+ F (x h).


Una clase relevante de variables aleatorias no discretas son las que poseen
n de densidad, es decir, aquellas cuya distribucion de probabilidad
funcio
puede caracterizarse por una funcion fX (x) 0 que cumple que
Z
P(X A) =
fX (x)dx, para todo A B.
xA

La relacion entre FX y fX es la siguiente:


Z x
d
FX (x)
FX (x) =
fX (u)du, fX (x) =
dx

salvo quizas en un n
umero finito de puntos x IR. Las variables aleatorias que
poseen funcion de densidad se llaman variables aleatorias absolutamente
continuas. Abusando del lenguaje, aqu nos referiremos a ellas como variables
aleatorias continuas.

1.2.3.

Esperanza y varianza

Si se desea describir totalmente la distribucion de probabilidad de una variable aleatoria X acabamos de ver que podemos dar su funcion de distribucion o
su funcion de masa o de densidad, seg
un el caso. Una descripcion parcial puede
efectuarse calculando algunas caractersticas de la variable aleatoria X, como
por ejemplo medidas de posicion o de dispersion. Estudiaremos algunas de ellas.
Se define la esperanza de una variable aleatoria X como la integral de
Lebesgue de X:
Z
E(X) =
X(w)dP(w).

En el caso de variables aleatorias discretas la esperanza puede calcularse como


X
X
X
kfX (k).
kP (X = k) =
E(X) =
X()P() =
w
kZ
kZ
Por otro lado, la esperanza de una variable aleatoria continua se puede calcular
as:
Z
E(X) =
xfX (x)dx.
IR


CAPITULO 1. INTRODUCCION

La esperanza de una variable aleatoria X es una medida de posicion de X: es


el centro de gravedad de la distribucion de probabilidad de X.
Si h es una funcion medible h : IR IR, entonces Y = h(X) es tambien
variable aleatoria y su esperanza se puede calcular a partir de la distribucion de
X:
Z
E(h(X)) =
h(X())dP()

que en el caso de que X sea discreta puede reescribirse como


X
E(h(X)) =
h(k)fX (k).
kZ
Si X es una variable aleatoria continua entonces
Z
E(h(X)) =
h(x)fX (x)dx.
IR
Si existe = E(X) y es finita puede definirse una medida de dispersion de
la variable aleatoria X a partir de una transformacion h de X. Es lo que se
denomina varianza de X y se define as:
V (X) = E((X )2 ) = E(X 2 ) 2 = E(X 2 ) (E(X)2 ).

1.2.4.

Muestra aleatoria simple

Sea X = (X1 , . . . , Xn ) un vector aleatorio. Se dice que sus componentes


e
(X1 , . . . , Xn ) son independientes si
P (X1 x1 , . . . , Xn xn ) = P (X1 x1 ) P (Xn xn )
para cualesquiera valores x1 , . . . , xn . Si ademas la distribucion de las n variables
aleatorias Xi es la misma, se dice que X1 , . . . , Xn son variables aleatorias
nticamente distribuidas, o bien que son v.a.i.i.d o
independientes e ide
simplemente i.i.d.
Si X = (X1 , . . . , Xn ) y X1 , . . . , Xn son i.i.d. con funcion de densidad (en su
e
caso, de masa) fX , la distribucion conjunta de X viene dada por la funcion de
e
densidad (en su caso, de masa) conjunta
f

n
Y
( x ) = f(X1 ,...,Xn ) (x1 , . . . , xn ) = fX1 (x1 ) fXn (xn ) =
fX (xi ).
X e
i=1
e

A un vector X = (X1 , . . . , Xn ) de v.a.i.i.d. con distribucion igual a la de


e
la variable aleatoria X se le denomina tambien muestra aleatoria simple
de X (m.a.s de X). Esto responde al hecho siguiente. Supongamos que se desea estudiar la caracterstica X de los individuos de una poblacion de tama
no
infinito. Definimos el experimento consistente en elegir aleatoriamente un individuo de la poblacion y llamamos X al valor de la caracterstica de interes en

1.2. VARIABLE ALEATORIA

ese individuo. X es una variable aleatoria. Si definimos un nuevo experimento


consistente en elegir una muestra aleatoria de n individuos y se anota Xi , el
valor de la caracterstica en el individuo i-esimo, entonces X = (X1 , . . . , Xn )
e
es una coleccion de n v.a.i.i.d. con distribucion igual a la de la variable aleatoria
X, es decir, X1 , . . . , Xn es una m.a.s. de X.

1.2.5.

Modelo param
etrico

Usualmente la ley de probabilidad de una variable aleatoria se supone perteneciente a un modelo matematico que depende solo de un n
umero finito de parametros:
fX {f (x|) : IRk }.
Escribiremos alternativamente f (x; ), f (x|) o f (x). El conjunto de distributrica de distribuciociones dadas por f (x), se llama familia parame
nes. es el conjunto de parametros.
La correspondiente distribucion conjunta de una muestra aleatoria simple de
X viene dada por la funcion de densidad (o funcion de masa de probabilidad,
seg
un el caso)
n
Y
f ( x |) =
f (xi ).
X e
i=1
e
n de verosimilitud de la muestra X .
A esta funcion la llamaremos funcio
e
Utilizaremos este termino para referirnos indistintamente a la funcion de densidad conjunta (si las variables aleatorias son continuas) o a la funcion de masa
conjunta (si son discretas).

Ejemplo 4
Si X N (, 2 ),
fX (x|, 2 ) =

1
2 2

e 22 (x) .

La distribucion de X es conocida salvo por dos parametros, y 2 . En este caso


k = 2, = (, 2 )2 y = IR IR+ IR2 .
La distribucion conjunta de n v.a.i.i.d. con la misma distribucion es
f

Pn
1
1
1

||x1n ||2
12
(xi )2
2
i=1
e
e (22 )n
( x |, 2 ) =
=
2
n
2
n
X e
(2 )
(2 )
e

donde 1n = (1, . . . , 1)t IRn .


.


CAPITULO 1. INTRODUCCION

1.2.6.

Sumas de variables aleatorias

Cuando se obtiene una muestra aleatoria simple X1 , . . . , Xn normalmente se


calculan a partir de ellas cantidades que resumen los valores observados. Cualquiera de estos res
umenes se puede expresar como una funcion T (x1 , . . . , xn ) definida en el espacio X n IRn donde estan las imagenes del vector (X1 , . . . , Xn ).
Esta funcion T puede devolver valores de IR, IR2 o, en general, IRk .

Ejemplo 5

T (X1 , . . . , Xn ) =
T (X1 , . . . , Xn )

n
X

Xi , X, X + 3, mn{X1 , . . . , Xn }

i=1
n
X

= (

i=1

Xi ,

n
X
(Xi X)2 )
i=1

T (X1 , . . . , Xn )

= (mn{X1 , . . . , Xn },

T (X1 , . . . , Xn )

n
X
i=1

Xi ,

n
X

(Xi X)2 )

i=1

(X1 , . . . , Xn )

Las funciones T que dependen de una muestra aleatoria simple X1 . . . , Xn


se llaman estadsticos. Dependen de los valores observados, pero no de los
parametros desconocidos que determinan la distribucion de Xi . Cuando un estadstico T es utilizado con el proposito de estimar un parametro diremos que
T es un estimador de .

Ejemplo 6
T (X1 , . . . , Xn ) = X es un estimador de = E(X).
.

En inferencia estadstica interesa saber que estadsticos son suficientes para


recoger toda la informacion que la muestra aporta sobre la distribucion de la
variable aleatoria X muestreada. La respuesta depende de la distribucion de X.
Dado que X = (X1 , . . . , Xn ) es una variable aleatoria, se tiene que Y =
e
T (X1 , . . . , Xn ) sera tambien una variable aleatoria. La ley de probabilidad de Y
n en el muestreo de Y (o distribucion muestral).
se denomina distribucio
Los siguientes resultados dan informacion sobre algunas caractersticas de
estadsticos definidos a partir de sumas de variables aleatorias.

1.2. VARIABLE ALEATORIA

Pn
Teorema 1 Sean x1 , . . . , xn n n
umeros reales, sea x = n1 i=1 xi su media
Pn
aritmetica y sea S 2 = i=1 (xi x)2 /(n 1) su varianza muestral.
Pn
a)2 = i=1 (xi x)2 .
Pn
Pn
(b) (n 1)S 2 = i=1 (xi x)2 = i=1 x2i nx2 .

(a) mna

Pn

i=1 (xi

Demostraci
on:
(a)

n
n
X
X
(xi a)2 =
(xi x + x a)2 =
i=1
n
X

i=1

(xi x)2 +

n
X

i=1

i=1

n
X

n
X

i=1

(observar que

(xi x)2 +

(x a)2 + 2

n
X
(xi x)(x a) =
i=1

(x a)2 + 2(x a)

i=1

Pn

i=1 (xi

n
X

(xi x) =

i=1

x) = 0)

n
n
n
X
X
X
(xi x)2 +
(x a)2
(xi x)2 .
i=1

i=1

i=1

Por lo tanto el mnimo se alcanza si a = x.


(b) Trivial.
2
Lema 1 Sea X1 , . . . , Xn una muestra aleatoria simple de X y sea g(x) una
funci
on tal que E(g(X)) y V (g(X)) existen. Entonces,
Pn
(a) E( i=1 g(Xi )) = nE(g(X)),
Pn
(b) V ( i=1 g(Xi )) = nV (g(X)),
Demostraci
on: (a) Trivial, por propiedades basicas del operador esperanza.
(b) Trivial, observando que las variables aleatorias g(Xi ) son independientes y
aplicando propiedades basicas del operador varianza.
2
Teorema 2 Sea X1 , . . . , Xn una muestra aleatoria simple de una poblaci
on X
con esperanza y varianza 2 < . Sean
n

X=

1X
1 X
Xi , S 2 =
(Xi X)2 ,
n i=1
n 1 i=1

la media y la varianza muestrales, respectivamente. Entonces,


CAPITULO 1. INTRODUCCION

10
(a) E(X) = ,
(b) V (X) = 2 /n,
(c) E(S 2 ) = 2 .

Demostraci
on: (a), (b) Triviales, por el lema anterior y las propiedades basicas
de la esperanza y la varianza.
(c)
(n 1)S 2 =

n
X

Xi2 nX = (n 1)E(S 2 ) = nE(X 2 ) nE(X ) =

i=1

1
n(V (X) + E(X)2 ) n(V (X) + E(X)2 ) = n 2 + n2 n 2 n2 =
n
(n 1) 2 = E(S 2 ) = 2 .
2
El siguiente resultado expresa la funcion generatriz de momentos (f.g.m.) de
la media muestral en funcion de la f.g.m. de la variable aleatoria muestreada.
Es muy u
til cuando esta u
ltima f.g.m. es conocida, porque permite determinar
completamente la distribucion de la media muestral.
Teorema 3 Sea X1 , . . . , Xn una muestra aleatoria simple de una poblaci
on X
con funci
on generatriz de momentos MX (t). La funci
on generatriz de momentos
de X es
n
MX (t) = (MX (t/n)) .
Demostraci
on: La f.g.m. de X se define como MX (t) = E(etX ) para los valores
de t para los que esa esperanza existe. As,
n
!

t Pn

Y t
Xi
tX
X
i
n
i=1
MX (t) = E e
en
=
=E e
=E
i=1

(independencia de las v.a. Xi )


n
Y

E e

t
n Xi

n
Y

MXi (t/n) =

i=1

i=1

(las Xi son identicamente distribuidas)


n
Y

MX (t/n) = (MX (t/n)) .

i=1

1.2. VARIABLE ALEATORIA

11

Ejemplo 7
X1 , . . . , Xn m.a.s. de X N (, 2 ). Entonces,
MX (t) = exp(t +
As,

2 t2
).
2

2 t2
t 2 (t/n)2
MX (t) = exp( +
)
= exp(t +
)
n
2
2n

y, por tanto, X N (, 2 /n).


.

Ejemplo 8
X1 , . . . , Xn m.a.s. de X (, ). Entonces,
fX (x) =

x1 ex/
, x > 0, E(X) = , V (X) = 2 ,
()

MX (t) =

As,

MX (t) =

1
1 t

1
1 t/n

, t<

n
=

1
.

1
1 (/n)t

y, por lo tanto, X (n, /n).


Un caso particular de distribucion gamma es la distribucion exponencial.
Si X es exponencial de media , entonces X (1, ). As que la media de
exponenciales de media sera una (n, /n) que tendra
E(X) = n

2
2
= , V (X)n 2 =
.
n
n
n
.

Si el Teorema 3 no se puede aplicar porque o bien la f.g.m. no existe, o bien


porque la f.g.m resultante no se corresponde con ninguna distribucion conocida,
siempre es posible intentar alguna de las dos estrategias siguientes para tratar
de determinar la distribucion de la media muestral. En primer lugar, se puede
trabajar con la funcion caracterstica que siempre existe. En segundo lugar se
puede tratar de calcular directamente la funcion de densidad de la suma como
la convolucion de las n funciones de densidad (ver el ejemplo de la distribucion
de Cauchy, Casella-Berger, paginas 210-211).


CAPITULO 1. INTRODUCCION

12

1.3.
1.3.1.

Dos familias de distribuciones importantes


Familias de localizaci
on y escala

Sea Z una variable aleatoria con distribucion conocida. A la coleccion de


distribuciones de probabilidad de las variables aleatorias X que se pueden definir
de la forma
X = + Z, , IR > 0
n y escala construida a partir de la
se la denomina familia de localizacio
distribucion de Z.
En particular, si Z es variable aleatoria absolutamente continua con funcion
de densidad f (x), la familia de funciones de densidad

1
x
f (x|, ) = f
: IR, > 0

n y escala de f (x).
forman la familia de localizacio
El parametro de escala dilata la distribucion si > 1 y la contrae si < 1.
El parametro de posicion traslada la densidad || unidades a la derecha (si
> 0) o a la izquierda (si < 0).
Proposici
on 1
(a) Z f (x) X = Z + f (x|, ).
(b) X f (x|, ) X
f (x).

Demostraci
on: Trivial, aplicando la formula de la funcion de densidad de la
transformacion biyectiva de una variable aleatoria univariante.
2

Ejemplo 9
Las siguientes son algunas de las familias de distribuciones usuales que son de
localizacion y escala y se parametrizan habitualmente como tales: normal, doble
exponencial, Cauchy. La distribucion uniforme U (a, b) tambien es una familia
de localizacion y escala. En este caso = (a + b)/2 y = b a podran servir
como parametros de posicion y escala.
.
.

Corolario 1 Sea Z1 , . . . , Zn una m.a.s. de Z f (x) y sea X1 , . . . , Xn una

.
m.a.s. de X f (x|, ). Si la ley de Z es g(z) entonces la ley de X es 1 g x

Demostraci
on: Observar que Xi Zi + , luego X Z + . Aplicando la
proposicion anterior se tiene el resultado.
2

NORMAL
1.4. MUESTREO DE UNA DISTRIBUCION

1.3.2.

13

Familias exponenciales

X pertenece a la familia exponencial si su funcion de densidad o funcion de


masa de probabilidad depende de un parametro IRp y puede escribirse
as:

k
X
f (x|) = h(x)c() exp
wj ()tj (x)
j=1

para ciertas funciones h, c, wj y tj . Si p = k y wj () = j , j = 1, . . . , p, entonces


diremos que la familia exponencial esta parametrizada de forma natural. En ese
trico natural de esa familia es el conjunto
caso, el espacio parame

Z
k
X
= { IRk :
h(x) exp
j tj (x) dx < }.

j=1

Si X1 , . . . , Xn es muestra aleatoria simple de X, en la familia exponencial,


entonces

n
!
k
n
Y
X
X
n
f (x1 , . . . , xn |) =
h(xi ) (c()) exp
wj ()
tj (xi ) .
i=1

j=1

i=1

Pn
Observar que si definimos Tj (X1 , . . . , Xn ) = i=1 tj (Xi ), j = 1, . . . , p, entonces la distribucion de (T1 , . . . , Tk ) viene dada por

k
X
n
fT (u1 , . . . , uk |) = H(u1 , . . . , uk ) (c()) exp
wj ()uj ,
j=1

es decir, T tambien pertenece a la familia exponencial.

Ejemplo 10
Ejemplos de familias exponenciales son estos: binomial, geometrica, Poisson, binomial negativa, exponencial, normal, gamma, beta.
.
.

1.4.

Muestreo de una distribuci


on normal

En el resto del tema supondremos que X1 , . . . , Xn es una m.a.s. de una


N (, 2 ).
Teorema 4 (Teorema de Fisher)
dependientes.

(a) X y Sn2 son variables aleatorias in-


CAPITULO 1. INTRODUCCION

14
(b) X N (, 2 /n).
(c) (n 1)Sn2 / 2 2n1 .

Demostraci
on: Suponemos, sin perdida de generalidad, que = 0 y = 1,
puesto que la familia normal es una familia de posicion y escala.
(b) Se ha demostrado en el ejemplo 7.
(a) Observese que
(n

1)Sn2

n
X

(Xi X) = (X1 X) +

i=1

(como

Pn

i=1 (Xi

n
X

(Xi X)2 =

i=2

X) = 0)

!2
n
n
X
X
(Xi X) +
(Xi X)2
i=2

i=2

de donde se deduce que Sn2 es funcion de (X2 X, . . . , Xn X). Probaremos


ahora que (X2 X, . . . , Xn X) y X son independientes, lo cual implicara que
(a) es cierto.
Hacemos el cambio de variable
Pn
Pn
Pn

y1 = x
x1 = nx i=2 xi = x i=2 (xi x) = y1 i=2 yi

x2 = y2 + y1
y2 = x2 x
= .
..
..

xn = yn + y1
yn = xn x
El jacobiano del cambio de x a y es 1/n. Luego la densidad de la variable
aleatoria transformada es
fY (y1 . . . , yn ) = fX (y1

n
X

yi , y2 + y1 , . . . , yn + y1 )n =

i=2

)
n
n
X
1
1X
()
2
2
n exp (y1
yi )
(yi + y1 )
=
2
2
i=2
i=2
(
n
!)

n
X
1 X 2
n
1 2
2

exp ny1 exp


y +(
yi )
.
2
2 i=2 i
( 2)n
i=2

Por lo tanto Y1 es independiente de (Y2 , . . . , Yn ) y de aqu se sigue que X es


independiente de Sn2 .
() Falta por justificar el paso marcado con un ():
(y1

n
X
i=2

yi )2 +

n
X
i=2

(yi + y1 )2 =

NORMAL
1.4. MUESTREO DE UNA DISTRIBUCION

15

n
n
n
n
X
X
X
X
y12 + (
yi )2 2y1
yi +
yi2 + (n 1)y12 + 2y1
yi =
i=2

i=2

i=2
n
X

ny12 + (

i=2

yi )2 +

i=2

n
X

yi2 .

i=2

(c) La demostracion de este apartado se seguira mejor despues del apartado


siguiente en el que se tratan las distribuciones de probabilidad asociadas a la
normal.
Denotaremos por X n y por Sn2 , respectivamente, la media muestral y la
varianza muestral calculadas a partir de una muestra de tama
no n.
En primer lugar probaremos que se verifica la siguiente formula recursiva:
2
(n 1)Sn2 = (n 2)Sn1
+

n1
(Xn X n1 )2 .
n

En efecto,
(n 1)Sn2 =

n
X

(Xi X n )2 =

n1
X

i=1

(Xi X n1 + X n1 X n )2 + (Xn X n )2 =

i=1

2
(n 2)Sn1
+ (n 1)(X n1 X n )2 + (Xn X n )2 = ()

(teniendo en cuenta que (n 1)X n1 = nX n Xn = (n 1)(X n1 Xn ) =


n(X n Xn ) y que (n1)(X n1 X n ) = (X n Xn ) = ((n1)/n)(X n1 Xn ))
2
() = (n 2)Sn1
+ (n 1)

1
(n 1)2
2
(X

X
)
+
(X n1 Xn )2 =
n1
n
n2
n2

2
(n 2)Sn1
+

n1
(Xn X n1 )2 .
n

2
probaremos por induccion que
Una vez probada la relacion entre Sn2 y Sn1
2
2
2
(n 1)Sn / n1 .

Para n = 2, la formula recursiva nos da


S22 =

1
(X2 X1 )2 .
2

Como X1 y X2 son N (0, 1) independientes, entonces (X2 X1 )/ 2 N (0, 1)


y de ah que

S22 = ((X2 X1 )/ 2)2 21 ,


con lo que queda probado el resultado para n = 2.
Supongamos que el resultado es cierto para n = k, es decir,
(k 1)Sk2 / 2 2k1 .


CAPITULO 1. INTRODUCCION

16

Probemos que es tambien cierto para n = k + 1. Observar que


k
2
kSk+1
= (k 1)Sk2 +
(Xk+1 X k )2 .
| {z } k + 1
2k1

As, el resultado quedara demostrado si se prueba que (k/(k+1))(Xk+1 X k )2 es


una 21 , puesto que esta variable es independiente de Sk2 , al ser X k independiente
de Sk2 (apartado (a)) y ser Xk+1 independiente de las k primeras observaciones.
Por esta misma razon, Xk+1 N (0, 1) es tambien independiente de X k
N (0, 1/k). As que

Xk+1 X k N

k+1
0,
k

!2
k
(Xk+1 X k )
21
k+1

que es precisamente lo que queramos probar.

Existen demostraciones alternativas de este teorema basadas en la funcion


generatriz de momentos o en la funcion caracterstica.

1.4.1.

Distribuciones asociadas a la normal

En esta seccion se recuerdan las definiciones de las leyes 2 , t de Student


y F de Fisher-Snedecor. Tambien se enuncian algunas de sus propiedades. Las
demostraciones pueden encontrarse en la seccion 5.4 de Casella-Berger.
La ley 2
n 2 con grados de libertad y se denota
Diremos que X tiene distribucio
2
X si su funcion de densidad es
f (x) =

1
x(/2)1 ex/2 , 0 < x < ,
(/2)2/2

es decir, X (/2, 2).


Lema 2

(a) Si X N (, 2 ) entonces
(X )2
21 .
2

(b) Si X1 , . . . , Xn son variables aleatorias independientes y Xi 2i entonces


Y =

n
X
i=1

donde =

Pn
i=1

i .

Xi 2 ,

NORMAL
1.4. MUESTREO DE UNA DISTRIBUCION

17

(c) Sean X1 , . . . , Xn variables aleatorias independientes e identicamente distribuidas seg


un una N (0, 1). La variable aleatoria
Y =

n
X

Xi2 2n .

i=1

(Nota: esta propiedad se usa a veces como definici


on de la distribuci
on
2 ).
La ley tp
n t de Student con p grados de
Diremos que X sigue una distribucio
libertad y lo denotaremos X tp , si su funcion de densidad es
fp (x) =

1
((p + 1)/2) 1
, < x < .

(p/2)
p (1 + t2 /p)(p+1)/2

Si p = 1 se trata de la distribucion de Cauchy.


Lema 3

(a) Z N (0, 1), Y 2p , Z e Y independientes, entonces,


Z
tp .
X=p
Y /p

(Nota: esta propiedad se usa a veces como definici


on de la distribuci
on t
de Student.)
(a) Sean X1 , . . . , Xn una m.a.s. de una N (, 2 ). Entonces
X
tn1 .
S/ n
La distribucion t de Student no tiene f.g.m. porque no tiene momentos de
todos los ordenes. Si X tp entonces solo existen los momentos de orden
estrictamente inferior a p: existe E(X ) para < p.
Si X tp , entonces E(X) = 0 si p > 1 y V (X) = p/(p 2) si p > 2.
La ley Fp,q
n F con p y q grados de libertad y
Diremos que X sigue una distribucio
lo denotaremos X Fp,q , si su funcion de densidad es

p/2
p+q
p
x(p/2)1
fp,q (x) = p 2 q
, 0 < x < .

p+q
q
2 2
2
p
1 + qx
Lema 4

(a) Si U 2p , V 2q y U y V son independientes, entonces


X=

U/p
Fp,q .
V /q

(Nota: esta propiedad se usa a veces como definici


on de la distribuci
on
F .)


CAPITULO 1. INTRODUCCION

18

2
(b) Sean X1 , . . . , Xn m.a.s. de N (X , X
), Y1 , . . . , Ym m.a.s. de N (Y , Y2 ),
dos muestras independientes. Entonces
2
2
SX
/X
Fn1,m1 .
SY2 /Y2

(c) Si X Fp,q , entonces X 1 Fq,p .


(d) Si X tp ,entonces X 2 F1,p .
(e) Si X Fp,q , entonces
p q
p X

Beta
,
.
q 1 + pq X
2 2
(f ) Si X Fn1,m1 , entonces

E(X) = E

2n1 /(n 1)
2m1 /(m 1)

n1
n1

=E

m1
m3

2n1
n1

m1
2m1

m1
.
m3

(g) Si las distribuciones de partida tienen simetra esferica, entonces el cociente de las varianzas muestrales sigue una F (Casella-Berger, p. 227).

1.5.

Leyes de los Grandes N


umeros y Teorema
Central del Lmite

En esta seccion se enuncian dos resultados fundamentales en inferencia estadstica: la Ley Fuerte de los Grandes N
umeros y el Teorema Central del Lmite.
Dada una sucesion de variables aleatorias definidas sobre el mismo espacio
meros a los resultados sobre
muestral, se llaman leyes de los grandes nu
convergencia de las sucesiones de sus medias aritmeticas a una constante. Se
conoce como problema del lmite central el estudio de la convergencia
debil de la sucesion de medias muestrales centradas y tipificadas a una distribucion no degenerada.

1.5.1.

Leyes de los grandes n


umeros

bil de los grandes nu


meSe enuncia a continuacion una version de ley de
ros que establece la convergencia en media cuadratica (y por tanto, en probabilidad) de la media aritmetica de una sucesion de variables aleatorias incorreladas.


1.5. LEYES DE LOS GRANDES NUMEROS
Y TEOREMA CENTRAL DEL LIMITE19
Teorema 5 (Ley d
ebil de los grandes n
umeros) Sea {Xn }nIN una sucesi
on de variables aleatorias incorreladas con momentos de segundo orden acoPn
tados por una constante C, independiente de n. Sea Sn = i=1 Xi . Entonces

!
Sn E(Sn ) 2
C

n
n
y, como consecuencia

Sn E(Sn )
=0
n
en el sentido de la convergencia en media cuadr
atica.
lm

La demostracion de este resultado puede verse, por ejemplo, en Sanz (1999).


Como caso particular del teorema anterior, se puede probar la convergencia
en probabilidad de la frecuencia relativa de un suceso a su probabilidad (ver
Sanz 1999). Este resultado se conoce como ley debil de Bernoulli.
Los resultados que garantizan la convergencia casi segura de la media muesmeros. Se enuncia
tral se conocen como leyes fuertes de los grandes nu
a continuacion una ley fuerte para variables con segundos momentos finitos e
incorreladas.
Teorema 6 (Ley fuerte de los grandes n
umeros) Bajo las hip
otesis del teorema 5 se tiene que
Sn E(Sn )
lm
=0
n
n
en el sentido de la convergencia casi segura.
En Sanz (1999) puede encontrarse la demostracion de este resultado. En ese
mismo texto se recoge una version mas general de la ley fuerte de los grandes
meros de Kolmon
umeros, conocida como ley fuerte de los grandes nu
gorov: en el caso i.i.d. basta con que haya eseranza finita para que se de la
convergencia casi segura de la media muestral a la esperanza.

1.5.2.

Teorema central del lmite

vyEn esta seccion se presenta el teorema central del lmite de Le


Lindeberg, valido para sucesiones de variables aleatorias independientes e
identicamente distribuidas con momento de segundo orden finito.
Teorema 7 (Teorema central del lmite) Sea {Xn }nIN una sucesi
on de
variables aleatorias independientes e identicamente distribuidas con momento
de segundo orden finito. Sea la esperanza com
un y 2 la varianza com
un, que
Pn
supondremos estrictamente positiva. Sea Sn = i=1 Xi . Se tiene que
Sn n

D Z,
n
donde Z N (0, 1) y D indica convergencia en distribuci
on.


CAPITULO 1. INTRODUCCION

20

Este resultado puede demostrarse utilizando funciones generadoras de moementos o funciones caractersticas, como se hace en Casella-Berger. En Sanz
(1999) se da una demostracion (mas laboriosa) que no requiere el uso de estas
transformaciones. En Casella-Berger puede encontrarse una version mas fuerte
del teorema central del lmite.
El Teorema de De Moivre-Laplace, que establece la convergencia debil de la
binomial tipificada a la normal estandar, es una aplicacion directa del teorema
central del lmite de Levy-Lindeberg. Ejemplos del uso habitual de la aproximacion de la binomial por la normal son la estimacion del error de aproximar
la frecuencia relativa por la probabilidad y el calculo de tama
nos muestrales en
encuestas.

1.5.3.

Versiones multivariantes

Se enuncian a continuacion versiones multivariantes de la ley de los griandes


n
umeros y del teorema central del lmite.
Teorema 8 Sea { X n }nIN una sucesi
on de variables aleatorias p-dimensionales
e
independientes e identicamente distribuidas. Sea X el vector p-diemensional
e n
media aritmetica de las n primeras variables:
n

1X
X =
X i.
n i=1 e
e n
Se tiene lo siguiente:
1. Si existe E( X i ) = , entonces X converge a casi seguramente.
e
e n
2. Si, adem
as, X i tiene matriz de varianza y covarianzas finita , entonces
e

n( X ) D Np (0, ).
e n
La demostracion de este resultado puede encontrarse, por ejemplo, en Arnold
(1990).
Como corolario se puede probar la convergencia de la distribucion multinomial (centrada y tipificada) a una normal multivariante (ver Arnold 1990).

1.6. LISTA DE PROBLEMAS

1.6.

21

Lista de problemas

Variables aleatorias. Muestras


1. (Casella-Berger, 5.2) Sean X1 , X2 . . . v.a.i.i.d. cada una de ellas con densidad f (x). Supongamos que cada Xi mide la cantidad anual de precipitaciones en un determinado emplazamiento. Da la distribucion del n
umero
de a
nos que transcurren hasta que las lluvias del primer a
no, X1 , son
superadas por primera vez.
2. (Casella-Berger, 5.5) Sean X1 , . . . , Xn v.a.i.i.d. con densidad fX (x). Sea
X su media muestral. Prueba que
fX (x) = nfX1 ++Xn (nx).
3. (Examen parcial 2000; Casella-Berger, 5.9) Sea X1 , . . . , Xn una muestra
aleatoria simple de X, a partir de la que se calcula la media y la varianza
muestral de la forma usual:
n

X=

1X
1 X
Xi , S 2 =
(Xi X)2 .
n i=1
n 1 i=1

a) Prueba que

S2 =

XX
1
(Xi Xj )2 .
2n(n 1) i=1 j=1

Supongamos que E(X 4 ) < . Sean 1 = E(X) y j = E((X 1 )j ),


j = 2, 3, 4.
b) Prueba que
1
V (S ) =
n
2

n3 2
4
.
n1 2

c) Da la expresion de Cov(X, S 2 ) en terminos de 1 , . . . , 4 . Bajo que condiciones son X y S 2 incorreladas?


d ) Si la distribucion de X es simetrica respecto de 1 , es posible que la
covarianza de esos estadsticos sea no nula?
e) Si la distribucion de X no es simetrica respecto de 1 , es posible que
la covarianza de esos estadsticos sea nula?
4. (Casella-Berger, 5.16) Llamemos X n y Sn2 a la media y la varianza muestrales calculadas a partir de n observaciones X1 , . . . , Xn . Supongamos que
se observa un nuevo valor Xn+1 . Demuestra las siguientes formulas recursivas.
a)
X n+1 =

1
(Xn+1 + nX n ).
n+1


CAPITULO 1. INTRODUCCION

22
b)

2
nSn+1
= (n 1)Sn2 +

n
(Xn+1 X n )2 .
n+1

5. (Casella-Berger, 5.18) Sean X 1 y X 2 las medias muestrales calculadas a


partir de dos muestras independientes de tama
no n de una poblacion con
varianza 2 . Halla el menor valor de n que garantiza que

P |X 1 X 2 | <
5
es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychev
como el Teorema Central del Lmite. Comenta los resultados obtenidos.
6. (Casella-Berger, 5.29) Sean Xi N (i, i2 ), i = 1, 2, 3, tres variables aleatorias independientes. Construye a partir de estas variables aleatorias otras
que tengan las siguientes distribuciones.
a) 23 .
b) t2 .
c) F1,2 .
7. (Casella-Berger, 5.36) Sean Ui , i = 1, 2, . . . , variables aleatorias independientes con distribucion U (0, 1). Sea X una variable aleatoria con distribucion
1
P (X = x) =
, x = 1, 2, 3, . . .
(e 1)x!
Da la distribucion de
Z = mn{U1 , . . . , UX }.
n: Observar que Z|X = x es el primer estadstico de orden de
Indicacio
una muestra de tama
no x de una U (0, 1).
8. (Casella-Berger, 5.37) Sea X1 , . . . , Xn una muestra aleatoria simple de una
poblacion con densidad
fX (x) =

1
I(0,) (x).

Sean X(1) , . . . , X(n) los estadsticos orden. Prueba que X(1) /X(n) y X(n)
son independientes.
9. Demuestra los lemas 2, 3 y 4.

Familias exponenciales
10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias exponenciales y describe el espacio parametrico natural de cada una de ellas.
a) Familia normal con alguno de los parametros o conocidos.

1.6. LISTA DE PROBLEMAS

23

b) Familia gamma con alguno de los parametros o conocidos.


c) Familia beta con alguno de los parametros o conocidos.
d ) Familia Poisson.
e) Binomial negativa con el parametro r conocido y 0 < p < 1.
11. (Casella-Berger, 3.30) Considera la familia exponencial expresada en terminos de su espacio parametrico natural con densidad
k
X
f (x; ) = h(x)c( ) exp{
i ti (x)}.
e
e
i=1

Prueba que

log(c( )).
(t (X)) =
i
i
e
e
n: Usa el hecho de que para una familia exponencial se tiene
Indicacio
que
Z
Z j
j

f (x)dx =
f (x)dx.
j
j

i
i
e
e
12. Considera la familia de distribuciones normales con media y varianza
2 , donde puede tomar cualquier valor real. Prueba que esta familia es
una familia exponencial y determina el espacio parametrico natural.
E

13. Sean X1 , . . . , Xn v.a.i.i.d. con distribucion perteneciente a una familia exponencial expresada en terminos del espacio parametrico natural. Prueba
que la distribucion conjunta de las n variables tambien pertenece a la
familia exponencial.
14. (Arnold 1990, Ex. A1, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi Poisson(i), > 0. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
15. (Arnold 1990, Ex. A2, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi N (i, 1), R. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
16. (Arnold 1990, Ex. A3, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi Exp(1/(i)), E(Xi ) = i, > 0. Prueba que la familia de
distribuciones conjuntas de las n variables es una familia exponencial.

Familias de localizaci
on y escala
17. (Casella-Berger, 3.31) Considera la funcion de densidad
f (x) =
Dibuja el grafico de

63 6
(x x8 ), 1 < x < 1.
4

1
x
f

para los siguientes valores de y en el mismo sistema de ejes cartesianos.


CAPITULO 1. INTRODUCCION

24
a) = 0, = 1.
b) = 3, = 1.
c) = 3, = 2.

18. (Casella-Berger, 3.32) Muestra que si f (x) es una funcion de densidad


simetrica alrededor de 0, entonces la mediana de la densidad

1
x
f

es .
19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f (z). Se
define z como un n
umero que satisface que
Z
= P (Z > z ) =
f (z)dz.
z

Sea X una variable aleatoria con densidad en la familia de localizacion y


escala de f

x
1
f

y sea x = + z . Prueba que P (X > x ) = . (Nota: As, los valores de x se calculan facilmente para cualquier miembro de la familia de
localizacion y escala si se dispone de una tabla de valores z .)
20. (Casella-Berger, 3.34) Considera la distribucion de Cauchy, con densidad
f (x) =

1
, x IR,
(1 + x2 )

y la familia de localizacion y escala definida a partir de ella: X tiene


distribucion de Cauchy con parametros y si su densidad es
f (x; , ) =

, x IR.
( 2 + (x )2 )

No existen la esperanza ni la varianza de estas distribuciones, luego


y 2 no son la media y la varianza. No obstante, tienen un importante
significado.
a) Prueba que es la mediana de X.
b) Prueba que y + son los cuartiles primero y tercero, respectivamente, de X.
21. (Casella-Berger, 3.35) Sea f (x) una funcion de densidad con media y
varianza 2 . Indica como crear una familia de localizacion y escala basada
en f (x) tal que la densidad estandar de la familia, f (x), tenga esperanza
0 y varianza 1.

Captulo 2

Principios para reducir los


datos
Referencias: Casella-Berger, captulo 6. En algunos puntos se han
seguido tambien Crist
obal (1992) (captulo 7), Schervish (1995)
(captulo 2) y Garca-Nogales (1998) (captulo 3).

El uso de cualquier estadstico T ( X ) implica una reduccion de los datos


e
muestrales. Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple (un vector
e
aleatorio) y sean x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) muestras observadas (reae
e
lizaciones de X ). Si decidimos usar el estadstico T ( X ) en vez de toda la muese
e
tra, seran tratadas igual dos muestras observadas cualesquiera x , y , siempre
e e
que T ( x ) = T ( y ). Es decir, al usar el estadstico T , en lugar de toda la muese
e
tra, se pierde informaci
on. Se plantea as el problema de buscar estadsticos T
tales que la informacion que se pierde al usarlos sea irrelevante para los fines
que nos hayamos marcado.
Dado el espacio muestral X , la imagen de mediante el vector aleatorio
X , reducir los datos en terminos de un estadstico T es equivalente a dar
e
una particion de X . En efecto, sea T = {t : t = T (x), para alg
un x X }, la
imagen de X mediante el estadstico T . Entonces {At = T 1 (t) : t T } es una
particion de X inducida por T . Al observar x y limitarnos a registrar el valor
e
de T ( x ), podremos saber que hemos observado un elemento de A
, pero
T( x )
e
e
desconoceremos cual de ellos.

Ejemplo 11
Se lanza una moneda n veces y se anota cada vez Xi = 1 si sale cara y Xi = 0
si sale cruz. El espacio muestral es
X = { x = (x1 , . . . , xn ) : xi {0, 1}}.
e
25

26

CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Se define T ( x ) =
e

Pn
i=1

xi . Entonces
T = {0, 1, 2, . . . , n}.

El estadstico T ha creado una particion en X de forma que todas aquellas


secuencias de resultados con igual n
umero de unos estan en la misma clase:
At = { x = (x1 , . . . , xn ) T :
e

n
X

xi = t}.

i=1

No podemos distinguir entre (1, 0, 0, . . . , 0) y (0, 1, 0, . . . , 0), por ejemplo.


.

En este tema estudiaremos dos principios para reducir los datos que garantizan que en el proceso de reduccion no se pierde informacion relevante sobre
los aspectos en estudio de la variable aleatoria de interes. Estos principios son
el principio de suficiencia y el principio de verosimilitud. A ellos puede a
nadirse
el principio de invariancia, que no trataremos aqu (puede consultarse la seccion
6.3 del Casella-Berger como material de lectura).
En adelante supondremos que la variable aleatoria X en estudio tiene distribucion perteneciente a una familia parametrica:
X {f (x|), IRk }.
Se supondra ademas que se toma una muestra aleatoria simple de X y que a
partir de ella se calculan estadsticos.

2.1.

Principio de suficiencia

Un estadstico T es suficiente para un parametro si captura toda la informacion que sobre contiene la muestra. Cualquier informacion adicional (es
decir, aparte del valor del estadstico T ) que la muestra pueda aportar, no proporciona informacion relevante sobre . Estas consideraciones se concretan en
el siguiente principio:
Principio de suficiencia:
Si T es un estadstico suficiente para , cualquier inferencia sobre ha de depender de la muestra X = (X1 , . . . , Xn ) s
olo a traves del valor T ( X ). Es decir,
e
e
si x e y son tales que T ( x ) = T ( y ), entonces la inferencia que se haga sobre
e e
e
e
ser
a la misma tanto si se observa x como si se observa y .
e
e
Formalmente, diremos que un estadstico T es suficiente para si la distribucion condicionada de X dado el valor T ( X ), no depende de .
e
e
Veamos, en el caso discreto, que la informacion que sobre un parametro
aporta un estadstico suficiente es toda la informacion que aportara la muestra

2.1. PRINCIPIO DE SUFICIENCIA

27

completa. En primer lugar, si t es uno de los posibles valores de T ( X ), es decir,


e
si P (T ( X ) = t) > 0, entonces
e
(
P ( X = x |T ( X ) = T ( x )) si T ( x ) = t
P ( X = x |T ( X ) = t) =
e
e
e
e
e
0
si T ( x ) 6= t
e
e
e
e
As que solo son de interes las probabilidades condicionadas P ( X = x |T ( X ) =
e
e
e
T ( x )). Si T es suficiente estas probabilidades no dependen de , luego,
e
P ( X = x |T ( X ) = T ( x )) = P ( X = x |T ( X ) = T ( x ))
e
e
e
e
e
e
e
e
para todo . En este sentido entendemos que T captura toda la informacion
sobre .
Supongamos que dos cientficos se interesan por la variable aleatoria X cuya
distribucion depende del parametro desconocido . Supongamos ademas que el
primer cientfico observa toda una muestra x de X, mientras que el segundo
e
s
olo puede estudiar el fenomeno a traves de una revista que publica el valor del
estadstico suficiente T ( x ). La cuestion relevante entonces es saber si ambos
e
cientficos tienen o no la misma informacion sobre . Veamos que as es.
Como P ( X = x |T ( X ) = T ( x )) no depende de , esta distribucion cone
e
e
e
dicional puede calcularse a partir del modelo que sigue X. Por lo tanto ambos
cientficos conocen
P ( X = y |T ( X ) = T ( x )), para todo y A
= {y : T ( y ) = T ( x )}.
T( x )
e
e
e
e
e
e
e
Si el segundo cientfico quisiera, podra generar un vector aleatorio Y siguiendo
e
esa distribucion y se satisfara que
P ( Y = y |T ( X ) = T ( x )) = P ( X = y |T ( X ) = T ( x )), para todo y A
T( x )
e
e
e
e
e
e
e
e
e
Por lo tanto X e Y tendran la misma distribucion condicionada a que T ( X ) =
e
T ( x ). Ademas, ambas variables tienen la misma distribucion incondicional:
e
P ( X = x ) = P ( X = x , T ( X ) = T ( x )) =
e
e
e
e
e
e
(porque { X = x } {T ( X ) = T ( x )})
e
e
e
e
P ( X = x |T ( X ) = T ( x ))P (T ( X ) = T ( x )) =
e
e
e
e
e
e
P ( Y = x |T ( X ) = T ( x ))P (T ( X ) = T ( x )) =
e
e
e
e
e
e
P ( Y = x , T ( X ) = T ( x )) =
e
e
e
e
(teniendo en cuenta que { Y = x } {T ( X ) = T ( x )})
e
e
e
e
P ( Y = x )
e
e

28

CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Por lo tanto el segundo cientfico ha podido observar una variable aleatoria


Y que tiene la misma distribucion que la variable aleatoria X que observo el
e
e
primer cientfico, y ambos cientficos obtienen el mismo valor del estadstico T
a partir de sus respectivas observaciones. Por lo tanto, ambos cientficos tienen
la misma informacion.
Teorema 9 Si f ( x |) es la verosimilitud de un vector aleatorio X y q(t|) es
e
e
la verosimilitud (funci
on de densidad o de masa) de un estadstico T ( X ), se
e
tiene la siguiente equivalencia. T ( X ) es un estadstico suficiente para si y
e
s
olo si para cada x del espacio muestral X el cociente
e
f ( x |)
e
q(T ( x )|)
e
no depende de .
Demostraci
on: Haremos la prueba para el caso discreto. El caso continuo no
presenta dificultades adicionales.
Veamos primero que si f ( x |)/q(T ( x )|) no depende de entonces T es
e
e
suficiente. Como ya se vio anteriormente,
(
P ( X = x |T ( X ) = T ( x )) si T ( x ) = t
P ( X = x |T ( X ) = t) =
e
e
e
e
e
0
si T ( x ) 6= t
e
e
e
e
Luego si T ( x ) 6= t la funcion de masa de probabilidad condicionada vale 0 y,
e
no depende de . En el otro caso,
P ( X = x , T ( X ) = T ( x ))
e
e
e
e =
P (T ( X ) = T ( x ))
e
e
P ( X = x )
f ( x |)
e
e
e
=
P (T ( X ) = T ( x ))
q(T ( x )|)
e
e
e
que tampoco depende de , de donde se sigue que T es suficiente.
P ( X = x |T ( X ) = T ( x )) =
e
e
e
e

Para probar el recproco, basta con leer la igualdad anterior en orden inverso,
f ( x |)
e
= P ( X = x |T ( X ) = T ( x )),
e
e
e
e
q(T ( x )|)
e
que no depende de si T es suficiente.

Ejemplo 12
Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X Bern(), 0 < < 1. El
e
estadstico T ( X ) = X1 + + Xn B(n, ) es suficiente para :
e
Qn
f ( x |)
xi (1 )1xi

e
=
= i=1
n t
nt
q(T ( x )|)
t (1 )
e

2.1. PRINCIPIO DE SUFICIENCIA


(donde se ha definido t =

Pn
i=1

29

xi )

t (1 )nt
1
n
= n
t (1 )nt

t
t
que no depende de .
.

Ejemplo 13
Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X N (, 2 ), 2 conocido.
e
El estadstico T (X) = X N (, 2 /n) es suficiente para :

Pn
f ( x |)
(2 2 )n/2 exp 21 2 i=1 (xi )2

=
e
=
n1/2 (2 2 )1/2 exp 2n2 (x )2
q(T ( x )|)
e

Pn

2 n/2
2
2
(2 )
exp 21 2
i=1 (xi x) + n(x )

=
n1/2 (2 2 )1/2 exp 2n2 (x )2

Pn
(2 2 )n/2 exp 21 2 i=1 (xi x)2
=
n1/2 (2 2 )1/2
(
)
n
1 X
2 (n1)/2 1/2
2
(xi x) ,
(2 )
n
exp 2
2 i=1
que no depende de .
.

El teorema 9 es u
til para comprobar si un estadstico es suficiente, pero no lo
es para buscar estadsticos suficientes. El siguiente teorema s podra usarse para
este cometido: permite encontrar estadsticos suficientes mediante la inspeccion
de la funcion de densidad o la funcion de masa de probabilidad, seg
un el caso.
Teorema 10 (Teorema de Factorizaci
on) Sea f ( x |) la verosimilitud de
e
X = (X1 , . . . , Xn ). El estadstico T ( X ) es suficiente para si y s
olo si existen
e
e
funciones g(t|) y h( x ) tales que para cualquier x X y cualquier la
e
e
funci
on f ( x |) puede factorizarse as:
e
f ( x |) = g(T ( x )|)h( x ).
e
e
e
Demostraci
on: (En el caso discreto). Supongamos primero que T es suficiente.
Tomemos g(t|) = P (T ( X ) = t) y h( x ) = P ( X = x |T ( X ) = T ( x )), que
e
e
e
e
e
e
no depende de al ser T suficiente. Con esta eleccion,
f ( x |) = P ( X = x ) = P ( X = x , T ( X ) = T ( x )) =
e
e
e
e
e
e
e

CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

30

P ( X = x |T ( X ) = T ( x ))P (T ( X ) = t) = g(T ( x )|)h( x ).


e
e
e
e
e
e
e
Veamos ahora el recproco. Supongamos que f ( x |) = g(T ( x )|)h( x ) y que
e
e
e
q(t|) es la funcion de masa de probabilidad de T ( X ). Entonces,
e
f ( x |)
f ( x |)
e
e
=P
=
q(t|)
f (y|)
yA
T( x )
e
g(T ( x )|)h( x )
g(T ( x )|)h( x )
h( x )
e
e
e
e
e
=P
=P
,
g(T ( y )|)h( y )
g(T ( x )|)h( y )
h( y )
yA
yA
yA
e
e
e
e
e
T( x )
T( x )
T( x )
e
e
e
que es independiente de . Luego T es suficiente para .
2
P

(Nota: la demostracion para el caso continuo puede verse, por ejemplo, en


Lehmann 1986 o en Cristobal (1992), p. 173.)
Seg
un el Teorema 10, para encontrar un estadstico suficiente se factoriza la
funcion de densidad (o la de masa) en dos partes: una, h( x ), que no contenga al
e
parametro , y la otra que dependa de la muestra solo a traves de una funcion
suya T ( x ). El estadstico suficiente sera entonces T ( X ).
e
e
Ejemplo 14
Sea X U {1, 2, . . . , } y X1 , . . . , Xn una m.a.s. de X. La funcion de masa de
probabilidad de X es
1
f (x|) = I{1,2,...,} (x)

donde IA (x) es la funcion indicatriz del conjunto A, que vale 1 si x A y 0 en


caso contrario.
La verosimilitud de la muestra es

1
n

f (x1 , . . . , xn |) =

n
1 Y
I{1,2,...,} (xi ) =
n i=1

n
! n
!
Y
1 Y
IIN{0} (xi )
I(,] (xi ) = n
IIN{0} (xi )
I[xi ,) () =

i=1
i=1
i=1
i=1
n
!
Y
1
I ax{xi :1in},) ()
IIN{0} (xi )
n (m
|
{z
} i=1
{z
}
|
g(t|), donde t=m
axi xi
h( x )
e
n
Y

n
Y

2.1. PRINCIPIO DE SUFICIENCIA

31

Ejemplo 15
Sea X N (, 2 ), 2 conocida. Entonces la verosimilitud de una muestra es
(
)
n
n n
o
1 X
2 n/2
2
f ( x |) = (2 )
exp 2
(xi x) exp 2 (x )2
2 i=1
2{z
e
|
}
|
{z
}
g(t|), donde t=x
h( x )
e
Por lo tanto T ( X ) = X es estadstico suficiente para .
e P
n
Observese que i=1 Xi = nX tambien es estadstico suficiente: podra defi

nirse h( x ) como antes y g(t|) = exp (n/(2 2 ))(t/n )2 .


e
.
.

En general, si T ( X ) es estadstico suficiente para y : T S es una


e
transformacion biyectiva del espacio donde toma valores T , se tiene que S( X ) =
e
(T ( X )) tambien es estadstico suficiente para :
e
f ( x |) = g(T ( x )|)h( x ) = g( 1 (S( x ))|)h( x ) = g (S( x )|)h( x ),
e
e
e
e
e
e
e
de donde se deduce que S( X ) tambien es estadstico suficiente. La funcion
e
g (s|) es g (s|) = g( 1 (s)|).

2.1.1.

Estadsticos suficientes r-dimensionales

Hasta ahora hemos visto u


nicamente estadsticos suficientes con valores reales, es decir, unidimensionales. Sin embargo, en la aplicacion del teorema de
factorizacion puede ocurrir que la funcion g(t|) dependa de la muestra a traves
de mas de una funcion suya. En ese caso la coleccion de esas funciones, digamos
T ( X ) = (T1 ( X ), . . . , Tr ( X )), es un estadstico suficiente r-dimensional. Las
e
e
e
definiciones y resultados referentes a la suficiencia ya vistos para el caso unidimensional tambien se aplican al caso r-dimensional. Usualmente, si el parametro
es de dimension mayor que 1, entonces tambien lo sera el estadstico suficiente.

Ejemplo 16
X1 , . . . , Xn m.a.s. de X N (, 2 ), ambos parametros desconocidos: =
(, 2 ). As,
)
(
n
o
n n
1 X
2
2
2 n/2
f ( x |, ) = (2 )
exp 2
(xi x) exp 2 (x )2 .
2 i=1
2
e
Pn
Sean T1 ( x ) = x y T2 ( x ) = S 2 = ( i=1 (xi x)2 )/(n 1). Entonces,
e
e

o
n n
(n 1)
2
2
2 n/2
=
T
(
x
)
exp

(T
(
x
)

)
f ( x |, ) = (2 )
exp
2
1
2 2
2 2
e
e
e

32

CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

g(T1 ( x ), T2 ( x )|, 2 )
e
e
y tomando h( x ) = 1 se tiene la factorizacion de f ( x |, 2 ) que implica que
e
e
T ( X ) = (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadstico suficiente para (, 2 ) en
e
e
e
la distribucion normal. Es un estadstico bivariante.
Observese que el hecho de que un estadstico sea o no suficiente para un
parametro depende del modelo que siguen las variables aleatorias implicadas.
En el caso de muestrear una normal, podemos anotar u
nicamente la media y la
varianza muestral y estar seguros de que tenemos toda la informacion relevante
sobre los parametros desconocidos (, 2 ). Sin embargo, si no estamos seguros
de la normalidad de los datos no deberamos conformarnos con conocer u
nicamente la media y la varianza muestral.
.
.

2.1.2.

Estadsticos suficientes minimales

La factorizacion de la funcion de verosimilitud no es u


nica y como consecuencia de ello, tampoco es u
nico el estadstico suficiente para un parametro.
Ya vimos que cualquier transformacion biyectiva de un estadstico suficiente da
lugar a otro estadstico suficiente. Pero a
un hay muchos mas estadsticos suficientes. Por ejemplo, la muestra completa X tambien es estadstico suficiente
e
para el parametro:
f ( x |) = g( x |)h( x ),
e
e
e
donde h( x ) = 1, T ( x ) = x y g( x |) = f ( x |).
e
e
e
e
e
Un estadstico suficiente T ( X ) se llama minimal si para cualquier otro
e
estadstico S( X ) se tiene que T ( X ) es funcion de S( X ). Es decir, si ocurre
e
e
e
que S( x ) = S( y ) entonces forzosamente se tiene que T ( x ) = T ( y ). Otra
e
e
e esto es la siguiente: sea {A : t T } la partici
forma de expresar
on dele espacio
t
muestral inducida por el estadstico T y sea {Bs : s S} la particion inducida
por S; para casa s S existe un t T tal que Bs At . La particion inducida
por cualquier estadstico suficiente es mas fina que la inducida por el estadstico
suficiente minimal.

Ejemplo 17
X1 , . . . , Xn m.a.s. de X N (, 2 ), ambos parametros desconocidos. Hemos
visto en el ejemplo 16 que (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadstico suficiente
e
e
para (, 2 ).
Suponemos ahora que 2 es conocido. Vimos en el ejemplo 13 que T1 ( X ) =
e
X es estadstico suficiente para . Pero tambien es cierto que (T1 ( X ), T2 ( X )) =
e
e
(X, S 2 ) es suficiente para . Claramente T1 ( X ) consigue una mejor reduccion
e

2.1. PRINCIPIO DE SUFICIENCIA

33

de los datos que (T1 ( X ), T2 ( X )). Podemos escribir T1 ( X ) como funcion de


e
e
e
(T1 ( X ), T2 ( X )): T1 ( X ) = (T1 ( X ), T2 ( X )) donde (a, b) = a.
e
e
e
e
e
Dado que tanto T1 ( X ) como (T1 ( X ), T2 ( X )) son suficientes para , ame
e
e
bos contienen la misma informacion sobre . Por lo tanto, la varianza muestral
S 2 = T2 ( X ) no aporta ninguna informacion sobre la media cuando 2 es
e
conocida.
.
.

El siguiente teorema proporciona un metodo para encontrar el estadstico


suficiente minimal.
Teorema 11 Sea f

( x |) la funci
on de verosimilitud conjunta de X (disX e
e
e
creta o continua). Supongamos que existe una funci
on T ( x ) tal que para cuale
quier par de elementos del espacio muestral x , y , el cociente
e e
f

( x |)
X e
e
f ( y |)
X e
e

es constante como funci


on de , si y s
olo si T ( x ) = T ( y ). Entonces T ( x ) es
e
e
e
estadstico suficiente minimal para .
Demostraci
on: Casella-Berger, p. 255

Ejemplo 18
Sea X = (X1 , . . . , Xn ) m.a.s. de X N (, 2 ), ambos parametros dese
conocidos. Sean x e y dos muestras observadas y sean (x, Sx2 ), (y, Sy2 ) las
e
e y varianzas muestrales. Recordando la factorizacion
correspondientes medias
de f ( x |, 2 ) que vimos en el ejemplo 16, se tiene que
e
n
o
n

f ( x |)
2
2
(2 2 )n/2 exp (n1)
X e
2 2 Sx exp 2 2 (x )
o
n
e
=

=
2 )n/2 exp (n1) S 2 exp n (y )2
f ( y |)
(2
2
2
y
2
2
X e
e

1
2
2
2
2
exp
=
n(x

)
+
n(y

(n

1)(S

S
)
x
y
2 2

1
2
2
2
2
exp
n(x y ) + 2n(x ) (n 1)(Sx Sy )
2 2
Esta expresion es constante como funcion de (, 2 ) si y solo si
n(x2 y 2 ) + 2n(x y) (n 1)(Sx2 Sy2 ) = 0,

34

CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

y recordando que Sx2 =

Pn
i=1

2n(x y)

x2i nx2 eso ocurrira si y solo si


n
X
i=1

x2i +

n
X

yi2 = 0, para todo ,

i=1

pero un polinomio de grado 1 en (el lado izquierdo de la igualdad anterior)


es igual a 0 para todo si y solo si sus dos coeficientes son nulos, es decir, si y
solo si
n
n
X
X
x=y y
x2i =
yi2 ,
i=1

i=1

lo que equivale a decir, que


x = y y Sx2 = Sy2 .
Concluimos pues que (X, S 2 ) es estadstico minimal suficiente para (, 2 ) cuando muestreamos de una normal.
.
.

Ejemplo 19
Sea X1 , . . . , Xn m.a.s. de X U [, + 1]. As,
n
Y
f ( x |) =
I[,+1] (xi ) = I[maxi xi 1,mni xi ] ().
e
i=1

Por el teorema de factorizacion, (T1 ( X ), T2 ( X )) = (mni Xi , maxi Xi ) es un


e
e
estadstico suficiente para .
Para dos muestras x e y, el numerador y el denominador de f ( x |)/f (y|)
e
e
seran positivos para los mismo valores de si y solo si mni xi = mni yi y
maxi xi = maxi yi . En ese caso ademas el cociente valdra 1, independientemente
del valor de . As que el cociente no dependera de si y solo si mni xi = mni yi
y maxi xi = maxi yi , luego (mni Xi , maxi Xi ) es un estadstico suficiente minimal.
.
.

Observese que el estadstico minimal no es u


nico: cualquier transformacion
biyectiva suya tambien es estadstico minimal suficiente.
Se puede probar que siempre existen estadsticos suficientes minimales. Ver,
por ejemplo, el problema 15 del captulo 2 de Schervish (1995), o el teorema
7.2.7, p. 189, de Cristobal (1992).

2.1. PRINCIPIO DE SUFICIENCIA

2.1.3.

35

Estadsticos ancilares

Se define un estadstico ancilar como aquel cuya distribucion no depende del parametro . Los estadsticos ancilares son los que resumen la parte
de informacion de la muestra que no recogen los estadsticos minimales suficientes. A primera vista, parece que no deben aportar informacion relevante en
la estimacion del parametro de interes . Sin embargo, hay ocasiones en que
en combinacion con otros estadsticos s son u
tiles en la estimacion de (ver
Casella-Berger, ejemplo 6.1.11).

Ejemplo 20
Sean X n observaciones i.i.d. de una distribucion uniforme en el intervalo (, +
e
1), < < . Sean X(1) < < X(n) los estadsticos de orden de la
muestra.
El estadstico Rango, definido como R = X(n) X(1) , sigue una distribucion
Beta(n 1, 2), sea cual sea el valor de , por lo que R es un estadstico ancilar.
Esta propiedad se puede generalizar al rango de cualquier familia de localizacion:
Sean X observaciones i.i.d. de una familia de localizacion con funcion de distrie
bucion F (x), < < . Sean X(1) < < X(n) los estadsticos de orden
de la muestra. Entonces la distribucion del rango, definido como R = X(n) X(1) ,
no depende de por lo que es un estadstico ancilar.
.
.

Ejemplo 21
Sean X1 y X2 observaciones independientes de una distribucion discreta tal que:
P (X = ) = P (X = + 1) = P (X = + 2) =

1
3

donde , el parametro desconocido, es un entero cualquiera.


Sean X(1) X(2) los estadsticos de orden de la muestra. Puede demostrarse
que (R, M ), con R = X(2) X(1) y M = (X(1) + X(2) )/2, es un estadstico
minimal suficiente. Dado que es una familia de localizacion R es ancilar.
Sea un punto muestral (r, m), con m entero. Si consideramos solo m, para
que el punto tenga probabilidad positiva es preciso que tome uno de tres
valores posibles: = m, = m 1 o = m 2. Si solo se que M = m, los 3
valores de son posibles. Supongase que sabemos ademas que R = 2. Entonces
forzosamente X(1) = m 1 y X(2) = m + 1 y, por lo tanto, = m 1.
El saber el valor del estadstico ancilar ha aumentado nuestro conocimiento
sobre , a pesar de que solo con el valor de R no habramos tenido ninguna

CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

36

informacion sobre .
.

2.1.4.

Estadsticos completos

Sea fT (t|) la funcion de densidad (o de masa de probabilidad) de un estadstico T . Diremos que la familia de distribuciones {fT (t|) : } es completa si se da la implicacion siguiente:
E (g(T )) = 0 para todo = P (g(T ) = 0) = 1 para todo .
En ese caso diremos que T es un estadstico completo.

Ejemplo 22
La familia de distribuciones binomiales con n fijo es completa. Sea T B(n, p),
0 < p < 1. Sea g una funcion tal que E(g(T )) = 0 para todo p (0, 1). Entonces,

t

n
X
n t
n
p
nt
n
0 = E(g(T )) =
g(t)
p (1 p)
= (1 p)
.
g(t)
t
1p
t
t=0
t=0
n
X

Tenemos entonces que un polinomio de grado n en (p/(1 p)) (0, ) es


identicamente cero. Esto solo es posible si todos sus coeficientes son nulos:

n
g(t)
= 0, para todo t 0, 1, . . . , n
t
de donde se deduce que g(t) = 0 para todo t 0, 1, . . . , n, luego
Pp (g(T ) = 0) = 1, para todo p,
y la familia de distribuciones de T es completa.
.

La definicion de completitud refuerza la de suficiencia en el sentido de que


si un estadstico es suficiente y completo entonces, por una parte, es suficiente
minimal (el recproco no es cierto) y, por otra, ese estadstico es independiente
de cualquier estadstico ancilar. Es decir, en el caso de que exista un estadstico
suficiente y completo s es cierta la idea intuitiva de que los estadstico ancilares
no pueden aportar nada relevante a la estimacion del parametro. Esto no ocurre
si solo se tienen estadsticos suficientes y minimales.
Los siguientes resultados reflejan formalmente estas ideas.
Teorema 12 Si T es un estadstico suficiente y completo para , entonces T
es suficiente minimal.

2.1. PRINCIPIO DE SUFICIENCIA

37

Demostraci
on: (Extrada de Cristobal 1992, p. 200.)
Sea S un estadstico suficiente para . Entonces, por la ley de la esperanza
iterada,
E (T E(T /S)) = E (T ) E (T ) = 0, para todo .
Por ser T completo, se tiene que
P (T E(T /S) = 0) = 1 = T = E(T /S) casi seguro,
luego T es funcion de cualquier estadstico suficiente S y, por tanto, es minimal.
2
El recproco no es cierto, como pone de manifiesto el siguiente ejemplo
(Cristobal 1992, p. 200).
Ejemplo 23
2
Sean X N (, X
) e Y N (, Y2 ) variables aleatorias independientes. Del
2
teorema 11 se sigue que el estadstico (X, Y , SX
, SY2 ) es suficiente minimal para
+
+
2
2
= (, X , Y ) IR IR IR . Sin embargo no es completo, porque
E (X Y ) = 0 para todo
y sin embargo P (X = Y ) = 0, para cualquier .
.

Teorema 13 (Basu) Si T es un estadstico suficiente y completo, y S es un


estadstico ancilar, entonces T y S son independientes.
Demostraci
on: Ver Casella-Berger, p. 262, o Cristobal (1992), p. 201.

Acabaremos esta seccion dando un resultado que permite encontrar estadsticos suficientes y completos para las distribuciones que pertenecen a la familia
exponencial, bajo condiciones bastante generales.
Teorema 14 Sea X variable aleatoria cuya distribuci
on pertenece a la familia
exponencial y viene dada por la funci
on de densidad (o de masa, seg
un el caso)

k
X

f (x|) = h(x)c() exp


j tj (x) , = (1 , . . . , k ) IRk ,
j=1

parametrizada de forma natural.


Si el espacio parametrico natural contiene un abierto no vaco de IRk ,
entonces el estadstico
n
X
T ( X ) = (T1 ( X ), . . . , Tk ( X )), donde Tj ( X ) =
tj (Xi ),
e
e
e
e
i=1
es estadstico suficiente completo (y por lo tanto, minimal).

38

CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Demostraci
on: La prueba de este resultado requiere tecnicas de funciones
analticas complejas. Ver, por ejemplo, la demostracion del teorema 2.74 de
Schervish 1995, o las de los teoremas 3.9 de Garca-Nogales 1998 o 7.3.7 de
Cristobal 1992.
2

2.2.

Principio de verosimilitud

Sea una muestra aleatoria simple X = (X1 , . . . , Xn ) de una variable aleae


n de verotoria X y supongamos que se ha observado x . Llamamos funcio
e
similitud de la muestra a la funcion de densidad conjunta o a la funcion de
masa de probabilidad conjunta, seg
un sea X continua o discreta, entendida esta
como funcion del parametro:
IR+
L(| x ) = f ( x |)
e
e
La funcion de verosimilitud as definida puede entenderse como un estadstico,
es decir, como una funcion L de la muestra que no depende del parametro:
a cada posible muestra observada x , la funcion de verosimilitud le asocia un
e
elemento del conjunto (IR+ ) de todas las funciones de en IR+ , precisamente
L(| x ), la funcion de verosimilitud de esa muestra:
e
L(| x ) :
e

L:

X
x
e

(IR+ )
L(| x )
e

As, L( X ) es una funcion aleatoria de en IR. Por lo tanto, la funcion de veroe


similitud es una forma mas de resumir la informacion que la muestra contiene
acerca del parametro. La razon de escribir resumir en cursiva es que pasar de X
e
(de dimension n) a L( X ) (de dimension igual al cardinal de , normalmente
e
infinito) no siempre se puede entender como un resumen de la informacion.
En esta seccion se desarrollan argumentos que prueban lo siguiente: si se
acepta el principio de suficiencia, entonces la inferencia se debe basar en la funcion de verosimilitud. Esta u
ltima afirmacion (la inferencia sobre el par
ametro
se debe basar u
nica y exclusivamente en la funci
on de verosimilitud) se expresa formalmente en el principio de verosimilitud, que especifica como debe
usarse la verosimilitud en la reduccion de la informacion muestral.
Principio de verosimilitud:
Si x e y son dos puntos muestrales tales que
e
e
L(| x ) = C( x , y )L(| y ), para todo ,
e
e e
e
donde C( x , y ) es una funci
on que puede depender de x e y pero no de ,
e e
e
e
entonces la inferencia que se haga sobre ser
a la misma tanto si se observa x
e
como si se observa y .
e

2.2. PRINCIPIO DE VEROSIMILITUD

39

Observese que la verosimilitud de una muestra x en el caso discreto es la


e
coleccion de las probabilidades de haber observado x bajo los diferentes valores
e
de . As, el cociente de dos valores de la verosimilitud
L(1 | x )
e
L(2 | x )
e
indica cuantas veces mas probable es observar x bajo 1 que bajo 2 . En el
e
caso continuo esto es aproximadamente valido, si hablamos de la probabilidad
de observar valores en un entorno de x en lugar de la probabilidad de observar
e
x:
e
P1 ( X B( x , ))
VolumenB( x , )f ( x |1 )
f ( x |1 )
e
e
e
e
e

=
.
P2 ( X B( x , ))
VolumenB( x , )f ( x |2 )
f ( x |2 )
e
e
e
e
e
Si, por ejemplo, f ( x |1 )/f ( x |2 ) = 2 podemos decir que 1 es mucho mas
e
e
plausible (mucho mas verosimil) que 2 . As, la verosimilitud indica como de
plausible es un valor del parametro 1 en terminos relativos (comparada esa
plausibilidad con la de otro valor de 2 ).
En este sentido el enunciado del principio de verosimilitud es esencialmente
equivalente a decir que la inferencia sobre el parametro se debe basar u
nica
y exclusivamente en la funcion de verosimilitud: si dos valores muestrales dan
lugar a verosimilitudes proporcionales (aunque quizas no exactamente iguales),
los cocientes de verosimilitudes seran iguales si se observa una u otra,
L(1 | x )
C( x , y )L(1 | y )
L(1 | y )
e =
e e
e =
e ,
L(2 | x )
C( x , y )L(2 | y )
L(2 | y )
e
e e
e
e
y por lo tanto, los valores de mas verosmiles seran los mismos si se observa
x o y . Como consecuencia, x e y deben dar lugar a las mismas inferencias
e
e
e como afirma el principio
sobre ,
dee verosimilitud.
El siguiente teorema afirma que el principio de suficiencia y el de verosimilitud son equivalentes.
Teorema 15 El principio de suficiencia y el principio de verosimilitud son equivalentes.
Demostraci
on: Suficiencia = Verosimilitud.
Veamos que la funcion de verosimilitud, vista como estadstico L( X ), es un
e
estadstico suficiente. En efecto,
f ( x |) = g(L( x )|)h( x ),
e
e
e
donde h( x ) = 1 y la funcion g(L( x )|) es la que devuelve el valor de L( x )
e
e
e
en el punto . Por el teorema de factorizacion L( X ) es estadstico suficiente.
e
Por el principio de suficiencia, cualquier inferencia sobre ha de depender de

40

CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

la muestra X = (X1 , . . . , Xn ) solo a traves del valor L( X ), lo cual implica el


e
e
principio de verosimilitud.
Verosimilitud = Suficiencia.
Consideremos un estadstico suficiente T ( X ) y dos valores muestrales x e y
e
e
e
tales que T ( x ) = T ( y ). Veamos que la inferencia sobre que se derive de x
e
e
e
e y ha de ser la misma (esta es otra forma de leer el principio de suficiencia).
Ene efecto, se tiene que
L( x |) = g(T ( x )|)h( x ) = g(T ( y )|)h( x ) =
e
e
e
e
e
h( x )
g(T ( y )|)h( y ) e = C( x , y )L( y |)
e e
e
e h( y )
e
e
de donde se deduce por aplicacion del principio de verosimilitud que la inferencia
que se haga sobre sera la misma tanto si se observa x como si se observa y .
e
e
2
En Casella-Berger, seccion 6.2, puede encontrarse un desarrollo mas detallado sobre las implicaciones que existen entre estos y otros principios de reduccion de los datos. Las conclusiones a las que all se llega implican que el
principio de verosimilitud es cierto tambien para inferencias hechas sobre un
mismo parametro a partir de experimentos distintos: si se observan resultados
tales que las correspondientes verosimilitudes son proporcionales, la inferencia
sera la misma.

2.3. LISTA DE PROBLEMAS

2.3.

41

Lista de problemas

Suficiencia
1. (Casella-Berger, 6.1) Sea X una observacion de una N (0, 2 ). Es |X| un
estadstico suficiente?
2. (Casella-Berger, 6.3) Sea X (1/)f ((x )/), donde f (t) es la densidad de una exp(1). Sea X1 , . . . , Xn una m.a.s. de X. Da un estadstico
bidimensional suficiente para (, ).
3. (Casella-Berger, 6.5) Sean X1 , . . . , Xn variables aleatorias independendientes con densidades
fi (x) =

1
I(i(1),i(+1)) (x), i = 1, . . . , n,
2i

donde > 0.
a) Encontrar un estadstico suficiente para de dimension 2.
b) Dar un estadstico suficiente para de dimension 1.
4. (Casella-Berger, 6.6) Sea X1 , . . . , Xn una m.a.s. de una (, ). Da un
estadstico bidimensional suficiente para (, ).
5. (Casella-Berger, 6.7) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X con funcion de densidad o de probabilidad f (x; ). Prueba que los
estadsticos de orden X(1) , . . . , X(n) son suficientes para .
6. (Casella-Berger, 6.9) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X. Encontrar estadsticos minimales suficientes para el parametro de
localizacion ( < < ) en los siguientes casos.
a) Exponencial: f (x; ) = e(x) , x > .
b) Logstica: f (x; ) = e(x) /(1 + e(x) )2 .
c) Cauchy: f (x; ) = 1/((1 + (x )2 )).
d ) Doble exponencial (o Laplace): f (x; ) = (1/2)e|x| .
7. (Examen parcial 2001) Se considera el siguiente modelo de regresion:
Yi = + xi + i , i = 1, . . . , n,
donde x1 , . . . , xn son cantidades conocidas y 1 , . . . , n son v.a.i.i.d. seg
un
una N (0, 2 ).
a) Que distribucion tiene Yi ? Escribe su funcion de densidad fYi (y).
b) Escribe la funcion de verosimilitud L(y1 , . . . , yn ; , , 2 ).
c) Da un estadstico tridimensional suficiente para (, , 2 ).

42

CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS


d ) Prueba que la distribucion conjunta de (Y1 , . . . , Yn ) pertenece a la
familia exponencial.

Completitud
8. (Casella-Berger, 6.10) Sea X1 , . . . , Xn m.a.s. de una U [, +1]. En el ejemplo 19 se establece que el estadstico T ( X ) = (X(1) , X(n) ) es estadstico
e
minimal suficiente para . Prueba ahora que no es completo.
9. (Casella-Berger, 6.15) Sea X1 , . . . , Xn una m.a.s. de una N (, a2 ), donde
a > 0 es una constante conocida. Probar que T = (X, S 2 ) es estadstico
suficiente para pero no es completo.
10. (Casella-Berger, 6.16) Sean X1 , . . . , Xn v.a.i.i.d. con distribucion geometrica:
P (X = x) = (1 )x1 , x = 1, 2, . . . , 0 < < 1.
Pn
a) Probar que T = i=1 Xi es suficiente para y encontrar la distribucion de T .
b) Prueba que T es completo sin usar el resultado general para familias
exponenciales.
11. (Examen junio 2000; Casella-Berger, 6.17, 6.23) Sean X1 , . . . , Xn v.a.i.i.d.
seg
un una ley Poisson(), 0.
Pn
a) Probar que el estadstico T = i=1 Xi es suficiente pera .
b) Sin hacer uso del resultado general sobre completitud en familias exPn
ponenciales, probar que la familia de distribuciones de T = i=1 Xi
es completa.
c) Consideremos la siguiente familia de distribuciones:
P = {P (X = x) : P (X = x) = x e /x!; x = 0, 1, 2, . . . ; = 0 o = 1}
(Nota: 00 = 1, 0! = 1.)
Esta familia es una familia de distribuciones de Poisson con restringido a ser 0 o 1. Probar que la familia P no es completa.
d ) Indicar si la siguiente afirmacion es cierta o falsa y decir por que:
Si la familia de distribuciones P1 = {f (x; ) : 1 } es completa
y 2 1 , entonces la familia de distribuciones P2 = {f (x; ) :
2 } es completa.
12. (Casella-Berger, 6.18) La variable aleatoria X toma los valores 0, 1 y 2
con probabilidades dadas por una de las siguientes distribuciones:

Distribucion 1
Distribucion 2

P (X = 0)
p
p

P (X = 1)
3p
p2

P (X = 2)
1 4p
1 p p2

0 < p < 1/4


0 < p < 1/2

2.3. LISTA DE PROBLEMAS

43

En cada caso, determina si la familia de distribuciones de X es completa.


13. Considera las variables aleatorias descritas en el problema 14 de la lista
1.6. Encuentra el estadstico minimal suficiente para . Es completo?
14. Considera las variables aleatorias descritas en el problema 15 de la lista
1.6. Encuentra el estadstico minimal suficiente para . Es completo?
15. Considera las variables aleatorias descritas en el problema 16 de la lista
1.6. Encuentra el estadstico minimal suficiente para . Es completo?

44

CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Captulo 3

Estimaci
on puntual 1:
Construcci
on de
estimadores
Referencias: Casella-Berger, secciones 7.1 y 7.2, referencia general.
DeGroot (1988), secciones de la 6.1 a la 6.4., para inferencia
bayesiana. Garthwaite, Jollife y Jones (1995), secci
on 3.4, presenta
metodos de estimadoci
on no incluidos aqu.

3.1.

La funci
on de distribuci
on emprica y el
m
etodo de los momentos

Sea la variable aleatoria X con funcion de distribucion F . Consideramos una


muestra aleatoria simple de tama
no n de X, es decir, X1 , . . . , Xn v.a.i.i.d. con
distribucion dada por F . Sea x1 , . . . , xn una realizacion de esa m.a.s.
n de distribucio
n emprica a la funcion
Se llama funcio
n

Fn (x) =

1
1X
#{xi x : i = 1 . . . n} =
I(,x] (xi ),
n
n i=1

que a cada n
umero real x le asigna la proporcion de valores observados que son
menores o iguales que x.
Es inmediato comprobar que la funcion Fn as definida es una funcion de
distribucion:
1. Fn (x) [0, 1] para todo x IR.
2. Fn es continua por la derecha.
45

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
46CAPITULO 3. ESTIMACION
3. Fn es no decreciente.
4. lmx Fn (x) = 0.
5. lmx Fn (x) = 1.
Concretamente, Fn es la funcion de distribucion de una variable aleatoria discreta (que podemos llamar Xe ) que pone masa 1/n en cada uno de los n puntos
xi observados:
xi
pi = P(Xe = xi )

x1
1/n

x2
1/n

xn
1/n

n emprica asociada al conjunto


A la distribucion de Xe se le llama distribucio
de valores {x1 , . . . , xn }.
Observese que si fijamos el valor de x y dejamos variar la muestra, lo que
obtenemos es una variable aleatoria. En efecto, se tiene entonces que
n

Fn (x) =

1X
I(,x] (Xi ),
n i=1

donde

I(,x] (Xi ) =

1,
0,

si Xi x
si Xi > x

y, por lo tanto, cada termino I(,x] (Xi ) es una variable aleatoria de Bernoulli
con probabilidad de exito
p = P(I(,x] (Xi ) = 1) = P(Xi x) = F (x).
De ah se deduce que Fn es una variable aleatoria y que nFn (x) tiene distribucion
binomial con parametros n y p = F (x).
De lo anterior se sigue que la funcion de distribucion emprica es un proceso estocastico: si consideramos un espacio probabilstico (, A, P ) donde estan
definidas las sucesiones de variables aleatorias {Xn }n1 a partir de las cuales
definiremos la funcion de distribucion emprica, tenemos que
Fn :

(, A, P ) (IR, B) [0, 1]
(, x)
Fn (x)() =

1
n

Pn

i=1 I(,x] (Xi ())

Fijado x, Fn (x)() : (, A, P ) [0, 1] es una variable aleatoria. Fijado ,


Fn ()() : IR [0, 1] es una funcion de distribucion (en la notacion usual
se omite la dependencia de ). Por lo tanto, la funcion de distribucion
emprica es una fucni
on de distribuci
on aleatoria.

DE DISTRIBUCION
EMPIRICA Y EL METODO

3.1. LA FUNCION
DE LOS MOMENTOS47

3.1.1.

Teorema de Glivenko-Cantelli

El siguiente teorema recoge algunas de las propiedades de la funcion de


distribucion emprica.
Teorema 16 Sea {Xn }n1 , sucesi
on de variables aleatorias independientes e
identicamente distribuidas definidas en el espacio de probabilidad (, A, P ) con
funci
on de distribuci
on com
un F . Se denota por Fn la funci
on de distribuci
on
emprica obtenida de las n primeras variables aleatorias X1 , . . . , Xn . Sea x IR.
Se verifica lo siguiente:
(a) P(Fn (x) =

j
n)

n
j
nj
, j = 0, . . . , n.
j F (x) (1 F (x))

(b) E(Fn (x)) = F (x), Var (Fn (x)) = (1/n)F (x)(1 F (x)).
(c) Fn (x) F (x) casi seguro.
(d)

n(F (x) F (x))


p n
D Z,
F (x)(1 F (x))
donde Z es una variable aleatoria con distribuci
on normal est
andar y la
convergencia es convergencia en distribuci
on.

Demostraci
on: Los apartados (a) y (b) son consecuencia inmediata del hecho
de que nFn (x) B(n, p = F (x)). Por otro lado, si definimos Yi = I(,x] (Xi ),
se tiene que Fn (x) = Yn , la media aritmetica de las variables aleatorias Y1 , . . . , Yn .
As, el apartado (c) es una aplicacion inmediata de la ley fuerte de los grandes
n
umeros y el apartado (d) es consecuencia del teorema central de lmite.
2
El siguiente teorema refuerza el resultado (c) anterior, puesto que afirma que
la convergencia de Fn (x) a F (x) se da uniformemente.
Teorema 17 (Teorema de Glivenko-Cantelli) Sea {Xn }n1 una sucesi
on
de variables aleatorias independientes e identicamente distribuidas definidas en
el espacio de probabilidad (, A, P ) con funci
on de distribuci
on com
un F . Se
denota por Fn la funci
on de distribuci
on emprica obtenida de las n primeras
variables aleatorias X1 , . . . , Xn . Entonces,
sup |Fn (x) F (x)| 0 casi seguro.

xIR

Demostraci
on: Presentamos aqu la demostracion que hacen Velez y Garca
(1993), p. 36. (otras demostraciones pueden encontrarse en Garca-Nogales 1998,
p. 88, y en Cristobal 1992, p. 66). En el teorema 16 se probo que, por la ley
fuerte de los grandes n
umeros, Fn (x) F (x) casi seguro, es decir, para cada
x IR existe Ax A tal que P(Ax ) = 1 y lmn Fn (x)() = F (x) si Ax .
Se ha denotado por Fn (x)() a la funcion de distribucion emprica obtenida

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
48CAPITULO 3. ESTIMACION
al observar X1 (), . . . , Xn (), siendo un elemento del espacio . De la ley
fuerte de los grandes n
umeros tambien se sigue (tomando ahora I(,x) en
vez de I(,x] ) que para cada x IR, existe Bx A tal que P(Bx ) = 1
y lmn Fn (x )() = F (x ) si Bx , donde g(x ) denota el lmite por la
izquierda de una funcion g en x.
Para cada n
umero natural k, y cada j = 1, . . . , k, se consideran los puntos

j
xjk = mn x IR : F (x ) F (x)
k
y los sucesos de A siguientes:
Ajk = Axjk = {w : Fn (xjk ) F (xjk )}

Bjk = Bxjk = {w : Fn (x
jk ) F (xjk )}

Dk =

k
\

(Ajk Bjk ), D =

j=1

Dk .

k=1

Dk es el suceso definido por la condicion de que la funcion de distribucion emprica converja a la teorica para todos los puntos xjk (y tambien para los lmites por
la izquierda), para un k fijo. D es el suceso en que esto ocurre simultaneamente
para todo k. Seg
un la ley fuerte de los grandes n
umeros, P(Ajk ) = P(Bjk ) = 1
para todo j y todo k, luego P(Dk ) = 1 para todo k y, por tanto, P(D) = 1.
Observese que si x [xjk , x(j+1)k ), por ser F y Fn funciones de distribucion
se tiene que

F (xjk ) F (x) F (x
(j+1)k ), y Fn (xjk ) Fn (x) Fn (x(j+1)k ).

Como ademas F (x
(j+1)k ) F (xjk ) 1/k,

Fn (x) F (x) Fn (x
(j+1)k ) F (xjk ) Fn (x(j+1)k ) F (x(j+1)k ) +

y
Fn (x) F (x) Fn (xjk ) F (x
(j+1)k ) Fn (xjk ) F (xjk )

1
k

1
k

(k)

con lo cual, si n es la mayor entre todas las diferencias |Fn (xjk ) F (xjk )| y

|Fn (x
jk ) F (xjk )| (para n y k fijos), se tiene que
Fn (x) F (x) n(k) +

1
1
y Fn (x) F (x) n(k)
k
k

As, para cualquier k IN,


1
sup |Fn (x) F (x)| n(k) + .
k
xIR
Observese que si se verifica el suceso D, para cualquier k IN y cualquier > 0,
(k)
se tiene que n < a partir de un cierto n, de forma que
1
sup |Fn (x) F (x)| < +
k
xIR

DE DISTRIBUCION
EMPIRICA Y EL METODO

3.1. LA FUNCION
DE LOS MOMENTOS49
a partir de cierto n. Por lo tanto,
sup |Fn (x) F (x)| n 0

xIR

siempre que se verifique D. Como P(D) = 1, se sigue que


sup |Fn (x) F (x)| n 0 casi seguro.

xIR

2
Observese que seg
un el apartado (c) del teorema 16, las distribuciones empricas asociadas a muestras de tama
no n convergen debilmente a la distribucion de
probabilidad teorica identificada por F , para casi todas las muestras de tama
no

infinito que se extraigan de F . Esta


es una de las consecuencias mas importantes
del citado teorema:

la distribucion emprica converge debilmente con probabilidad 1 a la


poblacional cuando el tama
no de la muestra tiende a infinito:
Fn D F, casi seguro.

Esto garantiza la posibilidad de realizar inferencia estadstica: los aspectos probabilsticos de una caracterstica X, medida en una poblacion, se resumen de
forma estilizada en una distribucion de probabilidad F , la cual puede ser aproximada mediante las distribuciones empricas Fn obtenidas por muestreo de la
poblacion en estudio. El teorema de Glivenko-Cantelli afirma que esas aproximaciones son uniformes en x. Por esta razon el teorema de Glivenko-Cantelli
se llama a veces Teorema Fundamental de la Estadstica Matem
atica: da una
fundamentacion de la inferencia estadstica, cuyo objetivo principal consiste en
extraer informacion sobre F a partir de las observaciones muestrales.

Ejemplo 24
En la figura siguiente se muestra la funcion de distribucion de una variable
aleatoria N (0, 1) y la funcion de distribucion emprica de dos muestras de esa
variable aleatoria una de tama
no n = 10 (la mas alejada de la teorica) y la
otra de tama
no n = 100. Se aprecia que cuando n crece la proximidad entre la
funcion de distribucion emprica y la teorica es cada vez mayor.

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
50CAPITULO 3. ESTIMACION
F.d. de la N(0,1) y f.d.e. de dos muestras suyas con n=10 y n=100
1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
3

3.1.2.

Principio de sustituci
on

En esta seccion presentamos una consecuencia importante de la convergencia


de Fn a F , la definicion de estimadores mediante el principio de sustitucion.
La convergencia de Fn a F permite construir versiones factibles de caractersticas poblacionales desconocidas. Supongamos que estudiamos una caracterstica X en una poblacion y que el resultado de la observacion de X puede ser
modelizado como una variable aleatoria con distribucion desconocida, digamos
F . Muchas de las preguntas relevantes acerca de la caracterstica X podran ser
contestadas si su funcion de distribucion F fuese conocida (por ejemplo el valor
esperado, el n
umero de modas de la distribucion o la probabilidad de que X sea
negativa).
Para fijar ideas podemos pensar que nos interesa conocer cantidades numericas (par
ametros) que dependen u
nicamente de la funcion de distribucion desconocida F :
= (F ).

DE DISTRIBUCION
EMPIRICA Y EL METODO

3.1. LA FUNCION
DE LOS MOMENTOS51
El teorema de Glivenko-Cantelli nos dice que Fn se acerca a F , a medida que
el tama
no muestral crece. As, podemos esperar que tambien se verifique que
n = (Fn ) = (F ),
es decir, esperamos que las cantidades numericas calculadas para la distribucion
emprica (estimadores) se aproximen a las cantidades desconocidas a medida
que el tama
no muestral crezca. Se puede probar que este resultado es cierto
bajo hipotesis de regularidad bastante generales de las funciones que asignan
n
umeros a funciones de distribucion.
Esta forma de obtener estimadores de parametros poblacionales desconocidos
n (plug-in principle en ingles). Es un
se denomina principio de sustitucio
procedimiento muy general de obtencion de estimadores.

Ejemplo 25
Sea X U (0, ). Se toma una m.a.s. de X de tama
no n para estimar . Un
estimador razonable de es el maximo de las observaciones, que es estadstico
minimal suficiente para :
2 = max Xi .
i

Este
es un estimador de basado en el principio de sustitucion. En efecto,
= sup{x IR : F (x) < 1},
y
2 = max Xi = sup{x IR : Fn (x) < 1}.
i

3.1.3.

El m
etodo de los momentos

Una aplicacion del principio de sustitucion es la definicion de los estimadores basados en momentos. El momento no centrado de orden k de una
variable aleatoria X con distribucion F se define como
Z
k
k = EF (X ) = xk dF (x).
Si Xe es una variable aleatoria con funcion de distribucion igual a Fn , la funcion
de distribucion emprica de una m.a.s. de tama
no n de X, se tiene que sus
momentos no centrados (a los que llamaremos mk,n ) son de la forma
Z
mk,n =

EFn (Xek )

xk dFn (x) =

1X k
X ,
n i=1 i

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
52CAPITULO 3. ESTIMACION
y se denominan momentos muestrales no centrados de orden k. Por ejemplo, 1
es la esperanza poblacional y m1,n la media muestral.
La siguiente proposicion garantiza que los momentos muestrales convergen
a los poblacionales.
Proposici
on 2 Sea X variable aleatoria con E(X 2k ) < . Entonces se verifica
que mk,n k casi seguro. Adem
as,

n(mk,n k )
p
D Z,
2k 2k
con Z N (0, 1). Se tiene adem
as la convergencia de la distribuci
on conjunta
de los k primeros momentos muestrales:


n (m1,n , . . . , mk,n )t (1 , . . . , k )t D Nk ( 0 , ),
e
donde es una matriz (k k) con elemento (i, j) generico
ij = i+j i j .
Demostraci
on: La demostracion es inmediata. Se basa en la aplicacion de la
ley fuerte de los grandes n
umeros y el teorema central del lmite, dado que si
definimos Yi = Xik entonces mk,n = Yn . La u
ltima parte se sigue del teorema
central del lmite multivariante.
2
Muchas caractersticas poblacionales de interes se pueden expresar como
funcion de los momentos no centrados de ordenes 1, . . . , k:
= h(1 , . . . , k ).
Por ejemplo, la varianza de X se expresa como 2 = h(1 , 2 ) = 2 21 .
El estimador de basado en el principio de sustitucion se conoce como
estimador de los momentos de y sera
n = h(m1,n , . . . , mk,n ).
Observese que el estimador de los momentos de puede no ser u
nico, porque
diferentes funciones h pueden conducir al mismo valor .
La siguiente proposicion establece el comportamiento asintotico del estimador de los momentos de .
Proposici
on 3 Consideremos la variable aleatoria X con E(X 2k ) < . Sea
= h(1 , . . . , k ). Si h es continua en (1 , . . . , k ), entonces n = h(m1,n , . . . , mk,n )
converge a casi seguro. Adem
as, si h es derivable en (1 , . . . , k ), entonces la
distribuci
on lmite de n es normal:

2
n(n ) D N (0, h,
).


3.2. ESTIMADORES DE MAXIMA
VEROSIMILITUD

53

Demostraci
on: La demostracion de la convergencia casi segura se sigue directamente de la de continuidad de h y de la convergencia casi segura de los
momentos muestrales a los poblacionales.
La demostracion de la normalidad asintotica queda pospuesta hasta que se
haya introducido en la seccion 4.3 el metodo delta.
2

Ejemplo 25, p
agina 51. Continuaci
on. Se toma una m.a.s. de X de tama
no
n de una U (0, ) para estimar . El estimador de momentos M de viene dado
por la sigiente relacion:
E(X) =

= m1,n =
= M = 2m1,n = 2X.
2
2
.

Ejemplo 26
Otros esimadores basados en el metodo de los momentos son los siguientes:
1. Para una variable aleatoria X con varianza finita, Vd
(X) = (n 1)Sn2 /n.
= 1/X.
2. Si X Exp() con E(X) = 1/, entonces
3. Si X B(n, p) entonces p = X y Vd
(X) = p(1 p).
1 = X es estimador
4. Si X Poisson() entonces E(X) = . Por lo tanto
2
de momentos. Ademas, = V (X) = 2 1 . Por tanto,
2
2 = m2,n m2 = (n 1)Sn

1,n
n

es tambien un estimador basado en momentos. Es preferible 1 porque en


su definicion solo interviene el momento de orden 1.

3.2.

Estimadores de m
axima verosimilitud

Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de una variable aleae


toria X con funcion de densidad (o de masa de probabilidad) f ( x |), con
e
= (1 , . . . , k ) IRk . Sea X el espacio muestral, es decir, el conjunto

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
54CAPITULO 3. ESTIMACION
n de verosimide todos los posibles valores de X . Hemos definido la funcio
e
litud para x = (x1 , . . . , xn ) X como
e
L(| x ) :
e

IR+
Qn
L(| x ) = f ( x |) = i=1 f (xi |)
e
e

xima verosimilitud de
Para cada muestra x X , el estimador de ma
e
es el valor de que hace maxima la verosimilitud L(| x ):
e
x ) = max L(| x ).
L(|

e
e
Intuitivamente es el valor del parametro que hace mas verosmil la muestra
observada. Veremos mas adelante que los estimadores de maxima verosimilitud
son muy buenos estimadores y que en general tienen propiedades de optimalidad.
Ademas, en muchas ocasiones el estimador maximo verosmil es el que el sentido
com
un nos llevara a proponer.

Ejemplo 27
X exp() = f (x|) = ex I[0,) (x), > 0.
Se toma una muestra de tama
no n = 1 y se observa x = 3. Estudiamos la
funcion de verosimilitud L(|3) = e3 y buscamos su maximo para > 0.
Buscamos los valores de que anulan la derivada de L(|3):
L0 (|3) = e3 (1 3); L0 (|3) = 0 = =

1
3

Como L(|3) 0 y
lm L(|3) = lm L(|3) = 0

se sigue que el punto crtico de L(|3) es un maximo. As,


= 1.

3
.

Ejemplo 28
Nos regalan una bolsa de lacasitos. Nos dicen que la proporcion de caramelos
de cada color es la misma pero no nos dicen de cuantos colores distintos pueden
ser los caramelos. Se trata de estimar por maxima verosimilitud k, el n
umero
de colores, a partir de la observacion de n caramelos.


3.2. ESTIMADORES DE MAXIMA
VEROSIMILITUD

55

Supongamos que escogemos 3 caramelos y observamos verde, blanco y verde.


Anotamos x1 = V BV . Si k es el n
umero de colores, la probabilidad de observar
dos colores distintos en los tres caramelos es
P(x1 |k) = L(k|x1 ) =
P(el segundo diferente al primero)P(el tercero es como el primero) =
k1
k11
=
.
k k
k2
Esta funcion de k toma los valores siguientes, y tal como puede apreciarse es
decreciente:
k
(k 1)/k 2

2
1
= 0,25
4

3
2
= 0,2222
9

4
3
= 0,1875
16

(decrece en k)

As, el estimador maximo verosmil de k es


BV ) = 2.
k(V
Sacamos otro caramelo y vemos que es de color naranja. Anotamos x2 =
V BV N . La verosimilitud de la muestra es ahora
L(k|x2 ) = P(x2 |k) =

k11k2
(k 1)(k 2)
=
k k k
k3

cuyos primeros valores son los siguientes:

k
L(k|x2 )

3
2
= ,0741
27

4
3
= ,0938
32

5
12
= ,096
125

6
5
= ,0926
54

7
30
= ,0875
343

Para k 6 la funcion L(k|x2 ) es decreciente en k. Por tanto el estimador maximo


verosmil de k es
BV N ) = 5.
k(V
Observese que, pese a haber observado solo cuatro caramelos y a haber visto
u
nicamente tres colores distintos, el estimador maximo verosmil indica que hay
dos colores que a
un no hemos visto.
.
.

El problema de hallar el estimador maximo verosmil es un problema de optimizacion. Por lo tanto, todas las tecnicas analticas y numericas de optimizacion
que conocemos pueden resultarnos u
tiles para estimar por maxima verosimilitud. Tambien hay que tener la misma precaucion con lo resultados obtenidos:
hay que comprobar las condiciones de segundo orden para asegurarnos de que
un punto crtico es efectivamente un maximo, puede haber mas de un maximo

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
56CAPITULO 3. ESTIMACION
global, puede haber varios maximos locales, el optimo puede estar en la frontera
del espacio parametrico, podemos tener una funcion objetivo (la verosimilitud)
que sea practicamente plana cerca del maximo y esto dificulta la b
usqueda por
metodos numericos.
Como norma general, si la dimension del espacio parametrico es 1 o 2, es
conveniente hacer un grafico de la funcion de verosimilitud frente a los diferentes
valores de los parametros. Esto puede ayudar a detectar algunos de los problemas
que mencionamos antes.

3.2.1.

C
alculo del estimador m
aximo verosmil

Si la funcion de verosimilitud L( | x ) es derivable en i , las soluciones de


e e
las ecuaciones de primer orden,

L( |x) = 0, j = 1, . . . , k,
j
e
son candidatas a ser el estimador maximo verosmil. Los ceros de las primeras
derivadas no son necesariamente maximos de la funcion de verosimilitud: pueden
ser maximos locales o globales, mnimos locales o globales o puntos de inflexion.
Para asegurar que la solucion encontrada es un maximo (local o global) hay que
comprobar que las segundas derivadas sean definidas negativas.
Por otra parte, este procedimientos solo permite localizar extremos en el
interior del espacio parametrico . Podra ser que L(| x ) alcanzase su valor
e
maximo en la frontera de .
Ejemplo 29
X1 , . . . , Xn m.a.s. de X N (, 1), IR:

Pn
2
1
L(| x ) = (2)n/2 e 2 i=1 (xi )
e
Calculamos la primera derivada de L respecto a :
n
X
d
L(| x ) =
(xi )L(| x );
d
e
e
i=1

luego

X
d
L(| x ) = 0 =
(xi ) = 0 =
= x.
d
e
i=1

As pues,
= x es un candidato a ser el estimador maximo verosmil. Tenemos
que comprobar que es un maximo global de L(| x ).
e
En primer lugar, constatamos que x es el u
nico punto crtico del interior del
espacio parametrico = IR. En segundo lugar, calculamos la derivada segunda:
"
!
#
n
X
d2
2
n + ( (xi )) L(| x )
L(| x )|=x =
= nL(x| x ) < 0.
d2
e
e
e
i=1
=x


3.2. ESTIMADORES DE MAXIMA
VEROSIMILITUD

57

As pues, x es un maximo y es el u
nico extremo del interior del espacio parametrico.
Por u
ltimo, analizamos el comportamiento de L(| x ) en la frontera: en este
e
caso . Vemos que
lm L(| x ) = 0.
x
e
Concluimos entonces que
= x es el estimador maximo verosmil. La u
ltima
comprobacion (comportamiento de L(| x ) en ) no es estrictamente necesae
ria, porque si en + o hubiese un maximo, forzosamente tendra que haber
un mnimo relativo en el interior de = IR (dado que x es maximo relativo) y
eso no ocurre.
.
.

En ocasiones es posible buscar el maximo de L(, x ) directamente, usando


e
propiedades especficas de esa funcion de verosimilitud concreta. Esto puede
ser u
til si las ecuaciones obtenidas al igualar a cero las derivadas de L resultan complicadas. No hay una metodologa general que seguir y, por tanto, este
procedimiento alternativo requiere mas habilidad que el basado en el calculo de
derivadas. Por ejemplo, se puede probar que hay una cota superior de la verosimilitud y que esta se alcanza en un valor del parametro. Ello implica que ese
valor es el estimador maximo verosmil.

Ejemplo 29, p
agina 56. Continuaci
on. La verosimilitud es decreciente en
Pn
2
el estimador maximo verosmil es equivalente a
i=1 (xi ) , luego encontrar
Pn
encontrar el mnimo de i=1 (xi )2 . Observese que, por el Teorema 1,
n
X
i=1

(xi )2 =

n
X

(xi x)2 + (x )2

i=1

Pn

n
X

(xi x)2 .

i=1
2

Ademas, la cota inferior i=1 (xi x) se alcanza si hacemos = x. Se concluye


Pn
que x es mnimo absoluto de i=1 (xi )2 y, por tanto, es tambien el estimador
maximo verosmil.
.
.
Muy a menudo es mas sencillo trabajar con el logaritmo de la verosimilitud
que hacerlo con la propia funcion. Dado que el logaritmo es una funcion estrictamente creciente, los extremos de la funcion de verosimilitud se alcanzan en
los mismos puntos (y tienen las mismas caractersticas) en los que se alcancen
los extremos de su logaritmo.
Denotaremos por l (| x ) al logaritmo de la funcion de verosimilitud:
e
l (| x ) = log L(| x ).
e
e

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
58CAPITULO 3. ESTIMACION
Ejemplo 30
X1 , . . . , X n muestra aleatoria simple de X Bern(p), p = [0, 1].
e
Pn
Pn
L(p| x ) = p i=1 xi (1 p)n i=1 xi =
e
n
n
X
X
l (p| x ) = (
xi ) log p + (n
xi ) log(1 p) =
e
i=1
i=1
Pn
Pn
n i=1 xi
d
i=1 xi
l (p| x ) =

.
dp
p
1p
e
Pn
Distinguiremos tres casos, seg
un sea el valor de
i=1 xi . Si suponemos que
Pn
0 < i=1 xi < n

Pn
n
n
X
X
xi
d
l (p| x ) = 0 = (1 p)(
xi ) = (n
xi )p = p = i=1
= x (0, 1).
dp
n
e
i=1
i=1
Pn
xi
p = i=1
= x es el u
nico extremo en el interior de , es decir, en (0, 1). Con
n
la segunda derivada comprobamos que se trata de un maximo:
Pn
Pn

n i=1 xi
d2
i=1 xi
l
(p|
x
)|
=

=
p=p
dp2
p2
(1 p)2
e
p=p

n
p n(1 p)
1

= n
< 0.
p2
(1 p)2
p(1 p)

Concluimos que el u
nico valor posible del estimador maximo verosmil en (0, 1)
es p, donde la verosimilitud valdra

L(
p| x ) =
e

p
1 p

np
(1 p)n > 0.

Estudiamos el valor de L(p| x ) en la frontera, es decir, en p = 0 y p = 1:


e
L(0| x ) = L(1| x ) = 0 < L(
p| x ).
e
e
e
Concluimos que p es el estimador maximo verosmil de p, en el caso de que
Pn
0 < i=1 xi < n.
Pn
En segundo lugar, si i=1 xi = 0,
L(p| x ) = (1 p)n ,
e
funcion decreciente en p, luego el estimador maximo verosmil de p es 0 = x = p.
Pn
Por u
ltimo, si i=1 xi = n,
L(p| x ) = pn ,
e
funcion creciente en p, luego el estimador maximo verosmil de p es 1 = x = p.


3.2. ESTIMADORES DE MAXIMA
VEROSIMILITUD

59

En resumen, el estimador maximo verosmil de p es


Pn
xi
p = i=1 .
n
.

Es importante asegurarse que el estimador maximo verosmil propuesto pertenece al espacio parametrico.

Ejemplo 31
X1 , . . . , Xn m.a.s. de X N (, 1), 0.
Ya hemos visto en el ejemplo 29 que si = IR entonces el estimador maximo
verosmil de es
= x. Por lo tanto este tambien sera el estimador maximo
verosmil en el presente problema si x 0. En el caso de que x < 0 es inmediato
probar que L(| x ) es funcion decreciente en si > x. Por lo tanto, en este
e
caso el estimador maximo verosmil de es 0. Resumiendo, el estimador maximo
verosmil de cuando = [0, ) es

0
x

si
si

x<0
x0
.

Un caso en el que no es posible realizar la optimizacion mediante la igualacion


de las derivadas a cero es aquel en el que el espacio parametrico es discreto.
En este caso a
un es posible analizar el problema de forma sistematica.
Si es posible considerar un espacio parametrico A mas amplio en el que el
parametro vare de forma continua (por ejemplo, si = IN, A podra ser IR+
o IR) y buscar el estimador maximo verosmil cuando A , ese valor puede
ayudarnos a restringir la lista de puntos de que pueden ser estimador maximo
verosmil de .

Ejemplo 32
X1 , . . . , Xn m.a.s. de X N (, 1), IN. Como el estimador maximo verosmil de IR es x y L(| x ) es creciente en (, x) y decreciente en (x, ),
e
se deduce que los u
nicos puntos que pueden ser estimador maximo verosmil de
IN son [x] y [x] + 1, donde [a] es la parte entera de a, para cualquier a IR.
.
.

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
60CAPITULO 3. ESTIMACION
Cuando razonamientos de este tipo no son posibles pero el espacio parametrico discreto es IN (o en general, si esta totalmente ordenado) es u
til analizar
los cocientes
L(k + 1| x )
e
L(k| x )
e
y estudiar para que valores de k estos son menores o mayores que 1. El siguiente
ejemplo responde a este modelo.

Ejemplo 33
Lanzamos una moneda equilibrada (p = 0,5) unas cuantas veces y obtenemos
4 caras; cuantas veces la hemos lanzado?
En este caso se tiene X1 , . . . , Xn , una m.a.s. de X B(k, p), con p conocido
y k desconocido. La verosimilitud es
n
n
Y
Y
k xi
k!
L(k| x ) =
p (1 p)kxi = pnx (1 p)n(kx)
.
x
x
!(k
xi )!
e
i
i=1
i=1 i

El hecho, por un lado, de que el parametro k sea natural y, por otro, la presencia
de k! y (k xi )! en la funcion de verosimilitud, hace difcil la maximizacion de
L.
Si ordenamos los datos x(1) x(2) . . . x(n) , es obvio que k x(n) porque
los valores de xi oscilan entre 0 y k. Ademas, el estimador maximo verosmil es
un n
umero natural k que satisface
L(k| x )
L(k + 1| x )
e
e <1
1y
L(k 1| x )
L(k| x )
e
e
Desarrollando,
Qn
k!
(1 p)nk i=1 (kx
L(k| x )
i )!
e
=
Qn
(k1)!
L(k 1| x )
(1 p)n(k1) i=1 (k1x
i )!
e
n
!
Y k
(k(1 p))n
n
= Qn
= (1 p)
1,
k xi
i=1 (k xi )
i=1
y
L(k + 1| x )
((k + 1)(1 p))n
e = Qn
< 1.
L(k| x )
i=1 (k + 1 xi )
e
As, las condiciones anteriores sobre los cocientes de verosimilitudes equivalen a
pedir
(k(1 p))n

n
Y

(k xi ) y ((k + 1)(1 p))n <

i=1

n
Y
i=1

(k + 1 xi ).


3.2. ESTIMADORES DE MAXIMA
VEROSIMILITUD

61

Dividiendo por k n y (k + 1)n , son equivalentes a


(1 p)n

n
Y

(1 (xi /k)) y (1 p)n <

i=1

n
Y

(1 (xi /(k + 1)))

i=1

De hecho, queremos encontrar un valor z = 1/k tal que


(1 p)n =

n
Y

(1 zxi )

i=1

Qn
con 0 z 1/x(n) , porque k x(n) . La funcion g(z) = i=1 (1 zxi ) es
decreciente en z, g(0) = 1, g(1/x(n) ) = 0. Por lo tanto la ecuacion
g(z) = (1 p)n [0, 1],
tiene solucion u
nica z. Este valor z no tiene por que ser el inverso de un natural
k, pero s nos permite calcular el estimador maximo verosmil k de k:
k = max{k IN : k 1/
z }.
Este analisis demuestra que el maximo de L(k| x ) es u
nico.
e
Supongamos que p = 0,5, que n = 3 y que hemos observado x1 = 4, x2 = 2
y x3 = 3. Hay que resolver la ecuacion
1
1
(1 )3 = = 0,125 = g(z) = (1 4z)(1 3z)(1 2z) = 1 9z + 26z 2 24z 3
2
8
en z [0, 1/x(3) ] = [0, 1/4]. Calculamos algunos valores de g(z) con z = 1/k y
k 4:
k
z = 1/k
g(z)

4
0.25
0

5
0.2
0.048

6
0.1667
0.1111

7
0.1429
0.1749

8
0.125
0.2344

9
0.1111
0.2881

10
0.1
0.336

Observese que g(1/6) < 0,125 < g(1/7). Por lo tanto, z (1/7, 1/6) y
k = max{k IN : k 1/
z } = 6.

Si L(| x ) no puede maximizarse analticamente pueden usarse tecnicas nue


mericas de optimizacion. Nos referiremos mas adelante a algunas de estas tecnicas.
En estos casos es importante comprobar la estabilidad numerica del estimador maximo verosmil encontrado. Es decir, es importante saber si la solucion
cambia solo ligeramente cuando alteramos ligeramente los datos o si, por el

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
62CAPITULO 3. ESTIMACION
contrario, cambios peque
nos en los datos dan lugar a grandes cambios en las
soluciones. Si este es el caso, podemos deducir que quizas la funcion de verosimilitud sea practicamente plana en una zona alrededor del maximo y estamos
obteniendo puntos distintos de esa zona. Tambien puede ocurrir que la funcion de verosimilitud tenga m
ultiples maximos locales y al perturbar los datos
estemos pasando de uno a otro.

Ejemplo 33, p
agina 60. Continuaci
on. En el ejemplo anterior supongamos
p) IN
que p tambien fuese desconocido. El estimador maximo verosmil (k,
[0, 1] puede encontrarse por optimizacion numerica. Supongamos que n = 5 y
que se observa
x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 27.
Entonces el estimador maximo verosmil de k es k = 99. Se vuelve a realizar el
experimento y solo cambia la u
ltima observacion:
x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 28.
En este caso el maximo se encuentra en k = 190. Estamos en un caso de un
estimador k muy inestable. (Vease Casella-Berger, p. 297.)
.
.

Estimador maximo verosimil de un parametro multidimensional


La forma de proceder en este caso sigue las pautas expuestas anteriormente.
Veamos un ejemplo en el que el parametro es bidimensional.

Ejemplo 34
X1 , . . . , Xn m.a.s. de X N (, 2 ), ambos parametros desconocidos: =
(, 2 ).
Pn
2
1
L(, 2 | x ) = (2 2 )n/2 e 22 i=1 (xi ) =
e
n
n
n
1 X
l (, 2 | x ) = log 2 log 2 2
(xi )2
2
2
2 i=1
e
Pn

1
2
i=1 (xi
l (, | x ) = 2
e2
1

n
( 2 ) l (, | x ) = 2 2 + 2 4
e

) = 0
Pn
2
i=1 (xi ) = 0

=x
Pn

2 = n1 i=1 (xi x)2 .

2 ) es maximo global de dos formas.


Podemos probar que la solucion = (x,
Pn
Pn
En primer lugar, como para cualquier 6= x es i=1 (xi )2 > i=1 (xi
x)2 , se tiene que
l (x, 2 | x ) > l (, 2 | x ) para todo 2 .
e
e


3.2. ESTIMADORES DE MAXIMA
VEROSIMILITUD

63

Ahora solo hay que probar que l (x, 2 | x ) alcanza su maximo como funcion unie
variante de 2 en
2 . De esta forma hemos reducido el problema bidimensional
a uno unidimensional.
En segundo lugar, podemos probar que (x,
2 ) es maximo de l mediante
el calculo de las primeras y segundas derivadas parciales. Hay que comprobar
que el punto anula las primeras derivadas y que la matriz hessiana es definida
negativa, es decir, se ha de verificar lo siguiente:
1.

l ((1 , 2 )| x )
j
e

2.

= 0, j = 1, 2.
1 =x,2 =
2

l
((
,

)|
x
)

1
2
j2
e

< 0,
1 =x,2 =
2

al menos para j = 1 o j = 2.
3.
J

(2)

2
l ((1 , 2 )| x )
12
e
2
l ((1 , 2 )| x )
1 22

2
1 2 l ((1 , 2 )| x )
e
2
l ((1 , 2 )| x )
22

>0
1 =x,2

=
2

El primer punto ya se comprobo anteriormente, pues (x,


2 ) fueron encontrados precisamente como los valores que anulaban las primeras derivadas.
Calculemos las segundas derivadas:
2
n
l ((, 2 )| x ) = 2
2

e
n
2
n
1 X
2
(xi )2
l
((,

)|
x
)
=

( 2 )2
2 4
6 i=1
e
n
2
1 X
l ((, 2 )| x ) = 4
(xi ).
()
i=1
e

Observad que cuando se particularizan estas derivadas segundas en se obtiene


lo siguiente:
n
2
l ((, 2 )| x )|x,2 = 2 < 0
2

e
1
n
2
n
l ((, 2 )| x )|x,2 =
6 n
2 = 4 < 0
( 2 )2
2
4

e
2
l ((, 2 )| x )|x,2 = 0
()
e

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
64CAPITULO 3. ESTIMACION
As, se verifica tambien el segundo punto de la lista anterior. Veamos el tercero,
sobre el signo del determinante de la matriz hessiana:

n2
n2
0
> 0 para todo 2
J (2) =
n =
24
0
2 6
Se concluye que (x,
2 ) es el maximo de la funcion de verosimilitud.
Para ser estrictos, a
un se debera probar que (x,
2 ) es el u
nico punto crtico del interior del espacio parametrico (esto es inmediato, porque es la u
nica
solucion de las condiciones de primer orden) y que el maximo no se alcanza en
la frontera (cuando = , 2 = 0 o 2 = ). Esto u
ltimo obligara a la
existencia de otros puntos crticos en el interior del espacio parametrico, lo cual
es absurdo.
En general se intenta probar la condicion de maximo sin recurrir al calculo
de las segundas derivadas.
.
.

Estimador maximo verosimil con datos censurados


El siguiente es un ejemplo de estimacion maximo verosmil que se aparta del
marco clasico de observaciones i.i.d.

Ejemplo 35
Sean X1 , . . . , Xn muestra aleatoria simple de X exp(). En este contexto el
= 1/x.
estimador maximo verosmil de es
Supongamos que no observamos todas las variables, sino solo las m primeras, y que de las restantes (n m) solo sabemos que toman valores mayores
que T : Xj > T , j = m + 1, . . . , n. Se dice entonces que esos valores han sido
censurados. En este caso, la verosimilitud es
m
n
Y
Y
L(| x ) =
f (xi |)
(1 F (T |)) =
e
i=1
i=m+1
m
Y
i=1

exi

n
Y

eT = m e

Pm
i=1

xi T (nm)

i=,+1
m
X
l (| x ) = m log
xi T (n m).
e
i=1

Derivando e igualando a 0:
m

d
m X
l (| x ) =

xi T (n m) = 0 =
d

e
i=1
m
.
x
+
(n m)T
i=1 i

= Pm


3.2. ESTIMADORES DE MAXIMA
VEROSIMILITUD

65

Comprobamos que es maximo:


d2
m
l (| x ) = 2 < 0 para todo .
2
d

e
es el estimador maximo verosmil de en el caso de datos
Concluimos que
censurados.
La variable aleatoria exp() suele modelizar tiempos de vida (o tiempos de
funcionamiento hasta fallar) de individuos o mecanismos. En ese caso es la
tasa de fallo, la cantidad de fallos por unidad de tiempo. Observese que tanto
en el caso usual sin censura como en el caso con censura el inverso del estimador
maximo verosmil de es el cociente de la suma total de los tiempos de vida (o
en funcionamiento) entre el n
umero de muertes (o fallos) observadas.
.
.

3.2.2.

C
alculo num
erico de los estimadores de m
axima verosimilitud

Como ya se dijo anteriormente, en la practica el calculo del estimador maximo verosmil se reduce a resolver un problema de optimizacion de una funcion
(en general no lineal) de k variables, posiblemente sujeto a restricciones. Recordaremos en esta seccion algunas tecnicas numericas para llevar a cabo esa
optimizacion. Lo expuesto aqu esta basado en Bertsekas (1999).
Buscaremos el maximo del logaritmo de la verosimilitud, dado que esta funcion es en general mas facil de tratar numericamente que la verosimilitud. Los
algoritmos presentados no contemplan la posibilidad de tener restricciones sobre los parametros. Si los parametros estan sujetos a restricciones del tipo cotas
simples (por ejemplo, > 0 en una distribucion gamma) una transformacion
logartmica del parametro transforma el problema en otro sin restricciones en los
parametros (por ejemplo, en la distribucion gamma se reparametriza mediante
= log() y as el nuevo parametro puede tomar cualquier valor real).
El problema es siempre maxIRk l (| x ). Como la muestra x esta fija en
e
e
todo el proceso, escribiremos l () en lugar de l (| x ). Llamaremos al maximo
e
de l ().

Metodo de Newton-Raphson
Se trata (al igual que los metodos siguientes) de un procedimiento iterativo
que proporciona una sucesion {n }n1 que converge al optimo .
Consideremos una estimacion inicial 0 de que puede haber sido obtenida,
por ejemplo, por el metodo de los momentos. El metodo de Newton-Raphson
aproxima la funcion l () en un entorno de 0 por la funcion cuadratica que en
ese punto 0 tiene en com
un con l () el valor de la funcion y los valores de

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
66CAPITULO 3. ESTIMACION
las dos primeras derivadas. Llamemos l0 () a esa funcion cuadratica. De hecho,
l0 () es el desarrollo en serie de Taylor de orden 2 de l () alrededor de 0 .

Ejemplo 36
Si k = 1, l0 () = a + b + c2 . Los valores de a, b y c se obtienen al resolver el
sistema

l 0 (0 ) = l (0 )
l 0 ( ) = l 0 (0 )
0 00 0
l 0 (0 ) = l 00 (0 )
El resultado es el mismo si se hace directamente el desarrollo de Taylor de l :
1
l0 () = l (0 ) + ( 0 )l 0 (0 ) + ( 0 )2 l 00 (0 ).
2
.

El primer punto en la sucesion, 1 , es el punto donde se alcanza el maximo


de la funcion cuadratica aproximadora. El proceso se itera y as se construye la
sucesion {n }n1 que, bajo condiciones generales (por ejemplo, si la funcion de
verosimilitud es concava), converge al optimo :
0

l0 ()
l1 ()
l2 ()
..
.
lm1 ()
..
.

1
.
2
.
3
.
..
..
.
.
.
m
.
..
..
.
.

Veamos que este algoritmo puede resumirse analticamente dando la formula


que permite calcular cada punto de la sucesion en funcion del punto anterior.
Como hemos dicho, lm () es el desarrollo en serie de Taylor de orden 2 de
l () alrededor de m :
1
lm () = l (m ) + l (m )t ( m ) + ( m )t Hl (m )( m )
2


3.2. ESTIMADORES DE MAXIMA
VEROSIMILITUD

67

donde l (m ) IRk es el vector gradiente de l en m , que tiene por componente


j-esima la derivada parcial de l respecto a la coordenada j-esima de calculada
en el punto m , y Hl (m ) es la matriz hessiana de l en m , una matriz kk cuyo
elemento (i, j) es la segunda derivada de l respecto a las cordenadas i-esima y
j-esima, calculadas en el punto m .
La maximizacion de lm es factible analticamente. Su gradiente es
lm () = l (m ) + Hl (m )( m ).
Igualandolo a 0 se obtiene el punto m+1 :
1

l (m ) + Hl (m )( m ) = 0 = m+1 = m (Hl (m ))

l (m ).

Este punto m+1 es maximo de l (m ) si Hl (m ) es definida negativa, ya que


H lm () = Hl (m ).
Pero si m esta suficientemente cerca de y l () es una funcion suave (segundas
derivadas continuas) entonces Hl (m ) sera definida negativa por serlo Hl ( ).
As,
m+1 = m (Hl (m ))

l (m )

es la formula recursiva que nos da m+1 en funcion de m , m 0. Aplicaremos


la recursion hasta convergencia, es decir, hasta que
||m+1 m || < ,
para un prefijado. Una condicion suficiente, aunque no necesaria, para que el
algoritmo converja es que l sea concava.

Metodo de los scores de Fisher


Se trata de una modificacion del metodo de Newton-Raphson. En la iteracion
m+1 = m (Hl (m ))

l (m )

se sustituye el hessiano por su valor esperado. No olvidemos que l (y por lo


tanto, su gradiente y su matriz hessiana) depende de y tambien de la muestra
x observada. Podemos entonces tomar esperanzas:
e
D = Em (Hl (m | X )),
e
que es la matriz de informacion de Fisher cambiada de signo.
La principal ventaja teorica que se deriva de esta sustitucion es que se garantiza la convergencia del algoritmo. En efecto, bajo condiciones de regularidad
(que permiten intercambiar los signos de la derivada y de la integral; en la
seccion 4.2 se volvera sobre esto) se puede probar que
E (l ()) = 0, y V (l ()) = E (l ()l ()t ) = E(Hl (| X ))
e

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
68CAPITULO 3. ESTIMACION
de donde se deduce que D = Em (Hl (m | X )) es definida negativa, lo cual
e
garantiza la convergencia del algoritmo.
No obstante, es posible que la convergencia del algoritmo modificado sea
mas lenta que la del algoritmo de Newton-Raphson puro, en caso de que ambos
converjan.
Una ventaja practica de este algoritmo es que en el calculo de D solo intervienen derivadas de primer orden (el gradiente del logaritmo de la verosimilitud)
mientras que en el algoritmo original se necesita calcuar la matriz hessiana. Por
contra, ahora hay que calcular una esperanza. En este sentido, sera preferible
uno u otro algoritmo seg
un sea la dificultad de calcular
!

l l
dij = E
i j
y
hij =

2l
.
i j

Al vector gradiente, l (), tambien se le llama vector de scores, lo cual


justifica el nombre del algoritmo.

Ejemplo 37
Veamos que en el caso de familias exponenciales parametrizadas de forma natural ambos algoritmos son, de hecho, el mismo porque la matriz hessiana no
depende de la muestra observada. La verosimilitud de una muestra es

n
!
k
Y
X
h(xi ) c()n exp
j Tj ( x ) ,
L(| x ) =
e
e
i=1
j=1
donde Tj ( x ) =
e

Pn

i=1 tj (xi ),

y su logaritmo,

k
X
l (| x ) = K + n log c() +
j Tj ( x ),
e
e
j=1

donde K es cierta constante. As,


l ()
log c()
=n
+ Tj ( x )
j
j
e
y

2 l ()
2 log c()
=n
i j
i j

que es constante en la muestra, por lo que es igual a su valor esperado. Se sigue


que Hl = E(Hl ) = D.
.
.


3.2. ESTIMADORES DE MAXIMA
VEROSIMILITUD

69

Metodo de Nelder-Mead
Es un metodo de b
usqueda directa que no requiere ni primeras ni segundas
derivadas de la funcion objetivo, solo es necesario poder evaluar la funcion que
queremos maximizar.
En cada iteracion del algoritmo se parte de un conjunto de (k + 1) puntos
de IRk , 1 , . . . , k+1 , j IRk , tales que su envoltura convexa tenga interior no
vaco: esos puntos forman un simplex en IRk .
El resultado de cada iteracion es otro simplex. Se espera que el volumen del
simplex vaya decreciendo de iteracion en iteracion y que el valor de la funcion
objetivo crezca al pasar de los puntos de un simplex a los del siguiente. La
iteracion tpica del algoritmo de Nelder-Mead es como sigue:
Paso 0 Se parte de 1 , . . . , k+1 . Se definen
mn = arg mn l (i ), max = arg max l (i ),
i=1...k

i=1...k

k+1
!
1 X

i mn
=
k i=1

El punto es el punto medio de la cara opuesta a mn .


Paso 1 Definir ref = + ( mn ).
Si l (ref ) > l (max ) = Paso 2. (ref es mejor que los otros puntos
del simplex).
Si l (max ) > l (ref ) > mn{l (i ) : i 6= mn } = Paso 3.
Si l (ref ) < mn{l (i ) : i 6= mn } = Paso 4.
Paso 2 Intentar expansion.

Sustituir mn
simplex.

exp = ref + (ref )

exp si l (exp ) > l (ref )


new =
ref en otro caso
por new en el simplex. Volver al Paso 0 con el nuevo

Paso 3 Usar el punto reflejado.


new = ref
Sustituir mn por new en el simplex. Volver al Paso 0 con el nuevo
simplex.
Paso 4 Contraer el simplex.
(
new =

2 (mn + ) si l (mn ) l (ref )


1

2 (ref + ) si l (mn ) < l (ref )

Sustituir mn por new en el simplex. Volver al Paso 0 con el nuevo


simplex.

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
70CAPITULO 3. ESTIMACION
En la practica funciona bien si la dimension del espacio parametrico es peque
na (k 10), como suele ser el caso en problemas de estimacion por maxima
versimilitud. No hay resultados teoricos sobre la convergencia de este algoritmo. Si l () es estrctamente concava, el algoritmo mejora la verosimilitud en
cada iteracion. Esto se entiende en el sentido de que ocurre alguna de estas dos
cosas: en cada iteracion, o bien l (mn ) crece estrictamente, o bien, la cantidad
de vertices del simplex i en los que l (i ) = l (mn ) decrece en al menos una
unidad.

3.2.3.

Principio de invariancia del estimador m


aximo verosmil

Sea X1 , . . . , Xn muestra aleatoria simple de X f (x|) y sea el estimador


maximo verosmil de . Si estamos interesados en estimar una funcion () del
Este

parametro, podemos hacerlo mediante ().


es el resultado que garantiza
el siguiente teorema y se conoce como principio de invariancia.
Teorema 18 (Principio de invariancia) Si es el estimador m
aximo verosmil de , entonces para cualquier funci
on () el estimador m
aximo verosmil

de () es ().
Demostraci
on: Supondremos primero que es biyectiva. Definimos
= () = 1 ()
y reparametrizamos la verosimilitud usando el nuevo parametro en vez de :
n
Y
L (| x ) =
f (xi | 1 ()) = L( 1 ()| x ) =
e
e
i=1

L (
| x ) = sup L (| x ) = sup L( 1 ()| x ) =

e
e
e
x ) = L ( ()|
x ).
sup L(| x ) = L(|
e
e
e

luego el estiPor lo tanto el maximo de L (| x ) se alcanza cuando = (),


e

mador maximo verosmil de = () es ().


Consideramos ahora el caso en que no es biyectiva. En este caso no es
posible definir la verosimilitud L (| x ) como L( 1 ()| x ) porque 1 () no
e
e
esta definido unvocamente. Se define L (| x ), la verosimilitud inducida
e
por , como
L (| x ) =
sup L(| x ).
e
e
{: ()=}
Con esta definicion se verifica que el estimador maximo verosmil de (), d
(),

es (). Efectivamente, sea el estimador maximo verosmil de = (), es

BAYESIANA
3.3. ESTIMACION

71

decir, el valor que verifica


L (
| x ) = sup L (| x ).

e
e
Por definicion de L ,
L (
| x ) = sup L (| x ) = sup sup L(| x ) =

{: ()=}
e
e
e
x) =
x ),
sup L(| x ) = L(|
sup
L(| x ) = L ( ()|
e
e
e
e

{: ()= ()}
es decir,
x ),
L (
| x ) = L ( ()|
e
e

luego el maximo de la verosimilitud en se alcanza si = ().

Ejemplo 38
Si X N (, 2 ), el estimador maximo verosmil de 2 es x2 .
Si X B(n, p), el estimador
maximo
p
p verosmil de p es p = X/n y el estimador
maximo verosmil de p(1 p) es p(1 p).
.
.

3.3.
3.3.1.

Estimaci
on Bayesiana
Distribuciones a priori y a posteriori

Consideremos un problema de inferencia estadstica en el que las observaciones se toman de una variable aleatoria X que sigue una distribucion con funcion
de densidad (o funcion de masa de probabilidad) f (x|), con . En ocasiones se dispone de informacion sobre el parametro antes de recoger los datos.
Esta informacion puede ser de tipo historico (si se han realizado experimentos
similares con anterioridad) o bien de tipo subjetivo (el investigador puede creer
que ciertos valores de son mas plausibles que otros).
Una forma de recoger la informacion previa sobre es definir una distribucion
n a priori de , de forma que
de probabilidad sobre , que se llama distribucio
las regiones de mas probables a priori sean aquellas que contienen los valores
de mas plausibles seg
un la informacion previa existente, antes de observar
ning
un valor de X.
El concepto de distribucion a priori es muy controvertido. Algunos estadsticos defienden que en cualquier problema estadstico se puede definir siempre
una ley a priori para . Esta distribucion representa la informacion (historica o
subjetiva) del experimentador y se debe trabajar con ella siguiendo las reglas

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
72CAPITULO 3. ESTIMACION
de la probabilidad. Por tanto, el parametro es considerado una variable aleatoria como cualquier otra, con la u
nica peculiaridad de que no es observable. Lo
que s se observa es la variable aleatoria X condicionada al valor concreto (no
observable) que toma . As pues, el estudio de las observaciones de X aporta
informacion sobre el valor de , informacion que debe combinarse con la distribucion a priori del parametro para modificarla. El resultado de esa actualizacion
de la informacion se plasma de nuevo en una distribucion de probabilidad sobre
n a posteriori de , una vez observada la variable aleatoria
: la distribucio

X. Estos son los planteamientos basicos que conforman el enfoque bayesiano


de la estadstica.
Otros estadsticos creen que en ocasiones no es apropiado hablar de una distribucion de probabilidad sobre porque es una cantidad fija desconocida
para el investigador. Otro de los aspectos de la inferencia bayesiana que a menudo recibe crticas es el grado de subjetividad a que esta expuesto por el hecho
de que es el experimentador quien define la distribucion a priori. En cualquier
caso, en lo que hay coincidencia es en que si hay informacion sobre esta tiene
que ser utilizada en la inferencia.
Existen distribuciones a priori no informativas (por ejemplo con densidad o funcion de masa plana en todo ) que se construyen sin usar informacion
a priori y permiten hacer inferencia bayesiana objetiva. Para definirlas a veces
es necesario recurrir a distribuciones a priori impropias (distribuyen una
probabilidad infinita sobre ). Pese a su caracter impropio permiten hacer inferencias correctas.
Supondremos aqu que existe informacion previa sobre y que esta se expresa
mediante una distribucion a priori sobre , cuya funcion de densidad o funcion
de masa de probabilidad denotaremos por (). Se toma una muestra aleatoria
simple X1 , . . . , Xn de X f (x|). El objetivo es actualizar la distribucion a
priori () con la ayuda de las observaciones x y teniendo en cuenta la forma
e
de f (x|), que indica como se distribuye x, condicionada por valores de . Por
el momento, supondremos que tanto X| como tienen funcion de densidad.
n muestral (o
La ley conjunta de X1 , . . . , Xn se denomina distribucio
verosimilitud de la muestra) dado el valor del parametro:
n
Y
f ( x |) =
f (xi |).
e
i=1

La densidad conjunta de X y es
e
f ( x , ) = f ( x |)().
e
e
Como consecuencia, la marginal de X es
e
Z
m( x ) = f ( x |)()d.
e
e

BAYESIANA
3.3. ESTIMACION

73

n a posteriori de como la ley condicional de


Se define la distribucio
dadas las observaciones x de X , cuya densidad se puede calcular por simple
e
e
aplicacion del Teorema de Bayes:
(| x ) =
e

f ( x |)()
e
, .
m( x )
e

En inferencia bayesiana se usa esta distribucion para realizar inferencias sobre


. Por ejemplo, un estimador puntual de podra ser E(| x ).
e
La distribucion a posteriori nos informa sobre la verosimilitud relativa de
que el verdadero valor de este en las distintas regiones del espacio parametrico
despues de haber observado X1 , . . . , Xn .
Observese que (| x ) es proporcional al producto de la verosimilitud por la
e
a priori:
(| x ) f ( x |)().
e
e
Esta relacion es suficiente para calcular (| x ) dado que la restriccion de que
e
su integral sea 1 permite calcular la constante 1/m( x ).
e
Ejemplo 39
Sea X el tiempo de vida en horas de un nuevo modelo de lampara fluorescente.
Se supone que X exp(), con = E(X) = 1/. La informacion historica
acumulada sobre tiempos de vida de lamparas similares indica que tiene media
aproximadamente 5000 horas. De hecho, la distribucion que se propone como a
priori para es igual a
(0 , 0 ),
con E() = 0 0 = 1/5000 y V () = 0 02 = 0,0001, de donde se sigue que
0 0 = 0,0002 y 0 02 = 0,0001 = 0 = 4, 0 = 1/20000.
As, (4, 1/20000) y su funcion de densidad es
() =

200004 3 20000
e
, > 0.
(4 1)!

Se hace una prueba de vida en la que se ponen a funcionar 25 lamparas del


nuevo modelo hasta que se funden. Los resultados son estos:
X1 = x1 , . . . , X25 = x25 ,

25
X

xi = 150000.

i=1

As, la verosimilitud es
f (x1 , . . . , x25 |) = 25 e

P25
i=1

xi

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
74CAPITULO 3. ESTIMACION
y la densidad a posteriori de es
f (x1 , . . . , x25 |)()
(|x1 , . . . , x25 ) = R
.
f (x1 , . . . , x25 |)()d
o
El numerador es
f (x1 , . . . , x25 |)() = 25 exp{

25
X

xi }

i=1

200004 3 20000
e
=
3!

25
X
200004 28
exp{(
xi + 20000)},
6
i=1

y el denominador
Z
m(x1 , . . . , x25 ) =
o

25
X
200004 28
exp{(
xi + 20000)}d.
6
i=1

P25
Si hacemos = 29 y = 1/( i=1 xi + 20000), podemos observar que esa
integral es, salvo constantes, la integral de la funcion de densidad de una variable
aleatoria (, ). Concretamente,
200004
28!
m(x1 , . . . , x25 ) =
P25
6 ( i=1 xi + 20000)29

Z
o

f(,) ()d =

200004
28!
.
P
29
6 ( 25
i=1 xi + 20000)
As,

P25

(|x1 , . . . , x25 ) =

xi +20000)
200004 28 (
i=1
e
6
28!
200004 P
25
6
(
xi +20000)29

i=1

P25
i=1

xi + 20000)29 28 (P25 xi +20000)


i=1
e
28!

de donde se deduce que


25
X
|x1 , . . . , x25 (29, 1/(
xi + 20000)).
i=1

Por lo tanto, un estimador de podra ser


= E(|x1 , . . . , x25 ) = P

25
i=1

29
xi + 20000

29
,
150000 + 20000

y, como consequencia, una estimacion de la vida media de las nuevas lamparas


es
P25
xi + 20000
1
150000 + 20000

= = i=1
=
= 5862 horas.

29
29

BAYESIANA
3.3. ESTIMACION

75

Si usasemos x como estimador de , obtendramos un valor de


x=

150000
= 6000 horas.
25

Por lo tanto, la informacion a priori indica que no se debe ser tan optimista
como se desprende del valor x = 6000: a pesar de que el nuevo dise
no de lampara tiene una vida media superior a las anteriores (la estimacion de es ahora
de 5862 horas, superior a las 5000 horas iniciales) la informacion a priori rebaja
la vida media desde las 6000 horas observadas hasta las 5862.
.
.

Observaciones secuenciales
En muchos experimentos (en particular, en muchos ensayos clnicos) las observaciones X1 , . . . , Xn se obtienen de forma secuencial. Esta secuenciacion permite
actualizar progresivamente la informacion que se tiene sobre el parametro .
En un principio la informacion a priori sobre es (). Se observa X1 = x1 .
Entonces
(|x1 ) f (x1 |)()
recoge a partir de ese instante la informacion acumulada sobre . Por lo tanto
(|x1 ) act
ua como distribucion a priori antes de obtener la segunda observacion.
Cuando se observa X2 = x2 ,
(|x1 , x2 ) f (x2 |)(|x1 ) f (x2 |)f (x1 |)().
Tras haber observado X1 = x1 , . . . , Xn = xn ,
(|x1 , x2 , . . . , xn ) f (xn |)(|x1 , x2 , . . . , xn1 )
f (xn |) f (x2 |)f (x1 |)() = f ( x |)().
e
Se observa as que la distribucion a posteriori tras haber tomado n observaciones
de X es la misma tanto si se toman estas de forma secuencial como si se toman
simultaneamente.

3.3.2.

Distribuciones conjugadas

Sea F la clase de las funciones de densidad (o de masa de probabilidad) de


un modelo parametrico f (x|) indexadas por :
F = {f (x|) : }.
Sea una clase de distribuciones sobre . Se dice que es una familia de
distribuciones conjugadas para F si la distribucion a posteriori de dada
la muestra x pertenece a para toda muestra x X , para toda a priori
e
e
y para toda verosimilitud f F.

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
76CAPITULO 3. ESTIMACION
Teorema 19 Sea X1 , . . . , Xn m.a.s. de X Bern(), 0 < < 1. Sea
Beta(, ), > 0, > 0. La ley a posteriori de dadas las observaciones
X1 = x1 , . . . , Xn = xn es una

!
n
n
X
X
Beta +
xi , + n
xi .
i=1

i=1

Nota: Recordar que U (0, 1) Beta(1, 1).


Demostraci
on:

( + ) 1

(1 )1
()()
Pn
Pn
= f ( x |) = i=1 xi (1 )n i=1 xi = L(| x )
e
e

() =
f (xi |) = xi (1 )1xi
As,

Pn
( + ) 1

(1 )1 =
(1 )n i=1 xi
()()
Pn
( + ) Pn xi +1
i=1
(1 )n i=1 xi +1 ,
()()

f ( x , ) =
e

Pn

i=1

xi

Pn
( + ) Pn xi +1
i=1
(1 )n i=1 xi +1 d =
()()
0
Pn
Pn
( + ) ( + i=1 xi )(n i=1 xi + )

()()
( + + n)
Pn
Pn
( + + n)
Pn
Pn
i=1 xi +1 (1 )n i=1 xi +1 d =
( + i=1 xi )(n i=1 xi + )
{z
}

m( x ) =
e

Z
|

=1

Pn
Pn
( + ) ( + i=1 xi )(n i=1 xi + )
()()
( + + n)
Calculamos ahora la densidad a posteriori:
()()
( + + n)
P
P
(| x ) =

( + ) ( + ni=1 xi )(n ni=1 xi + )


e
Pn
( + ) Pn xi +1
i=1
(1 )n i=1 xi +1 =
()()
Pn
Pn
( + + n)
Pn
Pn
i=1 xi +1 (1 )n i=1 xi +1
( + i=1 xi )(n i=1 xi + )
Pn
Pn
y por lo tanto, | x tiene distribucion Beta( + i=1 xi , + n i=1 xi ). 2
e
Teorema 20 Sea X1 , . . . , Xn m.a.s. de X Poisson(), 0 < . Sea
(, ), > 0, > 0. La ley a posteriori de dadas las observaciones X1 =
x1 , . . . , Xn = xn es una

!
n
X
1
1
+
xi , ( + n)
.
i=1

BAYESIANA
3.3. ESTIMACION

77

Demostraci
on: Para ciertas constantes K1 , K2 y K3 , se tiene que
Pn
() = K1 1 e/ , L(| x ) = K2 en i=1 xi =
e
Pn
Pn
1
(| x ) = K3 en i=1 xi 1 e/ = K3 + i=1 xi 1 e( +n)
e

Pn
que corresponde con la densidad de una + i=1 xi , ( 1 + n)1 .

Los valores de las constantes usadas en la demostracion son


Pn
( + i=1 xi 1)!
1
1
Pn
Q
K1 =
,
K
=
,
K
=
,
2
3
n
( 1)! i
i=1 xi !
(n + (1/))+ i=1 xi
aunque no es necesario conocerlos para probar el resultado.
Teorema 21 Sea X1 , . . . , Xn m.a.s. de X N (, 2 ), < < , 2 > 0
conocido. Sea N (, 2 ). La ley a posteriori de dadas las observaciones
X1 = x1 , . . . , Xn = xn es una N (1 , 12 ) con
1 =

2 + n 2 x
2
n 2
= 2
+ 2
x,
2
2
2
+ n
+ n
+ n 2
12 =

2 2
.
2 + n 2

Demostraci
on: Ver DeGroot (1988), seccion 6.3.

Observese que si 2 entonces 1 = , y que si n 2 entonces


1 = x. Por su parte, la precision de la distribucion a posteriori es la suma de
la precision a priori y la precision de X:
1
1
n
= 2 + 2.
2
1

Ejemplo 40
Sea X1 , . . . , Xn m.a.s. de X N (, 1) y sea () N (0, 2 ), para conocido.
Notemos que en la notacion del teorema 21, tenemos = 0 y 2 = 2 . Calcularemos la distribucion a posteriori de y analizaremos para que valores de
sera esta distribucion menos informativa.
Del teorema 21 se desprende que
Pn

1
i=1 xi
| x N
,
.
n + 2 n + 2
e
Esta distribucion sera tanto menos informativa cuanta mayor varianza tenga,
es decir, cuanto menor sea . El caso lmite sera = 0, que corresponde a
una distribucion a priori impropia (normal con varianza infinita) no informativa

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
78CAPITULO 3. ESTIMACION
(() es constante en IR). En ese caso obtendramos el mismo resultado que si
realizasemos inferencia fiducial (ver Casella-Berger, seccion 6.2.1).
n de la distribucion. En
Al inverso de la varianza se le denomina precisio
2
este ejemplo, es la precision de la distribucion a priori. Si ponemos = 0
estamos asumiendo que la precision de la informacion a priori es nula. Entonces
el procedimiento de inferencia no la tiene en cuenta.
.
.

Teorema 22 Sea X1 , . . . , Xn m.a.s. de X exp(), = (E(X))1 > 0. Sea


(, ), > 0, > 0. La ley a posteriori de dadas las observaciones
X1 = x1 , . . . , Xn = xn es una

!1
n
X
1
.
+ n,
+
xi
i=1
Demostraci
on: Ver DeGroot (1988), seccion 6.3.

Ejemplo 28, p
agina 54. Continuaci
on. Consideremos de nuevo el problema
de estimar el n
umero de colores diferente que tienen los caramelos de la bolsa.
Supongamos que basandonos en nuestra experiencia pensamos que el n
umero de
colores es 5 con probabilidad 1/10, 6 con probabilidad 3/10, 7 con probabilidad
3/10 y 8 con probabilidad 3/10. De nuevo suponemos que hemos observado
(V BV ).
k
5
6
7
8

(k)
0.1
0.3
0.3
0.3

f (V BV |k) = (k 1)/k 2
0.160
0.139
0.122
0.109

f (V BV, k)
0.016
0.042
0.037
0.033
P
f
(V
BV,
k) = 0,128
k

(k|V BV )
0.125
0.328
0.289
0.258

Tomamos otro caramelo y es naranja. Repetimos el analisis:

k
5
6
7
8

(k)
0.125
0.328
0.289
0.258

f (V BV N |k) = (k 1)(k 2)/k 3


0.096
0.093
0.087
0.082

f (V BV N, k)
0.012
0.031
0.025
0.021
P
f
(V
BV
N, k) = 0,089
k

(k|V BV N )
0.135
0.348
0.281
0.236

Se observa que la distribucion de probabilidad sobre {5, 6, 7, 8} no se ha modificado mucho desde (k) hasta (k|V BV N ). Esto indica que la observacion de

BAYESIANA
3.3. ESTIMACION

79

s
olo cuatro caramelos es poco informativa sobre el n
umero k de colores. Si continuasemos muestreando, la distribucion a posteriori se ira concentrando cada
vez mas en torno al verdadero valor del parametro k.
.
.

3.3.3.

Funciones de p
erdida

Acabamos de ver como derivar la distribucion a posteriori del parametro


dados los datos, a partir de la verosimilitud y la distribucion a priori. Nos planteamos ahora como usar la distribucion a posteriori para construir un estimador
puntual del valor del parametro, es decir, como resumir toda la distribucion a
posteriori del parametro en un solo punto de .
Consideremos por un momento que no hemos observado la muestra y que
sobre hay definida una distribucion de probabilidad . En este contexto queremos elegir un punto a como representante de toda la distribucion sobre
. Una propiedad deseable es que ese valor a este cerca de los puntos . Para
n
medir como de lejos esta a del valor del parametro definiremos una funcio
rdida o funcio
n de coste:
de pe
C : A
(, a)

R+
C(, a),

donde A es el conjunto o espacio de acciones a posibles, y C(, a) es el coste de


dar a como estimacion de un valor concreto . Dado que es desconocido
y puede tomar los valores de seg
un indica la distribucion , para tener una
idea global del coste de a se considera la funcion de perdida esperada:
Z
E() (C(, a)) =
C(, a)()d.

La eleccion de la funcion de perdida es a menudo arbitraria. Las tres mas usuales


son estas:
Funci
on de p
erdida cero-uno:
= I(,) (| |)
C(, )
donde > 0 y 0 son constantes.
Funci
on de p
erdida del error absoluto:
= | |
C(, )
donde > 0 es constante.
Funci
on de p
erdida cuadr
atica:
= ( )2
C(, )
donde > 0 es constante.

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
80CAPITULO 3. ESTIMACION
El parametro podra tomarse igual a 1, sin perdida de generalidad. Estas tres
funciones son decrecientes en | | y simetricas alrededor de = .
Se pueden definir funciones de perdida asimetricas que reflejen, por ejemplo,
que las consecuencias de estimar un parametro por defecto sean peores que las
de estimarlo por exceso. Este sera el caso de la estimacion del grosor de la capa
de hielo que recubre un lago sobre el que se desea patinar. Un ejemplo en el que
subestimar es preferible es el de la estimacion del precio futuro de una accion
cuando se quiere decidir si se invierte o no en dicha accion.

3.3.4.

Estimadores de Bayes

Supongamos que tenemos informacion a priori () sobre y que observamos una muestra aleatoria simple X1 , . . . , Xn de X f (x|). La distribucion
a posteriori vienen dada por (| x ) L(| x )(). Supongamos que el coste de
e
e
estimar por a es C(, a). As, el coste esperado de estimar mediante a, dado
que hemos observado x , sera
e
Z
E(C(, a)| x ) =
C(, a)(| x )d.
e
e

rdida esperada a posteriori.


A esta cantidad se le llama pe
Se define un estimador de Bayes de como aquel valor a = a( x )
e
que minimiza la perdida esperada a posteriori, es decir,
E(C(, a( x ))| x ) = mn E(C(, a)| x ).
a
e e
e
A ese valor a( x ) se le suele denotar por ( x ). Observese que este estimador
e
e
de Bayes depende de la muestra a traves de la distribucion a posteriori.
Teorema 23 Si la funci
on de perdida es cuadr
atica, entonces el estimador de
Bayes es la esperanza a posteriori:
( x ) = E(| x ).
e
e
Demostraci
on:

h
i
E(C(, a)| x ) = E ( a)2 | x = E(2 | x ) + a2 2aE(| x )
e
e
e
e
Derivando respecto a a e igualando a 0:
2E(| x ) + 2a = 0 = a = E(| x ),
e
e
que es un mnimo porque la segunda derivada es 2 > 0.

Teorema 24 Si la funci
on de perdida es el error absoluto, entonces el estimador de Bayes es la mediana de la distribuci
on a posteriori:
( x ) = mediana(| x ).
e
e

BAYESIANA
3.3. ESTIMACION

81

Demostraci
on: Ver DeGroot (1988), teorema 1 de la seccion 4.5.

Ejemplo 41
Sea X Bern(). Se observa una muestra aleatoria simple de X: X1 = x1 , . . . , Xn =
xn . Suponemos que la distribucion a priori de es
Beta(, ) = E() =
Tal como vimos en el teorema 19,

n
X

.
+

n
X

| x Beta +
xi , + n
xi
e
i=1
i=1

!
.

Por tanto, el estimador de Bayes basado en perdida cuadratica sera


Pn
+ i=1 xi
=
1 = E(| x ) =
++n
e
+
n

x+
.
++n
++n+
Observese que 1 es una media ponderada de la media a priori y de la media
muestral. El peso de cada cantidad depende de los parametros en la distribucion
a priori y del tama
no muestral. A medida que n crece se tiene que 1 tiende
hacia x.
La estimacion de basada en la perdida del error absoluto requiere la determinacion por metodos numericos de la mediana de la distribucion Beta( +
Pn
Pn
i=1 xi ).
i=1 xi , + n
.
.

Ejemplo 42
Se ha observado una m.a.s. de X N (, 2 ): X1 = x1 , . . . , Xn = xn . Partimos
de una a priori N (, 2 ) para . En el teorema 21 vimos que la distribucion a
posteriori es | x N (1 , 12 ) con
e
1 =

2 + n 2 x 2
2 2
, 1 = 2
.
2
2
+ n
+ n 2

El estimador de Bayes con perdida cuadratica es


2 + n 2 x
1 ( x ) = E(| x ) =
=
2 + n 2
e
e
n 2
2
.
x
+
2 + n 2
2 + n 2

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
82CAPITULO 3. ESTIMACION
De nuevo el estimador de Bayes es una media ponderada de la media a priori
y de la media muestral. Si ponemos una a priori poco informativa, es decir, con
varianza 2 grande, se tendra que 1 ( x ) sera aproximadamente igual a la media
e
muestral.
En este caso la eleccion de la funcion de perdida del error absoluto conduce
al mismo estimador 1 ( x ) porque la mediana y la media a posteriori coinciden
e
(dado que la distribucion a posteriori es simetrica).
.
.

3.4. LISTA DE PROBLEMAS

3.4.

83

Lista de problemas

M
etodo de los momentos
1. Sea X1 , . . . , Xn una m.a.s. de X f (x, ) = (1/2)e|x| . Hallar el estimador de momentos de .
2. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X f (x, ) = x2 ,
0 < x < .
a) Da un estadstico suficiente para .
b) Halla el estimador de momentos de .
3. Sea X1 , . . . , Xn una m.a.s. de X f (x, ) = ex+1 , x > 1/. Hallar el
estimador de momentos de .
4. Sea X1 , . . . , Xn una m.a.s. de X B(k, p), k IN, 0 < p < 1. Encuentra
los estimadores de momentos de (k, p).
5. En el ejemplo 26 se mencionan dos estimadores para la varianza de una
B(n, p): (n 1)Sn2 /n y p(1 p). Que relacion hay entre ellos?

M
axima verosimilitud
6. (Casella-Berger, 7.13) Sea X1 , . . . , Xn una m.a.s. de X f (x, ) = (1/2)e|x| .
Hallar el estimador maximo verosmil de .
7. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X f (x, ) = x2 ,
0 < x < . Halla el estimador de maxima verosimilitud de .
8. (Casella-Berger, 7.7) Sea X1 , . . . , Xn una m.a.s. de X, que sigue una de
las dos distribuciones siguientes. Si = 0 entonces f (x; ) = I(0,1) (x). Si

= 1 entonces f (x; ) = 1/(2 x)I(0,1) (x). Encontrar el estimador maximo


verosmil de .
9. (Casella-Berger, 7.10) Las variables aleatorias independientes X1 , . . . , Xn
tiene funcion de distribucion com
un

si x < 0
0
F (x; , ) = P (X x|, ) =
(x/) si 0 x ,

1
si x >
donde > 0, > 0.
a) Encontrar un estadstico suficiente para (, ) de dimension 2.
b) Dar el estimador maximo verosmil de (, ).
c) La longitud (en milmetros) de los huevos de gorrion puede modelizarse con esa distribucion. Para los siguientes datos de longitudes de
huevos, estima por maxima verosimilitud y :

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
84CAPITULO 3. ESTIMACION
22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 21.7, 23.8, 22.8, 23.1, 23.1, 23.5,
23.0, 23.0.
10. (Casella-Berger, 4.26, 7.14) Sean X e Y dos variables aleatorias independientes con X exp() (E(X) = 1/), Y exp() (E(Y ) = 1/). X e
Y no son directamente observables, sino que se observan Z y W definidas
como

1 si Z = X
Z = mn{X, Y }, W =
.
0 si Z = Y
Se dice entonces que las variables X e Y estan censuradas.
a) Da la distribucion conjunta de Z y W .
b) Prueba que Z y W son independientes.
c) Se observa una m.a.s. de tama
no n de (Z, W ). Calcula los estimadores
maximo verosmiles de y .
11. Considera las variables aleatorias descritas en los problemas 14, 15 y 16 de
la lista 1.6. Encuentra el estimador maximo verosmil de en cada caso.
12. (Ex. parcial 2000, Casella-Berger, 7.19) Un sistema de comunicaciones
transmite secuencias de longitud n de dgitos binarios, 0 y 1. Se produce
un error en la transmision cada vez que se transmite un 1, pero se recibe un
0, o viceversa. Supongamos que la probabilidad de error de transmision en
cada dgito transmitido es p, y que los errores en la transmision de dgitos
diferentes se producen de forma independiente.
Como medida de seguridad, cada secuencia se transmite dos veces. Llamaremos X a la cantidad de diferencias entre las dos cadenas de dgitos
ledas por el receptor. Por ejemplo, si n es 8, el receptor puede encontrarse
con las cadenas 00110000 y 00100001, y en este caso X valdra 2.
a) Calcula la probabilidad de que un dgito concreto sea diferente en
una y otra cadena.
b) Encuentra el estimador de maxima verosimilitud de p cuando la longitud de las cadenas es n y se observa X. Es u
nico este estimador
de maxima verosimilitud?
c) Da la estimacion de p en el ejemplo anterior.
d ) Como se interpretara un valor de X mas grande que n/2?
13. (Ex. parcial 2001) En la planta de maternidad de un hospital se registraron
los siguientes nacimientos durante las semanas naturales del mes de febrero
de un a
no no bisiesto:
Semana
1
2
3
4
5

N
umero de nacimientos
19
32
28
25
10

3.4. LISTA DE PROBLEMAS

85

Como la primera semana de febrero puede empezar en un dia cualquiera


de lunes a domingo, de hecho constan 5 semanas, con la primera y la
quinta incompletas. Definimos el espacio parametrico = {1, 2, . . . , 7},
donde el 1 corresponde al lunes, el 2 al martes, etc. Supondremos que un
nacimiento tiene la misma probabilidad de ocurrir cualquier da del mes.
Dar el estimador maximo verosmil del da de la setmana en que cayo el
primero de febrero de ese a
no.

Estimadores bayesianos
14. Sean Xi Poisson(i ), i = 1, 2, independientes. Que distribucion sigue
X1 condicionada a que X1 + X2 = x?
15. Si X (, ), > 0, > 0, entonces se dice que Y = X 1 tiene
distribucion gamma invertida con parametros (, ), y se denota como
IG(, ).
a) Prueba que la densidad de Y es
f (y; , ) =

1
1 1/(y)
e
I(0,) (y).
() y +1

b) Calcula la esperanza y la varianza de Y .


16. (Casella-Berger, 7.24) Si S 2 es la varianza muestral basada en una muestra
de tama
no n de una poblacion normal, sabemos que (n 1)S 2 / 2 se
distribuye como una 2n1 . Vamos a probar que la distribucion a priori
conjugada para 2 es la gamma invertida.
a) Prueba que si la distribucion a priori de 2 es IG(, ), entonces la
a posteriori es

1 !
n 1 (n 1)S 2
1
IG +
,
+
.
2
2

b) Calcula el estimador de Bayes bajo perdida cuadratica de 2 .


17. (Ex. parcial 2000) Sea X una variable aleatoria con funcion de densidad
f (x|) =

1 x
e ,

donde es un parametro que puede tomar valores en el conjunto =


{1, 2, . . . , 20}. Con el objetivo de estimar se toma una m.a.s. X1 , . . . , Xn
de X con n = 25 y se obtiene un valor de la media muestral igual a 12.5.
a) Calcula el estimador de maxima verosimilitud de y llamalo 1 .

PUNTUAL 1: CONSTRUCCION
DE ESTIMADORES
86CAPITULO 3. ESTIMACION
b) Calcula el estimador Bayes de basado en la funcion de perdida
C(, a) = I{6=a}
(que vale 0 si = a y 1 en caso contrario), cuando la distribucion a
priori de es uniforme en los n
umeros {1, 2, . . . , 20} y llamalo 2 .
c) Que relacion hay entre 1 y 2 ? Como cambiara esta relacion si
cambia la funcion de verosimilitud? Y si consideramos una distribucion a priori que no sea plana, es decir, que no sea constante en ?
Y si consideramos otra funcion de perdida?
18. (Ex. parcial 2001) Supongamos que el n
umero de minutos que una persona
tiene que esperar el autob
us cada ma
nana tiene una distribucion uniforme
en el intervalo (0, ), donde el valor de es desconocido. Suponemos que
la funcion de densidad a priori de viene dada por:
192
per 4,
4
() =
0
altrament.
Los tiempos esperados en tres ma
nanas sucesivas son de 5, 3, 8 minutos.
a) Calcular la funcion de densidad a posteriori de . Especificar el dominio de definicion de esta funcion y las constantes que en ella aparecen.
b) Si se quiere estimar el valor de usando como funcion de perdida
el error cuadratico, que forma tiene el estimador de Bayes de ?
Calcular el valor estimado de a partir de los tres tiempos esperados
dados.

Captulo 4

Estimaci
on puntual 2:
Evaluaci
on de estimadores
Referencias: Casella-Berger, secciones 7.3 y 7.4, referencia general.
Bickel y Doksum (1977), secci
on 4.4, para eficiencia; Arnold 1990,
captulo 6, o Schervish 1995, secci
on 7.1, para las propiedades
asint
oticas generales; (Garthwaite, Jollife y Jones 1995), secciones 3.2
y 3.3, Crist
obal (1992), secci
on 8.3; Arnold (1990), secci
on 7.3;
Schervish (1995), secci
on 7.3; Velez y Garca (1993), secci
on 7.4., para
propiedades del estimador de m
axima verosimilitud

Una vez se han presentado diferentes metodos de estimacion surge la necesidad de desarrollar criterios para evaluarlos y compararlos de acuerdo a estos
criterios. En este tema estudiaremos medidas de la calidad de un estimador. Lo
haremos primero para muestras finitas para pasar despues a proponer medidas
asintoticas de calidad.

4.1.

Error cuadr
atico medio

tico medio (ECM) de un estimador W de un


Se define el error cuadra
parametro como

E (W )2 .

Esta
es una medida intuitiva del comportamiento de un estimador: cuanto menor
sea el error cuadratico medio mejor sera el estadstico W . De hecho, para cualquier funcion creciente con (0) = 0, E ((|W |)) es una medida razonable
de lo alejadas que estaran, en promedio, las estimaciones de que proporcione
W.
En general, se prefiere el error cuadratico medio a otras medidas por ser mas
tratable analticamente. Ademas el error cuadratico medio puede descomponerse
87

PUNTUAL 2: EVALUACION
DE ESTIMADORES
88CAPITULO 4. ESTIMACION
de forma facilmente interpretable:

E (W )2 = E (W E (W ))2 + E (E (W ) )2 =
2

V (W ) + (B (W )) .
El termino B (W ) = E (W ) se llama sesgo (en inges bias) de W cuando
se estima y es una medida de la desviacion sistematica que se tiene cuando
se estima por W . Si un estimador tiene sesgo nulo para cualquier valor del

parametro se dice que es un estimador insesgado. En tal caso, E (W )2 =


V (W ).
As, el error cuadratico medio de un estimador es la suma de su varianza
(una medida de su dispersion) mas el cuadrado de su sesgo (medida de la desviacion sistematica o de la exactitud del estimador). Es una medida conjunta
de precision y exactitud del estimador. Por lo tanto, parece sensato buscar estimadores que tengan error cuadratico medio peque
no, porque de esta manera
controlaremos tanto la dispersion como la exactitud de las estimaciones.

Ejemplo 43
En el siguiente grafico se muestran cuatro situaciones en las que se combinan
niveles altos y bajos de variabilidad y de sesgo. El caso (d) corresponde al menor
valor del error cuadratico medio.


4.1. ERROR CUADRATICO
MEDIO

89

Ejemplo 44
X1 , . . . , Xn m.a.s. de X N (, 2 ), ambos parametros desconocidos: =
(, 2 ). Hemos estudiado, entre otros, los siguientes estimadores de y 2 :
n

1X
1 X
Xi , S 2 =
(Xi X)2 .
n i=1
n 1 i=1

X=

Tambien hemos calculado sus esperanzas:


E(X) = , E(S 2 ) = 2 .
Concluimos que X y S 2 son estimadores insesgados de y 2 , respectivamente.
Su error cuadratico medio coincide entonces con su varianza:

2
E (X )2 = V (X) =
,
n

2 4
.
E (S 2 2 )2 = V (S 2 ) =
n1
.

Ejemplo 45
A veces vale la pena permitir un poco de sesgo en un estimador para obtener
una reduccion importante de la varianza y, por lo tanto, del error cuadratico

medio. Este
es uno de esos casos.
Sea X1 , . . . , Xn m.a.s. de X N (, 2 ), ambos parametros desconocidos:
= (, 2 ). Sea
n1 2

2 =
S ,
n
el estimador maximo verosmil de 2 . Calculemos su error cuadratico medio:

n1 2
1
1
2
E(
)=
= 1
2 = B (
2 ) = 2 ;
n
n
n

V (
)=

n1
n

2
V (S 2 ) =

2(n 1) 4
.
n2

As, el error cuadratico medio de


2 es
E(
2 2 ) =

2(n 1) 4
1
2n 1 4
2
+ 2 4 =
<
4 .
2
2
n
n
n
n1

PUNTUAL 2: EVALUACION
DE ESTIMADORES
90CAPITULO 4. ESTIMACION
Se concluye que
2 tiene menor error cuadratico medio que S 2 .
La comparacion de los errores cuadraticos medios no nos debe conducir a
pensar que hay que usar siempre
2 en vez de S 2 . Aunque es cierto que, en
promedio,
2 ofrecera estimaciones mas cercanas a 2 que S 2 , tambien lo es que
en promedio 2 estima el parametro por defecto.
Por otra parte, el criterio del error cuadratico medio es discutible cuando se
estima una varianza porque el error cuadratico medio penaliza las desviaciones
del parametro de igual forma tanto si son por exceso como si son por defecto.
Sin embargo, las desviaciones por defecto no pueden ser arbitrariamente grandes
porque el valor cero es una cota natural para los estimadores.
.
.

Ejemplo 46
Sea X1 , . . . , Xn m.a.s. de X Bern(p). Queremos comparar el estimador maximo verosmil de p y el estimador bayesiano derivado de suponer perdida cuadratica y una beta como distribucion a priori de p:
Pn
Xi +
p = X, pB = i=1
.
++n
Calculamos errores cuadraticos medios:

p(1 p)
Ep (X p)2 = V (X) =
,
n
Pn
Pn
2

i=1 Xi +
i=1 Xi +
Ep (
pB p)2 = V
+ Bp
=
++n
++n

2
np +
np(1 p)
+

p
=
( + + n)2
++n
np(1 p) + ((1 p) + p)2
.
( + + n)2
Supongamos que no tenemos una informacion a priori suficientemente rica como
para determinar los valores de y y que, como consecuencia, decidimos elegir
los valores y tales que el error cuadratico medio de pB sea constante en p,

si ello es posible: Ep (
pB p)2 = K(n). Busquemos esos valores:
si p = 0 =

2
= K(n),
( + + n)2

si p = 1 =

2
= K(n),
( + + n)2

de donde se sigue que = y


2
= K(n).
(2 + n)2


4.1. ERROR CUADRATICO
MEDIO

91

Si hacemos ahora p = 1/2:


p=

n 12 + 2 (1 12 12 )2
1
n/4
= 2
=
= K(n).
2
(2 + n)2
(2 + n)2

Por lo tanto

==

n
2

Con esta eleccion,

Pn
n
i=1 Xi + 2

pB =
n+n
y su error cuadratico medio es

Ep (
pB p)2 = K(n) =
para todo p (0, 1).
4(1 + n)2

n= 4

0.06

0.05

0.04

n= 400

x 10

ECM

ECM

0.07

0.03

0.02

0.01

0.2

0.4

0.6

0.8

0.2

0.4

K(4) =

0.6

0.8

1
1
= 0,028, K(400) =
= 0,000567
36
4(21)2

1/4
1/4

1
Ep=1/2 (X p)2 =
=
= 0,0625, Ep=1/2 (X p)2 =
= 0,000625
4
16
400
Estas figuras ilustran el comportamiento de p y pB : si n es peque
no, el estimador de Bayes es preferible a no ser que haya una fuerte evidencia de que p
est
a en los extremos del intervalo [0, 1]. Si n es grande, es mejor el estimador
frecuentista a menos que se sospeche fundadamente que p 0,5.
.
.

4.1.1.

Eficiencia relativa

Un estimador W de se denomina inadmisible si existe otro estimador V


de tal que

E (V )2 E (W )2 para todo ,

PUNTUAL 2: EVALUACION
DE ESTIMADORES
92CAPITULO 4. ESTIMACION
y ademas existe alg
un 0 tal que

E0 (V 0 )2 < E0 (W 0 )2 .
Es decir, un estimador W es inadmisible si existe otro estimador V que es al
menos igual de bueno que W para todo posible valor del parametro y lo supera
cuando el valor concreto del parametro es 0 . Se dice tambien que V domina a
W uniformemente en .
Un estimador es admisible cuando no es inadmisible, es decir, cuando no
existe otro que lo domine uniformemente en .

Ejemplo 47

T es inadmisible

S es admisible

0.9

0.9

0.8

0.8

0.7

0.7
T1

T
0.6
ECM

ECM

0.6
0.5

0.5

0.4

0.4

0.3

0.3

T2

0.2

0.2

0.1

0.1

T3 no existe
0

0.2

0.4

0.6

0.8

0.2

0.4

0.6

Ejemplo 48
Sea X1 , . . . , Xn m.a.s. de X N (, 1), < < . La media X y la mediana
muestral Mn son estimadores insesgados de .
Para n = 21, se tiene que
V (X) = 1/n = 0,048 < V (Mn ) ,075, para todo .
Por lo tanto, la mediana muestral es inadmisible como estimador de en el
caso de normalidad. (Nota: Se ha usado la expresion asint
otica para calcular

0.8


4.1. ERROR CUADRATICO
MEDIO

93

la varianza de la mediana muestral; vease, por ejemplo, el teorema 7.25 de


Schervish 1995 o el problema 10.10 en Rice 1995. Para la distribucion exacta de
la mediana muestral, vease la seccion 5.5 de Casella-Berger).
Se puede probar (se vera en el tema 7, sobre teora de la decision) que la media muestral es admisible. Esto no implica que no existan otros estimadores con
menor error cuadratico medio que X en ciertas regiones del espacio parametrico.
Por ejemplo, si definimos W 3 (el estimador que siempre estima como
3, independientemente de la muestra observada), se tiene que

E (W )2 = (3 )2 .

Como E (X )2 = 1/n, para todo , se tiene que W es preferible a X para


los valores de que cumplen
1
1
1
3 < < 3 + .
n
n
n

Fuera del intervalo [3 + (1/ n), 3 (1/ n)] es preferible X. Por lo tanto, ninguno de estos dos estimadores domina uniformemente al otro.
.
.
(3 )2 <

Si W1 y W2 son dos estimadores insesgados de , se define la eficiencia


relativa de W1 respecto a W2 como
RE(, W1 , W2 ) =

V (W2 )
=
V (W1 )

1
V (W1 )
1
V (W2 )

As, RE(, W1 , W2 ) > 1 si y solo si V (W2 ) > V (W1 ), si y solo si W1 usa los
datos de modo mas eficiente que W2 .

Ejemplo 49
Se ha calculado la eficiencia relativa de la mediana muestral Mn respecto a
la media muestral X para estimar el parametro de centralidad de cuatro
distribuciones simetricas (el parametro de centralidad es la mediana poblacional
y coincide con la esperanza cuando esta existe).
Se ofrecen los resultados en funcion del tama
no muestral n. Los valores de la
varianza de la mediana son aproximados y se han calculado mediante la formula
V (Mn )

Normal estandar
Logstica ( = 1)
Doble exponencial ( = 1)
Cauchy estandar

1
4f 2 ()

V (X)
1/n
2 /(3n)
2/n

V (Mn )
/(2n)
4/n
1/n
2 /(4n)

RE(, Mn , X)
2/ = 0,64
2 /12 = 0,82
2

PUNTUAL 2: EVALUACION
DE ESTIMADORES
94CAPITULO 4. ESTIMACION
Se concluye que la media muestral es mas eficiente que la mediana en las leyes
normal y logstica, y lo es menos en la doble exponencial y la Cauchy.
.
.

4.2.

Mejor estimador insesgado

Acabamos de ver que la comparacion de estimadores basada en error cuadratico medio puede llevar a conclusiones poco razonables (por ejemplo, no podemos
desechar el estimador constante W 3 porque ese es el mejor estimador en
el caso de que el parametro sea igual a 3) o a la imposibilidad de elegir un
u
nico estimador (el estimador W 3 es insuperable si = 3 pero tambien lo
es W 4 cuando = 4). Estos problemas surgen del hecho de que estamos
comparando todos los estimadores posibles de un parametro: hay estimadores
cuya definicion esta alejada de toda logica pero que en determinadas situaciones
muy concretas dan resultados sensatos.
Por lo tanto, para que el criterio de comparacion de estimadores mediante
su error cuadratico medio de lugar a la recomendacion de un u
nico estimador,
preferible a los demas, debemos limitar el conjunto de estimadores que se tienen en cuenta. Se debe exigir un mnimo de sensatez a un estimador antes de
admitirlo para ser comparado con los restantes estimadores.
Una forma de restringir la clase de estimadores es exigir que sean insesgados. Veremos que si nos restringimos a esta clase de estimadores s llegaremos
a resultados satisfactorios a partir de la comparacion de su error cuadratico
medio, que para estos estimadores coincide con su varianza. Se trata de elegir
el estimador insesgado del parametro que tenga la varianza mas peque
na.
Ademas, se caracterizara el mejor estimador insesgado (el de menor varianza).
Dada una transformacion del parametro , restringimos la clase de estimadores considerados a
C = {W : E (W ) = ()},
la clase de estimadores insesgados de (). Dado W C ,

E (W ())2 = V (W )
y la comparacion de estimadores con el criterio del error cuadratico medio se
reduce a la comparacion de sus varianzas.
Diremos que un estimador W es el mejor estimador insesgado de (),
o el UMVUE (estimador insesgado de () uniformemente de mnima
varianza), si E (W ) = () para todo y si para cualquier otro estimador
W , tal que E (W ) = () para todo , se tiene que V (W ) V (W ), para
todo .

4.2. MEJOR ESTIMADOR INSESGADO

95

Ejemplo 50
Sea X1 , . . . , Xn una m.a.s. de X Poisson(). Sabemos que E(Xi ) = V (Xi ) =
. Por lo tanto, X y S 2 son ambos estimadores insesgados de . Determinaremos
cual de ellos es mejor, en el sentido de tener menor varianza.
La varianza de X es
V (X) =

V (X)

= .
n
n

Para determinar la varianza de S 2 los calculos son algo mas tediosos. En general,
si hacemos 1 = E(X) y j = E((X 1 )j ), para j = 2, 3, 4, se puede probar
que (ver problema 3 del Captulo 1)

1
n3 2
2
V (S ) =
4
.
n
n1 2
Concretaremos este resultado para el caso de la distribucion de Poisson. Se tiene
que 1 = 2 = . Calculemos 3 y 4 . En primer lugar,
E(X 3 ) =

k 3 e

k=1

k=0

(h + 1)2 e

h=0

X
k
k
=
k 2 e
=
k!
(k 1)!

h
= E((X + 1)2 ) = (E(X 2 ) + 2E(X) + 1) =
h!

( + 2 + 2 + 1) = 3 + 32 + .
As,
3 = E((X )3 ) = E(X 3 3X 2 + 3X2 3 ) =
3 + 32 + 3( + 2 ) + 33 3 = .
Calculemos E(X 4 ):
E(X 4 ) =

k 4 e

k=0

(h + 1)3 e

h=0

k
=
k!

h
= E((X + 1)3 ) = (E(X 3 ) + 3E(X 2 ) + 3E(X) + 1) =
h!

(3 + 32 + + 3( + 2 ) + 3 + 1) = (3 + 62 + 7 + 1) = 4 + 63 + 72 +
As,
4 = E((X )4 ) = E(X 4 ) 4E(X 3 ) + 62 E(X 2 ) 43 E(X) + 4 =
4 + 63 + 72 + 4(3 + 32 + ) + 62 ( + 2 ) 34 =
32 + .
Por tanto,
1
V (S ) =
n
2

n3 2
1
n3 2
2
4
=
3 +
=
n1 2
n
n1

PUNTUAL 2: EVALUACION
DE ESTIMADORES
96CAPITULO 4. ESTIMACION

22

+
> = V (X) si n 2.
n n1
n
Concluimos que S 2 no puede ser el UMVUE para , dado que X es preferible a
S2.
.
.

En el ejemplo anterior solo hemos comparado dos estimadores insesgados


entre s. Ahora estudiaremos toda una clase de estimadores insesgados, aunque
esta familia no incluye a todos los estimadores insesgados.

Ejemplo 50, p
agina 95. Continuaci
on. Consideremos la clase de estimado2
res Wa = aX + (1 a)S , con a IR. Se tiene que para toda a,
E (Wa ) = a + (1 a) = ,
luego esta es una clase de estimadores insesgados para . Si buscamos el mejor
de todos estos estimadores podramos llegar a la conclusion de que existe un a
tal que Wa es el mejor estimador insesgado de entre aquellos que tienen la
forma Wa . Las expresiones de Cov(X, S 2 ) halladas en el problema 3 del Captulo
1 resultan u
tiles para el calculo de V (Wa ).
Esto no proporcionara una respuesta global a la pregunta de cual de todos
los estimadores insesgados de es el que menor varianza tiene.
.
.

4.2.1.

Teorema de Cram
er-Rao. Informaci
on de Fisher

El u
ltimo ejemplo muestra que la b
usqueda del UMVUE no debe consistir en
repasar todos los estimadores insesgados posibles. El siguiente resultado aborda
el problema de un modo diferente: establece una cota inferior para la varianza
de todos los estimadores insesgados de un parametro. As, si encontramos un
estimador insesgado cuya varianza iguale esa cota podremos concluir que ese
estimador es el UMVUE.
Teorema 25 (Teorema de Cram
er-Rao.) Sea X = (X1 , . . . , Xn ) una vae
riable aleatoria n-dimensional con funci
on de densidad conjunta f ( x |),
e
IR. Sea W ( X ) un estimador insesgado para (), es decir, E (W ( X )) =
e
e
() para todo , donde es una funci
on de que cumple
H1: () es diferenciable en .
Se supone adem
as que la verosimilitud conjunta f ( x |) verifica
e

4.2. MEJOR ESTIMADOR INSESGADO

97

H2: para cualquier funci


on h( x ) tal que E |h( X )| < se tiene que
e
e

Z
Z
Z
Z
d

h( x )f ( x |)dx1 . . . dxn = h( x )
f ( x |) dx1 . . . dxn .
d
e
e
e e
Entonces,

V (W ( X ))
e

2
d
d ()

2 .
log f ( X |)
e

A la cantidad del lado derecho de la desigualdad anterior se la denomina Cota


r-Rao.
de Crame
Demostraci
on: Se basa en la desigualdad de Cauchy-Schwarz, que expresada
en terminos estadsticos establece que para cualquier par de variables aleatorias
X e Y definidas sobre el mismo espacio muestral, se tiene que
2

(Corr(X, Y )) 1,
o equivalentemente, que dada la variable aleatoria X,
V (X)

(Cov(X, Y ))
V (Y )

para toda variable aleatoria Y .


La demostracion del teorema es inmediata poniendo W ( X ) en el papel de
e
la variable aleatoria X anterior, haciendo
Y =

log f ( X |),

y viendo que se verifican A y B:


A.

B.

"

2 #

log f ( X |) = E
log f ( X |)
.

e
e

d
Cov W ( X ),
log f ( X |) =
().

d
e
e

Probemos A. Para ello hay que demostrar que

E
log f ( X |) = 0.

e
En efecto,

"
#

f ( X |)
e
log f ( X |) = E
=

e
f ( X |)
e

PUNTUAL 2: EVALUACION
DE ESTIMADORES
98CAPITULO 4. ESTIMACION
Z

f ( x |)

e f ( x |)dx1 . . . dxn =
e
f ( x |)
e
Z
Z
(H2,h( x )=1)

f ( x |)dx1 . . . dxn
=e

e
Z
Z
d
d
f ( x |)dx1 . . . dxn =
1 = 0.
d
d
e{z
|
}

=1

Veamos ahora que tambien es cierto B:

log f ( X |) = E W ( X )
log f ( X |) =
Cov W ( X ),
e
e
e
e
"
#

f ( X |)
e
E W ( X )
=
e
f ( X |)
e
Z
Z
H2,h( x )=W ( x )

e=
e
W ( x ) f ( x |)dx1 . . . dxn
e e
Z
Z
d
d
W ( x )f ( x |)dx1 . . . dxn =
().
d
d
e {z e
|
}
=E (W ( X ))= ()
e

Nota: El teorema de Cramer-Rao es igualmente valido en el caso discreto.


En este caso la hipotesis H2 afirma que pueden intercambiarse el sumatorio y
la diferenciacion.
Un estimador insesgado para () se denomina eficiente si su varianza es la
mnima posible, es decir, si es igual a la cota de Cramer-Rao. La eficiencia de
un estimador insesgado se define como el cociente entre la cota de Cramer-Rao
y su varianza. Es un valor menor o igual que 1 si se dan las hipotesis del teorema
de Cramer-Rao. A esa cantidad tambien se la llama eficiencia de Bahadur
del estimador. La eficiencia relativa entre dos estimadores insesgados es el
inverso del cociente de sus varianzas, como ya se definio anteriormente.
A la derivada parcial del logaritmo de la verosimilitad L(| x ) = f ( x |)
e
e
n score:
respecto al parametro se le llama tambien funcio

S(| x ) =
log L(| x ).

e
e
En la demostracion del teorema de Cramer-Rao se ha probado que
E (S(| X )) = 0.
e
Observese que para obtener el estimador maximo verosmil de lo que se hace
es resolver la ecuacion
S(| x ) = 0,
e

4.2. MEJOR ESTIMADOR INSESGADO

99

lo que equivale a buscar el valor de para el cual el valor de S(| x ) coincide


e
con su valor esperado.
Cuando se aplica a las familias exponenciales el resultado general que dice
que la esperanza de la funcion score es cero, se obtiene el siguiente resultado
(ver tambien el problema 11 del Captulo 1):
Corolario 2 Sea X una variable aleatoria perteneciente a la familia exponencial parametrizada en forma natural con par
ametro IR:
f (x|) = h(x)c() exp (t(x))
para ciertas funciones h, c y t. Entonces
E (t(X)) =

d
log c().
d

Si X1 , . . . , Xn es muestra aleatoria simple de X y se define el estadstico


T (X1 , . . . , Xn ) =

n
X

t(Xi )

i=1

entonces

d
E (T ( X )) = n
log c().
d
e

Demostraci
on: El resultado sobre T ( X ) es trivial a partir del resultado sobre
e
t(X). El logaritmo la verosimilitud de x es
l (|x) = log f (x|) = log h(x) + log c() + t(x)
y la funcion score
S(|x) =

d
l (|x) =
log c() + t(x).

Como E (S(|X)) = 0, se sigue el resultado del corolario.

A la cantidad que aparece en el denominador de la cota de Cramer-Rao se


n de Fisher que sobre contiene el
le denomina cantidad de informacio
vector X :
e
"
2 #

log f ( X |)
=V
log f ( X |) = V (S(| X )).
I () = E
X e
X e
X

e
e
e
e
n de Fisher que sobre contiene la
Se denomina cantidad de informacio
variable Xi a
"
2 #

IXi () = E
log fXi (X|)
log fXi (X|) = V (S(|Xi )).
=V

PUNTUAL 2: EVALUACION
DE ESTIMADORES
100CAPITULO 4. ESTIMACION
Cuando X = (X1 , . . . , Xn ) es una muestra aleatoria simple de X se verifica que
e
la informacion de Fisher contenida en la muestra es la suma de las informaciones
contenidas en cada una de las observaciones y, dado que estas son identicamente
distribuidas, se tiene que
I () = nIX1 ().
X
e
Este resultado es consecuencia del siguiente corolario del teorema de CramerRao:
Corolario 3 Bajo las hip
otesis del teorema de Cramer-Rao, si X = (X1 , . . . , Xn )
e
es una muestra aleatoria simple de X con distribuci
on dada por f (x|) entonces
"
"
2 #
2 #

E
log f ( X |)
= nE
log fX (X|)
.
X e

e
Demostraci
on: Por independencia, la verosimilitud de X es el producto de
e
verosimilitudes, luego
n
n
X

log f ( x |) =
log fX (xi |) =
log fXi (xi |).
X e

i=1

i=1
e

Por lo tanto,

!2
2 #
n
X

E
= E
log f ( X |)
log fXi (Xi |) =
X e

i=1
e
"
"

2 # X
2 #
n
X

E
+
E
.
log fXi (Xi |)
log fXi (Xi |)
log fXj (Xj |)

i=1
"

i6=j

Pero el segundo sumatorio es igual a cero debido a la independencia entre Xi


y Xj y dado que las funciones score tienen esperanza 0, seg
un se vio en la
demostracion del teorema de Cramer-Rao.
Una demostracion alternativa de este resultado se basa en la expresion de la
informacion de Fisher como varianza de los scores:
n
!

V
log f ( X |) = V
log fXi (Xi |)
X e

i=1
e
que por independencia es igual a la suma de las varianzas:

nV
log fX (X|) .

2
El siguiente resultado facilita a veces el calculo de la cota de Cramer-Rao.
Lema 5 Si la funci
on de verosimilitud satisface

4.2. MEJOR ESTIMADOR INSESGADO

101

H3: para cualquier funci


on h( x ) tal que E |h( X )| < se tiene que
e
e
2

Z
Z
Z
2 Z

h( x )f ( x |)dx1 . . . dxn = h( x )
f ( x |) dx1 . . . dxn .
2
e
e
e 2 e
Entonces,
"
IX () = E

2 #
2

log fX (X|)
= E
log
f
(X|)
.
X

Demostraci
on:

2
log fX (x|) =
2

1
2 (x|)
fX

fX (x|) =
fX (x|)

1
2
fX (x|) +
fX (x|).

fX (x|) 2

Por otro lado,

Z
2 Z
1
2
2
H3 d
E
f
(X|)
=
f
(x|)dx
=
=
fX (x|)dx = 0.
X
X
fX (X|) 2
2
d2
As pues,

"

2 #
2

1
log fX (X|) = E
fX (X|)
=
2 (X|)
2
fX

"
E

2 #

= IX ()
log fX (X|)

Nota 1. Cuando este lema se aplica a la informacion de Fisher contenida en


una muestra, se tiene que
2

I () = E
log
f
(
X
|)
=
nE
log
f
(X|)
= nIX ().
X

X
X
2
2
e
e
Nota 2. Las familias exponenciales satisfacen la hipotesis H3.

Ejemplo 51
Sea X1 , . . . , Xn m.a.s. de X Poisson(). As, E(X) = . Consideramos () =
, luego 0 () = 1. Por lo tanto,

!2
2

n
Y

log
f (Xi |) = nE
log
f
(X|)
=
E

2
i=1

PUNTUAL 2: EVALUACION
DE ESTIMADORES
102CAPITULO 4. ESTIMACION

nE

2
log
2

e X
X!

2
= nE
( + X log log X!) =
2

X
n
nE 2 = .

Por lo tanto, para cualquier W , estimador insesgado de , se tendra que


V (W )

= .
n/
n

Por otra parte, sabemos que X es estimador insesgado de y que V (X) = /n.
Se deduce de ah que la media muestral es el mejor estimador insesgado (UMVUE) de .
.
.

Ejemplo 52
No siempre es posible intercambiar los signos de la integral y de la derivada.
Veamos un ejemplo.
Sea X1 , . . . , Xn m.a.s. de X U (0, ). As, f (x|) = 1/, si 0 < x < , y de
ah,

1
1

2
log f (x|) = = E (
log f (X|)) = 2 .

Si la cota de Cramer-Rao es aplicable, esta dice que para cualquier W , estimador


insesgado de , se cumple que V (W ) 2 /n.
Sin embargo, es posible encontrar un estimador insesgado de con varianza menor que 2 /n. En efecto, sea Y = maxi Xi . Su funcion de densidad es
fY (y|) = (n/n )y n1 , si 0 < y < . Entonces E(Y ) = (n/(n + 1)). As,
W = Y (n + 1)/n es estimador insesgado de . Calculemos su varianza:
"

2 #
(n + 1)2
(n + 1)2
n
2
V (W ) =
V (Y ) =
E (Y )

=
n2
n2
n+1
(n + 1)2
n2

"

n 2

n+2

n
n+1

#
2 =

(n + 1)2 n 2
2 =
n2
n+2

(n + 1)2 n(n + 2) 2
1
1
=
2 < 2 .
n(n + 2)
n(n + 2)
n
La contradiccion proviene de que
Z
Z
d

h(x)f (x|)dx 6=
h(x) f (x|)dx.
d 0

0
y por lo tanto el teorema de Cramer-Rao no es aplicable.
.

4.2. MEJOR ESTIMADOR INSESGADO

103

En general, el teorema de Cramer-Rao no es aplicable si el soporte de f (x|)


depende del parametro debido a que la derivada y la integral no son intercambiables si los lmites de integracion dependen de . Vease, por ejemplo en la
seccion 2.4 del Casella-Berger, la formula de Leibnitz que permite calcular derivadas de integrales en las que los lmites de integracion dependen de la variable
respecto a la cual se deriva. Ah se dan tambien resultados sobre condiciones
que permiten intercambiar los signos de integracion y derivacion.
Aunque el teorema de Cramer-Rao pueda ser aplicado y la cota de CramerRao sea efectiva, no hay garantas de que esta cota sea alcanzada por alg
un
estimador insesgado del parametro. En los casos en los que no se encuentra un
estimador insesgado que alcance la cota de Cramer-Rao, el problema es decidir
si dado un estimador insesgado este es ya el mejor posible.

Ejemplo 53
Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X N (, 2 ) con
e
ambos parametros desconocidos. Consideramos el problema de estimar 2 . La
distribucion normal satisface las hipotesis del teorema de Cramer-Rao. Calculamos la cota de Cramer-Rao:

2
IX ( 2 ) = E
log
f
(x|)
=
( 2 )2

(x)2
2
1

2
2
E
log
e
=
( 2 )2
(2 2 )1/2

1
(x )2
2
2
log
K

log

=
E
( 2 )2
2
2 2

1
(x )2
E
2+
=
2
2
2 4

(x )2
1
2
1
1
E

=
+ 6 =
.
4
6
4
2

2 4
Cualquier W ( X ), estimador insesgado de 2 , por ejemplo W ( X ) = S 2 =
Pn
e2
e
i=1 (Xi X) /(n 1), ha de verificar
1
2 4
V (W ( X ))
=
.
nIX ( 2 )
n
e
En particular, S 2 no alcanza la cota de Cramer-Rao:
V (S 2 ) =

2 4
2 4
>
.
n1
n

Surge la pregunta de si existe alg


un estimador insesgado de 2 que alcance la
cota de Cramer-Rao. Si esto no ocurre queda abierta otra pregunta: es S 2 el
mejor estimador insesgado de 2 ?
.
.

PUNTUAL 2: EVALUACION
DE ESTIMADORES
104CAPITULO 4. ESTIMACION
El siguiente resultado ayuda a contestar la primera de las dos preguntas
surgidas en el ejemplo anterior.
Corolario 4 Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X con
e
distribuci
on dada por f (x|), IR, donde f satisface las hip
otesis del teorema
Qn
de Cramer-Rao. Sea L(| x ) = i=1 f (xi |) la funci
on de verosimilitud. Sea
e
W ( X ) = W (X1 , . . . , Xn ) un estimador insesgado de ().
e
Entonces W ( X ) alcanza la cota de Cramer-Rao si y s
olo si existe una fune
ci
on a() tal que se tiene la igualdad

a()(W ( x ) ()) =
log L(| x )

e
e
para todo .
que

Adem
as, esto ocurre si y s
olo si existen funciones h(), k() y u( x ) tales
e

L(| x ) = u( x )h() exp(W ( x )k()),


e
e
e
es decir, si y s
olo si la distribuci
on de partida pertenece a la familia exponencial.
Demostraci
on: En la demostracion del teorema de Cramer-Rao se usa el hecho
de que

Corr W ( X ),
log L(| x )
1,
e
e
para probar la desigualdad de Cramer-Rao que se dara con igualdad si y solo
si la correlacion anterior es igual a 1 o -1, lo que equivale a decir que existe una
relacion lineal perfecta entre las dos variables, es decir, existen constantes a y b
(que podran depender del valor de ) tales que

log L(| x ) = aW ( X ) + b, con probabilidad 1,

e
e
luego,

0=E

log L(| x )

= aE(W ( x )) + b = a () + b,
e

de donde se sigue que b = a (). As,

log L(| x ) = a W ( x ) () , con probabilidad 1.

e
e
Para probar la u
ltima parte del corolario, resolvemos la ecuacion diferencial

log L(| x ) = a()(W ( x ) ()) = a()W ( x ) + b().

e
e
e
Existiran funciones A() y B() tales que A0 () = a() y B 0 () = b() y por lo
tanto
log L(| x ) = A()W ( x )+B()+C( x ) = L(| x ) = exp(A()W ( x )+B()+C( x )),
e
e
e
e
e
e

4.2. MEJOR ESTIMADOR INSESGADO

105

de donde se sigue el resultado buscado para h() = exp(B()), k() = A() y


u( x ) = exp(C( x )).
2
e
e

Ejemplo 53, p
agina 103. Continuaci
on. La funcion de verosimilitud es
Pn
1
(
(xi )2 )/(2 2 )
i=1
L(, 2 | x ) =
e
2
n/2
(2 )
e
y la derivada respecto a 2 de su logaritmo es
Pn

n
2
2
i=1 (xi )
.
log L(, | x ) =
2
2 4
n
e
Tomando a() = 2n4 , se sigue que el estimador insesgado que alcanzara la cota
de Cramer-Rao sera
n
1X
W(X ) =
(xi )2
n i=1
e
que es calculable si y solo si es conocido. Por lo tanto, si es desconocido la
cota de Cramer-Rao en la estimacion de 2 no es alcanzable. Como ya dijimos
antes, queda abierta la cuestion de saber si S 2 es el mejor estimador insesgado
de 2 . A esto se dara respuesta mas adelante, en la seccion 4.2.3.
.
.

4.2.2.

Versi
on multivariante del teorema de Cram
er-Rao.

Consideramos ahora el problema de estimacion en el caso de que la familia


parametrica de distribuciones venga dada por un parametro multidimensional
= (1 , . . . , k ). En este contexto, la extension natural de la informacion
e
n de Fisher, definida como la matriz
de Fisher es la matriz de informacio
I( ) de dimension k k cuyo elemento (i, j) es
e
"
!
!#
log f ( x | )
log f ( x | )
e e
e e
Iij = E
.
i
j
Si definimos S( X , ) =
log f ( x | ), el vector de scores, es decir, el

e e
e e
e
vector gradiente del logaritmo de la funcion de verosimilitud (el vector columna
de derivadas parciales respecto a 1 , . . . , k ) se tiene que la matriz de informacion
de Fisher es
I( ) = E[S( X , )S( X , )t ] = Cov(S( X , )).
e
e e
e e
e e
Tambien es cierto que si se verifican las hipotesis de regularidad H2 y H3,
entonces
I( ) = E(H
log f ( x | ))

e
e e
e

PUNTUAL 2: EVALUACION
DE ESTIMADORES
106CAPITULO 4. ESTIMACION
donde H

log f ( x | ) es la matriz hessiana de log f ( x | ): la matriz k k

e e
e e
e
cuyo elemento (i, j) es
2
log f ( x | ).
i j2
e e
Consideremos ahora una funcion univariante de : = ( ) = (1 , . . . , k ).
e
e
Sea ( ) el gradiente de :
e

() =
( ) .
( ), . . . ,
1 e
k e
El siguiente resultado es la version del teorema de Cramer-Rao aplicable en este
contexto.
Teorema 26 Sea W ( X ) un estimador insesgado de una transformaci
on unie
variante ( ) del par
ametro k-dimensional . Si se dan las condiciones de
e
e
regularidad H1 , H2 y H3 , entonces
1

V (W ( X )) ( ())t I( ) ( ()),
e
e
con igualdad si y s
olo si existe una funci
on a( ) univariante tal que
e
t
a( )(W ( X ) ( )) = ( ( )) (I( ))1 S( X , ).
e
e
e
e
e
e e
Demostraci
on: Ver, por ejemplo, Arnold (1990), seccion 7.3.2, o Velez y Garca
(1993), paginas 233 y siguientes, para una extension de este teorema en la que
se estima una funcion r-dimensional.
2

Ejemplo 54
Sea i un estimador insesgado de i , i {1, . . . , k}. Sea ( ) = i . Denotaremos
e
por I ij al elemento (i, j) de (I( ))1 . Seg
un el teorema anterior, sera
e
V (i ) I ii .
El teorema de Cramer-Rao univariante nos deca que
V (i ) Iii1 .
Sabemos que en general se cumple que
I ii Iii1 ,
con igualdad si y solo si la matriz I( ) es diagonal. (Vease, por ejemplo, Velez
e
y Garca 1993, p. 235). Por lo tanto la version multivariante del teorema de
Cramer-Rao mejora la cota de Cramer-Rao univariante.
Se puede probar tambien que si c
es un estimador insesgado de entonces
e
e

1
Cov( ) I( ) es una matriz definida positiva.
e
e
.
.

4.2. MEJOR ESTIMADOR INSESGADO

107

Ejemplo 55
Sea (X1 , X2 , X3 ) Trinomial(n, 1 , 2 , 3 ). Recordemos que X1 + X2 + X3 = n
y que 1 + 2 + 3 = 1, luego hay dos parametros efectivos, 1 y 2 por ejemplo,
pues 3 = 1 1 2 . La funcion de verosimilitud es esta:
L = P (X1 = x1 , X2 = x2 , X3 = x3 |1 , 2 ) =

n!
x1 x2 (11 2 )nx1 x2 .
x1 !x2 !x3 ! 1 2
| {z }
K

Su logaritmo es
log L = log K + x1 log 1 + x2 log 2 + (n x1 x2 ) log(1 1 2 ).
Calculamos el vector de scores y la matriz hessiana:
Sj =
Hjj =

xj
n x1 x2
log L =

, j = 1, 2.
j
j
1 1 2

xj
n x1 x2
2
log L = 2
, j = 1, 2.
j2
j
(1 1 2 )2
n x1 x2
2
log L =
.
j
(1 1 2 )2

H12 =

As, la matriz de informacion de Fisher es


X
!
nX1 X2
nX1 X2
1
(1
(1
2
2
12
1 2 )
1 2 )
I(1 , 2 ) = E(H) = E
=
nX1 X2
X2
nX1 X2
(1
(1
2
2
22
1 2 )
1 2 )

!
n
n
n
+
1
11th2
11th2
n
n
n
11th2
2 + 11th2
As,

I(1 , 2 )

1 (11 )
n
1 2
n

1 2
n
2 (12 )
n

!
.

Por el teorema de Cramer-Rao multivariante, 1 (1 1 )/n es la cota para la


varianza de cualquier estimador insesgado de 1 . Si tomamos 1 = X1 /n, tendremos un estimador insesgado cuya varianza es V (1 ) = 1 (1 2 )/n. Por lo
tanto 1 es eficiente.
Si hacemos solo el estudio univariante de la cota de Cramer-Rao para esti1
madores de , tendremos que esa cota es I11
:

1
1 1
1
1 (1 1 2 )
1 (1 1 )
1
I11
=
+
=

= I 11 .
n 1
1 1 2
(1 2 )n
n
La cota de Cramer-Rao multivariante es mas precisa que la cota de Cramer-Rao
univariante, en el sentido de que es una cota inferior mayor.
.
.

PUNTUAL 2: EVALUACION
DE ESTIMADORES
108CAPITULO 4. ESTIMACION

4.2.3.

Teorema de Rao-Blackwell. Teorema de LehmannScheff


e

En esta seccion veremos que papel juegan los estadsticos suficientes en la


b
usqueda del mejor estimador insesgado de un parametro. En muchos casos
los resultados que veremos aqu permiten escoger un estimador insesgado y
garantizar que es el mejor posible aunque su varianza no alcance la cota de
Cramer-Rao.
Teorema 27 (Teorema de Rao-Blackwell) Sea X1 , . . . , Xn una m.a.s. de
X, con densidad (o masa de probabilidad) f (x|). Sea T ( X ) un estadstico
e
suficiente para y sea W ( X ) un estimador insesgado de (). Definimos
e
WT = E (W |T ).
Entonces,
i. WT es funci
on u
nicamente de T ( X ) (es decir, no depende de y depende
e
de la muestra X s
olo a traves del valor de T ( X )).
e
e
ii. E (WT ) = ().
iii. V (WT ) V (W ) para todo .
Demostraci
on:
i. Como T es suficiente para la distribucion de X condicionada a T no
e
depende del parametro . Por lo tanto, la distribucion condicionada de
W ( X ) dado T ( X ) tampoco depende de . Por otra parte, E(W |T ) es
e
e
funcion de T .
ii. Por la ley de la esperanza iterada,
E (WT ) = E (E(W |T )) = E (W ) = ().
iii. Por la ley de la esperanza iterada,
V (W ) = V (E(W |T ))+E (V (W |T )) = V (WT )+E (V (W |T )) V (WT ).
2
La consecuencia fundamental de este teorema es que en la b
usqueda del
estimador UMVUE, basta con restringirnos a aquellos estimadores insesgados
que son funcion de un estadstico suficiente: si trabajamos con un estadstico
insesgado que no es funcion de uno suficiente, tomando esperanzas condicionadas
podemos conseguir otro que es al menos tan bueno como el anterior y es funcion
del estadstico suficiente. Este proceso se llama a veces Rao-Blackwellizaci
on.

4.2. MEJOR ESTIMADOR INSESGADO

109

Ejemplo 56
Sea X1 , . . . , Xn m.a.s. de X Poisson(). Queremos estimar = () = e .
Pn
Sabemos que T ( X ) =
stico suficiente para . Observemos
i=1 Xi es estad
e

ademas que P (X1 = 0) = e y por tanto el estimador W ( X ) = I{X1 = 0} es


e
un estimador insesgado de . Procedemos por Rao-Blackwell definiendo
Pn
n
X
P (X1 = 0, i=1 Xi = t)

Pn
= E(W ( X )|T ( X ) = t) = P (X1 = 0|
=
Xi = t) =
P ( i=1 Xi = t)
e
e
i=1
Pn
Pn
P (X1 = 0, i=2 Xi = t)
P (X1 = 0)P ( i=2 Xi = t)
Pn
Pn
=
=
P ( i=1 Xi = t)
P ( i=1 Xi = t)
Pn
(recordar que i=1 Xi Poisson(n))

e e(n1) [(n1)]
t!
en [n]
t!
Por lo tanto

n1
n

Pn

i=1

n1
n

t
.

Xi

es un estimador insesgado de mejor que W ( X ) = I{X1 =0} .


e
.

El siguiente resultado es consecuencia del teorema de Rao-Blackwell y garantiza la unicidad del estimador UMVUE en caso de que este exista.
Teorema 28 Si W es el mejor estimador insesgado de () (es el UMVUE) y
su varianza es finita, entonces W es u
nico.
Demostraci
on: Supongamos que existe otro estimador W0 insesgado que tiene
tambien varianza mnima. Entonces ha de ser igual a la de W :
V (W ) = V (W0 ), para todo
(observar que esta varianza mnima no tiene por que coincidir con la cota de
Cramer-Rao). Definimos W = (W +W0 )/2, que es tambien estimador insesgado
de (). Calculemos su varianza:
1
1
1
V (W ) + V (W0 ) + Cov(W, W0 )
4
4
2

1
1
1p
1 1 1
V (W ) + V (W0 ) +
+ +
V (W ) = V (W ).
V (W )V (W0 ) =
4
4
2
4 4 2
V (W ) =

La desigualdad no puede ser estricta, porque hemos supuesto que W es UMVUE.


Pero la igualdad se da si y solo si Corr(W, W0 ) = 1, o lo que es lo mismo, si y
s
olo si W0 = a()W + b(), para algunas funciones a() y b(). En ese caso,
E(W0 ) = a() () + b() = ()

PUNTUAL 2: EVALUACION
DE ESTIMADORES
110CAPITULO 4. ESTIMACION
Por otra parte,
V (W ) =

V (W )V (W0 ) = Cov(W, W0 ) =

Cov(W, a()W + b()) = Cov(W, a()W ) = a()V (W ),


de donde se sigue que a() = 1 (por ser las varianzas finitas) y, por tanto, que
b() = 0, luego W = W0 .
2
Nos planteamos ahora estudiar cuando es posible mejorar un estimador que
ya es insesgado. Ello nos ayudara a saber si un estimador insesgado es el mejor:
como mnimo debemos estar seguros de que no puede ser mejorado.
Sea U un estadstico tal que E (U ) = 0 para todo . Diremos que U es un
estimador insesgado de 0, o que U es un ruido blanco. Consideremos
ademas W un estimador insesgado de (). Definimos ahora WU = W + aU ,
que es tambien un estimador insesgado de (). Calculemos su varianza:
V (WU ) = V (W + aU ) = V (W ) + a2 V (U ) + 2aCov (W, U ).
Intentaremos elegir a de forma que WU sea mejor que W al menos para alg
un
valor del parametro. Si para = 0 , Cov0 (W, U ) < 0 podemos elegir
0<a<

2Cov0 (W, U )
.
V0 (U )

De esta manera
V0 (WU ) < V0 (W )
lo cual implica que W no puede ser el mejor estimador insesgado (UMVUE) de
(). Del mismo modo puede procederse si Cov0 (W, U ) > 0 para alg
un valor
0 del parametro.
El siguiente resultado establece que las covarianzas de los estimadores insesgado con los estimadores insesgados de 0 caracterizan los mejores estimadores
insesgados.
Teorema 29 Sea W estimador insesgado de () para todo . W es el mejor
estimador insesgado de () (UMVUE) si y s
olo si W est
a incorrelacionado con
todos los estimadores insesgados de 0, para todo .
Demostraci
on: Sea W1 estimador insesgado de () incorrelacionado con los
estimadores insesgados de 0. Sea W2 otro estimador insesgado de (). Entonces
W2 W1 es estimador insesgado de 0. Escribimos W2 = W1 + (W2 W1 ). As,
V (W2 ) = V (W1 ) + 2 Cov (W1 , W2 W1 ) +V (W2 W1 ) V (W1 ).
|
{z
}
=0

Por lo tanto W1 es UMVUE.

4.2. MEJOR ESTIMADOR INSESGADO

111

El recproco se prueba por reduccion al absurdo siguiendo el argumento


desarrollado antes del enunciado del teorema: si W es UMVUE y existiese U ,
un estimador insesgado del 0 con Cov0 (W, U ) 6= 0 entonces sera posible mejorar
a W en 0 , lo cual contradice el hecho de que W1 es UMVUE.
2
Los estimadores insesgados de 0 son simplemente ruidos que no aportan
informacion alguna sobre el parametro. Es razonable pensar que un buen estimador de () no pueda ser mejorado a
nadiendole uno de estos ruidos.
En la definicion de estadsticos completos aparece tambien el concepto de
estimador insesgado de 0. Se dice que la familia de distribuciones {fT (t|),
} de un estadstico T es completa si se verifica la siguiente implicacion:
si E (g(T )) = 0 para todo entonces P (g(T ) = 0) = 1 para todo .
Es decir, el estadstico T es completo si la u
nica funcion suya que es estimador
insesgado de 0 es precisamente la funcion identicamente 0.
El teorema de Rao-Blackwell establece que basta con buscar el estimador
UMVUE entre aquellos estimadores que son funcion de un estadstico suficiente. Si este estadstico suficiente es ademas completo se tiene que no habra estimadores de 0 que sean funcion suya y, por tanto, no debemos esperar que un
estimador sea mejorado al sumarle un estimador insesgado de 0 (pues este no
sera funcion del estadstico suficiente). Bajo ciertas condiciones (existencia de
estadsticos suficientes y completos y de estimadores insesgados), esta combinacion de los conceptos de estadstico completo y de estadstico suficiente garantiza
la existencia de estimadores UMVUE de una funcion () del parametro y da un
metodo para construirlos. El siguiente teorema establece este resultado. Podemos decir que este teorema resuelve teoricamente el problema de la estimacion
puntual, entendida esta como la b
usqueda del UMVUE.
Teorema 30 (Teorema de Lehmann-Scheff
e) Si T ( X ) es un estadstico
e
suficiente y completo para y W ( X ) es un estimador insesgado cualquiera de
e
(), entonces
WT ( X ) = E (W |T )
e
es el mejor estimador insesgado (UMVUE) de (). Si, adem
as, V (WT ) <
para todo , entonces WT es u
nico.
Demostraci
on: Como ya se vio anteriormente, WT ( X ) es insesgado: por la
e
ley de la esperanza iterada,
E (WT ( X )) = E (E (W |T )) = E (W ) = ().
e
Veamos ahora que sea cual sea el estimador insesgado W que se use en la
definicion de WT ( X ), se obtiene siempre el mismo estimador WT ( X ). Sea W 0
e
e
otro estimador insesgado de () y sea WT0 = E (W 0 |T ). Definimos g(T ) =
E (W |T ) E (W 0 |T ). As, E (g(T )) = () () = 0 y por ser T completo

PUNTUAL 2: EVALUACION
DE ESTIMADORES
112CAPITULO 4. ESTIMACION
se tiene que g(T ) = 0 con probabilidad 1, de donde se sigue que WT = WT0 con
probabilidad 1.
Concluimos que existe un u
nico estimador insesgado de () funcion del
estadstico suficiente y completo. Veamos que este estimador es el UMVUE. Sea
W 0 un estimador insesgado de () cualquiera. Por el teorema de Rao-Blackwell,
V (E(W 0 |T )) V (W 0 ), para todo ,
pero acabamos de ver que WT = E(W 0 |T ), luego
V (WT ) V (W 0 ), para todo ,
y WT es UMVUE.
La unicidad de WT esta garantizada por el teorema 28.

La demostracion del teorema de Lehmann-Scheffe se basa en el hecho de que,


si existen estimadores insesgados, esencialmente solo existe uno que sea funcion
del estadstico suficiente y completo, pues condicionando cualquiera de los insesgados al estadstico suficiente y completo se obtiene siempre el mismo resultado.
El teorema de Rao-Blackwell garantiza que al tomar esperanzas condicionadas
se ha reducido la varianza, llegando as al UMVUE.
La principal conclusion del teorema de Lehmann-Scheffe es que si existe
un estimador insesgado de () que sea funcion de un estadstico suficiente y
completo, entonces es el u
nico UMVUE de ().
El siguiente resultado se deriva trivialmente del teorema de Lehmann-Scheffe:
Corolario 5 Si T ( X ) es un estadstico suficiente y completo, cualquier funci
on
e
suya que tenga esperanza finita es el UMVUE de su esperanza.

Ejemplo 56, p
agina 109. Continuaci
on. Sea X1 , . . . , Xn m.a.s. de X
Pn
Poisson(). Queremos estimar = () = e . Sabemos que T ( X ) = i=1 Xi
e
es estadstico suficiente para y ademas es completo, por ser la Poisson una
familia exponencial. Hemos visto que

Pn Xi
i=1
n

1
=
n
es un estimador insesgado de . Como es una funcion del estadstico suficiente y
completo, es el UMVUE de = e . Veamos que no alcanza la cota de CramerRao, es decir, no es eficiente para tama
nos de muestra finitos. El corolario 4
nos permite probarlo. Puesto que X es eficiente para (ver ejemplo 50) por
el corolario 4 sabemos que la derivada del logaritmo de la verosimilitud puede
escribirse as:

log L(| x ) = a()(X )

4.2. MEJOR ESTIMADOR INSESGADO

113

para todo y cierta funcion a(). Podemos transformar esa expresion as:

log L(| x ) = (a()e )

e
X e

de donde se deduce que no existe ning


un estimador eficiente de e puesto que
e
de haberlo tendra que ser X y esa cantidad no es un estadstico al depender
del parametro desconocido . Concluimos que no alcanza la cota de CramerRao.
.
.

Ejemplo 57
Sea X1 , . . . , Xn una m.a.s. de X B(k, ). Se desea estimar la probabilidad de
obtener exactamente un exito, es decir,
() = P (X = 1) = k(1 )k1 .
El estadstico
T =

n
X

Xi B(nk, )

i=1

es suficiente y completo para . El estimador


W = I{X1 =1}
es insesgado para (). Por lo tanto, el estimador
"
#
n
!
n
X
X
WT = E IX1 =1 |
Xi =
Xi
i=1

i=1

es el mejor estimador insesgado de () = P (X = 1). Calculemos WT :


"
#

!
n
n
X
X
(t) = E IX1 =1 |
Xi = t = P X1 = 1|
Xi = t =
i=1

i=1

t1
Pn
(1 )k(n1)(t1)
k(1 )k1 k(n1)
P (X1 = 1)P ( i=2 Xi = t 1)
t1
Pn
=
=
kn
t
knt
P ( i=1 Xi = t)
t (1 )

k(n1)
t1
kn

k
= WT =

k(n 1)
Pn
i=1 Xi 1

kn
Pn
i=1 Xi

PUNTUAL 2: EVALUACION
DE ESTIMADORES
114CAPITULO 4. ESTIMACION
El teorema de Lehmann-Scheffe resuelve el problema de la b
usqueda del UMVUE cuando existen simultaneamente un estimador insesgado y un estadstico
suficiente y completo. Sin embargo estas dos condiciones no siempre se cumplen.
Es posible encontrar ejemplos en los que no existen estimadores insesgados del
parametro de interes (ver el ejemplo 2.16 de Garthwaite, Jollife y Jones 1995,
donde se prueba que no existe estimador insesgado del cociente p/(1p) odds en
ingles; podra traducirse como ventajas, aunque no existe una traduccion unanimemente aceptada en un experimento binomial). Ademas, no esta garantizada
la existencia de estadsticos suficientes completos (ver el ejemplo 6.9 de Velez y
Garca 1993, donde se prueba la imposibilidad de encontrar un estimador UMVUE en el muestreo de la U (, + 1), donde no existe un estadstico suficiente
completo). En el caso de familias exponenciales el teorema 14 s garantiza la
existencia de estadsticos suficientes y completos.
Incluso en el caso de que exista un estimador insesgado y un estadstico
suficiente y completo, la aplicacion del teorema de Lehmann-Scheffe puede dar
lugar a un estimador UMVUE poco sensato. As, Cristobal (1992) (p. 202) cita
el siguiente ejemplo. En el muestreo de la N (, 1), el UMVUE de 2 es (X)2
(1/n), que no es un estimador recomendable pues puede tomar valores negativos.
Ademas el estimador max{0, (X)2 (1/n)} tiene menor error cuadratico medio,
lo cual hace inadmisible al estimador UMVUE. Veanse tambien los ejemplos
2.17 de Garthwaite, Jollife y Jones (1995) y 5.7 de Schervish (1995).
La existencia de estos ejemplos patologicos se debe a que la condicion de
insesgadez puede ser en ocasiones muy restrictiva y obliga a seleccionar u
nicamente estimadores con propiedades poco deseables. Pagar el precio de cierto
sesgo puede permitir considerar otros estimadores con mejores propiedades (en
terminos de error cuadratico medio, por ejemplo, o en comportamiento asintotico).

4.3.
4.3.1.

Comportamiento asint
otico
Consistencia

n de
Una sucesion de estimadores Wn = Wn (X1 , . . . , Xn ) es una sucesio
metro si para cada > 0 y
estimadores consistentes para el para
para cada , se tiene que
lm P (|Wn | < ) = 1,

o equivalentemente, si
lm Wn = en probabilidad para todo .

Observese que en esta definicion las distribuciones de probabilidad de las sucesiones de variables aleatorias {Wn }n varan con .


4.3. COMPORTAMIENTO ASINTOTICO

115

La propiedad de consistencia es un requerimiento mnimo que debe verificar


cualquier sucesion de estimadores, puesto que equivale a pedir que el parametro pueda estimarse con una precision prefijada a base de aumentar el tama
no
muestral tanto como sea necesario.
El siguiente resultado establece una condicion suficiente para que una sucesion de estimadores sea consistente. Denotamos por B(W ) el sesgo de un
estimador W de : B(W ) = E(W ) .
Teorema 31 Si la sucesi
on Wn de estimadores de verifica que
a) lmn V (Wn ) = 0 para todo ,
b) lmn B (Wn ) = 0 para todo ,
entonces Wn es una sucesi
on de estimadores consistentes de .
Demostraci
on: Observese que
E ((Wn )2 ) = V (Wn ) + B2 (Wn ).
Por otra parte, usando la desigualdad de Chebyshev se tiene que para todo > 0
y todo ,
P (|Wn | ) = P ((Wn )2 2 )

E ((Wn )2 )
=
2

1
(V (Wn ) + B2 (Wn )) n 0,
2
lo que equivale a decir que
lm P (|Wn | < ) = 1.

2
Los siguientes resultados se derivan de propiedades de la convergencia en
probabilidad de variables aleatorias y son u
tiles para determinar la consistencia
de transformaciones de estimadores consistentes.
Teorema 32 Sea {Wn }n una sucesi
on consistente para .
1. Si {an }n y {bn }n son sucesiones de n
umeros reales tales que lmn an = 1
y lmn bn = 0, entonces, {an Wn + bn }n es consistente para .
2. Si g es una funci
on continua definida en , entonces {g(Wn )}n es una
sucesi
on consistente para g().
3. Si {Vn }n es una sucesi
on de estimadores consistentes para y g(, )
es una funci
on continua para todo (, ), entonces {g(Wn , Vn )}n es una
sucesi
on consistente para g(, ).

PUNTUAL 2: EVALUACION
DE ESTIMADORES
116CAPITULO 4. ESTIMACION
Demostraci
on: Los dos primeros apartados se deducen del tercero. La prueba
de este, basada en las definiciones de convergencia en probabilidad y de continuidad de una funcion, puede verse, por ejemplo, en Arnold (1990) (teorema
6-8).
2

Ejemplo 58
Sean Xj B(nj , pj ), j = 1, 2, dos variables aleatorias independientes. Se
define el odds ratio (podra traducirse como tasa de ventajas, aunque no existe
una traduccion unanimemente aceptada)
= (p1 , p2 ) =

p2
1p2
p1
1p1

p2 1 p1
.
1 p2 p1

Podemos estimar pj mediante pj = Xj /nj , que por la ley debil de los grandes
n
umeros es estimador consistente de pj , j = 1, 2. Usando entonces el estimador
basado en el principio de sustitucion, tenemos el siguiente estimador de :
X2 /n2 (1 X1 /n1 )
X2 (n1 X1 )
= (
p1 , p2 ) =
=
.
(1 X2 /n2 )X1 /n1
(n2 X2 )X1
Si n1 y n2 tienden simultaneamente a (es decir, si lm nj /(n1 + n2 ) = aj > 0,

j = 1, 2), el tercer apartado del teorema anterior garantiza la consistencia de :


= (
p1 , p2 ) (p1 , p2 ) = en probabilidad,
es decir, es estimador consistente de .
.

4.3.2.

Normalidad asint
otica

El estudio de la distribucion de un estimador para un tama


no muestral
n finito es a menudo complejo y en ocasiones involucra calculos practicamente
imposibles de llevar a cabo. Por otra parte, la comparacion de medias y varianzas
de estimadores para n finito puede ser poco adecuada (por ejemplo, el estimador
de pj /(1pj ) visto en el ejemplo 58 no estara definido con probabilidad positiva,
puesto que P (Xj = nj ) > 0).
En muchas ocasiones solo es posible realizar estudios del comportamiento
asintotico (cuando n tiende a infinito) de los estimadores. Ya hemos estudiado
una propiedad asintotica: la consistencia. Veremos ahora que es posible medir la
velocidad de convergencia de estimadores consistentes y as seleccionar los que
convergen al verdadero valor del parametro mas rapidamente.

Ejemplo 59
Sea X1 , . . . , Xn m.a.s. de X Poisson(), = { : 0 < < }. En este


4.3. COMPORTAMIENTO ASINTOTICO

117

n =
modelo, el estimador de momentos de coincide con el maximo verosmil:

X n . La distribucion exacta de es conocida: es la de una Poisson(n) dividida


por n. Sin embargo esta es poco manejable y resulta mucho mas u
til aproximarla
por una distribucion mas sencilla a la que se acerca asintoticamente.
La version del teorema central del lmite para variables aleatorias independientes e identicamente distribuidas puede aplicarse porque V (X) = < .
As,

n(n )

N (0, 1) debilmente,

es decir, para todo y para todo w IR,

n(w )

P ( w)

donde es la funcion de distribucion de la normal estandar. La aproximacion


es tanto mejor cuanto mayores son n o .
n es consistente pues, por las leyes de los grandes n
Observese que
umeros,
n = X n P E(X) = . As,
n 0 en probabilidad y tambien en

distribucion. Esta convergencia a la distribucion degenerada en 0 no nos informa


n se acerca a ni de como lo hace (se distribuyen las
de la velocidad a la que
n simetricamente alrededor de ?, por ejemplo).
observaciones de

El hecho de que V ( n(
n )) = para todo n indica que la velocidad a
n se acerca a es la misma con la que 1/n se acerca a 0: multiplicar
la que

n ), es la estandarizacion
por n es la forma de estabilizar las diferencias (
adecuada.
El resultado derivado del teorema central del lmite, la distribucion asintoti
ca de n(
omo es la aproximacion
n ) es N (0, ), responde a la pregunta de c
n a : los valores del estimador se distribuyen alrededor del verdadero valor del

parametro igual que los valores de una variable aleatoria N (0, ) se distribuyen
alrededor de 0.
.
.

Ejemplo 60
En la estimacion del parametro de una U (0, ), los siguientes son estimadores consistentes: Tn = 2X n , Wn = maxi=1...n Xi . De ellos, el primero converge a mas lentamente que el segundo: por el teorema central del lmite

Tn0 = n(Tn ) converge debilmente a una distribucion no degenerada (con


cretamente a una N (0, 2 /3)), mientras que Wn0 = n(Wn ) converge en
probabilidad a la distribucion degenerada en 0 (la varianza de Wn0 y su sesgo
como estimador de 0 tienden a 0, luego el teorema 31 garantiza que Wn0 es
estimador consistente de 0). Podemos decir entonces que Tn converge a a la

misma velocidad que 1/ n converge a 0, mientras que Wn converge a a mayor

PUNTUAL 2: EVALUACION
DE ESTIMADORES
118CAPITULO 4. ESTIMACION
velocidad.
.

A menudo sera posible tambien comparar estimadores que convergen a la


misma velocidad mediante lo que llamaremos varianza asint
otica.

Ejemplo 60, p
agina 117. Continuaci
on. El estadstico basado en la mediana, Sn = 2 mediana{X1 , . . . , Xn }, tambien es estimador consistente de y
ademas se puede probar (ver, por ejemplo, Arnold 1990, toerma 6-6) que

Sn0 = n(Sn ) N (0, 2 ) debilmente.

Por lo tanto, Tn y Sn convergen a a la misma velocidad (como 1/ n va a 0),


pero la varianza de la distribucion a la que converge Tn0 (la version centrada y
normalizada de Tn ) es menor que la varianza de la distribucion lmite de Sn0 .
Se dira entonces que Tn tiene menor varianza asintotica que Sn y, por lo tanto,
sera Tn sera preferible a Sn .
.
.
En la practica la gran mayora de los estimadores usuales, convenientemente
centrados y normalizados, tienen distribucion asintotica normal. Se dice que
tica y se denota
presentan normalidad asinto
n AN(, vn )
cuando

1
(n ) D N (0, 1).
vn

tica de n . El teorema central


A la cantidad vn se la llama varianza asinto
del lmite es el responsable de la normalidad asintotica de muchos estimadores.
La normalidad asintotica no solo aparece en estimadores univariantes, sino
tambien en estimadores multivariantes, como muestra el siguiente ejemplo.

Ejemplo 61
Sean {(Xn , Yn )t }nIN una sucesion de variables aleatorias bivariantes independientes y distribuidas como la variable aleatoria bivariante (X, Y )t , la cual se
supone con momentos de segundo orden finitos. Se desea estimar (X , Y )t =
(E(X), E(Y ))t . Utilizaremos como estimador (X n , Y n )t , el par formado por
las medias muestrales de los primeros n pares de variables aleatorias (Xi , Yi )t ,
i = 1, . . . , n.
La distribucion de una variable aleatoria bivariante esta caracterizada por
las distribuciones de las combinaciones lineales arbitrarias de sus componentes


4.3. COMPORTAMIENTO ASINTOTICO

119

(esto se debe a que el calculo de la funcion generatriz de momentos bivariante de


(X, Y )t en el punto (s, t)t equivale a calcular la funcion generatriz de momentos
de sX + tY en el punto 1). Del mismo modo, para encontrar la distribucion
asintotica de una sucesion de variables aleatorias bivariantes solo es necesario
encontrar la distribucion asintotica de combinaciones lineales arbitrarias de sus
componentes. As se reduce el problema bivariante a problemas univariantes.
Calculemos la distribucion asintotica de

Xn
X
n

.
Yn
Y
Sean a, b n
umeros reales arbitrarios. Las variables aleatorias aXi + bYi , i =
1, . . . , n son una muestra aleatoria simple de la variable aleatoria aX + bY , y
por el teorema central del lmite
n
!

1X
n
(aXi + bYi ) E(aX + bY ) D N (0, V (aX + bY )),
n i=1
que puede reescribirse as:

a n(X n X) + b n((Y )n Y ) D
N (0, a2 V (X) + b2 V (Y ) + 2abCov(X, Y ))
Consideremos la variable aleatoria normal bivariante

U
0
V (X)
Cov(X, Y )
N2
,
.
Cov(X, Y )
V (Y )
V
0

La distribucion de aU + bV es la misma que la distribucion lmite de a n(X n

X) + b n(Y n Y ), de donde se sigue que

a n(X n X) + b n(Y n Y ) D aU + bV,


y como a y b son arbitrarios se sigue que

normal bivariante.
.

4.3.3.

Xn
Yn



X
U

D
,
Y
V
.

M
etodo delta

En muchos casos, solo sera de interes el comportamiento del estimador alrededor del verdadero valor del parametro. Si ademas el estimador es una funcion

PUNTUAL 2: EVALUACION
DE ESTIMADORES
120CAPITULO 4. ESTIMACION
suave de un estadstico cuyo comportamiento asintotico es conocido, esa funcion podra linealizarse en un entorno del verdadero valor del parametro, lo cual
facilitara enormemente el estudio asintotico del estimador.

Ejemplo 59, p
agina 116. Continuaci
on. Queremos estimar = P (X =
0) = e . Por el principio de invariancia, el estimador maximo verosmil de es
n = eX n , dado que X n es el estimador maximo verosmil de .
El teorema 32 garantiza la consistencia de n , porque X n es consistente para
y g() = e es una funcion continua. Estamos interesados ahora en encontrar
la distribucion asintotica de

n(n ) =

n(eX n e ).

La herramienta en la que nos basaremos para hallar esa distribucion asintotica


todo delta.
es el me
.
.
todo delta univariante y, mas adePresentaremos en primer lugar el me
lante, se generalizara al caso multivariante. En ambos casos, el fundamento
teorico que sustenta el metodo delta es el desarrollo en serie de Taylor de una
funcion.
Sea f una funcion con derivada en el punto a IR. El desarrollo de primer
orden en serie de Taylor de f alrededor del punto a es
f (x) f (a) + f 0 (a)(x a),
es decir, la recta tangente a f (x) en x = a. Si existe f 00 (a), el desarrollo de orden
2 en serie de Taylor de f alrededor de a es
1
f (x) f (a) + f 0 (a)(x a) + f 00 (a)(x a)2 ,
2
aproximacion cuadratica de f (x). El siguiente teorema justifica la aproximacion
de una funcion mediante sus desarrollos de Taylor.
Teorema 33 (F
ormula de Taylor) Si f (x) es una funci
on con r + 1 derivadas en un intervalo I de IR, para cada par de puntos x, a en I, se tiene
que
1
f (x) = f (a) + f 0 (a)(x a) + f 00 (a)(x a)2 + . . . +
2
1 (r)
1
f (a)(x a)r +
f (r+1) ((x, a))(x a)r+1 ,
r!
(r + 1)!
donde (x, a) es un punto de I situado entre x y a, luego |(x, a) a| |x a|.


4.3. COMPORTAMIENTO ASINTOTICO
Demostraci
on: Vease, por ejemplo, Spivak (1970), teorema 19.4.

121
2

El uso que haremos de este teorema sera para desarrollos de primer y segundo
orden.
El siguiente resultado sera u
til a la hora de establecer la distribucion asintotica de algunos estimadores. En particular, se usa en la demostracion del metodo
delta.
Teorema 34 (Teorema de Slutzky) Sean {Xn }n e {Yn }n sucesiones de variables aleatorias, sea X variable aleatoria y sea a una constante. Si Xn D X
e Yn P a, entonces
Xn + Yn D X + a,
Xn Yn D aX,
si g(x, y) es una funci
on de IR2 en IR continua en (x, a) para todo x del
soporte de X, entonces
g(Xn , Yn ) D g(x, y).
Demostraci
on: Los apartados 1 y 2 se deducen de 3. La prueba de 3 se sigue del
teorema de la aplicacion continua para variables aleatorias definidas en espacios
metricos (ver, por ejemplo, Schervish 1995, teorema B.88). En ese contexto, la
definicion de convergencia en distribucion (ver, por ejemplo, Schervish 1995,
definiciones B.80 y B.81) difiere formalmente de la que habitualmente se usa
cuando se tratan variables aleatorias definidas en IR.
En Bickel y Doksum (1977), teorema A.14.9, puede verse una demostracion
de los apartados 1 y 2 en la que se usa la definicion de convergencia en distribucion basada en la convergencia de las funciones de distribucion.
2

Pasamos ahora a enunciar y probar el resultado conocido como metodo delta.


Teorema 35 (M
etodo delta) Sea {an }n una sucesi
on de n
umeros reales tales que an n y con an 6= 0 para todo n. Sea n una sucesi
on de estimadores
de tales que
an (n ) D N (0, 2 )
y sea g(x) una funci
on con primera derivada continua en un intervalo que contiene a . Entonces
an (g(n ) g()) D N (0, (g 0 ())2 2 ).
Demostraci
on: Por el desarrollo de Taylor de primer orden,
g(n ) = g()+g 0 ((, n ))(n ) = an (g(n )g()) = g 0 ((, n ))an (n ),

PUNTUAL 2: EVALUACION
DE ESTIMADORES
122CAPITULO 4. ESTIMACION
donde |(, n ) | |n |. Observese que n P . En efecto,
1
n =
an (n ) D 0 N (0, 2 ) 0 =
an
n P 0 = (, n ) P .
Se ha usado el teorema de Slutzky para las sucesiones Yn = 1/an P 0 y
Xn = an (n ). Ahora, aplicando el teorema 32, por ser g 0 continua en se
tiene que g 0 ((, n )) P g 0 (). Aplicando de nuevo el teorema de Slutzky se
obtiene el resultado deseado:
g 0 ((, n )) 0
an (g(n ) g()) =
g ()an (n ) D
g 0 ()
|
{z
}
P 1

g 0 ()N (0, 2 ) =D N (0, (g 0 ())2 2 ).


2
La sucesion an que habitualmente aparece es an =

n.

Ejemplo 59, p
agina 116. Continuaci
on. Estimamos = P (X = 0) = e

X n

mediante n = e
. Por otra parte, n(n ) D N (0, ). Ademas g() =
e es derivable con derivada continua: g 0 () = e .
Aplicamos el metodo delta para determinar la distribucion asintotica de n :

n(n ) = n(eX n e ) D N (0, e2 ).


.

todo delta multivariante, aplicable cuando el esVeremos ahora el me


pacio parametrico es multidimensional y se desea estimar una funcion real del
parametro.
Sea f : IRk IR una funcion con segundas derivadas parciales en el punto
a = (a1 , a2 , . . . , ak ). La version multivariante del teorema de Taylor garantie
za que esa funcion puede aproximarse por su desarrollo en serie de Taylor de
segundo orden alrededor de a :
e
2
k
X
f( a )
1 f( a )
e (xi ai ) +
e (xi ai )(xj aj )
f (x1 , . . . , xk ) f ( a ) +
xi
2 xi xj
e
i=1

si x = (x1 , . . . , xk )t esta en un entorno de a . La aproximacion anterior se puede


e
e
escribir en forma vectorial y matricial:
f ( x ) f ( a ) + ( x a )t f ( a ) + ( x a )t Hf ( a )( x a ),
e
e
e
e
e
e
e
e e
e


4.3. COMPORTAMIENTO ASINTOTICO

123

donde f ( a ) es el gradiente de f en a , el vector de derivadas parciales


e
e

!t
f( a )
f( a )
e ,...,
e
f ( a ) =
,
x1
xk
e
y Hf ( a ) es la matriz hessiana de f en a :
e
e
2
!
f( a )
e
Hf ( a ) =
xi xj
e
1ik, 1jk
La aproximacion de primer orden se expresa as,
f ( x ) f ( a ) + ( x a )t f ( a ),
e
e
e
e
e
y es u
til para probar el siguiente resultado.
Teorema 36 (M
etodo delta multivariante) Sea {an }n una sucesi
on de n
ume

ros reales tales que an n y con an 6= 0 para todo n. Sea = (n1 , . . . , nk )


en
una sucesi
on de estimadores de tales que
e

an ( ) D Nk ( 0 , V ),
en
e
e
y sea g( x ) una funci
on con primeras derivadas parciales continuas en una bola
e
abierta que contiene a . Entonces
an (g( ) g( )) D Nk ( 0 , (g())t V (g())).
e
e
en
Demostraci
on: Ver, por ejemplo, Arnold (1990), teorema 6-16.
Lo mas usual es que la sucesion an sea an =

n.

Ejemplo 58, p
agina 116. Continuaci
on. Buscaremos la distribucion asintotica del estimador del odds-ratio = (p1 , p2 ) = (p2 /(1 p2 ))((1 p1 )/p1 ):

X1 X2
X2 (n1 X1 )

n =
,
=
.
n1 n2
(n2 X2 )X1
En primer lugar, de lo visto en el ejemplo 61 se sigue que
p (1p )

1
1

X2
0
X1
1
p1 ,
p2 D N2
,
n
n1
n2
0
0

0
p2 (1p2 )
2

!!
,

donde j = lm(nj /(n1 + n2 )) > 0, j = 1, 2.


El gradiente de la funcion (x, y) = (y(1 x))/(x(1 y)) tiene por componentes
y
(x, y)
1x
(x, y)
=
,
=
.
x
(1 y)x2
y
(1 y)2 x

PUNTUAL 2: EVALUACION
DE ESTIMADORES
124CAPITULO 4. ESTIMACION
As,

n(n ) D N (0, 2 ),

donde la varianza 2 es

p2
1 p1
2
=
,
(1 p2 )p21 (1 p2 )2 p1

p1 (1p1 )
1

0
p2 (1p2 )
2

p2
(1p2 )p21
1p1
(1p2 )2 p1

!
=

2
p2
p1 (1 p1 )
1 p1
p2 (1 p2 )
+
=
2
2
(1 p2 )p1
1
(1 p2 ) p1
2

p2 (1 p1 )
1
1
+
=
(1 p2 )p1
p1 (1 p1 )1
p2 (1 p2 )2

1
1
2
+
.
p1 (1 p1 )1
p2 (1 p2 )2
Por lo tanto, la varianza asintotica de n es

2
1
1
2

+
.
n
p1 (1 p1 )n1
p2 (1 p2 )n2
.

4.3.4.

Eficiencia relativa asint


otica

Sea Tn ( X ) = Tn (X1 , . . . , Xn ) una sucesion de estimadores de una funcion


e
() que verifica lo siguiente:

n(Tn ( X ) ()) D N (b(), 2 ()).


e
Si b() = 0 diremos que Tn ( X ) es asintoticamente insesgado (en econometra

e
se dice que Tn es n-consistente). En caso contrario, diremos que Tn ( X ) es
e
asintoticamente sesgado.
Ejemplo 62
Sea X1 , . . . , Xn , . . . son variables aleatorias independientes e identicamente dis
tribuidas con esperanza y varianza 1, y sea Tn ( X ) = X n + a/ n para una
e
constante a 6= 0. Se tiene que

n(Tn ( X ) ) = n(X n ) + a D N (a, 1),


e
luego Tn es asintoticamente sesgado: la diferencia entre la esperanza del esti
mador y el parametro estimado, multiplicada por n, no tiende a 0. Observese
que, no obstante, Tn es un estimador consistente de :

Tn ( X ) = X n + a/ n P + 0 = .
e
.

4.4. TEORIA ASINTOTICA


PARA EL ESTIMADOR MAXIMO
VEROSIMIL125
Sean dos sucesiones Tn ( X ) y Sn ( X ) de estimadores de () asintoticamente
e
e
normales:


n Tn ( X ) () D N (0, T2 ()),
e


n Sn ( X ) () D N (0, S2 ()).
e
tica de Sn respecto a Tn como
Se define la eficiencia relativa asinto
ARE(, Sn , Tn ) =

1/S2 ()
T2 ()
=
.
1/T2 ()
S2 ()

El valor de la eficiencia relativa asintotica puede interpretarse como el cociente de los tama
nos de muestra necesarios para obtener la misma precision asintotica (o la misma varianza asintotica) mediante los dos estimadores en la estimacion de (). En efecto, si elegimos tama
no muestral m para T y n para S, las
varianzas asintoticas son, respectivamente, T2 ()/m y S2 ()/n. Si forzamos a
que ambas sean iguales, se tiene que
T2 ()
2 ()
m
2 ()
= S

= T2
= ARE(, Sn , Tn ).
m
n
n
S ()
Es decir, si ARE(, Sn , Tn ) = 0,5 entonces S es menos eficiente que T asintoticamente: para tener la misma precision con el estimador S hace falta una muestra
el doble de grande que si utilizasemos T (ARE = 0,5 = m/n = n = 2m).

4.4.

Teora asint
otica para el estimador m
aximo
verosmil

Sea X una variable aleatoria con funcion de densidad (o de masa) f (x|),


Qn
. Sea L(| x n ) = i=1 f (xi |) la funcion de verosimilitud de una muestra
e
de tama
no n de X: X1 , . . . , Xn .
Teorema 37 Supongamos que se verifican las siguientes condiciones:
C1: El par
ametro es identificable, en el sentido de que distintos valores de
dan lugar a distintas distribuciones de probabilidad para X.
C2: El conjunto {x : f (x|) > 0} es el mismo para todo .
C3: La cantidad

e(0 , ) = E0 log

existe para todo par , 0 en .


Entonces, para todo 6= 0 se verifica que

f (X|)
f (X|0 )

PUNTUAL 2: EVALUACION
DE ESTIMADORES
126CAPITULO 4. ESTIMACION
a)

"
E0 log

L(| X n )
e
L(0 | X n )
e

!#
< 0.

b)
lm P0 {L(0 | X n ) > L(| X n )} = 1.
e
e

Demostraci
on: Probemos a). Si f (x|) es una funcion de densidad, se tiene
que
Z

f (x|)
f (X|)
=
f (x|0 )dx = 1.
E0
f (X|0 )
f (x|0 )
Analogo resultado se obtiene si f (x|) es funcion de masa.
Como log u < u 1, para todo u IR {1}, se tiene que

f (x|)
f (x|)
log
<
1
f (x|0 )
f (x|0 )
salvo si f (x|) = f (x|0 ). Por la hipotesis C1 eso no puede ocurrir en un conjunto
de xs de medida 1, luego
"
!#

L(| X n )
f (x|)
f (x|)
e
E0 log
= nE0 log
< nE0
1 = 0,
f (x|0 )
f (x|0 )
L(0 | X n )
e
y a) queda probado.
Veamos ahora b). Por la ley debil de los grandes n
umeros,
!

n
L(| X n )
1X
1
f (Xi |)
e
=
log
log
n e(0 , ) en probabilidad.
n
n i=1
f (Xi |0 )
L(0 | X n )
e
Por a), el lmite e(0 , ) es estrictamente menor que 0. Por tanto, si se toma ,
con 0 < < e(0 , ), se tiene que

!
)
(

!
)

1
L(| X n )
L(| X n )
1

e
e
P0
log
> 0 < P0 log
e(0 , ) > n 0,
n

n
L(0 | X n )
L(0 | X n )
e
e
porque si x > 0, e < 0 y < e, entonces |x e| = x e > e > . Pero
(
)
L(| X n )
e
P0 {L(0 | X n ) > L(| X n )} = 1 P0
>1 =
e
e
L(0 | X n )
e
!
)
(

L(| X n )
1
e
> 0 n 1,
1 P0
log
n
L(0 | X n )
e
lo que completa la prueba.
2
Observar que el apartado b) del teorema puede interpretarse as: la verosimilitud es maxima en el verdadero valor 0 del parametro, si la muestra es
suficientemente grande.

4.4. TEORIA ASINTOTICA


PARA EL ESTIMADOR MAXIMO
VEROSIMIL127
Teorema 38 Supongamos que adem
as de C1, C2 y C3, se verifican tambien
C4: es un conjunto abierto.
C5: f (x|)/ es continua en .
Entonces, con probabilidad que tiende a 1 cuando n tiende a infinito, existe una
sucesi
on {n }n de races de la ecuaci
on del score

log L(| X n ) = 0

e
(la que se resuelve para hallar el estimador de m
axima verosimilitud de ) que
converge al verdadero valor del par
ametro 0 en probabilidad.
Demostraci
on: Por C4, existe > 0 tal que (0 , 0 + ) . Se definen
los conjuntos
Sn = { x n X : L(0 | x n ) > L(0 | x n ) y L(0 | x n ) > L(0 + | x n )}.
e
e
e
e
e
Por el teorema 37,
P0 ( X n Sn ) n 1.
e
La condicion C5 implica la continuidad de L(| x n ) y de su derivada parcial
e
respecto a . As, para todo x n Sn , debe existir n = n ( x n ) (0 , 0 +),
e
e
maximo local de L(| x n ). Ese maximo local ha de satisfacer
e

log L(| X n )
= 0.

=n

Puede haber mas de un maximo local en (0 , 0 + ) y, por lo tanto, mas


de una solucion de la ecuacion del score (tambien puede haber mnimos locales
entre las soluciones). Llamemos n = n ( x n ) a la solucion mas cercana a 0 que
e
sea maximo local. Entonces |n 0 | < y esto es cierto para todo x n Sn .
e
Por lo tanto
P0 {Xn : |n ( X n ) 0 | < } P0 {Xn Sn } 1
e
de donde se sigue que
n P .
2
El teorema 38 demuestra que siempre existe una raz de la ecuacion de score
(que ademas es maximo local) que es consistente. Sin embargo, cuando la raz no
es u
nica (cuando no es el u
nico maximo local) la determinacion de n depende
del verdadero valor 0 , lo cual hace que n no sea un estimador del parametro.
El teorema 38 es realmente interesante cuando la ecuacion del score tiene raz
u
nica, porque en este caso esa raz es el estimador maximo verosmil de y el

PUNTUAL 2: EVALUACION
DE ESTIMADORES
128CAPITULO 4. ESTIMACION
teorema garantiza su consistencia. Si la funcion de verosimilitud es estrictamente
concava, entonces se tiene la unicidad, y como consecuencia la consistencia del
estimador maximo verosmil.
El siguiente teorema establece la normalidad asintotica de las sucesiones consistentes de races de la ecuacion del score, cuya existencia garantiza el teorema
38.
Teorema 39 Supongamos que adem
as de verificarse C1, C2, C3, C4 y C5, se
verifican tambien las hip
otesis H1 y H2 del teorema de Cramer-Rao (teorema
25) y la siguiente hip
otesis:
3

C6: Existe
a acotado por una funci
on
3 log f (x), cuyo valor absoluto est
K(x) tal que E [K(X)] k.

Sea {n }n una sucesi


on consistente de races de la ecuaci
on del score: n P
0 , si 0 es el verdadero valor del par
ametro. Entonces

1
n(n 0 ) D N 0,
,
I(0 )
donde
I(0 ) = lm

1
I
(0 ) = IX (0 ).
n Xn
e

Demostraci
on: Hacemos el desarrollo de Taylor de segundo orden de la funcion
score

S(| X n ) =
log L(| X n )

e
e
en torno a 0 y la evaluamos en n :
0 = S(n | X n ) = S(0 | X n )+
e
e

1
2
(n 0 ) S(0 | X n ) + (n 0 )2 2 S( (n , 0 )| X n )

e
e

donde | (n , 0 ) 0 | |n 0 |. Dividiendo la expresion anterior por n se


obtiene la siguiente:
1
0 = S(0 | X n )+
n
e

1
1

S(0 | X n ) +
S( (n , 0 )| X n )(n 0 ) .
n(n 0 )
n
2n 2
e
e
Por otra parte, el teorema central del lmite implica que

n
1
1 X log f (Xi |)
S(0 | X n ) =
D N (0, IX (0 )),

n
n i=1
e
=0
puesto que log f (Xi |)/ son variables aleatorias independientes e identicamente distribuidas con esperanza 0 y varianza IX (0 ) < .

4.4. TEORIA ASINTOTICA


PARA EL ESTIMADOR MAXIMO
VEROSIMIL129
Ademas, por la ley debil de los grandes n
umeros,

n
1
1 X 2 log f (Xi |)
S(0 | X n ) =
P

n
n i=1
2
e
=0
"

2 log f (X|)
IX (0 ) = E
.

2
=0
Usando de nuevo la ley de los grandes n
umeros, se tiene que

n
1 X 3 log f (Xi |)
1 2

|
S( (n , 0 )| X n )|

n 2
n i=1
3
e
=
n

1X
K(Xi ) P E(K(X)) k,
n i=1
2

a acotado en probabilidad por
de donde se sigue que n1 |
2 S( (n , 0 )| X n )| est
e
k: para todo > 0, la probabilidad de que esa cantidad sea menor que k +
tiende a 1. En definitiva, y dado que n P 0 , se tiene que

1 2
S( (n , 0 )| X n )(n 0 ) P 0.
2n 2
e
Combinado los resultados anteriores, podemos escribir

n(n 0 ) =

1 2

S(
|
X
)
S( (n , 0 )| X n )(n 0 )

0
n
n

2
|
{z e } |2n
{z e
}
P 0

P IX (0 )

1
S(0 | X n )
n
e
|
{z
}
D N (0,IX (0 ))

y, por el teorema de Slutzky, concluir que

n(n 0 ) D N

0,

1
IX (0 )

.
2

El enunciado del teorema 39 puede generalizarse al caso de variables aleatorias no identicamente distribuidas. Por eso se expresa la varianza lmite del
estimador maximo verosmil en terminos de I(0 ) en lugar de hacerlo directamente en terminos de la informacion de Fisher de X.
El resultado del teorema 39 puede expresarse diciendo que el estimador maximo verosmil n de 0 es asint
oticamente normal:
n AN(0 , (nIX (0 ))1 ).
Observese que el estimador maximo verosmil es asintoticamente insesgado y
ticamente eficiente, puesto que su varianza lmite coincide con la
asinto
cota de Cramer-Rao.

PUNTUAL 2: EVALUACION
DE ESTIMADORES
130CAPITULO 4. ESTIMACION
Para basar la inferencia sobre el parametro en ese resultado es preciso
estimar la informacion de Fisher I (0 ) = nIX (0 ). El siguiente resultado
X
e
proporciona dos estimadores de esa cantidad.
Teorema 40 Bajo las condiciones del teorema 39 (C1 a C6, H2, H3) los estadsticos On y En definidos como

2 log L(| X n )
e
,
On =


2
=n

( ),
Xn n
e
divididos por n son estimadores consistentes de IX (0 ). Es decir, tanto On , la
n observada evaluada en el m
n
informacio
aximo, como En , la informacio
esperada evaluada en el m
aximo, estiman consistentemente la informaci
on de
Fisher contenida en la muestra acerca del par
ametro.
En = I

Demostraci
on:

2
On
1 log L(| X n )
e
=
=


n
n
2
=n

2
3

1 log L(| X n )
1 log L(| X n )
e
e


n
2
n
3
=0

(n 0 )

= (0 ,n )

donde | (n , 0 ) 0 | |n 0 |. El termino de las derivadas terceras tiende


a 0 en probabilidad mientras que el primer termino converge en probabilidad a
IX (0 ), por la ley de los grandes n
umeros (ver la demostracion del teorema 39).
Por otra parte,
1
En
= I
(n ) = IX (n ) P IX (0 )
n
n Xn
e
por la consistencia de n y la continuidad de IX (), (garantizada por la condicion
C6).

Podemos escribir entonces que el estimador maximo verosmil n de es

1
1
o n AN 0 ,
.
n AN 0 ,
On
En
En general, si se esta estimando una transformacion suave del parametro
() por maxima verosimilitud se tiene que

( 0 (0 ))2
n( (n ) (0 )) D N 0,
.
IX (0 )

4.4. TEORIA ASINTOTICA


PARA EL ESTIMADOR MAXIMO
VEROSIMIL131
Ejemplo 63
Estimaci
on m
aximo verosmil de un par
ametro de la distribuci
on de
Weibull.
Sea X1 , . . . , Xn m.a.s. de X W (2, ):
2 x2 /
xe
, 0 x , > 0.

n !
Pn
2
2n Y
L(| x n ) = n
xi e( i=1 Xi )/

e
i=1

f (x, ) =

n
1X 2
l (| x n ) = K n log
X
i=1 i
e
n
n
1 X 2

S(| x n ) =
l (| x n ) = + 2
X

i=1 i
e
e
n
1X 2
X
S(| X n ) = 0 = n =
n i=1 i
e

!
n

X
n
2
n

2
S 0 (| X n )
=
<0

X
=

i
2
3

n
e
n2

i=1
=n

Por lo tanto la verosimilitud es estrictamente concava y n es la u


nica solucion de
la ecuacion del score, as que es un maximo (es el estimador maximo verosmil)
y es estimador consistente de .
La informacion observada es

n
2 l (|Xn )
n
2 X 2
0
X
=
S
(|
X
)
=

+
n
2
2
3 i=1 i
e

que evaluada en el estimador maximo verosmil vale

!
n

n
2 X 2

0
On = S (| X n )
= 2+ 3
X

i=1 i
=n
e

=n

n3
n
= Pn
2.
2
i=1 Xi
n

Por su parte, la informacion esperada (la informacion de Fisher, de hecho) es


n
2n
n
2n
n
() = E(S 0 (| X n )) = 2 + 3 E(X 2 ) = 2 + 3 = 2 ,
Xn

e
e
que evaluada en el estimador maximo verosmil vale
I

En = I

X
e

(n ) =

n
n3
= Pn
= On .
2
2
i=1 Xi
n

As pues, en este ejemplo, tanto la informacion observada como la esperada valen


lo mismo al ser evaluadas en el estimador maximo verosmil y, por lo tanto, solo
tenemos un estimador consistente de la informacion de Fisher.

PUNTUAL 2: EVALUACION
DE ESTIMADORES
132CAPITULO 4. ESTIMACION
Volvamos a la expresion del logaritmo de la verosimilitud para deducir (por
el corolario 4) que el estimador maximo verosmil tambien es el UMVUE en este
problema:
n

1X 2
X =
l (| x n ) =
l (| x n ) = K n log
i=1 i

e
e
Pn

n
2
1 X 2
n
n
i=1 Xi
.
+ 2
Xi = 2

i=1

Por otra parte,


1
0
l (| X n ) P log
= E0 [log f (X|)]
n

e
y si derivamos respecto a ,

0
E0 [log f (X|)] =

2
de donde se sigue que E0 [log f (X|)] alcanza su maximo en = 0 .
Tenemos as que l (| X n )/n se maximiza en n y que E0 [log f (X|)] se
e
maximiza en 0 . Ademas, la diferencia entre l (| X n )/n y E0 [log f (X|)] es
e
peque
na y va a 0 cuando n crece, y las dos funciones varan suavemente en .
De ello se desprende que la diferencia entre los puntos que las maximizan, 0 y
n , han de ser tambien peque
nas y deben ir a 0 cuando n crece, por lo tanto
n P 0 .

E(log f(X|))
l(|Xn,1)/n


l(|Xn,2)/n

4.4. TEORIA ASINTOTICA


PARA EL ESTIMADOR MAXIMO
VEROSIMIL133

Ejemplo 64
En este ejemplo extendemos los resultados uniparametricos al caso multiparametrico.
Sean Y1 , . . . , Yn variables aleatorias independientes tales que Yi Bern(pi ),
i = 1, . . . , n, que siguen el modelo de regresion logstico, es decir, existen covariantes Z1 , . . . , Zn y parametros desconocidos y tales que

pi
= + Zi , i = 1, . . . , n.
log
1 pi
Es posible despejar pi :
pi =

exp( + Zi )
.
1 + exp( + Zi )

Ello permite escribir la verosimilitud de la muestra:


yi
n
n
Y
Y
pi
L(, ) =
pyi i (1 pi )1yi =
(1 pi ).
1 pi
i=1
i=1
El logaritmo de la verosimilitud es

n
X
pi
l (, ) =
yi log
+ log(1 pi ) =
1 pi
i=1

n
X
yi ( + Zi ) + log
i=1

1
1 + exp( + Zi )

Las ecuaciones de los scores son estas:


X
n
n
l (, ) X
exp( + Zi )
=
=
Yi
(Yi pi ),

1 + exp( + Zi )
i=1
i=1
X
n
n
Zi exp( + Zi )
l (, ) X
=
Yi Zi
=
Zi (Yi pi ).

1 + exp( + Zi )
i=1
i=1
Estas ecuaciones se resuelven por metodos numericos genericos o bien aplicando
algoritmos especficos para este problema que consisten en la iteracion de estimaciones por mnimos cuadrados ponderados. Sobre este tema pueden verse,
por ejemplo, la seccion 10.3 de Garthwaite, Jollife y Jones (1995), o la seccion
14.5.2 de Pe
na (1995).
Las componentes de la matriz de informacion observada son
n

2 l (, ) X
=
pi (1 pi ),
2
i=1
n

2 l (, ) X
=
Zi pi (1 pi ),

i=1

PUNTUAL 2: EVALUACION
DE ESTIMADORES
134CAPITULO 4. ESTIMACION
n

2 l (, ) X 2
=
Zi pi (1 pi ).
2
i=1

Como la matriz de informacion observada no depende de las variables aleatorias


Yi , esta matriz coincide con su esperanza: la matriz de informacion de Fisher.
La matriz de informacion asintotica tiene por componente (l, m), l = 1, 2,
m = 1, 2,
n
1 X l+m2
Ilm (, ) = n lm
Zi
pi (1 pi )
n n
i=1
y son necesarias condiciones sobre la sucesion de covariantes Zi que garantizen
la existencia de estos lmites. Una posibilidad es suponer que las Zi son variables
aleatorias independientes e identicamente distribuidas, con lo cual el problema
se convierte en uno de variables aleatorias independientes e identicamente distribuidas puro.
.
.

Ejemplo 56, p
agina 109. Continuaci
on. Veremos ahora que el metodo de
maxima verosimilitud no es el u
nico que da lugar a estimadores asintoticamente
eficientes.
Sea X1 , . . . , Xn m.a.s. de X Poisson(). Queremos estimar = () =
e . Sabemos que

Pn Xi
i=1
n

1
n =
n
es el UMVUE de = e . Sabemos tambien que no alcanza la cota de CramerRao, es decir, no es eficiente para tama
nos de muestra finitos.
Estudiaremos su distribucion asint
otica tomando logaritmos y usando el
metodo delta:
log(n ) =

n
X
i=1

Sabemos que
ejemplo,

Xi log

n1
= X n (n log(1 1/n)) .
n

n(X n ) D N (0, ) y que, como veremos al final de este

n log(1 1/n) n 1 y

n [1 + n log(1 1/n)] n 0.

As,

n(log n log ) =

n(log n + ) =


n X n n log(1 1/n) + =

[n log(1 1/n)] n(X n ) + n [1 + n log(1 1/n)] D N (0, ).

4.4. TEORIA ASINTOTICA


PARA EL ESTIMADOR MAXIMO
VEROSIMIL135
Por lo tanto, aplicando el metodo delta para () = e ,

n(n e ) D N (0, e2 ).

Ya habamos visto que la cota de Cramer-Rao es


( 0 ())2
= e2 ,
I()
Luego se tiene que n es asintoticamente eficiente, al igual que lo era el estimador
de maxima verosimilitud eX n tal como se vio en el ejemplo 59, pagina 116.

Falta por comprobar que se da la convergencia n [1 + n log(1 1/n)] n


0. Para probarlo, llamemos l al lmite y observemos que

x
1 + log 1 x1

l = lm
.
x
1/ x
Aplicando la regla de lHopital y operando se llega a que
"
#

x
x
1 x1
1 + log 1 x1

= 2l 2 0 = 2l,
l = 2 lm
lm
x
x 1/ x
1/ x
de donde se sigue que l = 0.
.

PUNTUAL 2: EVALUACION
DE ESTIMADORES
136CAPITULO 4. ESTIMACION

4.5.

Lista de problemas

Error cuadr
atico medio. Estimadores insesgados. Optimalidad
1. Sea X N (0, 2 ). Se toma una m.a.s. de X de tama
no n.
a) Construye a partir de ella dos estimadores insesgados de , uno dependiente de la suma de los cuadrados de las observaciones y otro de
la suma de sus valores absolutos.
b) Compara sus varianzas.
2. Considera los tres estimadores maximo verosmiles de correspondientes a
los problemas 14, 15 y 16 de la lista 1.6 (fueron calculados en el problema
11 de la lista 3.4). Prueba que cada estimador es insesgado en cada una
de las tres situaciones descritas en esos problemas y calcula la varianza de
cada estimador en cada situacion.
3. (Casella-Berger, 7.20, 7.21, 7.22) Considera Y1 , . . . , Yn variables aleatorias
independientes que satisfacen
Yi = xi + i , i = 1, . . . , n,
donde x1 , . . . , xn son constantes conocidas, 1 , . . . , n son v.a.i.i.d. seg
un
N (0, 2 ), 2 desconocido.
a) Da un estadstico bidimensional suficiente para (, 2 ).
b) Halla el estadstico maximo verosmil de (llamalo 1 ), prueba que
es centrado y da su distribucion.
c) Comprueba que

Pn
Yi

2 = Pi=1
n
i=1 xi

es estimador insesgado de .
d ) Comprueba que

1 X Yi
3 =
n i=1 xi
es estimador insesgado de .
e) Compara las varianzas de los tres estimadores de .
4. (Casella-Berger, 7.39) Sea X1 , . . . , Xn una muestra de una poblacion con
esperanza IR y varianza 2 > 0.
Pn
a) Prueba que un estimador de la forma i=1 ai Xi es insesgado para
Pn
si y solo si i=1 ai = 1.
b) Entre todos los estimadores de esta forma (llamados estimadores lineales insesgados) encuentra aquel que tenga varianza mnima.

4.5. LISTA DE PROBLEMAS

137

5. (Casella-Berger, 7.40) Sean W1 , . . . , Wk estimadores insesgados de un parametro con varianzas V (Wi ) = i2 , y Cov(Wi , Wj ) = 0 si i 6= j.
P
a) Prueba que entre todos los estimadores de de la forma
ai Wi con
P
a1 , . . . , ak constantes y E( ai Wi ) = , el que menor varianza tiene
es
P
Wi /i2

.
W = P
1/i2
b) Calcula la varianza de W .
6. (Casella-Berger, 7.41) Sea X1 , . . . , Xn una muestra de X N (, 2 = 1).
a) Comprueba que la cota de Cramer-Rao para la estimacion de 2 es
42 /n.
2

b) Muestra que el mejor estimador insesgado de 2 es X (1/n).


c) Calcula su varianza (Indicaci
on: Usa la identidad de Stein, que puedes encontrar en Casella-Berger, seccion 4.7).
d ) Comprueba que este estimador no alcanza la cota de Cramer-Rao
para la estimacion de 2 .
7. (Casella-Berger, 7.42) Sean X1 , X2 y X3 una m.a.s. de una U (, 2), > 0.
a) Dar el estimador de los momentos de y llamalo 1 .
b) Dar el estimador maximo verosmil de , al que llamaremos 2 , y
encontrar una constante k tal que k 2 sea insesgado para .
c) Cual de esos dos estimadores puede ser mejorado mediante el uso
de un estadstico suficiente? Como se mejora? Llama 3 al etimador
mejorado.
d ) Se han observado los valores 1.29, 0.86, 1.33, procedentes de una
U (, 2). Utiliza los tres estimadores propuestos en los apartados anteriores para estimar a partir de esos datos.
8. (Casella-Berger, 7.43) Se mide el radio de un crculo con un error aleatorio
distribuido como una N (0, 2 ). Se toman n medidas independientes del
radio.
a) Proponer un estimador insesgado del area del crculo.
b) Es el mejor estimador insesgado?
c) Alcanza la cota de Cramer-Rao?
9. En cada una de las tres situaciones descritas en los problemas 14, 15 y
16 de la lista 1.6, alcanza el estimador maximo verosmil correspondiente
la cota de Cramer-Rao? (Nota: los estimadores fueron calculados en el
problema 11 de la lista 3.4.)
10. (Casella-Berger, 7.51) Sean X1 , . . . , Xn v.a.i.i.d. seg
un una Bern(p).

PUNTUAL 2: EVALUACION
DE ESTIMADORES
138CAPITULO 4. ESTIMACION
a) Muestra que el estimador maximo verosmil de p es insesgado y alcanza la cota de Cramer-Rao.
b) Para n 4, prueba que el producto X1 X2 X3 X4 es un estimador
insesgado de p4 .
c) Utiliza el apartado anterior para encontrar el mejor estimador insesgado de p4 .
11. (Casella-Berger, 7.44) Sean X1 , . . . , Xn v.a.i.i.d. con funcion de distribucion F (x; ) y sean Y1 , . . . , Ym v.a.i.i.d. con funcion de distribucion G(x; ).
Se supone que ambos grupos de variables son independientes. Se supone
que los estadsticos T = T (X1 , . . . , Xn ) y W = W (X1 , . . . , Xn ) son estadsticos suficientes y completos para y , respectivamente, y que
E (T ) = , V (T ) < , E (W ) = , V (W ) < .
Encuentra el mejor estimador insesgado de .
12. (Ex. junio 2000) Sea X N (, 1). Queremos estimar = 2 a partir de
una observacion de X.
a) Indica si los tres estimadores de siguientes,
1 = X 2 1, 2 = X 2 , 3 = X 2 + 1,
se pueden obtener como resultado de buscar los siguientes estimadores de :
1) el estimador maximo verosmil,
2) el estimador insesgado uniformemente de mnima varianza (UMVUE),
3) el estimador Bayes si la funcion de perdida es cuadratica y la
distribucion a priori de es plana (es decir, () es constante).
b) Calcula el error cuadratico medio de los estimadores i , i = 1, 2, 3.
Hay alg
un estimador inadmisible?
c) Da un estimador que sea mejor que los tres anteriores en terminos
de error cuadratico medio. (Indicaci
on: Recuerda que = 2 > 0.
Con que probabilidad sera negativo 1 ?).
d ) El estimador UMVUE alcanza la cota de Cramer-Rao?

Comportamiento asint
otico
13. (Casella-Berger, 7.61) Sean las v.a.i.i.d. X1 , . . . , Xn que verifican que
E (Xi ) = + b, V (Xi ) = 2 < ,
con b 6= 0 conocida.

4.5. LISTA DE PROBLEMAS

139

a) Prueba que X no es un estimador consistente de .


b) Define un estimador insesgado de que sea consistente.
14. (Casella-Berger, 7.62) Sea la m.a.s. X1 , . . . , Xn de X f (x; ) = 0,5(1 +
x)I(1,1) (x), donde 1 < < 1. Dar un estimador consistente de y
probar que lo es.
15. (Casella-Berger, 7.63) Se toma una m.a.s. X1 , . . . , Xn de X N (, ), con
V (X) = > 0.
es una raz de la
a) Prueba que el estimador maximo verosmil de , ,
Pn
2
ecuacion de segundo grado +W = 0, donde W = (1/n) i=1 Xi2 ,
y determina cual de las dos races es el estimador maximo verosmil.
b) Da una aproximacion de la varianza de utilizando las propiedades
asintoticas del estimador maximo verosmil.
c) Da una aproximaci
on de la varianza de utilizando aproximaciones
por series de Taylor.
16. (Casella-Berger, 7.64) Una variacion del modelo propuesto en el ejercicio
3 consiste en permitir que los regresores sean variables aleatorias independientes e identicamente distribuidas: se tienen n variables aleatorias
Y1 , . . . , Yn que satisfacen
Yi = Xi + i , i = 1, . . . , n,
donde X1 , . . . , Xn son v.a.i.i.d. seg
un una N (, 2 ), 6= 0, y 1 , . . . , n son
2
v.a.i.i.d. seg
un una N (0, ), y las variables Xs y las s son independientes. La varianza de los tres estimadores que se proponan en aquel ejercicio
es difcil de calcular exactamente, por lo que es conveniente encontrar sus
valores aproximados.
Aproxima en terminos de , 2 y 2 las esperanzas y varianzas de los
estimadores siguientes:
Pn
Xi Yi / i=1 Xi2 .
Pn
b)
Yi / i=1 Xi .
Pn
c) (1/n) i=1 (Yi /Xi ).

a)

Pn

i=1
Pn
i=1

17. (Casella-Berger, 7.65) Sea X B(n, p), n conocida y 0 < p < 1. Sea p el
estimador maximo verosmil de p construido a partir de X. La varianza
de p es p(1 p)/n, que puede estimarse mediante p(1 p)/n.
a) Calcula la esperanza de p(1 p).
b) Usa un desarrollo de Taylor para aproximar la varianza de p(1 p).
c) Presenta la aproximacion anterior alg
un problema?

PUNTUAL 2: EVALUACION
DE ESTIMADORES
140CAPITULO 4. ESTIMACION
18. (Examen junio 2000) Consideremos muestras de tama
no n de X N (, 1)

y el problema de estimar = e . Tomamos como estimador de


= eX .
Da su distribucion asintotica y usa el metodo delta para aproximar su
sesgo.
19. (Examen julio 2000) Sea X una variable aleatoria con funcion de densidad
f (x; a, ) = e(xa) I[a,) (x)
con a R y > 0.
a) Calcula los estimadores de maxima verosimilitud de a y .
A partir de ahora supondremos que a es conocido.
e indica cual
b) Da la expresion del estimador maximo verosmil de , ,
es su distribucion asintotica.
c) Queremos estimar 2 = V (X) = 1/2 . Que estimador es asintotica22 , donde
mente mas recomendable,
12 o
n

12 =

1 2
1 X
,
2 = S 2 =
(Xi X)2 ?
2

i=1

Indicaciones:
El coeficiente de apuntamiento de una v.a. Y se define como
CAp(Y ) = E[(Y E(Y ))4 ]/V (Y )2 .
Si Y Exp() entonces CAp(Y ) = 9.
Si 4 = E[(Y E(Y ))4 ] y 2 = V (Y ), entonces

1
n3 2
V (S 2 ) =
4
2
n
n1
Si Y es la media aritmetica de una m.a.s. de tama
no n de Y
Exp(), entonces
4

E(Y ) =

6n2 + 3n + 14
1
+
4
n 3 4

d ) Usa el metodo delta para dar la expresion aproximada del sesgo de


e1/(Xa) como estimador de e .

Captulo 5

Contrastes de hip
otesis
Referencias: Casella-Berger, captulo 8 y Garthwaite, Jollife y
Jones (1995), captulo 4, referencias generales; Garthwaite, Jollife y
Jones (1995), secci
on 7.4., para contrastes bayesianos;

tesis estadstica es una conjetura o una afirmacion sobre la


Una hipo
tesis
distribucion de una o mas variables aleatorias. Un contraste de hipo
tesis o una prueba de hipo
tesis) es un procedimiento
(o un test de hipo
para decidir si se acepta o se rechaza una hipotesis.

5.1.

Definiciones b
asicas. Contraste de hip
otesis
simples

Usualmente se dispone de una muestra X1 , . . . , Xn de una variable aleatoria


X con distribucion F y funcion de densidad (o funcion de masa) f . Sobre la
distribucion de X se realizan dos afirmaciones entre las que se debe decidir. En
general esas dos afirmaciones seran excluyentes. El tratamiento que se da a las
dos hipotesis no es simetrico y esto se refleja en el nombre que reciben: una se
tesis nula y la otra hipo
tesis alternativa. Se denotan por H0 y
llama hipo
H1 , respectivamente. Se dice que en un test de hipotesis se contrasta H0 frente
a H1 .
La hipotesis nula es m
as conservadora en el sentido de que no sera rechazada
a menos que la evidencia muestral en su contra sea muy clara. Esta hipotesis
suele establecer un modelo sencillo para la distribucion de X (por ejemplo, si
F pertenece a una familia parametrica, H0 fija el valor del parametro) o bien
propone como distribucion de X aquella que es com
unmente aceptada como una
buena descripcion del fenomeno que modeliza X.
La hipotesis alternativa especifica el tipo de alejamiento de la hipotesis nula
que podra presentar la distribucion de X. Puede expresar un modelo gene141


CAPITULO 5. CONTRASTES DE HIPOTESIS

142

ral que incluya a H0 como caso particular. Si un investigador considera que un


fenomeno aleatorio no ha estado adecuadamente modelizado hasta ese momento
y cree tener una explicacion mas satisfactoria, propondra esta como hipotesis alternativa y el modelo vigente como hipotesis nula. Solo si hay evidencia muestral
suficiente para rechazar la hipotesis nula, sera aceptada la hipotesis alternativa.
Podemos distinguir tres tipos de pruebas de hipotesis:
A. Suponemos que F (y f ) pertenecen a una cierta familia parametrica indexada por un parametro y planteamos el contraste

H0 : 0
H1 : 1
donde 0 1 = , 0 1 = .
B. Contrastes de bondad de ajuste (goodness-of-fit tests, en ingles):

H0 : f = f 0
H1 : f 6= f0

C. Para dos distribuciones f0 y f1 que no necesariamente pertenecen a la


misma familia parametrica, se plantea el contraste

H0 : f = f 0
H1 : f = f 1
tesis simple es aquella que especifica completamente la distribuUna hipo
tesis compuesta.
cion de X. En otro caso, se dice que la afirmacion es una hipo
Por ejemplo, si f {f : IR}, la hipotesis H : = 0 es una hipotesis
simple. La hipotesis H : > 0 es compuesta.
Supongamos que se contrasta H0 frente a H1 . Cuando se observa la muestra
x = (x1 , . . . , xn ) se debe decidir si esta presenta o no evidencia suficiente para
e
rechazar H0 . El subconjunto C del espacio muestral X n de muestras para las
cuales se decide rechazar la hipotesis nula en favor de la alternativa se llama
n crtica o regio
n de rechazo del contraste. El complementario de C
regio

n. Un contraste queda definido por su regio


n
se llama region de aceptacio
crtica C.

5.1.1.

Tipos de errores

Al realizar un contraste de hipotesis se pueden cometer dos tipos de errores:


rechazar la hipotesis nula siendo esta cierta (error de tipo I), o no rechazarla
cuando es falsa (error de tipo II). El error de tipo I se considera mas grave
que el error de tipo II, dado que la hipotesis nula es siempre la mas conservadora.
El siguiente esquema ilustra las diversas situaciones.

5.1. DEFINICIONES BASICAS.


CONTRASTE DE HIPOTESIS
SIMPLES143

REALIDAD

H0
cierta
H0
falsa

DECISION
Aceptar H0 Rechazar H0
Decision
Error de
correcta
TIPO I
Error de
Decision
TIPO II
correcta

Las probabilidades de cometer un error son


P ( X C|H0 cierta) y P ( X 6 C|H0 falsa).
e
e
Es deseable disponer de contrastes que tengan probabilidades de errores bajas.
Pero en general no es posible dise
nar contrastes que tengan ambas probabilidades peque
nas: cuando un contraste se modifica para reducir su probabilidad
de error de tipo I, esta modificacion conlleva un aumento de la probabilidad de
error de tipo II, y viceversa. Observese que si se desea reducir la probabilidad
del error de tipo I, = PF ( X C|H0 ), se habran de reducir los puntos de
e
la region crtica C, pero ello implica que el conjunto C, complementario de C,
aumenta y as la probabilidad de error de tipo II, = PF ( X C|H1 ), tambien
e
crecera en general.
Dado que el error de tipo I se ha considerado mas grave que el error de tipo II,
la practica habitual en el contraste de hipotesis es considerar u
nicamente pruebas
que garantizan que la probabilidad de cometer un error de tipo I sera inferior
a un valor dado suficientemente peque
no (por ejemplo, = 0,01, 0.05 o 0.1)
y buscar entre todas ellas aquella que hace mnima la probabilidad de cometer
n del test.
un error de tipo II. Al valor se le llama nivel de significacio
Si el menor valor obtenido para la probabilidad de error de tipo II es
inaceptablemente grande, pueden tomarse dos medidas para reducirlo:
aumentar la probabilidad de error de tipo I permitida, o
aumentar el tama
no de la muestra.
Supongamos que la distribucion de X pertenece a una familia parametrica
{f : } y se contrasta

H0 : 0
H1 : 1
n de potencia () del
donde 0 1 = , 0 1 = . Se define la funcio
contraste como

probabilidad de error de tipo I


si 0
() = P ( X C) =
1

probabilidad
de
error
de
tipo
II
si
1
e
Para 0 1, un contraste de hipotesis con funcion de potencia () tiene
o si
taman
sup () = .
0

144

CAPITULO 5. CONTRASTES DE HIPOTESIS

Para 0 1, un contraste de hipotesis con funcion de potencia () tiene


n si
nivel de significacio
sup () .
0

El conjunto de contrastes con nivel de significacion contiene las pruebas de


tama
no .
Un contraste que minimiza = P ( X C|H1 ) entre aquellos que tienen
es potente de taman
o o el mejor
tama
no se dice que es el contraste ma
o .
contraste de taman

5.1.2.

Lema de Neyman-Pearson

El siguiente resultado determina cual es el contraste mas potente cuando se


contrasta una hipotesis nula simple frente a una alternativa simple.
Teorema 41 (Lema de Neyman-Pearson) Sea X1 , . . . , Xn una muestra aleatoria simple de X con funci
on de densidad (o funci
on de masa de probabilidad)
f (x; ). Se desea contrastar H0 : = 0 frente a H1 : = 1 . Si L(| x ) es la
e
funci
on de verosimilitud, el mejor contraste de tama
no tiene regi
on crtica de
la forma
(
)
L(1 | x )
n
e A
C= x X :
e
L(0 | x )
e
para alg
un A > 0.
Demostraci
on: Haremos la demostracion solo en el caso de distribucion absolutamente continua. La prueba en el caso discreto es analoga (basta cambiar
integrales por sumatorios y funciones de densidad por funciones de masa de
probabilidad) si el nivel puede alcanzarse exactamente con los valores de la
funcion de masa bajo H0 (en caso contrario hay que recurrir a un contraste
aleatorizado; sobre este tema se daran referencias cuando se presente el ejemplo
66). En Velez y Garca (1993), paginas 338-339, puede verse una demostracion
valida para el caso discreto y el absolutamente continuo.
Sea A tal que P0 ( x C) = , donde C = { x X n : L(1 | x )/L(0 | x )
e
e
e
e
A}. Sea C la region crtica de otro test de tama
no . Queremos probar que
= P1 ( x C) = P1 ( x C ).
e
e
Calculemos la diferencia :
Z
Z
=
L(1 | x )d x
L(1 | x )d x =
e e
e e
x C
x C
e
e
Z
Z
L(1 | x )d x +
L(1 | x )d x
e e
e e
x C C
x C C
e
e

5.1. DEFINICIONES BASICAS.


CONTRASTE DE HIPOTESIS
SIMPLES145
Z

Z
L(1 | x )d x
L(1 | x )d x =
e e
e e
x CC
x CC
Ze
Ze
L(1 | x )d x
L(1 | x )d x
e e
e e
x C C
x CC
Ze
Z e
A L(0 | x )d x =
A L(0 | x )d x
e e
e e
x CC
x C C
e
e"
Z
Z
A
Z
"Z

x C C
e
x CC
e

L(0 | x )d x +
e e

L(0 | x )d x
e e

L(0 | x )d x
e e
x C
e

x C C
e

L(0 | x )d x
e e
#

L(0 | x )d x
e e
x CC
e
#

x C
e

L(0 | x ) = A( ) = 0.
e
2

El contraste que se propone en el Lema de Neyman-Pearson se denomina


n de verosimilitudes.
tambien test de la razo

Ejemplo 65
Test Z.
Sea X1 , . . . , Xn muestra aleatoria simple de X N (, 2 ) con 2 conocido.
Se desea contrastar H0 : = 0 frente a H1 : = 1 , con 1 > 0 .
Nuestra intuicion nos dice que se debe rechazar H0 si se observan valores
grandes de x. Veamos que la aplicacion del Lema de Neyman-Pearson conduce
a esta solucion.
La funcion de verosimilitud de una muestra es

1
L(| x ) = (2 2 )n/2 exp 2 ni=1 (xi )2
2
e
y el cociente de verosimilitudes

L(1 | x )
(2 2 )n/2 exp 21 2 ni=1 (xi 1 )2
1 n
=
e =
(2 2 )n/2 exp 22 i=1 (xi 0 )2
L(0 | x )
e

1 n
2
2
=

(xi 0 ) (xi 1 )
exp
2 2 i=1

1
2
2
2
exp
n
2x(

)
+
(

)
1
0
0
1
2 2
As, la region crtica del test de Neyman-Pearson tiene la forma
C = { x : exp{n(2x(1 0 )2 + (20 21 ))/2 2 } A}.
e


CAPITULO 5. CONTRASTES DE HIPOTESIS

146

Vemos que el cociente de verosimilitudes es funcion creciente del estadstico


minimal suficiente x porque 1 0 > 0, y por tanto la region crtica puede
escribirse as:
C = { x : x B}.
e
En este caso las constantes A y B se relacionan de este modo:
B=

1 + 0
2 log(A)
+
.
n(1 0 )
2

Sin embargo no es necesario calcular B a partir de A, sino que es posible determinar su valor teniendo en cuenta que el contraste que se propone tiene tama
no
:
P (C|H0 ) = P (X B|H0 ) =
Bajo H0 la distribucion de la media muestral es X N (0 , 2 /n), de donde se
deduce que el valor de B debe ser

B = 0 + z .
n
Supongamos que 0 = 5, 1 = 6, 2 = 1 y = 0,05 y se toman muestras
de tama
no n = 4. Acabamos de ver que rechazaremos H0 : = 5 en favor de

H1 : = 6 si X 0 + z / n = 5,8225, o equivalentemente si
Z=

X n 0
Xn 5

1,645.
=
/ n
1/ 4

Supongamos que se observa la muestra x = (5,1, 5,5, 4,9, 5,3), luego la media
e
muestral vale x = 5,2. Como
z=

x5
= 0,4 6 1,645
1/ 4

no se rechaza H0 .
Este contraste se denomina test Z porque usa el estadstico Z =
0 )/, que tiene distribucion N (0, 1) bajo H0 .
.

n(X n
.

Ejemplo 66
Sean Y1 , . . . , Yn muestra aleatoria simple de Y Bern(p). Se desea contrastar

H0 : p = p0
H1 : p = p1
Pn
con p1 > p0 . Sea X = i=1 Yi B(n, p). La verosimilitud de la muestra es

n x
L(p|x) =
p (1 p)nx .
x

5.1. DEFINICIONES BASICAS.


CONTRASTE DE HIPOTESIS
SIMPLES147
Calculamos el logaritmo del cociente de verosimilitudes:

L(p1 |x)
p1 (1 p1 )nx
log
= log
=
L(p0 |x)
px0 (1 p0 )nx
x log(p1 /p0 ) + (n x) log((1 p1 )/(1 p0 ))
As, la region crtica del test de Neyman-Pearson sera
C = {x : x log(p1 /p0 ) + (n x) log((1 p1 )/(1 p0 )) log A} =
{x : x[log(p1 /p0 ) log((1 p1 )/(1 p0 ))] n log((1 p1 )/(1 p0 )) + log A} =

log(A) n log((1 p1 )/(1 p0 ))

x:xB=

log p1 (1p0 )
p0 (1p1 )

Para determinar el valor de B usaremos el hecho de que la distribucion de X es


conocida bajo H0 y que se desea definir un test con tama
no .
Supongamos que n = 10, p0 = 0,5 y p1 = 0,8. Para diferentes valores de B
se obtienen contrastes con diferentes tama
nos y potencias :
B

0
1.000
0.000

3
0.945
<0.001

7
0.172
0.121

8
0.055
0.322

9
0.011
0.624

Vemos que no es posible construir un contraste de tama


no para todos los
valores [0, 1]. Si por ejemplo queremos tener un contraste de tama
no =
0,05 hay tres formas de actuar:
considerar que = 0,055 es suficientemente proximo a 0,05 y rechazar H0
si x 8,
Pensar que 0.05 es la maxima probabilidad de error de tipo I aceptable y,
por tanto, rechazar H0 si x 9, dando lugar a = 0,011,
Rechazar H0 si x 9, aceptar H0 si x 7 y en el caso de que x = 8
aleatorizar la decision: rechazar H0 con probabilidad y aceptarla con
probabilidad (1 ), eligiendo de forma que se consiga un tama
no exactamente igual a = 0,05. En este ejemplo es 0,8864. Este tipo de
contrastes se denominan tests aleatorizados.
En este curso no consideraremos los tests aleatorizados. En el captulo 18
de Cristobal (1992), por ejemplo, se desarrolla la teora de los contrastes de
hipotesis incluyendo la posibilidad de que estos sean aleatorizados.
.
.


CAPITULO 5. CONTRASTES DE HIPOTESIS

148

En los dos ejemplos anteriores hemos visto que el mejor test de tama
no
depende de las observaciones solo a traves del valor que en ellas toma el
estadstico minimal suficiente del parametro de interes. El siguiente corolario
establece esto como resultado general.
Corolario 6 En las hip
otesis del Lema de Neyman-Pearson, si T es un estadstico suficiente del par
ametro de interes con funci
on de densidad (o de
probabilidad) g(t|), el mejor test para el contraste

H0 : = 0
H1 : = 1
tiene regi
on crtica de la forma

g(t|1 )
C = t = T(x) :
A
g(t|0 )
e
para alg
un A 0.
Demostraci
on: Trivial a partir del Lema de Neyman-Pearson y del Teorema
de Factorizacion (teorema 10).
2

5.1.3.

Conclusiones de un contraste: el p-valor

Una forma de informar de los resultados de un contraste de hipotesis es


mediante el tama
no del test usado y la decision tomada sobre si se rechazo o
no H0 . Si es peque
no la decision de rechazar H0 es muy convincente, pero si
es grande la probabilidad de cometer un error de tipo I es grande, lo cual resta
fuerza al test si la decision adoptada es la de rechazar H0 . Por otro lado, para
muy peque
no, el hecho de no rechazar H0 no se interpretara como un apoyo
indiscutible a esta hipotesis sino como que no fue posible encontrar evidencia
suficiente en su contra como para superar la barrera tan restrictiva impuesta
por ese valor de .
Una forma alternativa de presentar los resultados de un contraste de hipotesis
es dar el p-valor o valor de probabilidad del test, definido este como el
supremo de los valores para los cu
ales se rechazara la hip
otesis nula si esta
se contrastase a nivel . El p-valor depende de los datos muestrales. Puede
interpretarse como la probabilidad de observar otra muestra que sea al menos
tan poco favorable a la hip
otesis nula como la que se ha observado. A partir del
p-valor se puede tomar la decision de rechazar (respectivamente, aceptar) H0 si
el p-valor es peque
no (respectivamente, grande).
es

Por ejemplo, el p-valor de un contraste dado por el Lema de Neyman-Pearson


(
)
L(1 | X )
L(1 | x )
e
e
p = P0
.
L(0 | X )
L(0 | x )
e
e

POTENTES
5.2. CONTRASTES UNIFORMEMENTE MAS

149

En general, cuando la region crtica de un contraste de tama


no es tal que
se rechaza H0 si y solo si W ( x ) c , donde W ( X ) es un estadstico y c se
e
e
elige para que el test tenga tama
no , entonces el p-valor del contraste para una
muestra observada x es
e
p( x ) = sup P (W ( X ) W ( x )).
e
e
e
0

Ejemplo 65, p
agina 145. Continuaci
on. En el ejemplo del test Z el p-valor
es

xn 0
xn 0

P (X n xn | = 0 ) = P Z
=1
/ n
/ n
donde es la funcion de distribucion de Z N (0, 1).
En el caso concreto de que = 1, 0 = 5, n = 4 y x = 5,2 se tiene que el
p-valor es

p( x ) = P
e

X4 5
5,2 5

1/ 4
1/ 4

= P (Z 0,4) = 0,3446

y por tanto no hay suficiente evidencia en contra de H0 como para rechazar esta
hipotesis.
.
.

5.2.

Contrastes uniformemente m
as potentes

Nos ocuparemos ahora de los contrastes de hipotesis en los que la hipotesis


alternativa es compuesta.
Queremos contrastar

H0 : 0
H1 : 1

donde 0 1 = , 0 1 = .
Por ejemplo, si = [0, ) podemos contrastar

H0 : = 0
H1 : > 0

Diremos que se trata de un contraste unilateral.


Si = IR, los contrastes

H0 : 0
H1 : > 0

H0 : 0
H1 : < 0


CAPITULO 5. CONTRASTES DE HIPOTESIS

150

son tambien unilaterales y el contraste

H0 : = 0
H1 : 6= 0

se dice que es bilateral.


s potente
Diremos que un contraste de hipotesis es uniformemente ma
(UMP) de tama
no para contrastar H0 : 0 frente a H1 : 1 si su
funcion de potencia () verifica que
sup () =
0

y para cualquier otro contraste con funcion de potencia que sea tambien de
tama
no , es decir, que cumpla
sup () = ,
0

se tiene que
() (), para todo 1 .

5.2.1.

Lema de Neyman-Pearson para alternativas compuestas

El siguiente resultado es una extension del Lema de Neyman-Pearson al caso


de hipotesis alternativa compuesta.
Teorema 42 (Lema de Neyman-Pearson para alternativas compuestas)
Se desea contrastar

H0 : = 0
H1 : 1 = {0 }
Para cada 1 1 , se consideran los conjuntos
(
)
L(1 | x )
e A(1 ) ,
C(1 ) = x :
e L(0 | x )
e
las regiones crticas de los contrastes m
as potentes de tama
no para contrastar

H0 : = 0
H1 : = 1

dadas por el Lema de Neyman-Pearson.


Si esas regiones crticas no dependen de 1 , es decir, si C(1 ) = C para todo
1 1 , entonces la prueba estadstica que tiene regi
on crtica C es UMP de
tama
no .

POTENTES
5.2. CONTRASTES UNIFORMEMENTE MAS

151

Demostraci
on: Sea () la funcion de potencia del test que tiene region crtica
C. Por la definicion de C se tiene que este test tiene tama
no . Sea la funcion
de potencia de cualquier otro test de tama
no .
Para cualquier 1 1 , por el Lema de Neyman-Pearson el test con region
crtica C es el mejor para contrastar

H0 : = 0
H1 : = 1
y por lo tanto, (1 ) (1 ). Como eso ocurre para todo 1 1 se sigue que
(1 ) (1 )
para todo 1 1 , luego el test C es UMP de tama
no .

Ejemplo 67
Sea X1 , . . . , Xn muestra aleatoria simple de X N (, 2 ) con 2 conocido. Se
desea contrastar

H0 : = 0
H1 : > 0
En el ejemplo 65 se vio que para cualquier 1 > 0 el mejor test para contrastar
H0 : = 0 frente a H10 : = 1 tiene por region crtica

C = { x : x B}, con B = 0 + z .
n
e
Por lo tanto, la region crtica es la misma para todos los posibles valores 1
1 = (0 , ). Se sigue que el contraste con region crtica C es UMP de tama
no
para contrastar H0 frente a H1 .
La funcion de potencia del test UMP es

() = P ( X C|) = P (X n 0 + z |) =
n
e

Xn
0
0

+ z | = P Z
+ z ,
P
/ n
/ n
/ n
siendo Z N (0, 1).
.

El siguiente resultado extiende el anterior al caso en el que la hipotesis nula


es tambien compuesta.
Corolario 7 Se contrasta una alternativa compuesta frente a otra compuesta:

H0 : 0
.
H1 : 1
Supongamos que existe un procedimiento de contraste basado en un estadstico
suficiente T con regi
on crtica C que satisface las hip
otesis siguientes:


CAPITULO 5. CONTRASTES DE HIPOTESIS

152
1. el test tiene tama
no ,

2. existe 0 0 tal que P0 (T C) = ,


3. si g(t|) denota la funci
on de densidad (o de probabilidad) de T , para el
valor 0 cuya existencia garantiza la hip
otesis anterior y para cada 1 1
existe un A(1 ) 0 tal que
si

g(t|1 )
> A(1 ) = t C, y
g(t|0 )

si

g(t|1 )
< A(1 ) = t C.
g(t|0 )

Entonces esta prueba es UMP de tama


no para contrastar H0 frente a H1 .
Demostraci
on: Sea () la funcion de potencia del contraste que tiene region
crtica C y sea () la funcion de potencia de otro contraste que tiene tama
no

. Se verificara pues que (0 ) .


Fijamos un 1 1 y contrastamos H00 : = 0 frente a H10 : = 1 . Por el
corolario al Lema de Neyman-Pearson, la region crtica C corresponde al mejor
test, luego (1 ) (1 ). Esto es valido para todo 1 1 , luego el test con
region crtica C es UMP.
2

5.2.2.

Raz
on de verosimilitud mon
otona. Teorema de KarlinRubin

En esta seccion veremos que bajo determinadas condiciones es posible encontrar tests UMP para contrastes unilaterales cuyas regiones crticas son facilmente
expresables en funcion de un estadstico suficiente. Las condiciones necesarias
hacen referencia a la monotona de la razon de verosimilitudes como funcion del
estadstico suficiente.
Una familia de funciones de densidad o de probabilidad {g(t|) : } para
n de verosimilitudes mono
tona (RVM)
una variable aleatoria T tiene razo
si para cada 2 > 1 el cociente g(t|2 )/g(t|1 ) es una funcion no decreciente de
t para los valores t tales que g(t|2 ) > 0 o g(t|1 ) > 0.
Teorema 43 (Teorema de Karlin-Rubin) Se desea contrastar H0 : 0
frente a H1 : > 0 . Supongamos que T es un estadstico suficiente para y que
la familia {g(t|) : } de funciones de densidad de T tiene RVM. Entonces
para cada t0 el test que rechaza H0 si y s
olo si T > t0 es UMP de tama
no
= P0 (T > t0 ).
Demostraci
on: Veamos en primer lugar que la funcion de potencia () =
P (T > t0 |) es creciente. Sea 1 < 2 . Queremos comprobar que (1 ) (2 ).

POTENTES
5.2. CONTRASTES UNIFORMEMENTE MAS

153

El Lema de Neyman-Pearson para contrastar H00 : = 1 frente a H10 : = 2


establece que el mejor test tiene region crtica C = { x : (L(2 | x )/L(1 | x ))
e
e
e
A}. Como T es suficiente para , sera L(| x ) = g(T ( x )|)h( x ). Dado que T
e
e
e
tiene RVM el conjunto C es
(
)
g(T ( x )|2 )
e
C= x :
A = { x : T ( x ) t0 }.
e g(T ( x )|1 )
e
e
e
Este contraste tiene tama
no 0 = P (T > t0 |1 ) = (1 ). Consideremos un
0
contraste que rechaza H0 con probabilidad 0 sea cual sea el valor x observado.
e
Su funcion de potencia es () = 0 y se trata de un test de tama
no 0 . Por el
Lema de Neyman-Pearson se tiene que
(2 ) = P (T > t0 |2 ) () = 0 = (1 )
y se concluye que la funcion de potencia () es creciente.
Para demostrar que el test con region crtica { x : T ( x ) > t0 } es UMP
e
e
para contrastar H0 frente a H1 usaremos el corolario 7. Para aplicarlo hay que
comprobar que se cumplen sus tres hipotesis:
1. El test tiene tama
no . Como () es no decreciente, se tiene que
sup () = (0 ) = = P (T > t0 |0 ).

2. Existe 0 tal que P0 (T C) = P (T > t0 |0 ) = . Esto es cierto por


definicion de t0 .
3. Para cada 1 1 , existe A(1 ) tal que t C si y solo si (g(t|1 )/g(t|0 )) >
A(1 ). Esto se verifica si definimos
A(1 ) = nf

tT

g(t|1 )
,
g(t|0 )

donde T = {t : t > t0 y g(t|1 ) > 0 o g(t|0 ) > 0}. Si g(t|1 )/g(t|0 ) >
A(1 ) entonces t > t0 , puesto que T tiene RVM. Si t > t0 entonces
g(t|1 )/g(t|0 ) > nf t g(t|1 )/g(t|0 ) = A(1 ).
2
Acabamos de ver que frecuentemente se encontraran pruebas UMP para
pruebas unilaterales. Sin embargo, no es tan sencillo tener pruebas UMP para
pruebas bilaterales, como pone de manifiesto el siguiente ejemplo.

Ejemplo 68
Sea X1 , . . . , Xn muestra aleatoria simple de X N (, 2 ) con 2 conocido. Se
desea contrastar H0 : = 0 frente a H1 : 6= 0 .


CAPITULO 5. CONTRASTES DE HIPOTESIS

154

Si contrastamos H0 frente a H10 : 0 > 1 , la region crtica del test UMP


es C1 = { x : xn A1 }. Si contrastamos H0 frente a H10 : 0 < 1 , la region
e
crtica del test UMP es C2 = { x : xn A2 }.
e
Para contrastar H0 frente a H1 parece razonable rechazar H0 si se observan
valores de la media muestral mucho mayores o mucho menores que 0 :
C = { x : xn A1 o xn A1 },
e
donde A1 y A2 se eligen para que el test tenga tama
no :
P (X n A1 | = 0 ) + P (X n A2 | = 0 ) = .
La forma de fijar A1 y A2 puede atender a distintos criterios. Una posibilidad
es elegir A1 y A2 de forma que
P (X n A1 | = 0 ) = P (X n A2 | = 0 ) =

,
2

es decir, A1 = 0 z/2 / n, A2 = 0 + z/2 / n.

Entonces se rechazara H0 si |X n 0 | z/2 / n. La funcion de potencia


es tal como se refleja en la figura siguiente (curva de trazo continuo).
0=0, =1

Funciones de potencia

0.8

0.6

0.4

0.2

Este contraste no es UMP porque, por ejemplo, si rechazamos H0 cuando

X n 0 + z / n este contraste tiene potencia superior para > 0 , como


puede verse en la figura anterior (curva de trazo discontinuo).
.
.

POTENTES155
5.3. CONTRASTES INSESGADOS. CONTRASTES LOCALMENTE MAS
Vemos en el ejemplo anterior que no es posible atender las desviaciones
bilaterales de la hipotesis nula y, a la vez, superar en potencia a los contrastes
que han sido dise
nados para detectar desviaciones en una sola direccion.
En los casos en los que no existen tests UMP es posible a
un elegir contrastes
que tengan propiedades deseables. Una posibilidad (que sera desarrollada en
la seccion 5.5) es construir pruebas que sean validas en muchas situaciones,
facilmente aplicables y con buenas propiedades teoricas.
Otra posibilidad es restringir la clase de contrastes considerada y buscar el
test UMP dentro de esa clase. La seccion 5.3 se ocupa de esta alternativa.

5.3.

Contrastes insesgados. Contrastes localmente m


as potentes

Un contraste de hipotesis para H0 : 0 frente a H1 : 1 de tama


no
y con funcion de potencia () es un contraste insesgado si () para
todo 1 .
Es razonable pedir que un contraste sea insesgado, puesto que nos dice que la
potencia nunca es menor bajo la hipotesis alternativa que bajo la nula: siempre
es mas probable rechazar la hipotesis nula si esta es falsa que si no lo es. Es
entonces logico restringir la clase de contrastes que se consideran a aquella que
contiene solo contrastes insesgados. Entre estos se buscaran los tests UMP.
Si se adopta este enfoque, puede probarse que en el muestreo de la normal
con 2 conocida (ver ejemplo 68) el contraste que rechaza H0 : = 0 si

|X n 0 | z/2 / n es insesgado y es UMP en la clase de los contrastes


insesgados. Para una demostracion de este hecho, vease por ejemplo CasellaBerger, ejemplo 8.3.9.
En la b
usqueda de contrastes UMP, un planteamiento alternativo al de reducir la clase de contrastes considerados (que nos lleva, por ejemplo, a buscar tests
insesgados UMP) consiste en reducir las hipotesis alternativas que se tienen en
cuenta. En este sentido, es logico buscar procedimientos que sean uniformemente mas potentes solo para las hipotesis alternativas cercanas a la hipotesis nula.
Seran estos contrastes los mas potentes para detectar peque
nas desviaciones de
la hipotesis nula. En cada caso concreto se ha de especificar que se entiende por
hipotesis cercanas a la nula.
Supongamos que el parametro es real. Se dice que un test con funcion de
s potente localmente para contrastar H0 : 0 (o
potencia () es el ma
H0 : = 0 ) frente a H1 : > 0 si, para cualquier otro contraste con funcion
de potencia 0 () tal que (0 ) = 0 (0 ), existe un > 0 tal que () 0 ()
para todo (0 , 0 + ].


CAPITULO 5. CONTRASTES DE HIPOTESIS

156

Veamos como podemos encontrar el test mas potente localmente en este


caso. Restringimos la hipotesis alternativa del siguiente modo:

H0 : = 0
H1 : = 0 +
para > 0 cercano a 0.
Por el lema de Neyman-Pearson el mejor test tiene region crtica de la forma
L(0 + ; x )
e A log L(0 + ; x ) log L(0 ; x ) log A.
e
e
L(0 ; x )
e
Desarrollando por Taylor alrededor de = 0, se tiene que

log L
log L(0 + ; x ) log L(0 ; x ) +
=0
e
e
y por tanto el test localmente mas potente se basa en la funcion score

log L
S(0 ; x ) =
=0
e
y tiene por region crtica, aproximadamente,
S(0 ; x ) B = z
e

I0

ya que, bajo H0 , E[S(0 ; x )] = 0, V [S(0 ; x )] = I0 y S(0 ; x ) es aproximadae


e
e
mente normal.

Ejemplo 69
Sea X1 , . . . , Xn muestra aleatoria simple de X Cauchy(), con funcion de
densidad
1
f (x|) =
.
(1 + (x )2 )
Se desea contrastar

H0 : = 0
.
H1 : > 0

La verosimilitud y su logaritmo son


n
n
Y
X

1
L(; x ) =
,
l
(;
x
)
=

log + log(1 + (xi )2 ) .


2
(1 + (xi ) )
e
e
i=1
i=1

La funcion score es
S(; x ) =
e

n
X
i=1

y la informacion de Fisher
I =

2(xi )
1 + (xi )2
n
.
2

5.4. CONSISTENCIA Y EFICIENCIA PARA CONTRASTES

157

Asintoticamente la prueba localmente mas potente rechaza H0 : = 0 en favor


de H1 : > 0 si y solo si
r
n
X
2(xi 0 )
n
z/2
.
2
1 + (xi 0 )
2
i=1
.

Observemos que las pruebas localmente mas potentes son u


tiles solo para
alternativas unilaterales. Si es un vector, seran u
tiles cuando nos preocupa
una direccion especfica en la que el parametro pueda alejarse de 0 .

5.4.

Consistencia y eficiencia para contrastes

Las propiedades deseables de los contrastes no se limitan a ser UMP o ser


localmente mas potente. La siguiente es tambien una propiedad que cualquier
test razonable debera cumplir.
Supongamos que un contraste depende del tama
no n de la muestra y que su
funcion de potencia se denota por n (). Diremos que un contraste es consistente si
lm n () = 1
n

para todo 1 . Las pruebas derivadas del Lema de Neyman-Pearson son


consistentes (ver, por ejemplo, el teorema 6.6.1 de Bickel y Doksum 1977).
Esta definicion lleva aparejado un concepto de eficiencia relativa entre contrastes. Sean H0 y H1 dos hipotesis simples. Dados dos contrastes T1 y T2 ,
ambos de tama
no y consistentes para contrastar H0 frente a H1 , se consideran respectivamente los tama
nos muestrales n1 y n2 mas peque
nos necesarios
para obtener potencia mayor o igual que , un valor fijo. Se define la eficiencia
relativa de T1 comparado con T2 como
n2
.
n1
tica de T1 comparado con T2 como
Se define la eficiencia relativa asinto
n2
lm
,
1 n1
es decir, es el lmite del cociente n2 /n1 cuando ambos tama
nos muestrales tienden a infinito conjuntamente, en el sentido de que ambos garantizan potencia
y tiende a 1.
Existen otros conceptos de eficiencia relativa entre contrastes que contemplan
la posibilidad de que la hipotesis alternativa tienda hacia la nula cuando n tiende
a infinito (eficiencia de Pitman; ver, por ejemplo, Bickel y Doksum 1977). Otras
definiciones se basan en la comparacion de p-valores (eficiencia de Bahadur; ver,
por ejemplo, Shorack y Wellner 1986).


CAPITULO 5. CONTRASTES DE HIPOTESIS

158

5.5.

Test de la raz
on de verosimilitudes

Sea X1 , . . . , Xn muestra aleatoria simple de X, variable aleatoria con funcion


de densidad (o de probabilidad) f (x|) para alg
un . Se desea hacer el
contraste

H0 : 0
H1 : 1
donde = 0 1 y 0 1 = . Se define el estadstico de la razon de
verosimilitudes como
max0 L(| x )
e .
= ( x ) =
e
m
ax L(| x )
e
n de verosimilitudes (tambien llamado test de la
El test de la razo
n de verosimilitudes generalizado, para distinguirlo del test de Neymanrazo
n de las ma
ximas verosimilitudes) establece
Pearson, o test de la razo
una region crtica de la forma
C = { x : ( x ) A}
e
e
para alguna constante A que se determinara para que el test tenga el tama
no
deseado.
La idea intuitiva que sustenta este metodo de contraste es simple. Observese
que 0 1 y que cuanto mas cercano a 1 sea el valor de , mas verosmil
es que 0 , mientras que cuanto mas se aleje de 1, mas creble sera la
hipotesis alternativa 1 .

Ejemplo 70
Sea X1 , . . . , Xn muestra aleatoria simple de X N (, 2 ), y 2 desconocidos:
el parametro es = (, 2 ). Se desea contrastar

H0 : = 0
H1 : 6= 0
La verosimilitud es:

2 n/2

L(| x ) = (2 )
e

n
2 X
exp 2
(xi )2
2 i=1

)
.

El estimador de maxima verosimilitud (MV) bajo H0 es = (0 ,


2 ), donde
n

2 =

1X
(xi 0 )2
n i=1

y el valor de la verosimilitud en ese punto es


n no
max L(| x ) = (2
2 )n/2 exp
.
0
2
e

DE VEROSIMILITUDES
5.5. TEST DE LA RAZON

159

El estimador MV en general es = (x,


2 ), donde
n

n1 2
1X

=
S =
(xi x)2 ,
n
n i=1
2

y el maximo de la verosimilitud es

n no
max L(| x ) = (2
2 )n/2 exp
.

2
e

Por lo tanto,
Pn
n/2
(xi 0 )2
i=1
= ( x ) =
= Pn
=
2
e
i=1 (xi x)
Pn

n/2
2
2 n/2
t2
i x) + n(x 0 )
i=1 (x
P
=
1
+
,
n
2
n1
i=1 (xi x)

H
donde t = n(x 0 )/S 0 . Por lo tanto, el estadstico es decreciente en |t|.

n/2

La prueba de razon de verosimilitudes rechaza H0 si < A para alg


un A, lo
cual ocurrira si y solo si |t| > B para alg
un B. Por lo tanto, la prueba de razon
de verosimilitudes rechaza H0 si
|x 0 |
>B
S/ n
y B se elige para que el tama
no del test sea . Por lo tanto, este test coincide
con el test t bilateral clasico en el muestreo de la normal.
.
.

5.5.1.

Relaci
on con el Lema de Neyman-Pearson.

Cuando H0 y H1 son hipotesis simples, el estadstico ( x ) vale lo siguiente:


e
(
)
L(0 | x )
L(0 | x )
e
e
( x ) =
= mn 1,
.
e
max{L(0 | x ), L(1 | x )}
L(1 | x )
e
e
e
El test que rechaza H0 cuando A tiene la misma region crtica (y, por tanto,
es el mismo contraste) que el que la rechaza cuando L(1 | x )/L(0 | x ) (1/A),
e
e
que es la region crtica dada por el test de Neyman-Pearson.
La u
nica distorsion es que no se pueden construir pruebas de la razon de
verosimilitudes con niveles (1 p, 1), donde p es
!

L(0 | x )
e > 1 H0 ,
p=P

L(1 | x )
e
ya que si rechazamos H0 cuando ( x ) A < 1, entonces
!e
!

L(0 | x )
L(0 | x )

e A H0 P
e 1 H0 = 1 p
=P

L(1 | x )
L(1 | x )
e
e
y si tomamos A = 1 entonces el tama
no es = 1.


CAPITULO 5. CONTRASTES DE HIPOTESIS

160

5.5.2.

Propiedades de los contrastes de raz


on de verosimilitudes

El estadstico ( x ) del test de la razon de verosimilitudes depende de x


e
e
solo a traves del estadstico minimal suficiente para . Las propiedades de estos
contrastes para muestras peque
nas dependen de la modelizacion parametrica
concreta de que se trate. La siguiente es una propiedad com
un a todos los
contrastes de razon de verosimilitudes:
Si H0 es simple y existe una prueba UMP para contrastar H0 frente a
H1 , entonces el test de razon de verosimilitudes coincide con el test UMP.
(Vease Garthwaite, Jollife y Jones 1995, pagina 84, y las referencias all citadas para una demostracion de esta propiedad.)
Muchas de las propiedades asintoticas de los contrastes de la razon de verosimilitudes son comunes a todos ellos. Citemos las siguientes:
Bajo las condiciones de regularidad que garantizan que el estimador de
maxima verosimilitud es consistente, se tiene que el test de razon de verosimilitudes es un test consistente. (Vease Cristobal 1992, pagina 589).
El test razon de verosimilitudes es asintoticamente la prueba insesgada
mas potente. (Vease Garthwaite, Jollife y Jones 1995, pagina 84.)
El test razon de verosimilitudes es asintoticamente eficiente, en el sentido
de la eficiencia relativa asintotica definida al final de la seccion 5.3. (Vease
Garthwaite, Jollife y Jones 1995, pagina 85.)
Probaremos el siguiente resultado asintotico, que es u
til para determinar el
valor crtico A de la definicion del test de la razon de verosimilitudes.
Teorema 44 Sea X1 , . . . , Xn muestra aleatoria simple de X, variable aleatoria
con funci
on de densidad (o de probabilidad) f (x|) para alg
un . Se desea
hacer el contraste

H0 : 0
H1 : 1
donde = 0 1 y 0 1 = . Bajo las condiciones H1, H2, C1, C2, C3,
C4, C5 y C6 de los teoremas 37, 38 y 39 sobre el comportamiento asint
otico
del estimador MV (esas hip
otesis aseguran la existencia y continuidad de las
derivadas respecto al par
ametro de la funci
on de verosimilitud, y que el soporte
de las distribuciones no depende del par
ametro) se tiene que el estadstico
Qn = 2 log ( X n ) n 2d
e
bajo la hip
otesis nula, donde d = dim() dim(0 ).

DE VEROSIMILITUDES
5.5. TEST DE LA RAZON

161

Demostraci
on: Haremos la prueba para el caso dim() = 1, dim(0 ) = 0
(luego d = 1). Para el caso general, puede verse, por ejemplo, Cristobal (1992),
Teorema 1.2, pagina 596.
Consideramos el modelo X f {f : IR} y el contraste

H0 : = 0
H1 : 6= 0
As, d = 1 0 = 1. Observese que

Qn = 2 log ( X n ) = 2 log L(n | x n ) log L(0 | x n ) ,


e
e
e
donde n es el estimador maximo verosmil de . Desarrollamos l (0 | x n ) =
e
log L(0 | x n ) en serie de Taylor alrededor de n :
e
2
x n)
l (n | x n )
1 l (|
e (0 n )2
e (0 n ) +
l (0 | x n ) = l (n | x n ) +

2
2
e
e
donde es un valor entre n y 0 .
As,

x n)
l (n | x n )

1 l (|
e (0 n )2
e (0 n )
Qn = 2

=
2
2

|
{z
}
2

=0

x n)
2 l (|
e (0 n )2 .
2

En el teorema 39 se probo que el estimador maximo verosmil n es consistente.


Como ademas | 0 | |n 0 | se tendra que bajo H0
P
H0 0 .
En el teorema 39 se probo que bajo H0
2
x n)
1 l (|
e

P IX (0 ),
n
2

y que

n(n 0 ) D N (0, 1T overIX (0 )) ,

De donde se sigue, por el Teorema de Slutzky, que


Qn =

2
x n )
2
1 l (|
n 0 ) D 2 .
e
n(

1
n
2

2
El calculo de d, la diferencia entre las dimensiones de y 0 , suele hacerse
como
d = 1 0 ,


CAPITULO 5. CONTRASTES DE HIPOTESIS

162

donde i es el n
umero de parametros estimados bajo Hi menos las restricciones
que relacionan unos parametros con otros, para i = 1, 2.

Ejemplo 71
P5
Modelos log-lineales. Sea = {(p1 , p2 , p3 , p4 , p5 ) IR5 :
j=1 pj =
1, y pj 0, j = 1, . . . , 5}. Sean X1 , . . . , Xn variables aleatorias discretas independientes e identicamente distribuidas tales que
P (Xi = j) = pj = f (j|)
es la funcion de probabilidad de Xi . La verosimilitud asociada a una muestra
de tama
no n es
n
Y
L(| x ) =
f (xi |) = py11 py22 py33 py44 py55
e
i=1

donde yj = #{xi , i = 1, . . . , n : xi = j}, j = 1, . . . , 5.


Se desea contrastar

H0 : p1 = p2 = p3 , p4 = p5
H1 : H0 es falsa

El espacio parametrico tiene dimension 4, porque los parametros tienen una


P5
ligadura lineal: j=1 pj = 1.
Para definir 0 , observemos que bajo H0 se cumple que p1 + p2 + p3 =
3p1 1, luego 0 p1 1/3. Ademas, como los pj deben sumar 1, se tiene que
3p1 + 2p4 = 1, luego p4 = (1 3p1 )/2. As, 0 es
0 = {(p1 , p1 , p1 , p4 , p4 ) : 0 p1 1/3, y p4 = (1 3p1 )/2}
luego 0 tiene dimension 1. As d = dim() dim(0 ) = 4 1 = 3.
Es sencillo verificar que el EMV global de pj es pj = yj /n. Calculemos ahora
el EMV bajo H0 . La verosimilitud es

L(p1 | x ) =
e

p1y1 +y2 +y3

1 3p1
2

y4 +y5

de donde se sigue que el EMV de p1 bajo H0 es


p10 =

y1 + y2 + y3
,
3n

que
p20 = p30 = p10 =
y que
p40 = p50 =

y1 + y2 + y3
3n

1 3
p10
y4 + y5
=
.
2
2


5.6. CONTRASTES RELACIONADOS CON EL DE MAXIMA
VEROSIMILITUD163
El estadstico ( x ) es entonces
e
( x ) =
e

y1 + y2 + y3
3y1

y1

y4 +y5
13p10
2
p1 y1 p2 y2 p3 y3 p4 y4 p5 y5

y1 +y2 +y3
p10

y1 + y2 + y3
3y2

y2

y1 + y2 + y3
3y3

y3

y4 + y5
2y4

y4

y4 + y5
2y5

y5

El estadstico Qn = 2 log ( x ) es
e

5
X
yj
Qn = 2 log ( x ) = 2
yj log
,
mj
e
j=1
donde yj = n
pj , j = 1, . . . , 5, son las estimaciones de las frecuencias en cada una
de las categoras j = 1, . . . , 5 y mj = n
pj0 , j = 1, . . . , 5 son las estimaciones bajo
la hipotesis nula. El test de razon de verosimilitudes rechaza H0 si 2 log ( x )
e
23, .
Este es un ejemplo de una familia de modelos conocidos como modelos loglineales. En esta familia el estadstico Qn del test de razon de verosimilitudes
tiene siempre la forma que acabamos de ver.
.
.

5.6.

Contrastes relacionados con el de m


axima
verosimilitud

El contraste basado en la razon de verosimilitudes no es el u


nico procedimiento general para realizar contrastes de hipotesis. En esta seccion veremos
otros dos metodos validos para contrastar una hipotesis nula simple frente a
una alternativa compuesta.
Sea X1 , . . . , Xn una muestra aleatoria simple de X f
Se desea contrastar

5.6.1.

H0 : =
e
H1 : =
6
e

, Rk .
e

0
0

Test del score.

Cuando en la seccion 5.3 buscabamos procedimientos localmente mas potentes, llegamos a un test basado en la funcion score:
Sn (; x n ) =
e

log L(; x n )
e


CAPITULO 5. CONTRASTES DE HIPOTESIS

164
si IR, o

Sn ( ; x n ) =
e e

log L( ; x n )
log L( ; x n )
e e ,...,
e e
1
k

!t

si = (1 , . . . , k ) IRk .
e
Para contrastar H0 : = 0 frente a H1 : 6= 0 se propone el
e
e
e
e
estadstico
S
t
1
Tn = (Sn ( 0 ; x n )) (In ( 0 )) Sn ( 0 ; x n ),
e e
e
e e
que, bajo H0 y suponiendo que se cumplen las condiciones habituales de regularidad, se distribuye asintoticamente como una 2k dado que
Sn ( ; x n ) Nk (0, In ( 0 )).
e e
e
Para el caso k = 1 se tiene que bajo H0

!2
log L(; x n )
1
S
e
21 .
Tn = (In ( 0 ))

e
El test del score rechaza H0 si TnS ( x n ) > 2k, .
e
Cualquier estimador consistente de la matriz de informacion asintotica podra
ser usado en lugar de In (0 ). Por ejemplo, pueden usarse la informacion observada On que se definio en el teorema 40.
Los tests del score se conocen en econometra como tests de los multiplicadores de Lagrange.

5.6.2.

Test de Wald.

El contraste de H0 : = 0 frente a H1 : 6= 0 puede basarse tambien


e
e
e
e
en alguna distancia entre 0 y el estimador de maxima verosimilitud de ,
e
e
. Dado que bajo H la distribucion aproximada de es
0
en
en
N ( , (I ( ))1 ),
k
0
n
0
en
e
e
el estadstico
Wn = ( 0 )t In ( 0 )( 0 )
en
e
e
en
e

mide la distancia de Mahalanobish entre 0 y . El test de Wald se basa


e
en
en este estadstico. Bajo H0 ,
Wn 2k .
Se rechaza H0 si Wn ( x n ) > 2k, .
e
Aqu, al igual que ocurra con el test del score, la matriz In ( 0 ) puede
e
ser sustituida por otro estimador consistente de la matriz de informacion. Por

ejemplo, puede usarse In ( ) o la matriz de informacion observada On .


en


5.6. CONTRASTES RELACIONADOS CON EL DE MAXIMA
VEROSIMILITUD165
Observese que para calcular el estadstico Wn solo es necesario calcular el
estimador maximo verosmil global. Por este motivo se le llama a veces test
xima verosimilitud.
de la ma
Observese que la expresion del test de la razon de verosimilitudes es completamente diferente de las expresiones de los test del score o de Wald. Sin
embargo, es facil ver (usando desarrollos de Taylor) que los tres contrastes son
asintoticamente equivalentes en el sentido siguiente:
TnS + 2 log ( x n ) P 0, Wn + 2 log ( x n ) P 0.
e
e
En muestras finitas los tres tests pueden presentar diferencias.

Ejemplo 72
En un experimento de Bernoulli con probabilidad de exito p que se repite n
veces, se llama X al n
umero de exitos observados: X B(n, p). Se trata de
contrastar las hipotesis

H0 : p = p 0
H1 : p 6= p0
mediante los contrastes de la razon de verosimilitudes, del score y de Wald.
Calculamos el logaritmo de la verosimilitud,

n
l (p, x ) = log
+ x log p + (n x) log(1 p),
x
e
y sus primeras derivadas respecto al parametro,
l (p, x )
x nx
x np
e =
=
,
p
p
1p
p(1 p)
2 l (p, x )
x
nx
x(2p 1) np2
e
=

+
=
.
p2
p2
(1 p)2
p2 (1 p)2
As, el EMV es
p =

x
.
n

y la informacion de Fisher es

In (p) = E

2 l (p, x )
e

p2

!
=

n
.
p(1 p)

El estadstico del test del score es

TnS = (In (p0 ))1


p0 (1 p0 )
n

l (p, x )
e

x np0
p0 (1 p0 )

2
=

!2
=

(x np0 )2
,
np0 (1 p0 )


CAPITULO 5. CONTRASTES DE HIPOTESIS

166
y el del test de Wald

Wn = (
p p0 )2

n
(x np0 )2
=
.
p(1 p)
n
p(1 p)

Por su parte, el estadstico del test de la razon de verosimilitudes es


(x) =

maxp=p0 L(p|x)
L(p0 |x)
=
,
maxp(0,1) L(p|x)
L(
p|x)

y
Qn = 2 log (x) = 2 (log L(
p|x) log L(p0 |x)) = 2 (l (
p|x) l (p0 |x)) =
2 (x log p + (n x) log(1 p) x log p0 (n x) log(1 p0 )) =
2x (log p log(1 p) log p0 + log(1 p0 )) + 2n (log(1 p) log(1 p0 )) =
2x log

1 p0
p0
1 p0
2x log
2 log
.
1 p
p
1 p

Desarrollando la funcion log en serie de Taylor hasta el orden 2 alrededor del 1,


se obtiene que la expresion aproximada de Qn coincide con Wn .
.
.

5.6.3.

Contrastes en presencia de par


ametros secundarios.

Acabamos de ver dos metodos generales (el test del score y el test de Wald)
para construir contrastes cuando la hipotesis nula es simple. Hemos visto que
estan relacionados con el contraste de la razon de verosimilitudes. Sin embargo
este u
ltimo test es aplicable aun cuando la hipotesis nula sea compuesta.
Veremos ahora que los tests del score y de Wald tambien pueden aplicarse
aunque no todos los parametros del modelo queden fijados en la hipotesis nula.
metros
Aquellos parametros a los que H0 no hace referencia se denominan para
metros nuisance, en ingles.
secundarios o para
Suponemos que el vector de parametros puede subdividirse en dos subconjuntos, t = (t , t ), con dimension de igual a p < k, y que se desean
contrastar las hipotesis

H0 : = 0
H1 : 6= 0
Sea (
n , n ) el EMV de (, ) construido a partir de una muestra de tama
no
n. Entonces se tiene que

1
.
Nk
, (In (, ))

n
Se trata ahora de derivar contrastes basados en la distribucion asintotica de

n(
n ).


5.6. CONTRASTES RELACIONADOS CON EL DE MAXIMA
VEROSIMILITUD167
Escribimos la matriz de informacion de Fisher en bloques,

In, (, ) In, (, )
In (, ) =
In, (, ) In, (, )
de forma que In, (, ) es la matriz de varianzas-covarianzas de las componentes de la funcion score. Afirmaciones analogas son ciertas para los restantes
bloques. Observese que In, (, ) = In, (, )t . Para facilitar la notacion,
llamaremos Iij al bloque (i, j) de In (, ), para i = 1, 2 y j = 1, 2.
Invertimos la matriz In (, ) mediante las formulas de una matriz dividida
en bloques y obtenemos que el bloque correspondiente a la varianza de
n es

1
1
I11 I12 I22
I21
.
n sobre ajustada despue
s de haber estiAs, definimos la informacio
mado como el inverso de esa matriz:
1
In,| (, ) = I11 I12 I22
I21 .

La distribucion marginal aproximada de


n es

1

n Np , In,| (, )
.
El estadstico del test de Wald es
W n = (
n 0 ) In,| (
n , n ) (
n 0 ) ,
t

que bajo H0 tiene distribucion aproximada 2p . Se rechazara H0 a nivel (0, 1)


si Wn > 2p, .
Vamos ahora a deducir la expresion del test del score apropiado para
esta situacion. Se estima mediante 0 , el EMV de calculado suponiendo que
= 0 , es decir, resolviendo en el sistema de ecuaciones Sn, (0 , ) = 0. De
las propiedades usuales de los estimadores maximo verosmiles se deduce que
bajo H0

Sn, (0 , 0 ) Np 0, In,| (0 , ) .
Por tanto, el estadstico del test del score es

1
TnS = [Sn, (0 , 0 )]t In,| (0 , 0 )
[Sn, (0 , 0 )]
que bajo H0 es aproximadamente 2p (de hecho, es asintoticamente equivalente
a Wn ). Se rechazara H0 a nivel (0, 1) si TnS > 2p, .
n de verosimilitudes hay que ajustar
Para deducir la prueba de la razo
tanto el modelo global como el reducido:
Qn = 2 log ( x n ) = 2[l (
n , n ) l (0 , 0 )],
e
que bajo H0 es aproximadamente 2p y asintoticamente equivalente a Wn y a
TnS .


CAPITULO 5. CONTRASTES DE HIPOTESIS

168

Ejemplo 73
Modelo de regresi
on exponencial. Supongamos que en n individuos independientes se mide el valor de una covariable xi y el de una variable respuesta
Yi . Supongamos que las variables aleatorias Yi son exponenciales con tasa de
fallo 1/E[Yi ] = exp( + xi ), donde , IR.
Interesa saber si la covariable esta asociada con la respuesta, as que se
plantea el contraste

H0 : = 0
H1 : 6= 0
Buscaremos el test de Wald, el del score y el de maxima verosimilitud. Calculamos la verosimilitud:
L(, |(yi , xi ), 1 i n) =

n
Y

exp( + xi ) exp(yi exp( + xi )) =

i=1

l (, |(yi , xi ), 1 i n) =

n
X

{ + xi yi exp( + xi )} =

i=1

n +

n
X

xi

i=1

n
X

yi exp( + xi )

i=1

Calculamos las funciones score:


S (, ) =

n
X
l
=n
yi exp( + xi ),

i=1

n
n
X
X
l
S (, ) =
=
xi
yi xi exp( + xi ).

i=1
i=1

Los componentes de la matriz de informacion observada vienen dados por las


derivadas de los scores:
n

X
l
yi exp( + xi ),
2 =

i=1
2

X
2l
=
yi xi exp( + xi ),

i=1
n

X
2l
=
yi x2i exp( + xi ).
2
i=1

Como E(Yi ) = 1/ exp( + xi ) para cada i, tomando esperanzas de las expresiones anteriores se obtiene la matriz de informacion:

Pn
n
x
Pn
Pni=1 2i
In (, ) =
i=1 xi
i=1 xi
La informacion para ajustada por es
1
I| = I I I
I =

n
X

n
n
X
X
1
x2i (
xi )2 =
(xi x)2
n
i=1
i=1
i=1


5.6. CONTRASTES RELACIONADOS CON EL DE MAXIMA
VEROSIMILITUD169
El estimador de maxima verosimilitud conjunto (
n , n ) se calcula resolviendo numericamente el sistema de ecuaciones

Pn
S (, ) = 0
n = i=1 yi exp( + xi )
Pn
Pn

S (, ) = 0
i=1 xi =
i=1 xi yi exp( + xi )
Por su parte, el estimador de maxima verosimilitud de bajo la hipotesis nula
de que = 0 puede calcularse explcitamente, pues en ese caso Yi son una m.a.s.
de Y exp(exp()), y sabemos que en este caso el EMV es

0 = log(n/

n
X

yi ).

i=1

Sea 0 = 0. Ahora tenemos todas los elementos necesarios para calcular los
estadsticos de los trest contrastes:
Test de Wald.
Wn = (n 0 )t I| (n 0 ) = n2

n
X

H0

(xi x)2 21 .

i=1

Test del score. El score calculado en el EMV bajo H0 es


S (
0 , 0) =

n
X

xi

i=1

n
X

n
yi xi Pn
i=1

i=1

yi

yi
xi 1
y
i=1

n
X

y tiene varianza aproximadamente igual a


I| =

n
X

(xi x)2 ,

i=1

as que

yi
x
1

i=1 i
y
S (
, 0)
p 0
= pPn
H0 N (0, 1),
2
I|
i=1 (xi x)
Pn

luego

TnS

!2 X
n
H0
yi
xi 1
(xi x)2 21 .
y
i=1
i=1

n
X

Test de la raz
on de verosimilitudes.
2 log =
"
2 n
n + n

n
X
i=1

xi

n
X

yi exp(
n + n xi ) n log(n/

i=1

n
X

#
yi ) n

i=1

que bajo H0 es aproximadamente 21 .


CAPITULO 5. CONTRASTES DE HIPOTESIS

170

5.7.

Contrastes bayesianos

El enfoque bayesiano de los contrastes de hipotesis es conceptualmente diferente del enfoque frecuentista que hemos desarrollado hasta ahora. Sean H0 y
H1 las hipotesis que se van a contrastar, que en un modelo parametrico seran
afirmaciones sobre el parametro de la forma 0 y 6 0 , respectivamente.
En un marco frecuentista las hipotesis son siempre ciertas o estrictamente
falsas, dado que si 0 entonces H0 es cierta y por tanto
P (H0 es cierta|x) = 1 para todo x, y P (H1 es cierta|x) = 0 para todo x,
mientras que si 6 0 esas probabilidades son, respectivamente, 0 y 1 sea cual
sea el valor de x observado.
En un marco bayesiano, sin embargo, tiene perfecto sentido hablar de
P (H0 es cierta|x) y P (H1 es cierta|x),
las probabilidades de que cada una de las hipotesis sean ciertas despues de haber
observado los datos x. Estas probabilidades proporcionan informacion u
til sobre
la veracidad de H0 y H1 .
Sea X1 , . . . , Xn una muestra aleatoria simple de X f (x|) y una variable
aleatoria con funcion de densidad (o de probabilidad) a priori (). El contraste
de H0 frente a H1 se basara en la distribucion a posteriori (| x ), donde x es
e
e
la m.a.s. de X observada. El contraste planteado es

H0 : 0
H1 : 1 = c0
Las probabilidades a posteriori de cada una de las hipotesis son
Z
P (H0 es cierta| x ) = P ( 0 | x ) =
(| x )d,
e
e
e
0
Z
P (H1 es cierta| x ) = P ( 1 | x ) =
(| x )d.
e
e
e
1
El procedimiento para aceptar o rechazar H0 podra ser, por ejemplo, rechazar H0 si
P ( 0 | x ) < P ( 1 | x )
e
e
y aceptarla en caso contrario. Con la terminologa introducida en las secciones
anteriores, el estadstico del contraste sera
T ( X ) = P ( 6 0 | X )
e
e
y la region crtica
{ x : P ( 6 0 | x ) > 1/2}.
e
e
Un procedimiento mas conservador consiste en rechazar H0 solo si la probabilidad de que sea falsa, dados los datos x , es mayor que c > 1/2 (por ejemplo,
e
puede tomarse c = 0,95 o c = 0,99).

5.7. CONTRASTES BAYESIANOS

171

Ejemplo 74
Sea X1 , . . . , Xn m.a.s. de X N (, 2 ), con 2 conocida. La distribucion a
priori de es N (, 2 ), con y 2 conocidos. Contrastamos

H0 : 0
H1 : > 0

Tal como se vio en la seccion 3.3, la distribucion a posteriori de es N (p , p2 ),


donde
2 2
n 2 x + 2
,

=
.
p =
p
n 2 + 2
n 2 + 2
Rechazar H0 si y solo si
P ( 0 | x ) < P ( 1 | x ),
e
e
es equivalente a hacerlo si y solo si
1
P ( 0 | x ) < ,
2
e
y como (| x ) es simetrica y centrada en p , esto es cierto si y solo si
e
p =

n 2 x + 2
2 (0 )
> 0 x > 0 +
.
2
2
n +
n 2
.

5.7.1.

Ventaja a priori y a posteriori. Factor de Bayes

En el marco de la inferencia bayesiana, la forma de proceder es determinar


la ventaja a posteriori de H0 (en ingles, posterior odds),
Q =

P (H0 | x )
e
P (H1 | x )
e

y la conclusion del contraste se expresa diciendo que H0 es Q veces m


as probable
que H1 , dados los datos.
Alternativamente, y dado que P (H0 | x ) + P (H1 | x ) = 1, se tiene que
e
e
1
Q
= P (H0 | x ), y
= P (H1 | x )
1 + Q
1 + Q
e
e
son, respectivamente, las probabilidades a posteriori de que H0 y H1 sean ciertas.
Observese que en el enfoque bayesiano se tratan las dos hipotesis, la nula y la
alternativa, de forma simetrica.


CAPITULO 5. CONTRASTES DE HIPOTESIS

172

Mediante el teorema de Bayes, podemos expresar Q de la forma siguiente:


x |H0 )P (H0 )
e
h( x )
P (H0 | x )
P (H0 ) f ( x |H0 )

e =
e
e
Q =
=
= Q B,
P (H1 ) f ( x |H1 )
P (H1 | x )
f ( x |H1 )P (H1 )
e
e
e
h( x )
e
f(

donde Q = P (H0 )/P (H1 ) es la ventaja a priori de H0 y representa la


creencia del investigador sobre que hipotesis es cierta antes de realizar el experimento, y B = f ( x |H0 )/f ( x |H1 ) es el factor de Bayes, que determina como
e
e
los datos observados han cambiado esas creencias sobre que hipotesis es cierta.
A menudo se impone el valor Q = 1, que no favorece a priori a ninguna de las
dos hipotesis. El interes se centra entonces en el factor de Bayes, pues este valor
es el que determina como los datos modifican las creencias sobre que hipotesis
es cierta.
En general H0 especifica el modelo muestral f0 (x|) y una distribucion a
priori para , mientras que H1 especifica otro modelo parametrico f1 (x|) y
una distribucion a priori sobre . Con esta formulacion, los contrastes bayesianos permiten comparar modelos parametricos diferentes. Por ejemplo, en un
problema de regresion lineal se podran comparar dos conjuntos de regresores
diferentes.
Veremos ahora como se concretan los contrastes bayesianos en tres situaciones en las que el modelo parametrico bajo ambas hipotesis es el mismo: el
contraste de dos hipotesis simples, el de dos compuestas y el de una simple frente
a una compuesta.

5.7.2.

Contraste de dos hip


otesis simples.

Se trata de contrastar

H0 : = 0
H1 : = 1

Dar una distribucion a priori para el parametro consiste en fijar valores para
P (H0 ) y P (H1 ).
En este caso el factor de Bayes es
B=

f ( x |0 )
e
,
f ( x |1 )
e

que es el cociente de verosimilitudes que sirve de estadstico al test derivado del


Lema de Neyman-Pearson.

5.7. CONTRASTES BAYESIANOS

173

Ejemplo 75
Sea X1 , . . . , Xn m.a.s. de X exp(). As,
(

n
X

f ( x |) = exp
xi
e
i=1
y

B=

0
1

exp (1 0 )

n
X

)
xi

i=1

La ventaja a posteriori de H0 es
P (H0 )
Q =
P (H1 )

0
1

(
exp (1 0 )

n
X

)
xi

i=1

5.7.3.

Contraste de dos hip


otesis compuestas.

Se trata de contrastar

H0 : 0
H1 : 1 = c0

Para cada hipotesis se debe determinar una distribucion a priori del parametro
(estas podran coincidir). Sean
0 (|H0 ) y 1 (|H1 ),
la distribuciones a priori de bajo H0 y bajo H1 , respectivamente. As,
Z
Z
f ( x |H0 ) =
f (x, |H0 )d =
f (x|)0 (|H0 )d,
e
0
0
y

Z
f ( x |H1 ) =
e

Z
f (x, |H1 )d =
1

Por lo tanto, el factor de Bayes es


R
B = R0
1

5.7.4.

f (x|)1 (|H1 )d,


1

f (x|)0 (|H0 )d
f (x|)1 (|H1 )d

Contraste de hip
otesis nula simple frente a alternativa compuesta.

Se trata de contrastar

H0 : = 0
H1 : 6= 0


CAPITULO 5. CONTRASTES DE HIPOTESIS

174

Combinando los dos casos anteriores, se tiene que el factor de Bayes es en este
caso
f (x|0 )
B=R
.
f
(x|)
1 (|H1 )d
6=0
Observese que si la distribucion a priori de es absolutamente continua
entonces la probabilidad a posteriori de H0 sera igual a 0, lo cual implica que
Q sera siempre 0, sean cuales sean los datos observados, y H0 sera rechazada
siempre. Sin embargo el factor de Bayes B s es calculable y recoge la informacion
esencial que los datos aportan sobre la veracidad de H0 y H1 . En este caso es
posible establecer a priori un valor para Q y definir Q como el producto de Q
por B.

Ejemplo 76
Sea X1 , . . . , Xn m.a.s. de X Poisson(). Se desea contrastar

H0 : = 0
H1 : 6= 0
La verosimilitud es

Pn
xi
i=1

.
f ( x |) = en Qn
e
i=1 xi !

Se considera la distribucion a priori de bajo H1 como la distribucion conjugada,


una (1 , 2 ):
1
1
1 (|H1 ) =
1 e/2 .
(1 + 1) 21 +1
El numerador del factor de Bayes es f ( x |0 ) y el denominador
e
Z
f (x|)1 (|H1 )d =
6=0

Pn

i=1 xi
1
1
1 /2
en Qn
d =
1 +1 e
(
+
1)
x
!
2
1
6=0
i=1 i
Pn
(1 + i=1 xi + 1)
Pn

Qn
1 +
xi +1
1 +1
i=1
x
!(
+
1)
(n
+
1/
)
i
1
2
2
i=1
Pn
Pn
Z
1 +
xi +1 1 +
xi (n+1/2 )
i=1
i=1
(n + 1/2 )

e
Pn
d =
(1 + i=1 xi + 1)
0
Pn
(1 + i=1 xi + 1)
Pn
.
Qn
21 +1 i=1 xi !(1 + 1)(n + 1/2 )1 + i=1 xi +1
As,

Pn
e
B=
Qn
1 +1

i=1

n0 Q
0

(1 +

i=1
n

Pn i=1
i=1

xi

xi !

xi +1)
1 +

xi !(1 +1)(n+1/2 )

Pn
i=1

xi +1

5.7. CONTRASTES BAYESIANOS

175

Pn
Pn
xi
21 +1 en0 0 i=1 (1 + 1)(n + 1/2 )1 + i=1 xi +1
Pn
.
(1 + i=1 xi + 1)

Supongamos que se observan seis datos,


x1 = 3, x2 = 1, x3 = 6, x4 = 2, x5 = 5, x6 = 2,
de donde

xi = 19, y que se quieren contrastar

H0 : = 2
H1 : 6= 2

con
1 (|1 ) (1 = 2,6, 2 = 1/0,6).
La esperanza y la varianza a priori son, respectivamente,
E=

2,6 + 1
2,6 + 1
= 6, V =
= 10.
0,6
0,62

As, el factor de bayes es

B=

219 e62 (2,6 + 1)(6 + 0,6)2,6+19+1


= 0,77.
0,62,6+1 (2,6 + 19 + 1)

Supongamos que la ventaja a priori de H0 es Q = 0,5. Entonces, la ventaja a


posteriori es
Q = Q B = 0,5 0,77 = 0,385
y se concluira que H1 es la hipotesis cierta.
Supongamos que la distribucion a priori tuviese parametros 1 = 35 y 2 =
1/6. Entonces E = 6 y V = 1. En este caso se llegara a que
B = 3,16 y Q = 1,58,
luego se seguira que H0 es la hipotesis correcta. El siguiente grafico ilustra las
diferencias entre las dos situcaiones que acabamos de considerar.


CAPITULO 5. CONTRASTES DE HIPOTESIS

176

Distribuciones a priori
0.5

0.45

0.4

0.35
p(|H1,1=35, 2=6)

p(|H1)

0.3

0.25

0.2

0.15
p(|H1,1=2.6, 2=0.6)

0.1

0.05

Media de x ,...,x 5
1
n

10

15

En el contraste de una hipotesis nula simple frente a una alternativa compuesta el factor de bayes puede calcularse de un modo alternativo, tal y como
especifica por el siguiente teorema.
Teorema 45 Si f (x|) es continua en = 0 , entonces
B = lm

(| x , H1 )
e
(|H1 )

donde (| x , H1 ) es la densidad a posteriori de y (|H1 ) es la a priori.


e
Demostraci
on: Por la hipotesis de continuidad se tiene que
f ( x |H0 ) = lm f ( x |, H1 ).
0
e
e
Como f ( x |, H1 ) = f ( x |H1 )(| x , H1 )/(|H1 ), se tiene que
e
e
e
f ( x |H0 ) = f ( x |H1 ) lm
0
e
e

(| x , H1 )
(| x , H1 )
f ( x |H0 )
e
e
e
= lm
= B =
.

(|H1 )
(|H1 )
0
f ( x |H1 )
e
2

5.8. LISTA DE PROBLEMAS

5.8.

177

Lista de problemas

Definiciones b
asicas. Contrastes m
as potentes
1. (Garthwaite, Jollife y Jones 1995, 4.1) Utiliza el Lema de Neyman-Pearson
para encontrar la region crtica del test mas potente para contrastar H0
frente a H1 en las siguientes situaciones.
a) X1 , . . . , Xn es m.a.s. de X Poisson(). H0 : = 0 , H1 : = 1 ,
1 > 0 .
b) X1 , . . . , Xn es m.a.s. de X exp(), con = E(X)1 . H0 : = 0 ,
H1 : = 1 , 1 > 0 .
c) X1 , . . . , Xn es m.a.s. de X N (, 2 ), Y1 , . . . , Ym es m.a.s. de Y
N (, 2 ), las dos muestras son independientes y 2 y 2 son conocidas.
H0 : = , H1 : = + , > 0, y conocidos.
2. (Garthwaite, Jollife y Jones 1995, 4.2) En el u
ltimo apartado del ejercicio
2
2
anterior, supongamos que = = = 1, que n = m y que hacemos el
contraste optimo a nivel = 0,01.
a) Calcula la potencia del test si n = 10.
b) Calcula el menor valor de n tal que la potencia sea mayor o igual que
0,95.
3. (Garthwaite, Jollife y Jones 1995, 4.3) Sea X1 , . . . , Xn una m.a.s. de una
distribucion gamma de parametros (3, ) con densidad
f (x; ) =

1 2 x/
x e
I(0,) (x).
23

a) Encuentra el test mas potente para contrastar H0 : = 0 frente a


H1 : = 1 , donde 1 > 0 .
b) Utiliza los resultados obtenidos para dar el test uniformemente mas
potente para contrastar H0 frente a H10 : > 0 .
4. (Garthwaite, Jollife y Jones 1995, 4.5) Sea X1 , . . . , Xn una m.a.s. de una
distribucion lognormal de parametros (, 1). Prueba que existe un test
uniformemente mas potente para contrastar H0 : = 0 frente a H1 : >
0 e indica que forma tiene.
5. (Garthwaite, Jollife y Jones 1995, 4.7) Sea X1 , . . . , Xn una m.a.s. de una
variable aleatoria X. Se considera el contraste

H0 : X U (0, 1)
H1 : X f (x; ) = ex /(e 1), 0 x 1, > 0, desconocido
Prueba que hay un test uniformemente mas potente y da la region crtica
aproximada para n suficientemente grande.


CAPITULO 5. CONTRASTES DE HIPOTESIS

178

6. (Garthwaite, Jollife y Jones 1995, 4.12) Sea X f (x), una funcion de


densidad desconocida. Se toma una muestra de tama
no n para contrastar
H0 : f (x) = f0 (x) frente a H1 : f (x) = f1 (x), donde f0 y f1 son densidades
conocidas con el mismo soporte.
a) Considera las densidades de la forma f0 (x) + (1 )f1 (x), [0, 1],
para expresar H0 y H1 como hipotesis parametricas.
b) Considera

x2
1
1
f0 (x) = e 2 , f1 (x) = e|x| ,
2
2
y prueba que entonces la region crtica del test mas potente para
contrastar H0 frente a H1 es de la forma

R = { x IRn :
e

n
X

(|xi | 1)2 k}

i=1

para alg
un k.
c) Eval
ua esa region crtica para n = 1 y k = 1. Es el test insesgado?
d ) Eval
ua esa region crtica para n = 1 y k = 1/4.Es el test insesgado?

Contrastes de la raz
on de verosimilitudes, scores y Wald
7. Sea X1 , . . . , Xn una m.a.s. de X N (, 2 ) con ambos parametros desconocidos.
a) Considera el contraste

H0 : = 0
H1 : 6= 0

Comprueba que el test de la razon de verosimilitudes conduce al test


t usual, que tiene region crtica

n(x 0 )
n
R = { x IR : tn1,/2
tn1,/2 }c ,
S
e
donde Ac denota el complementario del conjunto A.
b) Considera el contraste

H0 : 2 = 02
H1 : 2 6= 02

Comprueba que el test de la razon de verosimilitudes tiene region


crtica
(n 1)S 2
R = { x IRn : C1
C2 }c ,
02
e
para constantes C1 y C2 elegidas convenientemente.

5.8. LISTA DE PROBLEMAS

179

8. Sea X1 , . . . , Xn m.a.s. de X N (, 2 ) y Y1 , . . . , Ym m.a.s. de Y


N (, 2 ). Las dos muestras son independientes. Los cuatro parametros
son desconocidos.
a) Suponiendo que 2 = 2 , comprueba que el test de la razon de verosimilitudes para contrastar

H0 : =
H1 : 6=

conduce al contraste usual para la diferencia de medias.


b) Da la region crtica del test de la razon de verosimilitudes para contrastar

H0 : 2 = 2
H1 : 2 6= 2
c) En el caso especial de n = m, comprueba que el test anterior se
reduce al test F usual para contrastar igualdad de varianzas.
9. Sean dos muestras independientes, X1 , . . . , Xm m.a.s. de X Exp(1 ), e
Y1 , . . . , Yn m.a.s. de Y Exp(2 ) (los parametros son las inversas de las
esperanzas). Sean X m e Y n las respectivas medias muestrales. Consideramos el test

H0 : 1 = 2
H1 : 1 < 2
a) Probar que bajo H0
Xm
F2m,2n
Yn
(indicaci
on: Probar que si X es exponencial con esperanza 2, entonces X es tambien 2 con dos grados de libertad. Probar que si X e Y
son variables aleatorias independientes e identicamente distribuides
seg
un una Exp(), entonces (X/Y ) F2,2 ).
b) Probar que la region crtica del test de la razon de verosimilitudes para contrastar H0 frenta a H1 puede expresarse en funcion del cociente
X m /Y n y de cuantiles de una distribucion F con grados de libertad
convenientes.
c) Los siguientes datos corresponden a tiempos de llegada a un incidente
de dos servicios de urgencia: guardia urbana y bomberos.
Tiempo (minutos) de llegada de
la guardia urbana a un accidente
de trafico urbano
Tiempo (minutos) de llegada de
los bomberos a un incendio en el
casco urbano.

2,65 2,98 5,61 6,61 2,50 0,65 3,74


1,12 5,34 0,40 1,93 4,87
6,89 3,48 4,91 5,04 9,17 2,20 1,05
6,09


CAPITULO 5. CONTRASTES DE HIPOTESIS

180

Se supone que los tiempos de llegada se distribuyen seg


un una ley
exponencial. Usar el test de razon de verosimilitudes para contrastar
si los tiempos medios de llegada de ambos servicios son iguales frente
a que la guardia urbana llega en promedio antes que los bomberos.
Hacerlo a un nivel de significacion = 0,05.
10. Se toma una muestra de tama
no n de una variable aleatoria Poisson()
para contrasrtar H0 : = 0 frente a H1 : 6= 0 . Encontrar el estadstico
de los siguientes tests.
a) Test de razon de verosimilitudes.
b) Test del score.
c) Test de Wald.
11. (Examen junio 2000) Cuando las muertes a causa de una enfermedad rara,
pero no contagiosa, suceden aleatoria y uniformemente en una poblacion,
el n
umero de muertes en una region con poblacion igual a P (es decir, con
un n
umero de habitantes igual a P ) se modela con una ley de Poisson de
media P , [0, 1].
a) Suponemos que el n
umero de muertes observadas en n regiones con
poblaciones P1 , P2 , . . . , Pn son Y1 , Y2 , . . . , Yn . Deriva una expresion
para el estimador de maxima verosimilitud de . Llamalo
.
La siguiente tabla da el n
umero de muertos por cancer de hgado (el cancer
de hgado se puede considerar una enfermedad rara) durante 4 a
nos en las
regiones de Ontario (Canada).
Regionses
Region 1
Region 2
Region 3
Region 4
Region 5
Region 6
Region 7
Region 8
Region 9
Region 10

Pi
423.447
175.685
1.245.379
413.465
216.476
242.810
213.591
166.045
265.880
116.371

Muertes
37
11
72
40
12
14
16
9
15
12

b) Encuentra
para estos datos y calcula el n
umero de muertes esperadas en cada region.
c) Supongamos ahora que Y1 , Y2 , . . . , Yn son variables aleatorias de Poisson de medias 1 , 2 , . . . , n y sean P1 , P2 , . . . , Pn constantes positivas conocidas. Considera la hipotesis:
H0 : 1 = P1 , 2 = P2 , . . . , n = Pn

5.8. LISTA DE PROBLEMAS

181

donde es desconocido. Demuestra que el estadstico del test de la


razon de verosimilitudes para contrastar esta hipotesis es
2 log = 2

n
X

i)
Yi log(Yi /

i=1

i =
donde
Pi y
es el estimador de maxima verosimilitud encontrado en el apartado (a).
d ) Aplica este u
ltimo resultado para concluir si las tasas de muerte (proporcion de muertos en cada poblacion) de las 10 regions son proporcionales a las poblaciones de las regiones.
12. (Examen julio 2000) Sea X v.a. con densidad
f (x; ) =

I[1,) (x), > 0.


x+1

a) Prueba que Y = log X Exp() (donde es 1/E(Y )).


b) Se observa una muestra de tama
no n de X. Contrasta a nivel

H0 : = 1
H1 : 6= 1

usando el test de la razon de verosimilitudes, el test de Wald y el test


del score.
c) Aplica los tests anteriores para = 0,05 al caso de haber observado
los siguientes datos:
2,2263, 1,6464, 1,1788, 1,5014, 3,1677,
1,3762, 5,0698, 1,7471, 1,8849, 16,0879
(Suma de los datos= 35.8865; producto de los datos= 7595.66).

Contrastes bayesianos
13. (Garthwaite, Jollife y Jones 1995, 7.8) Sea X B(n, ), con n conocido.
Una de las dos hipotesis siguientes es cierta:
H0 : =

1
3
o H1 : = .
2
4

Prueba que la probabilidad a posteriori de que H0 sea cierta es mayor que


su probabilidad a priori si y solo si x log 3 < n log 2.
14. (Garthwaite, Jollife y Jones 1995, 7.9) Sea X1 , . . . , Xn una m.a.s. de una
distribucion exponencial de esperanza 1/, > 0. Se desea contrastar
H0 : = 1 frente a H1 : 6= 1, donde estas hipotesis tienen probabilidades

182

CAPITULO 5. CONTRASTES DE HIPOTESIS


a priori P (H0 ) = p y P (H1 ) = 1 p. Si la distribucion a priori de es
(, ), con y conocidos, determina la ventaja a posteriori
P (H0 | x )
e = Q B,
P (H1 | x )
e
donde Q es la ventaja a priori y B es el factor de Bayes, de dos formas
distintas: aplicando primero directamente la definicion del factor de Bayes
y, despues, calculando B como lmite de cocientes entre probabilidades a
posteriori y a priori bajo H1 .
Q =

15. (Garthwaite, Jollife y Jones 1995, 7.10) Sea X1 , . . . , Xn una m.a.s. de una
N (, 1). Se consideran dos hipotesis: H0 : = 1 y H1 , con P (H0 ) = p y
P (H1 ) = 1 p.
a) Suponiendo que H1 especifica que = 1, prueba que
Pn
pe i=1 xi
Pn
.
P (H0 | x ) = Pn
e
pe i=1 xi + (1 p)e i=1 xi
b) Suponiendo que H1 especifica que 6= 1 y que bajo H1 la distribucion
a priori de es N (0, 1), determina P (H0 | x ) en el caso especial de
Pn
e
que i=1 xi = n.

Captulo 6

Estimaci
on por intervalos
Referencias: Casella-Berger, captulo 9 y Crist
obal (1992), captulo
15.

En los captulos 3 y 4 se han estudiado los estimadores puntuales. Estos


estimadores ofrecen un u
nico valor como estimacion del parametro desconocido
n por conjuntos,
. En este captulo se aborda el problema de la estimacio
donde se estudian estimadores que proporcionan un conjunto como estimacion
de . El resultado de una estimacion por conjuntos es una afirmacion del tipo
C, donde C = C( x ) es un subconjunto del espacio parametrico que
e
depende de los datos observados x . En el caso de que IR los conjuntos que
e
se suelen usar para realizar inferencias sobre son intervalos.

6.1.

Intervalos de confianza

Un estimador por intervalos de un parametro IR es cualquier


par de funciones reales L( x ) y U ( x ) definidas en el espacio muestral X tales
e
e
que L( x ) U ( x ) para todo x = (x1 , . . . , xn ) X . Si se observa el valor
e
e
e
X = x , mediante este estimador se hace la inferencia L( x ) U ( x ).
e
e
e
e
Al intervalo aleatorio [L( X ), U ( X )] se le llama estimador por intervalos
e
e
de (o intervalo estimador de ), mientras que al valor que ha tomado en
n por intervalos
la muestra observada [L( x ), U ( x )] se le llama estimacio
e e
de (o intervalo estimacion de ).
Ejemplo 77
Sea X1 , X2 , X3 , X4 una muestra de tama
no 4 de X N (, 1). Un estimador
por intervalos de es [X 1, X + 1]. Para cada muestra observada x1 , x2 , x3 , x4 ,
la estimacion por intervalos de es [x 1, x + 1].
.
.

183

184

POR INTERVALOS
CAPITULO 6. ESTIMACION

Observese que si se estima un parametro mediante un intervalo, la inferencia es menos precisa que si se estima con un estimador puntual: ahora nos
limitamos a afirmar que el parametro esta en un cierto conjunto, mientras que
antes dabamos un valor concreto como estimacion suya. Dado que se pierde en
precision, cabe preguntarse que se gana al estimar un parametro mediante un
intervalo, respecto a hacerlo con un estimador puntual. La respuesta es que se
gana en confianza: en general, la probabilidad de que un estimador sea exactamente igual al parametro que desea estimar es 0, mientras que la probabilidad
de que un estimador por intervalos cubra al parametro sera positiva.

Ejemplo 77, p
agina 183. Continuaci
on. Si se estima por X, se tiene que
P (X = ) = 0, porque X N (, 1/4). Sin embargo,
P ( [X 1, X + 1]) = P (X 1 X + 1) = P (1 X 1) =

X
2 = 0,9544.
P 2
1/ 4
A costa de algo de precision, el paso de un estimador puntual a uno por intervalos ha permitido aumentar la confianza que tenemos en que sea correcta la
afirmacion hecha en la inferencia.
.
.
Se llama probabilidad de cobertura de un estimador por intervalos
[L( X ), U ( X )] del parametro a la probabilidad de que ese intervalo aleatorio
e
e
cubra al verdadero valor del parametro :
P ( [L( X ), U ( X )]).
e
e
Observese que esa probabilidad de cobertura puede variar con .
Se llama coeficiente de confianza del intervalo [L( X ), U ( X )] como
e
e
estimador del parametro al nfimo de las probabilidades de cobertura:
nf P ( [L( X ), U ( X )]).
e
e

Intervalo de confianza es el nombre que recibe usualmente un estimador


por intervalos junto con su coeficiente de confianza. Tambien se nombra as a
veces a la estimacion a que da lugar el estimador por intervalos aplicado a una
muestra concreta. Ademas de C( x ), se usara tambien la notacion IC1 () se
e
usara para referirse a un intervalo de confianza (1 ) para .
Si se desea construir un intervalo para una transformacion invertible () del
parametro y [L( x ), U ( x )] es un intervalo de confianza (1 ) para , entonces
e
e
el intervalo
[ (L( x )), (U ( x ))]
e
e
es un intervalo de confianza (1 ) para ().


6.2. METODOS
PARA CONSTRUIR INTERVALOS DE CONFIANZA 185
Observese que en las expresiones del tipo P ( [L( X ), U ( X )]), el valor
e
e
del parametro esta fijo y lo que son variables aleatorias son los extremos del
intervalo:
P ( [L( X ), U ( X )]) = P ({L( X ) } {U ( X ) }).
e
e
e
e

6.2.

M
etodos para construir intervalos de confianza

En esta seccion veremos cuatro metodos para construir estimadores por intervalos de un parametro IR.

6.2.1.

Inversi
on de un contraste de hip
otesis

Como veremos a continuacion, hay una estrecha relacion entre la estimacion


por intervalos y los contrastes de hipotesis. En general, se puede decir que cada
metodo de construccion de un intervalo de confianza corresponde a un metodo
de contraste de un hipotesis, y viceversa.

Ejemplo 78
Sea X1 , . . . , Xn muestra aleatoria simple de X N (, 2 ) con conocido.
Consideramos el contraste

H0 : = 0
.
H1 : 6= 0
Para hacer el contraste a nivel el test insesgado uniformemente de maxima

potencia rechaza H0 si |x 0 | > z/2 / n, es decir, la region del espacio


muestral X en donde se acepta H0 es el conjunto de x tales que
e

x z/2 0 x + z/2 .
n
n
Dado que el test tiene tama
no , se tiene que P (aceptar H0 | = 0 ) = 1 .
Por lo tanto, para todo 0


P X z/2 0 X + z/2 = 0 = 1 ,
n
n
de donde se sigue que

=1
P X z/2 X + z/2
n
n

para todo , luego [X z/2 / n, X + z/2 / n] es un estimador por intervalos de confianza 1 para .
.
.

186

POR INTERVALOS
CAPITULO 6. ESTIMACION

La correspondencia entre intervalos de confianza y contrastes de hipotesis


se debe a que ambos procedimientos persiguen la consistencia entre los valores
observados en la muestra y los parametros de la distribucion poblacional, aunque
desde perspectiva distintas. En un contraste de hipotesis se fijan los parametros
y se buscan que valores muestrales son acordes con ellos (esto es, se busca la
region de aceptacion), mientras que en la estimacion por intervalos se toma
como fija la muestra observada y se buscan los valores de los parametros que
hacen esta muestra plausible (esto es, se busca el intervalo de confianza).
El siguiente resultado prueba la relacion existente entre contrastes e intervalos.
Teorema 46 Para cada valor 0 se denota por A(0 ) a la regi
on de aceptaci
on a nivel de un test que contrasta H0 : = 0 . Para cada x X se
e
define el conjunto C( x ) como
e
C( x ) = {0 : x A(0 )}.
e
e
Entonces el conjunto aleatorio C( X ) es un estimador por conjuntos de confiane
za 1 para .
Recprocamente, sea C( X ) un estimador por conjuntos de confianza 1
e
para . Para cada 0 se define
A(0 ) = { x X : 0 C( x )}.
e
e
Entonces A(0 ) es la regi
on de aceptaci
on a nivel de un test que contrasta
H0 : = 0 .
Demostraci
on: Veamos la primera parte. Por ser A(0 ) el complementario de
la region de rechazo de un test de nivel se tiene que
P0 ( X A(0 )) 1 .
e
Dado que 0 es un valor arbitrario del parametro, podemos escribir en lugar
de 0 . Como x A() si y solo si C( x ), se tiene que
e
e
P ( C( X )) = P ( X A()) 1 ,
e
e
y se concluye que C( X ) es un estimador por conjuntos de confianza 1 .
e
Veamos la segunda parte. La probabilidad de error de tipo I del test cuya
region de aceptacion es A(0 ) es
P0 ( X 6 A(0 )) = P0 (0 6 C( X )) ,
e
e
as que este es un test de nivel .

El procedimiento de construccion de intervalos de confianza (o de conjuntos


de confianza, en general) a partir de la inversion de contrastes de hipotesis es muy


6.2. METODOS
PARA CONSTRUIR INTERVALOS DE CONFIANZA 187
u
til en la practica porque en general es mas sencillo un problema de contraste
de hipotesis que uno de estimacion: el hecho de poder trabajar suponiendo la
hipotesis nula cierta facilita la tarea. Cualquiera de los metodos de contraste
de hipotesis vistos en el tema 5 puede invertirse para dar lugar a conjuntos de
confianza.
Observese que, aunque sea IR, este mecanismo de inversion no garantiza
que los conjuntos de confianza obtenidos sean intervalos.

Ejemplo 79
Sea X B(n, p). Se desea construir un conjunto de confianza 1 para p a
partir de una observacion x de X. Para ello se invierte el test de tama
no que
contrasta H0 : p = p0 frente a H1 : p 6= p0 y tiene por region de aceptacion los
valores x que son mas probables bajo H0 hasta completar una probabilidad de
(1 ).
Para fijar ideas supongamos que n = 3 y 1 = 0,442. La siguiente tabla
da las regiones de aceptacion A(p) para los distintos valores de p especificados
en H0 :
p
[0, ,238]
(,238, ,305)
[,305, ,362]
(,362, ,366)
[,366, ,634]
(,634, ,638)
[,638, ,695]
(,695, ,762)
[,7,621]

A(p)
0
0,1
1
0,1
1,2
2,3
2
2,3
3

Invirtiendo estas regiones de aceptacion se obtienen los siguientes conjuntos de


confianza C(x):
x
0
1
2
3

C(x)
[0, ,305) (,362, ,366)
(,238, ,634]
[,366, ,762)
(,634, ,638) (,695, 1]

Observar que no todos los conjuntos de confianza que pueden aparecer son intervalos.
.
.

En la practica, sin embargo, con frecuencia s encontraremos intervalos. Por


otra parte, el tipo de intervalo encontrado dependera de la hipotesis alternativa

POR INTERVALOS
CAPITULO 6. ESTIMACION

188

que se considero para definir el contraste. Si la hipotesis alternativa es bilateral,


en general se obtendra un intervalo de longitud finita, mientras que si la alternativa es unilateral, los intervalos que se encuentran tienen uno de sus extremos
en o .

Ejemplo 80
Sea X exp(), = E(X), y se quiere dar un intervalo de confianza para
e
mediante la inversion de un test de tama
no . Se toma una muestra de tama
no
n de X. El test de la razon de verosimilitudes para contrastar

H0 : = 0
H1 : 6= 0
tiene por estadstico
1
e
n
0

sup

Pn
i=1

1
n e

xi /0

Pn
i=1

Pn
i=1

n0

xi /

xi

1
e
n
0

Pn

n
en e

Pn
i=1

xi /0

1
en
xi /n)n

i=1

Pn
i=1

xi /0

Para un valor 0 fijo, la region de aceptacion del test es

Pn
n Pn

i=1 xi
A(0 ) = x :
e i=1 xi /0 k ,
0
e
donde la constante k se elige para que el test tenga tama
no , o lo que es lo
mismo, para que
P0 ( X A(0 )) = 1 .
e
Observese que la expresion de la region de aceptacion depende de la muestra
P
y del parametro solo a traves de v =
xi /0 . Ademas, la distribucion de
Pn
Pn
V = i=1 Xi /0 no depende del parametro 0 : i=1 Xi (n, 0 ) bajo H0 ,
luego V (n, 1). De esto se sigue que el valor k es el mismo para todo 0 .
Invirtiendo la region de aceptacion se obtiene el conjunto de confianza 1 :
Pn

n Pn

xi /

i=1 xi
i=1
C( x ) = :
k .
e

e
La funcion g(v) = v n ev es positiva en todo IR+ , vale 0 en v = 0 y tiende
a 0 si v tiende a infinito. Ademas, tiene un u
nico punto crtico en v = n. Se
sigue que tiene un u
nico maximo en v = n y que los conjuntos de la forma
{v 0 : g(v) k }, con k g(n) = nn en , son intervalos de la forma [l, u],
con l n u y g(l) = g(u) = k .
De ello se deduce que A(0 ) es un intervalo para cualquier valor de 0 , y que
los conjuntos de confianza C( x ) tambien son intervalos para cualquier valor de
Pn
e
i=1 xi .


6.2. METODOS
PARA CONSTRUIR INTERVALOS DE CONFIANZA 189
As pues, el intervalo de confianza obtenido sera de la forma
(
)
n
n
n
X
X
X
C(
xi ) = : L(
xi ) U (
xi ) ,
i=1

con

i=1

i=1

Pn
Pn
n
n
X
X
xi
i=1 xi
L(
xi ) =
, U(
xi ) = i=1 .
u
l
i=1
i=1

Los valores l y u son las soluciones del sistema de ecuaciones no lineales

g(l) = g(u)
P (l V u) = 1
Si n = 2, V (2, 1) y el sistema se transforma en este:
2 l
l e = u2 eu
el (l + 1) eu (u + 1) = 1
Si hacemos 1 = 0,9 y resolvemos el sistema, se obtiene l = 0,4386 y u =
5,4945, luego el intervalo de confianza 0.90 para es
X
X
[0,182
Xi , 2,28
Xi ] [0,364X 2 , 4,56X 2 ].
.

6.2.2.

Cantidades pivotales

Uno de los metodos mas comunes de construccion de intervalos de confianza


es el uso de cantidades pivotales.
Sea X = (X1 , . . . , Xn ) una m.a.s. de X F (x; ). Una funcion Q( X , )
e
e
de la muestra y del parametro es una cantidad pivotal si la distribucion de
probabilidad de Q( X , ) no depende del parametro , es decir, Q( X , ) tiene
e
e
la misma distribucion para cualquier valor de .
Dada una cantidad pivotal Q( X , ), para cualquier conjunto A del espacio
e
imagen de Q se tiene que P (Q( X , ) A) no depende de . Por lo tanto si se
e
elige un conjunto A tal que
P (Q( X , ) A) = 1 , para todo ,
e
y se observa la muestra X = x , entonces el conjunto
e
e
C( x ) = { : Q( x , ) A}
e
e
es un conjunto de confianza 1 para .
En el caso de que IR, el uso de cantidades pivotales no garantiza en
general que el conjunto de confianza sea un intervalo.

POR INTERVALOS
CAPITULO 6. ESTIMACION

190

Ejemplo 81
Si X tiene distribucion perteneciente a una familia de localizacion y escala, entonces es posible definir diferentes cantidades pivotales. Entre ellas se
nalaremos
las siguientes:
Familia de localizacion:

f (x) = f (x )

Q( x , ) = X
e

Familia de escala:

f (x) = (1/)f (/)

Q( x , ) = X/
e

Familia de localizacion
y escala:

f, (x) =
(1/)f ((x )/)

Q1 ( x , , ) = (X )/,
e
Q2 ( x , , ) = (X )/S
e
Para ver que esas funciones son cantidades pivotales basta escribir Xi = +Yi ,
con Yi f , y comprobar que las funciones Q solo dependen de Y1 , . . . , Yn .
.
.

Ejemplo 80, p
agina 188. Continuaci
on. En el ejemplo 80 el intervalo de
confianza construido se baso en
Pn
Xi
V = i=1 ,

cuya distribucion es (n, 1) para cualquier valor de , as que V es una cantidad


pivotal y el intervalo de confianza construido all es un ejemplo de intervalo
basado en una cantidad pivotal.
Si se define T = 2V , entonces T (n, 2), es decir T 22n . Es mas facil
encontrar tabulada la distribucion 22n que la distribucion gamma, por lo que T
resultara mas u
til en la practica.
.
.
En la practica, la forma en la que se construye un intervalo de confianza a
partir de una cantidad pivotal es la siguiente. Supondremos que Q( x , ) IR y
e
IR. Para un valor dado, se buscan n
umeros a y b tales que
P (a Q( X , ) b) = 1 .
e
Observar que a y b no dependen de por ser Q cantidad pivotal, y que la
eleccion de a y b no sera u
nica en general.
Para cada 0 , el conjunto
A(0 ) = { x : a Q( x , ) b}
e
e
es la region de aceptacion de un test de tama
no para contrastar H0 : = 0
basado en el estadstico T ( X ) = Q( X , 0 ). Invirtiendo este contraste obtenee
e
mos el conjunto de confianza 1 para :
C( x ) = { : a Q( x , ) b}.
e
e


6.2. METODOS
PARA CONSTRUIR INTERVALOS DE CONFIANZA 191
Si g

() = Q( x , ) es una funcion monotona de para cada x fijo, entonces


x
e
e
e
se tiene garanta de que C( x ) sea un intervalo. Si g () es creciente, entonx
e
e
ces C( x ) = [L( x , a), U ( x , b)], mientras que si g () es decreciente, entonces
x
e
e
e
e
C( x ) = [L( x , b), U ( x , a)]. Si g () es invertible, entonces
x
e
e
e
e
C( x ) = [mn{g 1 (a), g 1 (b)}, max{g 1 (a), g 1 (b)}].
x
x
x
x
e
e
e
e
e

Ejemplo 80, p
agina 188. Continuaci
on. En este ejemplo Q( X , ) =
Pn
e
2
2 i=1 Xi / 2n . As, podemos elegir a = 22n,1/2 y b = 22n,/2 , donde P (Y 22n,p ) = p para p (0, 1), y la variable Y es una 22n .
En este caso

i=1 xi
() = Q( x , ) =
,
x

e
e
es invertible y decreciente, luego el intervalo de confianza (1 )

es decir g

x
e
para ser
a

Pn

#
" P
Pn
n
2 i=1 xi 2 i=1 xi
C( x ) = [g (b), g (a)] =
,
.
2n,1/2
2n,/2
x
x
e
e
e
1

En el caso de n = 2 y = 0,1, 24,,05 = 9,49 y 24,,95 = ,71, luego el intervalo de


confianza 0.90 es

4x 4x
C( x ) =
,
= [0,4215x, 5,63x].
9,49 ,71
e
.

Observese que el intervalo que se acaba de calcular difiere del construido en


el ejemplo 80, pese a que ambos se basan (en la practica) en la misma cantidad
pivotal. Ello se debe a que, como se se
nalo antes, la forma de elegir los valores a
trico
y b no es u
nica. Aqu se han tomado de forma que el intervalo fuese sime
en probabilidad, es decir, la probabilidad que queda fuera del intervalo
C( X ) se reparte a partes iguales entre valores menores y mayores que los del
e
intervalo. Esta forma de elegir a y b es la mas usada en la practica, aunque
veremos mas adelante que no da lugar, en general, a los intervalos mas cortos
posibles.

Ejemplo 82
Intervalos de confianza para la media y la varianza de la distribuci
on
normal.

192

POR INTERVALOS
CAPITULO 6. ESTIMACION

Si X N (, ) con conocida, entonces la distribucion de X es de una familia


de localizacion y, por tanto, Q( X , ) = (X )/ es una cantidad pivotal.
e
Ademas,

n(X )
Z = nQ( X , ) =
N (0, 1).

e
El intervalo de confianza (1 ) para simetrico en probabilidad que se deriva
de esta cantidad pivotal es

IC1 () = C( x ) = [x z/2 , x + z/2 ].


n
n
e
Si es desconocido, una cantidad pivotal es Q( X , ) = (X )/S. Ademas,
e

n(X )
tn1 .
t = nQ( X , ) =
S
e
El intervalo de confianza (1 ) para simetrico en probabilidad que se deriva
de esta cantidad pivotal es
S
S
IC1 () = C( x ) = [x tn1,/2 , x + tn1,/2 ].
n
n
e
Si se desea dar un intervalo de confianza para 2 o para , puede usarse la
cantidad pivotal
Q( x , ) = (n 1)S 2 / 2 2n1 .
e
Si se eligen a y b para que el intervalo sea simetrico en probabilidad se obtienen
"
#
2
2
(n

1)S
(n

1)S
IC1 ( 2 ) =
,
,
2n1,/2 2n1,1/2
"s
IC1 () =

(n 1)S 2
,
2n1,/2

#
(n 1)S 2
.
2n1,1/2

Uno de los casos en los que la cantidad pivotal es monotona en el parametro


para una muestra fija es aquel en que existe un estadstico T = T ( X ) (es
e
deseable que sea un estadstico suficiente para el parametro) con distribucion
absolutamente continua y tal que su funcion de distribucion sea monotona en
el parametro. En este caso, se toma como cantidad pivotal
Q( x , ) = FT (T ( x ); ).
e
e
Por una parte Q( X , ) = FT (T ( X ); ) U (0, 1) para todo , luego Q es
e
e
cantidad pivotal, y por otra g () = Q( x , ) es monotona en . Este metodo
x
e
es u
til para construir intervalose de confianza para parametros de posicion.


6.2. METODOS
PARA CONSTRUIR INTERVALOS DE CONFIANZA 193
Veamos ahora una forma generica de definir una cantidad pivotal que es valida para cualquier distribucion poblacional absolutamente continua y que siempre da lugar a un intervalo de confianza si el parametro es real. Supongamos que
X es una variable aleatoria absolutamente continua con funcion de distribucion
F (x; ) y que esta funcion es continua y monotona en . Sea X1 , . . . , Xn m.a.s.
de X. Entonces
Ui = F (Xi ; ) U (0, 1) para todo , y Yi = log Ui exp(1) (1, 1).
Por lo tanto,

n
X

Yi (n, 1) y 2

i=1

n
X

Yi 22n .

i=1

As, se tiene que


n
n
X
X
Q( x , ) = 2
Yi = 2
log F (Xi ; )
e
i=1
i=1

es cantidad pivotal y g

() = Q( x , ) es monotona en .
x
e
e
Observese que Ui = 1 F (Xi ; ) U (0, 1), por lo que tambien se puede
definir Q a partir de los logaritmos de la funcion (1 F (Xi ; )).

Ejemplo 80, p
agina 188. Continuaci
on. Sea Xi es exponencial con media
. En este caso es mas comodo trabajar con Ui = 1 F (Xi ; ) = eXi / . As,
Pn
n
X
2 i=1 Xi
Q( x , ) = 2
log(1 F (Xi ; )) =
22n ,

e
i=1
que es la misma cantidad pivotal que habamos encontrado en el ejemplo 80.
.
.

6.2.3.

Intervalos bayesianos

En el marco bayesiano el parametro es una variable aleatoria cuya distribucion a priori es (). Las observaciones tienen distribucion condicionada
con densidad (o funcion de masa) f (x|). Tras la observacion de una muestra
X = x , la distribucion de probabilidad de se modifica con la informacion ree
e
cibida y pasa a tener la distribucion a posteriori (| x ). As, cualquier intervalo
e
(o en general, cualquier conjunto) A tal que
Z
P ( A| x ) =
(| x )d = 1
e
e
A
sera un intervalo bayesiano de probabilidad 1 . El conjunto A depende de la
muestra observada a traves de (| x ).
e

POR INTERVALOS
CAPITULO 6. ESTIMACION

194

Observese que ahora ya no se habla de coeficiente de confianza, como en el


enfoque clasico: ahora (1 ) es realmente la probabilidad de que el parametro
pertenezca al intervalo A y ahora el parametro es la variable aleatoria, mientras
que la muestra (y por tanto el conjunto A) es fija puesto que ya ha sido observada. Por este motivo, a los intervalos bayesianos se les denomina intervalos
de credibilidad (o mas en general, conjuntos de credibilidad).
De los infinitos intervalos A que podemos elegir de forma que
P ( A| x ) = 1
e
dos alternativas parecen sensatas. En primer lugar, podemos tomar el intervalo
simetrico en probabilidad, es decir, aquel que deja a su izquierda una probabilidad de /2 y otra tanta a su derecha.
Tambien puede buscarse el intervalo de credibilidad (1) que tenga mayor
densidad a posteriori. Es decir,
{ : (| x ) c },
e
donde c se elige de forma que
Z
{:(|

x )c }
e

(| x )d = 1 .
e

Ejemplo 83
Sea X1 , . . . , Xn m.a.s. de X Poisson(), 0 < . Sea (, ), > 0,
> 0. La ley a posteriori de dadas las observaciones X1 = x1 , . . . , Xn = xn
es una
!

n
X
+
xi , ( 1 + n)1 ,
i=1

seg
un se vio en el teorema 20.
Si tomamos como distribucion a priori la de parametros = = 1,
Pn
entonces la a posteriori de es (1 + i=1 xi , (n + 1)1 ), luego
(2(n + 1)| x ) 22(P x +1) .
i
e
Si tomamos intervalos simetricos en probabilidad, obtenemos el intervalo de
credibilidad (1 )
2

2(P x +1),1/2 22(P x +1),/2


i
i

.
,
2(n + 1)
2(n + 1)
Pn
Si suponemos que n = 10 y que i=1 xi = 6 y tomamos 1 = ,9, se obtiene
el intervalo de credibilidad 90 % para siguiente: [,299, 1,077].


6.2. METODOS
PARA CONSTRUIR INTERVALOS DE CONFIANZA 195
Con los mismos datos se obtiene el intervalo de credibilidad 90 % con mayor
densidad a posteriori para siguiente: [,253, 1,005]. Observese que este intervalo
es mas corto que el intervalo que deja fuera dos colas con la misma probabilidad.
En la siguiente figura se representan ambos.
Intervalos de credibilidad (1)=0.9 para
1.8

1.6

Densidad a posteriori de

1.4

1.2

0.8

0.6
c=0.44

0.4

IC1() de mayor densidad

0.2

IC1() simtrico en probabilidad


0

0.2

0.4

0.6

0.8

6.2.4.

1.2

1.4

1.6

Intervalos de verosimilitud

A partir de la funcion de verosimilitud se puede estimar un parametro mediante un intervalo (o, mas en general, mediante un conjunto) de una forma
alternativa a los intervalos de confianza vistos hasta ahora. Estos estimadores
alternativos se conocen como intervalos de verosimilitud.
Sea X1 , . . . , Xn una m.a.s. de X f (x; ). La funcion de verosimilitud de
una muestra observada x es
e
n
Y
L(; x ) =
f (xi ; ).
e
i=1
Esta funcion, para x fijo, representa como de verosmil es la muestra x para
e
e
cada uno de los posibles valores de .
El estimador maximo verosmil de es el valor que hace maxima la verosimilitud y es un buen estimador de , como vimos en la seccion 4.4. Si se desea

196

POR INTERVALOS
CAPITULO 6. ESTIMACION

estimar mediante un conjunto, parece logico considerar el de los valores que


hagan mas verosmil la muestra observada x .
e
Para un valor cualquiera de se define la verosimilitud relativa de la
muestra x seg
un como
e
L(; x )
e .
R(; x ) =
x)
e
L(;
e
Dada una proporcion p (0, 1), se define el conjunto de verosimilitud al
100p % para al conjunto
V ( X ) = { : R(; x ) p}.
e
e
Si IR, estos conjuntos de verosimilitud seran intervalos si la funcion de
verosimilitud es concava para cualquier x X .
e
Observese que hay una equivalencia clara entre los conjuntos de verosimilitud
al 100p % y los intervalos de confianza (1) construidos a partir de la inversion
del test de razon de verosimilitudes para contrastar H0 : = 0 frente a H0 :
6= 0 , donde entre p y existe una relacion biyectiva.

Ejemplo 80, p
agina 188. Continuaci
on. Sea X exp(), = E(X).
e
Los calculos realizados en el ejemplo 80 nos permiten escribir la verosimilitud
relativa como
Pn
xi /
1
i=1
e
n
Pn
R(; x ) =
=
e
sup 1n e i=1 xi /
Pn
n
Pn
i=1 xi
en e i=1 xi / .
n
As, el intervalo de verosimilitud al 100p % sera

Pn
n
Pn
i=1 xi
V (x) = :
en e i=1 xi / p .
n
e
Este intervalo tiene una confianza (1 ) que depende de p.
Del mismo modo, el intervalo de confianza 0.9 que se calculo en la pagina
188 para n = 2, [0,364X 2 , 4,56X 2 ], es tambien un intervalo de verosimilitud
al 100p %, y p depende del valor (1 ) elegido. Concretamente, en este caso
p = 0,23.
.
.

6.3.

Evaluaci
on de estimadores por intervalos

Los intervalos de confianza (1 ) posibles para un parametro dada una


muestra x son m
ultiples. Se plantea la cuestion de como evaluar la calidad de
e
cada intervalo y, si es posible, elegir el mejor.

DE ESTIMADORES POR INTERVALOS


6.3. EVALUACION

197

En estimacion por intervalos (o por conjuntos) hay dos cantidades que indican la calidad de un estimador: la longitud (o tama
no) del intervalo y su
probabilidad de cobertura. Es deseable tener intervalos cortos (precision) con
alta probabilidad de cobertura (confianza). Sucede que si se desea aumentar la
precision hay que disminuir la confianza y viceversa.

6.3.1.

Intervalos de longitud mnima

Una practica habitual es fijar la confianza deseada para los intervalos y


buscar que intervalo con esa confianza es el que tiene longitud mnima. Se trata
de un problema de optimizacion con la restriccion de que la confianza sea una
dada. La siguiente proposicion da la solucion bajo ciertas condiciones.
Proposici
on 4 Supongamos que se construye un intervalo de confianza (1 )
para un par
ametro IR a partir de la cantidad pivotal Q( x , ) IR y que
e
la distribuci
on de Q( X , ) es absolutamente continua con funci
on de densidad
e
fQ . Se supone adem
as que la funci
on g () = Q( x , ) es creciente, derivable
x
e
e invertible y que su inversa es la funci
oen h : IR IR.
Si la funci
on fQ /h0 es unimodal, entonces el intervalo de confianza (1 )
de longitud mnima para es
C( x ) = [h(a ), h(b )]
e
donde a y b son los valores de IR que verifican
fQ (a )
fQ (b )
=
h0 (a )
h0 (b )
y

fQ (q)dq = 1 .

Demostraci
on: Sea FQ la funcion de distribucion de Q( X , ). Tal como vimos
e
en el apartado de la seccion 6.2 dedicado a las cantidades pivotales, los intervalos
de la forma
[h(a), h(b)],
con FQ (b) FQ (a) = 1 , son intervalos de confianza (1 ) para . As que
b depende de a de forma que
FQ (b(a)) FQ (a) = 1 .
Derivando respecto a a obtenemos
fQ (b(a))b0 (a) = fQ (a).

POR INTERVALOS
CAPITULO 6. ESTIMACION

198

Si buscamos el valor de a que minimiza la longitud del intervalo, hay que minimizar
h(b(a)) h(a).
Los puntos crticos a de esta funcion son los que cumplen
h0 (b(a ))b0 (a ) = h0 (a )

fQ (b )
fQ (a )
=
,
h0 (a )
h0 (b )

donde b = b(a ). Ademas solo hay un punto a que cumpla simultaneamente


esa condicion y la de que FQ (b(a )) FQ (a) = 1 , porque al ser fQ /h0
unimodal, cualquier otro intervalo cuyos extremos tengan igual valor de fQ /h0 o
bien esta estrictamente contenido en [a , b(a )] o bien lo contiene estrictamente.
En cualquiera de los dos casos, la probabilidad que encierra es distinta de (1).
Veamos ahora que la solucion u
nica (a , b(a )) es un mnimo. Calculamos la
segunda derivada de h(b(a)) h(a):
h00 (b(a))b0 (a)2 + h0 (b(a))b00 (a) h00 (a) =

!
0
0
fQ
(a)fQ (b(a)) fQ
(b(a))b0 (a)fQ (a)
fQ (a)
00
0
0
h (b(a))b (a)
h00 (a).
+h (b(a))
2 (b(a))
fQ (b(a))
fQ
Si tenemos en cuenta que en (a , b(a )) se verifica que fQ (a)/h0 (a) = fQ (b)/h0 (b),
la expresion anterior se transforma en esta:
0
0
h0 (a)fQ
(a) h00 (a)fQ (a) h0 (b(a))fQ
(b(a))b0 (a)fQ (a) h00 (b(a))fQ (b(a))b0 (a)fQ (a)

+
=
2
2 (b(a))
fQ (a)
fQ (b(a))
fQ

(h0 (a))2
fQ (a)

0
0
h0 (a)fQ
(a) h00 (a)fQ (a) h0 (b(a))fQ
(b(a)) h00 (b(a))fQ (b(a)) 0

b (a)
0
2
(h (a))
(h0 (b(a)))2

!
(h0 (a))2 (fQ (q)/h0 (q))
(fQ (q)/h0 (q))

fQ (a)
q
q
q=a
0

y esta cantidad es positiva por ser fQ /h unimodal.

q=b

Las modificaciones necesarias para que este resultado sea aplicable a transformaciones g decrecientes son inmediatas.
x
e
Un caso particular importante es aquel en que la transformacion g () =
x
e
Q( x , ) es lineal. En este caso h es tambien lineal y su derivada es constante, de
e
donde se sigue que la condicion para que el intervalo tenga longitud mnima es
que la densidad fQ tome el mismo valor en ambos extremos a y b. Si, ademas, la
distribucion de Q es simetrica, entonces los intervalos de menor longitud seran
tambien simetricos en probabilidad. Esto ocurre, por ejemplo, en la estimacion
por intervalos de la media poblacional de la normal.
Observese que si [L( x ), U ( x )] es el intervalo de confianza (1 ) de mnima
e
e
longitud para , el intervalo [ (L( x )), (U ( x ))] es un intervalo de confianza
e
e
(1 ) para (), pero este no tiene por que ser el de mnima longitud.

DE ESTIMADORES POR INTERVALOS


6.3. EVALUACION

199

En la estimacion por intervalos de un parametro de escala a veces interesa


mas tener el intervalo [L, U ] de mnima escala, es decir, el que tiene el menor
valor de U/L posible, en lugar del intervalo de mnima longitud. El resultado
anterior se puede usar tomando la reparametrizacion = log . El intervalo de
), h(b
)], donde h
= log h y h
mnima longitud para sera de la forma [h(a
() = Q( x , ). As que el intervalo [h(a ), h(b )] es el de
x
e
e
0 (a) = fQ (b)/h
0 (b) se puede expresar
menor escala para . La condicion fQ (a)/h
en terminos de h como
fQ (b)h(b)
fQ (a)h(a)
=
.
h0 (a)
h0 (b)
es la inversa de g

Ejemplo 84
Sea X1 , . . . , Xn una m.a.s. de X N (, 2 ). Queremos dar el intervalo de
confianza (1 ) de menor longitud para 2 , basado en la cantidad pivotal
(n 1)S 2
Q( X , 2 ) =
2n1 .
2

e
En este caso la transformacion g ( 2 ) = (n 1)S 2 / 2 y su inversa es
x
e
(n 1)S 2
.
h(q) =
q
La condicion que deben cumplir los cuantiles a y b de la distribucion 2n1 para
dar lugar al intervalo mas corto es
fQ (a)a2 = fQ (b)b2 ,
ademas de cumplir que P2n1 ([a, b]) = 1 . Es facil encontrar valores de n y
para los que este intervalo no es simetrico en probabilidad.
Si se desea el intervalo mas corto para , entonces
s
p
(n 1)S 2
1
h(q) =
= h0 (q) = (n 1)S 2 p .
q
2 q3
La condicion que deben cumplir a y b es
fQ (a)a3/2 = fQ (b)b3/2 .
Si se desea el intervalo de menor escala para 2 la condicion que deben
cumplir a y b es
fQ (a)a = fQ (b)b.
y si se quiere el de mnima escala para , entonces
fQ (a)a2 = fQ (b)b2 .
.

200

6.3.2.

POR INTERVALOS
CAPITULO 6. ESTIMACION

Relaci
on con contrastes de hip
otesis y optimalidad

El criterio de la longitud no es el u
nico con el que se puede evaluar un
intervalo. Un concepto alternativo nace a partir de la estrecha relacion existente
entre intervalos de confianza y contrastes de hipotesis. Se trata de la probabilidad
de falso cubrimiento que fue introducida por Neyman.
Sea X f ( x ; ) y C( x ) un intervalo de confianza (1 ) para basado
e
e
e
en la inversi
on de un test con region de aceptacion A(). La probabilidad de
verdadera cobertura es la funcion de definida como P ( C( X )). La
e
probabilidad de falsa cobertura es la probabilidad de que un intervalo
0
cubra cuando es el verdadero valor del parametro. Es una funcion que
depende de dos valores del parametro y 0 . Formalmente se define como
P (0 C( X )), si C( X ) = [L( X ), U ( X )] y 0 6= ,
e
e
e
e
P (0 C( X )), si C( X ) = [L( X ), ) y 0 < ,
e
e
e
P (0 C( X )), si C( X ) = (, U ( X )] y 0 > .
e
e
e
Un intervalo de confianza (1) que minimiza la probabilidad de falso cubrimiento para todos los valores de y 0 sobre una clase de intervalos de confianza
s acurado (UMA). Estos
(1 ) se denomina intervalo uniformemente ma
intervalos de confianza se consiguen invirtiendo contrastes uniformemente mas
potentes, como pone de manifiesto el siguiente resultado.
Teorema 47 Sea X f ( x ; ), IR. Para cada 0 , sea A (0 )
e
e
la regi
on de aceptaci
on del contraste UMP para contrastar H0 : = 0 frente
a H1 : > 0 a nivel . Sea C ( x ) el intervalo de confianza (1 ) construie
do invirtiendo las regiones de aceptaci
on UMP. Entonces para cualquier otro
intervalo C( x ) de confianza (1 ) se tiene que
e
P (0 C ( X )) P (0 C( X ))
e
e
para todo 0 < . En particular, el intervalo C ( x ) es UMA entre los que son
e
de la forma C( x ) = [L( X ), ).
e
e
Demostraci
on: Sea 0 < y A(0 ) la region de aceptacion del test conseguido
al invertir los intervalos C( x ). Como A (0 ) es UMP para contrastar H0 : = 0
e
frente a H1 : > 0 , y > 0 se tiene que
P (0 C ( X )) = P ( X A (0 )) P ( X A(0 )) = P (0 C( X )).
e
e
e
e
2
Para intervalos de la forma (, U ( X )] se puede establecer un resultado
e
analogo. Observese que los intervalos UMA no siempre existen, dado que en la
seccion 5.2 vimos que no esta garantizada la existencia de tests UMP.

DE ESTIMADORES POR INTERVALOS


6.3. EVALUACION

201

Cuando se estudiaron los contrastes UMP se puso de manifiesto la conveniencia de restringir la atencion solo a los contrastes insesgados a la hora
de buscar el contraste UMP para contrates bilaterales. En el estudio de los intervalos de confianza UMA existe un concepto analogo de insesgadez: se dice
que C( x ) es conjunto insesgado de confianza (1 ) si
e
P (0 C( X )) 1 para todo 6= 0 .
e
Es decir, un conjunto de confianza es insesgado si la probabilidad de falso cubrimiento es siempre menor o igual que la probabilidad de cubrimiento verdadero.
Se dice que un conjunto C ( x ) de confianza (1 ) es insesgado y uni s acurado si e
formemente ma
es UMA entre la clase de conjuntos insesgados
de confianza (1 ).
El siguiente teorema establece la correspondencia entre conjuntos insesgados
UMA y contrastes insesgados UMP.
Teorema 48 Sea X f ( x ; ), . Para cada 0 , sea A (0 ) la regi
on
e
e
de aceptaci
on del contraste insesgado UMP para contrastar H0 : = 0 frente
a H1 : 6= 0 a nivel . Sea C ( x ) el conjunto de confianza (1 ) construido
e
invirtiendo las regiones de aceptaci
on del test insesgado UMP. Entonces para
cualquier otro conjunto insesgado C( x ) de confianza (1 ) se tiene que
e
P (0 C ( X )) P (0 C( X ))
e
e
para todo 0 6= , es decir, el intervalo C ( x ) es insesgado UMA.
e
Demostraci
on: La demostracion es analoga a la del teorema 47 y puede dejarse
como ejercicio.
2
Para terminar esta seccion, se establecera la relacion existente entre la longitud de un intervalo de confianza y su probabilidad de cobertura.
Teorema 49 (Pratt, 1961) Sea X una variable aleatoria real con distribuci
on
parametrica dada por la funci
on de densidad (o funci
on de masa) f ( x ; ),
e
IR. Sea C(x) = [L(x), U (x)] un intervalo de confianza para . Si L(x) y
U (x) son funciones estrictamente crecientes de x, entonces para cualquier valor
se tiene que
Z
E (U (X) L(X)) =
P ( C( X ))d.
e
6=
Demostraci
on:
Z Z

E (U (X) L(X)) =

U (x)

(U (x) L(x))f (x; )dx =


X

L(x)

!
d f (x; )dx

POR INTERVALOS
CAPITULO 6. ESTIMACION

202
Observese que

{ : L(X) U (x)} x {x : U 1 () x L1 ()},


puesto que L(x) y U (x) son funciones estrictamente crecientes. Por lo tanto,
cambiando el orden de integracion la integral anterior puede calcularse como
!
Z Z 1
Z
L

()

f (x; )dx d =

U 1 ()

P (U 1 () X L1 ())d =

Z
P ( C(X))d =

6=

P ( C(X))d.
2

El teorema anterior justifica que a los intervalos que minimizan la probabi s cortos en el
lidad de falsa cobertura se les llame tambien intervalos ma
sentido de Neyman.

6.4.

Intervalos de confianza asint


oticos

Estudiaremos en esta seccion tecnicas que proporcionan intervalos de confianza aproximada (1 ). Se basan en propiedades asintoticas de algunos estadsticos.
Sea X n = (X1 , . . . , Xn ) una m.a.s. de tama
no n de X f (x; ). Se dice
e
tica si para todo
que Qn ( x n , ) es una cantidad pivotal asinto
e
Qn ( X n , ) D Q,
e
donde Q es una variable aleatoria de distribucion conocida que no depende de
.
Si se construyen intervalos de confianza (1 ) a partir de Qn sustituyendo
su distribucion por la de Q, diremos que los intervalos resultantes tienen aproximadamente confianza (1 ). En general, cuanto mayor sea n mejor sera la
aproximacion.
Un caso particular importante lo constituyen las cantidades pivotales asintoticas de la forma
T ( X n ) EA (T ( X n ))
e
eq
Qn =
VA (T ( X n ))
e
que son asintoticamente normales, donde T ( X n ) es alg
un estadstico de la muese
tra tal que
V (T ( X n ))
e
P 1.
T ( X n ) EA (T ( X n )) P 0, A
e
e
V (T ( X n ))
e


6.4. INTERVALOS DE CONFIANZA ASINTOTICOS

6.4.1.

203

Intervalos basados en el estimador de m


axima verosimilitud

Sea L( X n , ) la funcion de verosimilitud de una muestra de tama


no n de
e
X f (x, ). Sea n el estimador de maxima verosimilitud de , y sea

log
L(;
X
)
,
In () = E
n
2
e
la informacion de Fisher que sobre contiene una muestra de tama
no n. Entonces
n
V
=p
QEM
D Z N (0, 1),
n
(In ())1
V
luego QEM
es una cantidad pivotal derivada del estimador maximo verosmil.
n
Un conjunto de confianza aproximadamente (1 ) para es
V
{ : z/2 QEM
z/2 }.
n

No siempre podra derivarse de ah un intervalo de confianza.


Una forma de garantizar un intervalo de confianza aproximadamente (1 )
para es construirlo como
q
q
1

[n z/2 (In ()) , n + z/2 (In ())1 ],


donde In () es alg
un estimador consistente de la informacion de Fisher.

Ejemplo 85
Sea X N (0, 2 ). Se desea construir un intervalo de confianza aproximada
(1 ) para . El logaritmo de la verosimilitud de una muestra de tama
no n es
Pn

x2
log L(, x n ) = n log 2 n log i=12 i .
2
e
La funcion score es
log L(, x n )
n
e
= +

Pn
i=1
3

x2i

por lo que el estimador maximo verosmil es


v
u n
u1 X

n = t
X 2,
n i=1 i
y la informacion de Fisher es
!
2
log L(, x n )
n
3n
2n
e
= 2 + 4 E (X 2 ) = 2 .
In () = E
2

POR INTERVALOS
CAPITULO 6. ESTIMACION

204

As, la cantidad pivotal asintotica es


q P
n
1
V
QEM
n

( x n , ) =
e

i=1

x2i

/ 2n

que, fijada la muestra, es una funcion invertible de . El intervalo de confianza


para es
q P

n
1
2

i=1 xi
n

z/2 =
: z/2

/ 2n
q P
n
1

i=1

x2i

1 + z/2

q P
n
1
n

i=1

x2i

1 z/2

Si se construye el intervalo de confianza para 2 basado en su estimador de


maxima verosimilitud se observa que los extremos de este intervalo no son los
cuadrados de los extremos del intervalo construido para .
.
.

V
Hay una relacion estrecha entre los intervalos de confianza basado en QEM
n
y los intervalos de verosimilitud definidos en la pagina 195. El logaritmo
de la verosimilitud relativa es

x ),
r(; x ) = log R(; x ) = log L(; x ) log L(;
e
e
e
e
que bajo condiciones de regularidad puede ser aproximada en torno a n como
1
r(; x ) ( n )2 In (n ).
2
e
El conjunto de verosimilitud al 100p % para es
V ( X ) = { : R(; x ) p} = { : r(; x ) log p}
e
e
e
{ : (n )2 In (n ) 2 log p} = [n

2 log p/In (n ), n +

2 log p/In (n )].

Este intervalo de verosimilitud coincide con el intervalo de confianza construido


a partir del EMV si hacemos
z/2 =

2 log p.

Tomar = 0,05 equivale a tomar p = 0,1465, tomar = 0,1 es equivalente a


fijar p = 0,2585.


6.4. INTERVALOS DE CONFIANZA ASINTOTICOS

6.4.2.

205

Intervalos basados en la funci


on score.

Sea L( X n , ) la funcion de verosimilitud de una muestra de tama


no n de
e
X f (x, ). Sea Sn ( X n , ) la funcion score:
e

log L(; X n ).
Sn ( X n , ) =

e
e
Recordemos que
E (Sn ) = 0, V (Sn ) = In (),
donde In () es la informacion de Fisher. Ademas,
QSn =

Sn ( X n , )
pe
D Z N (0, 1),
In ()

luego QSn es cantidad pivotal asintotica. El conjunto


C( x ) = { : z/2 QSn ( x , ) z/2 }
e
e
es un conjunto de confianza aproximadamente igual a (1 ). Si QSn ( x , ) es
e
funcion invertible de para x fijo, entonces ese conjuntos sera un intervalo.
e
El metodo de construccion de intervalos de confianza basado en la funcion
score tiene la particularidad de que si se utiliza para dar un intervalo para y se
obtiene [L( x ), U ( x )], cuando se usa para dar un intervalo para () el intervalo
e
e
que se obtiene es justamente [ (L( x )), (U ( x ))]. Esto se debe a que
e
e

Sn ( x , ) =
log L(; X n )
= Sn ( x , ) ,

e
e
e
"
#

2
2

2
In ( ) = E
log L(; X n )
+
log L(; X n ) 2 =
2

e
e
2

In ()
,

de donde se sigue que


QSn ( x , ) = QSn ( ()).
e
Esta propiedad no la verifican todos los metodos de construccion de intervalos
de confianza, tal y como se se
nalo en el ejemplo 85, pagina 203.

Ejemplo 85, p
agina 203. Continuaci
on. La funcion score es
Pn
x2
n
Sn = + i=13 i

y la informacion de Fisher es
In =

2n
.
2

POR INTERVALOS
CAPITULO 6. ESTIMACION

206

As, el conjunto de confianza basado en el score es


Pn 2

xi

n + i=1
3
q
z/2 =
: z/2

2n
2

v
u
u
t

1
n

Pn

v
u
u
q ,t

2
i=1 xi

1 + z/2

2
n

1
n

Pn

2
i=1 xi

1 z/2

q .
2
n

Este intervalo es diferente del que se encontro en la pagina 203.


Observese que si se construye el intervalos basado en la funcion score para
2 , se obtiene un intervalo cuyos extremos son los cuadrados de los extremos
del intervalo para .
.
.
El siguiente teorema establece que entre una amplia familia de intervalos
basado en cantidades pivotales asintoticamente normales, los mas cortos son los
basado en la funcion score.
Teorema 50 Sea X f (x; ). Se suponen las condiciones de regularidad H1,
H2 y H3 introducidas en el Teorema de Cramer-Rao. Sea h(X, ) una funci
on
tal que E (h(X, )) = 0 y 0 < V (h) = V (h(X, )) < . Se define
Pn
i=1 h(Xi , )
Qh ( X , ) = p
e
nV (h)
Se define
h0 (X, ) =

log f (x, ).

Entonces se verifica lo siguiente:


1. Qh ( X , ) es asint
oticamente N (0, 1).
e
2. QSn = Qh0 .
3. La cantidad

E Qh

se hace m
axima cuando h(X, ) = h0 (X, ) o h(X, ) = kh0 (X, ) con
k 6= 0.
4. Los intervalos de confianza basados en la funci
on score son los m
as cortos
asint
oticamente, entre los basados en las cantidades pivotales asint
oticas
Qh .


6.4. INTERVALOS DE CONFIANZA ASINTOTICOS

207

Demostraci
on: El apartado 1 se sigue del TCL. El 2 es inmediato. Veamos
que se cumple 3. La derivada parcial de Ah respecto a es
n
!
n
X h(Xi , )
Qh (X, )
1
1 V (h) X
=p

h(Xi , ) .

2V (h) i=1
nV (h) i=1
Como E (h(X, )) = 0, su esperanza sera

Qh (X, )
n
h(X, )
E
=
E
.

V (h)

Observese ademas que

1
h(Xi , )

P p
,
E

n Qh (X, )
V (h)
lo cual implica que el valor absoluto de Qh (X, )/ tiende a infinito en probabilidad. Este hecho sera necesario para probar el punto 4.
Por otra parte, si derivamos respecto a la igualdad E (h(X, )) = 0 se
obtiene lo siguiente:
Z
Z
Z

h(x, )
f (x; )
0=
h(x, )f (x; )dx =
f (x; )dx +
h(x, )dx,

de donde se sigue que

Z
h(Xi , )
f (x; )
E
=
h(x, )dx =

h(x, )

log f (x; )
f (x; )dx = Cov(h(X, ), h0 (X, )).

De ah se deduce, por una parte, que

p
Qh0 (X, )
E
= nV (h0 ) < 0,

y por otra que

Cov(h(X, ), h0 (X, ))
Qh (X, )
p
= n
,

V (h)

luego,

h
E
E

y por lo tanto

Qh (X,)

Qh0 (X,)

i = Corr(h(X, ), h0 (X, )),

E Qh (X, ) E Qh0 (X, ) .


Esto concluye la demostracion de 3.

POR INTERVALOS
CAPITULO 6. ESTIMACION

208

Probemos ahora 4. Sea 0 el verdadero valor del parametro. Si es suficientemente proximo a 0 ,

Qh
Qh ( X , ) Qh ( X , 0 ) + ( 0 )
,
0
e
e
El intervalo de confianza basado en Qh es entonces
)
(

Qh
z/2 ,
: z/2 Qh ( X , 0 ) + ( 0 )
0
e
cuya longitud tiende a 0 porque, seg
un vimos mas arriba, el valor absoluto de
(Qh (X, )/)|0 tiende a infinito en probabilidad. Ello hace que los valores
que estan dentro del intervalo sean cada vez mas proximos a 0 , con lo que la
anterior aproximacion de Qh ( X , ) por su desarrollo de Taylor de primer orden
e
sera cada vez mas precisa, cuando n crece.
La longitud asintotica del intervalo es
2z
/2 .

E Qh

0
Basta entonces aplicar el punto 3 del teorema para obtener 4.

Podemos dar las siguientes reglas practicas para calcular intervalos de confianza asintoticos. En primer lugar, es recomendable que estos se basen en la
funcion score. Tanto en ese caso como si se usan otras cantidades pivotales, se
recomienda evitar cuanto sea posible la sustitucion de cantidades que dependen
del parametro por estimadores consistentes de estas.

Ejemplo 86
Sea X B(n, p). Calcularemos el intervalo de confianza (1 ) asintotico para
p que se deriva de la funcion score. La verosimilitud es

n x
L(; x) =
p (1 p)nx
x
y el score,
S(, x) =

log L(; x)
x np
=
.
p
p(1 p)

La informacion de Fisher es

2 log L(; x)
n
I(p) = E
=
.
p2
p(1 p)
As, la cantidad pivotal asintotica derivada de la funcion score es

n(
p p)
S(, x)
=p
,
QS (x, p) = p
I(p)
p(1 p)


6.4. INTERVALOS DE CONFIANZA ASINTOTICOS

209

donde p = x/n. El intervalo de confianza que da lugar es


(
)

n(
p p)
C1 = p : z/2 p
z/2
p(1 p)
El siguiente es tambien un intervalo de confianza (1 ) asintoticos para el
parametro p de X B(n, p):
(
) "
#
p

p(1 p)
n(
p p)

C2 = p : z/2 p
z/2 = p z/2
n
p(1 p)
El primero de estos dos conjuntos necesita un desarrollo adicional hasta quedar
expresado
explcitamente como un intervalo. Definimos la funcion g(p) = (p
p
p) n/(p(1 p)). Es facil comprobar que esa funcion es estrictamente creciente
en p. Resolviendo las ecuaciones g(p) = z/2 se obtiene que

2
p(1

p)+(z

/4n)
/2

2
p + (z/2 /2n) z/2

C1 =

2 /n)
1 + (z/2

El premio por este trabajo extra es que la longitud de C1 sera, en general, menor
que la de C2 . Se puede comprobar que el cociente de la longitud de C1 entre la
de C2 es
q
2 /4n
1 + (z/2
p(1 p))
,
2 /n)
1 + (z/2
que para valores de p cercanos a 0.5 es aproximadamente igual a
1

2 /n)
1 + (z/2

< 1.

Cuando n crece los intervalos C1 y C2 son practicamente coincidentes.


.

POR INTERVALOS
CAPITULO 6. ESTIMACION

210

6.5.

Lista de problemas

M
etodos de construcci
on
1. (Casella-Berger, 9.1) Sea X N (, 1). A partir de una m.a.s. X1 , . . . , Xn
de X se puede contruir un intervalo de confianza 0.95 para de la forma

x 1, 96/ n. Sea p la probabilidad de que una nueva observacion Xn+1


independiente de las anteriores caiga dentro de ese intervalo. Es p menor,
igual o mayor que 0.95?
2. Utiliza los resultados obtenidos en el problema 7 de la lista 5.8 para construir intervalos de confianza para la media y la varianza de una distribucion
normal.
3. Utiliza los resultados obtenidos en el problema 8 de la lista 5.8 para construir intervalos de confianza para la diferencia de medias y el cociente de
varianzas de dos distribuciones normales.
4. Utiliza los resultados obtenidos en el problema 9 de la lista 5.8 para construir intervalos de confianza de la forma [c, ) para el cociente de las
medias de dos exponenciales.
5. (Garthwaite, Jollife y Jones 1995, 5.10) Se observa un valor de X
B(10, p) y resulta x = 1. Construye un intervalo con coeficiente de confianza 0.95 a partir de la inversion del test de la razon de verosimilitudes
para contrastar H0 : p = p0 frente a H1 : p 6= p0 .
6. (Garthwaite, Jollife y Jones 1995, 5.1) Se dispone de una m.a.s. de tama
no
n de una exponencial con densidad
f (x; ) =
a) Prueba que Y = 2

Pn
i=1

1 x/
e
I(0,) (x).

Xi / es cantidad pivotal.

b) Construye un intervalode confianza (1 ) para a partir de Y .


7. (Garthwaite, Jollife y Jones 1995, 5.3) Se consideran la variables aleatorias
independientes X1 , . . . , Xn tales que
Xi N (ai , bi ), i = 1, . . . , n,
donde las constantes ai , bi son conocidas y bi > 0, para i = 1, . . . , n.
a) Encuentra un estadstico suficiente para y a partir de el construye
un intervalo bilateral de confianza (1 ) para .
b) Si ai = bi = i, i = 1, . . . , n, cual es el menor valor de n tal que
longitud de ese intervalo es menor o igual que 0,5?

6.5. LISTA DE PROBLEMAS

211

8. (Casella-Berger, 9.11) Encuentra una cantidad pivoltal para basada en


una m.a.s. de tama
no n de una N (, ), donde > 0 es la varianza de la
distribucion. A partir de esa cantidad pivotal, construye un intervalo de
confianza (1 ) para .
9. (Casella-Berger, 9.26) Sea X1 , . . . , Xn una m.a.s. de X beta(, 1) y
supongamos que tiene distribucion a priori (r, ). Dar un conjunto de
credibilidad (1 ) para .
10. (Casella-Berger, 9.29) Sea X1 , . . . , Xn una m.a.s. de X Bern(p). Dar
un intervalo de credibilidad (1 ) para p usando la a priori conjugada
beta(a, b).

Evaluaci
on de los m
etodos de construcci
on de intervalos de confianza
11. (Casella-Berger, 9.35) Sea X1 , . . . , Xn una m.a.s. de X N (, 2 ). Compara las longitudes esperadas de los intervalos de confianza (1 ) para
calculados bajo los supuestos siguientes.
a) 2 conocida.
b) 2 desconocida.
12. (Casella-Berger, 9.36) Sean X1 , . . . , Xn variables aleatorias independientes
con funciones de densidad
fXi (x; ) = eix I[i,) (x).
a) Prueba que T = mni (Xi /i) es un estadstico suficiente para .
b) Encontrar el intervalo de confianza (1 ) de la forma [T + a, T + b]
de longitud mnima.
13. (Casella-Berger, 9.37) Sea X1 , . . . , Xn una m.a.s. de X U (0, ). Sea
Y = X(n) el maximo de las observaciones.
a) Prueba que Y / es una cantidad pivotal.
b) Prueba que [y, y/1/n ] es el mas corto de cuantos intervalos de confianza (1 ) se pueden derivar de la cantidad pivotal Y .
14. (Casella-Berger, 9.42) Se tiene una observacion de una (k, ) con parametro de forma k conocido. Encontrar el intervalo de confianza (1 ) mas
corto entre los que tienen la forma [x/b, x/a].
15. (Casella-Berger, 9.44) Sea X una variable aleatoria con distribucion logstica:
ex
f (x; ) =
.
(1 + ex )2
Basandote en una observacion de X, construye el intervalo de confianza
(1 ) uniformemente mas acurado de la forma (, U (x)].

212

POR INTERVALOS
CAPITULO 6. ESTIMACION

16. (Casella-Berger, 9.45) Sea X1 , . . . , Xn una m.a.s. de X exp() (E(X) =


).
a) Construye el contraste UMP de tama
no para contrastar H0 : =
0 rente a H1 : < 0 .
b) Da el intervalo de confianza (1 ) uniformemente mas acurado
basado en el contraste del apartado anterior y prueba que puede
expresarse como
#
" P
n
i=1 xi
.
C( x ) = 0, 2
2n,
e
c) Calcula la longitud esperada de C( X ).
e

Intervalos de confianza asint


oticos
17. (Casella-Berger, 9.60.a) Sea X1 , . . . , Xn una m.a.s. de una distribucion
binomial negativa de parametros (r, p), r conocido. Calcula un intervalo
de confianza aproximada (1 ) para p basado en la funcion score.
18. (Casella-Berger, 9.62) Sea X1 , . . . , Xn una m.a.s. de una distribucion binomial negativa de parametros (r, p), r conocido.
Pn
a) Que distribucion tiene Y = i=1 Xi ?
b) Prueba que si p tiende a 0, entonces 2pY tiende en distribucion a una
on: Utiliza las funciones generadores de momentos).
22nr . (Indicaci
c) Usa este hecho para probar que
" 2
#
2nr,1/2 22nr,/2
Pn
, Pn
2 i=1 xi 2 i=1 xi
es un intervalo de confianza aproximada (1 ) para p.
d ) Como habra que escoger los extremos del intervalo para obtener el
intervalo de longitud mnima con confianza aproximada (1 )?
19. (Garthwaite, Jollife y Jones 1995, 5.14) Se observa una variable aleatoria
X con distribucion de Poisson(). Usa el hecho de que para valores grandes
de la distribucion de X es aproximadamente N (, ) para obtener una
ecuacion cuadratica en cuyas races dan los extremos de un intervalo de
confianza aproximado para la media de X, .
20. (Garthwaite, Jollife y Jones 1995, 3.21, 5.8) Una empresa consmetica se
plantea lanzar al mercado un nuevo producto para hombre y quiere saber
que proporcion de hombres de un grupo de edad compraran ese producto.
Dado que una pregunta directa puede no obtener una respuesta sincera,
se opta por un procedimiento de respuesta aleatorizada mediante el cual
el encuestador nunca puede saber la respuesta dada por el encuestado.

6.5. LISTA DE PROBLEMAS

213

Cada enuestado lanza un dado sin que el encuestador vea el resultado.


Seg
un el resultado obtenido, habra de codificar su respuesta (S, comprare el nuevo producto o No, no comprare el nuevo producto) como
A, B o C, seg
un la siguiente tabla:

Verdadera
respuesta

S
No

Resultado
1 2 3
C C C
C A A

en el
4
A
B

dado
5 6
B A
A B

En una muestra de 1000 hombres las veces que aparecieron las respuestas
A, B y C fueron 440, 310 y 250, respectivamente.
a) Prueba que el logaritmo de la verosimilitud de es
440 log(3 ) + 310 log(2 ) + 250 log(1 2) + constante.
b) Da el estimador maximo verosmil de .
c) Construye un intervalo de confianza aproximada 95 % para .
d ) Supongamos ahora que se tiene acceso a la verdadera respuesta S-No
de los hombres de otra muestra de tama
no n. Que tama
no muestral
n es necesario para que el intervalo de confianza 95 % en este caso
tenga la misma longitud que el calculado previamente?

214

POR INTERVALOS
CAPITULO 6. ESTIMACION

Captulo 7

Introducci
on a la Teora de
la Decisi
on
Referencias: Casella-Berger, captulo 10, Garthwaite, Jollife y Jones
(1995), captulo 6.

Todos los metodos de inferencia estadstica (estimacion puntual, contrastes


de hipotesis, estimacion por intervalos) involucran la toma de una decision: hay
que decidir que punto o que intervalo se toma como estimador de un parametro;
hay que decidir si se rechaza o no la hipotesis nula.
n es el marco teorico que permite estudiar globalLa teora de la decisio
mente los problemas de inferencia estadstica como un u
nico tipo de problema:
la toma de una decision. Todas los elementos del proceso de decision estan
formalmente definidos, incluyendo el criterio que la decision final habra de optimizar.

7.1.

Elementos b
asicos en un problema de decisi
on

Los elementos necesarios para plantear un problema de inferencia estadstica


desde la perspectiva de la teora de la decision son los siguientes:
Datos. Los datos se describen mediante un vector aleatorio X cuyos valores
e
estan en el espacio muestral X .
Modelo. Es el conjunto de posibles distribuciones de probabilidad de los datos X . Se supone que es una familia parametrica de distribuciones {f :
e
}, donde f es una funcion de densidad o una funcion de masa de
215

216

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION
metros. El parameprobabilidad. El conjunto es el espacio de para
tro (que puede ser un escalar o un vector) es el valor verdadero, pero
desconocido, del estado de la naturaleza.

Espacio de acciones. Despues de observar X = x se toma una decision


e
e
que afecta a . El conjunto de posibles acciones permitidas es el espacio
de acciones. Este conjunto se denotara por A y sus elementos por a.
El espacio de acciones determina si un problema de decision es uno de
estimacion puntual (si A = ), uno de estimacion por intervalos (si A es
el conjunto de intervalos contenidos en ) o uno de contraste de hipotesis
(si A = {aceptar H0 , rechazar H0 }).
Funci
on de p
erdida. Para evaluar el coste de tomar la decision a cuando
n de
el verdadero estado de la naturaleza es , se utiliza una funcio
rdida:
pe
L : A IR
(, a) L(, a)
Cuanto mayor es el valor de L(, a) menos apropiada es la decision a
si el verdadero estado de la naturaleza es . En economa y en analisis
n de utilidad
bayesiano se valora la adecuacion de a a con una funcio
U (, a) que da valores altos a pares acordes y valores bajos a pares poco
adecuados. Una funcion de perdida cambiada de signo es una funcion de
utilidad y viceversa.
n es una funcion
Reglas de decisi
on. Una regla de decisio

X
x
e

A
( x ) = a
e

que, para cada posible valor x de X , indica que accion a se ha de tomar


e
n aceptables
si X toma el valor x . El conjunto de reglas de decisio
e
e
en un problema se denota por D.
Funci
on de riesgo. Para evaluar la calidad de las reglas de decision D se
n de riesgo
define la funcio
R

: D
(, )

IR
R(, ) = E [L(, ( X ))]
e

que mide la perdida esperada si se usa la regla y el verdadero estado de


la naturaleza es .
Como el valor que toma el parametro no es conocido, es deseable usar una
regla de decision que tenga valores bajos de la funcion de riesgo para todos los
posibles valores .

7.1. ELEMENTOS BASICOS


EN UN PROBLEMA DE DECISION

7.1.1.

217

Comparaci
on de reglas de decisi
on.

Sean 1 y 2 dos reglas de decision con funciones de riesgo asociadas R(, 1 )


y R(, 2 ).
Comparar 1 y 2 mediante la funcion de riesgo es facil si se verifica que
R(0 , 1 ) < R(0 , 2 ) para todo .
Al comparar 1 y 2 diremos que:
1 es tan buena como 2 si R(, 1 ) R(, 2 ) para todo .
1 es mejor que 2 si R(, 1 ) R(, 2 ) para todo , y existe un
0 tal que R(0 , 1 ) < R(0 , 2 ).
1 es equivalente a 2 si R(, 1 ) = R(, 2 ) para todo .
Una regla 1 es inadmisible si existe otra regla 2 tal que
R(, 2 ) R(, 1 ) para todo
y ademas existe un 0 tal que
R(0 , 2 ) < R(0 , 1 ).
En ese caso diremos que 2 es preferible a 1 , o simplemente que 2 es mejor
que 1 .
Diremos que una regla es admisible si no existe otra regla 0 D que sea
mejor que .
Una regla de decision que sea admisible tiene una propiedad deseable, ya
que no existe ninguna otra regla que la mejore uniformemente, pero no hay
garantas de que el comportamiento de esa regla sea uniformemente bueno en
. La admisibilidad solo garantiza que la regla no es uniformemente mala. Parece
razonable restringir la b
usqueda de las reglas de decision a la clase de reglas de
D que sean admisibles.
En la comparacion de dos reglas de decision lo habitual sera que ninguna de
ellas sea preferible a la otra, sino que una de ellas tenga menor riesgo que la otra
para determinados valores de y ocurra lo contrario para otros valores de . Para
realizar una valoracion global (considerando todos los posibles valores de ) de
n de probabilidad
una regla de decision , a veces se define una distribucio
a priori () en que refleja como son de plausibles las diferentes zonas del
espacio de parametros. A partir de esta distribucion sobre se define el riesgo
Bayes de las reglas de decision como
B

A IR
B() = E [R(, )]

218

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION

En ocasiones escribiremos el riesgo Bayes como B(, ) para se


nalar explcitamente que su definicion depende de la distribucion a priori considerada.
El riesgo Bayes de resume en un solo n
umero el comportamiento de
sobre todo el espacio . Valores peque
nos de B(, ) indican que tiene un
buen comportamiento en las zonas de a las que asigna mas probabilidad.
A una regla de decision que hace mnimo el riesgo Bayes se le llama regla
Bayes. En la seccion 7.4 veremos que estas reglas tiene ciertas propiedades de
optimalidad.

7.2.

Teora de la decisi
on e inferencia estadstica

En esta seccion veremos como plantear los problemas de estimacion puntual,


estimacion por intervalos y contraste de hipotesis como problemas de teora de
la decision.

7.2.1.

Estimaci
on puntual.

Supongamos que X es un vector aleatorio con distribucion f , . Sue


pongamos que IR y se desea estimar el parametro . Determinaremos todos
los elementos del problemas de decision asociado. Las ideas que se desarrollaran
ahora son tambien validas si es un vector de parametros. Los datos y el modelo
son los que se acaban de especificar: X , {f : }.
e
El espacio de acciones A se corresponde con los posibles valores de , es decir
A = . A veces puede interesar que A sea mas grande que , por ejemplo, si
es la probabilidad de exito de un experimento de Bernoulli y = (0, 1) podra
ser que nos interesase tomar A = [0, 1].
La funcion de perdida L debe reflejar el hecho de que si una accion a es
cercana a entonces la decision es correcta, es decir, la perdida es peque
na.
En general las funciones de perdidas consideradas son funciones crecientes en la
distancia entre y a. Las funciones de perdida mas usuales son estas:
P
erdida del valor absoluto: L(, a) = | a|.
P
erdida cuadr
atica: L(, a) = ( a)2 .
P
erdida 0-1: L(, a) = 1{|a|>c} , con c 0.
La funcion de perdida puede reflejar que es menos deseable, por ejemplo, sobrestimar que subestimarlo. As lo hace esta funcion de perdida:

L(, a) =

( a)2
10( a)2

si
si

a<
a

E INFERENCIA ESTADISTICA
7.2. TEORIA DE LA DECISION

219

Tambien es posible penalizar mas los errores de estimacion cuando es proximo


a 0 que cuando es grande:
L(, a) =

( a)2
.
|| + 1

Observese que en este contexto las reglas de decision son los estimadores de .
La funcion de riesgo de una regla de decision depende de la funcion de perdida
definida. Por ejemplo, si la perdida es cuadratica, la funcion de riesgo es el error
cuadratico medio:
R(, ) = E [(( X ) )2 ] = V (( X )) + (Sesgo (( X )))2 .
e
e
e
Los estimadores (las reglas de decision) deseables seg
un esta definicion de la
funcion de riesgo son aquellos que simultaneamente tienen poco sesgo y poca
varianza. Observese que desde el punto de vista de la teora de la decision
no esta justificado el restringir la clase de estimadores D a aquellos que son
insesgados.

Ejemplo 87
Sea X1 , . . . , Xn muestra aleatoria simple de X N (, 2 ). Consideremos el
problema de estimar 2 usando la funcion de perdida cuadratica
L(, a) = ( a)2 .
Consideremos reglas de decision (estimadores) del tipo b ( X ) = bS 2 , donde S 2
e
es la varianza muestral, y b > 0.
Recordemos que E(S 2 ) = 2 y V (S 2 ) = 2 4 /(n 1). El riesgo de b es
R((, 2 ), b ) = V (bS 2 ) + (E(bS 2 ) 2 )2 =
2 4
b
+ (b 2 2 )2 = 4
n1
2

2b2
+ (b 1)2
n1

= 4 c(b).

As, la funcion de riesgo no depende de y es cuadratica en 2 .


Observese que si c(b) < c(b0 ) entonces R((, 2 ), b ) < R((, 2 ), b0 ). Por
lo tanto, buscar la mejor regla de decision equivale a minimizar c(b) en b. El
mnimo de esa expresion se alcanza en b = (n 1)/(n + 1) y, por lo tanto, para
cada valor del parametro (, 2 ) el estimador
n

1 X
n1 2
S =
S2 =
(Xi X)2
n+1
n + 1 i=1
tiene el riesgo menor entre todos los estimadores de la forma bS 2 .
El siguiente grafico compara los riesgos de S 2 ,
2 y S2 para diferentes valores
2
2
2
de , donde
= (n 1)S /n es el estimador maximo verosmil de 2 .

220

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION
35

30
R(2,S2)
25

R( ,(n1)S /n)

Riesgo

20

15

R(2,(n1)S2/(n+1))

10

10

Ejemplo 88
Sea X1 , . . . , Xn muestra aleatoria simple de X no necesariamente normal con
V (X) = 2 positiva y finita. Consideramos el problema de la estimacion de 2
y la funcion de perdida
LS ( 2 , a) =

a
a
1 log 2 ,
2

rdida de Stein. Observese que LS ( 2 , a) 0 y que LS ( 2 , a) =


conocida como pe
0 si y solo si a = 2 . Ademas, para 2 fijo, se tiene que
lm LS ( 2 , a) = , y

a0

lm LS ( 2 , a) = .

Es decir, LS penaliza tanto la subestimacion como la sobrestimacion. Recuerdese


que con la perdida cuadratica la subestimacion tiene perdida acotada, mientras
que la penalizacion de la sobrestimacion es no acotada.
Consideremos, como en el ejemplo anterior, la clase de estimadores de la
forma b = bS 2 . Su riesgo es
2

bS
bS 2
S2
2
R( , b ) = E
1 log 2 = b 1 log b E log 2 .
2

Observese que el u
ltimo sumando es funcion de 2 y posiblemente de otros
parametros, pero no es funcion de b. As, R( 2 , b ) se minimiza en aquel valor

E INFERENCIA ESTADISTICA
7.2. TEORIA DE LA DECISION

221

b que hace mnima la funcion b log b, es decir, en b = 1. As, de todos los


estimadores de la forma bS 2 el que tiene menor riesgo para cualquier valor 2
es 1 = S 2 .
.
.

7.2.2.

Contrastes de hip
otesis.

En un problema de contraste de hipotesis el espacio de acciones consiste


u
nicamente en dos elementos: A = {a0 , a1 }, donde la accion a0 consiste en
aceptar H0 : 0 y la accion a1 en rechazarla o, equivalentemente, aceptar
H1 : 1 .
Una regla de decision es una funcion del espacio muestral X que solo toma
e
dos valores: a0 o a1 . El conjunto { x : ( x ) = a0 } es la region de aceptacion del
e
e
test y el conjunto { x : ( x ) = a1 } es la region de rechazo o region crtica.
e
e
La funcion de perdida ha de reflejar que se comete un error si se decide a0
cuando H0 es falsa o se decide a1 cuando H0 es verdadera, mientras que en otros
casos se act
ua correctamente. En este contexto la funcion de perdida 0-1 es la
mas utilizada:
L(, a0 ) = 1{60 } , L(, a1 ) = 1{0 } .
Esta funcion penaliza de igual forma los errores de tipo I que los errores de tipo
II. Si se desea penalizarlos de forma diferente puede usarse la funcion de perdida
0-1 generalizada:
L(, a0 ) = cII 1{60 } , L(, a1 ) = cI 1{0 } ,
donde cI es el coste de un error de tipo I, y cII el de uno de tipo II.
Se pueden definir otras funciones de perdida que recojan aspectos propios
del problema que se este tratando. Por ejemplo, la funcion de perdida puede
recoger el hecho de que es mas grave cometer un error de tipo I cuanto mas
lejos de 0 este .
La funcion de potencia de un contraste esta relacionada con la funcion de
riesgo de ese contraste. Sea () la funcion de potencia de un test basado en la
regla de decision . Sea C = { x : ( x ) = a1 } la region crtica. Entonces
e
e
() = P ( X C|) = P (( X ) = a1 |).
e
e
Por su parte, la funcion de riesgo asociada a una perdida 0-1 generalizada es,
para 0 ,
R(, ) = E (L(, ( X ))) =
e
0 P (( X ) = a0 |) + cI P (( X ) = a1 |) = cI (),
e
e
y para 6 0 ,
R(, ) = E (L(, ( X ))) =
e

222

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION

cII P (( X ) = a0 |) + 0 P (( X ) = a1 |) = cII (1 ()).


e
e
Esta relacion entre la funcion de riesgo y la de potencia viene dada por la eleccion
de la funcion de perdida 0-1 generalizada. Sin embargo, aunque se trabaje con
otras funciones de perdida, en general la funcion de potencia juega un papel
importante en cualquier contraste de hipotesis. En efecto,
R(, ) = E (L(, ( X ))) = L(, a0 )(1 ()) + L(, a1 )().
e
Ejemplo 89
Sea X1 , . . . , Xn muestra aleatoria simple de X N (, 2 ) con 2 conocida. El
contraste uniformemente mas potente de nivel para contrastar

H0 : 0
H1 : < 0
rechaza H0 si

X 0
< z
/ n

y tiene funcion de potencia

0
0

() = P Z < z
= z
.
/ n
/ n
Para = 0,1 y tomando cI = 8 y cII = 3 en la funcion de perdida 0-1 generalizada, se tiene que

R(, ) = 8 z
si 0 ,
/ n

R(, ) = 3 1 z
si < 0 .
/ n
3

2.5

R(,)

1.5

0.5

0
3

<0

0
n1/2(0)/

E INFERENCIA ESTADISTICA
7.2. TEORIA DE LA DECISION

223

A veces es conveniente aprovechar la funcion de perdida para reflejar el hecho


de que algunas decisiones incorrectas son mas graves que otras. Por ejemplo, en
el contraste

H0 : 0
H1 : < 0
se comete un error de tipo I si se rechaza H0 cuando de hecho 0 . Sin
embargo, las consecuencias de rechazar erroneamente H0 son mucho peores si
es mucho mayor que 0 que si es ligeramente mayor que 0 . La siguiente
funcion de potencia refleja esto:
L(, a0 ) = b(0 )1{<0 } , L(, a1 ) = c( 0 )2 1{0 } ,
donde b y c son constantes positivas. Un contexto en el que esta funcion de
perdida es adecuada es el siguiente. Se desea contrastar si una cierta medicina
ayuda a disminuir el nivel de colesterol. Se establece el nivel de colesterol maximo
aceptable en 0 . Se contrasta

H0 : 0
H1 : < 0
donde es el nivel de colesterol de un paciente que ha tomado la medicina
(se supone que no es directamente observable, sino solo a partir de diversos
analisis). Debido a la asociacion entre niveles altos de colesterol y enfermedades
de corazon, las consecuencias de rechazar H0 cuando es grande son mucho
peores que si toma valores moderados, aunque superiores a 0 . Por eso es
conveniente usar la funcion cuadratica ( 0 )2 .

7.2.3.

Estimaci
on por intervalos.

En estimacion por conjuntos el espacio de acciones A consiste en todos los


subconjuntos del espacio parametrico . Nos limitaremos a considerar el caso
de que IR y u
nicamente consideraremos como acciones los subconjuntos de
que sean intervalos. Esta limitacion es arbitraria y responde u
nicamente a
consideraciones practicas.
Sea C un elemento de A. Cuando se toma la accion C, se esta haciendo la
estimacion C. Una regla de decision ( x ) especifica para cada x X
e
e
que intervalo C A sera usado como estimador si se observa X = x . Usaremos
e
e
la notacion C( x ) para denotar a C = ( x ).
e
e
En estimacion por intervalos las funciones de perdida tienen en cuenta dos
aspectos: si el verdadero valor del parametro esta o no en el intervalo estimador,
y una medida del tama
no de este. Para medir el tama
no se usa la longitud del

224

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION

intervalo, Long(C), mientras que la funcion IC () suele usarse para indicar si


esta o no en C.
La forma en que se combinan esas dos cantidades para formar la funcion de
perdida es habitualmente esta:
L(, C) = b Long(C) IC (),
donde la constante b determina el peso relativo del tama
no y la correccion de
C. La funcion de riesgo asociada sera
R(, C) = bE (Long(C( X ))) E (IC ( X )) =
e
e
bE (Long(C( X ))) P ( C( X )).
e
e
Esta funcion de riesgo tiene dos componentes: la longitud esperada del intervalo
y su probabilidad de cubrimiento. As, cuando se busca el estimador C( x )
e
que minimiza el riesgo, lo que se hace es alcanzar el mejor compromiso entre

longitud y confianza. Esta


es una diferencia considerable con respecto al enfoque
adoptado en la seccion 6, dedicada a la estimacion por intervalos: all se fijaba
un valor de la confianza y se buscaba el intervalo mas corto que tuviese dicha
confianza. Desde la optica de la teora de la decision es posible perder algo
de confianza si a cambio se consigue reducir notablemente la longitud de los
estimadores.

Ejemplo 90
Sea X N (, 2 ), con 2 conocida. Consideremos las reglas de decision
Cc (x) = [x c, x + c], c IR, c 0.
Compararemos estos estimadores usando la funcion de perdida
L(, Cc ) = bLong(Cc ) ICc () = 2bc ICc ().
As, la primera parte de la funcion de riesgo es constante, mientras que la segunda vale
P ( Cc (X)) = P (X c X + c) =

X
c = 2P (Z c) 1,
P c

donde Z N (0, 1). Por lo tanto, la funcion de riesgo es


R(, Cc ) = 2bc 2P (Z c) + 1.
Es una funcion de riesgo constante en . As, la mejor regla de decision correspondera al valor c donde la funcion
g(c) = 2bc 2P (Z c) + 1

BAYESIANO
7.3. EL PROBLEMA DE DECISION

225

tenga su mnimo. La derivada de g(c) se anula en el punto c que verifica


c2
1
1
b = fZ (c) = e 2 c2 = log
.
2b2 2
2

Esa ecuacion tiene solucion si y solo si b 1/ 2. Cuando hay solucion esta


vale
r
1

c = log
.
2b2 2

La segunda derivada de g en c es g 00 (c ) = 2b 2fZ0 (c ) > 0, porque c 0


implica
que fZ0 (c ) 0, luego c es un mnimo de g. En el caso de que b >

1/ 2, puede comprobarse que g 0 (c) > 0 para todo c 0, luego el mnimo


riesgo se alcanza en c = 0.

En resumen, si b 1/ 2 (lo que equivale a no dar un peso excesivo al


tama
no del intervalo en la funcion de riesgo)
entonces el intervalo optimo es
[x c , x + c ], mientras que si b > 1/ 2 (es decir, si la longitud del intervalo pesa mucho en la funcion de riesgo) entonces el mejor intervalo para
es [x, x], es decir, un estimador puntual de .
.
.

7.3.

El problema de decisi
on bayesiano

Hemos visto en la seccion 7.1 que a veces se define una distribucion de probabilidad () sobre el espacio parametrico , que refleja el conocimiento que
el investigador tiene sobre los posibles valores del parametro a priori, es decir,
antes de observar los datos X . En general cualquier funcion de pesos que pone
dere de cierta forma las diferentes regiones de sera valida como distribucion
(), aunque esta distribucion no refleje ning
un conocimiento previo subjetivo
sobre .
Se definio el riesgo Bayes de la regla de decision respecto de la distribucion
a priori como
B(, ) = E [R(, )].
Es una medida del riesgo medio de acuerdo a los pesos que asigna . As, si no
se dispone de informacion previa que permita definir , una forma razonable
de elegir esta distribucion a priori es hacerlo de forma que los valores de a
los que se les asigne probabilidad a priori grande sean aquellos para los cuales
el experimentador desea tener un riesgo peque
no, y los valores de con peso
peque
no sean aquellos cuyo riesgo no le preocupa.
Se define la regla Bayes como aquella regla que minimiza el riesgo Bayes:
B(, ) = mn B(, ).
D

226

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION

Esta regla puede no existir, o bien puede haber mas de una regla Bayes, aunque
en general solo existe una regla Bayes.
Los siguientes resultados indican como encontrar las reglas Bayes, si estas
existen.
Teorema 51 Para cada x X se define
e
r( x , a) = E
(L(, a)),
(| x )
e
e
donde la esperanza se toma con respecto a la distribuci
on a posteriori de , dado
que se ha observado X = x . Para cada x X se supone que existe una acci
on
e
e
e
a( x ) A tal que
e
r( x , a( x )) = mn r( x , b).
bA
e
e
e
Sea la regla de decisi
on

X A
x a( x )
e
e

Si D entonces es la regla Bayes respecto a .


Demostraci
on: Sea f ( x , ) = f ( x |)() la distribucion conjunta de ( X , )
e
e
e
y sea m( x ) la marginal de X . As,
e
e
h
i
B(, ) = E (R(, )) = E E (L(, ( X ))) =
e

E (L(, ( X ))) = E
E
(L(, ( X ))) =
m( x )
(| X )
e
e
e
e
E
(r( X , ( X ))).
m( x )
e
e
e

Para cada x X , r( x , ( x )) r( x , ( x )) para todo D, de donde se


e
e
e
e
e
sigue que
E
(r( X , ( X ))) E
(r( X , ( X )))
m( x )
m( x )
e
e
e
e
e
e
para todo D y, en consecuencia, que
B(, ) B(, )
para todo D, luego es la regla Bayes.

Observese que la funcion r( x , a) que se define en el anterior teorema es la


e
esperanza a posteriori de la funcion de perdida, dado que se ha observado X =
e
x . Por lo tanto, para encontrar la regla Bayes hay que minimizar la esperanza
e
a posteriori de la funcion de perdida, ya sea analtica o numericamente.
El siguiente resultado se sigue directamente del teorema anterior y da la
expresion explcita para la regla de Bayes en dos casos importantes referidos a
la estimacion de parametros.

BAYESIANO
7.3. EL PROBLEMA DE DECISION

227

Corolario 8 Consideremos un problema de estimaci


on de un par
ametro real
IR. Se tiene lo siguiente:
1. Si L(, a) = ( a)2 la regla Bayes es ( x ) = E(| x ), si D.
e
e

2. Si L(, a) = |a| la regla Bayes es ( x ) que asocia a cada x la mediana


e
e
a de la distribuci
on a posteriori (| x ), si D.
e
Observese que si el conjunto de acciones A = es finito (o discreto) podra
pasar que E(| x ) 6 A y entonces ( x ) = E(| x ) no sera una funcion de X
e
e
e
e
en A, es decir, no sera una regla de decision legtima. Si A = es convexo se
puede probar que E(| x ) A para cualquier distribucion a posteriori (| x ).
e
e
El siguiente resultado hace referencia al problema de contrastes de hipotesis
desde la perspectiva de la teora de la decision bayesiana. Concreta en este
contexto lo establecido por el teorema 51 sobre como determinar la regla Bayes.
Teorema 52 Consideremos un problema de contraste de la hip
otesis H0 :
0 frente a H1 : 6 0 , con funci
on de perdida 0-1 generalizada. Cualquier
test que
cII
rechaza H0 si P ( 0 | x ) <
cI + cII
e
y
cII
acepta H0 si P ( 0 | x ) >
cI + cII
e
es una regla de Bayes (tambien llamada test de Bayes o regla Bayes).
Demostraci
on: Aplicamos el teorema 51. Como A = {a0 , a1 } hay que comparar r( x , a0 ) y r( x , a1 ) y escoger como accion a( x ) aquella de las dos que
e
e
e
de valor menor de r( x , a).
e
Recordemos que
L(, a0 ) = cII 1{60 } , L(, a1 ) = cI 1{0 } .
Calculamos r( x , a0 ) y r( x , a1 ):
e
e
r( x , a0 ) = E
(L(, a0 )) = cII P ( 6 0 | x )
(| x )
e
e
e
r( x , a1 ) = E
(L(, a1 )) = cI P ( 0 | x ).
(| x )
e
e
e
As, el conjunto de x X para los cuales el test de Bayes rechaza H0 son
e
aquellos para los cuales
r( x , a1 ) < r( x , a0 ) cI P ( 0 | x ) < cII P ( 6 0 | x )
e
e
e
e
cII
P ( 0 | x ) <
.
cI + cII
e

228

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION

Analogamente, el conjunto de puntos en los que el test Bayes acepta H0 , es decir,


aquellos para los cuales la accion a0 tiene menor riesgo esperado a posterior que
la accion a1 , son aquellos que cumplen
r( x , a0 ) < r( x , a1 ) cI P ( 0 | x ) > cII P ( 6 0 | x )
e
e
e
e
cII
.
P ( 0 | x ) >
cI + cII
e
Si r( x , a0 ) = r( x , a1 ), las dos acciones son indiferentes y puede tomarse cuale
e
quiera de ellas sin que la regla resultante deje de ser la regla Bayes.
2

Ejemplo 91
Sea X1 , . . . , Xn muestra aleatoria simple de X N (, 2 ) y () N (, 2 ),
con 2 , y 2 conocidos. Sea
=

2
.
n 2 + 2

La distribucion a posteriori de dado que X = x es normal con parametros


e
e
E(| x ) = (1 )x + , V (| x ) = 2 .
e
e
Consideremos el test

H0 : 0
H1 : < 0

con funcion de perdida 0-1 generalizada. Calculemos P ( 0 | x ):


e

0 (1 )x
P ( 0 | x ) = P ( 0 |x) = P Z

x .

e
As, el test de Bayes rechaza H0 si
P ( 0 | x ) < 0
e
donde 0 = cII /(cI + cII ), y eso ocurre si y solo si

( 0 ) + z0
0 (1 )x
> z0 x < 0
.


1
Por lo tanto, el test de Bayes rechaza H0 para valores peque
nos de x y el valor
crtico depende de las perdidas para los dos tipos de errores (a traves del valor
0 ) y de la distribucion a priori. Recordemos que el test uniformemente mas
potente de nivel rechaza H0 si

x < 0 z .
n


7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISION

229

En el caso particular de que tomasemos cI = 1 y cII = , entonces


= . Si ademas consideramos la distribucion a priori de centrada en 0
tendremos que el test de Bayes rechaza H0 si

z0
x < 0
.
1
0

Recordando la definicion de se llega a que se rechaza H0 si y solo si


r

2
x < 0 z0
1 + 2,
n
n
p
expresion que solo difiere del test UMP en el factor 1 + ( 2 /n 2 ). Ambos
contrasten coincidiran si 2 /n 2 = 0, es decir, si n , o si 2 o si
2 0.
.
.

7.4.

Admisibilidad de las reglas de decisi


on

La clase D de todas las reglas de decision posibles quizas sea excesivamente


grande: podra estar formada por todas las funciones de X en A. La eleccion de
la regla en un determinado problema se simplifica si restringimos la b
usqueda
a una subclase de reglas C D de la que formen parte u
nicamente las reglas
que tengan alguna buena propiedad. Una de estas propiedades deseables es la
de ser admisible.

7.4.1.

Comparaci
on de reglas de decisi
on.

Sean 1 y 2 dos reglas de decision con funciones de riesgo asociadas R(, 1 )


y R(, 2 ). Al comparar 1 y 2 diremos que:
1 es tan buena como 2 si R(, 1 ) R(, 2 ) para todo .
1 es mejor que 2 si R(, 1 ) R(, 2 ) para todo , y existe un
0 tal que R(0 , 1 ) < R(0 , 2 ).
1 es equivalente a 2 si R(, 1 ) = R(, 2 ) para todo .
Diremos que una regla es admisible si no existe otra regla 0 D que sea
mejor que . Diremos que es inadmisible si existe otra regla 0 mejor que .
Una regla de decision que sea admisible tiene una propiedad deseable, ya
que no existe ninguna otra regla que la mejore uniformemente, pero no hay
garantas de que el comportamiento de esa regla sea uniformemente bueno en
. La admisibilidad solo garantiza que la regla no es uniformemente mala. Parece

230

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION

razonable restringir la b
usqueda de las reglas de decision a la clase de reglas de
D que sean admisibles.
Sea una clase C D. Se dice que C es una clase completa si para cada
6 C existe C que es mejor que 0 . C es una clase esencialmente
completa si para cada 0 6 C existe C que es tan buena como 0 .
0

Teorema 53 Sea C una clase de reglas de decisi


on completa. Entonces la clase
de reglas de decisi
on admisibles est
a contenida en C.
Demostraci
on: Sea 0 una regla admisible. Si 0 6 C, entonces existe C
0
mejor que , y eso contradice el supuesto de que 0 es admisible, luego 0 C.
2

7.4.2.

B
usqueda de reglas admisibles y clases completas.

Teorema 54 Consideremos un problema de decisi


on en el que IR. Supongamos que para cada regla de decisi
on D, la funci
on de riesgo R(, ) es
continua en .
Sea () una distribuci
on a priori sobre tal que para todo > 0 y todo
la probabilidad que asigna al intervalo ( , + ) es positiva.
Sea la regla Bayes respecto a . Si < B(, ) < entonces es
admisible.
Demostraci
on: Supongamos que es inadmisible. Entonces existe una regla
D tal que
R(, ) R(, ) para todo
y existe un 0 con
R(0 , ) < R(0 , ).
Sea = R(0 , ) R(0 , ) > 0. Por continuidad de R(, ) y R(, ) se tiene
que existe > 0 tal que

R(, ) R(, ) >


2
para todo (0 , 0 + ). Entonces
B(, ) B(, ) = E [R(, ) R(, )]

P [(0 , 0 + )] > 0.
2
Esto contradice el supuesto de que es regla Bayes. Por lo tanto es admisible.
2
E [1(0 ,0 +) (R(, ) R(, ))]

El teorema anterior proporciona un conjunto de condiciones bajo las cuales


las reglas Bayes son admisibles. Hay otros conjuntos de hipotesis que tambien


7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISION

231

lo garantizan (en este sentido pueden verse los problemas 10 y 11). Del teorema
se sigue que las reglas Bayes son en general admisibles y por lo tanto pertenecen
a cualquier clase completa. Es as razonable considerar las reglas Bayes.
El siguiente teorema permite restringir las reglas de decision consideradas
a aquellas que dependen de estadsticos suficientes, dado que hacerlo no tiene
coste en terminos de las funciones de riesgo. Este resultado es una generalizacion
del teorema de Rao-Blackwell (teorema 27, pagina 108).
Teorema 55 Sea A, el espacio de acciones, un intervalo de IR, posiblemente no
acotado. Supongamos que la funci
on de perdida L(, a) es una funci
on convexa
de la acci
on a, para todo . Sea T ( X ) un estadstico suficiente de con
e
espacio muestral T .
Si ( x ) D es una regla de decisi
on, entonces la regla de decisi
on
e
0 ( x ) = T0 (T ( x )),
e
e
donde

T0

T
t

A
T0 (t) = E (( X )|T ( X ) = t),
e
e
es tan buena como , siempre y cuando la esperanza condicionada exista para
todo t T .
Demostraci
on: Veamos en primer lugar que 0 ( x ) es regla de decision, es decir,
e
es una funcion de X en A. Por una parte, como T es estadstico suficiente,
E (( X )|T ( X ) = T ( x )) no depende de , sino solo de x . Ademas, como
e
e
e
e
es regla de decision se tiene que ( x ) A para todo x X y por ser A un
e
e
conjunto convexo se sigue que E (( X )|T ( X ) = T ( x )) A.
e
e
e
Veamos ahora que 0 es tan buena como . Para todo , se tiene que
R(, ) = E [L(, ( X ))] = E [E L(, ( X ))|T ( X )]
e
e
e
y por ser L convexa,
E [E L(, ( X ))|T ( X ))] E [L(, E (( X )|T ( X )))] =
e
e
e
e
E [L(, 0 ( X ))] = R(, 0 ).
e

El siguiente corolario se sigue directamente del teorema.


Corolario 9 La clase de reglas de decisi
on que dependen de los datos X s
olo
e
a traves de un estadstico suficiente T es una clase esencialmente completa.
Estos resultados tienen especial importancia en el problema de estimacion
puntual cuando el espacio A es un intervalo.

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION

232

7.4.3.

Admisibilidad de la media muestral bajo normalidad.

Sean X1 , . . . , Xn m.a.s. de X N (, 2 ). Nos planteamos el problema de


estimacion de = IR con funcion de perdida cuadratica. Veremos que en
este caso la media muestral es admisible como estimador de .
Teorema 56 La media muestral X es un estimador admisible de .
Demostraci
on: Distinguiremos dos situaciones, seg
un 2 sea conocida o no.
(i) 2 conocida.
Supongamos que ( x ) = x es inadmisible. Entonces existe 0 ( x ) tal que R(, 0 )
e
e
R(, x) para todo IR y para alg
un 0 se tiene que R(, x) R(, 0 ) = > 0.
De la continuidad en de la funcion de perdida cuadratica y la continuidad
de la funcion de densidad de la normal de esperanza , se sigue que R(, ) es
funcion continua de para toda regla . Como consecuencia de ello, existe > 0
tal que R(, x) R(, 0 ) > /2, para todo (0 , 0 + ).
Consideramos sobre IR la distribucion a priori N (0, 2 ) y definimos
=

2
.
n 2 + 2

As,
Z

B(, x) B(, 0 ) =

[R(, x) R(, 0 )]

0 +

[R(, x) R(, 0 )]

2
1
e 2 2 d
2

2
1
e 2 2 d >
2
0 2

( )
0

1
P (0 < Y < 0 + ) > 2fY (00 ) = 2
e 2 2
2
2
2
2

donde Y N (0, 2 ) y 00 es el mas cercano a 0 de los dos puntos 0 y 0 + .


Si llamamos K( ) a
0 2

1 (0 )
K( ) = 2 e 2 2
2
2
se tiene que
(B(, x) B(, 0 )) > K( )
y que

/2
lm K( ) = 2 > 0.
2

Por otra parte, el riesgo Bayes de la media muestral es


Z
2
R(, X)()d =
B(, x) =
,
n


7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISION

233

porque R(, X) = E [( X)2 ] = 2 /n, para todo . Esto ademas ocurre


para cualquier a priori .
Sea la regla Bayes respecto a la a priori . Por el teorema 51 y su corolario,
la regla Bayes ( x ) es la que asigna a cada x la esperanza a posteriori de
e
e
dado x , y su riesgo Bayes es la varianza a posteriori:
e
B(, ) = 2 =

2 2
.
n 2 + 2

Por lo tanto,
(B(, ) B(, x)) =
2
n
2
1 2 2 =
n

2
=
2
n

1 2

2
n
2
2
n + 2

2
.
n

Finalmente,
0 (B(, ) B(, 0 )) = (B(, ) B(, x)) + (B(, x)) B(, 0 )) >

2
2 2
/2
+ K( ) =
+ K( ) 2 > 0,
2
2
n
n n +
2

lo cual es una contradiccion, que nace de suponer que x no es admisible.


(ii) 2 desconocida.
Supongamos que x es inadmisible. Entonces existe un estimador 0 tal que
R((, 2 ), 0 ) R((, 2 ), x), para todo (, 2 ),
R((0 , 02 ), 0 ) < R((, 2 ), x), para alg
un (0 , 02 ).
Como 0 es una funcion de X en IR, 0 tambien es un estimador de si 2 se
fija en el valor 02 . Para cualquier regla de decision, el riesgo R(, ) cuando 2
es conocida y vale 02 es igual al riesgo en el caso de 2 desconocida evaluado
en el valor 02 : R((, 02 ), ). As,
R(, 0 ) = R((, 02 ), 0 ) R((, 02 ), x), para todo ,
R(0 , 0 ) = R((0 , 02 ), 0 ) < R((, 02 ), x), para alg
un 0 .
De aqu se sigue que 0 es mejor que x para estimar cuando 2 es conocido
y vale 02 , lo que contradice el hecho de que x es admisible si 2 es conocida.
As x ha de ser admisible tambien si 2 es desconocida.
2

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION

234

7.5.

Reglas minimax

El riesgo Bayes definido en la seccion 7.3 permite resumir el comportamiento


de la funcion de riesgo de una regla de decision sobre todo el espacio en
un solo n
umero, el riesgo Bayes de esa regla, que es el valor medio (seg
un la a
priori ) de la funcion de riesgo. Este resumen es u
til porque permite comparar
cualquier par de reglas de decision mediante la comparacion de sus respectivos
riesgos Bayes.
Otro resumen numerico de la funcion de riesgo usado habitualmente es el
valor maximo (o el supremo) que toma esta funcion cuando recorre .
Se dice que una regla de decision 0 es una regla minimax si
sup R(, 0 ) = nf sup R(, ).

Una regla minimax protege de la mejor forma posible (nf D ) contra la situacion
mas adversa que podra presentarse (sup ).
El criterio minimax para elegir una regla de decision es muy conservador,
pues solo tiene en cuenta para cada regla cual es su comportamiento en el
peor escenario posible, sin considerar si ese escenario adverso es o no plausible.
Este criterio considera que la naturaleza (quien decide el valor de ) es un
adversario del decisor, y lleva a este a actuar de forma estrategica. Este supuesto
es exagerado en muchos problemas estadsticos.
Por otra parte, el criterio minimax se complementa bien con el de admisibilidad. Una regla puede ser admisible porque se comporta bien en un determinado
valor de , aunque tenga un riesgo altsimo para los restantes valores. Si ademas
de admisible una regla es minimax se puede estar seguro de que el riesgo no
sera extremadamente alto en ning
un valor de . As pues, una regla que sea
minimax y admisible sera una buena regla. De hecho, las reglas minimax estan
estrechamente relacionadas con las reglas admisibles y las reglas Bayes, como
ponen de manifiesto los resultados siguientes.
Teorema 57 Supongamos que una regla de decisi
on es regla Bayes para
cierta distribuci
on a priori y que, adem
as,
R(, ) B(, ), para todo .
Entonces es minimax.
Demostraci
on: Supongamos que no fuese minimax. Entonces existira al0
guna regla tal que
sup R(, 0 ) < sup R(, ).

El riesgo Bayes de esta regla sera


B(, 0 ) sup R(, 0 ) < sup R(, ) B(, ),

7.5. REGLAS MINIMAX

235

entrando en contradiccion con el hecho de que es regla Bayes respecto a .


2
Observese que la hipotesis
R(, ) B(, ), para todo ,
es muy restrictiva. Al definirse el riesgo Bayes como
B(, ) = E (R(, ))
se tiene que en general
B(, ) sup R(, ).

De esto se sigue que la hipotesis del problema es equivalente a que


B(, ) = sup R(, ),

y eso ocurre si y solo si pone toda la probabilidad en el conjunto de puntos


en los que R(, ) es maxima. En cierto modo lo que se pide en el teorema es
que la regla R(, ) sea constante con probabilidad 1, seg
un .
La distribucion a priori cuya regla Bayes es minimax es la distribucion a
priori menos favorable. Tiene la propiedad de que si 0 es otra distribucion
0
a priori y es la regla Bayes asociada, entonces
0

B( 0 , ) B(, ).
En efecto,
0

B( 0 , ) B( 0 , ) = E0 (R(, )) E0 (B(, )) = B(, ).


Si una regla de decision tiene funcion de riesgo constante en entonces
se dice que es una regla igualadora. En muchos caso las reglas igualadoras
son minimax, como muestra el siguiente resultado, que se sigue directamente
del teorema anterior.
Corolario 10 Sea una regla igualadora que es regla Bayes para alguna distribuci
on a priori . Entonces es minimax.
Este corolario es u
til cuando se quiere probar que una regla igualadora es
minimax. Basta con encontrar una a priori respecto de la cual la regla igualadora sea regla Bayes. El siguiente resultado prueba que en ese caso tambien
basta con probar que la regla igualadora es admisible.
Teorema 58 Sea una regla igualadora. Si es admisible, entonces es minimax.

236

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION

Demostraci
on: Sea c = R(, ), que es constante en por ser igualadora. Si
no es minimax, entonces existe una regla 0 tal que
sup R(, 0 ) < sup R(, ) = c.

Para todo se tiene entonces que


R(, 0 ) sup R(, 0 ) < sup R(, ) = c = R(, ),

lo cual implica que no es admisible. El absurdo nace de suponer que no es


minimax.
2

Ejemplo 92
Sea X1 , . . . , Xn muestra aleatoria simple de X N (, 2 ). El teorema 56 muestra que la media muestral X es un estimador admisible de cuando se usa
perdida cuadratica, tanto si 2 es conocido como si no lo es.
En el caso de 2 conocida, se tiene que X es una regla igualadora:
R(, x) = V (X) =

2
.
n

As, por el teorema anterior se sigue que la media muestral X es estimador


minimax.
Sin embargo, si 2 es desconocido, este teorema no es aplicable porque X ya
no es una regla igualadora: el riesgo
R((, 2 ), x) = V (X) =

2
,
n

depende de 2 . De hecho cualquier estimador tiene


sup R((, 2 ), ) = ,
, 2

y por lo tanto cualquier estimador es minimax.


Se puede probar que si se define la perdida L((, 2 ), a) = (a )2 / 2 entonces X es admisible y minimax, con riesgo maximo finito.
.
.

El siguiente resultado muestra que bajo ciertas situaciones una regla minimax es admisible.
Teorema 59 Supongamos que es la u
nica regla minimax en el sentido de que
cualquier otra regla minimax es equivalente a . Entonces es admisible.

7.5. REGLAS MINIMAX

237

Demostraci
on: Sea 0 otra regla de decision. Si la funcion de riesgo de 0
coincide con la de , entonces 0 no es mejor que . Si no coinciden, entonces 0
no es minimax, mientras que s lo es, as que
sup R(, 0 ) > sup R(, ).

De ah se sigue que para alg


un 0 ,
R(0 , 0 ) > sup R(, ) R(0 , ),

por lo que 0 no es mejor que . Como 0 podra ser cualquier regla de decision,
se sigue que no existe otra regla que sea mejor que , luego es admisible. 2

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION

238

7.6.

Lista de problemas

Teora de la Decisi
on e inferencia estadstica. Reglas
Bayes
1. (Casella-Berger, 10.1) Sea X N (, 1) y considera el contraste de H0 :
0 frente a H0 : < 0 . Usa la funcion de perdida
L(, a0 ) = b(0 )1{<0 } , L(, a1 ) = c( 0 )2 1{0 } ,
donde b y c son constante positivas, para analizar los tres contrastes que
rechazan H0 si X < z + 0 para = ,1, ,3 y ,5, respectivamente.
a) Para b = c = 1, diguja y compara las tres funciones de riesgo.
b) Para b = 3, c = 1, diguja y compara las tres funciones de riesgo.
c) Dibuja las funciones de potencia de los tres contrastes y comparalas
con las funciones de riesgo halladas en los dos apartados anteriores.
2. (Casella-Berger, 10.2) Sea X B(5, p). Consideramos el contraste H0 :
p 1/3 frente a H0 : p > 1/3 con perdida 0-1. Dibuja y compara las
funciones de riesgo de los siguientes dos contrastes: el primero rechaza H0
si X = 0 o X = 1 y el segundo lo hace si X = 4 o X = 5.
3. (Casella-Berger, 10.3) Sea X B(10, p). Dibuja y compara las funciones
de riesgo de dos estimadores de p, 1 (x) = 1/3 y 2 (x) = x/10, bajo
funcion de perdida dada por el valor absoluto.
4. (Casella-Berger, 10.6) Sea X N (, 2 ), 2 desconocida. Para cada c 0
se define el estimador por intervalos para
C(x) = [x cs, x + cs],
donde s2 es un estimador de 2 independiente de X, tal que S 2 / 2 2 .
Se considera la funcion de perdida
L((, ), C) =

b
Long(C) IC ().

a) Prueba que la funcion de riesgo, R((, ), C), esta dada por


R((, ), C) = b(2cM ) [2P (T c) 1],
donde T t y M = E(S)/.

b) Si b 1/ 2, prueba que el valor de c que minimiza el riesgo satisface


que

+1
2

1
b=
.
2
2 + c

7.6. LISTA DE PROBLEMAS

239

c) Relaciona estos resultados con los analogos obtenidos en el caso de


que 2 sea conocida (ver ejemplo desarrollado en teora), en el sentido
siguiente: prueba que si , entonces la solucion encontrada
aqu converge a la que se tiene si 2 es conocida.
5. (Casella-Berger, 10.8) Sea X1 , . . . , Xn una m.a.s. de X N (, 2 ), con
2 conocida. Se desea estimar usando perdida cuadratica. Sea la distribucion a priori de , (), una N (, 2 ) y sea el estimador Bayes de .
Prueba las siguientes formulas para la funcion de riesgo y el riesgo Bayes.
a) Para cualesquiera constantes a y b, el estimador ( X ) = aX +b tiene
e
funcion de riesgo
R(, ) = a2

2
+ (b (1 a))2 .
n

b) Sea = 2 /(n 2 + 2 ). La funcion de riesgo del estimador de Bayes


es
2
R(, ) = (1 )2
+ 2 ( )2 .
n
c) El riesgo Bayes del estimador de Bayes es B(, ) = 2 .
6. (Casella-Berger, 10.9) Sea X N (, 1). Sea el estimador de Bayes de
bajo perdida cuadratica. Calcula y dibuja las funciones de riesgo, R(, ),
para () N (0, 1) y () N (0, 10). Indica como la distribucion a priori
afecta la funcion de riesgo del estimador de Bayes.
7. (Casella-Berger, 10.11) Se define la funcion de perdida LINEX (LINearEXponential) como
L(, a) = ec(a) c(a ) 1,
con c > 0. Es una funcion suave que permite ponderar de forma asimetrica
las desviaciones por exceso y por defecto. Variando el valor c se pueden
conseguir desde perdidas muy asimetricas hasta otras casi simetricas.
a) Dibuja L(, a) como funcion de a cuando c = 0,2, 0,5 y 1.
b) Sea X f (x|). Prueba que el estimador de Bayes de , usando
perdida LINEX y distribucion a priori , es
1
= log E(ec |X).
c
c) Sea X1 , . . . , Xn una m.a.s. de X N (, 2 ), con 2 conocida y distribucion a priori sobre no informativa: () = 1. Prueba que el
estimador de Bayes de bajo perdida LINEX es
B (X) = X

c 2
.
2n

d ) Compara los riesgos Bayes de B (X) y de X usando perdida LINEX.

240

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION
e) Compara los riesgos Bayes de B (X) y de X usando perdida cuadratica.

Admisibilidad. Reglas minimax


8. (Casella-Berger, 10.12) Sea X N (, 1) y consideremos el contraste de
H0 : 0 frente a H1 : > 0 usando perdida 0-1. Sea c el test que
rechaza H0 si X > c. Se puede probar que la clase de contrastes {c :
c } es esencialmente completa para este problema. Sea el
test que rechaza H0 si 1 < X < 2. Encuentra un test c que sea mejor que
.
9. (Casella-Berger, 10.13) Sea X N (, 1) y consideremos el contraste de
H0 : = 0 frente a H1 : 6= 0 usando perdida 0-1. Sea c,d el test
que acepta H0 si c X d. Se puede probar que la clase de contrastes
{c,d : c d } es esencialmente completa para este problema.
Sea el test que acepta H0 si 1 X 2 o 2 X 1. Encuentra un
test c,d que sea mejor que .
10. (Casella-Berger, 10.14) Supongamos un problema de decision con espacio
parametrico finito, = {1 , . . . , m }. Supongamos que es la regla Bayes
con respecto a una distribucion a priori que da probabilidad positiva a
cada posible valor de . Prueba que es admisible.
11. (Casella-Berger, 10.15) Supongamos que para una cierta distribucion a
priori , cada regla Bayes con respecto a (si es que hay mas de una) tiene
la misma funcion de riesgo. Prueba que estas reglas Bayes son admisibles.
En otras palabras, si una regla Bayes es u
nica entonces es admisible.
12. (Casella-Berger, 10.16) Sea X N (, 2 ), 2 conocida. Se desea estimar
con perdida cuadratica. Prueba que la regla (x) = 17, que estima
como 17 para cualquier valor x observado, es admisible.
13. (Casella-Berger, 10.19) Se dice que una clase de reglas de decision C es
completa minimal si es completa y ning
un subconjunto propio de C es
clase completa. Prueba que si existe una clase de reglas completa minimal,
entonces es la clase de reglas admisibles.
14. (Casella-Berger, 10.20) Sea C una clase de reglas de decision esencialmente
completa. Prueba que si 0 6 C es admisible, entonces existe una regla
C tal que y 0 son equivalentes.
15. (Casella-Berger, 10.21) Sea X B(n, p), con n conocida. Se considera la
estimacion de p con perdida del error absoluto. Sea (x) = 1/3 la regla
que estima p como 1/3, sea cual sea la observacion x.
a) Prueba que (x) es admisible.

7.6. LISTA DE PROBLEMAS

241

b) Prueba que (x) es la regla Bayes para alguna distribucion a priori


(p).
16. (Casella-Berger, 10.23) Sea X1 , . . . , Xn una m.a.s. de una poblacion con
esperanza y varianza desconocida 2 , 0 < 2 < . Se desea estimar
con perdida cuadratica.
a) Prueba que cualquier estimador de la forma aX + b, donde a > 1 y
b son constantes, es inadmisible.
b) Prueba que si a = 1 y b 6= 0 entonces el estimador es inadmisible.
c) Supongamos ahora que 2 es conocida. Prueba que un estimador de
esa forma es admisible si a < 1.
17. (Casella-Berger, 10.24) Sea X variable aleatoria uniforme discreta en los
naturales que van de 1 a IN. Sea el espacio parametrico = {1, 2, . . .}.
Se estima considerando perdida cuadratica.
a) Sea el espacio de acciones A = . Prueba que para algunas distribuciones a priori el estimador (x) = E(|x) no es el estimador Bayes
de .
b) Supongamos ahora que el espacio de acciones es A = [1, ) y que
la esperanza E(|x) existe siempre. Prueba que (x) = E(|x) es el
estimador Bayes de .
c) Prueba que 0 (x) = x es admisible, independientemente de cual de los
dos espacios de acciones anteriores sea considerado. (Nota: Prueba
que R(1, ) es mnimo si = 0 y despues usa induccion en .)
d ) El estimador 0 (x) = x es el estimador de Bayes con respecto a alguna
distribucion a priori. Con respecto a cual?
e) Prueba que existen otras reglas Bayes respecto a esa misma distribucion a priori que tienen funciones de riesgo diferentes a la de 0 .
18. (Casella-Berger, 10.26) Sea X N (, 1). Se desea contrastar H0 : 0
frente a H1 : < 0 con funcion de perdida 0-1 generalizada mediante
un test que rechace H0 si X < z + 0 . Encuentra el valor de que da
lugar a un test minimax.
19. (Casella-Berger, 10.27) Sea X1 , . . . , Xn muestra aleatoria simple de X
N (, 2 ) con 2 desconocida. Se desea estimar con la funcion de perdida
L((, 2 ), a) =

(a )2
.
2

a) Prueba que X es un estimador admisible de .


b) Prueba que X es minimax.
20. (Casella-Berger, 10.30, 10.31) Sea n , n IN, una sucesion de distribuciones a priori. Sea n la regla Bayes respecto a n .

242

A LA TEORIA DE LA DECISION

CAPITULO 7. INTRODUCCION
a) Prueba que si B(n , n ) converge a un n
umero c y es una regla de
decision tal que R(, ) = c para todo , entonces es minimax.
b) Sea X1 , . . . , Xn muestra aleatoria simple de X N (, 2 ) con 2
conocida. Se desea estimar con perdida cuadratica. Utiliza el resultado del apartado anterior para probar que X es minimax.

21. (Casella-Berger, 10.33) Sea X1 , . . . , Xn muestra aleatoria simple de X


Bern(p). Se desea estimar p con perdida cuadratica. Sea
p
Pn
Xi + n/4

pB = i=1
.
n+ n
a) Prueba que pB es una regla igualadora.
b) Prueba que pB es minimax.
c) Prueba que pB es admisible.
22. (Examen junio 2000) Sea la variable aleatoria X con distribucion uniforme
en el intervalo [0, ], con > 0 desconocido. Se desea estimar el parametro
basandose solo en una u
nica observacion de X y se plantea este problema
como un problema de decision. La distribucion a priori sobre tiene como
funcion de densidad
() = e I(0,) .
a) Consideramos solo las reglas de decision que son funciones de la observacion x de la forma dk (x) = kx, con k 1. Si la funcion de
perdida es
L(, a) = |a |
calcula la funcion de riesgo R(, dk ). Es posible encontrar una regla
dk que haga mnimo el riesgo para cualquier valor de ?
b) Encuentra la regla Bayes. (Indicaci
on: Usa directamente la definicion de regla Bayes como aquella que hace mnimo el error Bayes.)
c) Consideremos ahora perdida cuadratica. Encuentra la regla Bayes.
d ) Si ahora se permite que cualquier funcion d(x) sea una regla de decision y se considera perdida cuadratica, encuentra la regla Bayes.
23. (Examen julio 2000) Sea X B(n = 2, p). Se ha de decidir a partir de una
observacion de X si el parametro p es 1/4 o 1/2. La funcion de perdida es
0-1.
a) Da la lista de las ocho posibles reglas de decision e indica los correspondientes valores de la funcion de riesgo.
b) Indica cuales de las ocho reglas son inadmisibles.
c) Encuentra la regla Bayes correspondiente a una distribucion a priori
con funcion de probabilidad
2
1
(1/4) = , (1/2) = .
3
3
d ) Encuentra la regla minimax para este problema.

Referencias
Arnold, S. F. (1990). Mathematical Statistics. Prentice-Hall.
Bertsekas, D. P. (1999). Nonlinear Programming (Second ed.). Athenea Scientific.
Bickel, P. J. y K. A. Doksum (1977). Mathematical statistics : basic ideas and
selected topics. Prentice Hall.
Casella, G. y R.L Berger (1990). Statistical Inference. Duxbury Press.
Cristobal, J.A (1992). Inferencia Estadstica. Universidad de Zaragoza.
DeGroot, M. H. (1988). Probabilidad y Estadstica. Addison-Wesley.
Garca-Nogales, A. (1998). Estadstica Matematica. Universidad de Extremadura.
Garthwaite, P. H., I. T. Jollife y B. Jones (1995). Statistical Inference. PrenticeHall.
Lehmann, E. L. (1986). Testing Statistical Hypotheses (2nd ed.). Wiley.
Pe
na, D. (1995). Estadstica: Modelos y Metodos, Volumen 2: Modelos lineales y
series temporales. Alianza Universidad, Madrid. Segunda edicion revisada.
Rice, J. A. (1995). Mathematical Statistics and Data Analysis (Second ed.).
Duxbury Press.
Sanz, M. (1999). Probabilitats. Barcelona: EUB.
Schervish, M.J. (1995). Theory of Statistics. Springer.
Shorack, G.R. y J.A. Wellner (1986). Empirical Processes with Applications to
Statistics. John Wiley & Sons.
Silvey, S.D. (1983). Statistical Inference. Chapman and Hall.
Spivak, M. (1970). Calculo infinitesimal. Barcelona: Reverte.
Velez, R. y A. Garca (1993). Principios de Inferencia Estadstica. UNED.

243

También podría gustarte