Está en la página 1de 253

Curso de Inferencia y Decisión

Guadalupe Gómez y Pedro Delicado


Departament d’Estadı́stica i Investigació Operativa

Universitat Politècnica de Catalunya

Enero de 2006
Índice abreviado

Capı́tulo 1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Capı́tulo 2. Principios para reducir los datos . . . . . . . . . . . . . . . . . . . . 25

Capı́tulo 3. Estimación puntual 1: Construcción de estimadores . 45

Capı́tulo 4. Estimación puntual 2: Evaluación de estimadores . . . . 87

Capı́tulo 5. Contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

Capı́tulo 6. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 183

Capı́tulo 7. Introducción a la Teorı́a de la Decisión . . . . . . . . . . . . . 215

Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

i
Índice general

Índice abreviado I

Índice general II

Prólogo VII

1. Introducción 1
1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . . 3
1.2.2. Distribución de una variable aleatoria. Funciones de dis-
tribución, de probabilidad y de densidad . . . . . . . . . . 4
1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . . 5
1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . 6
1.2.5. Modelo paramétrico . . . . . . . . . . . . . . . . . . . . . 7
1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . . 8
1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . . 12
1.3.1. Familias de localización y escala . . . . . . . . . . . . . . 12
1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . . 13
1.4. Muestreo de una distribución normal . . . . . . . . . . . . . . . . 13
1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . . 16
1.5. Leyes de los Grandes Números y Teorema Central del Lı́mite . . 18
1.5.1. Leyes de los grandes números . . . . . . . . . . . . . . . . 18
1.5.2. Teorema central del lı́mite . . . . . . . . . . . . . . . . . . 19
1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . . 20
1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 21

iii
iv ÍNDICE GENERAL

2. Principios para reducir los datos 25


2.1. Principio de suficiencia . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.1. Estadı́sticos suficientes r-dimensionales . . . . . . . . . . 31
2.1.2. Estadı́sticos suficientes minimales . . . . . . . . . . . . . . 32
2.1.3. Estadı́sticos ancilares . . . . . . . . . . . . . . . . . . . . . 35
2.1.4. Estadı́sticos completos . . . . . . . . . . . . . . . . . . . . 36
2.2. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . . 38
2.3. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3. Estimación puntual 1: Construcción de estimadores 45


3.1. La función de distribución empı́rica y el método de los momentos 45
3.1.1. Teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . . 47
3.1.2. Principio de sustitución . . . . . . . . . . . . . . . . . . . 50
3.1.3. El método de los momentos . . . . . . . . . . . . . . . . . 51
3.2. Estimadores de máxima verosimilitud . . . . . . . . . . . . . . . 53
3.2.1. Cálculo del estimador máximo verosı́mil . . . . . . . . . . 56
3.2.2. Cálculo numérico de los estimadores de máxima verosimi-
litud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2.3. Principio de invariancia del estimador máximo verosı́mil . 70
3.3. Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 71
3.3.1. Distribuciones a priori y a posteriori . . . . . . . . . . . . 71
3.3.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . . 75
3.3.3. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . . 79
3.3.4. Estimadores de Bayes . . . . . . . . . . . . . . . . . . . . 80
3.4. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4. Estimación puntual 2: Evaluación de estimadores 87


4.1. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . . 87
4.1.1. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . . 91
4.2. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . . 94
4.2.1. Teorema de Cramér-Rao. Información de Fisher . . . . . . 96
4.2.2. Versión multivariante del teorema de Cramér-Rao. . . . . 105
4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-Scheffé 108
ÍNDICE GENERAL v

4.3. Comportamiento asintótico . . . . . . . . . . . . . . . . . . . . . 114


4.3.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.2. Normalidad asintótica . . . . . . . . . . . . . . . . . . . . 116
4.3.3. Método delta . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.3.4. Eficiencia relativa asintótica . . . . . . . . . . . . . . . . . 124
4.4. Teorı́a asintótica para el estimador máximo verosı́mil . . . . . . . 125
4.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 136

5. Contrastes de hipótesis 141


5.1. Definiciones básicas. Contraste de hipótesis simples . . . . . . . . 141
5.1.1. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . 142
5.1.2. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 144
5.1.3. Conclusiones de un contraste: el p-valor . . . . . . . . . . 148
5.2. Contrastes uniformemente más potentes . . . . . . . . . . . . . . 149
5.2.1. Lema de Neyman-Pearson para alternativas compuestas . 150
5.2.2. Razón de verosimilitud monótona. Teorema de Karlin-Rubin152
5.3. Contrastes insesgados. Contrastes localmente más potentes . . . 155
5.4. Consistencia y eficiencia para contrastes . . . . . . . . . . . . . . 157
5.5. Test de la razón de verosimilitudes . . . . . . . . . . . . . . . . . 158
5.5.1. Relación con el Lema de Neyman-Pearson. . . . . . . . . 159
5.5.2. Propiedades de los contrastes de razón de verosimilitudes 160
5.6. Contrastes relacionados con el de máxima verosimilitud . . . . . 163
5.6.1. Test del score. . . . . . . . . . . . . . . . . . . . . . . . . 163
5.6.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . 164
5.6.3. Contrastes en presencia de parámetros secundarios. . . . . 166
5.7. Contrastes bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 170
5.7.1. Ventaja a priori y a posteriori. Factor de Bayes . . . . . . 171
5.7.2. Contraste de dos hipótesis simples. . . . . . . . . . . . . . 172
5.7.3. Contraste de dos hipótesis compuestas. . . . . . . . . . . 173
5.7.4. Contraste de hipótesis nula simple frente a alternativa
compuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.8. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 177
vi ÍNDICE GENERAL

6. Estimación por intervalos 183


6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . 183
6.2. Métodos para construir intervalos de confianza . . . . . . . . . . 185
6.2.1. Inversión de un contraste de hipótesis . . . . . . . . . . . 185
6.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . . . 189
6.2.3. Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . 193
6.2.4. Intervalos de verosimilitud . . . . . . . . . . . . . . . . . . 195
6.3. Evaluación de estimadores por intervalos . . . . . . . . . . . . . . 196
6.3.1. Intervalos de longitud mı́nima . . . . . . . . . . . . . . . . 197
6.3.2. Relación con contrastes de hipótesis y optimalidad . . . . 200
6.4. Intervalos de confianza asintóticos . . . . . . . . . . . . . . . . . 202
6.4.1. Intervalos basados en el estimador de máxima verosimilitud203
6.4.2. Intervalos basados en la función score. . . . . . . . . . . . 205
6.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 210

7. Introducción a la Teorı́a de la Decisión 215


7.1. Elementos básicos en un problema de decisión . . . . . . . . . . . 215
7.1.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 217
7.2. Teorı́a de la decisión e inferencia estadı́stica . . . . . . . . . . . . 218
7.2.1. Estimación puntual. . . . . . . . . . . . . . . . . . . . . . 218
7.2.2. Contrastes de hipótesis. . . . . . . . . . . . . . . . . . . . 221
7.2.3. Estimación por intervalos. . . . . . . . . . . . . . . . . . . 223
7.3. El problema de decisión bayesiano . . . . . . . . . . . . . . . . . 225
7.4. Admisibilidad de las reglas de decisión . . . . . . . . . . . . . . . 229
7.4.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 229
7.4.2. Búsqueda de reglas admisibles y clases completas. . . . . 230
7.4.3. Admisibilidad de la media muestral bajo normalidad. . . 232
7.5. Reglas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
7.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 238

Referencias 243
Prólogo

Este documento es el fruto de nuestra experiencia como docentes de la asig-


natura Inferencia y Decisión (Licenciatura en Ciencias y Técnicas Estadı́sticas,
Universitat Politècnica de Catalunya) durante los cursos 99-03.
Cuando se preparó por primera vez la docencia de Inferencia y Decisión se
pensó en seguir lo más fielmente posible algún libro de texto que por contenidos
y profundidad se adaptase a los objetivos de esta asignatura. Ante la inexis-
tencia de libros en castellano o catalán dirigidos especı́ficamente para alumnos
de Inferencia y Decisión, se optó por usar como texto de referencia el libro de
Casella y Berger (1990). Durante el desarrollo del curso se vio en varias ocasio-
nes la necesidad de completarlo con otros libros. Ante esta situación (ausencia
de textos en castellano y cierta insatisfacción con el libro elegido) consideramos
conveniente escribir este documento. En él se recogen y amplı́an los apuntes pre-
parados para las clases teóricas y las listas de problemas resueltas en las clases
prácticas.
El objetivo principal de la asignatura Inferencia y Decisión es proporcionar
una sólida base teórica de los fundamentos de la Inferencia Estadı́stica y de la
Teorı́a de la Decisión. Confiamos en que este Curso de Inferencia y Decisión
contribuya a lograrlo.

vii
Capı́tulo 1

Introducción

Referencias: Casella-Berger: 1.4, 2.1, 2.2, 2.3, capı́tulo 3, 5.1, 5.2,


5.4.

En este curso de Inferencia y Decisión se desarrollan ideas y herramientas


matemáticas que la estadı́stica utiliza para analizar datos. Se estudiarán técnicas
para estimar parámetros, contrastar hipótesis y tomar decisiones. Es importante
no perder de vista que en la aplicación de la estadı́stica se necesita mucho más
que el conocimiento matemático. La recogida y la interpretación de los datos es
un arte. Requiere sentido común y puede llegar a plantear cuestiones filosóficas.

Ejemplo 1
Se desea estimar la proporción de estudiantes universitarios que no se duchan
desde hace dos dı́as o más. Supongamos que podemos entrevistar a 20 estudian-
tes.

¿Qué se entiende por estudiante?

¿Cómo se puede asegurar que la muestra sea aleatoria?

¿Querrán contestar a la pregunta? Problema de falta de respuesta (missing


data).

¿Dirán la verdad? Problema de error de medida (measurement error).

Si resulta que entre los 20 estudiantes no hay ninguna mujer, ¿estaremos


satisfechos con el estimador que obtengamos?

Supongamos que p̂ = 5/20. ¿Qué valores son plausibles para p?

En este caso el problema se plantea en términos de la variable aleatoria

X = número de personas que no se ducharon ayer ni hoy ∼ B(20, p)

1
2 CAPÍTULO 1. INTRODUCCIÓN

y es un ejemplo de estimación en un contexto de inferencia paramétrica.


. .

Ejemplo 2
Estudio de la aspirina.
Con el fin de determinar si la aspirina tiene algún efecto preventivo en los ataques
cardı́acos se desarrolló un estudio controlado entre médicos (aproximadamente
22.000) entre 40 y 84 años que tomaron bien una aspirina (325 mg.) bien un
placebo durante cinco años. Los resultados del estudio fueron los siguientes:

Sufren ataques No sufren Ataques por


cardı́acos ataques cardı́acos cada 1000 personas
Aspirina 104 10933 9.42
Placebo 189 10845 17.13

¿Hay suficiente evidencia para concluir que la aspirina protege contra los ataque
de corazón? Se plantea aquı́ un problema de decisión o el contraste de
una hipótesis.
. .

1.1. Datos y modelos

Los datos que aparecen en los problemas estadı́sticos pueden suponerse pro-
venientes de un experimento, es decir, son valores en un espacio muestral.

Experimento: Término de acepción muy amplia que incluye cualquier proce-


dimiento que produce datos.

Espacio muestral: Conjunto de todos los posibles resultados de un experi-


mento.

Ejemplo 3
Se desea estudiar la proporción de enfermos que responde positivamente a una
nueva terapia.
Se podrı́a pensar en administrar la medicina a todos los enfermos que lo
deseen y utilizar como resultado del estudio las respuestas de los pacientes tra-
tados con la nueva terapia, aunque esta muestra responde a un experimento
no controlado y puede ser difı́cil obtener resultados extrapolables a toda la po-
blación. Serı́a más aconsejable identificar la población a la que está dirigida la
1.2. VARIABLE ALEATORIA 3

nueva terapia y tratar a un subconjunto aleatorio de tamaño n de esa población


relevante con la nueva medicina.
En los dos casos el espacio muestral es una secuencia de responde/no respon-
de. En el primer caso el número de pacientes es variable y el espacio muestral
deberı́a incluir las secuencias de todas las posibles longitudes (tantas como posi-
bles números de pacientes), mientras que en el segundo caso el espacio muestral
consistirá en las secuencias de longitud n.
. .

Definimos un modelo para un experimento como una colección de distribu-


ciones de probabilidad sobre el espacio muestral.

Ejemplo 3, página 2. Continuación. Sea p la proporción de individuos que


responden positivamente a la nueva terapia. Hay una probabilidad p de observar
una respuesta positiva en cada caso muestreado. Si el tamaño de la población
de referencia es mucho más grande que el de la muestra, n, es razonable suponer
que las respuestas de los individuos son independientes. Entonces el modelo es
n
Y
P = {P (X1 = x1 , . . . , Xn = xn ) = pxi (1 − p)1−xi , 0 < p < 1}.
i=1

Se trata de un modelo paramétrico de dimensión finita. El espacio paramétrico


es {p : 0 < p < 1} ⊂ IR.
Los problemas de inferencia en este modelo consistirán en hacer afirmacio-
nes (en forma de estimación puntual, estimación por intervalos o contrastes de
hipótesis) sobre cuán verosı́miles son los posibles valores del parámetro p.
. .

1.2. Variable aleatoria

1.2.1. Variables y vectores aleatorios

Consideramos un experimento aleatorio cuyos resultados pertenecen al es-


pacio muestral Ω. Modelizamos este proceso suponiendo que existe una terna
(Ω, A, P), donde Ω es el espacio muestral, P(Ω) es el conjunto de partes de Ω,
A ⊆ P(Ω) es una σ-álgebra, y P : A −→ [0, 1] es una medida de probabilidad
que refleja las caracterı́sticas aleatorias del experimento realizado. A esa terna
se le llama espacio de probabilidad.
Los resultados de un experimento aleatorio no son analizados en bruto, sino
que se les da una representación numérica que facilita su tratamiento. Esto se
4 CAPÍTULO 1. INTRODUCCIÓN

hace mediante la definición de variables aleatorias. Dado un espacio de


probabilidad (Ω, A, P) y el espacio medible (IR, B), donde B es la σ-álgebra de
Borel definida sobre la recta real IR, una variable aleatoria es una función

X : Ω −→ IR

medible, es decir, X −1 (B) ∈ A para todo B ∈ B.

Si el espacio muestral Ω es finito o numerable, diremos que es un espacio


discreto y las variables aleatorias asociadas al experimento normalmente es-
tarán definidas como X : Ω −→ Z. Si Ω es no numerable, entonces diremos que
es un espacio continuo y X : Ω −→ IR.

A partir de un mismo experimento se pueden definir diferentes variables


aleatorias. Por ejemplo, si lanzamos dos monedas simultáneamente, el espacio
muestral asociado a este experimento es Ω = {CC, C+, +C, ++}. Se pueden
definir diversas variables aleatorias:

X1 = número de caras, X2 = número de cruces,

X3 = cuadrado del número de caras = X12 , etc.

Usualmente los datos están modelizados por un vector de variables aleatorias


X = (X1 , . . . , Xn ), donde las Xi toman valores en Z o en IR. A X le llamare-
e e
mos vector aleatorio o también variable aleatoria multidimensional.

1.2.2. Distribución de una variable aleatoria. Funciones de


distribución, de probabilidad y de densidad

La realización de un experimento aleatorio da lugar a un resultado ω ∈ Ω


que es aleatorio. Por lo tanto X(ω) es un valor de IR también aleatorio. Es decir,
la variable aleatoria X induce una medida de probabilidad en IR. A esa medida
de probabilidad se le llama distribución de X o ley de X. Una de las formas
de caracterizar la distribución de una variable aleatoria es dar su función de
distribución FX , que está definida ası́:

FX (x) = P(X ≤ x) = P({ω ∈ Ω : X(ω) ≤ x}) = P(X −1 (−∞, x]).

En el caso de que X sea una variable aleatoria discreta, es decir, en el


caso de que X sólo tome una cantidad finita o numerable de valores de IR, su
distribución también puede caracterizarse por su función de probabilidad
(o función de masa de probabilidad) fX , definida como

fX : IR −→ [0, 1], fX (x) = P(X = x).

Esa función sólo es no nula en un conjunto finito o numerable. Supondremos en


adelante, sin pérdida de generalidad, que ese conjunto está contenido en Z. A
1.2. VARIABLE ALEATORIA 5

partir de la función de masa de probabilidad se puede calcular la probabilidad


de que la variable aleatoria X tome valores en cualquier elemento A de B:
X
P(X ∈ A) = fX (x).
x∈A

La función de distribución y la función de masa de probabilidad se relacionan


de la siguiente forma:
X
FX (x) = fX (u), fX (x) = FX (x) − FX (x− ),
u≤x

donde FX (x− ) = lı́mh−→0+ F (x − h).


Una clase relevante de variables aleatorias no discretas son las que poseen
función de densidad, es decir, aquellas cuya distribución de probabilidad
puede caracterizarse por una función fX (x) ≥ 0 que cumple que
Z
P(X ∈ A) = fX (x)dx, para todo A ∈ B.
x∈A

La relación entre FX y fX es la siguiente:


Z x
d
FX (x) = fX (u)du, fX (x) = FX (x)
−∞ dx
salvo quizás en un número finito de puntos x ∈ IR. Las variables aleatorias que
poseen función de densidad se llaman variables aleatorias absolutamente
continuas. Abusando del lenguaje, aquı́ nos referiremos a ellas como variables
aleatorias continuas.

1.2.3. Esperanza y varianza

Si se desea describir totalmente la distribución de probabilidad de una varia-


ble aleatoria X acabamos de ver que podemos dar su función de distribución o
su función de masa o de densidad, según el caso. Una descripción parcial puede
efectuarse calculando algunas caracterı́sticas de la variable aleatoria X, como
por ejemplo medidas de posición o de dispersión. Estudiaremos algunas de ellas.
Se define la esperanza de una variable aleatoria X como la integral de
Lebesgue de X: Z
E(X) = X(w)dP(w).

En el caso de variables aleatorias discretas la esperanza puede calcularse como
X X X
E(X) = X(ω)P(ω) = kP (X = k) = kfX (k).
w∈Ω k∈Z k∈Z

Por otro lado, la esperanza de una variable aleatoria continua se puede calcular
ası́: Z
E(X) = xfX (x)dx.
IR
6 CAPÍTULO 1. INTRODUCCIÓN

La esperanza de una variable aleatoria X es una medida de posición de X: es


el centro de gravedad de la distribución de probabilidad de X.
Si h es una función medible h : IR −→ IR, entonces Y = h(X) es también
variable aleatoria y su esperanza se puede calcular a partir de la distribución de
X: Z
E(h(X)) = h(X(ω))dP(ω)

que en el caso de que X sea discreta puede reescribirse como
X
E(h(X)) = h(k)fX (k).
k∈Z

Si X es una variable aleatoria continua entonces


Z
E(h(X)) = h(x)fX (x)dx.
IR

Si existe µ = E(X) y es finita puede definirse una medida de dispersión de


la variable aleatoria X a partir de una transformación h de X. Es lo que se
denomina varianza de X y se define ası́:

V (X) = E((X − µ)2 ) = E(X 2 ) − µ2 = E(X 2 ) − (E(X)2 ).

1.2.4. Muestra aleatoria simple

Sea X = (X1 , . . . , Xn ) un vector aleatorio. Se dice que sus componentes


e
(X1 , . . . , Xn ) son independientes si

P (X1 ≤ x1 , . . . , Xn ≤ xn ) = P (X1 ≤ x1 ) · · · P (Xn ≤ xn )

para cualesquiera valores x1 , . . . , xn . Si además la distribución de las n variables


aleatorias Xi es la misma, se dice que X1 , . . . , Xn son variables aleatorias
independientes e idénticamente distribuidas, o bien que son v.a.i.i.d o
simplemente i.i.d.
Si X = (X1 , . . . , Xn ) y X1 , . . . , Xn son i.i.d. con función de densidad (en su
e
caso, de masa) fX , la distribución conjunta de X viene dada por la función de
e
densidad (en su caso, de masa) conjunta
Yn
f ( x ) = f(X1 ,...,Xn ) (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ) = fX (xi ).
X e
e i=1

A un vector X = (X1 , . . . , Xn ) de v.a.i.i.d. con distribución igual a la de


e
la variable aleatoria X se le denomina también muestra aleatoria simple
de X (m.a.s de X). Esto responde al hecho siguiente. Supongamos que se de-
sea estudiar la caracterı́stica X de los individuos de una población de tamaño
infinito. Definimos el experimento consistente en elegir aleatoriamente un indi-
viduo de la población y llamamos X al valor de la caracterı́stica de interés en
1.2. VARIABLE ALEATORIA 7

ese individuo. X es una variable aleatoria. Si definimos un nuevo experimento


consistente en elegir una muestra aleatoria de n individuos y se anota Xi , el
valor de la caracterı́stica en el individuo i-ésimo, entonces X = (X1 , . . . , Xn )
e
es una colección de n v.a.i.i.d. con distribución igual a la de la variable aleatoria
X, es decir, X1 , . . . , Xn es una m.a.s. de X.

1.2.5. Modelo paramétrico

Usualmente la ley de probabilidad de una variable aleatoria se supone pertene-


ciente a un modelo matemático que depende sólo de un número finito de pará-
metros:
fX ∈ {f (x|θ) : θ ∈ Θ ⊆ IRk }.

Escribiremos alternativamente f (x; θ), f (x|θ) o fθ (x). El conjunto de distribu-


ciones dadas por fθ (x), θ ∈ Θ se llama familia paramétrica de distribucio-
nes. Θ es el conjunto de parámetros.

La correspondiente distribución conjunta de una muestra aleatoria simple de


X viene dada por la función de densidad (o función de masa de probabilidad,
según el caso)
Yn
f ( x |θ) = fθ (xi ).
X e
e i=1

A esta función la llamaremos función de verosimilitud de la muestra X .


e
Utilizaremos este término para referirnos indistintamente a la función de densi-
dad conjunta (si las variables aleatorias son continuas) o a la función de masa
conjunta (si son discretas).

Ejemplo 4
Si X ∼ N (µ, σ 2 ),
1 1 2
fX (x|µ, σ 2 ) = √ e− 2σ2 (x−µ) .
2πσ 2
La distribución de X es conocida salvo por dos parámetros, µ y σ 2 . En este caso
k = 2, θ = (µ, σ 2 )2 y Θ = IR × IR+ ⊂ IR2 .

La distribución conjunta de n v.a.i.i.d. con la misma distribución es

1 Pn 1
− 12 (xi −µ)2 − 1
||x−1n µ||2
f ( x |µ, σ 2 ) = e 2σ i=1 = e (2πσ2 )n
X e 2
(2πσ ) n 2
(2πσ ) n
e
donde 1n = (1, . . . , 1)t ∈ IRn .
. .
8 CAPÍTULO 1. INTRODUCCIÓN

1.2.6. Sumas de variables aleatorias

Cuando se obtiene una muestra aleatoria simple X1 , . . . , Xn normalmente se


calculan a partir de ellas cantidades que resumen los valores observados. Cual-
quiera de estos resúmenes se puede expresar como una función T (x1 , . . . , xn ) de-
finida en el espacio X n ⊆ IRn donde están las imágenes del vector (X1 , . . . , Xn ).
Esta función T puede devolver valores de IR, IR2 o, en general, IRk .

Ejemplo 5

n
X
T (X1 , . . . , Xn ) = Xi , X, X + 3, mı́n{X1 , . . . , Xn }
i=1
Xn n
X
T (X1 , . . . , Xn ) = ( Xi , (Xi − X)2 )
i=1 i=1
n
X n
X
T (X1 , . . . , Xn ) = (mı́n{X1 , . . . , Xn }, Xi , (Xi − X)2 )
i=1 i=1
T (X1 , . . . , Xn ) = (X1 , . . . , Xn )

. .

Las funciones T que dependen de una muestra aleatoria simple X1 . . . , Xn


se llaman estadı́sticos. Dependen de los valores observados, pero no de los
parámetros desconocidos que determinan la distribución de Xi . Cuando un es-
tadı́stico T es utilizado con el propósito de estimar un parámetro θ diremos que
T es un estimador de θ.

Ejemplo 6
T (X1 , . . . , Xn ) = X es un estimador de µ = E(X).
. .

En inferencia estadı́stica interesa saber qué estadı́sticos son suficientes para


recoger toda la información que la muestra aporta sobre la distribución de la
variable aleatoria X muestreada. La respuesta depende de la distribución de X.
Dado que X = (X1 , . . . , Xn ) es una variable aleatoria, se tiene que Y =
e
T (X1 , . . . , Xn ) será también una variable aleatoria. La ley de probabilidad de Y
se denomina distribución en el muestreo de Y (o distribución muestral).
Los siguientes resultados dan información sobre algunas caracterı́sticas de
estadı́sticos definidos a partir de sumas de variables aleatorias.
1.2. VARIABLE ALEATORIA 9

Pn
Teorema 1 Sean x1 , . . . , xn n números reales, sea x = n1 i=1 xi su media
Pn
aritmética y sea S 2 = i=1 (xi − x)2 /(n − 1) su varianza muestral.
Pn Pn
(a) mı́na − a)2 = i=1 (xi − x)2 .
i=1 (xi
Pn Pn
(b) (n − 1)S 2 = i=1 (xi − x)2 = i=1 x2i − nx2 .

Demostración:

(a)
n
X n
X
(xi − a)2 = (xi − x + x − a)2 =
i=1 i=1
n
X n
X n
X
(xi − x)2 + (x − a)2 + 2 (xi − x)(x − a) =
i=1 i=1 i=1
n
X n
X n
X
(xi − x)2 + (x − a)2 + 2(x − a) (xi − x) =
i=1 i=1 i=1
Pn
(observar que i=1 (xi − x) = 0)
n
X n
X n
X
(xi − x)2 + (x − a)2 ≥ (xi − x)2 .
i=1 i=1 i=1

Por lo tanto el mı́nimo se alcanza si a = x.

(b) Trivial.

Lema 1 Sea X1 , . . . , Xn una muestra aleatoria simple de X y sea g(x) una


función tal que E(g(X)) y V (g(X)) existen. Entonces,
Pn
(a) E( i=1 g(Xi )) = nE(g(X)),
Pn
(b) V ( i=1 g(Xi )) = nV (g(X)),

Demostración: (a) Trivial, por propiedades básicas del operador esperanza.


(b) Trivial, observando que las variables aleatorias g(Xi ) son independientes y
aplicando propiedades básicas del operador varianza. 2

Teorema 2 Sea X1 , . . . , Xn una muestra aleatoria simple de una población X


con esperanza µ y varianza σ 2 < ∞. Sean
n n
1X 1 X
X= Xi , S 2 = (Xi − X)2 ,
n i=1 n − 1 i=1

la media y la varianza muestrales, respectivamente. Entonces,


10 CAPÍTULO 1. INTRODUCCIÓN

(a) E(X) = µ,

(b) V (X) = σ 2 /n,

(c) E(S 2 ) = σ 2 .

Demostración: (a), (b) Triviales, por el lema anterior y las propiedades básicas
de la esperanza y la varianza.
(c)
n
X 2 2
(n − 1)S 2 = Xi2 − nX =⇒ (n − 1)E(S 2 ) = nE(X 2 ) − nE(X ) =
i=1

1
n(V (X) + E(X)2 ) − n(V (X) + E(X)2 ) = nσ 2 + nµ2 − n σ 2 − nµ2 =
n
(n − 1)σ 2 =⇒ E(S 2 ) = σ 2 .
2

El siguiente resultado expresa la función generatriz de momentos (f.g.m.) de


la media muestral en función de la f.g.m. de la variable aleatoria muestreada.
Es muy útil cuando esta última f.g.m. es conocida, porque permite determinar
completamente la distribución de la media muestral.

Teorema 3 Sea X1 , . . . , Xn una muestra aleatoria simple de una población X


con función generatriz de momentos MX (t). La función generatriz de momentos
de X es
n
MX (t) = (MX (t/n)) .

Demostración: La f.g.m. de X se define como MX (t) = E(etX ) para los valores


de t para los que esa esperanza existe. Ası́,
à n !
³ ´ ³ t Pn ´ Y t
tX Xi X
MX (t) = E e =E e n i=1 =E en i
=
i=1

(independencia de las v.a. Xi )


n
Y ³ t
´ n
Y
E e n Xi = MXi (t/n) =
i=1 i=1

(las Xi son idénticamente distribuidas)


n
Y n
MX (t/n) = (MX (t/n)) .
i=1

2
1.2. VARIABLE ALEATORIA 11

Ejemplo 7
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ). Entonces,

σ 2 t2
MX (t) = exp(µt + ).
2
Ası́,
µ ¶n
µt σ 2 (t/n)2 σ 2 t2
MX (t) = exp( + ) = exp(µt + )
n 2 2n
y, por tanto, X ∼ N (µ, σ 2 /n).
. .

Ejemplo 8
X1 , . . . , Xn m.a.s. de X ∼ γ(α, β). Entonces,

xα−1 e−x/β
fX (x) = , x > 0, E(X) = αβ, V (X) = αβ 2 ,
Γ(α)β α
µ ¶α
1 1
MX (t) = , t< .
1 − βt β
Ası́,
µµ ¶α ¶n µ ¶αn
1 1
MX (t) = =
1 − βt/n 1 − (β/n)t
y, por lo tanto, X ∼ γ(nα, β/n).
Un caso particular de distribución gamma es la distribución exponencial.
Si X es exponencial de media µ, entonces X ∼ γ(1, µ). Ası́ que la media de
exponenciales de media µ será una γ(n, µ/n) que tendrá

µ µ2 µ2
E(X) = n = µ, V (X)n 2 = .
n n n

. .

Si el Teorema 3 no se puede aplicar porque o bien la f.g.m. no existe, o bien


porque la f.g.m resultante no se corresponde con ninguna distribución conocida,
siempre es posible intentar alguna de las dos estrategias siguientes para tratar
de determinar la distribución de la media muestral. En primer lugar, se puede
trabajar con la función caracterı́stica que siempre existe. En segundo lugar se
puede tratar de calcular directamente la función de densidad de la suma como
la convolución de las n funciones de densidad (ver el ejemplo de la distribución
de Cauchy, Casella-Berger, páginas 210-211).
12 CAPÍTULO 1. INTRODUCCIÓN

1.3. Dos familias de distribuciones importantes

1.3.1. Familias de localización y escala

Sea Z una variable aleatoria con distribución conocida. A la colección de


distribuciones de probabilidad de las variables aleatorias X que se pueden definir
de la forma
X = µ + σZ, µ, σ ∈ IR σ > 0
se la denomina familia de localización y escala construida a partir de la
distribución de Z.
En particular, si Z es variable aleatoria absolutamente continua con función
de densidad f (x), la familia de funciones de densidad
½ µ ¶ ¾
1 x−µ
f (x|µ, σ) = f : µ ∈ IR, σ > 0
σ σ

forman la familia de localización y escala de f (x).


El parámetro de escala dilata la distribución si σ > 1 y la contrae si σ < 1.
El parámetro de posición µ traslada la densidad |µ| unidades a la derecha (si
µ > 0) o a la izquierda (si µ < 0).

Proposición 1
(a) Z ∼ f (x) ⇐⇒ X = σZ + µ ∼ f (x|µ, σ).
(b) X ∼ f (x|µ, σ) ⇐⇒ X−µ
σ ∼ f (x).

Demostración: Trivial, aplicando la fórmula de la función de densidad de la


transformación biyectiva de una variable aleatoria univariante. 2

Ejemplo 9
Las siguientes son algunas de las familias de distribuciones usuales que son de
localización y escala y se parametrizan habitualmente como tales: normal, doble
exponencial, Cauchy. La distribución uniforme U (a, b) también es una familia
de localización y escala. En este caso µ = (a + b)/2 y σ = b − a podrı́an servir
como parámetros de posición y escala.
. .

Corolario 1 Sea Z1 , . . . , Zn una m.a.s. de Z ∼ f (x) y sea X1 , . . . , Xn una


¡ ¢
m.a.s. de X ∼ f (x|µ, σ). Si la ley de Z es g(z) entonces la ley de X es σ1 g x−µ
σ .

Demostración: Observar que Xi ∼ σZi + µ, luego X ∼ σZ + µ. Aplicando la


proposición anterior se tiene el resultado. 2
1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 13

1.3.2. Familias exponenciales

X pertenece a la familia exponencial si su función de densidad o función de


masa de probabilidad depende de un parámetro θ ∈ Θ ⊆ IRp y puede escribirse
ası́:  
Xk
f (x|θ) = h(x)c(θ) exp  wj (θ)tj (x)
j=1

para ciertas funciones h, c, wj y tj . Si p = k y wj (θ) = θj , j = 1, . . . , p, entonces


diremos que la familia exponencial está parametrizada de forma natural. En ese
caso, el espacio paramétrico natural de esa familia es el conjunto
 
Z ∞ X k
Θ = {θ ∈ IRk : h(x) exp  θj tj (x) dx < ∞}.
−∞ j=1

Si X1 , . . . , Xn es muestra aleatoria simple de X, en la familia exponencial,


entonces
à n !  
Y Xk n
X
n
f (x1 , . . . , xn |θ) = h(xi ) (c(θ)) exp  wj (θ) tj (xi ) .
i=1 j=1 i=1

Pn
Observar que si definimos Tj (X1 , . . . , Xn ) = i=1 tj (Xi ), j = 1, . . . , p, en-
tonces la distribución de (T1 , . . . , Tk ) viene dada por
 
k
X
n
fT (u1 , . . . , uk |θ) = H(u1 , . . . , uk ) (c(θ)) exp  wj (θ)uj  ,
j=1

es decir, T también pertenece a la familia exponencial.

Ejemplo 10
Ejemplos de familias exponenciales son éstos: binomial, geométrica, Poisson, bi-
nomial negativa, exponencial, normal, gamma, beta.
. .

1.4. Muestreo de una distribución normal

En el resto del tema supondremos que X1 , . . . , Xn es una m.a.s. de una


N (µ, σ 2 ).

Teorema 4 (Teorema de Fisher) (a) X y Sn2 son variables aleatorias in-


dependientes.
14 CAPÍTULO 1. INTRODUCCIÓN

(b) X ∼ N (µ, σ 2 /n).

(c) (n − 1)Sn2 /σ 2 ∼ χ2n−1 .

Demostración: Suponemos, sin pérdida de generalidad, que µ = 0 y σ = 1,


puesto que la familia normal es una familia de posición y escala.
(b) Se ha demostrado en el ejemplo 7.
(a) Obsérvese que
n
X n
X
(n − 1)Sn2 = 2
(Xi − X) = (X1 − X) + 2
(Xi − X)2 =
i=1 i=2
Pn
(como i=1 (Xi − X) = 0)
à n
!2 n
X X
(Xi − X) + (Xi − X)2
i=2 i=2

de donde se deduce que Sn2 es función de (X2 − X, . . . , Xn − X). Probaremos


ahora que (X2 − X, . . . , Xn − X) y X son independientes, lo cuál implicará que
(a) es cierto.
Hacemos el cambio de variable
 Pn Pn Pn
y1 = x  x1 = nx − i=2 xi = x − i=2 (xi − x) = y1 − i=2 yi


y2 = x2 − x  x2 = y2 + y1
.. =⇒ .
. 
 ..


yn = xn − x xn = yn + y1

El jacobiano del cambio de x a y es 1/n. Luego la densidad de la variable


aleatoria transformada es
n
X
fY (y1 . . . , yn ) = fX (y1 − yi , y2 + y1 , . . . , yn + y1 )n =
i=2

µ ¶n (
n n
)
1 1 X 1X (∗)
2 2
√ n exp − (y1 − yi ) − (yi + y1 ) =
2π 2 i=2
2 i=2
½ ¾ ( Ã n n
!)
n 1 2 1 X 2 X
2
√ exp − ny1 exp − y +( yi ) .
( 2π)n 2 2 i=2 i i=2

Por lo tanto Y1 es independiente de (Y2 , . . . , Yn ) y de aquı́ se sigue que X es


independiente de Sn2 .
(∗) Falta por justificar el paso marcado con un (∗):
n
X n
X
(y1 − yi )2 + (yi + y1 )2 =
i=2 i=2
1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 15

Xn n
X n
X n
X
y12 + ( yi )2 − 2y1 yi + yi2 + (n − 1)y12 + 2y1 yi =
i=2 i=2 i=2 i=2

n
X n
X
ny12 + ( yi )2 + yi2 .
i=2 i=2

(c) La demostración de este apartado se seguirá mejor después del apartado


siguiente en el que se tratan las distribuciones de probabilidad asociadas a la
normal.

Denotaremos por X n y por Sn2 , respectivamente, la media muestral y la


varianza muestral calculadas a partir de una muestra de tamaño n.

En primer lugar probaremos que se verifica la siguiente fórmula recursiva:

n−1
(n − 1)Sn2 = (n − 2)Sn−1
2
+ (Xn − X n−1 )2 .
n
En efecto,
n
X n−1
X
(n − 1)Sn2 = (Xi − X n )2 = (Xi − X n−1 + X n−1 − X n )2 + (Xn − X n )2 =
i=1 i=1

2
(n − 2)Sn−1 + (n − 1)(X n−1 − X n )2 + (Xn − X n )2 = (∗)

(teniendo en cuenta que (n − 1)X n−1 = nX n − Xn =⇒ (n − 1)(X n−1 − Xn ) =


n(X n −Xn ) y que (n−1)(X n−1 −X n ) = (X n −Xn ) = ((n−1)/n)(X n−1 −Xn ))

2 1 2 (n − 1)2
(∗) = (n − 2)Sn−1 + (n − 1) (X n−1 − Xn ) + (X n−1 − Xn )2 =
n2 n2

2 n−1
(n − 2)Sn−1 + (Xn − X n−1 )2 .
n

Una vez probada la relación entre Sn2 y Sn−1


2
probaremos por inducción que
2 2 2
(n − 1)Sn /σ ∼ χn−1 .

Para n = 2, la fórmula recursiva nos da

1
S22 = (X2 − X1 )2 .
2

Como X1 y X2 son N (0, 1) independientes, entonces (X2 − X1 )/ 2 ∼ N (0, 1)
y de ahı́ que

S22 = ((X2 − X1 )/ 2)2 ∼ χ21 ,

con lo que queda probado el resultado para n = 2.

Supongamos que el resultado es cierto para n = k, es decir,

(k − 1)Sk2 /σ 2 ∼ χ2k−1 .
16 CAPÍTULO 1. INTRODUCCIÓN

Probemos que es también cierto para n = k + 1. Observar que

2 k
kSk+1 = (k − 1)Sk2 + (Xk+1 − X k )2 .
| {z } k + 1
∼χ2k−1

Ası́, el resultado quedará demostrado si se prueba que (k/(k+1))(Xk+1 −X k )2 es


una χ21 , puesto que esta variable es independiente de Sk2 , al ser X k independiente
de Sk2 (apartado (a)) y ser Xk+1 independiente de las k primeras observaciones.
Por esta misma razón, Xk+1 ∼ N (0, 1) es también independiente de X k ∼
N (0, 1/k). Ası́ que

µ ¶ Ãr !2
k+1 k
Xk+1 − X k ∼ N 0, =⇒ (Xk+1 − X k ) ∼ χ21
k k+1

que es precisamente lo que querı́amos probar. 2

Existen demostraciones alternativas de este teorema basadas en la función


generatriz de momentos o en la función caracterı́stica.

1.4.1. Distribuciones asociadas a la normal

En esta sección se recuerdan las definiciones de las leyes χ2 , t de Student


y F de Fisher-Snedecor. También se enuncian algunas de sus propiedades. Las
demostraciones pueden encontrarse en la sección 5.4 de Casella-Berger.

La ley χ2ν
Diremos que X tiene distribución χ2 con ν grados de libertad y se denota
X ∼ χ2ν si su función de densidad es

1
fν (x) = x(ν/2)−1 e−x/2 , 0 < x < ∞,
Γ(ν/2)2ν/2

es decir, X ∼ γ(ν/2, 2).

Lema 2 (a) Si X ∼ N (µ, σ 2 ) entonces

(X − µ)2
∼ χ21 .
σ2

(b) Si X1 , . . . , Xn son variables aleatorias independientes y Xi ∼ χ2νi entonces


n
X
Y = Xi ∼ χ2ν ,
i=1
Pn
donde ν = i=1 νi .
1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 17

(c) Sean X1 , . . . , Xn variables aleatorias independientes e idénticamente dis-


tribuidas según una N (0, 1). La variable aleatoria
n
X
Y = Xi2 ∼ χ2n .
i=1

(Nota: esta propiedad se usa a veces como definición de la distribución


χ2 ).

La ley tp
Diremos que X sigue una distribución t de Student con p grados de
libertad y lo denotaremos X ∼ tp , si su función de densidad es
Γ((p + 1)/2) 1 1
fp (x) = √ , −∞ < x < ∞.
Γ(p/2) πp (1 + t2 /p)(p+1)/2
Si p = 1 se trata de la distribución de Cauchy.

Lema 3 (a) Z ∼ N (0, 1), Y ∼ χ2p , Z e Y independientes, entonces,


Z
X=p ∼ tp .
Y /p
(Nota: esta propiedad se usa a veces como definición de la distribución t
de Student.)

(a) Sean X1 , . . . , Xn una m.a.s. de una N (µ, σ 2 ). Entonces

X −µ
√ ∼ tn−1 .
S/ n

La distribución t de Student no tiene f.g.m. porque no tiene momentos de


todos los órdenes. Si X ∼ tp entonces sólo existen los momentos de orden
estrictamente inferior a p: existe E(X α ) para α < p.
Si X ∼ tp , entonces E(X) = 0 si p > 1 y V (X) = p/(p − 2) si p > 2.
La ley Fp,q
Diremos que X sigue una distribución F con p y q grados de libertad y
lo denotaremos X ∼ Fp,q , si su función de densidad es
¡ ¢ µ ¶p/2
Γ p+q p x(p/2)−1
fp,q (x) = ¡ p ¢ 2 ¡ q ¢ ³ ´ p+q , 0 < x < ∞.
Γ 2 Γ 2 q p 2
1 + qx

Lema 4 (a) Si U ∼ χ2p , V ∼ χ2q y U y V son independientes, entonces

U/p
X= ∼ Fp,q .
V /q
(Nota: esta propiedad se usa a veces como definición de la distribución
F .)
18 CAPÍTULO 1. INTRODUCCIÓN

2
(b) Sean X1 , . . . , Xn m.a.s. de N (µX , σX ), Y1 , . . . , Ym m.a.s. de N (µY , σY2 ),
dos muestras independientes. Entonces
2 2
SX /σX
∼ Fn−1,m−1 .
SY2 /σY2

(c) Si X ∼ Fp,q , entonces X −1 ∼ Fq,p .

(d) Si X ∼ tp ,entonces X 2 ∼ F1,p .

(e) Si X ∼ Fp,q , entonces

p X ³p q ´
∼ Beta , .
q 1 + pq X 2 2

(f ) Si X ∼ Fn−1,m−1 , entonces
µ ¶ µ ¶ µ ¶
χ2n−1 /(n − 1) χ2n−1 m−1
E(X) = E =E E =
χ2m−1 /(m − 1) n−1 χ2m−1
µ ¶µ ¶
n−1 m−1 m−1
= .
n−1 m−3 m−3

(g) Si las distribuciones de partida tienen simetrı́a esférica, entonces el cocien-


te de las varianzas muestrales sigue una F (Casella-Berger, p. 227).

1.5. Leyes de los Grandes Números y Teorema


Central del Lı́mite

En esta sección se enuncian dos resultados fundamentales en inferencia es-


tadı́stica: la Ley Fuerte de los Grandes Números y el Teorema Central del Lı́mite.

Dada una sucesión de variables aleatorias definidas sobre el mismo espacio


muestral, se llaman leyes de los grandes números a los resultados sobre
convergencia de las sucesiones de sus medias aritméticas a una constante. Se
conoce como problema del lı́mite central el estudio de la convergencia
débil de la sucesión de medias muestrales centradas y tipificadas a una distri-
bución no degenerada.

1.5.1. Leyes de los grandes números

Se enuncia a continuación una versión de ley débil de los grandes núme-


ros que establece la convergencia en media cuadrática (y por tanto, en probabili-
dad) de la media aritmética de una sucesión de variables aleatorias incorreladas.
1.5. LEYES DE LOS GRANDES NÚMEROS Y TEOREMA CENTRAL DEL LÍMITE19

Teorema 5 (Ley débil de los grandes números) Sea {Xn }n∈IN una suce-
sión de variables aleatorias incorreladas con momentos de segundo orden aco-
Pn
tados por una constante C, independiente de n. Sea Sn = i=1 Xi . Entonces
ï ¯ !
¯ Sn − E(Sn ) ¯2 C
E ¯¯ ¯
¯ ≤
n n
y, como consecuencia
Sn − E(Sn )
lı́m =0
n−→∞ n
en el sentido de la convergencia en media cuadrática.

La demostración de este resultado puede verse, por ejemplo, en Sanz (1999).


Como caso particular del teorema anterior, se puede probar la convergencia
en probabilidad de la frecuencia relativa de un suceso a su probabilidad (ver
Sanz 1999). Este resultado se conoce como ley débil de Bernoulli.
Los resultados que garantizan la convergencia casi segura de la media mues-
tral se conocen como leyes fuertes de los grandes números. Se enuncia
a continuación una ley fuerte para variables con segundos momentos finitos e
incorreladas.

Teorema 6 (Ley fuerte de los grandes números) Bajo las hipótesis del teo-
rema 5 se tiene que
Sn − E(Sn )
lı́m =0
n−→∞ n
en el sentido de la convergencia casi segura.

En Sanz (1999) puede encontrarse la demostración de este resultado. En ese


mismo texto se recoge una versión más general de la ley fuerte de los grandes
números, conocida como ley fuerte de los grandes números de Kolmo-
gorov: en el caso i.i.d. basta con que haya eseranza finita para que se dé la
convergencia casi segura de la media muestral a la esperanza.

1.5.2. Teorema central del lı́mite

En esta sección se presenta el teorema central del lı́mite de Lévy-


Lindeberg, válido para sucesiones de variables aleatorias independientes e
idénticamente distribuidas con momento de segundo orden finito.

Teorema 7 (Teorema central del lı́mite) Sea {Xn }n∈IN una sucesión de
variables aleatorias independientes e idénticamente distribuidas con momento
de segundo orden finito. Sea µ la esperanza común y σ 2 la varianza común, que
Pn
supondremos estrictamente positiva. Sea Sn = i=1 Xi . Se tiene que
Sn − nµ
√ −→D Z,
σ n
donde Z ∼ N (0, 1) y −→D indica convergencia en distribución.
20 CAPÍTULO 1. INTRODUCCIÓN

Este resultado puede demostrarse utilizando funciones generadoras de moe-


mentos o funciones caracterı́sticas, como se hace en Casella-Berger. En Sanz
(1999) se da una demostración (más laboriosa) que no requiere el uso de estas
transformaciones. En Casella-Berger puede encontrarse una versión más fuerte
del teorema central del lı́mite.
El Teorema de De Moivre-Laplace, que establece la convergencia débil de la
binomial tipificada a la normal estándar, es una aplicación directa del teorema
central del lı́mite de Lévy-Lindeberg. Ejemplos del uso habitual de la aproxi-
mación de la binomial por la normal son la estimación del error de aproximar
la frecuencia relativa por la probabilidad y el cálculo de tamaños muestrales en
encuestas.

1.5.3. Versiones multivariantes

Se enuncian a continuación versiones multivariantes de la ley de los griandes


números y del teorema central del lı́mite.

Teorema 8 Sea { X n }n∈IN una sucesión de variables aleatorias p-dimensionales


e
independientes e idénticamente distribuidas. Sea X el vector p-diemensional
e n
media aritmética de las n primeras variables:
n
1X
X = X i.
e n n i=1 e

Se tiene lo siguiente:

1. Si existe E( X i ) = µ, entonces X converge a µ casi seguramente.


e e n
2. Si, además, X i tiene matriz de varianza y covarianzas finita Σ, entonces
e

n( X − µ) −→D Np (0, Σ).
e n

La demostración de este resultado puede encontrarse, por ejemplo, en Arnold


(1990).
Como corolario se puede probar la convergencia de la distribución multino-
mial (centrada y tipificada) a una normal multivariante (ver Arnold 1990).
1.6. LISTA DE PROBLEMAS 21

1.6. Lista de problemas

Variables aleatorias. Muestras


1. (Casella-Berger, 5.2) Sean X1 , X2 . . . v.a.i.i.d. cada una de ellas con den-
sidad f (x). Supongamos que cada Xi mide la cantidad anual de precipita-
ciones en un determinado emplazamiento. Da la distribución del número
de años que transcurren hasta que las lluvias del primer año, X1 , son
superadas por primera vez.

2. (Casella-Berger, 5.5) Sean X1 , . . . , Xn v.a.i.i.d. con densidad fX (x). Sea


X su media muestral. Prueba que

fX (x) = nfX1 +···+Xn (nx).

3. (Examen parcial 2000; Casella-Berger, 5.9) Sea X1 , . . . , Xn una muestra


aleatoria simple de X, a partir de la que se calcula la media y la varianza
muestral de la forma usual:
n n
1X 1 X
X= Xi , S 2 = (Xi − X)2 .
n i=1 n − 1 i=1

a) Prueba que
XX n n
1
S2 = (Xi − Xj )2 .
2n(n − 1) i=1 j=1

Supongamos que E(X 4 ) < ∞. Sean θ1 = E(X) y θj = E((X − θ1 )j ),


j = 2, 3, 4.

b) Prueba que µ ¶
2 1 n−3 2
V (S ) = θ4 − θ .
n n−1 2
c) Da la expresión de Cov(X, S 2 ) en términos de θ1 , . . . , θ4 . ¿Bajo qué con-
diciones son X y S 2 incorreladas?
d ) Si la distribución de X es simétrica respecto de θ1 , ¿es posible que la
covarianza de esos estadı́sticos sea no nula?
e) Si la distribución de X no es simétrica respecto de θ1 , ¿es posible que
la covarianza de esos estadı́sticos sea nula?

4. (Casella-Berger, 5.16) Llamemos X n y Sn2 a la media y la varianza mues-


trales calculadas a partir de n observaciones X1 , . . . , Xn . Supongamos que
se observa un nuevo valor Xn+1 . Demuestra las siguientes fórmulas recur-
sivas.

a)
1
X n+1 = (Xn+1 + nX n ).
n+1
22 CAPÍTULO 1. INTRODUCCIÓN

b)
2 n
nSn+1 = (n − 1)Sn2 + (Xn+1 − X n )2 .
n+1
5. (Casella-Berger, 5.18) Sean X 1 y X 2 las medias muestrales calculadas a
partir de dos muestras independientes de tamaño n de una población con
varianza σ 2 . Halla el menor valor de n que garantiza que
³ σ´
P |X 1 − X 2 | <
5
es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychev
como el Teorema Central del Lı́mite. Comenta los resultados obtenidos.

6. (Casella-Berger, 5.29) Sean Xi ∼ N (i, i2 ), i = 1, 2, 3, tres variables aleato-


rias independientes. Construye a partir de estas variables aleatorias otras
que tengan las siguientes distribuciones.

a) χ23 .
b) t2 .
c) F1,2 .

7. (Casella-Berger, 5.36) Sean Ui , i = 1, 2, . . . , variables aleatorias indepen-


dientes con distribución U (0, 1). Sea X una variable aleatoria con distri-
bución
1
P (X = x) = , x = 1, 2, 3, . . .
(e − 1)x!
Da la distribución de

Z = mı́n{U1 , . . . , UX }.

Indicación: Observar que Z|X = x es el primer estadı́stico de orden de


una muestra de tamaño x de una U (0, 1).

8. (Casella-Berger, 5.37) Sea X1 , . . . , Xn una muestra aleatoria simple de una


población con densidad
1
fX (x) = I(0,θ) (x).
θ
Sean X(1) , . . . , X(n) los estadı́sticos orden. Prueba que X(1) /X(n) y X(n)
son independientes.

9. Demuestra los lemas 2, 3 y 4.

Familias exponenciales
10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias expo-
nenciales y describe el espacio paramétrico natural de cada una de ellas.

a) Familia normal con alguno de los parámetros µ o σ conocidos.


1.6. LISTA DE PROBLEMAS 23

b) Familia gamma con alguno de los parámetros α o β conocidos.


c) Familia beta con alguno de los parámetros α o β conocidos.
d ) Familia Poisson.
e) Binomial negativa con el parámetro r conocido y 0 < p < 1.
11. (Casella-Berger, 3.30) Considera la familia exponencial expresada en térmi-
nos de su espacio paramétrico natural con densidad
Xk
f (x; η ) = h(x)c( η ) exp{ ηi ti (x)}.
e e i=1

Prueba que

E(t (X)) = − log(c( η )).
η i ∂ηi e
e
Indicación: Usa el hecho de que para una familia exponencial se tiene
que Z ∞ Z ∞ j
∂j ∂
f (x)dx = f (x)dx.
j
∂ηi −∞ η −∞ ∂ηi
j η
e e
12. Considera la familia de distribuciones normales con media θ y varianza
θ2 , donde θ puede tomar cualquier valor real. Prueba que esta familia es
una familia exponencial y determina el espacio paramétrico natural.
13. Sean X1 , . . . , Xn v.a.i.i.d. con distribución perteneciente a una familia ex-
ponencial expresada en términos del espacio paramétrico natural. Prueba
que la distribución conjunta de las n variables también pertenece a la
familia exponencial.
14. (Arnold 1990, Ex. A1, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi ∼ Poisson(iθ), θ > 0. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
15. (Arnold 1990, Ex. A2, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi ∼ N (iθ, 1), θ ∈ R. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
16. (Arnold 1990, Ex. A3, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi ∼ Exp(1/(iθ)), E(Xi ) = iθ, θ > 0. Prueba que la familia de
distribuciones conjuntas de las n variables es una familia exponencial.

Familias de localización y escala


17. (Casella-Berger, 3.31) Considera la función de densidad
63 6
f (x) = (x − x8 ), −1 < x < 1.
4
Dibuja el gráfico de µ ¶
1 x−µ
f
σ σ
para los siguientes valores de µ y σ en el mismo sistema de ejes cartesianos.
24 CAPÍTULO 1. INTRODUCCIÓN

a) µ = 0, σ = 1.
b) µ = 3, σ = 1.
c) µ = 3, σ = 2.

18. (Casella-Berger, 3.32) Muestra que si f (x) es una función de densidad


simétrica alrededor de 0, entonces la mediana de la densidad
µ ¶
1 x−µ
f
σ σ
es µ.

19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f (z). Se
define zα como un número que satisface que
Z ∞
α = P (Z > zα ) = f (z)dz.

Sea X una variable aleatoria con densidad en la familia de localización y


escala de f µ ¶
1 x−µ
f
σ σ
y sea xα = µ + σzα . Prueba que P (X > xα ) = α. (Nota: Ası́, los valo-
res de xα se calculan fácilmente para cualquier miembro de la familia de
localización y escala si se dispone de una tabla de valores zα .)

20. (Casella-Berger, 3.34) Considera la distribución de Cauchy, con densidad


1
f (x) = , x ∈ IR,
π(1 + x2 )

y la familia de localización y escala definida a partir de ella: X tiene


distribución de Cauchy con parámetros µ y σ si su densidad es
σ
f (x; µ, σ) = , x ∈ IR.
π(σ 2 + (x − µ)2 )

No existen la esperanza ni la varianza de estas distribuciones, luego µ


y σ 2 no son la media y la varianza. No obstante, tienen un importante
significado.

a) Prueba que µ es la mediana de X.


b) Prueba que µ − σ y µ + σ son los cuartiles primero y tercero, respec-
tivamente, de X.

21. (Casella-Berger, 3.35) Sea f (x) una función de densidad con media µ y
varianza σ 2 . Indica cómo crear una familia de localización y escala basada
en f (x) tal que la densidad estándar de la familia, f ∗ (x), tenga esperanza
0 y varianza 1.
Capı́tulo 2

Principios para reducir los


datos

Referencias: Casella-Berger, capı́tulo 6. En algunos puntos se han


seguido también Cristóbal (1992) (capı́tulo 7), Schervish (1995)
(capı́tulo 2) y Garcı́a-Nogales (1998) (capı́tulo 3).

El uso de cualquier estadı́stico T ( X ) implica una reducción de los datos


e
muestrales. Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple (un vector
e
aleatorio) y sean x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) muestras observadas (rea-
e e
lizaciones de X ). Si decidimos usar el estadı́stico T ( X ) en vez de toda la mues-
e e
tra, serán tratadas igual dos muestras observadas cualesquiera x , y , siempre
e e
que T ( x ) = T ( y ). Es decir, al usar el estadı́stico T , en lugar de toda la mues-
e e
tra, se pierde información. Se plantea ası́ el problema de buscar estadı́sticos T
tales que la información que se pierde al usarlos sea irrelevante para los fines
que nos hayamos marcado.
Dado el espacio muestral X , la imagen de Ω mediante el vector aleatorio
X , reducir los datos en términos de un estadı́stico T es equivalente a dar
e
una partición de X . En efecto, sea T = {t : t = T (x), para algún x ∈ X }, la
imagen de X mediante el estadı́stico T . Entonces {At = T −1 (t) : t ∈ T } es una
partición de X inducida por T . Al observar x y limitarnos a registrar el valor
e
de T ( x ), podremos saber que hemos observado un elemento de A , pero
e T( x )
desconoceremos cuál de ellos. e

Ejemplo 11
Se lanza una moneda n veces y se anota cada vez Xi = 1 si sale cara y Xi = 0
si sale cruz. El espacio muestral es

X = { x = (x1 , . . . , xn ) : xi ∈ {0, 1}}.


e
25
26 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Pn
Se define T ( x ) = i=1 xi . Entonces
e
T = {0, 1, 2, . . . , n}.

El estadı́stico T ha creado una partición en X de forma que todas aquellas


secuencias de resultados con igual número de unos están en la misma clase:
n
X
At = { x = (x1 , . . . , xn ) ∈ T : xi = t}.
e i=1

No podemos distinguir entre (1, 0, 0, . . . , 0) y (0, 1, 0, . . . , 0), por ejemplo.


. .

En este tema estudiaremos dos principios para reducir los datos que garan-
tizan que en el proceso de reducción no se pierde información relevante sobre
los aspectos en estudio de la variable aleatoria de interés. Estos principios son
el principio de suficiencia y el principio de verosimilitud. A ellos puede añadirse
el principio de invariancia, que no trataremos aquı́ (puede consultarse la sección
6.3 del Casella-Berger como material de lectura).
En adelante supondremos que la variable aleatoria X en estudio tiene dis-
tribución perteneciente a una familia paramétrica:

X ∼ {f (x|θ), θ ∈ Θ ⊆ IRk }.

Se supondrá además que se toma una muestra aleatoria simple de X y que a


partir de ella se calculan estadı́sticos.

2.1. Principio de suficiencia


Un estadı́stico T es suficiente para un parámetro θ si captura toda la in-
formación que sobre θ contiene la muestra. Cualquier información adicional (es
decir, aparte del valor del estadı́stico T ) que la muestra pueda aportar, no pro-
porciona información relevante sobre θ. Estas consideraciones se concretan en
el siguiente principio:
Principio de suficiencia:
Si T es un estadı́stico suficiente para θ, cualquier inferencia sobre θ ha de de-
pender de la muestra X = (X1 , . . . , Xn ) sólo a través del valor T ( X ). Es decir,
e e
si x e y son tales que T ( x ) = T ( y ), entonces la inferencia que se haga sobre
e e e e
θ será la misma tanto si se observa x como si se observa y .
e e
Formalmente, diremos que un estadı́stico T es suficiente para θ si la dis-
tribución condicionada de X dado el valor T ( X ), no depende de θ.
e e
Veamos, en el caso discreto, que la información que sobre un parámetro
aporta un estadı́stico suficiente es toda la información que aportarı́a la muestra
2.1. PRINCIPIO DE SUFICIENCIA 27

completa. En primer lugar, si t es uno de los posibles valores de T ( X ), es decir,


e
si Pθ (T ( X ) = t) > 0, entonces
e
(
Pθ ( X = x |T ( X ) = T ( x )) si T ( x ) = t
Pθ ( X = x |T ( X ) = t) = e e e e e
e e e 0 si T ( x ) 6= t
e
Ası́ que sólo son de interés las probabilidades condicionadas Pθ ( X = x |T ( X ) =
e e e
T ( x )). Si T es suficiente estas probabilidades no dependen de θ, luego,
e
Pθ ( X = x |T ( X ) = T ( x )) = P ( X = x |T ( X ) = T ( x ))
e e e e e e e e
para todo θ. En este sentido entendemos que T captura toda la información
sobre θ.
Supongamos que dos cientı́ficos se interesan por la variable aleatoria X cuya
distribución depende del parámetro desconocido θ. Supongamos además que el
primer cientı́fico observa toda una muestra x de X, mientras que el segundo
e
sólo puede estudiar el fenómeno a través de una revista que publica el valor del
estadı́stico suficiente T ( x ). La cuestión relevante entonces es saber si ambos
e
cientı́ficos tienen o no la misma información sobre θ. Veamos que ası́ es.
Como P ( X = x |T ( X ) = T ( x )) no depende de θ, esta distribución con-
e e e e
dicional puede calcularse a partir del modelo que sigue X. Por lo tanto ambos
cientı́ficos conocen

P ( X = y |T ( X ) = T ( x )), para todo y ∈ A = {y : T ( y ) = T ( x )}.


e e e e T( x ) e e
e
Si el segundo cientı́fico quisiera, podrı́a generar un vector aleatorio Y siguiendo
e
esa distribución y se satisfarı́a que

P ( Y = y |T ( X ) = T ( x )) = P ( X = y |T ( X ) = T ( x )), para todo y ∈ A


e e e e e e e e T( x )
e
Por lo tanto X e Y tendrı́an la misma distribución condicionada a que T ( X ) =
e
T ( x ). Además, ambas variables tienen la misma distribución incondicional:
e
Pθ ( X = x ) = Pθ ( X = x , T ( X ) = T ( x )) =
e e e e e e
(porque { X = x } ⊆ {T ( X ) = T ( x )})
e e e e
Pθ ( X = x |T ( X ) = T ( x ))Pθ (T ( X ) = T ( x )) =
e e e e e e
Pθ ( Y = x |T ( X ) = T ( x ))Pθ (T ( X ) = T ( x )) =
e e e e e e
Pθ ( Y = x , T ( X ) = T ( x )) =
e e e e
(teniendo en cuenta que { Y = x } ⊆ {T ( X ) = T ( x )})
e e e e
Pθ ( Y = x )
e e
28 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Por lo tanto el segundo cientı́fico ha podido observar una variable aleatoria


Y que tiene la misma distribución que la variable aleatoria X que observó el
e e
primer cientı́fico, y ambos cientı́ficos obtienen el mismo valor del estadı́stico T
a partir de sus respectivas observaciones. Por lo tanto, ambos cientı́ficos tienen
la misma información.

Teorema 9 Si f ( x |θ) es la verosimilitud de un vector aleatorio X y q(t|θ) es


e e
la verosimilitud (función de densidad o de masa) de un estadı́stico T ( X ), se
e
tiene la siguiente equivalencia. T ( X ) es un estadı́stico suficiente para θ si y
e
sólo si para cada x del espacio muestral X el cociente
e
f ( x |θ)
e
q(T ( x )|θ)
e
no depende de θ.

Demostración: Haremos la prueba para el caso discreto. El caso continuo no


presenta dificultades adicionales.
Veamos primero que si f ( x |θ)/q(T ( x )|θ) no depende de θ entonces T es
e e
suficiente. Como ya se vio anteriormente,
(
Pθ ( X = x |T ( X ) = T ( x )) si T ( x ) = t
Pθ ( X = x |T ( X ) = t) = e e e e e
e e e 0 si T ( x ) 6= t
e
Luego si T ( x ) 6= t la función de masa de probabilidad condicionada vale 0 y,
e
no depende de θ. En el otro caso,
Pθ ( X = x , T ( X ) = T ( x ))
Pθ ( X = x |T ( X ) = T ( x )) = e e e e =
e e e e Pθ (T ( X ) = T ( x ))
e e
Pθ ( X = x ) f ( x |θ)
e e = e
Pθ (T ( X ) = T ( x )) q(T ( x )|θ)
e e e
que tampoco depende de θ, de donde se sigue que T es suficiente.
Para probar el recı́proco, basta con leer la igualdad anterior en orden inverso,
f ( x |θ)
e = Pθ ( X = x |T ( X ) = T ( x )),
q(T ( x )|θ) e e e e
e
que no depende de θ si T es suficiente. 2

Ejemplo 12
Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ Bern(θ), 0 < θ < 1. El
e
estadı́stico T ( X ) = X1 + · · · + Xn ∼ B(n, θ) es suficiente para θ:
e
Qn
f ( x |θ) θxi (1 − θ)1−xi
e = ¡i=1¢
n t n−t
=
q(T ( x )|θ) t θ (1 − θ)
e
2.1. PRINCIPIO DE SUFICIENCIA 29

Pn
(donde se ha definido t = i=1 xi )

θt (1 − θ)n−t 1
¡n¢ = ¡n¢
θ t (1 − θ)n−t
t t

que no depende de θ.
. .

Ejemplo 13
Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ N (µ, σ 2 ), σ 2 conocido.
e
El estadı́stico T (X) = X ∼ N (µ, σ 2 /n) es suficiente para µ:
© Pn ª
f ( x |θ) (2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − µ)2
e = © ª =
q(T ( x )|θ) n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2
e
© ¡Pn ¢ª
(2πσ )2 −n/2
exp − 2σ1 2 2
i=1 (xi − x) + n(x − µ)
2
© ª =
n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2
© Pn ª
(2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − x)2
=
n1/2 (2πσ 2 )−1/2
( n
)
2 −(n−1)/2 −1/2 1 X 2
(2πσ ) n exp − 2 (xi − x) ,
2σ i=1
que no depende de µ.
. .

El teorema 9 es útil para comprobar si un estadı́stico es suficiente, pero no lo


es para buscar estadı́sticos suficientes. El siguiente teorema sı́ podrá usarse para
este cometido: permite encontrar estadı́sticos suficientes mediante la inspección
de la función de densidad o la función de masa de probabilidad, según el caso.

Teorema 10 (Teorema de Factorización) Sea f ( x |θ) la verosimilitud de


e
X = (X1 , . . . , Xn ). El estadı́stico T ( X ) es suficiente para θ si y sólo si existen
e e
funciones g(t|θ) y h( x ) tales que para cualquier x ∈ X y cualquier θ ∈ Θ la
e e
función f ( x |θ) puede factorizarse ası́:
e
f ( x |θ) = g(T ( x )|θ)h( x ).
e e e

Demostración: (En el caso discreto). Supongamos primero que T es suficiente.


Tomemos g(t|θ) = Pθ (T ( X ) = t) y h( x ) = Pθ ( X = x |T ( X ) = T ( x )), que
e e e e e e
no depende de θ al ser T suficiente. Con esta elección,

f ( x |θ) = Pθ ( X = x ) = Pθ ( X = x , T ( X ) = T ( x )) =
e e e e e e e
30 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Pθ ( X = x |T ( X ) = T ( x ))Pθ (T ( X ) = t) = g(T ( x )|θ)h( x ).


e e e e e e e
Veamos ahora el recı́proco. Supongamos que f ( x |θ) = g(T ( x )|θ)h( x ) y que
e e e
q(t|θ) es la función de masa de probabilidad de T ( X ). Entonces,
e
f ( x |θ) f ( x |θ)
e =P e =
q(t|θ) y∈A f (y|θ)
T( x )
e
g(T ( x )|θ)h( x ) g(T ( x )|θ)h( x ) h( x )
P e e =P e e =P e ,
y∈A g(T ( y )|θ)h( y ) y∈A g(T ( x )|θ)h( y ) y∈A h( y )
T( x ) e e T( x ) e e T( x ) e
e e e
que es independiente de θ. Luego T es suficiente para θ. 2

(Nota: la demostración para el caso continuo puede verse, por ejemplo, en


Lehmann 1986 o en Cristóbal (1992), p. 173.)
Según el Teorema 10, para encontrar un estadı́stico suficiente se factoriza la
función de densidad (o la de masa) en dos partes: una, h( x ), que no contenga al
e
parámetro θ, y la otra que dependa de la muestra sólo a través de una función
suya T ( x ). El estadı́stico suficiente será entonces T ( X ).
e e

Ejemplo 14
Sea X ∼ U {1, 2, . . . , θ} y X1 , . . . , Xn una m.a.s. de X. La función de masa de
probabilidad de X es
1
f (x|θ) = I{1,2,...,θ} (x)
θ
donde IA (x) es la función indicatriz del conjunto A, que vale 1 si x ∈ A y 0 en
caso contrario.
La verosimilitud de la muestra es
n
1 Y
f (x1 , . . . , xn |θ) = I{1,2,...,θ} (xi ) =
θn i=1
à n
!Ã n
! Ã n !Ã n !
1 Y Y 1 Y Y
IIN−{0} (xi ) I(−∞,θ] (xi ) = n IIN−{0} (xi ) I[xi ,∞) (θ) =
θn i=1 i=1
θ i=1 i=1
à n !
1 Y
I
n (máx{xi :1≤i≤n},∞)
(θ) IIN−{0} (xi )
|θ {z } i=1
| {z }
g(t|θ), donde t=máxi xi
h( x )
e
. .
2.1. PRINCIPIO DE SUFICIENCIA 31

Ejemplo 15
Sea X ∼ N (µ, σ 2 ), σ 2 conocida. Entonces la verosimilitud de una muestra es
( )
1 X
n n n o
2 −n/2
f ( x |µ) = (2πσ ) exp − 2 (xi − x) exp − 2 (x − µ)2
2
e 2σ i=1 | 2σ{z }
| {z }
g(t|µ), donde t=x
h( x )
e
Por lo tanto T ( X ) = X es estadı́stico suficiente para µ.
e P
n
Obsérvese que i=1 Xi = nX también es estadı́stico suficiente: podrı́a defi-
© ª
nirse h( x ) como antes y g(t|µ) = exp −(n/(2σ 2 ))(t/n − µ)2 .
e
. .

En general, si T ( X ) es estadı́stico suficiente para θ y τ : T −→ S es una


e
transformación biyectiva del espacio donde toma valores T , se tiene que S( X ) =
e
τ (T ( X )) también es estadı́stico suficiente para θ:
e
f ( x |θ) = g(T ( x )|θ)h( x ) = g(τ −1 (S( x ))|θ)h( x ) = g ∗ (S( x )|θ)h( x ),
e e e e e e e
de donde se deduce que S( X ) también es estadı́stico suficiente. La función
e
g ∗ (s|θ) es g ∗ (s|θ) = g(τ −1 (s)|θ).

2.1.1. Estadı́sticos suficientes r-dimensionales

Hasta ahora hemos visto únicamente estadı́sticos suficientes con valores rea-
les, es decir, unidimensionales. Sin embargo, en la aplicación del teorema de
factorización puede ocurrir que la función g(t|θ) dependa de la muestra a través
de más de una función suya. En ese caso la colección de esas funciones, digamos
T ( X ) = (T1 ( X ), . . . , Tr ( X )), es un estadı́stico suficiente r-dimensional. Las
e e e
definiciones y resultados referentes a la suficiencia ya vistos para el caso unidi-
mensional también se aplican al caso r-dimensional. Usualmente, si el parámetro
θ es de dimensión mayor que 1, entonces también lo será el estadı́stico suficiente.

Ejemplo 16
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ =
(µ, σ 2 ). Ası́,
( )
1 X
n n n o
2 2 −n/2
f ( x |µ, σ ) = (2πσ ) exp − 2 (xi − x) exp − 2 (x − µ)2 .
2
e 2σ i=1 2σ
Pn
Sean T1 ( x ) = x y T2 ( x ) = S 2 = ( i=1 (xi − x)2 )/(n − 1). Entonces,
e e
½ ¾ n n o
2 2 −n/2 (n − 1) 2
f ( x |µ, σ ) = (2πσ ) exp − T2 ( x ) exp − (T1 ( x ) − µ) =
e 2σ 2 e 2σ 2 e
32 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

g(T1 ( x ), T2 ( x )|µ, σ 2 )
e e
y tomando h( x ) = 1 se tiene la factorización de f ( x |µ, σ 2 ) que implica que
e e
T ( X ) = (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadı́stico suficiente para (µ, σ 2 ) en
e e e
la distribución normal. Es un estadı́stico bivariante.
Obsérvese que el hecho de que un estadı́stico sea o no suficiente para un
parámetro depende del modelo que siguen las variables aleatorias implicadas.
En el caso de muestrear una normal, podemos anotar únicamente la media y la
varianza muestral y estar seguros de que tenemos toda la información relevante
sobre los parámetros desconocidos (µ, σ 2 ). Sin embargo, si no estamos seguros
de la normalidad de los datos no deberı́amos conformarnos con conocer única-
mente la media y la varianza muestral.
. .

2.1.2. Estadı́sticos suficientes minimales

La factorización de la función de verosimilitud no es única y como conse-


cuencia de ello, tampoco es único el estadı́stico suficiente para un parámetro.
Ya vimos que cualquier transformación biyectiva de un estadı́stico suficiente da
lugar a otro estadı́stico suficiente. Pero aún hay muchos más estadı́sticos sufi-
cientes. Por ejemplo, la muestra completa X también es estadı́stico suficiente
e
para el parámetro:
f ( x |θ) = g( x |θ)h( x ),
e e e
donde h( x ) = 1, T ( x ) = x y g( x |θ) = f ( x |θ).
e e e e e
Un estadı́stico suficiente T ( X ) se llama minimal si para cualquier otro
e
estadı́stico S( X ) se tiene que T ( X ) es función de S( X ). Es decir, si ocurre
e e e
que S( x ) = S( y ) entonces forzosamente se tiene que T ( x ) = T ( y ). Otra
e e
e esto es la siguiente: sea {A : t ∈ T } la partición
forma de expresar t dele espacio
muestral inducida por el estadı́stico T y sea {Bs : s ∈ S} la partición inducida
por S; para casa s ∈ S existe un t ∈ T tal que Bs ⊆ At . La partición inducida
por cualquier estadı́stico suficiente es más fina que la inducida por el estadı́stico
suficiente minimal.

Ejemplo 17
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos. Hemos
visto en el ejemplo 16 que (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadı́stico suficiente
e e
para (µ, σ 2 ).
Suponemos ahora que σ 2 es conocido. Vimos en el ejemplo 13 que T1 ( X ) =
e
X es estadı́stico suficiente para µ. Pero también es cierto que (T1 ( X ), T2 ( X )) =
e e
(X, S 2 ) es suficiente para µ. Claramente T1 ( X ) consigue una mejor reducción
e
2.1. PRINCIPIO DE SUFICIENCIA 33

de los datos que (T1 ( X ), T2 ( X )). Podemos escribir T1 ( X ) como función de


e e e
(T1 ( X ), T2 ( X )): T1 ( X ) = τ (T1 ( X ), T2 ( X )) donde τ (a, b) = a.
e e e e e
Dado que tanto T1 ( X ) como (T1 ( X ), T2 ( X )) son suficientes para µ, am-
e e e
bos contienen la misma información sobre µ. Por lo tanto, la varianza muestral
S 2 = T2 ( X ) no aporta ninguna información sobre la media µ cuando σ 2 es
e
conocida.
. .

El siguiente teorema proporciona un método para encontrar el estadı́stico


suficiente minimal.

Teorema 11 Sea f ( x |θ) la función de verosimilitud conjunta de X (dis-


X e e
e
creta o continua). Supongamos que existe una función T ( x ) tal que para cual-
e
quier par de elementos del espacio muestral x , y , el cociente
e e
f ( x |θ)
X e
e
f ( y |θ)
X e
e
es constante como función de θ, si y sólo si T ( x ) = T ( y ). Entonces T ( x ) es
e e e
estadı́stico suficiente minimal para θ.

Demostración: Casella-Berger, p. 255 2

Ejemplo 18
Sea X = (X1 , . . . , Xn ) m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros des-
e
conocidos. Sean x e y dos muestras observadas y sean (x, Sx2 ), (y, Sy2 ) las
e e y varianzas muestrales. Recordando la factorización
correspondientes medias
de f ( x |µ, σ 2 ) que vimos en el ejemplo 16, se tiene que
e
n o © n ª
f ( x |θ) (2πσ 2 )−n/2 exp − (n−1) 2 2
X e 2σ 2 Sx exp − 2σ 2 (x − µ)
e = n o © ª =
f ( y |θ) (2πσ 2 )−n/2 exp − (n−1) S 2 exp − n (y − µ)2
X e 2σ 2 y 2σ 2

e
½ ¾
1 ¡ 2 2 2 2
¢
exp −n(x − µ) + n(y − µ) − (n − 1)(Sx − S y ) =
2σ 2
½ ¾
1 ¡ 2 2 2 2
¢
exp −n(x − y ) + 2nµ(x − µ) − (n − 1)(Sx − Sy )
2σ 2
Esta expresión es constante como función de (µ, σ 2 ) si y sólo si

−n(x2 − y 2 ) + 2nµ(x − y) − (n − 1)(Sx2 − Sy2 ) = 0,


34 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Pn
y recordando que Sx2 = i=1 x2i − nx2 eso ocurrirá si y sólo si
n
X n
X
2nµ(x − y) − x2i + yi2 = 0, para todo µ,
i=1 i=1

pero un polinomio de grado 1 en µ (el lado izquierdo de la igualdad anterior)


es igual a 0 para todo µ si y sólo si sus dos coeficientes son nulos, es decir, si y
sólo si
Xn n
X
x=y y x2i = yi2 ,
i=1 i=1

lo que equivale a decir, que

x = y y Sx2 = Sy2 .

Concluimos pues que (X, S 2 ) es estadı́stico minimal suficiente para (µ, σ 2 ) cuan-
do muestreamos de una normal.
. .

Ejemplo 19
Sea X1 , . . . , Xn m.a.s. de X ∼ U [θ, θ + 1]. Ası́,

Yn
f ( x |θ) = I[θ,θ+1] (xi ) = I[máxi xi −1,mı́ni xi ] (θ).
e i=1

Por el teorema de factorización, (T1 ( X ), T2 ( X )) = (mı́ni Xi , máxi Xi ) es un


e e
estadı́stico suficiente para θ.

Para dos muestras x e y, el numerador y el denominador de f ( x |θ)/f (y|θ)


e e
serán positivos para los mismo valores de θ si y sólo si mı́ni xi = mı́ni yi y
máxi xi = máxi yi . En ese caso además el cociente valdrá 1, independientemente
del valor de θ. Ası́ que el cociente no dependerá de θ si y sólo si mı́ni xi = mı́ni yi
y máxi xi = máxi yi , luego (mı́ni Xi , máxi Xi ) es un estadı́stico suficiente mini-
mal.
. .

Obsérvese que el estadı́stico minimal no es único: cualquier transformación


biyectiva suya también es estadı́stico minimal suficiente.

Se puede probar que siempre existen estadı́sticos suficientes minimales. Ver,


por ejemplo, el problema 15 del capı́tulo 2 de Schervish (1995), o el teorema
7.2.7, p. 189, de Cristóbal (1992).
2.1. PRINCIPIO DE SUFICIENCIA 35

2.1.3. Estadı́sticos ancilares

Se define un estadı́stico ancilar como aquel cuya distribución no de-


pende del parámetro θ. Los estadı́sticos ancilares son los que resumen la parte
de información de la muestra que no recogen los estadı́sticos minimales sufi-
cientes. A primera vista, parece que no deben aportar información relevante en
la estimación del parámetro de interés θ. Sin embargo, hay ocasiones en que
en combinación con otros estadı́sticos sı́ son útiles en la estimación de θ (ver
Casella-Berger, ejemplo 6.1.11).

Ejemplo 20
Sean X n observaciones i.i.d. de una distribución uniforme en el intervalo (θ, θ+
e
1), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadı́sticos de orden de la
muestra.
El estadı́stico Rango, definido como R = X(n) − X(1) , sigue una distribución
Beta(n − 1, 2), sea cual sea el valor de θ, por lo que R es un estadı́stico ancilar.
Esta propiedad se puede generalizar al rango de cualquier familia de locali-
zación:
Sean X observaciones i.i.d. de una familia de localización con función de distri-
e
bución F (x−θ), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadı́sticos de orden
de la muestra. Entonces la distribución del rango, definido como R = X(n) −X(1) ,
no depende de θ por lo que es un estadı́stico ancilar.
. .

Ejemplo 21
Sean X1 y X2 observaciones independientes de una distribución discreta tal que:
1
Pθ (X = θ) = Pθ (X = θ + 1) = Pθ (X = θ + 2) =
3
donde θ, el parámetro desconocido, es un entero cualquiera.
Sean X(1) ≤ X(2) los estadı́sticos de orden de la muestra. Puede demostrarse
que (R, M ), con R = X(2) − X(1) y M = (X(1) + X(2) )/2, es un estadı́stico
minimal suficiente. Dado que es una familia de localización R es ancilar.
Sea un punto muestral (r, m), con m entero. Si consideramos sólo m, para
que el punto tenga probabilidad positiva es preciso que θ tome uno de tres
valores posibles: θ = m, θ = m − 1 o θ = m − 2. Si sólo sé que M = m, los 3
valores de θ son posibles. Supóngase que sabemos además que R = 2. Entonces
forzosamente X(1) = m − 1 y X(2) = m + 1 y, por lo tanto, θ = m − 1.
El saber el valor del estadı́stico ancilar ha aumentado nuestro conocimiento
sobre θ, a pesar de que sólo con el valor de R no habrı́amos tenido ninguna
36 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

información sobre θ.
. .

2.1.4. Estadı́sticos completos

Sea fT (t|θ) la función de densidad (o de masa de probabilidad) de un es-


tadı́stico T . Diremos que la familia de distribuciones {fT (t|θ) : θ ∈ Θ} es com-
pleta si se da la implicación siguiente:

Eθ (g(T )) = 0 para todo θ =⇒ Pθ (g(T ) = 0) = 1 para todo θ.

En ese caso diremos que T es un estadı́stico completo.

Ejemplo 22
La familia de distribuciones binomiales con n fijo es completa. Sea T ∼ B(n, p),
0 < p < 1. Sea g una función tal que E(g(T )) = 0 para todo p ∈ (0, 1). Entonces,
n
X µ ¶ Xn µ ¶µ ¶t
n t n−t n n p
0 = E(g(T )) = g(t) p (1 − p) = (1 − p) g(t) .
t=0
t t=0
t 1−p

Tenemos entonces que un polinomio de grado n en (p/(1 − p)) ∈ (0, ∞) es


idénticamente cero. Esto sólo es posible si todos sus coeficientes son nulos:
µ ¶
n
g(t) = 0, para todo t ∈ 0, 1, . . . , n
t

de donde se deduce que g(t) = 0 para todo t ∈ 0, 1, . . . , n, luego

Pp (g(T ) = 0) = 1, para todo p,

y la familia de distribuciones de T es completa.


. .

La definición de completitud refuerza la de suficiencia en el sentido de que


si un estadı́stico es suficiente y completo entonces, por una parte, es suficiente
minimal (el recı́proco no es cierto) y, por otra, ese estadı́stico es independiente
de cualquier estadı́stico ancilar. Es decir, en el caso de que exista un estadı́stico
suficiente y completo sı́ es cierta la idea intuitiva de que los estadı́stico ancilares
no pueden aportar nada relevante a la estimación del parámetro. Esto no ocurre
si sólo se tienen estadı́sticos suficientes y minimales.
Los siguientes resultados reflejan formalmente estas ideas.

Teorema 12 Si T es un estadı́stico suficiente y completo para θ, entonces T


es suficiente minimal.
2.1. PRINCIPIO DE SUFICIENCIA 37

Demostración: (Extraı́da de Cristóbal 1992, p. 200.)


Sea S un estadı́stico suficiente para θ. Entonces, por la ley de la esperanza
iterada,
Eθ (T − E(T /S)) = Eθ (T ) − Eθ (T ) = 0, para todo θ ∈ Θ.
Por ser T completo, se tiene que
Pθ (T − E(T /S) = 0) = 1 =⇒ T = E(T /S) casi seguro,
luego T es función de cualquier estadı́stico suficiente S y, por tanto, es minimal.
2

El recı́proco no es cierto, como pone de manifiesto el siguiente ejemplo


(Cristóbal 1992, p. 200).

Ejemplo 23
2
Sean X ∼ N (µ, σX ) e Y ∼ N (µ, σY2 ) variables aleatorias independientes. Del
2
teorema 11 se sigue que el estadı́stico (X, Y , SX , SY2 ) es suficiente minimal para
2 2 + +
θ = (µ, σX , σY ) ∈ IR × IR × IR . Sin embargo no es completo, porque
Eθ (X − Y ) = 0 para todo θ
y sin embargo Pθ (X = Y ) = 0, para cualquier θ.
. .

Teorema 13 (Basu) Si T es un estadı́stico suficiente y completo, y S es un


estadı́stico ancilar, entonces T y S son independientes.

Demostración: Ver Casella-Berger, p. 262, o Cristóbal (1992), p. 201. 2

Acabaremos esta sección dando un resultado que permite encontrar estadı́sti-


cos suficientes y completos para las distribuciones que pertenecen a la familia
exponencial, bajo condiciones bastante generales.

Teorema 14 Sea X variable aleatoria cuya distribución pertenece a la familia


exponencial y viene dada por la función de densidad (o de masa, según el caso)
 
Xk
f (x|θ) = h(x)c(θ) exp  θj tj (x) , θ = (θ1 , . . . , θk ) ∈ Θ ⊆ IRk ,
j=1

parametrizada de forma natural.


Si el espacio paramétrico natural Θ contiene un abierto no vacı́o de IRk ,
entonces el estadı́stico
Xn
T ( X ) = (T1 ( X ), . . . , Tk ( X )), donde Tj ( X ) = tj (Xi ),
e e e e i=1

es estadı́stico suficiente completo (y por lo tanto, minimal).


38 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Demostración: La prueba de este resultado requiere técnicas de funciones


analı́ticas complejas. Ver, por ejemplo, la demostración del teorema 2.74 de
Schervish 1995, o las de los teoremas 3.9 de Garcı́a-Nogales 1998 o 7.3.7 de
Cristóbal 1992. 2

2.2. Principio de verosimilitud

Sea una muestra aleatoria simple X = (X1 , . . . , Xn ) de una variable alea-


e
toria X y supongamos que se ha observado x . Llamamos función de vero-
e
similitud de la muestra a la función de densidad conjunta o a la función de
masa de probabilidad conjunta, según sea X continua o discreta, entendida ésta
como función del parámetro:

L(·| x ) : Θ −→ IR+
e
θ −→ L(θ| x ) = f ( x |θ)
e e
La función de verosimilitud ası́ definida puede entenderse como un estadı́stico,
es decir, como una función L de la muestra que no depende del parámetro:
a cada posible muestra observada x , la función de verosimilitud le asocia un
e
elemento del conjunto (IR+ )Θ de todas las funciones de Θ en IR+ , precisamente
L(·| x ), la función de verosimilitud de esa muestra:
e
L: X −→ (IR+ )Θ
x −→ L(·| x )
e e
Ası́, L( X ) es una función aleatoria de Θ en IR. Por lo tanto, la función de vero-
e
similitud es una forma más de resumir la información que la muestra contiene
acerca del parámetro. La razón de escribir resumir en cursiva es que pasar de X
e
(de dimensión n) a L( X ) (de dimensión igual al cardinal de Θ, normalmente
e
infinito) no siempre se puede entender como un resumen de la información.
En esta sección se desarrollan argumentos que prueban lo siguiente: si se
acepta el principio de suficiencia, entonces la inferencia se debe basar en la fun-
ción de verosimilitud. Esta última afirmación (la inferencia sobre el parámetro
se debe basar única y exclusivamente en la función de verosimilitud) se expre-
sa formalmente en el principio de verosimilitud, que especifica cómo debe
usarse la verosimilitud en la reducción de la información muestral.
Principio de verosimilitud:
Si x e y son dos puntos muestrales tales que
e e
L(θ| x ) = C( x , y )L(θ| y ), para todo θ,
e e e e
donde C( x , y ) es una función que puede depender de x e y pero no de θ,
e e e e
entonces la inferencia que se haga sobre θ será la misma tanto si se observa x
e
como si se observa y .
e
2.2. PRINCIPIO DE VEROSIMILITUD 39

Obsérvese que la verosimilitud de una muestra x en el caso discreto es la


e
colección de las probabilidades de haber observado x bajo los diferentes valores
e
de θ. Ası́, el cociente de dos valores de la verosimilitud

L(θ1 | x )
e
L(θ2 | x )
e
indica cuantas veces más probable es observar x bajo θ1 que bajo θ2 . En el
e
caso continuo esto es aproximadamente válido, si hablamos de la probabilidad
de observar valores en un entorno de x en lugar de la probabilidad de observar
e
x:
e
Pθ1 ( X ∈ B( x , ε)) VolumenB( x , ε)f ( x |θ1 ) f ( x |θ1 )
e e ≈ e e = e .
Pθ2 ( X ∈ B( x , ε)) VolumenB( x , ε)f ( x |θ2 ) f ( x |θ2 )
e e e e e
Si, por ejemplo, f ( x |θ1 )/f ( x |θ2 ) = 2 podemos decir que θ1 es mucho más
e e
plausible (mucho más verosimil) que θ2 . Ası́, la verosimilitud indica cómo de
plausible es un valor del parámetro θ1 en términos relativos (comparada esa
plausibilidad con la de otro valor de θ2 ).
En este sentido el enunciado del principio de verosimilitud es esencialmente
equivalente a decir que la inferencia sobre el parámetro se debe basar única
y exclusivamente en la función de verosimilitud: si dos valores muestrales dan
lugar a verosimilitudes proporcionales (aunque quizás no exactamente iguales),
los cocientes de verosimilitudes serán iguales si se observa una u otra,

L(θ1 | x ) C( x , y )L(θ1 | y ) L(θ1 | y )


e = e e e = e ,
L(θ2 | x ) C( x , y )L(θ2 | y ) L(θ2 | y )
e e e e e
y por lo tanto, los valores de θ más verosı́miles serán los mismos si se observa
x o y . Como consecuencia, x e y deben dar lugar a las mismas inferencias
e e
e como afirma el principio
sobre θ, dee verosimilitud.
El siguiente teorema afirma que el principio de suficiencia y el de verosimi-
litud son equivalentes.

Teorema 15 El principio de suficiencia y el principio de verosimilitud son equi-


valentes.

Demostración: Suficiencia =⇒ Verosimilitud.


Veamos que la función de verosimilitud, vista como estadı́stico L( X ), es un
e
estadı́stico suficiente. En efecto,

f ( x |θ) = g(L( x )|θ)h( x ),


e e e
donde h( x ) = 1 y la función g(L( x )|θ) es la que devuelve el valor de L( x )
e e e
en el punto θ. Por el teorema de factorización L( X ) es estadı́stico suficiente.
e
Por el principio de suficiencia, cualquier inferencia sobre θ ha de depender de
40 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

la muestra X = (X1 , . . . , Xn ) sólo a través del valor L( X ), lo cuál implica el


e e
principio de verosimilitud.
Verosimilitud =⇒ Suficiencia.
Consideremos un estadı́stico suficiente T ( X ) y dos valores muestrales x e y
e e e
tales que T ( x ) = T ( y ). Veamos que la inferencia sobre θ que se derive de x
e e e
e y ha de ser la misma (esta es otra forma de leer el principio de suficiencia).
Ene efecto, se tiene que

L( x |θ) = g(T ( x )|θ)h( x ) = g(T ( y )|θ)h( x ) =


e e e e e
h( x )
g(T ( y )|θ)h( y ) e = C( x , y )L( y |θ)
e e h( y ) e e e
e
de donde se deduce por aplicación del principio de verosimilitud que la inferencia
que se haga sobre θ será la misma tanto si se observa x como si se observa y .
e e
2

En Casella-Berger, sección 6.2, puede encontrarse un desarrollo más deta-


llado sobre las implicaciones que existen entre estos y otros principios de re-
ducción de los datos. Las conclusiones a las que allı́ se llega implican que el
principio de verosimilitud es cierto también para inferencias hechas sobre un
mismo parámetro a partir de experimentos distintos: si se observan resultados
tales que las correspondientes verosimilitudes son proporcionales, la inferencia
será la misma.
2.3. LISTA DE PROBLEMAS 41

2.3. Lista de problemas

Suficiencia
1. (Casella-Berger, 6.1) Sea X una observación de una N (0, σ 2 ). ¿Es |X| un
estadı́stico suficiente?

2. (Casella-Berger, 6.3) Sea X ∼ (1/σ)f ((x − µ)/σ), donde f (t) es la den-


sidad de una exp(1). Sea X1 , . . . , Xn una m.a.s. de X. Da un estadı́stico
bidimensional suficiente para (µ, σ).

3. (Casella-Berger, 6.5) Sean X1 , . . . , Xn variables aleatorias independen-


dientes con densidades
1
fi (x) = I(−i(θ−1),i(θ+1)) (x), i = 1, . . . , n,
2iθ
donde θ > 0.

a) Encontrar un estadı́stico suficiente para θ de dimensión 2.


b) Dar un estadı́stico suficiente para θ de dimensión 1.

4. (Casella-Berger, 6.6) Sea X1 , . . . , Xn una m.a.s. de una γ(α, β). Da un


estadı́stico bidimensional suficiente para (α, β).

5. (Casella-Berger, 6.7) Sea X1 , . . . , Xn una m.a.s. de una variable aleato-


ria X con función de densidad o de probabilidad f (x; θ). Prueba que los
estadı́sticos de orden X(1) , . . . , X(n) son suficientes para θ.

6. (Casella-Berger, 6.9) Sea X1 , . . . , Xn una m.a.s. de una variable aleato-


ria X. Encontrar estadı́sticos minimales suficientes para el parámetro de
localización θ (−∞ < θ < ∞) en los siguientes casos.

a) Exponencial: f (x; θ) = e−(x−θ) , x > θ.


b) Logı́stica: f (x; θ) = e−(x−θ) /(1 + e−(x−θ) )2 .
c) Cauchy: f (x; θ) = 1/(π(1 + (x − θ)2 )).
d ) Doble exponencial (o Laplace): f (x; θ) = (1/2)e−|x−θ| .

7. (Examen parcial 2001) Se considera el siguiente modelo de regresión:

Yi = α + βxi + εi , i = 1, . . . , n,

donde x1 , . . . , xn son cantidades conocidas y ε1 , . . . , εn son v.a.i.i.d. según


una N (0, σ 2 ).

a) ¿Qué distribución tiene Yi ? Escribe su función de densidad fYi (y).


b) Escribe la función de verosimilitud L(y1 , . . . , yn ; α, β, σ 2 ).
c) Da un estadı́stico tridimensional suficiente para (α, β, σ 2 ).
42 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

d ) Prueba que la distribución conjunta de (Y1 , . . . , Yn ) pertenece a la


familia exponencial.

Completitud
8. (Casella-Berger, 6.10) Sea X1 , . . . , Xn m.a.s. de una U [θ, θ+1]. En el ejem-
plo 19 se establece que el estadı́stico T ( X ) = (X(1) , X(n) ) es estadı́stico
e
minimal suficiente para θ. Prueba ahora que no es completo.

9. (Casella-Berger, 6.15) Sea X1 , . . . , Xn una m.a.s. de una N (θ, aθ2 ), donde


a > 0 es una constante conocida. Probar que T = (X, S 2 ) es estadı́stico
suficiente para θ pero no es completo.

10. (Casella-Berger, 6.16) Sean X1 , . . . , Xn v.a.i.i.d. con distribución geométri-


ca:
Pθ (X = x) = θ(1 − θ)x−1 , x = 1, 2, . . . , 0 < θ < 1.
Pn
a) Probar que T = i=1 Xi es suficiente para θ y encontrar la distribu-
ción de T .
b) Prueba que T es completo sin usar el resultado general para familias
exponenciales.

11. (Examen junio 2000; Casella-Berger, 6.17, 6.23) Sean X1 , . . . , Xn v.a.i.i.d.


según una ley Poisson(λ), λ ≥ 0.
Pn
a) Probar que el estadı́stico T = i=1 Xi es suficiente pera λ.
b) Sin hacer uso del resultado general sobre completitud en familias ex-
Pn
ponenciales, probar que la familia de distribuciones de T = i=1 Xi
es completa.
c) Consideremos la siguiente familia de distribuciones:

P = {Pλ (X = x) : Pλ (X = x) = λx e−λ /x!; x = 0, 1, 2, . . . ; λ = 0 o λ = 1}

(Nota: 00 = 1, 0! = 1.)
Esta familia es una familia de distribuciones de Poisson con λ res-
tringido a ser 0 o 1. Probar que la familia P no es completa.
d ) Indicar si la siguiente afirmación es cierta o falsa y decir por qué:
Si la familia de distribuciones P1 = {f (x; θ) : θ ∈ Θ1 } es completa
y Θ2 ⊂ Θ1 , entonces la familia de distribuciones P2 = {f (x; θ) : θ ∈
Θ2 } es completa.

12. (Casella-Berger, 6.18) La variable aleatoria X toma los valores 0, 1 y 2


con probabilidades dadas por una de las siguientes distribuciones:

P (X = 0) P (X = 1) P (X = 2)
Distribución 1 p 3p 1 − 4p 0 < p < 1/4
Distribución 2 p p2 1 − p − p2 0 < p < 1/2
2.3. LISTA DE PROBLEMAS 43

En cada caso, determina si la familia de distribuciones de X es completa.

13. Considera las variables aleatorias descritas en el problema 14 de la lista


1.6. Encuentra el estadı́stico minimal suficiente para θ. ¿Es completo?

14. Considera las variables aleatorias descritas en el problema 15 de la lista


1.6. Encuentra el estadı́stico minimal suficiente para θ. ¿Es completo?

15. Considera las variables aleatorias descritas en el problema 16 de la lista


1.6. Encuentra el estadı́stico minimal suficiente para θ. ¿Es completo?
44 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Capı́tulo 3

Estimación puntual 1:
Construcción de
estimadores

Referencias: Casella-Berger, secciones 7.1 y 7.2, referencia general.


DeGroot (1988), secciones de la 6.1 a la 6.4., para inferencia
bayesiana. Garthwaite, Jollife y Jones (1995), sección 3.4, presenta
métodos de estimadoción no incluidos aquı́.

3.1. La función de distribución empı́rica y el


método de los momentos

Sea la variable aleatoria X con función de distribución F . Consideramos una


muestra aleatoria simple de tamaño n de X, es decir, X1 , . . . , Xn v.a.i.i.d. con
distribución dada por F . Sea x1 , . . . , xn una realización de esa m.a.s.
Se llama función de distribución empı́rica a la función
n
1 1X
Fn (x) = #{xi ≤ x : i = 1 . . . n} = I(−∞,x] (xi ),
n n i=1

que a cada número real x le asigna la proporción de valores observados que son
menores o iguales que x.
Es inmediato comprobar que la función Fn ası́ definida es una función de
distribución:

1. Fn (x) ∈ [0, 1] para todo x ∈ IR.

2. Fn es continua por la derecha.

45
46CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

3. Fn es no decreciente.

4. lı́mx−→−∞ Fn (x) = 0.

5. lı́mx−→∞ Fn (x) = 1.

Concretamente, Fn es la función de distribución de una variable aleatoria dis-


creta (que podemos llamar Xe ) que pone masa 1/n en cada uno de los n puntos
xi observados:

xi x1 x2 ··· xn
pi = P(Xe = xi ) 1/n 1/n ··· 1/n

A la distribución de Xe se le llama distribución empı́rica asociada al conjunto


de valores {x1 , . . . , xn }.

Obsérvese que si fijamos el valor de x y dejamos variar la muestra, lo que


obtenemos es una variable aleatoria. En efecto, se tiene entonces que
n
1X
Fn (x) = I(−∞,x] (Xi ),
n i=1

donde
½
1, si Xi ≤ x
I(−∞,x] (Xi ) =
0, si Xi > x

y, por lo tanto, cada término I(−∞,x] (Xi ) es una variable aleatoria de Bernoulli
con probabilidad de éxito

p = P(I(−∞,x] (Xi ) = 1) = P(Xi ≤ x) = F (x).

De ahı́ se deduce que Fn es una variable aleatoria y que nFn (x) tiene distribución
binomial con parámetros n y p = F (x).

De lo anterior se sigue que la función de distribución empı́rica es un proce-


so estocástico: si consideramos un espacio probabilı́stico (Ω, A, P ) donde están
definidas las sucesiones de variables aleatorias {Xn }n≥1 a partir de las cuales
definiremos la función de distribución empı́rica, tenemos que

Fn : (Ω, A, P ) × (IR, B) −→ [0, 1]


1
Pn
(ω, x) −→ Fn (x)(ω) = n i=1 I(−∞,x] (Xi (ω))

Fijado x, Fn (x)(·) : (Ω, A, P ) −→ [0, 1] es una variable aleatoria. Fijado ω,


Fn (·)(ω) : IR −→ [0, 1] es una función de distribución (en la notación usual
se omite la dependencia de ω ∈ Ω). Por lo tanto, la función de distribución
empı́rica es una fucnión de distribución aleatoria.
3.1. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA Y EL MÉTODO DE LOS MOMENTOS47

3.1.1. Teorema de Glivenko-Cantelli

El siguiente teorema recoge algunas de las propiedades de la función de


distribución empı́rica.

Teorema 16 Sea {Xn }n≥1 , sucesión de variables aleatorias independientes e


idénticamente distribuidas definidas en el espacio de probabilidad (Ω, A, P ) con
función de distribución común F . Se denota por Fn la función de distribución
empı́rica obtenida de las n primeras variables aleatorias X1 , . . . , Xn . Sea x ∈ IR.
Se verifica lo siguiente:

j
¡n¢ j n−j
(a) P(Fn (x) = n) = j F (x) (1 − F (x)) , j = 0, . . . , n.

(b) E(Fn (x)) = F (x), Var (Fn (x)) = (1/n)F (x)(1 − F (x)).

(c) Fn (x) −→ F (x) casi seguro.

(d) √
n(F (x) − F (x))
p n −→D Z,
F (x)(1 − F (x))
donde Z es una variable aleatoria con distribución normal estándar y la
convergencia es convergencia en distribución.

Demostración: Los apartados (a) y (b) son consecuencia inmediata del hecho
de que nFn (x) ∼ B(n, p = F (x)). Por otro lado, si definimos Yi = I(−∞,x] (Xi ),
se tiene que Fn (x) = Ȳn , la media aritmética de las variables aleatorias Y1 , . . . , Yn .
Ası́, el apartado (c) es una aplicación inmediata de la ley fuerte de los grandes
números y el apartado (d) es consecuencia del teorema central de lı́mite. 2

El siguiente teorema refuerza el resultado (c) anterior, puesto que afirma que
la convergencia de Fn (x) a F (x) se da uniformemente.

Teorema 17 (Teorema de Glivenko-Cantelli) Sea {Xn }n≥1 una sucesión


de variables aleatorias independientes e idénticamente distribuidas definidas en
el espacio de probabilidad (Ω, A, P ) con función de distribución común F . Se
denota por Fn la función de distribución empı́rica obtenida de las n primeras
variables aleatorias X1 , . . . , Xn . Entonces,

sup |Fn (x) − F (x)| −→ 0 casi seguro.


x∈IR

Demostración: Presentamos aquı́ la demostración que hacen Vélez y Garcı́a


(1993), p. 36. (otras demostraciones pueden encontrarse en Garcı́a-Nogales 1998,
p. 88, y en Cristóbal 1992, p. 66). En el teorema 16 se probó que, por la ley
fuerte de los grandes números, Fn (x) −→ F (x) casi seguro, es decir, para cada
x ∈ IR existe Ax ∈ A tal que P(Ax ) = 1 y lı́mn Fn (x)(ω) = F (x) si ω ∈ Ax .
Se ha denotado por Fn (x)(ω) a la función de distribución empı́rica obtenida
48CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

al observar X1 (ω), . . . , Xn (ω), siendo ω un elemento del espacio Ω. De la ley


fuerte de los grandes números también se sigue (tomando ahora I(−∞,x) en
vez de I(−∞,x] ) que para cada x ∈ IR, existe Bx ∈ A tal que P(Bx ) = 1
y lı́mn Fn (x− )(ω) = F (x− ) si ω ∈ Bx , donde g(x− ) denota el lı́mite por la
izquierda de una función g en x.
Para cada número natural k, y cada j = 1, . . . , k, se consideran los puntos
½ ¾
j
xjk = mı́n x ∈ IR : F (x− ) ≤ ≤ F (x)
k
y los sucesos de A siguientes:

Ajk = Axjk = {w ∈ Ω : Fn (xjk ) −→ F (xjk )}

Bjk = Bxjk = {w ∈ Ω : Fn (x− −


jk ) −→ F (xjk )}
k
\ ∞
\
Dk = (Ajk ∩ Bjk ), D = Dk .
j=1 k=1

Dk es el suceso definido por la condición de que la función de distribución empı́ri-


ca converja a la teórica para todos los puntos xjk (y también para los lı́mites por
la izquierda), para un k fijo. D es el suceso en que esto ocurre simultáneamente
para todo k. Según la ley fuerte de los grandes números, P(Ajk ) = P(Bjk ) = 1
para todo j y todo k, luego P(Dk ) = 1 para todo k y, por tanto, P(D) = 1.
Obsérvese que si x ∈ [xjk , x(j+1)k ), por ser F y Fn funciones de distribución
se tiene que

F (xjk ) ≤ F (x) ≤ F (x− −


(j+1)k ), y Fn (xjk ) ≤ Fn (x) ≤ Fn (x(j+1)k ).

Como además F (x−


(j+1)k ) − F (xjk ) ≤ 1/k,

1
Fn (x) − F (x) ≤ Fn (x− − −
(j+1)k ) − F (xjk ) ≤ Fn (x(j+1)k ) − F (x(j+1)k ) + k
y
1
Fn (x) − F (x) ≥ Fn (xjk ) − F (x−
(j+1)k ) ≥ Fn (xjk ) − F (xjk ) − k
(k)
con lo cual, si δn es la mayor entre todas las diferencias |Fn (xjk ) − F (xjk )| y
|Fn (x− −
jk ) − F (xjk )| (para n y k fijos), se tiene que

1 1
Fn (x) − F (x) ≤ δn(k) + y Fn (x) − F (x) ≥ −δn(k) −
k k
Ası́, para cualquier k ∈ IN,
1
sup |Fn (x) − F (x)| ≤ δn(k) + .
x∈IR
k

Obsérvese que si se verifica el suceso D, para cualquier k ∈ IN y cualquier ε > 0,


(k)
se tiene que δn < ε a partir de un cierto n, de forma que
1
sup |Fn (x) − F (x)| < ε +
x∈IR
k
3.1. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA Y EL MÉTODO DE LOS MOMENTOS49

a partir de cierto n. Por lo tanto,

sup |Fn (x) − F (x)| −→n 0


x∈IR

siempre que se verifique D. Como P(D) = 1, se sigue que

sup |Fn (x) − F (x)| −→n 0 casi seguro.


x∈IR

Obsérvese que según el apartado (c) del teorema 16, las distribuciones empı́ri-
cas asociadas a muestras de tamaño n convergen débilmente a la distribución de
probabilidad teórica identificada por F , para casi todas las muestras de tamaño
infinito que se extraigan de F . Ésta es una de las consecuencias más importantes
del citado teorema:

la distribución empı́rica converge débilmente con probabilidad 1 a la


poblacional cuando el tamaño de la muestra tiende a infinito:

Fn −→D F, casi seguro.

Esto garantiza la posibilidad de realizar inferencia estadı́stica: los aspectos pro-


babilı́sticos de una caracterı́stica X, medida en una población, se resumen de
forma estilizada en una distribución de probabilidad F , la cual puede ser apro-
ximada mediante las distribuciones empı́ricas Fn obtenidas por muestreo de la
población en estudio. El teorema de Glivenko-Cantelli afirma que esas aproxi-
maciones son uniformes en x. Por esta razón el teorema de Glivenko-Cantelli
se llama a veces Teorema Fundamental de la Estadı́stica Matemática: da una
fundamentación de la inferencia estadı́stica, cuyo objetivo principal consiste en
extraer información sobre F a partir de las observaciones muestrales.

Ejemplo 24
En la figura siguiente se muestra la función de distribución de una variable
aleatoria N (0, 1) y la función de distribución empı́rica de dos muestras de esa
variable aleatoria una de tamaño n = 10 (la más alejada de la teórica) y la
otra de tamaño n = 100. Se aprecia que cuando n crece la proximidad entre la
función de distribución empı́rica y la teórica es cada vez mayor.
50CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

F.d. de la N(0,1) y f.d.e. de dos muestras suyas con n=10 y n=100


1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
−3 −2 −1 0 1 2

. .

3.1.2. Principio de sustitución

En esta sección presentamos una consecuencia importante de la convergencia


de Fn a F , la definición de estimadores mediante el principio de sustitución.

La convergencia de Fn a F permite construir versiones factibles de carac-


terı́sticas poblacionales desconocidas. Supongamos que estudiamos una carac-
terı́stica X en una población y que el resultado de la observación de X puede ser
modelizado como una variable aleatoria con distribución desconocida, digamos
F . Muchas de las preguntas relevantes acerca de la caracterı́stica X podrı́an ser
contestadas si su función de distribución F fuese conocida (por ejemplo el valor
esperado, el número de modas de la distribución o la probabilidad de que X sea
negativa).

Para fijar ideas podemos pensar que nos interesa conocer cantidades numé-
ricas (parámetros) que dependen únicamente de la función de distribución des-
conocida F :
θ = ψ(F ).
3.1. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA Y EL MÉTODO DE LOS MOMENTOS51

El teorema de Glivenko-Cantelli nos dice que Fn se acerca a F , a medida que


el tamaño muestral crece. Ası́, podemos esperar que también se verifique que

θ̂n = ψ(Fn ) −→ θ = ψ(F ),

es decir, esperamos que las cantidades numéricas calculadas para la distribución


empı́rica (estimadores) se aproximen a las cantidades desconocidas a medida
que el tamaño muestral crezca. Se puede probar que este resultado es cierto
bajo hipótesis de regularidad bastante generales de las funciones ψ que asignan
números a funciones de distribución.
Esta forma de obtener estimadores de parámetros poblacionales desconocidos
se denomina principio de sustitución (plug-in principle en inglés). Es un
procedimiento muy general de obtención de estimadores.

Ejemplo 25
Sea X ∼ U (0, θ). Se toma una m.a.s. de X de tamaño n para estimar θ. Un
estimador razonable de θ es el máximo de las observaciones, que es estadı́stico
minimal suficiente para θ:
θ̂2 = máx Xi .
i

Éste es un estimador de θ basado en el principio de sustitución. En efecto,

θ = sup{x ∈ IR : F (x) < 1},

y
θ̂2 = máx Xi = sup{x ∈ IR : Fn (x) < 1}.
i

. .

3.1.3. El método de los momentos

Una aplicación del principio de sustitución es la definición de los estima-


dores basados en momentos. El momento no centrado de orden k de una
variable aleatoria X con distribución F se define como
Z
µk = EF (X ) = xk dF (x).
k

Si Xe es una variable aleatoria con función de distribución igual a Fn , la función


de distribución empı́rica de una m.a.s. de tamaño n de X, se tiene que sus
momentos no centrados (a los que llamaremos mk,n ) son de la forma
Z n
1X k
mk,n = EFn (Xek ) = xk dFn (x) = X ,
n i=1 i
52CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

y se denominan momentos muestrales no centrados de orden k. Por ejemplo, µ1


es la esperanza poblacional y m1,n la media muestral.
La siguiente proposición garantiza que los momentos muestrales convergen
a los poblacionales.

Proposición 2 Sea X variable aleatoria con E(X 2k ) < ∞. Entonces se verifica


que mk,n −→ µk casi seguro. Además,

n(mk,n − µk )
p −→D Z,
µ2k − µ2k

con Z ∼ N (0, 1). Se tiene además la convergencia de la distribución conjunta


de los k primeros momentos muestrales:
√ £ ¤
n (m1,n , . . . , mk,n )t − (µ1 , . . . , µk )t −→D Nk ( 0 , Σ),
e
donde Σ es una matriz (k × k) con elemento (i, j) genérico

σij = µi+j − µi µj .

Demostración: La demostración es inmediata. Se basa en la aplicación de la


ley fuerte de los grandes números y el teorema central del lı́mite, dado que si
definimos Yi = Xik entonces mk,n = Ȳn . La última parte se sigue del teorema
central del lı́mite multivariante. 2

Muchas caracterı́sticas poblacionales de interés se pueden expresar como


función de los momentos no centrados de órdenes 1, . . . , k:

θ = h(µ1 , . . . , µk ).

Por ejemplo, la varianza de X se expresa como σ 2 = h(µ1 , µ2 ) = µ2 − µ21 .


El estimador de θ basado en el principio de sustitución se conoce como
estimador de los momentos de θ y será

θ̂n = h(m1,n , . . . , mk,n ).

Obsérvese que el estimador de los momentos de θ puede no ser único, porque


diferentes funciones h pueden conducir al mismo valor θ.
La siguiente proposición establece el comportamiento asintótico del estima-
dor de los momentos de θ.

Proposición 3 Consideremos la variable aleatoria X con E(X 2k ) < ∞. Sea


θ = h(µ1 , . . . , µk ). Si h es continua en (µ1 , . . . , µk ), entonces θ̂n = h(m1,n , . . . , mk,n )
converge a θ casi seguro. Además, si h es derivable en (µ1 , . . . , µk ), entonces la
distribución lı́mite de θ̂n es normal:
√ 2
n(θ̂n − θ) −→D N (0, σh,θ ).
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 53

Demostración: La demostración de la convergencia casi segura se sigue di-


rectamente de la de continuidad de h y de la convergencia casi segura de los
momentos muestrales a los poblacionales.
La demostración de la normalidad asintótica queda pospuesta hasta que se
haya introducido en la sección 4.3 el método delta. 2

Ejemplo 25, página 51. Continuación. Se toma una m.a.s. de X de tamaño


n de una U (0, θ) para estimar θ. El estimador de momentos θ̂M de θ viene dado
por la sigiente relación:

θ θ̂M
E(X) = =⇒ m1,n = =⇒ θ̂M = 2m1,n = 2X.
2 2

. .

Ejemplo 26
Otros esimadores basados en el método de los momentos son los siguientes:

1. Para una variable aleatoria X con varianza finita, Vd


(X) = (n − 1)Sn2 /n.

2. Si X ∼ Exp(λ) con E(X) = 1/λ, entonces λ̂ = 1/X.

3. Si X ∼ B(n, p) entonces p̂ = X y Vd
(X) = p̂(1 − p̂).

4. Si X ∼ Poisson(λ) entonces E(X) = λ. Por lo tanto λ̂1 = X es estimador


de momentos. Además, λ = V (X) = µ2 − µ21 . Por tanto,

(n − 1)Sn2
λ̂2 = m2,n − m21,n =
n
es también un estimador basado en momentos. Es preferible λ1 porque en
su definición sólo interviene el momento de orden 1.

. .

3.2. Estimadores de máxima verosimilitud

Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de una variable alea-


e
toria X con función de densidad (o de masa de probabilidad) f ( x |θ), con
e
θ = (θ1 , . . . , θk ) ∈ Θ ⊆ IRk . Sea X el espacio muestral, es decir, el conjunto
54CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

de todos los posibles valores de X . Hemos definido la función de verosimi-


e
litud para x = (x1 , . . . , xn ) ∈ X como
e
L(·| x ) : Θ −→ IR+
e Qn
θ −→ L(θ| x ) = f ( x |θ) = i=1 f (xi |θ)
e e
Para cada muestra x ∈ X , el estimador de máxima verosimilitud θ̂ de θ
e
es el valor de Θ que hace máxima la verosimilitud L(·| x ):
e
L(θ̂| x ) = máx L(θ| x ).
e θ∈Θ e
Intuitivamente θ̂ es el valor del parámetro que hace más verosı́mil la muestra
observada. Veremos más adelante que los estimadores de máxima verosimilitud
son muy buenos estimadores y que en general tienen propiedades de optimalidad.
Además, en muchas ocasiones el estimador máximo verosı́mil es el que el sentido
común nos llevarı́a a proponer.

Ejemplo 27

X ∼ exp(λ) =⇒ f (x|λ) = λe−λx I[0,∞) (x), λ > 0.


Se toma una muestra de tamaño n = 1 y se observa x = 3. Estudiamos la
función de verosimilitud L(λ|3) = λe−3λ y buscamos su máximo para λ > 0.
Buscamos los valores de λ que anulan la derivada de L(λ|3):
1
L0 (λ|3) = e−3λ (1 − 3λ); L0 (λ|3) = 0 =⇒ λ =
3
Como L(λ|3) ≥ 0 y

lı́m L(λ|3) = lı́m L(λ|3) = 0


λ−→0 λ−→∞

se sigue que el punto crı́tico de L(λ|3) es un máximo. Ası́,


1
λ̂ = .
3

. .

Ejemplo 28
Nos regalan una bolsa de lacasitos. Nos dicen que la proporción de caramelos
de cada color es la misma pero no nos dicen de cuántos colores distintos pueden
ser los caramelos. Se trata de estimar por máxima verosimilitud k, el número
de colores, a partir de la observación de n caramelos.
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 55

Supongamos que escogemos 3 caramelos y observamos verde, blanco y verde.


Anotamos x1 = V BV . Si k es el número de colores, la probabilidad de observar
dos colores distintos en los tres caramelos es

P(x1 |k) = L(k|x1 ) =

P(el segundo diferente al primero)P(el tercero es como el primero) =


k−11 k−1
= .
k k k2
Esta función de k toma los valores siguientes, y tal como puede apreciarse es
decreciente:

k 2 3 4 ···
1 2 3
(k − 1)/k 2 = 0,25 = 0,2222 = 0,1875 (decrece en k)
4 9 16

Ası́, el estimador máximo verosı́mil de k es

k̂(V BV ) = 2.

Sacamos otro caramelo y vemos que es de color naranja. Anotamos x2 =


V BV N . La verosimilitud de la muestra es ahora
k−11k−2 (k − 1)(k − 2)
L(k|x2 ) = P(x2 |k) = =
k k k k3
cuyos primeros valores son los siguientes:

k 3 4 5 6 7
2 3 12 5 30
L(k|x2 ) = ,0741 = ,0938 = ,096 = ,0926 = ,0875
27 32 125 54 343

Para k ≥ 6 la función L(k|x2 ) es decreciente en k. Por tanto el estimador máximo


verosı́mil de k es
k̂(V BV N ) = 5.
Obsérvese que, pese a haber observado sólo cuatro caramelos y a haber visto
únicamente tres colores distintos, el estimador máximo verosı́mil indica que hay
dos colores que aún no hemos visto.
. .

El problema de hallar el estimador máximo verosı́mil es un problema de opti-


mización. Por lo tanto, todas las técnicas analı́ticas y numéricas de optimización
que conocemos pueden resultarnos útiles para estimar por máxima verosimili-
tud. También hay que tener la misma precaución con lo resultados obtenidos:
hay que comprobar las condiciones de segundo orden para asegurarnos de que
un punto crı́tico es efectivamente un máximo, puede haber más de un máximo
56CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

global, puede haber varios máximos locales, el óptimo puede estar en la frontera
del espacio paramétrico, podemos tener una función objetivo (la verosimilitud)
que sea prácticamente plana cerca del máximo y esto dificulta la búsqueda por
métodos numéricos.
Como norma general, si la dimensión del espacio paramétrico es 1 o 2, es
conveniente hacer un gráfico de la función de verosimilitud frente a los diferentes
valores de los parámetros. Esto puede ayudar a detectar algunos de los problemas
que mencionamos antes.

3.2.1. Cálculo del estimador máximo verosı́mil

Si la función de verosimilitud L( θ | x ) es derivable en θi , las soluciones de


e e
las ecuaciones de primer orden,

L( θ |x) = 0, j = 1, . . . , k,
∂θj e
son candidatas a ser el estimador máximo verosı́mil. Los ceros de las primeras
derivadas no son necesariamente máximos de la función de verosimilitud: pueden
ser máximos locales o globales, mı́nimos locales o globales o puntos de inflexión.
Para asegurar que la solución encontrada es un máximo (local o global) hay que
comprobar que las segundas derivadas sean definidas negativas.
Por otra parte, este procedimientos sólo permite localizar extremos en el
interior del espacio paramétrico Θ. Podrı́a ser que L(θ| x ) alcanzase su valor
e
máximo en la frontera de Θ.

Ejemplo 29
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ∈ IR:
1
Pn 2
L(µ| x ) = (2π)−n/2 e− 2 i=1 (xi −µ)
e
Calculamos la primera derivada de L respecto a µ:
Xn
d
L(µ| x ) = − (xi − µ)L(µ| x );
dµ e i=1
e
luego
X n
d
L(µ| x ) = 0 =⇒ (xi − µ) = 0 =⇒ µ̂ = x.
dµ e i=1
Ası́ pues, µ̂ = x es un candidato a ser el estimador máximo verosı́mil. Tenemos
que comprobar que es un máximo global de L(µ| x ).
e
En primer lugar, constatamos que x es el único punto crı́tico del interior del
espacio paramétrico Θ = IR. En segundo lugar, calculamos la derivada segunda:
"Ã n
! #
d2 X
2
L(µ| x )|µ=x = −n + ( (xi − µ)) L(µ| x ) = −nL(x| x ) < 0.
dµ2 e i=1
e e
µ=x
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 57

Ası́ pues, x es un máximo y es el único extremo del interior del espacio pa-
ramétrico.
Por último, analizamos el comportamiento de L(µ| x ) en la frontera: en este
e
caso ±∞. Vemos que
lı́m L(µ| x ) = 0.
x−→±∞ e
Concluimos entonces que µ̂ = x es el estimador máximo verosı́mil. La última
comprobación (comportamiento de L(µ| x ) en ±∞) no es estrictamente necesa-
e
ria, porque si en +∞ o −∞ hubiese un máximo, forzosamente tendrı́a que haber
un mı́nimo relativo en el interior de Θ = IR (dado que x es máximo relativo) y
eso no ocurre.
. .

En ocasiones es posible buscar el máximo de L(θ, x ) directamente, usando


e
propiedades especı́ficas de esa función de verosimilitud concreta. Esto puede
ser útil si las ecuaciones obtenidas al igualar a cero las derivadas de L resul-
tan complicadas. No hay una metodologı́a general que seguir y, por tanto, este
procedimiento alternativo requiere más habilidad que el basado en el cálculo de
derivadas. Por ejemplo, se puede probar que hay una cota superior de la vero-
similitud y que ésta se alcanza en un valor del parámetro. Ello implica que ese
valor es el estimador máximo verosı́mil.

Ejemplo 29, página 56. Continuación. La verosimilitud es decreciente en


Pn 2
i=1 (xi − µ) , luego encontrar
Pn
el estimador máximo verosı́mil es equivalente a
encontrar el mı́nimo de i=1 (xi − µ)2 . Obsérvese que, por el Teorema 1,
n
X n
X n
X
(xi − µ)2 = (xi − x)2 + (x − µ)2 ≥ (xi − x)2 .
i=1 i=1 i=1
Pn 2
Además, la cota inferior i=1 (xi −x) se alcanza si hacemos µ = x. Se concluye
Pn
que x es mı́nimo absoluto de i=1 (xi −µ)2 y, por tanto, es también el estimador
máximo verosı́mil.
. .

Muy a menudo es más sencillo trabajar con el logaritmo de la verosimilitud


que hacerlo con la propia función. Dado que el logaritmo es una función estric-
tamente creciente, los extremos de la función de verosimilitud se alcanzan en
los mismos puntos (y tienen las mismas caracterı́sticas) en los que se alcancen
los extremos de su logaritmo.
Denotaremos por l (θ| x ) al logaritmo de la función de verosimilitud:
e
l (θ| x ) = log L(θ| x ).
e e
58CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

Ejemplo 30
X1 , . . . , X n muestra aleatoria simple de X ∼ Bern(p), p ∈ Θ = [0, 1].
e
Pn Pn
L(p| x ) = p i=1 xi (1 − p)n− i=1 xi =⇒
e
X n Xn
l (p| x ) = ( xi ) log p + (n − xi ) log(1 − p) =⇒
e i=1 i=1
Pn Pn
d i=1 xi n − i=1 xi
l (p| x ) = − .
dp e p 1−p
Pn
Distinguiremos tres casos, según sea el valor de i=1 xi . Si suponemos que
Pn
0 < i=1 xi < n

Xn Xn Pn
d xi
l (p| x ) = 0 =⇒ (1 − p)( xi ) = (n − xi )p =⇒ p̂ = i=1 = x ∈ (0, 1).
dp e i=1 i=1
n
Pn
xi
p̂ = i=1
n = x es el único extremo en el interior de Θ, es decir, en (0, 1). Con
la segunda derivada comprobamos que se trata de un máximo:
· Pn Pn ¸
d2 i=1 xi n − i=1 xi
l (p| x )| p=p̂ = − − =
dp2 e p2 (1 − p)2 p=p̂

np̂ n(1 − p̂) 1


− − = −n < 0.
p̂2 (1 − p̂)2 p̂(1 − p̂)
Concluimos que el único valor posible del estimador máximo verosı́mil en (0, 1)
es p̂, donde la verosimilitud valdrı́a
µ ¶np̂

L(p̂| x ) = (1 − p̂)n > 0.
e 1 − p̂

Estudiamos el valor de L(p| x ) en la frontera, es decir, en p = 0 y p = 1:


e
L(0| x ) = L(1| x ) = 0 < L(p̂| x ).
e e e
Concluimos que p̂ es el estimador máximo verosı́mil de p, en el caso de que
Pn
0 < i=1 xi < n.
Pn
En segundo lugar, si i=1 xi = 0,

L(p| x ) = (1 − p)n ,
e
función decreciente en p, luego el estimador máximo verosı́mil de p es 0 = x = p̂.
Pn
Por último, si i=1 xi = n,

L(p| x ) = pn ,
e
función creciente en p, luego el estimador máximo verosı́mil de p es 1 = x = p̂.
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 59

En resumen, el estimador máximo verosı́mil de p es


Pn
xi
p̂ = i=1 .
n

. .

Es importante asegurarse que el estimador máximo verosı́mil propuesto perte-


nece al espacio paramétrico.

Ejemplo 31
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ≥ 0.
Ya hemos visto en el ejemplo 29 que si Θ = IR entonces el estimador máximo
verosı́mil de µ es µ̂ = x. Por lo tanto éste también será el estimador máximo
verosı́mil en el presente problema si x ≥ 0. En el caso de que x < 0 es inmediato
probar que L(µ| x ) es función decreciente en µ si µ > x. Por lo tanto, en este
e
caso el estimador máximo verosı́mil de µ es 0. Resumiendo, el estimador máximo
verosı́mil de µ cuando θ = [0, ∞) es
½
0 si x<0
µ̂ =
x si x≥0

. .

Un caso en el que no es posible realizar la optimización mediante la igualación


de las derivadas a cero es aquél en el que el espacio paramétrico Θ es discreto.
En este caso aún es posible analizar el problema de forma sistemática.
Si es posible considerar un espacio paramétrico ΘA más amplio en el que el
parámetro varı́e de forma continua (por ejemplo, si Θ = IN, ΘA podrı́a ser IR+
o IR) y buscar el estimador máximo verosı́mil cuando θ ∈ ΘA , ese valor puede
ayudarnos a restringir la lista de puntos de Θ que pueden ser estimador máximo
verosı́mil de θ ∈ Θ.

Ejemplo 32
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ∈ IN. Como el estimador máximo ve-
rosı́mil de µ ∈ IR es x y L(µ| x ) es creciente en (−∞, x) y decreciente en (x, ∞),
e
se deduce que los únicos puntos que pueden ser estimador máximo verosı́mil de
µ ∈ IN son [x] y [x] + 1, donde [a] es la parte entera de a, para cualquier a ∈ IR.
. .
60CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

Cuando razonamientos de este tipo no son posibles pero el espacio paramétri-


co discreto Θ es IN (o en general, si está totalmente ordenado) es útil analizar
los cocientes
L(k + 1| x )
e
L(k| x )
e
y estudiar para qué valores de k éstos son menores o mayores que 1. El siguiente
ejemplo responde a este modelo.

Ejemplo 33
Lanzamos una moneda equilibrada (p = 0,5) unas cuantas veces y obtenemos
4 caras; ¿cuántas veces la hemos lanzado?
En este caso se tiene X1 , . . . , Xn , una m.a.s. de X ∼ B(k, p), con p conocido
y k desconocido. La verosimilitud es

Yn µ ¶ Yn
k xi k!
L(k| x ) = p (1 − p)k−xi = pnx (1 − p)n(k−x) .
e i=1
x i x
i=1 i
!(k − xi )!

El hecho, por un lado, de que el parámetro k sea natural y, por otro, la presencia
de k! y (k − xi )! en la función de verosimilitud, hace difı́cil la maximización de
L.
Si ordenamos los datos x(1) ≤ x(2) ≤ . . . ≤ x(n) , es obvio que k ≥ x(n) porque
los valores de xi oscilan entre 0 y k. Además, el estimador máximo verosı́mil es
un número natural k que satisface

L(k| x ) L(k + 1| x )
e ≥1y e <1
L(k − 1| x ) L(k| x )
e e
Desarrollando,
Qn k!
L(k| x ) (1 − p)nk i=1 (k−x i )!
e = Qn (k−1)!
L(k − 1| x ) (1 − p)n(k−1) i=1 (k−1−x i )!
e
à n !
Y k (k(1 − p))n
n
= (1 − p) = Qn ≥ 1,
i=1
k − xi i=1 (k − xi )

y
L(k + 1| x ) ((k + 1)(1 − p))n
e = Qn < 1.
L(k| x ) i=1 (k + 1 − xi )
e
Ası́, las condiciones anteriores sobre los cocientes de verosimilitudes equivalen a
pedir
n
Y n
Y
(k(1 − p))n ≥ (k − xi ) y ((k + 1)(1 − p))n < (k + 1 − xi ).
i=1 i=1
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 61

Dividiendo por k n y (k + 1)n , son equivalentes a


n
Y n
Y
(1 − p)n ≥ (1 − (xi /k)) y (1 − p)n < (1 − (xi /(k + 1)))
i=1 i=1

De hecho, queremos encontrar un valor z = 1/k tal que


n
Y
(1 − p)n = (1 − zxi )
i=1
Qn
con 0 ≤ z ≤ 1/x(n) , porque k ≥ x(n) . La función g(z) = i=1 (1 − zxi ) es
decreciente en z, g(0) = 1, g(1/x(n) ) = 0. Por lo tanto la ecuación

g(z) = (1 − p)n ∈ [0, 1],

tiene solución única ẑ. Este valor ẑ no tiene por qué ser el inverso de un natural
k, pero sı́ nos permite calcular el estimador máximo verosı́mil k̂ de k:

k̂ = máx{k ∈ IN : k ≤ 1/ẑ}.

Este análisis demuestra que el máximo de L(k| x ) es único.


e
Supongamos que p = 0,5, que n = 3 y que hemos observado x1 = 4, x2 = 2
y x3 = 3. Hay que resolver la ecuación
1 1
(1 − )3 = = 0,125 = g(z) = (1 − 4z)(1 − 3z)(1 − 2z) = 1 − 9z + 26z 2 − 24z 3
2 8
en z ∈ [0, 1/x(3) ] = [0, 1/4]. Calculamos algunos valores de g(z) con z = 1/k y
k ≥ 4:

k 4 5 6 7 8 9 10
z = 1/k 0.25 0.2 0.1667 0.1429 0.125 0.1111 0.1
g(z) 0 0.048 0.1111 0.1749 0.2344 0.2881 0.336

Obsérvese que g(1/6) < 0,125 < g(1/7). Por lo tanto, ẑ ∈ (1/7, 1/6) y

k̂ = máx{k ∈ IN : k ≤ 1/ẑ} = 6.

. .

Si L(θ| x ) no puede maximizarse analı́ticamente pueden usarse técnicas nu-


e
méricas de optimización. Nos referiremos más adelante a algunas de estas técni-
cas.
En estos casos es importante comprobar la estabilidad numérica del estima-
dor máximo verosı́mil encontrado. Es decir, es importante saber si la solución
cambia sólo ligeramente cuando alteramos ligeramente los datos o si, por el
62CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

contrario, cambios pequeños en los datos dan lugar a grandes cambios en las
soluciones. Si éste es el caso, podemos deducir que quizás la función de verosi-
militud sea prácticamente plana en una zona alrededor del máximo y estamos
obteniendo puntos distintos de esa zona. También puede ocurrir que la fun-
ción de verosimilitud tenga múltiples máximos locales y al perturbar los datos
estemos pasando de uno a otro.

Ejemplo 33, página 60. Continuación. En el ejemplo anterior supongamos


que p también fuese desconocido. El estimador máximo verosı́mil (k̂, p̂) ∈ IN ×
[0, 1] puede encontrarse por optimización numérica. Supongamos que n = 5 y
que se observa

x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 27.

Entonces el estimador máximo verosı́mil de k es k̂ = 99. Se vuelve a realizar el


experimento y sólo cambia la última observación:

x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 28.

En este caso el máximo se encuentra en k̂ = 190. Estamos en un caso de un


estimador k̂ muy inestable. (Véase Casella-Berger, p. 297.)
. .

Estimador máximo verosimil de un parámetro multidimensional


La forma de proceder en este caso sigue las pautas expuestas anteriormente.
Veamos un ejemplo en el que el parámetro θ es bidimensional.

Ejemplo 34
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ =
(µ, σ 2 ). Pn
1 2
L(µ, σ 2 | x ) = (2πσ 2 )−n/2 e− 2σ2 i=1 (xi −µ) =⇒
e
n
n n 1 X
l (µ, σ 2 | x ) = − log 2π − log σ 2 − 2 (xi − µ)2
e 2 2 2σ i=1
Pn ) ½
∂ 2 1
∂µ l (µ, σ | x ) = σ 2 i=1 (xi − µ) = 0
Pn
µ̂ = x
Pn
∂ e2 n 1 =⇒
∂(σ 2 ) l (µ, σ | x ) = − 2σ 2 + 2σ 4
2
i=1 (xi − µ) = 0 σ̂ 2 = n1 i=1 (xi − x)2 .
e
Podemos probar que la solución θ̂ = (x, σ̂ 2 ) es máximo global de dos formas.
Pn Pn
En primer lugar, como para cualquier µ 6= x es i=1 (xi − µ)2 > i=1 (xi −
x)2 , se tiene que

l (x, σ 2 | x ) > l (µ, σ 2 | x ) para todo σ 2 .


e e
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 63

Ahora sólo hay que probar que l (x, σ 2 | x ) alcanza su máximo como función uni-
e
variante de σ 2 en σ̂ 2 . De esta forma hemos reducido el problema bidimensional
a uno unidimensional.
En segundo lugar, podemos probar que (x, σ̂ 2 ) es máximo de l mediante
el cálculo de las primeras y segundas derivadas parciales. Hay que comprobar
que el punto anula las primeras derivadas y que la matriz hessiana es definida
negativa, es decir, se ha de verificar lo siguiente:

1. ¯
∂ ¯
¯
l ((θ1 , θ2 )| x )¯ = 0, j = 1, 2.
∂θj e ¯ θ1 =x,θ2 =σ̂ 2

2. ¯
∂2 ¯
¯
l ((θ1 , θ 2 )| x ) ¯ < 0,
∂θj2 e ¯ θ1 =x,θ2 =σ̂ 2

al menos para j = 1 o j = 2.

3.
¯ ¯
¯ ∂2
l ((θ1 , θ2 )| x ) ∂2 ¯
(2) ¯ ∂θ12 ∂θ1 ∂θ2 l ((θ1 , θ2 )| x ) ¯
J =¯ ∂2
e ∂2
e ¯ >0
¯ ∂θ1 ∂θ22
l ((θ1 , θ2 )| x ) ∂θ22
l ((θ1 , θ2 )| x ) ¯
e e θ1 =x,θ2 =σ̂ 2

El primer punto ya se comprobó anteriormente, pues (x, σ̂ 2 ) fueron encon-


trados precisamente como los valores que anulaban las primeras derivadas.
Calculemos las segundas derivadas:

∂2 n
l ((µ, σ 2 )| x ) = − 2
∂µ2 e σ
n
∂2 2 n 1 X
l ((µ, σ )| x ) = − (xi − µ)2
∂(σ 2 )2 e 2σ 4 σ 6 i=1
n
∂2 1 X
l ((µ, σ 2 )| x ) = − 4 (xi − µ).
∂µ∂(σ) e σ i=1

Observad que cuando se particularizan estas derivadas segundas en θ̂ se obtiene


lo siguiente:

∂2 n
l ((µ, σ 2 )| x )|x,σ̂2 = − 2 < 0
∂µ2 e σ̂
∂2 n 1 n
l ((µ, σ 2 )| x )|x,σ̂2 = − 6 nσ̂ 2 = − 4 < 0
∂(σ 2 )2 e 2σ̂ 4 σ̂ 2σ̂
∂2
l ((µ, σ 2 )| x )|x,σ̂2 = 0
∂µ∂(σ) e
64CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

Ası́, se verifica también el segundo punto de la lista anterior. Veamos el tercero,


sobre el signo del determinante de la matriz hessiana:
¯ ¯
¯ − n2 0 ¯¯ n2
J (2) = ¯¯ σ n ¯= > 0 para todo σ 2
0 − 2σ4 2σ 6

Se concluye que (x, σ̂ 2 ) es el máximo de la función de verosimilitud.


Para ser estrictos, aún se deberı́a probar que (x, σ̂ 2 ) es el único punto crı́ti-
co del interior del espacio paramétrico (esto es inmediato, porque es la única
solución de las condiciones de primer orden) y que el máximo no se alcanza en
la frontera (cuando µ = ±∞, σ 2 = 0 o σ 2 = ∞). Esto último obligarı́a a la
existencia de otros puntos crı́ticos en el interior del espacio paramétrico, lo cual
es absurdo.
En general se intenta probar la condición de máximo sin recurrir al cálculo
de las segundas derivadas.
. .

Estimador máximo verosimil con datos censurados


El siguiente es un ejemplo de estimación máximo verosı́mil que se aparta del
marco clásico de observaciones i.i.d.

Ejemplo 35
Sean X1 , . . . , Xn muestra aleatoria simple de X ∼ exp(λ). En este contexto el
estimador máximo verosı́mil de λ es λ̂ = 1/x.
Supongamos que no observamos todas las variables, sino sólo las m prime-
ras, y que de las restantes (n − m) sólo sabemos que toman valores mayores
que T : Xj > T , j = m + 1, . . . , n. Se dice entonces que esos valores han sido
censurados. En este caso, la verosimilitud es
Ym n
Y
L(λ| x ) = f (xi |λ) (1 − F (T |λ)) =
e i=1 i=m+1

m
Y n
Y Pm
λe−λxi e−λT = λm e−λ i=1
xi −λT (n−m)
e =⇒
i=1 i=,+1

Xm
l (λ| x ) = m log λ − λ xi − λT (n − m).
e i=1
Derivando e igualando a 0:
m
d m X
l (λ| x ) = − xi − T (n − m) = 0 =⇒
dλ e λ i=1

m
λ̂ = Pm .
x
i=1 i + (n − m)T
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 65

Comprobamos que es máximo:

d2 m
2
l (λ| x ) = − 2 < 0 para todo λ.
dλ e λ
Concluimos que λ̂ es el estimador máximo verosı́mil de λ en el caso de datos
censurados.
La variable aleatoria exp(λ) suele modelizar tiempos de vida (o tiempos de
funcionamiento hasta fallar) de individuos o mecanismos. En ese caso λ es la
tasa de fallo, la cantidad de fallos por unidad de tiempo. Obsérvese que tanto
en el caso usual sin censura como en el caso con censura el inverso del estimador
máximo verosı́mil de λ es el cociente de la suma total de los tiempos de vida (o
en funcionamiento) entre el número de muertes (o fallos) observadas.
. .

3.2.2. Cálculo numérico de los estimadores de máxima ve-


rosimilitud

Como ya se dijo anteriormente, en la práctica el cálculo del estimador máxi-


mo verosı́mil se reduce a resolver un problema de optimización de una función
(en general no lineal) de k variables, posiblemente sujeto a restricciones. Re-
cordaremos en esta sección algunas técnicas numéricas para llevar a cabo esa
optimización. Lo expuesto aquı́ está basado en Bertsekas (1999).
Buscaremos el máximo del logaritmo de la verosimilitud, dado que esta fun-
ción es en general más fácil de tratar numéricamente que la verosimilitud. Los
algoritmos presentados no contemplan la posibilidad de tener restricciones so-
bre los parámetros. Si los parámetros están sujetos a restricciones del tipo cotas
simples (por ejemplo, α > 0 en una distribución gamma) una transformación
logarı́tmica del parámetro transforma el problema en otro sin restricciones en los
parámetros (por ejemplo, en la distribución gamma se reparametriza mediante
α∗ = log(α) y ası́ el nuevo parámetro α∗ puede tomar cualquier valor real).
El problema es siempre máxθ∈IRk l (θ| x ). Como la muestra x está fija en
e e
todo el proceso, escribiremos l (θ) en lugar de l (θ| x ). Llamaremos θ∗ al máximo
e
de l (θ).

Método de Newton-Raphson

Se trata (al igual que los métodos siguientes) de un procedimiento iterativo


que proporciona una sucesión {θn }n≥1 que converge al óptimo θ∗ .
Consideremos una estimación inicial θ0 de θ∗ que puede haber sido obtenida,
por ejemplo, por el método de los momentos. El método de Newton-Raphson
aproxima la función l (θ) en un entorno de θ0 por la función cuadrática que en
ese punto θ0 tiene en común con l (θ) el valor de la función y los valores de
66CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

las dos primeras derivadas. Llamemos l˜0 (θ) a esa función cuadrática. De hecho,
l˜0 (θ) es el desarrollo en serie de Taylor de orden 2 de l (θ) alrededor de θ0 .

Ejemplo 36
Si k = 1, l˜0 (θ) = a + bθ + cθ2 . Los valores de a, b y c se obtienen al resolver el
sistema  ˜
 l 0 (θ0 ) = l (θ0 )
l˜ 0 (θ ) = l 0 (θ0 )
 ˜0 00 0
l 0 (θ0 ) = l 00 (θ0 )
El resultado es el mismo si se hace directamente el desarrollo de Taylor de l :

1
l˜0 (θ) = l (θ0 ) + (θ − θ0 )l 0 (θ0 ) + (θ − θ0 )2 l 00 (θ0 ).
2

. .

El primer punto en la sucesión, θ1 , es el punto donde se alcanza el máximo


de la función cuadrática aproximadora. El proceso se itera y ası́ se construye la
sucesión {θn }n≥1 que, bajo condiciones generales (por ejemplo, si la función de
verosimilitud es cóncava), converge al óptimo θ∗ :

θ0 −→ l˜0 (θ) −→ θ1
.
l˜1 (θ) −→ θ2
.
l˜2 (θ) −→ θ3
.
.. .. ..
. . .
.
l˜m−1 (θ) −→ θm
.
.. .. ..
. . .

θ∗

Veamos que este algoritmo puede resumirse analı́ticamente dando la fórmula


que permite calcular cada punto de la sucesión en función del punto anterior.

Como hemos dicho, l˜m (θ) es el desarrollo en serie de Taylor de orden 2 de


l (θ) alrededor de θm :

1
l˜m (θ) = l (θm ) + ∇l (θm )t (θ − θm ) + (θ − θm )t Hl (θm )(θ − θm )
2
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 67

donde ∇l (θm ) ∈ IRk es el vector gradiente de l en θm , que tiene por componente


j-ésima la derivada parcial de l respecto a la coordenada j-ésima de θ calculada
en el punto θm , y Hl (θm ) es la matriz hessiana de l en θm , una matriz k×k cuyo
elemento (i, j) es la segunda derivada de l respecto a las cordenadas i-ésima y
j-ésima, calculadas en el punto θm .
La maximización de l˜m es factible analı́ticamente. Su gradiente es

∇l˜m (θ) = ∇l (θm ) + Hl (θm )(θ − θm ).

Igualándolo a 0 se obtiene el punto θm+1 :


−1
∇l (θm ) + Hl (θm )(θ − θm ) = 0 =⇒ θm+1 = θm − (Hl (θm )) ∇l (θm ).

Este punto θm+1 es máximo de l (θm ) si Hl (θm ) es definida negativa, ya que

H l˜m (θ) = Hl (θm ).

Pero si θm está suficientemente cerca de θ∗ y l (θ) es una función suave (segundas


derivadas continuas) entonces Hl (θm ) será definida negativa por serlo Hl (θ∗ ).
Ası́,
−1
θm+1 = θm − (Hl (θm )) ∇l (θm )
es la fórmula recursiva que nos da θm+1 en función de θm , m ≥ 0. Aplicaremos
la recursión hasta convergencia, es decir, hasta que

||θm+1 − θm || < ε,

para un ε prefijado. Una condición suficiente, aunque no necesaria, para que el


algoritmo converja es que l sea cóncava.

Método de los scores de Fisher


Se trata de una modificación del método de Newton-Raphson. En la iteración
−1
θm+1 = θm − (Hl (θm )) ∇l (θm )

se sustituye el hessiano por su valor esperado. No olvidemos que l (y por lo


tanto, su gradiente y su matriz hessiana) depende de θ y también de la muestra
x observada. Podemos entonces tomar esperanzas:
e
D = Eθm (Hl (θm | X )),
e
que es la matriz de información de Fisher cambiada de signo.
La principal ventaja teórica que se deriva de esta sustitución es que se garan-
tiza la convergencia del algoritmo. En efecto, bajo condiciones de regularidad
(que permiten intercambiar los signos de la derivada y de la integral; en la
sección 4.2 se volverá sobre esto) se puede probar que

Eθ (∇l (θ)) = 0, y Vθ (∇l (θ)) = Eθ (∇l (θ)∇l (θ)t ) = −E(Hl (θ| X ))


e
68CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

de donde se deduce que D = Eθm (Hl (θm | X )) es definida negativa, lo cual


e
garantiza la convergencia del algoritmo.
No obstante, es posible que la convergencia del algoritmo modificado sea
más lenta que la del algoritmo de Newton-Raphson puro, en caso de que ambos
converjan.
Una ventaja práctica de este algoritmo es que en el cálculo de D sólo inter-
vienen derivadas de primer orden (el gradiente del logaritmo de la verosimilitud)
mientras que en el algoritmo original se necesita calcuar la matriz hessiana. Por
contra, ahora hay que calcular una esperanza. En este sentido, será preferible
uno u otro algoritmo según sea la dificultad de calcular
à !
∂l ∂l
dij = −E
∂θi ∂θj

y
∂ 2l
hij = .
∂θi ∂θj
Al vector gradiente, ∇l (θ), también se le llama vector de scores, lo cual
justifica el nombre del algoritmo.

Ejemplo 37
Veamos que en el caso de familias exponenciales parametrizadas de forma na-
tural ambos algoritmos son, de hecho, el mismo porque la matriz hessiana no
depende de la muestra observada. La verosimilitud de una muestra es
à n !  
Y X k
L(θ| x ) = h(xi ) c(θ)n exp  θj Tj ( x ) ,
e i=1 j=1
e
Pn
donde Tj ( x ) = i=1 tj (xi ), y su logaritmo,
e
Xk
l (θ| x ) = K + n log c(θ) + θj Tj ( x ),
e j=1
e

donde K es cierta constante. Ası́,


∂ l (θ) ∂ log c(θ)
=n + Tj ( x )
∂θj ∂θj e
y
∂ 2 l (θ) ∂ 2 log c(θ)
=n
∂θi ∂θj ∂θi ∂θj
que es constante en la muestra, por lo que es igual a su valor esperado. Se sigue
que Hl = E(Hl ) = D.
. .
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 69

Método de Nelder-Mead
Es un método de búsqueda directa que no requiere ni primeras ni segundas
derivadas de la función objetivo, sólo es necesario poder evaluar la función que
queremos maximizar.
En cada iteración del algoritmo se parte de un conjunto de (k + 1) puntos
de IRk , θ1 , . . . , θk+1 , θj ∈ IRk , tales que su envoltura convexa tenga interior no
vacı́o: esos puntos forman un simplex en IRk .
El resultado de cada iteración es otro simplex. Se espera que el volumen del
simplex vaya decreciendo de iteración en iteración y que el valor de la función
objetivo crezca al pasar de los puntos de un simplex a los del siguiente. La
iteración tı́pica del algoritmo de Nelder-Mead es como sigue:

Paso 0 Se parte de θ1 , . . . , θk+1 . Se definen


θmı́n = arg mı́n l (θi ), θmáx = arg máx l (θi ),
i=1...k i=1...k
Ãk+1 !
1 X
θ̂ = θi − θmı́n
k i=1

El punto θ̂ es el punto medio de la cara opuesta a θmı́n .


Paso 1 Definir θref = θ̂ + (θ̂ − θmı́n ).
Si l (θref ) > l (θmáx ) =⇒ Paso 2. (θref es mejor que los otros puntos
del simplex).
Si l (θmáx ) > l (θref ) > mı́n{l (θi ) : θi 6= θmı́n } =⇒ Paso 3.
Si l (θref ) < mı́n{l (θi ) : θi 6= θmı́n } =⇒ Paso 4.
Paso 2 Intentar expansión.
θexp = θref + (θref − θ̂)
½
θexp si l (θexp ) > l (θref )
θnew =
θref en otro caso
Sustituir θmı́n por θnew en el simplex. Volver al Paso 0 con el nuevo
simplex.
Paso 3 Usar el punto reflejado.
θnew = θref
Sustituir θmı́n por θnew en el simplex. Volver al Paso 0 con el nuevo
simplex.
Paso 4 Contraer el simplex.
(
1
θnew = 2 (θmı́n + θ̂) si l (θmı́n ) ≥ l (θref )
1
2 (θref + θ̂) si l (θmı́n ) < l (θref )

Sustituir θmı́n por θnew en el simplex. Volver al Paso 0 con el nuevo


simplex.
70CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

En la práctica funciona bien si la dimensión del espacio paramétrico es pe-


queña (k ≤ 10), como suele ser el caso en problemas de estimación por máxima
versimilitud. No hay resultados teóricos sobre la convergencia de este algorit-
mo. Si l (θ) es estrı́ctamente cóncava, el algoritmo mejora la verosimilitud en
cada iteración. Esto se entiende en el sentido de que ocurre alguna de estas dos
cosas: en cada iteración, o bien l (θmı́n ) crece estrictamente, o bien, la cantidad
de vértices del simplex θi en los que l (θi ) = l (θmı́n ) decrece en al menos una
unidad.

3.2.3. Principio de invariancia del estimador máximo ve-


rosı́mil

Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ f (x|θ) y sea θ̂ el estimador


máximo verosı́mil de θ. Si estamos interesados en estimar una función τ (θ) del
parámetro, podemos hacerlo mediante τ (θ̂). Éste es el resultado que garantiza
el siguiente teorema y se conoce como principio de invariancia.

Teorema 18 (Principio de invariancia) Si θ̂ es el estimador máximo ve-


rosı́mil de θ, entonces para cualquier función τ (θ) el estimador máximo verosı́mil
de τ (θ) es τ (θ̂).

Demostración: Supondremos primero que τ es biyectiva. Definimos

η = τ (θ) ⇐⇒ θ = τ −1 (η)

y reparametrizamos la verosimilitud usando el nuevo parámetro η en vez de θ:

Yn
L∗ (η| x ) = f (xi |τ −1 (η)) = L(τ −1 (η)| x ) =⇒
e i=1
e

L∗ (η̂| x ) = sup L∗ (η| x ) = sup L(τ −1 (η)| x ) =


e η e η e
sup L(θ| x ) = L(θ̂| x ) = L∗ (τ (θ̂)| x ).
θ e e e
Por lo tanto el máximo de L∗ (η| x ) se alcanza cuando η̂ = τ (θ̂), luego el esti-
e
mador máximo verosı́mil de η = τ (θ) es τ (θ̂).
Consideramos ahora el caso en que τ no es biyectiva. En este caso no es
posible definir la verosimilitud L∗ (η| x ) como L(τ −1 (η)| x ) porque τ −1 (η) no
e e
está definido unı́vocamente. Se define L∗ (η| x ), la verosimilitud inducida
e
por τ , como
L∗ (η| x ) = sup L(θ| x ).
e {θ:τ (θ)=η} e

Con esta definición se verifica que el estimador máximo verosı́mil de τ (θ), τd


(θ),
es τ (θ̂). Efectivamente, sea η̂ el estimador máximo verosı́mil de η = τ (θ), es
3.3. ESTIMACIÓN BAYESIANA 71

decir, el valor que verifica

L∗ (η̂| x ) = sup L∗ (η| x ).


e η e

Por definición de L∗ ,

L∗ (η̂| x ) = sup L∗ (η| x ) = sup sup L(θ| x ) =


e η e η {θ:τ (θ)=η} e

sup L(θ| x ) = L(θ̂| x ) = sup L(θ| x ) = L∗ (τ (θ̂)| x ),


θ e e {θ:τ (θ)=τ (θ̂)} e e
es decir,
L∗ (η̂| x ) = L∗ (τ (θ̂)| x ),
e e
luego el máximo de la verosimilitud en η se alcanza si η = τ (θ̂). 2

Ejemplo 38
Si X ∼ N (µ, σ 2 ), el estimador máximo verosı́mil de µ2 es x2 .
Si X ∼ B(n, p), el estimador
p máximo
p verosı́mil de p es p̂ = X/n y el estimador
máximo verosı́mil de p(1 − p) es p̂(1 − p̂).
. .

3.3. Estimación Bayesiana

3.3.1. Distribuciones a priori y a posteriori

Consideremos un problema de inferencia estadı́stica en el que las observacio-


nes se toman de una variable aleatoria X que sigue una distribución con función
de densidad (o función de masa de probabilidad) f (x|θ), con θ ∈ Θ. En ocasio-
nes se dispone de información sobre el parámetro θ antes de recoger los datos.
Esta información puede ser de tipo histórico (si se han realizado experimentos
similares con anterioridad) o bien de tipo subjetivo (el investigador puede creer
que ciertos valores de θ ∈ Θ son más plausibles que otros).
Una forma de recoger la información previa sobre θ es definir una distribución
de probabilidad sobre Θ, que se llama distribución a priori de θ, de forma que
las regiones de Θ más probables a priori sean aquellas que contienen los valores
de θ más plausibles según la información previa existente, antes de observar
ningún valor de X.
El concepto de distribución a priori es muy controvertido. Algunos estadı́sti-
cos defienden que en cualquier problema estadı́stico se puede definir siempre
una ley a priori para θ. Esta distribución representa la información (histórica o
subjetiva) del experimentador y se debe trabajar con ella siguiendo las reglas
72CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

de la probabilidad. Por tanto, el parámetro θ es considerado una variable alea-


toria como cualquier otra, con la única peculiaridad de que no es observable. Lo
que sı́ se observa es la variable aleatoria X condicionada al valor concreto (no
observable) que toma θ. Ası́ pues, el estudio de las observaciones de X aporta
información sobre el valor de θ, información que debe combinarse con la distri-
bución a priori del parámetro para modificarla. El resultado de esa actualización
de la información se plasma de nuevo en una distribución de probabilidad sobre
Θ: la distribución a posteriori de θ, una vez observada la variable aleatoria
X. Éstos son los planteamientos básicos que conforman el enfoque bayesiano
de la estadı́stica.

Otros estadı́sticos creen que en ocasiones no es apropiado hablar de una dis-


tribución de probabilidad sobre Θ porque θ es una cantidad fija desconocida
para el investigador. Otro de los aspectos de la inferencia bayesiana que a me-
nudo recibe crı́ticas es el grado de subjetividad a que está expuesto por el hecho
de que es el experimentador quien define la distribución a priori. En cualquier
caso, en lo que hay coincidencia es en que si hay información sobre θ ésta tiene
que ser utilizada en la inferencia.

Existen distribuciones a priori no informativas (por ejemplo con den-


sidad o función de masa plana en todo Θ) que se construyen sin usar información
a priori y permiten hacer inferencia bayesiana objetiva. Para definirlas a veces
es necesario recurrir a distribuciones a priori impropias (distribuyen una
probabilidad infinita sobre Θ). Pese a su carácter impropio permiten hacer in-
ferencias correctas.

Supondremos aquı́ que existe información previa sobre θ y que ésta se expresa
mediante una distribución a priori sobre Θ, cuya función de densidad o función
de masa de probabilidad denotaremos por π(θ). Se toma una muestra aleatoria
simple X1 , . . . , Xn de X ∼ f (x|θ). El objetivo es actualizar la distribución a
priori π(θ) con la ayuda de las observaciones x y teniendo en cuenta la forma
e
de f (x|θ), que indica cómo se distribuye x, condicionada por valores de θ. Por
el momento, supondremos que tanto X|θ como θ tienen función de densidad.

La ley conjunta de X1 , . . . , Xn se denomina distribución muestral (o


verosimilitud de la muestra) dado el valor del parámetro:

Yn
f ( x |θ) = f (xi |θ).
e i=1

La densidad conjunta de X y θ es
e
f ( x , θ) = f ( x |θ)π(θ).
e e
Como consecuencia, la marginal de X es
e
Z
m( x ) = f ( x |θ)π(θ)dθ.
e θ e
3.3. ESTIMACIÓN BAYESIANA 73

Se define la distribución a posteriori de θ como la ley condicional de θ


dadas las observaciones x de X , cuya densidad se puede calcular por simple
e e
aplicación del Teorema de Bayes:

f ( x |θ)π(θ)
π(θ| x ) = e , θ ∈ Θ.
e m( x )
e
En inferencia bayesiana se usa esta distribución para realizar inferencias sobre
θ. Por ejemplo, un estimador puntual de θ podrı́a ser E(θ| x ).
e
La distribución a posteriori nos informa sobre la verosimilitud relativa de
que el verdadero valor de θ esté en las distintas regiones del espacio paramétrico
Θ después de haber observado X1 , . . . , Xn .

Obsérvese que π(θ| x ) es proporcional al producto de la verosimilitud por la


e
a priori:
π(θ| x ) ∝ f ( x |θ)π(θ).
e e
Esta relación es suficiente para calcular π(θ| x ) dado que la restricción de que
e
su integral sea 1 permite calcular la constante 1/m( x ).
e

Ejemplo 39
Sea X el tiempo de vida en horas de un nuevo modelo de lámpara fluorescente.
Se supone que X ∼ exp(λ), con µ = E(X) = 1/λ. La información histórica
acumulada sobre tiempos de vida de lámparas similares indica que µ tiene media
aproximadamente 5000 horas. De hecho, la distribución que se propone como a
priori para λ es igual a
λ ∼ γ(α0 , β0 ),

con E(λ) = α0 β0 = 1/5000 y V (λ) = α0 β02 = 0,0001, de donde se sigue que

α0 β0 = 0,0002 y α0 β02 = 0,0001 =⇒ α0 = 4, β0 = 1/20000.

Ası́, λ ∼ γ(4, 1/20000) y su función de densidad es

200004 3 −20000λ
π(λ) = λ e , λ > 0.
(4 − 1)!

Se hace una prueba de vida en la que se ponen a funcionar 25 lámparas del


nuevo modelo hasta que se funden. Los resultados son éstos:
25
X
X1 = x1 , . . . , X25 = x25 , xi = 150000.
i=1

Ası́, la verosimilitud es
P25
f (x1 , . . . , x25 |λ) = λ25 e−λ i=1
xi
,
74CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

y la densidad a posteriori de λ es

f (x1 , . . . , x25 |λ)π(λ)


π(λ|x1 , . . . , x25 ) = R ∞ .
o
f (x1 , . . . , x25 |λ)π(λ)dλ

El numerador es
25
X 200004 3 −20000λ
f (x1 , . . . , x25 |λ)π(λ) = λ25 exp{−λ xi } λ e =
i=1
3!

X 25
200004 28
λ exp{−λ( xi + 20000)},
6 i=1

y el denominador
Z ∞ X 25
200004 28
m(x1 , . . . , x25 ) = λ exp{−λ( xi + 20000)}dλ.
o 6 i=1

P25
Si hacemos α = 29 y β = 1/( i=1 xi + 20000), podemos observar que esa
integral es, salvo constantes, la integral de la función de densidad de una variable
aleatoria γ(α, β). Concretamente,
Z ∞
200004 28!
m(x1 , . . . , x25 ) = P25 fγ(α,β) (λ)dλ =
6 ( i=1 xi + 20000)29 o

200004 28!
P .
6 ( 25i=1 xi + 20000)
29

Ası́, P25
200004 28 −λ( xi +20000)
6 λ e i=1
π(λ|x1 , . . . , x25 ) = 200004 P 28!
=
6 25
( xi +20000)29
i=1

P25
( i=1 xi + 20000)29 28 −λ(P25 xi +20000)
λ e i=1
28!
de donde se deduce que

X25
λ|x1 , . . . , x25 ∼ γ(29, 1/( xi + 20000)).
i=1

Por lo tanto, un estimador de λ podrı́a ser

29 29
λ̂ = E(λ|x1 , . . . , x25 ) = P25 = ,
i=1 xi + 20000 150000 + 20000

y, como consequencia, una estimación de la vida media de las nuevas lámparas


es P25
1 xi + 20000 150000 + 20000
µ̂ = = i=1 = = 5862 horas.
λ̂ 29 29
3.3. ESTIMACIÓN BAYESIANA 75

Si usásemos x como estimador de µ, obtendrı́amos un valor de


150000
x= = 6000 horas.
25
Por lo tanto, la información a priori indica que no se debe ser tan optimista
como se desprende del valor x = 6000: a pesar de que el nuevo diseño de lámpa-
ra tiene una vida media superior a las anteriores (la estimación de µ es ahora
de 5862 horas, superior a las 5000 horas iniciales) la información a priori rebaja
la vida media desde las 6000 horas observadas hasta las 5862.
. .

Observaciones secuenciales
En muchos experimentos (en particular, en muchos ensayos clı́nicos) las observa-
ciones X1 , . . . , Xn se obtienen de forma secuencial. Esta secuenciación permite
actualizar progresivamente la información que se tiene sobre el parámetro θ.
En un principio la información a priori sobre θ es π(θ). Se observa X1 = x1 .
Entonces
π(θ|x1 ) ∝ f (x1 |θ)π(θ)
recoge a partir de ese instante la información acumulada sobre θ. Por lo tanto
π(θ|x1 ) actúa como distribución a priori antes de obtener la segunda observación.
Cuando se observa X2 = x2 ,

π(θ|x1 , x2 ) ∝ f (x2 |θ)π(θ|x1 ) ∝ f (x2 |θ)f (x1 |θ)π(θ).

Tras haber observado X1 = x1 , . . . , Xn = xn ,

π(θ|x1 , x2 , . . . , xn ) ∝ f (xn |θ)π(θ|x1 , x2 , . . . , xn−1 ) ∝

f (xn |θ) · · · f (x2 |θ)f (x1 |θ)π(θ) = f ( x |θ)π(θ).


e
Se observa ası́ que la distribución a posteriori tras haber tomado n observaciones
de X es la misma tanto si se toman éstas de forma secuencial como si se toman
simultáneamente.

3.3.2. Distribuciones conjugadas

Sea F la clase de las funciones de densidad (o de masa de probabilidad) de


un modelo paramétrico f (x|θ) indexadas por θ:

F = {f (x|θ) : θ ∈ Θ}.

Sea una clase Π de distribuciones sobre Θ. Se dice que Π es una familia de


distribuciones conjugadas para F si la distribución a posteriori de θ dada
la muestra x pertenece a Π para toda muestra x ∈ X , para toda a priori π ∈ Π
e e
y para toda verosimilitud f ∈ F.
76CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

Teorema 19 Sea X1 , . . . , Xn m.a.s. de X ∼ Bern(θ), 0 < θ < 1. Sea θ ∼


Beta(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones
X1 = x1 , . . . , Xn = xn es una
à n n
!
X X
Beta α + xi , β + n − xi .
i=1 i=1

Nota: Recordar que U (0, 1) ≡ Beta(1, 1).


Demostración:
Γ(α + β) α−1
π(θ) = θ (1 − θ)β−1
Γ(α)Γ(β)
Pn Pn
f (xi |θ) = θxi (1 − θ)1−xi =⇒ f ( x |θ) = θ i=1 xi (1 − θ)n− i=1 xi = L(θ| x )
e e
Ası́,
Pn Pn Γ(α + β) α−1
xi
f ( x , θ) = θ (1 − θ)n− i=1 xi
i=1 θ (1 − θ)β−1 =
e Γ(α)Γ(β)
Γ(α + β) Pn xi +α−1 Pn
θ i=1 (1 − θ)n− i=1 xi +β−1 ,
Γ(α)Γ(β)
y Z
Γ(α + β) Pn xi +α−1
∞ Pn
m( x ) = θ i=1 (1 − θ)n− i=1 xi +β−1 dθ =
e 0 Γ(α)Γ(β)
Pn Pn
Γ(α + β) Γ(α + i=1 xi )Γ(n − i=1 xi + β)
×
Γ(α)Γ(β) Γ(α + β + n)
Z ∞ Pn Pn
Γ(α + β + n)
Pn Pn θ i=1 xi +α−1 (1 − θ)n− i=1 xi +β−1 dθ =
0 Γ(α + i=1 xi )Γ(n − i=1 xi + β)
| {z }
=1
Pn Pn
Γ(α + β) Γ(α + i=1 xi )Γ(n − i=1 xi + β)
Γ(α)Γ(β) Γ(α + β + n)
Calculamos ahora la densidad a posteriori:
Γ(α)Γ(β) Γ(α + β + n)
π(θ| x ) = P P ×
e Γ(α + β) Γ(α + ni=1 xi )Γ(n − ni=1 xi + β)
Γ(α + β) Pn xi +α−1 Pn
θ i=1 (1 − θ)n− i=1 xi +β−1 =
Γ(α)Γ(β)
Γ(α + β + n) Pn Pn
Pn Pn θ i=1 xi +α−1 (1 − θ)n− i=1 xi +β−1
Γ(α + i=1 xi )Γ(n − i=1 xi + β)
Pn Pn
y por lo tanto, θ| x tiene distribución Beta(α + i=1 xi , β + n − i=1 xi ). 2
e

Teorema 20 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(θ), 0 < θ. Sea θ ∼


γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones X1 =
x1 , . . . , Xn = xn es una
à n
!
X
−1 −1
γ α+ xi , (β + n) .
i=1
3.3. ESTIMACIÓN BAYESIANA 77

Demostración: Para ciertas constantes K1 , K2 y K3 , se tiene que


Pn
π(θ) = K1 θα−1 e−θ/β , L(θ| x ) = K2 e−nθ θ i=1 xi =⇒
e
Pn Pn −1
π(θ| x ) = K3 e−nθ θ i=1 xi θα−1 e−θ/β = K3 θα+ i=1 xi −1 e−(β +n)θ
e ¡ Pn ¢
que corresponde con la densidad de una γ α + i=1 xi , (β −1 + n)−1 . 2

Los valores de las constantes usadas en la demostración son


Pn
1 1 (α + i=1 xi − 1)!
K1 = , K 2 = Qn , K 3 = Pn ,
(α − 1)!β α i i=1 xi ! (n + (1/β))α+ i=1 xi

aunque no es necesario conocerlos para probar el resultado.

Teorema 21 Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ), −∞ < θ < ∞, σ 2 > 0


conocido. Sea θ ∼ N (µ, ν 2 ). La ley a posteriori de θ dadas las observaciones
X1 = x1 , . . . , Xn = xn es una N (µ1 , ν12 ) con

σ 2 µ + nν 2 x σ2 nν 2
µ1 = 2 2
= 2 2
µ+ 2 x,
σ + nν σ + nν σ + nν 2

σ2 ν 2
ν12 = .
σ 2 + nν 2

Demostración: Ver DeGroot (1988), sección 6.3. 2

Obsérvese que si σ 2 −→ ∞ entonces µ1 = µ, y que si nν 2 −→ ∞ entonces


µ1 = x. Por su parte, la precisión de la distribución a posteriori es la suma de
la precisión a priori y la precisión de X:
1 1 n
2 = 2 + 2.
ν1 ν σ

Ejemplo 40
Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, 1) y sea π(θ) ∼ N (0, τ −2 ), para τ conocido.
Notémos que en la notación del teorema 21, tenemos µ = 0 y ν 2 = τ −2 . Calcu-
laremos la distribución a posteriori de θ y analizaremos para qué valores de τ
serı́a esta distribución menos informativa.
Del teorema 21 se desprende que
µ Pn ¶
i=1 xi 1
θ| x ∼ N , .
e n + τ2 n + τ2

Esta distribución será tanto menos informativa cuanta mayor varianza tenga,
es decir, cuanto menor sea τ . El caso lı́mite serı́a τ = 0, que corresponde a
una distribución a priori impropia (normal con varianza infinita) no informativa
78CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

(π(θ) es constante en IR). En ese caso obtendrı́amos el mismo resultado que si


realizásemos inferencia fiducial (ver Casella-Berger, sección 6.2.1).
Al inverso de la varianza se le denomina precisión de la distribución. En
este ejemplo, τ 2 es la precisión de la distribución a priori. Si ponemos τ = 0
estamos asumiendo que la precisión de la información a priori es nula. Entonces
el procedimiento de inferencia no la tiene en cuenta.
. .

Teorema 22 Sea X1 , . . . , Xn m.a.s. de X ∼ exp(θ), θ = (E(X))−1 > 0. Sea


θ ∼ γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones
X1 = x1 , . . . , Xn = xn es una
 Ã !−1 
n
X
1
γ α + n, + xi .
β i=1

Demostración: Ver DeGroot (1988), sección 6.3. 2

Ejemplo 28, página 54. Continuación. Consideremos de nuevo el problema


de estimar el número de colores diferente que tienen los caramelos de la bolsa.
Supongamos que basándonos en nuestra experiencia pensamos que el número de
colores es 5 con probabilidad 1/10, 6 con probabilidad 3/10, 7 con probabilidad
3/10 y 8 con probabilidad 3/10. De nuevo suponemos que hemos observado
(V BV ).

k π(k) f (V BV |k) = (k − 1)/k 2 f (V BV, k) π(k|V BV )


5 0.1 0.160 0.016 0.125
6 0.3 0.139 0.042 0.328
7 0.3 0.122 0.037 0.289
8 0.3 0.109 0.033 0.258
P
k f (V BV, k) = 0,128

Tomamos otro caramelo y es naranja. Repetimos el análisis:

k π(k) f (V BV N |k) = (k − 1)(k − 2)/k 3 f (V BV N, k) π(k|V BV N )


5 0.125 0.096 0.012 0.135
6 0.328 0.093 0.031 0.348
7 0.289 0.087 0.025 0.281
8 0.258 0.082 0.021 0.236
P
k f (V BV N, k) = 0,089

Se observa que la distribución de probabilidad sobre {5, 6, 7, 8} no se ha modi-


ficado mucho desde π(k) hasta π(k|V BV N ). Esto indica que la observación de
3.3. ESTIMACIÓN BAYESIANA 79

sólo cuatro caramelos es poco informativa sobre el número k de colores. Si con-


tinuásemos muestreando, la distribución a posteriori se irı́a concentrando cada
vez más en torno al verdadero valor del parámetro k.
. .

3.3.3. Funciones de pérdida

Acabamos de ver cómo derivar la distribución a posteriori del parámetro


dados los datos, a partir de la verosimilitud y la distribución a priori. Nos plan-
teamos ahora cómo usar la distribución a posteriori para construir un estimador
puntual del valor del parámetro, es decir, cómo resumir toda la distribución a
posteriori del parámetro en un solo punto de Θ.
Consideremos por un momento que no hemos observado la muestra y que
sobre Θ hay definida una distribución de probabilidad π. En este contexto que-
remos elegir un punto a ∈ Θ como representante de toda la distribución π sobre
Θ. Una propiedad deseable es que ese valor a esté cerca de los puntos θ ∈ Θ. Para
medir cómo de lejos está a del valor θ del parámetro definiremos una función
de pérdida o función de coste:
C : Θ×A −→ R+
(θ, a) −→ C(θ, a),
donde A es el conjunto o espacio de acciones a posibles, y C(θ, a) es el coste de
dar a como estimación de un valor concreto θ ∈ Θ. Dado que θ es desconocido
y puede tomar los valores de Θ según indica la distribución π, para tener una
idea global del coste de a se considera la función de pérdida esperada:
Z
Eπ(θ) (C(θ, a)) = C(θ, a)π(θ)dθ.
Θ

La elección de la función de pérdida es a menudo arbitraria. Las tres más usuales


son éstas:

Función de pérdida cero-uno:

C(θ, θ̂) = αI(β,∞) (|θ̂ − θ|)

donde α > 0 y β ≥ 0 son constantes.


Función de pérdida del error absoluto:

C(θ, θ̂) = α|θ̂ − θ|

donde α > 0 es constante.


Función de pérdida cuadrática:

C(θ, θ̂) = α(θ̂ − θ)2

donde α > 0 es constante.


80CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

El parámetro α podrı́a tomarse igual a 1, sin pérdida de generalidad. Estas tres


funciones son decrecientes en |θ̂ − θ| y simétricas alrededor de θ̂ = θ.
Se pueden definir funciones de pérdida asimétricas que reflejen, por ejemplo,
que las consecuencias de estimar un parámetro por defecto sean peores que las
de estimarlo por exceso. Este serı́a el caso de la estimación del grosor de la capa
de hielo que recubre un lago sobre el que se desea patinar. Un ejemplo en el que
subestimar es preferible es el de la estimación del precio futuro de una acción
cuando se quiere decidir si se invierte o no en dicha acción.

3.3.4. Estimadores de Bayes

Supongamos que tenemos información a priori π(θ) sobre θ ∈ Θ y que obser-


vamos una muestra aleatoria simple X1 , . . . , Xn de X ∼ f (x|θ). La distribución
a posteriori vienen dada por π(θ| x ) ∝ L(θ| x )π(θ). Supongamos que el coste de
e e
estimar θ por a es C(θ, a). Ası́, el coste esperado de estimar θ mediante a, dado
que hemos observado x , será
e Z
E(C(θ, a)| x ) = C(θ, a)π(θ| x )dθ.
e Θ e
A esta cantidad se le llama pérdida esperada a posteriori.
Se define un estimador de Bayes de θ como aquel valor a = a( x ) ∈ Θ
e
que minimiza la pérdida esperada a posteriori, es decir,

E(C(θ, a( x ))| x ) = mı́n E(C(θ, a)| x ).


e e a∈Θ e
A ese valor a( x ) se le suele denotar por θ∗ ( x ). Obsérvese que este estimador
e e
de Bayes depende de la muestra a través de la distribución a posteriori.

Teorema 23 Si la función de pérdida es cuadrática, entonces el estimador de


Bayes es la esperanza a posteriori:

θ∗ ( x ) = E(θ| x ).
e e
Demostración:
h i
E(C(θ, a)| x ) = E (θ − a)2 | x = E(θ2 | x ) + a2 − 2aE(θ| x )
e e e e
Derivando respecto a a e igualando a 0:

−2E(θ| x ) + 2a = 0 =⇒ a = E(θ| x ),
e e
que es un mı́nimo porque la segunda derivada es 2 > 0. 2

Teorema 24 Si la función de pérdida es el error absoluto, entonces el estima-


dor de Bayes es la mediana de la distribución a posteriori:

θ∗ ( x ) = mediana(θ| x ).
e e
3.3. ESTIMACIÓN BAYESIANA 81

Demostración: Ver DeGroot (1988), teorema 1 de la sección 4.5. 2

Ejemplo 41
Sea X ∼ Bern(θ). Se observa una muestra aleatoria simple de X: X1 = x1 , . . . , Xn =
xn . Suponemos que la distribución a priori de θ es
α
θ ∼ Beta(α, β) =⇒ E(θ) = .
α+β
Tal como vimos en el teorema 19,
à n n
!
X X
θ| x ∼ Beta α + xi , β + n − xi .
e i=1 i=1

Por tanto, el estimador de Bayes basado en pérdida cuadrática será


Pn
α + i=1 xi
θ̂1 = E(θ| x ) = =
e α+β+n
n α+β α
x+ .
α+β+n α+β+nα+β
Obsérvese que θ̂1 es una media ponderada de la media a priori y de la media
muestral. El peso de cada cantidad depende de los parámetros en la distribución
a priori y del tamaño muestral. A medida que n crece se tiene que θ̂1 tiende
hacia x.
La estimación de θ basada en la pérdida del error absoluto requiere la de-
terminación por métodos numéricos de la mediana de la distribución Beta(α +
Pn Pn
i=1 xi , β + n − i=1 xi ).
. .

Ejemplo 42
Se ha observado una m.a.s. de X ∼ N (θ, σ 2 ): X1 = x1 , . . . , Xn = xn . Partimos
de una a priori N (µ, ν 2 ) para θ. En el teorema 21 vimos que la distribución a
posteriori es θ| x ∼ N (µ1 , ν12 ) con
e
σ 2 µ + nν 2 x 2 σ2 ν 2
µ1 = 2 2
, ν1 = 2 .
σ + nν σ + nν 2
El estimador de Bayes con pérdida cuadrática es

σ 2 µ + nν 2 x
θ̂1 ( x ) = E(θ| x ) = =
e e σ 2 + nν 2
nν 2 σ2
x + µ.
σ 2 + nν 2 σ 2 + nν 2
82CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

De nuevo el estimador de Bayes es una media ponderada de la media a priori


y de la media muestral. Si ponemos una a priori poco informativa, es decir, con
varianza ν 2 grande, se tendrá que θ̂1 ( x ) será aproximadamente igual a la media
e
muestral.
En este caso la elección de la función de pérdida del error absoluto conduce
al mismo estimador θ̂1 ( x ) porque la mediana y la media a posteriori coinciden
e
(dado que la distribución a posteriori es simétrica).
. .
3.4. LISTA DE PROBLEMAS 83

3.4. Lista de problemas

Método de los momentos


1. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, µ) = (1/2)e−|x−µ| . Hallar el esti-
mador de momentos de µ.

2. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, θ) = θx−2 ,


0 < θ ≤ x < ∞.

a) Da un estadı́stico suficiente para θ.


b) Halla el estimador de momentos de θ.

3. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, λ) = λe−λx+1 , x > 1/λ. Hallar el


estimador de momentos de λ.

4. Sea X1 , . . . , Xn una m.a.s. de X ∼ B(k, p), k ∈ IN, 0 < p < 1. Encuentra


los estimadores de momentos de (k, p).

5. En el ejemplo 26 se mencionan dos estimadores para la varianza de una


B(n, p): (n − 1)Sn2 /n y p̂(1 − p̂). ¿Qué relación hay entre ellos?

Máxima verosimilitud
6. (Casella-Berger, 7.13) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, µ) = (1/2)e−|x−µ| .
Hallar el estimador máximo verosı́mil de µ.

7. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, θ) = θx−2 ,


0 < θ ≤ x < ∞. Halla el estimador de máxima verosimilitud de θ.

8. (Casella-Berger, 7.7) Sea X1 , . . . , Xn una m.a.s. de X, que sigue una de


las dos distribuciones siguientes. Si θ = 0 entonces f (x; θ) = I(0,1) (x). Si

θ = 1 entonces f (x; θ) = 1/(2 x)I(0,1) (x). Encontrar el estimador máximo
verosı́mil de θ.

9. (Casella-Berger, 7.10) Las variables aleatorias independientes X1 , . . . , Xn


tiene función de distribución común

 0 si x < 0
F (x; α, β) = P (X ≤ x|α, β) = (x/β)α si 0 ≤ x ≤ β ,

1 si x > β

donde α > 0, β > 0.

a) Encontrar un estadı́stico suficiente para (α, β) de dimensión 2.


b) Dar el estimador máximo verosı́mil de (α, β).
c) La longitud (en milı́metros) de los huevos de gorrión puede modeli-
zarse con esa distribución. Para los siguientes datos de longitudes de
huevos, estima por máxima verosimilitud α y β:
84CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 21.7, 23.8, 22.8, 23.1, 23.1, 23.5,
23.0, 23.0.
10. (Casella-Berger, 4.26, 7.14) Sean X e Y dos variables aleatorias indepen-
dientes con X ∼ exp(λ) (E(X) = 1/λ), Y ∼ exp(θ) (E(Y ) = 1/θ). X e
Y no son directamente observables, sino que se observan Z y W definidas
como ½
1 si Z = X
Z = mı́n{X, Y }, W = .
0 si Z = Y
Se dice entonces que las variables X e Y están censuradas.
a) Da la distribución conjunta de Z y W .
b) Prueba que Z y W son independientes.
c) Se observa una m.a.s. de tamaño n de (Z, W ). Calcula los estimadores
máximo verosı́miles de λ y θ.
11. Considera las variables aleatorias descritas en los problemas 14, 15 y 16 de
la lista 1.6. Encuentra el estimador máximo verosı́mil de θ en cada caso.
12. (Ex. parcial 2000, Casella-Berger, 7.19) Un sistema de comunicaciones
transmite secuencias de longitud n de dı́gitos binarios, 0 y 1. Se produce
un error en la transmisión cada vez que se transmite un 1, pero se recibe un
0, o viceversa. Supongamos que la probabilidad de error de transmisión en
cada dı́gito transmitido es p, y que los errores en la transmisión de dı́gitos
diferentes se producen de forma independiente.
Como medida de seguridad, cada secuencia se transmite dos veces. Lla-
maremos X a la cantidad de diferencias entre las dos cadenas de dı́gitos
leı́das por el receptor. Por ejemplo, si n es 8, el receptor puede encontrarse
con las cadenas 00110000 y 00100001, y en este caso X valdrı́a 2.
a) Calcula la probabilidad de que un dı́gito concreto sea diferente en
una y otra cadena.
b) Encuentra el estimador de máxima verosimilitud de p cuando la lon-
gitud de las cadenas es n y se observa X. ¿Es único este estimador
de máxima verosimilitud?
c) Da la estimación de p en el ejemplo anterior.
d ) ¿Cómo se interpretarı́a un valor de X más grande que n/2?
13. (Ex. parcial 2001) En la planta de maternidad de un hospital se registraron
los siguientes nacimientos durante las semanas naturales del mes de febrero
de un año no bisiesto:
Semana Número de nacimientos
1 19
2 32
3 28
4 25
5 10
3.4. LISTA DE PROBLEMAS 85

Como la primera semana de febrero puede empezar en un dia cualquiera


de lunes a domingo, de hecho constan 5 semanas, con la primera y la
quinta incompletas. Definimos el espacio paramétrico Θ = {1, 2, . . . , 7},
donde el 1 corresponde al lunes, el 2 al martes, etc. Supondremos que un
nacimiento tiene la misma probabilidad de ocurrir cualquier dı́a del mes.
Dar el estimador máximo verosı́mil del dı́a de la setmana en que cayó el
primero de febrero de ese año.

Estimadores bayesianos
14. Sean Xi ∼ Poisson(λi ), i = 1, 2, independientes. ¿Qué distribución sigue
X1 condicionada a que X1 + X2 = x?

15. Si X ∼ γ(α, β), α > 0, β > 0, entonces se dice que Y = X −1 tiene


distribución gamma invertida con parámetros (α, β), y se denota como
IG(α, β).

a) Prueba que la densidad de Y es

1 1 −1/(βy)
f (y; α, β) = e I(0,∞) (y).
Γ(α)β α y α+1

b) Calcula la esperanza y la varianza de Y .

16. (Casella-Berger, 7.24) Si S 2 es la varianza muestral basada en una muestra


de tamaño n de una población normal, sabemos que (n − 1)S 2 /σ 2 se
distribuye como una χ2n−1 . Vamos a probar que la distribución a priori
conjugada para σ 2 es la gamma invertida.

a) Prueba que si la distribución a priori de σ 2 es IG(α, β), entonces la


a posteriori es
à · ¸−1 !
n − 1 (n − 1)S 2 1
IG α + , + .
2 2 β

b) Calcula el estimador de Bayes bajo pérdida cuadrática de σ 2 .

17. (Ex. parcial 2000) Sea X una variable aleatoria con función de densidad

1 −x
f (x|θ) = e θ,
θ
donde θ es un parámetro que puede tomar valores en el conjunto Θ =
{1, 2, . . . , 20}. Con el objetivo de estimar θ se toma una m.a.s. X1 , . . . , Xn
de X con n = 25 y se obtiene un valor de la media muestral igual a 12.5.

a) Calcula el estimador de máxima verosimilitud de θ y llámalo θ̂1 .


86CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES

b) Calcula el estimador Bayes de θ basado en la función de pérdida

C(θ, a) = I{θ6=a}

(que vale 0 si θ = a y 1 en caso contrario), cuando la distribución a


priori de θ es uniforme en los números {1, 2, . . . , 20} y llámalo θ̂2 .
c) ¿Qué relación hay entre θ̂1 y θ̂2 ? ¿Cómo cambiarı́a esta relación si
cambia la función de verosimilitud? ¿Y si consideramos una distribu-
ción a priori que no sea plana, es decir, que no sea constante en θ?
¿Y si consideramos otra función de pérdida?

18. (Ex. parcial 2001) Supongamos que el número de minutos que una persona
tiene que esperar el autobús cada mañana tiene una distribución uniforme
en el intervalo (0, θ), donde el valor de θ es desconocido. Suponemos que
la función de densidad a priori de θ viene dada por:
½ 192
θ4 per θ ≥ 4,
ξ(θ) =
0 altrament.

Los tiempos esperados en tres mañanas sucesivas son de 5, 3, 8 minutos.

a) Calcular la función de densidad a posteriori de θ. Especificar el domi-


nio de definición de esta función y las constantes que en ella aparecen.
b) Si se quiere estimar el valor de θ usando como función de pérdida
el error cuadrático, ¿qué forma tiene el estimador de Bayes de θ?
Calcular el valor estimado de θ a partir de los tres tiempos esperados
dados.
Capı́tulo 4

Estimación puntual 2:
Evaluación de estimadores

Referencias: Casella-Berger, secciones 7.3 y 7.4, referencia general.


Bickel y Doksum (1977), sección 4.4, para eficiencia; Arnold 1990,
capı́tulo 6, o Schervish 1995, sección 7.1, para las propiedades
asintóticas generales; (Garthwaite, Jollife y Jones 1995), secciones 3.2
y 3.3, Cristóbal (1992), sección 8.3; Arnold (1990), sección 7.3;
Schervish (1995), sección 7.3; Vélez y Garcı́a (1993), sección 7.4., para
propiedades del estimador de máxima verosimilitud

Una vez se han presentado diferentes métodos de estimación surge la nece-


sidad de desarrollar criterios para evaluarlos y compararlos de acuerdo a estos
criterios. En este tema estudiaremos medidas de la calidad de un estimador. Lo
haremos primero para muestras finitas para pasar después a proponer medidas
asintóticas de calidad.

4.1. Error cuadrático medio

Se define el error cuadrático medio (ECM) de un estimador W de un


parámetro θ como
¡ ¢
Eθ (W − θ)2 .
Ésta es una medida intuitiva del comportamiento de un estimador: cuanto menor
sea el error cuadrático medio mejor será el estadı́stico W . De hecho, para cual-
quier función φ creciente con φ(0) = 0, Eθ (φ(|W − θ|)) es una medida razonable
de lo alejadas que estarán, en promedio, las estimaciones de θ que proporcione
W.
En general, se prefiere el error cuadrático medio a otras medidas por ser más
tratable analı́ticamente. Además el error cuadrático medio puede descomponerse

87
88CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

de forma fácilmente interpretable:


¡ ¢ ¡ ¢ ¡ ¢
Eθ (W − θ)2 = Eθ (W − Eθ (W ))2 + Eθ (Eθ (W ) − θ)2 =
2
Vθ (W ) + (Bθ (W )) .
El término Bθ (W ) = Eθ (W ) − θ se llama sesgo (en ingés bias) de W cuando
se estima θ y es una medida de la desviación sistemática que se tiene cuando
se estima θ por W . Si un estimador tiene sesgo nulo para cualquier valor del
¡ ¢
parámetro se dice que es un estimador insesgado. En tal caso, Eθ (W − θ)2 =
Vθ (W ).
Ası́, el error cuadrático medio de un estimador es la suma de su varianza
(una medida de su dispersión) más el cuadrado de su sesgo (medida de la des-
viación sistemática o de la exactitud del estimador). Es una medida conjunta
de precisión y exactitud del estimador. Por lo tanto, parece sensato buscar es-
timadores que tengan error cuadrático medio pequeño, porque de esta manera
controlaremos tanto la dispersión como la exactitud de las estimaciones.

Ejemplo 43
En el siguiente gráfico se muestran cuatro situaciones en las que se combinan
niveles altos y bajos de variabilidad y de sesgo. El caso (d) corresponde al menor
valor del error cuadrático medio.

D E

F G
4.1. ERROR CUADRÁTICO MEDIO 89

. .

Ejemplo 44
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ =
(µ, σ 2 ). Hemos estudiado, entre otros, los siguientes estimadores de µ y σ 2 :
n n
1X 1 X
X= Xi , S 2 = (Xi − X)2 .
n i=1 n − 1 i=1

También hemos calculado sus esperanzas:

E(X) = µ, E(S 2 ) = σ 2 .

Concluimos que X y S 2 son estimadores insesgados de µ y σ 2 , respectivamente.


Su error cuadrático medio coincide entonces con su varianza:
¡ ¢ σ2
Eθ (X − µ)2 = Vθ (X) = ,
n
¡ ¢ 2σ 4
Eθ (S 2 − σ 2 )2 = Vθ (S 2 ) = .
n−1

. .

Ejemplo 45
A veces vale la pena permitir un poco de sesgo en un estimador para obtener
una reducción importante de la varianza y, por lo tanto, del error cuadrático
medio. Éste es uno de esos casos.
Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos:
θ = (µ, σ 2 ). Sea
n−1 2
σ̂ 2 = S ,
n
el estimador máximo verosı́mil de σ 2 . Calculemos su error cuadrático medio:
µ ¶
2 n−1 2 1 1
E(σ̂ ) = σ = 1− σ 2 =⇒ Bθ (σ̂ 2 ) = − σ 2 ;
n n n
µ ¶2
2 n−1 2(n − 1) 4
V (σ̂ ) = V (S 2 ) = σ .
n n2
Ası́, el error cuadrático medio de σ̂ 2 es
2(n − 1) 4 1 2n − 1 4 2
E(σ̂ 2 − σ 2 ) = 2
σ + 2 σ4 = 2
σ < σ4 .
n n n n−1
90CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

Se concluye que σ̂ 2 tiene menor error cuadrático medio que S 2 .


La comparación de los errores cuadráticos medios no nos debe conducir a
pensar que hay que usar siempre σ̂ 2 en vez de S 2 . Aunque es cierto que, en
promedio, σ̂ 2 ofrecerá estimaciones más cercanas a σ 2 que S 2 , también lo es que
en promedio σ 2 estima el parámetro por defecto.
Por otra parte, el criterio del error cuadrático medio es discutible cuando se
estima una varianza porque el error cuadrático medio penaliza las desviaciones
del parámetro de igual forma tanto si son por exceso como si son por defecto.
Sin embargo, las desviaciones por defecto no pueden ser arbitrariamente grandes
porque el valor cero es una cota natural para los estimadores.
. .

Ejemplo 46
Sea X1 , . . . , Xn m.a.s. de X ∼ Bern(p). Queremos comparar el estimador máxi-
mo verosı́mil de p y el estimador bayesiano derivado de suponer pérdida cuadráti-
ca y una beta como distribución a priori de p:
Pn
Xi + α
p̂ = X, p̂B = i=1 .
α+β+n
Calculamos errores cuadráticos medios:
¡ ¢ p(1 − p)
Ep (X − p)2 = V (X) = ,
n
µ Pn ¶ µ µ Pn ¶¶2
¡ ¢ i=1 Xi + α i=1 Xi + α
Ep (p̂B − p)2 = V + Bp =
α+β+n α+β+n
µ ¶2
np(1 − p) np + α
+ − p =
(α + β + n)2 α+β+n
np(1 − p) + (α(1 − p) + βp)2
.
(α + β + n)2
Supongamos que no tenemos una información a priori suficientemente rica como
para determinar los valores de α y β y que, como consecuencia, decidimos elegir
los valores α y β tales que el error cuadrático medio de p̂B sea constante en p,
¡ ¢
si ello es posible: Ep (p̂B − p)2 = K(n). Busquemos esos valores:

α2
si p = 0 =⇒ = K(n),
(α + β + n)2
β2
si p = 1 =⇒ = K(n),
(α + β + n)2
de donde se sigue que α = β y
α2
= K(n).
(2α + n)2
4.1. ERROR CUADRÁTICO MEDIO 91

Si hacemos ahora p = 1/2:


1 n 12 + α2 (1 − 12 − 12 )2 n/4
p= =⇒ 2 = = K(n).
2 (2α + n)2 (2α + n)2
Por lo tanto √
n
α=β=
2
Con esta elección,
Pn √
n
i=1 Xi + 2
p̂B = √
n+n
y su error cuadrático medio es
¡ ¢ 1
Ep (p̂B − p)2 = K(n) = √ para todo p ∈ (0, 1).
4(1 + n)2

n= 4 −4 n= 400
x 10
0.07 7

0.06 6

0.05 5

0.04 4
ECM

ECM

0.03 3

0.02 2

0.01 1

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
p p

1 1
K(4) = = 0,028, K(400) = = 0,000567
36 4(21)2
¡ ¢ 1/4 1 ¡ ¢ 1/4
Ep=1/2 (X − p)2 = = = 0,0625, Ep=1/2 (X − p)2 = = 0,000625
4 16 400
Estas figuras ilustran el comportamiento de p̂ y p̂B : si n es pequeño, el es-
timador de Bayes es preferible a no ser que haya una fuerte evidencia de que p
está en los extremos del intervalo [0, 1]. Si n es grande, es mejor el estimador
frecuentista a menos que se sospeche fundadamente que p ≈ 0,5.
. .

4.1.1. Eficiencia relativa

Un estimador W de θ se denomina inadmisible si existe otro estimador V


de θ tal que
¡ ¢ ¡ ¢
Eθ (V − θ)2 ≤ Eθ (W − θ)2 para todo θ ∈ Θ,
92CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

y además existe algún θ0 ∈ Θ tal que


¡ ¢ ¡ ¢
Eθ0 (V − θ0 )2 < Eθ0 (W − θ0 )2 .

Es decir, un estimador W es inadmisible si existe otro estimador V que es al


menos igual de bueno que W para todo posible valor del parámetro θ y lo supera
cuando el valor concreto del parámetro es θ0 . Se dice también que V domina a
W uniformemente en θ.
Un estimador es admisible cuando no es inadmisible, es decir, cuando no
existe otro que lo domine uniformemente en θ.

Ejemplo 47

T es inadmisible S es admisible
1 1

0.9 0.9

0.8 0.8

0.7 0.7
T T1
0.6 0.6
ECM

ECM

0.5 0.5

0.4 0.4
T2
0.3 0.3

0.2 S 0.2 S

0.1 0.1
T3 no existe
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
θ θ

. .

Ejemplo 48
Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), −∞ < µ < ∞. La media X y la mediana
muestral Mn son estimadores insesgados de µ.
Para n = 21, se tiene que

Vµ (X) = 1/n = 0,048 < Vµ (Mn ) ≈ ,075, para todo µ.

Por lo tanto, la mediana muestral es inadmisible como estimador de µ en el


caso de normalidad. (Nota: Se ha usado la expresión asintótica para calcular
4.1. ERROR CUADRÁTICO MEDIO 93

la varianza de la mediana muestral; véase, por ejemplo, el teorema 7.25 de


Schervish 1995 o el problema 10.10 en Rice 1995. Para la distribución exacta de
la mediana muestral, véase la sección 5.5 de Casella-Berger).
Se puede probar (se verá en el tema 7, sobre teorı́a de la decisión) que la me-
dia muestral es admisible. Esto no implica que no existan otros estimadores con
menor error cuadrático medio que X en ciertas regiones del espacio paramétrico.
Por ejemplo, si definimos W ≡ 3 (el estimador que siempre estima µ como
3, independientemente de la muestra observada), se tiene que
¡ ¢
Eµ (W − µ)2 = (3 − µ)2 .
¡ ¢
Como Eµ (X − µ)2 = 1/n, para todo µ, se tiene que W es preferible a X para
los valores de µ que cumplen
1 1 1
(3 − µ)2 < ⇐⇒ 3 − √ < µ < 3 + √ .
n n n
√ √
Fuera del intervalo [3 + (1/ n), 3 − (1/ n)] es preferible X. Por lo tanto, nin-
guno de estos dos estimadores domina uniformemente al otro.
. .

Si W1 y W2 son dos estimadores insesgados de θ, se define la eficiencia


relativa de W1 respecto a W2 como
1
Vθ (W2 ) Vθ (W1 )
RE(θ, W1 , W2 ) = = 1 .
Vθ (W1 ) Vθ (W2 )

Ası́, RE(θ, W1 , W2 ) > 1 si y sólo si Vθ (W2 ) > Vθ (W1 ), si y sólo si W1 usa los
datos de modo más eficiente que W2 .

Ejemplo 49
Se ha calculado la eficiencia relativa de la mediana muestral Mn respecto a
la media muestral X para estimar el parámetro de centralidad µ de cuatro
distribuciones simétricas (el parámetro de centralidad es la mediana poblacional
y coincide con la esperanza cuando ésta existe).
Se ofrecen los resultados en función del tamaño muestral n. Los valores de la
varianza de la mediana son aproximados y se han calculado mediante la fórmula
1
V (Mn ) ≈ .
4f 2 (µ)

V (X) V (Mn ) RE(θ, Mn , X)


Normal estándar 1/n π/(2n) 2/π = 0,64
Logı́stica (β = 1) π 2 /(3n) 4/n π 2 /12 = 0,82
Doble exponencial (λ = 1) 2/n 1/n 2
Cauchy estándar ∞ π 2 /(4n) ∞
94CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

Se concluye que la media muestral es más eficiente que la mediana en las leyes
normal y logı́stica, y lo es menos en la doble exponencial y la Cauchy.
. .

4.2. Mejor estimador insesgado

Acabamos de ver que la comparación de estimadores basada en error cuadráti-


co medio puede llevar a conclusiones poco razonables (por ejemplo, no podemos
desechar el estimador constante W ≡ 3 porque ése es el mejor estimador en
el caso de que el parámetro sea igual a 3) o a la imposibilidad de elegir un
único estimador (el estimador W ≡ 3 es insuperable si θ = 3 pero también lo
es W ≡ 4 cuando θ = 4). Estos problemas surgen del hecho de que estamos
comparando todos los estimadores posibles de un parámetro: hay estimadores
cuya definición está alejada de toda lógica pero que en determinadas situaciones
muy concretas dan resultados sensatos.
Por lo tanto, para que el criterio de comparación de estimadores mediante
su error cuadrático medio dé lugar a la recomendación de un único estimador,
preferible a los demás, debemos limitar el conjunto de estimadores que se tie-
nen en cuenta. Se debe exigir un mı́nimo de sensatez a un estimador antes de
admitirlo para ser comparado con los restantes estimadores.
Una forma de restringir la clase de estimadores es exigir que sean insesga-
dos. Veremos que si nos restringimos a esta clase de estimadores sı́ llegaremos
a resultados satisfactorios a partir de la comparación de su error cuadrático
medio, que para estos estimadores coincide con su varianza. Se trata de elegir
el estimador insesgado del parámetro θ que tenga la varianza más pequeña.
Además, se caracterizará el mejor estimador insesgado (el de menor varianza).
Dada una transformación τ del parámetro θ, restringimos la clase de esti-
madores considerados a

Cτ = {W : Eθ (W ) = τ (θ)},

la clase de estimadores insesgados de τ (θ). Dado W ∈ Cτ ,


¡ ¢
Eθ (W − τ (θ))2 = Vθ (W )

y la comparación de estimadores con el criterio del error cuadrático medio se


reduce a la comparación de sus varianzas.
Diremos que un estimador W ∗ es el mejor estimador insesgado de τ (θ),
o el UMVUE (estimador insesgado de τ (θ) uniformemente de mı́nima
varianza), si Eθ (W ∗ ) = τ (θ) para todo θ ∈ Θ y si para cualquier otro estimador
W , tal que Eθ (W ) = τ (θ) para todo θ ∈ Θ, se tiene que Vθ (W ∗ ) ≤ Vθ (W ), para
todo θ ∈ Θ.
4.2. MEJOR ESTIMADOR INSESGADO 95

Ejemplo 50
Sea X1 , . . . , Xn una m.a.s. de X ∼ Poisson(λ). Sabemos que E(Xi ) = V (Xi ) =
λ. Por lo tanto, X y S 2 son ambos estimadores insesgados de λ. Determinaremos
cuál de ellos es mejor, en el sentido de tener menor varianza.
La varianza de X es
V (X) λ
V (X) = = .
n n
Para determinar la varianza de S 2 los cálculos son algo más tediosos. En general,
si hacemos θ1 = E(X) y θj = E((X − θ1 )j ), para j = 2, 3, 4, se puede probar
que (ver problema 3 del Capı́tulo 1)
µ ¶
2 1 n−3 2
V (S ) = θ4 − θ .
n n−1 2

Concretaremos este resultado para el caso de la distribución de Poisson. Se tiene


que θ1 = θ2 = λ. Calculemos θ3 y θ4 . En primer lugar,

X X ∞
λk λk
E(X 3 ) = k 3 e−λ = k 2 e−λ =
k! (k − 1)!
k=0 k=1


X λh
λ (h + 1)2 e−λ = λE((X + 1)2 ) = λ(E(X 2 ) + 2E(X) + 1) =
h!
h=0

λ(λ + λ2 + 2λ + 1) = λ3 + 3λ2 + λ.
Ası́,
θ3 = E((X − λ)3 ) = E(X 3 − 3X 2 λ + 3Xλ2 − λ3 ) =
λ3 + 3λ2 + λ − 3λ(λ + λ2 ) + 3λ3 − λ3 = λ.
Calculemos E(X 4 ):

X λk
E(X 4 ) = k 4 e−λ =
k!
k=0

X λh
λ (h + 1)3 e−λ = λE((X + 1)3 ) = λ(E(X 3 ) + 3E(X 2 ) + 3E(X) + 1) =
h!
h=0

λ(λ3 + 3λ2 + λ + 3(λ + λ2 ) + 3λ + 1) = λ(λ3 + 6λ2 + 7λ + 1) = λ4 + 6λ3 + 7λ2 + λ


Ası́,

θ4 = E((X − λ)4 ) = E(X 4 ) − 4λE(X 3 ) + 6λ2 E(X 2 ) − 4λ3 E(X) + λ4 =

λ4 + 6λ3 + 7λ2 + λ − 4λ(λ3 + 3λ2 + λ) + 6λ2 (λ + λ2 ) − 3λ4 =


3λ2 + λ.
Por tanto,
µ ¶ µ ¶
2 1 n−3 2 1 2 n−3 2
V (S ) = θ4 − θ = 3λ + λ − λ =
n n−1 2 n n−1
96CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

λ 2λ2 λ
+ > = V (X) si n ≥ 2.
n n−1 n
Concluimos que S 2 no puede ser el UMVUE para λ, dado que X es preferible a
S2.
. .

En el ejemplo anterior sólo hemos comparado dos estimadores insesgados


entre sı́. Ahora estudiaremos toda una clase de estimadores insesgados, aunque
esta familia no incluye a todos los estimadores insesgados.

Ejemplo 50, página 95. Continuación. Consideremos la clase de estimado-


res Wa = aX + (1 − a)S 2 , con a ∈ IR. Se tiene que para toda a,

Eλ (Wa ) = aλ + (1 − a)λ = λ,

luego ésta es una clase de estimadores insesgados para λ. Si buscamos el mejor


de todos estos estimadores podrı́amos llegar a la conclusión de que existe un a∗
tal que Wa∗ es el mejor estimador insesgado de λ entre aquellos que tienen la
forma Wa . Las expresiones de Cov(X, S 2 ) halladas en el problema 3 del Capı́tulo
1 resultan útiles para el cálculo de Vλ (Wa ).
Esto no proporcionará una respuesta global a la pregunta de cuál de todos
los estimadores insesgados de λ es el que menor varianza tiene.
. .

4.2.1. Teorema de Cramér-Rao. Información de Fisher

El último ejemplo muestra que la búsqueda del UMVUE no debe consistir en


repasar todos los estimadores insesgados posibles. El siguiente resultado aborda
el problema de un modo diferente: establece una cota inferior para la varianza
de todos los estimadores insesgados de un parámetro. Ası́, si encontramos un
estimador insesgado cuya varianza iguale esa cota podremos concluir que ese
estimador es el UMVUE.

Teorema 25 (Teorema de Cramér-Rao.) Sea X = (X1 , . . . , Xn ) una va-


e
riable aleatoria n-dimensional con función de densidad conjunta f ( x |θ), θ ∈
e
Θ ⊆ IR. Sea W ( X ) un estimador insesgado para τ (θ), es decir, Eθ (W ( X )) =
e e
τ (θ) para todo θ, donde τ es una función de θ que cumple

H1: τ (θ) es diferenciable en θ.

Se supone además que la verosimilitud conjunta f ( x |θ) verifica


e
4.2. MEJOR ESTIMADOR INSESGADO 97

H2: para cualquier función h( x ) tal que Eθ |h( X )| < ∞ se tiene que
e e
Z Z Z Z · ¸
d ∂
· · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x ) f ( x |θ) dx1 . . . dxn .
dθ e e e ∂θ e

Entonces,
¡ d
¢2
·³ dθ τ (θ)
Vθ (W ( X )) ≥ ´2 ¸ .
e ∂
Eθ ∂θ log f ( X |θ)
e
A la cantidad del lado derecho de la desigualdad anterior se la denomina Cota
de Cramér-Rao.

Demostración: Se basa en la desigualdad de Cauchy-Schwarz, que expresada


en términos estadı́sticos establece que para cualquier par de variables aleatorias
X e Y definidas sobre el mismo espacio muestral, se tiene que
2
(Corr(X, Y )) ≤ 1,

o equivalentemente, que dada la variable aleatoria X,


2
(Cov(X, Y ))
V (X) ≥
V (Y )

para toda variable aleatoria Y .


La demostración del teorema es inmediata poniendo W ( X ) en el papel de
e
la variable aleatoria X anterior, haciendo


Y = log f ( X |θ),
∂θ e
y viendo que se verifican A y B:

A. µ ¶ "µ ¶2 #
∂ ∂
V log f ( X |θ) = Eθ log f ( X |θ) .
∂θ e ∂θ e

B. µ ¶
∂ d
Cov W ( X ), log f ( X |θ) = τ (θ).
e ∂θ e dθ

Probemos A. Para ello hay que demostrar que


· ¸

Eθ log f ( X |θ) = 0.
∂θ e
En efecto, " ∂ #
· ¸
∂ ∂θ f ( X |θ)
Eθ log f ( X |θ) = Eθ e =
∂θ e f ( X |θ)
e
98CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

Z Z ∂
∂θ f ( x |θ)
··· e f ( x |θ)dx1 . . . dxn =
f ( x |θ) e
e
Z Z (H2,h( x )=1)

··· f ( x |θ)dx1 . . . dxn =e
∂θ e
Z Z
d d
· · · f ( x |θ)dx1 . . . dxn = 1 = 0.
dθ e{z dθ
| }
=1

Veamos ahora que también es cierto B:


µ ¶ · ¸
∂ ∂
Cov W ( X ), log f ( X |θ) = Eθ W ( X ) log f ( X |θ) =
e ∂θ e e ∂θ e
" ∂
#
∂θ f ( X |θ)
Eθ W ( X ) e =
e f ( X |θ)
e
Z Z H2,h( x )=W ( x )

· · · W ( x ) f ( x |θ)dx1 . . . dxn e= e
e ∂θ e
Z Z
d d
· · · W ( x )f ( x |θ)dx1 . . . dxn = τ (θ).
dθ e {z e dθ
| }
=Eθ (W ( X ))=τ (θ)
e
2

Nota: El teorema de Cramér-Rao es igualmente válido en el caso discreto.


En este caso la hipótesis H2 afirma que pueden intercambiarse el sumatorio y
la diferenciación.
Un estimador insesgado para τ (θ) se denomina eficiente si su varianza es la
mı́nima posible, es decir, si es igual a la cota de Cramér-Rao. La eficiencia de
un estimador insesgado se define como el cociente entre la cota de Cramér-Rao
y su varianza. Es un valor menor o igual que 1 si se dan las hipótesis del teorema
de Cramér-Rao. A esa cantidad también se la llama eficiencia de Bahadur
del estimador. La eficiencia relativa entre dos estimadores insesgados es el
inverso del cociente de sus varianzas, como ya se definió anteriormente.
A la derivada parcial del logaritmo de la verosimilitad L(θ| x ) = f ( x |θ)
e e
respecto al parámetro se le llama también función score:

S(θ| x ) = log L(θ| x ).
e ∂θ e
En la demostración del teorema de Cramér-Rao se ha probado que

Eθ (S(θ| X )) = 0.
e
Obsérvese que para obtener el estimador máximo verosı́mil de θ lo que se hace
es resolver la ecuación
S(θ| x ) = 0,
e
4.2. MEJOR ESTIMADOR INSESGADO 99

lo que equivale a buscar el valor de θ para el cual el valor de S(θ| x ) coincide


e
con su valor esperado.
Cuando se aplica a las familias exponenciales el resultado general que dice
que la esperanza de la función score es cero, se obtiene el siguiente resultado
(ver también el problema 11 del Capı́tulo 1):

Corolario 2 Sea X una variable aleatoria perteneciente a la familia exponen-


cial parametrizada en forma natural con parámetro η ∈ IR:

f (x|θ) = h(x)c(η) exp (ηt(x))

para ciertas funciones h, c y t. Entonces

d
Eη (t(X)) = − log c(η).

Si X1 , . . . , Xn es muestra aleatoria simple de X y se define el estadı́stico


n
X
T (X1 , . . . , Xn ) = t(Xi )
i=1

entonces
d
Eη (T ( X )) = −n log c(η).
e dη

Demostración: El resultado sobre T ( X ) es trivial a partir del resultado sobre


e
t(X). El logaritmo la verosimilitud de x es

l (θ|x) = log f (x|θ) = log h(x) + log c(η) + ηt(x)

y la función score

∂ d
S(θ|x) = l (θ|x) = log c(η) + t(x).
∂η dη

Como Eη (S(θ|X)) = 0, se sigue el resultado del corolario. 2

A la cantidad que aparece en el denominador de la cota de Cramér-Rao se


le denomina cantidad de información de Fisher que sobre θ contiene el
vector X :
e
"µ ¶2 # µ ¶
∂ ∂
I (θ) = Eθ log f ( X |θ) =V log f ( X |θ) = V (S(θ| X )).
X ∂θ X e ∂θ X e e
e e e
Se denomina cantidad de información de Fisher que sobre θ contiene la
variable Xi a
"µ ¶2 # µ ¶
∂ ∂
IXi (θ) = Eθ log fXi (X|θ) =V log fXi (X|θ) = V (S(θ|Xi )).
∂θ ∂θ
100CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

Cuando X = (X1 , . . . , Xn ) es una muestra aleatoria simple de X se verifica que


e
la información de Fisher contenida en la muestra es la suma de las informaciones
contenidas en cada una de las observaciones y, dado que éstas son idénticamente
distribuidas, se tiene que
I (θ) = nIX1 (θ).
X
e
Este resultado es consecuencia del siguiente corolario del teorema de Cramér-
Rao:

Corolario 3 Bajo las hipótesis del teorema de Cramér-Rao, si X = (X1 , . . . , Xn )


e
es una muestra aleatoria simple de X con distribución dada por f (x|θ) entonces
"µ ¶2 # "µ ¶2 #
∂ ∂
Eθ log f ( X |θ) = nEθ log fX (X|θ) .
∂θ X e ∂θ
e

Demostración: Por independencia, la verosimilitud de X es el producto de


e
verosimilitudes, luego
n n
∂ ∂ X X ∂
log f ( x |θ) = log fX (xi |θ) = log fXi (xi |θ).
∂θ X e ∂θ i=1 ∂θ
e i=1

Por lo tanto,
"µ Ã !2 
¶2 # Xn
∂ ∂
Eθ log f ( X |θ) = Eθ  log fXi (Xi |θ)  =
∂θ X e ∂θ
e i=1

n
" µ ¶2 # X "µ ¶2 #
X ∂ ∂ ∂
Eθ log fXi (Xi |θ) + Eθ log fXi (Xi |θ) log fXj (Xj |θ) .
i=1
∂θ ∂θ ∂θ
i6=j

Pero el segundo sumatorio es igual a cero debido a la independencia entre Xi


y Xj y dado que las funciones score tienen esperanza 0, según se vio en la
demostración del teorema de Cramér-Rao.
Una demostración alternativa de este resultado se basa en la expresión de la
información de Fisher como varianza de los scores:
µ ¶ Ã n !
∂ X ∂
V log f ( X |θ) = V log fXi (Xi |θ)
∂θ X e ∂θ
e i=1

que por independencia es igual a la suma de las varianzas:


µ ¶

nV log fX (X|θ) .
∂θ
2

El siguiente resultado facilita a veces el cálculo de la cota de Cramér-Rao.

Lema 5 Si la función de verosimilitud satisface


4.2. MEJOR ESTIMADOR INSESGADO 101

H3: para cualquier función h( x ) tal que Eθ |h( X )| < ∞ se tiene que
e e
2 Z Z Z Z · 2 ¸
∂ ∂
· · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x ) f ( x |θ) dx1 . . . dxn .
∂θ2 e e e ∂θ2 e

Entonces,
"µ ¶2 # · 2 ¸
∂ ∂
IX (θ) = Eθ log fX (X|θ) = −Eθ log fX (X|θ) .
∂θ ∂θ2

Demostración:
· ¸
∂2 ∂ 1 ∂
log fX (x|θ) = fX (x|θ) =
∂θ2 ∂θ fX (x|θ) ∂θ
µ ¶2
−1 ∂ 1 ∂2
2 (x|θ) fX (x|θ) + fX (x|θ).
fX ∂θ fX (x|θ) ∂θ2
Por otro lado,
· ¸ Z 2 Z
1 ∂2 ∂2 H3 d
Eθ fX (X|θ) = f X (x|θ)dx = = fX (x|θ)dx = 0.
fX (X|θ) ∂θ2 ∂θ2 dθ2

Ası́ pues,
· ¸ " µ ¶2 #
∂2 1 ∂
Eθ log fX (X|θ) = −Eθ 2 (X|θ) fX (X|θ) =
∂θ2 fX ∂θ
"µ ¶2 #

−Eθ log fX (X|θ) = −IX (θ)
∂θ
2

Nota 1. Cuando este lema se aplica a la información de Fisher contenida en


una muestra, se tiene que
· 2 ¸ · 2 ¸
∂ ∂
I (θ) = −Eθ log f X ( X |θ) = −nEθ log f X (X|θ) = nIX (θ).
X ∂θ2 e ∂θ2
e
Nota 2. Las familias exponenciales satisfacen la hipótesis H3.

Ejemplo 51
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Ası́, E(X) = λ. Consideramos τ (λ) =
λ, luego τ 0 (λ) = 1. Por lo tanto,
Ã !2 
Y n · 2 ¸
∂ ∂
Eλ  log f (Xi |λ)  = −nEλ log f (X|λ) =
∂λ i=1
∂λ2
102CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
· µ ¶¸ · ¸
∂2 e−λ λX ∂2
−nEλ log = −nEλ (−λ + X log λ − log X!) =
∂λ2 X! ∂λ2
· ¸
X n
−nEλ − 2 = .
λ λ
Por lo tanto, para cualquier W , estimador insesgado de λ, se tendrá que
1 λ
Vλ (W ) ≥ = .
n/λ n

Por otra parte, sabemos que X es estimador insesgado de λ y que Vλ (X) = λ/n.
Se deduce de ahı́ que la media muestral es el mejor estimador insesgado (UM-
VUE) de λ.
. .

Ejemplo 52
No siempre es posible intercambiar los signos de la integral y de la derivada.
Veamos un ejemplo.
Sea X1 , . . . , Xn m.a.s. de X ∼ U (0, θ). Ası́, f (x|θ) = 1/θ, si 0 < x < θ, y de
ahı́, · ¸
∂ 1 ∂ 2 1
log f (x|θ) = − =⇒ Eθ ( log f (X|θ)) = 2 .
∂θ θ ∂θ θ
Si la cota de Cramér-Rao es aplicable, ésta dice que para cualquier W , estimador
insesgado de θ, se cumple que Vθ (W ) ≥ θ2 /n.
Sin embargo, es posible encontrar un estimador insesgado de θ con varian-
za menor que θ2 /n. En efecto, sea Y = máxi Xi . Su función de densidad es
fY (y|θ) = (n/θn )y n−1 , si 0 < y < θ. Entonces E(Y ) = (n/(n + 1))θ. Ası́,
W = Y (n + 1)/n es estimador insesgado de θ. Calculemos su varianza:
" µ ¶2 #
(n + 1)2 (n + 1)2 2 n
Vθ (W ) = Vθ (Y ) = Eθ (Y ) − θ =
n2 n2 n+1
" µ ¶2 #
(n + 1)2 n 2 n (n + 1)2 n 2
θ − θ2 = θ − θ2 =
n2 n+2 n+1 n2 n+2

(n + 1)2 − n(n + 2) 2 1 1
θ = θ2 < θ2 .
n(n + 2) n(n + 2) n
La contradicción proviene de que
Z θ Z θ
d ∂
h(x)f (x|θ)dx 6= h(x) f (x|θ)dx.
dθ 0 0 ∂θ
y por lo tanto el teorema de Cramér-Rao no es aplicable.
. .
4.2. MEJOR ESTIMADOR INSESGADO 103

En general, el teorema de Cramér-Rao no es aplicable si el soporte de f (x|θ)


depende del parámetro θ debido a que la derivada y la integral no son inter-
cambiables si los lı́mites de integración dependen de θ. Véase, por ejemplo en la
sección 2.4 del Casella-Berger, la fórmula de Leibnitz que permite calcular deri-
vadas de integrales en las que los lı́mites de integración dependen de la variable
respecto a la cuál se deriva. Ahı́ se dan también resultados sobre condiciones
que permiten intercambiar los signos de integración y derivación.
Aunque el teorema de Cramér-Rao pueda ser aplicado y la cota de Cramér-
Rao sea efectiva, no hay garantı́as de que esta cota sea alcanzada por algún
estimador insesgado del parámetro. En los casos en los que no se encuentra un
estimador insesgado que alcance la cota de Cramér-Rao, el problema es decidir
si dado un estimador insesgado éste es ya el mejor posible.

Ejemplo 53
Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X ∼ N (µ, σ 2 ) con
e
ambos parámetros desconocidos. Consideramos el problema de estimar σ 2 . La
distribución normal satisface las hipótesis del teorema de Cramér-Rao. Calcu-
lamos la cota de Cramér-Rao:
· ¸
∂2
IX (σ 2 ) = −E log f (x|θ) =
∂(σ 2 )2
· µ ¶¸
∂2 1 −
(x−µ)2
−E log e 2σ 2
=
∂(σ 2 )2 (2πσ 2 )1/2
· µ ¶¸
∂2 1 2 (x − µ)2
−E log K − log σ − =
∂(σ 2 )2 2 2σ 2
· µ ¶¸
∂ 1 (x − µ)2
−E − 2+ =
∂σ 2 2σ 2σ 4
· ¸
1 (x − µ)2 −1 σ2 1
−E 4
− 6
= 4
+ 6 = .
2σ σ 2σ σ 2σ 4
Cualquier W ( X ), estimador insesgado de σ 2 , por ejemplo W ( X ) = S 2 =
Pn e2 e
i=1 (Xi − X) /(n − 1), ha de verificar

1 2σ 4
V (W ( X )) ≥ = .
e nIX (σ 2 ) n

En particular, S 2 no alcanza la cota de Cramér-Rao:


2σ 4 2σ 4
V (S 2 ) = > .
n−1 n
Surge la pregunta de si existe algún estimador insesgado de σ 2 que alcance la
cota de Cramér-Rao. Si esto no ocurre queda abierta otra pregunta: ¿es S 2 el
mejor estimador insesgado de σ 2 ?
. .
104CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

El siguiente resultado ayuda a contestar la primera de las dos preguntas


surgidas en el ejemplo anterior.

Corolario 4 Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X con


e
distribución dada por f (x|θ), θ ∈ IR, donde f satisface las hipótesis del teorema
Qn
de Cramér-Rao. Sea L(θ| x ) = i=1 f (xi |θ) la función de verosimilitud. Sea
e
W ( X ) = W (X1 , . . . , Xn ) un estimador insesgado de τ (θ).
e
Entonces W ( X ) alcanza la cota de Cramér-Rao si y sólo si existe una fun-
e
ción a(θ) tal que se tiene la igualdad

a(θ)(W ( x ) − τ (θ)) = log L(θ| x )
e ∂θ e
para todo θ.
Además, esto ocurre si y sólo si existen funciones h(θ), k(θ) y u( x ) tales
e
que
L(θ| x ) = u( x )h(θ) exp(W ( x )k(θ)),
e e e
es decir, si y sólo si la distribución de partida pertenece a la familia exponencial.

Demostración: En la demostración del teorema de Cramér-Rao se usa el hecho


de que
µ µ ¶¶2

Corr W ( X ), log L(θ| x ) ≤ 1,
e ∂θ e
para probar la desigualdad de Cramér-Rao que se dará con igualdad si y sólo
si la correlación anterior es igual a 1 o -1, lo que equivale a decir que existe una
relación lineal perfecta entre las dos variables, es decir, existen constantes a y b
(que podrı́an depender del valor de θ) tales que

log L(θ| x ) = aW ( X ) + b, con probabilidad 1,
∂θ e e
luego, µ ¶

0=E log L(θ| x ) = aE(W ( x )) + b = aτ (θ) + b,
∂θ e e
de donde se sigue que b = −aτ (θ). Ası́,
∂ ³ ´
log L(θ| x ) = a W ( x ) − τ (θ) , con probabilidad 1.
∂θ e e

Para probar la última parte del corolario, resolvemos la ecuación diferencial



log L(θ| x ) = a(θ)(W ( x ) − τ (θ)) = a(θ)W ( x ) + b(θ).
∂θ e e e
Existirán funciones A(θ) y B(θ) tales que A0 (θ) = a(θ) y B 0 (θ) = b(θ) y por lo
tanto

log L(θ| x ) = A(θ)W ( x )+B(θ)+C( x ) =⇒ L(θ| x ) = exp(A(θ)W ( x )+B(θ)+C( x )),


e e e e e e
4.2. MEJOR ESTIMADOR INSESGADO 105

de donde se sigue el resultado buscado para h(θ) = exp(B(θ)), k(θ) = A(θ) y


u( x ) = exp(C( x )). 2
e e

Ejemplo 53, página 103. Continuación. La función de verosimilitud es


1 Pn
−( (xi −µ)2 )/(2σ 2 )
L(µ, σ 2 | x ) = 2 n/2
e i=1
e (2πσ )

y la derivada respecto a σ 2 de su logaritmo es


³ ´ µ Pn 2

∂ 2 n i=1 (xi − µ) 2
log L(µ, σ | x ) = −σ .
∂σ 2 e 2σ 4 n

Tomando a(θ) = 2σn4 , se sigue que el estimador insesgado que alcanzarı́a la cota
de Cramér-Rao serı́a
n
1X
W(X ) = (xi − µ)2
e n i=1
que es calculable si y sólo si µ es conocido. Por lo tanto, si µ es desconocido la
cota de Cramér-Rao en la estimación de σ 2 no es alcanzable. Como ya dijimos
antes, queda abierta la cuestión de saber si S 2 es el mejor estimador insesgado
de σ 2 . A esto se dará respuesta más adelante, en la sección 4.2.3.
. .

4.2.2. Versión multivariante del teorema de Cramér-Rao.

Consideramos ahora el problema de estimación en el caso de que la familia


paramétrica de distribuciones venga dada por un parámetro multidimensional
θ = (θ1 , . . . , θk ). En este contexto, la extensión natural de la información
e
de Fisher es la matriz de información de Fisher, definida como la matriz
I( θ ) de dimensión k × k cuyo elemento (i, j) es
e
"Ã !Ã !#
∂ log f ( x | θ ) ∂ log f ( x | θ )
Iij = E e e e e .
∂θi ∂θj

Si definimos S( X , θ ) = ∇ log f ( x | θ ), el vector de scores, es decir, el


e e θ e e
e
vector gradiente del logaritmo de la función de verosimilitud (el vector columna
de derivadas parciales respecto a θ1 , . . . , θk ) se tiene que la matriz de información
de Fisher es

I( θ ) = E[S( X , θ )S( X , θ )t ] = Cov(S( X , θ )).


e e e e e e e
También es cierto que si se verifican las hipótesis de regularidad H2 y H3,
entonces
I( θ ) = −E(H log f ( x | θ ))
e θ e e
e
106CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

donde H log f ( x | θ ) es la matriz hessiana de log f ( x | θ ): la matriz k × k


θ e e e e
e
cuyo elemento (i, j) es
∂2
log f ( x | θ ).
∂θi θj2 e e

Consideremos ahora una función univariante de θ : τ = τ ( θ ) = τ (θ1 , . . . , θk ).


e e
Sea ∇τ ( θ ) el gradiente de τ :
e
µ ¶t
∂ ∂
∇τ (θ) = τ ( θ ), . . . , τ( θ ) .
∂θ1 e ∂θk e
El siguiente resultado es la versión del teorema de Cramér-Rao aplicable en este
contexto.

Teorema 26 Sea W ( X ) un estimador insesgado de una transformación uni-


e
variante τ ( θ ) del parámetro k-dimensional θ . Si se dan las condiciones de
e e
regularidad H1 , H2 y H3 , entonces
−1
V (W ( X )) ≥ (∇τ (θ))t I( θ ) (∇τ (θ)),
e e
con igualdad si y sólo si existe una función a( θ ) univariante tal que
e
a( θ )(W ( X ) − τ ( θ )) = (∇τ ( θ )) (I( θ ))−1 S( X , θ ).
t
e e e e e e e
Demostración: Ver, por ejemplo, Arnold (1990), sección 7.3.2, o Vélez y Garcı́a
(1993), páginas 233 y siguientes, para una extensión de este teorema en la que
se estima una función τ r-dimensional. 2

Ejemplo 54
Sea θ̂i un estimador insesgado de θi , i ∈ {1, . . . , k}. Sea τ ( θ ) = θi . Denotaremos
e
por I ij al elemento (i, j) de (I( θ ))−1 . Según el teorema anterior, será
e
V (θ̂i ) ≥ I ii .
El teorema de Cramér-Rao univariante nos decı́a que
V (θ̂i ) ≥ Iii−1 .
Sabemos que en general se cumple que
I ii ≥ Iii−1 ,
con igualdad si y sólo si la matriz I( θ ) es diagonal. (Véase, por ejemplo, Vélez
e
y Garcı́a 1993, p. 235). Por lo tanto la versión multivariante del teorema de
Cramér-Rao mejora la cota de Cramér-Rao univariante.

Se puede probar también que si c


θ es un estimador insesgado de θ entonces
ˆ e e
−1
Cov( θ ) − I( θ ) es una matriz definida positiva.
e e
. .
4.2. MEJOR ESTIMADOR INSESGADO 107

Ejemplo 55
Sea (X1 , X2 , X3 ) ∼ Trinomial(n, θ1 , θ2 , θ3 ). Recordemos que X1 + X2 + X3 = n
y que θ1 + θ2 + θ3 = 1, luego hay dos parámetros efectivos, θ1 y θ2 por ejemplo,
pues θ3 = 1 − θ1 − θ2 . La función de verosimilitud es ésta:
n!
L = P (X1 = x1 , X2 = x2 , X3 = x3 |θ1 , θ2 ) = θx1 θx2 (1−θ1 −θ2 )n−x1 −x2 .
x1 !x2 !x3 ! 1 2
| {z }
K

Su logaritmo es

log L = log K + x1 log θ1 + x2 log θ2 + (n − x1 − x2 ) log(1 − θ1 − θ2 ).

Calculamos el vector de scores y la matriz hessiana:


∂ xj n − x1 − x2
Sj = log L = − , j = 1, 2.
∂θj θj 1 − θ1 − θ2

∂2 −xj n − x1 − x2
Hjj = log L = 2 − , j = 1, 2.
∂θj2 θj (1 − θ1 − θ2 )2
∂2 n − x1 − x2
H12 = log L = − .
∂θj (1 − θ1 − θ2 )2
Ası́, la matriz de información de Fisher es
à −X n−X1 −X2 n−X1 −X2
!
θ12
1
− (1−θ 1 −θ2 )
2 − (1−θ1 −θ2 )
2
I(θ1 , θ2 ) = −E(H) = −E n−X1 −X2 −X2 n−X1 −X2 =
− (1−θ 1 −θ2 )
2 θ22
− (1−θ 1 −θ2 )
2

à !
n n n
θ1 + 1−θ1−th2 1−θ1−th2
n n n
1−θ1−th2 θ2 + 1−θ1−th2

Ası́, Ã !
θ1 (1−θ1 ) θ1 θ2
−1 n n
I(θ1 , θ2 ) = θ1 θ2 θ2 (1−θ2 ) .
n n

Por el teorema de Cramér-Rao multivariante, θ1 (1 − θ1 )/n es la cota para la


varianza de cualquier estimador insesgado de θ1 . Si tomamos θ̂1 = X1 /n, ten-
dremos un estimador insesgado cuya varianza es V (θ̂1 ) = θ1 (1 − θ2 )/n. Por lo
tanto θ̂1 es eficiente.
Si hacemos sólo el estudio univariante de la cota de Cramér-Rao para esti-
−1
madores de θ, tendremos que esa cota es I11 :
µ ¶−1
−1 1 1 1 θ1 (1 − θ1 − θ2 ) θ1 (1 − θ1 )
I11 = + = ≤ = I 11 .
n θ1 1 − θ1 − θ2 (1 − θ2 )n n
La cota de Cramér-Rao multivariante es más precisa que la cota de Cramér-Rao
univariante, en el sentido de que es una cota inferior mayor.
. .
108CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-


Scheffé

En esta sección veremos qué papel juegan los estadı́sticos suficientes en la


búsqueda del mejor estimador insesgado de un parámetro. En muchos casos
los resultados que veremos aquı́ permiten escoger un estimador insesgado y
garantizar que es el mejor posible aunque su varianza no alcance la cota de
Cramér-Rao.

Teorema 27 (Teorema de Rao-Blackwell) Sea X1 , . . . , Xn una m.a.s. de


X, con densidad (o masa de probabilidad) f (x|θ). Sea T ( X ) un estadı́stico
e
suficiente para θ y sea W ( X ) un estimador insesgado de τ (θ). Definimos
e
WT = Eθ (W |T ).

Entonces,

i. WT es función únicamente de T ( X ) (es decir, no depende de θ y depende


e
de la muestra X sólo a través del valor de T ( X )).
e e
ii. Eθ (WT ) = τ (θ).

iii. Vθ (WT ) ≤ Vθ (W ) para todo θ ∈ Θ.

Demostración:

i. Como T es suficiente para θ la distribución de X condicionada a T no


e
depende del parámetro θ. Por lo tanto, la distribución condicionada de
W ( X ) dado T ( X ) tampoco depende de θ. Por otra parte, E(W |T ) es
e e
función de T .

ii. Por la ley de la esperanza iterada,

Eθ (WT ) = Eθ (E(W |T )) = Eθ (W ) = τ (θ).

iii. Por la ley de la esperanza iterada,

Vθ (W ) = Vθ (E(W |T ))+Eθ (Vθ (W |T )) = Vθ (WT )+Eθ (Vθ (W |T )) ≥ Vθ (WT ).

La consecuencia fundamental de este teorema es que en la búsqueda del


estimador UMVUE, basta con restringirnos a aquellos estimadores insesgados
que son función de un estadı́stico suficiente: si trabajamos con un estadı́stico
insesgado que no es función de uno suficiente, tomando esperanzas condicionadas
podemos conseguir otro que es al menos tan bueno como el anterior y es función
del estadı́stico suficiente. Este proceso se llama a veces Rao-Blackwellización.
4.2. MEJOR ESTIMADOR INSESGADO 109

Ejemplo 56
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ (λ) = e−λ .
Pn
Sabemos que T ( X ) = i=1 Xi es estadı́stico suficiente para λ. Observemos
e
además que P (X1 = 0) = e−λ y por tanto el estimador W ( X ) = I{X1 = 0} es
e
un estimador insesgado de θ. Procedemos por Rao-Blackwell definiendo
Xn Pn
P (X1 = 0, i=1 Xi = t)
θ̂ = E(W ( X )|T ( X ) = t) = P (X1 = 0| Xi = t) = Pn =
e e i=1
P ( i=1 Xi = t)
Pn Pn
P (X1 = 0, i=2 Xi = t) P (X1 = 0)P ( i=2 Xi = t)
Pn = Pn =
P ( i=1 Xi = t) P ( i=1 Xi = t)
Pn
(recordar que i=1 Xi ∼ Poisson(nλ))
t µ ¶t
e−λ e−(n−1)λ [(n−1)λ]
t! n−1
t = .
e−nλ [nλ]
t!
n

Por lo tanto
µ ¶Pn Xi
n−1 i=1
θ̂ =
n
es un estimador insesgado de θ mejor que W ( X ) = I{X1 =0} .
e
. .

El siguiente resultado es consecuencia del teorema de Rao-Blackwell y ga-


rantiza la unicidad del estimador UMVUE en caso de que éste exista.

Teorema 28 Si W es el mejor estimador insesgado de τ (θ) (es el UMVUE) y


su varianza es finita, entonces W es único.

Demostración: Supongamos que existe otro estimador W0 insesgado que tiene


también varianza mı́nima. Entonces ha de ser igual a la de W :

Vθ (W ) = Vθ (W0 ), para todo θ

(observar que esta varianza mı́nima no tiene por qué coincidir con la cota de
Cramér-Rao). Definimos W ∗ = (W +W0 )/2, que es también estimador insesgado
de τ (θ). Calculemos su varianza:
1 1 1
V (W ∗ ) =V (W ) + V (W0 ) + Cov(W, W0 ) ≤
4 4 2
µ ¶
1 1 1p 1 1 1
V (W ) + V (W0 ) + V (W )V (W0 ) = + + V (W ) = V (W ).
4 4 2 4 4 2
La desigualdad no puede ser estricta, porque hemos supuesto que W es UMVUE.
Pero la igualdad se da si y sólo si Corr(W, W0 ) = 1, o lo que es lo mismo, si y
sólo si W0 = a(θ)W + b(θ), para algunas funciones a(θ) y b(θ). En ese caso,

E(W0 ) = a(θ)τ (θ) + b(θ) = τ (θ)


110CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

Por otra parte,


p
V (W ) = V (W )V (W0 ) = Cov(W, W0 ) =

Cov(W, a(θ)W + b(θ)) = Cov(W, a(θ)W ) = a(θ)V (W ),

de donde se sigue que a(θ) = 1 (por ser las varianzas finitas) y, por tanto, que
b(θ) = 0, luego W = W0 . 2

Nos planteamos ahora estudiar cuándo es posible mejorar un estimador que


ya es insesgado. Ello nos ayudará a saber si un estimador insesgado es el mejor:
como mı́nimo debemos estar seguros de que no puede ser mejorado.
Sea U un estadı́stico tal que Eθ (U ) = 0 para todo θ. Diremos que U es un
estimador insesgado de 0, o que U es un ruido blanco. Consideremos
además W un estimador insesgado de τ (θ). Definimos ahora WU = W + aU ,
que es también un estimador insesgado de τ (θ). Calculemos su varianza:

Vθ (WU ) = Vθ (W + aU ) = Vθ (W ) + a2 Vθ (U ) + 2aCovθ (W, U ).

Intentaremos elegir a de forma que WU sea mejor que W al menos para algún
valor del parámetro. Si para θ = θ0 , Covθ0 (W, U ) < 0 podemos elegir

2Covθ0 (W, U )
0<a<− .
Vθ0 (U )

De esta manera
Vθ0 (WU ) < Vθ0 (W )

lo cuál implica que W no puede ser el mejor estimador insesgado (UMVUE) de


τ (θ). Del mismo modo puede procederse si Covθ0 (W, U ) > 0 para algún valor
θ0 del parámetro.
El siguiente resultado establece que las covarianzas de los estimadores inses-
gado con los estimadores insesgados de 0 caracterizan los mejores estimadores
insesgados.

Teorema 29 Sea W estimador insesgado de τ (θ) para todo θ. W es el mejor


estimador insesgado de τ (θ) (UMVUE) si y sólo si W está incorrelacionado con
todos los estimadores insesgados de 0, para todo θ.

Demostración: Sea W1 estimador insesgado de τ (θ) incorrelacionado con los


estimadores insesgados de 0. Sea W2 otro estimador insesgado de τ (θ). Entonces
W2 − W1 es estimador insesgado de 0. Escribimos W2 = W1 + (W2 − W1 ). Ası́,

Vθ (W2 ) = Vθ (W1 ) + 2 Covθ (W1 , W2 − W1 ) +Vθ (W2 − W1 ) ≥ Vθ (W1 ).


| {z }
=0

Por lo tanto W1 es UMVUE.


4.2. MEJOR ESTIMADOR INSESGADO 111

El recı́proco se prueba por reducción al absurdo siguiendo el argumento


desarrollado antes del enunciado del teorema: si W es UMVUE y existiese U ,
un estimador insesgado del 0 con Covθ0 (W, U ) 6= 0 entonces serı́a posible mejorar
a W en θ0 , lo cuál contradice el hecho de que W1 es UMVUE. 2

Los estimadores insesgados de 0 son simplemente ruidos que no aportan


información alguna sobre el parámetro. Es razonable pensar que un buen esti-
mador de τ (θ) no pueda ser mejorado añadiéndole uno de estos ruidos.
En la definición de estadı́sticos completos aparece también el concepto de
estimador insesgado de 0. Se dice que la familia de distribuciones {fT (t|θ), θ ∈
Θ} de un estadı́stico T es completa si se verifica la siguiente implicación:

si Eθ (g(T )) = 0 para todo θ ∈ Θ entonces Pθ (g(T ) = 0) = 1 para todo θ ∈ Θ.

Es decir, el estadı́stico T es completo si la única función suya que es estimador


insesgado de 0 es precisamente la función idénticamente 0.
El teorema de Rao-Blackwell establece que basta con buscar el estimador
UMVUE entre aquellos estimadores que son función de un estadı́stico suficien-
te. Si este estadı́stico suficiente es además completo se tiene que no habrá esti-
madores de 0 que sean función suya y, por tanto, no debemos esperar que un
estimador sea mejorado al sumarle un estimador insesgado de 0 (pues éste no
será función del estadı́stico suficiente). Bajo ciertas condiciones (existencia de
estadı́sticos suficientes y completos y de estimadores insesgados), esta combina-
ción de los conceptos de estadı́stico completo y de estadı́stico suficiente garantiza
la existencia de estimadores UMVUE de una función τ (θ) del parámetro y da un
método para construirlos. El siguiente teorema establece este resultado. Pode-
mos decir que este teorema resuelve teóricamente el problema de la estimación
puntual, entendida ésta como la búsqueda del UMVUE.

Teorema 30 (Teorema de Lehmann-Scheffé) Si T ( X ) es un estadı́stico


e
suficiente y completo para θ y W ( X ) es un estimador insesgado cualquiera de
e
τ (θ), entonces
WT ( X ) = Eθ (W |T )
e
es el mejor estimador insesgado (UMVUE) de τ (θ). Si, además, V (WT ) < ∞
para todo θ, entonces WT es único.

Demostración: Como ya se vio anteriormente, WT ( X ) es insesgado: por la


e
ley de la esperanza iterada,

Eθ (WT ( X )) = Eθ (Eθ (W |T )) = Eθ (W ) = τ (θ).


e
Veamos ahora que sea cual sea el estimador insesgado W que se use en la
definición de WT ( X ), se obtiene siempre el mismo estimador WT ( X ). Sea W 0
e e
otro estimador insesgado de τ (θ) y sea WT0 = Eθ (W 0 |T ). Definimos g(T ) =
Eθ (W |T ) − Eθ (W 0 |T ). Ası́, Eθ (g(T )) = τ (θ) − τ (θ) = 0 y por ser T completo
112CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

se tiene que g(T ) = 0 con probabilidad 1, de donde se sigue que WT = WT0 con
probabilidad 1.
Concluimos que existe un único estimador insesgado de τ (θ) función del
estadı́stico suficiente y completo. Veamos que este estimador es el UMVUE. Sea
W 0 un estimador insesgado de τ (θ) cualquiera. Por el teorema de Rao-Blackwell,

Vθ (E(W 0 |T )) ≤ Vθ (W 0 ), para todo θ,

pero acabamos de ver que WT = E(W 0 |T ), luego

Vθ (WT ) ≤ Vθ (W 0 ), para todo θ,

y WT es UMVUE.
La unicidad de WT está garantizada por el teorema 28. 2

La demostración del teorema de Lehmann-Scheffé se basa en el hecho de que,


si existen estimadores insesgados, esencialmente sólo existe uno que sea función
del estadı́stico suficiente y completo, pues condicionando cualquiera de los inses-
gados al estadı́stico suficiente y completo se obtiene siempre el mismo resultado.
El teorema de Rao-Blackwell garantiza que al tomar esperanzas condicionadas
se ha reducido la varianza, llegando ası́ al UMVUE.
La principal conclusión del teorema de Lehmann-Scheffé es que si existe
un estimador insesgado de τ (θ) que sea función de un estadı́stico suficiente y
completo, entonces es el único UMVUE de τ (θ).
El siguiente resultado se deriva trivialmente del teorema de Lehmann-Scheffé:

Corolario 5 Si T ( X ) es un estadı́stico suficiente y completo, cualquier función


e
suya que tenga esperanza finita es el UMVUE de su esperanza.

Ejemplo 56, página 109. Continuación. Sea X1 , . . . , Xn m.a.s. de X ∼


Pn
Poisson(λ). Queremos estimar θ = τ (λ) = e−λ . Sabemos que T ( X ) = i=1 Xi
e
es estadı́stico suficiente para λ y además es completo, por ser la Poisson una
familia exponencial. Hemos visto que
µ ¶Pn Xi
n−1 i=1
θ̂ =
n
es un estimador insesgado de θ. Como es una función del estadı́stico suficiente y
completo, es el UMVUE de θ = e−λ . Veamos que no alcanza la cota de Cramér-
Rao, es decir, no es eficiente para tamaños de muestra finitos. El corolario 4
nos permite probarlo. Puesto que X es eficiente para λ (ver ejemplo 50) por
el corolario 4 sabemos que la derivada del logaritmo de la verosimilitud puede
escribirse ası́:

log L(λ| x ) = a(λ)(X − λ)
∂λ e
4.2. MEJOR ESTIMADOR INSESGADO 113

para todo λ y cierta función a(λ). Podemos transformar esa expresión ası́:
µ ¶
∂ e−λ
log L(λ| x ) = (a(λ)λeλ ) X − e−λ
∂λ e λ

de donde se deduce que no existe ningún estimador eficiente de e−λ puesto que
−λ
de haberlo tendrı́a que ser e λ X y esa cantidad no es un estadı́stico al depender
del parámetro desconocido λ. Concluimos que θ̂ no alcanza la cota de Cramér-
Rao.
. .

Ejemplo 57
Sea X1 , . . . , Xn una m.a.s. de X ∼ B(k, θ). Se desea estimar la probabilidad de
obtener exactamente un éxito, es decir,

τ (θ) = Pθ (X = 1) = kθ(1 − θ)k−1 .

El estadı́stico
n
X
T = Xi ∼ B(nk, θ)
i=1

es suficiente y completo para θ. El estimador

W = I{X1 =1}

es insesgado para τ (θ). Por lo tanto, el estimador


" n
# Ã n !
X X
WT = E IX1 =1 | Xi = φ Xi
i=1 i=1

es el mejor estimador insesgado de τ (θ) = P (X = 1). Calculemos WT :


" n
# Ã n
!
X X
φ(t) = E IX1 =1 | Xi = t = P X1 = 1| Xi = t =
i=1 i=1

Pn ¡ ¢ t−1
P (X1 = 1)P ( i=2 Xi = t − 1) kθ(1 − θ)k−1 k(n−1)
t−1 θ (1 − θ)k(n−1)−(t−1)
Pn = ¡kn¢ =
P ( i=1 Xi = t) t
t θ (1 − θ)
kn−t

µ ¶
¡k(n−1)¢ k(n − 1)
k Pn
k t−1 i=1 Xi − 1
¡kn ¢ =⇒ WT = µ ¶ .
kn
t Pn
i=1 Xi

. .
114CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

El teorema de Lehmann-Scheffé resuelve el problema de la búsqueda del UM-


VUE cuando existen simultáneamente un estimador insesgado y un estadı́stico
suficiente y completo. Sin embargo estas dos condiciones no siempre se cumplen.
Es posible encontrar ejemplos en los que no existen estimadores insesgados del
parámetro de interés (ver el ejemplo 2.16 de Garthwaite, Jollife y Jones 1995,
donde se prueba que no existe estimador insesgado del cociente p/(1−p) –odds en
inglés; podrı́a traducirse como ventajas, aunque no existe una traducción unáni-
memente aceptada– en un experimento binomial). Además, no está garantizada
la existencia de estadı́sticos suficientes completos (ver el ejemplo 6.9 de Vélez y
Garcı́a 1993, donde se prueba la imposibilidad de encontrar un estimador UM-
VUE en el muestreo de la U (θ, θ + 1), donde no existe un estadı́stico suficiente
completo). En el caso de familias exponenciales el teorema 14 sı́ garantiza la
existencia de estadı́sticos suficientes y completos.
Incluso en el caso de que exista un estimador insesgado y un estadı́stico
suficiente y completo, la aplicación del teorema de Lehmann-Scheffé puede dar
lugar a un estimador UMVUE poco sensato. Ası́, Cristóbal (1992) (p. 202) cita
el siguiente ejemplo. En el muestreo de la N (µ, 1), el UMVUE de µ2 es (X)2 −
(1/n), que no es un estimador recomendable pues puede tomar valores negativos.
Además el estimador máx{0, (X)2 − (1/n)} tiene menor error cuadrático medio,
lo cuál hace inadmisible al estimador UMVUE. Véanse también los ejemplos
2.17 de Garthwaite, Jollife y Jones (1995) y 5.7 de Schervish (1995).
La existencia de estos ejemplos patológicos se debe a que la condición de
insesgadez puede ser en ocasiones muy restrictiva y obliga a seleccionar única-
mente estimadores con propiedades poco deseables. Pagar el precio de cierto
sesgo puede permitir considerar otros estimadores con mejores propiedades (en
términos de error cuadrático medio, por ejemplo, o en comportamiento asintóti-
co).

4.3. Comportamiento asintótico

4.3.1. Consistencia

Una sucesión de estimadores Wn = Wn (X1 , . . . , Xn ) es una sucesión de


estimadores consistentes para el parámetro θ si para cada ε > 0 y
para cada θ ∈ Θ, se tiene que

lı́m Pθ (|Wn − θ| < ε) = 1,


n−→∞

o equivalentemente, si

lı́m Wn = θ en probabilidad para todo θ ∈ Θ.


n−→∞

Obsérvese que en esta definición las distribuciones de probabilidad de las suce-


siones de variables aleatorias {Wn }n varı́an con θ.
4.3. COMPORTAMIENTO ASINTÓTICO 115

La propiedad de consistencia es un requerimiento mı́nimo que debe verificar


cualquier sucesión de estimadores, puesto que equivale a pedir que el paráme-
tro pueda estimarse con una precisión prefijada a base de aumentar el tamaño
muestral tanto como sea necesario.
El siguiente resultado establece una condición suficiente para que una su-
cesión de estimadores sea consistente. Denotamos por B(W ) el sesgo de un
estimador W de θ: B(W ) = E(W ) − θ.

Teorema 31 Si la sucesión Wn de estimadores de θ verifica que

a) lı́mn−→∞ Vθ (Wn ) = 0 para todo θ,

b) lı́mn−→∞ Bθ (Wn ) = 0 para todo θ,

entonces Wn es una sucesión de estimadores consistentes de θ.

Demostración: Obsérvese que

Eθ ((Wn − θ)2 ) = Vθ (Wn ) + Bθ2 (Wn ).

Por otra parte, usando la desigualdad de Chebyshev se tiene que para todo ε > 0
y todo θ ∈ Θ,
Eθ ((Wn − θ)2 )
Pθ (|Wn − θ| ≥ ε) = Pθ ((Wn − θ)2 ≥ ε2 ) ≤ =
ε2
1
(Vθ (Wn ) + Bθ2 (Wn )) −→n 0,
ε2
lo que equivale a decir que

lı́m Pθ (|Wn − θ| < ε) = 1.


n−→∞

Los siguientes resultados se derivan de propiedades de la convergencia en


probabilidad de variables aleatorias y son útiles para determinar la consistencia
de transformaciones de estimadores consistentes.

Teorema 32 Sea {Wn }n una sucesión consistente para θ.

1. Si {an }n y {bn }n son sucesiones de números reales tales que lı́mn an = 1


y lı́mn bn = 0, entonces, {an Wn + bn }n es consistente para θ.

2. Si g es una función continua definida en Θ, entonces {g(Wn )}n es una


sucesión consistente para g(θ).

3. Si {Vn }n es una sucesión de estimadores consistentes para δ y g(θ, δ)


es una función continua para todo (θ, δ), entonces {g(Wn , Vn )}n es una
sucesión consistente para g(θ, δ).
116CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

Demostración: Los dos primeros apartados se deducen del tercero. La prueba


de éste, basada en las definiciones de convergencia en probabilidad y de con-
tinuidad de una función, puede verse, por ejemplo, en Arnold (1990) (teorema
6-8). 2

Ejemplo 58
Sean Xj ∼ B(nj , pj ), j = 1, 2, dos variables aleatorias independientes. Se
define el odds ratio (podrı́a traducirse como tasa de ventajas, aunque no existe
una traducción unánimemente aceptada)
p2
1−p2 p2 1 − p1
ψ = ψ(p1 , p2 ) = p1 = .
1−p1 1 − p2 p1

Podemos estimar pj mediante p̂j = Xj /nj , que por la ley débil de los grandes
números es estimador consistente de pj , j = 1, 2. Usando entonces el estimador
basado en el principio de sustitución, tenemos el siguiente estimador de ψ:
X2 /n2 (1 − X1 /n1 ) X2 (n1 − X1 )
ψ̂ = ψ(p̂1 , p̂2 ) = = .
(1 − X2 /n2 )X1 /n1 (n2 − X2 )X1
Si n1 y n2 tienden simultáneamente a ∞ (es decir, si lı́m nj /(n1 + n2 ) = aj > 0,
j = 1, 2), el tercer apartado del teorema anterior garantiza la consistencia de ψ̂:

ψ̂ = ψ(p̂1 , p̂2 ) −→ ψ(p1 , p2 ) = ψ en probabilidad,

es decir, ψ̂ es estimador consistente de ψ.


. .

4.3.2. Normalidad asintótica

El estudio de la distribución de un estimador para un tamaño muestral


n finito es a menudo complejo y en ocasiones involucra cálculos prácticamente
imposibles de llevar a cabo. Por otra parte, la comparación de medias y varianzas
de estimadores para n finito puede ser poco adecuada (por ejemplo, el estimador
de pj /(1−pj ) visto en el ejemplo 58 no estará definido con probabilidad positiva,
puesto que P (Xj = nj ) > 0).
En muchas ocasiones sólo es posible realizar estudios del comportamiento
asintótico (cuando n tiende a infinito) de los estimadores. Ya hemos estudiado
una propiedad asintótica: la consistencia. Veremos ahora que es posible medir la
velocidad de convergencia de estimadores consistentes y ası́ seleccionar los que
convergen al verdadero valor del parámetro más rápidamente.

Ejemplo 59
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), Θ = {λ : 0 < λ < ∞}. En este
4.3. COMPORTAMIENTO ASINTÓTICO 117

modelo, el estimador de momentos de λ coincide con el máximo verosı́mil: λ̂n =


X n . La distribución exacta de λ̂ es conocida: es la de una Poisson(nλ) dividida
por n. Sin embargo ésta es poco manejable y resulta mucho más útil aproximarla
por una distribución más sencilla a la que se acerca asintóticamente.
La versión del teorema central del lı́mite para variables aleatorias indepen-
dientes e idénticamente distribuidas puede aplicarse porque V (X) = λ < ∞.
Ası́,

n(λ̂n − λ)
√ −→ N (0, 1) débilmente,
λ
es decir, para todo λ ∈ Θ y para todo w ∈ IR,
µ√ ¶
n(w − λ)
Pλ (λ̂ ≤ w) ≈ φ √
λ
donde φ es la función de distribución de la normal estándar. La aproximación
es tanto mejor cuanto mayores son n o λ.
Obsérvese que λ̂n es consistente pues, por las leyes de los grandes números,
λ̂n = X n −→P E(X) = λ. Ası́, λ̂n − λ −→ 0 en probabilidad y también en
distribución. Esta convergencia a la distribución degenerada en 0 no nos informa
de la velocidad a la que λ̂n se acerca a λ ni de cómo lo hace (¿se distribuyen las
observaciones de λ̂n simétricamente alrededor de λ?, por ejemplo).

El hecho de que V ( n(λ̂n − λ)) = λ para todo n indica que la velocidad a

la que λ̂n se acerca a λ es la misma con la que 1/ n se acerca a 0: multiplicar

por n es la forma de estabilizar las diferencias (λ̂n − λ), es la estandarización
adecuada.
El resultado derivado del teorema central del lı́mite, la distribución asintóti-

ca de n(λ̂n − λ) es N (0, λ), responde a la pregunta de cómo es la aproximación
λ̂n a λ: los valores del estimador se distribuyen alrededor del verdadero valor del
parámetro igual que los valores de una variable aleatoria N (0, λ) se distribuyen
alrededor de 0.
. .

Ejemplo 60
En la estimación del parámetro θ de una U (0, θ), los siguientes son estima-
dores consistentes: Tn = 2X n , Wn = máxi=1...n Xi . De ellos, el primero con-
verge a θ más lentamente que el segundo: por el teorema central del lı́mite

Tn0 = n(Tn − θ) converge débilmente a una distribución no degenerada (con-

cretamente a una N (0, θ2 /3)), mientras que Wn0 = n(Wn − θ) converge en
probabilidad a la distribución degenerada en 0 (la varianza de Wn0 y su sesgo
como estimador de 0 tienden a 0, luego el teorema 31 garantiza que Wn0 es
estimador consistente de 0). Podemos decir entonces que Tn converge a θ a la

misma velocidad que 1/ n converge a 0, mientras que Wn converge a θ a mayor
118CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

velocidad.
. .

A menudo será posible también comparar estimadores que convergen a la


misma velocidad mediante lo que llamaremos varianza asintótica.

Ejemplo 60, página 117. Continuación. El estadı́stico basado en la me-


diana, Sn = 2 · mediana{X1 , . . . , Xn }, también es estimador consistente de θ y
además se puede probar (ver, por ejemplo, Arnold 1990, toerma 6-6) que

Sn0 = n(Sn − θ) −→ N (0, θ2 ) débilmente.

Por lo tanto, Tn y Sn convergen a θ a la misma velocidad (como 1/ n va a 0),
pero la varianza de la distribución a la que converge Tn0 (la versión centrada y
normalizada de Tn ) es menor que la varianza de la distribución lı́mite de Sn0 .
Se dirá entonces que Tn tiene menor varianza asintótica que Sn y, por lo tanto,
será Tn será preferible a Sn .
. .

En la práctica la gran mayorı́a de los estimadores usuales, convenientemente


centrados y normalizados, tienen distribución asintótica normal. Se dice que
presentan normalidad asintótica y se denota

θ̂n ∼ AN(θ, vn )

cuando
1
√ (θ̂n − θ) −→D N (0, 1).
vn
A la cantidad vn se la llama varianza asintótica de θ̂n . El teorema central
del lı́mite es el responsable de la normalidad asintótica de muchos estimadores.
La normalidad asintótica no sólo aparece en estimadores univariantes, sino
también en estimadores multivariantes, como muestra el siguiente ejemplo.

Ejemplo 61
Sean {(Xn , Yn )t }n∈IN una sucesión de variables aleatorias bivariantes indepen-
dientes y distribuidas como la variable aleatoria bivariante (X, Y )t , la cual se
supone con momentos de segundo orden finitos. Se desea estimar (µX , µY )t =
(E(X), E(Y ))t . Utilizaremos como estimador (X n , Y n )t , el par formado por
las medias muestrales de los primeros n pares de variables aleatorias (Xi , Yi )t ,
i = 1, . . . , n.
La distribución de una variable aleatoria bivariante está caracterizada por
las distribuciones de las combinaciones lineales arbitrarias de sus componentes
4.3. COMPORTAMIENTO ASINTÓTICO 119

(esto se debe a que el cálculo de la función generatriz de momentos bivariante de


(X, Y )t en el punto (s, t)t equivale a calcular la función generatriz de momentos
de sX + tY en el punto 1). Del mismo modo, para encontrar la distribución
asintótica de una sucesión de variables aleatorias bivariantes sólo es necesario
encontrar la distribución asintótica de combinaciones lineales arbitrarias de sus
componentes. Ası́ se reduce el problema bivariante a problemas univariantes.

Calculemos la distribución asintótica de


µµ ¶ µ ¶¶
√ Xn µX
n − .
Yn µY

Sean a, b números reales arbitrarios. Las variables aleatorias aXi + bYi , i =


1, . . . , n son una muestra aleatoria simple de la variable aleatoria aX + bY , y
por el teorema central del lı́mite
à n !
√ 1X
n (aXi + bYi ) − E(aX + bY ) −→D N (0, V (aX + bY )),
n i=1

que puede reescribirse ası́:


³ √ √ ´
a n(X n − µX) + b n((Y )n − µY ) −→D

N (0, a2 V (X) + b2 V (Y ) + 2abCov(X, Y ))

Consideremos la variable aleatoria normal bivariante


µ ¶ µµ ¶ µ ¶¶
U 0 V (X) Cov(X, Y )
∼ N2 , .
V 0 Cov(X, Y ) V (Y )

La distribución de aU + bV es la misma que la distribución lı́mite de a n(X n −

µX) + b n(Y n − µY ), de donde se sigue que
√ √
a n(X n − µX) + b n(Y n − µY ) −→D aU + bV,

y como a y b son arbitrarios se sigue que


µµ ¶ µ ¶¶ µ ¶
√ Xn µX U
n − −→D ,
Yn µY V

normal bivariante.
. .

4.3.3. Método delta

En muchos casos, sólo será de interés el comportamiento del estimador alre-


dedor del verdadero valor del parámetro. Si además el estimador es una función
120CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

suave de un estadı́stico cuyo comportamiento asintótico es conocido, esa fun-


ción podrá linealizarse en un entorno del verdadero valor del parámetro, lo cuál
facilitará enormemente el estudio asintótico del estimador.

Ejemplo 59, página 116. Continuación. Queremos estimar θ = P (X =


0) = e−λ . Por el principio de invariancia, el estimador máximo verosı́mil de θ es
θ̂n = e−X n , dado que X n es el estimador máximo verosı́mil de λ.

El teorema 32 garantiza la consistencia de θ̂n , porque X n es consistente para


λ y g(λ) = e−λ es una función continua. Estamos interesados ahora en encontrar
la distribución asintótica de
√ √
n(θ̂n − θ) = n(e−X n − e−λ ).

La herramienta en la que nos basaremos para hallar esa distribución asintótica


es el método delta.
. .

Presentaremos en primer lugar el método delta univariante y, más ade-


lante, se generalizará al caso multivariante. En ambos casos, el fundamento
teórico que sustenta el método delta es el desarrollo en serie de Taylor de una
función.

Sea f una función con derivada en el punto a ∈ IR. El desarrollo de primer


orden en serie de Taylor de f alrededor del punto a es

f (x) ≈ f (a) + f 0 (a)(x − a),

es decir, la recta tangente a f (x) en x = a. Si existe f 00 (a), el desarrollo de orden


2 en serie de Taylor de f alrededor de a es

1
f (x) ≈ f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 ,
2
aproximación cuadrática de f (x). El siguiente teorema justifica la aproximación
de una función mediante sus desarrollos de Taylor.

Teorema 33 (Fórmula de Taylor) Si f (x) es una función con r + 1 deri-


vadas en un intervalo I de IR, para cada par de puntos x, a en I, se tiene
que
1
f (x) = f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 + . . . +
2
1 (r) 1
f (a)(x − a)r + f (r+1) (α(x, a))(x − a)r+1 ,
r! (r + 1)!
donde α(x, a) es un punto de I situado entre x y a, luego |α(x, a) − a| ≤ |x − a|.
4.3. COMPORTAMIENTO ASINTÓTICO 121

Demostración: Véase, por ejemplo, Spivak (1970), teorema 19.4. 2

El uso que haremos de este teorema será para desarrollos de primer y segundo
orden.
El siguiente resultado será útil a la hora de establecer la distribución asintóti-
ca de algunos estimadores. En particular, se usa en la demostración del método
delta.

Teorema 34 (Teorema de Slutzky) Sean {Xn }n e {Yn }n sucesiones de va-


riables aleatorias, sea X variable aleatoria y sea a una constante. Si Xn −→D X
e Yn −→P a, entonces

Xn + Yn −→D X + a,

Xn Yn −→D aX,

si g(x, y) es una función de IR2 en IR continua en (x, a) para todo x del


soporte de X, entonces

g(Xn , Yn ) −→D g(x, y).

Demostración: Los apartados 1 y 2 se deducen de 3. La prueba de 3 se sigue del


teorema de la aplicación continua para variables aleatorias definidas en espacios
métricos (ver, por ejemplo, Schervish 1995, teorema B.88). En ese contexto, la
definición de convergencia en distribución (ver, por ejemplo, Schervish 1995,
definiciones B.80 y B.81) difiere formalmente de la que habitualmente se usa
cuando se tratan variables aleatorias definidas en IR.
En Bickel y Doksum (1977), teorema A.14.9, puede verse una demostración
de los apartados 1 y 2 en la que se usa la definición de convergencia en distri-
bución basada en la convergencia de las funciones de distribución. 2

Pasamos ahora a enunciar y probar el resultado conocido como método delta.

Teorema 35 (Método delta) Sea {an }n una sucesión de números reales ta-
les que an −→n ∞ y con an 6= 0 para todo n. Sea θ̂n una sucesión de estimadores
de θ tales que
an (θ̂n − θ) −→D N (0, σθ2 )
y sea g(x) una función con primera derivada continua en un intervalo que con-
tiene a θ. Entonces

an (g(θ̂n ) − g(θ)) −→D N (0, (g 0 (θ))2 σθ2 ).

Demostración: Por el desarrollo de Taylor de primer orden,

g(θ̂n ) = g(θ)+g 0 (α(θ, θ̂n ))(θ̂n −θ) =⇒ an (g(θ̂n )−g(θ)) = g 0 (α(θ, θ̂n ))an (θ̂n −θ),
122CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

donde |α(θ, θ̂n ) − θ| ≤ |θ̂n − θ|. Obsérvese que θ̂n −→P θ. En efecto,
1
θ̂n − θ = an (θ̂n − θ) −→D 0 · N (0, σθ2 ) ≡ 0 =⇒
an

θ̂n − θ −→P 0 =⇒ α(θ, θ̂n ) −→P θ.


Se ha usado el teorema de Slutzky para las sucesiones Yn = 1/an −→P 0 y
Xn = an (θ̂n − θ). Ahora, aplicando el teorema 32, por ser g 0 continua en θ se
tiene que g 0 (α(θ, θ̂n )) −→P g 0 (θ). Aplicando de nuevo el teorema de Slutzky se
obtiene el resultado deseado:
g 0 (α(θ, θ̂n )) 0
an (g(θ̂n ) − g(θ)) = g (θ)an (θ̂n − θ) −→D
g 0 (θ)
| {z }
−→P 1

g 0 (θ)N (0, σθ2 ) =D N (0, (g 0 (θ))2 σθ2 ).


2

La sucesión an que habitualmente aparece es an = n.

Ejemplo 59, página 116. Continuación. Estimamos θ = P (X = 0) = e−λ



mediante θ̂n = e−X n . Por otra parte, n(λ̂n − λ) −→D N (0, λ). Además g(λ) =
e−λ es derivable con derivada continua: g 0 (λ) = −e−λ .
Aplicamos el método delta para determinar la distribución asintótica de θ̂n :
√ √
n(θ̂n − θ) = n(e−X n − e−λ ) −→D N (0, e−2λ λ).

. .

Veremos ahora el método delta multivariante, aplicable cuando el es-


pacio paramétrico es multidimensional y se desea estimar una función real del
parámetro.
Sea f : IRk −→ IR una función con segundas derivadas parciales en el punto
a = (a1 , a2 , . . . , ak ). La versión multivariante del teorema de Taylor garanti-
e
za que esa función puede aproximarse por su desarrollo en serie de Taylor de
segundo orden alrededor de a :
e
k 2
X ∂f( a ) 1 ∂ f( a )
f (x1 , . . . , xk ) ≈ f ( a ) + e (xi − ai ) + e (xi − ai )(xj − aj )
e i=1
∂xi 2 ∂xi xj

si x = (x1 , . . . , xk )t está en un entorno de a . La aproximación anterior se puede


e e
escribir en forma vectorial y matricial:

f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ) + ( x − a )t Hf ( a )( x − a ),
e e e e e e e e e e
4.3. COMPORTAMIENTO ASINTÓTICO 123

donde ∇f ( a ) es el gradiente de f en a , el vector de derivadas parciales


e e
à !t
∂f( a ) ∂f( a )
∇f ( a ) = e ,..., e ,
e ∂x1 ∂xk

y Hf ( a ) es la matriz hessiana de f en a :
e e
à 2 !
∂ f( a )
Hf ( a ) = e
e ∂xi xj
1≤i≤k, 1≤j≤k

La aproximación de primer orden se expresa ası́,

f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ),
e e e e e
y es útil para probar el siguiente resultado.

Teorema 36 (Método delta multivariante) Sea {an }n una sucesión de núme-


ros reales tales que an −→n ∞ y con an 6= 0 para todo n. Sea ˆθ = (θ̂n1 , . . . , θ̂nk )
en
una sucesión de estimadores de θ tales que
e
ˆ
an ( θ − θ ) −→D Nk ( 0 , V ),
en e e
y sea g( x ) una función con primeras derivadas parciales continuas en una bola
e
abierta que contiene a θ. Entonces

an (g( ˆθ ) − g( θ )) −→D Nk ( 0 , (∇g(θ))t V (∇g(θ))).


en e e
Demostración: Ver, por ejemplo, Arnold (1990), teorema 6-16. 2

Lo más usual es que la sucesión an sea an = n.

Ejemplo 58, página 116. Continuación. Buscaremos la distribución asintóti-


ca del estimador del odds-ratio ψ = ψ(p1 , p2 ) = (p2 /(1 − p2 ))((1 − p1 )/p1 ):
µ ¶
X1 X2 X2 (n1 − X1 )
ψ̂n = ψ , = .
n1 n2 (n2 − X2 )X1
En primer lugar, de lo visto en el ejemplo 61 se sigue que
µ ¶ õ ¶ à p (1−p ) !!
√ X1 X2 0 1
γ1
1
0
n − p1 , − p2 −→D N2 , p2 (1−p2 ) ,
n1 n2 0 0 γ2

donde γj = lı́m(nj /(n1 + n2 )) > 0, j = 1, 2.


El gradiente de la función ψ(x, y) = (y(1 − x))/(x(1 − y)) tiene por compo-
nentes
∂ ψ(x, y) −y ∂ ψ(x, y) 1−x
= , = .
∂x (1 − y)x2 ∂y (1 − y)2 x
124CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

Ası́,

n(ψ̂n − ψ) −→D N (0, σ 2 ),
donde la varianza σ 2 es
µ ¶Ã p1 (1−p1 )
!Ã −p2
!
2 −p2 1 − p1 γ1 0 (1−p2 )p21
σ = , p2 (1−p2 ) 1−p1 =
(1 − p2 )p21 (1 − p2 )2 p1 0 γ2 (1−p2 )2 p1
µ ¶2 µ ¶2
−p2 p1 (1 − p1 ) 1 − p1 p2 (1 − p2 )
2 + 2
=
(1 − p2 )p1 γ1 (1 − p2 ) p1 γ2
µ ¶2 µ ¶
p2 (1 − p1 ) 1 1
+ =
(1 − p2 )p1 p1 (1 − p1 )γ1 p2 (1 − p2 )γ2
µ ¶
1 1
ψ2 + .
p1 (1 − p1 )γ1 p2 (1 − p2 )γ2
Por lo tanto, la varianza asintótica de ψ̂n es
µ ¶
σ2 2 1 1
≈ψ + .
n p1 (1 − p1 )n1 p2 (1 − p2 )n2

. .

4.3.4. Eficiencia relativa asintótica

Sea Tn ( X ) = Tn (X1 , . . . , Xn ) una sucesión de estimadores de una función


e
τ (θ) que verifica lo siguiente:

n(Tn ( X ) − τ (θ)) −→D N (b(θ), σ 2 (θ)).
e
Si b(θ) = 0 diremos que Tn ( X ) es asintóticamente insesgado (en econometrı́a
√ e
se dice que Tn es n-consistente). En caso contrario, diremos que Tn ( X ) es
e
asintóticamente sesgado.

Ejemplo 62
Sea X1 , . . . , Xn , . . . son variables aleatorias independientes e idénticamente dis-

tribuidas con esperanza µ y varianza 1, y sea Tn ( X ) = X n + a/ n para una
e
constante a 6= 0. Se tiene que
√ √
n(Tn ( X ) − µ) = n(X n − µ) + a −→D N (a, 1),
e
luego Tn es asintóticamente sesgado: la diferencia entre la esperanza del esti-

mador y el parámetro estimado, multiplicada por n, no tiende a 0. Obsérvese
que, no obstante, Tn es un estimador consistente de µ:

Tn ( X ) = X n + a/ n −→P µ + 0 = µ.
e

. .
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL125

Sean dos sucesiones Tn ( X ) y Sn ( X ) de estimadores de τ (θ) asintóticamente


e e
normales:
√ ³ ´
n Tn ( X ) − τ (θ) −→D N (0, σT2 (θ)),
e
√ ³ ´
n Sn ( X ) − τ (θ) −→D N (0, σS2 (θ)).
e
Se define la eficiencia relativa asintótica de Sn respecto a Tn como

1/σS2 (θ) σT2 (θ)


ARE(θ, Sn , Tn ) = = .
1/σT2 (θ) σS2 (θ)

El valor de la eficiencia relativa asintótica puede interpretarse como el cocien-


te de los tamaños de muestra necesarios para obtener la misma precisión asintóti-
ca (o la misma varianza asintótica) mediante los dos estimadores en la estima-
ción de τ (θ). En efecto, si elegimos tamaño muestral m para T y n para S, las
varianzas asintóticas son, respectivamente, σT2 (θ)/m y σS2 (θ)/n. Si forzamos a
que ambas sean iguales, se tiene que

σT2 (θ) σ 2 (θ) m σ 2 (θ)


= S ⇐⇒ = T2 = ARE(θ, Sn , Tn ).
m n n σS (θ)

Es decir, si ARE(θ, Sn , Tn ) = 0,5 entonces S es menos eficiente que T asintótica-


mente: para tener la misma precisión con el estimador S hace falta una muestra
el doble de grande que si utilizásemos T (ARE = 0,5 = m/n =⇒ n = 2m).

4.4. Teorı́a asintótica para el estimador máximo


verosı́mil

Sea X una variable aleatoria con función de densidad (o de masa) f (x|θ),


Qn
θ ∈ Θ. Sea L(θ| x n ) = i=1 f (xi |θ) la función de verosimilitud de una muestra
e
de tamaño n de X: X1 , . . . , Xn .

Teorema 37 Supongamos que se verifican las siguientes condiciones:

C1: El parámetro θ es identificable, en el sentido de que distintos valores de θ


dan lugar a distintas distribuciones de probabilidad para X.

C2: El conjunto {x : f (x|θ) > 0} es el mismo para todo θ ∈ Θ.

C3: La cantidad · µ ¶¸
f (X|θ)
e(θ0 , θ) = Eθ0 log
f (X|θ0 )
existe para todo par θ, θ0 en Θ.

Entonces, para todo θ 6= θ0 se verifica que


126CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

a) " Ã !#
L(θ| X n )
Eθ0 log e < 0.
L(θ0 | X n )
e
b)
lı́m Pθ0 {L(θ0 | X n ) > L(θ| X n )} = 1.
n−→∞ e e

Demostración: Probemos a). Si f (x|θ) es una función de densidad, se tiene


que · ¸ Z
f (X|θ) f (x|θ)
Eθ0 = f (x|θ0 )dx = 1.
f (X|θ0 ) f (x|θ0 )
Análogo resultado se obtiene si f (x|θ) es función de masa.
Como log u < u − 1, para todo u ∈ IR − {1}, se tiene que
µ ¶ µ ¶
f (x|θ) f (x|θ)
log < −1
f (x|θ0 ) f (x|θ0 )
salvo si f (x|θ) = f (x|θ0 ). Por la hipótesis C1 eso no puede ocurrir en un conjunto
de x’s de medida 1, luego
" à !# · µ ¶¸ · ¸
L(θ| X n ) f (x|θ) f (x|θ)
Eθ0 log e = nEθ0 log < nEθ0 − 1 = 0,
L(θ0 | X n ) f (x|θ0 ) f (x|θ0 )
e
y a) queda probado.
Veamos ahora b). Por la ley débil de los grandes números,
à ! n µ ¶
1 L(θ| X n ) 1X f (Xi |θ)
log e = log −→n e(θ0 , θ) en probabilidad.
n L(θ0 | X n ) n i=1 f (Xi |θ0 )
e
Por a), el lı́mite e(θ0 , θ) es estrictamente menor que 0. Por tanto, si se toma ε,
con 0 < ε < −e(θ0 , θ), se tiene que
( Ã ! ) (¯ Ã ! ¯ )
1 L(θ| X n ) ¯1 L(θ| X n ) ¯
e ¯ e ¯
Pθ0 log > 0 < Pθ0 ¯ log − e(θ0 , θ)¯ > ε −→n 0,
n L(θ0 | X n ) ¯n L(θ0 | X n ) ¯
e e
porque si x > 0, e < 0 y ε < −e, entonces |x − e| = x − e > −e > ε. Pero
( )
L(θ| X n )
Pθ0 {L(θ0 | X n ) > L(θ| X n )} = 1 − Pθ0 e >1 =
e e L(θ0 | X n )
e
( Ã ! )
1 L(θ| X n )
1 − Pθ0 log e > 0 −→n 1,
n L(θ0 | X n )
e
lo que completa la prueba. 2

Observar que el apartado b) del teorema puede interpretarse ası́: la vero-


similitud es máxima en el verdadero valor θ0 del parámetro, si la muestra es
suficientemente grande.
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL127

Teorema 38 Supongamos que además de C1, C2 y C3, se verifican también

C4: Θ es un conjunto abierto.

C5: ∂f (x|θ)/∂θ es continua en θ.

Entonces, con probabilidad que tiende a 1 cuando n tiende a infinito, existe una
sucesión {θ̂n }n de raı́ces de la ecuación del score

log L(θ| X n ) = 0
∂θ e
(la que se resuelve para hallar el estimador de máxima verosimilitud de θ) que
converge al verdadero valor del parámetro θ0 en probabilidad.

Demostración: Por C4, existe ε > 0 tal que (θ0 − ε, θ0 + ε) ⊂ Θ. Se definen


los conjuntos

Sn = { x n ∈ X : L(θ0 | x n ) > L(θ0 − ε| x n ) y L(θ0 | x n ) > L(θ0 + ε| x n )}.


e e e e e
Por el teorema 37,
Pθ0 ( X n ∈ Sn ) −→n 1.
e
La condición C5 implica la continuidad de L(θ| x n ) y de su derivada parcial
e
respecto a θ. Ası́, para todo x n ∈ Sn , debe existir θ̃n = θ̃n ( x n ) ∈ (θ0 −ε, θ0 +ε),
e e
máximo local de L(θ| x n ). Ese máximo local ha de satisfacer
e
¯
∂ ¯
log L(θ| X n )¯¯ = 0.
∂θ e θ=θ̃n

Puede haber más de un máximo local en (θ0 − ε, θ0 + ε) y, por lo tanto, más


de una solución de la ecuación del score (también puede haber mı́nimos locales
entre las soluciones). Llamemos θ̂n = θ̂n ( x n ) a la solución más cercana a θ0 que
e
sea máximo local. Entonces |θ̂n − θ0 | < ε y esto es cierto para todo x n ∈ Sn .
e
Por lo tanto

Pθ0 {Xn : |θ̂n ( X n ) − θ0 | < ε} ≥ Pθ0 {Xn ∈ Sn } −→ 1


e
de donde se sigue que
θ̂n −→P θ.
2

El teorema 38 demuestra que siempre existe una raı́z de la ecuación de score


(que además es máximo local) que es consistente. Sin embargo, cuando la raı́z no
es única (cuando no es el único máximo local) la determinación de θ̂n depende
del verdadero valor θ0 , lo cuál hace que θ̂n no sea un estimador del parámetro.
El teorema 38 es realmente interesante cuando la ecuación del score tiene raı́z
única, porque en este caso esa raı́z es el estimador máximo verosı́mil de θ y el
128CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

teorema garantiza su consistencia. Si la función de verosimilitud es estrictamente


cóncava, entonces se tiene la unicidad, y como consecuencia la consistencia del
estimador máximo verosı́mil.
El siguiente teorema establece la normalidad asintótica de las sucesiones con-
sistentes de raı́ces de la ecuación del score, cuya existencia garantiza el teorema
38.

Teorema 39 Supongamos que además de verificarse C1, C2, C3, C4 y C5, se


verifican también las hipótesis H1 y H2 del teorema de Cramér-Rao (teorema
25) y la siguiente hipótesis:
3

C6: Existe ∂θ 3 log fθ (x), cuyo valor absoluto está acotado por una función

K(x) tal que Eθ [K(X)] ≤ k.

Sea {θ̂n }n una sucesión consistente de raı́ces de la ecuación del score: θ̂n −→P
θ0 , si θ0 es el verdadero valor del parámetro. Entonces
µ ¶
√ 1
n(θ̂n − θ0 ) −→D N 0, ,
I(θ0 )
donde
1
I(θ0 ) = lı́m I (θ0 ) = IX (θ0 ).
n−→∞ n Xn
e
Demostración: Hacemos el desarrollo de Taylor de segundo orden de la función
score

S(θ| X n ) = log L(θ| X n )
e ∂θ e
en torno a θ0 y la evaluamos en θ̂n :

0 = S(θ̂n | X n ) = S(θ0 | X n )+
e e
∂ 1 ∂2
(θ̂n − θ0 ) S(θ0 | X n ) + (θ̂n − θ0 )2 2 S(θ∗ (θ̂n , θ0 )| X n )
∂θ e 2 ∂θ e

donde |θ∗ (θ̂n , θ0 ) − θ0 | ≤ |θ̂n − θ0 |. Dividiendo la expresión anterior por n se
obtiene la siguiente:
1
0 = √ S(θ0 | X n )+
n e
· 2
¸
√ 1 ∂ 1 ∂ ∗
n(θ̂n − θ0 ) S(θ0 | X n ) + S(θ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) .
n ∂θ e 2n ∂θ2 e
Por otra parte, el teorema central del lı́mite implica que
n ¯
1 1 X ∂ log f (Xi |θ) ¯¯
√ S(θ0 | X n ) = √ ¯ −→D N (0, IX (θ0 )),
n e n i=1 ∂θ θ=θ0

puesto que ∂ log f (Xi |θ)/∂θ son variables aleatorias independientes e idéntica-
mente distribuidas con esperanza 0 y varianza IX (θ0 ) < ∞.
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL129

Además, por la ley débil de los grandes números,


n ¯
1 ∂ 1 X ∂ 2 log f (Xi |θ) ¯¯
− S(θ0 | X n ) = − ¯ −→P
n ∂θ e n i=1 ∂θ2 θ=θ0
" ¯ #
∂ 2 log f (X|θ) ¯¯
IX (θ0 ) = E − ¯ .
∂θ2 θ=θ0

Usando de nuevo la ley de los grandes números, se tiene que


n ¯ ¯
1 ∂2 ∗ 1 X ¯¯ ∂ 3 log f (Xi |θ) ¯¯
| S(θ (θ̂n , θ0 )| X n )| ≤ ¯ ∗≤
n ∂θ2 e n i=1 ¯ ∂θ3 θ=θ

n
1X
K(Xi ) −→P E(K(X)) ≤ k,
n i=1
2

de donde se sigue que n1 | ∂θ ∗
2 S(θ (θ̂n , θ0 )| X n )| está acotado en probabilidad por
e
k: para todo ε > 0, la probabilidad de que esa cantidad sea menor que k + ε
tiende a 1. En definitiva, y dado que θ̂n −→P θ0 , se tiene que

1 ∂2
S(θ∗ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) −→P 0.
2n ∂θ2 e
Combinado los resultados anteriores, podemos escribir

n(θ̂n − θ0 ) =
 −1
 1 ∂ 1 ∂2  1
− S(θ | X ) − S(θ∗ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) √ S(θ0 | X n )
 n ∂θ 0 n 2 
| {z e } |2n ∂θ {z e } |
n
{z
e
}
−→P IX (θ0 ) −→P 0 −→D N (0,IX (θ0 ))

y, por el teorema de Slutzky, concluir que


µ ¶
√ 1
n(θ̂n − θ0 ) −→D N 0, .
IX (θ0 )
2

El enunciado del teorema 39 puede generalizarse al caso de variables alea-


torias no idénticamente distribuidas. Por eso se expresa la varianza lı́mite del
estimador máximo verosı́mil en términos de I(θ0 ) en lugar de hacerlo directa-
mente en términos de la información de Fisher de X.
El resultado del teorema 39 puede expresarse diciendo que el estimador máxi-
mo verosı́mil θ̂n de θ0 es asintóticamente normal:

θ̂n ∼ AN(θ0 , (nIX (θ0 ))−1 ).

Obsérvese que el estimador máximo verosı́mil es asintóticamente insesgado y


asintóticamente eficiente, puesto que su varianza lı́mite coincide con la
cota de Cramér-Rao.
130CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

Para basar la inferencia sobre el parámetro θ en ese resultado es preciso


estimar la información de Fisher I (θ0 ) = nIX (θ0 ). El siguiente resultado
X
e
proporciona dos estimadores de esa cantidad.

Teorema 40 Bajo las condiciones del teorema 39 (C1 a C6, H2, H3) los es-
tadı́sticos On y En definidos como
¯
∂ 2 log L(θ| X n ) ¯¯
On = − e ¯ ,
∂θ2 ¯
θ=θ̂n

En = I
(θ̂ ),
Xn n
e
divididos por n son estimadores consistentes de IX (θ0 ). Es decir, tanto On , la
información observada evaluada en el máximo, como En , la información
esperada evaluada en el máximo, estiman consistentemente la información de
Fisher contenida en la muestra acerca del parámetro.

Demostración: ¯
1 ∂ log L(θ| X n ) ¯¯
2
On
=− e ¯ =
n n ∂θ2 ¯
θ=θ̂n
¯ ¯
2 ¯
1 ∂ log L(θ| X n ) ¯ 1 ∂ log L(θ| X n ) ¯¯
3
− e ¯ − e ¯ (θ̂n − θ0 )
n ∂θ2 ¯ n ∂θ3 ¯ ∗
θ=θ0 θ=θ (θ0 ,θ̂n )

donde |θ∗ (θ̂n , θ0 ) − θ0 | ≤ |θ̂n − θ0 |. El término de las derivadas terceras tiende


a 0 en probabilidad mientras que el primer término converge en probabilidad a
IX (θ0 ), por la ley de los grandes números (ver la demostración del teorema 39).
Por otra parte,
En 1
= I (θ̂n ) = IX (θ̂n ) −→P IX (θ0 )
n n Xn
e
por la consistencia de θ̂n y la continuidad de IX (θ), (garantizada por la condición
C6). 2

Podemos escribir entonces que el estimador máximo verosı́mil θ̂n de θ es


µ ¶ µ ¶
1 1
θ̂n ∼ AN θ0 , o θ̂n ∼ AN θ0 , .
On En

En general, si se está estimando una transformación suave del parámetro


τ (θ) por máxima verosimilitud se tiene que
µ ¶
√ (τ 0 (θ0 ))2
n(τ (θ̂n ) − τ (θ0 )) −→D N 0, .
IX (θ0 )
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL131

Ejemplo 63
Estimación máximo verosı́mil de un parámetro de la distribución de
Weibull.
Sea X1 , . . . , Xn m.a.s. de X ∼ W (2, β):
2 −x2 /β
f (x, β) = xe , 0 ≤ x ≤ ∞, β > 0.
β
à n !
2n Y Pn 2
L(β| x n ) = n xi e−( i=1 Xi )/β
e β i=1
n
1X 2
l (β| x n ) = K − n log β − X
e β i=1 i
n
∂ n 1 X 2
S(β| x n ) = l (β| x n ) = − + 2 X
e ∂β e β β i=1 i
n
1X 2
S(β| X n ) = 0 =⇒ β̂n = X
e n i=1 i
à !¯
¯ n 2 Xn ¯ n
¯ 2 ¯
S 0 (β| X n )¯ = − X i ¯ =− <0
e β=β̂ n β 2 β 3 ¯ β̂n2
i=1 β=β̂n

Por lo tanto la verosimilitud es estrictamente cóncava y β̂n es la única solución de


la ecuación del score, ası́ que es un máximo (es el estimador máximo verosı́mil)
y es estimador consistente de β.
La información observada es
n
∂ 2 l (β|Xn ) 0 n 2 X 2
− = −S (β| X n ) = − + X
∂β 2 e β2 β 3 i=1 i

que evaluada en el estimador máximo verosı́mil vale


à !¯
¯ n 2 X 2 ¯¯
n
n n3
0 ¯
On = −S (β| X n )¯ = − 2+ 3 X ¯ = = Pn .
e β=β̂n β β i=1 i ¯ β̂n2 i=1 Xi2
β=β̂n

Por su parte, la información esperada (la información de Fisher, de hecho) es


n 2n n 2n n
I (β) = −E(S 0 (β| X n )) = − 2 + 3 E(X 2 ) = − 2 + 3 β = 2 ,
Xn e β β β β β
e
que evaluada en el estimador máximo verosı́mil vale

n n3
En = I (β̂n ) = = Pn = On .
X n β̂n2 i=1 Xi2
e
Ası́ pues, en este ejemplo, tanto la información observada como la esperada valen
lo mismo al ser evaluadas en el estimador máximo verosı́mil y, por lo tanto, sólo
tenemos un estimador consistente de la información de Fisher.
132CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

Volvamos a la expresión del logaritmo de la verosimilitud para deducir (por


el corolario 4) que el estimador máximo verosı́mil también es el UMVUE en este
problema:
n
1X 2 ∂
l (β| x n ) = K − n log β − X =⇒ l (β| x n ) =
e β i=1 i ∂β e
n µ Pn ¶
n 1 X 2 n 2
i=1 Xi
− + 2 Xi = 2 −β .
β β i=1 β n

Por otra parte,


1 β0
l (β| X n ) −→P − log β − = Eβ0 [log f (X|β)]
n e β
y si derivamos respecto a β,
∂ β0 − β
Eβ0 [log f (X|β)] =
∂β β2
de donde se sigue que Eβ0 [log f (X|β)] alcanza su máximo en β = β0 .
Tenemos ası́ que l (β| X n )/n se maximiza en β̂n y que Eβ0 [log f (X|β)] se
e
maximiza en β0 . Además, la diferencia entre l (β| X n )/n y Eβ0 [log f (X|β)] es
e
pequeña y va a 0 cuando n crece, y las dos funciones varı́an suavemente en β.
De ello se desprende que la diferencia entre los puntos que las maximizan, β0 y
β̂n , han de ser también pequeñas y deben ir a 0 cuando n crece, por lo tanto
β̂n −→P β0 .

Eβ(log f(X|β))
l(β|Xn,1)/n l(β|Xn,2)/n

β β β
β

. .
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL133

Ejemplo 64
En este ejemplo extendemos los resultados uniparamétricos al caso multipa-
ramétrico.
Sean Y1 , . . . , Yn variables aleatorias independientes tales que Yi ∼ Bern(pi ),
i = 1, . . . , n, que siguen el modelo de regresión logı́stico, es decir, existen cova-
riantes Z1 , . . . , Zn y parámetros desconocidos α y β tales que
µ ¶
pi
log = α + βZi , i = 1, . . . , n.
1 − pi
Es posible despejar pi :
exp(α + βZi )
pi = .
1 + exp(α + βZi )
Ello permite escribir la verosimilitud de la muestra:
Yn Yn µ ¶yi
pi
L(α, β) = pyi i (1 − pi )1−yi = (1 − pi ).
i=1 i=1
1 − pi

El logaritmo de la verosimilitud es
Xn µ µ ¶ ¶
pi
l (α, β) = yi log + log(1 − pi ) =
i=1
1 − pi
n µ
X µ ¶¶
1
yi (α + βZi ) + log
i=1
1 + exp(α + βZi )
Las ecuaciones de los scores son éstas:
n µ ¶ X n
∂ l (α, β) X exp(α + βZi )
= Yi − = (Yi − pi ),
∂α i=1
1 + exp(α + βZi ) i=1

n µ ¶ X n
∂ l (α, β) X Zi exp(α + βZi )
= Yi Zi − = Zi (Yi − pi ).
∂β i=1
1 + exp(α + βZi ) i=1

Estas ecuaciones se resuelven por métodos numéricos genéricos o bien aplicando


algoritmos especı́ficos para este problema que consisten en la iteración de es-
timaciones por mı́nimos cuadrados ponderados. Sobre este tema pueden verse,
por ejemplo, la sección 10.3 de Garthwaite, Jollife y Jones (1995), o la sección
14.5.2 de Peña (1995).
Las componentes de la matriz de información observada son
n
∂ 2 l (α, β) X
− = pi (1 − pi ),
∂α2 i=1

n
∂ 2 l (α, β) X
− = Zi pi (1 − pi ),
∂αβ i=1
134CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

n
∂ 2 l (α, β) X 2
− = Zi pi (1 − pi ).
∂β 2 i=1

Como la matriz de información observada no depende de las variables aleatorias


Yi , esta matriz coincide con su esperanza: la matriz de información de Fisher.
La matriz de información asintótica tiene por componente (l, m), l = 1, 2,
m = 1, 2,
n
1 X l+m−2
Ilm (α, β) = n lı́m Zi pi (1 − pi )
n−→∞ n
i=1

y son necesarias condiciones sobre la sucesión de covariantes Zi que garantizen


la existencia de estos lı́mites. Una posibilidad es suponer que las Zi son variables
aleatorias independientes e idénticamente distribuidas, con lo cual el problema
se convierte en uno de variables aleatorias independientes e idénticamente dis-
tribuidas puro.
. .

Ejemplo 56, página 109. Continuación. Veremos ahora que el método de


máxima verosimilitud no es el único que da lugar a estimadores asintóticamente
eficientes.
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ (λ) =
e−λ . Sabemos que
µ ¶Pn Xi
n−1 i=1
θ̂n =
n
es el UMVUE de θ = e−λ . Sabemos también que no alcanza la cota de Cramér-
Rao, es decir, no es eficiente para tamaños de muestra finitos.
Estudiaremos su distribución asintótica tomando logaritmos y usando el
método delta:
n
X n−1
log(θ̂n ) = Xi log = X n (n log(1 − 1/n)) .
i=1
n

Sabemos que n(X n − λ) −→D N (0, λ) y que, como veremos al final de este
ejemplo,

n log(1 − 1/n) −→n −1 y n [1 + n log(1 − 1/n)] −→n 0.

Ası́,
√ √ √ ¡ ¢
n(log θ̂n − log θ) = n(log θ̂n + λ) = n X n n log(1 − 1/n) + λ =
√ √
[n log(1 − 1/n)] n(X n − λ) + λ n [1 + n log(1 − 1/n)] −→D N (0, λ).
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL135

Por lo tanto, aplicando el método delta para τ (λ) = e−λ ,



n(θ̂n − e−λ ) −→D N (0, e−2λ λ).

Ya habı́amos visto que la cota de Cramér-Rao es

(τ 0 (λ))2
= λe−2λ ,
I(λ)

Luego se tiene que θ̂n es asintóticamente eficiente, al igual que lo era el estimador
de máxima verosimilitud e−X n tal como se vio en el ejemplo 59, página 116.

Falta por comprobar que se da la convergencia n [1 + n log(1 − 1/n)] −→n
0. Para probarlo, llamemos l al lı́mite y observemos que
¡ ¢x
1 + log 1 − x1
l = lı́m √ .
x−→∞ 1/ x

Aplicando la regla de l’Hôpital y operando se llega a que


" ¡ ¢x x
#
1 + log 1 − x1 1 − x−1
l = 2 − lı́m √ − lı́m √ = −2l − 2 · 0 = −2l,
x−→∞ 1/ x x−→∞ 1/ x

de donde se sigue que l = 0.


. .
136CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

4.5. Lista de problemas

Error cuadrático medio. Estimadores insesgados. Opti-


malidad
1. Sea X ∼ N (0, σ 2 ). Se toma una m.a.s. de X de tamaño n.

a) Construye a partir de ella dos estimadores insesgados de σ, uno de-


pendiente de la suma de los cuadrados de las observaciones y otro de
la suma de sus valores absolutos.
b) Compara sus varianzas.

2. Considera los tres estimadores máximo verosı́miles de θ correspondientes a


los problemas 14, 15 y 16 de la lista 1.6 (fueron calculados en el problema
11 de la lista 3.4). Prueba que cada estimador es insesgado en cada una
de las tres situaciones descritas en esos problemas y calcula la varianza de
cada estimador en cada situación.

3. (Casella-Berger, 7.20, 7.21, 7.22) Considera Y1 , . . . , Yn variables aleatorias


independientes que satisfacen

Yi = βxi + εi , i = 1, . . . , n,

donde x1 , . . . , xn son constantes conocidas, ε1 , . . . , εn son v.a.i.i.d. según


N (0, σ 2 ), σ 2 desconocido.

a) Da un estadı́stico bidimensional suficiente para (β, σ 2 ).


b) Halla el estadı́stico máximo verosı́mil de β (llámalo β̂1 ), prueba que
es centrado y da su distribución.
c) Comprueba que Pn
Yi
β̂2 = Pi=1
n
i=1 xi
es estimador insesgado de β.
d ) Comprueba que
n
1 X Yi
β̂3 =
n i=1 xi
es estimador insesgado de β.
e) Compara las varianzas de los tres estimadores de β.

4. (Casella-Berger, 7.39) Sea X1 , . . . , Xn una muestra de una población con


esperanza µ ∈ IR y varianza σ 2 > 0.
Pn
a) Prueba que un estimador de la forma i=1 ai Xi es insesgado para µ
Pn
si y sólo si i=1 ai = 1.
b) Entre todos los estimadores de esta forma (llamados estimadores li-
neales insesgados) encuentra aquél que tenga varianza mı́nima.
4.5. LISTA DE PROBLEMAS 137

5. (Casella-Berger, 7.40) Sean W1 , . . . , Wk estimadores insesgados de un paráme-


tro θ con varianzas V (Wi ) = σi2 , y Cov(Wi , Wj ) = 0 si i 6= j.
P
a) Prueba que entre todos los estimadores de θ de la forma ai Wi con
P
a1 , . . . , ak constantes y E( ai Wi ) = θ, el que menor varianza tiene
es P
∗ Wi /σi2
W = P .
1/σi2
b) Calcula la varianza de W ∗ .

6. (Casella-Berger, 7.41) Sea X1 , . . . , Xn una muestra de X ∼ N (θ, σ 2 = 1).

a) Comprueba que la cota de Cramér-Rao para la estimación de θ2 es


4θ2 /n.
2
b) Muestra que el mejor estimador insesgado de θ2 es X − (1/n).
c) Calcula su varianza (Indicación: Usa la identidad de Stein, que pue-
des encontrar en Casella-Berger, sección 4.7).
d ) Comprueba que este estimador no alcanza la cota de Cramér-Rao
para la estimación de θ2 .

7. (Casella-Berger, 7.42) Sean X1 , X2 y X3 una m.a.s. de una U (θ, 2θ), θ > 0.

a) Dar el estimador de los momentos de θ y llámalo θ̂1 .


b) Dar el estimador máximo verosı́mil de θ, al que llamaremos θ̂2 , y
encontrar una constante k tal que k θ̂2 sea insesgado para θ.
c) ¿Cuál de esos dos estimadores puede ser mejorado mediante el uso
de un estadı́stico suficiente? ¿Cómo se mejora? Llama θ̂3 al etimador
mejorado.
d ) Se han observado los valores 1.29, 0.86, 1.33, procedentes de una
U (θ, 2θ). Utiliza los tres estimadores propuestos en los apartados an-
teriores para estimar θ a partir de esos datos.

8. (Casella-Berger, 7.43) Se mide el radio de un cı́rculo con un error aleatorio


distribuido como una N (0, σ 2 ). Se toman n medidas independientes del
radio.

a) Proponer un estimador insesgado del área del cı́rculo.


b) ¿Es el mejor estimador insesgado?
c) ¿Alcanza la cota de Cramér-Rao?

9. En cada una de las tres situaciones descritas en los problemas 14, 15 y


16 de la lista 1.6, ¿alcanza el estimador máximo verosı́mil correspondiente
la cota de Cramér-Rao? (Nota: los estimadores fueron calculados en el
problema 11 de la lista 3.4.)

10. (Casella-Berger, 7.51) Sean X1 , . . . , Xn v.a.i.i.d. según una Bern(p).


138CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

a) Muestra que el estimador máximo verosı́mil de p es insesgado y al-


canza la cota de Cramér-Rao.
b) Para n ≥ 4, prueba que el producto X1 X2 X3 X4 es un estimador
insesgado de p4 .
c) Utiliza el apartado anterior para encontrar el mejor estimador inses-
gado de p4 .

11. (Casella-Berger, 7.44) Sean X1 , . . . , Xn v.a.i.i.d. con función de distribu-


ción F (x; θ) y sean Y1 , . . . , Ym v.a.i.i.d. con función de distribución G(x; µ).
Se supone que ambos grupos de variables son independientes. Se supone
que los estadı́sticos T = T (X1 , . . . , Xn ) y W = W (X1 , . . . , Xn ) son es-
tadı́sticos suficientes y completos para θ y µ, respectivamente, y que

Eθ (T ) = θ, Vθ (T ) < ∞, Eµ (W ) = µ, Vµ (W ) < ∞.

Encuentra el mejor estimador insesgado de θµ.

12. (Ex. junio 2000) Sea X ∼ N (µ, 1). Queremos estimar θ = µ2 a partir de
una observación de X.

a) Indica si los tres estimadores de θ siguientes,

θ̂1 = X 2 − 1, θ̂2 = X 2 , θ̂3 = X 2 + 1,

se pueden obtener como resultado de buscar los siguientes estimado-


res de θ:
1) el estimador máximo verosı́mil,
2) el estimador insesgado uniformemente de mı́nima varianza (UM-
VUE),
3) el estimador Bayes si la función de pérdida es cuadrática y la
distribución a priori de µ es plana (es decir, π(µ) es constante).
b) Calcula el error cuadrático medio de los estimadores θ̂i , i = 1, 2, 3.
¿Hay algún estimador inadmisible?
c) Da un estimador que sea mejor que los tres anteriores en términos
de error cuadrático medio. (Indicación: Recuerda que θ = µ2 > 0.
¿Con qué probabilidad será negativo θ̂1 ?).
d ) ¿El estimador UMVUE alcanza la cota de Cramér-Rao?

Comportamiento asintótico
13. (Casella-Berger, 7.61) Sean las v.a.i.i.d. X1 , . . . , Xn que verifican que

Eθ (Xi ) = θ + b, Vθ (Xi ) = σ 2 < ∞,

con b 6= 0 conocida.
4.5. LISTA DE PROBLEMAS 139

a) Prueba que X no es un estimador consistente de θ.


b) Define un estimador insesgado de θ que sea consistente.

14. (Casella-Berger, 7.62) Sea la m.a.s. X1 , . . . , Xn de X ∼ f (x; θ) = 0,5(1 +


θx)I(−1,1) (x), donde −1 < θ < 1. Dar un estimador consistente de θ y
probar que lo es.

15. (Casella-Berger, 7.63) Se toma una m.a.s. X1 , . . . , Xn de X ∼ N (θ, θ), con


V (X) = θ > 0.

a) Prueba que el estimador máximo verosı́mil de θ, θ̂, es una raı́z de la


Pn
ecuación de segundo grado θ2 +θ−W = 0, donde W = (1/n) i=1 Xi2 ,
y determina cuál de las dos raı́ces es el estimador máximo verosı́mil.
b) Da una aproximación de la varianza de θ̂ utilizando las propiedades
asintóticas del estimador máximo verosı́mil.
c) Da una aproximación de la varianza de θ̂ utilizando aproximaciones
por series de Taylor.

16. (Casella-Berger, 7.64) Una variación del modelo propuesto en el ejercicio


3 consiste en permitir que los regresores sean variables aleatorias inde-
pendientes e idénticamente distribuidas: se tienen n variables aleatorias
Y1 , . . . , Yn que satisfacen

Yi = βXi + εi , i = 1, . . . , n,

donde X1 , . . . , Xn son v.a.i.i.d. según una N (µ, τ 2 ), µ 6= 0, y ε1 , . . . , εn son


v.a.i.i.d. según una N (0, σ 2 ), y las variables X’s y las ε’s son independien-
tes. La varianza de los tres estimadores que se proponı́an en aquel ejercicio
es difı́cil de calcular exactamente, por lo que es conveniente encontrar sus
valores aproximados.
Aproxima en términos de µ, σ 2 y τ 2 las esperanzas y varianzas de los
estimadores siguientes:
Pn Pn
a) Xi Yi / i=1 Xi2 .
i=1
Pn Pn
b) Yi / i=1 Xi .
i=1
Pn
c) (1/n) i=1 (Yi /Xi ).

17. (Casella-Berger, 7.65) Sea X ∼ B(n, p), n conocida y 0 < p < 1. Sea p̂ el
estimador máximo verosı́mil de p construido a partir de X. La varianza
de p̂ es p(1 − p)/n, que puede estimarse mediante p̂(1 − p̂)/n.

a) Calcula la esperanza de p̂(1 − p̂).


b) Usa un desarrollo de Taylor para aproximar la varianza de p̂(1 − p̂).
c) ¿Presenta la aproximación anterior algún problema?
140CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES

18. (Examen junio 2000) Consideremos muestras de tamaño n de X ∼ N (µ, 1)


y el problema de estimar γ = eµ . Tomamos como estimador de γ

γ̂ = eX .

Da su distribución asintótica y usa el método delta para aproximar su


sesgo.

19. (Examen julio 2000) Sea X una variable aleatoria con función de densidad

f (x; a, λ) = λe−λ(x−a) I[a,∞) (x)

con a ∈ R y λ > 0.

a) Calcula los estimadores de máxima verosimilitud de a y λ.

A partir de ahora supondremos que a es conocido.

b) Da la expresión del estimador máximo verosı́mil de λ, λ̂, e indica cuál


es su distribución asintótica.
c) Queremos estimar σ 2 = V (X) = 1/λ2 . ¿Qué estimador es asintótica-
mente más recomendable, σ̂12 o σ̂22 , donde
n
1 1 X
σ̂12 = , σ̂22 = S 2 = (Xi − X)2 ?
λ̂2 n − 1 i=1

Indicaciones:
El coeficiente de apuntamiento de una v.a. Y se define como
CAp(Y ) = E[(Y − E(Y ))4 ]/V (Y )2 .
Si Y ∼ Exp(λ) entonces CAp(Y ) = 9.
Si θ4 = E[(Y − E(Y ))4 ] y θ2 = V (Y ), entonces
µ ¶
1 n−3 2
V (S 2 ) = θ4 − θ2
n n−1

Si Y es la media aritmética de una m.a.s. de tamaño n de Y ∼


Exp(λ), entonces

4 1 6n2 + 3n + 14
E(Y ) = +
λ4 n 3 λ4
d ) Usa el método delta para dar la expresión aproximada del sesgo de
e1/(X−a) como estimador de eλ .
Capı́tulo 5

Contrastes de hipótesis

Referencias: Casella-Berger, capı́tulo 8 y Garthwaite, Jollife y


Jones (1995), capı́tulo 4, referencias generales; Garthwaite, Jollife y
Jones (1995), sección 7.4., para contrastes bayesianos;

Una hipótesis estadı́stica es una conjetura o una afirmación sobre la


distribución de una o más variables aleatorias. Un contraste de hipótesis
(o un test de hipótesis o una prueba de hipótesis) es un procedimiento
para decidir si se acepta o se rechaza una hipótesis.

5.1. Definiciones básicas. Contraste de hipótesis


simples

Usualmente se dispone de una muestra X1 , . . . , Xn de una variable aleatoria


X con distribución F y función de densidad (o función de masa) f . Sobre la
distribución de X se realizan dos afirmaciones entre las que se debe decidir. En
general esas dos afirmaciones serán excluyentes. El tratamiento que se da a las
dos hipótesis no es simétrico y esto se refleja en el nombre que reciben: una se
llama hipótesis nula y la otra hipótesis alternativa. Se denotan por H0 y
H1 , respectivamente. Se dice que en un test de hipótesis se contrasta H0 frente
a H1 .
La hipótesis nula es más conservadora en el sentido de que no será rechazada
a menos que la evidencia muestral en su contra sea muy clara. Esta hipótesis
suele establecer un modelo sencillo para la distribución de X (por ejemplo, si
F pertenece a una familia paramétrica, H0 fija el valor del parámetro) o bien
propone como distribución de X aquella que es comúnmente aceptada como una
buena descripción del fenómeno que modeliza X.
La hipótesis alternativa especifica el tipo de alejamiento de la hipótesis nula
que podrı́a presentar la distribución de X. Puede expresar un modelo gene-

141
142 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

ral que incluya a H0 como caso particular. Si un investigador considera que un


fenómeno aleatorio no ha estado adecuadamente modelizado hasta ese momento
y cree tener una explicación más satisfactoria, propondrá ésta como hipótesis al-
ternativa y el modelo vigente como hipótesis nula. Sólo si hay evidencia muestral
suficiente para rechazar la hipótesis nula, será aceptada la hipótesis alternativa.
Podemos distinguir tres tipos de pruebas de hipótesis:

A. Suponemos que F (y f ) pertenecen a una cierta familia paramétrica in-


dexada por un parámetro θ ∈ Θ y planteamos el contraste
½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1

donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅.

B. Contrastes de bondad de ajuste (goodness-of-fit tests, en inglés):


½
H0 : f = f 0
H1 : f 6= f0

C. Para dos distribuciones f0 y f1 que no necesariamente pertenecen a la


misma familia paramétrica, se plantea el contraste
½
H0 : f = f 0
H1 : f = f 1

Una hipótesis simple es aquella que especifica completamente la distribu-


ción de X. En otro caso, se dice que la afirmación es una hipótesis compuesta.
Por ejemplo, si f ∈ {fθ : θ ∈ Θ ⊆ IR}, la hipótesis H : θ = θ0 es una hipótesis
simple. La hipótesis H : θ > θ0 es compuesta.
Supongamos que se contrasta H0 frente a H1 . Cuando se observa la muestra
x = (x1 , . . . , xn ) se debe decidir si ésta presenta o no evidencia suficiente para
e
rechazar H0 . El subconjunto C del espacio muestral X n de muestras para las
cuáles se decide rechazar la hipótesis nula en favor de la alternativa se llama
región crı́tica o región de rechazo del contraste. El complementario de C
se llama región de aceptación. Un contraste queda definido por su región
crı́tica C.

5.1.1. Tipos de errores

Al realizar un contraste de hipótesis se pueden cometer dos tipos de errores:


rechazar la hipótesis nula siendo ésta cierta (error de tipo I), o no rechazarla
cuando es falsa (error de tipo II). El error de tipo I se considera más grave
que el error de tipo II, dado que la hipótesis nula es siempre la más conservadora.
El siguiente esquema ilustra las diversas situaciones.
5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES143

DECISIÓN
Aceptar H0 Rechazar H0
H0 Decisión Error de
REALIDAD cierta correcta TIPO I
H0 Error de Decisión
falsa TIPO II correcta

Las probabilidades de cometer un error son

P ( X ∈ C|H0 cierta) y P ( X 6∈ C|H0 falsa).


e e
Es deseable disponer de contrastes que tengan probabilidades de errores bajas.
Pero en general no es posible diseñar contrastes que tengan ambas probabili-
dades pequeñas: cuando un contraste se modifica para reducir su probabilidad
de error de tipo I, esta modificación conlleva un aumento de la probabilidad de
error de tipo II, y viceversa. Obsérvese que si se desea reducir la probabilidad
del error de tipo I, α = PF ( X ∈ C|H0 ), se habrán de reducir los puntos de
e
la región crı́tica C, pero ello implica que el conjunto C, complementario de C,
aumenta y ası́ la probabilidad de error de tipo II, β = PF ( X ∈ C|H1 ), también
e
crecerá en general.
Dado que el error de tipo I se ha considerado más grave que el error de tipo II,
la práctica habitual en el contraste de hipótesis es considerar únicamente pruebas
que garantizan que la probabilidad de cometer un error de tipo I será inferior
a un valor dado α suficientemente pequeño (por ejemplo, α = 0,01, 0.05 o 0.1)
y buscar entre todas ellas aquélla que hace mı́nima la probabilidad de cometer
un error de tipo II. Al valor α se le llama nivel de significación del test.
Si el menor valor obtenido β para la probabilidad de error de tipo II es
inaceptablemente grande, pueden tomarse dos medidas para reducirlo:

aumentar la probabilidad de error de tipo I α permitida, o

aumentar el tamaño de la muestra.

Supongamos que la distribución de X pertenece a una familia paramétrica


{fθ : θ ∈ Θ} y se contrasta
½
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ 1
donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅. Se define la función de potencia η(θ) del
contraste como
½
probabilidad de error de tipo I si θ ∈ Θ0
η(θ) = Pθ ( X ∈ C) =
e 1 − probabilidad de error de tipo II si θ ∈ Θ1

Para 0 ≤ α ≤ 1, un contraste de hipótesis con función de potencia η(θ) tiene


tamaño α si
sup η(θ) = α.
θ∈Θ0
144 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

Para 0 ≤ α ≤ 1, un contraste de hipótesis con función de potencia η(θ) tiene


nivel de significación α si

sup η(θ) ≤ α.
θ∈Θ0

El conjunto de contrastes con nivel de significación α contiene las pruebas de


tamaño α.
Un contraste que minimiza β = Pθ ( X ∈ C|H1 ) entre aquellos que tienen
e
tamaño α se dice que es el contraste más potente de tamaño α o el mejor
contraste de tamaño α.

5.1.2. Lema de Neyman-Pearson

El siguiente resultado determina cuál es el contraste más potente cuando se


contrasta una hipótesis nula simple frente a una alternativa simple.

Teorema 41 (Lema de Neyman-Pearson) Sea X1 , . . . , Xn una muestra alea-


toria simple de X con función de densidad (o función de masa de probabilidad)
f (x; θ). Se desea contrastar H0 : θ = θ0 frente a H1 : θ = θ1 . Si L(θ| x ) es la
e
función de verosimilitud, el mejor contraste de tamaño α tiene región crı́tica de
la forma ( )
n
L(θ1 | x )
C= x ∈X : e ≥A
e L(θ0 | x )
e
para algún A > 0.

Demostración: Haremos la demostración sólo en el caso de distribución ab-


solutamente continua. La prueba en el caso discreto es análoga (basta cambiar
integrales por sumatorios y funciones de densidad por funciones de masa de
probabilidad) si el nivel α puede alcanzarse exactamente con los valores de la
función de masa bajo H0 (en caso contrario hay que recurrir a un contraste
aleatorizado; sobre este tema se darán referencias cuando se presente el ejemplo
66). En Vélez y Garcı́a (1993), páginas 338-339, puede verse una demostración
válida para el caso discreto y el absolutamente continuo.
Sea A tal que Pθ0 ( x ∈ C) = α, donde C = { x ∈ X n : L(θ1 | x )/L(θ0 | x ) ≥
e e e e
A}. Sea C ∗ la región crı́tica de otro test de tamaño α. Queremos probar que

β = Pθ1 ( x ∈ C) ≤ β ∗ = Pθ1 ( x ∈ C ∗ ).
e e
Calculemos la diferencia β ∗ − β:
Z Z
β∗ − β = L(θ1 | x )d x − L(θ1 | x )d x =
x ∈C ∗ e e x ∈C e e
e e
Z Z
L(θ1 | x )d x + L(θ1 | x )d x −
x ∈C ∗ ∩C e e x ∈C ∗ ∩C e e
e e
5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES145
Z Z
L(θ1 | x )d x − L(θ1 | x )d x =
x ∈C∩C ∗ e e x ∈C∩C ∗ e e
Ze Ze
L(θ1 | x )d x − L(θ1 | x )d x ≥
x ∈C ∗ ∩C e e x ∈C∩C ∗ e e
Z e Ze
A L(θ0 | x )d x − A L(θ0 | x )d x =
x ∈C ∗ ∩C e e x ∈C∩C ∗ e e
e" e
Z Z
A L(θ0 | x )d x + L(θ0 | x )d x −
x ∈C ∗ ∩C e e x ∈C ∗ ∩C e e
e e #
Z Z
L(θ0 | x )d x − L(θ0 | x )d x =
x ∈C∩C ∗ e e x ∈C∩C ∗ e e
"Z e e #
Z
A L(θ0 | x )d x − L(θ0 | x ) = A(α − α) = 0.
x ∈C ∗ e e x ∈C e
e e
2

El contraste que se propone en el Lema de Neyman-Pearson se denomina


también test de la razón de verosimilitudes.

Ejemplo 65
Test Z.
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido.
Se desea contrastar H0 : µ = µ0 frente a H1 : µ = µ1 , con µ1 > µ0 .
Nuestra intuición nos dice que se debe rechazar H0 si se observan valores
grandes de x. Veamos que la aplicación del Lema de Neyman-Pearson conduce
a esta solución.
La función de verosimilitud de una muestra es
½ ¾
1
L(µ| x ) = (2πσ 2 )−n/2 exp − 2 Σni=1 (xi − µ)2
e 2σ
y el cociente de verosimilitudes
© ª
L(µ1 | x ) (2πσ 2 )−n/2 exp − 2σ1 2 Σni=1 (xi − µ1 )2
e = © 1 n ª=
L(µ0 | x ) (2πσ 2 )−n/2 exp − 2σ2 Σi=1 (xi − µ0 )2
e
½ ¾
1 n ¡ 2 2
¢
exp Σ (xi − µ0 ) − (xi − µ1 ) =
2σ 2 i=1
½ ¾
1 ¡ 2 2 2
¢
exp n 2x(µ 1 − µ0 ) + (µ 0 − µ1 )
2σ 2
Ası́, la región crı́tica del test de Neyman-Pearson tiene la forma

C = { x : exp{n(2x(µ1 − µ0 )2 + (µ20 − µ21 ))/2σ 2 } ≥ A}.


e
146 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

Vemos que el cociente de verosimilitudes es función creciente del estadı́stico


minimal suficiente x porque µ1 − µ0 > 0, y por tanto la región crı́tica puede
escribirse ası́:
C = { x : x ≥ B}.
e
En este caso las constantes A y B se relacionan de este modo:
σ 2 log(A) µ1 + µ0
B= + .
n(µ1 − µ0 ) 2
Sin embargo no es necesario calcular B a partir de A, sino que es posible deter-
minar su valor teniendo en cuenta que el contraste que se propone tiene tamaño
α:
P (C|H0 ) = P (X ≥ B|H0 ) = α
Bajo H0 la distribución de la media muestral es X ∼ N (µ0 , σ 2 /n), de donde se
deduce que el valor de B debe ser
σ
B = µ0 + zα √ .
n

Supongamos que µ0 = 5, µ1 = 6, σ 2 = 1 y α = 0,05 y se toman muestras


de tamaño n = 4. Acabamos de ver que rechazaremos H0 : µ = 5 en favor de

H1 : µ = 6 si X ≥ µ0 + zα σ/ n = 5,8225, o equivalentemente si

X n − µ0 Xn − 5
Z= √ = √ ≥ 1,645.
σ/ n 1/ 4

Supongamos que se observa la muestra x = (5,1, 5,5, 4,9, 5,3), luego la media
e
muestral vale x = 5,2. Como
x−5
z= √ = 0,4 6≥ 1,645
1/ 4
no se rechaza H0 .

Este contraste se denomina test Z porque usa el estadı́stico Z = n(X n −
µ0 )/σ, que tiene distribución N (0, 1) bajo H0 .
. .

Ejemplo 66
Sean Y1 , . . . , Yn muestra aleatoria simple de Y ∼ Bern(p). Se desea contrastar
½
H0 : p = p0
H1 : p = p1
Pn
con p1 > p0 . Sea X = i=1 Yi ∼ B(n, p). La verosimilitud de la muestra es
µ ¶
n x
L(p|x) = p (1 − p)n−x .
x
5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES147

Calculamos el logaritmo del cociente de verosimilitudes:


µ ¶ µ x ¶
L(p1 |x) p1 (1 − p1 )n−x
log = log =
L(p0 |x) px0 (1 − p0 )n−x

x log(p1 /p0 ) + (n − x) log((1 − p1 )/(1 − p0 ))

Ası́, la región crı́tica del test de Neyman-Pearson será

C = {x : x log(p1 /p0 ) + (n − x) log((1 − p1 )/(1 − p0 )) ≥ log A} =

{x : x[log(p1 /p0 ) − log((1 − p1 )/(1 − p0 ))] ≥ −n log((1 − p1 )/(1 − p0 )) + log A} =


 
 log(A) − n log((1 − p1 )/(1 − p0 )) 
x:x≥B= ³ ´
 log p1 (1−p0 ) 
p0 (1−p1 )

Para determinar el valor de B usaremos el hecho de que la distribución de X es


conocida bajo H0 y que se desea definir un test con tamaño α.

Supongamos que n = 10, p0 = 0,5 y p1 = 0,8. Para diferentes valores de B


se obtienen contrastes con diferentes tamaños α y potencias β:

B 0 3 7 8 9
α 1.000 0.945 0.172 0.055 0.011
β 0.000 <0.001 0.121 0.322 0.624

Vemos que no es posible construir un contraste de tamaño α para todos los


valores α ∈ [0, 1]. Si por ejemplo queremos tener un contraste de tamaño α =
0,05 hay tres formas de actuar:

considerar que α = 0,055 es suficientemente próximo a 0,05 y rechazar H0


si x ≥ 8,

Pensar que 0.05 es la máxima probabilidad de error de tipo I aceptable y,


por tanto, rechazar H0 si x ≥ 9, dando lugar a α = 0,011,

Rechazar H0 si x ≥ 9, aceptar H0 si x ≤ 7 y en el caso de que x = 8


aleatorizar la decisión: rechazar H0 con probabilidad τ y aceptarla con
probabilidad (1 − τ ), eligiendo τ de forma que se consiga un tamaño exac-
tamente igual a α = 0,05. En este ejemplo τ es 0,8864. Este tipo de
contrastes se denominan tests aleatorizados.

En este curso no consideraremos los tests aleatorizados. En el capı́tulo 18


de Cristóbal (1992), por ejemplo, se desarrolla la teorı́a de los contrastes de
hipótesis incluyendo la posibilidad de que éstos sean aleatorizados.
. .
148 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

En los dos ejemplos anteriores hemos visto que el mejor test de tamaño
α depende de las observaciones sólo a través del valor que en ellas toma el
estadı́stico minimal suficiente del parámetro de interés. El siguiente corolario
establece esto como resultado general.

Corolario 6 En las hipótesis del Lema de Neyman-Pearson, si T es un es-


tadı́stico suficiente del parámetro de interés θ con función de densidad (o de
probabilidad) g(t|θ), el mejor test para el contraste
½
H0 : θ = θ0
H1 : θ = θ1

tiene región crı́tica de la forma


½ ¾
g(t|θ1 )
C = t = T(x) : ≥A
e g(t|θ0 )

para algún A ≥ 0.

Demostración: Trivial a partir del Lema de Neyman-Pearson y del Teorema


de Factorización (teorema 10). 2

5.1.3. Conclusiones de un contraste: el p-valor

Una forma de informar de los resultados de un contraste de hipótesis es


mediante el tamaño α del test usado y la decisión tomada sobre si se rechazó o
no H0 . Si α es pequeño la decisión de rechazar H0 es muy convincente, pero si α
es grande la probabilidad de cometer un error de tipo I es grande, lo cuál resta
fuerza al test si la decisión adoptada es la de rechazar H0 . Por otro lado, para
α muy pequeño, el hecho de no rechazar H0 no se interpretará como un apoyo
indiscutible a esta hipótesis sino como que no fue posible encontrar evidencia
suficiente en su contra como para superar la barrera tan restrictiva impuesta
por ese valor de α.
Una forma alternativa de presentar los resultados de un contraste de hipótesis
es dar el p-valor o valor de probabilidad del test, definido éste como el
supremo de los valores α para los cuáles se rechazarı́a la hipótesis nula si ésta
se contrastase a nivel α. El p-valor depende de los datos muestrales. Puede
interpretarse como la probabilidad de observar otra muestra que sea al menos
tan poco favorable a la hipótesis nula como la que se ha observado. A partir del
p-valor se puede tomar la decisión de rechazar (respectivamente, aceptar) H0 si
el p-valor es pequeño (respectivamente, grande).
Por ejemplo, el p-valor de un contraste dado por el Lema de Neyman-Pearson
es ( )
L(θ1 | X ) L(θ1 | x )
p = Pθ0 e ≥ e .
L(θ0 | X ) L(θ0 | x )
e e
5.2. CONTRASTES UNIFORMEMENTE MÁS POTENTES 149

En general, cuando la región crı́tica de un contraste de tamaño α es tal que


se rechaza H0 si y sólo si W ( x ) ≥ cα , donde W ( X ) es un estadı́stico y cα se
e e
elige para que el test tenga tamaño α, entonces el p-valor del contraste para una
muestra observada x es
e
p( x ) = sup Pθ (W ( X ) ≥ W ( x )).
e θ∈Θ0 e e

Ejemplo 65, página 145. Continuación. En el ejemplo del test Z el p-valor


es µ ¶ µ ¶
xn − µ0 xn − µ0
P (X n ≥ xn |µ = µ0 ) = P Z ≥ √ =1−Φ √
σ/ n σ/ n
donde Φ es la función de distribución de Z ∼ N (0, 1).
En el caso concreto de que σ = 1, µ0 = 5, n = 4 y x = 5,2 se tiene que el
p-valor es
µ ¶
X4 − 5 5,2 − 5
p( x ) = P √ ≥ √ = P (Z ≥ 0,4) = 0,3446
e 1/ 4 1/ 4

y por tanto no hay suficiente evidencia en contra de H0 como para rechazar esta
hipótesis.
. .

5.2. Contrastes uniformemente más potentes

Nos ocuparemos ahora de los contrastes de hipótesis en los que la hipótesis


alternativa es compuesta.
Queremos contrastar
½
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ 1
donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅.
Por ejemplo, si Θ = [0, ∞) podemos contrastar
½
H0 : θ = θ 0
H1 : θ > θ 0

Diremos que se trata de un contraste unilateral.


Si Θ = IR, los contrastes
½ ½
H0 : θ ≤ θ 0 H0 : θ ≥ θ0
y
H1 : θ > θ 0 H1 : θ < θ0
150 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

son también unilaterales y el contraste


½
H0 : θ = θ0
H1 : θ 6= θ0

se dice que es bilateral.


Diremos que un contraste de hipótesis es uniformemente más potente
(UMP) de tamaño α para contrastar H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 si su
función de potencia η(θ) verifica que

sup η(θ) = α
θ∈Θ0

y para cualquier otro contraste con función de potencia η ∗ que sea también de
tamaño α, es decir, que cumpla

sup η ∗ (θ) = α,
θ∈Θ0

se tiene que
η(θ) ≥ η ∗ (θ), para todo θ ∈ Θ1 .

5.2.1. Lema de Neyman-Pearson para alternativas com-


puestas

El siguiente resultado es una extensión del Lema de Neyman-Pearson al caso


de hipótesis alternativa compuesta.

Teorema 42 (Lema de Neyman-Pearson para alternativas compuestas)


Se desea contrastar ½
H0 : θ = θ 0
H1 : θ ∈ Θ1 = Θ − {θ0 }
Para cada θ1 ∈ Θ1 , se consideran los conjuntos
( )
L(θ1 | x )
C(θ1 ) = x : e ≥ A(θ1 ) ,
e L(θ0 | x )
e
las regiones crı́ticas de los contrastes más potentes de tamaño α para contrastar
½
H0 : θ = θ0
H1 : θ = θ1

dadas por el Lema de Neyman-Pearson.


Si esas regiones crı́ticas no dependen de θ1 , es decir, si C(θ1 ) = C para todo
θ1 ∈ Θ1 , entonces la prueba estadı́stica que tiene región crı́tica C es UMP de
tamaño α.
5.2. CONTRASTES UNIFORMEMENTE MÁS POTENTES 151

Demostración: Sea η(θ) la función de potencia del test que tiene región crı́tica
C. Por la definición de C se tiene que este test tiene tamaño α. Sea η ∗ la función
de potencia de cualquier otro test de tamaño α.
Para cualquier θ1 ∈ Θ1 , por el Lema de Neyman-Pearson el test con región
crı́tica C es el mejor para contrastar
½
H0 : θ = θ 0
H1 : θ = θ 1
y por lo tanto, η(θ1 ) ≥ η ∗ (θ1 ). Como eso ocurre para todo θ1 ∈ Θ1 se sigue que

η(θ1 ) ≥ η ∗ (θ1 )

para todo θ1 ∈ Θ1 , luego el test C es UMP de tamaño α. 2

Ejemplo 67
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido. Se
desea contrastar ½
H0 : µ = µ 0
H1 : µ > µ 0
En el ejemplo 65 se vió que para cualquier µ1 > µ0 el mejor test para contrastar
H0 : µ = µ0 frente a H10 : µ = µ1 tiene por región crı́tica
σ
C = { x : x ≥ B}, con B = µ0 + zα √ .
e n
Por lo tanto, la región crı́tica es la misma para todos los posibles valores µ1 ∈
Θ1 = (µ0 , ∞). Se sigue que el contraste con región crı́tica C es UMP de tamaño
α para contrastar H0 frente a H1 .
La función de potencia del test UMP es
σ
η(µ) = P ( X ∈ C|µ) = P (X n ≥ µ0 + zα √ |µ) =
e n
µ ¶ µ ¶
Xn − µ µ0 − µ µ0 − µ
P √ ≥ √ + zα |µ = P Z ≥ √ + zα ,
σ/ n σ/ n σ/ n
siendo Z ∼ N (0, 1).
. .

El siguiente resultado extiende el anterior al caso en el que la hipótesis nula


es también compuesta.

Corolario 7 Se contrasta una alternativa compuesta frente a otra compuesta:


½
H0 : θ ∈ Θ 0
.
H1 : θ ∈ Θ 1
Supongamos que existe un procedimiento de contraste basado en un estadı́stico
suficiente T con región crı́tica C que satisface las hipótesis siguientes:
152 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

1. el test tiene tamaño α,

2. existe θ0 ∈ Θ0 tal que Pθ0 (T ∈ C) = α,

3. si g(t|θ) denota la función de densidad (o de probabilidad) de T , para el


valor θ0 cuya existencia garantiza la hipótesis anterior y para cada θ1 ∈ Θ1
existe un A(θ1 ) ≥ 0 tal que

g(t|θ1 )
si > A(θ1 ) =⇒ t ∈ C, y
g(t|θ0 )

g(t|θ1 )
si < A(θ1 ) =⇒ t ∈ C.
g(t|θ0 )

Entonces esta prueba es UMP de tamaño α para contrastar H0 frente a H1 .

Demostración: Sea η(θ) la función de potencia del contraste que tiene región
crı́tica C y sea η ∗ (θ) la función de potencia de otro contraste que tiene tamaño
α. Se verificará pues que η ∗ (θ0 ) ≤ α.
Fijamos un θ1 ∈ Θ1 y contrastamos H00 : θ = θ0 frente a H10 : θ = θ1 . Por el
corolario al Lema de Neyman-Pearson, la región crı́tica C corresponde al mejor
test, luego η(θ1 ) ≤ η ∗ (θ1 ). Esto es válido para todo θ1 ∈ Θ1 , luego el test con
región crı́tica C es UMP. 2

5.2.2. Razón de verosimilitud monótona. Teorema de Karlin-


Rubin

En esta sección veremos que bajo determinadas condiciones es posible encon-


trar tests UMP para contrastes unilaterales cuyas regiones crı́ticas son fácilmente
expresables en función de un estadı́stico suficiente. Las condiciones necesarias
hacen referencia a la monotonı́a de la razón de verosimilitudes como función del
estadı́stico suficiente.
Una familia de funciones de densidad o de probabilidad {g(t|θ) : θ ∈ Θ} para
una variable aleatoria T tiene razón de verosimilitudes monótona (RVM)
si para cada θ2 > θ1 el cociente g(t|θ2 )/g(t|θ1 ) es una función no decreciente de
t para los valores t tales que g(t|θ2 ) > 0 o g(t|θ1 ) > 0.

Teorema 43 (Teorema de Karlin-Rubin) Se desea contrastar H0 : θ ≤ θ0


frente a H1 : θ > θ0 . Supongamos que T es un estadı́stico suficiente para θ y que
la familia {g(t|θ) : θ ∈ Θ} de funciones de densidad de T tiene RVM. Entonces
para cada t0 el test que rechaza H0 si y sólo si T > t0 es UMP de tamaño
α = Pθ0 (T > t0 ).

Demostración: Veamos en primer lugar que la función de potencia η(θ) =


P (T > t0 |θ) es creciente. Sea θ1 < θ2 . Queremos comprobar que η(θ1 ) ≤ η(θ2 ).
5.2. CONTRASTES UNIFORMEMENTE MÁS POTENTES 153

El Lema de Neyman-Pearson para contrastar H00 : θ = θ1 frente a H10 : θ = θ2


establece que el mejor test tiene región crı́tica C = { x : (L(θ2 | x )/L(θ1 | x )) ≥
e e e
A}. Como T es suficiente para θ, será L(θ| x ) = g(T ( x )|θ)h( x ). Dado que T
e e e
tiene RVM el conjunto C es
( )
g(T ( x )|θ2 )
C= x : e ≥ A = { x : T ( x ) ≥ t0 }.
e g(T ( x )|θ1 ) e e
e
Este contraste tiene tamaño α0 = P (T > t0 |θ1 ) = η(θ1 ). Consideremos un
contraste que rechaza H00 con probabilidad α0 sea cuál sea el valor x observado.
e
Su función de potencia es η ∗ (θ) = α0 y se trata de un test de tamaño α0 . Por el
Lema de Neyman-Pearson se tiene que

η(θ2 ) = P (T > t0 |θ2 ) ≥ η ∗ (θ) = α0 = η(θ1 )

y se concluye que la función de potencia η(θ) es creciente.


Para demostrar que el test con región crı́tica { x : T ( x ) > t0 } es UMP
e e
para contrastar H0 frente a H1 usaremos el corolario 7. Para aplicarlo hay que
comprobar que se cumplen sus tres hipótesis:

1. El test tiene tamaño α. Como η(θ) es no decreciente, se tiene que

sup η(θ) = η(θ0 ) = α = P (T > t0 |θ0 ).


θ≤θ0

2. Existe θ0 tal que Pθ0 (T ∈ C) = P (T > t0 |θ0 ) = α. Esto es cierto por


definición de t0 .

3. Para cada θ1 ∈ Θ1 , existe A(θ1 ) tal que t ∈ C si y sólo si (g(t|θ1 )/g(t|θ0 )) >
A(θ1 ). Esto se verifica si definimos

g(t|θ1 )
A(θ1 ) = ı́nf ,
t∈T g(t|θ0 )

donde T = {t : t > t0 y g(t|θ1 ) > 0 o g(t|θ0 ) > 0}. Si g(t|θ1 )/g(t|θ0 ) >
A(θ1 ) entonces t > t0 , puesto que T tiene RVM. Si t > t0 entonces
g(t|θ1 )/g(t|θ0 ) > ı́nf t g(t|θ1 )/g(t|θ0 ) = A(θ1 ).

Acabamos de ver que frecuentemente se encontrarán pruebas UMP para


pruebas unilaterales. Sin embargo, no es tan sencillo tener pruebas UMP para
pruebas bilaterales, como pone de manifiesto el siguiente ejemplo.

Ejemplo 68
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido. Se
desea contrastar H0 : µ = µ0 frente a H1 : µ 6= µ0 .
154 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

Si contrastamos H0 frente a H10 : µ0 > µ1 , la región crı́tica del test UMP


es C1 = { x : xn ≤ A1 }. Si contrastamos H0 frente a H10 : µ0 < µ1 , la región
e
crı́tica del test UMP es C2 = { x : xn ≥ A2 }.
e
Para contrastar H0 frente a H1 parece razonable rechazar H0 si se observan
valores de la media muestral mucho mayores o mucho menores que µ0 :

C = { x : xn ≤ A1 o xn ≥ A1 },
e
donde A1 y A2 se eligen para que el test tenga tamaño α:

P (X n ≤ A1 |µ = µ0 ) + P (X n ≥ A2 |µ = µ0 ) = α.

La forma de fijar A1 y A2 puede atender a distintos criterios. Una posibilidad


es elegir A1 y A2 de forma que
α
P (X n ≤ A1 |µ = µ0 ) = P (X n ≥ A2 |µ = µ0 ) = ,
2
√ √
es decir, A1 = µ0 − zα/2 σ/ n, A2 = µ0 + zα/2 σ/ n.

Entonces se rechazará H0 si |X n − µ0 | ≥ zα/2 σ/ n. La función de potencia
es tal como se refleja en la figura siguiente (curva de trazo continuo).

µ0=0, σ=1

0.8
Funciones de potencia

0.6

0.4

0.2

−4 −3 −2 −1 0 1 2 3 4
µ

Este contraste no es UMP porque, por ejemplo, si rechazamos H0 cuando



X n ≥ µ0 + zα σ/ n este contraste tiene potencia superior para µ > µ0 , como
puede verse en la figura anterior (curva de trazo discontinuo).
. .
5.3. CONTRASTES INSESGADOS. CONTRASTES LOCALMENTE MÁS POTENTES155

Vemos en el ejemplo anterior que no es posible atender las desviaciones


bilaterales de la hipótesis nula y, a la vez, superar en potencia a los contrastes
que han sido diseñados para detectar desviaciones en una sola dirección.

En los casos en los que no existen tests UMP es posible aún elegir contrastes
que tengan propiedades deseables. Una posibilidad (que será desarrollada en
la sección 5.5) es construir pruebas que sean válidas en muchas situaciones,
fácilmente aplicables y con buenas propiedades teóricas.

Otra posibilidad es restringir la clase de contrastes considerada y buscar el


test UMP dentro de esa clase. La sección 5.3 se ocupa de esta alternativa.

5.3. Contrastes insesgados. Contrastes localmen-


te más potentes

Un contraste de hipótesis para H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 de tamaño


α y con función de potencia η(θ) es un contraste insesgado si η(θ) ≥ α para
todo θ ∈ Θ1 .

Es razonable pedir que un contraste sea insesgado, puesto que nos dice que la
potencia nunca es menor bajo la hipótesis alternativa que bajo la nula: siempre
es más probable rechazar la hipótesis nula si ésta es falsa que si no lo es. Es
entonces lógico restringir la clase de contrastes que se consideran a aquella que
contiene sólo contrastes insesgados. Entre éstos se buscarán los tests UMP.

Si se adopta este enfoque, puede probarse que en el muestreo de la normal


con σ 2 conocida (ver ejemplo 68) el contraste que rechaza H0 : µ = µ0 si

|X n − µ0 | ≥ zα/2 σ/ n es insesgado y es UMP en la clase de los contrastes
insesgados. Para una demostración de este hecho, véase por ejemplo Casella-
Berger, ejemplo 8.3.9.

En la búsqueda de contrastes UMP, un planteamiento alternativo al de redu-


cir la clase de contrastes considerados (que nos lleva, por ejemplo, a buscar tests
insesgados UMP) consiste en reducir las hipótesis alternativas que se tienen en
cuenta. En este sentido, es lógico buscar procedimientos que sean uniformemen-
te más potentes sólo para las hipótesis alternativas cercanas a la hipótesis nula.
Serán estos contrastes los más potentes para detectar pequeñas desviaciones de
la hipótesis nula. En cada caso concreto se ha de especificar qué se entiende por
hipótesis cercanas a la nula.

Supongamos que el parámetro θ es real. Se dice que un test con función de


potencia η(θ) es el más potente localmente para contrastar H0 : θ ≤ θ0 (o
H0 : θ = θ0 ) frente a H1 : θ > θ0 si, para cualquier otro contraste con función
de potencia η 0 (θ) tal que η(θ0 ) = η 0 (θ0 ), existe un δ > 0 tal que η(θ) ≥ η 0 (θ)
para todo θ ∈ (θ0 , θ0 + δ].
156 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

Veamos cómo podemos encontrar el test más potente localmente en este


caso. Restringimos la hipótesis alternativa del siguiente modo:
½
H0 : θ = θ0
H1 : θ = θ0 + δ

para δ > 0 cercano a 0.


Por el lema de Neyman-Pearson el mejor test tiene región crı́tica de la forma

L(θ0 + δ; x )
e ≥ A ⇐⇒ log L(θ0 + δ; x ) − log L(θ0 ; x ) ≥ log A.
L(θ0 ; x ) e e
e
Desarrollando por Taylor alrededor de δ = 0, se tiene que
¯
∂ log L ¯¯
log L(θ0 + δ; x ) ≈ log L(θ0 ; x ) + δ
e e ∂θ ¯θ=θ0

y por tanto el test localmente más potente se basa en la función score


¯
∂ log L ¯¯
S(θ0 ; x ) =
e ∂θ ¯θ=θ0

y tiene por región crı́tica, aproximadamente,


p
S(θ0 ; x ) ≥ B = zα Iθ0
e
ya que, bajo H0 , E[S(θ0 ; x )] = 0, V [S(θ0 ; x )] = Iθ0 y S(θ0 ; x ) es aproximada-
e e e
mente normal.

Ejemplo 69
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ Cauchy(θ), con función de
densidad
1
f (x|θ) = .
π(1 + (x − θ)2 )
Se desea contrastar ½
H0 : θ = θ 0
.
H1 : θ > θ 0
La verosimilitud y su logaritmo son
Yn Xn
1 ¡ ¢
L(θ; x ) = 2
, l (θ; x ) = − log π + log(1 + (xi − θ)2 ) .
e i=1
π(1 + (xi − θ) ) e i=1

La función score es
n
X 2(xi − θ)
S(θ; x ) =
e i=1
1 + (xi − θ)2
y la información de Fisher
n
Iθ = .
2
5.4. CONSISTENCIA Y EFICIENCIA PARA CONTRASTES 157

Asintóticamente la prueba localmente más potente rechaza H0 : θ = θ0 en favor


de H1 : θ > θ0 si y sólo si
n r
X 2(xi − θ0 ) n
2
≥ zα/2 .
i=1
1 + (xi − θ0 ) 2

. .

Observemos que las pruebas localmente más potentes son útiles sólo para
alternativas unilaterales. Si θ es un vector, serán útiles cuando nos preocupa
una dirección especı́fica en la que el parámetro pueda alejarse de θ0 .

5.4. Consistencia y eficiencia para contrastes


Las propiedades deseables de los contrastes no se limitan a ser UMP o ser
localmente más potente. La siguiente es también una propiedad que cualquier
test razonable deberı́a cumplir.
Supongamos que un contraste depende del tamaño n de la muestra y que su
función de potencia se denota por ηn (θ). Diremos que un contraste es consis-
tente si
lı́m ηn (θ) = 1
n−→∞
para todo θ ∈ Θ1 . Las pruebas derivadas del Lema de Neyman-Pearson son
consistentes (ver, por ejemplo, el teorema 6.6.1 de Bickel y Doksum 1977).
Esta definición lleva aparejado un concepto de eficiencia relativa entre con-
trastes. Sean H0 y H1 dos hipótesis simples. Dados dos contrastes T1 y T2 ,
ambos de tamaño α y consistentes para contrastar H0 frente a H1 , se conside-
ran respectivamente los tamaños muestrales n1 y n2 más pequeños necesarios
para obtener potencia mayor o igual que η, un valor fijo. Se define la eficiencia
relativa de T1 comparado con T2 como
n2
.
n1
Se define la eficiencia relativa asintótica de T1 comparado con T2 como
n2
lı́m ,
η−→1 n1

es decir, es el lı́mite del cociente n2 /n1 cuando ambos tamaños muestrales tien-
den a infinito conjuntamente, en el sentido de que ambos garantizan potencia η
y η tiende a 1.
Existen otros conceptos de eficiencia relativa entre contrastes que contemplan
la posibilidad de que la hipótesis alternativa tienda hacia la nula cuando n tiende
a infinito (eficiencia de Pitman; ver, por ejemplo, Bickel y Doksum 1977). Otras
definiciones se basan en la comparación de p-valores (eficiencia de Bahadur; ver,
por ejemplo, Shorack y Wellner 1986).
158 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

5.5. Test de la razón de verosimilitudes

Sea X1 , . . . , Xn muestra aleatoria simple de X, variable aleatoria con función


de densidad (o de probabilidad) f (x|θ) para algún θ ∈ Θ. Se desea hacer el
contraste ½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
donde Θ = Θ0 ∪ Θ1 y Θ0 ∩ Θ1 = ∅. Se define el estadı́stico de la razón de
verosimilitudes como
máxθ∈Θ0 L(θ| x )
λ = λ( x ) = e .
e máxθ∈Θ L(θ| x )
e
El test de la razón de verosimilitudes (también llamado test de la
razón de verosimilitudes generalizado, para distinguirlo del test de Neyman-
Pearson, o test de la razón de las máximas verosimilitudes) establece
una región crı́tica de la forma

C = { x : λ( x ) ≤ A}
e e
para alguna constante A que se determinará para que el test tenga el tamaño α
deseado.
La idea intuitiva que sustenta este método de contraste es simple. Obsérvese
que 0 ≤ λ ≤ 1 y que cuanto más cercano a 1 sea el valor de λ, más verosı́mil
es que θ ∈ Θ0 , mientras que cuanto más se aleje λ de 1, más creı́ble será la
hipótesis alternativa θ ∈ Θ1 .

Ejemplo 70
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ), µ y σ 2 desconocidos:
el parámetro es θ = (µ, σ 2 ). Se desea contrastar
½
H0 : µ = µ0
H1 : µ 6= µ0

La verosimilitud es:
( n
)
2 −n/2 2 X
L(θ| x ) = (2πσ ) exp − 2 (xi − µ)2 .
e 2σ i=1

El estimador de máxima verosimilitud (MV) bajo H0 es θ̃ = (µ0 , σ̃ 2 ), donde


n
1X
σ̃ 2 = (xi − µ0 )2
n i=1

y el valor de la verosimilitud en ese punto es


n no
máx L(θ| x ) = (2πσ̃ 2 )−n/2 exp − .
θ∈Θ0 e 2
5.5. TEST DE LA RAZÓN DE VEROSIMILITUDES 159

El estimador MV en general es θ̂ = (x, σ̂ 2 ), donde


n
2 n−1 2 1X
σ̃ = S = (xi − x)2 ,
n n i=1
y el máximo de la verosimilitud es
n no
máx L(θ| x ) = (2πσ̂ 2 )−n/2 exp − .
θ∈Θ e 2
Por lo tanto,
µ µ Pn
¶−n/2 ¶−n/2
σ̃ 2 i=1 (xi − µ0 )2
λ = λ( x ) = = Pn =
e σ̂ 2 i=1 (xi − x)
2

µ Pn 2

2 −n/2
µ ¶−n/2
i=1 (x i − x) + n(x − µ0 ) t2
P n 2
= 1 + ,
i=1 (xi − x) n−1
√ H
donde t = n(x − µ0 )/S ∼0 . Por lo tanto, el estadı́stico λ es decreciente en |t|.
La prueba de razón de verosimilitudes rechaza H0 si λ < A para algún A, lo
cuál ocurrirá si y sólo si |t| > B para algún B. Por lo tanto, la prueba de razón
de verosimilitudes rechaza H0 si
|x − µ0 |
√ >B
S/ n
y B se elige para que el tamaño del test sea α. Por lo tanto, este test coincide
con el test t bilateral clásico en el muestreo de la normal.
. .

5.5.1. Relación con el Lema de Neyman-Pearson.

Cuando H0 y H1 son hipótesis simples, el estadı́stico λ( x ) vale lo siguiente:


( e )
L(θ0 | x ) L(θ0 | x )
λ( x ) = e = mı́n 1, e .
e máx{L(θ0 | x ), L(θ1 | x )} L(θ1 | x )
e e e
El test que rechaza H0 cuando λ ≤ A tiene la misma región crı́tica (y, por tanto,
es el mismo contraste) que el que la rechaza cuando L(θ1 | x )/L(θ0 | x ) ≥ (1/A),
e e
que es la región crı́tica dada por el test de Neyman-Pearson.
La única distorsión es que no se pueden construir pruebas de la razón de
verosimilitudes con niveles α ∈ (1 − p, 1), donde p es
à ¯ !
L(θ0 | x ) ¯
p=P e > 1¯¯ H0 ,
L(θ1 | x ) ¯
e
ya que si rechazamos H0 cuando λ( x ) ≤ A < 1, entonces
à ¯ !e à ¯ !
L(θ0 | x ) ¯ L(θ0 | x ) ¯
¯
e ≤ A¯ H0 ≤ P e ≤ 1¯¯ H0 = 1 − p
α=P
L(θ1 | x ) ¯ L(θ1 | x ) ¯
e e
y si tomamos A = 1 entonces el tamaño es α = 1.
160 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

5.5.2. Propiedades de los contrastes de razón de verosimi-


litudes

El estadı́stico λ( x ) del test de la razón de verosimilitudes depende de x


e e
sólo a través del estadı́stico minimal suficiente para θ. Las propiedades de estos
contrastes para muestras pequeñas dependen de la modelización paramétrica
concreta de que se trate. La siguiente es una propiedad común a todos los
contrastes de razón de verosimilitudes:

Si H0 es simple y existe una prueba UMP para contrastar H0 frente a


H1 , entonces el test de razón de verosimilitudes coincide con el test UMP.
(Véase Garthwaite, Jollife y Jones 1995, página 84, y las referencias allı́ ci-
tadas para una demostración de esta propiedad.)

Muchas de las propiedades asintóticas de los contrastes de la razón de vero-


similitudes son comunes a todos ellos. Citemos las siguientes:

Bajo las condiciones de regularidad que garantizan que el estimador de


máxima verosimilitud es consistente, se tiene que el test de razón de ve-
rosimilitudes es un test consistente. (Véase Cristóbal 1992, página 589).

El test razón de verosimilitudes es asintóticamente la prueba insesgada


más potente. (Véase Garthwaite, Jollife y Jones 1995, página 84.)

El test razón de verosimilitudes es asintóticamente eficiente, en el sentido


de la eficiencia relativa asintótica definida al final de la sección 5.3. (Véase
Garthwaite, Jollife y Jones 1995, página 85.)

Probaremos el siguiente resultado asintótico, que es útil para determinar el


valor crı́tico A de la definición del test de la razón de verosimilitudes.

Teorema 44 Sea X1 , . . . , Xn muestra aleatoria simple de X, variable aleatoria


con función de densidad (o de probabilidad) f (x|θ) para algún θ ∈ Θ. Se desea
hacer el contraste ½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
donde Θ = Θ0 ∪ Θ1 y Θ0 ∩ Θ1 = ∅. Bajo las condiciones H1, H2, C1, C2, C3,
C4, C5 y C6 de los teoremas 37, 38 y 39 sobre el comportamiento asintótico
del estimador MV (esas hipótesis aseguran la existencia y continuidad de las
derivadas respecto al parámetro de la función de verosimilitud, y que el soporte
de las distribuciones no depende del parámetro) se tiene que el estadı́stico

Qn = −2 log λ( X n ) −→n χ2d


e
bajo la hipótesis nula, donde d = dim(Θ) − dim(Θ0 ).
5.5. TEST DE LA RAZÓN DE VEROSIMILITUDES 161

Demostración: Haremos la prueba para el caso dim(Θ) = 1, dim(Θ0 ) = 0


(luego d = 1). Para el caso general, puede verse, por ejemplo, Cristóbal (1992),
Teorema 1.2, página 596.
Consideramos el modelo X ∼ f ∈ {fθ : θ ∈ Θ ⊆ IR} y el contraste
½
H0 : θ = θ 0
H1 : θ 6= θ0

Ası́, d = 1 − 0 = 1. Obsérvese que


³ ´
Qn = −2 log λ( X n ) = 2 log L(θ̂n | x n ) − log L(θ0 | x n ) ,
e e e
donde θ̂n es el estimador máximo verosı́mil de θ. Desarrollamos l (θ0 | x n ) =
e
log L(θ0 | x n ) en serie de Taylor alrededor de θ̂n :
e
2
∂ l (θ̂n | x n ) 1 ∂ l (θ̃| x n )
l (θ0 | x n ) = l (θ̂n | x n ) + e (θ0 − θ̂n ) + e (θ0 − θ̂n )2
e e ∂θ 2 ∂θ2
donde θ̃ es un valor entre θ̂n y θ0 .
Ası́,
 
2
 ∂ l (θ̂n | x n ) 1 ∂ l (θ̃| x n ) 
Qn = 2 
− e (θ0 − θ̂n ) − 2
e (θ0 − θ̂n )2 
=
| ∂θ {z } 2 ∂θ
=0

∂ 2 l (θ̃| x n )
− e (θ0 − θ̂n )2 .
∂θ2
En el teorema 39 se probó que el estimador máximo verosı́mil θ̂n es consistente.
Como además |θ̃ − θ0 | ≤ |θ̂n − θ0 | se tendrá que bajo H0

θ̃ −→P
H0 θ0 .

En el teorema 39 se probó que bajo H0


2
1 ∂ l (θ̃| x n )
− e −→P IX (θ0 ),
n ∂θ2
y que

n(θ̂n − θ0 ) −→D N (0, 1T overIX (θ0 )) ,
De donde se sigue, por el Teorema de Slutzky, que

1 ∂ l (θ̃| x n ) ³√ ´2
2
Qn = − e n(θ̂ n − θ 0 ) −→D χ21 .
n ∂θ2
2

El cálculo de d, la diferencia entre las dimensiones de Θ y Θ0 , suele hacerse


como
d = ν1 − ν0 ,
162 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

donde νi es el número de parámetros estimados bajo Hi menos las restricciones


que relacionan unos parámetros con otros, para i = 1, 2.

Ejemplo 71
P5
Modelos log-lineales. Sea θ ∈ Θ = {(p1 , p2 , p3 , p4 , p5 ) ∈ IR5 : j=1 pj =
1, y pj ≥ 0, j = 1, . . . , 5}. Sean X1 , . . . , Xn variables aleatorias discretas inde-
pendientes e idénticamente distribuidas tales que

Pθ (Xi = j) = pj = f (j|θ)

es la función de probabilidad de Xi . La verosimilitud asociada a una muestra


de tamaño n es
Yn
L(θ| x ) = f (xi |θ) = py11 py22 py33 py44 py55
e i=1

donde yj = #{xi , i = 1, . . . , n : xi = j}, j = 1, . . . , 5.


Se desea contrastar
½
H0 : p1 = p2 = p3 , p4 = p5
H1 : H0 es falsa

El espacio paramétrico Θ tiene dimensión 4, porque los parámetros tienen una


P5
ligadura lineal: j=1 pj = 1.
Para definir Θ0 , observemos que bajo H0 se cumple que p1 + p2 + p3 =
3p1 ≤ 1, luego 0 ≤ p1 ≤ 1/3. Además, como los pj deben sumar 1, se tiene que
3p1 + 2p4 = 1, luego p4 = (1 − 3p1 )/2. Ası́, Θ0 es

Θ0 = {(p1 , p1 , p1 , p4 , p4 ) : 0 ≤ p1 ≤ 1/3, y p4 = (1 − 3p1 )/2}

luego Θ0 tiene dimensión 1. Ası́ d = dim(Θ) − dim(Θ0 ) = 4 − 1 = 3.


Es sencillo verificar que el EMV global de pj es p̂j = yj /n. Calculemos ahora
el EMV bajo H0 . La verosimilitud es
µ ¶y4 +y5
1 − 3p1
L(p1 | x ) = p1y1 +y2 +y3 ,
e 2

de donde se sigue que el EMV de p1 bajo H0 es


y1 + y2 + y3
p̂10 = ,
3n
que
y1 + y2 + y3
p̂20 = p̂30 = p̂10 =
3n
y que
1 − 3p̂10 y4 + y5
p̂40 = p̂50 = = .
2 2
5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD163

El estadı́stico λ( x ) es entonces
e
³ ´y4 +y5
y1 +y2 +y3 1−3p̂10
p̂10 2
λ( x ) = =
e pˆ1 y1 pˆ2 y2 pˆ3 y3 pˆ4 y4 pˆ5 y5
µ ¶y1 µ ¶y2 µ ¶y3 µ ¶y4 µ ¶ y5
y1 + y2 + y3 y1 + y2 + y3 y1 + y2 + y3 y4 + y5 y4 + y5
.
3y1 3y2 3y3 2y4 2y5
El estadı́stico Qn = −2 log λ( x ) es
e
X5 µ ¶
yj
Qn = −2 log λ( x ) = 2 yj log ,
e j=1
mj

donde yj = np̂j , j = 1, . . . , 5, son las estimaciones de las frecuencias en cada una


de las categorı́as j = 1, . . . , 5 y mj = np̂j0 , j = 1, . . . , 5 son las estimaciones bajo
la hipótesis nula. El test de razón de verosimilitudes rechaza H0 si −2 log λ( x ) ≥
e
χ23,α .
Este es un ejemplo de una familia de modelos conocidos como modelos log-
lineales. En esta familia el estadı́stico Qn del test de razón de verosimilitudes
tiene siempre la forma que acabamos de ver.
. .

5.6. Contrastes relacionados con el de máxima


verosimilitud

El contraste basado en la razón de verosimilitudes no es el único procedi-


miento general para realizar contrastes de hipótesis. En esta sección veremos
otros dos métodos válidos para contrastar una hipótesis nula simple frente a
una alternativa compuesta.
Sea X1 , . . . , Xn una muestra aleatoria simple de X ∼ f , θ ∈ Θ ⊆ Rk .
θ e
Se desea contrastar e
(
H0 : θ = θ 0
e e
H1 : θ =
6 θ 0
e e

5.6.1. Test del score.

Cuando en la sección 5.3 buscábamos procedimientos localmente más poten-


tes, llegamos a un test basado en la función score:

∂ log L(θ; x n )
Sn (θ; x n ) = e
e ∂θ
164 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

si θ ∈ IR, o
à !t
∂ log L( θ ; x n ) ∂ log L( θ ; x n )
Sn ( θ ; x n ) = e e ,..., e e
e e ∂θ1 ∂θk

si θ = (θ1 , . . . , θk ) ∈ IRk .
e
Para contrastar H0 : θ = θ 0 frente a H1 : θ 6= θ 0 se propone el
e e e e
estadı́stico
S t −1
Tn = (Sn ( θ 0 ; x n )) (In ( θ 0 )) Sn ( θ 0 ; x n ),
e e e e e
que, bajo H0 y suponiendo que se cumplen las condiciones habituales de regu-
laridad, se distribuye asintóticamente como una χ2k dado que

Sn ( θ ; x n ) ≈ Nk (0, In ( θ 0 )).
e e e
Para el caso k = 1 se tiene que bajo H0
à !2
S −1
∂ log L(θ; x n )
Tn = (In ( θ 0 )) e ≈ χ21 .
e ∂θ

El test del score rechaza H0 si TnS ( x n ) > χ2k,α .


e
Cualquier estimador consistente de la matriz de información asintótica podrı́a
ser usado en lugar de In (θ0 ). Por ejemplo, pueden usarse la información obser-
vada On que se definió en el teorema 40.
Los tests del score se conocen en econometrı́a como tests de los multi-
plicadores de Lagrange.

5.6.2. Test de Wald.

El contraste de H0 : θ = θ 0 frente a H1 : θ 6= θ 0 puede basarse también


e e e e
en alguna distancia entre θ 0 y el estimador de máxima verosimilitud de θ ,
e
ˆθ . Dado que bajo H la distribución aproximada de ˆθ es e
0
en en
ˆθ ≈ N ( θ , (I ( θ ))−1 ),
k 0 n 0
en e e
el estadı́stico
Wn = ( ˆθ − θ 0 )t In ( θ 0 )( ˆθ − θ 0 )
en e e en e
ˆ
mide la distancia de Mahalanobish entre θ 0 y θ . El test de Wald se basa
e en
en este estadı́stico. Bajo H0 ,
Wn ≈ χ2k .
Se rechaza H0 si Wn ( x n ) > χ2k,α .
e
Aquı́, al igual que ocurrı́a con el test del score, la matriz In ( θ 0 ) puede
e
ser sustituida por otro estimador consistente de la matriz de información. Por
ˆ
ejemplo, puede usarse In ( θ ) o la matriz de información observada On .
en
5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD165

Obsérvese que para calcular el estadı́stico Wn sólo es necesario calcular el


estimador máximo verosı́mil global. Por este motivo se le llama a veces test
de la máxima verosimilitud.
Obsérvese que la expresión del test de la razón de verosimilitudes es com-
pletamente diferente de las expresiones de los test del score o de Wald. Sin
embargo, es fácil ver (usando desarrollos de Taylor) que los tres contrastes son
asintóticamente equivalentes en el sentido siguiente:

TnS + 2 log λ( x n ) −→P 0, Wn + 2 log λ( x n ) −→P 0.


e e
En muestras finitas los tres tests pueden presentar diferencias.

Ejemplo 72
En un experimento de Bernoulli con probabilidad de éxito p que se repite n
veces, se llama X al número de éxitos observados: X ∼ B(n, p). Se trata de
contrastar las hipótesis ½
H0 : p = p 0
H1 : p 6= p0
mediante los contrastes de la razón de verosimilitudes, del score y de Wald.
Calculamos el logaritmo de la verosimilitud,
µ ¶
n
l (p, x ) = log + x log p + (n − x) log(1 − p),
e x

y sus primeras derivadas respecto al parámetro,

∂ l (p, x ) x n−x x − np
e = − = ,
∂p p 1−p p(1 − p)

∂ 2 l (p, x ) x n−x x(2p − 1) − np2


e = − + = .
∂p2 p2 (1 − p)2 p2 (1 − p)2
Ası́, el EMV es
x
p̂ = .
n
y la información de Fisher es
à !
∂ 2 l (p, x ) n
In (p) = E − e = .
∂p2 p(1 − p)

El estadı́stico del test del score es


à !2
∂ l (p, x )
TnS = (In (p0 ))−1 − e =
∂p
µ ¶2
p0 (1 − p0 ) x − np0 (x − np0 )2
= ,
n p0 (1 − p0 ) np0 (1 − p0 )
166 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

y el del test de Wald

n (x − np0 )2
Wn = (p̂ − p0 )2 = .
p̂(1 − p̂) np̂(1 − p̂)

Por su parte, el estadı́stico del test de la razón de verosimilitudes es

máxp=p0 L(p|x) L(p0 |x)


λ(x) = = ,
máxp∈(0,1) L(p|x) L(p̂|x)
y

Qn = −2 log λ(x) = 2 (log L(p̂|x) − log L(p0 |x)) = 2 (l (p̂|x) − l (p0 |x)) =

2 (x log p̂ + (n − x) log(1 − p̂) − x log p0 − (n − x) log(1 − p0 )) =


2x (log p̂ − log(1 − p̂) − log p0 + log(1 − p0 )) + 2n (log(1 − p̂) − log(1 − p0 )) =
1 − p0 p0 1 − p0
2x log − 2x log − 2 log .
1 − p̂ p̂ 1 − p̂
Desarrollando la función log en serie de Taylor hasta el orden 2 alrededor del 1,
se obtiene que la expresión aproximada de Qn coincide con Wn .
. .

5.6.3. Contrastes en presencia de parámetros secundarios.

Acabamos de ver dos métodos generales (el test del score y el test de Wald)
para construir contrastes cuando la hipótesis nula es simple. Hemos visto que
están relacionados con el contraste de la razón de verosimilitudes. Sin embargo
éste último test es aplicable aun cuando la hipótesis nula sea compuesta.
Veremos ahora que los tests del score y de Wald también pueden aplicarse
aunque no todos los parámetros del modelo queden fijados en la hipótesis nula.
Aquellos parámetros a los que H0 no hace referencia se denominan parámetros
secundarios o parámetros nuisance, en inglés.
Suponemos que el vector de parámetros θ puede subdividirse en dos sub-
conjuntos, θt = (αt , β t ), con dimensión de α igual a p < k, y que se desean
contrastar las hipótesis ½
H0 : α = α 0
H1 : α 6= α0

Sea (α̂n , β̂n ) el EMV de (α, β) construido a partir de una muestra de tamaño
n. Entonces se tiene que
µ ¶ µµ ¶ ¶
α̂n α −1
≈ Nk , (In (α, β)) .
β̂n β

Se trata ahora de derivar contrastes basados en la distribución asintótica de



n(α̂n − α).
5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD167

Escribimos la matriz de información de Fisher en bloques,


µ ¶
In,αα (α, β) In,αβ (α, β)
In (α, β) =
In,βα (α, β) In,ββ (α, β)

de forma que In,αα (α, β) es la matriz de varianzas-covarianzas de las componen-


tes α de la función score. Afirmaciones análogas son ciertas para los restantes
bloques. Obsérvese que In,βα (α, β) = In,αβ (α, β)t . Para facilitar la notación,
llamaremos Iij al bloque (i, j) de In (α, β), para i = 1, 2 y j = 1, 2.
Invertimos la matriz In (α, β) mediante las fórmulas de una matriz dividida
en bloques y obtenemos que el bloque correspondiente a la varianza de α̂n es
¡ −1
¢−1
I11 − I12 I22 I21 .

Ası́, definimos la información sobre α ajustada después de haber esti-


mado β como el inverso de esa matriz:
−1
In,αα|β (α, β) = I11 − I12 I22 I21 .

La distribución marginal aproximada de α̂n es


³ £ ¤−1 ´
α̂n ≈ Np α, In,αα|β (α, β) .

El estadı́stico del test de Wald es


t
Wn = (α̂n − α0 ) In,αα|β (α̂n , β̂n ) (α̂n − α0 ) ,

que bajo H0 tiene distribución aproximada χ2p . Se rechazará H0 a nivel τ ∈ (0, 1)


si Wn > χ2p,τ .
Vamos ahora a deducir la expresión del test del score apropiado para
esta situación. Se estima β mediante β̂0 , el EMV de β calculado suponiendo que
α = α0 , es decir, resolviendo en β el sistema de ecuaciones Sn,β (α0 , β) = 0. De
las propiedades usuales de los estimadores máximo verosı́miles se deduce que
bajo H0
¡ ¢
Sn,α (α0 , β̂0 ) ≈ Np 0, In,αα|β (α0 , β) .
Por tanto, el estadı́stico del test del score es
£ ¤−1
TnS = [Sn,α (α0 , β̂0 )]t In,αα|β (α0 , β0 ) [Sn,α (α0 , β̂0 )]

que bajo H0 es aproximadamente χ2p (de hecho, es asintóticamente equivalente


a Wn ). Se rechazará H0 a nivel τ ∈ (0, 1) si TnS > χ2p,τ .
Para deducir la prueba de la razón de verosimilitudes hay que ajustar
tanto el modelo global como el reducido:

Qn = −2 log λ( x n ) = 2[l (α̂n , β̂n ) − l (α0 , β̂0 )],


e
que bajo H0 es aproximadamente χ2p y asintóticamente equivalente a Wn y a
TnS .
168 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

Ejemplo 73
Modelo de regresión exponencial. Supongamos que en n individuos inde-
pendientes se mide el valor de una covariable xi y el de una variable respuesta
Yi . Supongamos que las variables aleatorias Yi son exponenciales con tasa de
fallo 1/E[Yi ] = exp(α + βxi ), donde α, β ∈ IR.
Interesa saber si la covariable está asociada con la respuesta, ası́ que se
plantea el contraste ½
H0 : β = 0
H1 : β 6= 0
Buscaremos el test de Wald, el del score y el de máxima verosimilitud. Calcula-
mos la verosimilitud:
n
Y
L(α, β|(yi , xi ), 1 ≤ i ≤ n) = exp(α + βxi ) exp(−yi exp(α + βxi )) =⇒
i=1
n
X
l (α, β|(yi , xi ), 1 ≤ i ≤ n) = {α + βxi − yi exp(α + βxi )} =
i=1
n
X n
X
nα + β xi − yi exp(α + βxi )
i=1 i=1
Calculamos las funciones score:
Xn
∂l
Sα (α, β) = =n− yi exp(α + βxi ),
∂α i=1

Xn Xn
∂l
Sβ (α, β) = = xi − yi xi exp(α + βxi ).
∂β i=1 i=1
Los componentes de la matriz de información observada vienen dados por las
derivadas de los scores:
2
X n
∂ l
− 2 = yi exp(α + βxi ),
∂α i=1

X n
∂ 2l
− = yi xi exp(α + βxi ),
∂α∂β i=1
X n
∂2l
− = yi x2i exp(α + βxi ).
∂β 2 i=1

Como E(Yi ) = 1/ exp(α + βxi ) para cada i, tomando esperanzas de las expre-
siones anteriores se obtiene la matriz de información:
µ Pn ¶
n x
In (α, β) = Pn Pni=1 2i
i=1 xi i=1 xi

La información para β ajustada por α es


n
X X n Xn
−1 1
Iββ|α = Iββ − Iβα Iαα Iαβ = x2i − ( xi )2 = (xi − x)2
i=1 i=1
n i=1
5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD169

El estimador de máxima verosimilitud conjunto (α̂n , β̂n ) se calcula resolvien-


do numéricamente el sistema de ecuaciones
½ ½ Pn
Sα (α, β) = 0 n = i=1 yi exp(α + βxi )
⇐⇒ Pn Pn
Sβ (α, β) = 0 i=1 xi = i=1 xi yi exp(α + βxi )

Por su parte, el estimador de máxima verosimilitud de α bajo la hipótesis nula


de que β = 0 puede calcularse explı́citamente, pues en ese caso Yi son una m.a.s.
de Y ∼ exp(exp(α)), y sabemos que en este caso el EMV es
n
X
α̂0 = log(n/ yi ).
i=1

Sea β0 = 0. Ahora tenemos todas los elementos necesarios para calcular los
estadı́sticos de los trest contrastes:

Test de Wald.
n
X H0
Wn = (β̂n − β0 )t Iββ|α (β̂n − β0 ) = β̂n2 (xi − x)2 ≈ χ21 .
i=1

Test del score. El score calculado en el EMV bajo H0 es


n
X n
X n
X µ ¶
n yi
Sβ (α̂0 , 0) = xi − yi xi Pn = xi 1 −
i=1 i=1 i=1 yi i=1
y

y tiene varianza aproximadamente igual a


n
X
Iββ|α = (xi − x)2 ,
i=1

ası́ que ³ ´
Pn yi
Sβ (α̂0 , 0) x
i=1 i 1 − y
p = pPn ≈H0 N (0, 1),
Iββ|α i=1 (xi − x)
2

luego
à n µ ¶!2 Xn
X yi H0
TnS = xi 1 − (xi − x)2 ≈ χ21 .
i=1
y i=1

Test de la razón de verosimilitudes.

−2 log λ =
" n n n
#
X X X
2 nα̂n + β̂n xi − yi exp(α̂n + β̂n xi ) − n log(n/ yi ) − n
i=1 i=1 i=1

que bajo H0 es aproximadamente χ21 .

. .
170 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

5.7. Contrastes bayesianos


El enfoque bayesiano de los contrastes de hipótesis es conceptualmente dife-
rente del enfoque frecuentista que hemos desarrollado hasta ahora. Sean H0 y
H1 las hipótesis que se van a contrastar, que en un modelo paramétrico serán
afirmaciones sobre el parámetro θ de la forma θ ∈ Θ0 y θ 6∈ Θ0 , respectivamente.
En un marco frecuentista las hipótesis son siempre ciertas o estrictamente
falsas, dado que si θ ∈ Θ0 entonces H0 es cierta y por tanto
P (H0 es cierta|x) = 1 para todo x, y P (H1 es cierta|x) = 0 para todo x,
mientras que si θ 6∈ Θ0 esas probabilidades son, respectivamente, 0 y 1 sea cual
sea el valor de x observado.
En un marco bayesiano, sin embargo, tiene perfecto sentido hablar de
P (H0 es cierta|x) y P (H1 es cierta|x),
las probabilidades de que cada una de las hipótesis sean ciertas después de haber
observado los datos x. Estas probabilidades proporcionan información útil sobre
la veracidad de H0 y H1 .
Sea X1 , . . . , Xn una muestra aleatoria simple de X ∼ f (x|θ) y θ una variable
aleatoria con función de densidad (o de probabilidad) a priori π(θ). El contraste
de H0 frente a H1 se basará en la distribución a posteriori π(θ| x ), donde x es
e e
la m.a.s. de X observada. El contraste planteado es
½
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ1 = Θc0
Las probabilidades a posteriori de cada una de las hipótesis son
Z
P (H0 es cierta| x ) = P (θ ∈ Θ0 | x ) = π(θ| x )dθ,
e e Θ0 e
Z
P (H1 es cierta| x ) = P (θ ∈ Θ1 | x ) = π(θ| x )dθ.
e e Θ1 e
El procedimiento para aceptar o rechazar H0 podrı́a ser, por ejemplo, recha-
zar H0 si
P (θ ∈ Θ0 | x ) < P (θ ∈ Θ1 | x )
e e
y aceptarla en caso contrario. Con la terminologı́a introducida en las secciones
anteriores, el estadı́stico del contraste serı́a
T ( X ) = P (θ 6∈ Θ0 | X )
e e
y la región crı́tica
{ x : P (θ 6∈ Θ0 | x ) > 1/2}.
e e
Un procedimiento más conservador consiste en rechazar H0 sólo si la probabi-
lidad de que sea falsa, dados los datos x , es mayor que c > 1/2 (por ejemplo,
e
puede tomarse c = 0,95 o c = 0,99).
5.7. CONTRASTES BAYESIANOS 171

Ejemplo 74
Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida. La distribución a
priori de θ es N (µ, τ 2 ), con µ y τ 2 conocidos. Contrastamos
½
H0 : θ ≤ θ 0
H1 : θ > θ 0

Tal como se vió en la sección 3.3, la distribución a posteriori de θ es N (µp , τp2 ),


donde
nτ 2 x + σ 2 µ τ 2 σ2
µp = , τ p = .
nτ 2 + σ 2 nτ 2 + σ 2
Rechazar H0 si y sólo si

P (θ ∈ Θ0 | x ) < P (θ ∈ Θ1 | x ),
e e
es equivalente a hacerlo si y sólo si

1
P (θ ≤ θ0 | x ) < ,
e 2

y como π(θ| x ) es simétrica y centrada en µp , esto es cierto si y sólo si


e
nτ 2 x + σ 2 µ σ 2 (θ0 − µ)
µp = 2 2
> θ0 ⇐⇒ x > θ0 + .
nτ + σ nτ 2

. .

5.7.1. Ventaja a priori y a posteriori. Factor de Bayes

En el marco de la inferencia bayesiana, la forma de proceder es determinar


la ventaja a posteriori de H0 (en inglés, posterior odds),

P (H0 | x )
Q∗ = e
P (H1 | x )
e
y la conclusión del contraste se expresa diciendo que H0 es Q∗ veces más probable
que H1 , dados los datos.

Alternativamente, y dado que P (H0 | x ) + P (H1 | x ) = 1, se tiene que


e e
Q∗ 1
= P (H0 | x ), y = P (H1 | x )
1 + Q∗ e 1 + Q∗ e
son, respectivamente, las probabilidades a posteriori de que H0 y H1 sean ciertas.
Obsérvese que en el enfoque bayesiano se tratan las dos hipótesis, la nula y la
alternativa, de forma simétrica.
172 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

Mediante el teorema de Bayes, podemos expresar Q∗ de la forma siguiente:

x |H0 )P (H0 )
f(
e

P (H0 | x ) h( x ) P (H0 ) f ( x |H0 )
Q = e = e = e = Q · B,
P (H1 | x ) f ( x |H1 )P (H1 ) P (H1 ) f ( x |H1 )
e e e
h( x )
e
donde Q = P (H0 )/P (H1 ) es la ventaja a priori de H0 y representa la
creencia del investigador sobre qué hipótesis es cierta antes de realizar el experi-
mento, y B = f ( x |H0 )/f ( x |H1 ) es el factor de Bayes, que determina cómo
e e
los datos observados han cambiado esas creencias sobre qué hipótesis es cierta.
A menudo se impone el valor Q = 1, que no favorece a priori a ninguna de las
dos hipótesis. El interés se centra entonces en el factor de Bayes, pues este valor
es el que determina cómo los datos modifican las creencias sobre qué hipótesis
es cierta.

En general H0 especifica el modelo muestral f0 (x|θ) y una distribución a


priori para θ, mientras que H1 especifica otro modelo paramétrico f1 (x|φ) y
una distribución a priori sobre φ. Con esta formulación, los contrastes baye-
sianos permiten comparar modelos paramétricos diferentes. Por ejemplo, en un
problema de regresión lineal se podrı́an comparar dos conjuntos de regresores
diferentes.

Veremos ahora cómo se concretan los contrastes bayesianos en tres situa-


ciones en las que el modelo paramétrico bajo ambas hipótesis es el mismo: el
contraste de dos hipótesis simples, el de dos compuestas y el de una simple frente
a una compuesta.

5.7.2. Contraste de dos hipótesis simples.

Se trata de contrastar
½
H0 : θ = θ0
H1 : θ = θ1

Dar una distribución a priori para el parámetro consiste en fijar valores para
P (H0 ) y P (H1 ).

En este caso el factor de Bayes es

f ( x |θ0 )
B= e ,
f ( x |θ1 )
e
que es el cociente de verosimilitudes que sirve de estadı́stico al test derivado del
Lema de Neyman-Pearson.
5.7. CONTRASTES BAYESIANOS 173

Ejemplo 75
Sea X1 , . . . , Xn m.a.s. de X ∼ exp(θ). Ası́,
( n
)
X
n
f ( x |θ) = θ exp −θ xi
e i=1

y ( )
µ ¶n n
X
θ0
B= exp (θ1 − θ0 ) xi .
θ1 i=1

La ventaja a posteriori de H0 es
µ ¶n ( n
)
P (H0 ) θ0 X
Q∗ = exp (θ1 − θ0 ) xi .
P (H1 ) θ1 i=1

. .

5.7.3. Contraste de dos hipótesis compuestas.

Se trata de contrastar
½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1 = Θc0

Para cada hipótesis se debe determinar una distribución a priori del parámetro
θ (éstas podrı́an coincidir). Sean

π0 (θ|H0 ) y π1 (θ|H1 ),

la distribuciones a priori de θ bajo H0 y bajo H1 , respectivamente. Ası́,


Z Z
f ( x |H0 ) = f (x, θ|H0 )dθ = f (x|θ)π0 (θ|H0 )dθ,
e Θ0 Θ0

y Z Z
f ( x |H1 ) = f (x, θ|H1 )dθ = f (x|θ)π1 (θ|H1 )dθ,
e Θ1 Θ1

Por lo tanto, el factor de Bayes es


R
f (x|θ)π0 (θ|H0 )dθ
B = RΘ0 .
Θ1
f (x|θ)π1 (θ|H1 )dθ

5.7.4. Contraste de hipótesis nula simple frente a alterna-


tiva compuesta.

Se trata de contrastar ½
H0 : θ = θ 0
H1 : θ 6= θ0
174 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

Combinando los dos casos anteriores, se tiene que el factor de Bayes es en este
caso
f (x|θ0 )
B=R .
θ6=θ0
f (x|θ)π 1 (θ|H1 )dθ

Obsérvese que si la distribución a priori de θ es absolutamente continua


entonces la probabilidad a posteriori de H0 será igual a 0, lo cuál implica que
Q∗ será siempre 0, sean cuales sean los datos observados, y H0 será rechazada
siempre. Sin embargo el factor de Bayes B sı́ es calculable y recoge la información
esencial que los datos aportan sobre la veracidad de H0 y H1 . En este caso es
posible establecer a priori un valor para Q y definir Q∗ como el producto de Q
por B.

Ejemplo 76
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(θ). Se desea contrastar
½
H0 : θ = θ0
H1 : θ 6= θ0

La verosimilitud es Pn
xi
θ i=1
f ( x |θ) = e−nθ Qn .
e i=1 xi !
Se considera la distribución a priori de θ bajo H1 como la distribución conjugada,
una γ(α1 , α2 ):
1 1
π1 (θ|H1 ) = θα1 e−θ/α2 .
Γ(α1 + 1) α2α1 +1
El numerador del factor de Bayes es f ( x |θ0 ) y el denominador
e
Z
f (x|θ)π1 (θ|H1 )dθ =
θ6=θ0

Z Pn
θ i=1 xi 1 1
e−nθ Qn α1 −θ/α2
α1 +1 θ e dθ =
θ6=θ0 x
i=1 i ! Γ(α 1 + 1) α2
Pn
Γ(α1 + i=1 xi + 1)
Qn Pn ×
α1 +1 α1 + xi +1
i=1 xi !Γ(α1 + 1)α 2 (n + 1/α 2 ) i=1

Z ∞ Pn Pn
α1 + xi +1 α1 + xi (n+1/α2 )θ
(n + 1/α2 ) i=1 θ i=1 e
Pn dθ =
0 Γ(α1 + i=1 xi + 1)
Pn
Γ(α1 + i=1 xi + 1)
Qn Pn .
α2α1 +1 i=1 xi !Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1
Ası́, Pn
xi
i=1
−nθ0 θQ
e 0
n
xi !
B= Pn i=1 =
Γ(α1 + xi +1)
Qn
i=1 Pn
α1 +1 α1 + xi +1
α2 xi !Γ(α1 +1)(n+1/α2 ) i=1
i=1
5.7. CONTRASTES BAYESIANOS 175
Pn Pn
xi
α2α1 +1 e−nθ0 θ0 i=1 Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1
Pn .
Γ(α1 + i=1 xi + 1)

Supongamos que se observan seis datos,

x1 = 3, x2 = 1, x3 = 6, x4 = 2, x5 = 5, x6 = 2,

P
de donde xi = 19, y que se quieren contrastar

½
H0 : θ = 2
H1 : θ 6= 2

con

π1 (θ|Θ1 ) ∼ γ(α1 = 2,6, α2 = 1/0,6).

La esperanza y la varianza a priori son, respectivamente,

2,6 + 1 2,6 + 1
E= = 6, V = = 10.
0,6 0,62

Ası́, el factor de bayes es

219 e−6·2 Γ(2,6 + 1)(6 + 0,6)2,6+19+1


B= = 0,77.
0,62,6+1 Γ(2,6 + 19 + 1)

Supongamos que la ventaja a priori de H0 es Q = 0,5. Entonces, la ventaja a


posteriori es

Q∗ = Q · B = 0,5 · 0,77 = 0,385

y se concluirı́a que H1 es la hipótesis cierta.

Supongamos que la distribución a priori tuviese parámetros α1 = 35 y α2 =


1/6. Entonces E = 6 y V = 1. En este caso se llegarı́a a que

B = 3,16 y Q∗ = 1,58,

luego se seguirı́a que H0 es la hipótesis correcta. El siguiente gráfico ilustra las


diferencias entre las dos situcaiones que acabamos de considerar.
176 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

Distribuciones a priori
0.5

0.45

0.4

0.35

0.3 p(θ|H1,α1=35, α2=6)


p(θ|H1)

0.25

0.2

0.15

0.1 p(θ|H1,α1=2.6, α2=0.6)

0.05

0
0 θ Media de x ,...,x 5 10 15
1 n θ

. .

En el contraste de una hipótesis nula simple frente a una alternativa com-


puesta el factor de bayes puede calcularse de un modo alternativo, tal y como
especifica por el siguiente teorema.

Teorema 45 Si f (x|θ) es continua en θ = θ0 , entonces

π(θ| x , H1 )
B = lı́m e
θ−→θ0 π(θ|H1 )

donde π(θ| x , H1 ) es la densidad a posteriori de θ y π(θ|H1 ) es la a priori.


e

Demostración: Por la hipótesis de continuidad se tiene que

f ( x |H0 ) = lı́m f ( x |θ, H1 ).


e θ−→θ0 e

Como f ( x |θ, H1 ) = f ( x |H1 )π(θ| x , H1 )/π(θ|H1 ), se tiene que


e e e
π(θ| x , H1 ) f ( x |H0 ) π(θ| x , H1 )
f ( x |H0 ) = f ( x |H1 ) lı́m e =⇒ B = e = lı́m e .
e e θ−→θ0 π(θ|H1 ) f ( x |H1 ) θ−→θ 0 π(θ|H1 )
e
2
5.8. LISTA DE PROBLEMAS 177

5.8. Lista de problemas

Definiciones básicas. Contrastes más potentes


1. (Garthwaite, Jollife y Jones 1995, 4.1) Utiliza el Lema de Neyman-Pearson
para encontrar la región crı́tica del test más potente para contrastar H0
frente a H1 en las siguientes situaciones.

a) X1 , . . . , Xn es m.a.s. de X ∼ Poisson(θ). H0 : θ = θ0 , H1 : θ = θ1 ,
θ1 > θ 0 .
b) X1 , . . . , Xn es m.a.s. de X ∼ exp(θ), con θ = E(X)−1 . H0 : θ = θ0 ,
H1 : θ = θ 1 , θ 1 > θ 0 .
c) X1 , . . . , Xn es m.a.s. de X ∼ N (µ, σ 2 ), Y1 , . . . , Ym es m.a.s. de Y ∼
N (θ, τ 2 ), las dos muestras son independientes y σ 2 y τ 2 son conocidas.
H0 : θ = µ, H1 : θ = µ + δ, δ > 0, µ y δ conocidos.

2. (Garthwaite, Jollife y Jones 1995, 4.2) En el último apartado del ejercicio


anterior, supongamos que σ 2 = τ 2 = δ = 1, que n = m y que hacemos el
contraste óptimo a nivel α = 0,01.

a) Calcula la potencia del test si n = 10.


b) Calcula el menor valor de n tal que la potencia sea mayor o igual que
0,95.

3. (Garthwaite, Jollife y Jones 1995, 4.3) Sea X1 , . . . , Xn una m.a.s. de una


distribución gamma de parámetros (3, θ) con densidad
1 2 −x/θ
f (x; θ) = x e I(0,∞) (x).
2θ3
a) Encuentra el test más potente para contrastar H0 : θ = θ0 frente a
H1 : θ = θ1 , donde θ1 > θ0 .
b) Utiliza los resultados obtenidos para dar el test uniformemente más
potente para contrastar H0 frente a H10 : θ > θ0 .

4. (Garthwaite, Jollife y Jones 1995, 4.5) Sea X1 , . . . , Xn una m.a.s. de una


distribución lognormal de parámetros (µ, 1). Prueba que existe un test
uniformemente más potente para contrastar H0 : µ = µ0 frente a H1 : µ >
µ0 e indica qué forma tiene.

5. (Garthwaite, Jollife y Jones 1995, 4.7) Sea X1 , . . . , Xn una m.a.s. de una


variable aleatoria X. Se considera el contraste
½
H0 : X ∼ U (0, 1)
H1 : X ∼ f (x; θ) = θeθx /(eθ − 1), 0 ≤ x ≤ 1, θ > 0, θ desconocido

Prueba que hay un test uniformemente más potente y da la región crı́tica


aproximada para n suficientemente grande.
178 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

6. (Garthwaite, Jollife y Jones 1995, 4.12) Sea X ∼ f (x), una función de


densidad desconocida. Se toma una muestra de tamaño n para contrastar
H0 : f (x) = f0 (x) frente a H1 : f (x) = f1 (x), donde f0 y f1 son densidades
conocidas con el mismo soporte.

a) Considera las densidades de la forma λf0 (x) + (1 − λ)f1 (x), λ ∈ [0, 1],
para expresar H0 y H1 como hipótesis paramétricas.
b) Considera
1 x2 1
f0 (x) = √ e− 2 , f1 (x) = e−|x| ,
2π 2
y prueba que entonces la región crı́tica del test más potente para
contrastar H0 frente a H1 es de la forma
n
X
R = { x ∈ IRn : (|xi | − 1)2 ≥ k}
e i=1

para algún k.
c) Evalúa esa región crı́tica para n = 1 y k = 1. ¿Es el test insesgado?
d ) Evalúa esa región crı́tica para n = 1 y k = 1/4.¿Es el test insesgado?

Contrastes de la razón de verosimilitudes, scores y Wald

7. Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ) con ambos parámetros des-


conocidos.

a) Considera el contraste
½
H0 : µ = µ0
H1 : µ 6= µ0

Comprueba que el test de la razón de verosimilitudes conduce al test


t usual, que tiene región crı́tica

n n(x − µ0 )
Rα = { x ∈ IR : −tn−1,α/2 ≤ ≤ tn−1,α/2 }c ,
e S
donde Ac denota el complementario del conjunto A.
b) Considera el contraste
½
H0 : σ 2 = σ02
H1 : σ 2 6= σ02

Comprueba que el test de la razón de verosimilitudes tiene región


crı́tica
(n − 1)S 2
Rα = { x ∈ IRn : C1 ≤ ≤ C2 }c ,
e σ02
para constantes C1 y C2 elegidas convenientemente.
5.8. LISTA DE PROBLEMAS 179

8. Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ) y Y1 , . . . , Ym m.a.s. de Y ∼


N (θ, τ 2 ). Las dos muestras son independientes. Los cuatro parámetros
son desconocidos.

a) Suponiendo que σ 2 = τ 2 , comprueba que el test de la razón de vero-


similitudes para contrastar
½
H0 : µ = θ
H1 : µ 6= θ

conduce al contraste usual para la diferencia de medias.


b) Da la región crı́tica del test de la razón de verosimilitudes para con-
trastar ½
H0 : σ 2 = τ 2
H1 : σ 2 6= τ 2

c) En el caso especial de n = m, comprueba que el test anterior se


reduce al test F usual para contrastar igualdad de varianzas.

9. Sean dos muestras independientes, X1 , . . . , Xm m.a.s. de X ∼ Exp(λ1 ), e


Y1 , . . . , Yn m.a.s. de Y ∼ Exp(λ2 ) (los parámetros son las inversas de las
esperanzas). Sean X m e Y n las respectivas medias muestrales. Considera-
mos el test ½
H0 : λ 1 = λ 2
H1 : λ 1 < λ 2

a) Probar que bajo H0


Xm
∼ F2m,2n
Yn
(indicación: Probar que si X es exponencial con esperanza 2, enton-
ces X es también χ2 con dos grados de libertad. Probar que si X e Y
son variables aleatorias independientes e idénticamente distribuides
según una Exp(λ), entonces (X/Y ) ∼ F2,2 ).
b) Probar que la región crı́tica del test de la razón de verosimilitudes pa-
ra contrastar H0 frenta a H1 puede expresarse en función del cociente
X m /Y n y de cuantiles de una distribución F con grados de libertad
convenientes.
c) Los siguientes datos corresponden a tiempos de llegada a un incidente
de dos servicios de urgencia: guardia urbana y bomberos.

Tiempo (minutos) de llegada de 2,65 2,98 5,61 6,61 2,50 0,65 3,74
la guardia urbana a un accidente 1,12 5,34 0,40 1,93 4,87
de tráfico urbano
Tiempo (minutos) de llegada de 6,89 3,48 4,91 5,04 9,17 2,20 1,05
los bomberos a un incendio en el 6,09
casco urbano.
180 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

Se supone que los tiempos de llegada se distribuyen según una ley


exponencial. Usar el test de razón de verosimilitudes para contrastar
si los tiempos medios de llegada de ambos servicios son iguales frente
a que la guardia urbana llega en promedio antes que los bomberos.
Hacerlo a un nivel de significación α = 0,05.

10. Se toma una muestra de tamaño n de una variable aleatoria Poisson(θ)


para contrasrtar H0 : θ = θ0 frente a H1 : θ 6= θ0 . Encontrar el estadı́stico
de los siguientes tests.

a) Test de razón de verosimilitudes.


b) Test del score.
c) Test de Wald.

11. (Examen junio 2000) Cuando las muertes a causa de una enfermedad rara,
pero no contagiosa, suceden aleatoria y uniformemente en una población,
el número de muertes en una región con población igual a P (es decir, con
un número de habitantes igual a P ) se modela con una ley de Poisson de
media µP , µ ∈ [0, 1].

a) Suponemos que el número de muertes observadas en n regiones con


poblaciones P1 , P2 , . . . , Pn son Y1 , Y2 , . . . , Yn . Deriva una expresión
para el estimador de máxima verosimilitud de µ. Llámalo µ̂.

La siguiente tabla da el número de muertos por cáncer de hı́gado (el cáncer


de hı́gado se puede considerar una enfermedad rara) durante 4 años en las
regiones de Ontario (Canadá).

Regionses Pi Muertes
Región 1 423.447 37
Región 2 175.685 11
Región 3 1.245.379 72
Región 4 413.465 40
Región 5 216.476 12
Región 6 242.810 14
Región 7 213.591 16
Región 8 166.045 9
Región 9 265.880 15
Región 10 116.371 12

b) Encuentra µ̂ para estos datos y calcula el número de muertes espe-


radas en cada región.
c) Supongamos ahora que Y1 , Y2 , . . . , Yn son variables aleatorias de Pois-
son de medias λ1 , λ2 , . . . , λn y sean P1 , P2 , . . . , Pn constantes positi-
vas conocidas. Considera la hipótesis:

H0 : λ1 = µP1 , λ2 = µP2 , . . . , λn = µPn


5.8. LISTA DE PROBLEMAS 181

donde µ es desconocido. Demuestra que el estadı́stico del test de la


razón de verosimilitudes para contrastar esta hipótesis es
n
X
−2 log Λ = 2 Yi log(Yi /λ̂i )
i=1

donde λ̂i = µ̂Pi y µ̂ es el estimador de máxima verosimilitud encon-


trado en el apartado (a).
d ) Aplica este último resultado para concluir si las tasas de muerte (pro-
porción de muertos en cada población) de las 10 regions son propor-
cionales a las poblaciones de las regiones.

12. (Examen julio 2000) Sea X v.a. con densidad

β
f (x; β) = I[1,∞) (x), β > 0.
xβ+1
a) Prueba que Y = log X ∼ Exp(β) (donde β es 1/E(Y )).
b) Se observa una muestra de tamaño n de X. Contrasta a nivel α
½
H0 : β = 1
H1 : β 6= 1

usando el test de la razón de verosimilitudes, el test de Wald y el test


del score.
c) Aplica los tests anteriores para α = 0,05 al caso de haber observado
los siguientes datos:

2,2263, 1,6464, 1,1788, 1,5014, 3,1677,

1,3762, 5,0698, 1,7471, 1,8849, 16,0879


(Suma de los datos= 35.8865; producto de los datos= 7595.66).

Contrastes bayesianos
13. (Garthwaite, Jollife y Jones 1995, 7.8) Sea X ∼ B(n, θ), con n conocido.
Una de las dos hipótesis siguientes es cierta:
1 3
H0 : θ = o H1 : θ = .
2 4
Prueba que la probabilidad a posteriori de que H0 sea cierta es mayor que
su probabilidad a priori si y sólo si x log 3 < n log 2.

14. (Garthwaite, Jollife y Jones 1995, 7.9) Sea X1 , . . . , Xn una m.a.s. de una
distribución exponencial de esperanza 1/θ, θ > 0. Se desea contrastar
H0 : θ = 1 frente a H1 : θ 6= 1, donde estas hipótesis tienen probabilidades
182 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS

a priori P (H0 ) = p y P (H1 ) = 1 − p. Si la distribución a priori de θ es


γ(α, β), con α y β conocidos, determina la ventaja a posteriori

P (H0 | x )
Q∗ = e = Q · B,
P (H1 | x )
e
donde Q es la ventaja a priori y B es el factor de Bayes, de dos formas
distintas: aplicando primero directamente la definición del factor de Bayes
y, después, calculando B como lı́mite de cocientes entre probabilidades a
posteriori y a priori bajo H1 .

15. (Garthwaite, Jollife y Jones 1995, 7.10) Sea X1 , . . . , Xn una m.a.s. de una
N (θ, 1). Se consideran dos hipótesis: H0 : θ = 1 y H1 , con P (H0 ) = p y
P (H1 ) = 1 − p.

a) Suponiendo que H1 especifica que θ = −1, prueba que


Pn
pe i=1 xi
P (H0 | x ) = Pn Pn .
e pe i=1 xi + (1 − p)e− i=1 xi

b) Suponiendo que H1 especifica que θ 6= 1 y que bajo H1 la distribución


a priori de θ es N (0, 1), determina P (H0 | x ) en el caso especial de
Pn e
que i=1 xi = n.
Capı́tulo 6

Estimación por intervalos

Referencias: Casella-Berger, capı́tulo 9 y Cristóbal (1992), capı́tulo


15.
En los capı́tulos 3 y 4 se han estudiado los estimadores puntuales. Estos
estimadores ofrecen un único valor como estimación del parámetro desconocido
θ. En este capı́tulo se aborda el problema de la estimación por conjuntos,
donde se estudian estimadores que proporcionan un conjunto como estimación
de θ. El resultado de una estimación por conjuntos es una afirmación del tipo
“θ ∈ C”, donde C = C( x ) es un subconjunto del espacio paramétrico Θ que
e
depende de los datos observados x . En el caso de que Θ ⊆ IR los conjuntos que
e
se suelen usar para realizar inferencias sobre θ son intervalos.

6.1. Intervalos de confianza


Un estimador por intervalos de un parámetro θ ∈ Θ ⊆ IR es cualquier
par de funciones reales L( x ) y U ( x ) definidas en el espacio muestral X tales
e e
que L( x ) ≤ U ( x ) para todo x = (x1 , . . . , xn ) ∈ X . Si se observa el valor
e e e
X = x , mediante este estimador se hace la inferencia “L( x ) ≤ θ ≤ U ( x )”.
e e e e
Al intervalo aleatorio [L( X ), U ( X )] se le llama estimador por intervalos
e e
de θ (o intervalo estimador de θ), mientras que al valor que ha tomado en
la muestra observada [L( x ), U ( x )] se le llama estimación por intervalos
e e
de θ (o intervalo estimación de θ).

Ejemplo 77
Sea X1 , X2 , X3 , X4 una muestra de tamaño 4 de X ∼ N (µ, 1). Un estimador
por intervalos de µ es [X − 1, X + 1]. Para cada muestra observada x1 , x2 , x3 , x4 ,
la estimación por intervalos de µ es [x − 1, x + 1].
. .

183
184 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

Obsérvese que si se estima un parámetro θ mediante un intervalo, la infe-


rencia es menos precisa que si se estima con un estimador puntual: ahora nos
limitamos a afirmar que el parámetro está en un cierto conjunto, mientras que
antes dábamos un valor concreto como estimación suya. Dado que se pierde en
precisión, cabe preguntarse qué se gana al estimar un parámetro θ mediante un
intervalo, respecto a hacerlo con un estimador puntual. La respuesta es que se
gana en confianza: en general, la probabilidad de que un estimador sea exac-
tamente igual al parámetro que desea estimar es 0, mientras que la probabilidad
de que un estimador por intervalos cubra al parámetro será positiva.

Ejemplo 77, página 183. Continuación. Si se estima µ por X, se tiene que


P (X = µ) = 0, porque X ∼ N (µ, 1/4). Sin embargo,

P (µ ∈ [X − 1, X + 1]) = P (X − 1 ≤ µ ≤ X + 1) = P (−1 ≤ X − µ ≤ 1) =
µ ¶
X −µ
P −2 ≤ √ ≤ 2 = 0,9544.
1/ 4
A costa de algo de precisión, el paso de un estimador puntual a uno por inter-
valos ha permitido aumentar la confianza que tenemos en que sea correcta la
afirmación hecha en la inferencia.
. .

Se llama probabilidad de cobertura de un estimador por intervalos


[L( X ), U ( X )] del parámetro θ a la probabilidad de que ese intervalo aleatorio
e e
cubra al verdadero valor del parámetro θ:

Pθ (θ ∈ [L( X ), U ( X )]).
e e
Obsérvese que esa probabilidad de cobertura puede variar con θ.
Se llama coeficiente de confianza del intervalo [L( X ), U ( X )] como
e e
estimador del parámetro θ al ı́nfimo de las probabilidades de cobertura:

ı́nf Pθ (θ ∈ [L( X ), U ( X )]).


θ∈Θ e e
Intervalo de confianza es el nombre que recibe usualmente un estimador
por intervalos junto con su coeficiente de confianza. También se nombra ası́ a
veces a la estimación a que da lugar el estimador por intervalos aplicado a una
muestra concreta. Además de C( x ), se usará también la notación IC1−α (θ) se
e
usará para referirse a un intervalo de confianza (1 − α) para θ.
Si se desea construir un intervalo para una transformación invertible τ (θ) del
parámetro y [L( x ), U ( x )] es un intervalo de confianza (1 − α) para θ, entonces
e e
el intervalo
[τ (L( x )), τ (U ( x ))]
e e
es un intervalo de confianza (1 − α) para τ (θ).
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 185

Obsérvese que en las expresiones del tipo Pθ (θ ∈ [L( X ), U ( X )]), el valor


e e
del parámetro está fijo y lo que son variables aleatorias son los extremos del
intervalo:

Pθ (θ ∈ [L( X ), U ( X )]) = Pθ ({L( X ) ≤ θ} ∩ {U ( X ) ≥ θ}).


e e e e

6.2. Métodos para construir intervalos de con-


fianza
En esta sección veremos cuatro métodos para construir estimadores por in-
tervalos de un parámetro θ ∈ Θ ⊆ IR.

6.2.1. Inversión de un contraste de hipótesis

Como veremos a continuación, hay una estrecha relación entre la estimación


por intervalos y los contrastes de hipótesis. En general, se puede decir que cada
método de construcción de un intervalo de confianza corresponde a un método
de contraste de un hipótesis, y viceversa.

Ejemplo 78
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ conocido.
Consideramos el contraste ½
H0 : µ = µ0
.
H1 : µ 6= µ0
Para hacer el contraste a nivel α el test insesgado uniformemente de máxima

potencia rechaza H0 si |x − µ0 | > zα/2 σ/ n, es decir, la región del espacio
muestral X en donde se acepta H0 es el conjunto de x tales que
e
σ σ
x − zα/2 √ ≤ µ0 ≤ x + zα/2 √ .
n n
Dado que el test tiene tamaño α, se tiene que P (aceptar H0 |µ = µ0 ) = 1 − α.
Por lo tanto, para todo µ0
µ ¯ ¶
σ σ ¯
P X − zα/2 √ ≤ µ0 ≤ X + zα/2 √ ¯¯ µ = µ0 = 1 − α,
n n
de donde se sigue que
µ ¶
σ σ
Pµ X − zα/2 √ ≤ µ ≤ X + zα/2 √ =1−α
n n
√ √
para todo µ, luego [X − zα/2 σ/ n, X + zα/2 σ/ n] es un estimador por inter-
valos de confianza 1 − α para µ.
. .
186 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

La correspondencia entre intervalos de confianza y contrastes de hipótesis


se debe a que ambos procedimientos persiguen la consistencia entre los valores
observados en la muestra y los parámetros de la distribución poblacional, aunque
desde perspectiva distintas. En un contraste de hipótesis se fijan los parámetros
y se buscan qué valores muestrales son acordes con ellos (esto es, se busca la
región de aceptación), mientras que en la estimación por intervalos se toma
como fija la muestra observada y se buscan los valores de los parámetros que
hacen esta muestra plausible (esto es, se busca el intervalo de confianza).
El siguiente resultado prueba la relación existente entre contrastes e inter-
valos.

Teorema 46 Para cada valor θ0 ∈ Θ se denota por A(θ0 ) a la región de acep-


tación a nivel α de un test que contrasta H0 : θ = θ0 . Para cada x ∈ X se
e
define el conjunto C( x ) ⊆ Θ como
e
C( x ) = {θ0 ∈ Θ : x ∈ A(θ0 )}.
e e
Entonces el conjunto aleatorio C( X ) es un estimador por conjuntos de confian-
e
za 1 − α para θ.
Recı́procamente, sea C( X ) un estimador por conjuntos de confianza 1 − α
e
para θ. Para cada θ0 ∈ Θ se define

A(θ0 ) = { x ∈ X : θ0 ∈ C( x )}.
e e
Entonces A(θ0 ) es la región de aceptación a nivel α de un test que contrasta
H0 : θ = θ 0 .

Demostración: Veamos la primera parte. Por ser A(θ0 ) el complementario de


la región de rechazo de un test de nivel α se tiene que

Pθ0 ( X ∈ A(θ0 )) ≥ 1 − α.
e
Dado que θ0 es un valor arbitrario del parámetro, podemos escribir θ en lugar
de θ0 . Como x ∈ A(θ) si y sólo si θ ∈ C( x ), se tiene que
e e
Pθ (θ ∈ C( X )) = Pθ ( X ∈ A(θ)) ≥ 1 − α,
e e
y se concluye que C( X ) es un estimador por conjuntos de confianza 1 − α.
e
Veamos la segunda parte. La probabilidad de error de tipo I del test cuya
región de aceptación es A(θ0 ) es

Pθ0 ( X 6∈ A(θ0 )) = Pθ0 (θ0 6∈ C( X )) ≤ α,


e e
ası́ que este es un test de nivel α. 2

El procedimiento de construcción de intervalos de confianza (o de conjuntos


de confianza, en general) a partir de la inversión de contrastes de hipótesis es muy
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 187

útil en la práctica porque en general es más sencillo un problema de contraste


de hipótesis que uno de estimación: el hecho de poder trabajar suponiendo la
hipótesis nula cierta facilita la tarea. Cualquiera de los métodos de contraste
de hipótesis vistos en el tema 5 puede invertirse para dar lugar a conjuntos de
confianza.
Obsérvese que, aunque sea θ ∈ IR, este mecanismo de inversión no garantiza
que los conjuntos de confianza obtenidos sean intervalos.

Ejemplo 79
Sea X ∼ B(n, p). Se desea construir un conjunto de confianza 1 − α para p a
partir de una observación x de X. Para ello se invierte el test de tamaño α que
contrasta H0 : p = p0 frente a H1 : p 6= p0 y tiene por región de aceptación los
valores x que son más probables bajo H0 hasta completar una probabilidad de
(1 − α).
Para fijar ideas supongamos que n = 3 y 1 − α = 0,442. La siguiente tabla
da las regiones de aceptación A(p) para los distintos valores de p especificados
en H0 :

p A(p)
[0, ,238] 0
(,238, ,305) 0,1
[,305, ,362] 1
(,362, ,366) 0,1
[,366, ,634] 1,2
(,634, ,638) 2,3
[,638, ,695] 2
(,695, ,762) 2,3
[,7,621] 3

Invirtiendo estas regiones de aceptación se obtienen los siguientes conjuntos de


confianza C(x):

x C(x)
0 [0, ,305) ∪ (,362, ,366)
1 (,238, ,634]
2 [,366, ,762)
3 (,634, ,638) ∪ (,695, 1]

Observar que no todos los conjuntos de confianza que pueden aparecer son in-
tervalos.
. .

En la práctica, sin embargo, con frecuencia sı́ encontraremos intervalos. Por


otra parte, el tipo de intervalo encontrado dependerá de la hipótesis alternativa
188 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

que se consideró para definir el contraste. Si la hipótesis alternativa es bilateral,


en general se obtendrá un intervalo de longitud finita, mientras que si la alter-
nativa es unilateral, los intervalos que se encuentran tienen uno de sus extremos
en −∞ o ∞.

Ejemplo 80
Sea X ∼ exp(λ), λ = E(X), y se quiere dar un intervalo de confianza para λ
e
mediante la inversión de un test de tamaño α. Se toma una muestra de tamaño
n de X. El test de la razón de verosimilitudes para contrastar
½
H0 : λ = λ 0
H1 : λ 6= λ0

tiene por estadı́stico


Pn Pn
1 − xi /λ0 1 − xi /λ0
λn e i=1
λn e i=1
0
Pn = 0
=
1 − xi /λ Pn 1
e−n
supλ λn e
i=1
( xi /n)n
i=1

µ Pn ¶n Pn
xi
i=1
en e− i=1
xi /λ0
.
nλ0
Para un valor λ0 fijo, la región de aceptación del test es
½ µ Pn ¶n Pn ¾
i=1 xi
A(λ0 ) = x : e− i=1 xi /λ0 ≥ k ∗ ,
e λ0
donde la constante k ∗ se elige para que el test tenga tamaño α, o lo que es lo
mismo, para que
Pλ0 ( X ∈ A(λ0 )) = 1 − α.
e
Obsérvese que la expresión de la región de aceptación depende de la muestra
P
y del parámetro sólo a través de v = xi /λ0 . Además, la distribución de
Pn Pn
V = i=1 Xi /λ0 no depende del parámetro λ0 : i=1 Xi ∼ γ(n, λ0 ) bajo H0 ,
luego V ∼ γ(n, 1). De esto se sigue que el valor k ∗ es el mismo para todo λ0 .
Invirtiendo la región de aceptación se obtiene el conjunto de confianza 1 − α:
½ µ Pn ¶n Pn ¾
i=1 xi − xi /λ ∗
C( x ) = λ : e i=1 ≥k .
e λ

La función g(v) = v n e−v es positiva en todo IR+ , vale 0 en v = 0 y tiende


a 0 si v tiende a infinito. Además, tiene un único punto crı́tico en v = n. Se
sigue que tiene un único máximo en v = n y que los conjuntos de la forma
{v ≥ 0 : g(v) ≤ k ∗ }, con k ∗ ≤ g(n) = nn e−n , son intervalos de la forma [l, u],
con l ≥ n ≥ u y g(l) = g(u) = k ∗ .
De ello se deduce que A(λ0 ) es un intervalo para cualquier valor de λ0 , y que
los conjuntos de confianza C( x ) también son intervalos para cualquier valor de
Pn e
i=1 xi .
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 189

Ası́ pues, el intervalo de confianza obtenido será de la forma


n
( n n
)
X X X
C( xi ) = λ : L( xi ) ≤ λ ≤ U ( xi ) ,
i=1 i=1 i=1
con Pn Pn
X n Xn
i=1 xi xi
L( xi ) = , U( xi ) = i=1 .
i=1
u i=1
l
Los valores l y u son las soluciones del sistema de ecuaciones no lineales
½
g(l) = g(u)
P (l ≤ V ≤ u) = 1 − α
Si n = 2, V ∼ γ(2, 1) y el sistema se transforma en éste:
½ 2 −l
l e = u2 e−u
e−l (l + 1) − e−u (u + 1) = 1 − α
Si hacemos 1 − α = 0,9 y resolvemos el sistema, se obtiene l = 0,4386 y u =
5,4945, luego el intervalo de confianza 0.90 para λ es
X X
[0,182 Xi , 2,28 Xi ] ≡ [0,364X 2 , 4,56X 2 ].

. .

6.2.2. Cantidades pivotales

Uno de los métodos más comunes de construcción de intervalos de confianza


es el uso de cantidades pivotales.
Sea X = (X1 , . . . , Xn ) una m.a.s. de X ∼ F (x; θ). Una función Q( X , θ)
e e
de la muestra y del parámetro es una cantidad pivotal si la distribución de
probabilidad de Q( X , θ) no depende del parámetro θ, es decir, Q( X , θ) tiene
e e
la misma distribución para cualquier valor de θ.
Dada una cantidad pivotal Q( X , θ), para cualquier conjunto A del espacio
e
imagen de Q se tiene que Pθ (Q( X , θ) ∈ A) no depende de θ. Por lo tanto si se
e
elige un conjunto Aα tal que

Pθ (Q( X , θ) ∈ A) = 1 − α, para todo θ,


e
y se observa la muestra X = x , entonces el conjunto
e e
C( x ) = {θ : Q( x , θ) ∈ A}
e e
es un conjunto de confianza 1 − α para θ.
En el caso de que θ ∈ IR, el uso de cantidades pivotales no garantiza en
general que el conjunto de confianza sea un intervalo.
190 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

Ejemplo 81
Si X tiene distribución perteneciente a una familia de localización y escala, en-
tonces es posible definir diferentes cantidades pivotales. Entre ellas señalaremos
las siguientes:

Familia de localización: fµ (x) = f (x − µ) Q( x , µ) = X − µ


e
Familia de escala: fσ (x) = (1/σ)f (µ/σ) Q( x , σ) = X/σ
e
Familia de localización fµ,σ (x) = Q1 ( x , µ, σ) = (X − µ)/σ,
e
y escala: (1/σ)f ((x − µ)/σ) Q2 ( x , µ, σ) = (X − µ)/S
e
Para ver que esas funciones son cantidades pivotales basta escribir Xi = µ+σYi ,
con Yi ∼ f , y comprobar que las funciones Q sólo dependen de Y1 , . . . , Yn .
. .

Ejemplo 80, página 188. Continuación. En el ejemplo 80 el intervalo de


confianza construido se basó en
Pn
Xi
V = i=1 ,
λ
cuya distribución es γ(n, 1) para cualquier valor de λ, ası́ que V es una cantidad
pivotal y el intervalo de confianza construido allı́ es un ejemplo de intervalo
basado en una cantidad pivotal.
Si se define T = 2V , entonces T ∼ γ(n, 2), es decir T ∼ χ22n . Es más fácil
encontrar tabulada la distribución χ22n que la distribución gamma, por lo que T
resultará más útil en la práctica.
. .

En la práctica, la forma en la que se construye un intervalo de confianza a


partir de una cantidad pivotal es la siguiente. Supondremos que Q( x , θ) ∈ IR y
e
θ ∈ IR. Para un valor α dado, se buscan números a y b tales que
Pθ (a ≤ Q( X , θ) ≤ b) = 1 − α.
e
Observar que a y b no dependen de θ por ser Q cantidad pivotal, y que la
elección de a y b no será única en general.
Para cada θ0 , el conjunto
A(θ0 ) = { x : a ≤ Q( x , θ) ≤ b}
e e
es la región de aceptación de un test de tamaño α para contrastar H0 : θ = θ0
basado en el estadı́stico T ( X ) = Q( X , θ0 ). Invirtiendo este contraste obtene-
e e
mos el conjunto de confianza 1 − α para θ:
C( x ) = {θ : a ≤ Q( x , θ) ≤ b}.
e e
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 191

Si g (θ) = Q( x , θ) es una función monótona de θ para cada x fijo, entonces


x e e
e
se tiene garantı́a de que C( x ) sea un intervalo. Si g (θ) es creciente, enton-
e x
e
ces C( x ) = [L( x , a), U ( x , b)], mientras que si g (θ) es decreciente, entonces
e e e x
e
C( x ) = [L( x , b), U ( x , a)]. Si g (θ) es invertible, entonces
e e e x
e
C( x ) = [mı́n{g −1 (a), g −1 (b)}, máx{g −1 (a), g −1 (b)}].
e x x x x
e e e e

Ejemplo 80, página 188. Continuación. En este ejemplo Q( X , λ) =


Pn e
2 i=1 Xi /λ ∼ χ22n . Ası́, podemos elegir a = χ22n,1−α/2 y b = χ22n,α/2 , don-
de P (Y ≥ χ22n,p ) = p para p ∈ (0, 1), y la variable Y es una χ22n .
En este caso Pn
2i=1 xi
g (λ) = Q( x , λ) = ,
x e λ
e
es decir g es invertible y decreciente, luego el intervalo de confianza (1 − α)
x
e
para λ será
" P Pn #
n
−1 −1 2 i=1 xi 2 i=1 xi
C( x ) = [g (b), g (a)] = , .
e x x χ2n,1−α/2 χ2n,α/2
e e
En el caso de n = 2 y α = 0,1, χ24,,05 = 9,49 y χ24,,95 = ,71, luego el intervalo de
confianza 0.90 es
· ¸
4x 4x
C( x ) = , = [0,4215x, 5,63x].
e 9,49 ,71

. .

Obsérvese que el intervalo que se acaba de calcular difiere del construido en


el ejemplo 80, pese a que ambos se basan (en la práctica) en la misma cantidad
pivotal. Ello se debe a que, como se señaló antes, la forma de elegir los valores a
y b no es única. Aquı́ se han tomado de forma que el intervalo fuese simétrico
en probabilidad, es decir, la probabilidad α que queda fuera del intervalo
C( X ) se reparte a partes iguales entre valores menores y mayores que los del
e
intervalo. Esta forma de elegir a y b es la más usada en la práctica, aunque
veremos más adelante que no da lugar, en general, a los intervalos más cortos
posibles.

Ejemplo 82
Intervalos de confianza para la media y la varianza de la distribución
normal.
192 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

Si X ∼ N (µ, σ) con σ conocida, entonces la distribución de X es de una familia


de localización y, por tanto, Q( X , µ) = (X − µ)/σ es una cantidad pivotal.
e
Además, √
√ n(X − µ)
Z = nQ( X , µ) = ∼ N (0, 1).
e σ
El intervalo de confianza (1 − α) para µ simétrico en probabilidad que se deriva
de esta cantidad pivotal es
σ σ
IC1−α (µ) = C( x ) = [x − zα/2 √ , x + zα/2 √ ].
e n n

Si σ es desconocido, una cantidad pivotal es Q( X , µ) = (X − µ)/S. Además,


e

√ n(X − µ)
t = nQ( X , µ) = ∼ tn−1 .
e S
El intervalo de confianza (1 − α) para µ simétrico en probabilidad que se deriva
de esta cantidad pivotal es
S S
IC1−α (µ) = C( x ) = [x − tn−1,α/2 √ , x + tn−1,α/2 √ ].
e n n

Si se desea dar un intervalo de confianza para σ 2 o para σ, puede usarse la


cantidad pivotal
Q( x , σ) = (n − 1)S 2 /σ 2 ∼ χ2n−1 .
e
Si se eligen a y b para que el intervalo sea simétrico en probabilidad se obtienen
" #
2 2
(n − 1)S (n − 1)S
IC1−α (σ 2 ) = , ,
χ2n−1,α/2 χ2n−1,1−α/2
"s s #
(n − 1)S 2 (n − 1)S 2
IC1−α (σ) = , .
χ2n−1,α/2 χ2n−1,1−α/2

. .

Uno de los casos en los que la cantidad pivotal es monótona en el parámetro


para una muestra fija es aquél en que existe un estadı́stico T = T ( X ) (es
e
deseable que sea un estadı́stico suficiente para el parámetro) con distribución
absolutamente continua y tal que su función de distribución sea monótona en
el parámetro. En este caso, se toma como cantidad pivotal

Q( x , θ) = FT (T ( x ); θ).
e e
Por una parte Q( X , θ) = FT (T ( X ); θ) ∼ U (0, 1) para todo θ, luego Q es
e e
cantidad pivotal, y por otra g (θ) = Q( x , θ) es monótona en θ. Este método
x e
es útil para construir intervalose de confianza para parámetros de posición.
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 193

Veamos ahora una forma genérica de definir una cantidad pivotal que es váli-
da para cualquier distribución poblacional absolutamente continua y que siem-
pre da lugar a un intervalo de confianza si el parámetro es real. Supongamos que
X es una variable aleatoria absolutamente continua con función de distribución
F (x; θ) y que esta función es continua y monótona en θ. Sea X1 , . . . , Xn m.a.s.
de X. Entonces

Ui = F (Xi ; θ) ∼ U (0, 1) para todo θ, y Yi = − log Ui ∼ exp(1) ≡ γ(1, 1).

Por lo tanto,
n
X n
X
Yi ∼ γ(n, 1) y 2 Yi ∼ χ22n .
i=1 i=1

Ası́, se tiene que


Xn Xn
Q( x , θ) = 2 Yi = −2 log F (Xi ; θ)
e i=1 i=1

es cantidad pivotal y g (θ) = Q( x , θ) es monótona en θ.


x e
e
Obsérvese que Ui = 1 − F (Xi ; θ) ∼ U (0, 1), por lo que también se puede
definir Q a partir de los logaritmos de la función (1 − F (Xi ; θ)).

Ejemplo 80, página 188. Continuación. Sea Xi es exponencial con media


λ. En este caso es más cómodo trabajar con Ui = 1 − F (Xi ; λ) = e−Xi /λ . Ası́,
Xn Pn
2 i=1 Xi
Q( x , λ) = −2 log(1 − F (Xi ; θ)) = ∼ χ22n ,
e i=1
λ

que es la misma cantidad pivotal que habı́amos encontrado en el ejemplo 80.


. .

6.2.3. Intervalos bayesianos

En el marco bayesiano el parámetro θ es una variable aleatoria cuya dis-


tribución a priori es π(θ). Las observaciones tienen distribución condicionada
con densidad (o función de masa) f (x|θ). Tras la observación de una muestra
X = x , la distribución de probabilidad de θ se modifica con la información re-
e e
cibida y pasa a tener la distribución a posteriori π(θ| x ). Ası́, cualquier intervalo
e
(o en general, cualquier conjunto) A ⊂ Θ tal que
Z
P (θ ∈ A| x ) = π(θ| x )dθ = 1 − α
e A e
será un intervalo bayesiano de probabilidad 1 − α. El conjunto A depende de la
muestra observada a través de π(θ| x ).
e
194 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

Obsérvese que ahora ya no se habla de coeficiente de confianza, como en el


enfoque clásico: ahora (1 − α) es realmente la probabilidad de que el parámetro
pertenezca al intervalo A y ahora el parámetro es la variable aleatoria, mientras
que la muestra (y por tanto el conjunto A) es fija puesto que ya ha sido obser-
vada. Por este motivo, a los intervalos bayesianos se les denomina intervalos
de credibilidad (o más en general, conjuntos de credibilidad).
De los infinitos intervalos A que podemos elegir de forma que

P (θ ∈ A| x ) = 1 − α
e
dos alternativas parecen sensatas. En primer lugar, podemos tomar el intervalo
simétrico en probabilidad, es decir, aquél que deja a su izquierda una probabi-
lidad de α/2 y otra tanta a su derecha.
También puede buscarse el intervalo de credibilidad (1−α) que tenga mayor
densidad a posteriori. Es decir,

{λ : π(λ| x ) ≥ cα },
e
donde cα se elige de forma que
Z
π(λ| x )dλ = 1 − α.
{λ:π(λ| x )≥cα } e
e

Ejemplo 83
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), 0 < θ. Sea λ ∼ γ(α, β), α > 0,
β > 0. La ley a posteriori de λ dadas las observaciones X1 = x1 , . . . , Xn = xn
es una à !
Xn
γ α+ xi , (β −1 + n)−1 ,
i=1

según se vio en el teorema 20.


Si tomamos como distribución a priori la γ de parámetros α = β = 1,
Pn
entonces la a posteriori de λ es γ(1 + i=1 xi , (n + 1)−1 ), luego

(2(n + 1)λ| x ) ∼ χ22(P x +1) .


e i

Si tomamos intervalos simétricos en probabilidad, obtenemos el intervalo de


credibilidad (1 − α)
 2 
χ2(P x +1),1−α/2 χ22(P x +1),α/2
 i
,
i
.
2(n + 1) 2(n + 1)

Pn
Si suponemos que n = 10 y que i=1 xi = 6 y tomamos 1 − α = ,9, se obtiene
el intervalo de credibilidad 90 % para λ siguiente: [,299, 1,077].
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 195

Con los mismos datos se obtiene el intervalo de credibilidad 90 % con mayor


densidad a posteriori para λ siguiente: [,253, 1,005]. Obsérvese que este intervalo
es más corto que el intervalo que deja fuera dos colas con la misma probabilidad.
En la siguiente figura se representan ambos.

Intervalos de credibilidad (1−α)=0.9 para λ


1.8

1.6

1.4

1.2
Densidad a posteriori de λ

0.8

0.6

cα=0.44
0.4

IC1−α(λ) de mayor densidad


0.2

IC1−α(λ) simétrico en probabilidad


0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
λ

. .

6.2.4. Intervalos de verosimilitud

A partir de la función de verosimilitud se puede estimar un parámetro me-


diante un intervalo (o, más en general, mediante un conjunto) de una forma
alternativa a los intervalos de confianza vistos hasta ahora. Estos estimadores
alternativos se conocen como intervalos de verosimilitud.
Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x; θ). La función de verosimilitud de
una muestra observada x es
e
Yn
L(θ; x ) = f (xi ; θ).
e i=1

Esta función, para x fijo, representa cómo de verosı́mil es la muestra x para


e e
cada uno de los posibles valores de θ.
El estimador máximo verosı́mil de θ es el valor θ̂ que hace máxima la vero-
similitud y es un buen estimador de θ, como vimos en la sección 4.4. Si se desea
196 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

estimar θ mediante un conjunto, parece lógico considerar el de los valores θ que


hagan más verosı́mil la muestra observada x .
e
Para un valor cualquiera de θ se define la verosimilitud relativa de la
muestra x según θ como
e
L(θ; x )
R(θ; x ) = e .
e L(θ̂; x )
e
Dada una proporción p ∈ (0, 1), se define el conjunto de verosimilitud al
100p % para θ al conjunto
V ( X ) = {θ : R(θ; x ) ≥ p}.
e e
Si θ ∈ IR, estos conjuntos de verosimilitud serán intervalos si la función de
verosimilitud es cóncava para cualquier x ∈ X .
e
Obsérvese que hay una equivalencia clara entre los conjuntos de verosimilitud
al 100p % y los intervalos de confianza (1−α) construidos a partir de la inversión
del test de razón de verosimilitudes para contrastar H0 : θ = θ0 frente a H0 :
θ 6= θ0 , donde entre p y α existe una relación biyectiva.

Ejemplo 80, página 188. Continuación. Sea X ∼ exp(λ), λ = E(X).


e
Los cálculos realizados en el ejemplo 80 nos permiten escribir la verosimilitud
relativa como Pn
1 − xi /λ
λn e i=1
R(λ; x ) = Pn =
e supλ λ1n e− i=1 xi /λ
µ Pn ¶n Pn
i=1 xi
en e− i=1 xi /λ .

Ası́, el intervalo de verosimilitud al 100p % será
½ µ Pn ¶n Pn ¾
i=1 xi
V (x) = λ : en e− i=1 xi /λ ≥ p .
e nλ
Este intervalo tiene una confianza (1 − α) que depende de p.
Del mismo modo, el intervalo de confianza 0.9 que se calculó en la página
188 para n = 2, [0,364X 2 , 4,56X 2 ], es también un intervalo de verosimilitud
al 100p %, y p depende del valor (1 − α) elegido. Concretamente, en este caso
p = 0,23.
. .

6.3. Evaluación de estimadores por intervalos


Los intervalos de confianza (1 − α) posibles para un parámetro dada una
muestra x son múltiples. Se plantea la cuestión de cómo evaluar la calidad de
e
cada intervalo y, si es posible, elegir el mejor.
6.3. EVALUACIÓN DE ESTIMADORES POR INTERVALOS 197

En estimación por intervalos (o por conjuntos) hay dos cantidades que in-
dican la calidad de un estimador: la longitud (o tamaño) del intervalo y su
probabilidad de cobertura. Es deseable tener intervalos cortos (precisión) con
alta probabilidad de cobertura (confianza). Sucede que si se desea aumentar la
precisión hay que disminuir la confianza y viceversa.

6.3.1. Intervalos de longitud mı́nima

Una práctica habitual es fijar la confianza deseada para los intervalos y


buscar qué intervalo con esa confianza es el que tiene longitud mı́nima. Se trata
de un problema de optimización con la restricción de que la confianza sea una
dada. La siguiente proposición da la solución bajo ciertas condiciones.

Proposición 4 Supongamos que se construye un intervalo de confianza (1 − α)


para un parámetro θ ∈ IR a partir de la cantidad pivotal Q( x , θ) ∈ IR y que
e
la distribución de Q( X , θ) es absolutamente continua con función de densidad
e
fQ . Se supone además que la función g (θ) = Q( x , θ) es creciente, derivable
x e
e h : IR −→ Θ ⊆ IR.
e invertible y que su inversa es la función
Si la función fQ /h0 es unimodal, entonces el intervalo de confianza (1 − α)
de longitud mı́nima para θ es

C( x ) = [h(a∗ ), h(b∗ )]
e
donde a∗ y b∗ son los valores de IR que verifican

fQ (a∗ ) fQ (b∗ )
=
h0 (a∗ ) h0 (b∗ )
y
Z b∗
fQ (q)dq = 1 − α.
a∗

Demostración: Sea FQ la función de distribución de Q( X , θ). Tal como vimos


e
en el apartado de la sección 6.2 dedicado a las cantidades pivotales, los intervalos
de la forma
[h(a), h(b)],

con FQ (b) − FQ (a) = 1 − α, son intervalos de confianza (1 − α) para θ. Ası́ que


b depende de a de forma que

FQ (b(a)) − FQ (a) = 1 − α.

Derivando respecto a a obtenemos

fQ (b(a))b0 (a) = fQ (a).


198 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

Si buscamos el valor de a que minimiza la longitud del intervalo, hay que mini-
mizar
h(b(a)) − h(a).
Los puntos crı́ticos a∗ de esta función son los que cumplen
fQ (a∗ ) fQ (b∗ )
h0 (b(a∗ ))b0 (a∗ ) = h0 (a∗ ) ⇐⇒ = ,
h0 (a∗ ) h0 (b∗ )
donde b∗ = b(a∗ ). Además sólo hay un punto a∗ que cumpla simultáneamente
esa condición y la de que FQ (b(a∗ )) − FQ (a)∗ = 1 − α, porque al ser fQ /h0
unimodal, cualquier otro intervalo cuyos extremos tengan igual valor de fQ /h0 o
bien está estrictamente contenido en [a∗ , b(a∗ )] o bien lo contiene estrictamente.
En cualquiera de los dos casos, la probabilidad que encierra es distinta de (1−α).
Veamos ahora que la solución única (a∗ , b(a∗ )) es un mı́nimo. Calculamos la
segunda derivada de h(b(a)) − h(a):

h00 (b(a))b0 (a)2 + h0 (b(a))b00 (a) − h00 (a) =


à !
0 0
00 0 fQ (a) 0
fQ (a)fQ (b(a)) − fQ (b(a))b0 (a)fQ (a)
h (b(a))b (a) +h (b(a)) 2 (b(a)) −h00 (a).
fQ (b(a)) fQ
Si tenemos en cuenta que en (a∗ , b(a∗ )) se verifica que fQ (a)/h0 (a) = fQ (b)/h0 (b),
la expresión anterior se transforma en ésta:
h0 (a)fQ
0
(a) − h00 (a)fQ (a) h0 (b(a))fQ
0
(b(a))b0 (a)fQ (a) h00 (b(a))fQ (b(a))b0 (a)fQ (a)
− 2 + 2 (b(a)) =
fQ (a) fQ (b(a)) fQ
µ ¶
(h0 (a))2 h0 (a)fQ0
(a) − h00 (a)fQ (a) h0 (b(a))fQ0
(b(a)) − h00 (b(a))fQ (b(a)) 0
0 2
− b (a) =
fQ (a) (h (a)) (h0 (b(a)))2
à ¯ ¯ !
(h0 (a))2 ∂ (fQ (q)/h0 (q)) ¯¯ ∂ (fQ (q)/h0 (q)) ¯¯
¯ − ¯
fQ (a) ∂q q=a ∂q q=b
0
y esta cantidad es positiva por ser fQ /h unimodal. 2

Las modificaciones necesarias para que este resultado sea aplicable a trans-
formaciones g decrecientes son inmediatas.
x
e
Un caso particular importante es aquél en que la transformación g (θ) =
x
e
Q( x , θ) es lineal. En este caso h es también lineal y su derivada es constante, de
e
donde se sigue que la condición para que el intervalo tenga longitud mı́nima es
que la densidad fQ tome el mismo valor en ambos extremos a y b. Si, además, la
distribución de Q es simétrica, entonces los intervalos de menor longitud serán
también simétricos en probabilidad. Esto ocurre, por ejemplo, en la estimación
por intervalos de la media poblacional de la normal.
Obsérvese que si [L( x ), U ( x )] es el intervalo de confianza (1 − α) de mı́nima
e e
longitud para θ, el intervalo [τ (L( x )), τ (U ( x ))] es un intervalo de confianza
e e
(1 − α) para τ (θ), pero éste no tiene por qué ser el de mı́nima longitud.
6.3. EVALUACIÓN DE ESTIMADORES POR INTERVALOS 199

En la estimación por intervalos de un parámetro de escala a veces interesa


más tener el intervalo [L, U ] de mı́nima escala, es decir, el que tiene el menor
valor de U/L posible, en lugar del intervalo de mı́nima longitud. El resultado
anterior se puede usar tomando la reparametrización λ = log θ. El intervalo de
mı́nima longitud para λ será de la forma [h̃(a∗ ), h̃(b∗ )], donde h̃ = log h y h
es la inversa de g (θ) = Q( x , θ). Ası́ que el intervalo [h(a∗ ), h(b∗ )] es el de
x e
e
menor escala para θ. La condición fQ (a)/h̃0 (a) = fQ (b)/h̃0 (b) se puede expresar
en términos de h como
fQ (a)h(a) fQ (b)h(b)
= .
h0 (a) h0 (b)

Ejemplo 84
Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ). Queremos dar el intervalo de
confianza (1 − α) de menor longitud para σ 2 , basado en la cantidad pivotal
(n − 1)S 2
Q( X , σ 2 ) = 2
∼ χ2n−1 .
e σ
En este caso la transformación g (σ 2 ) = (n − 1)S 2 /σ 2 y su inversa es
x
e
(n − 1)S 2
h(q) = .
q
La condición que deben cumplir los cuantiles a y b de la distribución χ2n−1 para
dar lugar al intervalo más corto es
fQ (a)a2 = fQ (b)b2 ,
además de cumplir que Pχ2n−1 ([a, b]) = 1 − α. Es fácil encontrar valores de n y
α para los que este intervalo no es simétrico en probabilidad.
Si se desea el intervalo más corto para σ, entonces
s
(n − 1)S 2 p 1
h(q) = =⇒ h0 (q) = − (n − 1)S 2 p .
q 2 q3
La condición que deben cumplir a y b es
fQ (a)a3/2 = fQ (b)b3/2 .

Si se desea el intervalo de menor escala para σ 2 la condición que deben


cumplir a y b es
fQ (a)a = fQ (b)b.
y si se quiere el de mı́nima escala para σ, entonces
fQ (a)a2 = fQ (b)b2 .

. .
200 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

6.3.2. Relación con contrastes de hipótesis y optimalidad

El criterio de la longitud no es el único con el que se puede evaluar un


intervalo. Un concepto alternativo nace a partir de la estrecha relación existente
entre intervalos de confianza y contrastes de hipótesis. Se trata de la probabilidad
de falso cubrimiento que fue introducida por Neyman.
Sea X ∼ f ( x ; θ) y C( x ) un intervalo de confianza (1 − α) para θ basado
e e e
en la inversión de un test con región de aceptación A(θ). La probabilidad de
verdadera cobertura es la función de θ definida como Pθ (θ ∈ C( X )). La
e
probabilidad de falsa cobertura es la probabilidad de que un intervalo
0
cubra θ cuando θ es el verdadero valor del parámetro. Es una función que
depende de dos valores del parámetro θ y θ0 . Formalmente se define como

Pθ (θ0 ∈ C( X )), si C( X ) = [L( X ), U ( X )] y θ0 6= θ,


e e e e
Pθ (θ0 ∈ C( X )), si C( X ) = [L( X ), ∞) y θ0 < θ,
e e e
Pθ (θ0 ∈ C( X )), si C( X ) = (∞, U ( X )] y θ0 > θ.
e e e
Un intervalo de confianza (1−α) que minimiza la probabilidad de falso cubri-
miento para todos los valores de θ y θ0 sobre una clase de intervalos de confianza
(1 − α) se denomina intervalo uniformemente más acurado (UMA). Estos
intervalos de confianza se consiguen invirtiendo contrastes uniformemente más
potentes, como pone de manifiesto el siguiente resultado.

Teorema 47 Sea X ∼ f ( x ; θ), θ ∈ Θ ⊆ IR. Para cada θ0 ∈ Θ, sea A∗ (θ0 )


e e
la región de aceptación del contraste UMP para contrastar H0 : θ = θ0 frente
a H1 : θ > θ0 a nivel α. Sea C ∗ ( x ) el intervalo de confianza (1 − α) construi-
e
do invirtiendo las regiones de aceptación UMP. Entonces para cualquier otro
intervalo C( x ) de confianza (1 − α) se tiene que
e
Pθ (θ0 ∈ C ∗ ( X )) ≤ Pθ (θ0 ∈ C( X ))
e e
para todo θ0 < θ. En particular, el intervalo C ∗ ( x ) es UMA entre los que son
e
de la forma C( x ) = [L( X ), ∞).
e e

Demostración: Sea θ0 < θ y A(θ0 ) la región de aceptación del test conseguido


al invertir los intervalos C( x ). Como A∗ (θ0 ) es UMP para contrastar H0 : θ = θ0
e
frente a H1 : θ > θ0 , y θ > θ0 se tiene que

Pθ (θ0 ∈ C ∗ ( X )) = Pθ ( X ∈ A∗ (θ0 )) ≤ Pθ ( X ∈ A(θ0 )) = Pθ (θ0 ∈ C( X )).


e e e e
2

Para intervalos de la forma (−∞, U ( X )] se puede establecer un resultado


e
análogo. Obsérvese que los intervalos UMA no siempre existen, dado que en la
sección 5.2 vimos que no está garantizada la existencia de tests UMP.
6.3. EVALUACIÓN DE ESTIMADORES POR INTERVALOS 201

Cuando se estudiaron los contrastes UMP se puso de manifiesto la conve-


niencia de restringir la atención sólo a los contrastes insesgados a la hora
de buscar el contraste UMP para contrates bilaterales. En el estudio de los in-
tervalos de confianza UMA existe un concepto análogo de insesgadez: se dice
que C( x ) es conjunto insesgado de confianza (1 − α) si
e
Pθ (θ0 ∈ C( X )) ≤ 1 − α para todo θ 6= θ0 .
e
Es decir, un conjunto de confianza es insesgado si la probabilidad de falso cubri-
miento es siempre menor o igual que la probabilidad de cubrimiento verdadero.
Se dice que un conjunto C ∗ ( x ) de confianza (1 − α) es insesgado y uni-
e
formemente más acurado si es UMA entre la clase de conjuntos insesgados
de confianza (1 − α).
El siguiente teorema establece la correspondencia entre conjuntos insesgados
UMA y contrastes insesgados UMP.

Teorema 48 Sea X ∼ f ( x ; θ), θ ∈ Θ. Para cada θ0 ∈ Θ, sea A∗ (θ0 ) la región


e e
de aceptación del contraste insesgado UMP para contrastar H0 : θ = θ0 frente
a H1 : θ 6= θ0 a nivel α. Sea C ∗ ( x ) el conjunto de confianza (1 − α) construido
e
invirtiendo las regiones de aceptación del test insesgado UMP. Entonces para
cualquier otro conjunto insesgado C( x ) de confianza (1 − α) se tiene que
e
Pθ (θ0 ∈ C ∗ ( X )) ≤ Pθ (θ0 ∈ C( X ))
e e
para todo θ0 6= θ, es decir, el intervalo C ∗ ( x ) es insesgado UMA.
e

Demostración: La demostración es análoga a la del teorema 47 y puede dejarse


como ejercicio. 2

Para terminar esta sección, se establecerá la relación existente entre la lon-


gitud de un intervalo de confianza y su probabilidad de cobertura.

Teorema 49 (Pratt, 1961) Sea X una variable aleatoria real con distribución
paramétrica dada por la función de densidad (o función de masa) f ( x ; θ), θ ∈
e
Θ ⊆ IR. Sea C(x) = [L(x), U (x)] un intervalo de confianza para θ. Si L(x) y
U (x) son funciones estrictamente crecientes de x, entonces para cualquier valor
θ∗ se tiene que
Z
Eθ∗ (U (X) − L(X)) = Pθ∗ (θ ∈ C( X ))dθ.
θ6=θ ∗ e

Demostración:
Z Z ÃZ U (x)
!

Eθ∗ (U (X) − L(X)) = (U (x) − L(x))f (x; θ )dx = dθ f (x; θ∗ )dx
X X L(x)
202 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

Obsérvese que

θ ∈ {θ : L(X) ≤ θ ≤ U (x)} ⇐⇒ x ∈ {x : U −1 (θ) ≤ x ≤ L−1 (θ)},

puesto que L(x) y U (x) son funciones estrictamente crecientes. Por lo tanto,
cambiando el orden de integración la integral anterior puede calcularse como
Z ÃZ −1 L (θ)
! Z
f (x; θ∗ )dx dθ = Pθ∗ (U −1 (θ) ≤ X ≤ L−1 (θ))dθ =
Θ U −1 (θ) Θ

Z Z
P (θ ∈ C(X))dθ =
θ∗ Pθ∗ (θ ∈ C(X))dθ.
Θ θ6=θ ∗
2

El teorema anterior justifica que a los intervalos que minimizan la probabi-


lidad de falsa cobertura se les llame también intervalos más cortos en el
sentido de Neyman.

6.4. Intervalos de confianza asintóticos

Estudiaremos en esta sección técnicas que proporcionan intervalos de con-


fianza aproximada (1 − α). Se basan en propiedades asintóticas de algunos es-
tadı́sticos.
Sea X n = (X1 , . . . , Xn ) una m.a.s. de tamaño n de X ∼ f (x; θ). Se dice
e
que Qn ( x n , θ) es una cantidad pivotal asintótica si para todo θ
e
Qn ( X n , θ) −→D Q,
e
donde Q es una variable aleatoria de distribución conocida que no depende de
θ.
Si se construyen intervalos de confianza (1 − α) a partir de Qn sustituyendo
su distribución por la de Q, diremos que los intervalos resultantes tienen apro-
ximadamente confianza (1 − α). En general, cuanto mayor sea n mejor será la
aproximación.
Un caso particular importante lo constituyen las cantidades pivotales asin-
tóticas de la forma
T ( X n ) − EθA (T ( X n ))
Qn = eq e
VθA (T ( X n ))
e
que son asintóticamente normales, donde T ( X n ) es algún estadı́stico de la mues-
e
tra tal que

Vθ (T ( X n ))
T ( X n ) − EθA (T ( X n )) −→P 0, A e −→P 1.
e e Vθ (T ( X n ))
e
6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS 203

6.4.1. Intervalos basados en el estimador de máxima ve-


rosimilitud

Sea L( X n , θ) la función de verosimilitud de una muestra de tamaño n de


e
X ∼ f (x, θ). Sea θ̂n el estimador de máxima verosimilitud de θ, y sea
µ 2 ¶

In (θ) = −Eθ log L(θ; X n ) ,
∂θ2 e
la información de Fisher que sobre θ contiene una muestra de tamaño n. En-
tonces
θ̂n − θ
QEM
n
V
=p −→D Z ∼ N (0, 1),
(In (θ))−1
luego QEM
n
V
es una cantidad pivotal derivada del estimador máximo verosı́mil.
Un conjunto de confianza aproximadamente (1 − α) para θ es

{θ : −zα/2 ≤ QEM
n
V
≤ zα/2 }.

No siempre podrá derivarse de ahı́ un intervalo de confianza.


Una forma de garantizar un intervalo de confianza aproximadamente (1 − α)
para θ es construirlo como
q q
[θ̂n − zα/2 (In (θ)) , θ̂n + zα/2 (Iˆn (θ))−1 ],
ˆ −1

donde Iˆn (θ) es algún estimador consistente de la información de Fisher.

Ejemplo 85
Sea X ∼ N (0, σ 2 ). Se desea construir un intervalo de confianza aproximada
(1 − α) para σ. El logaritmo de la verosimilitud de una muestra de tamaño n es
Pn
√ x2
log L(σ, x n ) = −n log 2π − n log σ − i=12 i .
e 2σ
La función score es
Pn
∂ log L(σ, x n ) n i=1 x2i
e =− + ,
∂σ σ σ3
por lo que el estimador máximo verosı́mil es
v
u n
u1 X
σ̂n = t X 2,
n i=1 i

y la información de Fisher es
à 2 !
∂ log L(σ, x n ) n 3n 2n
In (σ) = −Eσ 2
e = − 2 + 4 Eσ (X 2 ) = 2 .
∂σ σ σ σ
204 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

Ası́, la cantidad pivotal asintótica es


q P
1 n
n i=1 x2i − σ
QEM
n
V
( x n , σ) = √ ,
e σ/ 2n

que, fijada la muestra, es una función invertible de σ. El intervalo de confianza


para σ es
 q P 
 1 n 2 
n i=1 xi − σ
σ : −zα/2 ≤ √ ≤ zα/2 =
 σ/ 2n 

q P q P 
1 n 1 n
n i=1 x2i n i=1 x2i
 , .
1 + zα/2 1 − zα/2

Si se construye el intervalo de confianza para σ 2 basado en su estimador de


máxima verosimilitud se observa que los extremos de este intervalo no son los
cuadrados de los extremos del intervalo construido para σ.
. .

Hay una relación estrecha entre los intervalos de confianza basado en QEM
n
V

y los intervalos de verosimilitud definidos en la página 195. El logaritmo


de la verosimilitud relativa es

r(θ; x ) = log R(θ; x ) = log L(θ; x ) − log L(θ̂; x ),


e e e e
que bajo condiciones de regularidad puede ser aproximada en torno a θ̂n como

1
r(θ; x ) ≈ − (θ − θ̂n )2 In (θ̂n ).
e 2

El conjunto de verosimilitud al 100p % para θ es

V ( X ) = {θ : R(θ; x ) ≥ p} = {θ : r(θ; x ) ≥ log p} ≈


e e e
q q
{θ : (θ̂n −θ)2 In (θ̂n ) ≤ −2 log p} = [θ̂n − −2 log p/In (θ̂n ), θ̂n + −2 log p/In (θ̂n )].

Este intervalo de verosimilitud coincide con el intervalo de confianza construido


a partir del EMV si hacemos
p
zα/2 = −2 log p.

Tomar α = 0,05 equivale a tomar p = 0,1465, tomar α = 0,1 es equivalente a


fijar p = 0,2585.
6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS 205

6.4.2. Intervalos basados en la función score.

Sea L( X n , θ) la función de verosimilitud de una muestra de tamaño n de


e
X ∼ f (x, θ). Sea Sn ( X n , θ) la función score:
e

Sn ( X n , θ) = log L(θ; X n ).
e ∂θ e
Recordemos que
Eθ (Sn ) = 0, Vθ (Sn ) = In (θ),
donde In (θ) es la información de Fisher. Además,

Sn ( X n , θ)
QSn = pe −→D Z ∼ N (0, 1),
In (θ)

luego QSn es cantidad pivotal asintótica. El conjunto

C( x ) = {θ : −zα/2 ≤ QSn ( x , θ) ≤ zα/2 }


e e
es un conjunto de confianza aproximadamente igual a (1 − α). Si QSn ( x , θ) es
e
función invertible de θ para x fijo, entonces ese conjuntos será un intervalo.
e
El método de construcción de intervalos de confianza basado en la función
score tiene la particularidad de que si se utiliza para dar un intervalo para θ y se
obtiene [L( x ), U ( x )], cuando se usa para dar un intervalo para τ (θ) el intervalo
e e
que se obtiene es justamente [τ (L( x )), τ (U ( x ))]. Esto se debe a que
e e
∂ ∂τ ∂τ
Sn ( x , τ ) = log L(θ; X n ) = Sn ( x , θ) ,
e ∂θ e ∂θ e ∂θ
" µ ¶ 2
#
∂2 ∂θ ∂ ∂2τ
In (τ ) = −Eτ log L(θ; X n ) + log L(θ; X n ) 2 =
∂θ2 e ∂τ θ ∂θ e ∂θ
µ ¶2
∂τ
In (θ) ,
∂θ
de donde se sigue que
QSn ( x , θ) = QSn (τ (θ)).
e
Esta propiedad no la verifican todos los métodos de construcción de intervalos
de confianza, tal y como se señaló en el ejemplo 85, página 203.

Ejemplo 85, página 203. Continuación. La función score es


Pn
n x2
Sn = − + i=13 i
σ σ
y la información de Fisher es
2n
In = .
σ2
206 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

Ası́, el conjunto de confianza basado en el score es


 Pn 2 
 xi 
− nσ + i=13
σ : −zα/2 ≤ q σ ≤ zα/2 =
 2n 
σ2

 
v Pn v Pn
u 1 2 u 1 2
u n i=1 xi u n i=1 xi
t q ,t q .
2 2
1 + zα/2 n 1 − zα/2 n

Este intervalo es diferente del que se encontró en la página 203.

Obsérvese que si se construye el intervalos basado en la función score para


σ 2 , se obtiene un intervalo cuyos extremos son los cuadrados de los extremos
del intervalo para σ.
. .

El siguiente teorema establece que entre una amplia familia de intervalos


basado en cantidades pivotales asintóticamente normales, los más cortos son los
basado en la función score.

Teorema 50 Sea X ∼ f (x; θ). Se suponen las condiciones de regularidad H1,


H2 y H3 introducidas en el Teorema de Cramér-Rao. Sea h(X, θ) una función
tal que Eθ (h(X, θ)) = 0 y 0 < Vθ (h) = Vθ (h(X, θ)) < ∞. Se define
Pn
i=1 h(Xi , θ)
Qh ( X , θ) = p
e nVθ (h)

Se define

h0 (X, θ) = log f (x, θ).
∂θ
Entonces se verifica lo siguiente:

1. Qh ( X , θ) es asintóticamente N (0, 1).


e
2. QSn = Qh0 .

3. La cantidad ¯ µ ¶¯
¯ ¯
¯Eθ ∂ Qh ¯
¯ ∂θ ¯
se hace máxima cuando h(X, θ) = h0 (X, θ) o h(X, θ) = kh0 (X, θ) con
k 6= 0.

4. Los intervalos de confianza basados en la función score son los más cortos
asintóticamente, entre los basados en las cantidades pivotales asintóticas
Qh .
6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS 207

Demostración: El apartado 1 se sigue del TCL. El 2 es inmediato. Veamos


que se cumple 3. La derivada parcial de Ah respecto a θ es
à n n
!
∂ Qh (X, θ) 1 X ∂ h(Xi , θ) 1 ∂ Vθ (h) X
=p − h(Xi , θ) .
∂θ nVθ (h) i=1 ∂θ 2Vθ (h) ∂θ i=1

Como Eθ (h(X, θ)) = 0, su esperanza será


· ¸ r · ¸
∂ Qh (X, θ) n ∂ h(X, θ)
Eθ = E .
∂θ Vθ (h) ∂θ

Obsérvese además que


· ¸
1 ∂θ 1 ∂ h(Xi , θ)
√ −→P p E ,
n ∂Qh (X, θ) Vθ (h) ∂θ

lo cuál implica que el valor absoluto de ∂Qh (X, θ)/∂θ tiende a infinito en pro-
babilidad. Este hecho será necesario para probar el punto 4.
Por otra parte, si derivamos respecto a θ la igualdad Eθ (h(X, θ)) = 0 se
obtiene lo siguiente:
Z Z Z
∂ ∂ h(x, θ) ∂ f (x; θ)
0= h(x, θ)f (x; θ)dx = f (x; θ)dx + h(x, θ)dx,
∂θ ∂θ ∂θ

de donde se sigue que


· ¸ Z
∂ h(Xi , θ) ∂ f (x; θ)
E =− h(x, θ)dx =
∂θ ∂θ
Z
∂ log f (x; θ)
− h(x, θ) f (x; θ)dx = −Cov(h(X, θ), h0 (X, θ)).
∂θ
De ahı́ se deduce, por una parte, que
· ¸
∂ Qh0 (X, θ) p
Eθ = − nVθ (h0 ) < 0,
∂θ

y por otra que


· ¸
∂ Qh (X, θ) √ Cov(h(X, θ), h0 (X, θ))
Eθ =− n p ,
∂θ Vθ (h)

luego, h i
∂ Qh (X,θ)
Eθ ∂θ
h i = Corr(h(X, θ), h0 (X, θ)),
∂ Qh0 (X,θ)
Eθ ∂θ

y por lo tanto ¯ · ¸¯ ¯ · ¸¯
¯ ¯ ¯ ¯
¯Eθ ∂ Qh (X, θ) ¯ ≤ ¯Eθ ∂ Qh0 (X, θ) ¯ .
¯ ∂θ ¯ ¯ ∂θ ¯

Esto concluye la demostración de 3.


208 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

Probemos ahora 4. Sea θ0 el verdadero valor del parámetro. Si θ es suficien-


temente próximo a θ0 ,
¯
∂ Qh ¯¯
Qh ( X , θ) ≈ Qh ( X , θ0 ) + (θ − θ0 ) ,
e e ∂θ ¯θ0

El intervalo de confianza basado en Qh es entonces


( ¯ )
∂ Qh ¯¯
θ : −zα/2 ≤ Qh ( X , θ0 ) + (θ − θ0 ) ≤ zα/2 ,
e ∂θ ¯θ0

cuya longitud tiende a 0 porque, según vimos más arriba, el valor absoluto de
(∂Qh (X, θ)/∂θ)|θ0 tiende a infinito en probabilidad. Ello hace que los valores θ
que están dentro del intervalo sean cada vez más próximos a θ0 , con lo que la
anterior aproximación de Qh ( X , θ) por su desarrollo de Taylor de primer orden
e
será cada vez más precisa, cuando n crece.
La longitud asintótica del intervalo es
2z
¯ µ α/2¯ ¶¯ .
¯ ¯
¯E ∂ Qh ¯¯ ¯
¯ ∂θ
θ0 ¯

Basta entonces aplicar el punto 3 del teorema para obtener 4. 2

Podemos dar las siguientes reglas prácticas para calcular intervalos de con-
fianza asintóticos. En primer lugar, es recomendable que éstos se basen en la
función score. Tanto en ese caso como si se usan otras cantidades pivotales, se
recomienda evitar cuanto sea posible la sustitución de cantidades que dependen
del parámetro por estimadores consistentes de éstas.

Ejemplo 86
Sea X ∼ B(n, p). Calcularemos el intervalo de confianza (1 − α) asintótico para
p que se deriva de la función score. La verosimilitud es
µ ¶
n x
L(θ; x) = p (1 − p)n−x
x

y el score,
∂ log L(θ; x) x − np
S(θ, x) = = .
∂p p(1 − p)
La información de Fisher es
· ¸
∂ 2 log L(θ; x) n
I(p) = −E = .
∂p2 p(1 − p)

Ası́, la cantidad pivotal asintótica derivada de la función score es



S(θ, x) n(p̂ − p)
QS (x, p) = p =p ,
I(p) p(1 − p)
6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS 209

donde p̂ = x/n. El intervalo de confianza que da lugar es


( √ )
n(p̂ − p)
C1 = p : −zα/2 ≤ p ≤ zα/2
p(1 − p)

El siguiente es también un intervalo de confianza (1 − α) asintóticos para el


parámetro p de X ∼ B(n, p):
( √ ) " p #
n(p̂ − p) p̂(1 − p̂)
C2 = p : −zα/2 ≤ p ≤ zα/2 = p̂ ∓ zα/2 √
p̂(1 − p̂) n

El primero de estos dos conjuntos necesita un desarrollo adicional hasta quedar


expresado
p explı́citamente como un intervalo. Definimos la función g(p) = (p −
p̂) n/(p(1 − p)). Es fácil comprobar que esa función es estrictamente creciente
en p. Resolviendo las ecuaciones g(p) = ±zα/2 se obtiene que
³ ´ p 
2
p̂(1−p̂)+(zα/2 /4n)
2
 p̂ + (zα/2 /2n) ∓ zα/2 √
n 
C1 = 
 ³ ´ .

2 /n)
1 + (zα/2

El premio por este trabajo extra es que la longitud de C1 será, en general, menor
que la de C2 . Se puede comprobar que el cociente de la longitud de C1 entre la
de C2 es q
2 /4np̂(1 − p̂))
1 + (zα/2
2 /n) ,
1 + (zα/2
que para valores de p̂ cercanos a 0.5 es aproximadamente igual a
1
q < 1.
2 /n)
1 + (zα/2

Cuando n crece los intervalos C1 y C2 son prácticamente coincidentes.


. .
210 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

6.5. Lista de problemas

Métodos de construcción
1. (Casella-Berger, 9.1) Sea X ∼ N (µ, 1). A partir de una m.a.s. X1 , . . . , Xn
de X se puede contruir un intervalo de confianza 0.95 para µ de la forma

x ∓ 1, 96/ n. Sea p la probabilidad de que una nueva observación Xn+1
independiente de las anteriores caiga dentro de ese intervalo. ¿Es p menor,
igual o mayor que 0.95?

2. Utiliza los resultados obtenidos en el problema 7 de la lista 5.8 para cons-


truir intervalos de confianza para la media y la varianza de una distribución
normal.

3. Utiliza los resultados obtenidos en el problema 8 de la lista 5.8 para cons-


truir intervalos de confianza para la diferencia de medias y el cociente de
varianzas de dos distribuciones normales.

4. Utiliza los resultados obtenidos en el problema 9 de la lista 5.8 para cons-


truir intervalos de confianza de la forma [c, ∞) para el cociente de las
medias de dos exponenciales.

5. (Garthwaite, Jollife y Jones 1995, 5.10) Se observa un valor de X ∼


B(10, p) y resulta x = 1. Construye un intervalo con coeficiente de con-
fianza 0.95 a partir de la inversión del test de la razón de verosimilitudes
para contrastar H0 : p = p0 frente a H1 : p 6= p0 .

6. (Garthwaite, Jollife y Jones 1995, 5.1) Se dispone de una m.a.s. de tamaño


n de una exponencial con densidad

1 −x/θ
f (x; θ) = e I(0,∞) (x).
θ
Pn
a) Prueba que Y = 2 i=1 Xi /θ es cantidad pivotal.
b) Construye un intervalode confianza (1 − α) para θ a partir de Y .

7. (Garthwaite, Jollife y Jones 1995, 5.3) Se consideran la variables aleatorias


independientes X1 , . . . , Xn tales que

Xi ∼ N (θai , bi ), i = 1, . . . , n,

donde las constantes ai , bi son conocidas y bi > 0, para i = 1, . . . , n.

a) Encuentra un estadı́stico suficiente para θ y a partir de él construye


un intervalo bilateral de confianza (1 − α) para θ.
b) Si ai = bi = i, i = 1, . . . , n, ¿cuál es el menor valor de n tal que
longitud de ese intervalo es menor o igual que 0,5?
6.5. LISTA DE PROBLEMAS 211

8. (Casella-Berger, 9.11) Encuentra una cantidad pivoltal para θ basada en


una m.a.s. de tamaño n de una N (θ, θ), donde θ > 0 es la varianza de la
distribución. A partir de esa cantidad pivotal, construye un intervalo de
confianza (1 − α) para θ.

9. (Casella-Berger, 9.26) Sea X1 , . . . , Xn una m.a.s. de X ∼ beta(θ, 1) y


supongamos que θ tiene distribución a priori γ(r, λ). Dar un conjunto de
credibilidad (1 − α) para θ.

10. (Casella-Berger, 9.29) Sea X1 , . . . , Xn una m.a.s. de X ∼ Bern(p). Dar


un intervalo de credibilidad (1 − α) para p usando la a priori conjugada
beta(a, b).

Evaluación de los métodos de construcción de interva-


los de confianza
11. (Casella-Berger, 9.35) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ). Com-
para las longitudes esperadas de los intervalos de confianza (1 − α) para
µ calculados bajo los supuestos siguientes.

a) σ 2 conocida.
b) σ 2 desconocida.

12. (Casella-Berger, 9.36) Sean X1 , . . . , Xn variables aleatorias independientes


con funciones de densidad

fXi (x; θ) = eiθ−x I[iθ,∞) (x).

a) Prueba que T = mı́ni (Xi /i) es un estadı́stico suficiente para θ.


b) Encontrar el intervalo de confianza (1 − α) de la forma [T + a, T + b]
de longitud mı́nima.

13. (Casella-Berger, 9.37) Sea X1 , . . . , Xn una m.a.s. de X ∼ U (0, θ). Sea


Y = X(n) el máximo de las observaciones.

a) Prueba que Y /θ es una cantidad pivotal.


b) Prueba que [y, y/α1/n ] es el más corto de cuantos intervalos de con-
fianza (1 − α) se pueden derivar de la cantidad pivotal Y .

14. (Casella-Berger, 9.42) Se tiene una observación de una γ(k, β) con paráme-
tro de forma k conocido. Encontrar el intervalo de confianza (1 − α) más
corto entre los que tienen la forma [x/b, x/a].

15. (Casella-Berger, 9.44) Sea X una variable aleatoria con distribución logı́sti-
ca:
ex−θ
f (x; θ) = .
(1 + ex−θ )2
Basándote en una observación de X, construye el intervalo de confianza
(1 − α) uniformemente más acurado de la forma (−∞, U (x)].
212 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS

16. (Casella-Berger, 9.45) Sea X1 , . . . , Xn una m.a.s. de X ∼ exp(λ) (E(X) =


λ).

a) Construye el contraste UMP de tamaño α para contrastar H0 : λ =


λ0 rente a H1 : λ < λ0 .
b) Da el intervalo de confianza (1 − α) uniformemente más acurado
basado en el contraste del apartado anterior y prueba que puede
expresarse como " P #
n
i=1 xi
C( x ) = 0, 2 .
e χ2n,α

c) Calcula la longitud esperada de C( X ).


e

Intervalos de confianza asintóticos


17. (Casella-Berger, 9.60.a) Sea X1 , . . . , Xn una m.a.s. de una distribución
binomial negativa de parámetros (r, p), r conocido. Calcula un intervalo
de confianza aproximada (1 − α) para p basado en la función score.

18. (Casella-Berger, 9.62) Sea X1 , . . . , Xn una m.a.s. de una distribución bi-


nomial negativa de parámetros (r, p), r conocido.
Pn
a) ¿Qué distribución tiene Y = i=1 Xi ?
b) Prueba que si p tiende a 0, entonces 2pY tiende en distribución a una
χ22nr . (Indicación: Utiliza las funciones generadores de momentos).
c) Usa este hecho para probar que
" 2 #
χ2nr,1−α/2 χ22nr,α/2
Pn , Pn
2 i=1 xi 2 i=1 xi

es un intervalo de confianza aproximada (1 − α) para p.


d ) ¿Cómo habrı́a que escoger los extremos del intervalo para obtener el
intervalo de longitud mı́nima con confianza aproximada (1 − α)?

19. (Garthwaite, Jollife y Jones 1995, 5.14) Se observa una variable aleatoria
X con distribución de Poisson(θ). Usa el hecho de que para valores grandes
de θ la distribución de X es aproximadamente N (θ, θ) para obtener una
ecuación cuadrática en θ cuyas raı́ces dan los extremos de un intervalo de
confianza aproximado para la media de X, θ.

20. (Garthwaite, Jollife y Jones 1995, 3.21, 5.8) Una empresa consmética se
plantea lanzar al mercado un nuevo producto para hombre y quiere saber
qué proporción θ de hombres de un grupo de edad comprarán ese producto.
Dado que una pregunta directa puede no obtener una respuesta sincera,
se opta por un procedimiento de respuesta aleatorizada mediante el cual
el encuestador nunca puede saber la respuesta dada por el encuestado.
6.5. LISTA DE PROBLEMAS 213

Cada enuestado lanza un dado sin que el encuestador vea el resultado.


Según el resultado obtenido, habrá de codificar su respuesta (“Sı́, com-
praré el nuevo producto” o “No, no compraré el nuevo producto”) como
A, B o C, según la siguiente tabla:

Resultado en el dado
1 2 3 4 5 6
Verdadera Sı́ C C C A B A
respuesta No C A A B A B

En una muestra de 1000 hombres las veces que aparecieron las respuestas
A, B y C fueron 440, 310 y 250, respectivamente.

a) Prueba que el logaritmo de la verosimilitud de θ es

440 log(3 − θ) + 310 log(2 − θ) + 250 log(1 − 2θ) + constante.

b) Da el estimador máximo verosı́mil de θ.


c) Construye un intervalo de confianza aproximada 95 % para θ.
d ) Supongamos ahora que se tiene acceso a la verdadera respuesta Sı́-No
de los hombres de otra muestra de tamaño n. ¿Qué tamaño muestral
n es necesario para que el intervalo de confianza 95 % en este caso
tenga la misma longitud que el calculado previamente?
214 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Capı́tulo 7

Introducción a la Teorı́a de
la Decisión

Referencias: Casella-Berger, capı́tulo 10, Garthwaite, Jollife y Jones


(1995), capı́tulo 6.

Todos los métodos de inferencia estadı́stica (estimación puntual, contrastes


de hipótesis, estimación por intervalos) involucran la toma de una decisión: hay
que decidir qué punto o qué intervalo se toma como estimador de un parámetro;
hay que decidir si se rechaza o no la hipótesis nula.

La teorı́a de la decisión es el marco teórico que permite estudiar global-


mente los problemas de inferencia estadı́stica como un único tipo de problema:
la toma de una decisión. Todas los elementos del proceso de decisión están
formalmente definidos, incluyendo el criterio que la decisión final habrá de op-
timizar.

7.1. Elementos básicos en un problema de deci-


sión

Los elementos necesarios para plantear un problema de inferencia estadı́stica


desde la perspectiva de la teorı́a de la decisión son los siguientes:

Datos. Los datos se describen mediante un vector aleatorio X cuyos valores


e
están en el espacio muestral X .

Modelo. Es el conjunto de posibles distribuciones de probabilidad de los da-


tos X . Se supone que es una familia paramétrica de distribuciones {fθ :
e
θ ∈ Θ}, donde fθ es una función de densidad o una función de masa de

215
216 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

probabilidad. El conjunto Θ es el espacio de parámetros. El paráme-


tro θ (que puede ser un escalar o un vector) es el valor verdadero, pero
desconocido, del estado de la naturaleza.

Espacio de acciones. Después de observar X = x se toma una decisión


e e
que afecta a θ. El conjunto de posibles acciones permitidas es el espacio
de acciones. Este conjunto se denotará por A y sus elementos por a.
El espacio de acciones determina si un problema de decisión es uno de
estimación puntual (si A = Θ), uno de estimación por intervalos (si A es
el conjunto de intervalos contenidos en Θ) o uno de contraste de hipótesis
(si A = {“aceptar H0 ”, “rechazar H0 ”}).

Función de pérdida. Para evaluar el coste de tomar la decisión a cuando


el verdadero estado de la naturaleza es θ, se utiliza una función de
pérdida:
L : Θ × A −→ IR
(θ, a) −→ L(θ, a)

Cuanto mayor es el valor de L(θ, a) menos apropiada es la decisión a


si el verdadero estado de la naturaleza es θ. En economı́a y en análisis
bayesiano se valora la adecuación de a a θ con una función de utilidad
U (θ, a) que da valores altos a pares acordes y valores bajos a pares poco
adecuados. Una función de pérdida cambiada de signo es una función de
utilidad y viceversa.

Reglas de decisión. Una regla de decisión es una función

δ : X −→ A
x −→ δ( x ) = a
e e
que, para cada posible valor x de X , indica qué acción a se ha de tomar
e
si X toma el valor x . El conjunto de reglas de decisión aceptables
e e
en un problema se denota por D.

Función de riesgo. Para evaluar la calidad de las reglas de decisión δ ∈ D se


define la función de riesgo

R : Θ×D −→ IR
(θ, δ) −→ R(θ, δ) = Eθ [L(θ, δ( X ))]
e
que mide la pérdida esperada si se usa la regla δ y el verdadero estado de
la naturaleza es θ.

Como el valor que toma el parámetro θ no es conocido, es deseable usar una


regla de decisión que tenga valores bajos de la función de riesgo para todos los
posibles valores θ ∈ Θ.
7.1. ELEMENTOS BÁSICOS EN UN PROBLEMA DE DECISIÓN 217

7.1.1. Comparación de reglas de decisión.

Sean δ1 y δ2 dos reglas de decisión con funciones de riesgo asociadas R(θ, δ1 )


y R(θ, δ2 ).
Comparar δ1 y δ2 mediante la función de riesgo es fácil si se verifica que

R(θ0 , δ1 ) < R(θ0 , δ2 ) para todo θ ∈ Θ.

Al comparar δ1 y δ2 diremos que:

δ1 es tan buena como δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ.

δ1 es mejor que δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ, y existe un


θ0 ∈ Θ tal que R(θ0 , δ1 ) < R(θ0 , δ2 ).

δ1 es equivalente a δ2 si R(θ, δ1 ) = R(θ, δ2 ) para todo θ ∈ Θ.

Una regla δ1 es inadmisible si existe otra regla δ2 tal que

R(θ, δ2 ) ≤ R(θ, δ1 ) para todo θ ∈ Θ

y además existe un θ0 tal que

R(θ0 , δ2 ) < R(θ0 , δ1 ).

En ese caso diremos que δ2 es preferible a δ1 , o simplemente que δ2 es mejor


que δ1 .
Diremos que una regla δ es admisible si no existe otra regla δ 0 ∈ D que sea
mejor que δ.
Una regla de decisión que sea admisible tiene una propiedad deseable, ya
que no existe ninguna otra regla que la mejore uniformemente, pero no hay
garantı́as de que el comportamiento de esa regla sea uniformemente bueno en
Θ. La admisibilidad sólo garantiza que la regla no es uniformemente mala. Parece
razonable restringir la búsqueda de las reglas de decisión a la clase de reglas de
D que sean admisibles.
En la comparación de dos reglas de decisión lo habitual será que ninguna de
ellas sea preferible a la otra, sino que una de ellas tenga menor riesgo que la otra
para determinados valores de θ y ocurra lo contrario para otros valores de θ. Para
realizar una valoración global (considerando todos los posibles valores de θ) de
una regla de decisión δ, a veces se define una distribución de probabilidad
a priori π(θ) en Θ que refleja cómo son de plausibles las diferentes zonas del
espacio de parámetros. A partir de esta distribución sobre Θ se define el riesgo
Bayes de las reglas de decisión como

B : A −→ IR
δ −→ B(δ) = Eπ [R(θ, δ)]
218 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

En ocasiones escribiremos el riesgo Bayes como B(π, δ) para señalar explı́cita-


mente que su definición depende de la distribución a priori π considerada.
El riesgo Bayes de δ resume en un solo número el comportamiento de δ
sobre todo el espacio Θ. Valores pequeños de B(π, δ) indican que δ tiene un
buen comportamiento en las zonas de Θ a las que π asigna más probabilidad.
A una regla de decisión δ que hace mı́nimo el riesgo Bayes se le llama regla
Bayes. En la sección 7.4 veremos que estas reglas tiene ciertas propiedades de
optimalidad.

7.2. Teorı́a de la decisión e inferencia estadı́stica

En esta sección veremos cómo plantear los problemas de estimación puntual,


estimación por intervalos y contraste de hipótesis como problemas de teorı́a de
la decisión.

7.2.1. Estimación puntual.

Supongamos que X es un vector aleatorio con distribución fθ , θ ∈ Θ. Su-


e
pongamos que Θ ⊆ IR y se desea estimar el parámetro θ. Determinaremos todos
los elementos del problemas de decisión asociado. Las ideas que se desarrollarán
ahora son también válidas si θ es un vector de parámetros. Los datos y el modelo
son los que se acaban de especificar: X , {fθ : θ ∈ Θ}.
e
El espacio de acciones A se corresponde con los posibles valores de θ, es decir
A = Θ. A veces puede interesar que A sea más grande que Θ, por ejemplo, si θ
es la probabilidad de éxito de un experimento de Bernoulli y Θ = (0, 1) podrı́a
ser que nos interesase tomar A = [0, 1].
La función de pérdida L debe reflejar el hecho de que si una acción a es
cercana a θ entonces la decisión es correcta, es decir, la pérdida es pequeña.
En general las funciones de pérdidas consideradas son funciones crecientes en la
distancia entre θ y a. Las funciones de pérdida más usuales son éstas:

Pérdida del valor absoluto: L(θ, a) = |θ − a|.

Pérdida cuadrática: L(θ, a) = (θ − a)2 .

Pérdida 0-1: L(θ, a) = 1{|θ−a|>c} , con c ≥ 0.

La función de pérdida puede reflejar que es menos deseable, por ejemplo, so-
brestimar θ que subestimarlo. Ası́ lo hace esta función de pérdida:
½
(θ − a)2 si a<θ
L(θ, a) =
10(θ − a)2 si a≥θ
7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA 219

También es posible penalizar más los errores de estimación cuando θ es próximo


a 0 que cuando θ es grande:

(θ − a)2
L(θ, a) = .
|θ| + 1

Obsérvese que en este contexto las reglas de decisión son los estimadores de θ.
La función de riesgo de una regla de decisión depende de la función de pérdida
definida. Por ejemplo, si la pérdida es cuadrática, la función de riesgo es el error
cuadrático medio:

R(θ, δ) = Eθ [(δ( X ) − θ)2 ] = Vθ (δ( X )) + (Sesgoθ (δ( X )))2 .


e e e
Los estimadores (las reglas de decisión) deseables según esta definición de la
función de riesgo son aquellos que simultáneamente tienen poco sesgo y poca
varianza. Obsérvese que desde el punto de vista de la teorı́a de la decisión
no está justificado el restringir la clase de estimadores D a aquéllos que son
insesgados.

Ejemplo 87
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ). Consideremos el
problema de estimar σ 2 usando la función de pérdida cuadrática

L(θ, a) = (θ − a)2 .

Consideremos reglas de decisión (estimadores) del tipo δb ( X ) = bS 2 , donde S 2


e
es la varianza muestral, y b > 0.
Recordemos que E(S 2 ) = σ 2 y V (S 2 ) = 2σ 4 /(n − 1). El riesgo de δb es

R((µ, σ 2 ), δb ) = V (bS 2 ) + (E(bS 2 ) − σ 2 )2 =


µ ¶
22σ 4 2b2
b + (bσ 2 − σ 2 )2 = σ 4 + (b − 1)2 = σ 4 c(b).
n−1 n−1
Ası́, la función de riesgo no depende de µ y es cuadrática en σ 2 .
Obsérvese que si c(b) < c(b0 ) entonces R((µ, σ 2 ), δb ) < R((µ, σ 2 ), δb0 ). Por
lo tanto, buscar la mejor regla de decisión equivale a minimizar c(b) en b. El
mı́nimo de esa expresión se alcanza en b = (n − 1)/(n + 1) y, por lo tanto, para
cada valor del parámetro (µ, σ 2 ) el estimador
n
n−1 2 1 X
S̃ 2 = S = (Xi − X)2
n+1 n + 1 i=1

tiene el riesgo menor entre todos los estimadores de la forma bS 2 .


El siguiente gráfico compara los riesgos de S 2 , σ̂ 2 y S̃ 2 para diferentes valores
de σ 2 , donde σ̂ 2 = (n − 1)S 2 /n es el estimador máximo verosı́mil de σ 2 .
220 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

35

30

R(σ2,S2)
25
2 2
R(σ ,(n−1)S /n)

20
Riesgo

15

10 R(σ2,(n−1)S2/(n+1))

0
0 1 2 3 4 5 6 7 8 9 10
σ2

. .

Ejemplo 88
Sea X1 , . . . , Xn muestra aleatoria simple de X no necesariamente normal con
V (X) = σ 2 positiva y finita. Consideramos el problema de la estimación de σ 2
y la función de pérdida
a a
LS (σ 2 , a) = − 1 − log 2 ,
σ2 σ
conocida como pérdida de Stein. Obsérvese que LS (σ 2 , a) ≥ 0 y que LS (σ 2 , a) =
0 si y sólo si a = σ 2 . Además, para σ 2 fijo, se tiene que

lı́m LS (σ 2 , a) = ∞, y lı́m LS (σ 2 , a) = ∞.
a−→0 a−→∞

Es decir, LS penaliza tanto la subestimación como la sobrestimación. Recuérdese


que con la pérdida cuadrática la subestimación tiene pérdida acotada, mientras
que la penalización de la sobrestimación es no acotada.
Consideremos, como en el ejemplo anterior, la clase de estimadores de la
forma δb = bS 2 . Su riesgo es
· 2 ¸ µ ¶
2 bS bS 2 S2
R(σ , δb ) = E − 1 − log 2 = b − 1 − log b − E log 2 .
σ2 σ σ

Obsérvese que el último sumando es función de σ 2 y posiblemente de otros


parámetros, pero no es función de b. Ası́, R(σ 2 , δb ) se minimiza en aquel valor
7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA 221

b que hace mı́nima la función b − log b, es decir, en b = 1. Ası́, de todos los


estimadores de la forma bS 2 el que tiene menor riesgo para cualquier valor σ 2
es δ1 = S 2 .
. .

7.2.2. Contrastes de hipótesis.

En un problema de contraste de hipótesis el espacio de acciones consiste


únicamente en dos elementos: A = {a0 , a1 }, donde la acción a0 consiste en
aceptar H0 : θ ∈ Θ0 y la acción a1 en rechazarla o, equivalentemente, aceptar
H1 : θ ∈ Θ 1 .
Una regla de decisión δ es una función del espacio muestral X que sólo toma
e
dos valores: a0 o a1 . El conjunto { x : δ( x ) = a0 } es la región de aceptación del
e e
test y el conjunto { x : δ( x ) = a1 } es la región de rechazo o región crı́tica.
e e
La función de pérdida ha de reflejar que se comete un error si se decide a0
cuando H0 es falsa o se decide a1 cuando H0 es verdadera, mientras que en otros
casos se actúa correctamente. En este contexto la función de pérdida 0-1 es la
más utilizada:
L(θ, a0 ) = 1{θ6∈Θ0 } , L(θ, a1 ) = 1{θ∈Θ0 } .
Esta función penaliza de igual forma los errores de tipo I que los errores de tipo
II. Si se desea penalizarlos de forma diferente puede usarse la función de pérdida
0-1 generalizada:

L(θ, a0 ) = cII 1{θ6∈Θ0 } , L(θ, a1 ) = cI 1{θ∈Θ0 } ,

donde cI es el coste de un error de tipo I, y cII el de uno de tipo II.


Se pueden definir otras funciones de pérdida que recojan aspectos propios
del problema que se esté tratando. Por ejemplo, la función de pérdida puede
recoger el hecho de que es más grave cometer un error de tipo I cuanto más
lejos de Θ0 esté θ.
La función de potencia de un contraste está relacionada con la función de
riesgo de ese contraste. Sea β(θ) la función de potencia de un test basado en la
regla de decisión δ. Sea C = { x : δ( x ) = a1 } la región crı́tica. Entonces
e e
β(θ) = P ( X ∈ C|θ) = P (δ( X ) = a1 |θ).
e e
Por su parte, la función de riesgo asociada a una pérdida 0-1 generalizada es,
para θ ∈ Θ0 ,
R(θ, δ) = Eθ (L(θ, δ( X ))) =
e
0 · P (δ( X ) = a0 |θ) + cI · P (δ( X ) = a1 |θ) = cI β(θ),
e e
y para θ 6∈ Θ0 ,
R(θ, δ) = Eθ (L(θ, δ( X ))) =
e
222 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

cII · P (δ( X ) = a0 |θ) + 0 · P (δ( X ) = a1 |θ) = cII (1 − β(θ)).


e e
Esta relación entre la función de riesgo y la de potencia viene dada por la elección
de la función de pérdida 0-1 generalizada. Sin embargo, aunque se trabaje con
otras funciones de pérdida, en general la función de potencia juega un papel
importante en cualquier contraste de hipótesis. En efecto,
R(θ, δ) = Eθ (L(θ, δ( X ))) = L(θ, a0 )(1 − β(θ)) + L(θ, a1 )β(θ).
e

Ejemplo 89
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocida. El
contraste uniformemente más potente de nivel α para contrastar
½
H0 : µ ≥ µ0
H1 : µ < µ 0
rechaza H0 si
X − µ0
√ < −zα
σ/ n
y tiene función de potencia
µ ¶ µ ¶
µ − µ0 µ − µ0
β(µ) = Pµ Z < −zα − √ = φ −zα − √ .
σ/ n σ/ n
Para α = 0,1 y tomando cI = 8 y cII = 3 en la función de pérdida 0-1 generali-
zada, se tiene que
µ ¶
µ − µ0
R(µ, δ) = 8φ −zα − √ si µ ≥ µ0 ,
σ/ n
µ µ ¶¶
µ − µ0
R(µ, δ) = 3 1 − φ −zα − √ si µ < µ0 .
σ/ n

2.5

2
R(µ,δ)

1.5

0.5
µ<µ0 µ ≥ µ0

0
−3 −2 −1 0 1 2 3
n1/2(µ−µ0)/σ
7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA 223

. .

A veces es conveniente aprovechar la función de pérdida para reflejar el hecho


de que algunas decisiones incorrectas son más graves que otras. Por ejemplo, en
el contraste ½
H0 : µ ≥ µ 0
H1 : µ < µ 0
se comete un error de tipo I si se rechaza H0 cuando de hecho µ ≥ µ0 . Sin
embargo, las consecuencias de rechazar erróneamente H0 son mucho peores si
µ es mucho mayor que µ0 que si µ es ligeramente mayor que µ0 . La siguiente
función de potencia refleja esto:

L(µ, a0 ) = b(µ0 − µ)1{µ<µ0 } , L(µ, a1 ) = c(µ − µ0 )2 1{µ≥µ0 } ,

donde b y c son constantes positivas. Un contexto en el que esta función de


pérdida es adecuada es el siguiente. Se desea contrastar si una cierta medicina
ayuda a disminuir el nivel de colesterol. Se establece el nivel de colesterol máximo
aceptable en µ0 . Se contrasta
½
H0 : µ ≥ µ 0
H1 : µ < µ 0

donde µ es el nivel de colesterol de un paciente que ha tomado la medicina


(se supone que µ no es directamente observable, sino sólo a partir de diversos
análisis). Debido a la asociación entre niveles altos de colesterol y enfermedades
de corazón, las consecuencias de rechazar H0 cuando µ es grande son mucho
peores que si µ toma valores moderados, aunque superiores a µ0 . Por eso es
conveniente usar la función cuadrática (µ − µ0 )2 .

7.2.3. Estimación por intervalos.

En estimación por conjuntos el espacio de acciones A consiste en todos los


subconjuntos del espacio paramétrico Θ. Nos limitaremos a considerar el caso
de que Θ ⊂ IR y únicamente consideraremos como acciones los subconjuntos de
Θ que sean intervalos. Esta limitación es arbitraria y responde únicamente a
consideraciones prácticas.
Sea C un elemento de A. Cuando se toma la acción C, se está haciendo la
estimación “θ ∈ C”. Una regla de decisión δ( x ) especifica para cada x ∈ X
e e
qué intervalo C ∈ A será usado como estimador si se observa X = x . Usaremos
e e
la notación C( x ) para denotar a C = δ( x ).
e e
En estimación por intervalos las funciones de pérdida tienen en cuenta dos
aspectos: si el verdadero valor del parámetro está o no en el intervalo estimador,
y una medida del tamaño de éste. Para medir el tamaño se usa la longitud del
224 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

intervalo, Long(C), mientras que la función IC (θ) suele usarse para indicar si θ
está o no en C.
La forma en que se combinan esas dos cantidades para formar la función de
pérdida es habitualmente ésta:

L(θ, C) = b Long(C) − IC (θ),

donde la constante b determina el peso relativo del tamaño y la corrección de


C. La función de riesgo asociada será

R(θ, C) = bEθ (Long(C( X ))) − Eθ (IC ( X )) =


e e
bEθ (Long(C( X ))) − Pθ (θ ∈ C( X )).
e e
Esta función de riesgo tiene dos componentes: la longitud esperada del intervalo
y su probabilidad de cubrimiento. Ası́, cuando se busca el estimador C( x )
e
que minimiza el riesgo, lo que se hace es alcanzar el mejor compromiso entre
longitud y confianza. Ésta es una diferencia considerable con respecto al enfoque
adoptado en la sección 6, dedicada a la estimación por intervalos: allı́ se fijaba
un valor de la confianza y se buscaba el intervalo más corto que tuviese dicha
confianza. Desde la óptica de la teorı́a de la decisión es posible perder algo
de confianza si a cambio se consigue reducir notablemente la longitud de los
estimadores.

Ejemplo 90
Sea X ∼ N (µ, σ 2 ), con σ 2 conocida. Consideremos las reglas de decisión

Cc (x) = [x − cσ, x + cσ], c ∈ IR, c ≥ 0.

Compararemos estos estimadores usando la función de pérdida

L(µ, Cc ) = bLong(Cc ) − ICc (µ) = 2bσc − ICc (µ).

Ası́, la primera parte de la función de riesgo es constante, mientras que la se-


gunda vale
Pµ (µ ∈ Cc (X)) = Pµ (X − cσ ≤ µ ≤ X + cσ) =
µ ¶
X −µ
Pµ −c ≤ ≤ c = 2P (Z ≤ c) − 1,
σ
donde Z ∼ N (0, 1). Por lo tanto, la función de riesgo es

R(µ, Cc ) = 2bσc − 2P (Z ≤ c) + 1.

Es una función de riesgo constante en µ. Ası́, la mejor regla de decisión corres-


ponderá al valor c donde la función

g(c) = 2bσc − 2P (Z ≤ c) + 1
7.3. EL PROBLEMA DE DECISIÓN BAYESIANO 225

tenga su mı́nimo. La derivada de g(c) se anula en el punto c que verifica

1 c2 1
bσ = fZ (c) = √ e− 2 ⇐⇒ c2 = log .
2π 2πb2 σ 2

Esa ecuación tiene solución si y sólo si bσ ≤ 1/ 2π. Cuando hay solución ésta
vale r
∗ 1
c = log .
2πb2 σ 2
La segunda derivada de g en c∗ es g 00 (c∗ ) = 2b − 2fZ0 (c∗ ) > 0, porque c∗ ≥ 0
implica
√ que fZ0 (c∗ ) ≤ 0, luego c∗ es un mı́nimo de g. En el caso de que bσ >
1/ 2π, puede comprobarse que g 0 (c) > 0 para todo c ≥ 0, luego el mı́nimo
riesgo se alcanza en c = 0.

En resumen, si bσ ≤ 1/ 2π (lo que equivale a no dar un peso excesivo al
tamaño del intervalo en la función de riesgo)√ entonces el intervalo óptimo es
[x − c∗ σ, x + c∗ σ], mientras que si bσ > 1/ 2π (es decir, si la longitud del in-
tervalo pesa mucho en la función de riesgo) entonces el mejor intervalo para µ
es [x, x], es decir, un estimador puntual de µ.
. .

7.3. El problema de decisión bayesiano

Hemos visto en la sección 7.1 que a veces se define una distribución de pro-
babilidad π(θ) sobre el espacio paramétrico Θ, que refleja el conocimiento que
el investigador tiene sobre los posibles valores del parámetro a priori, es decir,
antes de observar los datos X . En general cualquier función de pesos que pon-
e
dere de cierta forma las diferentes regiones de Θ será válida como distribución
π(θ), aunque esta distribución no refleje ningún conocimiento previo subjetivo
sobre Θ.

Se definió el riesgo Bayes de la regla de decisión δ respecto de la distribución


a priori π como
B(π, δ) = Eπ [R(θ, δ)].

Es una medida del riesgo medio de acuerdo a los pesos que asigna π. Ası́, si no
se dispone de información previa que permita definir π, una forma razonable
de elegir esta distribución a priori es hacerlo de forma que los valores de θ a
los que se les asigne probabilidad a priori grande sean aquellos para los cuales
el experimentador desea tener un riesgo pequeño, y los valores de θ con peso
pequeño sean aquellos cuyo riesgo no le preocupa.

Se define la regla Bayes como aquella regla δ π que minimiza el riesgo Bayes:

B(π, δ π ) = mı́n B(π, δ).


δ∈D
226 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

Esta regla puede no existir, o bien puede haber más de una regla Bayes, aunque
en general sólo existe una regla Bayes.
Los siguientes resultados indican cómo encontrar las reglas Bayes, si éstas
existen.

Teorema 51 Para cada x ∈ X se define


e
r( x , a) = E (L(θ, a)),
e π(θ| x )
e
donde la esperanza se toma con respecto a la distribución a posteriori de π, dado
que se ha observado X = x . Para cada x ∈ X se supone que existe una acción
e e e
a( x ) ∈ A tal que
e
r( x , a( x )) = mı́n r( x , b).
e e b∈A e
Sea la regla de decisión

δπ :
X −→ A
x −→ a( x )
e e
π π
Si δ ∈ D entonces δ es la regla Bayes respecto a π.

Demostración: Sea f ( x , θ) = f ( x |θ)π(θ) la distribución conjunta de ( X , θ)


e e e
y sea m( x ) la marginal de X . Ası́,
e e
h i
B(π, δ) = Eπ (R(θ, δ)) = Eπ Eθ (L(θ, δ( X ))) =
e
· ¸
Eθ (L(θ, δ( X ))) = E E (L(θ, δ( X ))) =
e m( x ) π(θ| X ) e
e e
E (r( X , δ( X ))).
m( x ) e e
e
π
Para cada x ∈ X , r( x , δ ( x )) ≤ r( x , δ( x )) para todo δ ∈ D, de donde se
e e e e e
sigue que
E (r( X , δ π ( X ))) ≤ E (r( X , δ( X )))
m( x ) e e m( x ) e e
e e
para todo δ ∈ D y, en consecuencia, que

B(π, δ π ) ≤ B(π, δ)

para todo δ ∈ D, luego δ π es la regla Bayes. 2

Obsérvese que la función r( x , a) que se define en el anterior teorema es la


e
esperanza a posteriori de la función de pérdida, dado que se ha observado X =
e
x . Por lo tanto, para encontrar la regla Bayes hay que minimizar la esperanza
e
a posteriori de la función de pérdida, ya sea analı́tica o numéricamente.
El siguiente resultado se sigue directamente del teorema anterior y da la
expresión explı́cita para la regla de Bayes en dos casos importantes referidos a
la estimación de parámetros.
7.3. EL PROBLEMA DE DECISIÓN BAYESIANO 227

Corolario 8 Consideremos un problema de estimación de un parámetro real


θ ∈ IR. Se tiene lo siguiente:

1. Si L(θ, a) = (θ − a)2 la regla Bayes es δ π ( x ) = E(θ| x ), si δ π ∈ D.


e e
π
2. Si L(θ, a) = |θ−a| la regla Bayes es δ ( x ) que asocia a cada x la mediana
e e
a de la distribución a posteriori π(θ| x ), si δ π ∈ D.
e
Obsérvese que si el conjunto de acciones A = Θ es finito (o discreto) podrı́a
pasar que E(θ| x ) 6∈ A y entonces δ π ( x ) = E(θ| x ) no serı́a una función de X
e e e e
en A, es decir, δ π no serı́a una regla de decisión legı́tima. Si A = Θ es convexo se
puede probar que E(θ| x ) ∈ A para cualquier distribución a posteriori π(θ| x ).
e e
El siguiente resultado hace referencia al problema de contrastes de hipótesis
desde la perspectiva de la teorı́a de la decisión bayesiana. Concreta en este
contexto lo establecido por el teorema 51 sobre cómo determinar la regla Bayes.

Teorema 52 Consideremos un problema de contraste de la hipótesis H0 : θ ∈


Θ0 frente a H1 : θ 6∈ Θ0 , con función de pérdida 0-1 generalizada. Cualquier
test que
cII
rechaza H0 si P (θ ∈ Θ0 | x ) <
e cI + cII
y
cII
acepta H0 si P (θ ∈ Θ0 | x ) >
e cI + cII
es una regla de Bayes (también llamada test de Bayes o regla Bayes).

Demostración: Aplicamos el teorema 51. Como A = {a0 , a1 } hay que com-


parar r( x , a0 ) y r( x , a1 ) y escoger como acción a( x ) aquella de las dos que
e e e
dé valor menor de r( x , a).
e
Recordemos que

L(θ, a0 ) = cII 1{θ6∈Θ0 } , L(θ, a1 ) = cI 1{θ∈Θ0 } .

Calculamos r( x , a0 ) y r( x , a1 ):
e e
r( x , a0 ) = E (L(θ, a0 )) = cII P (θ 6∈ Θ0 | x )
e π(θ| x ) e
e
r( x , a1 ) = E (L(θ, a1 )) = cI P (θ ∈ Θ0 | x ).
e π(θ| x ) e
e
Ası́, el conjunto de x ∈ X para los cuales el test de Bayes rechaza H0 son
e
aquellos para los cuales

r( x , a1 ) < r( x , a0 ) ⇐⇒ cI P (θ ∈ Θ0 | x ) < cII P (θ 6∈ Θ0 | x ) ⇐⇒


e e e e
cII
P (θ ∈ Θ0 | x ) < .
e cI + cII
228 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

Análogamente, el conjunto de puntos en los que el test Bayes acepta H0 , es decir,


aquellos para los cuales la acción a0 tiene menor riesgo esperado a posterior que
la acción a1 , son aquellos que cumplen

r( x , a0 ) < r( x , a1 ) ⇐⇒ cI P (θ ∈ Θ0 | x ) > cII P (θ 6∈ Θ0 | x ) ⇐⇒


e e e e
cII
P (θ ∈ Θ0 | x ) > .
e cI + cII
Si r( x , a0 ) = r( x , a1 ), las dos acciones son indiferentes y puede tomarse cual-
e e
quiera de ellas sin que la regla resultante deje de ser la regla Bayes. 2

Ejemplo 91
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) y π(θ) ∼ N (µ, τ 2 ),
con σ 2 , µ y τ 2 conocidos. Sea

σ2
η= .
nτ 2 + σ 2

La distribución a posteriori de θ dado que X = x es normal con parámetros


e e
E(θ| x ) = (1 − η)x + ηµ, V (θ| x ) = ητ 2 .
e e
Consideremos el test ½
H0 : θ ≥ θ0
H1 : θ < θ0

con función de pérdida 0-1 generalizada. Calculemos P (θ ∈ Θ0 | x ):


e
µ ¯ ¶
θ0 − (1 − η)x − ηµ ¯¯
P (θ ∈ Θ0 | x ) = P (θ ≥ θ0 |x) = P Z ≥ √ ¯x .
e τ η

Ası́, el test de Bayes rechaza H0 si

P (θ ∈ Θ0 | x ) < α0
e
donde α0 = cII /(cI + cII ), y eso ocurre si y sólo si

θ0 − (1 − η)x − ηµ η(µ − θ0 ) + zα0 τ η
√ > zα0 ⇐⇒ x < θ0 − .
τ η 1−η

Por lo tanto, el test de Bayes rechaza H0 para valores pequeños de x y el valor


crı́tico depende de las pérdidas para los dos tipos de errores (a través del valor
α0 ) y de la distribución a priori. Recordemos que el test uniformemente más
potente de nivel α rechaza H0 si
σ
x < θ0 − zα √ .
n
7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISIÓN 229

En el caso particular de que tomásemos cI = 1 − α y cII = α, entonces


0
α = α. Si además consideramos la distribución a priori de θ centrada en θ0
tendremos que el test de Bayes rechaza H0 si

zα0 τ η
x < θ0 − .
1−η

Recordando la definición de η se llega a que se rechaza H0 si y sólo si


r
σ σ2
x < θ0 − zα0 √ 1 + 2,
n nτ
p
expresión que sólo difiere del test UMP en el factor 1 + (σ 2 /nτ 2 ). Ambos
contrasten coincidirán si σ 2 /nτ 2 = 0, es decir, si n −→ ∞, o si τ 2 −→ ∞ o si
σ 2 −→ 0.
. .

7.4. Admisibilidad de las reglas de decisión

La clase D de todas las reglas de decisión posibles quizás sea excesivamente


grande: podrı́a estar formada por todas las funciones de X en A. La elección de
la regla δ en un determinado problema se simplifica si restringimos la búsqueda
a una subclase de reglas C ⊆ D de la que formen parte únicamente las reglas
que tengan alguna buena propiedad. Una de estas propiedades deseables es la
de ser admisible.

7.4.1. Comparación de reglas de decisión.

Sean δ1 y δ2 dos reglas de decisión con funciones de riesgo asociadas R(θ, δ1 )


y R(θ, δ2 ). Al comparar δ1 y δ2 diremos que:

δ1 es tan buena como δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ.

δ1 es mejor que δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ, y existe un


θ0 ∈ Θ tal que R(θ0 , δ1 ) < R(θ0 , δ2 ).

δ1 es equivalente a δ2 si R(θ, δ1 ) = R(θ, δ2 ) para todo θ ∈ Θ.

Diremos que una regla δ es admisible si no existe otra regla δ 0 ∈ D que sea
mejor que δ. Diremos que δ es inadmisible si existe otra regla δ 0 mejor que δ.
Una regla de decisión que sea admisible tiene una propiedad deseable, ya
que no existe ninguna otra regla que la mejore uniformemente, pero no hay
garantı́as de que el comportamiento de esa regla sea uniformemente bueno en
Θ. La admisibilidad sólo garantiza que la regla no es uniformemente mala. Parece
230 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

razonable restringir la búsqueda de las reglas de decisión a la clase de reglas de


D que sean admisibles.
Sea una clase C ⊆ D. Se dice que C es una clase completa si para cada
δ 6∈ C existe δ ∈ C que es mejor que δ 0 . C es una clase esencialmente
0

completa si para cada δ 0 6∈ C existe δ ∈ C que es tan buena como δ 0 .

Teorema 53 Sea C una clase de reglas de decisión completa. Entonces la clase


de reglas de decisión admisibles está contenida en C.

Demostración: Sea δ 0 una regla admisible. Si δ 0 6∈ C, entonces existe δ ∈ C


mejor que δ 0 , y eso contradice el supuesto de que δ 0 es admisible, luego δ 0 ∈ C.
2

7.4.2. Búsqueda de reglas admisibles y clases completas.

Teorema 54 Consideremos un problema de decisión en el que Θ ⊆ IR. Supon-


gamos que para cada regla de decisión δ ∈ D, la función de riesgo R(θ, δ) es
continua en θ.
Sea π(θ) una distribución a priori sobre Θ tal que para todo ε > 0 y todo
θ ∈ Θ la probabilidad que π asigna al intervalo (θ − ε, θ + ε) es positiva.
Sea δ π la regla Bayes respecto a π. Si −∞ < B(π, δ π ) < ∞ entonces δ π es
admisible.

Demostración: Supongamos que δ π es inadmisible. Entonces existe una regla


δ ∈ D tal que
R(θ, δ) ≤ R(θ, δ π ) para todo θ ∈ Θ
y existe un θ0 ∈ Θ con
R(θ0 , δ) < R(θ0 , δ π ).
Sea ν = R(θ0 , δ π ) − R(θ0 , δ) > 0. Por continuidad de R(θ, δ) y R(θ, δ π ) se tiene
que existe ε > 0 tal que
ν
R(θ, δ π ) − R(θ, δ) >
2
para todo θ ∈ (θ0 − ε, θ0 + ε). Entonces

B(π, δ π ) − B(π, δ) = Eπ [R(θ, δ π ) − R(θ, δ)] ≥


ν
Eπ [1(θ0 −ε,θ0 +ε) (R(θ, δ π ) − R(θ, δ))] ≥
Pπ [(θ0 − ε, θ0 + ε)] > 0.
2
Esto contradice el supuesto de que δ π es regla Bayes. Por lo tanto δ π es admisible.
2

El teorema anterior proporciona un conjunto de condiciones bajo las cuales


las reglas Bayes son admisibles. Hay otros conjuntos de hipótesis que también
7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISIÓN 231

lo garantizan (en este sentido pueden verse los problemas 10 y 11). Del teorema
se sigue que las reglas Bayes son en general admisibles y por lo tanto pertenecen
a cualquier clase completa. Es ası́ razonable considerar las reglas Bayes.
El siguiente teorema permite restringir las reglas de decisión consideradas
a aquellas que dependen de estadı́sticos suficientes, dado que hacerlo no tiene
coste en términos de las funciones de riesgo. Este resultado es una generalización
del teorema de Rao-Blackwell (teorema 27, página 108).

Teorema 55 Sea A, el espacio de acciones, un intervalo de IR, posiblemente no


acotado. Supongamos que la función de pérdida L(θ, a) es una función convexa
de la acción a, para todo θ ∈ Θ. Sea T ( X ) un estadı́stico suficiente de θ con
e
espacio muestral T .
Si δ( x ) ∈ D es una regla de decisión, entonces la regla de decisión
e
δ 0 ( x ) = δT0 (T ( x )),
e e
donde
δT0 : T
−→ A
−→ δT0 (t) = Eθ (δ( X )|T ( X ) = t),
t
e e
es tan buena como δ, siempre y cuando la esperanza condicionada exista para
todo t ∈ T .

Demostración: Veamos en primer lugar que δ 0 ( x ) es regla de decisión, es decir,


e
es una función de X en A. Por una parte, como T es estadı́stico suficiente,
Eθ (δ( X )|T ( X ) = T ( x )) no depende de θ, sino sólo de x . Además, como δ
e e e e
es regla de decisión se tiene que δ( x ) ∈ A para todo x ∈ X y por ser A un
e e
conjunto convexo se sigue que Eθ (δ( X )|T ( X ) = T ( x )) ∈ A.
e e e
Veamos ahora que δ 0 es tan buena como δ. Para todo θ ∈ Θ, se tiene que

R(θ, δ) = Eθ [L(θ, δ( X ))] = Eθ [Eθ L(θ, δ( X ))|T ( X )]


e e e
y por ser L convexa,

Eθ [Eθ L(θ, δ( X ))|T ( X ))] ≥ Eθ [L(θ, Eθ (δ( X )|T ( X )))] =


e e e e
Eθ [L(θ, δ 0 ( X ))] = R(θ, δ 0 ).
e
2

El siguiente corolario se sigue directamente del teorema.

Corolario 9 La clase de reglas de decisión que dependen de los datos X sólo


e
a través de un estadı́stico suficiente T es una clase esencialmente completa.

Estos resultados tienen especial importancia en el problema de estimación


puntual cuando el espacio A es un intervalo.
232 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

7.4.3. Admisibilidad de la media muestral bajo normali-


dad.

Sean X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ). Nos planteamos el problema de


estimación de θ ∈ Θ = IR con función de pérdida cuadrática. Veremos que en
este caso la media muestral es admisible como estimador de θ.

Teorema 56 La media muestral X es un estimador admisible de θ.

Demostración: Distinguiremos dos situaciones, según σ 2 sea conocida o no.


(i) σ 2 conocida.
Supongamos que δ( x ) = x es inadmisible. Entonces existe δ 0 ( x ) tal que R(θ, δ 0 ) ≤
e e
R(θ, x) para todo θ ∈ IR y para algún θ0 se tiene que R(θ, x) − R(θ, δ 0 ) = ν > 0.
De la continuidad en θ de la función de pérdida cuadrática y la continuidad
de la función de densidad de la normal de esperanza θ, se sigue que R(θ, δ) es
función continua de θ para toda regla δ. Como consecuencia de ello, existe ε > 0
tal que R(θ, x) − R(θ, δ 0 ) > ν/2, para todo θ ∈ (θ0 − ε, θ0 + ε).
Consideramos sobre IR la distribución a priori π ∼ N (0, τ 2 ) y definimos

σ2
η= .
nτ 2 + σ 2

Ası́,
Z ∞
1 θ2
B(π, x) − B(π, δ 0 ) = [R(θ, x) − R(θ, δ 0 )] √ e− 2τ 2 dθ ≥
−∞ 2πτ
Z θ0 +ε
1 θ2
[R(θ, x) − R(θ, δ 0 )] √ e− 2τ 2 dθ >
θ0 −ε 2πτ
0 2
ν ν ν 1 −(θ )
0
P (θ0 − ε < Y < θ0 + ε) > 2εfY (θ00 ) = 2ε √ e 2τ 2
2 2 2 2πτ
donde Y ∼ N (0, τ 2 ) y θ00 es el más cercano a 0 de los dos puntos θ0 − ε y θ0 + ε.
Si llamamos K(τ ) a
0 2
ν 1 −(θ0 )
K(τ ) = 2ε √ e 2τ 2
2 2π
se tiene que
τ (B(π, x) − B(π, δ 0 )) > K(τ )
y que
ν/2
lı́m K(τ ) = √ 2ε > 0.
τ −→∞ 2π

Por otra parte, el riesgo Bayes de la media muestral es


Z
σ2
B(π, x) = R(θ, X)π(θ)dθ = ,
Θ n
7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISIÓN 233

porque R(θ, X) = Eθ [(θ − X)2 ] = σ 2 /n, para todo θ ∈ Θ. Esto además ocurre
para cualquier a priori π.

Sea δ π la regla Bayes respecto a la a priori π. Por el teorema 51 y su corolario,


la regla Bayes δ π ( x ) es la que asigna a cada x la esperanza a posteriori de θ
e e
dado x , y su riesgo Bayes es la varianza a posteriori:
e
τ 2 σ2
B(π, δ π ) = τ 2 η = .
nτ 2 + σ 2

Por lo tanto,
µ ¶
σ2
τ (B(π, δ π ) − B(π, x)) = τ τ 2η − =
n
µ ¶
σ2 ³ n´ σ2 σ2 n
− τ 1 − τ 2η 2 = − τ 1 − τ2 =
n σ n nτ + σ σ 2
2 2

σ2
− τ η.
n

Finalmente,

0 ≥ τ (B(π, δ π ) − B(π, δ 0 )) = τ (B(π, δ π ) − B(π, x)) + τ (B(π, x)) − B(π, δ 0 )) >

σ2 σ2 τ σ2 τ →∞ ν/2
− τ η + K(τ ) = − 2 2
+ K(τ ) −→ √ 2ε > 0,
n n nτ + σ 2π
lo cual es una contradicción, que nace de suponer que x no es admisible.

(ii) σ 2 desconocida.
Supongamos que x es inadmisible. Entonces existe un estimador δ 0 tal que

R((θ, σ 2 ), δ 0 ) ≤ R((θ, σ 2 ), x), para todo (θ, σ 2 ),

R((θ0 , σ02 ), δ 0 ) < R((θ, σ 2 ), x), para algún (θ0 , σ02 ).

Como δ 0 es una función de X en IR, δ 0 también es un estimador de θ si σ 2 se


fija en el valor σ02 . Para cualquier regla de decisión, el riesgo R(θ, δ) cuando σ 2
es conocida y vale σ02 es igual al riesgo en el caso de σ 2 desconocida evaluado
en el valor σ02 : R((θ, σ02 ), δ). Ası́,

R(θ, δ 0 ) = R((θ, σ02 ), δ 0 ) ≤ R((θ, σ02 ), x), para todo θ,

R(θ0 , δ 0 ) = R((θ0 , σ02 ), δ 0 ) < R((θ, σ02 ), x), para algún θ0 .

De aquı́ se sigue que δ 0 es mejor que x para estimar θ cuando σ 2 es conocido


y vale σ02 , lo que contradice el hecho de que x es admisible si σ 2 es conocida.
Ası́ x ha de ser admisible también si σ 2 es desconocida. 2
234 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

7.5. Reglas minimax


El riesgo Bayes definido en la sección 7.3 permite resumir el comportamiento
de la función de riesgo de una regla de decisión δ sobre todo el espacio Θ en
un solo número, el riesgo Bayes de esa regla, que es el valor medio (según la a
priori π) de la función de riesgo. Este resumen es útil porque permite comparar
cualquier par de reglas de decisión mediante la comparación de sus respectivos
riesgos Bayes.
Otro resumen numérico de la función de riesgo usado habitualmente es el
valor máximo (o el supremo) que toma esta función cuando θ recorre Θ.
Se dice que una regla de decisión δ 0 es una regla minimax si

sup R(θ, δ 0 ) = ı́nf sup R(θ, δ).


θ∈Θ δ∈D θ∈Θ

Una regla minimax protege de la mejor forma posible (ı́nf δ∈D ) contra la situación
más adversa que podrı́a presentarse (supθ∈Θ ).
El criterio minimax para elegir una regla de decisión es muy conservador,
pues sólo tiene en cuenta para cada regla δ cuál es su comportamiento en el
peor escenario posible, sin considerar si ese escenario adverso es o no plausible.
Este criterio considera que la naturaleza (quien decide el valor de θ) es un
adversario del decisor, y lleva a éste a actuar de forma estratégica. Este supuesto
es exagerado en muchos problemas estadı́sticos.
Por otra parte, el criterio minimax se complementa bien con el de admisibili-
dad. Una regla puede ser admisible porque se comporta bien en un determinado
valor de θ, aunque tenga un riesgo altı́simo para los restantes valores. Si además
de admisible una regla es minimax se puede estar seguro de que el riesgo no
será extremadamente alto en ningún valor de θ. Ası́ pues, una regla que sea
minimax y admisible será una buena regla. De hecho, las reglas minimax están
estrechamente relacionadas con las reglas admisibles y las reglas Bayes, como
ponen de manifiesto los resultados siguientes.

Teorema 57 Supongamos que una regla de decisión δ π es regla Bayes para


cierta distribución a priori π y que, además,

R(θ, δ π ) ≤ B(π, δ π ), para todo θ ∈ Θ.

Entonces δ π es minimax.

Demostración: Supongamos que δ π no fuese minimax. Entonces existirı́a al-


guna regla δ 0 tal que
sup R(θ, δ 0 ) < sup R(θ, δ π ).
θ∈Θ θ∈Θ

El riesgo Bayes de esta regla serı́a

B(π, δ 0 ) ≤ sup R(θ, δ 0 ) < sup R(θ, δ π ) ≤ B(π, δ π ),


θ∈Θ θ∈Θ
7.5. REGLAS MINIMAX 235

entrando en contradicción con el hecho de que δ π es regla Bayes respecto a π.


2

Obsérvese que la hipótesis

R(θ, δ π ) ≤ B(π, δ π ), para todo θ ∈ Θ,

es muy restrictiva. Al definirse el riesgo Bayes como

B(π, δ π ) = Eπ (R(θ, δ π ))

se tiene que en general


B(π, δ π ) ≤ sup R(θ, δ π ).
θ∈Θ

De esto se sigue que la hipótesis del problema es equivalente a que

B(π, δ π ) = sup R(θ, δ π ),


θ∈Θ

y eso ocurre si y sólo si π pone toda la probabilidad en el conjunto de puntos θ


en los que R(θ, δ π ) es máxima. En cierto modo lo que se pide en el teorema es
que la regla R(θ, δ π ) sea constante con probabilidad 1, según π.
La distribución a priori π cuya regla Bayes es minimax es la distribución a
priori menos favorable. Tiene la propiedad de que si π 0 es otra distribución
0
a priori y δ π es la regla Bayes asociada, entonces
0
B(π 0 , δ π ) ≤ B(π, δ π ).

En efecto,
0
B(π 0 , δ π ) ≤ B(π 0 , δ π ) = Eπ0 (R(θ, δ π )) ≤ Eπ0 (B(π, δ π )) = B(π, δ π ).

Si una regla de decisión δ tiene función de riesgo constante en θ entonces


se dice que es una regla igualadora. En muchos caso las reglas igualadoras
son minimax, como muestra el siguiente resultado, que se sigue directamente
del teorema anterior.

Corolario 10 Sea δ una regla igualadora que es regla Bayes para alguna dis-
tribución a priori π. Entonces δ es minimax.

Este corolario es útil cuando se quiere probar que una regla igualadora es
minimax. Basta con encontrar una a priori π respecto de la cual la regla igua-
ladora sea regla Bayes. El siguiente resultado prueba que en ese caso también
basta con probar que la regla igualadora es admisible.

Teorema 58 Sea δ una regla igualadora. Si δ es admisible, entonces es mini-


max.
236 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

Demostración: Sea c = R(θ, δ), que es constante en θ por ser δ igualadora. Si


δ no es minimax, entonces existe una regla δ 0 tal que

sup R(θ, δ 0 ) < sup R(θ, δ) = c.


θ∈Θ θ∈Θ

Para todo θ ∈ Θ se tiene entonces que

R(θ, δ 0 ) ≤ sup R(θ, δ 0 ) < sup R(θ, δ) = c = R(θ, δ),


θ∈Θ θ∈Θ

lo cual implica que δ no es admisible. El absurdo nace de suponer que δ no es


minimax. 2

Ejemplo 92
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ). El teorema 56 mues-
tra que la media muestral X es un estimador admisible de θ cuando se usa
pérdida cuadrática, tanto si σ 2 es conocido como si no lo es.
En el caso de σ 2 conocida, se tiene que X es una regla igualadora:

σ2
R(θ, x) = V (X) = .
n

Ası́, por el teorema anterior se sigue que la media muestral X es estimador


minimax.
Sin embargo, si σ 2 es desconocido, este teorema no es aplicable porque X ya
no es una regla igualadora: el riesgo

σ2
R((θ, σ 2 ), x) = V (X) = ,
n
depende de σ 2 . De hecho cualquier estimador tiene

sup R((θ, σ 2 ), δ) = ∞,
θ,σ 2

y por lo tanto cualquier estimador es minimax.


Se puede probar que si se define la pérdida L((θ, σ 2 ), a) = (a − θ)2 /σ 2 en-
tonces X es admisible y minimax, con riesgo máximo finito.
. .

El siguiente resultado muestra que bajo ciertas situaciones una regla mini-
max es admisible.

Teorema 59 Supongamos que δ es la única regla minimax en el sentido de que


cualquier otra regla minimax es equivalente a δ. Entonces δ es admisible.
7.5. REGLAS MINIMAX 237

Demostración: Sea δ 0 otra regla de decisión. Si la función de riesgo de δ 0


coincide con la de δ, entonces δ 0 no es mejor que δ. Si no coinciden, entonces δ 0
no es minimax, mientras que δ sı́ lo es, ası́ que

sup R(θ, δ 0 ) > sup R(θ, δ).


θ∈Θ θ∈Θ

De ahı́ se sigue que para algún θ0 ∈ Θ,

R(θ0 , δ 0 ) > sup R(θ, δ) ≥ R(θ0 , δ),


θ∈Θ

por lo que δ 0 no es mejor que δ. Como δ 0 podrı́a ser cualquier regla de decisión,
se sigue que no existe otra regla que sea mejor que δ, luego δ es admisible. 2
238 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

7.6. Lista de problemas

Teorı́a de la Decisión e inferencia estadı́stica. Reglas


Bayes
1. (Casella-Berger, 10.1) Sea X ∼ N (θ, 1) y considera el contraste de H0 :
θ ≥ θ0 frente a H0 : θ < θ0 . Usa la función de pérdida

L(θ, a0 ) = b(θ0 − θ)1{θ<θ0 } , L(θ, a1 ) = c(θ − θ0 )2 1{θ≥θ0 } ,

donde b y c son constante positivas, para analizar los tres contrastes que
rechazan H0 si X < −zα + θ0 para α = ,1, ,3 y ,5, respectivamente.

a) Para b = c = 1, diguja y compara las tres funciones de riesgo.


b) Para b = 3, c = 1, diguja y compara las tres funciones de riesgo.
c) Dibuja las funciones de potencia de los tres contrastes y compáralas
con las funciones de riesgo halladas en los dos apartados anteriores.

2. (Casella-Berger, 10.2) Sea X ∼ B(5, p). Consideramos el contraste H0 :


p ≤ 1/3 frente a H0 : p > 1/3 con pérdida 0-1. Dibuja y compara las
funciones de riesgo de los siguientes dos contrastes: el primero rechaza H0
si X = 0 o X = 1 y el segundo lo hace si X = 4 o X = 5.

3. (Casella-Berger, 10.3) Sea X ∼ B(10, p). Dibuja y compara las funciones


de riesgo de dos estimadores de p, δ1 (x) = 1/3 y δ2 (x) = x/10, bajo
función de pérdida dada por el valor absoluto.

4. (Casella-Berger, 10.6) Sea X ∼ N (µ, σ 2 ), σ 2 desconocida. Para cada c ≥ 0


se define el estimador por intervalos para µ

C(x) = [x − cs, x + cs],

donde s2 es un estimador de σ 2 independiente de X, tal que νS 2 /σ 2 ∼ χ2ν .


Se considera la función de pérdida

b
L((µ, σ), C) = Long(C) − IC (µ).
σ
a) Prueba que la función de riesgo, R((µ, σ), C), está dada por

R((µ, σ), C) = b(2cM ) − [2P (T ≤ c) − 1],

donde T ∼ tν y M = E(S)/σ.

b) Si b ≤ 1/ 2π, prueba que el valor de c que minimiza el riesgo satisface
que
µ ¶ ν+1
1 ν 2
b= √ 2
.
2π ν + c
7.6. LISTA DE PROBLEMAS 239

c) Relaciona estos resultados con los análogos obtenidos en el caso de


que σ 2 sea conocida (ver ejemplo desarrollado en teorı́a), en el sentido
siguiente: prueba que si ν −→ ∞, entonces la solución encontrada
aquı́ converge a la que se tiene si σ 2 es conocida.

5. (Casella-Berger, 10.8) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (θ, σ 2 ), con


σ 2 conocida. Se desea estimar θ usando pérdida cuadrática. Sea la distri-
bución a priori de θ, π(θ), una N (µ, τ 2 ) y sea δ π el estimador Bayes de θ.
Prueba las siguientes fórmulas para la función de riesgo y el riesgo Bayes.

a) Para cualesquiera constantes a y b, el estimador δ( X ) = aX +b tiene


e
función de riesgo

σ2
R(θ, δ) = a2 + (b − (1 − a)θ)2 .
n
b) Sea η = σ 2 /(nτ 2 + σ 2 ). La función de riesgo del estimador de Bayes
es
σ2
R(θ, δ π ) = (1 − η)2 + η 2 (θ − µ)2 .
n
c) El riesgo Bayes del estimador de Bayes es B(π, δ π ) = τ 2 η.

6. (Casella-Berger, 10.9) Sea X ∼ N (µ, 1). Sea δ π el estimador de Bayes de µ


bajo pérdida cuadrática. Calcula y dibuja las funciones de riesgo, R(µ, δ π ),
para π(θ) ∼ N (0, 1) y π(θ) ∼ N (0, 10). Indica cómo la distribución a priori
afecta la función de riesgo del estimador de Bayes.

7. (Casella-Berger, 10.11) Se define la función de pérdida LINEX (LINear-


EXponential) como

L(θ, a) = ec(a−θ) − c(a − θ) − 1,

con c > 0. Es una función suave que permite ponderar de forma asimétrica
las desviaciones por exceso y por defecto. Variando el valor c se pueden
conseguir desde pérdidas muy asimétricas hasta otras casi simétricas.

a) Dibuja L(θ, a) como función de a − θ cuando c = 0,2, 0,5 y 1.


b) Sea X ∼ f (x|θ). Prueba que el estimador de Bayes de θ, usando
pérdida LINEX y distribución a priori π, es
1
δ π = − log E(e−cθ |X).
c
c) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida y dis-
tribución a priori sobre θ no informativa: π(θ) = 1. Prueba que el
estimador de Bayes de θ bajo pérdida LINEX es

cσ 2
δ B (X) = X − .
2n

d ) Compara los riesgos Bayes de δ B (X) y de X usando pérdida LINEX.


240 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

e) Compara los riesgos Bayes de δ B (X) y de X usando pérdida cuadráti-


ca.

Admisibilidad. Reglas minimax


8. (Casella-Berger, 10.12) Sea X ∼ N (µ, 1) y consideremos el contraste de
H0 : µ ≤ 0 frente a H1 : µ > 0 usando pérdida 0-1. Sea δc el test que
rechaza H0 si X > c. Se puede probar que la clase de contrastes {δc :
−∞ ≤ c ≤ ∞} es esencialmente completa para este problema. Sea δ el
test que rechaza H0 si 1 < X < 2. Encuentra un test δc que sea mejor que
δ.

9. (Casella-Berger, 10.13) Sea X ∼ N (µ, 1) y consideremos el contraste de


H0 : µ = 0 frente a H1 : µ 6= 0 usando pérdida 0-1. Sea δc,d el test
que acepta H0 si c ≤ X ≤ d. Se puede probar que la clase de contrastes
{δc,d : −∞ ≤ c ≤ d ≤ ∞} es esencialmente completa para este problema.
Sea δ el test que acepta H0 si 1 ≤ X ≤ 2 o −2 ≤ X ≤ −1. Encuentra un
test δc,d que sea mejor que δ.

10. (Casella-Berger, 10.14) Supongamos un problema de decisión con espacio


paramétrico finito, Θ = {θ1 , . . . , θm }. Supongamos que δ π es la regla Bayes
con respecto a una distribución a priori π que da probabilidad positiva a
cada posible valor de θ ∈ Θ. Prueba que δ π es admisible.

11. (Casella-Berger, 10.15) Supongamos que para una cierta distribución a


priori π, cada regla Bayes con respecto a π (si es que hay más de una) tiene
la misma función de riesgo. Prueba que estas reglas Bayes son admisibles.
En otras palabras, si una regla Bayes es única entonces es admisible.

12. (Casella-Berger, 10.16) Sea X ∼ N (µ, σ 2 ), σ 2 conocida. Se desea estimar


µ con pérdida cuadrática. Prueba que la regla δ(x) = 17, que estima µ
como 17 para cualquier valor x observado, es admisible.

13. (Casella-Berger, 10.19) Se dice que una clase de reglas de decisión C es


completa minimal si es completa y ningún subconjunto propio de C es
clase completa. Prueba que si existe una clase de reglas completa minimal,
entonces es la clase de reglas admisibles.

14. (Casella-Berger, 10.20) Sea C una clase de reglas de decisión esencialmente


completa. Prueba que si δ 0 6∈ C es admisible, entonces existe una regla
δ ∈ C tal que δ y δ 0 son equivalentes.

15. (Casella-Berger, 10.21) Sea X ∼ B(n, p), con n conocida. Se considera la


estimación de p con pérdida del error absoluto. Sea δ(x) = 1/3 la regla
que estima p como 1/3, sea cual sea la observación x.

a) Prueba que δ(x) es admisible.


7.6. LISTA DE PROBLEMAS 241

b) Prueba que δ(x) es la regla Bayes para alguna distribución a priori


π(p).

16. (Casella-Berger, 10.23) Sea X1 , . . . , Xn una m.a.s. de una población con


esperanza θ y varianza desconocida σ 2 , 0 < σ 2 < ∞. Se desea estimar θ
con pérdida cuadrática.

a) Prueba que cualquier estimador de la forma aX + b, donde a > 1 y


b son constantes, es inadmisible.
b) Prueba que si a = 1 y b 6= 0 entonces el estimador es inadmisible.
c) Supongamos ahora que σ 2 es conocida. Prueba que un estimador de
esa forma es admisible si a < 1.

17. (Casella-Berger, 10.24) Sea X variable aleatoria uniforme discreta en los


naturales que van de 1 a θ ∈ IN. Sea el espacio paramétrico Θ = {1, 2, . . .}.
Se estima θ considerando pérdida cuadrática.

a) Sea el espacio de acciones A = Θ. Prueba que para algunas distribu-


ciones a priori el estimador δ(x) = E(θ|x) no es el estimador Bayes
de θ.
b) Supongamos ahora que el espacio de acciones es A = [1, ∞) y que
la esperanza E(θ|x) existe siempre. Prueba que δ(x) = E(θ|x) es el
estimador Bayes de θ.
c) Prueba que δ0 (x) = x es admisible, independientemente de cuál de los
dos espacios de acciones anteriores sea considerado. (Nota: Prueba
que R(1, δ) es mı́nimo si δ = δ0 y después usa inducción en θ.)
d ) El estimador δ0 (x) = x es el estimador de Bayes con respecto a alguna
distribución a priori. ¿Con respecto a cuál?
e) Prueba que existen otras reglas Bayes respecto a esa misma distribu-
ción a priori que tienen funciones de riesgo diferentes a la de δ0 .

18. (Casella-Berger, 10.26) Sea X ∼ N (µ, 1). Se desea contrastar H0 : µ ≥ µ0


frente a H1 : µ < µ0 con función de pérdida 0-1 generalizada mediante
un test que rechace H0 si X < −zα + µ0 . Encuentra el valor de α que da
lugar a un test minimax.

19. (Casella-Berger, 10.27) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼


N (θ, σ 2 ) con σ 2 desconocida. Se desea estimar θ con la función de pérdida

(a − θ)2
L((θ, σ 2 ), a) = .
σ2
a) Prueba que X es un estimador admisible de θ.
b) Prueba que X es minimax.

20. (Casella-Berger, 10.30, 10.31) Sea πn , n ∈ IN, una sucesión de distribucio-


nes a priori. Sea δn la regla Bayes respecto a πn .
242 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN

a) Prueba que si B(πn , δn ) converge a un número c y δ es una regla de


decisión tal que R(θ, δ) = c para todo θ ∈ Θ, entonces δ es minimax.
b) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) con σ 2
conocida. Se desea estimar θ con pérdida cuadrática. Utiliza el resul-
tado del apartado anterior para probar que X es minimax.
21. (Casella-Berger, 10.33) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼
Bern(p). Se desea estimar p con pérdida cuadrática. Sea
Pn p
Xi + n/4
p̂B = i=1 √ .
n+ n
a) Prueba que p̂B es una regla igualadora.
b) Prueba que p̂B es minimax.
c) Prueba que p̂B es admisible.
22. (Examen junio 2000) Sea la variable aleatoria X con distribución uniforme
en el intervalo [0, θ], con θ > 0 desconocido. Se desea estimar el parámetro
θ basándose sólo en una única observación de X y se plantea este problema
como un problema de decisión. La distribución a priori sobre θ tiene como
función de densidad
π(θ) = θe−θ I(0,∞) .
a) Consideramos sólo las reglas de decisión que son funciones de la ob-
servación x de la forma dk (x) = kx, con k ≥ 1. Si la función de
pérdida es
L(θ, a) = |a − θ|
calcula la función de riesgo R(θ, dk ). ¿Es posible encontrar una regla
dk∗ que haga mı́nimo el riesgo para cualquier valor de θ?
b) Encuentra la regla Bayes. (Indicación: Usa directamente la defini-
ción de regla Bayes como aquella que hace mı́nimo el error Bayes.)
c) Consideremos ahora pérdida cuadrática. Encuentra la regla Bayes.
d ) Si ahora se permite que cualquier función d(x) sea una regla de de-
cisión y se considera pérdida cuadrática, encuentra la regla Bayes.
23. (Examen julio 2000) Sea X ∼ B(n = 2, p). Se ha de decidir a partir de una
observación de X si el parámetro p es 1/4 o 1/2. La función de pérdida es
0-1.
a) Da la lista de las ocho posibles reglas de decisión e indica los corres-
pondientes valores de la función de riesgo.
b) Indica cuáles de las ocho reglas son inadmisibles.
c) Encuentra la regla Bayes correspondiente a una distribución a priori
con función de probabilidad
2 1
π(1/4) = , π(1/2) = .
3 3
d ) Encuentra la regla minimax para este problema.
Referencias

Arnold, S. F. (1990). Mathematical Statistics. Prentice-Hall.


Bertsekas, D. P. (1999). Nonlinear Programming (Second ed.). Athenea Scien-
tific.
Bickel, P. J. y K. A. Doksum (1977). Mathematical statistics : basic ideas and
selected topics. Prentice Hall.
Casella, G. y R.L Berger (1990). Statistical Inference. Duxbury Press.
Cristóbal, J.A (1992). Inferencia Estadı́stica. Universidad de Zaragoza.
DeGroot, M. H. (1988). Probabilidad y Estadı́stica. Addison-Wesley.
Garcı́a-Nogales, A. (1998). Estadı́stica Matemática. Universidad de Extrema-
dura.
Garthwaite, P. H., I. T. Jollife y B. Jones (1995). Statistical Inference. Prentice-
Hall.
Lehmann, E. L. (1986). Testing Statistical Hypotheses (2nd ed.). Wiley.
Peña, D. (1995). Estadı́stica: Modelos y Métodos, Volumen 2: Modelos lineales y
series temporales. Alianza Universidad, Madrid. Segunda edición revisada.
Rice, J. A. (1995). Mathematical Statistics and Data Analysis (Second ed.).
Duxbury Press.
Sanz, M. (1999). Probabilitats. Barcelona: EUB.
Schervish, M.J. (1995). Theory of Statistics. Springer.
Shorack, G.R. y J.A. Wellner (1986). Empirical Processes with Applications to
Statistics. John Wiley & Sons.
Silvey, S.D. (1983). Statistical Inference. Chapman and Hall.
Spivak, M. (1970). Cálculo infinitesimal. Barcelona: Reverté.
Vélez, R. y A. Garcı́a (1993). Principios de Inferencia Estadı́stica. UNED.

243

También podría gustarte