Está en la página 1de 174

Estadstica Matemtica

Fernando Tusell1
19 de septiembre de 2007

Bastantes errores menos en esta versin son consecuencia de los comentarios recibidos
de Araceli Garn, Vicente Nez y de Mario S. de Juan y Pedro A. Gmez (curso 1.9992.000). Todava faltan muchos temas del programa por desarrollar, y otros estn a medio
escribir, tienen errores u obscuridades. Correcciones y comentarios son bienvenidos.

II

ndice general

1. Elementos de Teora de la Decisin.


1.1. Qu es un procedimiento estadstico. . . . . . . . . . . . . .
1.2. Riesgo y riesgo de Bayes. . . . . . . . . . . . . . . . . . . .
1.3. Cmputo de procedimientos de Bayes. . . . . . . . . . . . .
1.4. Procedimientos de Bayes con funcin de prdida cuadrtica.
1.5. Familias conjugadas . . . . . . . . . . . . . . . . . . . . . .
1.6. Procedimientos aleatorizados. . . . . . . . . . . . . . . . .
1.7. Clases completas. . . . . . . . . . . . . . . . . . . . . . . .
1.8. Representacin grfica de procedimientos estadsticos. . . .
1.9. Lmites de sucesiones de procedimientos de Bayes . . . . .
1.10. Inters de los procedimientos de Bayes. . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

1
1
3
7
11
11
14
15
16
18
19

2. Procedimientos admisibles y minimax.


2.1. Minimax y criterios globales. . . . . . . . . . . . .
2.2. Caracterizacin de procedimientos minimax. . . . .
2.3. Caracterizacin de procedimientos admisibles. . . .
2.4. Bsqueda de procedimientos admisibles y minimax.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

21
21
22
23
25

3. La familia exponencial. Suficiencia


3.1. Familia exponencial. . . . . . . . . . . . . .
3.2. Suficiencia. . . . . . . . . . . . . . . . . . .
3.3. Caracterizacin de estadsticos suficientes. . .
3.4. Completitud, ancilaridad, y suficiencia. . . .
3.5. Suficiencia y familia exponencial. . . . . . .
3.6. Estadsticos suficientes y soluciones de Bayes.
3.7. Caracterizacin de la suficiencia minimal. . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

29
29
32
37
39
40
41
42

4. Procedimientos insesgados.
4.1. La condicin de insesgadez. . . . . . . . . . . . . . . . . . . . .
4.2. Funciones convexas. . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Estimacin insesgada puntual. . . . . . . . . . . . . . . . . . . .

47
47
49
50

III

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

NDICE GENERAL

IV

4.4. El jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5. Eficiencia. La cota de Cramr-Rao.
5.1. Introduccin . . . . . . . . . . . . . . . . .
5.2. Algunos resultados instrumentales . . . . .
5.3. Informacin de Fisher. Cota de Cramr-Rao
5.4. Eficiencia . . . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

56
59
59
60
62
67

6. Mxima verosimilitud
6.1. La lgica mximo verosmil . . . . . . . . . . . . . . . . . . . .
6.2. Verosimilitud y estimacin mximo verosmil. . . . . . . . . . . .
6.3. Consistencia fuerte del estimador mximo verosmil. . . . . . . .
6.4. Informacin de Kullback-Leibler y estimacin mximo verosmil .
6.5. Eficiencia y eficiencia asinttica . . . . . . . . . . . . . . . . . .
6.6. Normalidad y eficiencia asinttica del estimador mximo verosmil.
6.7. Estimacin mximo verosmil: inconvenientes . . . . . . . . . . .

73
73
74
77
78
79
81
84

7. Estimacin mximo verosmil en la prctica.


7.1. Introduccin. . . . . . . . . . . . . . . . . . . . . . . .
7.2. Estimacin mximo verosmil en la familia exponencial.
7.3. Mtodo de Newton-Raphson. . . . . . . . . . . . . . . .
7.3.1. Descripcin . . . . . . . . . . . . . . . . . . . .
7.3.2. Propiedades . . . . . . . . . . . . . . . . . . . .
7.4. Mtodo scoring de Fisher. . . . . . . . . . . . . . . . .
7.5. El algoritmo EM. . . . . . . . . . . . . . . . . . . . . .
7.5.1. Notacin . . . . . . . . . . . . . . . . . . . . .
7.5.2. La iteracin EM . . . . . . . . . . . . . . . . .
7.5.3. Distribuciones de la familia exponencial. . . . .

.
.
.
.
.
.
.
.
.
.

89
89
90
91
91
92
94
94
94
95
98

.
.
.
.
.
.
.
.
.
.

101
101
103
106
107
109
112
112
113
116
119

8. Contraste de Hiptesis.
8.1. Introduccin. . . . . . . . . . . . . . . . . . . . . . . .
8.2. El Teorema de NeymanPearson. . . . . . . . . . . . . .
8.3. Teorema de Neyman-Pearson y procedimientos de Bayes.
8.4. Contrastes uniformemente ms potentes (UMP). . . . . .
8.5. Contrastes razn de verosimilitudes generalizada. . . . .
8.6. Contrastes de significacin puros . . . . . . . . . . . . .
8.6.1. Caso de hiptesis simples . . . . . . . . . . . .
8.6.2. Caso de hiptesis compuestas . . . . . . . . . .
8.6.3. Hay que tener en cuenta que. . . . . . . . . . . .
8.7. Contrastes localmente ms potentes . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

NDICE GENERAL

9. Mxima verosimilitud, complejidad y seleccin de modelos


9.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2. La lgica mximo-verosmil y la eleccin de modelos . . . . . . .
9.2.1. Criterio mximo verosmil y modelos con diferente nmero de parmetros . . . . . . . . . . . . . . . . . . . . . .
9.2.2. El criterio AIC . . . . . . . . . . . . . . . . . . . . . . .
9.3. Teora de la informacin . . . . . . . . . . . . . . . . . . . . . .
9.4. Complejidad en el sentido de Kolmogorov . . . . . . . . . . . . .
9.4.1. Informacin y complejidad . . . . . . . . . . . . . . . . .
9.4.2. Complejidad de Kolmogorov . . . . . . . . . . . . . . .
9.4.3. Cu (x) no es computable . . . . . . . . . . . . . . . . . .
9.5. De la complejidad de Kolmogorov a la Longitud de Descripcin
Mnima (MDL) . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.5.1. Modelos como generadores de cdigos . . . . . . . . . .
9.5.2. Descripcin de longitud mnima (MDL) . . . . . . . . . .
9.5.3. De la MDL a la complejidad estocstica . . . . . . . . .
9.5.4. Ideas relacionadas y conexas . . . . . . . . . . . . . . . .
9.6. Tiene sentido esto? . . . . . . . . . . . . . . . . . . . . . . . . .

121
121
123

A. Convergencias estocsticas
A.1. Sucesiones de variables aleatorias . . . . . . . . . . . . . . .
A.2. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . .
A.3. Convergencias en probabilidad, media cuadrtica y casi segura
A.4. Ordenes de convergencia en probabilidad . . . . . . . . . . .
A.5. Leyes de grandes nmeros . . . . . . . . . . . . . . . . . . .
A.5.1. Leyes dbiles de grandes nmeros. . . . . . . . . . . .
A.5.2. Leyes fuertes de grandes nmeros . . . . . . . . . . .

143
143
144
145
146
148
148
149

B. Soluciones a problemas seleccionados

.
.
.
.
.
.
.

.
.
.
.
.
.
.

123
124
129
133
133
134
135
136
136
136
138
139
140

153

VI

NDICE GENERAL

ndice de figuras

1.1. Procedimientos no comparables (1 y 2 ) e inadmisible (3 ) . . . .


1.2. 4 = 21 1 + 12 2 () es mejor que 3 () . . . . . . . . . . . . . .
1.3. El contorno rayado en grueso incluye los procedimientos en la
clase completa minimal. 4 es inadmisible (resulta mejorado, por
ejemplo, por el procedimiento aleatorizado 5 , cuyo riesgo es el
mismo cuando = 1 e inferior cuando = 2 ) . . . . . . . . .
1.4. El procedimiento de Bayes relativo a () es 2 , y el riesgo de
Bayes c0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5. El procedimiento de Bayes relativo a () es 1 , y el riesgo de
Bayes c0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1. es minimax. 2 no lo es; su riesgo cuando = 2 es mayor que
el de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. es minimax, pero no admisible. Es mejorado por . . . . . .
2.3. Comparacin de las funciones de riesgo de (X) y Y , en el caso
en que n = 10. R es la regin en que el estimador minimax es
mejor que Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1. Clases de equivalencia en la particin mnima suficiente. Distribucin U (0, 2) con n = 2. a0,3 y a0,6 denotan las clases correspondientes a s = 0,3 y s = 0,6 del estadstico suficiente S =
max{X1 , X2 } . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1. Verosimilitud asociada a P
una muestra (x1 , . . . , x17 ), cuando X es
binaria de parmetro y 17
i=1 xi = 12. . . . . . . . . . . . . . .

4
15

16
17
18
22
24

25

35
75

9.1. Arbol binario completo de profundidad tres . . . . . . . . . . . . 131


9.2. Arbol binario truncado . . . . . . . . . . . . . . . . . . . . . . . 132

VII

VIII

NDICE DE FIGURAS

ndice de cuadros

1.1.
1.2.
1.3.
1.4.
1.5.

Funcin de cuanta fX| (x |) . . . . . . .


Funcin de prdida L(i , dj ) . . . . . . . .
Procedimientos i (X) considerados . . . .
Funciones de riesgo ri (j ) . . . . . . . . .
Algunas distribuciones a priori conjugadas

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

8
8
9
10
14

9.1. Ejemplo de construccin de cdigo de Fano-Shannon. . . . . . . . 130


9.2. Longitud de descripcin para diferentes valores de . . . . . . . . 138

IX

NDICE DE CUADROS

Captulo 1

Elementos de Teora de la
Decisin.

1.1. Qu es un procedimiento estadstico.


Nos enfrentamos a una coleccin = {i , i I} de posibles estados de la
naturaleza, o simplemente estados1 . No podemos observar directamente cul es el
i que prevalece.
Nos enfrentamos tambin a un conjunto de decisiones que podemos tomar, o
espacio de decisin D = {dj , j J}. Existe, por fin, una funcin de prdida
L : D R completamente especificada, proporcionando las prdidas
asociadas a cada par (i , dj ); L(i , dj ) es la prdida derivada de tomar la decisin
dj cuando el estado de la naturaleza es i . Obviamente, si i fuera observable, no
tendramos ningn problema en seleccionar en cada caso la decisin dj ptima,
que minimiza L.
Asociada a cada estado i suponemos una distribucin FX| (x |) generando
una cierta variable aleatoria observable, X. Esta variable aleatoria toma valores en
un conjunto S. Podemos muestrear la poblacin FX| (x |) y obtener valores de X
mediante la realizacin de un experimento. Los valores que observemos son toda
la evidencia de que disponemos para conjeturar cul es el estado de la naturaleza
vigente, y en consecuencia la decisin ptima.
De un modo informal, un procedimiento estadstico es una regla para escoger
una decisin dj a la vista del valor x que toma X (o quiz del conjunto de valores
x que toman n observaciones de X, en el caso de que nos sea posible disponer
1
El conjunto de ndices I es finito o infinito; ni siquiera ha de ser numerable, como pondrn de
manifiesto los ejemplos a continuacin.

CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.

de ms de una). Ms precisamente, un procedimiento estadstico es una aplicacin


: S D, que al resultado de cada experimento hace corresponder una decisin2 .
Aunque aparentemente muy abstracto, el marco anterior engloba de forma general lo que habitualmente estamos acostumbrados a llamar procedimientos estadsticos, como ponen de manifiesto los siguientes ejemplos.
Ejemplo 1.1 Consideremos el caso en que nos enfrentamos a una poblacin de sujetos caracterizados por sufrir o no una enfermedad. Deseamos
estimar por punto la proporcin de los afectados, , con ayuda de una muestra de sujetos de tamao n. El conjunto de posibles estados de la naturaleza sera = { : R, 0 1}, y el espacio de decisin sera
D = {d : d R, 0 d 1}. Diferentes criterios de estimacin podran
adems contemplarse como reflejo de la utilizacin de diferentes funciones
de prdida. Por ejemplo, la estimacin mnimo cuadrtica se originara como
otras
consecuencia de emplear una funcin de prdida cuadrtica, L(, );
= | |,
o ceroposibilidades seran una prdida valor absoluto, L(, )
uno,

< b,
0 si | |

L(, ) =
c en otro caso.
Ejemplo 1.2 Si en el Ejemplo 1.1 deseramos realizar estimacin por
intervalo en lugar de por punto, podramos considerar como espacio de decisin el formado por todos los intervalos (1 , 2 ). La decisin consistira en
escoger uno de tales intervalos.
En este caso, sin embargo, no es nada obvio cul haya de ser la prdida a emplear. Podramos pensar, a imagen del ejemplo anterior, en emplear
una prdida que fuera nula si el intervalo realmente contiene al parmetro, y
mayor que cero, quiz constante, en caso contrario. Es decir,

0 si (1 , 2 ),
L(, d = (1 , 2 )) =
c en otro caso.
Pero ello no tiene mucho sentido: hara ptimos intervalos como (, ).
La prdida parece que debiera tomar en cuenta la amplitud del intervalo construido. Vase Meeden y Varderman (1985).

Ejemplo 1.3 Supongamos que debemos aceptar o rechazar un lote de


piezas, dependiendo de la fraccin de defectuosas que contenga. En este caso,
sera el intervalo [0, 1] (cada estado correspondera a una fraccin defectiva). El espacio de decisin ser: D = {d1 = Aceptar, d2 = Rechazar}.
El experimento consistira en tomar una o varias piezas, cada una de las cuales proporcionara un valor de X: X = 1 (pieza defectuosa) o X = 0 (pieza
correcta). El procedimiento estadstico sera entonces la regla que genera una
2

En el caso de que el experimento consista en tomar n observaciones de X, tendramos


: S n D, en que S n = S . . . S . Cada resultado muestral es un punto de S n . Llama|
{z
}

mos a S n ( S) espacio muestral.

n veces

1.2. RIESGO Y RIESGO DE BAYES.

decisin a partir del o los valores de X observados. La funcin de prdida podra, al menos en principio, especificarse con facilidad. L(, d1 ) sera el coste
de aceptar una remesa con proporcin defectiva (coincidira quiz con el
precio de las piezas en malas condiciones que hay que desechar). L(, d2 )
sera el coste de rechazar una remesa con proporcin defectiva (quiz el
coste de los portes, o una indemnizacin al proveedor, si el verdadero estaba dentro de lo estipulado en las condiciones del pedido).

Ejemplo 1.4 El diagnstico mdico proporciona otro ejemplo de problema de decisin con funcin de prdida, en general, fuertemente asimtrica. En un problema de esta naturaleza, el espacio de estados de la naturaleza
es:
= {1 = Paciente enfermo, 2 = Paciente sano} .

El espacio de decisiones incluye tambin dos: declarar al paciente sano (d1 ),


o enfermo (d2 ). El experimento, tpicamente, consiste en hacer algn tipo de
anlisis clnico. La funcin de prdida difcil o imposible de especificar
en unidades monetarias probablemente dara mucha mayor importancia a
diagnosticar como sano a un paciente enfermo (con riesgo de agravamiento)
que a diagnosticar como enfermo a uno sano (sin ms trascendencia quiz
que el susto o la inconveniencia de un tratamiento inadecuado).

En general, como se desprende de los ejemplos anteriores, los problemas de


contraste de hiptesis o estimacin de parmetros pueden ser descritos como problemas de decisin. La Teora de la Decisin suministra un marco adecuado para
plantearlos y resolverlos.

1.2. Riesgo y riesgo de Bayes.


Queremos escoger nuestros procedimientos estadsticos de modo que proporcionen prdidas reducidas. Observemos que si empleamos el procedimiento tomaremos la decisin (X), que es aleatoria: la aleatoriedad de la informacin
muestral que utilizamos se transmite a la decisin que adoptamos y en consecuencia a la prdida L(i , (X)) en que incurrimos. Tiene por ello sentido hablar del
valor medio de dicha prdida.
Definicin 1.1 Denominamos riesgo r () al valor medio de la prdida:
r () = E L(, (X))

(1.1)

El subndice del operador de valor medio indica la distribucin con respecto


a la cul se toma dicho valor medio (recurdese que cada estado de la naturaleza
genera X con una distribucin FX| (x |) en general diferente). Obsrvese que
se trata de una funcin de ; el riesgo puede variar dependiendo del estado de
la naturaleza ante el que estemos. Parece sensato considerar r () para juzgar un
procedimiento estadstico, pues proporciona, para cada , una medida promedio de
la prdida derivada de su empleo.

CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.


Figura 1.1: Procedimientos no comparables (1 y 2 ) e inadmisible (3 )

3
2

r ()
1

Definicin 1.2 Sean dos procedimientos estadsticos 1 y 2 . Se dice que 1 es


mejor que 2 si r (1 ) r (2 ) , con r (1 ) < r (2 ) para algn .
Anlogamente, se dice que 1 es equivalente a 2 si r (1 ) = r (2 ), . Se dice
que ambos procedimientos no son comparables si no son equivalentes, y ninguno
de ellos mejora al otro.
Definicin 1.3 Si un procedimiento 1 es mejor que otro 2 decimos de ste ltimo
que es inadmisible. Si, por el contrario, no puede ser mejorado por ningn otro,
decimos que es admisible.
La Figura 1.1 muestra las funciones de riesgo de tres procedimientos estadsticos. En ella, 1 y 2 no son comparables. 3 es inadmisible: resulta mejorado por
1 y por 2 . El Ejemplo 1.5 presenta dos procedimientos, uno de ellos inadmisible
al ser mejorado por el otro. Ntese que la admisibilidad o inadmisibilidad de un
procedimiento depende de la funcin de prdida considerada. Un procedimiento
inadmisible con respecto a una funcin de prdida, puede no serlo respecto de otra.
Ejemplo 1.5 Supongamos una situacin como la descrita en el Ejemplo 1.3, y admitamos que la funcin de prdida es cuadrtica:
L(, ) = ( )2
Podemos tomar una muestra aleatoria simple formada por tres observaciones
Xi , i = 1, 2, 3, en que Xi = 1 si la i-sima pieza es defectuosa y Xi = 0

1.2. RIESGO Y RIESGO DE BAYES.

en caso contrario. Entonces, Xi Binaria(). Consideremos los siguientes


dos procedimientos estadsticos:
1 (X) =
2 (X) =

X1 + X2 + X3
3
X1 + X3
2

(1.2)
(1.3)

Entonces:
r (1 ) = E [L(, 1 (X))]

r (2 ) = E [L(, 2 (X))]

(1 )
3
(1 )
2

(1.4)
(1.5)

y es claro que, para cualquier valor de , r (1 ) < r (2 ). Por tanto, el primer


procedimiento siempre sera preferible al segundo.

Podra pensarse que el objetivo debe ser la bsqueda de un procedimiento mejor que cualquier otro. Tal bsqueda sera infructuosa, como el siguiente ejemplo
pone de manifiesto.
Ejemplo 1.6 En la situacin descrita en el Ejemplo 1.3 (continuado en
el Ejemplo 1.5) consideremos los dos siguientes procedimientos para estimar
:
1 (X) =
2 (X) =

X1 + X2 + X3
3
0,60

(1.6)
(1.7)

cuyos riesgos respectivos son:


r (1 )
r (2 )

(1 )
3
= E (0,60 )2 = (0,60 )2

(1.8)
(1.9)

Es claro que 2 es un procedimiento poco sensato: para nada hace uso de


la informacin muestral. Sin embargo, cuando 0,6 da excelente resultado. Siendo 2 un procedimiento con el que difcilmente podemos sentirnos
satisfechos, es el ptimo para un cierto estado .

El Ejemplo 1.6 pone de manifiesto que en general no existe un procedimiento


siempre mejor que cualquier otro3 .
3

Naturalmente, frente al Ejemplo 1.6 nuestra reaccin sera: Si prescindimos de considerar procedimientos que slo excepcionalmente son muy buenos, y nos limitamos a procedimientos de buen
funcionamiento para cualquier , quiz s haya uno mejor que todos los dems. En alguna medida,
esta conjetura es cierta: si limitamos nuestra atencin a clases de procedimientos y de funciones de
prdida restringidas (por ejemplo, a los procedimientos insesgados y a las funciones de prdida convexas), puede en ocasiones encontrarse un procedimiento superior a los restantes. Estudiaremos por
el momento el criterio de Bayes, para retomar esta cuestin ms adelante.

CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.

Siendo cierto en general que para dos procedimientos 1 y 2 se verifica r (1 ) <


r (2 ) para algunos valores de y r (1 ) > r (2 ) para otros, podramos intentar compararlos mediante un promedio ponderado de los riesgos para diferentes
valores de .
Supongamos que los estados de la naturaleza se generan de acuerdo con una
cierta distribucin4 , cuya funcin de cuanta5 es (). Sera razonable comparar los
dos procedimientos mediante sus riesgos promedio respectivos:
R (1 ) = E [r (1 )] =

()r (1 )

(1.10)

()r (2 )

(1.11)

R (2 ) = E [r (2 )] =

Definicin 1.4 Llamamos riesgo de Bayes del procedimiento relativo a la distribucin definida por () a
X
R () = E [r ()] =
()r ()
(1.12)

El criterio de Bayes para la seleccin de procedimientos consiste en, dada una


cierta (), tomar aqul (o aqullos) con mnimo riesgo de Bayes. Tal (o tales)
procedimientos se denominan Bayes relativos a (). El criterio de Bayes resulta
intuitivamente atractivo y no es objeto de controversia si hay un modo objetivo e
inambiguo de especificar (). Es objeto de controversia, en cambio, si () solo
refleja creencias a priori.
Una posibilidad atractiva cuando no se tiene informacin a priori consistira
en adoptar como () una funcin de densidad que reflejara ignorancia absoluta. Pero no est claro qu forma debera tener, como muestra el Ejemplo 1.7 a
continuacin.
Ejemplo 1.7 Supongamos que deseamos estimar, como en el Ejemplo 1.3, la proporcin de piezas defectuosas en un lote. Una propuesta
frecuente para describir completa ignorancia a priori acerca del valor de
consiste en tomar una densidad () uniforme en el intervalo = [0, 1]. Pero
esta propuesta no puede ser tomada muy en serio. Pinsese que la parametrizacin del problema es algo completamente arbitrario: igual que estimamos
4
Hay diferentes formas de entender esto. Puede imaginarse que, efectivamente, hay un mecanismo que aleatoriza los estados de la naturaleza: Dios jugando a los dados, parafraseando la clebre
afirmacin de Einstein. Puede pensarse tambien en esta distribucin como recogiendo las creencias
a priori del analista, que pueden reflejar experiencia acumulada o ser puramente subjetivas (tal como
sucede en ocasiones en Estadstica Bayesiana).
5
En lo que resta de esta Seccin y en las dos que la siguen daremos por supuesto, por comodidad
notacional, que la distribucin de es discreta con funcin de cuanta (o probabilidad) (). El caso
en que la distribucin de es continua, requiere solo cambiar los sumatorios de las expresiones como
(1.10)-(1.11) por integrales, y la funcin de cuanta por una funcin de densidad. (El formalismo de
la integral de Stieltjes permitira recoger en una sola expresin todos los casos.)

1.3. CMPUTO DE PROCEDIMIENTOS DE BAYES.

, proporcin de piezas defectuosas sobre el total, podramos desear estimar

= 1
(razn de piezas defectuosas a piezas correctas). Si la completa
ignorancia sobre un parmetro se describe mediante una densidad a priori
uniforme, debiramos ahora utilizar una densidad () uniforme. Pero los
resultados a que llegamos son diferentes: puede comprobarse con facilidad
(vase el problema 1.1, p. 20) que () uniforme en = [0, 1] implica una
densidad
()

1
(1 + )2

(1.13)

para (0 < ). Anlogamente, una densidad uniforme6 para implica


una densidad no uniforme para . Si la propuesta fuera adecuada, el no saber
nada acerca de supondra saber algo acerca de , y viceversa!
Hay otras opciones de distribucin a priori no informativa. Examinaremos una en la Observacin 5.3, pg, 63.

1.3. Cmputo de procedimientos de Bayes.


De la definicin de R () en la Seccin 1.2 se deduce que:
X
R () =
()r ()

()

"
X X
x

L(, (x))fX | (x |)
#

L(, (x))()fX | (x |)

def

{z

= h (x, (x))

(1.14)

Para minimizar el riesgo, tenemos que minimizar h (x, (x)) en (1.14) para cada
x. Pueden ocurrir dos cosas:
Que para cada x haya una nica decisin d = (x) en D minimizando
h (x, d)). En este caso, hay un nico procedimiento de Bayes relativo a
().
Que haya ms de una decisin minimizando h (x, d) para algn x. En este
caso, hay ms de un procedimiento de Bayes relativo a ().
En todos los casos, si definimos
H (x) = mn h (x, d),
dD

(1.15)

Obsrvese que no procede hablar de una densidad uniforme sobre un intervalo de longitud infinita, como es el dominio de variacin de . El problema se soluciona escribiendo () k y
sustituyendo los signos = por signos . Se dice que se est ante una distribucin a priori difusa. Se
suele tambin denominar a () densidad a priori impropia.

CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.

P
el riesgo de Bayes es R () = x H (x). El Ejemplo 1.8, aunque artificialmente
simple, ilustra algunos de los conceptos introducidos.
Ejemplo 1.8 Supongamos que, dependiendo quiz de la climatologa,
un paraje puede adoptar uno de dos estados, 1 y 2 . En el estado 1 , el
paraje produce slo setas comestibles, mientras que en el estado 2 produce
slo setas txicas, indistinguibles a los ojos de un profano de las primeras.
Las probabilidades respectivas de ambos estados son (1 ) = 0,90 y (2 ) =
0,10.
Para adquirir mayor informacin sobre el carcter de una seta recogida,
podemos preguntar a un experto, que sin embargo no es infalible. En cada
uno de los dos estados proporciona una respuesta X cuyos posibles valores
son X = C (declara la seta comestible) X = T (declara la seta txica).
La distribucin de X para cada uno de los dos posibles estados aparece en la
Tabla 1.1.
Cuadro 1.1: Funcin de cuanta fX| (x |)
Respuesta X
experto

1
(seta comestible)

2
(seta txica)

X=C

0.950

0.005

X=T

0.050

0.995

Hay dos posibles decisiones: d1 = Tirar la seta, y d2 = Comer la


seta. Suponemos que las prdidas asociadas a cada decisin en cada uno de
los estados posibles son las recogidas en la Tabla 1.2.

Cuadro 1.2: Funcin de prdida L(i , dj )


Decisin
adoptada

1
(seta comestible)

2
(seta txica)

d1 (tirar)

100

d2 (comer)

-10

1000

Consideramos tres posibles procedimientos estadsticos, que consisten


en preguntar al experto y, obtenido un valor de X, actuar del modo que se
indica en la Tabla 1.3.

1.3. CMPUTO DE PROCEDIMIENTOS DE BAYES.

Con la informacin anterior, es fcil calcular los riesgos respectivos de


los tres procedimientos considerados:
r1 (1 ) =
=
r2 (1 ) =
=
r1 (2 ) =
=
r2 (2 ) =
=
r1 (3 ) =
=
r2 (3 ) =
=

L(1 , d1 )Prob {1 (X) = d1 |1 } + L(1 , d2 )Prob {1 (X) = d2 |1 }

100 0 + (10) 1 = 10
L(2 , d1 )Prob {1 (X) = d1 |2 } + L(2 , d2 )Prob {1 (X) = d2 |2 }

0 0 + 1000 1 = 1000
L(1 , d1 )Prob {2 (X) = d1 |1 } + L(1 , d2 )Prob {2 (X) = d2 |1 }

100 0,05 + (10) 0,95 = 4,5


L(2 , d1 )Prob {2 (X) = d1 |2 } + L(2 , d2 )Prob {2 (X) = d2 |2 }

0 0,995 + 1000 0,005 = 5


L(1 , d1 )Prob {3 (X) = d1 |1 } + L(1 , d2 )Prob {3 (X) = d2 |1 }

100 1 + (10) 0 = 100


L(2 , d1 )Prob {3 (X) = d1 |2 } + L(2 , d2 )Prob {3 (X) = d2 |2 }
0 1 + 1000 0 = 0

Cuadro 1.3: Procedimientos i (X) considerados


Procedimiento
1 (X)
2 (X)
3 (X)

Descripcin
Sea cual fuere X, comer la seta (d2 ).
Si X = C, comer la seta (d2 ). En caso contrario, tirar la seta.
Sea cual fuere X, tirar la seta (d1 ).

La Tabla 1.4 recoge los riesgos calculados. Puede observarse que ningn
procedimiento es mejor a ninguno de los restantes.
Los respectivos riesgos de Bayes relativos a la distribucin a priori especificada por () se calculan tambin fcilmente:
R (1 ) =
R (2 ) =
R (3 ) =

r1 (1 )(1 ) + r2 (1 )(2 ) = 0,90 (10) + 0,10 1000 = 91


r1 (2 )(1 ) + r2 (2 )(2 ) = 0,90 (4,5) + 0,10 5 = 3,55
r1 (3 )(1 ) + r2 (3 )(2 ) = 0,90 100 + 0,10 0 = 90

El criterio de Bayes llevara en este caso a seleccionar 2 (X). El procedimiento seleccionado depende de la distribucin a priori considerada. Si en
lugar de la indicada hubiramos tenido: (1 ) = 0,001, (2 ) = 0,999 (es
decir, casi seguridad de que la seta procede de un paraje que slo produce
txicas), es fcil comprobar que el procedimiento escogido por el criterio de

10

CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.


Cuadro 1.4: Funciones de riesgo ri (j )
Procedimiento
j (X)

1
(seta comestible)

2
(seta txica)

1 (X)

-10

1000

2 (X)

-4.5

3 (X)

100

Bayes sera 3 (X) (tirar la seta, incluso aunque el dictamen del experto sea
que es comestible). Sucede que nuestras creeencias a priori son tan fuertes,
que no basta la evidencia aportada por el experimento para hacernos cambiar
de opinin.

De la expresin (1.14) dedujimos que el procedimiento ptimo de acuerdo con


el criterio de Bayes minimiza
X
h (x, (x)) =
L(, (x))()fX | (x |)
(1.16)

para cada valor de x. Como


()fX | (x |) = fX (x, ) = f|X ( |x)fX (x),

(1.17)

tenemos que el procedimiento (o los procedimientos) Bayes relativos a la distribucin a priori () minimizan
X
h (x, (x)) = fX (x)
L(, (x))f|X ( |x)

para cada x y, por tanto, tambin para cada x, minimizan


X
L(, (x))f|X ( |x).

(1.18)

En ausencia de experimento, escogeramos un procedimiento que minimizara el


riesgo de Bayes a priori , es decir:
X
L(, )().
(1.19)

La comparacin de las expresiones (1.18) y (1.19) muestra que el mtodo de eleccin de un procedimiento es siempre el mismo, con la sola variacin de que en un

1.4. PROCEDIMIENTOS DE BAYES CON FUNCIN DE PRDIDA CUADRTICA.11


caso se emplea la distribucin a priori sobre los estados de la naturaleza y en otro
la distribucin a posteriori conocido el resultado del experimento. Este resultado
slo influye alterando la distribucin con respecto a la cual se calcula la prdida
media, que de ser () pasa a ser f|X ( |x). En el enfoque de la inferencia aportado por la Teora de la Decisin, la informacin muestral interviene modificando
la distribucin a priori del analista y transformndola en una distribucin a posteriori; la forma de operar con cada una de ambas distribuciones para seleccionar un
procedimiento estadstico es sin embargo siempre la misma.

1.4. Procedimientos de Bayes con funcin de prdida cuadrtica.


Cuando la funcin de prdida es cuadrtica o, de modo un poco ms general,
de la forma
L(, d) = w() [d ]2

siendo w() una funcin no negativa cualquiera, entonces el procedimiento de Bayes relativo a una cierta distribucin a priori () es particularmente fcil de obtener, como muestra el siguiente teorema.
Teorema 1.1 Sea L(, d) = w() [d ]2 y w() una funcin no negativa. El
procedimiento de Bayes relativo a () es:
P
E|x [w()]
w()f|X ( |x)
=
.
(1.20)
(x) = P
E|x [w()]
w()f|X ( |x)
D EMOSTRACION :

Para cada x, (x) ha de ser, de acuerdo con (1.18), tal que minimice:
X
w() [(x) ]2 f|X ( |x).

(1.21)

Minimizando la expresin anterior respecto a (x) se llega inmediatamente a (1.20).

1.5. Familias conjugadas


El cmputo de procedimientos de Bayes se simplifica si f|X ( |x) puede obtenerse con facilidad. De (1.17) se deduce que:
f|X ( |x) ()fX | (x |)

(1.22)

En ocasiones, () y fX | (x |) son tales que f|X ( |x) pertenece a la misma


familia que (); se dice entonces que () y fX | (x |) pertenecen a familias
conjugadas. El siguiente ejemplo muestra las ventajas que se derivan de ello.

12

CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.


Ejemplo 1.9 Tenemos una nica observacin X procedente de una binomial b(, n), cuyo parmetro se trata de estimar con prdida cuadrtica
L(, (X)) = ((X) )2 .
Si la distribucin a priori de fuera una beta de parmetros r y s, es
decir, si:
(r + s) r1

(1 )s1
() =
(r)(s)
con 0 < < 1, tendramos, de acuerdo con (1.22), que:
 
(r + s) r1
n x
f|X ( |x)
(1 )nx (1.23)
(1 )s1
(r)(s)
x
r+x1 (1 )n+sx1

(1.24)

Se reconoce con facilidad en (1.24) una densidad beta de parmetros (r + x)


y (n + s x), falta slo de la correspondiente constante de normalizacin:
f|X ( |x) por tanto pertenece a la misma familia que la () escogida.
De acuerdo con (1.20), (X) ser el valor medio condicionado de la
distribucin a posteriori de . Tratndose de una beta, se tiene (ver por ej.
Trocniz (1987), p. 299):
(X) = m =

r+X
r+X
=
n+sX +r+X
n+r+s

que puede reescribirse as:




n
X
r
(X) =

+
n+r+s
n
n+r+s

(1.25)

Cuando n , (X) X/n (nmero de aciertos entre n), como cabra


esperar. Sin embargo, para n moderado la distribucin a priori () es de
gran importancia.
El emplear una distribucin beta como () tiene la ventaja de producir
una distribucin a posteriori inmediatamente reconocible, y de la que podemos obtener el valor medio con facilidad. Si () hubiera sido otra, hubiera
sido en general precisa una operacin de integracin, y el resultado no hubiera podido obtenerse de forma tan simple.

Ejemplo 1.10 (continuacin) Para uso posterior nos interesar disponer de la funcin de riesgo del estimador obtenido en el ejemplo anterior.


r () = E ((X) )2 |
=

Var ((X)) + [Sesgo ((X))]2


2

2

(1 )
r + n
n
+

n+r+s
n
n+r+s

Ejemplo 1.11 Supongamos que la distribucin de X es N (, 2 ), y la


distribucin a priori sobre es N (, b2 ). Tenemos entonces que:
(
n
2 )

n 
1 X xi
1

exp
fX | (x |) =
2 i=1

(1.26)

1.5. FAMILIAS CONJUGADAS

13

mientras que por otra parte, la densidad () es:


(

2 )
1
1
() = exp
2
b
b 2

(1.27)

Por consiguiente:
(
" n 

n
2 
2 #)
1
1
1 X xi

f|X (|x)fX (x) =


exp
+
2 i=1

b
b 2 2
P
 2 2


2
2
2
2 2
1 ( + nb ) 2( + nb x) + ( + b2 x2i )
exp
2
2 b2

1 22 +nb22 x

+nb

q
exp
,
(1.28)

b2 2
2

2
2
+nb

esta ltima expresin obtenida al completar el cuadrado de la precedente. Es


fcil reconocer en ella una densidad normal para :

 2
b2 2
+ nb2 x
,
(|X = x) N
2 + nb2
2 + nb2

Observacin 1.1 Con una muestra de n observaciones Xi N (, 2 ),

el estimador ridge de parmetro k de vendra dado por:


=

nx
;
n+k

podemos ver que dicha expresin es idntica a


2 + nb2 x
2 + nb2

(1.29)

cuando hacemos = 0 y b2 = 2 /k. Por tanto, el uso del estimador ridge


de parmetro k en este caso equivale a la utilizacin implcita de una distribucin a priori N (0, 2 /k). Valores de k muy pequeos en relacin a 2
implican gran incertidumbre acerca de (y una estimacin muy prxima a
la obtenida por mxima verosimilitud o mnimos cuadrados ordinarios). Valores relativamente grandes de k (siempre en relacin a 2 ) suponen gran
conviccin de que est en las cercanas de = 0.

Hay otros muchos casos en que el empleo de una distribucin a priori conveniente simplifica la obtencin de la distribucin a posteriori. La siguiente tabla
muestra algunos de los ms frecuentes.
La comodidad de manejo de las familias conjugadas no debe hacernos perder
de vista, sin embargo, algo fundamental: que el fundamento de la utilizacin de una
distribucin a priori se pierde si sta no describe bien el mecanismo que genera los
estados de la naturaleza o nuestras creencias acerca del particular, si adoptamos
una visin bayesiana.

14

CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.


Cuadro 1.5: Algunas distribuciones a priori conjugadas
Distribucin
de X

Parmetro
de inters

A priori
conjugada

Binomial, b(, n)

Beta(r, s)

Poisson, P ()

(a, b)

Exponencial, fX (x) = ex

(a, b)

Normal, N (, 02 )

Normal, N (, 2 )

1.6. Procedimientos aleatorizados.


Se ha definido (Seccin 1.1) procedimiento estadstico como una aplicacin
: S D. Ampliaremos ahora esta definicin denominando procedimiento estadstico aleatorizado a una aplicacin : S (D), en que (D) es el conjunto de distribuciones sobre D. En otras palabras, un procedimiento estadstico
aleatorizado hace corresponder a cada resultado muestral una lotera en la que
se puede obtener una de varias decisiones. De este modo, el mismo resultado X
llevara en ocasiones diferentes a tomar decisiones posiblemente diferentes.
Esto es algo difcilmente asumible: por qu habramos de hacer depender
nuestra decisin de una lotera? Dada la distribucin a priori , y realizado el experimento, parece que no debiramos recurrir a aleatorizar nuestra decisin. Hay
dos formas de responder a esto. Una, que, como hace notar Kiefer (1983), tal forma de actuar no debiera ser motivo de escndalo. Al fin y al cabo, cuando se hace
casi cualquier tipo de experimento se aleatoriza el diseo: la evidencia muestral
depende as de una especie de lotera previa la que nos ha llevado a escoger
un diseo experimental en particular y no otro. La segunda, y ms importante
para lo que sigue, es que la consideracin de procedimientos aleatorizados permite
obtener resultados interesantes, en particular completando la clase de los procedimientos de Bayes de modo que incluya algunos de inters. La Seccin 1.8 aclarar
esta cuestin.
Ejemplo 1.12 Tomemos el caso simple en que hay dos posibles estados de la naturaleza, 1 y 2 . Consideraremos tambin tres procedimientos
1 , 2 y 3 , cuyas funciones de riesgo se representan grficamente en la Figura 1.2
Puede comprobarse que ni 1 ni 2 (cuyos riesgos estn representados en
la figura por y respectivamente) son mejores que 3 ; cada uno de ellos
tiene menor riesgo en uno de los estados y mayor en el otro. Sin embargo, si

1.7. CLASES COMPLETAS.

15

Figura 1.2: 4 = 21 1 + 12 2 () es mejor que 3 ()

r ()

adoptamos la regla de aleatorizar entre 1 y 2 arrojando una moneda regular


al aire, obtenemos un nuevo procedimiento (aleatorizado) 4 , representado
en la figura mediante , que s es mejor que 3 . Su funcin de riesgo es
r (4 ) = 21 r (1 ) + 21 r (2 ).

1.7. Clases completas.


La siguiente definicin introduce un concepto que necesitamos en lo que sigue.
Definicin 1.5 La clase C de procedimientos es completa si para cada procedimiento que no est en C hay uno en C que es mejor. Si C es la clase ms restringida
de procedimientos que es completa, se dice que es mnima completa.
Esta definicin podra parafrasearse diciendo que una clase completa contiene
la totalidad de procedimientos admisibles. Tenemos por otra parte la nocin de
clase esencialmente completa:
Definicin 1.6 La clase C de procedimientos es esencialmente completa si para
cada procedimiento que no est en C hay uno en C que es mejor o igual. Si C es
la clase ms restringida de procedimientos que es esencialmente completa, se dice
que es esencialmente mnima completa.
Bajo condiciones muy generales, de habitual cumplimiento en la prctica, la
nica clase mnima completa coincide con la clase de todos los procedimientos

CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.

16

admisibles. Una clase esencialmente mnima completa contiene un representante


de cada grupo de procedimientos admisibles equivalentes (ver Kiefer (1983), p.
54).

1.8. Representacin grfica de procedimientos estadsticos.


Hemos representado grficamente funciones de riesgo. Construiremos ahora
grficos en que cada punto representa un procedimiento, y cada eje un estado de
la naturaleza. Por simplicidad, consideraremos slo el caso en que = {1 , 2 }.
En la Figura 1.3, el procedimiento 1 tiene riesgos r1 (1 ) = 1, y r2 (1 ) = 6.
Anlogamente, 2 tiene riesgos r1 (2 ) = 2, y r2 (2 ) = 3. Obsrvese que un
procedimiento 4 que consistiera en aleatorizar entre 1 y 3 con probabilidades
respectivas 1 y 2 tendra funcin de riesgo r (4 ) = 1 r (1 ) + 2 r (3 ), combinacin lineal convexa de las de 1 y 3 , y podramos representarlo como un punto
del segmento que une los puntos correspondientes a 1 y 3 .
Figura 1.3: El contorno rayado en grueso incluye los procedimientos en la clase
completa minimal. 4 es inadmisible (resulta mejorado, por ejemplo, por el procedimiento aleatorizado 5 , cuyo riesgo es el mismo cuando = 1 e inferior cuando
= 2 )

r2 ()

4
5
3
r1 ()

Si consideramos procedimientos aleatorizados, toda combinacin lineal convexa de procedimientos puede verse como otro posible procedimiento. Ello hace
ver que el conjunto de posibles procedimientos es, cuando lo representamos como
en la Figura 1.3, un conjunto convexo.

1.8. REPRESENTACIN GRFICA DE PROCEDIMIENTOS ESTADSTICOS.17


Por otra parte, el riesgo de Bayes de un procedimiento i cuando hay dos nicos
estados viene dado por:
R (i ) = (1 )r1 (i ) + (2 )r2 (i )
y por lo tanto el lugar geomtrico de los procedimientos con igual riesgo de Bayes
c es la recta
(1 )r1 (i ) + (2 )r2 (i ) = c

(1.30)

La Figura 1.4 muestra un conjunto de procedimientos cuyo borde inferior es la


clase minimal completa. Para diferentes valores de c, la ecuacin (1.30) proporciona diferentes rectas paralelas, cuya pendiente depende de , y tanto ms cercanas
al origen cuanto menor sea c. El procedimiento de Bayes relativo a () en el caso representado en dicha figura sera 2 . Para cualquier c menor que c0 , la recta
correspondiente no intersectara .
Figura 1.4: El procedimiento de Bayes relativo a () es 2 , y el riesgo de Bayes
c0

r2 ()

3
c0 /(1 )

r1 ()

Es fcil ver de modo intuitivo que para una diferente distribucin a priori el
procedimiento de Bayes sera diferente (como ilustra la Figura 1.5, en que el procedimiento de Bayes es 1 ).Tambin es fcil ver que puede no haber un nico
procedimiento de Bayes; si la distribucin a priori fuera tal que las rectas de riesgo
Bayes constante tuvieran exactamente la misma pendiente que uno de los segmentos (1 , 2 ) (2 , 3 ), el contacto entre la recta de mnimo riesgo y el conjunto de
procedimientos se producira en ms de un punto.

CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.

18

Figura 1.5: El procedimiento de Bayes relativo a () es 1 , y el riesgo de Bayes


c0

r2 ()

3
c0 /(1 )

r1 ()

Finalmente, es de inters sealar que, mientras que el contorno dibujado en


grueso representa la clase mnima completa, la formada por los procedimientos
{1 , 2 , 3 } es esencialmente mnima completa.

1.9. Lmites de sucesiones de procedimientos de Bayes


En ocasiones, un procedimiento no es de Bayes, pero es lmite de una sucesin
de procedimientos de Bayes. El siguiente ejemplo muestra esto con claridad.
Ejemplo 1.13 Consideremos el caso en que hemos de estimar con funcin de prdida cuadrtica el parmetro media de una poblacin N (, 2 ), y
la distribucin a priori sobre es N (, b2 ). En tal caso, hemos visto
(Ejemplo 1.11) que la distribucin a posteriori de es:

 2
b2 2
+ nb2 X
, 2
(|X) N
2 + nb2
+ nb2
y por consiguiente, de acuerdo con el Teorema 1.1:
Z
(X) = E[|X = x] = f|X (|x)d
=
=

Xb2 + 2 /n
b2 + 2 /n
b2
2 /n
X
+ 2
2
2
b + /n
b + 2 /n

1.10. INTERS DE LOS PROCEDIMIENTOS DE BAYES.

19

Cuando n , (X) X; la distribucin a priori es reducida a la irrelevancia por el peso abrumador de la evidencia muestral. Se dice que X es
lmite de procedimientos de Bayes.

1.10. Inters de los procedimientos de Bayes.


Hay buen nmero de razones para interesarse por los procedimientos de Bayes.
Idealmente, desearamos restringir nuestra atencin a los procedimientos admisibles aquellos que no pueden ser mejorados por ningn otro, o, an mejor, a
una subclase esencialmente completa y mnima de procedimientos admisibles. La
clase de los procedimientos de Bayes y de sus lmites es, en general, algo ms amplia. Si D y son finitos, la clase de procedimientos de Bayes es completa. Si
no es finito, se puede en general obtener una clase completa incluyendo tambin los procedimientos que son lmite de procedimientos de Bayes. La clase de
procedimientos de Bayes, quizs completada, es por ello un buen punto de partida.
Por otra parte, los procedimientos de Bayes pueden justificarse desde varios
puntos de vista, desde el totalmente bayesiano hasta aqul que utiliza como distribucin a priori una distribucin derivada de la experiencia anterior.
Por ltimo, podemos relajar de diversas maneras el requerimiento de que ()
(y L(, d)) sean conocidas, y tratar de encontrar procedimientos que sean ventajosos en condiciones muy generales, o que sean de mnimo riesgo en las circunstancias ms desfavorables. Esta ltima alternativa da lugar a los procedimientos
minimax y se explora junto con la caracterizacin de procedimientos admisibles
en el Captulo 2.

CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.

20

CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER


1.1 Comprubese que, como se dice en el Ejemplo 1.7, si () es uniforme en = [0, 1] la densidad de = /(1 ) es () = (1 + )2 .
1.2 Haciendo uso del hecho de que,

b(y)

a(y)

g(x, y)dx

a
b
g(b, y)
g(a, y) +
y
y

b(y)

a(y)

g(x, y)
dx
y

) =
demustrese que el estimador que minimiza la funcin de prdida L(,

| | es la mediana de la distribucin f|X (|x) (supuesta sta ltima continua, y por tanto la mediana nicamente definida).
(Garthwaite et al. (1995), pg. 118)

Captulo 2

Procedimientos admisibles y
minimax.

2.1. Minimax y criterios globales.


El criterio de Bayes se justificaba en el Captulo anterior como un promedio
ponderado del riesgo, con ponderacin dada por (). Ello presta cierto atractivo a
dicho criterio: si un agente se enfrenta al mismo proceso de decisin muchas veces,
el minimizar el riesgo medio es una estrategia sensata.
Puede suceder que, o bien desconozcamos (), o bien enfrentemos un proceso
de decisin una nica vez. En estas circunstancias y algunas otras, puede interesarnos minimizar el mayor de los riesgos que hayamos de afrontar. En otras palabras,
podemos disear una estrategia consistente en hacer mnimo el riesgo en la situacin (es decir, para el ) ms desfavorable. Se trata de una estrategia conservadora,
que procura la mxima cobertura frente a la peor catstrofe. La comparacin entre
procedimientos se hace as sobre la base de un slo valor (el mximo) de las correspondientes funciones de riesgo, en lugar de considerar (promedindolos mediante
()) la totalidad de los riesgos.
El empleo de grficos como los introducidos en la Seccin 1.8 es ilustrativo.
La Figura 2.1 muestra un procedimiento 2 que no es minimax y uno que s lo es,
. Es muy intuitivo el procedimiento grfico que debemos seguir para encontrar
procedimientos minimax; construiremos cuadrados cuyo vrtice inferior izquierdo
se apoye sobre el origen, y cuyo vrtice superior derecho se apoye sobre la bisectriz
del primer cuadrante. En la Figura 2.1 puede verse uno de dichos cuadrados, de
lado 2, que no alcanza a intersectar y otro de lado 2.6 que s lo hace. El
punto de contacto, (2,6, 2,6), corresponde al procedimiento minimax. No hay
21

CAPTULO 2. PROCEDIMIENTOS ADMISIBLES Y MINIMAX.

22

Figura 2.1: es minimax. 2 no lo es; su riesgo cuando = 2 es mayor que el de


.

r2 ()

3
r1 ()
ningn procedimiento factible con riesgos menores tanto para 1 como para 2 (un
tal procedimiento estara en el interior del cuadrado de lados (2,6, 2,6) dibujado).
Ms precisamente, tenemos la siguiente
Definicin 2.1 Se dice que es un procedimiento minimax en una cierta clase de
procedimientos si :
sup r ( ) sup r ()

(2.1)

2.2. Caracterizacin de procedimientos minimax.


Los procedimientos minimax no tienen porqu ser nicos. Tampoco tienen necesariamente que ser admisibles (como la Figura 2.2 pone de manifiesto). El siguiente teorema proporciona una caracterizacin til de procedimientos minimax
y una condicin suficiente para que sean admisibles.
Teorema 2.1 Si es un procedimiento de Bayes respecto a (), distribucin tal
que:
X
r ( )() = sup r ( )
(2.2)

entonces: (i) es minimax. (ii) Si es la nica solucin de Bayes con respecto a


(), es el nico procedimiento minimax.

2.3. CARACTERIZACIN DE PROCEDIMIENTOS ADMISIBLES.

23

D EMOSTRACION :
Tomemos cualquier otro procedimiento . Entonces,
sup r ()

r ()()

r ( )() = sup r ( )

(2.3)

El apartado (ii) se deduce inmediatamente, si tenemos en cuenta que la unicidad de


implica que la segunda desigualdad en (2.3) es estricta.
La distribucin definida por () se denomina distribucin a priori ms desfavorable. Da lugar al mximo riesgo de Bayes. En efecto, supongamos cualquier
otra distribucin a priori (), y un procedimiento que sea de Bayes respecto a
la misma. Entonces:
X
X
R ( ) =
r ( ) ()
r ( ) () sup r ( ) = R ( )
(2.4)

Dos consecuencias son inmediatas:


Corolario 2.1 Un procedimiento de Bayes de riesgo constante es minimax.
En efecto, basta comprobar que en este caso (2.2) se verifica.
Corolario 2.2 Sea = { : r ( ) = sup r ( )}, es decir, el conjunto de
estados para los que el riesgo de toma su valor mximo. Entonces, es minimax
si tiene, de acuerdo con la distribucin definida por (), probabilidad uno.
Esto se deduce, como el corolario anterior, de (2.2). Si, excepto para sumandos
con probabilidad cero, r ( ) = sup r ( ), necesariamente (2.2) se cumple.
El teorema anterior y ambos corolarios proporcionan medios para caracterizar
procedimientos como minimax, caracterizacin que en general no es fcil.

2.3. Caracterizacin de procedimientos admisibles.


La nocin de admisibilidad se introdujo en la Definicin 1.3, (pg. 4). Al igual
que la condicin de minimax, no es fcil en general demostrar que un procedimiento es admisible. En algunos casos particulares, sin embargo, es sencillo. El
siguiente teorema es un instrumento til para probar admisibilidad.
Teorema 2.2 Un procedimiento de Bayes relativo a una cierta distribucin a priori
, si es nico, es admisible.

CAPTULO 2. PROCEDIMIENTOS ADMISIBLES Y MINIMAX.

24

Figura 2.2: es minimax, pero no admisible. Es mejorado por

r2 ()

r1 ()
En efecto, supongamos un procedimiento de Bayes inadmisible. Existira
otro, 0 , tal que r (0 ) r ( ). Pero entonces:
X
X
R (0 ) =
r (0 )()
r ( )() = R ( )

contra la hiptesis de que es nico de Bayes.


Por tanto, es admisible todo procedimiento Bayes? Si es nico, es claro que s:
acabamos de ver que no puede estar dominado por ningn otro. Pero puede ocurrir
que para una cierta distribucin a priori haya ms de un procedimiento de Bayes,
y slo uno de ellos sea admisible. El ejemplo que sigue lo aclara.
Ejemplo 2.1 Consideremos el caso ilustrado en la Figura 2.2 Ambos
procedimientos y son Bayes respecto a una distribucin a priori que
diera probabilidad uno a 1 (las lneas de igual riesgo de Bayes sera entonces
verticales. Slo la abscisa de un punto importara: el riesgo bajo 2 sera
irrelevante, porque 2 se presenta con probabilidad cero). Sin embargo,
domina a aunque en trminos de riesgo ambos sean equivalentes.
Situaciones como la que ilustra el ejemplo anterior pueden exclurse imponiendo alguna condicin adicional, como sucede en el siguiente teorema.
Teorema 2.3 Supongamos que R () < , . Si: (i) es discreto y () >
0 para cada , o bien: (ii) es un intervalo con () > 0 para todo
en , y, para cada posible , r () es una funcin continua en , entonces cada
procedimiento de Bayes relativo a () es admisible.

2.4. BSQUEDA DE PROCEDIMIENTOS ADMISIBLES Y MINIMAX.

25

Figura 2.3: Comparacin de las funciones de riesgo de (X) y Y , en el caso en


que n = 10. R es la regin en que el estimador minimax es mejor que Y .

r ()

La demostracin es inmediata. Ambas condiciones alternativas eliminan la posibilidad de mltiples procedimientos de Bayes que difieren slo con probabilidad
cero.

2.4. Bsqueda de procedimientos admisibles y minimax.


Las Secciones anteriores proporcionan algunos instrumentos, pero como se ha
indicado la obtencin de procedimientos tanto admisibles como minimax es una
labor relativamente ad-hoc. Las siguientes consideraciones pueden ayudar.
Para probar que un procedimiento es admisible, basta probar que es Bayes
y nico para alguna distribucin a priori (Teorema 2.2). Pero puede no ser fcil
encontrar una tal distribucin.
Una condicin suficiente para ser minimax es ser Bayes respecto a la distribucin a priori ms desfavorable (Teorema 2.1), si tal distribucin existe1 . De nuevo
puede no ser obvio cul es esta distribucin ms desfavorable; pero una ayuda intuitiva es considerar aquellas distribuciones que ms incertidumbre crean acerca
del estado de la naturaleza prevalente (o que ms esparcen el parmetro , si estamos ante un problema de estimacin). Los siguientes dos ejemplos (que pueden
encontrarse ms desarrollados en Lehmann (1983)) ilustran las dificultades que se
encuentran de ordinario.
1

Ntese que tal existencia es un supuesto del Teorema 2.1.

26

CAPTULO 2. PROCEDIMIENTOS ADMISIBLES Y MINIMAX.


Ejemplo 2.2 (un procedimiento de Bayes con riesgo constante, y por
tanto minimax) Consideremos el caso en que tenemos una moneda no regular, cuya probabilidad de proporcionar cara ( Y = 1) queremos estimar.
Contamos con una muestra formada por n observaciones independientes,
Pn
Y1 , . . . , Yn , y nos preguntamos si el estimador (Y ) = Y = n1 i=1 Yi
es minimax. Nuestra funcin de prdida es cuadrtica: L(, d) = (d )2 .
Dado que E[Y ] = , el riesgo (para un fijo) es:
r () =

(1 )
n

1
1
cuyo mximo es 4n
, dado que 0 1. Si r () fuera 4n
para cualquier
, estaramos ante un estimador minimax, pero ste no es el caso.
La siguiente cosa que se nos ocurrira es buscar una distribucin a priori
1
. Es claro que tal
que hiciera el riesgo de Bayes igual a su valor mximo, 4n
1
distribucin habra de ser la que diera al valor = 2 probabilidad igual a 1,
pero con tal distribucin a priori el estimador de Bayes ya no sera Y , sino
1
2!
Ante el fracaso de estos dos intentos, podramos ir a la bsqueda de una
familia de distribuciones a priori y encontrar la familia de estimadores de
Bayes asociados. Si tuviramos la suerte de que alguno de ellos fuera nico
y de riesgo constante, entonces sera minimax (Teorema 2.1). Si tomamos
una distribucin a priori (r, s), el correspondiente procedimiento de Bayes
es el que se obtuvo en el Ejemplo 1.9 (la funcin de riesgo se comput en
el Ejemplo 1.10). Hay alguna distribucin (r, s) tal que el riesgo asociado al procedimiento de Bayes correspondiente sea constante? Tratemos de
encontrar r y s verificando para una constante cualquiera y todo que:

n
n+r+s

2

(1 )
+
n

r + n

n+r+s

2

=k

lo que implica, tras reducir a denominador comn, que el numerador del lado
izquierdo ha de ser constante:


n n2 + r2 + (r + s)2 2 2r(r + s) = c
Para ello es preciso que los coeficientes de y 2 sean cero:
n 2r(r + s) =
(r + s)2 n =
de donde:

0
0

1
n
2
Llevando estos dos valores a la frmula (1.25) obtenemos el procedimiento
minimax que buscamos:
P

1
n
Yi
n

+ 2
(2.5)
(Y ) =
n
n+ n
n+ n
P

Yi
n
1
1

(2.6)
+
=
1+ n
n
21+ n
r=s=

2.4. BSQUEDA DE PROCEDIMIENTOS ADMISIBLES Y MINIMAX.


Su riesgo (constante) es:
r () = r2

1
1

=
2
(n + r + s)
4(1 + n)2

(2.7)

Es interesante
P comparar este riesgo con el del estimador insesgado habitual,
X = n1 i Xi , que es (1 )/n. En el caso ms desfavorable para
1
este ltimo (cuando = 12 y r () = 4n
, el estimador minimax es mejor. Sin embargo, esta reduccin de riesgo en la situacin ms desfavorable
tiene un precio; para otros valores de , el estimador minimax puede ser
considerablemente peor que el estimador insesgado habitual. La Figura 2.3
(pg. 25) muestra la funcin de riesgo del estimador minimax (horizontal al
nivel 0.01443) y la del estimador X, ambas correspondientes a un tamao
muestral n = 10. Puede verse que para 0,18 0,82 el estimador minimax es de menor riesgo, mientras lo contrario ocurre fuera de dicho intervalo.
Es fcil comprobar tambin que a medida que n el intervalo en que el
estimador minimax mejora a X se va estrechando en torno a = 12 .

Ejemplo 2.3 Supongamos que hemos de estimar la media desconocida de una distribucin normal N (, 2 ), cuya varianza supondremos por
simplicidad conocida. Supondremos tambin que la distribucin a priori de
es N (, b2 ), y la funcin de prdida L(, d) = (d )2 . Contamos con
una m.a.s. X = (X1 , . . . , Xn ). Cul es el estimador minimax de ?
Comencemos por encontrar el estimador de Bayes, y, si fuera de riesgo
constante, podramos entonces afirmar que es minimax.
Segn comprobamos en el Ejemplo 1.11, la distribucin a posteriori de
es:
 2

+ nb2 X
b2 2
|X N
, 2
2 + nb2
+ nb2
De acuerdo con el Teorema 1.1, el procedimiento de Bayes ser entonces:
(X) =

2 + nb2 X
2 + nb2

y su riesgo:
nb4 2
r () = E [(X) ] = 2
+
( + nb2 )2
2

2 + nb2

2 + nb2

2

De esta ltima expresin deducimos que el riesgo no es constante y por tanto


(X) no es minimax. Observemos, sin embargo, que X, lmite de procedimientos de Bayes cuando n , si tiene riesgo constante (= 2 /n), y por
tanto es minimax. La distribucin ms desfavorable es la distribucin a priori
difusa.

Ejemplo 2.4 (un procedimiento de Bayes en que los estados ms desfavorables totalizan probabilidad 1; y, por tanto, un procedimiento minimax
virtud del
Corolario 2.2) Consideremos el espacio paramtrico =
 en
: 31 32 , la funcin de prdida
)
L(,

= ( )2 .

27

28

CAPTULO 2. PROCEDIMIENTOS ADMISIBLES Y MINIMAX.


Podemos observar una variable aleatoria binaria tal que P (X = 1) = 1
P (X = 0) = . Consideramos el procedimiento estadstico

a si X = 0,

= (X) =
(2.8)
b si X = 1.
El riesgo de dicho procedimiento es
= (1 )(a )2 + (b )2 .
r ()
Parece que una distribucin mximamente desfavorable podra ser
 1
si = 13 ,
2
() =
1
si = 23 .
2

(2.9)

(2.10)

El riesgo de Bayes entonces sera

R ()

5 8a + 9a2 10b + 9b2


18

Maximizando la expresin anterior respecto a a y b obtenemos a =


b = 59 . Sustituyendo estos valores en (2.9) obtenemos

r ()

1
7
+
18 9

4
9


2
1

,
2

que toma idntico valor en = 31 y en = 32 . Por tanto, estamos ante un


procedimiento con valor constante para un conjunto de estados cuya probabilidad conjunta es 1. En virtud del Corolario 2.2, dicho procedimiento es
minimax.

Captulo 3

La familia exponencial.
Suficiencia

3.1. Familia exponencial.


Definicin 3.1 Sea FX (x; ) una funcin de distribucin dependiendo de un nico
parmetro. Se dice que pertenece a la familia exponencial si su funcin de densidad
(o cuanta, en su caso) puede expresarse as:
fX (x; ) = exp {a()b(x) + c() + d(x)}

(3.1)

Esto debe ocurrir sobre el soporte de X, y tal soporte no depender de .


Puede encontrarse una definicin ms precisa en Lehmann (1983), p. 26. Un ejemplo de distribucin en la que el soporte depende del parmetro es la uniforme
U (0, ).
En el caso de distribuciones dependiendo de k parmetros, , la definicin
anterior se generaliza de la manera obvia, requiriendo que:

fX (x; ) = exp

( k
X

ai ()bi (x) + c() + d(x)

i=1

29

(3.2)

CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA

30

Ejemplo 3.1 Si X N (, 2 ), su funcin de densidad puede escri-

birse en la forma:

fX (x; ) =
=
=

1 x 2
1
e 2 ( )
2



1 x2
1 2
x
1

exp 2
+
+
log
2
2 2
2
2
)
( 2
X
ai ()bi (x) + c() + d(x)
exp

i=1

con:

b1 (x)

(, 2 )
1
2
2

2
x2

b2 (x)

c() =

d(x)

a1 () =
a2 () =

1 2
+ log
2 2

Ejemplo 3.2 Si X b(p, n) tenemos que para x {0, 1, . . . , n} y

p (0, 1):

 
  

n x
n
nx
PX (x; p) =
p (1 p)
= exp log
+ x log(p) + (n x) log(1 p) (3.3)
x
x
que responde a la forma general en (3.1) con:

= p

a()

= log(p) log(1 p) = log

b(x)

= x

c()

= n log(1 p)
 
n
= log
x

d(x)

p
1p

Ejemplo 3.3 La distribucin de Weibull tiene por funcin de densidad,


fX (x; , )

   
x
1
x
exp

(3.4)

para x > 0, > 0 y > 0. Es fcil ver que no puede expresarse en la forma
(3.1), y por tanto no pertenece a la familia exponencial.

3.1. FAMILIA EXPONENCIAL.

31

Se llama parmetro natural de la distribucin (3.5) a = a(). En trminos


del parmetro natural, si a(.) es una funcin 1-1, la expresin (3.1) queda en forma
cannica o simplificada:
fX (x, ) = exp {b(x) + A() + d(x)} .

(3.5)

En el caso de distribuciones k-paramtricas, (3.5) se generaliza a


fX (x; ) = exp

k
X

i bi (x) + A() + d(x) .

i=1

(3.6)

En una distribucin binomial, el parmetro natural es el logaritmo de la razn de


probabilidades (log odds) (Ejemplo 3.2, ms arriba). Vase tambin el ejemplo que
sigue.
Ejemplo 3.4 En una distribucin de Poisson, cuya funcin de probabilidad es
fX (x; )

e x
x!

con x = 1, 2, 3, . . . y > 0, el parmetro natural es loge , como se comprueba sin ms que reescribir la funcin de probabilidad en forma cannica:
fX (x; )

= exp { + x loge loge x!} .

De (3.5), dado que


Z

fX (x, ) =

exp {b(x) + A() + d(x)} = 1,

se deduce:
eA()

exp {b(x) + d(x)} = 1

y por tanto
A() = log

exp {b(x) + d(x)} .

El conjunto de valores para los cuales la integral anterior es finita se denomina


espacio del parmetro natural; es el conjunto de valores de que hacen que (3.5)
defina una distribucin. Se llama a b(x) estadstico cannico de la distribucin.
En el Ejemplo 3.4 el parmetro natural es log y el espacio del parmetro natural
es (, +).

CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA

32

3.2. Suficiencia.
Definicin 3.2 Sea X = (X1 , . . . , Xn ) una muestra generada por una distribucin FX (x; ). Se dice que S = S(X) es un estadstico suficiente respecto de (o
suficiente para ) en la familia {FX (x, ), } si:
fX|S (x|s) =

fX (x; )
fS (s; )

(3.7)

no depende de .

La denominacin de suficiente para el estadstico S se justifica porque, en cierto sentido, el conocimiento de S proporciona cuanta informacin existe en la muestra acerca de . Podemos imaginar el espacio muestral de X dividido en regiones,
cada una de ellas proporcionando el mismo valor de S. Una vez que sabemos el
valor de S, la distribucin de X condicionada por S = s es independiente de , y
por tanto el conocer qu muestra concreta x ha dado lugar a S = s es no informativo acerca de . El siguiente ejemplo aporta plausibilidad intuitiva a la afirmacin
anterior.

Ejemplo 3.5 Supongamos dos urnas, con los siguientes contenidos. La


urna A contiene 50 bolas blancas, 20 negras, y 30 azules. La urna B contiene
50 bolas blancas, 40 negras y 10 azules. Si nos presentan una de ambas urnas, sin indicarnos cul, y al extraer una bola resulta ser blanca, este hecho
es no informativo acerca de la identidad de la urna. Ambas pueden generar
bola blanca en una extraccin al azar con la misma probabilidad. El observar
algo que dos o ms estados de la naturaleza pueden generar con la misma
probabilidad es no informativo acerca de cul sea el estado de la naturaleza
prevalente.

Un segundo ejemplo que exhibe suficiencia en un caso extremadamente simple


es el siguiente.

Ejemplo 3.6 Sea una poblacin binaria de parmetro de la que nos


es posible obtener dos observaciones, X1 y X2 . A efectos de inferencia sobre
el parmetro (probabilidad de obtener Xi = 1) parece que slo el nmero
total de unos obtenidos en las dos observaciones importa, y que es irrelevante, en el caso de obtener un nico valor uno, saber si se ha producido en
la primera observacin o en la segunda. Ello sugerira que S(X) = X1 + X2
es suficiente para en la familia de distribuciones binarias. Veamos que ste es efectivamente el caso, comprobando que al condicionar sobre S(X) la

3.2. SUFICIENCIA.

33

distribucin resultante no depende de :


Prob {X = (0, 0)|X1 + X2 = 0} =
Prob {X = (0, 0)|X1 + X2 6= 0} =
Prob {X = (0, 1)|X1 + X2 = 1} =
Prob {X = (1, 0)|X1 + X2 = 1} =
Prob {X = (1, 1)|X1 + X2 = 2} =

1
0
1
2
1
2
1

probabilidades que, en todos los casos, son independientes de . Las probabilidades no recogidas en la relacin anterior son todas cero, de manera
tambin independiente de .

El siguiente teorema, de inmediata demostracin, muestra que la nocin realmente relevante es la de particin suficiente, y que un estadstico suficiente no
hace sino etiquetar las clases de una tal particin.
Teorema 3.1 Todo estadstico T = (S) funcin 1-1 de un estadstico suficiente
S es suficiente.
D EMOSTRACION :
En efecto,


Prob {X = x|(S(X)) = b; } = Prob X = x|S(X) = 1 (b);


= Prob X = x|S(X) = 1 (b)
en que la omisin en el ltimo trmino de la igualdad de como argumento se
justifica por la suficiencia de S(X).
Si definimos AS = {as }, particin asociada al estadstico suficiente S, como
el conjunto de clases de equivalencia formadas por puntos x con igual valor de
S(x), vemos que lo que realmente interesa saber a efectos de inferencia sobre
el parmetro no es cul es el valor tomado por S, un determinado estadstico
suficiente, sino la clase de equivalencia en la que est x.
Es tambin claro que cualquier particin mas fina que AS (es decir, cualquier particin formada por clases de equivalencia bs con la propiedad de que para
cualquier bs hay un as tal que bs as ) es tambin suficiente. Intuitivamente, si
el saber en que clase as esta x es cuanto necesitamos a efectos de hacer inferencia
sobre , el saber que x bs as es a fortiori suficiente. Un argumento formal
sera el proporcionado por el teorema a continuacin.
Teorema 3.2 Si AS es una particin suficiente y Bs es una particin ms fina,
entonces Bs es tambin una particin suficiente.

34

CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA


D EMOSTRACION :
Existe as verificando bs as . Se tiene entonces que:

Prob {(X = x) (X bs )}
Prob {X bs }
Prob {(X = x) (X (bs as ))} /Prob {as }
=
Prob {X (bs as )} /Prob {as }
Prob {(X = x) (X bs )|X as }
=
Prob {X bs |X as }
y esta ltima expresin es independiente de por suficiencia de AS , lo que implica
que Prob {X = x|bs } tambin lo es.
El teorema anterior tiene una consecuencia inmediata: si un estadstico S suficiente puede expresarse como funcin de otro estadstico T , entonces T es tambin
suficiente. En efecto, si T (x) = T (y), entonces S(x) = S(y); dos muestras que
den lugar al mismo valor de T dan lugar al mismo valor de S, y, en consecuencia,
es indiferente obtener una u otra a efectos de inferencia sobre .
Un estadstico suficiente que puede obtenerse como funcin de cualquier otro
estadstico suficiente, se dice que es mnimo suficiente. La particin del espacio
muestral en clases cada una de las cuales da lugar al mismo valor de un estadstico
mnimo suficiente, es la particin menos fina que conserva la suficiencia.
Los siguientes ejemplos de estadsticos y particiones suficientes ilustran los
conceptos anteriores.
Prob {X = x|bs } =

Ejemplo 3.7 Consideremos la estimacin del parmetro media en una


distribucin uniforme U (0, 2) (cuya media, por tanto, es ). Podemos tomar
una muestra X = (X1 , . . . , Xn ) , cuyos valores ordenados denominaremos
por X(1) , X(2) , . . . , X(n) . Es fcil ver que un estadstico suficiente para 2
lo es tambin para , y viceversa. Es tambin muy intuitivo que la media
aritmtica estimador habitual de la media poblacional no es suficiente
en nuestro caso. Supongamos que n = 3 y que los tres valores muestrales en
una experimentacin concreta son: 1.2, 1.1, y 6.7. La media aritmtica sera
(1,2 + 1,1 + 6,7)/3 = 3,0. Sin embargo, es claro que hay informacin en la
muestra que permite mejorar nuestra estimacin de sobre la proporcionada
por la media aritmtica. El saber que una observacin es 6.7 nos muestra que
2 6,7, y por tanto 3,35.
El argumento anterior sugiere que X(n) el mayor de los valores muestrales, o n-simo estadstico de orden es particularmente informativo acerca de en la clase de distribuciones uniformes U (0, 2). Haciendo uso de la
Definicin 3.2 vamos a demostrar que tal estadstico es suficiente.
Sea S = X(n) . Entonces,


FS (s; ) = Prob X(n) s
=

Prob {ni=1 (Xi s)}


n
Y
Prob {Xi s}
i=1

 s n
2

3.2. SUFICIENCIA.

35

Derivando esta ltima expresin tenemos:


fS (s; ) =

nsn1
,
(2)n

(0 < s < 2)

Por otra parte:


fX (x; ) =

n
Y

fX (x; ) =

i=1

1
(2)n

Por consiguiente:
fX|S (x|s) =

fX (x; )
1
= n1
fS (s; )
ns

expresin independiente de lo que, de acuerdo con con la Definicin 3.2,


establece la suficiencia de S = X(n) .
En este caso, las clases de equivalencia en que queda dividido el espacio
muestral son las de expresin genrica siguiente:
n
o
as = x : max xi = s
i

Cuando n = 2 dichas clases seran las que ilustra la Figura 3.1; bordes superior y derecho de cuadrados de lado s apoyados sobre los ejes de coordenadas.

Figura 3.1: Clases de equivalencia en la particin mnima suficiente. Distribucin


U (0, 2) con n = 2. a0,3 y a0,6 denotan las clases correspondientes a s = 0,3 y
s = 0,6 del estadstico suficiente S = max{X1 , X2 }
1,00

0,80

0,60
a0,6

0,40
a0,3

0,20

0
0

0,20

0,40

0,60

0,80

1,00

36

CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA


Ejemplo 3.8 Consideremos ahora el caso de una muestra aleatoria simple X = (X1 , . . . , Xn ) procedente de unaP
distribucin de Poisson, P ().
n
Comprobemos que X o, alternativamente, i=1 Xi es un estadstico suficiente para la media, . Como la suma de n v.a. independientes
Pn con distribucin P () se distribuye como P (n), tenemos que si S = i=1 Xi :
PS (s; ) =

en (n)s
s!

Por otra parte:


PX (x; ) =

n
Y
e xi

i=1

En consecuencia:
fX|S (x|s) =

xi !

en s
= Qn
i=1 xi !

fX (x; )
s!
= s Qn
fS (s; )
n
i=1 xi !

que es independiente del parmetro . Se trata de una distribucin multinomial de parmetros n1 , . . . , n1 , s.

La comparacin de este ejemplo con el anterior muestra que lo que en una familia
de distribuciones es un estadstico suficiente para la media, puede no serlo en otra.
Observacin 3.1 Esto obliga a ser cauto en el trabajo estadstico aplicado, y a no apelar alegremente a la nocin de suficiencia para prescindir
de informacin. Un estadstico suficiente contiene cuanta informacin puede
la muestra aportar sobre un parmetro si nuestros supuestos sobre la familia
de distribuciones generadora de la muestra son correctos. No en otro caso.
Y, en la prctica, esta certeza acerca del modelo terico adecuado rara vez
se tiene. Por el contrario, es frecuente el caso de distribuciones difcilmente
distinguibles cuando slo se cuenta con muestras pequeas o moderadas, que
tienen muy diferentes estadsticos suficientes. Un caso claro lo ofreceran las
distribuciones N (, 2 ) y de Cauchy con parmetro de localizacin , C().
Ejemplo 3.9 Sea (X1 , . . . , Xn ) una muestra aleatoria simple y denotemos sus correspondientes valores ordenados por (X(1) , . . . , X(n) ). Conocidos (X(1) , . . . , X(n) ), cualquiera de las permutaciones dando lugar a tales
valores ordenados puede haberse presentado con la misma probabilidad. Por
consiguiente:


1
Prob (X1 , . . . , Xn )|(X(1) , . . . , X(n) ) =
n!

sea cual fuere la distribucin generadora FX (x; ). Por lo tanto, (X(1) , . . . , X(n) )
es un estadstico suficiente.

Ejemplo 3.10 Consideremos el caso en que = {0 , 1 } y las dos


posibles distribuciones FX (x; ) tienen soporte comn. Entonces, la razn
de verosimilitudes:
fX (x; 0 )
R(x) =
fX (x; 1 )

3.3. CARACTERIZACIN DE ESTADSTICOS SUFICIENTES.

37

es un estadstico mnimo suficiente. En efecto,


fX (x|R(x) = r; 0 ) =

fX (x; 0 )
fX (x; 0 )dx

R(X)=r

rfX (x; 1 )
rfX (x; 1 )dx

R(X)=r

fX (x; 1 )
fX (x; 1 )dx

R(X)=r

fX (x|R(x) = r; 1 )

lo que muestra que la densidad condicionada no depende del valor de .

3.3. Caracterizacin de estadsticos suficientes.


La aplicacin directa de la Definicin 3.2 es con frecuencia tediosa, y por otra
parte requiere una conjetura previa acerca de qu estadstico S puede ser suficiente.
El siguiente teorema es de aplicacin frecuentemente mucho ms rpida y directa.
Teorema 3.3 (Teorema de factorizacin) Una condicin necesaria y suficiente para que S = S(X) sea suficiente para en la familia de distribuciones {FX (x; ),
} es que la verosimilitud de la muestra pueda factorizarse as:
fX (x; ) = gS (s; )h(x)

(3.8)

siendo gS (s; ) la funcin de densidad de S y h(x) una funcin dependiente slo


de x, pero no de .
D EMOSTRACION :
i) (Necesidad). Supongamos que S es suficiente. Ello quiere decir, de acuerdo
con la Definicin 3.2, que:
fX|S (x|s) =

fX (x; )
fS (s; )

(3.9)

y por tanto:
fX (x; ) = fX|S (x|s) fS (s; )
| {z } | {z }
h(x)

(3.10)

gS (s;)

ii) (Suficiencia). Denominemos (s) el conjunto formado por todos los posibles valores muestrales x dando lugar al valor S = s, y supongamos que (3.8) se

38

CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA

verifica. Entonces:
fX|S (x|s) =
=

fX (x; )
fX (x; )
=P
fS (s; )
x(s) fX (x; )

gS (s; )h(x)
h(x)
P
=P
gS (s; ) x(s) h(x)
x(s) h(x)

y el ltimo trmino de la derecha es independiente de , lo que establece la suficiencia de S en virtud de la Definicin 3.2. El anterior argumento supone que X es
una variable discreta y (s) un conjunto de probabilidad no nula; en el caso de una
distribucin continua, los sumatorios en la expresin anterior deben reemplazarse
por integrales.
Ejemplo 3.11 Sea una distribucin N (, 1), y una muestra formada
por n observaciones de la misma, X1 , . . . , Xn . La verosimilitud puede escribirse as:
(
)
1
1X
(xi )2 + n log
fX (x; ) = exp
2 i
2
)
(

1
1X 2
2
xi 2xi + + n log
= exp
2 i
2
)
(
)
(
X
1X 2
1
1 2
x + n log
xi n exp
= exp
2
2 i i
2
i
P
Podemos en la anterior expresin identificar sin dificultad i xi como estadstico suficiente para , de acuerdo con el teorema de factorizacin.
Ejemplo 3.12 En el Ejemplo 3.9, pg. 36, se comprob que la (X(1) , . . . , X(n) ),
la muestra ordenada, era suficiente. Ciertamente, es un estadstico suficiente
bastante trivial, que no efecta una gran reduccin de la muestra. En ocasiones, sin embargo, es todo lo lejos que se puede ir.
La distribucin de Cauchy con parmetro de localizacin , C(), proporciona una ilustracin simple de ello. La densidad de una muestra (x1 , . . . , xn )
es de la forma

n 
Y
1
1
,
fX (x; ) =
1 + (xi )2
i=1
para < xi < , e i = 1, . . . , n. Puede verse fcilmente que cualquier
intento de factorizar la expresin anterior obliga a englobar en gS (s; ) una
funcin s de la muestra que depende de todos los valores muestrales. No es
posible ninguna reduccin: S = (X(1) , . . . , X(n) ) es mnimo suficiente.

Ejemplo 3.13 En el Ejemplo 3.7, pg. 34, se comprob que en el caso


de una distribucin uniforme U (0, 2) el mayor estadstico de orden X(n)
es suficiente para . Podemos llegar al mismo resultado haciendo uso del
teorema de factorizacin. En efecto,
fX (x; ) =

(2)n H(2 x(n) )

con H(z) = 1 cuando z > 0 y H(z) = 0 en caso contrario. Por tanto,


2n H(2 x(n) ) juega el papel de gS (s; ) en (3.8), y x(n) es suficiente.

3.4. COMPLETITUD, ANCILARIDAD, Y SUFICIENCIA.

39

Ejemplo 3.14 La minimalidad en el Ejemplo 3.10 tambin es simple


de establecer haciendo uso del teorema de factorizacin. Bastar para ello
comprobar que, sea cual fuere el estadstico suficiente U que consideremos,
R(X) = H(U ) para alguna funcin H(). Esto sucede:
R(X) =

gU (U ; 0 )h(X)
fX (X; 0 )
=
= H(U )
fX (X; 1 )
gU (U ; 1 )h(X)

3.4. Completitud, ancilaridad, y suficiencia.


Asociadas a la nocin de suficiencia estn las de ancilaridad y completitud.
Definicin 3.3 Dada una familia de distribuciones {FX (x; ), } se dice que
V (X) es un estadstico ancilar si su distribucin es independiente de . Es ancilar
de primer orden si su valor medio no depende de .
De acuerdo con el argumento esbozado inmediatamente despus de la Definicin 3.2, podemos considerar que un estadstico ancilar carece, por si mismo, de
contenido informativo acerca de . Obsrvese, sin embargo, que un estadstico ancilar puede, en compaa de otro, ser muy informativo quiz incluso suficiente
.
Ejemplo 3.15 Sea X(1) , . . . , X(n) una muestra aleatoria simple procedente de una poblacin U (0, ). Entonces, de modo enteramente anlogo a
como sucede en el Ejemplo 3.7 (pg. 34), X(n) es suficiente para , y es claro adems que X(1) no es suficiente. Se puede demostrar, sin embargo, que
X(n) /X(1) sigue una distribucin que para nada depende de , y es por tanto
ancilar. Y sin embargo, X(1) , X(n) /X(1) es suficiente! Vemos aqu como un
estadstico ancilar, en compaa de otro que por s slo es bastante poco informativo acerca de , proporciona un estadstico suficiente. El ejemplo 8.11
en Garn y Tusell (1991) muestra con ms detalle un caso similar.
Definicin 3.4 Un estadstico T es completo en la familia {FX (x; ), } si no
existe ninguna funcin de l (salvo la funcin constante, (T ) = c) que sea ancilar
de primer orden. Es decir, si de E [(T )] = c, , se deduce necesariamente
que (T ) = c. Un estadstico es acotado completo si lo anterior se verifica para
cualquier funcin () acotada.
De nuevo la definicin anterior tiene un contenido intuitivo notable. Un estadstico es completo si ninguna funcin de l salvo la funcin constante est
desprovista de informacin acerca de . El significado de esto es ms claro si consideramos un estadstico que no sea completo.
Ejemplo 3.16 Sea una distribucin N (, 1), y una muestra formada
por dos observaciones de la misma, (X1 , X2 ). Claramente, (X2 X1 ) sigue una distribucin que no depende de : N (0, 2 = 2). Por tanto, T =
(X1 , X2 ) no ser un estadstico completo, y (T ) = X2 X1 es ancilar de
primer orden.

40

CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA


Ejemplo 3.17 El estadstico X(1) , X(n) /X(1) en el Ejemplo 3.15 no es
completo; una parte de l, X(n) /X(1) es ancilar.

3.5. Suficiencia y familia exponencial.


La inspeccin de la forma general de la densidad (o cuanta) de una distribucin
en la familia exponencial,
fX (x; ) = exp {a()b(x) + c() + d(x)}
muestra que, si se cumplen las condiciones que permiten aplicar el teorema de
factorizacin (Teorema 3.3), se tendr:
)
(
n
n
X
X
d(xi )
b(xi ) + nc() +
fX (x; ) = exp a()
(

= exp a()

i=1
n
X

b(xi ) + nc() exp

i=1

= gS (s; )h(x)
con:

s=

i=1

n
X

( n
X
i=1

d(xi )

b(xi )

i=1

La generalizacin al caso multiparamtrico es obvia, tenindose entonces que:


!
n
n
X
X
bk (xi )
b1 (xi ), . . . ,
i=1

i=1

son estadsticos conjuntamente suficientes para (a1 (), . . . , ak ()).


En general, pues, salvo en casos patolgicos en que est vedado el empleo
del Teorema 3.3, las distribuciones en la familia exponencial poseen estadsticos
suficientes. La relacin entre la pertenencia a dicha familia y la existencia de estadsticos suficientes va ms all sin embargo, como se desprende del siguiente,
Teorema 3.4 (Teorema de Darmois) Sea X una variable aleatoria con densidad
fX (x; ), . Supongamos que el dominio de variacin de X es independiente
de , y que (X1 , . . . , Xn ) es una m.a.s. de tamao n de dicha variable. Entonces:
i) Si existe n > 1 tal que (X1 , . . . , Xn ) admite un estadstico suficiente,
fX (x; ) = exp {a()b(x) + c() + d(x)} .
P
ii) Si fX (x; ) = exp {a()b(x) + c() + d(x)} y la aplicacin x1 ni=1 b(xi )
es biunvoca para todo x1 , .P
. . , xn , entonces para n 1 admite un estadstico suficiente. En particular, r = ni=1 b(xi ) es uno.

3.6. ESTADSTICOS SUFICIENTES Y SOLUCIONES DE BAYES.

41

La demostracin puede hallarse en Fourgeaud y Fuchs (1967), p. 192.


Observacin 3.2 El enunciado del teorema anterior puede sugerir que,
en la familia exponencial, cuando hay un nico parmetro, hay un estadstico
suficiente escalar; o, ms generalmente, que la dimensin del vector de parmetros y del estadstico suficiente son iguales. Ello es frecuentemente el caso,
pero no siempre. Por ejemplo, consideremos el caso en que la probabilidad
de que un sujeto sobreviva ms de t unidades de tiempo es:
Prob {T > t} = et
y por tanto, la funcin de distribucin de T , tiempo de vida, es:
FT (t) = 1 et
Si en una muestra de N sujetos se producen d muertes en los momentos
ti , (i = 1, . . . , d), y los restantes s = N d sujetos permanecen todava
vivos en los momentos uj , (j = d + 1, . . . , N ), la densidad conjunta puede
escribirse as:

N
d

X
X
(3.11)
ti +
uj
fT ,U (t, u) = d exp

i=1
j=d+1

d
N

X
X
= exp
ti +
uj + d log (3.12)

i=1

j=d+1

Hay un slo parmetro,


como
 estadstico suficiente neceP. Sin embargo,
PN
d
sitamos tanto d como
i=1 ti +
j=d+1 uj ; ambos conjuntamente son
un estadstico suficiente. Se dice que estamos ante una distribucin curvada; hay un slo parmetro, pero es como si existieran dos ( y log ). Este
ejemplo concreto procede de Berkson (1980). Otro ejemplo puede verse en
Lehmann (1983), pg. 45. En Cox y Hinkley (1974) pg. 28 y ss. se ofrecen ejemplos adicionales que muestran que el nmero de parmetros (q) y el
de estadsticos suficientes (m) no tienen necesariamente que coincidir: tanto
m > q como q > m son situaciones posibles.

3.6. Estadsticos suficientes y soluciones de Bayes.


Hemos justificado en la Seccin 3.2 el inters de emplear estadsticos suficientes apelando a la intuicin. Pueden ahora darse argumentos adicionales.
Recordemos (Seccin 1.10) que estamos interesados en la clase de procedimientos de Bayes y sus lmites, como punto de partida para localizar procedimientos admisibles. Pues bien: de acuerdo con (1.18), especificada una funcin de prdida, el procedimiento de Bayes depende de X slo a travs de f|X (|x), que a

42

CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA

su vez depende de X slo a travs del estadstico suficiente S(X). En efecto:


fX | (x |)()
fX (x)
gS (s; )h(x)()
= R
gS (s; )h(x)( )d
gS (s; )()
= R
gS (s; )( )d
= G(s; )

f|X (|x) =

Una vez constatado que el limitar nuestra atencin a procedimientos que son
funcin de estadsticos suficientes nos da acceso a todos los procedimientos de Bayes, es claro que desearemos la mxima simplificacin, limitndonos a considerar
estadsticos no slo suficientes sino mnimos suficientes.

3.7. Caracterizacin de la suficiencia minimal.


Hemos visto (comentario tras el Teorema 3.1, pg. 33) que la nocin realmente
importante es la de particin suficiente. La particin mnima suficiente ser la
particin suficiente menos fina posible. Tenemos entonces el siguiente resultado.
Teorema 3.5 Sea X1 , . . . , Xn una muestra generada por una distribucin en la
familia {FX (x; ), }. Sea S la particin del espacio muestral que se obtiene
al agrupar en clases de equivalencia los puntos cuya razn de verosimilitudes
no depende de ; es decir, denotando por la pertenencia a la misma clase de
equivalencia, aquella particin tal que
x y

fX (y; )
= m(x, y).
fX (x; )

(3.13)

Entonces, S es mnima suficiente, y cualquier estadstico T tomando valores diferentes en cada clase St S es mnimo suficiente.
D EMOSTRACION :
En lo que sigue, se hace la demostracin para el caso de una distribucin discreta; el caso continuo es sustancialmente idntico en esencia, pero formalmente
mas difcil de tratar. Comprobemos en primer lugar que la particin es suficiente.
Sea,
X
fX (y; )
(3.14)
g(t, ) =
ySt

y definamos
h(x|t) =

fX (x; )
=
ySt fX (y; )

ySt

m(x, y)

(3.15)

3.7. CARACTERIZACIN DE LA SUFICIENCIA MINIMAL.

43

Es claro entonces que,


fX (x; ) = g(t, )h(x|t)

(3.16)

Como g(t, ) depende de la muestra slo a travs de t y h(x|t) no depende de ,


el Teorema 3.3 garantiza la suficiencia de T .
Tenemos ahora que ver que T es mnimo suficiente. Bastara para ello probar
que, para cualquier otro estadstico suficiente U , U (x) = U (y) = T (x) =
T (y). Pero esto se deduce sin dificultad: como U es suficiente,
fX (x; ) = g1 (u(x), )g2 (x)
fX (y; ) = g1 (u(y), )g2 (y),

y
fX (x; )
fX (y; )

g1 (u(x), )g2 (x)


g2 (x)
=
.
g1 (u(y), )g2 (y)
g2 (y)

Como este ltimo trmino es funcin exclusivamente de x y de y, es claro que


x y y en consecuencia T (x) = T (y).

Ejemplo 3.18 Consideremos una distribucin binaria de la que se obtiene una muestra de tamao n. Estarn en la misma clase de la particin
mnima suficiente aquellos puntos verificando
Pn

Pn

i=1 xi (1 )n i=1 xi
Pn
Pn
= m(x, y);
i=1 yi (1 )n i=1 yi
Pn
Pn
ello requiere i=1 xi = i=1 yi .

Hay algunos otros resultados que permiten en ocasiones caracterizar la suficiencia minimal. Los enunciamos a continuacin.
Teorema 3.6 Si un estadstico es suficiente y acotado completo, es minimal suficiente.
Una demostracin puede encontrarse en Fourgeaud y Fuchs (1967).
Ejemplo 3.19 Comprobemos que S = X(n) es minimal suficiente en
una distribucin U (0, 2). En el Ejemplo 3.7 vimos que S es suficiente para
en dicha distribucin, y que su funcin de densidad es
fS (s; ) =

nsn1
;
(2)n

44

CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA


podemos pues limitarnos ahora a comprobar que es acotado completo. De
acuerdo con la Definicin 3.4, pg. 39, basta que comprobemos que de E[(S)] =
0 para todo se deduce necesariamente (S) = 0. Y as es, pues derivando
la igualdad
Z 2
nsn1
ds = 0
(3.17)
E[(S)] =
(s)
(2)n
0
respecto de su lmite superior, obtenemos
(2)

n(2)n1
=0
(2)n

de donde se sigue que (2) = 0.

En la familia exponencial, es simple establecer suficiencia minimal. Es evidente en virtud del teorema de factorizacin yPde la expresin (3.1) ( (3.2), si estamos
anteP
una familia multiparamtrica)
que j b(Xj ) (o, en el caso multiparamtriP
co, j b1 (Xj ), . . . , j bk (Xj )) son estadsticos suficientes. El siguiente teorema
permite establecer suficiencia minimal.
Teorema 3.7 Si X sigue una distribucin en la familia exponencial y de rango
completo1 , entonces

X
X

(3.18)
b1 (Xj ), . . . ,
bk (Xj )
j

es mnimo suficiente.

D EMOSTRACION :Puede demostrarse como corolario del Teorema 3.5. En efecto,


la condicin de suficiencia mnima (3.13) requiere en el caso de distribuciones en
la familia exponencial
nP
o
Pn
Pn
k
exp
(a
()
b
(y
))
+
nc()
+
d(y
)
j
j
i
i
j=1
i=1
i=1
fX (y; )
nP
o
=
P
P
k
n
n
fX (x; )
exp
(a
()
b
(x
))
+
nc()
+
d(x
)
j
j
i
i
j=1
i=1
i=1

#
"
n
n
n
n
k

X
X
X
X
X
d(yi ) .
d(xi )
bj (yi ) +
bj (xi )
aj ()
= exp

j=1

i=1

i=1

i=1

i=1

En el caso de rango completo, para que la expresin anterior no dependa de sera


preciso que
n
n
X
X
bj (yi )
(i = 1, 2, . . . , k.)
bj (xi ) =
i=1

i=1

1
Se dice que la familia es de rango completo si (a1 (), . . . , ak ()) genera un conjunto conteniendo un rectngulo de dimensin k cuando toma valores en .

3.7. CARACTERIZACIN DE LA SUFICIENCIA MINIMAL.

45

Por tanto, cada vector k-dimensional


n
X

b1 (xi ),

n
X

b2 (xi ), . . . ,

bk (xi )

i=1

i=1

i=1

n
X

determina una clase de la particin mnima suficiente.

Ejemplo 3.20 Sea X1 , . . . , Xn una m.a.s. generada por una distribucin N (, 2 ). Entonces, (X, S 2 ) es un estadstico mnimo suficiente para
(, 2 ). En efecto,

n Y


n
(xi )2
1

exp
fX (x, , 2 ) =
2 2
2
i=1
P
Pn



ni=1 xi
1
n2
1 i=1 x2i

+
+
n
log
= exp
e
2 2
2 2
2
2
La expresin anterior puede escribirse en la forma cannica de las densidades
de la familia exponencial (vase (3.2) y Ejemplo 3.1),
)
( k
X
ai ()bi (x) + nc() + d(x) ,
(3.19)
fX (x; ) = exp
i=1

con

a1 () =
a2 () =
n
X

i=1
n
X

b1 (xi ) =

(, 2 )
1
2
2

2
n
X
x2i
i=1

b2 (xi ) =

n
X

xi

i=1

i=1

c() =

n2
2 + n loge
2

P
P
Por consiguiente, en aplicacin del Teorema 3.7, ( xi , x2i ) o cualquier
funcin biunvoca de l es un estadstico suficiente para (, 2 ).

Ejemplo 3.21 Podramos tambin llegar al mismo resultado del ejemplo anterior mediante aplicacin del Teorema 3.5. La particin mnima suficiente sera aqulla que pusiera en la misma clase de equivalencia puntos x,
y verificando
fX (y; )
= m(x, y).
fX (x; )

CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA

46

En nuestro caso,
fX (y; )
fX (x; )

=
=

)
n

1 X
(xi )2 (yi )2
exp 2
2 i=1
!#)
(
" n
n
n
n
X
X
1 X 2 X 2
.
yi
xi
y 2
exp 2
x
2 i=1 i i=1 i
i=1
i=1
(

Para que esta funcin no dependa de ni de 2 todo lo que se requiere es


que
n
X

i=1
n
X

x2i
xi

=
=

n
X

i=1
n
X

yi2

(3.20)

yi

(3.21)

i=1

i=1

P
P
Por consiguiente ( ni=1 xi , ni=1 x2i ), oP
cualquier funcin biunvoca de din
cho estadstico, como por ejemplo (x, i=1 (xi x)2 ), es un estadstico
mnimo suficiente.

CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER


3.1 Utilcese el procedimiento en el Ejemplo 3.21 para mostrar que al
estimar el modelo lineal ordinario Y = X + con las condiciones habitua = (X X)1 X Y y SSE = (Y X )
(Y
les ms la de normalidad,
2

X ) son conjuntamente suficientes para los parmetros (, )


3.2 En la familia de distribuciones uniformes, U ( 12 , + 21 ). en-

cuntrese un estadstico suficiente para . Es completo?

3.3 Sea X1 , . . . , Xn una m.a.s. procedente de una distribucin con


densidad
fX (x; ) =

e(x)
0

si x > ,
n otro caso.

Mustrese que X(1) es suficiente para .

3.4 Sea X1 , . . . , Xn una m.a.s. procedente de una distribucin beta


con densidad
fX (x; r, s)

1
xr1 (1 x)s1
(r, s)

en que 0 < x < 1, P


r > 0, s > 0P
y (r, s) es la constante de normalizacin.
Comprubese que ( i log(Xi ), i log(1 Xi )) es suficiente para r y s.

3.5 Sean Y1 , . . . , Yn variables aleatorias independientes con densidades respectivas j ej yj , j > 0, j = 1, . . . , n. Supongamos que log(j ) =
xj , j = 1, . . . , n, y que x1 , . . . , xn son constantes fijas y positivas. Mustrese que no es de rango completo.

Captulo 4

Procedimientos insesgados.

4.1. La condicin de insesgadez.


Vimos (Ejemplo 1.6, pg. 5) que la bsqueda de un procedimiento mejor que
cualquier otro estaba condenada al fracaso. Pero se apunt all que quiz si nos
restringimos a una clase de procedimientos razonable, que excluya comportamientos excelentes en casos aislados y muy malos en todos los dems estados de
la naturaleza, s podramos encontrar un procedimiento ptimo.
La restriccin de insesgadez es una forma de imponer tal comportamiento razonable a los procedimientos que estamos dispuestos a considerar1 .
En un problema de decisin, se dice que el procedimiento (X) es insesgado
si:
E L( , (X)) E L(, (X))

(4.1)

Restringir nuestra atencin a procedimientos que verifican (4.1) elimina de nuestra


consideracin procedimientos como 2 (X) en el referido Ejemplo 1.6.
En problemas de estimacin puntual de una funcin () se dice que (X) es
un procedimiento insesgado si:
E ((X)) = ()

(4.2)

Ambas condiciones de insesgadez (la dada por (4.1) y la dada por (4.2)) pueden reconciliarse fcilmente, dado que, salvo en condiciones bastante anmalas, se
implican mutuamente. El siguiente ejemplo lo ilustra.
1

En palabras de Lehmann (ver Lehmann (1983)) es una condicin de imparcialidad.

47

48

CAPTULO 4. PROCEDIMIENTOS INSESGADOS.


Ejemplo 4.1 Supongamos un problema de estimacin puntual con funcin de prdida cuadrtica. La condicin de insesgadez (4.1) requiere:
E ( (X))2 E ( (X))2

(4.3)

Sumando y restando E ((X)) en el interior de cada parntesis y tomando valor medio, tras simplificar tenemos:
2

E [ E (X)] E [ E (X)]2

(4.4)

que se verifica slo si E (X) = . La equivalencia entre (4.1) y (4.2) va


ms lejos de lo que el argumento anterior deja entrever: (4.1) y (4.2) son
equivalentes en condiciones bastante generales (ver Lehmann (1959), p. 22).
En lo sucesivo, cuando hablemos de insesgadez en un contexto de estimacin
de parmetros, nos estaremos refiriendo a estimadores verificando (4.2).

En problemas de contraste de hiptesis, al igual que sucede en problemas de estimacin, se define insesgadez mediante una condicin estrechamente relacionada
con (4.1), cuya discusin abordaremos en el Captulo 8.
Es importante darse cuenta de que la insesgadez, siendo como es una propiedad intuitivamente atrayente, no es un requerimiento imprescindible, ni necesariamente deseable. En ocasiones, ni siquiera existen procedimientos insesgados. Los
siguientes ejemplos ilustran estas ideas.
Ejemplo 4.2 (un estimador insesgado claramente indeseable) Sea =
(X)) un estimador de con prdida cuadrtica, L(, t) = (t )2 . Supongamos que la distribucin de es tal que:
1
2
Tal estimador es insesgado. Sin embargo, siempre tendr mayor prdida que
otro, , acaso sesgado pero verificando:
Prob { = + 100} = Prob { = 100} =

Prob {| | 5} = 1
En consecuencia, es inadmisible.
Existen otros muchos ejemplos de estimadores de Bayes que son sesgados, menos artificialmente simples que el presente. La teora de Modelos
Lineales muestra que, si la prdida es cuadrtica, un estimador sesgado (el
estimador ridge) puede ser preferible al (insesgado ptimo) proporcionado
por mnimos cuadrados ordinarios, y que la mejora derivada de tolerar algn sesgo puede ser notable (en los casos de acusada multicolinealidad).
Garthwaite et al. (1995), pg. 35, proporciona un ejemplo alternativo a ste.

Ejemplo 4.3 (un estimador insesgado puede ocasionalmente dar resultados absurdos) La insesgadez, cuando el estimando est constreido a
estar en un cierto rango, da lugar a situaciones anmalas. Supongamos que
se desea estimar 2 o coeficiente de correlacin al cuadrado entre dos variables. Por definicin, 0 2 1. Si obligamos a un estimador 2 a ser
insesgado, nos encontraremos con que podemos obtener 2 < 0 sobre otras
2 > 1. En efecto, el ser insesgado cuando 2 = 0 obliga a que eventualmente 2 < 0 (si siempre fuera 2 0, E[
2 ] > 0 contra el supuesto de
2
insesgadez). Lo mismo ocurre cuando = 1.

4.2. FUNCIONES CONVEXAS.

49

Ejemplo 4.4 (no existencia de estimadores insesgados de una cierta


funcin) Consideremos una moneda cuya probabilidad de dar cara al ser
arrojada es . Estamos interesados en estimar no , sino la razn de probabilidades cara/cruz, es decir, () = /(1 ), y contamos con una muestra formada por n observaciones independientes X1 , . . . , Xn . Sea S(X) =
X1 + . . . Xn .
No existe un estimador insesgado. Si lo hubiera, debera verificar:
X

E (X) =
(x)s(x) (1 )ns(x) =
(4.5)
1
xX
P
en que s(x) =
xi y X es el conjunto formado por todas las posibles ntuplas de ceros y unos. Sin embargo, el lado izquierdo de la igualdad anterior
es un polinomio de grado finito en , en tanto que el lado derecho puede
escribirse como (1 + + 2 + . . .); ningn polinomio puede igualar a la
serie de potencias en el lado derecho para cualquier valor de .

4.2. Funciones convexas.


Una funcin (x) real-valorada en el intervalo (a, b) ( a < b ) es
convexa si para cualesquiera x, y, con a < x < y < b y para cualquier 0 < < 1
se verifica:
(x + (1 )y) (x) + (1 )(y)

(4.6)

Decimos que es una funcin estrictamente convexa si la desigualdad en la expresin anterior es estricta. Una funcin (x) es cncava en [a, b] si (x) es convexa
en el mismo intervalo. Es inmediato ver que, en el caso de funciones derivables,
(x) montona no decreciente es condicin necesaria y suficiente de convexidad;
(x) 0 es condicin suficiente pero no necesaria para la convexidad de (x).
Las siguientes propiedades de las funciones convexas, enunciadas como teoremas, sern de utilidad.
Teorema 4.1 Si (x) es convexa en (a, b) y t (a, b), siempre existe una recta de
ecuacin y = L(x) = c(x t) + (t) a travs de (t, (t)) tal que: L(x) (x),
x (a, b).
La prueba es sencilla, y resulta innecesaria a la vista de un grfico. Todo lo que
el teorema establece es que para cualquier t en el intervalo de convexidad podemos
trazar una tangente2 a una funcin convexa que queda siempre por debajo.
Teorema 4.2 (Desigualdad de Jensen) Si (x) es una funcin convexa en el intervalo soporte de la v.a. X, y X tiene momento de primer orden finito, se tiene
que:
(E(X)) E [(X)]

(4.7)

2
Estrictamente, podra no ser una tangente en el sentido habitual, y limitarse a tocar a la funcin
convexa en un punto donde sta es angulosa.

CAPTULO 4. PROCEDIMIENTOS INSESGADOS.

50
D EMOSTRACION :

Sea y = L(x) la recta aludida en el teorema anterior, con t = E(X). Entonces:


E [(X)] E [L(X)]

= E [c(X t)] + (t)

= (E[X])

Ejemplo 4.5 Una situacin en que la desigualdad de Jensen es de aplicacin inmediata es aqulla en que el regresando en un modelo lineal es una
funcin cncava (o convexa) de la variable que resulta de inters predecir.
Por ejemplo, podemos tener:
Yi = log Zi = xi + i
De acuerdo con el teorema de Gauss-Markov, sabemos entonces que una
prediccin insesgada y de varianza mnima del valor y del regresando es
x + . Es decir:
= y
E[x ]

(4.8)

Sin embargo, la variable que deseamos predecir es z = ey . Como la funcin exponencial es convexa, de acuerdo con la desigualdad de Jensen se
tiene:
E[Z ] eE[Y ]
Si x estima insesgadamente el exponente del lado derecho en la expresin

anterior, ex ser un estimador sesgado por defecto de E[Z ].
Si quisiramos corregir este sesgo, podramos quiz linealizar la funcin
logaritmo. En la prctica, el sesgo suele ser de entidad lo suficientemente
reducida en comparacin con la varianza de la prediccin como para no ser
considerado.

4.3. Estimacin insesgada puntual.


Demostraremos en lo que sigue algunos resultados de gran alcance, que muestran la forma de obtener estimadores insesgados ptimos con funciones de prdida
bastante generales (convexas3 , lo que en particular incluye la estimacin mnimocuadrtica).
3

La convexidad es una propiedad intuitivamente plausible en una funcin de prdida. En esencia


supone, en un problema de estimacin paramtrica, que la prdida en que se incurre al estimar un
parmetro crece ms que proporcionalmente al error cometido en la estimacin.

4.3. ESTIMACIN INSESGADA PUNTUAL.

51

Teorema 4.3 (Rao - Blackwell) Sea X una v.a. con distribucin {FX (x, ),

}, y S = S(X) un estadstico suficiente para . Sea (X)


un estimador de , y
) la funcin de prdida, convexa en .
Si (X)

L(,
tiene media finita y riesgo:
h
i
= E L(,
) <
r ()
y definimos:

h
i

(s) = E (X)|S
=s

entonces:

r (
(s)) < r ()
D EMOSTRACION :
Es una aplicacin de la desigualdad de Jensen:
h
i

, )
L(
, ) = L(EX|S (X)
h
i

)
= (EX|S (X)
h
i

EX|S ((X))
h
i

)
= EX|S L((X),

Tomando ahora valor medio respecto de la distribucin de S tenemos:


h
ii
h

)
ES [L(
, )] ES EX|S L((X),


y como ES EX|S [] = EX [] obtenemos en definitiva:
h
i

ES [L(
, )] E L((X),
)

r (
) r ()

La desigualdad es estricta si la funcin de prdida es estrictamente convexa.

Observemos, de paso, que, si (X)


es insesgado, la aplicacin del teorema de
Rao-Blackwell proporciona un (S) tambin insesgado. En efecto:
h
ii
h
h
i

= ES [
(S)]
= E (X)
= ES EX|S (X)|S

CAPTULO 4. PROCEDIMIENTOS INSESGADOS.

52

Observacin 4.1 Dnde se ha hecho uso de la suficiencia de S? Parece a primera vista que en ninguna parte, y que bastara condicionar sobre
cualquier cosa para que el teorema de Rao-Blackwell surtiera efecto.
Observemos que ello no es as. Si queremos que (S) sea un estimador,
no debe depender del parmetro . Si S es suficiente,
h
i Z

(S) = EX|S (X)|S


= (X)f
X|S (x|s)dx
y se verifica esta condicin de no dependencia de (pues, por definicin de
suficiencia, fX|S (x|s) no depende de dicho parmetro). No podra afirmarse
lo mismo si S no fuera suficiente.

Cuando en un problema de estimacin puntual con prdida convexa se dispone


de un estadstico que no slo es suficiente sino tambin completo, puede afirmarse
la existencia de un estimador nico y de riesgo mnimo para cualquier funcin estimable de (es decir, para cualquier () para la que exista alguna funcin de la
muestra verificando E [(X))] = (), ). El siguiente teorema proporciona los detalles.
Teorema 4.4 Sea X una variable aleatoria con distribucin FX (x; ), y S un estadstico suficiente para en la familia {FX (x; ), }. Entonces, cualquier
funcin estimable () posee un estimador insesgado que depende slo de S. Si S
es completo adems de suficiente, este estimador es nico.
D EMOSTRACION :
Por hiptesis existe (X) tal que E [(X)] = (). Condicionando sobre S
obtenemos (S) que conserva la insesgadez. Podra existir otro estimador insesgado,
(S)? No. Si lo hubiera, tendramos (por insesgadez de ambos) que:
E [
(S)] = E [
(S)] = E [
(S)
(S)] = 0
{z
}
|
g(S)

Pero la condicin de completo de S permite entonces conclur que E [g(S)] =


0 g(S) = 0 con probabilidad 1, y por tanto (S) =
(S) (con probabilidad 1).

Si a las condiciones del teorema anterior unimos convexidad de la funcin de


prdida, tenemos el siguiente interesante resultado.

Teorema 4.5 En las condiciones del Teorema 4.4, si L((X),


) es estrictamente

convexa y r () es finito, el nico estimador insesgado obtenido es uniformemente


de mnimo riesgo insesgado. En particular, se trata del estimador insesgado de
mnima varianza uniforme4 .
4

En ocasiones llamado UMVU (UMVU = Uniformly Minimum Variance Unbiased).

4.3. ESTIMACIN INSESGADA PUNTUAL.

53

D EMOSTRACION :
En efecto: consideremos (S) y cualquier otro posible estimador insesgado

(X).
Una aplicacin del teorema de Rao-Blackwell a (X)
producir un
(S)

mejor que (X)


y que necesariamente coincide con (S). Por tanto, ste ltimo es

mejor que (X).

Los Teoremas 4.3 y 4.4 muestran dos vas para obtener estimadores insesgados
de riesgo mnimo. La primera consistira en buscar un estadstico suficiente completo S y, a continuacin, una funcin de l que fuera insesgada. El Teorema 4.4
garantiza que este modo de operar conduce al (esencialmente nico) estimador insesgado de riesgo mnimo.
El inconveniente de este mtodo es que a veces puede no ser fcil de llevar
a cabo la correccin de sesgo aludida, dependiendo del estadstico suficiente que
tomemos como punto de partida.
Hay una segunda va que a menudo permite llegar al mismo resultado de modo
ms simple. Una vez que hemos encontrado un estadstico suficiente completo S,
podemos tomar cualquier estimador insesgado del parmetro de inters y calcular

E[|S].
El Teorema 4.3 garantiza que el resultado es el estimador insesgado de
riesgo mnimo, sin importar cul haya sido el estimador insesgado de partida.
Ejemplo
4.6 Volvamos sobre el Ejemplo 3.8, pg. 36. Vimos all que
Pn
S = i=1 Xi (y, equivalentemente, X) es un estadstico suficiente para
en la clase de distribuciones de Poisson, P (). Adems, X es un estadstico
completo.
El Teorema 4.4 (pg. 52) muestra entonces que X es el nico estimador
insesgado de mnima varianza de (ms generalmente, de mnimo riesgo
para cualquier funcin de prdida convexa).
Ejemplo 4.7 Consideremos de nuevo el caso de una distribucin U (0, 2)
y una m.a.s. X1 , . . . , Xn procedente de ella. Vimos (Ejemplo 3.7, pg. 34)
que X(n) es suficiente para y adems completo (Ejemplo 3.19, pg. 43).
Sea S = X(n) . Entonces,
E [S] =

 n+1 2
nsn1
2n
n
s
=
sds
=
.
n
n
(2)
(2) n + 1 0
n+1

Por tanto, (2n)1 (n + 1)X(n) es un estimador insesgado de que depende


slo del estadstico suficiente X(n) . Es insesgado de mnima varianza.
En este caso, ha sido fcil aplicar la primera va aludida en el texto:
buscar una funcin del estadstico suficiente, calcular su sesgo y corregirlo.

El ejemplo siguiente hace tambin uso de la primera va: imponer la insesgadez


a una funcin de un estadstico completo suficiente.

CAPTULO 4. PROCEDIMIENTOS INSESGADOS.

54

Ejemplo 4.8 (estimador insesgado de mnima varianza de la varianza


de una distribucin binaria) Consideremos una distribucin binaria de parmetro p; su varianza es pq = p(1 p). Sea p el estimador habitual de
p,
n
X
Xi .
(4.9)
p = n1
i=1

Es fcil ver que p es insesgado para p y tambin suficiente y completo. Sin


embargo, el estimador de la varianza p(1 p) no es insesgado. En efecto, en
virtud de la desigualdad de Jensen (Seccin 4.2, pg. 49),
E [
p(1 p] = E [(
p)] (E(
p)) = p(1 p),

dado que (.) es una funcin cncava.


Podemos sinPembargo acometer en este caso la correccin directa del
n
sesgo. Sea T = i=1 Xi (completo suficiente) y (T ) una funcin arbitraria
de dicho estadstico. Dado que T sigue una distribucin binomial, el valor
medio de (T ) es:
E [(T )] =

n
X

 
n t
(t)
p (1 p)nt .
t
t=0

Definiendo = p(1p)1 (por tanto p = (1+)1 y (1p) = (1+)1 ),


n
X

 
n t
E [(T )] =
(t)
p (1 p)nt
t
t=0
 
n
X
1
n
t
.
=
(t)
t
t (1 + ) (1 + )nt
t=0

(4.10)

Igualando (4.10) a p(1 p) y simplificando tenemos:


n
X

 
n
t
1
(t)
t
t (1 + ) (1 + )nt
t=0
 
n
X
n t
(t)

t
t=0
 
n
X
n t
(t)

t
t=0
 
n
X
n t
(t)

t
t=0

(1 + )2

(1 + )n2



 



n2
n1
n 2 n2
+
+ ...+

0
1
n2
n1
X n 2
t .
(4.11)
t

1
t=1

Igualando trminos de igual orden a ambos lados de (4.11) vemos que debe
verificarse:
  

n
t(n t)
n2
(t)
(4.12)
=
= (t) =
n(n 1)
t
t1
para t = 1, . . . , n 1 (y (0) = (n) = 0, que ya quedan recogidos en la
expresin general).

4.3. ESTIMACIN INSESGADA PUNTUAL.

55

Ejemplo 4.9 Supongamos que la v.a. X sigue una distribucin de Poisson y que el parmetro que tenemos inters en estimar es = e =

Prob {X = 0}. Definamos (X)


as: (X)
= 1 si X = 0 y (X)
= 0 en otro

caso. Entonces, (X) es un estimador insesgado de , funcin de un estadstico completo suficiente, y por tanto uniformemente de mnima varianza, de
acuerdo con el Teorema 4.4. Vemoslo.
1. El estadstico X es suficiente; claro, puesto que la totalidad de la muestra es siempre suficiente.
2. El estadstico X es completo en la familia de distribuciones de Poisson
P(). Comprobmoslo. Sea una funcin g(x) tal que E[g(X)] = c.
Ello significara que:

X
j=0

g(j)

e j
j!

X
j=0

[g(j) c]

e j
=0
j!

y por tanto:
[g(j) c] = 0

j entero

g(j) = c

j entero

En consecuencia, la nica funcin g(x) verificando E[g(X)] = c es la


funcin constante.
3. Finalmente, observemos que:

E[(X)]
=

e 0
+ 0 Prob {X > 0}
0!

luego (X)
es insesgado.
Este ejemplo o similares han sido objeto de debate en la literatura. El estimador slo puede proporcionar dos estimaciones: 0 1. Ello es particularmente
molesto cuando = e no puede alcanzar ninguno de ambos extremos:
0 < < 1 si 0 < < . Junto con los ejemplos 4.2 y 4.4, ste muestra que
en algunos casos (en general, bastante anmalos) la eleccin de un estimador
insesgado, incluso de mnima varianza, puede no ser una buena idea.

El siguiente ejemplo, reproducido de Cox y Hinkley (1974), pg. 259, ampla el


precedente considerando n observaciones. Ilustra la segunda va referida ms arriba para obtener estimadores insesgados de riesgo mnimo: condicionar cualquier
estimador insesgado sobre el valor que toma un estadstico completo suficiente.
Ejemplo 4.10 Consideremos la misma situacin examinada en el Ejemplo 4.9, pero suponiento ahora que disponemos de una muestra formada por
n observaciones independientes, X1 , . . . , Xn . Si deseramos estimar , X
sera un estimador insesgado. Pero, para estimar = e , el estimador obvio eX es sesgado (desigualdad de Jensen); y no es inmediato el valor de su
sesgo ni la forma de eliminarlo.
Sin embargo, lo cierto es que X (o, equivalentemente, S = X1 + . . . +
Xn ) es un estadstico completo suficiente (lo que se puede demostrar de modo exactamente anlogo al empleado en el Ejemplo 4.9).

CAPTULO 4. PROCEDIMIENTOS INSESGADOS.

56

Busquemos un estimador insesgado cualquiera de = e ; recordando


que = Prob {X = 0} vemos que:

1 si X1 = 0

(X)
=
0 en otro caso.
es efectivamente insesgado. Entonces, de acuerdo con el Teorema 4.3 tenemos5 que:

(S) = E[(X)|S]
=

1
n

S

(4.13)

es el estimador insesgado (esencialmente nico) de mnima varianza. A la


vista de (4.13) es claro que el indagar directamente qu funcin de S (o de
X) es insesgada no hubiera tenido grandes posibilidades de xito!

4.4. El jackknife
En ocasiones puede ser difcil encontrar un estimador insesgado de partida y
aplicar el procedimiento de Rao-Blackwell para obtener el estimador insesgado de
varianza mnima. Quenouille (1956) propuso un procedimiento para, partiendo de
un estimador sesgado, obtener otro insesgado o con sesgo muy reducido respecto
al estimador inicial. Es la tcnica conocida como jackknifing.
Supongamos que el estimador n , basado en una muestra de tamao n, tiene
un sesgo de orden O(n1 ) como es lo habitual. Supongamos que
E[n ] = +

X
ai
ni
i=1

en que los coeficientes ai pueden depender de (pero no de n) y al menos el


primero es distinto de cero (de forma que el orden del sesgo es el estipulado). El
procedimiento de jackknifing consiste en lo siguiente:
1. Recalcular el estimador n veces, dejando cada vez fuera una observacin.
Esto proporcionar n versiones del estimador que denotaremos por n1,i ,
i = 1, . . . , n, en que el primer subndice alude al tamao de muestra empleado y el segundo a la observacin omitida.
2. Computar la media aritmtica n1 de las n versiones del estimador calculadas en el apartado anterior.
3. Definir el estimador jackknife as:
nJ

= n + (n 1)(n n1 )
= nn (n 1) n1

(4.14)
(4.15)

5
Condicionalmente sobre S, la distribucin de X es multinomial (vase Ejemplo 3.8, pg. 36), y
por tanto la distribucin de X1 condicionado por S es binomial de parmetros n1 , s.

4.4. EL JACKKNIFE

57

Es fcil comprobar que el sesgo de nJ es de menor orden que el de n . En efecto,

X
X
ai
ai
E[nJ ] = n( +
)

(n

1)

+
i
n
(n 1)i
i=1

i=1

a2
+ O(n3 ).
n(n 1)

(4.16)
(4.17)

Por consiguiente, el sesgo original que era O(n1 ) ha quedado reducido a O(n2 ).
Ejemplo 4.11 (estimacin de 2 en una distribucin binaria b()) Si
disponemos de una muestra de n observaciones, sabemos que X = X1 +
. . . + Xn (o, alternativamente, n = X = X/n) son estadsticos suficientes
para . Es claro no obstante que, si bien n es insesgado para , = n2 =
2
X es sesgado para = 2 (consecuencia inmediata de la desigualdad de
Jensen). Veamos cul es este sesgo y cmo eliminarlo o reducirlo haciendo
uso del jackknife. Dado que
2

E[X ] =


2 (1 )
Var(X) + E(X) =
+ 2
n

(4.18)

vemos que Sesgo(


) = E[X ] 2 = n1 (1 ).
Dejando de lado la observacin i-sima slo se pueden obtener dos valores para n1,i :

2
x1

con probabilidad x/n

n1

n1,i =
2

x
nx

con probabilidad
;
n1
n

por consiguiente, el clculo del n1 puede hacerse directamente sin necesidad de recomputar n veces el estimador y promediar los resultados:

2

2
x x1
nx
x
n1 =
+
n n1
n
n1
2
(n 2)x + x
=
n(n 1)2
El estimador jackknife es por tanto:
nJ

=
=
=

n
n (n 1) n1
 x 2
(n 2)x2 + x
n
(n 1)
n
n(n 1)2
x(x 1)
n(n 1)

(4.19)
(4.20)
(4.21)

Puede verificarse con facilidad que, en este caso particular, el jackknife no


slo ha reducido el orden del sesgo, sino que lo ha cancelado en su totalidad.
2
Recordemos que, de acuerdo con (4.18), el sesgo de X es n1 (1 ); por
tanto, la remocin del sesgo de orden O(n) supone la remocin de todo el
sesgo.

58

CAPTULO 4. PROCEDIMIENTOS INSESGADOS.


CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
4.1 En la situacin descrita en el EjemploP4.9, obtngase un estimador
insesgado de mnima varianza para = Prob { ni=1 Xi 1}.

4.2 Se cuenta con dos observaciones independientes X1 y X2 procedentes de una distribucin con densidad
fX (x; )

ex .

Hllese el estimador de mnima varianza insesgado de = Prob {X 1}.

4.3 Sea una m.a.s. X1 , . . . , Xn procedente de una distribucin cuya


densidad es,

fX (x, ) para x [a, b()],
0
en otro caso.
El parmetro a estimar es ; a es una constante y b() una funcin fija de
. Comprubese que, si existe un estadstico suficiente, debe ser X(n) , y que
una condicin suficiente para ello es que fX (x, ) = g(x)h().
(Garthwaite et al. (1995), pg. 37)

4.4 Sea una m.a.s. X1 , . . . , Xn procedente de una distribucin cuya


densidad es,
 1 x/
e
si x 0,
fX (x, ) =
0
en otro caso.
Indquese
de : i) = X1 ; ii) =
Pn cules de los siguientes
Pestimadores
n
1
1

n
i=1 Xi ; iii) = (n + 1)
i=1 Xi ; iv) = nX(1) ; v) = X1 ; vi)
= X(n) , son: a) Insesgados, b) Funcin de estadsticos suficientes y c) De
mnima varianza insesgados.

4.5 Sean X1 , . . . , Xn , variables aleatorias con densidad comn fX| (x |) =


x1 , en que 0 x 1 y > 0.
i) Encuntrese un estadstico suficiente para .

ii) Comprubese que log X1 es un estimador insesgado de 1 .

iii) Haciendo uso del hecho establecido en el apartado anterior, utilcese


el teorema de Rao-Blackwell para encontrar el estimador insesgado de
mnima varianza de 1 .

4.6 Sean X1 , . . . , Xn variables independientes con densidad comn


fX (x|1 , 2 ). Supongamos dos estadsticos T1 y T2 tales que T1 es suficiente
para 1 cuando 2 est dado, y T2 es suficiente para 2 cuando 1 est dado.
Comprubese que T = (T1 , T2 ) es conjuntamente suficiente para (1 , 2 ).

Captulo 5

Eficiencia. La cota de
Cramr-Rao.

5.1. Introduccin
La teora que precede, y en particular el Teorema 4.5, muestran el modo de
establecer optimalidad de un estimador insesgado.
En lo que sigue, probaremos un resultado de menor alcance: bajo ciertas condiciones de regularidad, si es un estimador de se verifica
H(),
Var ()

(5.1)

en que H() es una funcin que podemos obtener fcilmente. Entonces, si para un
estimador insesgado de tuviramos
= H(),
Var ()

(5.2)

no existira ningn otro de varianza menor, y podramos declarar ptimo (en


trminos de varianza y en la clase de los insesgados, no se olvide).
Este procedimiento es inferior al proporcionado por el Teorema 4.5 por varias
razones. En primer lugar, son precisas condiciones de regularidad bsicamente,
la funcin de verosimilitud debe ser lo suficientemente suave, en un sentido que
quedar claro ms abajo. En segundo lugar, (5.1) se refiere slo a prdidas cuadrticas. Finalmente, (5.1) no es una desigualdad ajustada, en el sentido de que
puede suceder que, para todo insesgado,
> H().
Var ()
59

(5.3)

CAPTULO 5. EFICIENCIA. LA COTA DE CRAMR-RAO.

60

Es decir, el lado derecho es una cota inferior, no necesariamente alcanzable, de la

varianza en la estimacin insesgada de por .


Sin embargo, la utilizacin de (5.1) es cmoda en muchas ocasiones, y para su
obtencin haremos uso de algunos resultados de inters en s mismos. Son los que
se demuestran a continuacin.

5.2. Algunos resultados instrumentales


Lema 5.1 Consideremos la funcin de verosimilitud, es decir, fX (x; ) como funcin de , y supongamos que se verifica
Z
Z

fX (x; )dx.
(5.4)
fX (x; )dx =

Entonces,
E0

log fX (X; )

= 0.
=0

D EMOSTRACION :
En efecto, observemos que
log fX (x; )

Por consiguiente,


log fX (X; )
E0

=0

=
=
=
=
=


f (x; )
X

.
fX (x; )

log fX (x; )
dx

Z
f (x; )
X
fX (x; )
dx
fX (x; )
Z

fX (x; )dx

fX (x; )dx

0.
fX (x; )

Ejemplo 5.1 Ilustramos (5.5) en el caso simple en que X N (, 2 =

1) y X1 , . . . , Xn es una muestra aleatoria simple. Entonces,



n 
Y


1
exp (Xi )2 /2 ,
fX (X; ) =
2
i=1

(5.5)

5.2. ALGUNOS RESULTADOS INSTRUMENTALES

61

y
log fX (X; )

n
X
i=1

(Xi ).

Tomando valor medio de esta ltima expresin comprobamos que se anula:

"

n
X
i=1

(Xi )

= n n = 0.

Obsrvese que ello es cierto slo si coinciden los valores del parmetro que
se sustrae de cada Xi y el valor del parmetro para el cul se toma el valor
medio.

Observacin 5.1 En el Lema 5.1 se ha empleado la notacin


E0

log fX (X; )

=0

para enfatizar el hecho de que se toma el valor medio de la derivada del


logaritmo de la verosimilitud evaluada para el valor 0 del parmetro , y
que este valor medio lo es con respecto a la densidad fX (x; 0 ). Ntese que
esto es crtico para que el Lema 5.1 sea vlido.
En lo que sigue, para aligerar la notacin, denota a un tiempo el valor
del parmetro y la variable respecto de la que se deriva, sin que esta notacin
deba inducir a error. Adems, salvo expresa mencin en contrario, las derivadas respecto a se suponen tambin evaluadas en el valor del parmetro.

Lema 5.2 Bajo condiciones de regularidad 1 se tiene:

Var

log fX (X; )


log fX (X; ) 2

 2

log fX (X; )
= E
.
2

= E

(5.6)
(5.7)

D EMOSTRACION :
1

Que permitan intercambiar el orden de las operaciones de derivacin e integracin en los casos en que esto se hace en la demostracin. Las condiciones de regularidad tambin incluyen que
el recorrido de la distribucin no dependa del parmetro (como sucedera, por ejemplo, en una
U (0, )).

CAPTULO 5. EFICIENCIA. LA COTA DE CRAMR-RAO.

62
Se tiene que:
0 =
=
=
=
=
=

(0)
(5.8)



log fX (X; )
E
(5.9)



Z
log fX (x; )
fX (x; ) dx
(5.10)


Z 
2 log fX (x; ) log fX (x; ) fX (x; )
fX (x; )
+
dx
(5.11)
2


 Z 
 2
log fX (x; ) 2
log fX (X; )
fX (x; )dx (5.12)
+
E

2
 2



log fX (X; )
log fX (X; ) 2
E
+ E
.
(5.13)

Se ha hecho uso de
fX (x; )
1
log fX (x; )
=

fX (x; )

para pasar de (5.10) a (5.11). Del hecho de ser (5.13) igual a cero, se deduce
E

log fX (X; )

2

= E


2 log fX (X; )
.
2

5.3. Informacin de Fisher. Cota de Cramr-Rao


Definicin 5.1 Consideremos la variable aleatoria
log fX (X, )
.

Su varianza se denota por IX () y se denomina informacin de Fisher asociada a


una observacin. De acuerdo con el lema anterior:
 2



log fX (X, )
log fX (X, ) 2
= E
IX () = E

2
Observacin 5.2 El nombre de informacin dado a IX () encuentra
en parte su justificacin en el papel que IX () juega en la desigualdad de
Cramr-Frechet-Rao (Teorema 5.1, pg. 64). Una justificacin alternativa,
que puede tener cierto atractivo intuitivo, sera la siguiente.

5.3. INFORMACIN DE FISHER. COTA DE CRAMR-RAO

63

Consideremos una familia de distribuciones, {fX (x, ), }, y dos


miembros de la misma correspondientes a sendos valores del parmetro, 0
(el correcto) y = 0 + d. Pueden proponerse diversas formas de medir
la distancia o discrepancia entre fX (x, 0 ) y fX (x, ). Una de ellas sera:
(0 , ) = E0 [log fX (X, 0 ) log fX (X, )]

(5.14)

Si suponemos fX (x, ) suficientemente derivable respecto a y la sustituimos por su desarrollo en serie de Taylor hasta trminos de segundo orden,
(5.14) se convierte en:
"


log fX (X, )

d
(0 , ) E0 log fX (X, 0 ) log fX (x, 0 )

=0
#


1 2 log fX (X, )
2

(d)
2
2
=0

 2
1 log fX (X, )
(d)2
= E0
2
2
1
IX (0 )(d)2
=
2
Ello muestra IX () como el coeficiente de (d)2 en la medida aproximada
de la distancia entre las dos distribuciones. Cuando IX () es grande, una alteracin de d en el valor del parmetro da lugar a dos distribuciones muy
separadas, y cada observacin es muy informativa. El caso extremo contrario se presentara cuando IX () fuera cero. Entonces, ambas distribuciones
seran (hasta trminos de segundo orden) iguales, y las observaciones de X
sera nulamente informativas (si los dos valores del parmetro, y , dan lugar a distribuciones idnticas, el observar los valores que toma X no permite
discriminar entre una y otra).
El argumento esbozado no depende de manera crtica de la medida de
discrepancia (, ) escogida; se llegara al mismo resultado con otras muchas. Vase al respecto Rao (1965), pg. 271.

Observacin 5.3 Vimos en el Ejemplo 1.7, pg. 6, que no era obvio el


modo en que debe escogerse una distribucin a priori no informativa. Una
opcin muy empleada consiste en emplear la distribucin a priori no informativa de Jeffreys: vase Jeffreys (1961). Consiste en tomar para una funcin
= () tal que IX () sea constante una distribucin a priori () k
(quiz impropia, por consiguiente). Ello equivale a tomar sobre el parmetro
1
de inters una distribucin a priori () IX () 2 .
Lema 5.3 La informacin de Fisher IX () asociada a una muestra aleatoria simple X formada por n observaciones, es nIX ().
D EMOSTRACION :
Si la muestra es aleatoria simple,
fX (X; ) = fX (X1 , ) . . . fX (Xn , )

(5.15)

CAPTULO 5. EFICIENCIA. LA COTA DE CRAMR-RAO.

64

y por consiguiente:
n

log fX (X; ) X log fX (Xi , )


=

(5.16)

i=1

Tomando el valor medio del cuadrado de la expresin anterior, tenemos en el lado


izquierdo la informacin de Fisher correspondiente a la muestra X:




n
X
log fX (X; ) 2
log fX (Xi , ) 2
E
E
=

i=1
 


n
n X
X
log fX (Xj , )
log fX (Xi , )
E
E
+2

i=1 j=i+1

= nIX ()


log fX (Xj , )
habida cuenta de que E
= 0 (Lema 5.1, pg. 60).

Con ayuda de los lemas anteriores podemos ahora fcilmente probar el siguiente teorema.

Teorema 5.1
h iSea = (X) un estimador del parmetro y () su valor medio,
() = E . Entonces, bajo condiciones de regularidad,

Var ()

[ ()]2

log fX (x; )

2

D EMOSTRACION :
() =
=
=
=
=
=

h
i

E (X)
Z

(x)f
X (x; )dx

(x)
fX (x; )dx

Z
log fX (x; ) fX (x; )dx
(x)



log fX (X; )

E (X)



log fX (X; )

E ((X) ())

(5.17)

5.3. INFORMACIN DE FISHER. COTA DE CRAMR-RAO

65

En el ltimo paso se ha tenido en cuenta (Lema 5.1, pg. 60) que




log fX (X, )
E
= 0.

Elevando al cuadrado la igualdad anterior tenemos:


 

 2
log fX (X; ) 2

()
=
E ((X)
())

i  log f (X; ) 2
h
X

E ((X)
())2 E


2
E log fX (X; )
= Var ()

(5.18)
(5.19)
(5.20)

en que el resulta de aplicar la desigualdad de Schwarz a la expresin precedente.


se llega a la tesis del teorema.
Despejando Var ()

Observacin 5.4 En el caso particular de que (X)


sea insesgado para
cualquier valor de , () = , y el numerador de (5.17) es la unidad. Si X
es una muestra formada por observaciones independientes, el denominador
de (5.17) es, de acuerdo con el Lema 5.3, nIX (). En el caso de que ambas

cosas se verifiquen estimador (X)


insesgado y muestra formada por observaciones independientes, la desigualdad (5.17) adopta por consiguiente
la forma:

Var ()

1
nIX ()

(5.21)

Observacin 5.5 Por analoga con la definicin de informacin de Fisher sobre contenida en X, podemos definir informacin de Fisher sobre
contenida en as:
"
#2
)
log f(;
I() = E

(siendo variables cualesquieHagamos el cambio de variables X (, )

ra, que, junto con , permiten recuperar X; vase Cramr (1960), pg. 548 y
siguientes). Entonces:


(, )


)f (;
)
fX (x; ) = f|(|;

x
y se tiene que:

) log f (;
)
log f|(|;
log fX (X; )

=
+

CAPTULO 5. EFICIENCIA. LA COTA DE CRAMR-RAO.

66

ya que el jacobiano de la transformacin no depende de . Elevando al cuadrado y tomando valor medio:

IX ()

"

)
log f|(|;

#2

"

)
log f(;
+ E
E

"
#
) log f (;
)
log f|(|;

+2E

"
#2
)
log f|(|;
E
+ I()

#2

(5.22)

ya que:
E

"

#
) log f (;
)
log f|(|;

!#
"
) log f (;
)
log f|(|;

= E E|

"
!#!
)
)
log f|(|;
log f(;
E|
= E

y el trmino en el corchete es cero (Lema 5.1, pg. 60). De (5.22) se desprende que I() IX (), y que para que se verifique la igualdad es necesario
que:
!
) 2
log f|(|;
=0
(5.23)
E

Ahora bien, (5.23) se verifica siempre que es un estadstico suficiente (pues


el resto de la muestra tiene distribucin
entonces, condicionalmente en ,
independiente de ).

Observacin 5.6 Relacionada con la observacin anterior, tenemos la


siguiente: si I() = IX (), es decir, si es suficiente, la aplicacin del
supuesta insesgada, proporciona:
Teorema 5.1 a la variable aleatoria ,
E ( )2

1
1
=
I()
IX ()

(5.24)

La ltima igualdad est garantizada por la suficiencia, pero ello todava no


implica que el primer trmino y el ltimo sean iguales. La suficiencia no
garantiza que un estimador alcance la cota de Cramr-Rao. Para que ello
ocurra es preciso, adems, que
E ( )2

1
.
I()

(5.25)

El Problema 5.2 proporciona una condicin necesaria y suficiente (bajo condiciones de regularidad) para que ello ocurra.

5.4. EFICIENCIA

67

Examinemos a continuacin casos simples en que la cota de Cramr-Rao permite concluir que estamos ante estimadores insesgados de mnima varianza entre
los que verifican condiciones de regularidad.
Ejemplo 5.2 Consideremos X N (, 2 = 1). Vimos en el Ejem-

plo 5.1, pg. 60, que

log fX (X; )

n
X
i=1

(Xi ).

Tomando valor medio en dicha expresin,


IX ()

= E

log fX (X; )

2

= E

" n
X
i=1

#2

(Xi )

= n 2 = n.

Por consiguiente, la varianza de cualquier estimador insesgado regular est


acotada inferiormente por IX ()1 = n1 . Como quiera que Var(X) = n1
e insesgado, tenemos que X es insesgado de mnima varianza regular.
Ntese que al mismo resultado se puede llegar a partir del teorema de
Rao-Blackwell sin requerir condiciones de regularidad: basta notar el carcter de insesgado de X y que es funcin de un estadstico completo suficiente.

Ejemplo 5.3 (cota de Cramr-Rao para el parmetro de una Poisson)


Sea X PX (x; ) = e x (x!)1 . Entonces,
log PX (X; )

2

log PX (X; )
E

= 1 + 1 X
= E X1 1
= E

= 1 .

2

2

Por consiguiente, IX () = 1 y la cota de Cramr-Rao para cualquier


basado en n observaciones independientes es
estimador

Var()

1
= .
1
n
n

Como quiera que X tiene varianza precisamente /n, concluimos que es


estimador insesgado de mnima varianza.

5.4. Eficiencia
En relacin con la Observacin 5.4, tenemos la siguiente definicin.
Definicin 5.2 Se llama eficiencia (o, a veces, eficiencia de Bahadur) de un estimador insesgado al cociente
1/IX ()

Var()

68

CAPTULO 5. EFICIENCIA. LA COTA DE CRAMR-RAO.

Un estimador que alcance la cota de Cramr-Rao tiene pues eficiencia 1; se dice


que es eficiente.
Es preciso notar que la eficiencia as definida no implica optimalidad en un sentido
demasiado amplio, y, de hecho, es quiz un nombre no muy afortunado. En efecto,
un estimador eficiente es mejor slo:
En la clase de estimadores regulares insesgados.
Si adoptamos como funcin de prdida una mnimo cuadrtica (recurdese que, en cambio, el Teorema 4.3 proporcionaba estimadores insesgados
ptimos para cualquier funcin de prdida convexa y sin supuestos de regularidad).
Es tambin interesante sealar que la nocin de eficiencia surge de la comparacin de la varianza de un estimador insesgado con un ptimo optimorum (en la
clase de los estimadores regulares insesgados) que no tiene porqu ser alcanzable.
Puede as darse el caso de que un estimador sea ineficiente de acuerdo con la definicin anterior, y sin embargo no exista ninguno mejor en la clase de los insesgados.
El siguiente ejemplo lo pone de manifiesto.
Ejemplo 5.4 (un estimador insesgado de varianza mnima que, sin embargo, no alcanza la cota de Cramr-Rao para estimadores insesgados) Como
ejemplo de situacin descrita en la observacin anterior, puede tomarse el
siguiente (ver Romano y Siegel (1986), ejemplo 9.4). Consideremos de nuevo el Ejemplo 4.9 (pg. 55), que a su vez haca referencia al Ejemplo 3.8
(pg. 36). Nos plantebamos all el problema de estimar insesgadamente el
= e = Prob {X = 0} en una distribucin de Poisson P(). Si slo se
dispone de una observacin, el estimador:

1 si X = 0
=
0 en otro caso
vimos que era insesgado y de varianza mnima. Esta varianza es la de una
binaria de parmetro = e , es decir, e (1 e ). En trminos de , la
funcin de cuanta de X es:
PX (x; ) =

( log )x
x!

y el clculo de la cota de Cramr-Rao es simple:


log PX (X; )

=
=
=

1
( log )
+X

( log )
(1/)
1
+X

log


1 log + X

log

5.4. EFICIENCIA

69

Por tanto:
IX ()

=
=
=

log PX (X; )


2
X
1
E
2

1
E(X )2
2 2
1
2

= E

2

y en consecuencia, la varianza de un estimador insesgado haciendo uso de


una nica observacin es:
E( )2

e2
2
=
1
1

Fcilmente se comprueba que e (1 e ) > e2 (viendo que las funciones a ambos lados de la desigualdad toman el valor 0 cuando = 0 y
que la derivada del lado izquierdo es mayor que la del lado derecho). La cota
de Cramr-Rao no es por tanto alcanzable en este caso por ningn estimador
insesgado.

En el mismo espritu que la Definicin 5.2 tenemos la siguiente.


Definicin 5.3 Se llama eficiencia relativa de un estimador 1 respecto a otro 2
al cociente
Var(2 )
.
Var(1 )
Las eficiencias, relativas o no, pueden variar con el tamao muestral, por lo que en
ocasiones se recurre a especificarlas para muestras muy grandes. Ello da lugar a
las nociones de eficiencia asinttica y eficiencia asinttica relativa, que encontraremos en la Seccin 6.5.
Ejemplo 5.5 (eficiencia relativa de varios estimadores de en una distribucin U (0, 2)) Consideremos de nuevo el caso de una distribucin uniforme U (0, 2). Dada una m.a.s. X1 , . . . , Xn procedente de esta distribucin
hemos visto que X(n) es suficiente (Ejemplo 3.7, pg. 34), completo (Ejemplo 3.19, pg. 43) y puede dar lugar, mediante la oportuna correccin de su
sesgo, a un estimador insesgado de mnima varianza de ,
=

n+1
X(n) ,
2n

(Ejemplo 4.7, pg. 53). Examinemos ahora la eficiencia relativa de 1 = X.


Ambos estimadores y 1 son insesgados. La varianza del segundo es
Var(1 ) =

n2

n
X
i=1

Var(Xi ) = n2

n
X
(2 0)2
i=1

12

2
.
3n

CAPTULO 5. EFICIENCIA. LA COTA DE CRAMR-RAO.

70

La varianza de se calcula tambin con facilidad. Tenemos



2 Z 2 n+1
h i
n+1
n
2

=
E
d = (n + 1)2 (n + 2)1 2 ;
2n
(2)n
0

la varianza de es por tanto

Var()

= (n + 1)2 (n + 2)1 2 2 =

2
.
n(n + 2)

Comparando, vemos que el estimador tiene varianza igual (cuando n = 1)


menor, y tanto menor cuanto mayor es n. De hecho, la varianza de tiende
a cero con orden O(n2 ), mientras que la de 1 tiende a cero linealmente.
La eficiencia relativa de 1 respecto de es
=
Ef.rel.(1 ; )

3
n1 (n + 2)1 2
=
.
1
2
(3n)
n+2

Ejemplo 5.6 (cuando fallan las condiciones de regularidad, la varianza de un estimador puede descender por debajo de la cota de Cramr-Rao)
En el Ejercicio 5.5 se ha calculado la varianza del estimador insesgado de
mnima varianza. Podemos ahora comprobar que dicha varianza es inferior a
la cota que resultara de una aplicacin mecnica (e incorrecta) de la cota de
Cramr-Rao.
En efecto:

(2)1 si 2 > X(n) ,
fX (X; ) =
0
en otro caso,

log fX (X, )
1/ si 2 > X(n) ,
=
0
en otro caso.

Hay que sealar que la derivada no existe en el punto anguloso = X(n) . Si


ahora calculamos la informacin de Fisher, obtenemos:
2
Z 2 
1
1
1
dx = 2 .
IX () =

0
Por consiguiente, la cota de Cramr-Rao dara

Var()

1
2
=
,
n2
n

mientras que en el Ejemplo 5.5 hemos comprobado que el estimador insesgado ptimo tiene varianza 2 n1 (n + 2)1 .
La razn por la que la desigualdad de Cramr-Rao no es de aplicacin
aqu, es que fallan las condiciones de regularidad. En efecto,
Z

fX (x, )dx = 0,

mientras que
Z

fX (x, )dx

1
dx =

1
dx 6= 0.
2

5.4. EFICIENCIA

71

CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER


5.1 Demustrese que la expresin (5.14), pg. 63, propuesta como distancia entre fX (x, 0 ) y fX (x, ) toma valores no negativos, y es cero si
y slo si fX (x, 0 ) y fX (x, ) son iguales, salvo acaso en un conjunto de
puntos con probabilidad cero.
5.2 Para que la desigualdad de Schwarz
2

[E(XY )]

E[X 2 ]E[Y 2 ]

se verifique, es condicin suficiente que X Y , salvo en un conjunto de


puntos con probabilidad cero. Haciendo uso de este hecho y observando el
uso que de la desigualdad de Schwarz se ha hecho en la ecuacin (5.19),
demustrese que para que un estimador insesgado regular alcance la cota
de Cramer-Rao es precisa, adems de la suficiencia, que
( )

log fX (x; )
.

(Garthwaite et al. (1995), pg. 14)

5.3 Completando el problema anterior, verifquese que bajo condiciones de regularidad, un estimador insesgado alcanza la cota de Cramr-Rao si,
y slo si,
( ) = IX ()1

log fX (x; )
.

5.4 Sea una distribucin de Poisson con funcin de cuanta PX (x; ).


Haciendo uso de que E[X(X 1)] = 2 , obtngase:

1. El mejor estimador insesgado de 2 basado en una nica observacin


X.
2. El mejor estimador insesgado de 2 basado en n observaciones.

5.5 Sea X1 , . . . , Xn una m.a.s.P


procedente de una distribucin N (, 2 ).
n

Comprubese que S 2 = (n 1)1 i=1 (Xi N )2 no alcanza la cota de


Cramr-Rao, pero la diferencia entre su varianza y dicha cota tiende hacia
cero cuando n .

72

CAPTULO 5. EFICIENCIA. LA COTA DE CRAMR-RAO.

Captulo 6

Mxima verosimilitud

6.1. La lgica mximo verosmil


En (Trocniz, 1987, pg. 214) se propone el siguiente ejemplo:
Supongamos que se dispone de tres urnas simbolizadas por
U4 =
U50 =
U99 =

4 bolas blancas
96 bolas negras
50 bolas blancas
50 bolas negras
99 bolas blancas
1 bolas negras

y que nos presentan una muestra de cuatro bolas tomadas de una de


las urnas U4 , U50 U99 ; las cuatro bolas resultaron ser blancas.
Con cierta lgica, si debiramos emitir un juicio sobre la urna de
procedencia nos inclinaramos por U99 , pues es grande la probabilidad
de que esta urna proporcione una muestra de cuatro bolas blancas, y
pequea la probabilidad en las urnas U4 y U50 . [. . .] La lgica que
contiene esta forma de decidir es la lgica de la mxima verosimilitud.
Es lo cierto que difcilmente alguien podra, confrontado con el mismo problema, resolver de diferente modo. Ello dice mucho de la fuerte base intuitiva que
subyace a la lgica de la mxima verosimilitud.
73

74

CAPTULO 6. MXIMA VEROSIMILITUD

Examinemos algunas cuestiones de inters, y tratemos de racionalizar el comportamiento que parece tan intuitivamente correcto. En primer lugar, podemos pensar en las urnas como estados de la Naturaleza que generan observables. Ello nos
devuelve al marco de la teora esbozada en captulos anteriores.
Si las bolas sacadas hubieran sido cinco, y las cinco blancas, ello hara de inmediato descartable la urna U4 . No podemos considerar un estado de la Naturaleza
como plausible si es incapaz de generar la evidencia que hemos observado. Observemos que la lgica mximo verosmil va un paso ms all, y permite manejar
casos en que la conclusin no puede alcanzarse con absoluta certeza. No es imposible que la urna U4 genere cuatro bolas blancas en un muestreo, pero si muy
raro; y por lo tanto adoptamos como estado de la Naturaleza otro (en el ejemplo
propuesto, U99 ) que genera la evidencia observada con mayor facilidad. Podemos
pues ver la lgica mximo verosmil como una extensin de la lgica ordinaria que
nos obliga a excluir hiptesis o explicaciones que no dan cuenta de lo observado.
Observemos tambin que, en un sentido vago e impreciso, que ser perfilado
en el Captulo 9, la lgica mximo verosmil conduce a escoger el estado de la
Naturaleza o hiptesis explicativa menos compleja. El razonamiento subyacente
al enfrentarnos al ejemplo de las tres urnas es: Por qu habramos de aceptar
que la urna generadora de las cuatro bolas blancas es U4 que slo rarsimamente
genera cuatro bolas blancas cuando la urna U99 genera el mismo observable con
gran frecuencia? Por qu admitir que ha ocurrido algo muy raro cuando hay una
explicacin alternativa que lo hace frecuente?
En otras palabras, lo que hacemos es escalafonar los posibles estados de la Naturaleza, considerando ms complejos (y por ello menos deseables) a aqullos
que ms raramente generan evidencia como la observada. Veremos (en el Captulo 9) que esta intuicin se puede precisar considerablemente en una nocin de
complejidad.
En parte por su atrayente contenido intuitivo y en parte por las buenas propiedades asintticas de que disfruta, el mtodo de estimacin mximo verosmil alcanz
enseguida una enorme popularidad. En lo que sigue se examinan las propiedades
asintticas del estimador, destacando que las mismas no siempre se trasladan a
pequeas muestras, donde el estimador MV puede ser marcadamente ineficiente.

6.2. Verosimilitud y estimacin mximo verosmil.


Sea fX (X; ) la funcin de densidad conjunta de una muestra X = X1 , . . . , Xn .
Si consideramos fija la muestra en los valores observados, tenemos una funcin
fX (x; ) de llamada funcin de verosimilitud. Proporciona la densidad (o cuanta en el caso de variables aleatorias discretas) que correspondera a la muestra fija
considerada bajo cada posible valor de .
Ejemplo 6.1 Sea una muestra aleatoria simple (X1 , . . . , Xn ) procedente de una distribucin N (, 02 ), de la que se conoce la varianza 02 . Fija-

6.2. VEROSIMILITUD Y ESTIMACIN MXIMO VEROSMIL.


dos en el muestreo los n valores (x1 , . . . , xn ), la verosimilitud es:
)
(

n
n
1
1 X

(xi )2
fX (x; ) =
exp 2
20 i=1
0 2

75

(6.1)

Como funcin de , es una distribucin normal con varianza 02 centrada


sobre x.

0.0e+00 5.0e06 1.0e05 1.5e05 2.0e05 2.5e05 3.0e05 3.5e05

12(1 )1712

Figura 6.1: Verosimilitud


P asociada a una muestra (x1 , . . . , x17 ), cuando X es binaria de parmetro y 17
i=1 xi = 12.

0.0

0.2

0.4

0.6

0.8

1.0

Ejemplo 6.2 Sea una muestra aleatoria simple (X1 , . . . , Xn ) procedente de una distribucin binaria de parmetro . Sea s = x1 + . . . + xn . La
funcin de cuanta conjunta es:
 
n s
PX (x; ) =
(1 )ns
(6.2)
s
Como funcin de , su forma es la que muestra la Figura 6.1. El mximo se
alcanza sobre s/n (que en el caso representado en la Figura 6.1 es 12/17).

Definicin 6.1 Llamamos estimador mximo verosmil MV del parmetro en la


familia de distribuciones {fX| (x |), } a
def
MV = arg max fX | (x |).

76

CAPTULO 6. MXIMA VEROSIMILITUD

Puede ocurrir que MV no est unvocamente definido. Cuando necesitemos enfatizar la dependencia de MV del tamao muestral escribiremos MV,n .
Se sigue inmediatamente de la Definicin 6.1 que si MV es el estimador mximo verosmil de y g(.) es cualquier funcin 1-1 de , entonces g(MV ) es el
estimador mximo verosmil de g() (Ejercicio 6.3).
Observacin 6.1 Es de inters comprobar que, como cabe esperar de
cualquier estimador sensato, si hay un estadstico suficiente S = S(X)
para y MV es nico, entonces MV = (S). En efecto, como consecuencia
del teorema de factorizacin (Teorema 3.3, pg. 37),
fX (x; ) = gS (s, )h(x)
Como funcin de , dada x, fX (x; ) tiene un perfil idntico al de gS (s, );
h(x) es un mero factor de escala. Por tanto, fX (x; ) alcanza su mximo
dondequiera que gS (s, ) alcance el suyo. Este ltimo depende de x slo a
travs de s, y por tanto, MV ha de ser funcin de s solamente. Si MV no es
nico, cabra imaginar un estimador mximo verosmil que no dependera de
la muestra slo a travs de s: vase Romano y Siegel (1986), Ejemplo 8.13,
o Levy (1985).

Observacin 6.2 Relacionada con la anterior observacin est la siguiente: si hay un estadstico suficiente y el estimador mximo verosmil es
nico, entonces ste no puede ser mejorado con ayuda del mtodo de RaoBlackwell. En efecto: de acuerdo con la observacin precedente, el estimador MV en este caso sera una funcin unvoca del estadstico suficiente, y
el condicionar sobre el valor que toma ste nos dara de nuevo el estimador
MV.
Observacin 6.3 En ocasiones se dice que el estimador mximo verosmil extrae cuanta informacin hay en la muestra, lo que sugiere una
especie de suficiencia automtica. Esto es frecuentemente, pero no necesariamente, cierto. Es cierto cuando el estimador MV es funcin 1 1 de un
estadstico suficiente (en cuyo caso es suficiente; vase Seccin 3.2). Pero
ste no tiene porqu ser necesariamente el caso. Consideremos de nuevo el
ejemplo propuesto en la Observacin 3.2, pg. 41. La verosimilitud era

N
d

X
X
fT ,U (t, u) = d exp
ti +
uj .

i=1

j=d+1

Se puede comprobar que el estimador mximo verosmil es


MV = Pd

i=1 ti

d
PN

j=d+1

uj

Fcilmente se ve que MV no es suficiente; un mismo valor de MV es compatible


multitud de valores del estadstico (2-dimensional) suficiente
P con P
(d, ( ti + uj )).

6.3. CONSISTENCIA FUERTE DEL ESTIMADOR MXIMO VEROSMIL.77

6.3. Consistencia fuerte del estimador mximo verosmil.


Decimos que un estimador n basado en una muestra de tamao n es consisp
tente para el parmetro si: n . Decimos que es fuertemente consistente si
c.s.
la convergencia anterior es casi segura: n .
El lema a continuacin hace uso de la desigualdad de Jensen para establecer
un resultado instrumental.
Lema 6.1 Supongamos que fX (x; ) = fX (x; 0 ) (salvo acaso sobre un conjunto de medida nula) slo cuando = 0 . Sea 0 el verdadero valor del parmetro
. Entonces,




fX (X; )
fX (X; )
E0 log
< log E0
= 0.
(6.3)
fX (X; 0 )
fX (X; 0 )
D EMOSTRACION :
Como log() es una funcin estrictamente cncava, la desigualdad es consecuencia directa de la de Jensen. La nulidad del lado derecho es tambin fcil de
establecer. En efecto,


Z
fX (x; )
fX (X; )
dx
= log fX (x; 0 )
log E0
fX (X; 0 )
fX (x; 0 )
Z
= log fX (x; )dx
= log(1) = 0;

si la distribucin fuera discreta, las integrales se convertiran en sumatorios.

c.s.

Teorema 6.1 En las condiciones bajo las que se verifica el Lema anterior, MV 0 .
D EMOSTRACION :
Como



fX (X; )
E0 log
=c<0
fX (X; 0 )
segn el Lema anterior, en virtud de la ley fuerte de grandes nmeros (A.3) tenemos
que para todo 6= 0 ,

n 
1X
fX (Xi ; ) c.s.
c < 0
log
n
fX (Xi ; 0 )
i=1
(
)


n
X
fX (Xi ; )
1
log
Prob lm
<0
= 1
n n
fX (Xi ; 0 )
i=1
(
)
n
n
1X
1X
Prob lm
log fX (Xi ; ) < lm
log fX (Xi ; 0 )
= 1
n n
n n
i=1

i=1

CAPTULO 6. MXIMA VEROSIMILITUD

78

Sin embargo, de acuerdo con la definicin de MV , ha de suceder:


n

1X
log fX (Xi , MV,n )
n n
lm

i=1

1X
log fX (Xi ; 0 )
n n
lm

i=1

c.s.
Las dos desigualdades anteriores slo pueden reconciliarse si MV,n 0 , lo que
prueba la consistencia fuerte del estimador MV.

6.4. Informacin de Kullback-Leibler y estimacin mximo verosmil


Hay una relacin interesante entre la estimacin mximo verosmil y la informacin de Kullback-Leibler. La ilustraremos mediante un caso muy simple.
Supongamos que = {0 , 1 }, y que la variable aleatoria X se distribuye
segn FX (x; i ), i = 0 1. Llamamos informacin en una observacin X para
discriminar entre 0 y 1 a:


fX (X; 1 )
log
(6.4)
fX (X; 0 )
Observemos que si X = x tuviera exactamente la misma densidad bajo 0 que
bajo 1 , la observacin en cuestin carecera de informacin a efectos de discriminar entre ambos estados de la naturaleza, y (6.4) sera cero. El caso opuesto se
presenta cuando la densidad bajo un estado y otro es muy diferente: en este caso,
la observacin podra considerarse como muy informativa acerca del estado de la
naturaleza, y (6.4) sera grande en valor absoluto.
Una medida razonable de la separacin entre FX (x; 0 ) y FX (x; 1 ) podra
ser la informacin media que proporciona una observacin:


Z
fX (x; 1 )
dx
(6.5)
d(0 , 1 ) = fX (x; 0 ) log
fX (x; 0 )
o, en el caso de variables discretas:
d(0 , 1 ) =

PX (x, 0 ) log

PX (x, 1 )
PX (x, 0 )

(6.6)

Llamamos a (6.5)-(6.6) informacin de Kullback-Leibler para la discriminacin


entre 0 y 1 contenida en una observacin. De nuevo, obsrvese que se trata de
una definicin intuitivamente plausible. En particular, si fX (x; 0 ) = fX (x; 1 )
para todo valor x tendramos que d(0 , 1 ) = 0, y sera imposible discriminar.

6.5. EFICIENCIA Y EFICIENCIA ASINTTICA

79

Observacin 6.4 La informacin de Kullback-Leibler esta relacionada con la de Fisher, que puede verse como una aproximacin de segundo
orden: vase la Observacin 5.2, pg. 62.
Observacin 6.5 La expresin (6.5) toma valor no negativo (mismo
argumento que el empleado en el Lema 6.1) y puede verse por ello como
una medida de separacin o distancia. No es sin embargo simtrica en sus
argumentos, a diferencia de una distancia.
Es interesante ver el problema de estimacin mximo verosmil como un problema
de seleccin de una distribucin en una familia paramtrica, {FX (x; ), }.
Razonemos sobre el caso en que X es una variable aleatoria discreta.
La muestra (x1 , . . . , xn ) puede verse como generando una distribucin emprica FX (x), que atribuye probabilidad 1/n a cada uno de los valores muestrales
observados ( k/n a aqullos que se han repetido k veces). Es decir,
FX (x) =

(Total observaciones x)
.
n

De aqu podemos obtener


PX (x) = FX (x) FX (x ).
Podramos pensar en estimar seleccionando en la clase paramtrica {FX (x; ),
} aquella distribucin que minimiza la distancia de Kullback-Leibler a la distribucin emprica observada, es decir, que minimiza:

n
X
i=1

PX (xi ) log

PX (xi ; )
PX (xi )

n
X

PX (xi ) log

i=1

PX (xi )
PX (xi ; )

n
X
1/n
1
log
=
n
PX (xi ; )
i=1

i=1

i=1

1X
1
1X
log
log PX (xi ; )
n
n n

Como el primer sumando del lado derechoPes constante, la minimizacin de la


expresin anterior llevara a hacer mximo ni=1 log PX (xi ; ) lo que da lugar al
estimador mximo verosmil de .

6.5. Eficiencia y eficiencia asinttica


Vimos (Teorema 5.1, pg. 64) que un estimador n insesgado de basado en
una muestra aleatoria simple formada por n observaciones tena su varianza acotada inferiormente:
Var (n )

1
nIX ()

(6.7)

CAPTULO 6. MXIMA VEROSIMILITUD

80

y decamos que n es eficiente (Definicin 5.2, pg. 68) si la relacin anterior se


verifica con igualdad. Es claro que un estimador eficiente no puede ser mejorado
(en trminos de varianza) por ningn otro en la clase de los insesgados regulares,
pues el que lo hiciera violara (6.7).
Consideremos una sucesin estimadora {n } cada uno de cuyos trminos estima insesgadamente , y supongamos que se dan las condiciones de regularidad

necesarias. Entonces, (6.7) se verifica para cada n , n = 1, 2, . . ., y Var ( nn )



(, equivalentemente, Var ( n[n ]) = nVar (n )) ha de ser mayor o igual
que 1/IX (). Cabra esperar que si

n[n ] N (0, v()),

en que designa convergencia en distribucin (Definicin A.1, p. 144), la varianza de la distribucin asinttica verificase:
v()

1
IX ()

(6.8)

Este no es el caso. La aparente paradoja se desvanece cuando observamos que


la varianza asinttica (= varianza de la distribucin asinttica) no necesariamente
tiene mucho que ver con el lmite de la sucesin de varianzas. El siguiente ejemplo
lo ilustra.
Ejemplo 6.3 Sea {Yn } una sucesin de variables aleatorias independientes e idnticamente distribuidas como N (0, 1), y {Xn } una sucesin de
variables aleatorias definidas as:

Yn con probabilidad 1 n1 ,
Xn =
n
con probabilidad n1
L

Entonces, es evidente que Xn X, siendo X una variable N (0, 1), la media asinttica es 0 y la varianza asinttica 1. Sin embargo:


1
1
+n =1
E[Xn ] = 0 1
n
n




1
1
2
2
21
2
Var(Xn ) = E[Xn ] (E[Xn ]) = 1
1+n
1 = n
n
n
n
Mientras que la media y varianza de la distribucin asinttica son respectivamente 0 y 1, los lmites de la sucesin de medias y varianzas son:
lm E[Xn ] =

lm Var(Xn ) =

En general, se verifica (vase Lehmann (1983), pg. 405) que la varianza


asinttica es menor o igual que el lmite inferior de la sucesin de varianzas.

6.6. NORMALIDAD Y EFICIENCIA ASINTTICA DEL ESTIMADOR MXIMO VEROSMIL.81


El ejemplo anterior muestra que lmite de la sucesin de varianzas y varianza
asinttica no tienen por qu coincidir. Una sucesin estimadora todos cuyos trminos alcanzan la correspondiente cota de Cramr-Rao, podra dar lugar a una varianza asinttica menor que la que se deducira de dicha cota. De nuevo un ejemplo
aclara la situacin.
Ejemplo 6.4 Sea X1 , . . . , Xn una muestra formada por observaciones
N (, 1), y consideremos el siguiente estimador de :

X
si |X| n1/4 ,

(6.9)
n =
bX si |X| < n1/4 .
Entonces encontramos la siguiente situacin: n se distribuye asintticamente como N (, 2 = n1 ), salvo si = 0. En este ltimo caso, la distribucin
asinttica es N (0, b2 /n), lo que mejora la varianza de X si b2 < 1. Tenemos
un estimador de tan bueno como X que sabemos insesgado de mnima
varianza, y alcanzando la cota de Cramr-Rao pero asintticamente mejor
para
algunos valores del parmetro! En este caso, para = 0. En efecto:
n[n 0] converge en distribucin a una variable aleatoria Z tal que:
Var(Z) = b2 < 1 =

1
I()

El punto = 0 en que el estimador considerado ve su varianza asinttica


decrecer por debajo de 1/I() se dice que es de supereficiencia. Este ejemplo
se debe a J. Hodges (ver Romano y Siegel (1986), pg. 229).

La existencia de puntos de supereficiencia, en que la varianza asinttica de un


estimador regular puede descender por debajo de la cota de Cramer-Rao, es un
fenmeno sin mayor inters prctico. En realidad, (6.8) casi es cierta, en el sentido
de que el conjunto de puntos para los cuales no se verifica es de medida de
Lebesgue cero. Por otra parte, el comportamiento supereficiente para algunos va
siempre asociado a un comportamiento no eficiente en la vecindad de los mismos
(ver Lehmann (1983), p. 408).

6.6. Normalidad y eficiencia asinttica del estimador mximo verosmil.


En condiciones bastante generales, el estimador MV no slo es fuertemente
consistente, sino que su distribucin asinttica es normal. El siguiente resultado,
cuya demostracin meramente bosquejamos, muestra las condiciones necesarias
para ello.
Teorema 6.2 Sean (X1 , . . . , Xn ) independientes e idnticamente distribuidas, con
densidad comn fX (x; ). Supongamos que se verifican las siguientes condiciones
de regularidad:

CAPTULO 6. MXIMA VEROSIMILITUD

82

1. El espacio paramtrico es un intervalo abierto no necesariamente finito


.
2. Las funciones de densidad fX (x; ) tienen soporte comn, que no depende
de .
3. Las funciones de densidad fX (x; ) son tres veces diferenciables respecto a
para cada x, y las derivadas son continuas en .
R
4. La integral fX (x; )dx puede ser diferenciada dos veces bajo el smbolo
integral.
5. La informacin de Fisher verifica 0 < I() < .
6. La tercera derivada de log fX (x; ) respecto a est acotada superiormente
por una funcin M (x) tal que E0 [M (x)] < .
Entonces, cualquier sucesin consistente n de soluciones de la ecuacin de verosimilitud (y el estimador mximo verosmil proporciona una) satisface:

n(n 0 ) N (0, I(0 )1 )

(6.10)

D EMOSTRACION :
Designemos, para aligerar la notacin,
Uj () =
Desarrollando

Pn

n
X

j=1 Uj (MV ,n )

Uj (MV ,n ) =

log fX (Xj , )

en torno a 0 , obtenemos:
n
X

Uj (0 ) +

1
2

n
X
j=1

j=1

j=1

(6.11)

n
X
j=1

Uj (0 )(MV ,n 0 )

MV ,n 0 )2
Uj ()(

(6.12)

en que es un punto intermedio entre MV,n y 0 , es decir, | 0 | < |MV,n 0 |.


Pero MV,n , bajo condiciones de regularidad, anula el lado izquierdo de (6.12).
Por tanto, tenemos que:
n
X
j=1

Uj (0 ) =

n
X
j=1

1 X
Uj ()(MV ,n 0 )2
Uj (0 )(MV ,n 0 )
2
j=1

Sabemos (Lema 5.1, pg. 60) que E0 [Uj (0 )] = 0. Por otra parte,
E0 [Uj (0 )] = E0 [Uj (0 )]2 = I(0 )

(6.13)

6.6. NORMALIDAD Y EFICIENCIA ASINTTICA DEL ESTIMADOR MXIMO VEROSMIL.83


(Lema
5.2, pg. 61 y definicin inmediatamente posterior). Dividiendo (6.13) entre
p
nI(0 ) tenemos la igualdad:
" Pn
Pn
p
U
(
)
j=1 Uj (0 )
j
0
j=1
p
nI(0 )(MV ,n 0 )
=
nI(0 )
nI(0 )
#
Pn

1 j=1 Uj ()

(MV,n 0 )
(6.14)

2 nI(0 )
Los Lemas invocados y el teorema central del lmite muestran que el lado izquierdo
de (6.14) converge en distribucin a una N (0, 1), y el primer trmino del corchete
converge en probabilidad a 1 (ley dbil de los grandes nmeros, Teorema A.2).
p
tiene valor medio finito (condicin 6 del enunciado) y MV,n
Como Uj ()
0 , el
segundo trmino del corchete converge en probabilidad a cero. En consecuencia,
reescribiendo (6.14) as:
" P
Pn
p
Uj (0 ) nj=1 Uj (0 )
j=1
p
nI(0 )(MV ,n 0 ) =
nI(0 )
nI(0 )
#1
Pn

1 j=1 Uj ()
(MV ,n 0 )

2 nI(0 )
p
vemos que nI(0 )(MV,n 0 ) es el producto de una sucesin aleatoria que
converge en probabilidad a 1 y una sucesin aleatoria que converge en distribucin
a una N (0, 1). El Teorema A.1 permite entonces asegurar
p
L
nI(0 )(MV ,n 0 ) N (0, 1)

que equivale a (6.10) en el enunciado del teorema.

Observacin 6.6 Si g(.) es funcin 1-1 de se ha mencionado ya que


el estimador mximo verosmil de g() es g(MV ). Supongamos adems que
para el verdadero valor del parmetro, 0 , se verifica que g (0 ) 6= 0. Entonces el teorema anterior admite la siguiente generalizacin:

L
n(g(MV g(0 )) N (0, I(0 )1 [g (0 )]2 ).
La demostracin es muy simple y se bosqueja a continuacin. Desarrollando
en serie g(MV ) hasta trminos de primer orden,
g(MV ) = g(0 ) + (MV 0 ) [g (0 ) + Rn ] ,
p
p
en que Rn es el trmino complementario. Pero Rn 0 cuando MV 0 . Por
consiguiente, siempre en uso del Teorema A.1, tenemos:

L
n(g(MV ) g(0 )) g (0 ) n(MV 0 )

CAPTULO 6. MXIMA VEROSIMILITUD

84
y por tanto

L
n(g(MV ) g(0 )) g (0 )N (0, I(0 )1 )
equivalente a la tesis.

6.7. Estimacin mximo verosmil: inconvenientes


El desarrollo anterior muestra la estimacin mximo verosmil desde una perspectiva muy favorable. No slo es consistente cualidad compartida con muchos
otros tipos de estimadores, y ciertamente con cualquiera que estemos dispuestos a
considerar, sino tambin asintticamente eficiente. Su distribucin asinttica es
normal sea cual fuere la de la poblacin muestreada. Estas propiedades se verifican
de modo bastante general, como los enunciados de los teoremas anteriores dejan
traslucir.
Es importante ver, sin embargo, que se trata de propiedades que operan en
grandes muestras. En pequeas muestras, el comportamiento del estimador mximo verosmil puede ser bastante pobre. En ocasiones, la obtencin del estimador
mximo verosmil puede ser computacionalmente infactible. En otras, puede sencillamente no existir un mximo de la funcin de verosimilitud. Los ejemplos y
observaciones que siguen tienen por objeto mostrar tales problemas en algunas
situaciones. Ilustran algunos de los inconvenientes con que se puede tropezar al
emplear estimadores mximo verosmiles.
Ejemplo 6.5 (un estimador mximo verosmil de inviable utilizacin
prctica) Consideremos una variable aleatoria X con distribucin de Cauchy
y parmetro de localizacin . La verosimilitud asociada a una muestra de
tamao n es:
n
Y
1
1
fX (x; ) =
1 + (xi )2
i=1
Tomando logaritmos, derivando, e igualando la derivada a cero, tenemos:
log fX (x; )

n
X
2(xi )(1)

(6.15)
1 + (xi )2

Q 
) j6=i 1 + (xj )2
Qn
(6.16)
2
j=1 [1 + (xj ) ]

i=1
Pn
i=1 (xi

(6.17)

El estimador mximo verosmil MV,n ha de hacer que la igualdad anterior se


verifique. Obsrvese que el numerador que ha de anularse es un polinomio de grado 2n 1. La bsqueda de todas sus races para seleccionar entre
ellas MV ,n es infactible a poco grande que sea n.

En ocasiones, el estimador mximo verosmil no existe, porque la verosimilitud


no est acotada. Un caso trivial sera el de una variable aleatoria X N (, 2 ),

6.7. ESTIMACIN MXIMO VEROSMIL: INCONVENIENTES

85

de la que tenemos una nica observacin. Si quisiramos estimadores mximo verosmiles de y 2 , habramos de maximizar:
(x )2
1
log fX (x; , 2 ) = log(2 2 )
2
2 2
Esta funcin no est acotada: tiende a cuando 2 0.
El caso anterior es irrelevante a efectos prcticos, dado que nunca nos propondramos estimar los dos parmetros de una distribucin normal con una sla
observacin. Sin embargo, el siguiente ejemplo muestra que situaciones similares
son plausibles en la prctica.
Ejemplo 6.6 (funcin de verosimilitud no acotada) Supongamos una
situacin en que la variable aleatoria aleatoria X sigue habitualmente una
distribucin N (, 1). Sin embargo, con probabilidad p, X puede proceder de
una distribucin N (, 2 ), con varianza desconocida. La descripcin anterior podra convenir, por ejemplo, a un fenmeno en que la variable X est
sujeta espordicamente a cambios de rgimen, dando lugar a outliers, u observaciones anmalas. La funcin de verosimilitud sera:





n
Y
(xi )2
(xi )2
1
p

exp
+
(1

p)
exp

fX (x; , 2 ) =
2 2
2
2
i=1
Observemos que dicho producto involucra trminos que no estn acotados.
En efecto, consideremos un trmino tal como


 n

p
(xj )2
(xi )2 Y
(1

p)
exp

;
exp

2 2
2
j=1
j6=i

es fcil ver que para = xi la expresin anterior crece sin lmite cuando 0. Por tanto, incluso aunque tengamos muchas observaciones y la
probabilidad p sea muy pequea, el problema de inexistencia de un mximo global para la funcin de verosimilitud puede presentarse. Vase Cox y
Hinkley (1974), pg. 291.

En ocasiones, el estimador mximo verosmil existe, pero con pequeas muestras puede ser de muy pobres resultados. El siguiente ejemplo, algo artificial si se
quiere, lo muestra de un modo bastante espectacular.
Ejemplo 6.7 (un estimador mximo verosmil inadmisible) Consideremos una variable aleatoria X binaria de parmetro . Sabemos que
( 13 , 32 ), y hemos de estimar dicho parmetro con ayuda de una nica observacin. La verosimilitud tendra por expresin:
fX (x, ) = x (1 )(1x)

(x = 0, 1)

Con constreida a estar en el intervalo indicado anteriormente, el estimador


mximo verosmil es:
 1
si x = 0,
3
MV,n =
2
si x = 1
3

CAPTULO 6. MXIMA VEROSIMILITUD

86

y su error cuadrtico medio resulta ser:



2
2

1
32 3 + 1
2
2

+ (1 )
=
(6.18)
E[MV ,n ] =
3
3
9
Consideremos ahora un estimador que ignora el valor tomado por X y atribuye siempre a el valor 21 . Su error cuadrtico medio sera:


1
E

2

2

+ (1 )

2

42 4 + 1
(6.19)
4

Efectuando la diferencia (6.18)-(6.19) vemos que es


242 + 24 5
.
36
Examinando esta funcin se comprueba que en el intervalo ( 13 , 23 ) es siempre positiva; el estimador mximo verosmil resulta dominado incluso por
uno que, como el propuesto, lejos de hacer uso ptimo de la informacin
muestral, no hace ningn uso.

El valor de que maximiza la verosimilitud no tiene porqu ser nico.


Ejemplo 6.8 Consideremos una distribucin uniforme U ( 12 , + 12 ),

de la que tomamos una muestra X1 , . . . , Xn . Es fcil ver que cualquier valor


[X(n) 1, X(1) + 1] da lugar al mismo valor de la verosimilitud (= 1), y
por tanto es igualmente vlido como estimador mximo verosmil.
Menos simple, pero ms frecuente en la prctica, es el caso de mltiples mximos locales y/o globales en la funcin de verosimilitud. Vase el
Ejercicio 6.1.

El estimador mximo verosmil es frecuentemente sesgado en pequeas muestras, aunque asintticamente insesgado bajo las condiciones de regularidad que
otorgan vigencia al Teorema 6.2.
Ejemplo 6.9 Consideremos el problema de estimar en una distribucin uniforme, U (0, ), con ayuda de una muestra de tamao n. El estadstico
suficiente y estimador mximo verosmil de es X(n) , mayor de las observaciones (vase el Ejemplo 3.7, pg. 3.7). Es evidente que X(n) y como
estimador de es por tanto sesgado por defecto.
De nuevo este es un ejemplo algo acadmico; pero en la prctica pueden
encontrarse multitud de otros. As, el estimadorP
mximo verosmil de la van
rianza en una distribucin normal es s2 = n1 i=1 (xi x)2 . Como en el
caso anterior, el sesgo tiende a cero cuando n .
Quiz la objecin ms seria que puede plantearse al uso del estimador mximo
verosmil es que obliga a especificar, salvo en los parmetros que se estiman, la
forma de las distribuciones: es un requisito previo el fijar la familia de distribuciones que estamos dispuestos a considerar. Esto puede originar estimadores con
propiedades no imaginadas. Por ejemplo, el suponer que la distribucin originando X es N (, 1) nos llevara a adoptar X como estimador de . Si la distribucin

6.7. ESTIMACIN MXIMO VEROSMIL: INCONVENIENTES

87

fuera de Cauchy, C(), tal estimador tendra desastrosas propiedades de hecho,


no tendra varianza finita, cualquiera que fuera el tamao muestral.
Si la ausencia de robustez frente al incumplimiento de los supuestos distribucionales, la complejidad de cmputo, y el comportamiento, a veces, pobre en pequeas muestras son inconvenientes, es preciso sealar que el estimador MV tiene
todava mucho en su haber1 . Requiere no obstante cuidado el hacer uso inteligente
de l.

CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER


6.1 Examnese la funcin de verosimilitud de una distribucin de Cauchy C() (se introdujo en el Ejemplo 6.5, pg. 84) y demustrese que tiene
en general mltiples mximos relativos.
6.2 Sean X1 , . . . , Xn v.a. independientes con distribucin binaria de
parmetro . Se comprob (Ejemplo 3.8, pg. 36) que no existe estimador
insesgado de () = (1 ). Hay estimador mximo verosmil de ()?
Es nico?
6.3 Si MV es el estimador mximo verosmil de y = () es una
funcin 1-1 de , entonces MV = (MV ). Demustrese. Si () es una funcin, por ejemplo, convexa, y MV es insesgado qu podemos decir del sesgo de MV ? (Ayuda: hgase uso de la desigualdad de Jensen (Teorema 4.2,
pg. 49).)

1
Una vehemente opinin contraria al uso de mxima verosimilitud, enrgicamente contestada,
puede verse en Berkson (1980). Es tambin interesante Rao (1962).

88

CAPTULO 6. MXIMA VEROSIMILITUD

Captulo 7

Estimacin mximo verosmil en


la prctica.

7.1. Introduccin.
Como el Ejemplo 6.5 pona de manifiesto, la obtencin del estimador mximo
verosmil puede no ser fcil. Incluso en el caso en que se tiene la certeza de que
la verosimilitud tiene un nico mximo relativo y es bien comportada, la solucin
analtica de la ecuacin de verosimilitud

L () =

n
X

Uj () = 0

j=1

puede ser inabordable. Se hace preciso acudir a mtodos numricos aproximados


en muchas ocasiones.
La Seccin 7.2 muestra que en la familia exponencial es posible en ocasiones
obtener soluciones de las ecuaciones de verosimilitud de modo simple, igualando los valores muestrales de los estadsticos suficientes a sus valores medios. La
Seccin 7.3 presenta la aplicacin del mtodo general de Newton-Raphson a la resolucin de la ecuacin de verosimilitud. La Seccin 7.4 presenta el mtodo conocido como de scoring, estrechamente relacionado con el anterior. La Seccin 7.5
describe con algn detalle el algoritmo EM, muy utilizado para maximizar verosimilitudes, que presenta la interesante ventaja de permitir trabajar de modo simple
con verosimilitudes de datos incompletos.
89

90 CAPTULO 7. ESTIMACIN MXIMO VEROSMIL EN LA PRCTICA.

7.2. Estimacin mximo verosmil en la familia exponencial.


Consideremos el logartmo de la verosimilitud en forma cannica de una distribucin en la familia exponencial. Sin prdida de generalidad, la escrbiremos en
trminos de sus parmetros naturales:

n
k
X
X

(7.1)
L(, x) =
j bj (xi ) + c() + d(xi )
i=1

j=1

Como vimos en la Seccin 3.5, el vector


(T1 , . . . , Tk ) =

n
X

b1 (x1 ), . . . ,

n
X

bk (x1

i=1

i=1

proporciona de inmediato los estadsticos mnimos suficientes para el vector .


Derivando el logaritmo de la verosimilitud respecto de 1 , . . . , k e igualando a
cero para obtener puntos estacionarios de la funcin de verosimilitud tenemos:
L(, x)
j

= Tj +

nc()
=0
j

(7.2)

Las ecuaciones anteriores podran proporcionar, si son de fcil solucin, valores de


1 , . . . , k , funciones de los estadsticos suficientes, candidatos a ser estimadores
mximo verosmiles. Si recordamos (Lema 5.1) que


L(, x)
E
=0
j
obtenemos de (7.2) que:


L(, x)
nc()
=0
= E [Tj ] +
E
j
j

(7.3)

De (7.2)-(7.3) obtenemos entonces que ha de verificarse:


Tj E [Tj ] = 0
para j = 1, . . . , k. La regla es pues simple: basta igualar los estadsticos suficientes
a sus valores medios (funciones stos ltimos de ) para obtener soluciones de las
ecuaciones de verosimilitud. El ejemplo que sigue lo ilustra.
Ejemplo 7.1 Consideremos el caso de una normal multivariante N (, ).
Se desean los estimadores mximo verosmiles de = (, ).
La verosimilitud de una mestra de tamao n viene dada, por:


n 
Y
1
1
|| 2 exp (xi ) 1 (xi )
2
i=1

7.3. MTODO DE NEWTON-RAPHSON.

91

Si tomamos logaritmo nepariano de la expresin anterior y reordenamos sus


trminos podemos llegar a:
!)
!
(
n
n
X
X
1
n
n 1
xi traza 1
xi xi
L() = log || + 1
2
2
2
i=1
i=1
La expresin anterior exhibe
conjuntamente suficientes para
Pn
Pn los estadsticos
= (, ): (T1 , T2 ) = ( i=1 xi , i=1 xi xi ) Igualando dichos estadsticos suficientes a sus valores medios, obtenemos:
E [T1 ] =

n =

n
X

xi

(7.4)

i=1

E [T2 ] =

n + n =

n
X

xi xi ;

(7.5)

i=1

Pn
la primera ecuacin inmediatamente proporciona
MV = n1 i=1 xi =
P
= n1 n xi xi
MV
MV .
x, que sustituido en la segunda proporciona
i=1

7.3. Mtodo de Newton-Raphson.


7.3.1. Descripcin
Sea una raz de la ecuacin de verosimilitud y (1) una solucin inicial aproximada. Desarrollando en serie de potencias en torno a (1) hasta trminos de segundo orden, obtenemos:
= 0 L ((1) ) + L ((1) )( (1) )
L ()

(7.6)

de donde:

(1)

L ((1) )
L ((1) )

(7.7)

A partir de una aproximacin inicial (1) la relacin anterior proporciona otra.


Nada impide emplear esta ltima como nueva aproximacin inicial y repetir el
proceso cuantas veces haga falta hasta convergencia, si se produce. Es decir, dada
la aproximacin (n) obtendremos la siguiente, (n+1) , as:
(n+1)

(n)

L ((n) )
L ((n) )

(7.8)

deteniendo la iteracin cuando (n+1) y (n) difieran entre s en menos de una


tolerancia preespecificada.
Es interesante sealar que una sola iteracin empleando (7.8) basta para producir un estimador consistente y asintticamente eficiente, siempre que el punto de
partida (1) sea consistente a la suficiente velocidad. El siguiente teorema hace
precisa la anterior afirmacin.

92 CAPTULO 7. ESTIMACIN MXIMO VEROSMIL EN LA PRCTICA.


Teorema 7.1 Supongamos que se verifican las condiciones en el Teorema 6.2, y
que n es un estimador que converge en probabilidad a de tal forma1 que (n
1
) = Op (n 2 ). Entonces,
L (n )
n = n
L (n )

(7.9)

es asintticamente eficiente y normal.


La demostracin puede encontrarse en Lehmann (1983), pg. 422.

La discusin precedente se generaliza fcilmente al caso en que hay un vector


de parmetros a estimar, sin ms que reemplazar en (7.6) por un vector de estimadores y L () y L () por el vector gradiente L() y la matriz de segundas
derivadas 2 L(). La iteracin toma entonces la forma:

1
n+1 = n 2 L(n )
L(n )

(7.10)

7.3.2. Propiedades
Con el mtodo de Newton-Raphson la convergencia no est garantizada. No
obstante, si la verosimilitud es bien comportada, es un mtodo eficaz y conduce en
un nmero habitualmente pequeo de iteraciones a una raz de la ecuacin L () =
0.
Definicin 7.1 Sea una ecuacin g(x) = 0 cuya solucin x buscamos. Sea xn
la aproximacin obtenida mediante un mtodo iterativo en la iteracin n-sima y
en = xn x el error de aproximacin. Se dice que un mtodo de solucin de es
de convergencia cuadrtica cuando en (en1 )2 .
Convergencia cuadrtica. El mtodo de Newton-Raphson para aproximar una
raz de g(x) = 0, cuando converge, goza de convergencia cuadrtica. En efecto,
supongamos una aproximacin xn lo suficientemente cercana a x . Consideremos
f (x) = x g(x)/g (x). Entonces,
en = xn x = xn f (x )
= f (xn1 ) f (x )

(7.11)
(7.12)

Si desarrollamos f (xn1 ) en torno al punto x , de la igualdad anterior deducimos:


1
en = f (x ) + f (x )(xn1 x ) + f (z)(xn1 x )2 f (x )(7.13)
2
1

Vase en el Apndice A.4 el significado de la notacin Op ().

7.3. MTODO DE NEWTON-RAPHSON.

93

siendo z un punto entre xn1 y x . Como


f (x ) = 1
tenemos
en =

(g (x ))2 g(x )g (x )
+
= 0,
(g (x ))2
(g (x ))2

(7.14)

1
f (z)(xn1 x )2 ,
2

lo que muestra que la iteracin de Newton converge cuando lo hace cuadrticamente.


No monotona. Naturalmente, nada garantiza que no podamos alcanzar una solucin que sea mximo relativo de la verosimilitud en lugar de mximo global2 . De
hecho, la iteracin anterior puede dar lugar a verosimilitudes decrecientes: el aproximarnos a una raz de L () no garantiza que dicha raz corresponda a un mximo
relativo de L().
Es posible modificar el algoritmo de Newton-Raphson de modo que la verosimilitud crezca montonamente (lo que garantiza al menos que la convergencia
es hacia un mximo relativo). En efecto, en (7.10) el paso de n a n1 es
= (2 L(n ))1 L(n ) = AL(n ), con A = (2 L(n ))1 Desarrollando en serie en torno al punto n :
L(n ) = [L(n )] A[L(n )] + o()
L(n + )

(7.15)

Para lo suficientemente pequeo, el signo del lado derecho viene dado por el del
primer sumando. Si A es simtrica definida positiva, entonces el signo es positivo
se incrementa al pasar de n a
y L()
n+1 = n + n .
Si con A definida como se ha indicado la forma cuadrtica en la derecha de
(7.15) no fuera definida positiva, podramos definir: = AL(n ) con cualquier
A simtrica definida positiva, y el argumento anterior proporcionara un algoritmo
monnotamente creciente en L(). Hay muchas posibles elecciones: con A igual a
la matriz unidad, tenemos un algoritmo gradiente convencional. Si hacemos
h
i
A = E 2 L(n )
tenemos el algoritmo de scoring descrito en la seccin que sigue. Otras elecciones
y variantes son posibles: puede verse una discusin ms completa en Lange (1998).
2

La distribucin de Cauchy, tan fecunda suministradora de contraejemplos, ilustra una vez ms


esta situacin. La verosimilitud de su parmetro de ubicacin tiene con gran frecuencia varios extremos relativos, si la muestra es grande.

94 CAPTULO 7. ESTIMACIN MXIMO VEROSMIL EN LA PRCTICA.

7.4. Mtodo scoring de Fisher.


El algoritmo de scoring procede de forma enteramente anloga al de NewtonRaphson. Su rasgo distintivo consiste en sustituir 2 L() por E [(L()L() ].
Obsrvese que esta ltima matriz es, bajo las habituales condiciones de regularidad, definida positiva. A menudo su expresin es tambin relativamente simple, lo
que hace fcil su clculo en cada iteracin. Por contra, el mtodo de scoring puede
ser acusadamente ms lento que el de Newton-Raphson.

7.5. El algoritmo EM.


Aunque utilizable con completa generalidad, el algoritmo EM es preferentemente utilizado en el caso en que hay datos faltantes. La referencia seminal es
Dempster et al. (1976), aunque en forma menos general las ideas subyacentes parecen haber existido antes. La descripcin a continuacin hace uso tambin de
Laird (1993) y Navidi (1997). Una monografa reciente con muchas referencias es
G.J.McLachlan y Krishnan (1997).

7.5.1. Notacin
Consideraremos, por simplicidad notacional, el caso de un nico parmetro ;
el caso multivariante no aade nada esencial. Denotaremos por fX (x; ) la verosimilitud de la muestra completa, si fuera observada: x es un vector o una matriz, no
todas cuyas componentes son observadas. Observamos slo y, y hay una relacin
x = X (y) que a cada y hace corresponder muchos posibles x (dicho de otro modo:
la sla observacin de y no permite obtener de manera unvoca x).
Como parte de x es no observada, tendr sentido escribir valores medios como


def
Q(| ) = E log fX (x; )| , y
(7.16)
Z
log fX (x; )fX|Y (x|y; )dx
(7.17)
=
X (y)

def

H(| ) =
=



E log fX|Y (x|y; )| , y
Z
log fX|Y (x|y; )fX|Y (x|y; )dx

(7.18)
(7.19)

X (y)

Denominemos,
def

L() =

log fY (y; ).

(7.20)

Como
log fX|Y (x|y; ) = log fX (x; ) log fY (y; ),

(7.21)

multiplicando cada trmino de (7.21) por fX|Y (x|y; ) e integrando, obtenemos:


Q(| ) = L() + H(| ).

(7.22)

7.5. EL ALGORITMO EM.

95

Estamos interesados en maximizar L(), la verosimilitud calculada con la parte de


muestra y que realmente observamos.

7.5.2. La iteracin EM
Si observramos todo x, el problema de estimacin mximo verosmil de se
reducira a maximizar una funcin. Como parte de x es inobservable, no podemos
acometer directamente la maximizacin de log fX (x; ). Una posibilidad sera sustituir la funcin desconocida por su valor esperado dada la parte de muestra que s
conocemos y bajo el supuesto de que = ; es decir, reemplazar log fX (x; ) por
Q(| ) y maximizar esta ltima. 3
Observemos que para tomar el valor medio necesitamos el valor del parmetro
(y si lo conociramos, el problema de estimacin mximo verosmil ya no tendra
objeto). Una posibilidad sera;
1. (Paso E) Calcular Q(| ) para un valor , la mejor aproximacin de que
tengamos.
2. (Paso M) Maximizar Q(| ) respecto de .
3. Iterar los pasos anteriores hasta convergencia, si se produce.
La idea es que al ejecutar por primera vez el paso E (de valor Esperado, porque en
dicho paso tomamos un valor medio) obtendremos una funcin no muy similar a
la que querramos maximizar. Por ello, el paso M (de Maximizar) no dar el mximo de la funcin que realmente desearamos maximizar, sino el de una diferente.
Pero este mximo suministra una nueva estimacin de diferente de la inicial,
presumiblemente mejor, que nos permite reiniciar el proceso.
La idea anterior constituye el ncleo del algoritmo EM, cuya iteracin bsica
describimos ms formalmente como Algoritmo 1.
Algorithm 1 Algoritmo EM
1:
2:
3:
4:
5:
6:
7:
8:
9:
3

Fijar valor inicial (0) de .


Fijar {Mnima diferencia entre valores sucesivos de para seguir iterando.}
i0
repeat
i i+1


Q(| (i1) ) E log fX (x; )| (i1) , y
(i) arg max Q(| (i1) )
until | (i) (i1) | <
MV (i)

Ntese que para calcular el valor esperado de log fX (x; ) necesitamos un punto de partida, es
decir, un valor inicial de ; el algoritmo EM suministra una pauta para refinar este valor inicial
hasta llegar al estimador mximo verosmil.

96 CAPTULO 7. ESTIMACIN MXIMO VEROSMIL EN LA PRCTICA.


Lo que antecede muestra un modo de operar, pero nada garantiza que haya convergencia ni, caso de que la hubiera, que se produzca a un valor de maximizando la verosimilitud, siquiera sea localmente. Bosquejaremos ahora este resultado,
mostrando que:
1. Cada iteracin del Algoritmo 1 incrementa L().
2. Si la verosimilitud L() est acotada y
Q( (i) | (i1) ) Q( (i1) | (i1) ) ( (i) (i1) )2
entonces (i) .
3. Si (i) y
"

Q(| (i1) )

= 0,

= (i)

entonces


L()

= 0.
=

Obsrvese que los tres resultados anteriores tomados en su conjunto, todava no


garantizan la convergencia del algoritmo EM a MV o a un mximo local. Para ello
hara falta mostrar que el valor estacionario de la verosimilitud corresponde a
un mximo y no a un mnimo o punto de silla. Una demostracin completa que
incluye ste y otros detalles puede encontrarse en Dempster et al. (1976).
Teorema 7.2 En el Algoritmo 1, la verosimilitud crece montonamente.
D EMOSTRACION :
De (7.22) deducimos:
L( (i) ) = Q( (i) | (i1) ) H( (i) | (i1) )

L(

(i1)

) = Q(

(i1)

(i1)

) H(

(i1)

(i1)

(7.23)
).

(7.24)

Restando (7.24) de (7.23) obtenemos


L( (i) ) L( (i1) ) = (Q( (i) | (i1) ) Q( (i1) | (i1) ))

+ (H( (i1) | (i1) ) H( (i) | (i1) )).(7.25)

El primer miembro de la derecha de (7.25) es no negativo por el modo en que ha


sido tomado el paso M de la iteracin (se maximiza Q(| (i1) ) respecto de ,

7.5. EL ALGORITMO EM.

97

y por tanto necesariamente Q( (i) | (i1) ) Q( (i1) | (i1) ) 0). El segundo


trmino es necesariamente no negativo4 . Por tanto, L( (i) ) L( (i1) ) 0.

Teorema 7.3 Cuando la verosimilitud est acotada, L( (i) ) L , para algn


valor L . Si, adems,
Q( (i) | (i1) ) Q( (i1) | (i1) ) ( (i) (i1) )2
para todo i, entonces (i) .
D EMOSTRACION :
Una sucesin montona acotada necesariamente tiene un lmite: esto da cuenta
de la existencia de L , a la vez que garantiza que los trminos de la sucesin L( (i) )
deben cumplir la condicin de Cauchy para sucesiones convergentes. Por tanto,
para todo r > 1 y p > p()
r
X
(L( (p+j) L( p+j1))) = |L( (p+r) L( p) | < ,
j=1

y por consiguiente
>

r
X
(L( (p+j) L( p+j1)))

j=1
r
X

(Q( (p+j) | (p+j1) ) Q( (p+j1)| (p+j1) ))

j=1
r
X

j=1

( (p+j) (p+j1))2

( (p+r) (p) )2 .
Ello muestra que (p) verifica tambin una condicin de Cauchy y en consecuencia
converge a algn .

Establecido que (i) converge, resta por ver que el lmite, si es un punto estacionario de Q(|), lo es tambin de la funcin de verosimilitud.
Puede verse H((i) |(i1) ) H((i1) |(i1) ) como la distancia de Kullback-Leibler (vase
(6.5), pg. 78) entre dos distribuciones de parmetros respectivos (i) y (i1) . Esta distancia se
minimiza cuando (i) = (i1) .
4

98 CAPTULO 7. ESTIMACIN MXIMO VEROSMIL EN LA PRCTICA.


Teorema 7.4 Supongamos que (i) . Entonces, bajo condiciones de regularidad suficientes,


L()
= 0.
=
D EMOSTRACION :
Derivando en (7.22) obtenemos
#
"


L()
Q(| (i1) )
=
=(i)

= (i)

"

H(| (i1) )

.(7.26)
= (i)

Es claro que si la iteracin converge, (i) y (i1) en la expresin anterior pueden


ambos sustituirse por . La derivada de H(| ) se anula para = = . La
de Q( | ) tambin se anula en cada iteracin la funcin se maximiza, y su
derivada por tanto se anula aunque no hayamos an logrado convergencia. En
consecuencia, el lado izquierdo de (7.26) se anula.

7.5.3. Distribuciones de la familia exponencial.


Cuando trabajamos con distribuciones en la familia exponencial, el algoritmo
puede en ocasiones simplificarse de modo notable. Consideremos una distribucin
cuya densidad escrita en trminos de su parmetro natural (lo que no conlleva prdida de generalidad) fuera
fX (x; ) = eb(x)+c()+d(x) .
El logaritmo de la funcin de verosimilitud asociada a una muestra de tamao n es
log fX (x; ) = log

n h
Y

eb(xi )+c()+d(xi )

i=1

n
X
i=1

b(xi ) + nc() +

n
X

d(xi )

i=1

= T (x) + C() + D(x).

Entonces, la expresin (7.16) se convierte en


h
i
Q(| (i) ) = E log fX (x; )| (i) , y
h
i
= E T (x) + C() + D(x)| (i) , y
h
i
= T (i) + C() + E D(x)| (i) , y .

(7.27)
(7.28)
(7.29)

7.5. EL ALGORITMO EM.

99

Podemos reemplazar esta expresin de Q(| (i) ) en el lugar correspondiente del


Algoritmo 1. Observemos, adicionalmente, que el ltimo trmino en (7.29) no depende de . Por lo tanto, podemos maximizar respecto de slamente la expresin
T (i) + C(). Incorporando estos cambios al Algoritmo 1, obtenemos el Algoritmo 2.
Algorithm 2 Algoritmo EM para distribuciones en la familia exponencial
1:
2:
3:
4:
5:
6:
7:
8:
9:

Fijar valor inicial (0) de .


Fijar {Mnima diferencia entre valores sucesivos de para seguir iterando.}
i0
repeat
i i+1

T (i) E T (x)| (i1) , y

(i) arg max T (i) + C()
 (i)

until | (i1) | <
MV (i)

Ejemplo 7.2 El siguiente ejemplo, adaptado de Laird (1993), ilustra el


funcionamiento del algoritmo EM en una distribucin de la familia exponencial. Supongamos observaciones procedentes de uan distribucin trinomial
con vector de parmetros = (1 , 2 , 3 ) (uno redundante, al estar constreidos a sumar 1). Poseemos una muestra tomada al azar incompletamente
clasificada, como recoge la siguiente tabla:

1
21

2
9
8

n,1 n,2

3
20 n1. = 50
7 n2. = 15
n,3

Hay n1. = 50 observaciones completamente clasificadas; por el contrario,


hay n2. = 15 de las que slo sabemos si pertenecen a la clase tercera o a una
de las dos primeras.
Es claro que n,1 , n,2 , n,3 son estadsticos suficientes para ; pero slo
n,3 es conocido. El algoritmo EM procede sustituyendo n,1 y n,2 por sus
respectivos valores esperados para obtener una estimacin de . Obtenida
sta, se utiliza para recalcular los valores esperados de n,1 y n,2 , y se itera
hasta convergencia.
En el caso que nos ocupa, una estimacin inicial de podra ser la
mximo verosmil con las 50 observaciones completamente clasificadas5 :
9 20
(0) = ( 21
50 , 50 , 50 ).
5
Podramos comenzar con un vector arbitrario, pero si tenemos alguna aproximacin razonable,
como en este caso, ello acelera la convergencia.

100 CAPTULO 7. ESTIMACIN MXIMO VEROSMIL EN LA PRCTICA.


Tenemos ahora que los valores esperados de los estadsticos suficientes
n,1 , n,2 y n,3 dado = (0) son:
(1)

n,1

(1)

n,2

= 21 + 8

(0)
1
26,6
(0)
(0)
+
1

(1)

n,3

(0)

= 9 + 8 (0) 2 (0) 11,4


+
2

= 27.

En esencia, hemos repartido las 8 observaciones cuya adscripcin no consta entre las clases primera y segunda sobre la base de la mejor informacin
disponible acerca de . Con los valores esperados (de n,1 y n,2 ) u observados
(de n,3 ) de los estadsticos suficientes podemos ahora obtener una estimacin
11,4 27
refinada del vector de parmetros, (1) = ( 26,6
65 , 65 , 65 ), con la que recalcular los valores medios de los estadsticos suficientes que lo precisan, y as
hasta convergencia.

Captulo 8

Contraste de Hiptesis.

8.1. Introduccin.
Examinaremos en lo que sigue el caso en que existen dos posibles estados de
la naturaleza, asociados a sendos conjuntos de valores de un cierto parmetro: as,
un estado corresponde a 0 y otro a a . Un contraste de hiptesis es un
procedimiento estadstico (X) para escoger entre ambos estados (inobservables)
sobre la base de la informacin muestral proporcionada por una variable aleatoria
X con densidad (o cuanta) fX | (x |). El procedimiento (X) puede proporcionar una de dos decisiones: d0 (= el estado es 0 ) y da (= el estado es a ).
Frecuentemente, sta es una eleccin bastante artificial, entre dos alternativas
ninguna de las cuales tiene visos de ser exactamente cierta. Esto es particularmente cierto cuando se contrastan hiptesis que especifican un nico y preciso
valor para algn parmetro (como H0 : = 0 ). Sin embargo, como hace notar
Garthwaite et al. (1995), pg. 2, el contraste de hiptesis
. . .es a menudo un modo conveniente de actuar y subyace a una
parte importante de la investigacin cientfica.
De que esto es as da testimonio el uso continuo e intenso que se hace del contraste de hiptesis en muchas ramas del saber. Que la metodologa habitualmente
utilizada para contrastar hiptesis no siempre se emplea debidamente, es tambin
un hecho. Vase al respecto la crtica enrgica y virulenta que del contraste de
hiptesis se hace en Wang (1993).
Se dice que una clase de distribuciones es simple si contiene una nica distribucin. Es compuesta en caso contrario. Un contraste de hiptesis ser simple si
tanto 0 como a especifican una nica distribucin.
101

CAPTULO 8. CONTRASTE DE HIPTESIS.

102

Si disponemos de una funcin de prdida completamente especificada, emplearemos la teora examinada en captulos anteriores para seleccionar un procedimiento adecuado: procedimiento de Bayes (si disponemos adems de una distribucin
a priori para ), minimax, etc.
Es frecuente, sin embargo, que no haya una funcin de prdida bien especificada. El contraste se efecta entonces de manera convencional minimizando la
probabilidad de error, que puede ser de dos clases: el error de tipo I (o de tipo )
consiste en seleccionar da cuando 0 , mientras que el error de tipo II (o de tipo
) consiste en seleccionar d0 cuando a . Denominamos nivel de significacin
de un contraste (a veces tambin llamado tamao del contraste) al supremo de la
probabilidad de error de tipo I:

def

sup Prob {(X) = da }

y potencia () al complemento a uno de la probabilidad de error de tipo II:


()

def

1 ()

def

1 Prob {(X) = d0 ; a }

Siempre es preciso establecer un compromiso entre ambos tipos de error. Es


habitual fijar el nivel de significacin en un valor convencional como 0.01, 0.05
0.10 y tratar de encontrar el contraste que minimiza () (o, lo que es lo mismo,
que maximiza la potencia) de entre todos los que tienen el nivel de significacin
prefijado.
En su forma ms sencilla, un contraste de hiptesis puede verse como particionando el espacio muestral en dos regiones. Una de ellas, llamada regin crtica,
S, agrupa los resultados muestrales X cuya observacin dara lugar a (X) = da ,
en tanto la otra regin S c agrupa los resultados cuya observacin dara lugar a
(X) = d0 . Alternativamente, un contraste quedara completamente especificado
mediante su funcin crtica (x), definida as:

1 si x S,
def
(x)=
(8.1)
0 si x
/ S.
Si insistimos en obtener un contraste con un prefijado, puede ser preciso complicar ligeramente las cosas. El siguiente ejemplo muestra un caso muy simple en
que no existe una regin crtica proporcionando un = 0,07 (naturalmente, no
hay ninguna razn especial por la que en la prctica no hubiramos de contentarnos con = 0,05 = 0,08, que s son accesibles; el ejemplo tiene finalidad
exclusivamente ilustrativa).
Ejemplo 8.1 Consideremos el caso en que hemos de contrastar H0 :
= 0 frente a la alternativa Ha : = a . Las distribuciones asociadas a
cada valor del parmetro son las especificadas en la tabla siguiente:
x
Prob {x; 0 }
Prob {x; a }

0
0.60
0.10

1
0.26
0.15

2
0.05
0.10

3
0.04
0.25

4
0.04
0.30

5
0.01
0.10

8.2. EL TEOREMA DE NEYMANPEARSON.

103

Si tomamos como estadstico de contraste una nica observacin X y como


regin crtica S = {4, 5} S = {3, 5}, el nivel de significacin es = 0,05.
Podemos tomar otros puntos en otras combinaciones para obtener = 0,06,
= 0,08 y = 0,09, pero no = 0,07

El problema se presenta en el ejemplo anterior debido al carcter discreto de la


distribucin: no podemos incrementar con la suficiente finura la probabilidad bajo
0 de la regin crtica. Tal problema puede sin embargo resolverse recurriendo a
procedimientos aleatorizados.
Ejemplo 8.2 Supongamos que, en el ejemplo anterior, estamos dispuestos a considerar procedimientos aleatorizados. Entonces podramos obtener un nivel de significacin exacto de 0.07. Podramos, por ejemplo, tomar
una regin crtica S = {4, 5}, que totaliza = 0,05 y aadir parte del punto x = 3. Para despiezar dicho punto, podemos construir una lotera que
con probabilidad 21 proporcione rechazo de H0 y con probabilidad 21 aceptacin de H0 . Si adoptamos la regla de rechazar H0 siempre que obtengamos
X = 4 X = 5 y de jugar a la lotera indicada cuando obtengamos X = 3,
la probabilidad total de rechazo cuando = 0 es:
= 0,04 + 0,01 +

1
Prob {X = 3; 0 } = 0,07
2

Para recoger el caso en que nos vemos obligados a realizar contrastes aleatorizados debemos considerar funciones crticas algo ms complejas que la descrita en
(8.1). Un contraste general vendr as especificado por una funcin crtica como:

+
1 si x S ,
def
def
(x)=
(8.2)
si x S = = (S + S )c ,

0 si x S .

S + es la regin crtica, y S la regin no crtica. El conjunto de puntos muestrales


que no pertenecen ni a una ni a otra da lugar al rechazo con probabilidad . En el
Ejemplo 8.2, S + = {4, 5}, S = {0, 1, 2} y (S + S )c = {3}.
Observemos finalmente que en trminos de la funcin crtica:
Potencia = () = 1 () = E ((X))
y para contrastes con nivel de significacin ha de verificarse:
E (X)

8.2. El Teorema de NeymanPearson.


La construccin de regiones crticas para el contraste de una hiptesis simple
= 0 frente a una alternativa tambin simple = a resulta sumamente fcil (al
menos conceptualmente) gracias al siguiente resultado.

CAPTULO 8. CONTRASTE DE HIPTESIS.

104

Teorema 8.1 Sea un problema de decisin consistente en escoger entre dos posibles estados de la naturaleza, 0 y a . Para cualquier [0, 1], existe un contraste
(x) y una constante k > 0 verificando:
(i)

1 cuando fX (x; a ) > kfX (x; 0 ),


(x) =
cuando fX (x; a ) = kfX (x; 0 ),
(8.3)

0 cuando fX (x; a ) < kfX (x; 0 ).


E0 (X) =
(8.4)
(ii) Las condiciones (8.3)(8.4) son suficientes para garantizar que el contraste
(x) es el ms potente para la hiptesis 0 frente a a al nivel .
(iii) Recprocamente, si (x) es el contraste ms potente para el par de hiptesis citadas, entonces verifica (8.3)(8.4) para algn valor k, a menos que exista
un contraste de tamao menor que y potencia 1.
D EMOSTRACION :
Bosquejamos a continuacin la demostracin. Un mayor detalle puede encontrarse en Lehmann (1959), p. 65.
Para = 0 = 1 el teorema es trivial. Sea:
def

(c) = Prob {fX (x; a ) > cfX (x; 0 )|0 }


Como (c) es una probabilidad computada cuando = 0 , podemos desentendernos de los puntos x en que fX (x; 0 ) = 0, y escribir:


fX (X; a )
> c|0
(c) = Prob
fX (X; 0 )


fX (X; a )
= 1 Prob
c|0
fX (X; 0 )


fX (X; a )
= 1 (c) = Prob
c|0
fX (X; 0 )
Por tanto, 1 (c) es una funcin de distribucin, no decreciente y continua por la
derecha, y (c) es no creciente y continua por la derecha, verificando () = 1
y () = 0. Para cualquier [0, 1] existir por tanto un c0 verificando:
(c0 ) (c
0)
Sea el contraste:

(c0 )
(x) =

(c
) (c0 )

0 0

cuando fX (x; a ) > c0 fX (x; 0 ),


cuando fX (x; a ) = c0 fX (x; 0 ),
cuando fX (x; a ) < c0 fX (x; 0 ).

(8.5)

8.2. EL TEOREMA DE NEYMANPEARSON.

105

Es fcil ver que no hay problemas de anulacin del denominador en el quebrado


que aparece en la definicin, pues el conjunto de puntos en que ste se anula tiene
probabilidad cero. En consecuencia, (8.5) define casi en todo punto (con respecto
a fX (x; 0 )) el contraste (x). El tamao de dicho contraste es:



fX (x; a )
E0 [(X)] = Prob
> c0 |0
fX (x; 0 )


fX (x; a )
(c0 )
=
c
|
Prob
+
0 0
fX (x; 0 )
(c
0 ) (c0 )
=
Esto da cuenta de la existencia. Comprobemos ahora (ii). Sea (x) el contraste
definido en (8.5) y (x) cualquier otro, de tamao no mayor que : E0 (X)
. Sean S + , S = , y S las tres regiones del espacio muestral en que se verifican,
respectivamente, cada una de las tres condiciones expresadas en (8.5). Puede verse
que sobre cualquiera de dichas regiones:
Z
((x) (x))(fX (x; a ) c0 fX (x; 0 ))dx 0
(8.6)
En efecto: cuando (fX (x; a ) c0 fX (x; 0 )) > 0, (x) = 1, y por tanto ((x)
(x)) 0; el integrando es por consiguiente no negativo. Cuando (fX (x; a )
c0 fX (x; 0 )) < 0, (x) = 0, ((x) (x)) 0, y el integrando es de nuevo
no negativo. Por consiguiente, la integral (8.6) extendida a todo S es no negativa,
y realizando el producto en el integrando obtenemos:
Z
Z

((x) (x))fX (x; a )dx ((x) (x))c0 fX (x; 0 ))dx 0 (8.7)


S

Potencia((X)) Potencia( (X)) c0 ( E0 (X)) 0 (8.8)


{z
}
|
0

Por tanto:

Potencia((X)) Potencia( (X))


Comprobemos finalmente (iii). Sea (x) el contraste ms potente de tamao
para 0 frente a a . Sea por otra parte (x) el contraste verificando (8.3)-(8.4).
Denominemos C al conjunto de puntos muestrales verificando:
C = {x : [ (x) 6= (x)] [fX (x; a ) 6= kfX (x; 0 )]}
Vamos a ver que C tiene medida cero, y por tanto ambos contrastes son esencialmente el mismo. Como ya se ha visto en el apartado (ii):
Z
((x) (x))(fX (x; a ) kfX (x; 0 ))dx 0
S

CAPTULO 8. CONTRASTE DE HIPTESIS.

106

Pero basta que integremos en C (pues fuera de C el integrando se anula). Por tanto:
Z
Z

((x) (x))fX (x; a )dx > k ((x) (x))fX (x; 0 )dx


C

= k ( E0 (X))

La integral del lado izquierdo es la diferencia de potencias, y el lado derecho


si (x) est constreido a tener nivel de significacin no mayor que es no
negativo. Por tanto, (x) sera ms potente que (x), contra la hiptesis, a menos
que C sea un conjunto de probabilidad cero cuando = 0 .

Observacin 8.1 Los contrastes pueden diferir en {x : fX (x; a ) = kfX (x; 0 )}.
La definicin de cualquiera de ambos contrastes en dicha regin frontera
no afecta a sus respectivas potencias, y es por tanto arbitraria.
Observacin 8.2 La decisin a tomar depende de la muestra slo a travs de fX (x; a )/fX (x; 0 ). No es extrao que esto suceda. Vimos (Ejemplo 3.10) que la razn de verosimilitudes es un estadstico suficiente, y (Seccin 3.6) que los procedimientos de Bayes pueden siempre hacerse depender
de estadsticos suficientes. El empleo del teorema de Neyman-Pearson proporciona pues acceso a todos los procedimientos de Bayes. Como se vio en
la Seccin 1.10, tal clase completada con sus lmites incluye en general la
totalidad de los procedimientos que deseamos considerar (admisibles). La
relacin entre el teorema de Neyman-Pearson y la Teora de la Decisin esbozada en el Captulo 1 resulta adicionalmente clarificada en la Seccin 8.3.
Observacin 8.3 Del contenido de la Seccin anterior se desprende
que la potencia de un contraste vara de acuerdo con la alternativa considerada. De hecho, se ha definido potencia (en (8.1)) como una funcin de . Es
claro pues que, en general, el contraste de tamao ms potente de 0 frente
a 1 no coincidir con el de igual tamao y mxima potencia de 0 frente a 2 .
Hay casos, sin embargo, en que un mismo contraste es el ms potente frente
a una clase compuesta de alternativas a . Se dice que es uniformemente ms
potente (UMP) para dicha clase de alternativas. Volveremos sobre esto en la
Seccin 8.4.

8.3. Teorema de Neyman-Pearson y procedimientos de Bayes.


Sea el problema de contrastar una hiptesis simple H0 : = 0 frente a una
alternativa tambin simple, Ha : = a . Supongamos que hay una distribucin a
priori definida sobre , que atribuye probabilidades 0 y a respectivamente a 0 y
a .

8.4. CONTRASTES UNIFORMEMENTE MS POTENTES (UMP).

107

Designemos por c0 y ca los costes respectivos de tomar equivocadamente las


decisiones d0 : = 0 y da : = a .
Estudiemos el problema de construir un contraste (x) cuyo riesgo de Bayes
R () sea mnimo. Tenemos que:
Z
Z
c0 a (1 (x))fX (x; a )dx
ca 0 (x)fX (x; 0 )dx +
R () =
n
n
R
R
Z
(x) [ca 0 fX (x; 0 ) c0 a fX (x; a )] dx
=
Rn
Z
c0 a fX (x; a )dx
(8.9)
+
Rn

Como quiera que el segundo sumando de (8.9) no depende de (x), basta minimizar el primero; y es claro que para ello debemos tomar:
(x) = 1 cuando c0 a fX (x; a ) ca 0 fX (x; 0 ) > 0

(x) = 0 cuando c0 a fX (x; a ) ca 0 fX (x; 0 ) < 0


Es decir, (x) = 1 si:
fX (x; 0 )
fX (x; a )

<

c0 a
ca 0

(8.10)

que es precisamente la condicin que establece el teorema de Neyman-Pearson


para rechazar 0 en beneficio de a . Hay una diferencia, no obstante: el enfoque
basado en la Teora de la Decisin fija el valor que debe tener el umbral a superar
por la razn de verosimilitudes para que se produzca el rechazo de 0 ; analizando
(8.10) vemos adems que dicho umbral depende de la forma intuitivamente esperable de los parmetros c0 , ca , 0 y a .
El enfoque basado en el Teorema de Neyman-Pearson proporciona una familia
de contrastes idntica, pero el umbral a superar por la razn de verosimilitudes se
fija estableciendo (habitualmente de modo un tanto arbitrario) el nivel de significacin deseado. Cuando se disponga de una funcin de prdida especificada y de
una distribucin a priori sobre las dos posibles hiptesis competidoras, el uso de
(8.10) parece lo indicado. En caso contrario, habr de hacerse uso del Teorema de
Neyman-Pearson, con la precaucin de especificar un nivel de significacin tanto
ms pequeo (= un rechazo tanto ms difcil) cuanto ms grave sea la adopcin
injustificada de a , o ms fuerte sea la creencia de encontrarnos ante 0 .

8.4. Contrastes uniformemente ms potentes (UMP).


Se ha indicado ya que, en general, el contraste ms potente proporcionado por
el Teorema de Neyman-Pearson depende tanto de la hiptesis nula como de la
alternativa. En algunas circunstancias, no obstante, dada una hiptesis nula H0 , el

CAPTULO 8. CONTRASTE DE HIPTESIS.

108

mismo contraste (x) es el ms potente de tamao para todas las alternativas en


una cierta clase. Se dice que es uniformemente ms potente (UMP) en dicha clase.
Ejemplo 8.3 Consideremos una muestra procedente de una poblacin
con distribucin exponencial fX (x, ) = 1 ex/ , > 0, con ayuda de
la cual queremos contrastar H0 : = 0 frente a la alternativa (compuesta) Ha : > 0 . Para cualquier a > 0 , el teorema de Neyman-Pearson
prescribe tomar como regin crtica la formada por los x verificando
( n
)
 n
X 1
fX (x; a )
1
0
xi
c,

=
exp
fX (x; 0 )
a
a
0
i=1
o equivalentemente
)
( n
X  0 a 
xi
exp
0 a
i=1
n
X

xi

>

>

i=1

a
0

n

loge c n log

0
a

 

1
a 0
(8.11).
0 a

Pn
Por consiguiente, todo se reduce a calcular el valor del estadstico i=1 xi
y compararlo con la constante,
Pn k, dada por el lado derecho de (8.11). Dicha
k se calcula de modo que i=1 Xi > k bajo HP
0 con la probabilidad que
hayamos prefijado. En el caso que nos ocupa, ni=1 Xi sigue bajo H0 una
distribucin (01 , n), y k resulta de resolver
Z
1
x/0 n1
x
dx = .
ne
(n)
k
0
Por tanto, k no depende de cul sea a (con tal de que a > 0 ) y el contraste
es uniformemente ms potente en la clase indicada.

Hay una caracterizacin simple que permite detectar la existencia de contrastes


UMP cuando existen. Requiere la siguiente definicin.
Definicin 8.1 Sea X una v.a. con distribucin {Fx (x; ), }. Sea fX | (x |)
la funcin de verosimilitud asociada a una muestra x = (x1 , . . . , xn ). Se dice que
{Fx (x; ), } tiene razn de verosimilitud montona si para algn estadstico
T (x) y cualquier x se verifica
fX | (x |)
fX (x; 0 )

= g(T (x)),

(8.12)

siendo g(.) una funcin montona no decreciente y 0 , valores cualesquiera en


con > 0 .
Ejemplo 8.4 El Ejemplo 8.3 muestra una familia de distribuciones
con
Pn
una razn de verosimilitud montona. Si hacemos T (x) = i=1 xi , tenemos que



fX | (x |)
0
exp T (x)
,
fX (x; 0 )
0

8.5. CONTRASTES RAZN DE VEROSIMILITUDES GENERALIZADA. 109


que es una funcin creciente de T (x) para cualesquiera , 0 con >
0 .

Se deduce con facilidad de (8.12) que si una familia de distribuciones tiene razn
de verosimilitud montona,
fX | (x |)
c g(T (x)) c T (x) g1 (c).
fX (x; 0 )
Por tanto, el contraste ms potente que proporciona el Teorema de NeymanPearson
es independiente de la alternativa dentro de la familia considerada: es UMP y puede
construirse haciendo uso del estadstico T (x).
Por otra parte, es fcil identificar T (x) en las distribuciones de la familia exponencial cuando existe un contraste UMP. En efecto, sea > 0 ; para cualquier
distribucin en la familia exponencial,
fX | (x |)
fX (x; 0 )

P
P
exp {a() ni=1 b(xi ) + c() + ni=1 d(xi )}
P
P
=
exp {a(0 ) ni=1 b(xi ) + c(0 ) + ni=1 d(xi )}
)
(
n
X
b(xi ) + (c() c(0 )) .
= exp (a() a(0 ))
i=1

Por consiguiente, si a() es funcin no decreciente de , la distribucin considerada


tiene razn de verosimilitud montona, y admite un contraste
UMP que puede
P
expresarse en funcin del estadstico suficiente T (x) = ni=1 b(xi ).

8.5. Contrastes razn de verosimilitudes generalizada.


Con frecuencia tenemos hiptesis anidadas, del tipo: H0 : 0 versus
Ha : a , en que a = 0 ; es decir, la hiptesis nula prescribe que
toma valores en un subconjunto propio de . Tpicamente, H0 constrie a un
subconjunto de dimensin menor que la de .
Cuando esto ocurre, bajo condiciones de regularidad que hagan el estimador
MV de asintticamente insesgado y normal, el resultado a continuacin permite
construir contrastes que son en ocasiones los nicos disponibles.
Teorema 8.2 Sea el contraste H0 : 0 versus Ha : a , en que a =
0 , y supongamos que dim(a ) = r. Bajo condiciones de regularidad como
las requeridas en el Teorema 6.2, pg, 81,
= 2 loge
D EMOSTRACION :

sup0 fX | (x |)
sup fX | (x |)

2r .

(8.13)

CAPTULO 8. CONTRASTE DE HIPTESIS.

110

Presentamos, por simplicidad, la demostracin para el caso unidimensional en


que la hiptesis nula es simple, H0 : = 0 , en tanto la alternativa es Ha :
con dim() = 1 (y, por tanto, r = dim() dim(0 ) = 1). Sean
= sup fX | (x |),

(8.14)

loge fX (Xi , )
,

Ui () =

(8.15)

Tenemos que
h
i
log fX (X; 0 ) .
= 2 loge fX (X; )
e

(8.16)

Desarrollando en serie el segundo sumando de la derecha de (8.16) en torno al


punto obtenemos


loge fX (X; )

(0 )
loge fX (X; 0 ) = loge fX (X; ) +

=


1 2 loge fX (X; )
2
(0 )
(8.17)
+
2!
2
=
es decir, | 0 | < | 0 |. Sustituyendo (8.17)
en que es un punto entre 0 y ,
en (8.16) obtenemos


loge fX (X; )

= 2
(0 )

=
 2

loge fX (X; )

( 0 )2
(8.18)
2
=
n
n
X
X

( 0 )2

Ui ()
(8.19)
Ui ()
= 2(0 )
i=1

i=1

Ahora bien, bajo las condiciones de regularidad impuestas, el estimador mximo


verosmil anula la primera derivada de la funcin de verosimilitud, y
n
X

=
Ui ()

i=1

loge fX (X; )

= 0;
=

por tanto, (8.19) queda reducida a


= ( 0 )

n
X
i=1

Ui ()

= n( 0 )

Pn


i=1 Ui ()

. (8.20)

En virtud del Teorema 6.2,


L

n( 0 )2 I(0 )1 21 .

(8.21)

8.5. CONTRASTES RAZN DE VEROSIMILITUDES GENERALIZADA. 111


c.s.
c.s.
Por otra parte, 0 (ya que 0 y | 0 | < | 0 |), y por consiguiente

n
X

Uj ()

j=1

n
X

Uj (0 ).

(8.22)

j=1

La expresin (8.22) converge en probabilidad al valor medio de cada uno de los


sumando promediados, E0 [Uj (0 )] = I(0 ), en virtud de la ley dbil de los
grandes nmeros (Teorema A.2, pg. 148):

Pn


i=1 Ui ()

I(0 ).

(8.23)

Haciendo uso de (8.21) y (8.23) vemos que la expresin (8.20) converge en distribucin a una 21 .

Observacin 8.4 (criterio AIC y verosimilitudes penalizadas) Incidentalmente, hay una conexin interesante entre el contraste razn de verosimilitudes generalizada y el criterio conocido como AIC (An Information
Criterion, o Akaikes Information Criterion).
Supongamos que deseamos comparar modelos con diferente nmero de
parmetros. Consideremos, por ejemplo, uno cuyo vector de parmetros
pertenece a , y otro competidor tal que 0 con 0 y dim()
dim(0 ) = r. Del Teorema 8.2 deducimos que, bajo H0 ,


sup fX | (x |)
2r .
(8.24)
2 loge
sup0 fX | (x |)
Numerador y denominador de (8.24) son las verosimilitudes maximizadas
bajo Ha y bajo H0 respectivamente. Dado que 0 , es claro que la
verosimilitud bajo H0 nunca ser mayor: no tiene pues sentido una comparacin directa de ambas verosimilitudes para escoger entre ambos modelos. Si
tomamos valor medio en (8.24) y dividimos entre dos vemos que, bajo H0 ,


r
(8.25)
E loge sup fX | (x |) loge sup fX | (x |) = .
2

0
Es decir, incluso cuando H0 es cierta y no tiene objeto seleccionar el modelo
alternativo con 0 , la verosimilitud de dicho modelo alternativo
ser en promedio 2r unidades mayor, siendo r la diferencia de dimensin
entre y 0 (normalmente coincidente con la diferencia en el nmero de
parmetros ajustados). Podra parecer adecuado corregir las verosimilitudes
correspondientes a modelos diferentes, restando al logaritmo de cada una la
mitad del nmero de parmetros utilizado, 2r . Ello las pondra en pie de
igualdad, rectificando en valor medio el incremento de verosimilitud que
se produce por el mero hecho de ajustar un mayor nmero de parmetros.

CAPTULO 8. CONTRASTE DE HIPTESIS.

112

As, en lugar de logaritmos de verosimilitudes, compararamos logaritmos


de verosimilitudes corregidos en valor medio como
loge fX (x, MV 0 )
loge fX (x, MV )

r1
2
r2
.
2

(8.26)
(8.27)

No obstante, preferir el segundo modelo al primero sobre la base de que


r1
loge fX (x, MV )
2

>

r2
loge fX (x, MV 0 ) ,
2

o, equivalentemente,
fX (x, MV )
2 loge
fX (x, MV 0 )

> (r1 r2 ),

es tanto como hacer un contraste de hiptesis de uno frente a otro tomando


como valor crtico de una 2r1 r2 su valor medio. Ello dara lugar a un
(error de tipo I) inaceptablemente grande. Parece que se impone una penalizacin mayor del nmero de parmetros.
La expresin,
2 loge fX (x, MV ) 2r
siendo r el nmero de parmetros libres en que hemos ajustado se conoce
como criterio AIC y fue propuesto en Akaike (1972), haciendo uso de un argumento diferente. Obsrvese que penaliza adicionalmente la verosimilitud
respecto de la propuesta en (8.26)(8.27). Discrimina con ello ms a favor de
modelos simples. Es slo una de las muchas manifestaciones de una idea
bastante ms general: la de penalizar las verosimilitudes de modo que se tome en consideracin su diferente complejidad, medida de ordinario por el
nmero de parmetros ajustados o alguna funcin del nmero de parmetros
y el tamao de la muestra. Sobre esta cuestin volvemos en el Captulo 9.

8.6. Contrastes de significacin puros


8.6.1. Caso de hiptesis simples
En ocasiones, deseamos contrastar una hiptesis sin especificar una alternativa. Tpicamente, la hiptesis H0 que se desea contrastar puede describirse como
una hiptesis statu quo o comnmente aceptada, que queremos poner a prueba. no tenemos una idea clara de cuales puedan ser las alternativas competidoras.
Deseamos simplemente examinar si la evidencia muestral es compatible con H0 .
Los ingredientes necesarios para un contraste de esta naturaleza son:
La hiptesis nula de inters, H0 .
Un estadstico T (X) cuya distribucin bajo H0 es conocida, y sobre el que
adoptaremos la convencin de que valores mayores suponen un mayor alejamiento de la muestra del comportamiento esperable bajo H0 .

8.6. CONTRASTES DE SIGNIFICACIN PUROS

113

Procederemos entonces del modo habitual:


1. Realizaremos el muestreo, obteniendo x.
2. Calcularemos el valor del estadstico de contraste, T (X), correspondiente a
la muestra x. Sea dicho valor tobs = T (x).
3. Calcularemos,
pobs = Prob {T (X) tobs |H0 } ,

(8.28)

nivel de significacin emprico o p-value. Para un nivel de significacin


(probabilidad de error de tipo I) prefijado, , rechazaremos H0 si pobs < ,
y no rechazaremos en caso contrario.
Podemos interpretar pobs como la probabilidad cuando H0 es cierta de obtener una
muestra tan o ms rara que la obtenida. En efecto, valores crecientes de T (x)
reflejan discrepancias crecientes de la muestra con el comportamiento previsible
bajo H0 . La lgica del contraste de significacin consiste pues en rechazar H0
cuando lo que observamos sera excesivamente raro en una situacin en que H0
prevaleciera.
Ejemplo 8.5 El contraste de ajuste 2 es posiblemente el de ms uso (y
abuso) de entre todos los contrastes de significacin puros. Si particionamos
los valores obtenibles de la variable aleatoria en k clases,
Pk
(ni ei )2
,
(8.29)
T (X) = i=1
ei
siendo ni el nmero de observaciones en la clase i-sima, y ei el nmero de
observaciones que esperaramos obtener en dicha clase bajo H0 (vase por
ej. Trocniz (1987), p. 245). Valores grandes de T (X) corresponden a discrepancias notables en una o varias clases entre el nmero de observaciones
esperado y el que se ha presentado en la muestra.
Si H0 especifica por completo una distribucin, T (X) se distribuye aproximadamente (para muestras grandes y clases no muy despobladas) como
una 2k1 .
Obsrvese que estamos contrastando acuerdo de la muestra con H0 sin
especificar ninguna alternativa, es decir, sin precisar en qu modo habra de
presentarse, de existir, la discrepancia entre la muestra y la distribucin prescrita por H0 .

Otros muchos ejemplos pueden darse de contrastes de significacin puros: el


contraste de ajuste de Kolmogorov-Smirnov (vase Trocniz (1987), p. 255), contrastes de independencia, etc.

8.6.2. Caso de hiptesis compuestas


El problema se hace un poco ms complejo cuando la hiptesis de inters no
es simple sino compuesta; es decir, H0 no especifica por completo la distribucin
de la que supuestamente procede la muestra.

114

CAPTULO 8. CONTRASTE DE HIPTESIS.


Ejemplo 8.6 La hiptesis de normalidad sera compuesta: no hay una
nica distribucin normal, sino una familia de ellas.

Cuando esto ocurre, el modo tan simple de operar descrito ms arriba ya no es


de aplicacin. Podemos quiz encontrar todava un estadstico T (X) que sea buen
indicador de la discrepancia entre el comportamiento de la muestra y el esperable
bajo H0 . El clculo de pobs ya no es en general, sin embargo, tan simple como el
mostrado en (8.28). Puede ocurrir que la probabilidad en el lado derecho de (8.28
sea diferente, dependiendo de la distribucin concreta que consideremos de entre
todas las que componen H0 .
En general, las hiptesis compuestas suelen prescribir una familia de distribuciones indeterminadas en el valor de uno o varios parmetros de ruido. As, en el
Ejemplo 8.6, H0 prescriba para la muestra una distribucin N (, 2 ) para valores
indeterminados de y . Cuando esto ocurre, hay varias soluciones que podemos
adoptar para realizar el contraste de significacin deseado.
1. Estimar el o los parmetros de ruido. Esto es tanto como convertir la hiptesis compuesta en una simple similar, individualizando una nica distribucin de entre todas las que componen H0 .
Ejemplo 8.7 Supongamos que deseamos contrastar la hiptesis
de que una determinada muestra procede del muestreo de una P
distribu = N 1
cin de Poisson, P(). Podramos estimar por
i Xi y
contrastar la hiptesis simple resultante.
Hay que tener presente que, al estimar el o los parmetros haciendo
uso de la muestra, estamos seleccionando de entre todas las distribuciones que componen H0 una particularmente cercana a los datos analizados. Este efecto deber de ordinario tenerse en cuenta en la obtencin
de la distribucin del estadstico de contraste T (X). Si hacemos uso de
un contraste 2 como el descrito en el Ejemplo 8.5, deberemos ahora
comparar el valor tobs con los cuantiles de una 2k2 ; el grado de libertad
es la ms
perdido en la 2 recoge el hecho de que la distribucin P()
cercana a los datos de entre todas las P(), y por este motivo debemos
esperar que el valor de T (X) sea en promedio menor que si fuera un
valor previamente fijado sin hacer uso de la muestra.
Observacin 8.5 Puede formalizarse la expresin la ms cercana empleada en el ejemplo anterior. Si el procedimiento de estimacin
del o los parmetros de ruido es el de mxima verosimilitud, la distribucin seleccionada de entre la familia que componen H0 es la que est a
mnima distancia de Kullback-Leibler de la distribucin emprica de la
muestra.
Ejemplo 8.8 (contraste de normalidad) Para hacer un contraste
de normalidad sin especificar la distribucin normal concreta, podramos estimar y y emplear un contraste de ajuste de KolmogorovSmirnov. Compararamos as la distribucin emprica de la muestra con
la de una N (
,
). Siendo el de Kolmogorov-Smirnov un contraste de

8.6. CONTRASTES DE SIGNIFICACIN PUROS

115

naturaleza asinttica, que se realiza con muestras de tamao bastante


grande, podramos en general prescindir del hecho de que hemos estimado dos parmetros.
Lo que antecede es una ilustracin y no un modo aconsejado de
operar: hay contrastes especializados como el de dAgostino (vase
DAgostino (1971)) o el de Shapiro-Wilk (vase Shapiro y Francia (1972)
por ejemplo).

2. Podemos en algunos casos convertir la hiptesis compuesta en simple de un


modo ad hoc, como ilustra el ejemplo siguiente.
Ejemplo 8.9 Consideremos el caso en que X N (, 0 ) y deseamos contrastar H0 : 0 con 0 conocida. Un estadstico adecuado sera T (X) = X, conduciendo al rechazo de H0 valores convenientemente grandes.
Necesitamos individualizar una entre todas las distribuciones en
{N (, 0 )} para hacer el clculo de pobs :
pobs = Prob {T (X) tobs |H0 } ;

(8.30)

tiene sentido entonces calcular pobs as:


pobs = Prob {T (X) tobs |N (0 , 0 )} .

(8.31)

Hemos escogido la distribucin en la familia H0 ms extrema. La lgica


de hacerlo as es que el pobs calculado bajo dicha distribucin es el mximo de los que calcularamos bajo cualquiera de las que componen H0 .
Estamos as actuando de manera conservadora. La probabilidad de obtener bajo H0 una muestra tan o ms rara que la observada ser como
mximo pobs . Si pobs es convenientemente pequeo, podemos rechazar
confiadamente H0 .

3. Hay una tercera opcin, que cuando es factible es frecuentemente la preferida. En lugar de estimar los parmetros de ruido, podemos eliminarlos
considerando la distribucin condicional sobre un estadstico suficiente para
los mismos. El ejemplo que sigue ilustra el modo de operar.
Ejemplo 8.10 Estamos interesados en contrastar ajuste a una distribucin de Poisson P(), sin precisar . Disponemos de una muestra X = (X1 , . . . , Xn ). Sabemos (ver Ejemplo 3.8, p. 36) que S =
P
n
i=1 Xi es un estadstico suficiente para , y que la distribucin condicionada es
s!
.
(8.32)
fX|S (x|s) = s Qn
n
i=1 xi !
Por consiguiente, condicionalmente en el valor observado s del estadstico suficiente, una muestra como la obtenido tiene una probabilidad
dada por el lado derecho de (8.32; llammosle . Podemos computar
pobs como la probabilidad de encontrar, dado S = s, una muestra tan o
ms rara que la obtenida:
X
s!
Qn
,
(8.33)
pobs =
s
n
i=1 xi !
xC(s)

CAPTULO 8. CONTRASTE DE HIPTESIS.

116
siendo


C(s) = x :

s!
Qn
s

i=1

xi !

El problema de contrastar si la muestra dada procede de una P() con


indeterminado, ha quedado convertido en el problema de contrastar
si es plausible que la muestra obtenida x proceda de una distribucin
multinomial de parmetros ( n1 , . . . , n1 ).

Ejemplo 8.11 (contraste exacto de Fisher) Un caso de gran aplicacin (y que ya fue discutido por Fisher) es aqul en que estamos interesados en contrastar la independencia entre dos caracteres. Por ejemplo, si deseramos contrastar la efectividad de un cierto tratamiento preventivo, podramos administrarlo a un grupo de pacientes en tanto otros
homogneos reciben un placebo. Tras un periodo de tiempo, podramos
ver cuantos enfermaron de uno y otro grupo y compilar una tabla como
la siguiente (c1 , c2 , r1 , r2 son los totales de filas y columnas respectivamente):

Placebo
Tratamiento

Sano
n11
n21
c1

Enfermo
n12
n22
c2

r1
r2

A la vista de la misma, desearamos contrastar independencia entre los


sucesos Tomar el tratamiento y Mantenerse sano.
Bajo la hiptesis de independencia entre ambos caracteres, la probabilidad de estar en la casilla ij es pij = pi. p.j , siendo pi. y p.j las
probabilidades marginales de estar en la fila i y en la columna j. Las
probabilidades de cada casilla bajo la hiptesis de independencia dependen exclusivamente de las probabilidades marginales y c1 , c2 , r1 , r2
son estadsticos suficientes para las mismas (se comprueba fcilmente).
La distribucin condicionada sobre c1 , c2 , r1 , r2 de un resultado como
el recogido en la tabla es, bajo independencia, independiente de los parmetros: puede comprobarse (ver el desarrollo en, por ejemplo, Garn
y Tusell (1991), ejercicio 6.16) que dicha probabilidad es
 c2 
c1
p =

n11

n
r1

n12 .

Podemos ahora considerar la clase formada por todas las tablas t que
pueden construirse respetando los mrgenes c1 , c2 , r1 , r2 y tienen una
probabilidad condicional P
menor que p , y obtener el nivel de significacin emprico as: pobs = t Prob {t}.

8.6.3. Hay que tener en cuenta que. . .


Los contrastes de significacin tienen algunas peculiaridades que es preciso
considerar.

8.6. CONTRASTES DE SIGNIFICACIN PUROS

117

1. Los contrastes de significacin evalan el acuerdo entre una muestra y una


determinada hiptesis nula, H0 . No se explicita la alternativa, y ello puede
dar lugar a resultados absurdos por falta de cuidado al interpretar los resultados. En particular, una muestra puede ser extremadamente rara bajo H0 ,
y an serlo ms bajo cualquiera de las situaciones que podamos considerar
como alternativas. En este caso, es necesario tomar en cuenta explcitamente
estas alternativas en el proceso de decisin.
Ejemplo 8.12 Si hubiramos de contrastar la hiptesis H0 : X
N (0, 2 = 1) frente a toda alternativa, y contamos con 100 observaciones, parece sensato computar como estadstico de contraste
X y recha
zar H0 cuando X no est incluido en el intervalo (1,96/ 100, 1,96/ 100);
esto dara lugar a una prueba con un = 0,05. Si, sin embargo, la naturaleza del problema sugiriera que las nicas alternativas posibles son
distribuciones normales con varianza unitaria y media mayor que 5, sera claramente inadecuado rechazar H0 con un valor, por ejemplo, de
X = 2. Tal valor sera extremadamente raro bajo H0 estara a veinte
desviaciones tpicas de la media, y sugerira su rechazo; pero an
sera ms raro bajo cualquiera de las alternativas! An cuando un contraste de significacin no requiera la fijacin de alternativas, debemos
estar vigilantes ante situaciones como la descrita, que sugieren una insuficiente consideracin de los estados de naturaleza posibles.
2. En el caso de contrastes de significacin es particularmente importante distinguir entre significacin estadstica y relevancia prctica de la discrepancia
con H0 que el contraste pone de manifiesto. Sobre esta cuestin puede verse
Wang (1993), Cap. 1. El siguiente ejemplo ilustra la naturaleza del problema.
Ejemplo 8.13 Consideremos de nuevo la situacin en el Ejemplo 8.12. A efectos prcticos, puede acontecer que sea indiferente el
que la media sea = 108 en lugar de exactamente cero. No obstante, incluso una diferencia tan minscula sera declarada significativa con probabilidad tan cercana a uno como deseramos si el tamao
muestral crece
lo suficiente.En efecto, si adoptamos una regin crtica
n, +t/2 / n)c , un n lo suficientemente grande har
como (t/2
/

que |t/2 / n| < , conduciendo por tanto al rechazo de H0 al nivel de


significacin .
Pensemos ahora que todo modelo es, en la prctica, una aproximacin til, pero no exacta. Si furamos estrictos en rechazar un modelo al
obtener un resultado estadsticamente significativo contra l, todo modelo sucumbira ante una acumulacin suficiente de evidencia! Esto es
claramente absurdo. Deberamos ms bien preguntarnos si una media
de representa a efectos prcticos una desviacin suficiente de una media cero como para justificar el rechazo de esta ltima hiptesis. Slo
en caso de que la respuesta sea afirmativa estara indicado un contraste
estadstico.

CAPTULO 8. CONTRASTE DE HIPTESIS.

118

3. Una peculiaridad de los contrastes de significacin es que la misma evidencia puede dar lugar a interpretaciones diferentes segn el procedimiento de
muestreo. El siguiente ejemplo lo ilustra.
Ejemplo 8.14 Consideremos una moneda cuya regularidad (H0 :
Prob {Cara} = Prob {Cruz}) deseamos contrastar. Podemos lanzar cinco veces una moneda y contar el nmero de caras (Experimento 1) o
lanzar la moneda hasta obtener una cruz y examinar el nmero total de
lanzamientos (Experimento 2). Imaginemos dos experimentadores, haciendo el primero el Experimento 1 y el segundo el Experimento 2. Imaginemos que ambos obtienen cuatro caras al comienzo y una cruz
en el quinto lanzamiento.
Tanto uno como otro se inclinaran a considerar el resultado como
evidencia de mayor probabilidad de cara, pero aqu acabara el acuerdo. El primero, computara pobs la probabilidad de obtener un resultado tanto o ms extremo que el obtenido as:
pobs

=
=
=

Prob {4 caras} + Prob {5 caras}


   5    5
5
1
5
1
+
2
2
5
4
3
.
16

El segundo, en cambio, calculara:


pobs

=
=
=

Prob {Primera cruz en lugar quinto o posterior}


 n1  
 4  1  5  
1
1
1
1
1
1
+ ...+
+ ...
+
2
2
2
2
2
2
1 1
1
.
=
32 1 12
16

Ambos experimentadores han obtenido el mismo resultado, y sin embargo uno le otorga ms peso que el otro. Es molesto que la interpretacin que se hace de una misma evidencia dependa de cosas que podran
haber ocurrido, pero no lo han hecho.

Observacin 8.6 Relacionado con el ejemplo precedente: parecera sensato el clculo anterior de pobs si existiera alguna razn para
suponer que la desviacin de la regularidad de la moneda, de producirse, lo ha de ser haca una mayor probabilidad de cara. De no ser as,
el experimentador que hace uso del Experimento 1 debera doblar su
pobs : hay tambin resultados ms raros que el obtenido a causa de un
anormalmente pequeo nmero de caras. No es legtimo esperar a ver el
resultado para decidir sobre qu tipo de desviaciones de H0 queremos
considerar, y en consecuencia sobre el modo en que vamos a computar
pobs .
4. En ocasiones, se realizan varios contrastes de significacin sobre la misma
hiptesis, con muestras distintas y arrojando resultados pobs que pueden verse como variables aleatorias independientes. Supongamos dos experimentos

8.7. CONTRASTES LOCALMENTE MS POTENTES

119

que han arrojado sendos pobs y p


obs . Siendo interpretables como probabilidades (de obtener una muestra tanto o ms rara que la obtenida, cuando H0
es cierta), podra pensarse en pobs = pobs p
obs como un nivel de significacin
emprico sumarizando toda la evidencia disponible. Esto es incorrecto: vase
Cox y Hinkley (1974), Cap. 4 y Garn y Tusell (1991), ejercicio 9.12.

8.7. Contrastes localmente ms potentes


En ocasiones, la hiptesis alternativa es compuesta y no hay un contraste uniformemente mas potente. Una tctica que parece sensata podra ser maximizar la
potencia frente a una alternativa prxima. Por ejemplo, si tenemos H0 : = 0
vs. Ha : > 0 , podramos plantearnos escoger el contrate que permitiera discriminar ptimamente entre H0 y la alternativa simple local Ha : = + para
un pequeo.
De acuerdo con el teorema de Neyman-Pearson, la regin crtica que da lugar
al contraste ms potente para un prefijado, sera:


fX (x; 0 + )

k
(8.34)
RC = x :
,
fX (x; 0 )
para algn k ; o, equivalentemente,
RC = {x : log fX (x; 0 + ) log fX (x; 0 ) c } .

(8.35)

Consideremos la variable aleatoria


log fX (X; 0 + ) log fX (X; 0 )

(8.36)

y desarrollemos en serie en torno al punto 0 . Tenemos entonces que


log fX (X; 0 + ) log fX (X; 0 )



log fX (X; )

log fX (X; 0 )
= log fX (X; 0 ) +

=0


log fX (X; )
=
;

=0

los trminos despreciados en el desarrollo en serie son de orden 2 y superior, y


por tanto despreciables frente al nico incluido cuando es muy pequeo. Cuando
la hiptesis nula es cierta, tenemos (en virtud del Lema 5.1 y (5.5) que
#
" 

log fX (X; )
= 0
(8.37)
E0

=0
" 
#



log fX (X; )
log fX (X; ) 2
2
Var
(8.38)
= E0

=0
=0
= n2 I(0 ).

(8.39)

CAPTULO 8. CONTRASTE DE HIPTESIS.

120

Por consiguiente,




log fX (X;)




log
f
(X;
)



X
=0
p
= (nI(0 )) 2



2


n I(0 )
=0

(8.40)

es una variable aleatoria tipificada que podemos emplear como estadstico de contraste si conocemos su distribucin. Esta ltima puede ser desconocida, pero para
n grande, teniendo en cuenta que cuando tenemos observaciones independientes e
idnticamente distribuidas
log fX (X; ) = log

n
Y
i=1

fX (Xi ; ) =

n
X

log fX (Xi ; ),

(8.41)

i=1

cabr esperar un fuerte efecto teorema central del lmite, y una distribucin de
(8.40) aproximadamente normal. Rechazaremos pues la hiptesis nula si






log fX (X; )


12
(nI(
))
(8.42)

> z/2 ,
0

=0

siendo z/2 el cuantil adecuado de una distribucin N (0, 1). Alternativamente podramos comparar el cuadrado de (8.42) con el cuantil 21; .
En el caso en que hay varios parmetros, hemos de sustituir por y modificar
consecuentemente el desarrollo anterior; las ideas son las mismas. El resultado es
tambin similar: si hay k parmetros libres en , tenemos que bajo H0 , asintticamente
U (0 ) (nI(0 ))1 U (0 ) 2k ,
en que

U (0 ) =

(8.43)

log fX (X; )
log fX (X; )
,...,
(1)
(k)

(8.44)

y (i) es la i-sima componente de . Se conoce a este contraste como score test, o


tambin como contraste multiplicador de Lagrange.
A la vista de (8.37) y (8.39) podramos pensar tambin en contrastes haciendo
uso de:

( 0 ) (nI(0 ))1 ( 0 )

1 ( 0 )
( 0 ) (nI())

H0

2k

(8.45)

H0

2k ;

(8.46)

ambas son versiones asintticamente equivalentes del contraste de Wald. Vase


Garthwaite et al. (1995), p. 89.

Captulo 9

Mxima verosimilitud,
complejidad y seleccin de
modelos

9.1. Introduccin
William de Ockham (1290?1349?) propuso como criterio para seleccionar
lo que hoy llamaramos modelos el prescindir de complicaciones innecesarias; el
no multiplicar las entidades sin necesidad. Entre dos posibles explicaciones de
un mismo fenmeno, Ockham sugera as que retuviramos la ms simple. Un
principio que se ha popularizado como la navaja de Ockham.
Es difcil tal vez imposible justificar tal recomendacin si pretendemos
hacerlo con rigor. Se puede ver como una regla de economa intelectual. Pero ha
de ser la adecuacin entre modelo1 y realidad lo que gue nuestro esfuerzo, si somos realistas; no nuestra comodidad intelectual. Por qu hemos de preferir explicaciones simples si el mundo real, en muchas de sus manifestaciones, parece
extremadamente complejo?
Quiz la mejor lnea de defensa argumental de la recomendacin de Ockham
pueda basarse en su extraordinario xito. La bsqueda de explicaciones simples
ha sido un criterio que ha guiado la perspicacia de los cientficos casi invariablemente hacia buenos modelos: modelos con relativa gran capacidad explicativa
1
Siendo acaso muy impreciso con el lenguaje, utilizo modelo para designar un mecanismo
formalizable en ecuaciones matemticas que suponemos explica un fenmeno.

121

122CAPTULO 9. MXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIN DE MODELOS


que frecuentemente se funden armoniosamente con otros en unificaciones progresivamente mejores. Esto ha sucedido en Fsica y tambin en otras disciplinas.
Pero qu es simple? Porque para seguir el consejo de Ockham necesitamos
saber cuando uno de dos modelos es ms simple que otro.
Hay casos en los que hay poca duda. Entre dos modelos que proporcionen
predicciones igualmente buenas, si uno hace uso de todos los supuestos de otro
y alguno adicional, preferiremos el primero. Hablaremos en tal caso de modelos
anidados.
Pero esto es la excepcin y no la regla. Ms bien se nos presenta con frecuencia el caso de modelos solapados o incluso aparentemente disjuntos. Se hace
mucho ms difcil en este caso decidir cul es el ms simple. Y el problema slo
puede complicarse cuando tenemos modelos estadsticos que ofrecen un grado diferente de explicacin o ajuste de la evidencia emprica. Qu debemos preferir: un
modelo muy simple, que slo imprecisamente parece dar cuenta del fenmeno de
inters, u otro que logra gran precisin al coste de una complejidad mucho mayor?
Qu precio debemos pagar por la simplicidad en trminos de adecuacin de
los resultados proporcionados por nuestro modelo a los datos reales? O, alternativamente, qu complejidad adicional est justificada por un mejor ajuste a la evidencia?
Ejemplo 9.1 Consideremos el caso en que tratamos de establecer un
modelo de regresin relacionando la talla y el peso de un colectivo de personas. Imaginemos N pares de valores (Tallai , Pesoi ). Cabra imaginar una
relacin lineal entre ambos, o una relacin polinmica (que, a la luz de la
naturaleza de los datos, presupondramos fcilmente cbica). Es decir, podemos pensar, entre otras, en las siguientes dos relaciones entre Talla y Peso:
Pesoi
Pesoi

= 0 + 1 Tallai +
= 0 + 1 Tallai + 2 (Tallai )2 + 3 (Tallai )3 + .

(9.1)
(9.2)

Los i son parmetros y es una perturbacin aleatoria inobservable que


diluye la relacin entre las dos magnitudes objeto de estudio: dos personas de
la misma talla no necesariamente tienen el mismo peso. Es claro que (9.2) es
un modelo ms complejo que (9.1), que puede verse como un caso particular
de aqul.
No slo podramos pensar en dos relaciones como las citadas (la segunda
de las cuales siempre proporcionar un mejor ajuste que la primera, si nos
dejan escoger los parmetros). Podramos pensar en una relacin funcional
ajustando perfectamente los datos. Por ejemplo, un polinomio de grado N 1
(suponemos que no hay abscisas Tallai repetidas). Intuitivamente, parece que
tal relacin funcional es mucho ms compleja, y aunque el ajuste a los N
puntos muestrales fuera perfecto, seramos bastante reticentes a aceptar un
polinomio de grado muy elevado como modelo adecuado de una relacin
subyacente entre talla y peso.

El ejemplo anterior sugiere que el nmero de parmetros de un modelo es un


candidato a medir su complejidad. Tambin que, a mayor numero de parmetros
si trabajamos con modelos anidados, mejor ajuste del modelo a los datos muestrales. Sin embargo, en una situacin como la anterior podramos acaso preferir una

9.2. LA LGICA MXIMO-VEROSMIL Y LA ELECCIN DE MODELOS123


relacin cbica a una lineal la mejora de ajuste quiz vale los dos parmetros
adicionales de complejidad, pero seramos reticentes a admitir como modelo
un polinomio de grado N 1.
Este tipo de planteamiento se ha hecho desde largo tiempo, y hay un sin nmero de criterios de bondad de ajuste que dan orientaciones para dirimir el conflicto
ajustesimplicidad. Volveremos sobre ellos ms tarde tras considerar brevemente
las ideas de Kolmogorov, Chaitin y Solomonoff. A la luz de su contribucin y
a la de la precedente y fundamental de Shannon se puede ver el trabajo estadstico desde una nueva ptica, que ha encontrado un enrgico y brillante valedor en
Rissanen (vase Rissanen (1989)).

9.2. La lgica mximo-verosmil y la eleccin de modelos


9.2.1. Criterio mximo verosmil y modelos con diferente nmero de
parmetros
Es interesante ver el parentesco del principio de mxima verosimilitud con la
navaja de Ockham. No es la misma cosa, pero s muestra cierta similitud: evitar
el pensar en sucesos infrecuentes cuando hay alternativas ms plausibles que dan
cuenta de lo que observamos es un modo de buscar simplicidad.
Es preciso enfatizar que mientras el mtodo mximo-verosmil no ofrece problemas en la estimacin de los parmetros de un modelo, no es utilizable tal cual
para escoger entre modelos con diferente nmero de parmetros: los modelos ms
parametrizados tendern a dar valores mayores de la funcin de verosimilitud, sin
que ello suponga que sean mejores. El siguiente ejemplo es ilustrativo.
Ejemplo 9.2 Supongamos cien monedas, aparentemente idnticas, cada una de ellas con dos caras que denotamos por cara (C) y cruz (+).
Imaginemos que cada una de ellas tiene probabilidad de proporcionar C en
un lanzamiento2 y correlativa probabilidad 1 de proporcionar +.
Lanzamos las cien monedas y obtenemos el resultado x = (x1 , . . . , x100 )
con sesenta C y cuarenta +. La Teora de la Probabilidad indica que si la
probabilidad de C es , la probabilidad del suceso considerado3 viene dada
por,
P (x|)

60 (1 )40 ;

(9.3)

un sencillo clculo muestra que el estimador mximo verosmil de (que


6
. El correspondiente valor de P (x|) es
hace mxima (9.3)) es = 10
30
5,9085 10 . Llamamos verosimilitud de la muestra x = (x1 , . . . , x100 )
a la expresin (9.3) vista como funcin de . El maximizar dicha expresin
respecto de supone entonces escoger el valor del parmetro (estado de la
Naturaleza) que hace ms probable un suceso como el observado.
2

Con lo cual, para simplificar, queremos decir que imaginamos que en una sucesin muy larga de
lanzamientos tenderamos a observar un 100de C y el resto de +.
3
Es decir, sesenta caras y cuarenta cruces precisamente en el orden en que
` han
aparecido; si
prescindiramos de considerar el orden, la cifra dada habra de multiplicarse por 100
.
60

124CAPTULO 9. MXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIN DE MODELOS


Una alternativa sera imaginar que cada moneda, pese a ser aparentemente idntica a las restantes, tiene su propia probabilidad de proporcionar C
+. La expresin (9.3) se transformara entonces en
P (x|)

Y
i

Y
(1 j ),

(9.4)

en que el primer producto consta de sesenta trminos y el segundo de cuarenta. Siendo 0 1, (9.4) se maximiza dando a k , k = 1, . . . , 100, valor
1 0, segn la moneda correspondiente haya proporcionado cara o cruz. El
valor mximo de (9.4) es as 1.
Es poco natural atribuir a cada moneda una probabilidad i de cara
diferente, habida cuenta de que parecen iguales. Obviamente, al hacerlo maximizamos la probabilidad de observar algo como lo acontecido: con la eleccin referida de los cien parmetros 1 , . . . , 100 el suceso observado pasara
a tener probabilidad 1, lo que hace el suceso casi seguro! Sin embargo, aparte
de poco atractivo intuitivamente, el modelo es claramente ms complejo que
el que usa slo un parmetro, y difcilmente sera adoptado por nadie. Y ello
a pesar de que tendra ptima capacidad generadora de un resultado como el
observado.

Observacin 9.1 Un fenmeno similar al que el ejemplo anterior muestra en un caso un tanto artificial y extremo se presenta cuando tratamos de
seleccionar un modelo de regresin lineal. En presencia de normalidad en las
perturbaciones, es fcil ver que el valor de la verosimilitud decrece montonamente al crecer la suma de cuadrados de los residuos (SSE). Seleccionar el
modelo dando lugar al mximo valor de la verosimilitud, sera equivalente a
tomar aqul con mnima suma de cuadrados. Esto a su vez implica favorecer
los modelos excesivamente parametrizados, porque la inclusin de un nuevo
regresor siempre hace disminuir (o por lo menos no aumentar) SSE.
Como conclusin provisional de lo anterior, el criterio mximo verosmil es
intuitivamente atrayente, aparte de tener propiedades muy deseables en grandes
muestras (vase por ejemplo, Lehmann (1983); Cox y Hinkley (1974)); pero no
puede tomarse en consideracin para comparar modelos cuya complejidad en
un sentido an por determinar, pero que parece tener mucho que ver con el nmero
de parmetros es muy disimilar.

9.2.2. El criterio AIC


Akaike propuso (ver Akaike (1972), Akaike (1974) reimpreso en Akaike (1991))
un criterio de seleccin de modelos que toma en cuenta el nmero de parmetros
ajustados en cada uno: busca con ello corregir la tendencia del criterio mximo
verosmil a favorecer los modelos ms parametrizados. El criterio AIC enlaza con
trabajo anterior del mismo autor (ver Akaike (1969), Akaike (1970)) y fue la primera de una larga serie de propuestas similares. Examinaremos en lo que sigue su
fundamento siguiendo los trabajos Akaike (1991) y de Leeuw (2000).

9.2. LA LGICA MXIMO-VEROSMIL Y LA ELECCIN DE MODELOS125


Consideramos el caso en que con una muestra de tamao N hemos de seleccionar uno entre m modelos. Cada uno de ellos se caracteriza por pertenecer su
vector de parmetros a un diferente espacio paramtrico, k . Se verifica
. . . k k+1 . . . m ;

(9.5)

denotamos k k al vector de parmetros correspondiente al modelo k-simo,


y k a su estimador mximo verosmil.
Ejemplo 9.3 Consideremos modelos autorregresivos de rdenes crecientes,
Xt = 1 Xt1 + . . . + k Xtk + ;

(9.6)

tenemos que = (1 , . . . , k ) y los vectores de parmetros de los diferentes


modelos toman valores en espacios anidados.

Para contrastar la hiptesis H0 : k frente a Ha : , > k,


podemos recurrir al estadstico razn generalizada de verosimilitudes (Seccin 8.5,
pg. 109). En efecto, bajo H0 tenemos que


max k fX (x; )
(9.7)
2 loge
2k
max fX (x; )
y rechazaremos H0 si el estadstico en el lado izquierdo excede el valor crtico
2k;. No habra ningn problema si dejramos fijo. El problema se presenta cuando al crecer el tamao muestral N , crecen tambin k y . En tal caso,
max fX (x; ) puede llegar a ser una estimacin completamente distorsionada optimista debido al gran nmero de parmetros ajustados. El criterio AIC
da una respuesta a este problema. Consideremos la expresin:
EY

"Z

fX (x; 0 ) loge

))
fX (x; (Y
fX (x; 0 )

dx .

(9.8)

), la expresin en el corchete es (con


Observemos que, para un cierto = (Y
y
signo opuesto) la distancia de Kullback-Leibler entre las densidades fX (x; )
fX (x; 0 ). Maximizar dicho corchete equivaldra a maximizar
Z

fX (x; 0 ) loge fX (x; )dx

1X

loge fX (zi , ),
n

(9.9)

i=1

lo que muestra que debera ser aproximadamente el estimador mximo verosmil.


Limitarse a maximizar el corchete estara sujeto a los problemas derivados de tomar
como modelo el que maximiza la verosimilitud (Ejemplo 9.2 y Observacin 9.1
ms arriba). Pero la propuesta de Akaike es diferente: propone maximizar toda la
expresin (9.8).

126CAPTULO 9. MXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIN DE MODELOS


Para convencernos de la razonabilidad de (9.8) como expresin a maximizar
podemos reescribirla en trminos de Teora de la Decisin. Tenemos que

=
L(0 , )

fX (x; 0 ) loge

))
fX (x; (Y
fX (x; 0 )

dx

(9.10)

es una medida razonable de la prdida derivada de seleccionar el modelo correspondiente a en lugar del correcto, correspondiente a 0 . El riesgo
h
i
))
= EY L(0 , (Y
r0 ()

(9.11)

coincide entonces (salvo en el signo) con la expresin propuesta por Akaike, de


manera que maximizar (9.8) es equivalente a minimizar el riesgo (9.11).
La expresin (9.11) depende de 0 , y no es por ello directamente minimizable.
Pero

2r0 (k)

def

"

fX (x; k(Y ))
EY ,X 2 loge
fX (x; 0 )
!
n
2X
fX (xi ; k)

loge
n
fX (xi , 0 )

!#

(9.12)
(9.13)

i=1

Dn (k, 0 ).

(9.14)

Dado que Dn (k, 0 ) no es evaluable (depende de 0 ), podemos tratar de estimar


2r0 (k) por Dn (k, ); si la parametrizacin correcta 0 se encuentra entre
p
las consideradas, entonces, al ajustar el modelo ms parametrizado 0 y
p
podramos esperar que Dn (k, ) Dn (k, 0 ). Este no tiene por qu ser el
caso si cuando n : en tal caso, Dn (k, ) ser una estimacin
optimista de Dn (k, 0 ), debido al gran nmero de parmetros empleado en su
denominador. El criterio AIC busca corregir este sesgo optimista obteniendo una
estimacin aproximadamente insesgada de Dn (k, 0 ).
En lugar de utilizar la funcin de prdida directamente nos serviremos de aproximaciones de segundo orden como




L(0 , ) L(0 , 0 )+ L (0 , ) =0 (0 )+( 0 ) L (0 , ) =0 (0 );

9.2. LA LGICA MXIMO-VEROSMIL Y LA ELECCIN DE MODELOS127


bajo suficientes condiciones de regularidad,

 

Z



fX (x; )
L (0 , ) =0 =
fX (x; 0 ) loge
dx

fX (x; 0 )
=0


Z
loge fX (x; )
=
fX (x; 0 )
dx

=0


Z

1
dx
fX (x; )
=
fX (x; 0 )
fX (x; 0 )
=0

Z 

dx
=
fX (x; )

=0


Z

fX (x; )dx
=

=0
= 0.
En consecuencia,
L(0 , ) ( 0 ) L (0 , )( 0 ).
Como (vase la Definicin 5.1, pg. 62)


L (0 , ) (0 ) = I(0 ),

(9.15)

(9.16)

en que I(0 ) es la informacin de Fisher contenida en X, tenemos que


L(0 , ) ( 0 ) I(0 )( 0 ).

(9.17)

Definamos h., .iI(0 ) as:


ha, biI(0 ) = a I(0 )b,

(9.18)

y consiguientemente kak2I(0 ) = a I(0 )a. Sea


0|k= arg mn k0 k2I(0 ) ,
def

(9.19)

es decir, la proyeccin de 0 sobre k en la mtrica inducida por h., .iI(0 ) . Tenemos entonces que:
L(0 , k) (k 0 ) I(0 )(k 0 )
= kk 0 k2
I(0 )

= kk 0|kk2I(0 ) + k0|k 0 k2I(0 )


+hk 0|k, 0|k 0 iI(0 ) .

Consideremos ahora
n (0 , 0|k) n(0 0|k) I(0 )(0 0|k)
nD
n (k, 0|k) n(k 0|k) I(0 )(k 0|k).
nD

(9.20)

128CAPTULO 9. MXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIN DE MODELOS


Cuando n , 0 0 y k 0|k. Supongamos que k de modo que
1

0|k a la velocidad suficiente (basta que n 2 ( 0|k) 6 .) Entonces,


n (0 , 0|k) nk(0 0|k)k2
nD
I(0 )

n (k, 0|k) nk(k 0|k)k2


nD
I(0 )
y tomando la diferencia de ambas expresiones,
2
n (k, 0 ) nk(0 0|k)k2

nD
I(0 ) nk( k 0|k)kI(0 )

= nk0|k k2I(0 ) + nk0 k2I(0 )

(9.21)

2nh0 , 0|k 0 iI() nkk 0|kk2I(0 )

Haciendo uso de (9.20) y (9.21) y tomando valor medio, los productos internos son
aproximadamente cero en comparacin con los otros trminos y tenemos:
h
i
h
2
n (k, 0 ) = E nkk 0|kk2
E nL(, k) nD
I(0 ) + nk0|k kI(0 )

2nhk 0|k, 0|k iI() nk0|k k2I(0 )

nk0 k2I(0 ) + 2nh0 , 0|k iI()


i
+ nkk 0|kk2I(0 ) .

(9.22)

Cancelando trminos de signo opuesto nos queda:


h
i
2
n (k, 0 ) = 2nkk 0|kk2

E nL(, k) nD
I(0 ) nk0 kI(0 ) . (9.23)

Por lo tanto, el sesgo en que incurrimos al aproximar E[nL(, k)], que es lo


n (k, 0 )], que es lo que podemos utilizar, es
que desearamos utilizar, por E[nD
la suma de los dos trminos en (9.23). El ltimo de ellos es independiente de k,
y podemos prescindir de l. El primero tiene valor medio 2k. Por consiguiente,
adoptaremos como modelo el que corresponda a k minimizando
n (k, 0 ) + 2k,
nD

(9.24)

n (k, 0 ) en (9.12) equivale a minimizar


lo que a la vista de la definicin de D
n

AIC(k) =

2X
loge fX (xi ; k) + 2k,
n
i=1

expresin habitualmente utilizada como definicin del criterio AIC.

(9.25)

9.3. TEORA DE LA INFORMACIN

129

9.3. Teora de la informacin


Precisamos de un ltimo ingrediente antes de introducir la nocin de complejidad segn Kolmogorov-Chaitin-Solomonoff, y su aplicacin, entre otras, estadstica. Es la Teora de la Informacin, para la que Shannon (1948) (reimpreso en
Shannon y Weaver (1949)) contina siendo una referencia fundamental adems de
fcilmente accesible a no matemticos. Otros textos introductorios son Abramson
(1966) y Cullman et al. (1967).
Supongamos una fuente aleatoria de smbolos a1 , . . . , ak que genera una sucesin de los mismos con probabilidades respectivas p1 , . . . , pk . Supongamos que
smbolos sucesivos se generan de modo independiente4 . Nos planteamos el problema de codificar (por ejemplo, binariamente) el flujo de smbolos, de tal modo
que la transmisin de los mismos pueda hacerse con el mnimo nmero de dgitos
binarios en promedio.
La solucin es bastante obvia, y no se separa de la que Samuel Morse adopt
sobre base intuitiva al disear el cdigo que lleva su nombre: reservaremos palabras de cdigo (dgitos binarios, o combinaciones de ellos) cortas a los smbolos
que se presenten con gran probabilidad, y asignaremos las de mayor longitud a los
smbolos ms improbables. De este modo, gran parte del tiempo estaremos transmitiendo palabras de cdigo cortas5 .
Shannon dio base matemtica a esta intuicin, obteniendo algunos resultados
de gran inters. En lo que sigue, slo se proporcionan versiones simplificadas de
algunos de ellos, que no obstante retienen bastante de su inters y evitan complicaciones formales. Pero bastantes enunciados podran ser ms generales6 .
Central a la Teora de la Informacin es el concepto de entropa. Si tenemos una
fuente aleatoria como la aludida al comienzo de la seccin, generando k smbolos
independientemente unos de otros con probabilidades respectivas (p1 , . . . , pk ), la
entropa de la fuente (o de la distribucin asociada a ella) viene dada por
H(p)

def

k
X

pi log2 pi ,

i=1

con el convenio de que p log2 p = 0 si p = 0. La funcin H(p) tiene bastantes


propiedades interesantes. Una de ellas, inmediata, es que se anula cuando la distribucin de smbolos se hace causal es decir, cuando un smbolo se genera con
probabilidad 1 y el resto con probabilidad cero. Alcanza su mximo cuando la
distribucin es lo ms difusa posible en el caso de una distribucin discreta que
puede dar lugar a k smbolos, cuando cada uno de ellos tiene probabilidad k1 de
aparecer.
4
Es decir, que la fuente es de memoria nula. Se puede extender la teora a fuentes markovianas
en que este supuesto est ausente.
5
Morse reserv el . para la letra e, muy frecuente en ingls, reservando para smbolos bastante
ms infrecuentes los cdigos ms largos (por ejemplo el cero, 0, codificado mediante -----).
6
En particular, las distribuciones utilizadas podran ser continuas en vez de discretas, y los logaritmos en cualquier base, en lugar de binarios.

130CAPTULO 9. MXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIN DE MODELOS

Cuadro 9.1: Ejemplo de construccin de cdigo de Fano-Shannon.

Smbolo
a1
a2
a3
a4

pi
0,500
0,250
0,125
0,125

Pi =

j<i pj

0
0,500
0,750
0,875

Pi
0.000000. . .
0.100000. . .
0.110000. . .
0.111000. . .

L(i) = log2 pi
1
2
3
3

Cdigo
0
10
110
111

Un resultado muy fcil de demostrar7 es el siguiente:


Teorema 9.1 Para cualesquiera distribuciones discretas asignando respectivamente probabilidades (p1 , . . . , pk ) y (q1 , . . . , qk ) a k smbolos (a1 , . . . , ak ), se tiene:

k
X
i=1

pi log2 qi

k
X

pi log2 pi .

(9.26)

i=1

Hay otros interesantes hechos en los que la entropa juega un papel central. Por
ejemplo, la mejor codificacin que podemos hacer de los smbolos (a1 , . . . , ak )
requiere en promedio un nmero de dgitos binarios por smbolo acotado inferiormente por H(p). Esto es intuitivamente coherente con la interpretacin ya aludida
de la entropa: H(p) muy baja, significara distribucin de las probabilidades de los
smbolos muy concentrada (dando gran probabilidad a uno o unos pocos smbolos,
y poca al resto). Ello permitira codificar los pocos smbolos muy probables con
palabras de cdigo muy cortas, y slo raramente hacer uso de palabras ms largas
(para los smbolos ms improbables).
Ejemplo 9.4 (cdigo de Fano-Shannon) Veamos un modo de hacerlo.
Supongamos una fuente generando cuatro smbolos a1 , a2 , a3 , a4 ordenados
de acuerdo a sus probabilidades respectivas p1 , p2 , p3 , p4 . Supongamos que
stas son
P las que se recogen en la segunda columna del Cuadro 9.1. Sea
Pi = j<i pi como se indica en el Cuadro 9.1. Las palabras de cdigo se
asignan tomando una parte de la expresin binaria de Pi de longitud L(i)
igual a log2 pi redondeado a la unidad superior. Intuitivamente, es fcil ver
que el cdigo anterior es razonable: asigna palabras cortas a los smbolos
ms probables que ocupan las primeras posiciones en la tabla y progresivamente ms largas al resto.
El cdigo de Fano-Shannon comparte con otros una propiedad que se deriva
fcilmente del proceso constructivo que hemos seguido (vase por ejemplo Li y
Vitnyi (1993), p. 63) y que es aparente en la ltima columna del Cuadro 9.1:
ninguna palabra de cdigo es prefijo de otra de longitud mayor. Por ejemplo, a2 se
7

Vase por ejemplo Abramson (1966), p. 30.

9.3. TEORA DE LA INFORMACIN

131

Figura 9.1: Arbol binario completo de profundidad tres

00

000

01

001

010

10

011

100

11

101

110

111
2L(i) =

codifica por 10 que no es comienzo de ninguna de las dos palabras de cdigo de


longitud tres (110 y 111). Esta propiedad la de ser un cdigo libre de prefijos o
instantneo permite decodificar al vuelo. Cuando observamos 10, sabemos que
hemos llegado al final de una palabra, que podemos decodificar como a2 ; esto no
ocurrira si nuestro cdigo incluyera palabras como 101.
Los cdigos libres de prefijos tienen longitudes de palabra L(i) verificando la
llamada desigualdad de Kraft, recogida en el siguiente
Teorema 9.2 La condicin necesaria y suficiente para que exista un cdigo libre
de prefijos con longitudes de palabra L(1), . . . , L(k) es que
X
2L(i) 1
(9.27)
i

D EMOSTRACIN :
La demostracin es muy simple. Pensemos en todas las posibles palabras de todas las longitudes dispuestas en un rbol binario como el recogido en el Grfico 9.1
(truncado a la profundidad 3). Si utilizramos como palabras de cdigo todas las
de longitud 3, tendramos L(i) = 3 y 2l(i) = 81 para i = 1, . . . , 8 y la inecuacin
(9.27) se verificara con igualdad.
Si escogemos una de las palabras de longitud inferior (uno de los nodos que no
son hojas en el Grfico 9.1), el requerimiento de ausencia de prefijos nos obliga
a prescindir de todas las palabras correspondientes a nodos hijos. El Grfico 9.2

1
8

132CAPTULO 9. MXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIN DE MODELOS

Figura 9.2: Arbol binario truncado

2L(i) = 21 =

1
2

10

11
2L(i) = 22 =

100

1
4

101

2L(i) = 23 =

1
8

2L(i) = 23 =

1
8

representa un rbol truncado con cuatro nodos terminales u hojas, junto a las que
se ha escrito 2L(i) . Vemos que el tomar en 0 obliga a prescindir de 01, 00, y todos
sus descendientes; pero 21 contribucin de 0 al lado izquierdo de (9.27) es
igual a la suma de las contribuciones a dicha expresin de todos los descendientes
de los que hemos de prescindir.
Por tanto, trunquemos como trunquemos el rbol binario, la suma de 2L(i) extendida a sus hojas o nodos terminales ser siempre 1. La desigualdad (9.27) slo
es estricta cuando despreciamos algn nodo terminal al construir nuestro cdigo.

Podemos ya bosquejar la demostracin del siguiente resultado:


P
Teorema 9.3 Dada una fuente aleatoria con entropa H(p) = i pi log2 pi
cualquier cdigo instantneo precisa un promedio de al menos H(p) dgitos binarios de cdigo por smbolo. Es decir, si la palabra codificando ai tiene longitud
L(i), se verifica:
X
X
pi L(i)
pi log2 pi
(9.28)
i

D EMOSTRACIN :
Definamos
qi =

2L(i)
P L(i) ,
i2

(9.29)

9.4. COMPLEJIDAD EN EL SENTIDO DE KOLMOGOROV

133

con lo que
log2 qi = L(i) log2

X
i

L(i)

L(i).

(9.30)

La desigualdad anterior junto con el Teorema 9.1 proporcionan entonces de inmediato (9.28).

Obsrvese que el cdigo de Fano-Shannon haca L(i) log2 pi (redondeaba


a la unidad superior): aproximadamente lo correcto. Verificara (9.28) con igualdad
si log2 pi (i = 1, . . . , k) resultaran ser siempre nmeros enteros. En cualquier caso, el resultado que nos interesa es que para codificar un evento de probabilidad pi ,
el cdigo libre de prefijos ptimo requiere del orden de log2 pi dgitos binarios.

9.4. Complejidad en el sentido de Kolmogorov


9.4.1. Informacin y complejidad
Estamos ya en condiciones de abordar la nocin de complejidad segn KolmogorovChaitin-Solomonoff.
De cuanto se ha visto en la Seccin 9.3 se deduce que log2 pi mide aproximadamente la informacin contenida en ai . Se da sin embargo una paradoja, ya puesta
de manifiesto por Laplace (vase por ejemplo Cover et al. (1989)), que sugiere emplear como medida de la complejidad de ai algo diferente (aunque ntimamente
relacionado con lo anterior).
Imaginemos las dos siguientes cadenas de dgitos binarios:
0000000000000000000000000000000
0011010001011101010001010111011
Ambas tienen el mismo nmero de dgitos binarios, 31. Si imaginamos el conjunto de todas las cadenas de 31 dgitos binarios hay 231 diferentes y tomamos
de ellas una al azar, cualquiera de las dos exhibidas tiene la misma probabilidad de
aparecer: 231 . Sin embargo, desearamos asignar a la primera una complejidad
menor que a la segunda. Un modo de racionalizar esto es que podemos transmitir
la primera a un tercero mediante una descripcin muy parca: treinta y un ceros.
La segunda requiere una descripcin ms verbosa, que a duras penas podra ser
ms escueta que la cadena misma8 .
8

Esto es lo que caracteriza a las cadenas binarias tpicas; vase por ejemplo Li y Vitnyi (1993).

134CAPTULO 9. MXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIN DE MODELOS

9.4.2. Complejidad de Kolmogorov


Una idea prometedora en lnea con la discusin anterior fue propuesta en los
aos sesenta por Solomonoff, Kolmogorov y Chaitin, de manera independiente
unos de otros y con ligeras variantes9 . La complejidad de Kolmogorov de una cadena binaria x es la longitud del mnimo programa p capaz de computarla. Formalmente,
Cf (x) = mn {l(p) : f (p) = x} .

(9.31)

Por razones tcnicas, f en (9.31) debe ser una funcin recursiva el tipo de funcin que puede computar una mquina de Turing. Naturalmente, el programa
p que, al ser ejecutado por el computador f , produce la cadena x, depende de
f . Sea cual fuere x, podramos imaginar un computador especializado que tan
pronto se pone en marcha imprime x es decir, que requiere un programa de longitud l(p) = 0 para computar x. Implicara esto que la complejidad de x es cero?
No. La complejidad de x relativa a la mquina de Turing que computa f vendra dada por (9.31). Relativa a otra mquina de Turing computando la funcin g
sera Cg (x), definida anlogamente a Cf (x). Definiremos la complejidad de Kolmogorov en relacin a una mquina de Turing universal una mquina que con
el programa adecuado puede emular cualquier otra. No hay una nica mquina
universal, pero para dos mquinas universales de Turing computando las funciones
u y v y para cualquier cadena x se verifica
|Cu (x) Cv (x)| cu,v ,

(9.32)

en que cu,v es una constante que depende de u y de v, pero no de x.


Ejemplo 9.5 En Li y Vitnyi (1993) se propone una ilustracin de lo
anterior que ayuda a la intuicin a ver el sentido de (9.32). Hay lenguajes
de alto nivel especializados en clculo numrico y en clculo simblico:
FORTRAN y LISP seran dos buenos ejemplos. Cierto tipo de problemas
pueden programarse muy fcilmente en FORTRAN y son considerablemente
ms farragosos en LISP; en otros ocurre lo contrario. Pero podramos imaginar programar en FORTRAN un intrprete de LISP (requiriendo un programa
de c1 bits de longitud) y en LISP uno de FORTRAN (requiriendo a su vez
una longitud de c2 bits). Entonces, la diferencia de longitudes de programa
para resolver un mismo problema en FORTRAN o LISP nunca excedera de
cF,L = max c1 , c2 ; CF,L sera el mximo precio a pagar para implementar el lenguage ms favorable al problema a mano en el otro lenguaje. Este
precio es independiente del programa que se desea ejecutar: una vez programado en FORTRAN un interprete de LISP podemos emplear ste para
ejecutar programas en LISP de cualquier longitud.
9

La precedencia en el tiempo parece corresponder a Solomonoff: como en tantas otras ocasiones,


la escena estaba preparadas en los aos cincuenta para que investigadores trabajando de modo independiente llegarn a resultados similares. Vase una historia somera en Li y Vitnyi (1993), Seccin
1.6.

9.4. COMPLEJIDAD EN EL SENTIDO DE KOLMOGOROV

135

Todas las mquinas de Turing universales (o, alternativamente, las funciones


recursivas que computan) se agrupan en clases de equivalencia en que cada pareja
de funciones verifica (9.32), para una constante que slo depende de la pareja considerada. Se puede demostrar que existe una clase mnima, en el sentido de que
(9.32) no se verifica para ninguna constante cu,v si u pertenece a la clase mnima y
v no. Entonces, Cu (x) define (salvo una constante) la complejidad de una cadena
binaria x.

9.4.3. Cu (x) no es computable


El desarrollo anterior es til por su poder clarificador, pero no directamente
aplicable para computar un nmero que sea complejidad de una cierta cadena binaria. No existe un algoritmo con garanta de trmino que, al ser ejecutado por una
mquina de Turing y alimentado con una cadena binaria, proporcione su complejidad.
No este el lugar para una discusin detallada de la no computabilidad de la
complejidad de Kolmogorov, pero si puede intentarse una percepcin intuitiva del
motivo10 .
Imaginemos una cadena binaria x de n bits. Su complejidad no puede exceder
mucho de n bits, ya que x es una descripcin de s misma. El programa ms corto
generando x no puede ser ms largo que print x, o su equivalente en la mquina
de Turing de referencia que estemos empleando. Supongamos que la longitud de
dicho programa es (n + c) bits.
Podramos ingenuamente pensar en formar una tabla con las cadenas binarias
de longitud menor o igual que (n + c), y ejecutarlas sucesivamente como programas en nuestra mquina de Turing, anotando si el resultado es x o no. Cada vez
que obtuviramos x, anotaramos la longitud de la cadena binaria que hubiera servido como programa. Al final, la menor de las longitudes as anotadas, sera la
complejidad de x.
Pero nada garantiza que haya final, porque nada garantiza que la mquina de
Turing que empleamos se detenga al ejecutar como programa una cualquiera de
las cadenas que le pasamos; mucho menos que lo haga con todas. La no computabilidad de Cu (x) deriva del halting problem, o imposibilidad de determinar anticipadamente si una mquina de Turing se detendr o proseguir indefinidamente
ejecutando un programa determinado. Sobre la no computabilidad de Cu (x), y su
relacin con el teorema de Gdel y la indecidibilidad de proposiciones puede verse
Li y Vitnyi (1993) y Chaitin (1987).

10
Que sigue el razonamiento en el ltimo captulo de Ruelle (1991), una introduccin muy legible
y difana al tratar esta cuestin, aunque slo lo haga tangencialmente al final.

136CAPTULO 9. MXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIN DE MODELOS

9.5. De la complejidad de Kolmogorov a la Longitud de


Descripcin Mnima (MDL)
Si bien no podemos hacer uso directamente de la complejidad de Kolmogorov para escoger entre distintos modelos, las ideas expuestas son de forma limitada aplicables. Veremos el modo de hacerlo sobre un ejemplo que, aunque artificialmente simple, ilustra la aproximacin propuesta por Rissanen (vase Rissanen
(1989)),
Ejemplo 9.6 (continuacin del 9.2) Regresemos al Ejemplo 9.2. Describir llanamente el resultado de un experimento como el all realizado al
lanzar cien monedas al aire requiere 100 bits, si aceptamos el convenio de
utilizar el dgito binario 0 para codificar el resultado + y el 1 para codificar el resultado C. Obsrvese que 100 bits es exactamente la cantidad de
informacin necesaria para singularizar una cadena binaria de longitud 100
de entre las 2100 posibles cuando no hay nada que haga unas de ellas ms
plausibles que otras.
Lo podemos hacer mejor? Quiz s. En lo que sigue veremos cmo..
En lo que sigue formalizaremos algo esta idea.

9.5.1. Modelos como generadores de cdigos


Consideremos una fuente aleatoria que ha generado x. Si tenemos un modelo probabilstico, en general dependiente de parmetros , que describe el modo
en que se genera x, podemos calcular P (x|) para los distintos resultados experimentales. Resultados con P (x|) grande correspondern a resultados esperables, que desearamos claramente codificar mediante palabras de cdigo cortas. Lo
contrario ocurre con aqullos en que P (x|) es pequeo.
Estamos pensando como si fuera fijo y conocido, pero no lo es: lo hemos
de escoger (estimar). Si lo hacemos maximizando P (x|) (aplicando por tanto el
principio de mxima verosimilitud), estamos atribuyendo al resultado x observado
la mxima probabilidad. Pero no debemos olvidar que, para que sea posible la
decodificacin, hemos de facilitar tambin el valor codificado (y la forma de
nuestro modelo). El uso de mxima verosimilitud minimiza log2 P (x|), pero
hace caso omiso de la longitud de cdigo necesaria para .

9.5.2. Descripcin de longitud mnima (MDL)


El agregar a log2 P (x|) el nmero de bits necesario para codificar los
parmetros da lugar a la versin ms cruda del llamado criterio MDL o de mnima
longitud de descripcin.
A efectos de codificar los parmetros hemos de considerar dos cosas. En primer
lugar, podemos tener informacin a priori sobre los mismos, de cualquier procedencia, traducible a una distribucin a priori sobre los mismos con densidad ().

9.5. DE LA COMPLEJIDAD DE KOLMOGOROV A LA LONGITUD DE DESCRIPCIN MNIMA (MDL)137


En segundo lugar, tpicamente es un nmero real que requerira infinitos bits fijar
con exactitud. Por ello trabajaremos con una versin truncada de l.
Si para el parmetro deseamos utilizar q dgitos binarios, llamaremos precisin a = 2q . Suponiendo una densidad a priori (), tendramos los posibles
valores de clasificados en intervalos de probabilidad aproximada (), especificar uno de los cuales requiere aproximadamente log2 () bits. Si hay k
parmetros, se tiene la generalizacin inmediata,
log2 ()

k
Y

i .

(9.33)

i=1

El criterio MDL propone tomar el modelo que minimiza la longitud total de


cdigo, la necesaria para los datos x ms la necesaria para los parmetros:
M DL = log2 P (x|) + l()
= log2 P (x|) log2 ()

(9.34)
k
X

log2 i .

(9.35)

i=1

en que l() es la longitud de cdigo necesaria para transmitir el o los parmetros


empleados. Un ejemplo, de nuevo artificialmente simple, ilustra esto.
Ejemplo 9.7 (continuacin del Ejemplo 9.2) Imaginemos que decidimos truncar el valor de en el Ejemplo 9.2 a 8 bits por tanto slo consideramos valores con una resolucin de = 28 0,003906. Llamemos
al conjunto de valores que puede adoptar el parmetro as truncado. Imaginemos tambin que tenemos una distribucin a priori uniforme () sobre
los valores de ; como 0 1, () = 1.
El criterio MDL para el modelo considerado en el Ejemplo 9.2 tomara
el valor:


M DL = mn log2 60 (1 )40 log2 () log2 (9.36)

Si suponemos constante, slo nos hemos de preocupar de minimizar el primer trmino. De poder escoger libremente, tomaramos = 0,60. Como
estamos truncando los valores, 0.60 no es alcanzable, pero s lo son (153 +
1
1
2 )/256 = 0,599609 y (154 + 2 )/256 = 0,603516, puntos medios de intervalos de longitud 1/256 en que se subdivide [0, 1] cuando se emplea precisin = 28 = 1/256. El primero de ellos proporciona el mnimo valor de
log2 P (x|), que resulta ser 97,0951. Requerimos un total de 97,0951 +
8 = 105,0951 bits como longitud de descripcin.
Una alternativa (tal y como se discuti a continuacin del Ejemplo 9.2)
sera considerar cien parmetros, uno para cada moneda. Ello hara casi
seguro el suceso observado, y el primer sumando de (9.36) sera cero
especificados los parmetros, no hara falta ningn cdigo para especificar el
resultado. Pero el tercer sumando sera, para la misma precisin, mucho
mayor: 800 bits! Aunque el modelo binomial haciendo uso de cien parmetros hace casi seguro el resultado observado, es inferior al que slo hace uso
de slo un parmetro, debido al coste de codificar noventa y nueve parmetros adicionales.

138CAPTULO 9. MXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIN DE MODELOS


Cuadro 9.2: Longitud de descripcin para diferentes valores de .
q
1
2
3
4

0.50000
0.25000
0.12500
0.06250

M V
0.90
0.90
0.90
0.90

0.75
0.875
0.9375
0.90625

10
90 (1 )
5,4314 1018
5,6211 1015
2,7303 1015
7,447911 1015

10
log2 90 (1 )
57.35
47.34
48.38
46.93

MDL
58.35
49,34
51.38
50.93

El ejemplo anterior supona fijo a efectos puramente ilustrativos: pero en la


prctica se minimiza MDL en (9.35) sobre y sobre . Es fcil ver que mientras
disminuir la precisin (incrementar ) disminuye el tercer sumando, hace en general crecer el primero (el mejor en estar en general ms lejos del ptimo
cuanto ms tosca sea la discretizacin de ).
Un ltimo ejemplo permitir ver el efecto de optimizar la longitud de descripcin sobre , precisin del parmetro.
Ejemplo 9.8 (continuacin de los Ejemplos 9.2, 9.6 y 9.7) Consideremos la misma situacin del Ejemplo 9.2, pero supongamos para mostrar un caso en que se obtiene una reduccin apreciable de la longitud de
descripcin que se han obtenido noventa caras C y diez +. Optimizaremos sobre = 2q dejando variar q sobre los enteros. El estimador
mximo verosmil de es MV = 0,9. El Cuadro 9.2 muestra el valor de
entre los posibles que minimiza MDL para cada q. Con un asterisco se seala
la descripcin ms escueta de los datos a que se llega. Obsrvese que cuando
consideramos una precisin de = 2q estamos dividiendo [0, 1] en 2q intervalos del la forma [n2q , (n + 1)2q ) (n = 0, 2q 1), cuyo punto medio

es n2q + 2q1 ; stos son los valores que se recogen en la columna .


Obsrvese que aqu la longitud de descripcin es acusadamente menor
que los 100 bits que requerira describir el resultado de nuestro experimento.
Al ser uno de los resultados (C) considerablemente ms frecuente, podemos
disear un cdigo que tenga esto en consideracin. No ocurra lo mismo en el
Ejemplo 9.7, en que la ligera mayor probabilidad de C dejaba poco margen
a la optimizacin del cdigo; como se vio, la ventaja obtenida no alcanzaba
a pagar la especificacin del parmetro necesario.

9.5.3. De la MDL a la complejidad estocstica


La discusin en el apartado anterior no hace sino introducir algunas ideas esenciales; pero en modo alguno hace justicia a la potencia del mtodo.
La mnima longitud de descripcin (MDL), en cierto sentido, es ms de lo
que buscbamos. Desebamos una codificacin compacta de x y hemos acabado
con una codificacin de x y adicionalmente de . La complejidad estocstica se
obtiene integrando P (x|)() sobre los parmetros. En otras palabras, tenemos
una distribucin P (x|) de los datos dados los parmetros y el modelo, y una

9.5. DE LA COMPLEJIDAD DE KOLMOGOROV A LA LONGITUD DE DESCRIPCIN MNIMA (MDL)139


densidad a priori () sobre los parmetros. La complejidad estocstica de los
datos x relativa al modelo considerado se define como
Z
P (x|)()
(9.37)
I(~x) =

(vase Rissanen (1989) para ms detalles). Adems, en el caso de que no tengamos


una distribucin a priori sobre los parmetros, podemos emplear la distribucin
a priori universal. Supongamos que deseamos una codificacin que asigne una
palabra de cdigo a todos los nmeros naturales n, sobre los que hay definida
una distribucin P (n). Bajo condiciones muy generales, existe una codificacin
asignando longitud de palabra L (n) a n y que verifica
PN

n=0
lm PN

P (n)L (n)

n=0 P (n) log 2 n

= 1

(9.38)

Merece la pena examinar la igualdad anterior: hay una codificacin que es asintticamente ptima sobre los enteros y que es todo terreno! Vale sea cual fuere la
distribucin definida sobre ellos, con tal de que sea montona decreciente a partir
de algn n dado! La funcin L (n) viene dada aproximadamente por
L (n) = log2 c + log2 log2 n + log2 log2 log2 n + . . . ;

(9.39)

con c = 2,865, verifica la desigualdad de Kraft y a partir de ella puede obtener


se una distribucin a priori universal: P (n) = 2L (i) . Esta es la que Rissanen
propone utilizar en la definicin de complejidad estocstica11 . En el caso en que
tenemos parmetros que no toman valores enteros, se puede tambin definir una
distribucin a priori universal del modo descrito en Rissanen (1983).

9.5.4. Ideas relacionadas y conexas


Aunque en el Ejemplo 9.8 se ha buscado la longitud de descripcin minimizando explcitamente sobre la precisin (en el Cuadro 9.2), en la prctica no es
preciso recorrer un camino similar con cada modelo que se prueba. Argumentos
de tipo asinttico dan un resultado similar en forma mucho ms simple. Habitualmente slo se requiere computar una funcin que da aproximadamente la longitud
de descripcin, y que tpicamente consta de una parte que disminuye al mejorar el
ajuste a los datos (trmino de fidelidad o ajuste) y otra que crece con el nmero de
parmetros (trmino de penalizacin de la complejidad del modelo). Por ejemplo,
de modo bastante general (vase Rissanen (1989) para las condiciones necesarias)
la mnima longitud de descripcin de x = (x1 , . . . , xN ) utilizando un modelo con
p parmetros viene dada por:


)
+ p log N + O(p).
(9.40)
MDL(p) = log P (x|)(
2
11

En el Ejemplo 9.7 hemos empleado una densidad () uniforme por simplicidad.

140CAPTULO 9. MXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIN DE MODELOS


Puede verse un primer trmino que disminuye al mejorar el ajuste y un segundo
trmino (la penalizacin) que crece con el nmero de parmetros p y est dominado
por p2 log N .
A la vista de una expresin como (9.40) es forzoso pensar en los muchos criterios que se han propuesto para evaluar la adecuacin de un modelo, muchas veces
sobre bases puramente heursticas. En el caso de modelos de regresin lineal tenemos por ejemplo el estadstico conocido como Cp de Mallows,
Cp =

PN

2
i=1

+ 2p

(9.41)

en que son los residuos de la regresin y 2 la varianza del trmino de error:


vase Mallows (1973). El primer trmino de (9.41) disminuye al mejorar el ajuste
o fidelidad del modelo a los datos; el segundo, crece con el nmero de parmetros.
El criterio de informacin de Akaike introducido en la Seccin 9.2.2 y definido
por
o
n
(9.42)
AIC(p) = 2 loge (Prob x|MV ) + 2p,

tambin de la misma forma que (9.40), aunque penalizando asintticamente menos


la introduccin de parmetros. Los ejemplos podran multiplicarse; una recopilacin reciente de trabajos incorporando ideas como las mencionadas a mltiples
campos es Dowe et al. (1996).
La bsqueda de longitudes de descripcin mnimas o mnimas complejidades
no se separa pues, por lo menos asintticamente, de algunos criterios que han sido
utilizados con asiduidad. La novedad est ms bien en la justificacin de resultados
antes obtenidos para problemas concretos y de forma bastante ad-hoc desde una
perspectiva unificadora.

9.6. Tiene sentido esto?


Se han esbozado ideas que basan la eleccin de modelos en un criterio de simplificacin de la informacin. Apoyndose en el trabajo pionero que sobre la nocin
de complejidad y sobre Teora de la Informacin se realiz en los aos cincuenta
y sesenta, estas ideas pueden verse como una navaja de Ockham sofisticada, de
posible utilizacin en el trabajo estadstico. Importa ahora no obstante regresar al
origen y preguntarse sobre el alcance, pertinencia y solidez de este modo de actuar.
Es la nocin de complejidad de Kolmogorov o versiones menos ambiciosas
de la misma idea, como la de Rissanen el anclaje al que deseamos asirnos para
hacer inferencia? No parece evidente. Es un planteamiento no exento de belleza, y
que, como se ha indicado, da en su aplicacin prctica resultados satisfactorios.
Debemos entender por complejidad slo esto, o algo ms? Es la longitud de
descripcin tal como la hemos presentado una buena medida de la complejidad
de un modelo ms los datos, haciendo abstraccin por ejemplo del coste de

9.6. TIENE SENTIDO ESTO?

141

llegar a obtenerlo? Murray Gell-Mann (vase Gell-Mann (1994), p. 117) menciona, hacindose eco de trabajo de Charles Bennet, que la complejidad tiene facetas
como la profundidad y cripticidad. En relacin a esta ltima, por ejemplo, una serie
muy larga de nmeros pseudo-aleatorios generados en un ordenador mediante el
conocido mtodo multiplicativo, puede tener una complejidad muy baja: se puede
describir dando la semilla o valor inicial y los valores de tan slo dos nmeros. Sin
embargo, adivinar cules son estos nmeros es muy costoso. Diramos que esta
serie es de baja complejidad?
Un modelo es un modo de especificar regularidades. Decimos que explica
la realidad cuando lo que observamos se adeca a las predicciones que obtendramos con ayuda de dicho modelo. En el caso de un modelo estadstico, ni siquiera
exigimos una concordancia perfecta entre predicciones y observaciones, porque la
esencia de un modelo de tal naturaleza es no fijar unvocamente las relaciones entre
observables.
Es precisamente la existencia de regularidad en la evidencia lo que permite su
descripcin escueta. Servirse de un criterio como el de mnima longitud de descripcin es aceptar como buena la explicacin que ms regularidades encuentra en
nuestros datos o mejor las explota. Tiene al menos la ventaja sobre la modelizacin usual de que explicita el coste a pagar por la complejidad aadida. Queda
a medio camino entre la inferencia bayesiana y la convencional, y sortea algunos
de los aspectos ms criticables en esta ltima la fijacin arbitraria de niveles de
significacin, por ejemplo.
Pero, en su raz, el minimizar la complejidad es un criterio que prioriza la
reduccin de los datos observados. Es esto sensato? Vlido como criterio de
inferencia?
B. Russell (vase Russell (1912), p. 35) obliga a responder que no. Un pollo
que observara al granjero llevarle grano todos los das dice Russell, podra
llegar a la conclusin de que el granjero le ama y busca su bien. Tal modelo
explicara las repetidas visitas al corral del granjero y su solicitud con el animal.
Pero esta explicacin, tan repetidamente apoyada por la evidencia durante la vida
del pollo, se ve bruscamente sin valor el da que el granjero decide que el pollo est
lo suficientemente gordo como para retorcerle el pescuezo.
Enfrentados al mundo, querramos saber porqu, y ni tan solo sabemos si nuestra nocin de causalidad tiene sentido; si cabe hablar de un porqu. Querramos
conocer el fin ltimo, si lo hay, de las idas y venidas del granjero: conformarnos
con la explicacin menos compleja de su conducta nos coloca en situacin no mejor que la del pollo.
Sin embargo, frecuentemente no podemos hacer ms. Enfrentados a este hecho, nuestra pertinaz tentativa de entender encuentra en el criterio de minimizar la
longitud de descripcin un sucedneo til: la vieja navaja de Ockham con un nuevo
filo. El xito que alcancemos con su empleo no debiera hacernos olvidar lo endeble
de nuestra posicin. Quiz el mayor valor de las ideas expuestas ms arriba no est
en las respuestas que proporcionan sino en las preguntas que suscitan.

142CAPTULO 9. MXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIN DE MODELOS

Apndice A

Convergencias estocsticas

A.1. Sucesiones de variables aleatorias


Podemos considerar una sucesin aleatoria como la generalizacin del concepto de variable aleatoria. Una v.a. real es una aplicacin X : R (
X : Rn si se trata de una v.a. multivariante)1 . Una sucesin aleatoria real es
una aplicacin X : R , que a cada hace corresponder una sucesin
de nmeros reales {Xn }. Es importante notar que, fijado , {Xn } es una sucesin
ordinaria de nmeros reales; la aleatoriedad radica precisamente en la dependencia
de .

Ejemplo A.1 Las sucesiones aleatorias aparecen de modo natural en


multitud de contextos. Imaginemos el caso en que deseamos estimar la probabilidad de que una determinada moneda produzca cara al efectuar un lanzamiento. Podramos, al menos conceptualmente, realizar infinidad de lanzamientos. Si el i-simo lanzamiento produce el resultado Xi () = 1 (cara)

Vase cualquier texto introductorio de Probabilidad y Estadstica, por ejemplo Trocniz (1987),
Cap. 5, para una definicin precisa. Se requiere que X sea una funcin medible de Borel, lo que
daremos por supuesto. En lo que sigue obviamos tambin detalles tcnicos de similar naturaleza.

143

APNDICE A. CONVERGENCIAS ESTOCSTICAS

144

Xi () = 0 (cruz), tendramos la siguiente sucesin de estimadores:


X 1 ()
X 2 ()
X 3 ()

= X1 ()
X1 () + X2 ()
=
2
X1 () + X2 () + X3 ()
=
3

..
.
X n ()

X1 () + X2 () + . . . + Xn ()
n

..
.

Podemos ver {X n ()} como una sucesin de variables aleatorias. Su estudio


cuando n proporcionar informacin sobre el comportamiento esperable de nuestro estimador al dejar crecer sin lmite el nmero de lanzamientos.

Nos interesarn dos cuestiones al estudiar una sucesin aleatoria:


Se aproxima a alguna distribucin concreta la de Xn () cuando n ?
Se aproxima Xn () a alguna variable aleatoria cuando n ?
Para responder a ambas necesitamos nociones adecuadas de aproximacin.

A.2.

Convergencia en ley

Definicin A.1 La sucesin de funciones de distribucin FXn (x) converge en distribucin (o en ley) a la funcin de distribucin FX (x) si lmn FXn (x) =
FX (x) en todo punto de continuidad de sta ltima.
Por extensin, diremos que la sucesin de v.a. {Xn } converge a X, y lo denotareL

mos as: Xn X.

Observacin A.1 Esta notacin, sin embargo, no debe crear la falsa


impresin de que Xn se aproxima a X (en el sentido de tomar valores
muy prximos con elevada probabilidad). Nada ms lejos de la verdad. Por
ejemplo, podramos tener una sucesin aleatoria {Xn } todos cuyos trminos
fueran idnticos entre s, e iguales a una v.a. X con distribucin uniforme
L
U (0, 1). Entonces, Xn Y = 1 X. La distribucin de X (y por tanto de
cualquier Xn ) es igual que la de Y (si X U (0, 1), entonces Y = (1 X)
tambin se distribuye como U (0, 1)). Sin embargo, el valor de Xn no hay
razn para esperar que est en las cercanas del de Y .

A.3. CONVERGENCIAS EN PROBABILIDAD, MEDIA CUADRTICA Y CASI SEGURA145

A.3. Convergencias en probabilidad, media cuadrtica y


casi segura
La intuicin sugiere que en el Ejemplo A.1 X n se aproxima a la probabilidad p
de cara. En Anlisis Matemtico, decimos que an a si, prefijado un nmero
> 0, es posible encontrar N () tal que para n > N () se verifica necesariamente
que: |an a| < .
No podemos decir que X n en el Ejemplo A.1 converja a p en este sentido: sea
cual fuere n, podra ocurrir que todos los lanzamientos hubieran proporcionado
cara (o todos cruz). No podemos asegurar, para ningn n, que X n estar a
distancia menor de p que un > 0 prefijado.
Sin embargo, en el ejemplo citado, existe elevada probabilidad de que X n p.
Ello sugiere el modo de formalizar la percepcin intuitiva de que X n tender a
p diciendo que X n converge en probabilidad a p. La definicin precisa de convergencia en probabilidad es la siguiente:
Definicin A.2 La sucesin {Xn } converge en probabilidad a la variable aleatoria X si > 0 y > 0, N (, ) tal que n > N (, ) implica
Prob { : |Xn () X()| < } 1

(A.1)

o, equivalentemente, si para cualquier > 0 prefijado


lm Prob { : |Xn () X()| < } = 1.

(A.2)

Es decir, si podemos lograr que Xn est en un entorno de X de radio > 0 prefijado con probabilidad tan cercana a 1 como deseemos, tomando n lo suficientep
mente grande. Denotaremos la convergencia en probabilidad mediante Xn X
o plimXn = X.
p
p
Es fcil ver que es equivalente escribir Xn X (Xn X) 0.
Ejemplo A.2 Definamos una sucesin de variables aleatorias as:
Xn =

a con probabilidad 1
bn con probabilidad n1 .

1
n

Es inmediato comprobar que converge en probabilidad a a. Observemos, sin


embargo, que lm E[Xn ] = (a + b) 6= a. Una variable puede converger
en probabilidad a otra (en este caso, una variable degenerada o causal), que
siempre toma el valor a y por tanto tiene valor medio a. Los momentos, sin
embargo, no necesitan converger.

En ocasiones, Xn converge a X de un modo an ms estricto, con probabilidad


1 casi seguramente.

APNDICE A. CONVERGENCIAS ESTOCSTICAS

146

Definicin A.3 La sucesin {Xn } converge casi seguramente a la variable aleatoria X si:
n
o
Prob : lm Xn () = X() = 1
(A.3)
n

c.s.

Fcilmente se comprueba que Xn X Xn X Xn X. Es til examinar ejemplos en que se presenta un tipo de convergencia y no otro, para adquirir
intuicin sobre su naturaleza y respectivas implicaciones; pueden verse, entre otros
muchos, Billingsley (1986), Garn y Tusell (1991), Romano y Siegel (1986).
La comparacin de las expresiones (A.1) y (A.3) muestra de inmediato que
p
c.s.
Xn X Xn X. La implicacin recproca, por el contrario, no se verifica,
como el siguiente ejemplo pone de manifiesto.
Ejemplo A.3 Ejemplo ondas cuadradas.
Definicin A.4 Decimos que {Xn } converge en media r a la variable aleatoria X
si:
lm E |Xn X|r = 0.

(A.4)

Con diferencia, el caso ms comn es el de r = 2; cuando una sucesin verifica


(A.4) con r = 2 se dice que converge en media cuadrtica a X.
Es fcil comprobar (vase Ejercicio A.2) que la convergencia en media cuadrtica implica la convergencia en probabilidad. No hay, en cambio, relacin entre la
convergencia en media cuadrtica y casi segura: ninguna implica la otra.
L

Teorema A.1 Si Xn X y An , Bn son sucesiones aleatorias convergen en probabilidad a (respectivamente) a, b se verifica:


L

An Xn + Bn aX + b

A.4.

Ordenes de convergencia en probabilidad

En Anlisis Matemtico, se distinguen rdenes de convergencia. Por ejemplo,


cuando n se dice que an = n2 (1/n) tiende a infinito con orden O(n), o es
O(n). Ello significa que existe alguna constante M > 0 para la cul
lm an = M n

(la sucesin {an } va a infinito a la misma velocidad que n). Una sucesin sera
de orden o(n) si en la expresin anterior M fuera 0. En general podemos emplear
cualquier funcin f (n) conveniente como patrn de comparacin y decir que una
sucesin es O(f (n)) o o(f (n)).

A.4. ORDENES DE CONVERGENCIA EN PROBABILIDAD

147

Esto puede generalizarse al caso de sucesiones aleatorias del siguiente modo:


decimos que Xn es Op (f (n)) si para todo > 0 existe M < tal que,
Prob {|Xn | M f (n)} 1

(A.5)

(tomando trminos lo suficientemente avanzados de la sucesin, la probabilidad


de que queden acotados por M f (n) puede hacerse tan cercana a uno como deseemos.)
De manera anloga se define que {Xn } es op (f (n)) si
plimn

Xn
= 0.
f (n)

(A.6)

Ejemplo A.4 Sea {Xn } una sucesin de observaciones independientes


e idnticamente distribuidas, procedentes de una distribucin con media m y
varianza 2 . Construyamos la sucesin {Zn } de medias aritmticas, Zn =
(X1 + + Xn )/n. Entonces, E[Zn ] = m y Var(Zn ) = n1 2 . De acuerdo
con la desigualdad de Tchebichev,
o
n
1
1
Prob |Zn m| < kn 2 1 2 .
k

(A.7)

Es decir, con probabilidad tan grande como queramos k es arbitraria


la variable aleatoria (Zn m) queda acotada superiormente por el producto de una constante (k, jugando el papel de M en (A.5)) y una funcin
1
(n 2 , jugando el papel de f (n)). Podemos decir entonces que (Zn m) es
1
Op (n 2 ).
Observese que si una sucesion {Xn } es Op (nk ), tambin es Op (nk+ )
para todo > 0. La funcin f (n) en la definicin (A.5) es una funcin que,
multiplicada por la constante, M basta para acotar con probabilidad 1 .
No se requiere que f (n) en (A.5) sea la ms ajustada de las posibles.

Ejemplo A.5 Sea una sucesin {Xn } que converge en probabilidad a


X. Entonces la sucesin aleatoria cuyo trmino general es (Xn X) es
op (1). En efecto,
plimXn = X plim

(Xn X)
= 0 (Xn X) = op (1)
1

Obsrvese que todas las sucesiones que convergen en probabilidad son cuando menos op (1), pero algunas tendrn un orden de convergencia ms rpido.
En el ejemplo anterior vimos que en la situacin habitual de una distribucin que posee momentos de primer y segundo orden, la media aritmtica
de un nmero creciente de observaciones converge en probabilidad a la media poblacional y (Zn m) converge en probabilidad a cero. Vimos que
1
1
(Zn m) es Op (n 2 ). No es en cambio op (n 2 ); Es fcil ver que (Zn m)
1
es op (n 2 + ) para cualquier positivo. Esta es la situacinhabitual con sucesiones estimadoras paramtricas; se denominan por ello n-consistentes.
Ocasionalmente se presentan convergencias ms rpidas. En estimacin no
paramtrica, en cambio, son la regla convergencias ms lentas.

APNDICE A. CONVERGENCIAS ESTOCSTICAS

148

Las notaciones Op () y op () funcionan de modo enteramente similar a sus


correspendientes O() y o() no aleatorias. Por ejemplo, si dos sucesiones aleatorias
1
son respectivamente de rdenes op (n1 ) y Op (n 2 ), la sucesin obtenida multipli1
cando ambas elemento a elemento sera op (n 2 ).
p
Anlogamente, si g() es una funcin continua y {Xn } X de suerte que
(Xn X) es op (f (n)), entonces (g(Xn ) g(X)) es op (f (n)). Pueden verse los
resultados al respecto y ms detalles en Mann y Wald (1943).

A.5.

Leyes de grandes nmeros

Dada una sucesin {Xn } de v.a., no necesariamente equidistribudas, pero con


media comn, las leyes de grandes nmeros prescriben, bajo diferentes conjuntos
de condiciones, la convergencia de X n definida como en el Ejemplo A.1 a la media
comn m = E[Xi ]. Esta convergencia puede ser de varios tipos: en probabilidad
y entonces decimos hallarnos ante una ley dbil de grandes nmeros o casi seguramente y entonces hablamos de una ley fuerte de grandes nmeros2 .
Enunciaremos en lo que sigue varios teoremas que establecen convergencias fuertes y dbiles en diferentes circunstancias.

A.5.1. Leyes dbiles de grandes nmeros.


Una de las versiones ms simples (y tambin ms frecuentemente utilizadas)
de ley dbil de grandes nmeros es la siguiente:
Teorema A.2 Si la sucesin {Xn } esta formada por v.a. independientes e idnticamente distribudas, con media comn m y varianza comn 2 , entonces:
p

X n m
D EMOSTRACION :
Sea,
Xn =

X1 + . . . + Xn
n

Entonces:
E[X n ] = m
2
2
X
=
n
n
y de acuerdo con la desigualdad de Tchebychev:


1

1 2
Prob |X n m| < k
n
k
2
Tambin se considera a veces convergencia en media cuadrtica, que no hemos examinado aqu.
Vase cualquiera de los textos citados ms arriba.

A.5. LEYES DE GRANDES NMEROS

149

Fcilmente se ve que la anterior desigualdad implica (A.1) para > 0, > 0


prefijados. Basta tomar k > 1/2 , y N (, ) lo suficientemente grande como para
que:

kp
<
N (, )
Las condiciones anteriores pueden ser considerablemente relajadas; no es imprescindible que las v.a. en la sucesin sean independientes,
tengan la misma
P ni que
2 < ).
varianza (sera suficiente que se verificase lmn n2 ni=1 X
i

A.5.2. Leyes fuertes de grandes nmeros


No slo las condiciones en el Teorema A.2 pueden relajarse, sino que la conclusin puede a su vez reforzarse, dando lugar a una ley fuerte de grandes nmeros.
Antes de enunciarla, demostraremos algunos resultados que precisamos3 .

Teorema A.3 (primera desigualdad de Kolmogorov) Sea {Xn } una sucesin de


v.a. independientes con media 0 y varianzas (no necesariamente iguales) finitas.
Sea,
Sn = X1 + . . . + Xn
Para cualquier > 0 se verifica:

Prob

max |Sk |

1kn

E[Sn2 ]
2

(A.8)

D EMOSTRACION :
Definamos para 1 k n los sucesos
Ak = { : (|Sk ()| ) (|Si ()| < , 1 i < k)}
(la suma parcial formada por k sumandos es la primera que excede en valor absoluto de ). Sea A0 = { : (|Sk ()| < , 1 k < n)} (la suma parcial formada
por k sumandos nunca excede de ).
3
El desarrollo sigue el efectuado por Fourgeaud y Fuchs (1967), pg. 45 y ss. y Billingsley (1986),
pg. 296.

APNDICE A. CONVERGENCIAS ESTOCSTICAS

150

Los sucesos A0 , . . . , An son disjuntos, y podemos calcular E[Sn2 ] as (fX (x)


es la funcin de densidad marginal que proceda):
E[Sn2 ]

n Z
X

k=0 Ak
n Z
X
k=1 Ak
n Z
X

k=1 Ak
n Z
X

k=1 Ak

Sn2 fX (x)dx
[Sk + (Sn Sk )]2 fX (x)dx
[Sk2 + (Sn Sk )2 + 2Sk (Sn Sk )]fX (x)dx
[Sk2 + 2Sk (Sn Sk )]fX (x)dx

Pero Sk y (Sn Sk ) son v.a. independientes y de media 0, y por tanto:


n Z
X

Ak

k=1

2Sk (Sn Sk )fX (x)dx = 0

En consecuencia:
E[Sn2 ]

n Z
X
k=1

Ak

Sk2 fX (x)dx

n
X
k=1

2 Prob {Ak }

desigualdad equivalente a (A.8).


Teorema A.4 (Kintchine-Kolmogorov) Si {Xn } es una sucesin de v.a. centradas,
y con momento
P independientes
Pn de orden dos finito, y se verifica adems que
2 < , entonces S =

n
i=1 Xi converge casi seguramente.
i=1 i
D EMOSTRACION :
Si Sn converge casi seguramente, quiere decir que casi seguramente verifica la
c.s.
condicin de convergencia de Cauchy. Es decir, |Sn+k Sn | 0, para n, k .
Para que no hubiera convergencia de Sn (), debera ocurrir que existiera > 0 tal
que n 1 hubiera algn k 1 para el que |Sn+k Sn | . Vamos a comprobar
que el conjunto D = {} para el que se verifica lo anterior tiene probabilidad cero.
Tenemos que:

D =

>0

\ [

n1 k1

{ : |Sn+k Sn | > } =

>0

L()

A.5. LEYES DE GRANDES NMEROS

151

en que L() es el suceso entre corchetes. Entonces,

\ [

Prob {L()} = Prob


[ : |Sn+k Sn | > ]

n1 k1



mn Prob : max |Sn+k Sn | >
n
k1

X
1
2 .
mn 2
n

(A.9)
(A.10)
(A.11)

n+1

En el ltimo
se ha hecho uso de la primera desigualdad de Kolmogorov.
P paso
2 < , (A.11) es cero, Prob {L()} = 0 y por consiguiente D =
Como

i=1 i
S
>0 L() tiene tambin probabilidad cero.
El siguiente lema no tiene ningn contenido probabilstico, y se limita a establecer una relacin entre la convergencia (en el sentido habitual del Anlisis Matemtico) de dos diferentes series.

Lema A.1 Si {ai } es una sucesin


de nmeros reales y
P
lmite finito , entonces n1 ni=1 ai converge a cero.

Pn

i=1 ai /i

converge a un

D EMOSTRACION :
P
Sea vn = ni=1 ai /i, y v0 = 0. Entonces, ai = i(vi vi1 ) y:
n
X

ai =

n
X
i=1

i=1

n
X

ivi

i=1

ivi1 = nvn

n1
X

vi

i=0

Por tanto:
n

n1

n1

i=1

i=0

i=0

1X
n1 1 X
1X
ai = vn
vi = vn
vi
n
n
n n1
y si vn , (n 1)1

Pn1
i=0

vi y n1

Pn

i=1 ai

0.

Podemos ya, con ayuda de los resultados precedentes, establecer la siguiente


ley fuerte de grandes nmeros:
Teorema A.5 (ley fuerte de grandes nmeros) Sea {Xn } una sucesin
de v.a. indeP
2 2
pendientes centradas, con momento de segundo orden finito, y

i=1 i /i < .
Entonces:
n
1X
c.s.
Xn =
Xi 0
n
i=1

152

APNDICE A. CONVERGENCIAS ESTOCSTICAS

P
c.s.
Demostraremos que ni=1 Xi /i , pues esto, en virtud del lema precedente,
P
c.s.
implica n1 ni=1 Xn 0. Que
serie converge c.s. es inmediato, pues
Pla primera
2
2
2
2
como Var(Xi /i) = i /i y i=1 i /i < , su convergencia es resultado del
Teorema A.4
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
A.1 Demustrese que, en el caso particular en que una sucesin aleaL

toria converge en distribucin a una constante, es decir Xn c, entonces


p
Xn c.
m.c.

A.2 Comprubese que Xn X Xn X. (Ayuda: Hgase uso

de la desigualdad de Tchebichev.)

Apndice B

Soluciones a problemas
seleccionados

3.2

La funcin de verosimilitud es
fX (x; ) = H(x(1) 1)H(x(n) + 1)

en que H(.) es una funcin que toma el valor cero si su argumento es negativo y valor
1 si su argumento es no negativo (funcin escaln o de Heaviside). Por tanto, el
teorema de factorizacin (ver (3.8)) se verifica con g(s, ) = H(x(1) 1)H(x(n) +1)
y (x(1) , x(n) ) forman un estadstico suficiente.
Sin embargo, este estadstico no es completo: es fcil ver que (por ej.) (x(n)
x(1) ) tiene una distribucin que no depende de y es por tanto ancilar.

3.5

En efecto,

fX (x; )

n
Y

i=1

( n
)
n
n
o
X
X
xj
exp{xj } exp e yj = exp
exp{xj }yj +
xj ,
i=1

i=1

que no es de rango completo.

4.5

Es fcil encontrar un estadstico suficiente empleando el teorema de facto-

rizacin:
fX (x; ) =

n
Y

i=1

vemos que

Qn

i=1

xi (o alternativamente

n
Y

i=1

Pn

i=1

153

xi

!1

log xi ) es un estadstico suficiente.

154

APNDICE B. SOLUCIONES A PROBLEMAS SELECCIONADOS


Para comprobar que Z = log X1 es insesgado para 1 , veamos cual es su
distribucin. La de X es FX| (x |) = x . Entonces,
Prob {Z z}

=
=
=
=
=

Prob { log(X) z}

Prob {log(X) > z}

Prob X > ez

1 Prob X ez

1 ez ;

derivando, fX| (x |) = ez , en la que reconocemos una exponencial de media


1 . Por tanto, Z = log X1 es efectivamente
insesgado.
P
Vemos adems que T = n1 n
i=1 log Xi ser tambin insesgado, y es funcin de un estadstico suficiente. Es claro entonces que T ser insesgado de varianza
mnima.

5.5 Calculemos en primer lugar la cota de Cramr-Rao para el estimador proporcionado. En los clculos que siguen, = (, 2 ) y tratamos a 2 como un parmetro respecto del cual derivamos.
fX| (x |)

log fX| (x |)

log fX| (x |)
2

E
log fX| (x |)
2

=
=
=

2
2
1
e(x) /2
2

1
log 2 log 2 (x )2 /2 2
2
1
(x )2
2 +
2
2 4
"
#
2
2
1
(x )2
1 1
2
+
(x )
2
E
2 4
2 2
2 2 4

4
1
1
+
4
4 8
4 4
2

(B.1)

Teniendo en cuenta que 2k , el momento centrado de orden 2k, en una distribucin


normal toma el valor 2k (2k)!2k (k!)1 , tenemos sustituyendo 4 en (B.1) que:
2

1
1
1
4 4!

log
f
(x
|)
+

=
. (B.2)
=
E
X|
2

4 4 2! 8
4 4
2 4
2 4
La cota de Cramr-Rao es por tanto 1/nIX () = 2 4 /n.
Calculemos ahora la varianza del estimador. Para ello requerimos los momentos
E[S 2 ] y E[(S 2 )2 ]. Sabemos que E[S 2 ] = 2 el S 2 proporcionado
es el habitual
P
2
estimador insesgado de la varianza. Por otra parte, viendo n
i=1 (Xi X) como
la suma de cuadrados de los residuos cuando regresamos X sobre la columna de
unos, por teora bsica de regresin lineal sabemos que se distribuye como 2 2n1 .
Entonces,
E[S 2 ]

=
=
=

4
E[2n1 ]2
(n 1)2

4
2
E[Z12 + . . . Zn1
]2
(n 1)2
3
2
XX 2 2
4
4
4
E 4Z1 + . . . Zn1 +
Zi Zj 5 ,
(n 1)2
i j6=i

(B.3)

en que Z1 , . . . , Zn1 son variables aleatorias N (0, 1). Sabiendo que el momento de
orden cuatro de tal distribucin tiene la expresin indicada antes y sustituyendo en

155
(B.3) obtenemos:
E[S 2 ]

=
=
=

4
[(n 1) 3 + (n 1)(n 2)]
(n 1)2
4 (n + 1)(n 1)
(n 1)2
4 (n + 1)
.
(n 1)

Por consiguiente, la varianza buscada es:


Var(S 2 ) = E[(S 2 )2 ] [E(S 2 )]2 =

2 4
4 (n + 1)
4 =
.
(n 1)
n1

(B.4)

Comparando ahora las expresiones (B.4) y (B.2) llegamos a la conclusin de que la


varianza del estimador no alcanza la cota de Cramr-Rao, pero la diferencia tiende a
cero al crecer n.

156

APNDICE B. SOLUCIONES A PROBLEMAS SELECCIONADOS

Bibliografa
Abramson, N. (1966). Teora de la Informacin y Codificacin. Paraninfo, Madrid,
1973a edn.
Akaike, H. (1969). Fitting Autoregressive Models for Prediction. Annals of the
Institute of Statistical Mathematics, vol. 21, pgs. 243247.
Akaike, H. (1970). Statistical Predictor Identification. Annals of the Institute of
Statistical Mathematics, vol. 22, pgs. 203217.
Akaike, H. (1972). Use of an Information Theoretic Quantity for Statistical Model
Identification. En Proc. 5th. Hawai Int. Conf. on System Sciences, pgs. 249
250.
Akaike, H. (1974). Information Theroy and an Extension of the Maximum Likelihood Principle. En Second International Symposium on Information Theory
(eds. B. Petrov y F. Csaki), pgs. 267281. Akademia Kiado, Budapest. Reimpreso en Johnson-Kotz(1991), vol. 1, p. 610 y ss.
Akaike, H. (1991). Information Theory and an Extension of the Maximum Likelihood Principle. En Breakthroughs in Statistics (eds. Johnson y Kotz), vol. 1,
pg. 610 y ss. Springer Verlag.
Berkson, J. (1980). Minimum chi.square, not maximum likelihood! Annals of
Statistics, vol. 8, pgs. 457487.
Billingsley, P. (1986). Probability and Measure. John Wiley and Sons, New York,
2a edn.
Chaitin, G. (1987). Algorithmic Information Theory. Cambridge University Press,
Cambridge, 1992a edn.
Cover, T., P. Gacs, y R. Gray (1989). Kolmogorovs contributions to information
theory and algorithmic complexity. Annals of Probability, vol. 17(3), pgs. 840
865.
157

158

BIBLIOGRAFA

Cox, D. R. y D. V. Hinkley (1974). Theoretical Statistics. Chapman and Hall,


London, 1979a edn.
Cramr, H. (1960). Mtodos Matemticos de Estadstica. Ed. Aguilar, Madrid,
1970a edn.
Cullman, G., M. Denis-Papin, y A. Kaufmann (1967). Elementos de Clculo Informacional. Ed. Urmo, Bilbao, 1967a edn.
DAgostino, R. (1971). An Omnibus Test of Normality for Moderate and Large
Sample Sizes. Biometrika, vol. 58, pgs. 341348.
de Leeuw, J. (2000).
Information Theroy and an Extension of the Maximum Likelihood Principle by Hirotugu Akaike.
Disponible en
http://www.stat.ucla.edu/deleeuw/work/research.phtml.
Dempster, A., N. Laird, y D. Rubin (1976). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Ser. B,
vol. 39, pgs. 138.
Dowe, D., K. Korb, y J. Oliver (eds.) (1996). Information, Statistics and Induction
in Science ISIS96, Melbourne, Australia. World Scientific, Singapore.
Fourgeaud, C. y A. Fuchs (1967). Statistique. Dunod, Paris.
Garn, A. y F. Tusell (1991). Problemas de Probabilidad e Inferencia Estadstica.
Ed. Tbar-Flores, Madrid.
Garthwaite, P., I. Jolliffe, y B. Jones (1995). Statistical Inference. Prentice Hall,
London.
Gell-Mann, M. (1994). El quark y el jaguar. Tusquets, Barcelona, 1995a edn.
G.J.McLachlan y T. Krishnan (1997). The EM Algorithm and Extensions. Wiley.
Jeffreys, H. (1961). The Theory of Probability. Oxford University Press, Oxford.
Kiefer, J. C. (1983). Introduction to Statistical Inference. Springer-Verlag, New
York, 1987a edn. (ed. Gary Lorden).
Laird, N. (1993). The EM algorithm. En Handbook of Statistics, vol. IX, pgs.
509520.
Lange, K. (1998). Numerical Analysis for Statisticians. Springer. Signatura: 519.6
LAN.
Lehmann, E. L. (1959). Testing Statistical Hypothesis. Wiley, New York.
Lehmann, E. L. (1983). Theory of Point Estimation. Wiley, New York.

BIBLIOGRAFA

159

Levy, M. (1985). A note on nonunique MLEs and sufficient statistics. Annals of


Mathematical Statistics, vol. 39, pgs. 66.
Li, M. y P. Vitnyi (1993). An introduction to Kolmogorov complexity and its
applications. Springer-Verlag, New York.
Mallows, C. (1973). Some comments on Cp . Technometrics, vol. 15, pgs. 661
675.
Mann, H. y A. Wald (1943). On stochastic limit and order relationships. Annals of
Mathematica Statistics, vol. 14, pgs. 217226.
Meeden, G. y S. Varderman (1985). Bayes and admissible set estimation. Journal
of the American Statistical Association, vol. 80, pgs. 465471.
Navidi, W. (1997). A Graphical Illustration of the EM Algorithm. Annals of Mathematical Statistics, vol. 51(1), pgs. 2931.
Quenouille, M. (1956). Notes on bias estimation. Biometrika, vol. 43, pgs. 353
360.
Rao, C. R. (1962). Efficient Estimates and Optimum Inference Procedures in Large
Samples. Journal of the Royal Statistical Society, Ser. B, vol. 24, pgs. 4672.
Rao, C. R. (1965). Linear Statistical Inference and its Applications. Wiley, New
York.
Rissanen, J. (1983). A Universal Prior for Integers and Estimation by Minimum
Description Length. Annals of Statistics, vol. 11(2), pgs. 416431.
Rissanen, J. (1989). Stochastic Complexity in Statistical Inquiry. World Scientific,
Singapore.
Romano, J. P. y A. F. Siegel (1986). Counterexamples in Probability and Statistics.
Wadsworth and Brooks/Cole, Monterrey, California.
Ruelle, D. (1991). Chance and Chaos. Penguin, London.
Russell, B. (1912). The problems of philosophy. Oxford University Press, 1989a
edn.
Shannon, C. (1948). The mathematical theory of communication. Bell System
Tech. Journal, vol. 27, pgs. 379423, 623656.
Shannon, C. y W. Weaver (1949). The mathematical theory of communication.
University of Illinois Press, Urbana. Eight reprint, 1980.
Shapiro, S. y R. Francia (1972). An Approximate Analysis of Variance Test for
Normality. Journal of the American Statistical Association, vol. 67, pgs. 215
216.

160

BIBLIOGRAFA

Trocniz, A. F. (1987). Probabilidades. Estadstica. Muestreo. Tebar-Flores, Madrid.


Wang, C. (1993). Sense and Nonsense of Statistical Inference. Marcel Dekker,
New York.
Young, G. y R. Smith (2005). Essentials of Statistical Inference. Cambridge Univ.
Press. Signatura: 519.22 YOU.

ndice alfabtico

H(p)
entropa, 129
Op (), 146
op (), 146
AIC
criterio, 124
relacin con MDL, 140
relacin con razn de verosimilitudes, 111
ancilaridad
definicin, 39
de primer orden, 39
Bahadur
eficiencia, 67
Bayes
criterio de, 6
procedimientos Bayes relativos a (), 6
riesgo de, 6
cdigo
de Fano-Shannon, 130
libre de prefijos, 131
cannico
estadstico, 31
Cauchy, distribucin
no reduccin por suficiencia, 38
complejidad
de Kolmogovor-Chaitin-Solomonoff, 129
completa
clase de procedimientos, 15
clase mnima, 15
esencialmente, 15
compuesta
clase de distribuciones, 101
hiptesis, 113
conjugadas
familias, 11
consistencia
definicin, 77

del estimador mximo-verosmil, 77


fuerte, 77
contraste
razn de verosimilitudes generalizada
distribucin asinttica, 109
uniformemente ms potente, 106
uniformemente ms potente
razn montona de verosimilitudes, 108
uniformemente ms potente (UMP), 108
contraste de hiptesis
exacto de Fisher, 116
contraste de hiptesis
definicin, 101
contraste de hiptesis
score, 120
de ajuste a una Poisson, 115
de normalidad
contrastes especficos, 114
estimando parmetros de ruido, 114
estadstico de Wald, 120
localmente ms potente, 120
convergencia
casi segura, 146
en distribucin, 144
en media r, 146
en media cuadrtica, 146
en probabilidad, 145
rdenes Op (), op (), 146
convexa
estrictamente, definicin, 49
funcin, definicin, 49
cota
de Cramr-Frechet-Rao, 64
crtica
funcin crtica, 102
regin, 102
Cramr
cota de Cramr-Frechet-Rao, 64
Cramr-Rao

161

NDICE ALFABTICO

162
y estimadores supereficientes, 81
criterio
AIC, 124
de Bayes, 6
curvada
distribucin, 41

puede ser sesgado, 86


puede ser inadmisible, 85
relacin con suficiencia, 76
experimento, 1
exponencial
familia, 29

decisin
espacio de, 1
desigualdad
de Jensen, 49, 77
de Kraft, 131, 139
difusa
distribucin a priori , 6
funcin a priori , 6
distribucin
a priori
difusa, 6
impropia, 6, 63
ms desfavorable, 23
no informativa, 63
universal, 139
curvada, 41
emprica, 79
multinomial, 36
Weibull, 30

familia
exponencial, 29
familia exponencial, 29
y algoritmo EM, 98
Fano-Shannon
cdigo, 130
Fisher
contraste exacto, 116
informacin, 62
funcin
convexa, 49
crtica, 102
de prdida, 1
estrictamente convexa, 49

eficiencia
de Bahadur, 67
definicin, 79
estimadores supereficientes, 81
relativa, 69
de varios estimadores en una U (0, 2),
69
entropa
definicin, 129
espacio
de decisin, 1
del parmetro natural, 31
muestral, 2
estadstico
acotado completo, 39
ancilar, 39
cannico, 31
completo, 39
de orden, 34
mnimo suficiente, 34
en una U ( 12 , + 12 ), 153
estados de la naturaleza, 1
estimador mximo-verosmil
consistencia, 77
definicin, 76
inviable cmputo en una Cauchy C(), 84
no unicidad en una U ( 12 , + 21 ), 86

hiptesis
simple, 113
impropia
distribucin a priori , 6
funcin a priori, 7
informacin
de Fisher, 62
de Kullback-Leibler, 78
desigualdad de, 64
Teoria de la, 129
insesgado
inexistencia de procedimiento insesgado, 49
procedimiento, 47
procedimiento inadmisible, 48
Jeffreys
distribucin a priori de, 63
Jensen
desigualdad, 49, 77
Kraft
desigualdad, 131
desigualdad de, 139
Kullback-Leibler
distancia a la distribucin emprica, 114
informacin de, 78, 79
relacin con MV, 78
mxima verosimilitud
consistencia, 77
mnima
clase completa, 15

NDICE ALFABTICO
minimal suficiencia
de X(n) en una U (0, )., 43
de la razn de verosimilitudes, 36
estadsticos mnimos suficientes, 34
minimax
condicin suficiente, 24
muestral
espacio, 2
multinomial
al condicionar en una P(), 36
natural
parmetro, 31
espacio del, 31
Neyman-Pearson
teorema, 103
y procedimientos de Bayes, 106
nivel
de significacin, 102
nivel de significacin emprico, 113
Ockham
navaja de, 121
orden
de convergencia estocstica, 146
estadsticos de, 34
p-value, 113
prdida
funcin, 1
parmetro
de ruido, 114
natural
definicin, 31
espacio, 31
particin
suficiente, 33, 42
suficiente mnima, 42
penalizada
verosimilitud, 111
potencia
contraste uniformemente ms potente, 106
de un contraste, 102
mxima uniforme, 106
relacin con funcin crtica, 103
procedimiento estadstico
Bayes relativo a (), 6
equivalente, 4
procedimiento estadstico, 1
procedimiento estadstico
admisible, 4
aleatorizado, 14
clase completa, 15
clase esencialmente completa, 15

163
comparable, 4
inadmisible, 4
inadmisible aunque insesgado, 48
mejor, 4
minimax, condicin suficiente, 22
minimax, definicin, 22
Rao
cota de Cramr-Frechet-Rao, 64
razn de verosimilitud
montona, 108
razn de verosimilitudes
generalizada
distribucin asinttica, 109
relacin con AIC, 111
regin crtica, 102
regularidad
condiciones, 61
quiebra en una U (0, 2), 70
riesgo
de Bayes, 6
definicin, 3
ruido
parmetro, 114
significacin
nivel de, 102
simple
clase de distribuciones, 101
hiptesis, 101, 113
suficiencia, 32
de X en una P (), 36
de X(n) en una U (0, ), 34
de X(n) en una U (0, )., 43
de la muestra ordenada en m.a.s., 36
de la razn de verosimilitudes, 36
minimal, 34
suficiente
particin, 33, 42
suficiente mnima
particin, 42
supereficiencia
ejemplo de, 81
tamao
de un contraste, 102
UMP
contrastes uniformemente ms potentes, 108
verosimilitud
definicin, 74
no acotada, 85
penalizada

NDICE ALFABTICO

164
relacin con AIC, 111
Wald
estadstico de contraste, 120
Weibull
distribucin, 30

También podría gustarte