Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Deci
Deci
Fernando Tusell1
19 de septiembre de 2007
Bastantes errores menos en esta versin son consecuencia de los comentarios recibidos
de Araceli Garn, Vicente Nez y de Mario S. de Juan y Pedro A. Gmez (curso 1.9992.000). Todava faltan muchos temas del programa por desarrollar, y otros estn a medio
escribir, tienen errores u obscuridades. Correcciones y comentarios son bienvenidos.
II
ndice general
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
3
7
11
11
14
15
16
18
19
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
22
23
25
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
32
37
39
40
41
42
4. Procedimientos insesgados.
4.1. La condicin de insesgadez. . . . . . . . . . . . . . . . . . . . .
4.2. Funciones convexas. . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Estimacin insesgada puntual. . . . . . . . . . . . . . . . . . . .
47
47
49
50
III
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
NDICE GENERAL
IV
4.4. El jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5. Eficiencia. La cota de Cramr-Rao.
5.1. Introduccin . . . . . . . . . . . . . . . . .
5.2. Algunos resultados instrumentales . . . . .
5.3. Informacin de Fisher. Cota de Cramr-Rao
5.4. Eficiencia . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
56
59
59
60
62
67
6. Mxima verosimilitud
6.1. La lgica mximo verosmil . . . . . . . . . . . . . . . . . . . .
6.2. Verosimilitud y estimacin mximo verosmil. . . . . . . . . . . .
6.3. Consistencia fuerte del estimador mximo verosmil. . . . . . . .
6.4. Informacin de Kullback-Leibler y estimacin mximo verosmil .
6.5. Eficiencia y eficiencia asinttica . . . . . . . . . . . . . . . . . .
6.6. Normalidad y eficiencia asinttica del estimador mximo verosmil.
6.7. Estimacin mximo verosmil: inconvenientes . . . . . . . . . . .
73
73
74
77
78
79
81
84
.
.
.
.
.
.
.
.
.
.
89
89
90
91
91
92
94
94
94
95
98
.
.
.
.
.
.
.
.
.
.
101
101
103
106
107
109
112
112
113
116
119
8. Contraste de Hiptesis.
8.1. Introduccin. . . . . . . . . . . . . . . . . . . . . . . .
8.2. El Teorema de NeymanPearson. . . . . . . . . . . . . .
8.3. Teorema de Neyman-Pearson y procedimientos de Bayes.
8.4. Contrastes uniformemente ms potentes (UMP). . . . . .
8.5. Contrastes razn de verosimilitudes generalizada. . . . .
8.6. Contrastes de significacin puros . . . . . . . . . . . . .
8.6.1. Caso de hiptesis simples . . . . . . . . . . . .
8.6.2. Caso de hiptesis compuestas . . . . . . . . . .
8.6.3. Hay que tener en cuenta que. . . . . . . . . . . .
8.7. Contrastes localmente ms potentes . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
NDICE GENERAL
121
121
123
A. Convergencias estocsticas
A.1. Sucesiones de variables aleatorias . . . . . . . . . . . . . . .
A.2. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . .
A.3. Convergencias en probabilidad, media cuadrtica y casi segura
A.4. Ordenes de convergencia en probabilidad . . . . . . . . . . .
A.5. Leyes de grandes nmeros . . . . . . . . . . . . . . . . . . .
A.5.1. Leyes dbiles de grandes nmeros. . . . . . . . . . . .
A.5.2. Leyes fuertes de grandes nmeros . . . . . . . . . . .
143
143
144
145
146
148
148
149
.
.
.
.
.
.
.
.
.
.
.
.
.
.
123
124
129
133
133
134
135
136
136
136
138
139
140
153
VI
NDICE GENERAL
ndice de figuras
4
15
16
17
18
22
24
25
35
75
VII
VIII
NDICE DE FIGURAS
ndice de cuadros
1.1.
1.2.
1.3.
1.4.
1.5.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
8
9
10
14
IX
NDICE DE CUADROS
Captulo 1
Elementos de Teora de la
Decisin.
L(, ) =
c en otro caso.
Ejemplo 1.2 Si en el Ejemplo 1.1 deseramos realizar estimacin por
intervalo en lugar de por punto, podramos considerar como espacio de decisin el formado por todos los intervalos (1 , 2 ). La decisin consistira en
escoger uno de tales intervalos.
En este caso, sin embargo, no es nada obvio cul haya de ser la prdida a emplear. Podramos pensar, a imagen del ejemplo anterior, en emplear
una prdida que fuera nula si el intervalo realmente contiene al parmetro, y
mayor que cero, quiz constante, en caso contrario. Es decir,
0 si (1 , 2 ),
L(, d = (1 , 2 )) =
c en otro caso.
Pero ello no tiene mucho sentido: hara ptimos intervalos como (, ).
La prdida parece que debiera tomar en cuenta la amplitud del intervalo construido. Vase Meeden y Varderman (1985).
n veces
decisin a partir del o los valores de X observados. La funcin de prdida podra, al menos en principio, especificarse con facilidad. L(, d1 ) sera el coste
de aceptar una remesa con proporcin defectiva (coincidira quiz con el
precio de las piezas en malas condiciones que hay que desechar). L(, d2 )
sera el coste de rechazar una remesa con proporcin defectiva (quiz el
coste de los portes, o una indemnizacin al proveedor, si el verdadero estaba dentro de lo estipulado en las condiciones del pedido).
Ejemplo 1.4 El diagnstico mdico proporciona otro ejemplo de problema de decisin con funcin de prdida, en general, fuertemente asimtrica. En un problema de esta naturaleza, el espacio de estados de la naturaleza
es:
= {1 = Paciente enfermo, 2 = Paciente sano} .
(1.1)
3
2
r ()
1
X1 + X2 + X3
3
X1 + X3
2
(1.2)
(1.3)
Entonces:
r (1 ) = E [L(, 1 (X))]
r (2 ) = E [L(, 2 (X))]
(1 )
3
(1 )
2
(1.4)
(1.5)
Podra pensarse que el objetivo debe ser la bsqueda de un procedimiento mejor que cualquier otro. Tal bsqueda sera infructuosa, como el siguiente ejemplo
pone de manifiesto.
Ejemplo 1.6 En la situacin descrita en el Ejemplo 1.3 (continuado en
el Ejemplo 1.5) consideremos los dos siguientes procedimientos para estimar
:
1 (X) =
2 (X) =
X1 + X2 + X3
3
0,60
(1.6)
(1.7)
(1 )
3
= E (0,60 )2 = (0,60 )2
(1.8)
(1.9)
Naturalmente, frente al Ejemplo 1.6 nuestra reaccin sera: Si prescindimos de considerar procedimientos que slo excepcionalmente son muy buenos, y nos limitamos a procedimientos de buen
funcionamiento para cualquier , quiz s haya uno mejor que todos los dems. En alguna medida,
esta conjetura es cierta: si limitamos nuestra atencin a clases de procedimientos y de funciones de
prdida restringidas (por ejemplo, a los procedimientos insesgados y a las funciones de prdida convexas), puede en ocasiones encontrarse un procedimiento superior a los restantes. Estudiaremos por
el momento el criterio de Bayes, para retomar esta cuestin ms adelante.
()r (1 )
(1.10)
()r (2 )
(1.11)
R (2 ) = E [r (2 )] =
Definicin 1.4 Llamamos riesgo de Bayes del procedimiento relativo a la distribucin definida por () a
X
R () = E [r ()] =
()r ()
(1.12)
= 1
(razn de piezas defectuosas a piezas correctas). Si la completa
ignorancia sobre un parmetro se describe mediante una densidad a priori
uniforme, debiramos ahora utilizar una densidad () uniforme. Pero los
resultados a que llegamos son diferentes: puede comprobarse con facilidad
(vase el problema 1.1, p. 20) que () uniforme en = [0, 1] implica una
densidad
()
1
(1 + )2
(1.13)
()
"
X X
x
L(, (x))fX | (x |)
#
L(, (x))()fX | (x |)
def
{z
= h (x, (x))
(1.14)
Para minimizar el riesgo, tenemos que minimizar h (x, (x)) en (1.14) para cada
x. Pueden ocurrir dos cosas:
Que para cada x haya una nica decisin d = (x) en D minimizando
h (x, d)). En este caso, hay un nico procedimiento de Bayes relativo a
().
Que haya ms de una decisin minimizando h (x, d) para algn x. En este
caso, hay ms de un procedimiento de Bayes relativo a ().
En todos los casos, si definimos
H (x) = mn h (x, d),
dD
(1.15)
Obsrvese que no procede hablar de una densidad uniforme sobre un intervalo de longitud infinita, como es el dominio de variacin de . El problema se soluciona escribiendo () k y
sustituyendo los signos = por signos . Se dice que se est ante una distribucin a priori difusa. Se
suele tambin denominar a () densidad a priori impropia.
P
el riesgo de Bayes es R () = x H (x). El Ejemplo 1.8, aunque artificialmente
simple, ilustra algunos de los conceptos introducidos.
Ejemplo 1.8 Supongamos que, dependiendo quiz de la climatologa,
un paraje puede adoptar uno de dos estados, 1 y 2 . En el estado 1 , el
paraje produce slo setas comestibles, mientras que en el estado 2 produce
slo setas txicas, indistinguibles a los ojos de un profano de las primeras.
Las probabilidades respectivas de ambos estados son (1 ) = 0,90 y (2 ) =
0,10.
Para adquirir mayor informacin sobre el carcter de una seta recogida,
podemos preguntar a un experto, que sin embargo no es infalible. En cada
uno de los dos estados proporciona una respuesta X cuyos posibles valores
son X = C (declara la seta comestible) X = T (declara la seta txica).
La distribucin de X para cada uno de los dos posibles estados aparece en la
Tabla 1.1.
Cuadro 1.1: Funcin de cuanta fX| (x |)
Respuesta X
experto
1
(seta comestible)
2
(seta txica)
X=C
0.950
0.005
X=T
0.050
0.995
1
(seta comestible)
2
(seta txica)
d1 (tirar)
100
d2 (comer)
-10
1000
100 0 + (10) 1 = 10
L(2 , d1 )Prob {1 (X) = d1 |2 } + L(2 , d2 )Prob {1 (X) = d2 |2 }
0 0 + 1000 1 = 1000
L(1 , d1 )Prob {2 (X) = d1 |1 } + L(1 , d2 )Prob {2 (X) = d2 |1 }
Descripcin
Sea cual fuere X, comer la seta (d2 ).
Si X = C, comer la seta (d2 ). En caso contrario, tirar la seta.
Sea cual fuere X, tirar la seta (d1 ).
La Tabla 1.4 recoge los riesgos calculados. Puede observarse que ningn
procedimiento es mejor a ninguno de los restantes.
Los respectivos riesgos de Bayes relativos a la distribucin a priori especificada por () se calculan tambin fcilmente:
R (1 ) =
R (2 ) =
R (3 ) =
El criterio de Bayes llevara en este caso a seleccionar 2 (X). El procedimiento seleccionado depende de la distribucin a priori considerada. Si en
lugar de la indicada hubiramos tenido: (1 ) = 0,001, (2 ) = 0,999 (es
decir, casi seguridad de que la seta procede de un paraje que slo produce
txicas), es fcil comprobar que el procedimiento escogido por el criterio de
10
1
(seta comestible)
2
(seta txica)
1 (X)
-10
1000
2 (X)
-4.5
3 (X)
100
Bayes sera 3 (X) (tirar la seta, incluso aunque el dictamen del experto sea
que es comestible). Sucede que nuestras creeencias a priori son tan fuertes,
que no basta la evidencia aportada por el experimento para hacernos cambiar
de opinin.
(1.17)
tenemos que el procedimiento (o los procedimientos) Bayes relativos a la distribucin a priori () minimizan
X
h (x, (x)) = fX (x)
L(, (x))f|X ( |x)
(1.18)
La comparacin de las expresiones (1.18) y (1.19) muestra que el mtodo de eleccin de un procedimiento es siempre el mismo, con la sola variacin de que en un
siendo w() una funcin no negativa cualquiera, entonces el procedimiento de Bayes relativo a una cierta distribucin a priori () es particularmente fcil de obtener, como muestra el siguiente teorema.
Teorema 1.1 Sea L(, d) = w() [d ]2 y w() una funcin no negativa. El
procedimiento de Bayes relativo a () es:
P
E|x [w()]
w()f|X ( |x)
=
.
(1.20)
(x) = P
E|x [w()]
w()f|X ( |x)
D EMOSTRACION :
Para cada x, (x) ha de ser, de acuerdo con (1.18), tal que minimice:
X
w() [(x) ]2 f|X ( |x).
(1.21)
(1.22)
12
(1 )s1
() =
(r)(s)
con 0 < < 1, tendramos, de acuerdo con (1.22), que:
(r + s) r1
n x
f|X ( |x)
(1 )nx (1.23)
(1 )s1
(r)(s)
x
r+x1 (1 )n+sx1
(1.24)
r+X
r+X
=
n+sX +r+X
n+r+s
+
n+r+s
n
n+r+s
(1.25)
Ejemplo 1.10 (continuacin) Para uso posterior nos interesar disponer de la funcin de riesgo del estimador obtenido en el ejemplo anterior.
r () = E ((X) )2 |
=
n+r+s
n
n+r+s
exp
fX | (x |) =
2 i=1
(1.26)
13
(1.27)
Por consiguiente:
(
" n
n
2
2 #)
1
1
1 X xi
b
b 2 2
P
2 2
2
2
2
2 2
1 ( + nb ) 2( + nb x) + ( + b2 x2i )
exp
2
2 b2
1 22 +nb22 x
+nb
q
exp
,
(1.28)
b2 2
2
2
2
+nb
nx
;
n+k
(1.29)
Hay otros muchos casos en que el empleo de una distribucin a priori conveniente simplifica la obtencin de la distribucin a posteriori. La siguiente tabla
muestra algunos de los ms frecuentes.
La comodidad de manejo de las familias conjugadas no debe hacernos perder
de vista, sin embargo, algo fundamental: que el fundamento de la utilizacin de una
distribucin a priori se pierde si sta no describe bien el mecanismo que genera los
estados de la naturaleza o nuestras creencias acerca del particular, si adoptamos
una visin bayesiana.
14
Parmetro
de inters
A priori
conjugada
Binomial, b(, n)
Beta(r, s)
Poisson, P ()
(a, b)
Exponencial, fX (x) = ex
(a, b)
Normal, N (, 02 )
Normal, N (, 2 )
15
r ()
16
r2 ()
4
5
3
r1 ()
Si consideramos procedimientos aleatorizados, toda combinacin lineal convexa de procedimientos puede verse como otro posible procedimiento. Ello hace
ver que el conjunto de posibles procedimientos es, cuando lo representamos como
en la Figura 1.3, un conjunto convexo.
(1.30)
r2 ()
3
c0 /(1 )
r1 ()
Es fcil ver de modo intuitivo que para una diferente distribucin a priori el
procedimiento de Bayes sera diferente (como ilustra la Figura 1.5, en que el procedimiento de Bayes es 1 ).Tambin es fcil ver que puede no haber un nico
procedimiento de Bayes; si la distribucin a priori fuera tal que las rectas de riesgo
Bayes constante tuvieran exactamente la misma pendiente que uno de los segmentos (1 , 2 ) (2 , 3 ), el contacto entre la recta de mnimo riesgo y el conjunto de
procedimientos se producira en ms de un punto.
18
r2 ()
3
c0 /(1 )
r1 ()
Xb2 + 2 /n
b2 + 2 /n
b2
2 /n
X
+ 2
2
2
b + /n
b + 2 /n
19
Cuando n , (X) X; la distribucin a priori es reducida a la irrelevancia por el peso abrumador de la evidencia muestral. Se dice que X es
lmite de procedimientos de Bayes.
20
b(y)
a(y)
g(x, y)dx
a
b
g(b, y)
g(a, y) +
y
y
b(y)
a(y)
g(x, y)
dx
y
) =
demustrese que el estimador que minimiza la funcin de prdida L(,
| | es la mediana de la distribucin f|X (|x) (supuesta sta ltima continua, y por tanto la mediana nicamente definida).
(Garthwaite et al. (1995), pg. 118)
Captulo 2
Procedimientos admisibles y
minimax.
22
r2 ()
3
r1 ()
ningn procedimiento factible con riesgos menores tanto para 1 como para 2 (un
tal procedimiento estara en el interior del cuadrado de lados (2,6, 2,6) dibujado).
Ms precisamente, tenemos la siguiente
Definicin 2.1 Se dice que es un procedimiento minimax en una cierta clase de
procedimientos si :
sup r ( ) sup r ()
(2.1)
23
D EMOSTRACION :
Tomemos cualquier otro procedimiento . Entonces,
sup r ()
r ()()
r ( )() = sup r ( )
(2.3)
24
r2 ()
r1 ()
En efecto, supongamos un procedimiento de Bayes inadmisible. Existira
otro, 0 , tal que r (0 ) r ( ). Pero entonces:
X
X
R (0 ) =
r (0 )()
r ( )() = R ( )
25
r ()
La demostracin es inmediata. Ambas condiciones alternativas eliminan la posibilidad de mltiples procedimientos de Bayes que difieren slo con probabilidad
cero.
26
(1 )
n
1
1
cuyo mximo es 4n
, dado que 0 1. Si r () fuera 4n
para cualquier
, estaramos ante un estimador minimax, pero ste no es el caso.
La siguiente cosa que se nos ocurrira es buscar una distribucin a priori
1
. Es claro que tal
que hiciera el riesgo de Bayes igual a su valor mximo, 4n
1
distribucin habra de ser la que diera al valor = 2 probabilidad igual a 1,
pero con tal distribucin a priori el estimador de Bayes ya no sera Y , sino
1
2!
Ante el fracaso de estos dos intentos, podramos ir a la bsqueda de una
familia de distribuciones a priori y encontrar la familia de estimadores de
Bayes asociados. Si tuviramos la suerte de que alguno de ellos fuera nico
y de riesgo constante, entonces sera minimax (Teorema 2.1). Si tomamos
una distribucin a priori (r, s), el correspondiente procedimiento de Bayes
es el que se obtuvo en el Ejemplo 1.9 (la funcin de riesgo se comput en
el Ejemplo 1.10). Hay alguna distribucin (r, s) tal que el riesgo asociado al procedimiento de Bayes correspondiente sea constante? Tratemos de
encontrar r y s verificando para una constante cualquiera y todo que:
n
n+r+s
2
(1 )
+
n
r + n
n+r+s
2
=k
lo que implica, tras reducir a denominador comn, que el numerador del lado
izquierdo ha de ser constante:
n n2 + r2 + (r + s)2 2 2r(r + s) = c
Para ello es preciso que los coeficientes de y 2 sean cero:
n 2r(r + s) =
(r + s)2 n =
de donde:
0
0
1
n
2
Llevando estos dos valores a la frmula (1.25) obtenemos el procedimiento
minimax que buscamos:
P
1
n
Yi
n
+ 2
(2.5)
(Y ) =
n
n+ n
n+ n
P
Yi
n
1
1
(2.6)
+
=
1+ n
n
21+ n
r=s=
1
1
=
2
(n + r + s)
4(1 + n)2
(2.7)
Es interesante
P comparar este riesgo con el del estimador insesgado habitual,
X = n1 i Xi , que es (1 )/n. En el caso ms desfavorable para
1
este ltimo (cuando = 12 y r () = 4n
, el estimador minimax es mejor. Sin embargo, esta reduccin de riesgo en la situacin ms desfavorable
tiene un precio; para otros valores de , el estimador minimax puede ser
considerablemente peor que el estimador insesgado habitual. La Figura 2.3
(pg. 25) muestra la funcin de riesgo del estimador minimax (horizontal al
nivel 0.01443) y la del estimador X, ambas correspondientes a un tamao
muestral n = 10. Puede verse que para 0,18 0,82 el estimador minimax es de menor riesgo, mientras lo contrario ocurre fuera de dicho intervalo.
Es fcil comprobar tambin que a medida que n el intervalo en que el
estimador minimax mejora a X se va estrechando en torno a = 12 .
Ejemplo 2.3 Supongamos que hemos de estimar la media desconocida de una distribucin normal N (, 2 ), cuya varianza supondremos por
simplicidad conocida. Supondremos tambin que la distribucin a priori de
es N (, b2 ), y la funcin de prdida L(, d) = (d )2 . Contamos con
una m.a.s. X = (X1 , . . . , Xn ). Cul es el estimador minimax de ?
Comencemos por encontrar el estimador de Bayes, y, si fuera de riesgo
constante, podramos entonces afirmar que es minimax.
Segn comprobamos en el Ejemplo 1.11, la distribucin a posteriori de
es:
2
+ nb2 X
b2 2
|X N
, 2
2 + nb2
+ nb2
De acuerdo con el Teorema 1.1, el procedimiento de Bayes ser entonces:
(X) =
2 + nb2 X
2 + nb2
y su riesgo:
nb4 2
r () = E [(X) ] = 2
+
( + nb2 )2
2
2 + nb2
2 + nb2
2
Ejemplo 2.4 (un procedimiento de Bayes en que los estados ms desfavorables totalizan probabilidad 1; y, por tanto, un procedimiento minimax
virtud del
Corolario 2.2) Consideremos el espacio paramtrico =
en
: 31 32 , la funcin de prdida
)
L(,
= ( )2 .
27
28
= (X) =
(2.8)
b si X = 1.
El riesgo de dicho procedimiento es
= (1 )(a )2 + (b )2 .
r ()
Parece que una distribucin mximamente desfavorable podra ser
1
si = 13 ,
2
() =
1
si = 23 .
2
(2.9)
(2.10)
R ()
r ()
1
7
+
18 9
4
9
2
1
,
2
Captulo 3
La familia exponencial.
Suficiencia
(3.1)
fX (x; ) = exp
( k
X
i=1
29
(3.2)
30
birse en la forma:
fX (x; ) =
=
=
1 x 2
1
e 2 ( )
2
1 x2
1 2
x
1
exp 2
+
+
log
2
2 2
2
2
)
( 2
X
ai ()bi (x) + c() + d(x)
exp
i=1
con:
b1 (x)
(, 2 )
1
2
2
2
x2
b2 (x)
c() =
d(x)
a1 () =
a2 () =
1 2
+ log
2 2
p (0, 1):
n x
n
nx
PX (x; p) =
p (1 p)
= exp log
+ x log(p) + (n x) log(1 p) (3.3)
x
x
que responde a la forma general en (3.1) con:
= p
a()
b(x)
= x
c()
= n log(1 p)
n
= log
x
d(x)
p
1p
x
1
x
exp
(3.4)
para x > 0, > 0 y > 0. Es fcil ver que no puede expresarse en la forma
(3.1), y por tanto no pertenece a la familia exponencial.
31
(3.5)
k
X
i=1
(3.6)
e x
x!
con x = 1, 2, 3, . . . y > 0, el parmetro natural es loge , como se comprueba sin ms que reescribir la funcin de probabilidad en forma cannica:
fX (x; )
fX (x, ) =
se deduce:
eA()
y por tanto
A() = log
32
3.2. Suficiencia.
Definicin 3.2 Sea X = (X1 , . . . , Xn ) una muestra generada por una distribucin FX (x; ). Se dice que S = S(X) es un estadstico suficiente respecto de (o
suficiente para ) en la familia {FX (x, ), } si:
fX|S (x|s) =
fX (x; )
fS (s; )
(3.7)
no depende de .
La denominacin de suficiente para el estadstico S se justifica porque, en cierto sentido, el conocimiento de S proporciona cuanta informacin existe en la muestra acerca de . Podemos imaginar el espacio muestral de X dividido en regiones,
cada una de ellas proporcionando el mismo valor de S. Una vez que sabemos el
valor de S, la distribucin de X condicionada por S = s es independiente de , y
por tanto el conocer qu muestra concreta x ha dado lugar a S = s es no informativo acerca de . El siguiente ejemplo aporta plausibilidad intuitiva a la afirmacin
anterior.
3.2. SUFICIENCIA.
33
1
0
1
2
1
2
1
probabilidades que, en todos los casos, son independientes de . Las probabilidades no recogidas en la relacin anterior son todas cero, de manera
tambin independiente de .
El siguiente teorema, de inmediata demostracin, muestra que la nocin realmente relevante es la de particin suficiente, y que un estadstico suficiente no
hace sino etiquetar las clases de una tal particin.
Teorema 3.1 Todo estadstico T = (S) funcin 1-1 de un estadstico suficiente
S es suficiente.
D EMOSTRACION :
En efecto,
Prob {X = x|(S(X)) = b; } = Prob X = x|S(X) = 1 (b);
= Prob X = x|S(X) = 1 (b)
en que la omisin en el ltimo trmino de la igualdad de como argumento se
justifica por la suficiencia de S(X).
Si definimos AS = {as }, particin asociada al estadstico suficiente S, como
el conjunto de clases de equivalencia formadas por puntos x con igual valor de
S(x), vemos que lo que realmente interesa saber a efectos de inferencia sobre
el parmetro no es cul es el valor tomado por S, un determinado estadstico
suficiente, sino la clase de equivalencia en la que est x.
Es tambin claro que cualquier particin mas fina que AS (es decir, cualquier particin formada por clases de equivalencia bs con la propiedad de que para
cualquier bs hay un as tal que bs as ) es tambin suficiente. Intuitivamente, si
el saber en que clase as esta x es cuanto necesitamos a efectos de hacer inferencia
sobre , el saber que x bs as es a fortiori suficiente. Un argumento formal
sera el proporcionado por el teorema a continuacin.
Teorema 3.2 Si AS es una particin suficiente y Bs es una particin ms fina,
entonces Bs es tambin una particin suficiente.
34
Prob {(X = x) (X bs )}
Prob {X bs }
Prob {(X = x) (X (bs as ))} /Prob {as }
=
Prob {X (bs as )} /Prob {as }
Prob {(X = x) (X bs )|X as }
=
Prob {X bs |X as }
y esta ltima expresin es independiente de por suficiencia de AS , lo que implica
que Prob {X = x|bs } tambin lo es.
El teorema anterior tiene una consecuencia inmediata: si un estadstico S suficiente puede expresarse como funcin de otro estadstico T , entonces T es tambin
suficiente. En efecto, si T (x) = T (y), entonces S(x) = S(y); dos muestras que
den lugar al mismo valor de T dan lugar al mismo valor de S, y, en consecuencia,
es indiferente obtener una u otra a efectos de inferencia sobre .
Un estadstico suficiente que puede obtenerse como funcin de cualquier otro
estadstico suficiente, se dice que es mnimo suficiente. La particin del espacio
muestral en clases cada una de las cuales da lugar al mismo valor de un estadstico
mnimo suficiente, es la particin menos fina que conserva la suficiencia.
Los siguientes ejemplos de estadsticos y particiones suficientes ilustran los
conceptos anteriores.
Prob {X = x|bs } =
s n
2
3.2. SUFICIENCIA.
35
nsn1
,
(2)n
(0 < s < 2)
n
Y
fX (x; ) =
i=1
1
(2)n
Por consiguiente:
fX|S (x|s) =
fX (x; )
1
= n1
fS (s; )
ns
Cuando n = 2 dichas clases seran las que ilustra la Figura 3.1; bordes superior y derecho de cuadrados de lado s apoyados sobre los ejes de coordenadas.
0,80
0,60
a0,6
0,40
a0,3
0,20
0
0
0,20
0,40
0,60
0,80
1,00
36
en (n)s
s!
n
Y
e xi
i=1
En consecuencia:
fX|S (x|s) =
xi !
en s
= Qn
i=1 xi !
fX (x; )
s!
= s Qn
fS (s; )
n
i=1 xi !
La comparacin de este ejemplo con el anterior muestra que lo que en una familia
de distribuciones es un estadstico suficiente para la media, puede no serlo en otra.
Observacin 3.1 Esto obliga a ser cauto en el trabajo estadstico aplicado, y a no apelar alegremente a la nocin de suficiencia para prescindir
de informacin. Un estadstico suficiente contiene cuanta informacin puede
la muestra aportar sobre un parmetro si nuestros supuestos sobre la familia
de distribuciones generadora de la muestra son correctos. No en otro caso.
Y, en la prctica, esta certeza acerca del modelo terico adecuado rara vez
se tiene. Por el contrario, es frecuente el caso de distribuciones difcilmente
distinguibles cuando slo se cuenta con muestras pequeas o moderadas, que
tienen muy diferentes estadsticos suficientes. Un caso claro lo ofreceran las
distribuciones N (, 2 ) y de Cauchy con parmetro de localizacin , C().
Ejemplo 3.9 Sea (X1 , . . . , Xn ) una muestra aleatoria simple y denotemos sus correspondientes valores ordenados por (X(1) , . . . , X(n) ). Conocidos (X(1) , . . . , X(n) ), cualquiera de las permutaciones dando lugar a tales
valores ordenados puede haberse presentado con la misma probabilidad. Por
consiguiente:
1
Prob (X1 , . . . , Xn )|(X(1) , . . . , X(n) ) =
n!
sea cual fuere la distribucin generadora FX (x; ). Por lo tanto, (X(1) , . . . , X(n) )
es un estadstico suficiente.
37
fX (x; 0 )
fX (x; 0 )dx
R(X)=r
rfX (x; 1 )
rfX (x; 1 )dx
R(X)=r
fX (x; 1 )
fX (x; 1 )dx
R(X)=r
fX (x|R(x) = r; 1 )
(3.8)
fX (x; )
fS (s; )
(3.9)
y por tanto:
fX (x; ) = fX|S (x|s) fS (s; )
| {z } | {z }
h(x)
(3.10)
gS (s;)
ii) (Suficiencia). Denominemos (s) el conjunto formado por todos los posibles valores muestrales x dando lugar al valor S = s, y supongamos que (3.8) se
38
verifica. Entonces:
fX|S (x|s) =
=
fX (x; )
fX (x; )
=P
fS (s; )
x(s) fX (x; )
gS (s; )h(x)
h(x)
P
=P
gS (s; ) x(s) h(x)
x(s) h(x)
y el ltimo trmino de la derecha es independiente de , lo que establece la suficiencia de S en virtud de la Definicin 3.2. El anterior argumento supone que X es
una variable discreta y (s) un conjunto de probabilidad no nula; en el caso de una
distribucin continua, los sumatorios en la expresin anterior deben reemplazarse
por integrales.
Ejemplo 3.11 Sea una distribucin N (, 1), y una muestra formada
por n observaciones de la misma, X1 , . . . , Xn . La verosimilitud puede escribirse as:
(
)
1
1X
(xi )2 + n log
fX (x; ) = exp
2 i
2
)
(
1
1X 2
2
xi 2xi + + n log
= exp
2 i
2
)
(
)
(
X
1X 2
1
1 2
x + n log
xi n exp
= exp
2
2 i i
2
i
P
Podemos en la anterior expresin identificar sin dificultad i xi como estadstico suficiente para , de acuerdo con el teorema de factorizacin.
Ejemplo 3.12 En el Ejemplo 3.9, pg. 36, se comprob que la (X(1) , . . . , X(n) ),
la muestra ordenada, era suficiente. Ciertamente, es un estadstico suficiente
bastante trivial, que no efecta una gran reduccin de la muestra. En ocasiones, sin embargo, es todo lo lejos que se puede ir.
La distribucin de Cauchy con parmetro de localizacin , C(), proporciona una ilustracin simple de ello. La densidad de una muestra (x1 , . . . , xn )
es de la forma
n
Y
1
1
,
fX (x; ) =
1 + (xi )2
i=1
para < xi < , e i = 1, . . . , n. Puede verse fcilmente que cualquier
intento de factorizar la expresin anterior obliga a englobar en gS (s; ) una
funcin s de la muestra que depende de todos los valores muestrales. No es
posible ninguna reduccin: S = (X(1) , . . . , X(n) ) es mnimo suficiente.
39
gU (U ; 0 )h(X)
fX (X; 0 )
=
= H(U )
fX (X; 1 )
gU (U ; 1 )h(X)
40
= exp a()
i=1
n
X
i=1
= gS (s; )h(x)
con:
s=
i=1
n
X
( n
X
i=1
d(xi )
b(xi )
i=1
i=1
41
N
d
X
X
(3.11)
ti +
uj
fT ,U (t, u) = d exp
i=1
j=d+1
d
N
X
X
= exp
ti +
uj + d log (3.12)
i=1
j=d+1
42
f|X (|x) =
Una vez constatado que el limitar nuestra atencin a procedimientos que son
funcin de estadsticos suficientes nos da acceso a todos los procedimientos de Bayes, es claro que desearemos la mxima simplificacin, limitndonos a considerar
estadsticos no slo suficientes sino mnimos suficientes.
fX (y; )
= m(x, y).
fX (x; )
(3.13)
Entonces, S es mnima suficiente, y cualquier estadstico T tomando valores diferentes en cada clase St S es mnimo suficiente.
D EMOSTRACION :
En lo que sigue, se hace la demostracin para el caso de una distribucin discreta; el caso continuo es sustancialmente idntico en esencia, pero formalmente
mas difcil de tratar. Comprobemos en primer lugar que la particin es suficiente.
Sea,
X
fX (y; )
(3.14)
g(t, ) =
ySt
y definamos
h(x|t) =
fX (x; )
=
ySt fX (y; )
ySt
m(x, y)
(3.15)
43
(3.16)
y
fX (x; )
fX (y; )
Ejemplo 3.18 Consideremos una distribucin binaria de la que se obtiene una muestra de tamao n. Estarn en la misma clase de la particin
mnima suficiente aquellos puntos verificando
Pn
Pn
i=1 xi (1 )n i=1 xi
Pn
Pn
= m(x, y);
i=1 yi (1 )n i=1 yi
Pn
Pn
ello requiere i=1 xi = i=1 yi .
Hay algunos otros resultados que permiten en ocasiones caracterizar la suficiencia minimal. Los enunciamos a continuacin.
Teorema 3.6 Si un estadstico es suficiente y acotado completo, es minimal suficiente.
Una demostracin puede encontrarse en Fourgeaud y Fuchs (1967).
Ejemplo 3.19 Comprobemos que S = X(n) es minimal suficiente en
una distribucin U (0, 2). En el Ejemplo 3.7 vimos que S es suficiente para
en dicha distribucin, y que su funcin de densidad es
fS (s; ) =
nsn1
;
(2)n
44
n(2)n1
=0
(2)n
En la familia exponencial, es simple establecer suficiencia minimal. Es evidente en virtud del teorema de factorizacin yPde la expresin (3.1) ( (3.2), si estamos
anteP
una familia multiparamtrica)
que j b(Xj ) (o, en el caso multiparamtriP
co, j b1 (Xj ), . . . , j bk (Xj )) son estadsticos suficientes. El siguiente teorema
permite establecer suficiencia minimal.
Teorema 3.7 Si X sigue una distribucin en la familia exponencial y de rango
completo1 , entonces
X
X
(3.18)
b1 (Xj ), . . . ,
bk (Xj )
j
es mnimo suficiente.
#
"
n
n
n
n
k
X
X
X
X
X
d(yi ) .
d(xi )
bj (yi ) +
bj (xi )
aj ()
= exp
j=1
i=1
i=1
i=1
i=1
i=1
1
Se dice que la familia es de rango completo si (a1 (), . . . , ak ()) genera un conjunto conteniendo un rectngulo de dimensin k cuando toma valores en .
45
b1 (xi ),
n
X
b2 (xi ), . . . ,
bk (xi )
i=1
i=1
i=1
n
X
Ejemplo 3.20 Sea X1 , . . . , Xn una m.a.s. generada por una distribucin N (, 2 ). Entonces, (X, S 2 ) es un estadstico mnimo suficiente para
(, 2 ). En efecto,
n Y
n
(xi )2
1
exp
fX (x, , 2 ) =
2 2
2
i=1
P
Pn
ni=1 xi
1
n2
1 i=1 x2i
+
+
n
log
= exp
e
2 2
2 2
2
2
La expresin anterior puede escribirse en la forma cannica de las densidades
de la familia exponencial (vase (3.2) y Ejemplo 3.1),
)
( k
X
ai ()bi (x) + nc() + d(x) ,
(3.19)
fX (x; ) = exp
i=1
con
a1 () =
a2 () =
n
X
i=1
n
X
b1 (xi ) =
(, 2 )
1
2
2
2
n
X
x2i
i=1
b2 (xi ) =
n
X
xi
i=1
i=1
c() =
n2
2 + n loge
2
P
P
Por consiguiente, en aplicacin del Teorema 3.7, ( xi , x2i ) o cualquier
funcin biunvoca de l es un estadstico suficiente para (, 2 ).
Ejemplo 3.21 Podramos tambin llegar al mismo resultado del ejemplo anterior mediante aplicacin del Teorema 3.5. La particin mnima suficiente sera aqulla que pusiera en la misma clase de equivalencia puntos x,
y verificando
fX (y; )
= m(x, y).
fX (x; )
46
En nuestro caso,
fX (y; )
fX (x; )
=
=
)
n
1 X
(xi )2 (yi )2
exp 2
2 i=1
!#)
(
" n
n
n
n
X
X
1 X 2 X 2
.
yi
xi
y 2
exp 2
x
2 i=1 i i=1 i
i=1
i=1
(
i=1
n
X
x2i
xi
=
=
n
X
i=1
n
X
yi2
(3.20)
yi
(3.21)
i=1
i=1
P
P
Por consiguiente ( ni=1 xi , ni=1 x2i ), oP
cualquier funcin biunvoca de din
cho estadstico, como por ejemplo (x, i=1 (xi x)2 ), es un estadstico
mnimo suficiente.
e(x)
0
si x > ,
n otro caso.
1
xr1 (1 x)s1
(r, s)
3.5 Sean Y1 , . . . , Yn variables aleatorias independientes con densidades respectivas j ej yj , j > 0, j = 1, . . . , n. Supongamos que log(j ) =
xj , j = 1, . . . , n, y que x1 , . . . , xn son constantes fijas y positivas. Mustrese que no es de rango completo.
Captulo 4
Procedimientos insesgados.
(4.1)
(4.2)
Ambas condiciones de insesgadez (la dada por (4.1) y la dada por (4.2)) pueden reconciliarse fcilmente, dado que, salvo en condiciones bastante anmalas, se
implican mutuamente. El siguiente ejemplo lo ilustra.
1
47
48
(4.3)
Sumando y restando E ((X)) en el interior de cada parntesis y tomando valor medio, tras simplificar tenemos:
2
E [ E (X)] E [ E (X)]2
(4.4)
En problemas de contraste de hiptesis, al igual que sucede en problemas de estimacin, se define insesgadez mediante una condicin estrechamente relacionada
con (4.1), cuya discusin abordaremos en el Captulo 8.
Es importante darse cuenta de que la insesgadez, siendo como es una propiedad intuitivamente atrayente, no es un requerimiento imprescindible, ni necesariamente deseable. En ocasiones, ni siquiera existen procedimientos insesgados. Los
siguientes ejemplos ilustran estas ideas.
Ejemplo 4.2 (un estimador insesgado claramente indeseable) Sea =
(X)) un estimador de con prdida cuadrtica, L(, t) = (t )2 . Supongamos que la distribucin de es tal que:
1
2
Tal estimador es insesgado. Sin embargo, siempre tendr mayor prdida que
otro, , acaso sesgado pero verificando:
Prob { = + 100} = Prob { = 100} =
Prob {| | 5} = 1
En consecuencia, es inadmisible.
Existen otros muchos ejemplos de estimadores de Bayes que son sesgados, menos artificialmente simples que el presente. La teora de Modelos
Lineales muestra que, si la prdida es cuadrtica, un estimador sesgado (el
estimador ridge) puede ser preferible al (insesgado ptimo) proporcionado
por mnimos cuadrados ordinarios, y que la mejora derivada de tolerar algn sesgo puede ser notable (en los casos de acusada multicolinealidad).
Garthwaite et al. (1995), pg. 35, proporciona un ejemplo alternativo a ste.
Ejemplo 4.3 (un estimador insesgado puede ocasionalmente dar resultados absurdos) La insesgadez, cuando el estimando est constreido a
estar en un cierto rango, da lugar a situaciones anmalas. Supongamos que
se desea estimar 2 o coeficiente de correlacin al cuadrado entre dos variables. Por definicin, 0 2 1. Si obligamos a un estimador 2 a ser
insesgado, nos encontraremos con que podemos obtener 2 < 0 sobre otras
2 > 1. En efecto, el ser insesgado cuando 2 = 0 obliga a que eventualmente 2 < 0 (si siempre fuera 2 0, E[
2 ] > 0 contra el supuesto de
2
insesgadez). Lo mismo ocurre cuando = 1.
49
E (X) =
(x)s(x) (1 )ns(x) =
(4.5)
1
xX
P
en que s(x) =
xi y X es el conjunto formado por todas las posibles ntuplas de ceros y unos. Sin embargo, el lado izquierdo de la igualdad anterior
es un polinomio de grado finito en , en tanto que el lado derecho puede
escribirse como (1 + + 2 + . . .); ningn polinomio puede igualar a la
serie de potencias en el lado derecho para cualquier valor de .
(4.6)
Decimos que es una funcin estrictamente convexa si la desigualdad en la expresin anterior es estricta. Una funcin (x) es cncava en [a, b] si (x) es convexa
en el mismo intervalo. Es inmediato ver que, en el caso de funciones derivables,
(x) montona no decreciente es condicin necesaria y suficiente de convexidad;
(x) 0 es condicin suficiente pero no necesaria para la convexidad de (x).
Las siguientes propiedades de las funciones convexas, enunciadas como teoremas, sern de utilidad.
Teorema 4.1 Si (x) es convexa en (a, b) y t (a, b), siempre existe una recta de
ecuacin y = L(x) = c(x t) + (t) a travs de (t, (t)) tal que: L(x) (x),
x (a, b).
La prueba es sencilla, y resulta innecesaria a la vista de un grfico. Todo lo que
el teorema establece es que para cualquier t en el intervalo de convexidad podemos
trazar una tangente2 a una funcin convexa que queda siempre por debajo.
Teorema 4.2 (Desigualdad de Jensen) Si (x) es una funcin convexa en el intervalo soporte de la v.a. X, y X tiene momento de primer orden finito, se tiene
que:
(E(X)) E [(X)]
(4.7)
2
Estrictamente, podra no ser una tangente en el sentido habitual, y limitarse a tocar a la funcin
convexa en un punto donde sta es angulosa.
50
D EMOSTRACION :
= (E[X])
Ejemplo 4.5 Una situacin en que la desigualdad de Jensen es de aplicacin inmediata es aqulla en que el regresando en un modelo lineal es una
funcin cncava (o convexa) de la variable que resulta de inters predecir.
Por ejemplo, podemos tener:
Yi = log Zi = xi + i
De acuerdo con el teorema de Gauss-Markov, sabemos entonces que una
prediccin insesgada y de varianza mnima del valor y del regresando es
x + . Es decir:
= y
E[x ]
(4.8)
Sin embargo, la variable que deseamos predecir es z = ey . Como la funcin exponencial es convexa, de acuerdo con la desigualdad de Jensen se
tiene:
E[Z ] eE[Y ]
Si x estima insesgadamente el exponente del lado derecho en la expresin
anterior, ex ser un estimador sesgado por defecto de E[Z ].
Si quisiramos corregir este sesgo, podramos quiz linealizar la funcin
logaritmo. En la prctica, el sesgo suele ser de entidad lo suficientemente
reducida en comparacin con la varianza de la prediccin como para no ser
considerado.
51
Teorema 4.3 (Rao - Blackwell) Sea X una v.a. con distribucin {FX (x, ),
L(,
tiene media finita y riesgo:
h
i
= E L(,
) <
r ()
y definimos:
h
i
(s) = E (X)|S
=s
entonces:
r (
(s)) < r ()
D EMOSTRACION :
Es una aplicacin de la desigualdad de Jensen:
h
i
, )
L(
, ) = L(EX|S (X)
h
i
)
= (EX|S (X)
h
i
EX|S ((X))
h
i
)
= EX|S L((X),
)
ES [L(
, )] ES EX|S L((X),
y como ES EX|S [] = EX [] obtenemos en definitiva:
h
i
ES [L(
, )] E L((X),
)
r (
) r ()
= ES [
(S)]
= E (X)
= ES EX|S (X)|S
52
Observacin 4.1 Dnde se ha hecho uso de la suficiencia de S? Parece a primera vista que en ninguna parte, y que bastara condicionar sobre
cualquier cosa para que el teorema de Rao-Blackwell surtiera efecto.
Observemos que ello no es as. Si queremos que (S) sea un estimador,
no debe depender del parmetro . Si S es suficiente,
h
i Z
53
D EMOSTRACION :
En efecto: consideremos (S) y cualquier otro posible estimador insesgado
(X).
Una aplicacin del teorema de Rao-Blackwell a (X)
producir un
(S)
Los Teoremas 4.3 y 4.4 muestran dos vas para obtener estimadores insesgados
de riesgo mnimo. La primera consistira en buscar un estadstico suficiente completo S y, a continuacin, una funcin de l que fuera insesgada. El Teorema 4.4
garantiza que este modo de operar conduce al (esencialmente nico) estimador insesgado de riesgo mnimo.
El inconveniente de este mtodo es que a veces puede no ser fcil de llevar
a cabo la correccin de sesgo aludida, dependiendo del estadstico suficiente que
tomemos como punto de partida.
Hay una segunda va que a menudo permite llegar al mismo resultado de modo
ms simple. Una vez que hemos encontrado un estadstico suficiente completo S,
podemos tomar cualquier estimador insesgado del parmetro de inters y calcular
E[|S].
El Teorema 4.3 garantiza que el resultado es el estimador insesgado de
riesgo mnimo, sin importar cul haya sido el estimador insesgado de partida.
Ejemplo
4.6 Volvamos sobre el Ejemplo 3.8, pg. 36. Vimos all que
Pn
S = i=1 Xi (y, equivalentemente, X) es un estadstico suficiente para
en la clase de distribuciones de Poisson, P (). Adems, X es un estadstico
completo.
El Teorema 4.4 (pg. 52) muestra entonces que X es el nico estimador
insesgado de mnima varianza de (ms generalmente, de mnimo riesgo
para cualquier funcin de prdida convexa).
Ejemplo 4.7 Consideremos de nuevo el caso de una distribucin U (0, 2)
y una m.a.s. X1 , . . . , Xn procedente de ella. Vimos (Ejemplo 3.7, pg. 34)
que X(n) es suficiente para y adems completo (Ejemplo 3.19, pg. 43).
Sea S = X(n) . Entonces,
E [S] =
n+1 2
nsn1
2n
n
s
=
sds
=
.
n
n
(2)
(2) n + 1 0
n+1
54
n
X
n t
(t)
p (1 p)nt .
t
t=0
n t
E [(T )] =
(t)
p (1 p)nt
t
t=0
n
X
1
n
t
.
=
(t)
t
t (1 + ) (1 + )nt
t=0
(4.10)
n
t
1
(t)
t
t (1 + ) (1 + )nt
t=0
n
X
n t
(t)
t
t=0
n
X
n t
(t)
t
t=0
n
X
n t
(t)
t
t=0
(1 + )2
(1 + )n2
n2
n1
n 2 n2
+
+ ...+
0
1
n2
n1
X n 2
t .
(4.11)
t
1
t=1
Igualando trminos de igual orden a ambos lados de (4.11) vemos que debe
verificarse:
n
t(n t)
n2
(t)
(4.12)
=
= (t) =
n(n 1)
t
t1
para t = 1, . . . , n 1 (y (0) = (n) = 0, que ya quedan recogidos en la
expresin general).
55
Ejemplo 4.9 Supongamos que la v.a. X sigue una distribucin de Poisson y que el parmetro que tenemos inters en estimar es = e =
caso. Entonces, (X) es un estimador insesgado de , funcin de un estadstico completo suficiente, y por tanto uniformemente de mnima varianza, de
acuerdo con el Teorema 4.4. Vemoslo.
1. El estadstico X es suficiente; claro, puesto que la totalidad de la muestra es siempre suficiente.
2. El estadstico X es completo en la familia de distribuciones de Poisson
P(). Comprobmoslo. Sea una funcin g(x) tal que E[g(X)] = c.
Ello significara que:
X
j=0
g(j)
e j
j!
X
j=0
[g(j) c]
e j
=0
j!
y por tanto:
[g(j) c] = 0
j entero
g(j) = c
j entero
E[(X)]
=
e 0
+ 0 Prob {X > 0}
0!
luego (X)
es insesgado.
Este ejemplo o similares han sido objeto de debate en la literatura. El estimador slo puede proporcionar dos estimaciones: 0 1. Ello es particularmente
molesto cuando = e no puede alcanzar ninguno de ambos extremos:
0 < < 1 si 0 < < . Junto con los ejemplos 4.2 y 4.4, ste muestra que
en algunos casos (en general, bastante anmalos) la eleccin de un estimador
insesgado, incluso de mnima varianza, puede no ser una buena idea.
56
(X)
=
0 en otro caso.
es efectivamente insesgado. Entonces, de acuerdo con el Teorema 4.3 tenemos5 que:
(S) = E[(X)|S]
=
1
n
S
(4.13)
4.4. El jackknife
En ocasiones puede ser difcil encontrar un estimador insesgado de partida y
aplicar el procedimiento de Rao-Blackwell para obtener el estimador insesgado de
varianza mnima. Quenouille (1956) propuso un procedimiento para, partiendo de
un estimador sesgado, obtener otro insesgado o con sesgo muy reducido respecto
al estimador inicial. Es la tcnica conocida como jackknifing.
Supongamos que el estimador n , basado en una muestra de tamao n, tiene
un sesgo de orden O(n1 ) como es lo habitual. Supongamos que
E[n ] = +
X
ai
ni
i=1
= n + (n 1)(n n1 )
= nn (n 1) n1
(4.14)
(4.15)
5
Condicionalmente sobre S, la distribucin de X es multinomial (vase Ejemplo 3.8, pg. 36), y
por tanto la distribucin de X1 condicionado por S es binomial de parmetros n1 , s.
4.4. EL JACKKNIFE
57
X
X
ai
ai
E[nJ ] = n( +
)
(n
1)
+
i
n
(n 1)i
i=1
i=1
a2
+ O(n3 ).
n(n 1)
(4.16)
(4.17)
Por consiguiente, el sesgo original que era O(n1 ) ha quedado reducido a O(n2 ).
Ejemplo 4.11 (estimacin de 2 en una distribucin binaria b()) Si
disponemos de una muestra de n observaciones, sabemos que X = X1 +
. . . + Xn (o, alternativamente, n = X = X/n) son estadsticos suficientes
para . Es claro no obstante que, si bien n es insesgado para , = n2 =
2
X es sesgado para = 2 (consecuencia inmediata de la desigualdad de
Jensen). Veamos cul es este sesgo y cmo eliminarlo o reducirlo haciendo
uso del jackknife. Dado que
2
E[X ] =
2 (1 )
Var(X) + E(X) =
+ 2
n
(4.18)
n1
n1,i =
2
x
nx
con probabilidad
;
n1
n
por consiguiente, el clculo del n1 puede hacerse directamente sin necesidad de recomputar n veces el estimador y promediar los resultados:
2
2
x x1
nx
x
n1 =
+
n n1
n
n1
2
(n 2)x + x
=
n(n 1)2
El estimador jackknife es por tanto:
nJ
=
=
=
n
n (n 1) n1
x 2
(n 2)x2 + x
n
(n 1)
n
n(n 1)2
x(x 1)
n(n 1)
(4.19)
(4.20)
(4.21)
58
4.2 Se cuenta con dos observaciones independientes X1 y X2 procedentes de una distribucin con densidad
fX (x; )
ex .
n
i=1 Xi ; iii) = (n + 1)
i=1 Xi ; iv) = nX(1) ; v) = X1 ; vi)
= X(n) , son: a) Insesgados, b) Funcin de estadsticos suficientes y c) De
mnima varianza insesgados.
Captulo 5
Eficiencia. La cota de
Cramr-Rao.
5.1. Introduccin
La teora que precede, y en particular el Teorema 4.5, muestran el modo de
establecer optimalidad de un estimador insesgado.
En lo que sigue, probaremos un resultado de menor alcance: bajo ciertas condiciones de regularidad, si es un estimador de se verifica
H(),
Var ()
(5.1)
en que H() es una funcin que podemos obtener fcilmente. Entonces, si para un
estimador insesgado de tuviramos
= H(),
Var ()
(5.2)
(5.3)
60
fX (x; )dx.
(5.4)
fX (x; )dx =
Entonces,
E0
log fX (X; )
= 0.
=0
D EMOSTRACION :
En efecto, observemos que
log fX (x; )
Por consiguiente,
log fX (X; )
E0
=0
=
=
=
=
=
f (x; )
X
.
fX (x; )
log fX (x; )
dx
Z
f (x; )
X
fX (x; )
dx
fX (x; )
Z
fX (x; )dx
fX (x; )dx
0.
fX (x; )
(5.5)
61
y
log fX (X; )
n
X
i=1
(Xi ).
"
n
X
i=1
(Xi )
= n n = 0.
Obsrvese que ello es cierto slo si coinciden los valores del parmetro que
se sustrae de cada Xi y el valor del parmetro para el cul se toma el valor
medio.
log fX (X; )
=0
Var
log fX (X; )
log fX (X; ) 2
2
log fX (X; )
= E
.
2
= E
(5.6)
(5.7)
D EMOSTRACION :
1
Que permitan intercambiar el orden de las operaciones de derivacin e integracin en los casos en que esto se hace en la demostracin. Las condiciones de regularidad tambin incluyen que
el recorrido de la distribucin no dependa del parmetro (como sucedera, por ejemplo, en una
U (0, )).
62
Se tiene que:
0 =
=
=
=
=
=
(0)
(5.8)
log fX (X; )
E
(5.9)
Z
log fX (x; )
fX (x; ) dx
(5.10)
Z
2 log fX (x; ) log fX (x; ) fX (x; )
fX (x; )
+
dx
(5.11)
2
Z
2
log fX (x; ) 2
log fX (X; )
fX (x; )dx (5.12)
+
E
2
2
log fX (X; )
log fX (X; ) 2
E
+ E
.
(5.13)
Se ha hecho uso de
fX (x; )
1
log fX (x; )
=
fX (x; )
para pasar de (5.10) a (5.11). Del hecho de ser (5.13) igual a cero, se deduce
E
log fX (X; )
2
= E
2 log fX (X; )
.
2
2
Observacin 5.2 El nombre de informacin dado a IX () encuentra
en parte su justificacin en el papel que IX () juega en la desigualdad de
Cramr-Frechet-Rao (Teorema 5.1, pg. 64). Una justificacin alternativa,
que puede tener cierto atractivo intuitivo, sera la siguiente.
63
(5.14)
Si suponemos fX (x, ) suficientemente derivable respecto a y la sustituimos por su desarrollo en serie de Taylor hasta trminos de segundo orden,
(5.14) se convierte en:
"
log fX (X, )
d
(0 , ) E0 log fX (X, 0 ) log fX (x, 0 )
=0
#
1 2 log fX (X, )
2
(d)
2
2
=0
2
1 log fX (X, )
(d)2
= E0
2
2
1
IX (0 )(d)2
=
2
Ello muestra IX () como el coeficiente de (d)2 en la medida aproximada
de la distancia entre las dos distribuciones. Cuando IX () es grande, una alteracin de d en el valor del parmetro da lugar a dos distribuciones muy
separadas, y cada observacin es muy informativa. El caso extremo contrario se presentara cuando IX () fuera cero. Entonces, ambas distribuciones
seran (hasta trminos de segundo orden) iguales, y las observaciones de X
sera nulamente informativas (si los dos valores del parmetro, y , dan lugar a distribuciones idnticas, el observar los valores que toma X no permite
discriminar entre una y otra).
El argumento esbozado no depende de manera crtica de la medida de
discrepancia (, ) escogida; se llegara al mismo resultado con otras muchas. Vase al respecto Rao (1965), pg. 271.
(5.15)
64
y por consiguiente:
n
(5.16)
i=1
i=1
n
n X
X
log fX (Xj , )
log fX (Xi , )
E
E
+2
i=1 j=i+1
= nIX ()
log fX (Xj , )
habida cuenta de que E
= 0 (Lema 5.1, pg. 60).
Con ayuda de los lemas anteriores podemos ahora fcilmente probar el siguiente teorema.
Teorema 5.1
h iSea = (X) un estimador del parmetro y () su valor medio,
() = E . Entonces, bajo condiciones de regularidad,
Var ()
[ ()]2
log fX (x; )
2
D EMOSTRACION :
() =
=
=
=
=
=
h
i
E (X)
Z
(x)f
X (x; )dx
(x)
fX (x; )dx
Z
log fX (x; ) fX (x; )dx
(x)
log fX (X; )
E (X)
log fX (X; )
E ((X) ())
(5.17)
65
()
=
E ((X)
())
i log f (X; ) 2
h
X
E ((X)
())2 E
2
E log fX (X; )
= Var ()
(5.18)
(5.19)
(5.20)
1
nIX ()
(5.21)
Observacin 5.5 Por analoga con la definicin de informacin de Fisher sobre contenida en X, podemos definir informacin de Fisher sobre
contenida en as:
"
#2
)
log f(;
I() = E
ra, que, junto con , permiten recuperar X; vase Cramr (1960), pg. 548 y
siguientes). Entonces:
(, )
)f (;
)
fX (x; ) = f|(|;
x
y se tiene que:
) log f (;
)
log f|(|;
log fX (X; )
=
+
66
IX ()
"
)
log f|(|;
#2
"
)
log f(;
+ E
E
"
#
) log f (;
)
log f|(|;
+2E
"
#2
)
log f|(|;
E
+ I()
#2
(5.22)
ya que:
E
"
#
) log f (;
)
log f|(|;
!#
"
) log f (;
)
log f|(|;
= E E|
"
!#!
)
)
log f|(|;
log f(;
E|
= E
y el trmino en el corchete es cero (Lema 5.1, pg. 60). De (5.22) se desprende que I() IX (), y que para que se verifique la igualdad es necesario
que:
!
) 2
log f|(|;
=0
(5.23)
E
1
1
=
I()
IX ()
(5.24)
1
.
I()
(5.25)
El Problema 5.2 proporciona una condicin necesaria y suficiente (bajo condiciones de regularidad) para que ello ocurra.
5.4. EFICIENCIA
67
Examinemos a continuacin casos simples en que la cota de Cramr-Rao permite concluir que estamos ante estimadores insesgados de mnima varianza entre
los que verifican condiciones de regularidad.
Ejemplo 5.2 Consideremos X N (, 2 = 1). Vimos en el Ejem-
log fX (X; )
n
X
i=1
(Xi ).
= E
log fX (X; )
2
= E
" n
X
i=1
#2
(Xi )
= n 2 = n.
2
log PX (X; )
E
= 1 + 1 X
= E X1 1
= E
= 1 .
2
2
1
= .
1
n
n
5.4. Eficiencia
En relacin con la Observacin 5.4, tenemos la siguiente definicin.
Definicin 5.2 Se llama eficiencia (o, a veces, eficiencia de Bahadur) de un estimador insesgado al cociente
1/IX ()
Var()
68
( log )x
x!
=
=
=
1
( log )
+X
( log )
(1/)
1
+X
log
1 log + X
log
5.4. EFICIENCIA
69
Por tanto:
IX ()
=
=
=
log PX (X; )
2
X
1
E
2
1
E(X )2
2 2
1
2
= E
2
e2
2
=
1
1
Fcilmente se comprueba que e (1 e ) > e2 (viendo que las funciones a ambos lados de la desigualdad toman el valor 0 cuando = 0 y
que la derivada del lado izquierdo es mayor que la del lado derecho). La cota
de Cramr-Rao no es por tanto alcanzable en este caso por ningn estimador
insesgado.
n+1
X(n) ,
2n
n2
n
X
i=1
Var(Xi ) = n2
n
X
(2 0)2
i=1
12
2
.
3n
70
=
E
d = (n + 1)2 (n + 2)1 2 ;
2n
(2)n
0
Var()
= (n + 1)2 (n + 2)1 2 2 =
2
.
n(n + 2)
3
n1 (n + 2)1 2
=
.
1
2
(3n)
n+2
Ejemplo 5.6 (cuando fallan las condiciones de regularidad, la varianza de un estimador puede descender por debajo de la cota de Cramr-Rao)
En el Ejercicio 5.5 se ha calculado la varianza del estimador insesgado de
mnima varianza. Podemos ahora comprobar que dicha varianza es inferior a
la cota que resultara de una aplicacin mecnica (e incorrecta) de la cota de
Cramr-Rao.
En efecto:
(2)1 si 2 > X(n) ,
fX (X; ) =
0
en otro caso,
log fX (X, )
1/ si 2 > X(n) ,
=
0
en otro caso.
0
Por consiguiente, la cota de Cramr-Rao dara
Var()
1
2
=
,
n2
n
mientras que en el Ejemplo 5.5 hemos comprobado que el estimador insesgado ptimo tiene varianza 2 n1 (n + 2)1 .
La razn por la que la desigualdad de Cramr-Rao no es de aplicacin
aqu, es que fallan las condiciones de regularidad. En efecto,
Z
fX (x, )dx = 0,
mientras que
Z
fX (x, )dx
1
dx =
1
dx 6= 0.
2
5.4. EFICIENCIA
71
[E(XY )]
E[X 2 ]E[Y 2 ]
log fX (x; )
.
5.3 Completando el problema anterior, verifquese que bajo condiciones de regularidad, un estimador insesgado alcanza la cota de Cramr-Rao si,
y slo si,
( ) = IX ()1
log fX (x; )
.
72
Captulo 6
Mxima verosimilitud
4 bolas blancas
96 bolas negras
50 bolas blancas
50 bolas negras
99 bolas blancas
1 bolas negras
74
Examinemos algunas cuestiones de inters, y tratemos de racionalizar el comportamiento que parece tan intuitivamente correcto. En primer lugar, podemos pensar en las urnas como estados de la Naturaleza que generan observables. Ello nos
devuelve al marco de la teora esbozada en captulos anteriores.
Si las bolas sacadas hubieran sido cinco, y las cinco blancas, ello hara de inmediato descartable la urna U4 . No podemos considerar un estado de la Naturaleza
como plausible si es incapaz de generar la evidencia que hemos observado. Observemos que la lgica mximo verosmil va un paso ms all, y permite manejar
casos en que la conclusin no puede alcanzarse con absoluta certeza. No es imposible que la urna U4 genere cuatro bolas blancas en un muestreo, pero si muy
raro; y por lo tanto adoptamos como estado de la Naturaleza otro (en el ejemplo
propuesto, U99 ) que genera la evidencia observada con mayor facilidad. Podemos
pues ver la lgica mximo verosmil como una extensin de la lgica ordinaria que
nos obliga a excluir hiptesis o explicaciones que no dan cuenta de lo observado.
Observemos tambin que, en un sentido vago e impreciso, que ser perfilado
en el Captulo 9, la lgica mximo verosmil conduce a escoger el estado de la
Naturaleza o hiptesis explicativa menos compleja. El razonamiento subyacente
al enfrentarnos al ejemplo de las tres urnas es: Por qu habramos de aceptar
que la urna generadora de las cuatro bolas blancas es U4 que slo rarsimamente
genera cuatro bolas blancas cuando la urna U99 genera el mismo observable con
gran frecuencia? Por qu admitir que ha ocurrido algo muy raro cuando hay una
explicacin alternativa que lo hace frecuente?
En otras palabras, lo que hacemos es escalafonar los posibles estados de la Naturaleza, considerando ms complejos (y por ello menos deseables) a aqullos
que ms raramente generan evidencia como la observada. Veremos (en el Captulo 9) que esta intuicin se puede precisar considerablemente en una nocin de
complejidad.
En parte por su atrayente contenido intuitivo y en parte por las buenas propiedades asintticas de que disfruta, el mtodo de estimacin mximo verosmil alcanz
enseguida una enorme popularidad. En lo que sigue se examinan las propiedades
asintticas del estimador, destacando que las mismas no siempre se trasladan a
pequeas muestras, donde el estimador MV puede ser marcadamente ineficiente.
(xi )2
fX (x; ) =
exp 2
20 i=1
0 2
75
(6.1)
12(1 )1712
0.0
0.2
0.4
0.6
0.8
1.0
Ejemplo 6.2 Sea una muestra aleatoria simple (X1 , . . . , Xn ) procedente de una distribucin binaria de parmetro . Sea s = x1 + . . . + xn . La
funcin de cuanta conjunta es:
n s
PX (x; ) =
(1 )ns
(6.2)
s
Como funcin de , su forma es la que muestra la Figura 6.1. El mximo se
alcanza sobre s/n (que en el caso representado en la Figura 6.1 es 12/17).
76
Puede ocurrir que MV no est unvocamente definido. Cuando necesitemos enfatizar la dependencia de MV del tamao muestral escribiremos MV,n .
Se sigue inmediatamente de la Definicin 6.1 que si MV es el estimador mximo verosmil de y g(.) es cualquier funcin 1-1 de , entonces g(MV ) es el
estimador mximo verosmil de g() (Ejercicio 6.3).
Observacin 6.1 Es de inters comprobar que, como cabe esperar de
cualquier estimador sensato, si hay un estadstico suficiente S = S(X)
para y MV es nico, entonces MV = (S). En efecto, como consecuencia
del teorema de factorizacin (Teorema 3.3, pg. 37),
fX (x; ) = gS (s, )h(x)
Como funcin de , dada x, fX (x; ) tiene un perfil idntico al de gS (s, );
h(x) es un mero factor de escala. Por tanto, fX (x; ) alcanza su mximo
dondequiera que gS (s, ) alcance el suyo. Este ltimo depende de x slo a
travs de s, y por tanto, MV ha de ser funcin de s solamente. Si MV no es
nico, cabra imaginar un estimador mximo verosmil que no dependera de
la muestra slo a travs de s: vase Romano y Siegel (1986), Ejemplo 8.13,
o Levy (1985).
Observacin 6.2 Relacionada con la anterior observacin est la siguiente: si hay un estadstico suficiente y el estimador mximo verosmil es
nico, entonces ste no puede ser mejorado con ayuda del mtodo de RaoBlackwell. En efecto: de acuerdo con la observacin precedente, el estimador MV en este caso sera una funcin unvoca del estadstico suficiente, y
el condicionar sobre el valor que toma ste nos dara de nuevo el estimador
MV.
Observacin 6.3 En ocasiones se dice que el estimador mximo verosmil extrae cuanta informacin hay en la muestra, lo que sugiere una
especie de suficiencia automtica. Esto es frecuentemente, pero no necesariamente, cierto. Es cierto cuando el estimador MV es funcin 1 1 de un
estadstico suficiente (en cuyo caso es suficiente; vase Seccin 3.2). Pero
ste no tiene porqu ser necesariamente el caso. Consideremos de nuevo el
ejemplo propuesto en la Observacin 3.2, pg. 41. La verosimilitud era
N
d
X
X
fT ,U (t, u) = d exp
ti +
uj .
i=1
j=d+1
i=1 ti
d
PN
j=d+1
uj
c.s.
Teorema 6.1 En las condiciones bajo las que se verifica el Lema anterior, MV 0 .
D EMOSTRACION :
Como
fX (X; )
E0 log
=c<0
fX (X; 0 )
segn el Lema anterior, en virtud de la ley fuerte de grandes nmeros (A.3) tenemos
que para todo 6= 0 ,
n
1X
fX (Xi ; ) c.s.
c < 0
log
n
fX (Xi ; 0 )
i=1
(
)
n
X
fX (Xi ; )
1
log
Prob lm
<0
= 1
n n
fX (Xi ; 0 )
i=1
(
)
n
n
1X
1X
Prob lm
log fX (Xi ; ) < lm
log fX (Xi ; 0 )
= 1
n n
n n
i=1
i=1
78
1X
log fX (Xi , MV,n )
n n
lm
i=1
1X
log fX (Xi ; 0 )
n n
lm
i=1
c.s.
Las dos desigualdades anteriores slo pueden reconciliarse si MV,n 0 , lo que
prueba la consistencia fuerte del estimador MV.
PX (x, 0 ) log
PX (x, 1 )
PX (x, 0 )
(6.6)
79
Observacin 6.4 La informacin de Kullback-Leibler esta relacionada con la de Fisher, que puede verse como una aproximacin de segundo
orden: vase la Observacin 5.2, pg. 62.
Observacin 6.5 La expresin (6.5) toma valor no negativo (mismo
argumento que el empleado en el Lema 6.1) y puede verse por ello como
una medida de separacin o distancia. No es sin embargo simtrica en sus
argumentos, a diferencia de una distancia.
Es interesante ver el problema de estimacin mximo verosmil como un problema
de seleccin de una distribucin en una familia paramtrica, {FX (x; ), }.
Razonemos sobre el caso en que X es una variable aleatoria discreta.
La muestra (x1 , . . . , xn ) puede verse como generando una distribucin emprica FX (x), que atribuye probabilidad 1/n a cada uno de los valores muestrales
observados ( k/n a aqullos que se han repetido k veces). Es decir,
FX (x) =
(Total observaciones x)
.
n
n
X
i=1
PX (xi ) log
PX (xi ; )
PX (xi )
n
X
PX (xi ) log
i=1
PX (xi )
PX (xi ; )
n
X
1/n
1
log
=
n
PX (xi ; )
i=1
i=1
i=1
1X
1
1X
log
log PX (xi ; )
n
n n
1
nIX ()
(6.7)
80
en que designa convergencia en distribucin (Definicin A.1, p. 144), la varianza de la distribucin asinttica verificase:
v()
1
IX ()
(6.8)
Entonces, es evidente que Xn X, siendo X una variable N (0, 1), la media asinttica es 0 y la varianza asinttica 1. Sin embargo:
1
1
+n =1
E[Xn ] = 0 1
n
n
1
1
2
2
21
2
Var(Xn ) = E[Xn ] (E[Xn ]) = 1
1+n
1 = n
n
n
n
Mientras que la media y varianza de la distribucin asinttica son respectivamente 0 y 1, los lmites de la sucesin de medias y varianzas son:
lm E[Xn ] =
lm Var(Xn ) =
(6.9)
n =
bX si |X| < n1/4 .
Entonces encontramos la siguiente situacin: n se distribuye asintticamente como N (, 2 = n1 ), salvo si = 0. En este ltimo caso, la distribucin
asinttica es N (0, b2 /n), lo que mejora la varianza de X si b2 < 1. Tenemos
un estimador de tan bueno como X que sabemos insesgado de mnima
varianza, y alcanzando la cota de Cramr-Rao pero asintticamente mejor
para
algunos valores del parmetro! En este caso, para = 0. En efecto:
n[n 0] converge en distribucin a una variable aleatoria Z tal que:
Var(Z) = b2 < 1 =
1
I()
82
(6.10)
D EMOSTRACION :
Designemos, para aligerar la notacin,
Uj () =
Desarrollando
Pn
n
X
j=1 Uj (MV ,n )
Uj (MV ,n ) =
log fX (Xj , )
en torno a 0 , obtenemos:
n
X
Uj (0 ) +
1
2
n
X
j=1
j=1
j=1
(6.11)
n
X
j=1
Uj (0 )(MV ,n 0 )
MV ,n 0 )2
Uj ()(
(6.12)
Uj (0 ) =
n
X
j=1
1 X
Uj ()(MV ,n 0 )2
Uj (0 )(MV ,n 0 )
2
j=1
Sabemos (Lema 5.1, pg. 60) que E0 [Uj (0 )] = 0. Por otra parte,
E0 [Uj (0 )] = E0 [Uj (0 )]2 = I(0 )
(6.13)
(MV,n 0 )
(6.14)
2 nI(0 )
Los Lemas invocados y el teorema central del lmite muestran que el lado izquierdo
de (6.14) converge en distribucin a una N (0, 1), y el primer trmino del corchete
converge en probabilidad a 1 (ley dbil de los grandes nmeros, Teorema A.2).
p
tiene valor medio finito (condicin 6 del enunciado) y MV,n
Como Uj ()
0 , el
segundo trmino del corchete converge en probabilidad a cero. En consecuencia,
reescribiendo (6.14) as:
" P
Pn
p
Uj (0 ) nj=1 Uj (0 )
j=1
p
nI(0 )(MV ,n 0 ) =
nI(0 )
nI(0 )
#1
Pn
1 j=1 Uj ()
(MV ,n 0 )
2 nI(0 )
p
vemos que nI(0 )(MV,n 0 ) es el producto de una sucesin aleatoria que
converge en probabilidad a 1 y una sucesin aleatoria que converge en distribucin
a una N (0, 1). El Teorema A.1 permite entonces asegurar
p
L
nI(0 )(MV ,n 0 ) N (0, 1)
L
n(g(MV g(0 )) N (0, I(0 )1 [g (0 )]2 ).
La demostracin es muy simple y se bosqueja a continuacin. Desarrollando
en serie g(MV ) hasta trminos de primer orden,
g(MV ) = g(0 ) + (MV 0 ) [g (0 ) + Rn ] ,
p
p
en que Rn es el trmino complementario. Pero Rn 0 cuando MV 0 . Por
consiguiente, siempre en uso del Teorema A.1, tenemos:
L
n(g(MV ) g(0 )) g (0 ) n(MV 0 )
84
y por tanto
L
n(g(MV ) g(0 )) g (0 )N (0, I(0 )1 )
equivalente a la tesis.
n
X
2(xi )(1)
(6.15)
1 + (xi )2
Q
) j6=i 1 + (xj )2
Qn
(6.16)
2
j=1 [1 + (xj ) ]
i=1
Pn
i=1 (xi
(6.17)
85
de la que tenemos una nica observacin. Si quisiramos estimadores mximo verosmiles de y 2 , habramos de maximizar:
(x )2
1
log fX (x; , 2 ) = log(2 2 )
2
2 2
Esta funcin no est acotada: tiende a cuando 2 0.
El caso anterior es irrelevante a efectos prcticos, dado que nunca nos propondramos estimar los dos parmetros de una distribucin normal con una sla
observacin. Sin embargo, el siguiente ejemplo muestra que situaciones similares
son plausibles en la prctica.
Ejemplo 6.6 (funcin de verosimilitud no acotada) Supongamos una
situacin en que la variable aleatoria aleatoria X sigue habitualmente una
distribucin N (, 1). Sin embargo, con probabilidad p, X puede proceder de
una distribucin N (, 2 ), con varianza desconocida. La descripcin anterior podra convenir, por ejemplo, a un fenmeno en que la variable X est
sujeta espordicamente a cambios de rgimen, dando lugar a outliers, u observaciones anmalas. La funcin de verosimilitud sera:
n
Y
(xi )2
(xi )2
1
p
exp
+
(1
p)
exp
fX (x; , 2 ) =
2 2
2
2
i=1
Observemos que dicho producto involucra trminos que no estn acotados.
En efecto, consideremos un trmino tal como
n
p
(xj )2
(xi )2 Y
(1
p)
exp
;
exp
2 2
2
j=1
j6=i
es fcil ver que para = xi la expresin anterior crece sin lmite cuando 0. Por tanto, incluso aunque tengamos muchas observaciones y la
probabilidad p sea muy pequea, el problema de inexistencia de un mximo global para la funcin de verosimilitud puede presentarse. Vase Cox y
Hinkley (1974), pg. 291.
En ocasiones, el estimador mximo verosmil existe, pero con pequeas muestras puede ser de muy pobres resultados. El siguiente ejemplo, algo artificial si se
quiere, lo muestra de un modo bastante espectacular.
Ejemplo 6.7 (un estimador mximo verosmil inadmisible) Consideremos una variable aleatoria X binaria de parmetro . Sabemos que
( 13 , 32 ), y hemos de estimar dicho parmetro con ayuda de una nica observacin. La verosimilitud tendra por expresin:
fX (x, ) = x (1 )(1x)
(x = 0, 1)
86
+ (1 )
=
(6.18)
E[MV ,n ] =
3
3
9
Consideremos ahora un estimador que ignora el valor tomado por X y atribuye siempre a el valor 21 . Su error cuadrtico medio sera:
1
E
2
2
+ (1 )
2
42 4 + 1
(6.19)
4
El estimador mximo verosmil es frecuentemente sesgado en pequeas muestras, aunque asintticamente insesgado bajo las condiciones de regularidad que
otorgan vigencia al Teorema 6.2.
Ejemplo 6.9 Consideremos el problema de estimar en una distribucin uniforme, U (0, ), con ayuda de una muestra de tamao n. El estadstico
suficiente y estimador mximo verosmil de es X(n) , mayor de las observaciones (vase el Ejemplo 3.7, pg. 3.7). Es evidente que X(n) y como
estimador de es por tanto sesgado por defecto.
De nuevo este es un ejemplo algo acadmico; pero en la prctica pueden
encontrarse multitud de otros. As, el estimadorP
mximo verosmil de la van
rianza en una distribucin normal es s2 = n1 i=1 (xi x)2 . Como en el
caso anterior, el sesgo tiende a cero cuando n .
Quiz la objecin ms seria que puede plantearse al uso del estimador mximo
verosmil es que obliga a especificar, salvo en los parmetros que se estiman, la
forma de las distribuciones: es un requisito previo el fijar la familia de distribuciones que estamos dispuestos a considerar. Esto puede originar estimadores con
propiedades no imaginadas. Por ejemplo, el suponer que la distribucin originando X es N (, 1) nos llevara a adoptar X como estimador de . Si la distribucin
87
1
Una vehemente opinin contraria al uso de mxima verosimilitud, enrgicamente contestada,
puede verse en Berkson (1980). Es tambin interesante Rao (1962).
88
Captulo 7
7.1. Introduccin.
Como el Ejemplo 6.5 pona de manifiesto, la obtencin del estimador mximo
verosmil puede no ser fcil. Incluso en el caso en que se tiene la certeza de que
la verosimilitud tiene un nico mximo relativo y es bien comportada, la solucin
analtica de la ecuacin de verosimilitud
L () =
n
X
Uj () = 0
j=1
n
k
X
X
(7.1)
L(, x) =
j bj (xi ) + c() + d(xi )
i=1
j=1
n
X
b1 (x1 ), . . . ,
n
X
bk (x1
i=1
i=1
= Tj +
nc()
=0
j
(7.2)
(7.3)
91
n =
n
X
xi
(7.4)
i=1
E [T2 ] =
n + n =
n
X
xi xi ;
(7.5)
i=1
Pn
la primera ecuacin inmediatamente proporciona
MV = n1 i=1 xi =
P
= n1 n xi xi
MV
MV .
x, que sustituido en la segunda proporciona
i=1
(7.6)
de donde:
(1)
L ((1) )
L ((1) )
(7.7)
(n)
L ((n) )
L ((n) )
(7.8)
(7.9)
(7.10)
7.3.2. Propiedades
Con el mtodo de Newton-Raphson la convergencia no est garantizada. No
obstante, si la verosimilitud es bien comportada, es un mtodo eficaz y conduce en
un nmero habitualmente pequeo de iteraciones a una raz de la ecuacin L () =
0.
Definicin 7.1 Sea una ecuacin g(x) = 0 cuya solucin x buscamos. Sea xn
la aproximacin obtenida mediante un mtodo iterativo en la iteracin n-sima y
en = xn x el error de aproximacin. Se dice que un mtodo de solucin de es
de convergencia cuadrtica cuando en (en1 )2 .
Convergencia cuadrtica. El mtodo de Newton-Raphson para aproximar una
raz de g(x) = 0, cuando converge, goza de convergencia cuadrtica. En efecto,
supongamos una aproximacin xn lo suficientemente cercana a x . Consideremos
f (x) = x g(x)/g (x). Entonces,
en = xn x = xn f (x )
= f (xn1 ) f (x )
(7.11)
(7.12)
93
(g (x ))2 g(x )g (x )
+
= 0,
(g (x ))2
(g (x ))2
(7.14)
1
f (z)(xn1 x )2 ,
2
(7.15)
Para lo suficientemente pequeo, el signo del lado derecho viene dado por el del
primer sumando. Si A es simtrica definida positiva, entonces el signo es positivo
se incrementa al pasar de n a
y L()
n+1 = n + n .
Si con A definida como se ha indicado la forma cuadrtica en la derecha de
(7.15) no fuera definida positiva, podramos definir: = AL(n ) con cualquier
A simtrica definida positiva, y el argumento anterior proporcionara un algoritmo
monnotamente creciente en L(). Hay muchas posibles elecciones: con A igual a
la matriz unidad, tenemos un algoritmo gradiente convencional. Si hacemos
h
i
A = E 2 L(n )
tenemos el algoritmo de scoring descrito en la seccin que sigue. Otras elecciones
y variantes son posibles: puede verse una discusin ms completa en Lange (1998).
2
7.5.1. Notacin
Consideraremos, por simplicidad notacional, el caso de un nico parmetro ;
el caso multivariante no aade nada esencial. Denotaremos por fX (x; ) la verosimilitud de la muestra completa, si fuera observada: x es un vector o una matriz, no
todas cuyas componentes son observadas. Observamos slo y, y hay una relacin
x = X (y) que a cada y hace corresponder muchos posibles x (dicho de otro modo:
la sla observacin de y no permite obtener de manera unvoca x).
Como parte de x es no observada, tendr sentido escribir valores medios como
def
Q(| ) = E log fX (x; )| , y
(7.16)
Z
log fX (x; )fX|Y (x|y; )dx
(7.17)
=
X (y)
def
H(| ) =
=
E log fX|Y (x|y; )| , y
Z
log fX|Y (x|y; )fX|Y (x|y; )dx
(7.18)
(7.19)
X (y)
Denominemos,
def
L() =
log fY (y; ).
(7.20)
Como
log fX|Y (x|y; ) = log fX (x; ) log fY (y; ),
(7.21)
(7.22)
95
7.5.2. La iteracin EM
Si observramos todo x, el problema de estimacin mximo verosmil de se
reducira a maximizar una funcin. Como parte de x es inobservable, no podemos
acometer directamente la maximizacin de log fX (x; ). Una posibilidad sera sustituir la funcin desconocida por su valor esperado dada la parte de muestra que s
conocemos y bajo el supuesto de que = ; es decir, reemplazar log fX (x; ) por
Q(| ) y maximizar esta ltima. 3
Observemos que para tomar el valor medio necesitamos el valor del parmetro
(y si lo conociramos, el problema de estimacin mximo verosmil ya no tendra
objeto). Una posibilidad sera;
1. (Paso E) Calcular Q(| ) para un valor , la mejor aproximacin de que
tengamos.
2. (Paso M) Maximizar Q(| ) respecto de .
3. Iterar los pasos anteriores hasta convergencia, si se produce.
La idea es que al ejecutar por primera vez el paso E (de valor Esperado, porque en
dicho paso tomamos un valor medio) obtendremos una funcin no muy similar a
la que querramos maximizar. Por ello, el paso M (de Maximizar) no dar el mximo de la funcin que realmente desearamos maximizar, sino el de una diferente.
Pero este mximo suministra una nueva estimacin de diferente de la inicial,
presumiblemente mejor, que nos permite reiniciar el proceso.
La idea anterior constituye el ncleo del algoritmo EM, cuya iteracin bsica
describimos ms formalmente como Algoritmo 1.
Algorithm 1 Algoritmo EM
1:
2:
3:
4:
5:
6:
7:
8:
9:
3
Ntese que para calcular el valor esperado de log fX (x; ) necesitamos un punto de partida, es
decir, un valor inicial de ; el algoritmo EM suministra una pauta para refinar este valor inicial
hasta llegar al estimador mximo verosmil.
Q(| (i1) )
= 0,
= (i)
entonces
L()
= 0.
=
L(
(i1)
) = Q(
(i1)
(i1)
) H(
(i1)
(i1)
(7.23)
).
(7.24)
97
y por consiguiente
>
r
X
(L( (p+j) L( p+j1)))
j=1
r
X
j=1
r
X
j=1
( (p+j) (p+j1))2
( (p+r) (p) )2 .
Ello muestra que (p) verifica tambin una condicin de Cauchy y en consecuencia
converge a algn .
Establecido que (i) converge, resta por ver que el lmite, si es un punto estacionario de Q(|), lo es tambin de la funcin de verosimilitud.
Puede verse H((i) |(i1) ) H((i1) |(i1) ) como la distancia de Kullback-Leibler (vase
(6.5), pg. 78) entre dos distribuciones de parmetros respectivos (i) y (i1) . Esta distancia se
minimiza cuando (i) = (i1) .
4
= (i)
"
H(| (i1) )
.(7.26)
= (i)
n h
Y
eb(xi )+c()+d(xi )
i=1
n
X
i=1
b(xi ) + nc() +
n
X
d(xi )
i=1
(7.27)
(7.28)
(7.29)
99
1
21
2
9
8
n,1 n,2
3
20 n1. = 50
7 n2. = 15
n,3
n,1
(1)
n,2
= 21 + 8
(0)
1
26,6
(0)
(0)
+
1
(1)
n,3
(0)
= 27.
En esencia, hemos repartido las 8 observaciones cuya adscripcin no consta entre las clases primera y segunda sobre la base de la mejor informacin
disponible acerca de . Con los valores esperados (de n,1 y n,2 ) u observados
(de n,3 ) de los estadsticos suficientes podemos ahora obtener una estimacin
11,4 27
refinada del vector de parmetros, (1) = ( 26,6
65 , 65 , 65 ), con la que recalcular los valores medios de los estadsticos suficientes que lo precisan, y as
hasta convergencia.
Captulo 8
Contraste de Hiptesis.
8.1. Introduccin.
Examinaremos en lo que sigue el caso en que existen dos posibles estados de
la naturaleza, asociados a sendos conjuntos de valores de un cierto parmetro: as,
un estado corresponde a 0 y otro a a . Un contraste de hiptesis es un
procedimiento estadstico (X) para escoger entre ambos estados (inobservables)
sobre la base de la informacin muestral proporcionada por una variable aleatoria
X con densidad (o cuanta) fX | (x |). El procedimiento (X) puede proporcionar una de dos decisiones: d0 (= el estado es 0 ) y da (= el estado es a ).
Frecuentemente, sta es una eleccin bastante artificial, entre dos alternativas
ninguna de las cuales tiene visos de ser exactamente cierta. Esto es particularmente cierto cuando se contrastan hiptesis que especifican un nico y preciso
valor para algn parmetro (como H0 : = 0 ). Sin embargo, como hace notar
Garthwaite et al. (1995), pg. 2, el contraste de hiptesis
. . .es a menudo un modo conveniente de actuar y subyace a una
parte importante de la investigacin cientfica.
De que esto es as da testimonio el uso continuo e intenso que se hace del contraste de hiptesis en muchas ramas del saber. Que la metodologa habitualmente
utilizada para contrastar hiptesis no siempre se emplea debidamente, es tambin
un hecho. Vase al respecto la crtica enrgica y virulenta que del contraste de
hiptesis se hace en Wang (1993).
Se dice que una clase de distribuciones es simple si contiene una nica distribucin. Es compuesta en caso contrario. Un contraste de hiptesis ser simple si
tanto 0 como a especifican una nica distribucin.
101
102
Si disponemos de una funcin de prdida completamente especificada, emplearemos la teora examinada en captulos anteriores para seleccionar un procedimiento adecuado: procedimiento de Bayes (si disponemos adems de una distribucin
a priori para ), minimax, etc.
Es frecuente, sin embargo, que no haya una funcin de prdida bien especificada. El contraste se efecta entonces de manera convencional minimizando la
probabilidad de error, que puede ser de dos clases: el error de tipo I (o de tipo )
consiste en seleccionar da cuando 0 , mientras que el error de tipo II (o de tipo
) consiste en seleccionar d0 cuando a . Denominamos nivel de significacin
de un contraste (a veces tambin llamado tamao del contraste) al supremo de la
probabilidad de error de tipo I:
def
def
1 ()
def
1 Prob {(X) = d0 ; a }
0
0.60
0.10
1
0.26
0.15
2
0.05
0.10
3
0.04
0.25
4
0.04
0.30
5
0.01
0.10
103
1
Prob {X = 3; 0 } = 0,07
2
Para recoger el caso en que nos vemos obligados a realizar contrastes aleatorizados debemos considerar funciones crticas algo ms complejas que la descrita en
(8.1). Un contraste general vendr as especificado por una funcin crtica como:
+
1 si x S ,
def
def
(x)=
(8.2)
si x S = = (S + S )c ,
0 si x S .
104
Teorema 8.1 Sea un problema de decisin consistente en escoger entre dos posibles estados de la naturaleza, 0 y a . Para cualquier [0, 1], existe un contraste
(x) y una constante k > 0 verificando:
(i)
(c0 )
(x) =
(c
) (c0 )
0 0
(8.5)
105
fX (x; a )
E0 [(X)] = Prob
> c0 |0
fX (x; 0 )
fX (x; a )
(c0 )
=
c
|
Prob
+
0 0
fX (x; 0 )
(c
0 ) (c0 )
=
Esto da cuenta de la existencia. Comprobemos ahora (ii). Sea (x) el contraste
definido en (8.5) y (x) cualquier otro, de tamao no mayor que : E0 (X)
. Sean S + , S = , y S las tres regiones del espacio muestral en que se verifican,
respectivamente, cada una de las tres condiciones expresadas en (8.5). Puede verse
que sobre cualquiera de dichas regiones:
Z
((x) (x))(fX (x; a ) c0 fX (x; 0 ))dx 0
(8.6)
En efecto: cuando (fX (x; a ) c0 fX (x; 0 )) > 0, (x) = 1, y por tanto ((x)
(x)) 0; el integrando es por consiguiente no negativo. Cuando (fX (x; a )
c0 fX (x; 0 )) < 0, (x) = 0, ((x) (x)) 0, y el integrando es de nuevo
no negativo. Por consiguiente, la integral (8.6) extendida a todo S es no negativa,
y realizando el producto en el integrando obtenemos:
Z
Z
Por tanto:
106
Pero basta que integremos en C (pues fuera de C el integrando se anula). Por tanto:
Z
Z
= k ( E0 (X))
Observacin 8.1 Los contrastes pueden diferir en {x : fX (x; a ) = kfX (x; 0 )}.
La definicin de cualquiera de ambos contrastes en dicha regin frontera
no afecta a sus respectivas potencias, y es por tanto arbitraria.
Observacin 8.2 La decisin a tomar depende de la muestra slo a travs de fX (x; a )/fX (x; 0 ). No es extrao que esto suceda. Vimos (Ejemplo 3.10) que la razn de verosimilitudes es un estadstico suficiente, y (Seccin 3.6) que los procedimientos de Bayes pueden siempre hacerse depender
de estadsticos suficientes. El empleo del teorema de Neyman-Pearson proporciona pues acceso a todos los procedimientos de Bayes. Como se vio en
la Seccin 1.10, tal clase completada con sus lmites incluye en general la
totalidad de los procedimientos que deseamos considerar (admisibles). La
relacin entre el teorema de Neyman-Pearson y la Teora de la Decisin esbozada en el Captulo 1 resulta adicionalmente clarificada en la Seccin 8.3.
Observacin 8.3 Del contenido de la Seccin anterior se desprende
que la potencia de un contraste vara de acuerdo con la alternativa considerada. De hecho, se ha definido potencia (en (8.1)) como una funcin de . Es
claro pues que, en general, el contraste de tamao ms potente de 0 frente
a 1 no coincidir con el de igual tamao y mxima potencia de 0 frente a 2 .
Hay casos, sin embargo, en que un mismo contraste es el ms potente frente
a una clase compuesta de alternativas a . Se dice que es uniformemente ms
potente (UMP) para dicha clase de alternativas. Volveremos sobre esto en la
Seccin 8.4.
107
Como quiera que el segundo sumando de (8.9) no depende de (x), basta minimizar el primero; y es claro que para ello debemos tomar:
(x) = 1 cuando c0 a fX (x; a ) ca 0 fX (x; 0 ) > 0
<
c0 a
ca 0
(8.10)
108
=
exp
fX (x; 0 )
a
a
0
i=1
o equivalentemente
)
( n
X 0 a
xi
exp
0 a
i=1
n
X
xi
>
>
i=1
a
0
n
loge c n log
0
a
1
a 0
(8.11).
0 a
Pn
Por consiguiente, todo se reduce a calcular el valor del estadstico i=1 xi
y compararlo con la constante,
Pn k, dada por el lado derecho de (8.11). Dicha
k se calcula de modo que i=1 Xi > k bajo HP
0 con la probabilidad que
hayamos prefijado. En el caso que nos ocupa, ni=1 Xi sigue bajo H0 una
distribucin (01 , n), y k resulta de resolver
Z
1
x/0 n1
x
dx = .
ne
(n)
k
0
Por tanto, k no depende de cul sea a (con tal de que a > 0 ) y el contraste
es uniformemente ms potente en la clase indicada.
= g(T (x)),
(8.12)
Se deduce con facilidad de (8.12) que si una familia de distribuciones tiene razn
de verosimilitud montona,
fX | (x |)
c g(T (x)) c T (x) g1 (c).
fX (x; 0 )
Por tanto, el contraste ms potente que proporciona el Teorema de NeymanPearson
es independiente de la alternativa dentro de la familia considerada: es UMP y puede
construirse haciendo uso del estadstico T (x).
Por otra parte, es fcil identificar T (x) en las distribuciones de la familia exponencial cuando existe un contraste UMP. En efecto, sea > 0 ; para cualquier
distribucin en la familia exponencial,
fX | (x |)
fX (x; 0 )
P
P
exp {a() ni=1 b(xi ) + c() + ni=1 d(xi )}
P
P
=
exp {a(0 ) ni=1 b(xi ) + c(0 ) + ni=1 d(xi )}
)
(
n
X
b(xi ) + (c() c(0 )) .
= exp (a() a(0 ))
i=1
sup0 fX | (x |)
sup fX | (x |)
2r .
(8.13)
110
(8.14)
loge fX (Xi , )
,
Ui () =
(8.15)
Tenemos que
h
i
log fX (X; 0 ) .
= 2 loge fX (X; )
e
(8.16)
(0 )
loge fX (X; 0 ) = loge fX (X; ) +
=
1 2 loge fX (X; )
2
(0 )
(8.17)
+
2!
2
=
es decir, | 0 | < | 0 |. Sustituyendo (8.17)
en que es un punto entre 0 y ,
en (8.16) obtenemos
loge fX (X; )
= 2
(0 )
=
2
loge fX (X; )
( 0 )2
(8.18)
2
=
n
n
X
X
( 0 )2
Ui ()
(8.19)
Ui ()
= 2(0 )
i=1
i=1
=
Ui ()
i=1
loge fX (X; )
= 0;
=
n
X
i=1
Ui ()
= n( 0 )
Pn
i=1 Ui ()
. (8.20)
n( 0 )2 I(0 )1 21 .
(8.21)
n
X
Uj ()
j=1
n
X
Uj (0 ).
(8.22)
j=1
Pn
i=1 Ui ()
I(0 ).
(8.23)
Haciendo uso de (8.21) y (8.23) vemos que la expresin (8.20) converge en distribucin a una 21 .
Observacin 8.4 (criterio AIC y verosimilitudes penalizadas) Incidentalmente, hay una conexin interesante entre el contraste razn de verosimilitudes generalizada y el criterio conocido como AIC (An Information
Criterion, o Akaikes Information Criterion).
Supongamos que deseamos comparar modelos con diferente nmero de
parmetros. Consideremos, por ejemplo, uno cuyo vector de parmetros
pertenece a , y otro competidor tal que 0 con 0 y dim()
dim(0 ) = r. Del Teorema 8.2 deducimos que, bajo H0 ,
sup fX | (x |)
2r .
(8.24)
2 loge
sup0 fX | (x |)
Numerador y denominador de (8.24) son las verosimilitudes maximizadas
bajo Ha y bajo H0 respectivamente. Dado que 0 , es claro que la
verosimilitud bajo H0 nunca ser mayor: no tiene pues sentido una comparacin directa de ambas verosimilitudes para escoger entre ambos modelos. Si
tomamos valor medio en (8.24) y dividimos entre dos vemos que, bajo H0 ,
r
(8.25)
E loge sup fX | (x |) loge sup fX | (x |) = .
2
0
Es decir, incluso cuando H0 es cierta y no tiene objeto seleccionar el modelo
alternativo con 0 , la verosimilitud de dicho modelo alternativo
ser en promedio 2r unidades mayor, siendo r la diferencia de dimensin
entre y 0 (normalmente coincidente con la diferencia en el nmero de
parmetros ajustados). Podra parecer adecuado corregir las verosimilitudes
correspondientes a modelos diferentes, restando al logaritmo de cada una la
mitad del nmero de parmetros utilizado, 2r . Ello las pondra en pie de
igualdad, rectificando en valor medio el incremento de verosimilitud que
se produce por el mero hecho de ajustar un mayor nmero de parmetros.
112
r1
2
r2
.
2
(8.26)
(8.27)
>
r2
loge fX (x, MV 0 ) ,
2
o, equivalentemente,
fX (x, MV )
2 loge
fX (x, MV 0 )
> (r1 r2 ),
113
(8.28)
114
115
(8.30)
(8.31)
3. Hay una tercera opcin, que cuando es factible es frecuentemente la preferida. En lugar de estimar los parmetros de ruido, podemos eliminarlos
considerando la distribucin condicional sobre un estadstico suficiente para
los mismos. El ejemplo que sigue ilustra el modo de operar.
Ejemplo 8.10 Estamos interesados en contrastar ajuste a una distribucin de Poisson P(), sin precisar . Disponemos de una muestra X = (X1 , . . . , Xn ). Sabemos (ver Ejemplo 3.8, p. 36) que S =
P
n
i=1 Xi es un estadstico suficiente para , y que la distribucin condicionada es
s!
.
(8.32)
fX|S (x|s) = s Qn
n
i=1 xi !
Por consiguiente, condicionalmente en el valor observado s del estadstico suficiente, una muestra como la obtenido tiene una probabilidad
dada por el lado derecho de (8.32; llammosle . Podemos computar
pobs como la probabilidad de encontrar, dado S = s, una muestra tan o
ms rara que la obtenida:
X
s!
Qn
,
(8.33)
pobs =
s
n
i=1 xi !
xC(s)
116
siendo
C(s) = x :
s!
Qn
s
i=1
xi !
Ejemplo 8.11 (contraste exacto de Fisher) Un caso de gran aplicacin (y que ya fue discutido por Fisher) es aqul en que estamos interesados en contrastar la independencia entre dos caracteres. Por ejemplo, si deseramos contrastar la efectividad de un cierto tratamiento preventivo, podramos administrarlo a un grupo de pacientes en tanto otros
homogneos reciben un placebo. Tras un periodo de tiempo, podramos
ver cuantos enfermaron de uno y otro grupo y compilar una tabla como
la siguiente (c1 , c2 , r1 , r2 son los totales de filas y columnas respectivamente):
Placebo
Tratamiento
Sano
n11
n21
c1
Enfermo
n12
n22
c2
r1
r2
n11
n
r1
n12 .
Podemos ahora considerar la clase formada por todas las tablas t que
pueden construirse respetando los mrgenes c1 , c2 , r1 , r2 y tienen una
probabilidad condicional P
menor que p , y obtener el nivel de significacin emprico as: pobs = t Prob {t}.
117
118
3. Una peculiaridad de los contrastes de significacin es que la misma evidencia puede dar lugar a interpretaciones diferentes segn el procedimiento de
muestreo. El siguiente ejemplo lo ilustra.
Ejemplo 8.14 Consideremos una moneda cuya regularidad (H0 :
Prob {Cara} = Prob {Cruz}) deseamos contrastar. Podemos lanzar cinco veces una moneda y contar el nmero de caras (Experimento 1) o
lanzar la moneda hasta obtener una cruz y examinar el nmero total de
lanzamientos (Experimento 2). Imaginemos dos experimentadores, haciendo el primero el Experimento 1 y el segundo el Experimento 2. Imaginemos que ambos obtienen cuatro caras al comienzo y una cruz
en el quinto lanzamiento.
Tanto uno como otro se inclinaran a considerar el resultado como
evidencia de mayor probabilidad de cara, pero aqu acabara el acuerdo. El primero, computara pobs la probabilidad de obtener un resultado tanto o ms extremo que el obtenido as:
pobs
=
=
=
=
=
=
Ambos experimentadores han obtenido el mismo resultado, y sin embargo uno le otorga ms peso que el otro. Es molesto que la interpretacin que se hace de una misma evidencia dependa de cosas que podran
haber ocurrido, pero no lo han hecho.
Observacin 8.6 Relacionado con el ejemplo precedente: parecera sensato el clculo anterior de pobs si existiera alguna razn para
suponer que la desviacin de la regularidad de la moneda, de producirse, lo ha de ser haca una mayor probabilidad de cara. De no ser as,
el experimentador que hace uso del Experimento 1 debera doblar su
pobs : hay tambin resultados ms raros que el obtenido a causa de un
anormalmente pequeo nmero de caras. No es legtimo esperar a ver el
resultado para decidir sobre qu tipo de desviaciones de H0 queremos
considerar, y en consecuencia sobre el modo en que vamos a computar
pobs .
4. En ocasiones, se realizan varios contrastes de significacin sobre la misma
hiptesis, con muestras distintas y arrojando resultados pobs que pueden verse como variables aleatorias independientes. Supongamos dos experimentos
119
k
(8.34)
RC = x :
,
fX (x; 0 )
para algn k ; o, equivalentemente,
RC = {x : log fX (x; 0 + ) log fX (x; 0 ) c } .
(8.35)
(8.36)
log fX (X; )
log fX (X; 0 )
= log fX (X; 0 ) +
=0
log fX (X; )
=
;
=0
=0
"
#
log fX (X; )
log fX (X; ) 2
2
Var
(8.38)
= E0
=0
=0
= n2 I(0 ).
(8.39)
120
Por consiguiente,
log fX (X;)
log
f
(X;
)
X
=0
p
= (nI(0 )) 2
2
n I(0 )
=0
(8.40)
es una variable aleatoria tipificada que podemos emplear como estadstico de contraste si conocemos su distribucin. Esta ltima puede ser desconocida, pero para
n grande, teniendo en cuenta que cuando tenemos observaciones independientes e
idnticamente distribuidas
log fX (X; ) = log
n
Y
i=1
fX (Xi ; ) =
n
X
log fX (Xi ; ),
(8.41)
i=1
cabr esperar un fuerte efecto teorema central del lmite, y una distribucin de
(8.40) aproximadamente normal. Rechazaremos pues la hiptesis nula si
log fX (X; )
12
(nI(
))
(8.42)
> z/2 ,
0
=0
siendo z/2 el cuantil adecuado de una distribucin N (0, 1). Alternativamente podramos comparar el cuadrado de (8.42) con el cuantil 21; .
En el caso en que hay varios parmetros, hemos de sustituir por y modificar
consecuentemente el desarrollo anterior; las ideas son las mismas. El resultado es
tambin similar: si hay k parmetros libres en , tenemos que bajo H0 , asintticamente
U (0 ) (nI(0 ))1 U (0 ) 2k ,
en que
U (0 ) =
(8.43)
log fX (X; )
log fX (X; )
,...,
(1)
(k)
(8.44)
( 0 ) (nI(0 ))1 ( 0 )
1 ( 0 )
( 0 ) (nI())
H0
2k
(8.45)
H0
2k ;
(8.46)
Captulo 9
Mxima verosimilitud,
complejidad y seleccin de
modelos
9.1. Introduccin
William de Ockham (1290?1349?) propuso como criterio para seleccionar
lo que hoy llamaramos modelos el prescindir de complicaciones innecesarias; el
no multiplicar las entidades sin necesidad. Entre dos posibles explicaciones de
un mismo fenmeno, Ockham sugera as que retuviramos la ms simple. Un
principio que se ha popularizado como la navaja de Ockham.
Es difcil tal vez imposible justificar tal recomendacin si pretendemos
hacerlo con rigor. Se puede ver como una regla de economa intelectual. Pero ha
de ser la adecuacin entre modelo1 y realidad lo que gue nuestro esfuerzo, si somos realistas; no nuestra comodidad intelectual. Por qu hemos de preferir explicaciones simples si el mundo real, en muchas de sus manifestaciones, parece
extremadamente complejo?
Quiz la mejor lnea de defensa argumental de la recomendacin de Ockham
pueda basarse en su extraordinario xito. La bsqueda de explicaciones simples
ha sido un criterio que ha guiado la perspicacia de los cientficos casi invariablemente hacia buenos modelos: modelos con relativa gran capacidad explicativa
1
Siendo acaso muy impreciso con el lenguaje, utilizo modelo para designar un mecanismo
formalizable en ecuaciones matemticas que suponemos explica un fenmeno.
121
= 0 + 1 Tallai +
= 0 + 1 Tallai + 2 (Tallai )2 + 3 (Tallai )3 + .
(9.1)
(9.2)
60 (1 )40 ;
(9.3)
Con lo cual, para simplificar, queremos decir que imaginamos que en una sucesin muy larga de
lanzamientos tenderamos a observar un 100de C y el resto de +.
3
Es decir, sesenta caras y cuarenta cruces precisamente en el orden en que
` han
aparecido; si
prescindiramos de considerar el orden, la cifra dada habra de multiplicarse por 100
.
60
Y
i
Y
(1 j ),
(9.4)
en que el primer producto consta de sesenta trminos y el segundo de cuarenta. Siendo 0 1, (9.4) se maximiza dando a k , k = 1, . . . , 100, valor
1 0, segn la moneda correspondiente haya proporcionado cara o cruz. El
valor mximo de (9.4) es as 1.
Es poco natural atribuir a cada moneda una probabilidad i de cara
diferente, habida cuenta de que parecen iguales. Obviamente, al hacerlo maximizamos la probabilidad de observar algo como lo acontecido: con la eleccin referida de los cien parmetros 1 , . . . , 100 el suceso observado pasara
a tener probabilidad 1, lo que hace el suceso casi seguro! Sin embargo, aparte
de poco atractivo intuitivamente, el modelo es claramente ms complejo que
el que usa slo un parmetro, y difcilmente sera adoptado por nadie. Y ello
a pesar de que tendra ptima capacidad generadora de un resultado como el
observado.
Observacin 9.1 Un fenmeno similar al que el ejemplo anterior muestra en un caso un tanto artificial y extremo se presenta cuando tratamos de
seleccionar un modelo de regresin lineal. En presencia de normalidad en las
perturbaciones, es fcil ver que el valor de la verosimilitud decrece montonamente al crecer la suma de cuadrados de los residuos (SSE). Seleccionar el
modelo dando lugar al mximo valor de la verosimilitud, sera equivalente a
tomar aqul con mnima suma de cuadrados. Esto a su vez implica favorecer
los modelos excesivamente parametrizados, porque la inclusin de un nuevo
regresor siempre hace disminuir (o por lo menos no aumentar) SSE.
Como conclusin provisional de lo anterior, el criterio mximo verosmil es
intuitivamente atrayente, aparte de tener propiedades muy deseables en grandes
muestras (vase por ejemplo, Lehmann (1983); Cox y Hinkley (1974)); pero no
puede tomarse en consideracin para comparar modelos cuya complejidad en
un sentido an por determinar, pero que parece tener mucho que ver con el nmero
de parmetros es muy disimilar.
(9.5)
(9.6)
"Z
fX (x; 0 ) loge
))
fX (x; (Y
fX (x; 0 )
dx .
(9.8)
1X
loge fX (zi , ),
n
(9.9)
i=1
=
L(0 , )
fX (x; 0 ) loge
))
fX (x; (Y
fX (x; 0 )
dx
(9.10)
es una medida razonable de la prdida derivada de seleccionar el modelo correspondiente a en lugar del correcto, correspondiente a 0 . El riesgo
h
i
))
= EY L(0 , (Y
r0 ()
(9.11)
2r0 (k)
def
"
fX (x; k(Y ))
EY ,X 2 loge
fX (x; 0 )
!
n
2X
fX (xi ; k)
loge
n
fX (xi , 0 )
!#
(9.12)
(9.13)
i=1
Dn (k, 0 ).
(9.14)
fX (x; )
L (0 , ) =0 =
fX (x; 0 ) loge
dx
fX (x; 0 )
=0
Z
loge fX (x; )
=
fX (x; 0 )
dx
=0
Z
1
dx
fX (x; )
=
fX (x; 0 )
fX (x; 0 )
=0
Z
dx
=
fX (x; )
=0
Z
fX (x; )dx
=
=0
= 0.
En consecuencia,
L(0 , ) ( 0 ) L (0 , )( 0 ).
Como (vase la Definicin 5.1, pg. 62)
L (0 , ) (0 ) = I(0 ),
(9.15)
(9.16)
(9.17)
(9.18)
(9.19)
es decir, la proyeccin de 0 sobre k en la mtrica inducida por h., .iI(0 ) . Tenemos entonces que:
L(0 , k) (k 0 ) I(0 )(k 0 )
= kk 0 k2
I(0 )
Consideremos ahora
n (0 , 0|k) n(0 0|k) I(0 )(0 0|k)
nD
n (k, 0|k) n(k 0|k) I(0 )(k 0|k).
nD
(9.20)
nD
I(0 ) nk( k 0|k)kI(0 )
(9.21)
Haciendo uso de (9.20) y (9.21) y tomando valor medio, los productos internos son
aproximadamente cero en comparacin con los otros trminos y tenemos:
h
i
h
2
n (k, 0 ) = E nkk 0|kk2
E nL(, k) nD
I(0 ) + nk0|k kI(0 )
(9.22)
E nL(, k) nD
I(0 ) nk0 kI(0 ) . (9.23)
(9.24)
AIC(k) =
2X
loge fX (xi ; k) + 2k,
n
i=1
(9.25)
129
def
k
X
pi log2 pi ,
i=1
Smbolo
a1
a2
a3
a4
pi
0,500
0,250
0,125
0,125
Pi =
j<i pj
0
0,500
0,750
0,875
Pi
0.000000. . .
0.100000. . .
0.110000. . .
0.111000. . .
L(i) = log2 pi
1
2
3
3
Cdigo
0
10
110
111
k
X
i=1
pi log2 qi
k
X
pi log2 pi .
(9.26)
i=1
Hay otros interesantes hechos en los que la entropa juega un papel central. Por
ejemplo, la mejor codificacin que podemos hacer de los smbolos (a1 , . . . , ak )
requiere en promedio un nmero de dgitos binarios por smbolo acotado inferiormente por H(p). Esto es intuitivamente coherente con la interpretacin ya aludida
de la entropa: H(p) muy baja, significara distribucin de las probabilidades de los
smbolos muy concentrada (dando gran probabilidad a uno o unos pocos smbolos,
y poca al resto). Ello permitira codificar los pocos smbolos muy probables con
palabras de cdigo muy cortas, y slo raramente hacer uso de palabras ms largas
(para los smbolos ms improbables).
Ejemplo 9.4 (cdigo de Fano-Shannon) Veamos un modo de hacerlo.
Supongamos una fuente generando cuatro smbolos a1 , a2 , a3 , a4 ordenados
de acuerdo a sus probabilidades respectivas p1 , p2 , p3 , p4 . Supongamos que
stas son
P las que se recogen en la segunda columna del Cuadro 9.1. Sea
Pi = j<i pi como se indica en el Cuadro 9.1. Las palabras de cdigo se
asignan tomando una parte de la expresin binaria de Pi de longitud L(i)
igual a log2 pi redondeado a la unidad superior. Intuitivamente, es fcil ver
que el cdigo anterior es razonable: asigna palabras cortas a los smbolos
ms probables que ocupan las primeras posiciones en la tabla y progresivamente ms largas al resto.
El cdigo de Fano-Shannon comparte con otros una propiedad que se deriva
fcilmente del proceso constructivo que hemos seguido (vase por ejemplo Li y
Vitnyi (1993), p. 63) y que es aparente en la ltima columna del Cuadro 9.1:
ninguna palabra de cdigo es prefijo de otra de longitud mayor. Por ejemplo, a2 se
7
131
00
000
01
001
010
10
011
100
11
101
110
111
2L(i) =
D EMOSTRACIN :
La demostracin es muy simple. Pensemos en todas las posibles palabras de todas las longitudes dispuestas en un rbol binario como el recogido en el Grfico 9.1
(truncado a la profundidad 3). Si utilizramos como palabras de cdigo todas las
de longitud 3, tendramos L(i) = 3 y 2l(i) = 81 para i = 1, . . . , 8 y la inecuacin
(9.27) se verificara con igualdad.
Si escogemos una de las palabras de longitud inferior (uno de los nodos que no
son hojas en el Grfico 9.1), el requerimiento de ausencia de prefijos nos obliga
a prescindir de todas las palabras correspondientes a nodos hijos. El Grfico 9.2
1
8
2L(i) = 21 =
1
2
10
11
2L(i) = 22 =
100
1
4
101
2L(i) = 23 =
1
8
2L(i) = 23 =
1
8
representa un rbol truncado con cuatro nodos terminales u hojas, junto a las que
se ha escrito 2L(i) . Vemos que el tomar en 0 obliga a prescindir de 01, 00, y todos
sus descendientes; pero 21 contribucin de 0 al lado izquierdo de (9.27) es
igual a la suma de las contribuciones a dicha expresin de todos los descendientes
de los que hemos de prescindir.
Por tanto, trunquemos como trunquemos el rbol binario, la suma de 2L(i) extendida a sus hojas o nodos terminales ser siempre 1. La desigualdad (9.27) slo
es estricta cuando despreciamos algn nodo terminal al construir nuestro cdigo.
D EMOSTRACIN :
Definamos
qi =
2L(i)
P L(i) ,
i2
(9.29)
133
con lo que
log2 qi = L(i) log2
X
i
L(i)
L(i).
(9.30)
La desigualdad anterior junto con el Teorema 9.1 proporcionan entonces de inmediato (9.28).
Esto es lo que caracteriza a las cadenas binarias tpicas; vase por ejemplo Li y Vitnyi (1993).
(9.31)
Por razones tcnicas, f en (9.31) debe ser una funcin recursiva el tipo de funcin que puede computar una mquina de Turing. Naturalmente, el programa
p que, al ser ejecutado por el computador f , produce la cadena x, depende de
f . Sea cual fuere x, podramos imaginar un computador especializado que tan
pronto se pone en marcha imprime x es decir, que requiere un programa de longitud l(p) = 0 para computar x. Implicara esto que la complejidad de x es cero?
No. La complejidad de x relativa a la mquina de Turing que computa f vendra dada por (9.31). Relativa a otra mquina de Turing computando la funcin g
sera Cg (x), definida anlogamente a Cf (x). Definiremos la complejidad de Kolmogorov en relacin a una mquina de Turing universal una mquina que con
el programa adecuado puede emular cualquier otra. No hay una nica mquina
universal, pero para dos mquinas universales de Turing computando las funciones
u y v y para cualquier cadena x se verifica
|Cu (x) Cv (x)| cu,v ,
(9.32)
135
10
Que sigue el razonamiento en el ltimo captulo de Ruelle (1991), una introduccin muy legible
y difana al tratar esta cuestin, aunque slo lo haga tangencialmente al final.
k
Y
i .
(9.33)
i=1
(9.34)
k
X
log2 i .
(9.35)
i=1
Si suponemos constante, slo nos hemos de preocupar de minimizar el primer trmino. De poder escoger libremente, tomaramos = 0,60. Como
estamos truncando los valores, 0.60 no es alcanzable, pero s lo son (153 +
1
1
2 )/256 = 0,599609 y (154 + 2 )/256 = 0,603516, puntos medios de intervalos de longitud 1/256 en que se subdivide [0, 1] cuando se emplea precisin = 28 = 1/256. El primero de ellos proporciona el mnimo valor de
log2 P (x|), que resulta ser 97,0951. Requerimos un total de 97,0951 +
8 = 105,0951 bits como longitud de descripcin.
Una alternativa (tal y como se discuti a continuacin del Ejemplo 9.2)
sera considerar cien parmetros, uno para cada moneda. Ello hara casi
seguro el suceso observado, y el primer sumando de (9.36) sera cero
especificados los parmetros, no hara falta ningn cdigo para especificar el
resultado. Pero el tercer sumando sera, para la misma precisin, mucho
mayor: 800 bits! Aunque el modelo binomial haciendo uso de cien parmetros hace casi seguro el resultado observado, es inferior al que slo hace uso
de slo un parmetro, debido al coste de codificar noventa y nueve parmetros adicionales.
0.50000
0.25000
0.12500
0.06250
M V
0.90
0.90
0.90
0.90
0.75
0.875
0.9375
0.90625
10
90 (1 )
5,4314 1018
5,6211 1015
2,7303 1015
7,447911 1015
10
log2 90 (1 )
57.35
47.34
48.38
46.93
MDL
58.35
49,34
51.38
50.93
n=0
lm PN
P (n)L (n)
= 1
(9.38)
Merece la pena examinar la igualdad anterior: hay una codificacin que es asintticamente ptima sobre los enteros y que es todo terreno! Vale sea cual fuere la
distribucin definida sobre ellos, con tal de que sea montona decreciente a partir
de algn n dado! La funcin L (n) viene dada aproximadamente por
L (n) = log2 c + log2 log2 n + log2 log2 log2 n + . . . ;
(9.39)
PN
2
i=1
+ 2p
(9.41)
141
llegar a obtenerlo? Murray Gell-Mann (vase Gell-Mann (1994), p. 117) menciona, hacindose eco de trabajo de Charles Bennet, que la complejidad tiene facetas
como la profundidad y cripticidad. En relacin a esta ltima, por ejemplo, una serie
muy larga de nmeros pseudo-aleatorios generados en un ordenador mediante el
conocido mtodo multiplicativo, puede tener una complejidad muy baja: se puede
describir dando la semilla o valor inicial y los valores de tan slo dos nmeros. Sin
embargo, adivinar cules son estos nmeros es muy costoso. Diramos que esta
serie es de baja complejidad?
Un modelo es un modo de especificar regularidades. Decimos que explica
la realidad cuando lo que observamos se adeca a las predicciones que obtendramos con ayuda de dicho modelo. En el caso de un modelo estadstico, ni siquiera
exigimos una concordancia perfecta entre predicciones y observaciones, porque la
esencia de un modelo de tal naturaleza es no fijar unvocamente las relaciones entre
observables.
Es precisamente la existencia de regularidad en la evidencia lo que permite su
descripcin escueta. Servirse de un criterio como el de mnima longitud de descripcin es aceptar como buena la explicacin que ms regularidades encuentra en
nuestros datos o mejor las explota. Tiene al menos la ventaja sobre la modelizacin usual de que explicita el coste a pagar por la complejidad aadida. Queda
a medio camino entre la inferencia bayesiana y la convencional, y sortea algunos
de los aspectos ms criticables en esta ltima la fijacin arbitraria de niveles de
significacin, por ejemplo.
Pero, en su raz, el minimizar la complejidad es un criterio que prioriza la
reduccin de los datos observados. Es esto sensato? Vlido como criterio de
inferencia?
B. Russell (vase Russell (1912), p. 35) obliga a responder que no. Un pollo
que observara al granjero llevarle grano todos los das dice Russell, podra
llegar a la conclusin de que el granjero le ama y busca su bien. Tal modelo
explicara las repetidas visitas al corral del granjero y su solicitud con el animal.
Pero esta explicacin, tan repetidamente apoyada por la evidencia durante la vida
del pollo, se ve bruscamente sin valor el da que el granjero decide que el pollo est
lo suficientemente gordo como para retorcerle el pescuezo.
Enfrentados al mundo, querramos saber porqu, y ni tan solo sabemos si nuestra nocin de causalidad tiene sentido; si cabe hablar de un porqu. Querramos
conocer el fin ltimo, si lo hay, de las idas y venidas del granjero: conformarnos
con la explicacin menos compleja de su conducta nos coloca en situacin no mejor que la del pollo.
Sin embargo, frecuentemente no podemos hacer ms. Enfrentados a este hecho, nuestra pertinaz tentativa de entender encuentra en el criterio de minimizar la
longitud de descripcin un sucedneo til: la vieja navaja de Ockham con un nuevo
filo. El xito que alcancemos con su empleo no debiera hacernos olvidar lo endeble
de nuestra posicin. Quiz el mayor valor de las ideas expuestas ms arriba no est
en las respuestas que proporcionan sino en las preguntas que suscitan.
Apndice A
Convergencias estocsticas
Vase cualquier texto introductorio de Probabilidad y Estadstica, por ejemplo Trocniz (1987),
Cap. 5, para una definicin precisa. Se requiere que X sea una funcin medible de Borel, lo que
daremos por supuesto. En lo que sigue obviamos tambin detalles tcnicos de similar naturaleza.
143
144
= X1 ()
X1 () + X2 ()
=
2
X1 () + X2 () + X3 ()
=
3
..
.
X n ()
X1 () + X2 () + . . . + Xn ()
n
..
.
A.2.
Convergencia en ley
Definicin A.1 La sucesin de funciones de distribucin FXn (x) converge en distribucin (o en ley) a la funcin de distribucin FX (x) si lmn FXn (x) =
FX (x) en todo punto de continuidad de sta ltima.
Por extensin, diremos que la sucesin de v.a. {Xn } converge a X, y lo denotareL
mos as: Xn X.
(A.1)
(A.2)
Es decir, si podemos lograr que Xn est en un entorno de X de radio > 0 prefijado con probabilidad tan cercana a 1 como deseemos, tomando n lo suficientep
mente grande. Denotaremos la convergencia en probabilidad mediante Xn X
o plimXn = X.
p
p
Es fcil ver que es equivalente escribir Xn X (Xn X) 0.
Ejemplo A.2 Definamos una sucesin de variables aleatorias as:
Xn =
a con probabilidad 1
bn con probabilidad n1 .
1
n
146
Definicin A.3 La sucesin {Xn } converge casi seguramente a la variable aleatoria X si:
n
o
Prob : lm Xn () = X() = 1
(A.3)
n
c.s.
Fcilmente se comprueba que Xn X Xn X Xn X. Es til examinar ejemplos en que se presenta un tipo de convergencia y no otro, para adquirir
intuicin sobre su naturaleza y respectivas implicaciones; pueden verse, entre otros
muchos, Billingsley (1986), Garn y Tusell (1991), Romano y Siegel (1986).
La comparacin de las expresiones (A.1) y (A.3) muestra de inmediato que
p
c.s.
Xn X Xn X. La implicacin recproca, por el contrario, no se verifica,
como el siguiente ejemplo pone de manifiesto.
Ejemplo A.3 Ejemplo ondas cuadradas.
Definicin A.4 Decimos que {Xn } converge en media r a la variable aleatoria X
si:
lm E |Xn X|r = 0.
(A.4)
An Xn + Bn aX + b
A.4.
(la sucesin {an } va a infinito a la misma velocidad que n). Una sucesin sera
de orden o(n) si en la expresin anterior M fuera 0. En general podemos emplear
cualquier funcin f (n) conveniente como patrn de comparacin y decir que una
sucesin es O(f (n)) o o(f (n)).
147
(A.5)
Xn
= 0.
f (n)
(A.6)
(A.7)
(Xn X)
= 0 (Xn X) = op (1)
1
Obsrvese que todas las sucesiones que convergen en probabilidad son cuando menos op (1), pero algunas tendrn un orden de convergencia ms rpido.
En el ejemplo anterior vimos que en la situacin habitual de una distribucin que posee momentos de primer y segundo orden, la media aritmtica
de un nmero creciente de observaciones converge en probabilidad a la media poblacional y (Zn m) converge en probabilidad a cero. Vimos que
1
1
(Zn m) es Op (n 2 ). No es en cambio op (n 2 ); Es fcil ver que (Zn m)
1
es op (n 2 + ) para cualquier positivo. Esta es la situacinhabitual con sucesiones estimadoras paramtricas; se denominan por ello n-consistentes.
Ocasionalmente se presentan convergencias ms rpidas. En estimacin no
paramtrica, en cambio, son la regla convergencias ms lentas.
148
A.5.
X n m
D EMOSTRACION :
Sea,
Xn =
X1 + . . . + Xn
n
Entonces:
E[X n ] = m
2
2
X
=
n
n
y de acuerdo con la desigualdad de Tchebychev:
1
1 2
Prob |X n m| < k
n
k
2
Tambin se considera a veces convergencia en media cuadrtica, que no hemos examinado aqu.
Vase cualquiera de los textos citados ms arriba.
149
kp
<
N (, )
Las condiciones anteriores pueden ser considerablemente relajadas; no es imprescindible que las v.a. en la sucesin sean independientes,
tengan la misma
P ni que
2 < ).
varianza (sera suficiente que se verificase lmn n2 ni=1 X
i
Prob
max |Sk |
1kn
E[Sn2 ]
2
(A.8)
D EMOSTRACION :
Definamos para 1 k n los sucesos
Ak = { : (|Sk ()| ) (|Si ()| < , 1 i < k)}
(la suma parcial formada por k sumandos es la primera que excede en valor absoluto de ). Sea A0 = { : (|Sk ()| < , 1 k < n)} (la suma parcial formada
por k sumandos nunca excede de ).
3
El desarrollo sigue el efectuado por Fourgeaud y Fuchs (1967), pg. 45 y ss. y Billingsley (1986),
pg. 296.
150
n Z
X
k=0 Ak
n Z
X
k=1 Ak
n Z
X
k=1 Ak
n Z
X
k=1 Ak
Sn2 fX (x)dx
[Sk + (Sn Sk )]2 fX (x)dx
[Sk2 + (Sn Sk )2 + 2Sk (Sn Sk )]fX (x)dx
[Sk2 + 2Sk (Sn Sk )]fX (x)dx
Ak
k=1
En consecuencia:
E[Sn2 ]
n Z
X
k=1
Ak
Sk2 fX (x)dx
n
X
k=1
2 Prob {Ak }
n
i=1 Xi converge casi seguramente.
i=1 i
D EMOSTRACION :
Si Sn converge casi seguramente, quiere decir que casi seguramente verifica la
c.s.
condicin de convergencia de Cauchy. Es decir, |Sn+k Sn | 0, para n, k .
Para que no hubiera convergencia de Sn (), debera ocurrir que existiera > 0 tal
que n 1 hubiera algn k 1 para el que |Sn+k Sn | . Vamos a comprobar
que el conjunto D = {} para el que se verifica lo anterior tiene probabilidad cero.
Tenemos que:
D =
>0
\ [
n1 k1
{ : |Sn+k Sn | > } =
>0
L()
151
\ [
n1 k1
mn Prob : max |Sn+k Sn | >
n
k1
X
1
2 .
mn 2
n
(A.9)
(A.10)
(A.11)
n+1
En el ltimo
se ha hecho uso de la primera desigualdad de Kolmogorov.
P paso
2 < , (A.11) es cero, Prob {L()} = 0 y por consiguiente D =
Como
i=1 i
S
>0 L() tiene tambin probabilidad cero.
El siguiente lema no tiene ningn contenido probabilstico, y se limita a establecer una relacin entre la convergencia (en el sentido habitual del Anlisis Matemtico) de dos diferentes series.
Pn
i=1 ai /i
converge a un
D EMOSTRACION :
P
Sea vn = ni=1 ai /i, y v0 = 0. Entonces, ai = i(vi vi1 ) y:
n
X
ai =
n
X
i=1
i=1
n
X
ivi
i=1
ivi1 = nvn
n1
X
vi
i=0
Por tanto:
n
n1
n1
i=1
i=0
i=0
1X
n1 1 X
1X
ai = vn
vi = vn
vi
n
n
n n1
y si vn , (n 1)1
Pn1
i=0
vi y n1
Pn
i=1 ai
0.
i=1 i /i < .
Entonces:
n
1X
c.s.
Xn =
Xi 0
n
i=1
152
P
c.s.
Demostraremos que ni=1 Xi /i , pues esto, en virtud del lema precedente,
P
c.s.
implica n1 ni=1 Xn 0. Que
serie converge c.s. es inmediato, pues
Pla primera
2
2
2
2
como Var(Xi /i) = i /i y i=1 i /i < , su convergencia es resultado del
Teorema A.4
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
A.1 Demustrese que, en el caso particular en que una sucesin aleaL
de la desigualdad de Tchebichev.)
Apndice B
Soluciones a problemas
seleccionados
3.2
La funcin de verosimilitud es
fX (x; ) = H(x(1) 1)H(x(n) + 1)
en que H(.) es una funcin que toma el valor cero si su argumento es negativo y valor
1 si su argumento es no negativo (funcin escaln o de Heaviside). Por tanto, el
teorema de factorizacin (ver (3.8)) se verifica con g(s, ) = H(x(1) 1)H(x(n) +1)
y (x(1) , x(n) ) forman un estadstico suficiente.
Sin embargo, este estadstico no es completo: es fcil ver que (por ej.) (x(n)
x(1) ) tiene una distribucin que no depende de y es por tanto ancilar.
3.5
En efecto,
fX (x; )
n
Y
i=1
( n
)
n
n
o
X
X
xj
exp{xj } exp e yj = exp
exp{xj }yj +
xj ,
i=1
i=1
4.5
rizacin:
fX (x; ) =
n
Y
i=1
vemos que
Qn
i=1
xi (o alternativamente
n
Y
i=1
Pn
i=1
153
xi
!1
154
=
=
=
=
=
Prob { log(X) z}
Prob X > ez
1 Prob X ez
1 ez ;
5.5 Calculemos en primer lugar la cota de Cramr-Rao para el estimador proporcionado. En los clculos que siguen, = (, 2 ) y tratamos a 2 como un parmetro respecto del cual derivamos.
fX| (x |)
log fX| (x |)
log fX| (x |)
2
E
log fX| (x |)
2
=
=
=
2
2
1
e(x) /2
2
1
log 2 log 2 (x )2 /2 2
2
1
(x )2
2 +
2
2 4
"
#
2
2
1
(x )2
1 1
2
+
(x )
2
E
2 4
2 2
2 2 4
4
1
1
+
4
4 8
4 4
2
(B.1)
1
1
1
4 4!
log
f
(x
|)
+
=
. (B.2)
=
E
X|
2
4 4 2! 8
4 4
2 4
2 4
La cota de Cramr-Rao es por tanto 1/nIX () = 2 4 /n.
Calculemos ahora la varianza del estimador. Para ello requerimos los momentos
E[S 2 ] y E[(S 2 )2 ]. Sabemos que E[S 2 ] = 2 el S 2 proporcionado
es el habitual
P
2
estimador insesgado de la varianza. Por otra parte, viendo n
i=1 (Xi X) como
la suma de cuadrados de los residuos cuando regresamos X sobre la columna de
unos, por teora bsica de regresin lineal sabemos que se distribuye como 2 2n1 .
Entonces,
E[S 2 ]
=
=
=
4
E[2n1 ]2
(n 1)2
4
2
E[Z12 + . . . Zn1
]2
(n 1)2
3
2
XX 2 2
4
4
4
E 4Z1 + . . . Zn1 +
Zi Zj 5 ,
(n 1)2
i j6=i
(B.3)
en que Z1 , . . . , Zn1 son variables aleatorias N (0, 1). Sabiendo que el momento de
orden cuatro de tal distribucin tiene la expresin indicada antes y sustituyendo en
155
(B.3) obtenemos:
E[S 2 ]
=
=
=
4
[(n 1) 3 + (n 1)(n 2)]
(n 1)2
4 (n + 1)(n 1)
(n 1)2
4 (n + 1)
.
(n 1)
2 4
4 (n + 1)
4 =
.
(n 1)
n1
(B.4)
156
Bibliografa
Abramson, N. (1966). Teora de la Informacin y Codificacin. Paraninfo, Madrid,
1973a edn.
Akaike, H. (1969). Fitting Autoregressive Models for Prediction. Annals of the
Institute of Statistical Mathematics, vol. 21, pgs. 243247.
Akaike, H. (1970). Statistical Predictor Identification. Annals of the Institute of
Statistical Mathematics, vol. 22, pgs. 203217.
Akaike, H. (1972). Use of an Information Theoretic Quantity for Statistical Model
Identification. En Proc. 5th. Hawai Int. Conf. on System Sciences, pgs. 249
250.
Akaike, H. (1974). Information Theroy and an Extension of the Maximum Likelihood Principle. En Second International Symposium on Information Theory
(eds. B. Petrov y F. Csaki), pgs. 267281. Akademia Kiado, Budapest. Reimpreso en Johnson-Kotz(1991), vol. 1, p. 610 y ss.
Akaike, H. (1991). Information Theory and an Extension of the Maximum Likelihood Principle. En Breakthroughs in Statistics (eds. Johnson y Kotz), vol. 1,
pg. 610 y ss. Springer Verlag.
Berkson, J. (1980). Minimum chi.square, not maximum likelihood! Annals of
Statistics, vol. 8, pgs. 457487.
Billingsley, P. (1986). Probability and Measure. John Wiley and Sons, New York,
2a edn.
Chaitin, G. (1987). Algorithmic Information Theory. Cambridge University Press,
Cambridge, 1992a edn.
Cover, T., P. Gacs, y R. Gray (1989). Kolmogorovs contributions to information
theory and algorithmic complexity. Annals of Probability, vol. 17(3), pgs. 840
865.
157
158
BIBLIOGRAFA
BIBLIOGRAFA
159
160
BIBLIOGRAFA
ndice alfabtico
H(p)
entropa, 129
Op (), 146
op (), 146
AIC
criterio, 124
relacin con MDL, 140
relacin con razn de verosimilitudes, 111
ancilaridad
definicin, 39
de primer orden, 39
Bahadur
eficiencia, 67
Bayes
criterio de, 6
procedimientos Bayes relativos a (), 6
riesgo de, 6
cdigo
de Fano-Shannon, 130
libre de prefijos, 131
cannico
estadstico, 31
Cauchy, distribucin
no reduccin por suficiencia, 38
complejidad
de Kolmogovor-Chaitin-Solomonoff, 129
completa
clase de procedimientos, 15
clase mnima, 15
esencialmente, 15
compuesta
clase de distribuciones, 101
hiptesis, 113
conjugadas
familias, 11
consistencia
definicin, 77
161
NDICE ALFABTICO
162
y estimadores supereficientes, 81
criterio
AIC, 124
de Bayes, 6
curvada
distribucin, 41
decisin
espacio de, 1
desigualdad
de Jensen, 49, 77
de Kraft, 131, 139
difusa
distribucin a priori , 6
funcin a priori , 6
distribucin
a priori
difusa, 6
impropia, 6, 63
ms desfavorable, 23
no informativa, 63
universal, 139
curvada, 41
emprica, 79
multinomial, 36
Weibull, 30
familia
exponencial, 29
familia exponencial, 29
y algoritmo EM, 98
Fano-Shannon
cdigo, 130
Fisher
contraste exacto, 116
informacin, 62
funcin
convexa, 49
crtica, 102
de prdida, 1
estrictamente convexa, 49
eficiencia
de Bahadur, 67
definicin, 79
estimadores supereficientes, 81
relativa, 69
de varios estimadores en una U (0, 2),
69
entropa
definicin, 129
espacio
de decisin, 1
del parmetro natural, 31
muestral, 2
estadstico
acotado completo, 39
ancilar, 39
cannico, 31
completo, 39
de orden, 34
mnimo suficiente, 34
en una U ( 12 , + 12 ), 153
estados de la naturaleza, 1
estimador mximo-verosmil
consistencia, 77
definicin, 76
inviable cmputo en una Cauchy C(), 84
no unicidad en una U ( 12 , + 21 ), 86
hiptesis
simple, 113
impropia
distribucin a priori , 6
funcin a priori, 7
informacin
de Fisher, 62
de Kullback-Leibler, 78
desigualdad de, 64
Teoria de la, 129
insesgado
inexistencia de procedimiento insesgado, 49
procedimiento, 47
procedimiento inadmisible, 48
Jeffreys
distribucin a priori de, 63
Jensen
desigualdad, 49, 77
Kraft
desigualdad, 131
desigualdad de, 139
Kullback-Leibler
distancia a la distribucin emprica, 114
informacin de, 78, 79
relacin con MV, 78
mxima verosimilitud
consistencia, 77
mnima
clase completa, 15
NDICE ALFABTICO
minimal suficiencia
de X(n) en una U (0, )., 43
de la razn de verosimilitudes, 36
estadsticos mnimos suficientes, 34
minimax
condicin suficiente, 24
muestral
espacio, 2
multinomial
al condicionar en una P(), 36
natural
parmetro, 31
espacio del, 31
Neyman-Pearson
teorema, 103
y procedimientos de Bayes, 106
nivel
de significacin, 102
nivel de significacin emprico, 113
Ockham
navaja de, 121
orden
de convergencia estocstica, 146
estadsticos de, 34
p-value, 113
prdida
funcin, 1
parmetro
de ruido, 114
natural
definicin, 31
espacio, 31
particin
suficiente, 33, 42
suficiente mnima, 42
penalizada
verosimilitud, 111
potencia
contraste uniformemente ms potente, 106
de un contraste, 102
mxima uniforme, 106
relacin con funcin crtica, 103
procedimiento estadstico
Bayes relativo a (), 6
equivalente, 4
procedimiento estadstico, 1
procedimiento estadstico
admisible, 4
aleatorizado, 14
clase completa, 15
clase esencialmente completa, 15
163
comparable, 4
inadmisible, 4
inadmisible aunque insesgado, 48
mejor, 4
minimax, condicin suficiente, 22
minimax, definicin, 22
Rao
cota de Cramr-Frechet-Rao, 64
razn de verosimilitud
montona, 108
razn de verosimilitudes
generalizada
distribucin asinttica, 109
relacin con AIC, 111
regin crtica, 102
regularidad
condiciones, 61
quiebra en una U (0, 2), 70
riesgo
de Bayes, 6
definicin, 3
ruido
parmetro, 114
significacin
nivel de, 102
simple
clase de distribuciones, 101
hiptesis, 101, 113
suficiencia, 32
de X en una P (), 36
de X(n) en una U (0, ), 34
de X(n) en una U (0, )., 43
de la muestra ordenada en m.a.s., 36
de la razn de verosimilitudes, 36
minimal, 34
suficiente
particin, 33, 42
suficiente mnima
particin, 42
supereficiencia
ejemplo de, 81
tamao
de un contraste, 102
UMP
contrastes uniformemente ms potentes, 108
verosimilitud
definicin, 74
no acotada, 85
penalizada
NDICE ALFABTICO
164
relacin con AIC, 111
Wald
estadstico de contraste, 120
Weibull
distribucin, 30