Teoria de Decision e Inferencia Bayesiana

An alisis de Decisi on, Inferencia y Predicci on Estad stica Bayesiana
Por Luis Ra ul Pericchi Guerra Complementos: Ana Judith Mata
An alisis de Decisi on, Inferencia y y Predicci on Estad stica Bayesiana
Luis Ra ul Pericchi Guerra

Centro de Estad stica y Software Matem atico (CESMa) y Dpto. de C omputo Cient co y Estad stica Universidad Sim on Bol var Caracas, Venezuela
Complementos: Ana Judith Mata Universidad Sim on Bol var
AGRADECIMIENTOS
Este libro tiene como antecedente sucesivas monograf as, las cuales fueron textos de cursos que dict e en los siguientes eventos cient cos: II Escuela Venezolana de Matem aticas, en la Universidad de Los Andes, M erida, Septiembre 1989. IV Congreso Latinoamericano de Probabilidad y Estad stica Matem atica, CLAPEM, en Ciudad de M exico, M exico, Septiembre 1990. Curso-Seminario de las Am ericas en Estad stica Bayesiana y Econometr a, en la Universidad Sim on Bol var, Caracas, Venezuela, Diciembre 1992. Agradezco a los respectivos Comit es organizadores de dichos congresos sus invitaciones. Menci on especial merece Francisco Aranda-Ordaz, miembro fundamental del Comit e organizador del IV CLAPEM, con quien compart trabajo y juerga. Francisco muri o, demasiado pronto y por error, tr agica y absurdamente, pero en medio de su familia y su pa s, pocos meses depu es de nalizar el IV CLAPEM en Ciudad de M exico. Ello ha sido una p erdida irreparable para el avance de la Ciencia y la pr actica de la Estad stica en Latinoam erica, y para sus amigos. La presente versi on es una dr astica revisi on de las monograf as anteriores. Le debo al Profesor Victor P erez-Abreu, Presidente de la Sociedad Bernoulli Latinoamericana, y al Profesor Victor Yohai, Presidente del Comit e de Publicaciones de dicha Sociedad, el est mulo para realizar esta revisi on. Durante los a nos en los que este proyecto en los que este proyecto se ha ido realizado mi grupo de trabajo, en la Universidad Sim on Bol var, ha crecido y se ha desarrollado. Comenz o por el Taller de Estad stica, TAE como grupo de trabajo dentro del Departamento de Matem aticas Puras y Aplicadas. Se ha convertido en el Centro de Estad stica y
4 Software Matem atico, CESMa, con miembros de tres departamentos de la USB, principalmente del Departamento de C omputo Cient co y Estad stica, creado en 1996. A mis compa neros del CESMa les debo su paciencia, apoyo y cordialidad. Especialmente deseo mencionar a los profesores: Marialena Lentini, Isabel Llatas, Bruno Sans o, Mar a Egle e P erez, Lelys Bravo, Jos e Miguel P erez, Raquel Prado, Jos e Luis Palacios y Ra ul Jim enez. No puedo dejar de mencionar varios cienct cos de categor a internacional como Ignacio Rodriguez-Iturbe, Anthony Atkinson, Carlos Alberto de Braganza Pereira, Adrian Smith, Phil Browm, William Nazaret, Peter Walley, El as Moreno y Jim Berger, que a lo largo de estos a nos me han ofrecido su colaboraci on, sabidur a y amistad. Finalmente, le hago un reconocimiento muy especial a la Licenciada Ana Judith Mata. M as que una ayudante ha sido una colaboradora y este libro le debe mucho de lo bueno que pueda tener (el resto es obra m a). Si no hubiera sido por su incansable insistencia y persecuci on, adem as de sus destrezas estad sticas y computacionales, este libro no habr a sido terminado.
PREFACIO
Este libro presenta las ideas b asicas y algunos desarrollos recientes de la Teor a y An alisis de Decisi on y de la Inferencia Bayesiana. Ambas teor as est an profundamente relacionadas, como se ver a a lo largo del desarrollo. El libro comienza presentando el enfoque cl asico a la Teor a de Decisi on, de inspiraci on frecuentista, basada en la funci on de riesgo muestral. La funci on de riesgo por s sola no es capaz de seleccionar la decisi on optima aunque s de desechar una buena parte de ellas, las decisiones llamadas inadmisibles. Se presentan tres enfoques alternativos para ser acoplados a la funci on de riesgo y de esta manera encontrar un curso de acci on. Estos enfoques son: i)La restricci on del espacio de decisiones, ii)Minimax y iii)Bayes. Le damos m as enfasis a los u ltimos, los llamados criterios globales. Se concluye luego de compararlos, que es el enfoque Bayesiano el m as satisfactorio y racional, a un cuando requiere de una buena dosis de actitud cr tica y de an alisis de sensitividad respecto a los supuestos. En el curso de la presentaci on, se presenta tambi en un argumento Bayesiano m as directo: el enfoque condicional al dato observado basado en la minimizaci on de la p erdida posterior esperada. Este enfoque no utiliza la funci on de riesgo frecuentista. Al nal las decisiones optimas Bayesianas van a ser las mismas sin importar qu e v a se siga, pero esta u ltima resulta en una simplicaci on substancial. La discusi on general se lleva los dos primeros cap tulos, siendo el segundo el m as complejo matem aticamente. El resto del libro se dedica enteramente al enfoque Bayesiano. En el cap tulo 3 se presenta otra manera de llegar al principio Bayesiano: La Teor a de la Utilidad, que es una axiomatizaci on de la decisi on estad stica. Tambi en en este cap tulo se muestra que Bayes obedece a los principios b asicos: Principio de la verosimilitud y el de la precisi on nal. Los problemas de inferencia estad stica pueden ser presentados como problemas de decisi on. Esto se hace en los u ltimos cap tulos, donde
6 se intenta una introducci on a la inferencia Bayesiana actual, tratando temas como: modelos jer arquicos, modelos lineales din amicos, m etodos de simulaci on para el c aculo de densidades posteriores y aproximaciones, m etodos Bayesianos robustos y m etodos no subjetivos para la selecci on de modelos y test de hip otesis. Este libro puede ser u til a diferentes niveles, tanto como un curso avanzado de pregrado como de postgrado. La formaci on requerida es la de c aculo b asico e intermedio, as como al menos un curso b asico de probabilidades y estad stica. Por ello puede ser presentado a estudiantes de matem aticas, estad stica, ciencias actuariales, ingenier a, econom a y areas anes. Tambi en puede ser estudiado con diferentes enfasis. Un curso m as centrado en la Teor a de la Decisi on se concentrar a en el cap tulo 2. Mientras un curso interesado en la inferencia Bayesiana, enfatizar a los u ltimos cap tulos. Espero que esta presentaci on de la Teor a de Decisi on y en particular de la inferencia Bayesiana, que es, desde mi punto de vista, uno de los enfoques de desarrollos tanto te oricos como aplicados, m as espectaculares en tiempos recientes, sea de utilidad para las Ediciones de la Sociedad Bernoulli Latioamericana.
Luis Ra ul Pericchi Guerra Centro de Estad stica y Software Matem atico (CESMa) Universidad Sim on Bol var Caracas, Enero 1998.
Contenido
1 Elementos del Problema de Decisi on Estad stica 9 1.1 Elementos de un Problema de decisi on Estad stica . . . . 9 1.2 El Problema de Decisi on como un Juego entre el TD y la Naturaleza . . . . . . . . . . . . . . . . . . . . . . . . 12 2 Teor a Cl asica de Decisi on 2.1 Introducci on. . . . . . . . . . . . . . . . . 2.2 Conceptos B asicos de la Teor a de Decisi on 2.3 Decisiones Optimas . . . . . . . . . . . . . 2.4 Representaci on Geom etrica de las Reglas Minimax para nito. . . . . . . . . . . . 2.5 Admisibilidad y Reglas de Bayes . . . . . . 2.6 Admisibilidad y Reglas Minimax . . . . . 2.7 Ejercicios . . . . . . . . . . . . . . . . . . 17 . . . . . . . . 18 Cl asica . . . 18 . . . . . . . . 27 de Bayes y . . . . . . . . 46 . . . . . . . . 51 . . . . . . . . 58 . . . . . . . . 66 71 . 72 . 74 . 82 . 86
3 Fundamentos de la Teor a Bayesiana de Decisi on 3.1 Breve introducci on a la Teor a de Utilidad . . . . . . . 3.1.1 M etodos de construcci on de la funci on de utilidad U . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 El Principio de la Verosimilitud . . . . . . . . . . . . . 3.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . .
4 An alisis Bayesiano 89 4.1 Test de Hip otesis . . . . . . . . . . . . . . . . . . . . . . 89 4.2 Operaciones con la Distribuci on a Posteriori y sus propiedades 98 4.2.1 Intervalos de Credibilidad (Probabilidad) . . . . . 98 4.2.2 Densidades Marginales y Par ametros de Molestia 99 7
CONTENIDO
4.3
4.4
4.5
4.6
4.2.3 Inferencia Predictiva . . . . . . . . . . . . . . . . 101 4.2.4 Normalidad Asint otica de la Densidad Posterior . 104 Aplicaciones al Dise no Experimental y al An alisis Secuencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.3.1 Tama no de la Muestra Optimo . . . . . . . . . . 106 4.3.2 An alisis Secuencial . . . . . . . . . . . . . . . . . 108 La Familia Exponencial. Extensi on del Principio Bayesiano109 4.4.1 Densidad a priori No-Conjugada. Inuencia acotada y no acotada . . . . . . . . . . . . . . . . . . 115 C alculos y Aproximaciones Bayesianas . . . . . . . . . . 115 4.5.1 Aproximaciones de Laplace . . . . . . . . . . . . 116 4.5.2 Integraci on de Monte Carlo . . . . . . . . . . . . 117 4.5.3 Simulaci on de la densidad posterior . . . . . . . . 118 4.5.4 M etodos Monte Carlo de Cadenas de Markov (MCMC)118 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 120 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 124 126 128 130 138 140 144 145
5 An alisis Bayesiano del Modelo Lineal 5.1 Previas No-Informativas . . . . . . . . . . . . . 5.2 An alisis No-Informativo del Modelo Lineal . . . 5.3 Modelo Lineal Jer arquico . . . . . . . . . . . . . . 5.3.1 Modelo Lineal Normal Jer arquico (MLNJ) 5.4 El Modelo Lineal Din amico . . . . . . . . . . . . 5.4.1 El Modelo constante . . . . . . . . . . . . 5.4.2 Caso Varianza desconocida . . . . . . . . . 5.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . .
6 Selecci on de Modelos y Test de Hip otesis Bayesianos 6.1 Introducci on . . . . . . . . . . . . . . . . . . . . . . . . 6.2 El Factor de Bayes Intr nseco . . . . . . . . . . . . . . 6.3 El IBF Esperado . . . . . . . . . . . . . . . . . . . . . 6.4 Previas Intr nsecas . . . . . . . . . . . . . . . . . . . . 6.5 El IBF para el Modelo Lineal Normal . . . . . . . . . A Distribuciones de probabilidades
147 . 147 . 152 . 157 . 159 . 163 169
Cap tulo 1 Elementos del Problema de Decisi on Estad stica

Enfrentaremos el siguiente problema : suponemos que un Tomador de decisiones (TD) se propone tomar una decisi on racional bajo condiciones de incertidumbre estad stica. Es decir, el estado de la naturaleza no le es conocido exactamente, pero puede adquirir informaci on sobre el a partir de un experimento. Adem as, el TD tiene valores, o sea si supiera la condici on exacta de la naturaleza ser a capaz de ordenar sus posibles decisiones en t erminos de sus preferencias.
1.1
Elementos de un Problema de decisi on Estad stica
Los elementos de un problema de Decisi on Estad stica a ser especicados por el TD para cada problema son los siguientes : 1. Espacio de posibles acciones : A = {a} 2. Espacio de estados posibles de la naturaleza o espacio de par ametros: = {}. 3. Familia de experimentos para adquirir informaci on experimental (o muestral) sobre : E = {e}. 9
10
ESTADSTICA CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION
4. Espacio muestral, o sea, el espacio de posibles observaciones experimentales : X = {x}. Ejemplo 1.1 (Control de Calidad). Le env an del exterior a una compa n a un lote de 10000 transistores. La compa n a designa a un TD el cual tiene el espacio de acciones : A = {a1 , a2 }, donde a1 es aceptarlo y pagar el precio jado, y a2 rechazarlo y pagar el ete de vuelta, = {0 , 1 , . . . , 10000 } donde el estado de la naturaleza j = {j transistores defectuosos}. El TD puede inspeccionar un n umero n a su antojo de transistores, y al hacerlo el proceso de inspecci on los destruye. Entonces el espacio de experimentos es : E = {e0 , . . . , e10000 } donde en = {n transistores son inspeccionados}. El espacio muestral para el experimento en viene dado por : X = {(j, n) : 0 j n 10000}, donde (j, n) es la observaci on: j transistores de los n inspeccionados son defectuosos.3 5. Funci on de utilidad (p erdida) : El TD escoge una funci on : u(e, x, a, ) : E X A R . El TD le asigna una utilidad u(e, x, a, ) a realizar el experimento e , observar el resultado x, tomar la acci on a y nalmente encontrar el valor . Esta avaluaci on u, toma en cuenta el costo de experimentaci on as como las consecuencias de la acci on a para cada estado de la naturaleza . Equivalentemente, el TD puede evaluar sus p erdidas en la forma de una funci on: L(e, x, a, ) = u(e, x, a, ). El TD es racional si procura la m axima utilidad o equivalentemente la menor p erdida. 6. Asignaci on de probabilidades: Antes de observar el resultado del experimento X = x, tanto X como son variables aleatorias (v.a) ( que es inobservable hasta el nal del problema de decisi on, continuar a siendo v.a). Una vez decidido el experimento e, las v.as X y est an gobernadas por la densidad de probabilidad conjunta:
ESTADSTICA 1.1. ELEMENTOS DE UN PROBLEMA DE DECISION
11
p,X (, x | e) : X R + . Antes de discutir maneras alternativas de evaluar la densidad conjunta, recordemos el Teorema de Bayes. Supongamos : R d un conjuto de Borel, es una medida de probabilidad (llamada a priori o previa) en R d , con () = 1, el vector de observaciones x R n tiene una densidad pX | (x | ) con respecto a una medida -nita la cual no depende de , PX | es conjuntamente medible en (X, ). Entonces para cada conjunto B , -medible, la siguiente f ormula (de Bayes) dene una medida regular de probabilidad condicional para dado X , y puede justicarse bajo condiciones bastante generales (ver por ejemplo Walley 1989) : p(x | )d() = p(x | )d( )
B
P (B | x) =
p(x | )d() , m(x)
(1.1)
donde hemos omitido por conveninecia la menci on al experimento e. Si B = , entonces en t erminos de la densidad tenemos : p|X ( | x) = pX | (x | ) () . m(x) (1.2)
Las densidades de probabilidad que aparecen en (1.2) tienen una importancia capital en Estad stica y Teor a de Decisi on: pX | : es la verosimilitud de la observaci on condicionada al par ametro. () : es la densidad a priori que nos da la plausibilidad de cada valor del vector de par ametros antes de observar el experimento. Se interpreta a () como el conocimiento que tiene el TD sobre antes de la observaci on. m(x) es la densidad predictiva de las observaciones, proveniente de promediar la verosimilitud a trav es de la medida a priori.
12
p|X ( | x) es la densidad a posteriori o posterior , que nos indica el aprendizaje que se ha obtenido a partir de los datos X , pasando de un conocimiento a priori a uno a posteriori. De la simetr a entre X y podemos entonces escribir: (omitiendo los sub ndices): p(x, ) = p( | x)m(x) = p(x | ) (). (1.3)
Entonces tenemos tres estrategias para asignar la densidad conjunta: 1. Directamente, 2. p( | x)m(x), 3. p(x | ) (), siendo esta u ltima la m as usual.
1.2
El Problema de Decisi on como un Juego entre el TD y la Naturaleza
El juego se realiza en cuatro pasos : TD escoge e, N escoge x, TD escoge a, N escoge , y nalmente TD recibe u(e, x, a, ). El juego sigue el siguiente diagrama donde los nodos cuadrados son de decisi on (TD) y los nodos circulares (N) son aleatorios.
a1 e1
3 e 2 e3 s
x1
3 x 2 x3
a2 a3 * a 4 a5
1 2 -
u(e2 , x3 , a4 , 2 )
eE
x X
R4
aA
3 R
Figura 1.1. Arbol de Decisi on Ejemplo 1.2. Una operadora de Petr oleos de Venezuela debe tomar una decisi on con respecto a un area donde a un no se ha perforado pero
COMO UN JUEGO ENTRE EL TD Y LA NATURALEZA13 1.2. EL PROBLEMA DE DECISION
que tiene una alta probabilidad de tener petr oleo. Los estados de la naturaleza son (simplicadamente): = 1 : Hay petr oleo. 2 : No hay petr oleo
Las acciones posibles de la operadora son: A= a1 : Perforar a2 : Vender el campo a otra operadora
La operadora tiene la posibilidad de realizar una medici on geol ogica para vericar si cierta formaci on geol ogica est a presente o ausente. El costo de la medici on es C (en miles de $). El espacio muestral consta de dos puntos: X= 0 formaci on geol ogica ausente 1 formaci on geol ogica presente
La presencia o ausencia de petr oleo afecta la probabilidad de la presencia o ausencia de la formaci on geol ogica de acuerdo con la siguiente funci on de verosimilitud: p(x | i ): \x 0 1 1 0.2 0.8 2 0.7 0.3
Note que necesariamente p(x = 0 | i ) + p(x = 1 | i ) = 1, i = 1, 2. El experimento da informaci on acerca de a trav es de la verosimilitud (y del teorema de Bayes). Por ejemplo p(x = 1 | 1 ) > p(x = 0 | 1 ), pero se obtiene lo contrario para 2 . Supongamos que el TD est a dispuesto a armar antes de observar a x que, en base a su conocimiento t ecnico , en areas de similares caracter sticas a la presente, la probabilidad a priori de la presencia de petr oleo es: (i ): 1 2 () 0.6 0.4
Finalmente el TD eval ua su utilidad (o p erdida) monetaria o no, de las diferentes acciones frente a los posibles estados de la naturaleza. Si no se realiza el experimento geol ogico, la p erdida (en miles de $) viene
14
dada por la siguiente tabla: \a a1 a2 L(a, ): 1 -5000 0 2 2000 -500 Si se realiza el experimento a la funci on de p erdida anterior se le suma C , por ejemplo L(a1 , 1 ) = 5000 + C , etc. El TD tiene al principio tres posibles decisiones: perforar, vender o realizar el experimento, y debe decidir la que reporte menor p erdida. Si se realiza el experimento, las probabilidades de cambian, por lo que se deben calcular las probabilidades a posteriori, lo que se har a en el siguiente cap tulo. El arbol de decisi on est a representado en la gura 1.2.3
1 a1 a2 2 1 2 1 2 a2 1 2
-5000+C 2000+C C -500+C -5000+C 2000+C C -500+C -5000 2000 0 -500
x=1
Experimento
x=0
a1
a1 a2
1 2 1 2
Figura 1.2. Arbol de decisi on Ejemplo 1.2
COMO UN JUEGO ENTRE EL TD Y LA NATURALEZA15 1.2. EL PROBLEMA DE DECISION
El problema de decisi on est a ahora completamente especicado y el TD, si quiere conservar su puesto, debe tomar una decisi on que haga su p erdida m nima (o su utilidad m axima). Sin embargo, su p erdida depende crucialmente del estado de la naturaleza , el cual no puede observar antes de tomar su decisi on!. Precisamente, para romper este c rculo necesitaremos de una teor a de decisiones bajo incertidumbre que desarrollaremos en los pr oximos cap tulos. Por u ltimo, hacemos notar que a un cuando es desconocido hay informaci on substancial sobre ella, sobre todo cuando observemos el valor de X .
16
Cap tulo 2 Teor a Cl asica de Decisi on

La teor a de decisiones bajo incertidumbre tiene su desarrollo original durante la II Guerra Mundial. El texto cl asico donde se expone partiendo de un punto de vista frecuentista (es decir basado en la frecuencia relativa de las observaciones X de experimentos similares condicionados en ) es Wald (1950). A partir de all ha tenido un vigoroso desarrollo que iremos mencionando. En este cap tulo nos basaremos primordialmente en Ferguson(1967) as como en Lehmann(1983), Berger(1985), Brown(1984), Pericchi(1986) y Walley(1987). Un punto de vista alternativo al frecuentista, pero con muchos puntos de contacto con el, es el Bayesiano o subjetivo, expuesto en Savage(1954), DeGroot(1970), Lindley(1971) y Berger(1985), donde el conocimiento a priori del experimento juega un papel m as prominente. Le dedicaremos al enfoque subjetivo los cap tulos nales de este libro a un cuando conceptos subjetivos aparecer an en forma natural a todo lo largo del mismo. Supondremos todo el tiempo que el TD es un individuo, o un grupo que act ua como individuo. Esto no necesariamente es as en la pr actica. Un area apasionante de investigaci on es Teor a de Decisi on de Grupos que no tocaremos aqu . 17
18
CAPTULO 2. TEORA CLASICA DE DECISION
2.1
Introducci on.
En este cap tulo se introducen muchas ideas que son fundamentales en Teor a de Decisi on, y adem as se comparan los puntos de vista frecuentista y Bayesiano, as como las ventajas y desventajas de cada uno. En la secci on 2.1 se denen conceptos b asicos de la Teor a Cl asica de Decisi on basada en el concepto frecuentista de la funci on de riesgo. Sin embargo, no existe una u nica soluci on admisible de acuerdo al riesgo. En la secci on 2.2 se introducen tres criterios de ordenamiento de las decisiones: 1)Restricci on del conjunto de decisiones, 2)Ordenamiento Bayesiano y 3)Ordenamiento Minimax. Se desecha el ordenamiento del criterio 1 porque t picamente excluye buenas decisiones y porque para un conjunto ampl simo de problemas, selecciona como o ptimas a decisiones inadmisibles. Seguidamente se estudian las propiedades de las reglas de Bayes y Minimax. Respecto a esta u ltima, que es fundamental en Teor a de Juegos, se concluye que para la Teor a de Decisi on no es adecuada, por su pesimismo y porque t picamente selecciona como optimas decisiones no determinadas, es decir aleatorias. Por u ltimo exponemos ventajas del enfoque Bayesiano que lo hacen la alternativa m as atractiva a la Teor a de Decisi on, a un cuando es conveniente hacer an alisis de sensibilidad con respecto a la distribuci on a priori. Pero, incluso desde el punto de vista frecuentista, el enfoque Bayesiano presenta ventajas fundamentales, como el hecho de que toda decisi on admisible es una decisi on Bayesiana, o l mite de Bayesiana. Adem as implica una simplicaci on radical del an alisis racional de decisiones.
2.2
Conceptos B asicos de la Teor a de Decisi on Cl asica
Notaci on: Denotaremos a la Esperanza Matem atica de la funci on g (y, ), donde y es la variable de integraci on, por : g (y, )p(y | ) si y es una v.a discreta g (y, )p(y | )dy si y es una v.a continua
EY | [(g (y, )] =
y Y Y
CLASICA 2.2. CONCEPTOS BASICOS DE LA TEORA DE DECISION
19
donde Y son los valores posibles de y , y p(y | ) es la densidad de probabilidades de y condicionada al valor del par ametro . Generalizaremos la noci on de esperanza dada arriba por la expresi on m as suscinta : EY | [(g (y, )] = g (y, )dP (y | ) = E [g (y, ) | ] (2.1)
Se puede interpretar a (2.1) como la integral de Lebesgue, suponiendo que para cada , g (y, ) es integrable Lebesgue. Tambi en puede interpretarse la ecuaci on (2.1) como la integral de Riemann-Stieltjes, donde P (y | ) es la distribuci on acumulada de y condicionada a y g (y, ) es continua en un conjunto de probabilidad uno bajo P (y | ) para cada . Las propiedades de (2.1) que van a ser m as utilizadas son: 1. E (ax + y ) = aE (x) + E (y ) 2. Si x > 0 E (x) > 0. Las propiedades 1 y 2 son v alidas bajo ambas interpretaciones. Ilustraciones de la notaci on expuesta son por ejemplo: 1. E|X [u(e, x, a, )] = 2. P|X (A) =
A
u(e, x, a, )dP ( | x)
dP ( | x)
3. PX | (B ) = B dP (x | ), y si est a bien denida la densidad p(x | ), entonces PX | (B ) = B p(x | )dx. El lector debe percatarse de que P|X y PX | son dos entidades completamente distintas y no debe confundirse por el hecho de que en ambas se utilice la may uscula P . Note que por ejemplo P|X (A) = E|X [1A ()], donde 1A () = 1 si A 0 si A
Denici on 2.1 Cualquier funci on d(x) : X A es llamada una regla de decisi on no aleatoria o determinada.
20
Supongamos que el TD especica una funci on de p erdida L, o equivalentemente una funci on de utilidad u(e, x, d(x), ), en la que supondremos (por simplicidad de notaci on) que tanto el efecto del experimento, como de x est an considerados dentro de la regla de decisi on d(x). O sea, tenemos que: L(e, x, d(x), ) = u(e, x, d(x), )= L(d(x), ) = u(d(x), ). Podemos en general representar el problema de decisi on estad stica por : (, A, L), acoplado a un experimento e que envuelva a la v.a X cuya distribuci on depende exclusivamente de : PX | . El concepto pivote sobre el que se fundamenta la teor a cl asica (frecuentista) de decisi on, es el concepto de Riesgo Frecuentista. Denici on 2.2 El valor esperado respecto de X de la funci on de p erdida para la regla de decisi on d(x) se llama el riesgo frecuentista. O sea R(, d) = EX | [L(d(x), )] = Comentarios 1. Usualmente nos restringimos a aquellas reglas de decisi on para las cuales R(, d) existe y es nito . Denotamos a esta clase de decisiones no aleatorias de riesgo nito por D. 2. R(, d) representa la p erdida promedio (en X ) del TD cuando emplea la regla de decisi on d(x) y el estado de la naturaleza es . El TD quisiera encontrar un d0 tal que el riesgo fuese m nimo. 3. El average o promedio (2.2) se toma con respecto a la frecuencia de los posibles valores de X . Por consiguiente R(, d) no es funci on de X pero s de , la cual no es observable antes de la decisi on. (Parad ojicamente, a pesar de que X es observable se toma el promedio en esta variable). Por esta raz on R(, d) aisladamente no sirve para ordenar completamente las reglas de decisi on de mejor a peor, aunque servir a para excluir decisiones absurdas que llamaremos inadmisibles. Para ordenar racionalmente las decisiones optimas necesitaremos un extra-principio que nos diga c omo ordenar completamente R(, d), ya que es desconocido. L(d(x), )dP (x | ) (2.2)
21
Ejemplo 2.1 (cont. Ejemplo 1.2). Podemos listar las posibles reglas de decisi on que han sido precedidas de la decisi on de realizar el experimento e1 de la siguiente manera: x\d 0 1 d1 a1 a1 d2 a1 a2 d3 a2 a1 d4 a2 a2
Adem as las reglas en las cuales se ha decidido no realizar el experimento e0 : d5 = a1 y d6 = a2
R(2 , d) d1 d5 d2 1000 d3 -5000 -4000 -3000 -2000 -1000 d6 d4 1000 R(1 , d) 2000
-1000
Figura 2.1. Regi on D de decisiones determinadas (Ejemplo 2.1) Por ejemplo, la regla de decisi on d2 signica: decidir hacer el experimento , y si obtenemos x = 0 tomamos la acci on a1 , pero si obtenemos
22
x = 1 tomamos la acci on a2 . Por otro lado, la regla de decisi on d 5 signica decidir no realizar el experimento y tomar la acci on a1 . Entonces : R(, d) = EX | [L(d(x), ] = 2 j =1 L(aj , )PX | (d(x) = aj ). Por ejemplo, usando la funci on de p erdida y verosimilitud dadas en el enunciado del ejemplo 1.2 en el Cap tulo 1, tenemos: R(2 , d2 ) = L(a1 , 2 )PX | (d2 (x) = a1 ) + L(a2 , 2 )PX | (d2 (x) = a2 ) R(2 , d2 ) = 2000P (x = 0 | 2 ) + (500)P (x = 1 | 2 ) + C = 2000(0.7) + (500)(0.3) + C = 1250 + C Para d5 y d6 , R(, dj ) = L(, dj ). Entonces el riesgo R(, d) viene dado por la siguiente tabla (se deja como ejercicio vericarla): R\d d1 d2 d3 d4 d5 d6 R(1 , d) -5000+C -1000+C -4000+C C -5000 0 R(2 , d) 2000+C 1250+C 250+C -500+C 2000 -500 Supongamos que C = 90. Entonces los riesgos se dan en la siguiente tabla: R\d d1 d2 d3 d4 d5 d6 R(1 , d) -4910 -910 -3910 90 -5000 0 R(2 , d) 2090 1340 340 -410 2000 -500 En la gura 2.1 se gracan d1 a d6 , donde los ejes son R(1 , d) y R(2 , d).3 Es de hacer notar que en el ejemplo 2.1 hay decisiones que jam as tomar amos racionalmente: por ejemplo d1 es peor que d5 tanto para 1 como para 2 . Decimos que d1 est a dominada por d5 , y que d1 es inadmisible. El lector puede comprobar que todas las reglas de decisi on que est an por encima de la frontera inferior del gr aco (2.1) son inadmisibles, es decir d1 y d4 son inadmisibles. Por otra parte las decisiones que forman la frontera inferior, es decir d3 , d6 y d5 no est an dominadas por ninguna otra decisi on determinada y por tanto son admisibles. Veremos en este cap tulo que esto no es casual.
23
Ejemplo 2.2 (Test de hip otesis). Aqu el problema es decidir si pertenece a un subconjunto del espacio de par ametros 0 , que es la hip otesis nula, o a su complemento: H0 : 0 vs H1 : c 0
La funci on de verosimilitud es pX | el espacio de acciones es A = {a0 , a1 } donde a0 es aceptar H0 y a1 rechazar H0 (o sea aceptar H1 ). La funci on de p erdida viene dada por: ai \ L(, ai ) : a0 a1 c 0 L0 0 0 0 L1
donde Li > 0, para i = 0, 1. Entonces L0 es la p erdida por la falsa aceptaci on de H0 y L1 la p erdida por falso rechazo de H0 . Se supone que la p erdida incurrida por una decisi on correcta es cero. Por lo tanto la funci on de riesgo es:
L0 P (d(x) = a0 | ) si c on de H0 ) 0 (Error de falsa aceptaci L1 P (d(x) = a1 | ) si 0 (Error de falso rechazo de H0 ), (2.3)
R(, d) =
(usualmente se llama al error de falsa de aceptaci on Error de tipo II, y al de falso rechazo Error de tipo I), o sea el riesgo es la p erdida incurrida por una decisi on incorrecta multiplicada por la probabilidad de una decisi on err onea. Notar que esta probabilidad es calculada condicionalmente para cada , cuando H1 o H0 son correctas respectivamente. Los valores de L0 y L1 son asignados por el TD.3 Ejemplo 2.3 (Estimaci on puntual). Sea = R , y se desea estimar o aproximar a por una funci on d : X R . Entonces A = R , y se dice que el espacio de par ametros y decisiones coincide. Supongamos que el TD asigna una p erdida cuadr atica: L(, d(x)) = c( d(x))2 con c > 0. Esta funci on de p erdida, que fue originalmente usada por Gauss, es la m as frecuentemente empleada en problemas de estimaci on. Es convexa y sim etrica penalizando igualmente la sub o la sobre-estimaci on.
24
Es adem as muy tratable matem aticamente. Es sin embargo algo arbitraria, (por qu e no | d(x) |?), no acotada y crece quiz as demasiado r apido cuando d(x) se aleja de . El riesgo en este caso se denomina error cuadr atico medio y puede escribirse como: R(, d) = EX | c( d(x))2 = cEX | EX | (d(x)) d(x) EX | (d(x))
2 2
=
2
c EX | (d(x))
+ cEX |
d(x) EX | (d(x))
2c EX | (d(x)) EX | d(x) EX | (d(x)) y como
EX | d(x) EX | (d(x)) = EX | [d(x)] EX | [d(x)] = 0, ya que EX | [d(x)] no depende de X , entonces si denimos EX | (d(x)) = sesgo(d(x), ) tenemos: R(, d) = c sesgo2 (d(x), ) + V arX | (d(x)) .3 (2.4)
Por lo tanto si se emplea p erdida cuadr atica un buen estimador d(x) ser a aqu el cuya suma de sesgo al cuadrado m as su varianza sea peque na. El test de hip otesis y la estimaci on puntual (y de intervalos que veremos posteriormente) son los problemas m as importantes de la inferencia estad stica , y hemos visto en los ejemplos 2.2 y 2.3 que pueden frasearse como problemas particulares de la teor a de decisi on estad stica.
25
Para proseguir, conviene (matem aticamente) extender el espacio de decisiones determinadas D, por su casco convexo que llamaremos D. Los elementos de D, (x); ser an llamados reglas de decisi on aleatorias y pueden ser pensados como una distribuci on de probabilidades en D. Denici on 2.3 Una regla de decisi on aleatoria , es una distribuci on en el conjunto D de las reglas de decisi on determinadas. Su funci on de riesgo se dene como : R(, ) = EZ [R(, z )], donde Z es una v.a que toma sus valores en D y cuya distribuci on viene dada por . El espacio D est a compuesto por las reglas de decisi on aleatoria tal que R(, ) exite y es nita . Una ventaja matem atica de considerar D es que linealiza a D. Por ejemplo si 1 y 2 D, y 0 1, denimos = 1 + (1 ) 2 , o sea es 1 con probabilidad y 2 con probabilidad 1 , es decir, una mezcla de 1 y 2 , entonces: R(, ) = R(, 1 ) + (1 )R(, 2 ) y D, y por lo tanto D es convexo. Est a claro adem as que D D, ya que d D, corresponde a la regla aleatoria (degenerada) que asigna probabilidad uno al punto d. Tambi en es claro que R(, ) est a en el segmento de la recta que une a 1 con 2 . Continuaci on Ejemplo 2.1. Una posible regla aleatoria es: (e, x) = d3 con probabilidad 1/2 d6 con probabilidad 1/2.
Entonces (e, x) puede obtenerse como: con probabilidad 1 , no 2 hacer el experimento y tomar la acci on a2 , como especica d6 . Con 1 probabilidad 2 , hacer el experimento; si x=0, tomar la acci on a2 y si x=1 tomar la acci on a1 . O sea, el TD lanza una moneda balanceada. Si sale cara, aconseja no realizar el experimento y tomar la acci on a2 . Si sale sello, aconseja realizar el experimento, si sale x=0 aconseja la acci on a2 y si sale x=1 aconseja la acci on a1 . Las decisiones aleatorias son claramente insensatas en el contexto de teor a de decisi on y posiblemente el TD perder a su puesto si decide (e, x). (El estad stico est a para reducir la incertidumbre, no para aumentarla, R.A.Fisher).
26
La funci on de riesgo de ser a: 1 1 R(, ) = R(, d3 ) + R(, d6 ). 2 2 O sea, R(, ) est a en la recta que une a d3 con d6 en la gura 2.1. De hecho: 1 1 R(1 , ) = (3910) + (0) = 1955 2 2 1 1 R(2 , ) = (340) + (500) = 80. 3 2 2 Denici on 2.4 El conjunto de riesgo S es el conjunto de puntos en R k cuyas coordenadas son (R(1 , ), . . . , R(k , )) para toda D. Por la linealidad del riesgo, S es un conjunto convexo, o sea si
x S, y S, 0 1, entonces: x + (1 )y S . Esto se
demostrar a en la secci on 2.3.
Continuaci on Ejemplo 2.1. En la gura 2.1, S ser a el conjunto convexo que tiene a las decisiones determinadas d1 , . . . , d6 como v ertices.3 Entonces los v ertices de S corresponden a decisiones determinadas. (Pero es posible que una decisi on determinada caiga en el interior de S ). Procedemos ahora a ordenar parcialmente las decisiones D de acuerdo al riesgo frecuentista. Denici on 2.5 Sean 1 y 2 D. Diremos que 1 es R-mejor que 2 si: 1. R(, 1 ) R(, 2 ), . 2. R(0 , 1 ) < R(0 , 2 ), para alg un 0 . 1 D es admisible si no existe D que sea R-mejor que 1 . Decimos que 1 D es inadmisible si no es admisible, es decir, si existe D que sea R-mejor que 1 . Si , A y X son nitos como en el ejemplo 2.1, entonces D es nito y S es un poliedro, que es el casco convexo de un n umero nito de puntos en D, cuyos v ertices son reglas de decisi on determinadas. Entonces, S es convexo, cerrado y acotado.
2.3. DECISIONES OPTIMAS
27
Denici on 2.6 Para x S , Qx = y R k : yj xj , 1 j k, y = x es el conjunto de puntos de riesgo que son mejores que x. La frontera inferior de S , (S ) , es el conjunto de los x S tal que Qx S = . Continuaci on Ejemplo 2.1. (S ) est a compuesto por los segmentos de recta que unen a d5 con d3 y d3 con d6 , o sea las D que son mezclas de d5 y d3 y d3 y d6 . Estas mezclas son precisamente el conjunto de decisiones admisibles en D.3 Teorema 2.1 Supongamos que (S ) S y existe M tal que si (y1 , . . . , yk ) S yj > M ; j = 1, . . . , k . Una regla de decisi on D es admisible si y s olo si su punto de riesgo est a en (S ). Prueba: (Ejercicio) Sugerencia: es admisible si y s olo si no existe un punto de riesgo mejor en S , si y s olo si Qx S = .2 Admisibilidad es s olo una condici on necesaria mas no suciente para que una regla de decisi on sea razonable. M as a un, establece solamente un orden parcial entre las decisiones que no nos permite encontrar la regla optima, si esta existe. C omo escoger entre la innidad de reglas admisibles en el ejemplo 2.1?. Precisamos de un m etodo que nos provea de un orden total de las decisiones y nos permita encontrar una regla optima. Expondremos seguidamente tres m etodos alternativos.
2.3
Decisiones Optimas
METODO 1: Restricci on del conjunto de decisiones Este punto de vista sostiene que hay t picamente demasiadas decisiones y que para ordenarlas primero se precisa restringirlas, dejando fuera decisiones tontas. Un ejemplo motivar a este punto de vista. Continuaci on Ejemplo 2.3. El siguiente estimador tonto de es admisible: d(x) = a, x X . Es decir no importa cual sea la evidencia dada por el experimento, aproximamos a por el valor a. El problema
28
es que para = a : R(a, d) = c{sesgo2(d(x), a) + V arX |a (d(x))} = 0, ya que la varianza de d(x) es 0 por ser una constante y sus sesgo es nulo para = a. Entonces un estimador optimo tendr a que mejorar a todos los estimadores (x) = a, variando a en R y deber a tener riesgo nulo para todo ; lo cual es imposible. Se busca entonces restringir a D de tal manera que d(x) = a quede fuera.3 Sigamos con problemas de estimaci on puntual y veamos dos posibles estrategias. 1. Procedimientos Insesgados: Consideremos s olo aquellos estimadores que sean insesgados, o sea d(x) : EX | [d(x)] = , ,
y as el estimador tonto anterior queda fuera. Si la p erdida es cuadr atica entonces el problema se reduce a encontrar un estimador de varianza m nima, el cual en muchos casos existe. 2. Procedimientos Invariantes: Se plantea que la estructura del estimador optimo no debe depender del origen o escala de medidas de X o de otros factores arbitrarios. Para jar ideas supongamos que es un par ametro de localizaci on es decir: PX | (x | ) = PX | (x ) y L(, a) = L( a).
En este caso los estimadores invariantes por cambios en el origen de los datos X son: {d(x) : d(x + b) = d(x) + b}. A un cuando las estrategias del m etodo 1 han sido en el pasado muy usadas, lo son cada vez menos. Las razones principales son las siguientes: (a) Si bien dejan fuera a estimadores tontos, tambi en excluyen a buenos estimadores. (Veremos ejemplos a lo largo de este libro).
29
(b) Los estimadores optimos de (1) o (2) pueden ser inadmisibles. Ejemplo 2.4. Supongamos que PX | (x | ) = PX | (x) = Cauchy (, 1) = 1 . Para esta densidad no existe la Esperanza de X y por lo [1+(x)2 ] tanto ning un otro momento. Supongamos que la funci on de p erdida 2 es cuadr atica L(, d(x)) = L( d(x)) = c( d(x)) . Siendo este un problema invariante por cambios de localizaci on, los estimadores invariantes son de la forma: db (x) = x + b, (los cuales no pueden ser insesgados ya que no existe EX | (x)). Ahora bien: R(, db ) = EX | c( (x + b))2 = , para todo y todo b. Sin embargo el estimador tonto y no-invariante d(x) = 0 tiene riesgo R(, 0) = 2 < R(, db ), y por lo tanto todos los estimadores invariantes son inadmisibles.3 Ejemplo 2.5. Este es el ejemplo m as famoso de inadmisibilidad (James y Stein, 1960). Sean X1 , . . . , Xn independientes, Xj N (j , 1), y se quiere estimar = (1 , . . . , n ) con p erdida cuadr atica: L( , a) = n 2 ( a ) . El estimador ( x ) = x , o sea estimar cada j por j 0 j =1 j Xj , es el estimador invariante optimo y es el estimador insesgado de varianza m nima. (Tambi en es el estimador de m axima verosimilitud y de m nimos cuadrados, m etodos populares de obtener estimadores). o n=2, pero es inadmisible El estimador 0 (x) es admisible para n=1 para n 3. Este resultado, que conmovi o a la inferencia estad stica, fue obtenido originalmente por Stein (1955). por James-Stein, domina a 0 (x) para todo .3 Por estas razones desechamos el m etodo 1 de restricci on de reglas de decisi on y procedemos a exponer y estudiar los pr oximos dos m etodos que proveen un ordenamiento global de las reglas de decisi on. El estimador sesgado 1 (x) =
n2
n j =1
x2 j
x, para n 3, propuesto
30
METODO 2: Ordenamiento Bayesiano. El ordenamiento parcial de las decisiones provienen del hecho de que R(, ) depende de , adem as de . Podemos ordenar las decisiones si tomamos el valor esperado de R(, ) con respecto a la medida de probabilidad d() = ()d, donde () es la distribuci on a priori de y () su densidad. La interpretaci on de () es subjetiva: es el estado de conocimiento que el TD tiene acerca del estado de la naturaleza. Se supone aqu que el TD tiene informaci on suciente acerca de como para representarla por una u nica distribuci on (), es decir para representarla de una manera precisa. Llamaremos a este supuesto, la hip otesis de la precisi on. Si esta hip otesis es aceptada, entonces es razonable ponderar R(, d) por (): Si (x) es una decisi on que lo hace muy bien (R(, ) peque no) en una regi on 0 de alta probabilidad a priori, y no tan bien en c que tiene poca probabilidad a priori, 0 entonces (x) seguir a siendo bastante buena. Denici on 2.7 El riesgo Bayesiano de la regla de decisi on D para la distribuci on a priori () se dene como: r(, ) = E [R(, )] = E EX | [L( (x), )] , el cual se supone que existe y es nito. Denici on 2.8 La regla de decisi on 0 ser a la regla de decisi on optima Bayes- promedio con respecto a la distribuci on a priori si y s olo si: r(, 0 ) = inf r(, ).
D
Es de hacer notar que la anterior denici on est a basada en un promedio en X (condicional en ), y por tanto sobre un concepto frecuentista. Esto es innecesario ya que el valor de X = x ser a conocido luego de obtener el resultado del experimento. Por tanto tenemos una forma alternativa de denir un procedimiento optimo-Bayes. Denici on 2.9 La p erdida Bayesiana esperada condicional en X de la acci on (x) para la distribuci on a priori () se dene como:
31
(, (x)) = E|X [L(, (x))] =
L(, (x))d( | x).
a la acci on optima Bayes, condiDenici on 2.10 La acci on (x) ser cional en X , para la distribuci on a posteriori ( | x) si y s olo si: (, (x)) = inf (, (x)).
D
A la denici on 2.10 se le conoce como el principio de la maximizaci on (minimizaci on) de la utilidad (p erdida) esperada. Para cada x X , escogemos aquella acci on (x) que hace m nimo lo que esperamos perder. Surge la pregunta, Puede la regla de decisi on optima Bayes promedio 0 obtenerse como (x) para cada x X ?. Afortunadamente la respuesta es s , bajo condiciones bastante generales. Teorema 2.2 Supongamos que L(, d) es no negativa y que: 1. Existe un estimador con riesgo nito.
2. Para casi todo x, existe un n umero (x) que minimiza a (, (x)). Entonces (x) es optimo Bayes promedio.
Prueba. Sea cualquier estimador con riesgo nito. Entonces, (, (x)) es nito c.s, ya que L es no negativa. Por lo tanto y el resultado se obtiene tomando esperanzas (en X ) a ambos miembros.2 Notamos que si L(, d) = M + L (, ), con M nito y L (, d) no negativa el teorema 2.2 sigue siendo v alido. Continuaci on Ejemplo 2.1. A partir de la tabla de riesgos, de (1 ) = 0.6 y (2 ) = 0.4, y recordando que hemos supuesto C = 90, podemos calcular los riesgos Bayesiano promedio usando la denici on 2.7 como sigue:
2 E [L(, (x)) | x] E [(L(, (x)) | x]
c.s.,
r(, d) =
i=1
R(i , d)(i ).
32
Se deja al lector vericar la siguiente tabla: r\d d1 d2 d3 d4 d5 d6 r(, d) -2110 -10 -2210 -110 -2200 -200 Por lo tanto la mejor decisi on determinada ser a d3 , o sea, realizar el experimento y tomar la acci on a2 si x = 0 y a1 si x = 1. Alternativamente, para obtener la mejor acci on Bayes-condicional calculemos primero las probabilidades a posteriori seg un la regla de Bayes: P (1 | x = 0) P (x = 0 | 1 )(1 ) = 0.2 0.6 = 0.12 P (2 | x = 0) P (x = 0 | 2 )(2 ) = 0.7 0.4 = 0.28 De lo anterior se tiene que P (x = 0) = P (x = 0 | 1 )(1 ) + P (x = 0 | 2 )(2 ) = 0.40. Normalizando, es decir dividiendo por P (x = 0), se obtiene: P (1 | x = 0) = P (2 | x = 0) =
0.12 0.4 0.28 0.4
= 0.3 = 0.7
Procediendo de manera similar para x = 1 se tiene P (x = 1) = 0.6, y entonces P (1 | x = 1) = 0.8 P (2 | x = 1) = 0.2. Si observamos x = 0, la p erdida esperada a posteriori para a1 y a2 ser a: (, a1 ) = (4910)(0.3) + (2090)(0.7) = 10 (, a2 ) = (90)(0.3) + (410)(0.7) = 260 de donde se deduce que la mejor decisi on Bayes condicional en x = 0 ser a a2 . Por otra parte si x = 1, (, a1 ) = 2510 (, a2 ) = 10 y la mejor decisi on ser a a1 . Por otro lado si no se realiza el experimento:
33
(, a5 ) = L(a1 , 1 )0.6 + L(a1 , 2 )0.4 = 2200 (, a6 ) = L(a2 , 1 )0.6 + L(a2 , 2 )0.4 = 200, y estas p erdidas condicionales esperadas son mayores que las de realizar el experimento, y si x = 0 tomar la acci on a2 y si x = 1, la acci on a1 . N otese que si juntamos las acciones optimas condicionales para x = 0 y x = 1 obtenemos d3 , que es la mejor decisi on Bayes promedio determinada. Supongamos ahora que C es desconocido, cu anto estar amos dispuestos a pagar por hacer el experimento?. Utilizamos aqu el principio de la minimizaci on de la p erdida esperada. Usando las mismas probabilidades a priori y a posteriori se obtiene el arbol de decisi on de la gura 2.2, en el que debajo de los nodos aleatorios se coloca la p erdida esperada y debajo de los nodos de decisi on el resultado de la minimizaci on. En el arbol el s mbolo // indica que la decisi on es absurda, por ejemplo a2 no la tomaremos ya que la p erdida esperada es -200 comparada con -2200 en a1 . Ahora debemos comparar las p erdidas esperadas de la acci on a1 con la de hacer el experimento, las cuales tienen p erdidas esperadas de -2200 y -2300+C respectivamente. El arbol de decisi on indica que lo m aximo que se deberia pagar por hacer el experimento es C = 100, es decir si C 100 se decide hacer el experimento y se decide on Bayes condicional a1 si x = 1 y a2 si x = 0. Esto coincide con la decisi en el desarrollo anterior, pues en aquel caso ten amos C = 90 < 100. Por otro lado si C > 100, entonces la decisi on optima ser a d5 .3 En el ejemplo anterior, con C = 90 hemos concluido que d3 es la regla de decisi on optima dentro de las reglas determinadas, es decir, d3 es optima es D. Surge la pregunta es d3 optima en D, es decir en el conjunto de todas las reglas de decisi on aleatorias?. Teorema 2.3 Supongamos que existe una regla optima Bayes promedio D, y que se cumplen las condiciones para intercambiar el orden de integraci on. Entonces existe una regla determinada d D, optima. Prueba. Sea 0 optima respecto de . Sea z la variable aleatoria con valores en D cuya distribuci on est a dada por 0 . Entonces,
34
1 0.8 a1 0.6
x=1 -3600+C -100+C -3600+C
-5000+C 2000+C -500+C -5000+C 2000+C C -500+C -5000 2000 0 -500
0.2
a2
1 0.8 C 2 1 2 1
0.2 0.3
Experimento
-2300+C
a1
x=0
0.4
-350+C
-100+C
0.7
a2
-350+C
0.3 0.7
a1 a2
1
-2200
0.6 0.4
2 1
0.6 0.4
-200
Figura 2.2. Arbol de decisi on Ejemplo 2.1
r(, 0 ) = E [R(, )] = E [EZ [R(, z )]] , cambiando el orden de integraci on tenemos: EZ [E [R(, z )]] = EZ [r(, z )] . Pero como 0 es optima para , se cumple que r(, 0 ) r(, d) d D.
Por lo tanto r(, 0 ) = r(, z ) con probabilidad uno y entonces cada d D que z escoge con dicha probabilidad cumplir a con r(, d) = r(, 0 ), y por lo tanto d ser a optima con respecto de . 2
35
Este resultado nos dice, en condiciones bastante generales, que bajo el ordenamiento Bayesiano, la b usqueda de decisiones optimas puede restringirse a reglas determinadas (no aleatorias). Ello establece una ventaja computacional, adem as de una ventaja intuitiva: cuando existan reglas optimas de Bayes, al menos una de ellas ser a determinada. En problemas de Decisi on, uno debe escoger decisiones determinadas, nunca aleatorias. Antes de pasar al pr oximo criterio de ordenamiento (Minimax) y de estudiar en forma m as exhaustiva las reglas de Bayes, ser a conveniente dar algunos ejemplos y procedimientos de c alculo de reglas Bayes- optimas, debido a sus ventajas computacionales. Comenzamos por hacer notar que el concepto frecuentista de estad stica suciente juega tambi en un papel crucial en el campo Bayesiano, en cuanto a reducir la dimensionalidad del vector de datos. Supongamos que la familia de distribuciones de X est a indexada por el par ametro : {p(x | ), }. Decimos que la funci on de los datos: T = T (x), usualmente llamada estad stica de X es suciente (para los datos) si la distribuci on condicional de X dado T = t es independiente de , t. Tenemos la siguiente denici on alternativa, el Criterio de Factorizaci on de Neyman. Teorema 2.4 Una condici on necesaria y suciente para que la estad stica T sea suciente para la familia {P (x | ), } de distribuciones de X dominada por la medida -nita , es que existan funciones no negativas g y h tal que la densidad (verosimilitud) p(x | ) de P (x | ) satisfaga: p(x | ) = g (T (x) | )h(x) (c.s.). (2.5)
Prueba. La prueba aparece por ejemplo en Lehmann(1959), Teorema 2.8 y Corolario 2.1 y se deja como lectura opcional.2 Lema 2.1 Supongamos que p(t) (la densidad marginal de t) es mayor que cero, y que se cumple (2.5). Entonces si T (x) = t, densidad a posteriori de cumple con: ( | x) = ( | t) = g (t | ) () . p(t) (2.6)
36 Prueba. Ejercicio.
El Lema 2.1 simplica usualmente las c alculos y provee una manera Bayesiana de entender la suciencia: T (x) es suciente si para toda densidad a priori tal que la densidad a posteriori exista, esta dependa de los datos s olo a trav es de T . Ejemplo 2.6 (Normal-Normal). Supongamos que X es Normal, X N (, 2 ) donde la media es desconocida pero la varianza 2 es conocida. Si tenemos una muestra X1 , . . . , Xn , entonces la densidad de
n
X =
1 n
N (, ) con y 2 conocidas. Entonces la densidad conjunta de X y es: p(x, ) = ()p(x | ) = 2 n

1
i=1 2
Xi es N , n
y X es suciente. Supongamos que () es
1 ( )2 n(x )2 exp + 2 2 2
n Denamos: = 12 + 2 , completando cuadrados en el argumento de la exponencial obtenemos:
p(x, ) = 2 n
y por tanto la densidad marginal (o predictiva) de X ser a, 2 p(x) = p(x, )d = (2 )( + ) n

2 1 2
1 1 nx exp + 2 2 2
exp
(x )2 , 2 2( 2 + ) n (2.7)
exp
(x )2 , (2.8) 2 2( 2 + ) n
o sea, p(x) = N , 2 + es:
2 n
. Finalmente la densidad posteriori de
( | x) =
p(x, ) ()p(x | ) = = p(x) p(x) 2
1 2
1 exp [ (x)]2 , 2 (2.9)
37
donde
1 nx n + = (x) = 2 2 2 +
2
+ 2
n
2 2 x 2 + n
(2.10)
y por lo tanto ( | x) = N (x), 1 . (2.11) Es de hacer notar que la esperanza a posteriori de , E ( | X ), es igual a (x), o sea un promedio ponderado entre y X , dado por (2.10).3 Ejemplo 2.7 (Beta-Binomial). Consideremos un experimento Bernoulli con n intentos y sea la probabilidad de exito. Entonces cada una de las observaciones ser an: Xi = Sea X+ = itud es:
n i=1
1 con probabilidad 0 con probabilidad (1-).
Xi el n umero de exitos en n intentos. Su verosimil-
p(x+ | ) x+ (1 )nx+
0 1; X+ = 0, 1, . . . , n. (2.12)
Supongamos que la densidad a priori es una Beta(n0 x0 , n0 (1x0 )), o sea la densidad a priori es: (n0 ) n0 x0 1 (1)n0 (1x0 )1 ; (n0 x0 )(n0 (1 x0 ))
1 X , n +
() =
n0 > 0, 0 < x0 < 1.
Entonces, llamando a X = emos: ( | x+ ) =
(2.13) usando la regla de Bayes obten-
()p(x+ | ) ()p(x+ | ) = n(x)1 (1 )n(1(x))1 p(x+ ) (2.14) donde n = n0 + n y n0 n (x) = x0 + x. (2.15) n n
38
Es inmediato ver que (2.14) y (2.13) tienen la misma forma y por tanto luego de normalizar para que 01 ( | x)d = 1 se tiene que: ( | x+ ) = Beta (n (x), n (1 (x))) .3 (2.16)
El lector se habr a percatado que el m etodo para obtener la densidad posteriori en este ejemplo, es decir conservar s olo los t erminos que dependen de , el Kernel de ( | x), y al nal normalizar para que integre uno al reconocer la forma funcional del Kernel de a posteriori, es m as expedito que el m etodo del ejemplo 2.6. Se puede ver (se deja al lector como ejercicio) que la esperanza de la densidad (2.13) es x0 , y por tanto la esperanza de(2.16) es (x) en (2.15), la cual tiene la misma estructura de (2.10) del ejemplo 2.6. Es decir la esperanza a posteriori es un promedio ponderado entre la media a priori y X , la media muestral. Como n = n0 + n, entonces n0 puede ser pensado como el tama no de muestra a priori equivalente al tama no muestral. La inuencia de la informaci on a priori en la densidad a posteriori es directamente proporcional a n0 . En el ejemplo 2.6 lo mismo se puede decir de 2 , el inverso de la varianza, el cual juega el mismo papel que n0 del ejemplo 2.7. (En algunos textos se denomina a 2 la precisi on). En el punto de vista Bayesiano, toda la informaci on (subjetiva o experimental) est a resumida en la distribuci on a posteriori. El siguiente teorema nos indicar a c omo vincular esta informaci on con importantes funciones de p erdida para problemas de estimaci on puntual. Teorema 2.5 Se quiere estimar una funci on g () y la funci on de p erdida L(, d) es no-negativa. Supongamos que las hip otesis del teorema 2.2 (x) el estimador optimo Bayes est an satisfechas. Denotemos por condicional para la distribuci on a priori .
(x) = E [g () | x] = g ()d( | 1. Si L(, d) = c(dg ())2 , entonces x), o sea el estimador optimo es la esperanza a posteriori de g ().
2. Si L(, d) = w()(d g ())2 , entonces:

(x) =
E [w()g () | x] . E [w() | x]
39
(x) es cualquier mediana 3. Si L(, d) = c | d g () |, entonces de la distribuci on a posteriori (g () | x).
Prueba.
1. (x) se obtiene minimizando en (x) a:
E ( (x) g ())2 | x ,
(2.17)
por hip otesis, existe 0 para el que esta esperanza posteriori es nita c.s en x, y por tanto lo ser a para . Como la p erdida cuadr atica es estrictamente convexa, tendr a un u nico valor m nimo. Si sumamos y restamos E [g () | x], que por hip otesis es nito, obtenemos como en el ejemplo 2.3 que (2.17) puede escribirse como: E (g () E (g () | x))2 | x + (E [g () | x] (x))2 .
(2.18)
El primer t ermino de (2.18) no depende de (x), y el segundo es no negativo, por lo que (2.17) se minimiza haciendo el segundo t ermino de (2.18) nulo, o sea (x) = E [g () | x]. 2. Ejercicio. 3. Ejercicio.2 Volviendo a los ejemplos 2.6 y 2.7, si la p erdida es cuadr atica y se desea estimar a , o sea g () = , entonces (x) = E ( | x) = (x). Es decir el estimador optimo Bayes de ser a su media a posteriori. La medida de exactitud o dispersi on de este estimador optimo viene dada por su riesgo condicional en X , o sea su riesgo posterior, que viene dado por el primer t ermino de (2.18). Para p erdida cuadr atica y g () = , la medida de dispersi on de (x) es la varianza a posteriori de . En el ejemplo 2.6 esta es 1 y en el ejemplo 2.7 es: (x) [1 (x)] n + 1
40
(Se deja al lector como ejercicio vericar la ecuaci on anterior). La estimaci on insesgada ya ha sido criticada. Veamos que t picamente un estimador insesgado no es optimo Bayes. Teorema 2.6 Se quiere estimar g () con p erdida cuadr atica. Entonces ning un estimador insesgado (x) puede ser optimo Bayes a menos que 2 EX, ( (x) g ()) = 0. Prueba. Supongamos que (x) es optimo Bayes para alguna distribuci on y adem as es insesgado para estimar g (). Entonces, E [ (x) | ] = g (), para todo . Adem as, condicionando en X , EX, [g () (x)] = EX | E [g () (x) | x] = EX | [ (x)E [g () | x]] = EX | 2 (x) ; ahora condicionando en , EX, [g () (x)] = E|X EX [g () (x) | ] = E|X [g ()EX [ (x) | ]] = E|X g 2() . Finalmente, EX, ( (x) g ())2 = EX | 2 (x) +E|X g 2() 2EX, [g () (x)] = 0.2 Apliquemos el teorema anterior a los casos de verosimilitud normal y binomial: 1. Normal: (x) = x es insesgado y EX | [X ] = . Pero para n 2 2 = = 0, por lo tanto X no es Bayes. El cualquier (), E n n estimador indmisible del ejemplo 2.4, no es de Bayes. 2. Binomial: (x) = x es insesgado y EX | X
2 2
2
(1) . n
1 1 Ahora bien, n olo si () es la dis0 (1 )d( ) = 0, si y s tribuci on trivial que asigna uno al conjunto {0,1}. (La moneda tiene 2 caras o 2 sellos, y x s olo puede ser 0 o 1)
Seguidamente describimos un m etodo de ordenamiento de decisiones, alternativo al Bayesiano, que intenta desembarazarse de la asignaci on de distribuciones a priori.
41
METODO 3: Ordenamiento Minimax En este m etodo en lugar de minimizar el riesgo promedio se minon que lo haga mejor, imiza el sup R(, ), o sea, se toma la decisi suponiendo que la naturaleza decide lo peor para nosotros, para cada . La gura 2.3 exhibe el pesimismo de este punto de vista.
R(, ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . .
Figura 2.3. El ordenamiento minimax preere 1 a 2 , ya que 2 tiene un riesgo m aximo mayor que 1 . En Teor a de Juegos, donde es escogida por un enemigo inteligente es recomendable prevenir que este nos va a hacer la vida tan dif cil como le sea posible y en el caso de la gura 2.3 escoger a a en la peque na regi on en donde 1 es mejor que 2 . Por fortuna la naturaleza no es usualmente tan mal evola!. Denici on 2.11 La regla de decisi on es minimax si sup R(, ) = inf sup R(, ),
D
(2.19)
y al valor de la parte derecha de (2.19) se le llama el valor minimax. De la denici on anterior se deduce (y se deja al lector como ejercicio) olo si que es minimax si y s R( , ) sup R(, )
y D.
(2.20)
42
La regla minimax es m as dif cil de obtener, en general, que en los m etodos 1 y 2. De hecho el m etodo Bayesiano nos va a ayudar a calcular la regla minimax. Esto no es sorprendente ya que podemos esperar que la regla minimax sea de Bayes para la peor distribuci on a priori que llamaremos menos favorable o de Murphy. Denici on 2.12 La distribuci on a priori 0 es menos favorable o de Murphy si ) r(, ) r(0 , 0
para todas las distribuciones a priori , donde es optima Bayes para y r es el riesgo Bayesiano promedio denido en 2.7.
Puede pensarse la distribuci on de Murphy como la que nos causa la m axima p erdida esperada imposible de evitar. Seguidamente se da sea minimax. una condici on para que un estimador de Bayes Teorema 2.7 Supongamos que es una distribuci on a priori tal que:
r(, )= R(, )d() = sup R(, ).
(2.21)
Entonces:
1. es minimax. 2. Si es la u nica optimo Bayes respecto de entonces es la u nica minimax.
3. es de Murphy. Prueba. 1. Sea cualquier otra regla de decisi on. Entonces:

sup R(, ) r(, ) r(, ) = sup R(, ).
2. Reemplazando en la prueba de (1) el segundo por >.
43
alguna otra distribuci 3. Sea on a priori. Sigue que: , r( ) r (, ) sup R(, ) = r (, ).2
La condici on (2.21) establece que el promedio de R(, ) es igual a su m aximo, o sea que asigna probabilidad uno al conjunto donde el riesgo toma constantemente su valor m aximo. Una regla de este tipo se llama igualadora. Las reglas igualadoras son minimax. Corolario 2.1 Si la regla optima-Bayes tiene riesgo constante, o sea R(, ) = a, con a constante, entonces es minimax.
Prueba:
Si tiene riesgo constante, se cumple (2.21).2
Corolario 2.2 Una condici on suciente para que sea minimax es que exista un conjunto 0 , tal que (0 ) = 1 y R(, ) toma su m aximo valor en todo punto de 0 .
Prueba.
La condici on (2.21) tambi en se cumple en este caso.2
Ejemplo 2.8 (Lehmann(1983) y Walley(1987)). Sea la verosimilitud binomial, P (x+ | ) = Bin(n, ) y se quiere estimar como en el ejemplo 2.7. Supongamos que la p erdida es cuadr atica: L(, d) = ( d)2 . Queremos encontrar un estimador minimax de . Intentemos conseguir una regla igualadora suponiendo que pertenece a la familia Beta de distribuciones, () = Beta(, ) con > 0 y > 0. De la parte (1) del Teorema 2.5 sabemos que el estimador optimo Bayes es la media posterior (x). Por otra parte del ejemplo 2.7, la relaci on (2.15), y de n0 x0 = , n0 (1 x0 ) = o sea x0 = + , n = + tenemos: 0 E ( | x) = (x) = + x+ = . ++n (2.22)
Sabemos que en el caso Binomial E (X+ | ) = n y V ar(X+ | ) = n(1 ). Entonces, + X+ R(, )=E ++n
| =
n(1 ) + [ ( + )]2 . ( + + n)2 (2.23)
44
Para que R(, ) = constante (variando ), los coecientes de 2 y deben ser cero, o sea:
1. n + ( + )2 = 0 2. n 2( ) = 0 y por lo tanto = =
n . 2
Obtenemos entonces:
n 2
(x+ ) =
+ x+ n+ n
n n , 2 2
(2.24) y es (2.25)
n , 2n 2
que es la regla de Bayes para la densidad a priori Beta una regla igualadora con: R(, (x+ )) = 1 , 4( n + 1)2 [0, 1]
y por el Corolario 2.1, (x+ ) es minimax y la densidad Beta es de Murphy.3
Surge la pregunta es (x+ ) razonable?. Notemos que el m etodo minimax provee un m etodo para escoger la o las densidades a priori que sean de Murphy. La densidad de Murphy obtenida es 0 () = n n Beta 2 , 2 . Por qu e el conocimiento que se tiene sobre debe estar inuenciado por el tama no del experimento n?. Por qu e s olo por n y no por otra informaci on?. 1 La media de 0 es 1 y su varianza es 4(n 0, cuando n , 2 +1) y por lo tanto estar a cada vez m as concentrada alrededor de 1 a medida 2 que n crece. Pensemos en dos situaciones: (1) es la probabilidad de que una moneda al ser lanzada caiga cara. (2) es la probabilidad de que una tachuela al ser lanzada caiga de lado. Ciertamente 0 no es razonable en la situaci on (2), y por otro lado es extra no que estemos muy seguros a priori de que la moneda sea balanceada en la situaci on 9 (1), si sabemos que va ser lanzada digamos 10 veces. Otra manera de ver si (x+ ) es razonable es ver su funci on de riesgo R(, ) (2.25). Compar emosla con el riesgo del estimador insesgado 0 (x+ ) = x+ : R(, 0 ) = EX n x+ n
2
| =
V ar(X+ | ) (1 ) = . 2 n n
45
Gracamos en la gura 2.4, nR(, ) y nR(, 0 ) para varios valores de n.
nR(, )
.25 .2 .15 .1 .05 0
I0
.5
(n ) (n = 100) (n = 16) (n = 4) (n = 1)
Figura 2.4. Para la situaci on (1), luce razonable a menos que n sea grande. En la situaci on (2) 0 luce mejor desde un n peque no. En ninguna situaci on es razonable para n grande. Esto es consecuencia de que la previa que produce a es, a medida que n crece, cada vez menos razonable. En cualquier caso la regla de Bayes obtenida a partir de una densidad a priori razonable, t picamente ser a mejor que y 0 . Notemos que en este ejemplo es la u nica regla minimax ya que el estimador de Bayes (Teorema 2.5) es u nico. Pero 0 () no es la u nica de Murphy. La regla de Bayes para cualquier ser a: 1+x+ (1 )nx+ d() 1 x+ nx+ d( ) 0 (1 ) (x+ ) depende de Si expandemos (1 )nx+ , obtenemos que s olo a trav es de sus n + 1 momentos, por lo que la distribuci on de Murphy no es u nica. En el ejemplo 2.8 el estimador minimax result o ser una regla determinada no aleatoria. Como veremos m as adelante esto no es as en general, y fue consecuencia de que la p erdida cuadr atica es convexa en d. Generalmente puede restringirse la atenci on a reglas determinadas cuando la p erdida es convexa, ya que dada cualquier regla E ( | x) =
(x+ )
1 0
46
aleatoria puede conseguirse otra no aleatoria que es por lo menos tan buena como esta. (Ver Lehmann (1983), Corolario 1.6.2). Este hecho es consecuencia de la desigualdad de Jensen. Bajo el ordenamiento Bayesiano generalmente podemos restringirnos a reglas no aleatorias, sea la funci on de p erdida convexa o no (Teorema 2.3).
2.4
Representaci on Geom etrica de las Reglas de Bayes y Minimax para nito.
El primer paso para visualizar el problema de decisi on para nito es notar que el conjunto de riesgo S es convexo. Consideremos = {1 , 2 , . . . , k } y S = y R k : para D, yj = R(j , ), j = 1, . . . , k . Teorema 2.8 El conjunto de riesgo S es un conjunto convexo de R k . Prueba. Sean y y y puntos arbitrarios de S , correspondientes a y respectivamente. Sea tal que 0 < < 1 y consideremos la regla que escoge a con probabilidad y con probabilidad (1 ). Entonces D y R(j , ) = R(j , ) + (1 )R(j , ), j = 1, . . . , k . Sea ahora z = (R(1 , ), . . . , R(k , )) y se sigue que: z = y + (1 )y S.
REGLAS DE BAYES: Para nito, cualquier distribuci on a priori es un conjunto de k n umeros no negativos (j ) = j , j = 1, . . . , k , cuya suma es 1. De acuerdo al ordenamiento Bayesiano todos los puntos y = (y1 , . . . , yj ) que tengan el mismo riesgo esperado j R(j , ) = j yj
son equivalentes, bajo la distribuci on . Entonces todos los puntos en el plano: j yj = b,
GEOMETRICA 2.4. REPRESENTACION DE LAS REGLAS DE BAYES Y MINIMAX PARA FINITO.47
para cualquier b real, son equivalentes. Variando b, cada uno de estos planos es perpendicular al vector del origen al punto (1 , . . . , k ), y como cada i es no negativa, la pendiente de la l nea de intersecci on de cada plano con los ejes no puede ser positiva. La intersecci on del plano i yi = b con la diagonal y1 = . . . = yk debe ocurrir en el punto (b, b, b, . . . , b). Para encontrar la regla de Bayes minimizamos el riesgo esperado consiguiendo el nmo de los diferentes valores de b, lo llamamos b, para el cual el plano i yi = b intersecta a S . Si S no contiene sus puntos de frontera, entonces no existir an reglas de Bayes. Cuando S es un poliedro, cuyos v ertices corresponden a decisiones no aleatorias, entonces el plano intersectar a el poliedro al menos en uno de sus v ertices. Si lo intersecta en s olo uno de los v ertices la regla de Bayes ser au nica y no aleatoria. Si la intersecci on contiene a m as de un v ertice habr a una innidad de reglas de Bayes, muchas de las cuales corresponder an a reglas aleatorias pero siempre habr a al menos una regla de Bayes que corresponder aa una regla no aleatoria, es decir, un v ertice. Si i > 0, i = 1, . . . , k , la intersecci on ocurrir a en la frontera inferior y por tanto la o las reglas de Bayes, de existir, ser an admisibles. Por otra parte, es razonable anticipar que podemos obtener todas las decisiones admisibles como reglas de Bayes para alguna distribuci on a priori = (1 , . . . , k ), ya que alternando los valores de j cambiaremos el angulo de intersecci on del plano i yi = b con los ejes coordenados. De esta manera, al obtener las reglas de Bayes para todas las posibles, intersectaremos con todos los puntos de la frontera inferior de S . Haremos esta armaci on m as precisa en la pr oxima secci on. REGLAS MINIMAX: El riesgo m aximo para una regla de decisi on ja es supj R(j , ) = max yj Todos los puntos y S que produzcan el mismo valor de max yj , ser an equivalentes minimax. Entonces todos los puntos y en la frontera del conjunto: Q c = {y = (y1 , . . . , yk ) : yj c, j = 1, . . . , k }, para cualquier n umero real c, son minimax equivalentes. Para encontrar reglas minimax encontramos el nmo de los c. Lo denotamos c, llamado riesgo minimax, para el que Q c intersecta a S . Cualquier ,
48
cuyo punto de riesgo est e asociado a un elemento de Q c S , es minimax. Es de prever entonces que incluso cuando reglas minimax existen, no necesariamente va a existir una minimax que sea no aleatoria, ya que Q ertices. De c S no va a contener necesariamente uno de los v nuevo, no existir an reglas minimax cuando S no contiene sus puntos de frontera. Notamos que pueden haber muchas reglas minimax, y que los puntos minimax no necesariamente caer an en la diagonal y1 = . . . = yk . (Se sugiere al lector hacer varios dibujos, en particular donde S sea un rect angulo o que S caiga enteramente por debajo de la diagonal). El Teorema 2.7 tambi en puede ser visualizado geom etricamente. Veamos una estrategia de la naturaleza como a la distribuci on a priori , la cual representa a la familia de planos perpendiculares a = (1 , . . . , k ). Para encontrar reglas de Bayes el TD encuentra el plano de esta familia que es tangente por debajo a S . El riesgo de Bayes m nimo es b donde (b, . . . , b) es la intersecci on de la recta y1 = . . . = yk con el plano tangente por debajo de S y perpendicular a (1 , . . . , k ). Entonces una distribuci on de Murphy ser a la selecci on de valores j , j = 1, . . . , k , que haga esta intersecci on tan lejos en la recta como sea posible. Como siempre sucede que b c, si encontramos una 0 para la que b = c entonces 0 debe ser de Murphy. Continuaci on Ejemplo 2.1. En este ejemplo tenemos 1 = 0.6 y 2 = 1 1 = 0.4. Los procedimientos Bayes equivalentes cumplen con: 1 y1 + (1 1 )y2 = b donde b var a en R . O equivalentemente, y2 = b 1 y1 . 1 1 1 1 (2.26)
Como hab amos anticipado el coeciente de y1 es negativo, y la recta 1 que pase por el origen y por (1 , 1 1 ) = (0.6, 0.4) ser a y2 = 1 y1 y 1 se cumple que su pendiente multiplicada por la pendiente de (2.26) es 11 1 1 = 1, por lo que estas rectas son perpendiculares. La 1 1 recta intersecci on de la diagonal con (2.26) debe ocurrir en (b, b, . . . , b). Si procedemos a disminuir b, movemos la recta (2.26) en forma paralela
GEOMETRICA 2.4. REPRESENTACION DE LAS REGLAS DE BAYES Y MINIMAX PARA FINITO.49
as peque no la interhasta intersectar a S en d3 , donde si hacemos b m secci on de (2.26) con S se hace vac a. Para d3 , R(1 , d3 ) = 3910 y R(2 , d3 ) = 340 por lo que: b = (0.6)(3910) + (0.4)(340) = 2210. La interpretaci on geom etrica del ordenamiento Bayesiano para 1 = 0.6 se muestra en la gura 2.5, y en la gura 2.6 se muestra el ordenamiento minimax. Vemos all que la diagonal corta en un s olo punto la frontera inferior de S en la recta que une a d3 y d6 , y en consecuencia la regla minimax ser au nica y aleatoria. Para hallarla buscamos una regla aleatorizada que escoja a d3 con probabilidad y d6 con probabilidad (1 ). Denotemos a esta regla . Su punto asociado de riesgo estar a en la diagonal y1 = y2 y por tanto R(, ) = R(2 , ). Por ello es tal que: R(1 , d3 ) + (1 )R(1 , d6) = R(2 , d3 ) + (1 )R(2 , d6 )
500 Sustituyendo los valores de los riesgos encontramos que: = 4750 = 0.105 y (1 ) = 0.895. Esto signica que para tomar una decisi on el TD debe extraer un n umero uniformemente distribuido en [0,1]. Si ese n umero es menor o igual a 0.105, entonces el TD decide hacer el experimento, y si x = 0 tomo la acci on a2 y si x = 1 tomo la acci on a1 . Pero, si el n umero extra do es mayor a 0.105 entonces decido no hacer el experimento y tomar la acci on a2 , es decir vender el campo. El riesgo de esta decisi on minimax ser a:
(0.105)(3910)+(0.895)(0) = (0.105)(340)+(0.895)(500) = 411.8 = c. Como se hab a anticipado c es mayor o igual al riesgo esperado de Bayes b para 1 = 0.6. Es una regla de Bayes para alguna ?. Geom etricamente se ve que la respuesta es armativa. Basta hallar aquella para la cual la recta de puntos Bayes equivalentes sea paralela a la recta que une a d3 y d6 . Para , todos los puntos de riesgo que unen a los que corresponden a d3 y d6 , ellos incluidos, corresponden a decisiones que son de Bayes. Encontremos de tal manera que b = c, o sea que ser a de Murphy.
50
R(2 , d) d1 d5 d2 1000 d3 -5000 -4000 -3000 b -2000 b -1000 d6 .. ............... Puntos . . . equivalentes . . . . . . . . . . ................. . . . . . . . . . . . . . . . . . . . . . 2000 y1 = y2 (1 , 1 1 ) R(1 , d)
d4
1000
-1000
Figura 2.5. Interpretaci on geom etrica de Bayes
1 R(1 , d3 )+(11 )R(2 , d3 ) = 1 R(1 , d6 )+(11 )R(2 , d6 ) = b = c
Sustituyendo los valores de R(i , d) y c, obtenemos la distribuci on de Murphy 1 = 0.1768 y 2 = 1 1 = 0.8232. Si el TD hubiese adoptado un punto de vista Bayesiano, y por casualidad hubiese evaluado a priori que la probabilidad de que hubiese petr oleo era de 0.1768, su recomendaci on nal hubiese sido simplemente escoger entre d3 y d6 es equivalente con la informaci on disponible y la utilidad asignada. Pero claramente la decisi on minimax en este ejemplo no es razonable.
2.5. ADMISIBILIDAD Y REGLAS DE BAYES
51
R(2 , d) d1 d5 d2 1000 d3 -5000 -4000 -3000 -2000 c . . . . . ... c . . -1000 . ....... d4 1000 d6 Murphy -1000 2000 y1 = y2
R(1 , d)
-2000
3
2.5
Figura 2.6. Representaci on geom etrica de Minimax
Admisibilidad y Reglas de Bayes
La conclusi on general que vamos a obtener en esta secci on es doble: Por una parte las reglas de Bayes son admisibles bajo condiciones bastante generales, por la otra, las reglas admisibles ser an de Bayes para alguna distribuci on a priori o ser an l mites de reglas de Bayes. Teorema 2.9 Si para la distribuci on a priori la regla de Bayes promedio es u nica, o si existe m as de una, y todas ellas tienen la misma funci on de riesgo R(, ), entonces es admisible. Prueba. Supongamos que existe otra tal que R(, ) R(, ), . Entonces tomando valores esperados respecto de : r(, ) = E [R(, )] E [R(, )] = r(, ).
52
Ahora como es Bayes promedio, tambi en debe serlo y para que esto no contradiga las hip otesis debe cumplirse que R(, ) = R(, ), , en cuyo caso ambas y son admisibles.2 Del Teorema 2.3 sabemos que podemos restringirnos a las reglas no aleatorias. Por tanto el Teorema 2.9 se aplica esencialmente a reglas no aleatorias. Entonces si para la regla de Bayes no aleatoria d es u nica, o todas las reglas de Bayes no aleatorias tienen la misma funci on de riesgo, d es admisible. Seguidamente se dan condiciones para que la regla de Bayes sea u nica en problemas de estimaci on puntual. Teorema 2.10 Si la funci on de p erdida L(, d) es cuadr atica, o m as generalmente, es estrictamente convexa en d, la regla de Bayes es u nica, excepto en conjuntos N tal que PX | (N ) = 0, , siempre que: 1. r(, ) < 2. Conjuntos de medida cero de acuerdo a la distribuci on predictiva, es decir, que si PX (N ) = PX | (N )d() = 0,
cumplan con PX | (N ) = 0, Prueba. Para error cuadr atico medio, se sigue de la parte 1 del Teorema 2.5 que cualquier estimador de Bayes de g () debe ser igual a E [g () | x] excepto en un conjunto N con PX (N ) = 0. Para p erdidas estrictamente convexas la demostraci on es consecuencia de que si existe un valor que minimiza a una funci on estrictamente convexa, este es u nico, y lo que sigue se deja como ejercicio. 2 La siguiente regla fue originalmente enunciada por D. Lindley, y es un precepto muy conveniente al momento de asignar distribuciones a priori.
53
REGLA DE CROMWELL: Al asignar una densidad a priori sobre , es conveniente que () > 0, . Una tal densidad a priori se la denomina de Cromwell. Si (0 ) = 0, entonces por el Teorema de Bayes (1.2), (0 | x) = 0, incluso si la verosimilitud p(x | 0 ) es muy grande. Es muy peligroso y dogm atico asignar previas que no sean de Cromwell, ya que no importa cu an informativo sea el experimento, nunca podr a alertar sobre nuestra posible informaci on err onea a priori. Un enunciado menos estricto de las reglas de Cronwell establecer a que si es el espacio donde se mueven los par ametros, el soporte de la distribuci on a priori debe ser igual a . La condici on (2) del Teorema 2.10 se satisface cuando el espacio de par ametros es un conjunto abierto, que es el soporte de (Cromwell), y si la probabilidad PX | (A) es continua en para todo A. En efecto, PX (N ) = 0 implica que PX | (N ) = 0 c.s.. Ahora si existe 0 tal que PX |0 (N ) > 0 entonces existe una vecindad V de 0 en la cual si V, PX | (N ) > 0. Como es de Cromwell, P (V ) > 0 lo que contradice la suposici on de que PX | (N ) = 0 c.s.. Otra consecuencia agradable de previas de Cromwell es el siguiente Teorema. Teorema 2.11 Supongamos que el espacio de par ametros es discreto, = {1 , 2 , . . .} y que existe una regla de Bayes para = {1 , 2 , . . .}, tal que r(, ) sea nito. Si es de Cromwell, o sea j > 0, j = 1, 2, . . . , entonces es admisible. Prueba. Si no es admisible entonces existe tal que R(j , ) R(j , ) y existe alg un i tal que R(i , ) < R(i , ). Como j > 0 j r(, ) =
j
j ,
j R(j , ) <
j
j R(j , ) = r(, ),
lo que contradice que sea de Bayes.
Veamos ahora el caso en que no sea discreto.
54
Teorema 2.12 Supongamos que = R y que R(, ) es una funci on continua de , D. Si existe una regla de Bayes para la cual r(, ) es nito, y si el soporte de es R (Cromwell) entonces es admisible. Prueba. Si no es admisible, existe D tal que R(, ) R(, ) entonces R(0 , ) < R(0 , ) para alg un j . R ,
Sea f () = R(, )R(, ) y = f (0 ) = R(0 , )R(0 , ) > 0. Como R(, ) es continua en , D, tambi en lo ser a f (). Para 2 , existe > 0 tal que si | 0 |< , | f () f (0 ) |< 2 y entonces f () > f (0 ) 2 =2 . Sea I = (0 , 0 + ). Tomando valor esperado en , sigue que: r(, ) r(, ) = E [R(, ) R(, )] > P (I ), 2 pero como 0 est a en el soporte de (Cromwell) se tiene que P (I ) > 0, lo que contradice el hecho de que es de Bayes.2 Cu ando R(, ) ser a continua?. Si L(, a) es acotada, entonces supa | L(, a) L(0 , a) | 0 cuando 0 para cada 0 , y si p(x | ) es sucientemente regular, entonces R(, ) es continua (Ferguson, 1967, Teorema 3.7.1). Una familia amplia de verosimilitudes, para las que R(, ) es continua, incluso si L(, a) no es acotada (como en error cuadr atico), es la Familia Exponencial de verosimilitudes (Ferguson, 1967, Teorema 3.7.2). Ejemplos de verosimilitudes que pertenecen a esta familia son: Binomial, Multinomial, Poisson, Beta, Normal, Gamma y otras. Por su importancia se estudiar a esta familia con m as detalle en los pr oximos cap tulos. El pr oximo problema que enfocaremos es la existencia de reglas de Bayes para un problema de decisi on. Comenzaremos por suponer que el conjunto de riesgo satisface las condiciones del Teorema 2.1. O sea:
55
1. (S ) S , esto dice que S es cerrado por debajo. 2. Existe M tal que si (y1 , . . . , yk ) S entonces yj > M, j = 1, . . . , k , es decir S es acotado por debajo. Teorema 2.13 Supongamos que = {1 , . . . , k } y que el conjunto de riesgo S es cerrado y acotado por debajo. Si es de Cromwell, j > 0, j = 1, . . . , k , entonces existe una regla de Bayes respecto de . un y S . El conPrueba. Sea B = b : b = k j =1 j yj para alg junto B es acotado ya que S lo es. Sea b0 = inf B . Para cualquier (n) sucesi on y (n) S tal que j yj converja a b0 , el hecho de que sea de Cromwell implica que cada sucesi on y (n) est a acotada por ar0 riba. Entonces existe un l mite nito y de la sucesi on y (n) y adem as 0 0 j yj = b0 . Veamos que y (S ). Denotemos por cl(S ) a la clausura de S y
k Q y = x R : xj yj , j ,
o sea el conjunto de puntos que son al menos tan buenos como y . Como y 0 es un l mite de puntos en S, y0 cl(S ) y {y 0 } cl(S ) Q as y0 . M 0 a un Qy 0 cl(S ) {y0 }. En efecto, sea y Q y 0 {y } = Qy 0 (Denici on 2.6) entonces: j yj < b0 y si yj cl(S ) existir an puntos y S tal que j yj < b0 lo que contradice el hecho que b0 sea una 0 cota inferior de B . Entonces Q y 0 cl(S ) = {y }, lo que implica que y 0 (S ). Ahora bien, como S es cerrado por debajo, y0 S , lo que implica que el m nimo valor de r(, ) = j R(j , ) se obtiene en un punto de 0 S . Finalmente cualquier D, para la que R(j , ) = yj , j = 1, . . . , k , es una regla de Bayes para . 2 En el resto de esta secci on el Teorema del Hiperplano Separante, que es equivalente al Teorema de Hahn-Banach para espacios lineales bastante generales, es crucial. Este Teorema establece que cualquier par de conjuntos convexos pueden ser separados por un plano.
56
Teorema 2.14 (Hiperplano Separante.) Sean S1 y S2 conjuntos convexos y disjuntos de R k . Entonces existe un vector p = 0 tal que: pt y pt x Prueba. x S1 , y S2 .
Ver Ferguson 1967, p.70-74.
S z Qz
Hiperplano
{w : t w = c}
Figura 2.7. Hiperplano separante Teorema 2.15 (Desigualdad de Jensen.) Sea f una funci on convexa en R denida en un conjunto convexo no vac o S de R k . Sea X un vector aleatorio k dimensional con esperanza E [X ] nita para el que P (X S ) = 1. Entonces E (X ) S y f (E [X ]) E [f (x)]. Prueba. Ver Ferguson 1967, p.76-77.
Ya se hab a anticipado, como una consecuencia de la desigualdad de Jensen, que para una funci on de p erdida convexa tal que toda decisi on aleatorizada tiene p erdida esperada nita podemos restringirnos a decisiones no aleatorias. La idea b asica es la siguiente. Si X es una v.a que toma valores en el conjunto de acciones posibles A de acuerdo a la distribuci on P , entonces: L(, P ) = E [L(, x)] L(, E [X ]) y E [X ] A.
57
La pregunta que nos interesa ahora es si toda regla admisible es de Bayes para alguna . La respuesta es armativa para nito. Teorema 2.16 Supongamos que es nito. Si la regla D es admisible, entonces es una regla de Bayes para alguna distribuci on . Prueba. Sea admisible cuyo punto de riesgo asociado es z . Entonces Qz S = , o sea no hay puntos mejores a z . Tenemos por tanto dos conjuntos convexos y disjuntos, Qz y S . La situaci on se describe en la gura 2.7. Por el teorema del hiperplano separante, existe un vector = 0 tal que t y t x, y Qz y x S . Sea c = t z . Entonces el hiperplano {w : t w = c} separa a Qz de S . Esto es porque si x S y y Qz , tenemos t y c = t z ya que z S . Adem as, t x sup{t y : y Qz } = t z . Entonces t y c = t z t x y Qz y x S,
y decimos que el hiperplano es tangente a S , en el punto z . Veamos que j 0 para cada j . Consideremos cualquier y con yj < zj , j . Como y Qz entonces t y t z , por lo tanto j (zj yj ) 0, o sea j 0. Como = 0 y cada una de sus componentes es no negativa, j > 0. Podemos entonces normalizar a para hacerla j una distribuci on haciendo . (Notar que todas las propiedades j = j de descritas arriba son heredadas por ). Luego (j ) = on de probabilidad para la j dene una distribuci cual el punto x tiene riesgo Bayesiano ( )t x. Pero, ( )t z ( )t x para todo x S , o sea z es un punto en S con riesgo de Bayes m nimo. Como z es el punto de riesgo de , esta regla es de Bayes para la distribuci on . 2 Corolario 2.3 En las condiciones del Teorema 2.16, todas las reglas de decisi on cuyos puntos de riesgo est an en (S ) son reglas de Bayes. Ser a cierto que en general toda regla admisible es de Bayes?. La mala noticia es que no es cierto, la buena es que es casi cierto.
58
Ejemplo 2.9. Supongamos que la variable aleatoria X N (, 1), o sea = R . Se desea estimar con error cuadr atico. Entonces xi el estimador (x) = n = x, para una muestra de tama no n, es admisible (Lehmann 1983, p. 265-267, Berger 1985, p. 545-548). Pero x no es de Bayes, como vimos en la aplicaci on (1) del Teorema 2.6. Esta es la raz on por la cual probar admisibilidad de x no es f acil. Sin embargo vimos en el ejemplo 2.6, (2.10), que el estimador de Bayes para una densidad previa normal puede escribirse como: n(x | 2 , ) =
1 n
2 +
1+ n
2 1 x. 2 + n
Entonces x puede aproximarse por n (x | 2 , ) de dos maneras: mite de 1. Si n , n (x | 2 , ) x. Decimos que x es l Bayes. 2. Si 2 para cualquier n jo, n (x | 2 , ) x. Decimos que x es la esperanza a posteriori, partiendo de una densidad a priori impropia () = 1, ()d = , y por tanto no es propiamente de Bayes.3 Es cierto, con gran generalidad, que toda decisi on admisible es de Bayes o l mite de Bayes (en varios sentidos), Wald(1950), Brown(1986) p. 254-268. Es en cierta manera parad ojico (y afortunado) que a un desde el punto de vista cl asico-frecuentista que propone la admisibilidad como desideratum, concluyamos que se debe actuar como Bayesiano (o l mite de Bayesiano).
2.6
Admisibilidad y Reglas Minimax
Comenzamos por presentar una ilustraci on de Teor a de Juegos donde el criterio minimax tiene su ambito natural. Ejemplo 2.10 (Pares o Nones, Ferguson 1967). Dos jugadores muestran 1 o 2 dedos simult aneamente. El jugador 1 (Naturaleza) recibe en $, del jugador 2, el n umero de dedos sobre la mesa, siempre que el total de dedos mostrado sea impar. El jugador 2 (TD) recibe,
2.6. ADMISIBILIDAD Y REGLAS MINIMAX
59
del jugador 1, en $, el n umero de dedos sobre la mesa siempre que el total sea par. Si la p erdida es monetaria, para el Jugador 2, esta viene dada por: \A 1 2 L(, a) : 1 -2 3 2 3 -4 Este es un juego de suma cero ya que lo que recibe un jugador lo pierde el otro. Cu al de los dos jugadores ud. preferir a ser?. Llamemos p a una estrategia aleatoria seguida por el jugador 2 (una decisi on determinada ser a tonta en este contexto) que escoge 1 con probabilidad p y 2 con probabilidad (1-p). El conjunto de riesgo de p viene dado por: S = {(L(1 , p ), L(2 , p )) : 0 p 1} , entonces S = {(2p + 3(1 p), 3p 4(1 p)) : 0 p 1} El conjunto de riesgo S es una recta que une (3,-4) con (-2,3), y se muestra en la gura 2.8. La estrategia minimax vendr a dada por la intersecci on de S con la diagonal y1 = y2 : 3 5p = 4 + 7p, o sea 7 7 1 p = 12 el cual corresponde a un riesgo minimax: 3 5 12 = 12 . En este ejemplo la regla minimax es tambi en de Bayes respecto a la distribuci on (1 , 1 1 ) que es perpendicular a S , (secci on 2.3). La pendiente de 1 la recta que pasa por el origen y (1 , 1 1 ) es 1 , que multiplicada 1 7 por la pendiente de S debe ser igual a -1, de donde 1 = 12 . De hecho cualquier p (y no s olo p ) es de Bayes respecto de . Esto es consecuencia de que S es una recta, que queda completamente intersectada por la recta que denen los procedimientos Bayes-equivalentes al tocar la frontera inferior de S . El riesgo Bayesiano de 1 para 1 cualquier p es: 1 (3 5p) + (1 1 )(4 + 7p) = 12 , entonces 1 es de Murphy, por ser igual al riesgo minimax. El jugador 1 (siendo in7 teligente) escoge 1 con probabilidad 12 . Esta regla mantiene la p erdida = {(3 5p, 4 + 7p) : 0 p 1}.
60 esperada de en al menos del juego V .

1 . 12
Llamaremos a este valor, el valor inferior
y1 = y2
(1/12, 1/12)
)
Figura 2.8 Juego de pares o nones Por su parte el jugador 2 (siendo inteligente y estoico) tiene una 7 , que restringe su p erdida esperada en a lo estrategia p con p = 12 1 sumo 12 . Llamaremos a este valor, el valor superior del juego V . En este ejemplo, V = V = V , llegando as a un punto de equilibrio y se dice que el juego tiene un valor V . Un arbitro imparcial dictaminar a 1 como justo que 2 le pagase a 1, 12 . Ud. escoger a ser el jugador 1?3 A continuaci on se introducir an formalmente algunas deniciones anticipadas en el ejemplo 2.9. Denici on 2.13 Denotemos por al conjunto de todas las distribuciones de probabilidad sobre . Usando el ejercicio 2.14, podemos refrasear la denici on de una regla minimax S como inf sup r(, ) = sup r(, ).
D
61
Denici on 2.14 El riesgo o valor minimax o valor superior del juego V se dene por: V = inf sup R(, ) = inf sup r(, ).
D D
El valor V es obtenido por una regla minimax. Denici on 2.15 El riesgo o valor maximin o valor inferior de juego V se dene por: V = sup inf r(, ).
D
Note que si es de Bayes respecto de entonces: V = sup r(, ),
y concluimos que V es obtenido por una distribuci on de Murphy (Denici on 2.12). Teorema 2.17 V V . Prueba. Para cualquier y D se cumple que r( , ) sup r(, ),
y esto implica
D
inf r( , ) inf sup r(, ) = V ,

D
y como esto se cumple para cualquier , tambi en tomando el supremo en en la parte izquierda, y por tanto: V V .2 En Teor a de Juegos es fundamental saber cuando V = V = V , o sea cuando V V , ya que en ese caso un punto de equilibrio en el juego existe. En Teor a de Decisi on sin embargo, como la naturaleza no est a conspirando continuamente en arruinarnos, no es tan crucial. Sin embargo es u til saber cuando las reglas minimax son tambi en de Bayes.
62
Teorema 2.18 (Teorema Minimax). Suponemos que es nito, = {1 , . . . , k }, y que S es acotado por debajo. Entonces V = V = V y existe una distribuci on de Murphy 0 . M as a un, si S es cerrado por debajo, entonces existe una regla minimax admisible la cual es de Bayes respecto de 0 . Prueba. Queremos vericar que V V . Denotemos por 1 al vector (, . . . , )t . Sea V = sup{ : Q on es 1 S = }. La situaci similar a la gura 2.8, donde 1 = z . Veamos que V V . Se cumple que para cada n, existe una regla n tal que: R(i , n ) V + 1 n i = 1, . . . , k. (2.27)
Por lo tanto, para todo , r(, n) V + 1 n y 1 sup r(, n ) V + , n
para todo n. Esto implica que V V . o Veamos ahora que V V . Denotemos al interior de Q 1 por Q1 . Notemos que Qo 1 y S son conjuntos convexos y disjuntos. Por el Teot rema 2.13, existe un hiperplano t x = c que separa a Qo 1 y S , x c si x S y t x c si x Qo 1 . Todas las coordenadas de deben ser no negativas. En efecto, supongamos que i < 0. Hagamos xi , t manteniendo las otras coordenadas jas. Pero x Qo 1 y x t lo cual contradice que para x Qo i > 0 y 1 , x c. Entonces procediendo an alogamente al Teorema 2.15, renormalizamos a de tal manera que i = 1. Llamemos a esa distribuci on 0 , que puede ser t tomada como distribuci on a priori. Como para x Qo 1 , 0 x c, si hacemos x tender a 1 vemos que V c. Entonces para todo , r(0 , ) = i R(i , c V. (2.28)
Por lo tanto 0 es de Murphy y: V = sup inf r(, ) inf r(0 , ) V,

D D
y nalmente:
63
V = V = V. Ahora sea S cerrado por debajo. Tomemos la n de (2.27) denotando yn = (R(1 , n ), . . . , R(k , n)). Como la sucesi on y n es acotada, tienen un punto l mite y, que adem as pertenece a cl(S ). Entonces Qy cl(S ) = y (Qy S ) = , ya que de la demostraci on del Teorema 2.12 concluimos que si un conjunto convexo no vac o B es acotado por debajo, entonces (B ) = . Sea z (Q y cl(S )), y como Qy cl(S ) Qz = {z }, tenemos que z Q y y Qz cl(S ) = {z } y por tanto z (S ). Como S es cerrado por debajo, z S y cualquier 0 cuyo punto de riesgo sea z es admisible (Teorema 2.1). Adem as 0 satisface: r(, 0 ) V ya que R(i , 0 ) V, i = 1, . . . .k. Finalmente, de (2.28), r(0 , 0 ) = V , o sea que 0 es de Bayes para 0 .2 Una versi on m as general aparece por ejemplo en Blackwell y Girshick (1954), donde se requiere que el espacio de acciones A sea un subconjunto cerrado, acotado y convexo de R n y L(, a) sea, para cada , una funci on continua en a y convexa. En general no siempre ocurre que estrategias minimax o maximin existen. Para espacios de acciones no acotados, el siguiente ejemplo ilustra que el juego no tiene ni siquiera un valor. Ejemplo 2.11. Consideremos el juego donde cada jugador escoge un n umero positivo. El jugador que escoja el n umero mayor gana $1 del otro. Aqu , = A = (1, 2, . . .) con: 1 L(, a) = 0 1

si si si
>a =a <a
Una estrategia aleatoria para el jugador 1 es un vector = (1 , 2 , . . .), donde i es la probabilidad de seleccionar el n umero i. Se sigue que: L(, a) = i>a i i<a i . Para cualquier ja sucede que: inf L(, a) = ainf L(, a) = 1, a
64 y entonces
V = sup inf L(.a) = 1. a
Se deja como ejercicio vericar que V = 1. Como V = V el juego no tiene un valor. No existen estrategias optimas en este juego.3 Ya vimos (Teorema 2.7 y corolarios siguientes) la importancia de reglas igualadoras, es decir 0 D es igualadora si R(, 0 ) = c, para todo . Veamos otro resultado para reglas igualadoras. Teorema 2.19 Si 0 D es una regla igualadora y admisible entonces es minimax. Prueba. R(, 0 ) = c, . Como 0 es admisible, cualquier otra D debe cumplir con R(, ) c para alg un 0 . De otra manera dominar a a 0 , contradiciendo su admisibilidad. Entonces, sup R(, ) c = sup R(, 0 ), por lo que 0 es minimax.2

D,
Las reglas minimax, de existir, no son necesariamente u nicas ni admisibles. Pero si son u nicas, son admisibles. Teorema 2.20 Si 0 es la u nica regla minimax, entonces es admisible. Prueba. Si 0 no es admisible, existe alguna 1 D que es mejor que 0 y por tanto: R(, 1 ) R(, 0 ), . Entonces, sup R(, 1 ) sup R(, 0 )

y 1 tambi en debe ser minimax, lo que contradice la unicidad de 0 .2 Continuaci on Ejemplo 2.5. El estimador 0 (x) = x es minimax y es una regla igualadora para cualquier dimensi on n (Ver Teorema 2.6 (1)). Para n = 1 o n = 2, 0 es admisible y es el u nico estimador minimax. (Esto u ltimo es consecuencia de que L(, a) = ( a)2 es estrictamente convexa en a). Si n 3, 0 es inadmisible, por lo que otros estimadores
65
minimax existen, de acuerdo al Teorema 2.20. De hecho para este problema existe una clase grande de estimadores minimax (Berger 1985, p. 363-364) y aparece el problema de c omo decidir cu al usar. No hay soluci on satisfactoria a este problema a menos que se enfoque, parcialmente, desde el punto de vista Bayesiano (Berger y Berliner, 1984).3 Otro problema del punto de vista minimax es su fuerte dependencia de la funci on de p erdida utilizada. Continuaci on Ejemplo 2.8 (Lehmann, 1983). El error cuadr atico puede ser no apropiado ya que errores de estimaci on de tama no jo parecen ser m as serios cuando est a cerca de 0 o 1, que cuando est a (d)2 1 cerca de 2 . Tomemos la funci on de p erdida: L1 (, d) = (1) . Bajo L1 el estimador insesgado 0 (x+ ) = x, es una regla igualadora, la cual es Bayes respecto de la distribuci on uniforme en (0,1) y por lo on de cu an fuertemente tanto es minimax respecto de L1 . Una indicaci la regla minimax depende de la funci on de p erdida utilizada, es el hecho de que el estimador minimax para L cuadr atica, (x+ ) (2.24), tiene funci on de riesgo no acotada bajo L1 . Las armaciones hechas en este ejemplo se dejan como ejercicio.3 Incluso en problemas de inferencia estad stica, donde la funci on de p erdida es acotada, y existe una u nica regla minimax, esta bien puede ser tonta como se muestra en el siguiente ejemplo. Continuaci on Ejemplo 2.8 (Berger,1985). Supongamos ahora la p erdida: d L2 (, d) = min 2, (1 )2 , para = (0, 1], A=[0,1]. Resulta ser (Berger 1985, p. 374) que el u nico estimador minimax 2 (x) respecto de L2 es: 2 (x) = 0, sin importar cu al es el resultado del experimento!. L2 es razonable, (errores de estimaci on cerca de = 0 son m as serios, permaneciendo la p erdida acotada) y sin embargo el estimador minimax resuelve ignorar los datos y estimar como 0. El estimador 2 s olo tendr a sentido si tuviesemos
66
una creencia a priori enorme de que es cero. (No me confundas con los hechos). En este caso el estimador minimax no es particularmente objetivo.3 En conclusi on, el criterio minimax no parece atractivo como enfoque general a la Teor a de Decisi on. Afortunadamente el enfoque Bayesiano es adecuado para decidir racionalmente, tanto desde el punto de vista condicional (a los datos), como desde el punto de vista frecuentista. El u nico punto d ebil de Bayes es el de su dependencia de la distribuci on a priori. Sin embargo, esto puede ser subsanado realizando an alisis de sensibilidad con respecto a la distribuci on a priori, vericando cuando la decisi on optima de Bayes es o no robusta respecto a la distribuci on a priori.
2.7
Ejercicios
2.1 Vericar la tabla de riesgos R(i , d) del ejemplo 2.1. 2.2 Demostrar el Lema 2.1. 2.3 Vericar que la Esperanza de la densidad (2.13) es x0 y la Esperanza de (2.16) es (x). 2.4 Demostrar 2 y 3 del Teorema 2.5.
(x)] 2.5 Vericar que la varianza a posteriori del ejemplo 2.7 es (x)[1 . n +1
2.6 Demostrar que para el ejemplo 2.6 (x) = x es insesgado y que 2 EX | [X ]2 = . n 2.7 Demostrar que para el ejemplo 2.7 (x) = x es insesgado y que ) EX | [X ]2 = (1n . 2.8 Demostrar que la regla de decisi on es minimax si y s olo si R( , ) sup R(, ) para toda y para toda D. 2.9 Demostrar que 0 es de Murphy si y s olo si r(0 , ) inf r(, ) para toda D y para toda distribuci on .
2.7. EJERCICIOS
67
2.10 Vericar la ecuaci on (2.23). 2.11 Completar la demostraci on del Teorema 2.9. 2.12 Vericar que el supuesto de que sea de Cromwell es necesario en el Teorema 2.12, considerando el siguiente conjunto de riesgo convexo, cerrado por debajo y acotado por debajo: S = {(y1 , y2 ) : y1 y2 1, y1 > 0} Sugerencia: tome 1 = 1. (Ver Ferguson 1967). 2.13 Obtener X como regla de Bayes generalizada en la situaci on del ejemplo 2.9, para la densidad a priori impropia () = 1 (Uniforme en toda la recta). 2.14 Demostrar que sup r(, ) = sup R(, ). 2.15 Vericar que en la situaci on del ejemplo 2.11, V =1. 2.16 Vericar que el estimador (x) = x del ejemplo 2.5 es minimax y es una regla igualadora para cualquier dimensi on n. 2.17 Vericar las armaciones del ejemplo 2.8. 2.18 Un inversionista puede invertir $5000 en el banco o en acciones. Las acciones pueden subir 1 o bajar 2 de modo que la informaci on disponible est a contenida en siguiente tabla: U (, a) invertir banco prob. 1 2 5100 4900 5000 5000 0.6 0.4
Una posibilidad es que el inversionista decida pagar f d olares para que un experto lo asesore. Se sabe que la opini on del experto, X1 invertir, X2 no invertir, tiene una conabilidad que se expresa en: p(x1 | 1 ) = 0.8 p(x2 | 2 ) = 0.7.
68
Hacer un arbol de decisi on y decidir la acci on que produzca una mayor utilidad esperada. 2.19 Un comprador exige una garant a de un a no sobre un cierto equipo. El proveedor tiene la opci on de revisar el equipo a1 o no, a2 . La utilidad de estas acciones es: U (, a) Defectuoso No defectuoso a1 a2 700 0 800 1000
Para detectar posibles fallas en el equipo el proveedor puede usar un aparato de chequeo que consta de dos sensores. Los sensores activan una se nal auditiva con probabilidad 0.9, si el aparato es defectuoso y con probabilidad 0.4 si no lo es. El costo del aparato es de 100 y se toma la decisi on de revisar el equipo si por lo menos uno de los dos sensores se activa. El proveedor sabe por experiencia que el 20% de los equipos es defectuoso. Dibuje un arbol de decisio on que permita obtener la decisi on optima para el proveedor. 2.20 Un paciente de emergencia puede tener dos tipos de enfermedad: Tipo I con probabilidad 0.4 y Tipo II con probabilidad 0.6. De no recibir el tratamiento adecuado podr a morir con probabilidad 0.8. El m edico puede tomar tres acciones: 1. no tratar al paciente 2. darle una droga al paciente 3. operar al paciente pero estas tres acciones son excluyentes. Tanto una operaci on como la droga le pueden producir la muerte al paciente, la primera con probabilidad 0.5 y la segunda con probabilidad 0.2. Si el paciente sobrevive a la droga, esta no har a efecto con probabilidad 0.5 si tiene la enfermedad Tipo I, mientras que la probabilidad ser a 1 si tiene la enfermedad Tipo II. Para el caso de que
2.7. EJERCICIOS
69
sobreviva a la operaci on, esta ser a beneciosa con probabilidad 0.8 si tiene la enfermadad Tipo I y con probabilidad 0.4 si tiene la Tipo II. Graque un arbol de decisi on que permita seguir la estrategia optima. Qu e debe hacer el m edico?. 2.21 Considere una muestra X1 , . . . , Xn N (, 2 ) donde 2 es cono cida y suponga () = N (, 2 ). Calcule para estimar . 2.22 Considere un experimento binomial X Bin(n, ), n jo, y suponga que () = Beta(n0 x0 , n0 (1 x0 )). Calcule para estimar . 2.23 A una pieza de un motor de avi on se le puede hacer una prueba antes de su instalaci on. Esa prueba tiene una chance de 75% de revelar que la pieza es defectuosa, y el mismo chance de aprobar una pieza buena. Tanto si se ha hecho la prueba o no, se puede a un alto costo rehacer la pieza pero as estaremos seguros de que la pieza est a libre de defectos. Si se instala una pieza defectuosa se pierde L. Rehacer la pieza tiene un costo de L/5, y sabemos que a priori una de cada ocho piezas es defectuosa. Calcule hasta cu anto se puede pagar por hacer la prueba, determinar el arbol de decisi on y las decisiones optimas.
70
Cap tulo 3 Fundamentos de la Teor a Bayesiana de Decisi on

En este cap tulo haremos una revisi on r apida de los fundamentos de la Teor a Subjetiva Bayesiana, diferentes de los fundamentos estudiados en el Cap tulo 2, el cual est a basado en el concepto frecuentista de riesgo R(, d) y admisibilidad. En la primera secci on introducimos la Teor a de Utilidad que ilustra que la Teor a Estad stica de Decisi on, al igual que el resto de las teor as matem aticas, puede ser axiomatizada (los axiomas de racionalidad) obteni endose, como consecuencia l ogica, el m etodo Bayesiano de minimizar la p erdida esperada. Ning un otro enfoque ha podido ser axiomatizado, pero existen conjuntos de axiomas menos restrictivos que generalizan el enfoque Bayesiano estricto (es decir el que incluye la hip otesis de la precisi on). Una tal generalizaci on se debe a Walley(1991), quien demuestra que la coherencia del enfoque Bayesiano estricto se preserva bajo condiciones m as realistas. En la u ltima secci on de este cap tulo expondremos otros principios generales fundamentales, el de la verosimilitud y el del riesgo posterior, que nos indican que la estad stica frecuentista (o incondicional) tiene problemas b asicos y que s olo un m etodo condicional a los datos obtenidos X , puede ser correcto. 71
72
CAPTULO 3. FUNDAMENTOS DE LA TEORA BAYESIANA DE DECISION
3.1
Breve introducci on a la Teor a de Utilidad
El objetivo de la Teor a de Utilidad es el de construir la funci on de utilidad (o p erdida) y el de justicar el principio Bayesiano de maximizar (minimizar) la utilidad (p erdida) esperada. La Teor a de la Utilidad tiene sus origenes en Ramsey(1926) y De Finetti(1937). Aqu haremos una breve introducci on. Tratamientos m as completos aparecen en DeGroot(1970), Ferguson(1967) y Berger(1985). Al momento de evaluar las consecuencias de las posibles acciones nos encontramos al menos con dos dicultades. La primera es que debemos comparar los valores de entidades muy dis miles para las cuales no existe una obvia escala de medida. Considere por ejemplo la posibilidad de asistir a un curso de Teor a de Decisi on que durar a un par de semanas. Alternativamente podr a tomar vacaciones o aceptar un trabajo durante ese per odo. Todo el tiempo tenemos que tomar decisiones de este tipo, pero no est a nada claro que exista una escala precisa en la cual podamos comparar las consecuencias, que van a ser no determin sticas, de las tres posibles acciones descritas. El segundo problema es que incluso cuando existe una escala, por ejemplo monetaria, esta no necesariamente reeja los verdaderos valores del TD. Supongamos que su Departamento de Matem aticas le ofrece $ 500 por dictar un curso en el per odo vacacional. Si usted tuviese en el banco a su disposici on $ 5000, valorar a mucho menos el salario que le ofrecen a costa de arruinar sus vacaciones, que si no tuviese reserva alguna. En otras palabras el valor que usted le asigna a $ 5500 no es el mismo que usted le asigna al valor de $ 5000 m as el valor de $ 500. O sea, su escala de valores no es lineal, pero la escala monetaria s . Otro ejemplo es el siguiente: Suponga que usted ha sido el ganador de una competencia y se le ofrece una de dos opciones: un regalo de $ 100 o lanzar una moneda balanceada y si esta cae cara usted recibe $ 300, y si cae sello usted no recibe nada. Probablemente usted se quedar a con los $ 100 seguros, o sea que su valor esperado de la segunda opci on es menor que $ 100. Pero si su escala de valores fuese monetaria, usted esperar a recibir $ 150 y deber a (siendo racional) aceptar la segunda opci on. Si acepta la primera opci on signica que
A LA TEORA DE UTILIDAD 3.1. BREVE INTRODUCCION
73
usted valora $ 300 en mucho menos de tres veces lo que usted valora $ 100, o usted est a siendo irracional. Ejemplo 3.1 (La Paradoja de San Petersburgo). Usted debe pagar $ c para entrar en el siguiente juego de apuestas. Se lanza una moneda balanceada (probabilidad de caer cara igual 1/2) hasta que la primera cara aparezca. Si esto toma n lanzamientos a usted se le paga $ n anto est a usted dispuesto a pagar para entrar en esta apuesta?. 2 . Cu Supongamos que su escala de valores es monetaria, entonces su utilidad esperada es:
n=1
2 P (n) c =
n=1
2n 2n c = .
Por lo tanto usted deber a estar dispuesto a pagar $ c arbitrariamente grande para entrar en la apuesta ya que la utilidad esperada ser a positiva, a pesar de que la probabilidad de ganar $ 16 o m as es de 1 apenas 8 . Lo irracional de este hecho nos indica que nuestra escala de valores respecto al dinero no debe ser lineal, sino c oncava para magnitudes grandes, y posiblemente acotada. A qui en le importa $ 1 cuando ya tiene $ 10100 ?.3 Las consecuencias de nuestros actos ser an llamadas recompensas r y su espacio es . A menudo hay incertidumbre sobre las consecuencias que realmente van a ocurrir. As los resultados de las acciones son distribuciones de probabilidad P en , llamadas apuestas. Denotaremos por P al conjunto de esas probabilidades. Para trabajar con valores y preferencias en P, supongamos por el momento la existencia de una funci on U (r) con valores en los reales , tal que el valor de la distribuci on P P viene dado por el valor esperado de U bajo P . Denotamos a este valor esperado por: E P [U (r)] o simplemente por U (P ). Si esta funci on U existe, la llamamos la funci on de utilidad. Supongamos que el TD puede avaluar sus preferencias entre las apuestas. Esto es para P1 y P2 en P puede juzgar si: 1. P1 2. P2 P2 (preere P2 a P1 ) o P1 (preere P1 a P2 ) o
74
Esta avaluaci on puede ser muy dif cil en la pr actica, y puede diferir entre individuos. Escribimos P1 P2 para decir que P1 no se preere a P2 , o sea P1 P2 o P1 P2 . Una recompensa r la identicaremos con la distribuci on en P, denotada por r , que le asigna probabilidad uno al punto r. El objetivo es buscar una funci on U que represente a trav es de su valor esperado, el patr on de preferencias del TD en P. Esto es, procurarnos una funci on U tal que olo si U (P1 ) U (P2 ), que ser a la funci on de utilidad. P1 P2 si y s Su existencia no est a nada clara y ser a consecuencia de los axiomas de racionalidad que postularemos luego. Presentamos seguidamente dos m etodos u tiles para la construcci on de U (supuesta su existencia). En estos m etodos nos concernir an mezclas de apuestas de la forma P = P1 + (1 )P2, donde 0 < < 1. Esta P es la distribuci on en P tal que para A , P (A) = P1 (A) + (1 )P2 (A). En particular, P = r1 + (1 ) r2 es la distribuci on que asigna probabilidad a la recompensa r1 y (1 ) a la recompensa r2 . Note que por ejemplo: U (P ) = U ( r1 ) + (1 )U ( r2 ) = U (r1 ) + (1 )U (r2 ), es el valor esperado de la recompensa para la apuesta P .
3. P1 P2 (P1 y P2 son equivalentes).
3.1.1
M etodos de construcci on de la funci on de utilidad U
METODO 1: En este m etodo, es un n umero tal que 0 < < 1. Los pasos a seguir son: 1. Se escogen dos recompensas r1 y r2 tal que: r1 r2 . Si existen una recompensa mejor y una peor as gnelos a r1 y r2 respectivamente. Haga U (r1 ) = 0 y U (r2 ) = 1. 2. Para una recompesa r3 , tal que r1 r3 r2 encuentre tal que: r3 P = r1 + (1 ) r2 . O sea, r3 es equivalente a la apuesta que nos da r1 con probabilidad y r2 con probabilidad (1 ). (Encontrar puede ser dif cil). Dena, U (r3 ) = U (P ) = U (r1 ) + (1 )U (r2 ) = 1 .
75
3. Para r4 tal que r3
r4
r2 encuentre tal que:
r4 P = r3 + (1 ) r2 . Dena,
U (r4 ) = U (P ) = U (r3 )+(1 )U (r2 ) = (1)+(1 ) = 1 , y contin ue as sucesivamente para todas las recompensas (si es nito) o hasta obtener una curva sucientemente suave de U (si no es nito). 4. Haga vericaciones peri odicas de consistencia. Por ejemplo, como r1 r3 r4 entonces encuentre en tal que: r3 P = r1 + (1 ) r4 . Note que debe cumplir, al menos aproximadamente con: U (r3 ) = 1 = U (r1 ) + (1 )U (r4 ) = (1 )(1 ) Si esto no es as , es necesario volver atr as y reconsiderar las asignaciones hasta hacerlas consistentes. METODO 2: 1. Como en el M etodo 1. 2. Encuentre r3 tal que: r3 P = 1 1 r1 + r2 , 2 2
o sea, obtener r3 con seguridad es equivalente a la apuesta que nos ofrece con probabilidad 1 tanto a r1 como a r2 . Entonces, 2 1 1 1 U (r3 ) = U (P ) = U (r1 ) + U (r2 ) = . 2 2 2
76
3. Encuentre r4 tal que:
r4
1 1 r1 + r3 2 2
1 1 1 U (r4 ) = U (r1 ) + U (r3 ) = . 2 2 4
Encuentre r5 tal que: r5 1 1 r3 + r2 , 2 2 y 1 1 3 U (r5 ) = U (r3 ) + U (r2 ) = , 2 2 4
y as sucesivamente. 4. Verique peri odicamente su consistencia. Por ejemplo, encuentre r6 tal que:
r6
1 1 r4 + r5 , 2 2
1 1 1 U (r6 ) = U (r4 ) + U (r5 ) = , 2 2 2
y por consiguiente r6 debe ser igual a r3 . Si esto no es ni aproximadamente cierto, hay que volver atr as hasta obtener consistencia. Ejemplo 3.2 (Utilidad del dinero). Usaremos aqu el M etodo 2. Considero, r1 =$ 0, r2 =$ 5000 con U (r1 ) = 0 y U (r2 ) = 1. Me pregunto (seriamente) para cu al r3 se cumple, r3 1 $0 + 1 $5000 . Si r3 =$ 2 2 2500 preferir a $ 2500 seguros, pero si r3 =$ 1000 preferir a la apuesta. Decido tentativa y aproximadamente que r3 =$ 1500 con U (r3 ) = 1 . 2 (Note que esto depende de mi fortuna actual. Si dispusiese de una jugosa cuenta de banco bien pudiera haber asignado r3 =$ 2450). Busco ahora r4 , tal que: r4
1 2
1 1 $0 + $1500 . 2 2
Asigno r4 =$ 700 de donde U ($700) = 1 . Procuro r5 con r5 4 1 $1500 + 2 $5000 . Asigno, r5 =$ 3000 y entonces U ($3000) = 3 . 4
77
Antes de continuar me hago una pregunta redundante para vericar mi consistencia. Busco un r6 con, 1 1 r6 $700 + $3000 . 2 2 = U (r3 ), con r3 =$ Decido que r6 =$ 1700, pero como U (r6 ) = 1 2 1500, encontr e una inconsistencia. Vuelvo atr as, pero sigo satisfecho con r3 y r4 . Reviso sin embargo r5 y me pregunto para qu e valor de r5 har a r6 =$ 1500 y hago r5 =$ 2500. Los valores asignados se gracan en la Figura 3.1. De hecho gracar ayuda en la asignaci on aproximada de los rs.
U (r) 1 3/4 1/2 1/4 0 1000 2000 3000 4000 5000 $
Figura 3.1. Utilidad personal del dinero.
Algunas caracter sticas de la utilidad del dinero son las siguientes: 1. U (r) es aproximadamente lineal para r peque no, (estamos dispuestos a aceptar apuestas 1 vs. 1 si r es peque no). 2. U (r) es usualmente c oncava, al menos para r > 0, (adversa al riesgo). 3. U (r) es t picamente muy distinta para r 0 que para r < 0, por lo que es recomendable construir U (r) por separado en ambos casos.
78
4. U (r) es t picamente acotada. Continuaci on Ejemplo 3.1. La Teor a de Utilidad resuelve la paradoja, mostrando que la utilidad de aceptar la apuesta es:
n=1
U (2n c)2n ,
la que para funciones t picas de utilidad del dinero es negativa para c sucientemente grande. D. Bernoulli sugiri o U (r) = log(r + c) para ren solver la paradoja. Sin embargo para recompensas de $ 22 la paradoja subsiste para el logaritmo. Esta paradoja se resuelve cuando U es acotada. 3 Los axiomas que garantizan la existencia de la funci on de utilidad y su unicidad, salvo por transformaci on lineal, son: 1. Si P y Q P entonces exactamente una de las relaciones: P o Q P o P Q es verdadera. 2. Si P QyQ R entonces P R. Q si y s olo si: Q
3. Sean P, Q y R P, 0 < < 1. Entonces P P + (1 )R 4. Si P
Q + (1 )R.
Q R entonces existen n umeros 0 < < < 1 tales que: P + (1 )R Q P + (1 )R.

i=1
Si adem as se satisface el siguiente axioma, entonces U es acotada. 5. Si Pi Q para i = 1, 2, . . . , i 0 y

i=1
i = 1, entonces
i Pi
Q.
79
Es tambi en posible denir la probabilidad subjetiva de cualquier evento E , a partir de las utilidades que las recompensas asociadas a on sencilla mostrar a el procedimiento. E y E c implican. Una ilustraci Supongamos que si E ocurre obtenemos la recompensa r1 , y si E c ocurre obtenemos la recompensa r2 , las cuales no son equivalentes. Asignamos una recompensa r3 tal que: r3 P = P (E ) r1 + P (E c ) r2 . Entonces, U (r3 ) = P (E )U (r1 ) + (1 P (E ))U (r2 ), y nalmente: P (E ) = U (r3 ) U (r2 ) . U (r1 ) U (r2 )
Demostraciones de lo armado anteriormente, aparecen en Ferguson(1967) o DeGroot(1970), donde se hacen algunos supuestos t ecnicos adicionales. Ver tambi en Fishburn(1981) donde aparece una revisi on de los diferentes conjuntos de axiomas que han sido propuestos. Los axiomas de racionalidad, a excepci on del 1, son razonablemente realistas y aparecen como aceptables. Vimos en el ejemplo 2.11 una situaci on donde el principio minimax viola el axioma 3 y la consecuencia fue irracional. El axioma 4 puede interpretarse como que no existen recompensas innitamente buenas o malas (no existe ni el cielo ni el inerno). Si P fuese innitamente mala no existir a , 0 < < 1, tal que Q P + (1 )R. Puede argumentarse que la muerte es innitamente mala, pero entonces no aceptar amos el extra-chance de morir al cruzar la calle. El axioma 1 sin embargo no es realista en muchas situaciones. Los defensores del axioma 1 aducen que la vida nos fuerza a escoger entre opciones alternativas extremadamente dif ciles de comparar. Pero esto no necesariamente nos dice que existe una escala precisa U , que act ua linealmente sobre las apuestas compuestas, que mide con precisi on todas nuestras preferencias entre todas las posibles apuestas. El caso de la utilidad del dinero es m as sencillo ya que estamos comparando cantidades de $. Pero incluso en este caso, si retornamos al ejemplo
80
3.2, para m asignar a r3 cualquier cantidad entre $ 1400 y $ 1600, ser a perfectamente aceptable como cantidad segura equivalente a la apuesta que con 50-50 de chance me da $ 0 o $ 5000. En otras palabras, existe una imprecisi on inevitable al momento de transferir mis preferencias a una escala. Para otras comparaciones m as complejas este comentario aplica a un con m as fuerza. Sucede, sin embargo, que a menudo podemos decidir racionalmente entre opciones alternativas a un cuando la escala de medidas sea imprecisa. Como ejemplo, considere la probabilidad que ud. asigna al evento E de que Italia gane el pr oximo mundial de f utbol. Si luego de un exhaustivo an alisis ud. concluye que su probabilidad de que E ocurra es de 0.785467414..., esta armaci on s olo puede ser considerada como un chiste. Una manera operacional sumamente u til de calcular probabilidades subjetivas (De Finetti 1974, Vo. 1) es la de medir sus dispocisiones a apostar respecto de eventos. Tomemos de nuevo el caso del mundial de f utbol. Si un TD est a dispuesto a apostar a favor de Italia 0.6 vs. 0.4, decimos que su probabilidad de que Italia gane el mundial es de por lo menos 0.6. Note sin embargo que no necesariamente el mismo TD est a dispuesto a apostar en contra de Italia 0.4 vs. 0.6. (Esto no tiene que ver con favoritismos personales sino con su evaluaci on de riesgo). Bien puede armar, dada la alta incertidumbre de tal evento, que en contra de Italia apostar a 0.2 vs. 0.8. En este caso tendremos 0.6 P (E ) 0.8, o sea su probabilidad es imprecisa. El fen omeno anterior lo encontramos todo el tiempo en la vida real. Por ejemplo, la diferencia entre el precio de venta y el precio de compra que las casas de cambio le asignan a una moneda, digamos la lira o la libra esterlina, es directamente proporcional a la variabilidad que est e mostrando dicha moneda. Conjuntos de axiomas m as generales (y m as realistas) que los enunciados anteriormente aparecen, por ejemplo, en Smith(1961), Good(1962) y Walley(1991). Un resultado central de dichas teor as de la imprecisi on, es que para ser racional se debe actualizar cada una de las distribuciones a priori , de acuerdo a la regla de Bayes, obteniendo as , luego de observar el dato X , una clase actualizada de distribuciones a posteriori (x). Esta generalizaci on sigue obedeciendo principios b asicos de racionalidad y puede ser axiomatizada. Desarrollar esta Teor a de la Imprecisi on (Bayesiana) y llevarla alg un d a a un
81
nivel comparable de la madurez al que tiene la Inferencia y Teor a de la Decisi on (bajo la hip otesis de la precisi on) es un area apasionante de investigaci on actual (ver Berger(1984), Pericchi y Walley(1989a, 1989b, 1991)). La cr tica frecuentemente hecha de que es dif cil o imposible evaluar las creencias a priori con precisi on, en lugar de dirigirnos al enfoque frecuentista debe, en nuestra opini on, motivarnos a generalizar el enfoque Bayesiano, preservando su solidez. Alternativamente, se ha desarrollado un enfoque de previas de referencia, autom aticas o noinformativas que posibilitan un enfoque condicional a los datos, pero objetivo, de referencia o autom atico, que no requiere evaluar la informaci on sobre en forma subjetiva-personal. En cap tulos siguientes, expondremos este enfoque autom atico Bayesiano, que preservando algunas (no todas) ventajas del enfoque Bayesiano propio, presenta una mayor simplicidad. Seguidamente conectamos la Teor a de Utilidad con las funciones de p erdida y el principio Bayesiano de minimizaci on de la p erdida esperada, vistos en el cap tulo anterior. Por simplicidad hacemos la discusi on para y discretos. Denamos la funci on c(, a)(r) como la probabilidad de que el TD reciba la recompensa r si toma la acci on a A, y es el estado de la naturaleza. Supongamos que la funci on de utilidad U existe. Denimos la funci on de p erdida L: A R por: L(, a) = U (c(, a)) = c(, a)(r)U (r).
r
Luego de observar el resultado del experimento X , la densidad de probabilidades del TD sobre es ( | x). Si el TD toma la acci on a, la probabilidad de que obtenga la recompensa r es: Pa (r) =
( | x)c(, a)(r).
Entonces la acci on a es equivalente a la apuesta Pa . Por tanto pueden compararse las diferentes acciones comparando la utilidades de las apuestas Pa , para a jo,
82
U (Pa ) =
r
Pa (r)U (r) =
r
( | x)c(, a)(r)U (r)
( | x)
c(, a)(r)U (r) =
( | x)L(, a),
siempre que pueda intercambiarse el orden de las sumatorias. Entonces: olo si Pa1 Pa2 si y s a2 se preere a a1 si y s olo si U (Pa1 ) < U (Pa1 ) si y s olo si ( | x)L(, a1 ) > ( | x)L(, a2 )
si y s olo si a2 tiene p erdida esperada a posteriori menor que a1 , y la mejor acci on ser a aquella que minimice la p erdida esperada a posteriori. En conclusi on, los axiomas 1 a 5 nos conducen ab fortiori a la minimizaci on de la p erdida esperada.
3.2
El Principio de la Verosimilitud
Un principio fundacional m as sencillo que la Teor a de Utilidad es el Principio de la Verosimilitud, el cual tiene consecuencias de largo alcance respecto a cu al enfoque escoger como paradigma en la Teor a de Decisi on e Inferencia Estad stica. Para el dato observado, X , de un experimento, hemos llamado a p(x | ), considerada como funci on de , la funci on de verosimilitud indexVerosimilitud!funci on de. La raz on de darle este nombre es que si para 0 y 1 , p(x | 0 ) > p(x | 1 ), entonces es m as verosimil (o plausible) que 0 sea el verdadero que ha generado al dato X (observado y jo) que 1 . PRINCIPIO DE LA VEROSIMILITUD: Al tomar decisiones sobre , despu es que X ha sido observado, toda la informaci on experimental est a contenida en p(x | ). M as a un, dos funciones de verosimilitud, que como funciones de , sean proporcionales, contienen la misma informaci on sobre . Una discusi on exhaustiva en defensa de este principio aparece en Berger y Wolpert(1984). El siguiente ejemplo famoso ilustrar a la racionalidad de este principio.
3.2. EL PRINCIPIO DE LA VEROSIMILITUD
83
Ejemplo 3.3 (Lindley y Phillips, 1976). Estamos interesados en la probabilidad de que una moneda al ser lanzada caiga cara. Se desea conducir el test de hip otesis: 1 1 vs. H1 : > . 2 2 Se realiza un experimento lanzando la moneda en una serie de ensayos independientes, obteni endose 9 caras y 3 sellos. Es decir, x+ = 9, n = 12. No nos dicen, sin embargo, c omo el experimentador decidi o detener el experimento en n = 12, es decir no nos especican el espacio muestral X . Una posibilidad es que el experimentador hab a decidido de antemano efectuar 12 ensayos, en cuyo caso tenemos la distribuci on binomial, H0 : = p1 (x+ | ) = n x+ x+ (1 )nx+ = 220 9 (1 )3 ,
donde x+ es el n umero de caras. Otra posibilidad es que el experimentador hab a decidido detener el experimento al observar m = 3 sellos, en cuyo caso tenemos la distribuci on binomial negativa, p2 (x+ | ) = m + x+ 1 x+ x+ (1 )m = 559 (1 )3 .
El principio de la verosimilitud nos prescribe que en cualquier caso todo lo que necesitamos saber sobre el experimento es pi (x+ | ), y como ellas son proporcionales deben contener la misma informaci on acerca de . Por otra parte los an alisis frecuentistas (Cl asicos) violan este principio. Por ejemplo, si se realiza un test de Neyman-Pearson para este problema, obtenemos como nivel observado de signicaci on en cada posibilidad descrita anteriormente:
12 1 1 1 = P (x+ 9 | = ) = p1 (x+ = i | = ) = 0.075 2 2 i=9 1 1 2 = P (x+ 9 | = ) = p2 (x+ = i | = ) = 0.0325 2 2 i=9
84
Si el nivel de signicancia del test fue escogido como = 0.05, se rechazar a H0 en el segundo caso pero no en el primero. Esto es claramente sospechoso. Qu e tiene que ver el plan que dise n o el experimentador con la probabilidad de una moneda de caer cara?.3 El ejemplo anterior nos ilustra que un mismo resultado, x+ =9, puede ser insertado en dos espacios muestrales, X1 y X2 , pero una vez obtenido el dato, el hecho de que x+ provenga de X1 o de X2 se hace irrelevante al momento de decidir acerca de . En otras palabras, se deben tomar decisiones condicionales en el X observado y son irrelevantes otras observaciones que hubiesen podido ocurrir pero que no lo hicieron. Para el punto de vista frecuentista el espacio muestral sigue siendo relevante luego de observar el dato, y por tanto viola el Principio de la Verosimilitud. Considere por ejemplo el riesgo cuadr atico de un estimador T (x): R(, T (x)) =
X
( T (x))2 dP (x | ).
R(, T (x)) es una medida de la dispersi on inicial de T (x), pero no puede ser considerada como una medida de la dispersi on nal, ya que X es observado y est a jo. Un ejemplo nos ilustrar a dram aticamente el peligro de interpretar un riesgo inicial (frecuentista) como riesgo posterior o nal, que es el que realmente interesa. Ejemplo 3.4 (Berger 1985). Sean X1 y X2 independientes condicionalmente en con id entica distribuci on dada por: 1 P (xi = 1 | ) = P (xi = + 1 | ) = , 2 donde < < es desconocido. El estimador de , T (x) lo denimos como: T (x) =
1 (x1 2
+ x2 ) x1 + 1
si si
x1 = x2 x1 = x2 .
Se puede vericar que P (T (x) = | ) = 0.75 para todo , por lo que frecuentistamente resulta que T (x) es un intervalo de 75% de conanza de , que es una medida de riesgo inicial. Supongamos que
3.2. EL PRINCIPIO DE LA VEROSIMILITUD
85
(x1 + x2 ). Condicionalmente en x1 = observamos x1 = x2 , T (x) = 1 2 x2 , podemos asegurar que 1 (x1 + x2 ), y la medida de 75% de 2 conanza ya no es relevante. Similarmente, si x1 = x2 entonces habr a una probabilidad de 0.5 de que T (x) = . En ambos casos , reportar 75% de conanza es enga noso. El principio del riesgo posterior nos indica que el desempe no de una regla de decisi on (x) debe juzgarse condicionalmente en X , en lugar de para todas las posibles observaciones X . Es decir, luego de obtener el dato, es el riesgo posterior y no el inicial lo relevante para juzgar a (x).3 Ejemplo 3.5. Suponga que ud. va al m edico quien va a hacerle un test cl nico para intentar descubrir si ud. tiene un tumor, en cuyo caso deber a ser intervenido quir urgicamente de emergencia. El m edico le informa que el test cl nico tiene una probabilidad de 95% de decidir correctamente si ud. tiene el tumor o no. En base a esa informaci on ud. acepta dejarse hacer el test, el cual result o negativo. Pero ahora ud. con todo derecho le exigir a al m edico que le dijera cu al es la probabilidad de que ud. tenga el tumor o no, dado que el test result o negativo. Es posible que dicho test sea muy poderoso en detectar su verdadero estado para resultados positivos pero no para resultados negativos. El 95% que el m edico mencion o previamente ya no es relevente para ud. Los m edicos deber an aprender el Teorema de Bayes!. Ahora lo relevante es: La probabilidad de tener el tumor condicionado a un resultado negativo del test.3 El principio Bayesiano (y extensiones de el para clases de densidades a priori) cumple naturalmente con los dos principios expuestos en esta secci on. En efecto, el desempe no de una regla de decisi on se juzga en base a la p erdida Bayesiana esperada condicional en X , o sea el riesgo Bayesiano posterior (Denici on 2.9): (, (x)) = L(, (x))d( | x),
donde el valor esperado es tomado sobre y no sobre X . Generalizando esta noci on, si s olo se sabe que , donde es una clase de distribuciones a priori, entonces concluimos que el desempe no de (x)
86
es mejor o igual a: sup (, (x)).
(3.1)
Por otra parte el enfoque Bayesiano obedece al principio de verosimilitud. En efecto el Teorema de Bayes (1.2) establece que: ( | x) = p(x | ) () , p(x | ) ( )d (3.2)
donde ( | x) denota la densidad a posteriori, y hemos supuesto por simplicidad que la distribuci on a priori posee una densidad (). En el on, experimental y subjetiva, est a enfoque Bayesiano toda la informaci resumida en ( | x). Ahora (3.2) nos indica que: olo a trav es 1. Toda la informaci on experimental entra en ( | x) s de la verosimilitud p(x | ). 2. Si dos verosimilitudes son proporcionales (como funciones de ), ambas generar an la misma ( | x), ya que la constante sale de la integral (no depende de ) y se cancela con la del numerador. Resumen: lo concluido en esta secci on (y en la anterior), es que desde varios puntos de vista, el enfoque Bayesiano (o extensiones del mismo) es el enfoque coherente de la Teor a de Decisi on Estad stica y por ello nos ocuparemos exclusivamete de el en los pr oximos cap tulos.
3.3
Ejercicios
3.1 Vericar que para la construcci on de U en el M etodo 1 es posible asignar U (r) para r r1 o r2 r. 3.2 Construya para el ejemplo 3.2 una funci on de utilidad del dinero (en $) en el rango (-10000,10000) 3.3 Demostrar que la paradoja descrita en el ejemplo 3.1 se resuelve cuando U es acotada.
3.3. EJERCICIOS
87
3.4 Vericar que en el Ejemplo 3.4 P (T (x) = | ) = 0.75 para todo , y que P (T (x) = | , x1 = x2 ) = 1 y , P (T (x) = | x1 = x2 ) = 0.5, .
88
Cap tulo 4 An alisis Bayesiano

Comenzaremos en este cap tulo analizando el test de Hip otesis desde el punto de vista Bayesiano.
4.1
Test de Hip otesis
Este problema ya lo planteamos en el ejemplo 2.2, cuya notaci on seguiremos. El caso m as sencillo es el test de hip otesis simple vs. simple, o sea: H0 : = 0 vs. H1 : = 1 ,
donde el espacio de par ametros es = {0 , 1 }. En la terminolog a frecuentista de Neyman-Pearson para cada decisi on d D se denomina: P (d(x) = a1 | 0 ) = (d) P (d(x) = a0 | 1 ) = (d) error de tipo I (falso rechazo) error de tipo II (falso no-rechazo).
La funci on de riesgo R(, d) es entonces: R(, d) = L1 (d) si = 0 L0 (d) si = 1 .
Supongamos que la distribuci on a priori es: P (H0 ) = 0 , P (H1) = 1 = 1 0 . Entonces el riesgo promedio es: 89
90
CAPTULO 4. ANALISIS BAYESIANO
r(, d) = 0 L1 (d) + (1 0 )L0 (d) = a(d) + b (d).
(4.1)
Encontrar a d que sea Bayes-promedio optima es equivalente al famoso Lema de Neyman-Pearson. Teorema 4.1 (Lema de Neyman-Pearson). Sea d D tal que: d (x) = a0 d (x) = a1 si si a p(x | 0 ) > b p(x | 1 ) a p(x | 0 ) < b p(x | 1 )
y cualquier decisi on en caso de igualdad. Entonces d es optima Bayes. Prueba. Sea d D cualquier otra decisi on con: y B = {x : d(x) = a1 }.
A = {x : d(x) = a0 } Como B c = A, sigue que: r(, d) = a =a+ a+ donde

B
p(x | 0 )dx + b
p(x | 1 )dx
[bp(x | 1 ) ap(x | 0 )]dx
[bp(x | 1 ) ap(x | 0 )]dx = r(, d),
A = {x : d (x) = a0 } = {x : b p(x | 0 ) a p(x | 0 ) < 0}. Por lo tanto d (x) minimiza el riesgo Bayesiano promedio, y se obtiene el resultado.2 La regi on de rechazo de H0 de d ser a, salvo un conjunto de medida cero, B = x : p(x | 0 ) b < =k . p(x | 1 ) a
4.1. TEST DE HIPOTESIS
91
En el enfoque de Neyman-Pearson se escoge k tal que: P (B | 0 ) = , o sea que el error tipo I sea ; no se da guia racional de c omo escoger , siendo dictadas por la convenci on = 0.1; 0.05 o 0.01, que es una pr actica subjetiva inconveniente. En contraste, el enfoque 0 )L0 , Bayesiano no fuerza la escogencia de , sino que dene a k = (1 0 L1 una combinaci on de creencias a priori sobre las hip otesis y las p erdidas envueltas. En la versi on de Fisher de Test de signicancia, se dene el valor observado del test, p , como: P p(x | 0 ) p | 0 = p , p(x | 1 )
(x|0 ) , el valor observado del cociente de verosimilitudes. donde p = p p(x|1 ) Note que la denici on de p viola el principio de verosimilitud (ver ejemplo 3.3). Se interpreta cl asicamente que p es el m nimo valor de para el cual se habr a rechazado H0 . Es generalmente aceptado que en la pr actica se interprete a p como la probabilidad de que H0 sea correcta. Esta interpretaci on es los ocamente incorrecta desde el punto de vista frecuentista, ya que no tiene sentido considerar la probabilidad de que una hip otesis sea correcta. Una hip otesis es una armaci on sobre , y no es una variable aleatoria desde el punto de vista frecuentista. Sin embargo esta interpretaci on del que usa el test de hip otesis frecuentista es tan natural, que d ecadas de ense naza de la teor a de Neyman-Pearson no han podido erradicarla. Aceptan esta teor a porque la interpretan desde un punto de vista Bayesiano que les es racional; y adem as les produce n umeros, y decisiones en forma mec anica. El enfoque Bayesiano provee de la interpreptaci on adecuada, pero tambi en requiere del usuario el insumo necesario: cu ales son las p erdidas de una decisi on incorrecta y qu e se conoce a priori sobre H0 . Esta es una diferencia radical entre ambos enfoques: el Bayesiano requiere exponer claramente las evaluaciones subjetivas. El frecuentista esconde el subjetivismo (inevitable) en el manto de la costumbre. Si es cierto que el procedimiento del Teorema 4.1 tiene interpretaciones en t erminos de las probabilidades de las hip otesis, el Teorema de Bayes nos indica que:
p(Hi | x) =
1 k =0
p(x | Hi )i p(x | Hi )i = , p(x) p(x | Hk )k
i = 0, 1.
(4.2)
92 de donde:
y entonces la decisi on optima-Bayes rechaza H0 si: p(H0 | x) L0 . < p(H1 | x) L1 (4.3)
p(H0 | x) p(x | 0 )0 = , p(H1 | x) p(x | 1 )(1 0 )
Si por ejemplo L0 = L1 , entonces se rechaza a H0 , cuando su probabilidad a posteriori es menor que la de H1 . Si la consecuencia de un rechazo de H0 incorrecto es m as grave, o sea L1 > L0 , s olo se rechazar a H0 cuando tenga una probabilidad a posteriori menor que la de H1 , de acuerdo a (4.3). Por supuesto que no es necesario obtener la decisi on optima-Bayes, como se hizo en el Teorema 4.1 (que sin embargo fue u til para comparar con conceptos frecuentistas). Podemos, en lugar de minimizar r(, d), minimizar la p erdida a posteriori esperada, (, d). En el caso simple vs. simple, usando (4.2) obtenemos: (, a0 ) = E|X [L(, a0 )] = p(H1 | x)L0 , Entonces para minimizar , debemos rechazar H0 (o sea, d(x) = a1 ) si: o sea (4.3). En resumen, una decisi on optimo Bayes d (x) debe cumplir con: d (x) = a1 , si la desigualdad (4.3) ocurre, d (x) = a0 , si la desigualdad en sentido contrario a (4.3) ocurre. La ventaja (odds) posterior, O01 (x), de H0 vs. H1 se dene como la parte izquierda de (4.3) o sea: p(H0 | x) p(H0 | x) = , (4.4) p(H1 | x) 1 p(H0 | x) que es la cantidad b asica para aceptar o rechazar H0 , o sea para tomar la decisi on. O01 (x) = p(H0 | x)L1 < p(H1 | x)L0 , (, a1 ) = E|X [L(, a1 )] = p(H0 | x)L1 .
93
Por ejemplo, la decisi on optima es aceptar H0 si la ventaja posterior 0 de H0 sobre H1 es mayor que L . Denotamos por O01 la ventaja a priori L1 de H0 vs. H1 , o sea 0 p(H0 ) = . p(H1 ) 1 Denimos al factor de Bayes, B01 (x), de H0 vs. H1 por: O01 = B01 (x) = p(x | H0 ) , p(x | H1 ) (4.5)
(4.6)
que en el caso de simple vs. simple, no depende de la informaci on a (x|0 ) priori y es igual al cociente de verosimilitudes p . De (4.2) y las p(x|1 ) deniciones anteriores obtenemos: O01 (x) = O01 B01 (x), (4.7)
o sea, que B01 es el factor que multiplicado por la ventaja a priori da la ventaja posterior. La relaci on (4.7) es multiplicativa pero podemos hacerla aditiva tomando logaritmo (que suponemos natural), obteniendo en notaci on obvia: LO01 (x) = LO01 + W01 (x). (4.8)
El logaritmo del factor de Bayes, W01 (x), se conoce como el peso de la evidencia provista por el experimento en favor de H0 y en contra de H1 , Good(1950,1968). El peso de la evidencia tiene importancia crucial en areas diversas como diagn ostico m edico, ciencia forense o cripto-an alisis. Una aplicaci on espectacular en esta u ltima area del uso de W01 (x) fue el desciframiento del c odigo alem an, conducido por Turing y Good, durante la II Guerra Mundial. Aplicaciones del peso de la evidencia a problemas de diagn ostico m edico aparecen por ejemplo en Good y Card (1971) y Pereira y Pericchi (1989). Para el caso general de test de hip otesis: H0 : 0 vs. H1 : c 0 = 1 ,
escribimos la distribuci on a priori como: () = 0 g0 () si 0 1 g1 () si 1 , (4.9)
94
donde G0 y G1 son distribuciones (sobre 0 y 1 ), que indican como se reparte la probabilidad entre los s de cada hip otesis. Entonces las verosimilitudes (ponderadas) bajo H0 y H1 se escriben como: p(x | Hi ) =
i
p(x | )gi ()
i = 0, 1.
(4.10)
Con la adaptaci on dada por (4.9) y (4.10) las deniciones dadas por el caso anterior son v alidas para el caso general. Note la sencillez conceptual de la aproximaci on Bayesiana al Test de Hip otesis: comparar las probabilidades a posteriori de H0 vs. H1 . En contraste con la Teor a de Neyman-Pearson donde test uniformemente m as poderosos existen s olo en situaciones particulares. Ejemplo 4.1 (Hip otesis nula puntual). Suponemos que X N (, 2 /n) como en el ejemplo 2.6. Se desea hacer el test H0 : = 0 vs. H1 : = 0 .
Se asigna la siguiente densidad a priori () = Note que: p(x | H0 ) = p(x | 0 ) = N 0 , p(x | H1 ) =

2
0 1 N (, 2 )
si si
= 0 = 0 2 , n
(4.11)
(4.12) (4.13)
(=0 )
p(x | )N (, 2 )d.
Como p(x | ) = N (, ) y el extraer 0 no altera la integral, la n expresi on (2.8) es igual a (4.13) por lo que: p(x | H1 ) = N , 2 + 2 . n (4.14)
Entonces de (4.6),(4.7), (4.12) y (4.14) se tiene que: N 0 , 0 n O01 (x) = 2 1 0 N , +

2
2 n
(4.15)
95
Varias conclusiones interesantes pueden extraerse de (4.15). Para simplicar los c alculos hagamos la suposici on natural, = 0 . De (4.15) obtenemos, O01 (x) =
2
0 z 2 n n + 1 exp , 1 0 2 n + 1
(4.16)
n donde = | x 0 |, que es la estad stica en la que 2 y z = est a basada el test de hip otesis Cl asico. En ese enfoque se rechaza H0 cuando | z | z , donde (z ) = 1 y es la distribuci on 2 Normal. Por ejemplo si = 0.05, entonces z = 1.96. Supongamos que observamos una sucesi on zn , tal que zn = z , o sea que rechazamos H0 para cada n seg un la teor a cl asica. Observemos sin embargo que para todo 0 jo, 0 < 0 < 1, resulta que:
O01 (zn ) , y como se cumple en general que: p(H0 | x) = 1 + entonces: 1 O01 (x)
1
(4.17)
p(H0 | zn ) 1.3
n
En resumen, en el ejemplo 4.1 encontramos una sucesi on zn , para la que cl asicamente se rechaza H0 para cada n, pero para la que la probabilidad a posteriori de H0 tiende a 1. Esta discrepancia se conoce como la Paradoja de Lindley, Lindley(1957). Por ejemplo, si 0 = 1 , 2 = 0 , = 1 y observamos z = 1.96 (o sea, se rechaza H0 para un test cl asico con = 0.05), resulta que p(H0 | z = 1.96) es igual a 0.35 para n = 1; 0.6 para n = 100 y 0.8 para n = 1000. Si se aceptan entonces las especicaciones a priori, no es s olo los ocamente err oneo interpretar el observado como la probabilidad de que H0 sea cierta, sino que num ericamente acontece lo contrario para n grande. Sin embargo es necesaria una nota de cautela. Contrariamente a lo que sucede en problemas de estimaci on, en test de hip otesis, particularmente cuando H0 es un punto (de medida cero) y H1 no, la inuencia de la asignaci on a
96
priori no desaparece a medida que n crece. Note adem as que no se puede hacer crecer la varianza a priori 2 , a voluntad. En efecto si 2 , o sea si para n y el resto de las asignaciones jos, entonces de (4.16) obtenemos que O01 (x) , o sea se deduce de (4.17) que P (H0 | x) 1, para cualquier x. Otros an alisis de este problema aparecen por ejemplo en: Bernardo(1980), Smith y Spiegelhalter(1980), Pericchi(1984) y Berger y Pericchi (1996). El desarrollo de metodolog as Bayesianas de referencia o sistem aticas a la clase de problemas de test de hip otesis y selecci on de modelos, es en s misma de tal importancia y actualidad que le dedicaremos el Cap tulo 6 de este libro. Estas metodolog as nos proveen de maneras de asignar distribuciones a priori. En el ejemplo 4.1 advertimos sobre la inuencia demasiado grande que puede tener una asignaci on precisa a priori. La siguiente proposici on permite relajar al menos parte de esta asignaci on. Proposici on 4.1 Se desea hacer el test H0 : = 0 vs. H1 : = 0
y los datos X son una muestra generada por la verosimilitud p(x | ). La densidad a priori es: () = 0 1 g1 () si si = 0 = 0 , (4.18)
donde g1 es cualquier densidad. Entonces, 1 0 h(x) p(H0 | x) 1 + 0 p(x | 0 ) donde h(x) = sup=0 p(x | ). Prueba. Ejercicio.2
1
(4.19)
Continuaci on Ejemplo 4.1. Para este ejemplo, usando (4.19), puede vericarse que si en lugar de la asignaci on (4.11) hacemos la asignaci on mucho m as imprecisa (4.18), obtenemos que: 1 0 z2 p(H0 | x) 1 + exp 0 2
1
(4.20)
4.1. TEST DE HIPOTESIS 1 2
97 resulta de (4.20) que:
Para z = 1.96 (o sea, = 0.05) y 0 =
p(H0 | x) 0.128.
(4.21)
La cota inferior (4.21) es casi tres veces 0.05, y esto vale para cualquier n.3 Otros resultados del tipo de (4.19) donde g1 en (4.18) se restringe a la clase de densidades sim etricas alrededor de 0 y no crecientes en | 0 | aparecen en Berger y Sellke(1984). Por supuesto que en este caso la cota es mayor o igual a la obtenida en (4.21). De hecho es igual a 0.29. Ante cotas como la dada en (4.21) los frecuentistas aducen, no sin cierta raz on, que el an alisis que conduce a (4.21) supone una probabilidad 0 a priori ja, y precisa que H0 sea cierta. Note sin embargo, que el factor de Bayes no depende de 0 , aunque depende de (). Un frecuentista puede con todo derecho negarse a suponer tal probabilidad. De hecho Good clasica a los Bayesianos en una gran cantidad de categor as (algunas de ellas posiblemente vac as) pero favorecer a como denici on de Bayesiano: Aqu el que est a dispuesto a asignar una probabilidad a una hip otesis. La respuesta Bayesiana robusta (no dogm atica) debe ser considerar clases de distribuciones a priori en las cuales 0 var e en un amplio rango. Pericchi y Walley(1989a), para la situaci on del Ejercicio 4.3, denen una clase en la cual 0 0 1, que llaman clase casi ignorante. Para esta clase uno no asume una posici on de ignorancia a priori respecto de H0 . Las probabilidades a posteriori para esta clase se comportan muy razonablemente, y el valor observado del test p , se encuentra estrictamente entre el supremo y el nmo de las probabilidades a posteriori de H0 bajo esta clase. El problema de obtener, en alg un sentido, clases casi ignorantes para hip otesis H0 puntuales, o m as generalmente cuando H0 es compacto, permanece abierto.
98
4.2
Operaciones con la Distribuci on a Posteriori y sus propiedades
Una vez obtenido los datos X , toda la informaci on disponible est a contenida en ( | x).
4.2.1
Intervalos de Credibilidad (Probabilidad)
A menudo se resume lo que se conoce sobre el par ametro , por un conjunto C (x) , en el que es altamente plausible que se encuentre el verdadero 0 . Consideremos la funci on de p erdida: L (, C (x)) = 0 si C (x) 1 si C (x) d( | x)
La p erdida esperada a posteriori es:
(, C (x)) = E|X 1 1C (x) () = 1 = 1 P|X [ C (x)].
C (x)
Es decir, (, C (x)) es la probabilidad a posteriori de que no est e en C (x). Llamemos C (x) los conjuntos de para los cuales esta probabilidad es . T picamente habr a muchos de estos conjuntos. Usualmente se escoge aqu el C (x) con volumen a posteriori m nimo, denotado por HP D(x), que cumple con la siguiente propiedad: HP D (x) = ( | x) ( | x). HP D(x) y O sea, es el conjunto de par ametros con m as alta densidad posterior, que adem as tiene probabilidad posterior 1 de contener al verdadero 0 . Los intervalos de credibilidad C (x), as llamados porque dependen de las creencias a priori, son intervalos de probabilidad (condicional en X ) sobre . Los intervalos Cl asicos de conanza no admiten esta interpretaci on, y por ello es tan dif cil explicarlos en un curso de estad stica b asica. La interpretaci on que naturalmente viene a la mente (educada o no tanto) es la de intervalos de probabilidad. En el ejercicio 4.4 se muestra un ejemplo de un intervalo de HDP .
A POSTERIORI Y SUS PROPIEDADES 4.2. OPERACIONES CON LA DISTRIBUCION
99
4.2.2
Densidades Marginales y Par ametros de Molestia
Supongamos que el vector de par ametros est a compuesto de dos subt es es tomar decivectores componentes, = (1 , 2 ) , y nuestro inter siones sobre 1 , el vector de par ametros de inter es. Denominamos a 2 el vector de par ametros de molestia (nuissance). Supongamos que hemos obtenido la densidad conjunta a posteriori de : ( | x) = [(1 , 2 ) | x]. De nuevo la inferencia sobre 1 se resuelve de manera natural y coherente: marginalizando, es decir, integrando respecto de los par ametros de molestia en la densidad conjunta. La densidad marginal de 1 se dene como: (1 | 2 , x) (2 | x)d2 . (4.22) De la expresi on a la derecha en (4.22) se observa que la densidad marginal de 1 , es el promedio de la densidad de 1 , condicional en 2 , ponderada por la marginal de 2 . Ejemplo 4.2 (Verosimilitud Normal con varianza desconocida). La verosimilitud es: p(x | , h) = N (, h1 ). De acuerdo a la notaci on anterior, 1 = , 2 = h = 2 > 0. Nuestro inter es en este ejemplo es hacer inferencia sobre la media . Ahora una estad stica suciente 2 ser a: (n, xi , xi ). Algebraicamente es conveniente suponer que la densidad a priori es la llamada Normal-Gamma, denida por: (1 | x) = [( 1 , 2 ) | x] d2 =
NG(, h | , , , ) = ( | h) (h) = N ( | , (h)1)Ga(h | , ), (4.23) donde los hiperpar ametros a ser asignados por el TD son: , , , , siendo los tres u ltimos positivos y real. O sea, a priori, la densidad condicional en h es normal, y la densidad marginal de h es Gamma. Se verica que luego de observar una muestra de tama no n la densidad conjunta a posteriori de y h sigue siendo Normal-Gamma: (, h | x) = NG(, h | , , , ), (4.24)
100 donde: = + nx , +n = + = + n,
n = + , 2
1 n n(x )2 (xi x)2 + . 2 i=1 2( + n)
Note que de acuerdo a (4.24), h ( )2 2
(, h | x) h1/2 exp
[h 1 exp { h}].
(4.25)
Si hacemos uso de la siguiente identidad:

0
y p1 exp {ay }dy =
(p) , ap
(4.26)
obtenemos que:
0
( | x) =
(, h | x)dh + ( )2 2
1/2
o equivalentemente: 1 ( )2 ( | x) 1 + 2
(2 +1)/2
(4.27)
o sea, la densidad marginal a posteriori de es una t Student, con 2 grados de libertad, par ametro de localizaci on y par ametro de escala . Si 2 > 1 (que es cierto si tenemos una observaci on), la media de esta densidad es , que es un promedio ponderado entre y x. Note que se obtiene el mismo resultado que en (2.10), donde la varianza era conocida. El efecto de tener varianza desconocida es el de reemplazar una Normal por una t-Student de colas m as gruesas, y por lo tanto el intervalo HDP de credibilidad de va a ser m as ancho. Por supuesto, los intervalos de credibilidad de se obtienen de su densidad marginal.3
A POSTERIORI Y SUS PROPIEDADES101 4.2. OPERACIONES CON LA DISTRIBUCION
Desembarazarse de par ametros de molestia en el enfoque Bayesiano, es conceptualmente directo. Incluso, si en el ejemplo anterior no se hubiese supuesto una densidad a priori tratable, como la NormalGamma, obtener la marginal a posteriori se reduce a una integraci on num erica. Claro est a que en problemas m as complejos el n umero de par ametros de molestia es mucho mayor, y por consiguiente mayor ser a la dimensi on de la integral num erica a calcular. Existen disponibles algunos algoritmos computacionales como Bayes 4, Naylor y Smith(1982), que usando cuadratura Gaussiana adaptada a densidades a posteriori, integra rutinariamente unas pocas dimensiones. Alternativamente existen aproximaciones anal ticas a la marginal, muy exactas, basadas en aproximaciones de Laplace, como en Tierney y Kadane (1986), y recientemente por m etodos de simulaci on se han integrado problemas de mayores dimensiones (ver secci on 4.2.5). Desde el punto de vista frecuentista desembarazarse de par ametros molestos , conceptualmente, no es nada simple ya que no se puede integrar. Se requiere de una estad stica cuya distribuci on no sea afectada por el valor de los par ametros molestos, por ejemplo como descubri o Gosset para la t-Student. En problemas complejos se debe recurrir a m etodos aproximados y asint oticos. A un as el tema sigue siendo enormemente complicado. Ver por ejemplo Cox y Reid(1987). Sin embargo, para problemas de alta dimensi on es a un m as dif cil especicar una distribuci on a priori. Aqu , m etodos imprecisos de an alisis con clases de distribuciones a priori, y m ultiples an alisis de sensitividad respecto de las asignaciones a priori son a un m as relevantes. Varios m etodos que ayudan en la determinaci on de las distribuciones a priori, son expuestos por ejemplo en Berger(1985, cap. 3) y en el Cap tulo 5.
4.2.3
Inferencia Predictiva
A menudo el objetivo no es tomar decisiones sobre par ametros (t picamente no-observables), sino sobre observaciones futuras (observables ma nana). Decimos entonces que se requiere predecir a partir de la informaci on disponible hoy. Las observaciones futuras dependen del par ametro , que es y ser a desconocido. Denotemos al vector de observaciones futuras por X f . Luego de observado el experimento hasta hoy, tenemos a X jo. Las variables aleatorias son y X f . Para pre-
102
decir, todo el vector de par ametros es de molestia. Basamos nuestra predicci on en la densidad marginal posterior de X f , o sea, la densidad predictiva denida por: (xf | x) = (xf , | x)d = p(xf | , x) ( | x)d, (4.28)
donde p(xf | , x) es la verosimilitud (suponiendo que es una densidad) de X f . En el caso que X f sea condicionalmente (en ) independiente de X , lo que sucede si por ejemplo las observaciones futuras y pasadas son una muestra aleatoria, entonces (4.28) se simplica: (xf | x) = p(xf | ) ( | x)d. (4.29)
Ejemplo 4.3 (Continuaci on Ejemplo 2.7). Supongamos que hemos observado n ensayos Bernoulli, obteniendo X+ . Queremos obtener la probabilidad predictiva del evento A: exito en el pr oximo intento. Esto on es equivalente a obtener la distribuci on de Xf ya que por denici Xf = 1 si y s olo si A ocurre y Xf = 0 si y s olo si A no ocurre. Note que Xf no es independiente de X (ya que X da informaci on sobre ), pero es cierto que Xf es independiente de X , condicionalmente en . Por consiguiente: p(Xf | , x) = p(xf | ) y la simplicaci on (4.29) es v alida. Adem as p(xf = 1 | ) = , de donde: p(A | x) = p(xf = 1 | x) =
1 0
( | x)d = E|X (),
(4.30)
o sea, que en el caso Binomial la probabilidad predictiva de exito en el pr oximo ensayo es igual a la esperanza posterior de . Supongamos ahora que la densidad a priori es Beta, () = Beta(, ), con , > 0. De (4.31) y (2.22) resulta que: p(xf = 1 | x) = + x+ . ++n (4.31)
Si se asigna = = 1, la densidad Beta se convierte en la uniforme U (0, 1) y (4.31) se convierte en:
1 + x+ . (4.32) 2+n La expresi on (4.32) es la famosa Ley de Sucesi on de Laplace, quien fue uno de los primeros Bayesianos. De hecho hay quien ha armado que la estad stica Bayesiana deber a llamarse Laplaciana. Si se han observado n exitos en n ensayos, (4.32) indica que la probabilidad de un n nuevo exito es 1+ y si no se ha observado ning un exito, la probabilidad 2+n 1 de observarlo en el pr oximo ensayo es 2+n .3 p(xf = 1 | x) = Ejemplo 4.4 (Continuaci on Ejemplo 2.6). Aqu la verosimilitud 2 es Normal con varianza conocida y la densidad a priori tambi en es 2 Normal con media y varianza . Supongamos que esperamos m nuevas observaciones, y que se quiere obtener la densidad predictiva de
m
su media muestral X f =
1 m
Xif . De nuevo en este ejemplo X f es

i=1
(condicionalmente en ) independiente de X y por ello la simplicaci on (4.29) es v alida: p(xf | , x) = p(xf | ) = N X f | , 2 . m
Por otro lado, de (2.11) sabemos que: ( | x) = N ( | (x), 1 ). Resulta entonces,

(xf | x) =
N xf | ,
2 N ( | (x), 1 )d, m
(4.33)
entonces por un procedimiento an alogo al que condujo a (2.8) resulta, (xf | x) = N xf | (x), Note que: E [X f | x] = E [ | x],
2
2 + 1 . m
pero V ar(X f | x) = V ar( | x) + . Esto u ltimo nos dice que a m la varianza de hay que sumarle la varianza de X f alrededor de .
104
Como consecuencia tenemos que el HDP para X f en lugar de , se obtiene de (4.22) sustituyendo por X f y 1 por + 1 , y por m consiguiente el HDP de X f est a centrado en el mismo punto que el HDP de , pero tiene una mayor longitud.3 Hemos visto que la inferencia predictiva tiene su expresi on natural y coherente en la estad stica Bayesiana. Sin embargo ella lleva un conjunto de interrogantes fundamentales para el punto de vista frecuentista, Hinkley(1979). La inserci on de la toma de decisiones sobre observaciones futuras en el marco que hemos expuesto anteriormente sobre toma de decisiones para , es conceptualmente directo. Denotemos la p erdida de estimar X f por d como L (xf , d). Supongamos por simplicidad que estamos en la situaci on que conduce a (4.29). Denamos: L(, d) = EXf [L (xf , d) | ] = L (xf , d)p(xf | )dxf ,
2
1/2
y esto reduce el problema de decisi on predictiva al problema standard que envuelve a desconocido, y a los datos obtenidos X . Ejemplo 4.5. Supongamos que Xf N (, 2 ), y se desea estimar Xf bajo p erdida cuadr atica: L (xf , d) = (xf d)2 . Entonces, L(, a) = EXf [(Xf d)2 | ] = EXf (Xf + d)2 | = Por lo tanto, para escoger una decisi on optima s olo necesitamos considerar el problema de estimar a bajo p erdida cuadr atica, condicionalmente en las observaciones X obtenidas. Estimar amos entoces a Xf por (x) en (2.10).3 EXf (Xf )2 | + EXf ( d)2 | = 2 + ( d)2 .
4.2.4
Normalidad Asint otica de la Densidad Posterior
Este es un importante resultado que es esencialmente una versi on Bayesiana del Teorema del L mite Central. La normalidad asint otica de
la densidad posterior fue probada originalmente por Laplace(1812), y seg un Berger, esta es la primera versi on del Teorema del L mite Central. En la motivaci on heur stica que presentaremos de este resultado no incluiremos las condiciones de regularidad requeridas con detalle. Varios conjuntos de supuestos de regularidad han aparecido en la literatura y referimos al lector a: Le Cam(1956), Jereys(1961), Walker(1969) y particularmente a Heyde y Johnstone(1979). Comencemos por recordar que el estimador de m axima verosimilitud de se dene como: sup p(x | ) = p x | .
Supongamos que X1 , . . . , Xn es una muestra aleatoria (i.i.d) de la densidad p(xi | ), = (1 , . . . , k ). Supongamos que () es una densidad a priori y que () y p(x | ) son positivas y dos veces diferenciables en un entorno del estimador de m axima verosimilitud de , el cual se supone que existe. Entonces para n grande, bajo condiciones de regularidad (casi siempre satisfechas), la densidad posterior: ( | x) = es aproximadamente: Nk | , [I (x)1 ] , (4.34) p(x | ) () , p(x)
donde I (x) es la matriz de informaci on de Fisher observada, cuyo elemento i, j es:

n 2 2 log p(x | ) = log p(xt | ) . i j t=1 i j = =
Iij (x) =
La motivaci on heur stica para k = 1 del resultado es la siguiente: Expandimos por la f ormula de Taylor log p(x | ) alrededor de , y entonces la primera derivada evaluada en se anula. Para cerca de (de tal manera que () sea aproximadamente constante) tenemos: ( | x) = exp {log p(x | )} () exp {log p(x | )} ()d
106 =
exp log p(x | ) 1 ( )2 I (x) ()d 2 exp 1 ( )2 I (x) 2 [2 (I (x))1 ]1/2 = N | , [I (x)]1 ,
exp log p(x | ) 1 ( )2 I (x) () 2
y puede demostrarse que para n sucientemente grande, s olo los s cerca de dan una contribuci on signicativa a la densidad posterior. Esto se debe a que la verosimilitud se concentrar a cada vez m as alrededor de , pero () no depende de n y puede considerarse como aproximadamente constante en una vecindad de . La aproximaci on (4.34) no envuelve a la densidad a priori utilizada. Puede armarse entonces que bajo condiciones de regularidad bastante generales, para n sucientemente grande, ( | x) es aproximadamente insensible a la densidad a priori particular empleada. (Note que si () es de Cromwell, autom aticamente satisface que es positiva cerca de ). Sin embargo si se dispone del vector de medias y la matriz de varianza-covarianza a posteriori exactas, y se sustituyen en (4.34) en lugar de e I (x) respectivamente, la aproximaci on a la densidad posterior mejora. Aproximaciones m as generales, basadas en aproximaciones de Laplace aparecen en la pr oxima secci on.
4.3
4.3.1
Aplicaciones al Dise no Experimental y al An alisis Secuencial

Tama no de la Muestra Optimo
La situaci on m as secilla del dise no de un experimento estad stico , es decidir el tama no optimo de la muestra. El enfoque Bayesiano es el m as razonable, ya que al balancear la p erdida debida a la decisi on y el costo de muestrear, la medida razonable pre-experimental de la p erdida esperada es el riesgo Bayesiano. Denotemos por L(, d, n) la funci on de p erdida, de observar X n = (X1 , . . . , Xn ) y tomar la acci on d. Supongamos que tiene la densidad a priori () y que para cada n existe una decisi on optima-Bayes n . Denotamos al riesgo Bayesiano para este problema por:
EXPERIMENTAL Y AL ANALISIS 4.3. APLICACIONES AL DISENO SECUENCIAL
107
(xn ), n) | ] . r(, n) = E EX n [L(, n
El tama no de muestra optimo n , es aqu el que minimiza r(, n). Supongamos que: L(, d, n) = L(, d) + C (n), (4.35)
o sea, la funci on de p erdida se descompone en la p erdida por estimar por d, m as el costo de tomar una muestra de tama no n. Para funciones de p erdida que obedezcan (4.35), es claro que para cada n jo, n ser a la decisi on de Bayes usual para la p erdida L(, d) basada en n observaciones, o sea aquella decisi on que minimiza r(, ), denici on 2.7. Entonces, el procedimiento para calcular el n optimo es:
y 1. Para un n jo cualquiera obtener la decisi on optimo-Bayes n calcular r(, n ). Luego calcular r(, n): r(, n) = r(, n) + C (n).
2. Encontrar n tal que: minn r(, n) = r(, n ) donde n se mueve en los enteros no negativos. Ejemplo 4.6. En la situaci on del ejemplo 2.6 (Normal-Normal), supongamos que L(, d, n) = ( d)2 + C (n). (4.36) Para un n jo, sabemos que la decisi on optima-Bayes para p erdida cuadr atica es n (x) = (x), la esperanza posterior dada por (2.10). Para n = E ( | x) y p erdida cuadr atica, r(, n ) es igual a la varianza 1 a posteriori n , de donde
1 r(, n ) = n =
1 n + 2 2
22 . 2 + n 2
Supongamos ahora que C (n) = nc, o sea que cada observaci on tiene un costo c > 0. Entonces, r(, n) = 2 2 + nc. 2 + n 2
108
Pretendamos ahora que n es un n umero natural. Diferenciando respecto a n obtenemos: d 4 2 r(, n) = 2 + c, dn ( + n 2 )2 e igualando a cero conseguimos 2 n = 2 , c que es el valor aproximado del tama no optimo. Como la derivada segunda de r(, n) es positiva, es una funci on estrictamente convexa en n, y por tanto el tama no optimo se obtendr a en uno de los enteros pr oximos a n , a menos que n sea negativo, en cuyo caso el tama no optimo ser a cero, y se debe tomar una decisi on sin muestrear. Note que si el costo de cada observaci on es grande, n ser a m as peque no. Tambi en si la varianza a priori es grande (alta incertidumbre inicial) n ser a mayor. El riesgo Bayesiano alcanzable es entonces aproximadamente: 2 r(, n) = 2 c c 2 .3
4.3.2
An alisis Secuencial
Este es un tema de gran importancia pr actica y te orica, con matem atica interesante, que por s mismo ameritar a un curso. Vamos a limitarnos aqu a presentar una ilustraci on sencilla que servir a para motivar el tema y aplicar el principio de la minimizaci on de la p erdida esperada a posteriori. Nos concierne la situaci on en la que el TD puede tomar sus observaciones X1 , X2 , . . . una por una. En el paso n, puede juzgar la informaci on que ha acumulado de las n observaciones X n = (X1 , . . . , Xn ) y decidir si terminar el muestreo y tomar una decisi on sobre o decidir tomar una nueva observaci on Xn+1 . Una muestra obtenida de este modo se llama muestra secuencial. La ventaja pr actica de un procedimiento secuencial sobre uno no secuencial, como en el caso de decisi on del tama no optimo de la muestra sin obtener ning un dato, es clara. Si por ejemplo el costo por observaci on es jo, en un procedimiento
DEL PRINCIPIO BAYESIANO 4.4. LA FAMILIA EXPONENCIAL. EXTENSION
109
secuencial el TD podr a, con ventaja, terminar el experimento antes de andose el costo extra del muestreo. llegar a n , ahorr Un desarrollo completo del an alisis secuencial aparece en Berger (1985).
4.4
La Familia Exponencial. del Principio Bayesiano
Extensi on
La familia natural de verosimilitudes en donde generalizar las operaciones Bayesianas, es la Familia Exponencial. Esta familia posee una rica estructura matem atica estudiada exhaustivamente por Brown(1986). Aspectos particulares de esta familia han sido explorados por ejemplo en Lehmann(1959 y 1983), Diaconis y Ylvisaker(1979), Pericchi(1989), Pericchi y Smith(1991) y Pericchi, Sans o y Smith(1993). La familia exponencial de medidas de probabilidad se dene como: p(x | ) = dP (x | ) = exp {x. M ()}d(), , (4.37)
donde es una medida -nita en los conjuntos de Borel en R k . El vector de par ametros R k , se denomina el vector can onico, y es el espacio de los par ametros can onicos, = { tales que : M () < } . (4.38)
En general, corresponder a a una transformaci on del par ametro usual de inter es. Por ejemplo en el caso Binomial, = log 1 . El vector de par ametros de inter es es E (x | ), el cual se obtiene diferenciando la identidad:
X
dP (x | ) = 1
respecto de en (4.37), y haciendo cambios permisibles de integraci on y diferenciaci on obtenemos: E (x | ) = M () = M M (), . . . , () . 1 k (4.39)
110
Denotemos por d la medida de Lebesgue en los conjuntos de Borel de . Denimos la familia de medidas a priori por: ( | n0 , x0 ) = d( | n0 , x0 ) = exp {n0 x0 . n0 M ()}dM (), (4.40) k con n0 > 0, x0 R . Llamamos al par (p(x | ), ( | n0 , x0 )) la Familia Exponencial Conjugada, que es la que posee m as f acil manejo anal tica y algebraicamente para las operaciones Bayesianas. Teorema 4.2 Supongamos que es un abierto en R k . Si tiene la medida a priori (4.40), con n0 > 0 y x0 X , entonces la esperanza a priori es: E [M ()] = E [E (x | )] = x0 . (4.41) Prueba. Diaconis y Ylvisaker(1979).
Note que si observamos una muestra X1 , . . . , Xn de P (x | ), entonces la medida a posteriori de , es de la forma (4.40), con hiperpar ametros actualizados: n = n0 + n o sea, ( | x) = d( | n , x ). (4.43) y
x =
n0 x0 + nx , n0 + n
(4.42)
Corolario 4.1 La media a posteriori del vector de par ametros de inter es es: E|X [M ()] = E|X [E (x | )] = x . (4.44) Las ecuaciones (4.42 a 4.44) generalizan los resultados obtenidos en el ejemplo 2.6 (Normal-Normal) y ejemplo 2.7 (Beta-Binomial), donde a x se le llam o (x), ecuaciones (2.10) y (2.15). La interpretaci on es: n0 es el tama no muestral a priori, x0 el vector de medias a priori, x el vector de medias actualizadas o a posteriori y n el tama no global. Esquem aticamente tenemos:
111
( | n0 , x0 ) ( | n , x ).
Bayes
(4.45)
Ejemplo 4.8. Consideremos nuevamente el ejemplo 1.1, donde tenemos un n umero grande N de transistores. La decisi on d1 es aceptar el lote de transistores y d2 rechazarlo por no cumplir las normas de calidad. Supongamos que previamente se ha decidido tomar una muestra de tama no n: X0 , . . . , Xn , donde Xi es el tiempo de vida u til del transistor i. Una verosimilitud ampliamente usada para modelar tiempos de vida de componentes electr onicos es la Exponencial: p(xi | ) = exp { xi }, xi 0, > 0, (4.46)
la cual suponemos que ha generado los datos de la muestra tomada. La media y la varianza de una variable X bajo la verosimilitud Exponencial son: 1 y 12 respectivamente. El par ametro de inter es, generalmente, es 1 , la media del tiempo de vida de los componentes. Escribamos (4.46) en el formato de la familia exponencial (4.37): Denotamos por = , el par ametro can onico. Entonces: p(xi | ) = exp {xi + log()}, o sea, dM 1 1 () = = = E (Xi | ). d <0 (4.47)
M () = log()
La forma de la medida a priori es seg un (4.40) ( | n0 , X0 ) = exp {n0 x0 + n0 log()}dM (), transformando en sentido inverso y notando que | d |=| d |, ( | n0 , x0 ) = n0 exp {n0 x0 }dM (), La densidad Gamma tiene la forma: Ga( | , ) = 1 exp {}d, () > 0, (4.49) > 0. (4.48)
112
y entonces (4.48) es el kernel de una Gamma con hiperpar ametros n0 = 1 y = n0 x0 . Entonces sigue que la densidad conjugada es: ( | n0 , x0 ) = (n0 x0 )n0 +1 n0 exp {n0 x0 }d, (n0 + 1) > 0. (4.50)
Seg un el Teorema 4.2, la esperanza a priori de 1 es, E [E (X | )] = 1 E = x0 , lo que puede vericarse directamente. Si observamos una muestra de tama no n de tiempos de vida u til obtenemos de (4.46): p(x | ) = n exp {nx}, que multiplicado por (4.50) da la densidad a posteriori: ( | x) n0 +n exp {(n0 x0 + nx)}.3 (4.52) (4.51)
Comparando con (4.50) concluimos que si la densidad a priori es Gamma, entonces la densidad a posteriori tambi en es Gamma, con hiperpar ametros actualizados: n0 + n = 1 y n0 x0 + nx = .
Para el ejemplo de aceptar o rechazar el lote de transistores, Walley(1987) propone la siguiente funci on de p erdida: 1 y L(, d2 ) = c > 0, donde, la constante c es el costo de incoveniencia al tener que reemplazar el lote, n es el n umero de transistores del lote y x0 1 es la diferencia entre la media a priori del tiempo de vida (X0 ) bajo todos los lotes en circunstancias similares, y el tiempo de vida medio para el lote en cuesti on, 1 . Sigue del Corolario 4.1 que: L(, d1 ) = n x0 E|X [L(, d2 )] = c > 0, y E|X [L(, d1 )] = N x0 n0 x0 + nx . n0 + n
Entonces, aceptamos el lote si:
113
Nn (x0 x) < c, n0 + n o sea, aceptamos si: c (n0 + n)3. Nn Para la familia exponencial conjugada es bastante sencillo trabajar con clases de densidades conjugadas en lugar de una densidad conjugada u nica y precisa, (Pericchi, 1989). Como ilustraci on, si consideramos la clase de densidades conjugadas con hiperpar ametros en el siguiente conjunto:
x > x0
= { ( | n0 , x0 ) : 0 < n0 < n0 , x0 jo} ,
(4.53)
podemos calcular los extremos (en n) de la media a posteriori de . Usando (4.42) resulta que: sup x inf x =

n0 | x0 x | . n0 + n
(4.54)
La expresi on (4.54) es una medida muy razonable de la imprecisi on a posteriori respecto de la media. Es inversamente proporcional al tama no muestral n, pero directamente proporcional al conicto entre la media a priori x0 y la media muestral x. Esta es una generalizaci on u til del enfoque Bayesiano: la imprecisi on a posteriori nos indica el tama no de la evidencia sobre la que est a basada la decisi on (n) y nos alerta sobre posibles conictos entre la asignaci on a priori y el resultado muestral. Este doble efecto no puede ser percibido en forma directa cuando basamos nuestra decisi on en una u nica medida a priori, minimizando la p erdida posterior. Esta generalizaci on del m etodo Bayesiano puede resultar en ausencia de una decisi on racional cuando no hay suciente informaci on muestral y a priori. Si por ejemplo la decisi on Bayesiana es d1 cuando X > T y d2 cuando X < T , entonces al considerar una clase de densidades es razonable modicar esta regla por d1 si inf X > T y d2 si sup X < T . Si en ninguna de estas condiciones se obtiene que el proceso de decisi on falla, una decisi on racional no puede ser tomada. De hecho se ha observado en la implementaci on pr actica del an alisis de
114
decisi on Bayesiano que, generalmente, el TD no basa su decisi on exclusivamente en valores esperados, sino que incorpora de alguna manera la varianza posterior, en un intento ad hoc que confunde incertidumbre con imprecisi on, Brown(1984). Finalmente, consideremos un ejemplo que ilustra c omo podemos replantear el problema de la ignorancia a priori, considerando una clase apropiada de medidas. Ejemplo 4.9. Una clase casi ignorante para el caso Binomial, Walley(1987). Consideramos el caso Beta-Binomial del ejemplo 2.7. El inter es recae sobre el evento A: Exito en el pr oximo intento. Ser ignorante sobre este evento nos obliga a especicar una clase en donde, a priori, 0 P (A) 1. Esto quiere decir que a priori no estamos dispuestos a apostar en favor o en contra de A. Esto es equivalente, dentro de la familia conjugada, a 0 x0 1. Consideremos entonces la clase casi ignorante: { ( | n0 , x0 ) : 0 x0 1, n0 jo} . Resulta entonces que: n0 + x+ n0 + n x+ , n0 + n
sup P (A | x) =

inf P (A | x) =
de donde se obtiene que la imprecisi on a posteriori respecto de A es: 1 n 1 + n0 . Note que no hay conicto entre media muestral y media a priori, ya que x0 puede variar arbitrariamente entre 0 y 1. A n de comparar con la Ley de Sucesi on de Laplace (4.32), asignemos para n0 el valor de 2, ya que la densidad uniforme corresponde a x0 = 1 , 2 n0 = 2. Comparemos el comportamiento de Laplace con el sup e inf de P (A | x) bajo la clase casi ignorante, suponiendo que obtenemos muestra para n variables, con x = 1 jo. 2 n 0 2 20 100 1000 Laplace P (A | x) 0.5 0.5 0.5 0.5 0.5 sup P (A | x) 1 0.75 0.55 0.51 0.501 inf P (A | x) 0 0.25 0.45 0.49 0.499
4.5. CALCULOS Y APROXIMACIONES BAYESIANAS
115
La Ley de Sucesi on de Laplace, basada en la densidad Uniforme es constantemente igual a 0.5 sin reejar la cantidad de informaci on sobre la cual se basa. Por el contrario, las probabilidades superiores e inferiores basadas en , a un convergiendo a 0.5, reejan en su diferencia la cantidad de informaci on en la que est an basadas. La clase ignorante representa, m as satisfactoriamente que la densidad Uniforme, la falta de conocimiento a priori.
4.4.1
Densidad a priori No-Conjugada. Inuencia acotada y no acotada
En esta secci on enunciaremos un resultado b asico sobre la inuencia acotada y no acotada de la densidad a priori no conjugada, la demostraci on y otros resultados pueden verse en Pericchi y Smith (1992). Sea X1 , . . . , Xn una muestra iid, con Xi N (, 2 ), donde 2 es conocida y la media, desconocida. Sea Y = X , sabemos que Y N (, 2 /n), y denotamos su densidad por p(y ), y la previa para es (). Teorema 4.3 Si denimos m(y ) = p(y ) ()d, s(y ) . y
para cualquier () 0, acotada para R , y adem as denimos: s(y ) = Entonces, 1. E ( | y ) = y 2. V ar( | y ) =

2 n 2 s(y ), n
{log m(y )} y
S (y ) =
4 S (y ). n2
4.5
C alculos y Aproximaciones Bayesianas
El paradigma Bayesiano es conceptualmente claro. Para comparar modelos, eliminar par ametros de molestia, predecir, etc., hay que calcular integrales de la forma:
116
m(x) =
f (x | ) ()d
E [g () | x] =
g ()f (x | ) ()d . f (x | ) ( )d
Sin embargo, con frecuencia estas integrales no pueden ser resueltas en forma cerrada, y la dicultad num erica envuelta puede ser importante, particularmente cuando la dimensi on de es grande. Pero esta dicultad es mucho menor hoy en d a gracias a la disponibilidad, relativamente barata, de computadoras de gran poder de c alculo. En lo que sigue introduciremos algunas estrategias para calcular o aproximar estas integrales.
4.5.1
Aproximaciones de Laplace
su m aximo. Entonces, Sea h() = log[f (x | ) ()], k = dim () y h si I (x) es la matriz cuyo elemento ij es:
h (x) Iij
2 = h() , i j =
, entonces, bajo condiciones de regularidad, expandiendo alrededor de y usando la integral de la distribuci on Normal multivariada,
m(x) =
exp{h( )}d
)} 1 ( )t I h (x)( ) d = exp (h( 2
)}(2 )k/2 exp{h( [det (I h (x))]1/2
) ( ) (2 )k/2f (x | [det (I h (x))]1/2
Esta aproximaci on es extremadamente u til y potente. Si ahora llamamos su m h () = log [g ()f (x | ) ()], y aximo, siguiendo el mismo camino anterior obtenemos: exp{h ()}d det(I h (x)) exp{h()}d det(I h (x))
1/2
E [g () | x] =
)f (x | ) ( ) g ( . ) ( ) f (x |
117
La exactitud de esta aproximaci on es sorprendente, para mayor referencia ver Tierney y Kadane (1984). Una estrategia num erica directa son las cuadraturas de Gauss y de Gauss-Hermite, que han sido implementadas en el paquete Bayes 4. Sin embargo son apropiadas para un n umero reducido de dimensiones. Ver Naylor y Smith (1982).
4.5.2
Integraci on de Monte Carlo
Supongamos que podemos generar una sucesi on i.i.d de variables aleatorias (1 , 2 , . . . , ) de una densidad k () > 0 en . Note que, Ek g ()f (x | ) () = k () g ()f (x | ) ()d.
De la Ley Fuerte de Grandes N umeros sigue que: 1 m g (i )f (x | i ) (i ) = lim m m k (i ) i=1 Si llamamos w (i ) =
g ()f (x | ) ()d.
, entonces tenemos la aproximaci on: E [g () | x]
f (x | i ) (i ) k (i )
m i=1 g (i )w ( i ) . m i=1 w (i )
La funci on k () es llamada la funci on de importancia. Para que la aproximaci on sea eciente, esta funci on debe cumplir con las siguientes propiedades: 1. Debe ser f acil simular variables aleatorias de ella, 2. k () debe ser cercana a ( | x), y 3. las colas de k () no deben ser m as nas que las de f (x | ) (). Ver Berger (1985).
118
4.5.3
Simulaci on de la densidad posterior
A partir de Gelfand y Smith (1990), se comenz o a generar una verdadera explosi on de t ecnicas de integraci on bajo el nombre gen erico de m etodos de: Cadenas de Markov Montecarlo, ver Gilks, Richardson y Spiegelhalter (1996). Estas t ecnicas aproximan la densidad posterior a partir de muestras generadas de esta densidad. Supongamos que y es el vector de par ametros de inter es, cuya densidad posterior es p(y ). (Formalmente ser a p(y | D), donde D son los datos, pero la omitimos por simplicidad de notaci on). Sea y1 , y 2 , . . . , una muestra con densidad p(y ). Entonces usando la ley de grandes n umeros, bajo condiciones bastante generales, resulta que: 1 m m h(y i ) m i=1 h(y )p(y )dy = E [h(y )],
en probabilidad. Una aproximaci on a la densidad marginal del escalar y1 , donde y = (y1 , y2 ) puede obtenerse de la siguiente manera (Gelfand y Smith (1990)): supongamos que p(y1 | y2 ) es conocida. Si la muestra es yi = (y1i , y2i ) para i = 1, . . . , m, entonces p(y1 ) Tambi en es u til que, E [h(y1 )] 1 m E [h(y1 ) | y2i ], m i=1 1 m p(y1 | y2i ). m i=1
cuando la esperanza condicional E [h(y1 ) | y2 ] se conozca anal ticamente.
4.5.4
M etodos Monte Carlo de Cadenas de Markov (MCMC)
Simular variables aleatorias directamente de p(y) es frecuentemente imposible. Los m etodos MCMC tienen la estrategia de simular sucesiones que eventualmente tendr an la distribuci on p(y). El algoritmo es el siguiente:
119
1. Especicar el valor inicial y0 . 2. Muestrear valores sucesivos de una distribuci on de transici on con densidad f (y i | y i1 ), para i = 1, 2, . . . ,; donde y i es generado condicionalmente independiente de y i2 , y i3 , . . . ,. Se han propuesto m ultiples maneras de implementar este algoritmo, una de las cuales es el muestreador de Gibbs. MUESTREADOR DE GIBBS Si y = (y1 , . . . , yk ), denotaremos por y(i) = (y1 , . . . , yi1 , yi+1, . . . , yk ). La densidad posterior, bajo condiciones de regularidad, est a caracterizada por las p-densidades condicionales: p(yi | y(i) ), para i = 1, . . . , k . El muestreador de Gibbs est a basado en sucesiones de simulaciones de estas condicionales, y el uso de la caracterizaci on de la conjunta por el conjunto completo de las condicionales p(y i | y i ). Simular muestras directamente de p(y ) es usualmente dif cil, pero frecuentemente sencillo generarlas de p(yi | y(i) ). El muestreador opera as : supongamos que hemos obtenido la muestra y m1 , esta es reformada actualizando las entradas del vector, uno por uno, para i = 1, . . . , k , un nuevo valor yi es simulado de la condicional p(yi | y(i) ), donde los k 1 elementos de y(i) son los valores m as recientemente obtenidos. De esta manera, el vector k -dimensional es actualizado, entrada por entrada, y para m sucientemente grande, el valor obtenido de y tiene la densidad p(y ). Ejemplo 4.10. (Casella, G. y George, L.I (1992)). Sean y1 y y2 tales que la densidad conjunta es: n y1
p(y1 , y2 )
y1 +1 y2 (1y2 )ny1 + 1 ,
y1 = 0, . . . , 0 y2 1.
Estamos interesados en conocer las caracter sticas de la marginal p(y1 ). Puede vericarse que las condicionales son: p(y1 | y2 ) Binomial(n, y2 ) y p(y2 | y1 ) Beta(y1 + , n y1 + ).
120
El muestreador de Gibbs opera, generando variables aleatorias de 0 0 estas condicionales a partir de los valores iniciales y1 , y2 :
i+1 i y1 p(y1 | y2 )
i+1 i+1 y2 p(y2 | y1 ),
k para i = 1, . . . , k 1. Para k sucientemente grande y1 tendr a aproximadamente la densidad p(y1 ). Repitiendo m veces este algoritmo se obtendr a una muestra de la densidad p(y1 ). Note que es muy sencillo generar muestras de tanto de la Binomial como de una Beta, las cuales corresponden a las condicionales. Sin embargo no es obvio como generar muestras de la marginal p(y1 ). En este caso particular puede probarse que:
p(y1 ) =
n y1
( + ) (y1 + )(n y1 + ) .3 ()( ) ( + + n)
4.6
Ejercicios
4.1 Vericar la ecuaci on 4.17. 4.2 Demostrar la proposici on 4.1. 4.3 Considere el test de hip otesis unilateral: H0 : 0 vs. H1 : > 0 ,
donde X es muestra con entradas iid con distribuci on Normal con 2 media y varianza conocida. Suponga que la distribuci on a priori de viene dada como en el ejemplo 2.6, por una distribuci on 2 Normal con media y varianza , ambas conocidas. Hallar p(H0 | x). 4.4 En la situaci on del ejemplo 2.6 (Normal-Normal), vericar que el HDP(x) para la media es: HDP(x) = : (x) z 1/2 < < (x) + z 1/2 , donde (z ) = 1 . 2
4.6. EJERCICIOS
121
4.5 Demostrar que luego de observar una muestra de tama no n (ejemplo 4.2), la densidad a posteriori conjunta de y h sigue siendo Normal-Gamma: (, h | x) = NG(, h | , , , ), donde: = + nx , +n = + = + n, n = + , 2 y
1 n n(x )2 (xi x)2 + . 2 i=1 2( + n)
4.6 Hallar el intervalo HDP a posteriori de una credibilidad de 95% para el ejemplo 4.2. 4.7 Hallar la densidad predictiva de una futura observaci on Xf en la situaci on del ejemplo 4.2, es decir, la verosimilitud es Normal con varianza desconocida y la densidad a priori es Normal-Gamma. 4.8 Considere la situaci on Beta-Binomial del ejemplo 2.7. Obtener la aproximaci on 4.34 para la densidad posterior Beta (2.14). Obtener tambi en la aproximaci on que en (4.34) inserta la esperanza y varianza a posteriori exactas. 4.9 En la situaci on del ejemplo 4.5, con C (n) = log(1 + n), o sea, es m as costoso por observaci on el tomar muestras grandes, encuentre el tama no optimo de muestra aproximado (n ). 4.10 Demostrar que cada una de las siguientes familias de verosimilitudes pertenecen a la familia exponencial, encuentre sus par ametros can onicos y su distribuci on a priori conjugada: (a) Binomial. (b) Poisson. (c) Multinomial. (d) Exponencial.
122
(e) Normal Univariada con varianza conocida. (f) Normal k -variada con matriz de varianza-covarianza conocida. 4.11 Vericar que la esperanza a priori de
1
en el ejemplo 4.8 es x0 .
4.12 Hallar el estimador de Bayes para en el ejemplo 4.8 si la p erdida es: (a) L(, d) = ( d)2 . (b) L(, d) = 1
d 2
4.13 Vericar la ecuaci on (4.54). 4.14 Vericar que para el ejemplo 4.9 se tiene: sup P (A | x) =

n0 + x+ n0 + n
inf P (A | x) =
x+ . n0 + n
4.15 Utilizar la aproximaci on de Laplace para obtener la aproximaci on de Stirling del factorial: n! = (n + 1) =
0
tn et dt.
4.16 Basados en la densidad conjunta del ejemplo 4.10, para n = 20, = 2 y = 3, generar m = 100 variables aleatorias de p(y1 ) 0 por el muestreador de Gibbs, para k = 150, partiendo de y1 = 0 10, y2 = 0.5. (a) Hacer un histograma y comparar con la densidad exacta dada en el ejemplo. (b) Estimar alternativamente la densidad marginal usando P (Y1 = y1 ) = 1 m P (Y1 = y1 | Y2i = y2i ). m i=1
Cap tulo 5 An alisis Bayesiano del Modelo Lineal

En este cap tulo haremos una introducci on sobre varios an alisis Bayesianos del modelo de mayor uso en estad stica, el Modelo Lineal Normal. Supongamos que el vector y (n 1) de n observaciones se distribuye seg un una distribuci on Normal n-variada con media A1 1 , y matriz de varianza-covarianza C1 . Esto es: (y | 1 ) Nn (A1 1 , C1) ,
d
(5.1)
donde A1 (n k ) es la matriz de dise no, 1 (k 1) es el vector de par ametros y C1 (n n) la matriz de varianza-covarianza muestral. Es tambi en usual escribir (5.1) como: y = A1 1 + , (5.2)
donde (n 1) es el vector de errores aleatorios con media cero y matriz de covarianza C1 : Nn (0, C1 ). Entonces el valor esperado del vector de observaciones es: E [y ] = A1 1 . 123 (5.4)
d
(5.3)
124
CAPTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL
Ejemplos del modelo (5.1) son entre otros: Modelos de regresi on simple o m ultiple, donde las columnas de A1 son los vectores de regresores o variables independientes; Modelos de clasicaci on de una o m as v as, donde las columnas de A1 son ceros o unos de acuerdo a la clasicaci on; y otros. Comenzaremos por dar la versi on Bayes generalizada del an alisis frecuentista del modelo lineal, y para ello introduciremos las medidas a priori no-informativas.
5.1
Previas No-Informativas
Siendo el an alisis condicional en los datos tan claramente obligatorio y la maquinaria Bayesiana la manera coherente de realizarlo, se han hecho esfuerzos importantes para hacer an alisis Bayesianos autom aticos. Es decir, que no requieran informaci on del TD sobre los par ametros. Se supone que no existe informaci on a priori, o que de existir no se desea usar. Se necesita entonces una medida a priori no-informativa, o sea que no contenga informaci on sobre los par ametros. En qu e sentido esta medida es no-informativa est a muy lejos de ser claro, pero originalmente se postul o como aquella medida que fuese imparcial sobre los valores de los par ametros. El postulado original de Bayes y Laplace fue tomar como medida a priori no-informativa la uniforme, () = 1. Sin embargo este postulado tiene (entre otros) dos incovenientes: 1. Un TD supone que () = 1 y otro TD parametriza su problema en t erminos del par ametro = exp [] y supone que ( ) = 1. Los resultados a que llegan ambos TD con los mismos datos y verosimilitud son inconsistentes a pesar de que la transformaci on es uno-uno. La raz on es que por la f ormula del cambio de variables, si () = 1, ( ) = (log )/ = 1/. Entonces seg un el postulado de Bayes-Laplace el primer TD es no-informativo respecto de pero no de = exp [].
5.1. PREVIAS NO-INFORMATIVAS
125
2. Si el espacio de par ametros es no acotado, por ejemplo R , entonces () = 1 no integra uno, es decir es impropia. Para resolver el primer incoveniente, formulado por Fisher, comenz o Jereys(1961) una l nea de trabajo para obtener medidas invariantes. Ejemplo 5.1. Supongamos que es un vector de par ametros de localizaci on e y el vector de observaciones, pertenecientes ambos a R p . f (y | ) = f (y ). Sean z = y + c, c constante, y = + c. Los problemas en (y , ) o en (z , ) son id enticos en su estructura, y sean y sus correspondientes medidas no-informativas. Entonces debe ocurrir que para cualquier conjunto A de R p se tiene: P( A) = P ( A) = P ( + c A) = P ( A c), (5.5) donde A c = {w c, w A}. Esto es debe ser invariante por cambios de localizaci on, () = ( c). Haciendo c = , (c) = (0), lo que debe ocurrir para toda c R p . En conclusi on () = constante, convenientemente () = 1.3
1 Notar que tanto () = 1 como la previa del ejercicio 5.1, ( ) = , son impropias. M as generalmente, para cualquier vector de par ametros , Jereys sugiri o su famosa regla:
() = [det I ()]1/2
(5.6)
donde I () es la matriz de informaci on de Fisher cuyo elemento i, j es: Iij = EY | 2 log f (y | ) . i j (5.7)
La regla de Jereys cumple con la siguiente propiedad de invariancia: Supongamos que = g () es cualquier transformaci on uno-uno diferenciable. Entonces: [det I ()]1/2 d = [det I ()]1/2 d. (5.8)
La implicaci on de (5.8) es que si un TD usa la regla de Jereys en y otro TD usa la regla de Jereys en y analizan al mismo conjunto
126
de datos con el mismo modelo, obtendr an los mismos resultados a posteriori. Note que la previa de Jereys depende del modelo utilizado y puede violar el Principio de la Verosimilitud , ya que la esperanza (5.7) se toma sobre el espacio muestral.
5.2
An alisis No-Informativo del Modelo Lineal
Supongamos por simplicidad que en (5.1) C1 = 2 I (errores no correlacionados) y que el rango de A1 es k (rango m aximo). El uso de las previas a) o c) del ejercicio 5.5 reproducen los resultados frecuentistas, en el sentido de que los intervalos de credibilidad (probabilidad) Bayes-generalizados coinciden con los intervalos de conanza frecuentistas. Para verlo, note que la verosimilitud del Modelo Lineal puede ser escrita como, 1 2 1 2
n n
p(y | , ) =
exp exp
1 (y A1 1 )t (y A1 1 ) = 2 2 ,
1 S 2 + Q(1 ) 2 2
y en la situaci on c) se tiene (1 , ) 1/ , integrando respecto de se obtiene la marginal de 1 : Q( 1 ) (1 | y ) 1 + S2 donde: Q(1 ) = (1 1 )t At 1 A1 ( 1 1 ), (5.10) axima Verosimilitud y M nimos Cuadrados: con 1 el estimador de M 1 t 2 1 = (At A ) A y , v = n k y S es la suma de cuadrados residuales: 1 1 1 S 2 = min(y A1 1 )t (y A1 1 ) = (y A1 1 )t (y A1 1 ). 1 (5.11)
(v+k )/2
(5.9)
5.2. ANALISIS NO-INFORMATIVO DEL MODELO LINEAL
127
un una tStudent De (5.9) sigue que a posteriori 1 se distribuye seg k -variada con v grados de libertad, localizaci on 1 y matriz de escala 1 2 (At 1 A1 ) S /v , esto es:
1 (1 | y ) = Tk v, 1 , (At 1 A1 )
S2 . v
(5.12)
De las propiedades de la t Student multivariada se obtiene que: Q(1 )/k Fk,v , S 2 /v (5.13)
o sea, el cociente de la izquierda de (5.13) se distribuye seg un una distribuci on F con k y v grados de libertad. Aqu 1 es la variable aleatoria (v.a) pero sigue siendo cierta si 1 fuese la v.a., de all la correspondencia entre intervalos de conanza y de credibilidad cuando se emplea como previa c) del ejercicio 5.4. Un an alisis exhaustivo del Modelo Lineal bajo independencia aparece en Box y Tiao(1973). Ejemplo 5.2 (Transformaci on de Datos a Normalidad). Una generalizaci on considerable del Modelo Lineal (5.1) debida a Box y Cox(1964) es: y () Nn (A1 1 , C1 ), (5.14)
donde < < es el par ametro de la transformaci on y y () es el () vector de componentes yi donde yi

()
log yi
1 yi
si si
=0 = 0.
(5.15)
La transformaci on (5.15), que tiene sentido si yi > 0, i = 1, . . . , n, y A1 tiene la primera columna de 1s para que un par ametro com un est e incluido en el modelo, engloba las transformaciones usuales: rec proco, ra z cuadrada, logaritmo, etc., siendo continua en = 0. Suponemos a priori que: (1 , , ) = ()/ k+1. (5.16)
128
Aqu no puede suponerse que 1 y son independientes para todo como antes, ya que la densidad a posteriori de depender a de la escala de medici on de los datos, Pericchi(1981). Deniendo la variable
n 1/n
()
= y
()
/
i=1
yi
, e integrando respecto a y 1 se obtiene la
marginal a posteriori de , (Pericchi,1981): ( | z ) = (S (, z ))n/2 (), (5.17)
donde S (, z) es la suma residual de cuadrados asociada a y z . De (5.17) pueden obtenerse intervalos aproximados de credibilidad de .3 La ventaja del enfoque Bayes generalizado del Modelo Lineal es que es autom atico, es decir, no requiere de una asignaci on cuidadosa de una medida a priori. Sin embargo tiene desventajas (compartidas por los enfoques frecuentistas) y entonces s olo puede ser considerado como una aproximaci on. Hay una extensa literatura sobre las paradojas que genera, por ejemplo Stone(1971). Adicionalmente, si k > 2, 1 la media a posteriori en (5.12) es inadmisible, Stein(1956). En vista de todo ello exploraremos enfoques propios de Bayes para el Modelo Lineal.
5.3
Modelo Lineal Jer arquico
En esta secci on seguiremos principalmente el elegante desarrollo de Lindley y Smith(1972) y Lindley(1983). Volvamos al modelo (5.1): dado 1 (k1 1) (y | 1 ) Nn (A1 1 , C1), con A1 y C1 conocidas, y C1 positiva denida. Supongamos que dado 2 (k2 1), (1 | 2 ) Nk1 (A2 2 , C2 ), con A2 y C2 conocidas, y C2 positiva denida.
d d
(5.18)
5.3. MODELO LINEAL JERARQUICO
129
Lema 5.1 Sea = A2 2 . Bajo (5.1) y (5.18) tenemos: (y ) = Nn A1 , C1 + A1 C2 At 1 , (1 | y ) = Nk1 (B b, B ),

1 1 1 t 1 donde, B 1 = At 1 C1 A1 + C2 , b = A1 C1 y + C2 .
(5.19) (5.20)
Prueba.
(5.19) se deduce de escribir: y = A1 + A1 v + u,
donde, u N (0, C1 ) y v N (0, C2 ) con u y v independientes. Multiplicando la verosimilitud (5.1) por la previa (5.18) se obtiene: 1 (1 | y ) exp D(1 ) , 2 donde
1 1 D(1 ) = (y A1 1 )t C1 (y A1 1 ) + (1 )t C2 (1 ) (5.21)
1 1 donde G = y t C1 y + t C2 , no envuelve a 1 .2
= (1 B b)t B 1 (1 B b) + G,
Note que E [1 | y ] = B b es un promedio ponderado de la media a priori y el estimador de m nimos cuadrados:

1 1 t 1 1 = (At 1 C1 A1 ) A1 C1 y , 1 1 con ponderaciones iguales a C2 y At 1 C1 A1 . E [ 1 | y ] puede ser escrita como: 1 t 1 1 t 1 B At 1 C1 (y A1 ) + (A1 C1 A1 + C2 ) = + BA1 C1 (y A1 ). (5.22)
130
Entonces E [1 | y ] es (su media a priori) m as una correcci on que es la desviaci on de y cerca de su valor esperado A1 , pre-multiplicada 1 por el ltro BAt 1 C1 . Lema 5.2 C1 + A1 C2 At 1
1 1 1 1 1 = C1 C1 A1 At 1 C1 A1 + C2 1 1 At 1 C1 . (5.23)
Prueba. La demostraci on de este hecho algebraico puede hacerse directamente o probabil sticamente igualando los t erminos cuadr aticos de y en (5.19) y en (y ) 1 exp D(1 ) d1 .2 2
Corolario 5.1 Puede pensarse una previa no informativa como el 1 l mite cuando C2 0. Del lema 5.2 se obtiene: lim 1 C1 + A1 C2 At 1
1 1 1 1 = C1 C1 A1 At 1 C1 A1 1 1 At 1 C1 . (5.24)
C2 0
Note que tambi en del lema 5.2 se obtiene:

1 1 B = C2 + At 1 C1 A1 1 t = C2 C2 At 1 A1 C2 A1 + C1 1
A1 C2 , (5.25)
lo que permite ver la dispersi on posterior como la dispersi on a priori C2 , menos la reducci on debida al experimento.
5.3.1
Modelo Lineal Normal Jer arquico (MLNJ)
Un momento crucial del desarrollo del m etodo Bayesiano fue el reconocimiento de que el conocimiento a priori puede ser modelado en niveles que forman una jerarqu a. Agregamos a (5.1) y (5.18) la siguiente especicaci on, dado 3 (k3 1), d (2 | 3 ) Nk2 (A3 3 , C3 ), (5.26)
131
donde A3 y C3 son conocidas y C3 es positiva denida. El segundo nivel (5.18) es usado para introducir alguna estructura en el vector de par ametros 1 , a trav es de los hiperpar ametro 2 . Por ejemplo, all se especica cu ales componentes del vector de par ametros est an cerca o son similares de acuerdo a nuestro conocimiento a priori. El tercer nivel (5.26) especica el centro y la dispersi on de esta similaridad. El conocimiento expresado en el segundo nivel ha sido llamado conocimiento estructural, y el del tercero conocimiento param etrico, siendo este u ltimo m as controversial, Pericchi y Nazaret (1988). El conocimiento estructural es fundamental, y establece que bajo el Modelo Lineal se modelan efectos similares, por ejemplo producci on de diferentes tipos de semillas de la misma planta, y jam as efectos completamente dis miles. Note que los dos u ltimos niveles, de hecho, especican una previa. Colapsando (5.18) y (5.26), y usando (5.19), obtenemos: 1 Nk1 (A2 A3 3 , C2 + A2 C3 At 2 ). Si colapsamos los primeros dos niveles obtenemos, y Nn (A1 A2 2 , C1 + A1 C2 At 1 ), o sea, (5.19). La previa (5.26) pudo haber sido especicada directamente, pero esto es m as dif cil que especicarla en niveles, es decir modelarla. Por otra parte, generalmente: dim(1 ) dim(2 ) dim( 3 ), (5.28)
d d
(5.27)
y por ello el conocimiento estructural conna la asignaci on basada en el conocimiento param etrico a una dimensi on usualmente mucho menor, lo que es una gran ventaja. El resultado b asico para el modelo jer arquico de tres niveles es el siguiente teorema. Teorema 5.1 Supongamos el Modelo Lineal Normal Jer arquico de tres niveles (MNLJ3). Denotemos el vector de medias de 2 por = A3 3 . Entonces dado 3 para C1 , C2 y C3 conocidas:
132
t (y ) = Nn A1 A2 , C1 + A1 (C2 + A2 C3 At 2 )A1 ,
(5.29)
(1 | y ) = Nk1 (Dd, D), donde:

1 t D1 = At 1 C1 A1 + C2 + A2 C3 A2 1
(5.30)
, A2 .
(5.31) (5.32)
1 t d = At 1 C1 y + C2 + A2 C3 A2
Prueba. 5.1.2.
La demostraci on sigue directamente de (5.27) y del lema
1 Teorema 5.2 Cuando C3 0,
(1 | y ) = Nk1 (D0 d0 , D0 ), donde,

1 1 1 1 t 1 1 t 1 D0 = At 1 C1 A1 + C2 C2 A2 (A2 C2 A2 ) A2 C2 , 1 d0 = At 1 C1 y .
(5.33)
(5.34)
(5.35)
Prueba.
Por el lema 5.2,
1 1 1 t 1 1 1 1 D1 = At + At 1 C1 A1 + C2 C2 A2 (A2 C2 A2 + C3 ) 2 C2 , (5.36)
1 1 1 t 1 1 1 t 1 d = At A2 . (5.37) 1 C1 y + C2 C2 A2 (A2 C2 A2 + C3 ) A2 C2 1 Sustituyendo C3 = 0 en (5.36) y (5.37), se obtienen los resultados requeridos. 2.
133
1 0 en (5.23) se obtiene E (1 | y) = 1 , el estiHaciendo C2 1 mador de m nimos cuadrados. Sin embargo cuando C3 0, E (1 | y) = D0 d0 , o sea, el conocimiento estructural permanece, a un cuando el conocimiento param etrico se haga no-informativo. La ventaja es que comunmente se usa una previa no-informativa en un espacio de dimensi on menor que k1 . Pericchi y Nazaret(1988) discuten las ventajas y desventajas de E (1 | y ) = D0 d0 , y muestran tests de diagn ostico 1 sobre si C3 = 0 resulta una buena aproximaci on o no. En el MLNJ para el trabajo num erico, se puede usar la identidad entre medias y modas para la distribuci on Normal. Si la media a pos teriori se denota por 1 , diferenciando por ejemplo (5.21) con respecto a 1 , se obtiene: 1 1 At 1 C1 (y A1 1 ) + C2 ( 1 ) = 0,
(5.38)
y la segunda derivada evaluada en la moda resulta el inverso de la matriz de covarianza. Ejemplo 5.3 (Modelo de Clasicaci on de una v a, ANOVA1). Supongamos que Yij representa para una misma planta la producci on de la variedad de semilla i, i = 1, . . . , k, j = 1, . . . , ni . Aqu 1i es la d 2 producci on media de la variedad i. Supongamos que Yij N (1i , i ). 2 i 2 Por simplicidad supongamos ni = n, n = w , i = 1, . . . , k1 . Usamos la convenci on del sub ndice punto para denotar el promedio aritm etico d 2 respecto del sub ndice. Entonces: Yi. N (1i , w ). Respecto del segundo nivel el conocimiento estructural m as sencillo es que todas las 1i s provengan de la misma poblaci on Normal, es decir:
2 1i N (, B ). d
(5.39)
Interesantes posibilidades se abren en situaciones m as complejas. Si supi eramos que un subconjunto de las k1 variedades de semillas provienen de Australia y el resto de M exico, especicar amos dos medias diferentes en (5.39) y quiz as dos varianzas diferentes. Proseguimos al tercer nivel suponiendo: N (, 2 ).
d
(5.40)
134
El t ermino cuadr atico, an alogo a (5.21) en este ejemplo es:

i (yi
1i )2 + 2 w
i (1i
2 B
)2
( )2 . 2
(5.41)
Diferenciando (5.41) respecto de la media 1m y , obtenemos: ( ) = 0. 2 (5.42) 2 Resolviendo (5.42) se obtiene E (1m | y). Note que si , y = 1 = y.. , entonces sustituyendo en (5.42), y + E (1i | y) =
1 m (ym 1 (1 m) i ) + =0 2 w B i (1i 2 B
ym. 2 w 1 2 w
+ +
y.. 2 B 1 2 B
(5.43)
Recordemos que el estimador de m nimos cuadrados es 1m = ym. ; es por ello que 1m es un ejemplo de lo que se llama estimadores de encogimiento ya que encogen a 1m hacia la media general y..; a este tipo de estimadores tambi en se les llama de Stein, originalmente propuestos para dominar a 1m , cuando k1 > 2. Para obtener varianzas y covarianzas usamos 1 = D0 d0 ; notemos 2 que el t ermino que no depende de las modas en (5.42) es ym. /w ; pasando estos t erminos a la derecha obtenemos d0 , ver (5.35). Por tanto multiplicando la m- esima la de D0 por d0 obtenemos 1 m . La varianza estar a en la diagonal, las covarianzas fuera de ella. Puede vericarse que este procedimiento da:
2 w 2 k1 B
V ar(1m | y ) = 1 +
1 1 + 2 2 w B /
= 2 ,
(5.44)
Cov (1m , 1l | y ) =
2 w 2 k1 B
1 1 + 2 .3 2 w B
(5.45)
Note que las esperanzas a posteriori dependen de la tasa w /B , y no de cada una por separado. Finalmente, concluimos que el uso de la
135
informaci on estructural (5.39) produce estimadores m as satisfactorios que los estimadores de m nimos cuadrados. Observaci on 1. Para el ejemplo anterior E (1m 1l | y ) = (ym. yl. ) 2 2 2 2 2 con = B /(w + B ) < 1. Adem as V ar(1m 1l | y ) = 2w < 2w , siendo este u ltimo el valor obtenido por m nimos cuadrados. Para hacer comparaciones m ultiples, 1m vs. 1l tomamos la media de su diferencia sobre su desviaci on est andard obteniendo 1/2 (ym. yl. )/ 2w , o sea 1/2 por el valor frecuentista. El efecto de hacer comparaciones m ultiples es autom aticamente tomado en cuenta. Esto contrasta con los m etodos fracuentistas, que deben hacer correcciones ad-hoc. Respecto a la predicci on, si z es una observaci on del grupo m, (z | y ) = (z | 1m ) (1m | y )d1m .
d
2 Pero z = 1m + , donde N (0, w ) y 1m = 1 m + con d 2 2 N (0, ) con denido como en (5.44). Entonces (z | y) = 2 2 N (1 m , w + ).
Ejemplo 5.4 (Regresi on M ultiple). Sea (k 1) el vector de regresores y X la matriz de variables independientes. E (y ) = X con C1 = 2 I . Se suman constantes a los regresores para que tengan un d origen com un . M as a un supongamos que j N (, 2 ), j = 1, . . . , k , e independientes entre s . En el tercer nivel se supone una previa noinformativa. Entonces:
1 D0 = X t X 2 + (Ik k 1 Jk ) 2 ,
(5.46)
donde Ik y Jk (ambas k k ) son la matriz identidad y la matriz de unos en todas las entradas, respectivamente, d0 = 2 X t y . Si = 2 / 2 , entonces E ( | y) = satisface: X t X + (Ik k 1 Jk ) = X t y . (5.47)
Estimadores de este tipo han sido obtenidos bajo el nombre de ridge regression, que s olo ser an razonables si los supuestos que lo producen lo son. Se puede escribir (5.47) como:
136
X t X + Ik = X t X + . 1k , on (donde 1k es un vector k 1 de unos), o sea, como una combinaci convexa de y la media aritm etica de los j s. De nuevo tenemos encogimiento hacia la media general el cual es de especial importancia cuando X t X est a mal condicionada.3 La teor a descrita en este cap tulo puede ser usada para analizar Series Cronol ogicas de una forma estructurada, como veremos en la secci on 5.4. Cuando las varianzas (t picamente par ametros de molestia, aunque no siempre) son desconocidas, aparecen dos problemas. El primero es la necesidad de asignar distribuciones a priori a estos par ametros. El segundo, una vez asignadas las distribuciones, hay que integrar sobre los par ametros de molestia para obtener la marginal a posteriori de los par ametros de inter es, que ya no ser a Normal. Sea el vector de par ametros de molestia y 1 el vector de par ametros de inter es. Para muestras grandes se ha sugerido (Lindley y Smith, 1972) el uso de estimadores modales como una aproximaci on a las medias, mucho m as sencillas de obtener. El argumento es el siguiente: los valores modales satisfacen;
(1) 1 (1 , | y) = 0, (2) ( 1 , | y ) = 0.
De (1) sigue que si ( | y ) = 0 entonces, ( ( 1 | , y )) ( | y ) = 0, 1 o sea, ( | , y ) = 0. 1 1 Por lo tanto pueden usarse los estimadores modales 1 (obtenidos en la discusi on previa), sustituyendo los par ametros de molestia por sus estimadores modales.
137
2 2 y B son deContinuaci on Ejemplo 5.3. Ahora en el ANOVA1, w sconocidos y deben ser sustituidos por sus estimadores modales. Distribuciones convenientes (que no son conjugadas) son las chi-cuadrado inversas es decir:
vw w 2 (vw ), 2 w
vB B 2 (vB ). 2 B
Los hiperpar ametros v y describen las medias y varianzas. Ha2 2 ciendo () = 1 e integrando con respecto a en (1 , w , B , , y) se 2 2 obtienen los estimadores modales de 1 , w y B :
1i =
yi. 2 w y.. 2 B 1 2 w 1 2 B
, (5.48)
2 = { B 2 nw
2 1 ) + vB B } /(k1 + vB + 1), 2 = {S + n i (yi. 1 i ) + vw w } /(nk1 + vw + 2),
i (1i 2
donde S 2 = i j (yij yi. )2 . En la pr actica se usa un procedimiento iterativo. Se comienza con 0 1 , se calcula 1 sucesivamente hasta 1 con el cual se calcula , y as converger, lo que generalmente sucede.3 La estimaci on modal adolece de varios inconvenientes entre los cuales citamos que s olo son buenas aproximaciones para muestras grandes y no proveen informaci on sobre el error de los estimadores y otras caracter sticas de las marginales. El procedimiento correcto para obtener la mariginal es integrando los par ametros de molestia, (1i | y) = (1i | , y) ( | y )d. (5.49)
Ya hemos mencionado la aproximaci on de Laplace y los m etodos de cuadratura de Naylor y Smith(1982) para integrales. En la actualidad hay una gran producci on en investigaci on para el c alculo de marginales y momentos a posteriori por m etodos iterativos de Montecarlo, que usan intensivamente el computador, permitiendo la integraci on en muchas dimensiones por usuarios no expertos en m etodos num ericos.
138
Tambi en un an alisis cuidadoso de la parametrizaci on del problema permite, en ocasiones, disminuir la dimensi on de integraci on ganando comprensi on en el problema. Continuaci on Ejemplo 5.3. Para el ANOVA1 con las distribuciones a priori especicadas se puede demostrar que integrando respecto a 2 2 , B y w , 1 tiene una marginal a posteriori que es el producto de dos t Student multivariadas. Esta distribuci on es dif cil de manejar. P erez y Pericchi(1987) reparametrizan el ANOVA1,
2 2 2 (1 , , B , w ) (1 , , B , ),
2 2 /w . Obtienen que (1 | , y ) es una t-Student multicon = B variada (f acilmente manejable) y consiguen la forma de ( | y ). Esto permite reducir la integraci on a una dimensi on.3
5.4
El Modelo Lineal Din amico
Un caso particular de los modelos lineales que aparecen frecuentemente en la pr actica es el Modelo Lineal Din amico (MLD). Este modelo es utilizado para analizar datos que evolucionan con el tiempo y dependen el, por ejemplo, la tasa de cambio de una moneda con respecto a otra, el precio de acciones que se cotizan en la bolsa, las exportaciones e importaciones de un pa s, etc. En esta secci on estudiaremos de manera muy general el MLD polinomial de primer orden, sin embargo, para un an alisis m as exhaustivo el lector puede referirse a West y Harrison (1989), que ser a ha tomado como referencia principal de nuestro desarrollo. Denici on 5.1 Para cada instante de tiempo t = 1, 2, . . . consideremos las siguientes ecuaciones: t N (0, Vt ), Ec. de observaciones: Yt = t + t , Ec. del sistema: t = t1 + t t N (0, Wt ), Informaci on Incial: (0 | D0 ) N (m0 , C0 ), m0 , C0 conocidos. En la denici on anterior los t erminos de las sucesiones {t } y {t } son independientes, mutuamente independientes e independientes de
5.4. EL MODELO LINEAL DINAMICO
139
on inicial, m0 es un estimado para el nivel (0 | D0 ). D0 es la informaci de la serie y C0 es la incertidumbre sobre la media m0 . Para cada t supondremos que Dt1 recoge toda la informaci on sobre D0 , Vt , Wt , Y1 , . . . , Yt1 , entonces la u nica informaci on nueva para cada t ser a Dt = {Yt , Dt1 }. Teorema 5.3 Para cada t tenemos las siguientes distribuciones: a) Posteriori para t1 : (t1 | Dt1 ) N (mt1 , Ct1 ). b) Previa para t : (t | Dt1 ) N (mt1 , Rt ), con Rt = Ct1 + Wt . c) Predicci on para la siguiente observaci on: (Yt | Dt1 ) N (ft , Qt ), donde ft = mt1 y Qt = Rt + Vt . d) Posteriori para t : (t | Dt ) N (mt , Ct ), donde mt = mt1 + At et , Ct = At Vt , At = Rt /Qt y et = Yt ft . Prueba. Haremos la prueba por inducci on en t. Supongamos cierto a), entonces t es la suma de dos Normales independientes y por tanto es una Normal, con media mt1 + 0 y varianza Rt = Ct1 + Wt , es decir, (t | Dt1 ) N (mt1 , Rt ),
que es el resultado en b). Analogamente el procedimiento para probar c). La prueba de d) se puede realizar de dos maneras diferentes, usando el Teorema de Bayes (ver West y Harrison (1989)) o basados en la teor a de variables aleatorias Normales. De b) y c) sabemos: (Yt | Dt1 ) N (ft , Qt ) y (t | Dt1 ) N (mt1 | Rt ),
con estas distribuciones podemos calcular la distribuci on conjunta (Yt , t | Dt1 ). Caculemos la covarianza entre Yt y t . donde la u ltima igualdad se obtiene usando independencia y las propiedades de la esperanza. Entonces la distribuci on conjunta es: (Yt , t | Dt1 ) N mt1 mt1 , Qt Rt Rt Rt . Cov (Yt , t | Dt1 ) = E [(Yt ft )(t mt1 )] = Rt ,
140
La correlaci on entre Yt y t es t = Rt /(Rt Qt )1/2 , entonces 2 t = Rt /Qt = At . Usando estos resultados se obtiene que (t | Yt , Dt1 ) N (mt , Ct ),
2 donde mt = mt1 + 2 t (Yt mt1 ), Ct = (1 t )Rt = Rt Vt /Qt = At Vt , que es el resultado buscado en d). Para nalizar la prueba basta probar a), pero esto es cierto para t=1 por la denici on del modelo. 2
5.4.1
El Modelo constante
El conjunto de observaciones para cada t es Dt = {Yt , Dt1 } y este no contiene informaci on externa a la serie, por lo que se le suele llamar cerrado. Un caso especial de MDL de primer orden es el modelo constante, en este modelo se considera que la varianza observacional (Vt ) y de evoluci on (Wt ) son constantes en el tiempo. Es decir, un MDL constante tiene V y W ambas positivas, nitas y constantes. Una medida de inter es es r = W/V , que suele llamarse se nal de ruido. Ejemplo 5.4 (Tomado de West y Harrison (1989)). Una compan a farmace utica produce una droga llamada KURIT que actualmente vende un promedio de 100 unidades por mes. Por consejo m edico la compa n a produjo un cambio en su formulaci on que se espera incrementar a la demanda a partir de Enero (t=1), sin embargo el precio y el nombre permanecer an igual. Se requiere predecir la producci on y el abastecimiento de acuerdo a la nueva demanda. Los pacientes que consumen esta droga lo hacen regularmente, por lo que se piensa que la demanda en el tiempo es localmente constante. Entonces un MDL de primer orden constante parece ser una buena opci on para predecir la demanda. Con la informaci on disponible hasta el momento con la vieja f ormula se sabe que V =100 y W =5. Un estudio de mercado en t=0 mostr o que el nuevo producto aumentar a sus ventas en un 30%, es decir, 130 unidades por mes, pero con una incertidumbre C0 = 400. Entonces las ecuaciones del modelo son: Yt = t + t , t N (0, 100) t = t1 + t , t N (0, 5),
141
con informaci on inicial (0 | D0 ) N (130, 400) y r = 0, 05. Usando las ecuaciones de recurrencia dadas en el Teorema 5.3 se pueden calcular las predicciones de la siguiente manera, sabemos m0 = 130, C0 = 400, V = 100, W = 5, adem as la observaci on Y1 = 150, as que: R1 = C0 + W = 405, f1 = m0 = 130, Q1 = R1 + V = 505, A1 = R1 /Q1 = 0.8, adem as m1 = m0 + A1 (Y1 f1 ) = 130 + 0.8(150 130) = 146 y C1 = A1 V = 80. Los resultados aparecen resumidos en la siguiente tabla hasta t = 9. t 1 2 3 4 5 6 7 8 9 Qt 505 185 151 139 133 130 128 127 126 ft 130.0 146.0 141.4 141.9 145.3 142.6 143.9 140.4 142.2 At 0.8 0.46 0.34 0.28 0.25 0.23 0.22 0.21 0.21 Yt et mt Ct 150 20.0 146.0 80 136 -10.0 141.4 46 143 1.6 141.9 34 154 12.1 145.3 28 135 -10.3 142.6 25 148 5.3 143.9 23 128 -15.9 140.4 22 149 8.6 142.2 21 146 3.8 143.0 20 y
En la tabla se observa que a medida que t aumenta At decrece. Adem as el coeciente de m0 en el c aculo de mt es (1 At ) . . . (1 A1 ), as que por ejemplo para el c alculo de m10 la contribuci on del valor de m0 es poco signicativa. Hasta ahora hemos asumido que los modelos son cerrados, es decir, no toman en cuenta informaci on externa en la predicci on. El enfoque Bayesiano, por ser subjetivo, facilitar a la incorporaci on de informaci on externa cuando se disponga de ella, para cada t resumiremos esta informaci on en St y se unir an con la informaci on del modelo Dt = {Yt , Dt1 , St1 }. Continuaci on Ejemplo 5.4. Consideremos nuevamente la situaci on de la compa n a farmace utica. Supongamos que para t = 9 se recibe la
142
informaci on de que la droga equivalente de la competencia, BURNIT, ser a sacada del mercado por descubrirse que produce efectos secundarios. As para t = 10 los pacientes que consumen BURNIT se cambiar an para otra droga equivalente. Se sabe que esta medicina cuenta actualmente con el 50% del mercado, lo que hace suponer que se duplicar an las ventas de KURIT, es decir, E [10 | D9 , S9 ] = 286. Despu es de realizar un estudio del mercado se llega a las siguientes conclusiones: (10 | D9 , S9 ) N (143, 400) (10 | D9 , S9 ) N (286, 920) (Y1 0 | D9 , S9 ) N (286, 1020) En la siguiente tabla se muestran los resultados hasta t = 15 despu es de incorporar la informaci on externa. t Qt ft At Yt et mt 10 1020.00 286.00 0.90 326 40.00 322.07 11 195.11 322.07 0.48 350 27.93 355.47 12 153.00 355.47 0.34 320 -35.47 343.41 13 139.00 343.41 0.28 328 -15.41 339.09 14 133.00 339.09 0.24 318 -21.09 334.02 15 129.00 334.02 0.22 348 13.98 337.09 Ct 90.19 48.00 34.00 28.00 24.00 22.00
3
En conclusi on, cuando la informaci on externa sea relevante para la predicci on que se desea realizar, y dispongamos de ella, es de vital importancia a la hora de tomar decisiones incorporarla a la informaci on suministrada por el modelo. A continuaci on probaremos un teorema que nos permitir a conocer el comportamiento del coeciente de adaptaci on cuando t . Teorema 5.4 En el MDL de primer orden constante, cuando t , At A y Ct C = AV , donde A= r 1 + 4/r 1 2 .
143
Prueba. Ct = At V , con 0 < At < 1, entonces 0 < Ct < V, t. Usando las ecuaciones de recurrencia del Teorema 5.3 se tiene:
1 1 1 1 1 Ct1 Ct 1 = Rt Rt1 = Kt (Ct1 Ct2 ),
donde Kt = Ct1 Ct2 /(Rt Rt1 ) > 0, entonces Ct es una sucesi on mon otona y acotada, por lo que existe el l mite C . Como Rt = Ct1 + W , entonces Rt R = C + W . Adem as, Ct = Rt V /(Rt + V ), por lo que C satisface la siguiente ecuaci on cuadr atica C 2 + CW V W . Esta ecuaci on tiene una soluci on positiva dada por: W + W 2 + 4(V W ) 2 V r 1 + 1 + 4/r 2
C=
as que At A = C/V , que es lo que se quer a probar. Despejando se llega a la relaci on r = A2 /(1 A).2 La siguiente tabla muestra algunos resultados num ericos de la relaci on que existe entre r y A. 1/r A 9900 380 90 20 6 0,75 0,01 0.01 0.05 0.10 0.20 0.33 0.67 0.99
Resumiendo, para el modelo constante, cuando t se tienen los siguientes resultados l mites: 1. At A =
r
1+4/r , 2
r = A2 /(1 A),
2. Ct C = AV , 3. Rt R = C/(1 A) = AV /(1 A), 4. Qt = Q = V /(1 A), 5. W = A2 Q.
144
5.4.2
Caso Varianza desconocida
En cualquier problema pr actico que requiera el ajuste de Modelos Din amicos el principal inconveniente es la asignaci on de las varianzas Vt y Wt . Consideremos el modelo constante, Rt = Ct1 +W y en el l mite R = C AC C + W = 1A , entonces W = 1A , como A es constante, observamos que la varianza W es una proporci on de C . Pareciera l ogico pensar que la selecci on de W depende de la incertidumbre inicial C , y este A 100%. Como = 1 A, entonces R = C/ , as porcentaje ser a 1 A la selecci on de depender a del coeciente de adaptaci on del modelo a los datos, y esto nos conducir a a la selecci on de W . Por ejemplo si A=0.1, entonces = 0.9 y la varianza W = 0.11 C , pero si disminuimos = 0.8, la varianza aumentar a a W = 0.25 C . En cualquier caso, siempre ser a conveniente elegir una tasa de adaptaci on constante para cada t. Llamaremos a el factor de descuento para cualquier MLD. Para una factor de descuento jo tenemos, Wt = Ct1 1 y Rt = Ct1 ,
para cada t. Hemos considerado aqu modelos constantes y no constantes, pero en general cualquier MLD de primer orden converge r apidamente a un modelo constante del tipo {1, 1, V, rV }, donde r = (1 )2 / , esta tasa r se deduce de los casos l mites considerados anteriormente. Una discusi on m as general sobre factores de descuentos aparece en West y Harrison (1989), sin embargo la idea introducida en esta secci on es que los factores de descuento son una herramienta para la elecci on de la varianza. Adem as en el caso de modelos no constantes esto nos permite actualizar la varianza Wt para cada t, y en caso de tener que incorporar informaci on externa al problema los factores de descuento jugar an un papel muy importante a la hora de ajustar la varianza para cambiar el nivel de la serie. Existe en la actualidad toda una industria de investigaci on de aplicaciones y generalizaciones del Modelo Lineal Jer arquico Din amico y Filtros de Kalman, bajo el nombre de modelaje Bayesiano din amico. Referencias recientes los libros de West y Harrison (1989) sobre mod-
5.5. EJERCICIOS
145
elaje Bayesiano din amico, y Pole, West and Harrison (1994) sobre el paquete estad stico BATS: Bayesian Analysis of Time Series.
5.5
Ejercicios
y 1 f , > 0, el prob5.1 Para par ametros de escala, f (y | ) = lema debe ser invariante para cambios de escala z = c y, c > 0. Muestre que entonces la medida invariante debe cumplir:
( ) =
(log ) = 1.
5.2 Mostrar que Iij () en (5.7) tambi en puede ser escrita como: Iij () = Ey | log f (y | ) log f (y | ) . i j
5.3 Demostrar la Invarianza de la regla de Jereys, ecuaci on (5.8). 5.4 Vericar que para regla de Jereys, si la verosimilitud es Normal con media y desviaci on t pica , resulta: (a) Para varianza conocida () = 1.
1 (b) Para media conocida ( ) = .
(c) Ambas desconocidas (, ) =
1 . 2
(d) Si ambos son independientes pero desconocidos (, ) = 1 () ( ) = . 5.5 Vericar que para el Modelo Lineal (5.1) bajo los supuestos hechos, la previa de Jereys es: (a) (1 ) = 1, si 2 es conocida. (b) (, ) =
1 , k+1
si es desconocida.
(c) Finalmente si 1 y son a priori independientes, (1 , ) = 1 (1 ) ( ) = .
146
5.6 Expresar E (1 | y ) = Dd en el Teorema 5.1 como combinaci on 1 1 1 convexa de 1 = (At C A ) A C y y la media a priori A 1 1 1 2. 1 1 Tambi en mostrar que:
1 E (1 | y ) = A2 + DAt 1 C1 (y A1 A1 ), 1 o sea que el ltro es igual a DAt 1 C1 .
5.7 Vericar las ecuaciones de la Observaci on 1. 5.8 Demostrar la ecuaci on (5.46).
Cap tulo 6 Selecci on de Modelos y Test de Hip otesis Bayesianos

En este cap tulo (basado en Berger y Pericchi(1996) y Pericchi, Fiteni y Presa(1996)) trataremos de manera espec ca la clase de problemas en la que el enfoque frecuentista y Bayesiano dieren dr asticamente, sobre todo cuando hay gran cantidad de datos. Es adem as una clase de problemas de enorme importancia pr actica y de investigaci on b asica. Esta clase de problemas engloba tanto a la selecci on de modelos como al test de hip otesis.
6.1
Introducci on
Comencemos con dos ejemplos que ilustran la utilidad los tipos de problemas en los que se hace necesario disponer de criterios de selecci on de modelos y test de hip otesis. Ejemplo 6.1 (Selecci on de Modelos). Proschan (1962) consider o datos de los tiempos de falla del sistema de aire acondicionado de un aeroplano. Se obtuvieron los siguientes 30 tiempos de falla (supuestos i.i.d): 147
148
DE MODELOS Y TEST DE HIPOTESIS CAPTULO 6. SELECCION BAYESIANOS
23 261 87 7 120 14 62 47 225 71 246 21 42 20 5 12 120 11 3 14 71 11 14 11 16 90 1 16 52 95 Se plantean los siguientes modelos separados para modelizar los datos: M1 : Modelo Exponencial: f1 (xi | ) = 1 exp {xi /}, xi > 0, > 0,
, o equivalentemente, haciendo = 1 f1 (xi | ) = exp {xi }, M2 : Modelo Lognormal: f2 (xi | , ) = exp {(log xi )2 /2 2 } , 2 xi > 0, > 0, < < . xi > 0, > 0.
Este ejemplo pertenece a lo que llamamos Selecci on de Modelos, ya que M1 no es un caso particular de M2 .3 Ejemplo 6.2 (Test de Hip otesis). Supongamos que aceptamos que ciertos datos provienen de la distribuci on Exponencial. Una teor a establece que: M1 : = 0 , mientras que el modelo alternativo establece que la teor a no es correcta, es decir, M2 : = 0 . Este es un problema de Test de Hip otesis ya que M1 puede ser aproximado tanto como se quiera por M2 , y de hecho puede considerarse a M1 como un caso particular de M2 .3 Analicemos la diferencia fundamental que existe entre los problemas de estimaci on y los de Test de Hip otesis o Selecci on de Modelos. Continuaci on Ejemplo 6.2. Supongamos que se quiere estimar el par ametro de la distribuci on Exponencial cuando no existe (o no se quiere utilizar) informaci on a priori. Como en el Cap tulo 5 asignamos la previa no-informativa dada por la Regla de Jereys:
6.1. INTRODUCCION
149 1 ,
N ( ) (det I ( ))1/2 = o equivalentemente, N ( ) = c ,
donde c es una constante positiva no especicada. Notar que N ( ) es impropia, ya que integra innito en 0 < < . Sin embargo esto u ltimo no nos impide calcular ( | x), la cual es una densidad propia para n 1. En efecto,
c f (x | ) f (x | ) N ( ) n1 exp { xi } ( | x) = = = . c f (x | ) N ( )d f (x | ) (n)/( xi )n (6.1) Entonces ( | x) es una distribuci on Gamma, con par ametros n y n i=1 xi , la cual es propia y no envuelve a la constante arbitraria c, pues se ha cancelado por aparecer tanto en el numerador como en el denominador de (6.1). Para muestras moderadas o grandes, en vista de la Normalidad asint otica de la densidad posterior (4.35),
N (, I 1 (x)) = N
1 . x nx2 1 ,
(6.2)
Por otra parte, para estimadores de M axima Verosimilitud se cumple asint oticamente que: N (, I 1 (x)). (6.3)
Notar la estrecha relaci on que existe entre (6.2) y (6.3). La interpretaci on de (6.2) es m as satisfactoria (porque siempre ser a desconocido), pero a un as la estimaci on e intervalos obtenidos de (6.1) y (6.3) ser an muy cercanos.3 La cercan a num erica encontrada en el ejemplo anterior, entre estimaciones usando M axima Verosimilitud y Bayes con previas noinformativas, es t pica en problemas de una dimensi on, que tengan
150
verosimilitudes regulares (esto es verosimilitudes cuyo soporte no dependa del valor del par ametro, como en el ejemplo 3.2). Podr a argumentarse, entonces, que en problemas de estimaci on, la diferencia entre los enfoques basados en la verosimilitud o en Bayes, es m as acad emica que pr actica. (Esto no es as , sin embargo para problemas de muchos par ametros incluso para el Modelo Lineal Jer arquico como se vi o en el Cap tulo 5, ni para Verosimilitudes irregulares, Atkinson, Pericchi y Smith (1991), Pericchi y Nadal (1996).) Pero, incluso para verosimilitudes regulares de una dimensi on, el enfoque frecuentista y Bayesiano dieren dr asticamente, y en forma creciente con el tama no muestral n, para problemas de Test de Hip otesis, como se vi o en el Ejemplo 4.1, o m as generalmente para Selecci on de Modelos. Resulta parad ojico constatar que al presente momento el enfoque Bayesiano para estimaci on est e mucho m as desarrollado que para Test de Hip otesis y Selecci on de Modelos. Precisamente para esta u ltima clase de problemas es para los que m etodos Bayesianos son m as necesarios. La raz on de la paradoja es: t picamente no pueden calcularse Probabilidades de Modelos, ni Factores de Bayes con previas no-informativas . Continuaci on Ejemplo 6.2. Para una previa ( ) bajo M2 , el factor de Bayes es:
B21 =
Si ahora asignamos como probabilidades a priori de los modelos: p1 = P (M1 ) y p2 = P (M2 ), p1 + p2 = 1, (por ejemplo p1 = p2 = 1/2 para un an alisis de referencia) entonces (ver Cap tulo 4), P (M1 | x) = 1 1+
p2 B p1 21
m f (x | ) ( )d 2 = . f (x | 0 ) f (x | 0 )
(6.4)
(6.5)
La relaci on (6.5) parece resolver el problema del Test de Hip otesis de la manera m as satisfactoria; provee la probabilidad posterior de los modelos alternativos, basadas en lo adecuado en que cada mo/-de/lo predice los datos obtenidos, esto es basado en el factor de Bayes
6.1. INTRODUCCION
151
(6.4). Sin embargo, supongamos que se quiere realizar un an alisis autom atico, de referencia o no-subjetivo. Si, como en estimaci on, N suponemos: ( ) = c/ , entonces,
N B21
=c
1 f (x | ) d
f (x | 0 )
(6.6)
Ahora, la constante arbitraria c no se cancela y entonces el Factor de Bayes (6.6) queda indeterminado.3 Entonces, necesariamente hay que asignar previas propias para calcular el Factor de Bayes. Sin embargo, en Test de Hip otesis y, peor a un, en Selecci on de Modelos la asignaci on cuidadosa de previas informativas subjetivas es t picamente infactible. Adem as, la sensibilidad del Factor de Bayes va a ser grande respecto de estas previas. Una posible soluci on es la de considerar clases de densidades a priori, como en los Cap tulos 4 y 5. Siendo este un programa de acci on atractivo, tiene al menos dos inconvenientes. El primero es c omo asignar clases de densidades a priori que, como en el ejemplo 6.1, vivan en espacios muy diferentes. El segundo, es que para problemas de Test de Hip otesis, el enfoque Bayes robusto, da desigualdades en una s ola direcci on, ver la expresi on (4.19). Parece entonces conveniente enfocar el problema desde otra optica. Es acaso la situaci on de informaci on (o falta de ella) igual para un problema de estimaci on que para otro de Test de Hip otesis o Selecci on de Modelos?. Veamos el ejemplo 6.2. El hecho de que se est e seriamente considerando la hip otesis = 0 da una pieza de informaci on fundamental que no est a siendo considerada en la previa impropia N ( ) = c/ . Esto es, 0 es un punto distinguido que estamos seriamente considerando como verdadero par ametro. Si no fuese as , para qu e hacer el test de hip otesis?. La previa ( ) deber a considerar que H0 : = 0 ha sido sugerido. Resumiendo: Lo que se requiere para implementar el enfoque Bayesiano para Test de Hip otesis, es de un m etodo autom atico o de referencia para asignar una previa propia (), que tome en cuenta que el modelo nulo = 0 , ha sido denitivamente sugerido. Dicho de una manera menos ambiciosa, el objetivo es procurar m etodos que den respuestas iguales o cercanas a procedimientos Bayesianos. En
152
Berger y Pericchi(1996) se enuncia el siguiente principio que va a ser seguido en este Cap tulo. PRINCIPIO: M etodos para Selecci on de Modelos y Test de Hip otesis que sean similares o iguales al uso de previas razonables, son preferibles a m etodos que no corresponden a ning un an alisis Bayesiano. A lo largo de este libro hemos expuesto ventajas del enfoque Bayesiano. Es importante recalcar que para esta clase de problemas, el enfoque Bayesiano le hace un servicio a la ciencia en general, en el siguiente sentido. Un principio cient co aceptado es el de la Parsimonia. Esto es, que si dos modelos alternativos se ajustan bien a los datos y aproximadamente de la misma manera, el modelo m as simple debe ser aceptado. Esto lo cumple el enfoque Bayesiano mas no el frecuentista, Jereys y Berger (1992). Por otro lado, es necesario desarrollar m etodos autom aticos (es decir que no requieren de la asignaci on directa de previas informativas para todos los par ametros en cada modelo) ya que los procedimientos autom aticos dominar an en la pr actica en la mayor a de los campos. Entonces nuestro objetivo es desarrollar m etodos autom aticos, que sean consistentes con el Principio enunciado.
6.2
El Factor de Bayes Intr nseco
Comenzamos haciendo uso de una estrategia para cancelar la constante arbitraria c. Utilicemos parte de la muestra, que llamaremos muestra de entrenamiento, para convertir las previas impropias en propias, Lemper(1971). Emplearemos el resto de los datos para comparar los modelos. Supongamos que estamos comparando los modelos: M1 , M2 , . . . , MJ . Denotamos por X (l) la muestra de entrenamiento y X (l) el resto de los datos. Entonces, la previa bajo el modelo Mj , que denotamos N j (j ) se convierte en j (j | x(l)) = la cual es propia si: fj (x(l) | j ) N (j ) , mN j (x(l)) (6.7)
6.2. EL FACTOR DE BAYES INTRNSECO
153
0 < mj (x(l)) =
fj (x(l) | j ) N (j )d < .
(6.8)
La condici on (6.8) debe cumplirse simult aneamente para todos los modelos M1 , M2 , . . . , MJ , para que estos se puedan comparar. Pero por otra parte es conveniente que el tama no de la muestra de entrenamiento sea m nima para reservar la mayor parte de la informaci on para la comparaci on de modelos. De all la siguiente denici on. Denici on 6.1 Una muestra de entrenamiento X (l) se llama propia si 0 < mN un j (x(l)) < para todo Mj , y minimal si es propia y ning subconjunto de X (l) es propio. Las muestras propias y minimales las llamamos MEM. Para muestras de entrenamiento propias (minimales o no), podemos entonces calcular los Factores de Bayes, que ahora estar an bien calculados. Para X (l) el Factor de Bayes de Mj sobre Mi es, Bji (l) = Lema 6.1
N N Bij (x(l)), Bji ((l)) = Bji N fj (x(l) | j , x(l))j (j | x(l))dj . N fi (x(l) | i , x(l))i (i | x(l))di
(6.9)
(6.10)
donde mN fj (x | j ) N (j )dj j (x) = , N fi (x | i ) (i )di mN i (x) mN i (x(l)) . mN j (x(l))
N Bji =
N Bij (x(l)) =
Prueba.
Se deja al lector como ejercicio.2
Continuaci on Ejemplo 6.2. En este caso la muestra de entrenamiento m nima ser a X (l) = Xl > 0, es decir un dato, ya que M1 no tiene par ametros ajustables (Hip otesis simple) y para M2 (usando (6.7)): ( | xl ) =
c exl 0 c exl d
= xl exl ,
(6.11)
154
o sea, ( | xl ) es Exponencial con par ametro xl > 0, y por tanto es propia. Si ahora usamos (6.11) y (6.9), B21 (l) =
0
Note que hemos puesto al Modelo m as complejo en el numerador, m as adelante explicaremos la raz on. Si bien Bij est a bien escalado (no depende de constantes arbitrarias), depende de la selecci on arbitraria de la MEM X (l). Para eliminar esta dependencia y para incrementar la estabilidad de los Factores de Bayes, se consideran las siguientes simetrizaciones a las que denominamos Factores de Bayes Intr nsecos (IBF). 1. IBF Aritm etico, que es la media aritm etica,
AI Bji
mN f (xl | 0 ) 2 (x) N N = B21 B12 (xl ).3 f (x | 0 ) mN ( x ) l 2
f (x(l) | ) ( | xl )d = f (x(l) | 0 )
1 = L
Bji(l) =
l=1
N Bji
1 L
L N Bij (x(l)), l=1
(6.12)
donde L es el n umero total de MEM que sean propias. 2. IBF Geom etrico, la media geom etrica,
L GI Bji 1/n
=
l=1
Bji(l)
N Bji
1 exp L
L N log Bij (x(l)) l=1
. (6.13)
3. IBF Mediano, la mediana,

MI N N Bji = Medl (Bji (l)) = Bji Medl Bij (x(l)) .
(6.14)
Cada uno de estos tres IBFs tiene su justicaci on, Berger y Pericchi (1996). Desde el punto de vista computacional, L no tiene por qu e ser la totalidad de las MEM. Varshavsky (1995) ha encontrado que un subconjunto asombrosamente peque no del conjunto de todas las MEM
6.2. EL FACTOR DE BAYES INTRNSECO
155
da resultados muy cercanos al IBF. Del orden de m n, MEM dar an resultados muy cercanos al IBF, donde n es el tama no muestral y m el de las MEM. Continuaci on Ejemplo 6.2. Aplicando las deniciones encontramos que, como L = n,
AI N = B21 B21
0 n
xl e0 xl ,
l=1 n
(6.15)
GI N B21 = B21
0 (W 0 T ) , n
donde
W =
l=1
log xl ,
(6.16)
y nalmente,
MI N = B21 Medl 0 xl e0 xl .3 B21
(6.17)
Continuaci on Ejemplo 6.1. En este ejemplo M1 : Exponencial vs. M2 : Lognormal, las previas no-informativas utilizadas son: 1 1 N y 2 (, ) . Se verica que las MEM son de la forma X (l) = (Xi , Xj ), Xi = Xj . Resulta que,
N 1 ()
mN 1 (x) =
(n) Tn
mN 2 (x) =
n i=1 (yi
[(n 1)/2] , (n1)/2 2 n S (n1) ( n x ) y i i=1
2 donde T = n i=1 xi , Sy = Para las MEM,
y )2 , yi = log xi . mN 2 (x(l)) = 1 . 2xi xj | log(xi /xj )|
mN 1 (x(l)) =
1 (xi + xj )2
Para los datos de este ejemplo hay 435 pares de observaciones pero 9 de ellos tienen Xi = Xj . Por ello estos 9 pares no son MEM y por tanto fueron ignorados. Los resultados num ericos fueron,
156
AI GI MI B21 B21 B21 0.37 0.33 0.42
Como se ve los resultados son bastante cercanos, y apuntan a que el modelo Exponencial es alrededor de 3 a 1 m as probable que el Lognormal, si suponemos que p1 = p2 = 1/2. De hecho si utilizamos (6.5) para el IBF aritm etico obtenemos P (M1 | x) = 0.73.3 Veamos ahora otro ejemplo de Selecci on de Modelos, el cual es fundamental para la estad stica Robusta. Ejemplo 6.3 (Robusticaci on del Modelo Normal). Supongamos que el modelo base para unos datos es el modelo Normal con media y varianza desconocida. Sin embargo, existe la posibilidad de que los datos muestren colas m as pesadas como en el modelo t-Student por ejemplo, o colas m as nas como en la Uniforme de 2 par ametros, o que los datos tengan cierta asimetr a, como en el Modelo Gumbel (Modelo de valores extremos). Todos estos modelos pertenecen a la familia de j 1 localizaci on-escala y pueden escribirse como: fj x . j j Para esta clase de modelos, el IBF tiene una simplicaci on sorprendente. Tenemos j modelos, donde todos son de localizaci on-escala. Como en (5.7) puede vericarse que la media no-informativa invariante es j (, ) 1/ . Puede vericarse adem as que las MEM son de la forma X (l) = (Xi , Xk ), Xi = Xk .3 Lema 6.2 Si X1 y X2 son observaciones independientes de la densidad de localizaci on-escala, 1 f ((xi )/ ) y N (, ) = 1/ , entonces para X1 = X2 , mN (x1 , x2 ) =
0
1 x1 x2 1 f f dd = . 3 2 | x1 x2 | (6.18)
Prueba. Sin p erdida de generalidad supongamos que X2 > X1 y x2 hagamos el cambio de variables (, ) (v, w ) = x1 , . Entonces, aplicando el Teorema del Cambio de Variable, se tiene:
6.3. EL IBF ESPERADO
157
mN (x1 , x2 ) =
1 |x1 x2 |
f (v )f (w)dwdv =
1 P (v < w), |x1 x2 |
donde v y w son independientes con densidad f . Claramente P (v < w) = P (w < v ) = 1/2 lo que completa la prueba.2 La identidad (6.18) es sorprendente, porque el resultado no depende de la verosimilitud f . Adem as esta identidad simplica la comparaci on de modelos. En efecto, el IBF puede escribirse como:
I N N Bf g = Bf g (x).Ave{Bgf (x(l))},
donde (Ave) representa un average aritm etico, geom etrico o la mediana. Ahora bien, si f y g son de localizaci on-escala y (, ) 1/ , entonces para las MEM, (X1 (l), X2 (l)), con X1 (l) = X2 (l), resulta que:
N Ave{Bgf (x(l))} = 1,
(6.19) (6.20)
y por lo tanto,
I N Bf g = Bf g .
Por otra parte, la identidad (6.18) provee una justicaci on de muestras de entrenamiento de tama no m nimo. Si muestras de entrenamiento N m as largas, X (l), son empleadas, ya no se cumplir a que Bgf (x(l)) es independiente de g y f . Muestras de entrenamiento m as largas producen una p erdida innecesaria de informaci on sobre la discriminaci on de modelos, y p erdida innecesaria de simplicidad. Generalizaciones de (6.18) para modelos m as complejos, como por ejemplo para la robusticaci on de los modelos ANOVA, se muestran en Berger, Pericchi y Varshavsky(1996).
6.3
El IBF Esperado
El IBF tiene en una variedad de casos gran simplicidad anal tica. Sin embargo, para muestras peque nas el IBF puede tener una variabilidad grande y por otra parte, para muestras muy grandes puede ser costoso computacionalmente. Una alternativa atractiva es sustituir el
158
(Ave), average de las correcciones, por su esperanza bajo el modelo m as complejo, cuando es claro cu al es el m as complejo como en el Test de Hip otesis. El IBF esperado Aritm etico y Geom etrico son respectivamente,
EAI N N B21 = B21 EM2 [B12 (x(l)) | ],
(6.21) (6.22)
EGI N B21 = B21 exp EM2 [log B12 (x(l)) | ] .
N otese que el IBF esperado es el valor l mite del IBF, ya que por la Ley de Grandes N umeros, 1 L 1 L
L l=1 N l=1 N N B12 (x(l)) EM2 [B12 (x(l) | ] L L
(6.23)
N N log B12 (x(l)) EM2 [log B12 (x(l)) | ].
(6.24)
Continuaci on Ejemplo 6.2. Usando las deniciones y (6.15) y (6.16) obtenemos:

N EM2 [B12 (xl ) | ] = 0
[0 xl e0 xl ]f (xl | )dxl =
0 , ( + 0 )2
y (6.25)
N exp EM2 [log B12 (xl ) | =
0 0 exp (1) ,
(6.26)
donde (.) es la funci on digamma (ver apendice).3 Como el valor del vector de par ametros es desconocido, entonces B depende de . Una manera natural de aproximar el IBF esperado es sustituir a por su estimador de m axima verosimilitud. Formalmente, para el IBF aritm etico y geom etrico respectivamente, se tiene:
E EAI N N B21 = B21 EM2 [B12 (X (l)) | ],
(6.27)
6.4. PREVIAS INTRNSECAS
159
EGI N N B21 = B21 exp EM2 [log B12 (X (l)) | ] .
(6.28)
Continuaci on Ejemplo 6.2. El estimador de m axima verosimilitud de es = 1/x. Sustituyendo en las f ormulas anteriores obtenemos,
EAI B21 =
(n) 0 e0 nx , nn xn1 (x0 + 1)2
(6.29)
EGI B21 =
(n) e
0
n i=1
xi
n i=1
xi )n
0 x exp {(1) 0 x} .3
(6.30)
Las correspondientes f ormulas para el ejemplo 6.1, considerando al modelo Lognormal m as complejo que el modelo Exponencial, son factibles de hacer, pero m as complicadas, ver Berger y Pericchi (1.996).
6.4
Previas Intr nsecas
Todav a no hemos respondido la pregunta fundamental: El IBF obedece al Principio enunciado en la secci on 6.1?. Es decir, existe y puede calcularse una distribuci on a priori (propia) que de resultados cercanos y asint oticamente equivalentes al IBF?. Afortunadamente la respuesta es armativa para condiciones bastantes generales, y m as a un puede construirse una tal distribuci on, que llamaremos Previa Intr nseca. Por simplicidad supongamos la situaci on del ejemplo 6.2, en el que tenemos una hip otesis nula simple, H0 : = 0 . Supongamos as mismo una (), bajo H2 : = 0 , desconocida. Sea N () la previa impropia y autom atica bajo H1 . En lo que sigue obtendremos aquella () que es equivalente asint oticamente al IBF. Hagamos la siguiente expansi on asint otica: f (x | ) ()d = f (x | )
() N f (x | ) N ( ) ( )d N B21 () , f (x | 0 ) N () (6.31)
N B21
f (x | )
160
donde es el estimador de m axima verosimilitud, que se supone que existe y es u nico. Entonces para que () produzca valores similares al IBF, se tiene de (6.12) y (6.13) respectivamente para el IBF aritm etico y geom etrico, () 1 L N () () 1 L N ()
L l=1
N N B12 (x(l)) EM2 [B12 (x(l) | ]
(6.32)
N l=1
N N log B12 (x(l)) EM2 [log B12 (x(l)) | ].
(6.33)
Por otra parte como suponemos que , de (6.32) y (6.33) se tienen las siguientes ecuaciones que deben obedecer las previas intr nsecas aritm etica y geom etrica respectivamente: AI () = N ()EM2 [B12 (x(l)) | ], y (6.34) (6.35)
GI () = N () exp {EM2 [log B12 (x(l)) | ]} .
Continuaci on Ejemplo 6.2. De la ecuaci on (6.34) obtenemos, AI ( ) = 0 . (0 + )2 (6.36)
La previa intr nseca Aritm etica es atractiva en varios sentidos. Primero, es propia pues integra 1. En segundo lugar, su mediana es 0 , el punto distinguido por la hip otesis nula. Por u ltimo es una medida bastante plana, y con una cola pesada. En la Figura 6.1 se muestra esta previa para 0 = 5. All se ve diferente de la medida original N ( ) = 1/ . De hecho, puede argumentarse que (6.36) es la previa apropiada, dada la informaci on de que la hip otesis nula H0 : = 0 est a siendo seriamente considerada. Una vez obtenida la previa intr nseca puede ser usada como previa propia y obtener (anal tica o num ericamente) el IBF propio. Alternativamente, se pueden realizar aproximaciones , que para este ejemplo resultan,
6.4. PREVIAS INTRNSECAS
161
AI = B21
f (x | ) AI ( )d 0 N B21 . f (x | 0 (0 + )2
El camino anterior puede seguirse para obtener la previa intr nseca geom etrica, que resulta ser: GI ( ) = 0 0 exp (1) . 2 (6.37)
Integrando (6.37), resulta exp{(1)} = 0.561, o sea que es integrable pero no propia y por ello el IBF geom etrico debe ser renormalizado dividiendo por exp{(1)} para ser consistente con el principio. En la Figura 6.1, tambi en se muestra (6.37) luego de ser normalizada al dividirse por 0.561. Excepto en la vecindad de = 0, las previas intr nsecas artim etica y geom etrica son muy parecidas.3
()
1 0.8 0.6
No informativa
c=1
previa intr nseca 0.4 arit. IBF
previa intr nseca geom. IBF

>
0.2 0 1 2 3 4 5 6 7 8 9 10
Figura 6.1. Previas no informativa, Intr nseca geom etrica y aritm etica (Ejemplo 6.2).
162
En el ejemplo anterior encontramos que N ( ) era una previa propia. El siguiente teorema muestra que esto no es casual. Teorema 6.1 Sea H1 : = 0 vs. H2 : = 0 , y supongamos que est an dadas las condiciones del Teorema de Fubini. Entonces, AI () es propia. Prueba. Integrando AI () obtenemos: f (x(l) | 0 ) f (x(l) | )dx(l)d = mN 2 (x(l))
AI ()d =
N ( )
f (x(l) | 0 ) mN 2 (x(l))
N ()f (x(l) | )d dx(l) =
f (x(l) | 0 )dx(l) = 1.2
El Teorema 6.1 establece que el IBF aritm etico es un m etodo que a un siendo autom atico, es inmediatamente consistente con el Principio Bayesiano al comparar una hip otesis Nula simple con su complemento. De esta manera se resuelve satisfactoriamente el problema para test de hip otesis simple planteado en este cap tulo. Cuando la hip otesis nula es compuesta, la situaci on es algo m as complicada, pero el resultado es esencialmente el mismo. otesis Sea 2 = (1 , ) y hacemos el test de hip M1 : = 0 vs M2 : = 0 ,
es decir la hip otesis nula M1 es compuesta ya que H0 deja a 1 libre. Hacemos los siguientes supuestos, que se cumplen con gran generalidad. Por simplicidad supongamos datos intercambiables y adem as:
1 1. 2 = 2 = (1 , 0 ).
M2 1 N 2. Existe, B2 (2 ) = E B12 (x(l)) = limI I 2
I k =1
N B12 (x(k )).
6.5.
EL IBF PARA EL MODELO LINEAL NORMAL
163
Bajo estos supuestos se obtiene que una previa intr nseca es (ver Berger y Pericchi (1.996)),
N (1 ) I (1 ) = 1
I I 2 (2 ) = 2 (2 )B2 (2 ).
(6.38)
N Teorema 6.2 Supongamos, en (6.38), que 1 (1 ) es propia. Entonces I 2 (2 ) tambi en es propia.
Prueba.
De (6.38) se obtiene:
N 2 (2 )
I 2 (2 )d2 =
mN 1 (x(l)) f (x(l) | 2 )dx(l) d2 , mN 2 (x(l))
aplicando Fubini en la u ltima integral resulta, mN 2 (x(l)) mN 1 (x(l)) dx(l) = mN 2 (x(l)) mN 1 (x(l))dx(l) = 1,
N ya que si 1 es propia tambi en lo es mN 1 .2
6.5
El IBF para el Modelo Lineal Normal
En esta secci on trataremos de manera muy suscinta el IBF para el Modelo Lineal Normal. Un tratamiento m as completo aparece en Berger y Pericchi (1.996,a,b). Suponga que el modelo Mj , para j = 1, . . . , q , para los datos Y (n 1), es el Modelo Lineal, Mj : Y = Xj j + j ,
2 donde j y j = (j1 , . . . , jkj )t son desconocidos, y Xj es una matriz de dise no n kj dada de rango kj < n. Las previas usuales no subjetivas son: N j ( j , j ) 2 j Nn (0, j In ),
(6.39)
1 . j
164
Es f acil probar que una muestra de entrenamiento minimal X (l), con matriz de dise no correspondiente Xj (l) (bajo Mj ), es una muestra t de tama no m = max{kj } + 1, tal que Xj (l)Xj (l) es no singular para todo j . Una denici on general del IBF para comparar los modelos Mj vs Mi es:
I N N = Bji Ave[Bij (x(l))] = Bji
mN mN j (x) i (x(l)) , Ave N m2 (x) mN j (x(l))
(6.40)
donde Ave denota los averages artim etico y geom etrico correspondientes al IBF aritm etico y geom etrico. (El IBF mediano es tambi en interesante debido a su robust es.) Para el Modelo Lineal (6.39), el IBF es relativamente sencillo. Anal ticamente se obtiene el siguiente resultado:
N Bji = (kj ki )/2 (nki )/2 1/2 ((n kj )/2) |xt Ri i xi | 1/2 (nkj )/2 ((n ki )/2) |xt j xj | Rj
(6.41)
N y Bij (x(l)) est a dado por el inverso de la expresi on (6.41), reemplazando n, Xi , Xj , Ri y Rj por m, Xi (l), Xj (l), Ri (l) y Rj (l) respectivamente. En (6.41) Rj y Rj (l) son la suma de cuadrados residuales bajo Mj , para la muestra completa y la muestra de entrenamiento respectivamente. Para calcular el IBF, se sustituye la ecuaci on (6.41) en (6.40), que autom aticamente clasica los modelos tomando en cuenta la bondad de ajuste de cada modelo y envuelve una penalizaci on en contra del modelo con mayor n umero de par ametros. Por ejemplo, el AIBF es:
AI Bji
|xt xi |1/2 Ri i C = ti 1/2 . ( . n k ) / 2 j |xj xj | L Rj

nkj 2
(nk )/2
1/2 |xt (Rj (l))1/2 j (l)xj (l)| . , t 1/2 (R (l)(p+1)/2 i l=1 |xi (l)xi (l)| L ( p+1 2 ) ( 1 2)
(6.42)
donde p = kj ki y C =
nki 2
El procedimiento propuesto es elegir Mj como el modelo con mayor n umero de par ametros (el modelo abarcante) y calcular su IBF en
6.5.
165
contra de los otros modelos. Para m as detalle ver Berger y Pericchi (1.996,a,b,c). En estos trabajos se obtienen las previas intr nsecas y se demuestra que los correspondientes al AIBF son previas propias razonables. Ejemplo 6.4. (Comparaci on de Modelos de Regresi on) Datos tomados de Halds, p.82. Se desea estudiar el calor desprendido por un cierto tipo de cemento al endurecerse, en funci on de su composici on. Las variables de inter es en el estudio son: Y : Calor desprendido (cal/gr). X1 : Porcentaje de aluminio de calcio (3CaO.Al2 O3 ). X2 : Porcentaje de silicato tetrac alcico (3CaO.SiO2). nica tetrac alcica (4CaO.Al2 O3 .F e2 O3 ). X3 : Porcentaje de ferrita alum X4 : porcentaje de silicato dic alcico (2CaO.SiO2). Al realizar un experimento se obtienen los siguientes datos: X1 X2 X3 X4 7 26 6 60 1 29 15 52 11 56 8 20 11 31 8 47 7 52 6 33 11 55 9 22 3 71 17 6 1 31 22 44 21 47 4 26 2 54 18 22 1 40 23 34 11 66 9 12 10 68 8 12 Y 78 74 104 87 95 109 102 72 115 93 83 113 109
Denotamos a los cuatro potenciales regresores por 1,2,3,4, y el t ermino constante (incluido en todos los modelos) por c. Este conjunto de datos es muy dif cil de analizar debido al reducido n umero de datos (n=13) y a que la matriz de dise no es casi singular. El modelo abarcante es el denido por 1,2,3,4,c, y comparemos por medio del AIBF, a los submodelos con el abarcante, colocando a este u ltimo en el
166
numerador del AIBF. Los resultados se muestran en la siguiente tabla: Modelo AIBF p-valor 1,2,3,c 0.29 0.8400 1,2,4,c 0.26 0.8960 1,3,4,c 0.31 0.5010 2,3,4,c 1.20 0.0710 1,2,c 0.18 0.4700 1,3,c 8242.30 0.0000 1,4,c 0.46 0.1680 2,3,c 216.40 0.0002 2,4,c 2774.40 0.0000 3,4,c 13.10 0.0055 1,c 4158.80 0.0000 2,c 1909.80 0.0000 3,c 22842.10 0.0000 4,c 851.30 0.0000 c 19721.50 0.0000 Basados en el AIBF, el mejor modelo es el {1, 2c}, seguido por el {1, 2, 4, c}; {1, 2, 3, c} {1, 3, 4, c} y {1, 4, c}. Note que el ordenamiento dado por el p-valor no es el mismo. De acuerdo al p-valor el mejor modelo es el {1, 2, 4, c}, el cual no es parsim onico, respecto del {1, 2c}. Es interesante notar que el m etodo de inclusi on progresiva de regresores, tambi en selecciona al {1, 2, c} como el mejor modelo.3 En el ejemplo anterior se ilustran las enormes ventajas del enfoque Bayesiano para la comparaci on de modelos y la predicci on: 1. Es un enfoque parsim onico, que penaliza a los modelos con muchos par ametros. 2. Es un enfoque que permite calcular las probabilidades a posteriori de los modelos, aplicando la ecuaci on (6.5), la cual puede ser generalizada para considerar m as de dos modelos. 3. El planteamiento frecuentista de test de hip otesis obliga a seleccionar un modelo de entre todos los sub-modelos. Sin embargo,
6.5.
167
en este ejemplo, si bien el modelo {1, 2, c} es el mejor, hay otros 4 modelos que tienen un Factor de Bayes no despreciable. El enfoque Bayesiano permite mantener a varios modelos como razonables. Por ejemplo, al predecir una futura observaci on Y f , tenemos:
J
E (Yf | y ) =
j =1
E (Yf | y, Mj )p(Mj | y ),
(6.43)
donde J en este ejemplo deber a ser por lo menos 5.
168
Ap endice A Distribuciones de probabilidades

En este apendice se presentan algunas de las densidades de probabilidad m as comunes en estad stica que son usadas en los ejemplos y ejercicios de este libro. Aqu se dar an unicamente el nombre de la densidad, la notaci on usada, el espacio muestral X , el rango de los par ametros de la densidad y algunas propiedades u tiles de la misma. Antes que nada, la notaci on utilizada ser a: det(B ) = determinante de la matriz B . (a) = funci on Gamma usual denida por (a) =
0
xa1 ex dx.
Note que (x +1) = x(x), en el caso de nmeros naturales (n) = n!
1A (x) = funci on indicatriz del conjunto A, denida como 1A (x) = 1 si x A 0 si x A
DISTRIBUCIONES CONTINUAS. 1. Normal univariada (N (, 2 )): X = R , < < , 2 > 0 con: 1 1 (x ) f (x | , 2 ) = exp , 2 2 2 169
170
APENDICE A. DISTRIBUCIONES DE PROBABILIDADES
donde es la media y 2 es la varianza. 2. Normal p-variada (Np (, S )): X = R p , = (1 , . . . , p )t R p , siendo S una matriz (p p) positiva denida y con: f (x | , S ) = 1 (2 )p/2 (det(S ))1/2 1 exp (x )t S 1 (x ) , 2
donde es el vector de medias y S es la matriz de varianzacovarianzas. 3. Uniforme (U (a, b): X = (a, b), < a < , a < b < , con: f (x | a, b) = la media es 1 (a + b) y varianza 2 1 1(a,b) (x), ba
1 (b 12
a)2 .
4. Gamma (G(a, b)): X = (0, ), a > 0, b > 0 y f (x | a, b) = 1 xa1 ex/b 1(0,) (x) (a) ba
la media es ab y la varianza ab2 . Casos especiales: (a) Exponencial (Exp(b)): corresponde a la densidad G(1, b). (b) Chi-cuadrado con n grados de libertad (2 (n)): corresponde a la densidad G(n/2, 2). 5. Beta (Beta(a, b)): X = [0, 1], a > 0, b > 0 con: f (x | a, b) = la media
a , a+b
(a + b) a1 x (1 x)b1 1[0,1] (x), (a)(b)

ab . (a+b)2 (a+b+1)
la varianza
171 6. Cauchy (Cauchy (a, b)): X = R , < a < , b > 0, con: f (x | a, b) = b , [b2 + (x a)2 ]
Esta distribuci on no tiene ni media ni varianza nita, m as a un no tiene ning un momento nito. 7. Distribuci on F con a y b grados de libertad (Fa,b ): X = (0, ), a > 0, b > 0 y f (x | a, b) = la media
b b2
[(a + b)/2]aa bb x(a2)/2 1(0,) (x), (a/2)(b/2) (b + ax)(a+b)/2

2b2 (a+b2) a(b4)(b2)2
si b > 2, la varianza
si b > 4.
8. Distribuci on t con a grados de libertad, par ametro de local2 2 izaci on y par ametro de escala , (T (a, , )): X = R , a > 0, < < , 2 > 0, con: [(a + b)/2] (x )2 f (x | a, , ) = 1+ a (a/2) a 2
2 1 (a+1) 2
la media es , si a > 0, la varianza es Nota :

(X )2 2
a2 (a2)
si a > 2.
Caso especial:
F (1, a).
(a) Cauchy (, 2) = t(1, , 2 ). 9. Distribuci on t p-variada con a grados de libertad, con vector de localizaci on y matriz de escala S (T (a, , S )): X = R p , a > 0, R p , S es una matriz (p p) positiva denida y [(a + p)/2] 1 f (x | a, , S ) = 1 + (x )t S 1 (x ) 1 / 2 p/ 2 (det(S )) (a ) (a/2) a
2
1 2 (a+p)
la media y la varianza
aS , a2
si a > 2.
172
10. Gamma Inversa (IG(a, b)): X = (0, ), a > 0, b > 0, con f (x | a, b) = la media
1 b(a1)
1 e1/xb 1(0,) (x), (a)ba xa+1

1 b2 (a1)2 (a2)
si a > 1, la varianza
si a > 2.
DISTRIBUCIONES DISCRETAS. 11. Binomial (B (n, p)): X = {0, 1, 2, . . . , n}, 0 p 1, n = 1, 2, . . ., y n f (x | n, p) = px (1 p)nx , x la media np y la varianza np(1 p). 12. Poisson (P ()): X = {0, 1, 2, . . . , }, > 0, f (x | ) = e media=varianza=. 13. Binomial Negativa (BN (a, p)): X = {0, 1, 2, . . . , }; 0 < p 1, a>0y (a + x) pa (1 p)x , f (x | a, p) = (x + 1)(a) la media
a(1p) p
x , x!
y la varianza
a(1p) . p2
Caso especial: (a) Geom etrica (Ge(p)) que corresponde a la BN (1, p).
k
14. Multinomial (M (n, p)): x = (x1 , . . . , xk )t , donde

i=1 k
xi = n, y
cada xi es un entero entre 0 y n, y el vector p = (p1 , . . . , pk )t es tal que

i=1
pi = 1, con 0 pi 1, para todo i, con: f (x | p) = n!

n i=1 n
xi ! i=1
i px i
173 la media de Xi es npi , la varianza de Xi es npi (1pi ) y Cov (Xi , Xj ) = npi pj .
174
Bibliograf a
[1] Berger, J.(1984) The robust Bayesian viewpoint (with discussion). Robustness in Bayesian Analysis, J. Kadane (ed.). North-Holland, Amsterdam. [2] Berger, J.(1985) Statistical Theory and Bayesian Analysis. (2da. Ed.) Springer Series in Statistics. Springer-Verlag. [3] Berger, J. y Berliner, L.M. (1984) Bayesian input in Stein esimation and a mew minimax empirical Bayes estimator. J. Econometrics 25, p.87-108. [4] Berger, J. y Wolpert, R. (1984) The likelihood Principle. Institute of Mathematical Statistics, Monograph Series, Hayward, California. [5] Berger, J. y Sellke, T. (1987) Testing a point null hypothesis: The irreconcilbility of P-values and evidence. J. American Statistical Association, 82, p.112-122. [6] Bernardo, J.M. (1980) A Bayesian Analysis of classical hypothesis testing. Proc. First Int. Meeting Bayesian Statist., J.M. Bernardo, M.H. DeGroot, D.V. Lindley y A.F.M. Smith (eds) 605-618, Univeristy Press, Valencia, Espa na. [7] Blackwell, D. y Girshick, M.A. (1954) Theory of Games and Statistical Decisons. Wiley, New York. [8] Box, G.E.P. y Cox, D.R. (1964) An analysis of Transformations (with discussion). J. Royal Statistical Society, Series B 26, p.211252. 175
176
BIBLIOGRAFA
[9] Box, G.E.P. y Tiao, G.C. (1973) Bayesian Inference in Statistical Analysis. Addison-Wesley, Reading, Massachusetts. [10] Brown, P. (1984) Notes in Decision Theory. Manuscrito d curso en el Imperial College, London. [11] Bronw, P. (1984) Fundamentals of Statistical Exponential Families, with Applications in Statistical Decision Theory. Institute of Mathematical Statistics. Lectures Notes-Monograph Series. [12] Cox, D.R. y Reid, N. (1987) Parameter orthogonaity and approximate conditional inference (with discussion). J.R. Statist. Soc. B. 49, p.1-49. [13] De Finetti, B. (1937). Foresight: Its logical laws, its subjetive sources. Traducido y reimpreso en Studies in Subjective Probabilities, H.E. Kyburg y H.E. Smokler (eds.). Wiley, New York, 1964. [14] De Finetti, B. (1961) The Bayesian Approach to the Rejection of Outliers. Proc. 4th Berkley Symp. of Math. Stat. and Prob. 1, p. 199-210. [15] De Finetti, B. (1974) Theory of Probability. Wiley, New York. [16] De Groot, M.H. (1970) Optimal Statistical Decisions. Mc GrawHill, New York. [17] De Robertis, L. y Hartigan, J.A. (1981) Bayesian Inference using Intervals of Measures. Ann. Statist. 9, p.235-244. [18] Diaconis, P. y Ylvisaker, D. (1979) Conjugate priors for Exponential Families. Annals of Statistics 7, p.269-281. [19] Ferguson, T.S. (1967) Mathematical Statistics: A Decision Theoretic Approach. Academic Press, New York. [20] Good, I.J. (1950) Probability and the Weighting of Evidence. Charles Grin, london.
BIBLIOGRAFA
177
[21] Good, I.J. (1962) Subjective probability as the measure of a non measurable set. Logic, Methodology and Philosophy of Science: Proc. of the 1960s International Congress, Stanford Univeristy Press. [22] Good, I.J. (1968) Corroboration, explanation, evolving probability, simplicity and sharpened razor. BJPS, 19, p.123-143. [23] Good, I.J. y Card, W.I. (1971) The diagnostic process with special reference to errors. Meth. Inf. Med., 10, p.176-188. [24] Harrison, P.J. y Stevens, C.F. (1976) Bayesian Forecasting (with discussion). J.R.Stat.Soc. B, p.205-245. [25] Heyde, C.C. y Johnstone, I.M. (1979) On asymptotic posterior normality for stochastic processes. J.R. Sta. Soc. B,41, p. 184-189. [26] Hinkley, D.V. (1979) Predictive likelihood. Ann. Statist., 7,p.718728. [27] Huber, P.J. (1973) The use of Choquet Caacities in Statistics. Bull. Internat. Stat. Inst. 45, Book 4, p. 181-188. [28] James, W. y Stein, C. (1961) Estimation with quadratic loss. Proc. Fourth Berkley Symp. Math. Statist. Prob. 1, p.311-319. [29] Jereys, H. (1961) Theory of Probability, (3rd. ed) Oxford University Press, London. [30] Laplace, P.S. (1812) Theory Analytique des Probabilities. Courcier, Par s. [31] Lauritzen, S.L. y Spiegelhalter, D.J. (1988) Local computations with probabilities on graphical structures and their applications to expert systems (with discussion). J.R.Stat. Soc. B. [32] LeCam, L. (1956) On the asymptotic theory of estimation and testing hypotheses. Proc. Third Berkley Symp. Math. Stat. Prob. 1, University of California Press, Berkley.
178
BIBLIOGRAFA
[33] Lehmann, E.L. (1959) Testing Statistical Hypotheses. Wiley, New York. [34] Lehmann, E.L. (1983) Theory of Point Estimation. Wiley, New York. [35] Lindley, D.V. y Phillips, L.D. (1976) Inference for a Bernoulli process (a Bayesian view). Amer. Statist.,30,p. 112-129. [36] Lindley, D.V. (1957) A statistical paradox. Boimetrika, 44,p. 187192. [37] Lindley, D.V. (1971) Making Decisions. Wiley-Interscience. [38] Lindley, D.V. y Smith A.F.M. (1972) Bayes Estimates for the Linear Model (with discussion). J.Royal Stat. Society. Series B, 34, p. 1-41. [39] Lindley, D.V. (1983) Lectures on Bayesian Statistics. Pub. IME, Universidade de S ao Paulo, Brasil. [40] Moreno, E. y Cano, J.A. (1991) Robust Bayesian Analysis with contaminations partially known. J.Royal. Stat. Soc., Series B, 53,1, p. 143-145. [41] Moreno, E. y Pericchi, L.R. (1990) Robust Bayesian Analysis for -contaminations with Shape and Quantile Constraints. Actas III Congreso Latinoamericano en Probabilidades y Estad stica Matem atica, p. 143-158. [42] Moreno, E. y Pericchi, L.R. (1992) A Hierarchical -contamination Model. J. Stat. Planning and Inference. (En prensa) [43] Naylor, J.C. y Smith, A.F.M. (1982) Applications of a method for the ecient computation of posterior distributions. Appl. Stat., 31,p. 214-225. [44] Pearl, J. (1988) Probabilistic Reasoning in Intelligent System: Networks of Plausible Inference. Morgan Kaufmann Publishers.
BIBLIOGRAFA
179
[45] Pereira, C.A.B. y Pericchi, L.R. (1990) Analysis of Diagnosability. Applied Stat., 39(2),p. 189-204. [46] P erez, M.E. y Pericchi, L.R. (1987) An alisis de Muestreo en dos etapas como un Modelo Bayesiano Jer arquico. Rep. T ecnico, Universidad Sim on Bol var, Caracas. [47] Pericchi, L.R. (1981) A Bayesian Approah to Transformations to Normality. Biometrika, 68,1,p. 35-43. [48] Pericchi, L.R. (1984) An alternative to the standard Bayesian procedure for discrimination between Normal Lineal Models. Biometrika,71,p. 575-586. [49] Pericchi, L.R. (1986) Notes in Decision Theory. Manuscrito de curso en el Imperial College, London. [50] Pericchi, L.R. (1989) Sobre la inferencia y teor a de decisi on subjetivista-Bayesiana bajo probabilidades a priori imprecisas. Acta Cient ca Venezolana, 40,p. 5-18. [51] Pericchi, L.R. y Nazareth, W.A. (1988) On being imprecise at the higher levels of a Hierarchical Linear Model (with discussion). Bayesian Statistics 3,p. 361-375. Bernardo, J.M, DeGroot M., Lindley, D. y Smith A.F.M., editores. Oxford University Press. [52] Pericchi, L.R. y Smith, A.F.M. (1990) Exact and Approximate posterior moments for a Normal Location Likelihood. J. Royal Stat. Soc. B,54(3),p. 793-804. [53] Pericchi, L.R. y Walley, P. (1990) One-sided hypotheses testing with near ignorance priors. Rev. Brasileira de Prob. e Estad stica, REBRAPE, 4,p. 69-82. [54] Pericchi, L.R. y Walley, P. (1991) Robust Bayesian credible intervals and prior ignorance. I.S. Review, 59(1),p. 1-23. [55] Pericchi, L.R. y Smith, A.F.M. (1989) Posterior Moments and cumulant relationships in the Exponential Family. Tech. Report, University of Nottingham, England.
180
BIBLIOGRAFA
[56] Ramsey, F.P. (1926) Truth and Probability. Reimpreso en Studies in Subjective Probability, H.E. Kyburg y H.E. Smokler (eds.). Wiley, New York, 1964. [57] Rubin, D.B. (1976) Inference and missing data. Biometrika, 63,p. 581-592. [58] Savage, L.J. (1954) The foundations of Statistics. Wiley, New York. [59] Sivaganesan, S. y Berger, J.O. (1989) Ranges of posterior Measures for priors with unimodal contaminations. Ann. Stat., 17,2,p. 868889. [60] Smith, A.F.M. y Spiegelhalter, D.J. (1980) Bayes factors and choice criteria for Linear Models. J.R. Stat. Soc. B,44,p. 213-220. [61] Stein, C. (1956) Inadmissibility of the usual estimator for the mean of a multivariate distributuion. Proc. Third Berkley Symp. Math. Stat. Prob., University of California Press, 1,p. 197-206. [62] Stone, M. (1971) Strong Inconsistency from Uniform Priors (with comments). J.Amer.Stat.Assoc. 71,p. 114-125. [63] Tierney, L. y Kadane, J.B. (1986) Accurate approximations for posterior moments and marginal densities. J.Amer.Stat.Assoc., 81,p. 82-86. [64] Wald, A. (1950) Statistical Decision Functions. Wiley, New York. [65] Walker, A.M. (1969) On the asymptotic behavior of posterior distributions. J.R.Stat.Soc. B,31,p. 80-88. [66] Walley, P. (1987) Notes in Decision Theory. Manuscrito de curso en la Universidad de Cornell, U.S.A. [67] Walley, P. (1991) Statistical reasoning with imprecise probabilities. Chapman and Hall. [68] West, M. y Harrison, J. (1989) Bayesian Forecasting and dynamic models. Springer Series in Statistics. Springer-Verlag.
Indice
Admisibilidad, 45 Algoritmos computacionales, 95 An alisis autom aticos, 118 Bayesiano, 83 no informativo del modelo lineal, 120 secuencial, 100, 102 Anova, 118, 127 Aproximaci on Bayesiana, 88 Apuestas, 67, 75 compuestas, 73 Arbol de decisi on, 6, 8, 28 Axiomas de racionalidad, 68, 72, 73 Bayes estimador de, 46 factor de, 87 l mite de, 52 regla de, 39 Teorema de, 5 teorema de, 80, 85 Bayes-Laplace postulado de, 118 Borel, conjunto de, 5 Borel,conjunto de, 103 Cambios de localizaci on, 119 Conocimiento 181 estructural, 125, 127, 129 param etrico, 125, 127 Cromwell,regla de, 47 Cuadratura Gaussiana, 95 Decisi n no-aleatorias, 14 Decisi on optima, 87, 98 optima Bayes, 86 optimas, 21 optimo Bayes, 101 Bayes condicional, 26 condicional, 78 inadmisible, 14 Minimax, 43 predictiva, 98 Densidad a posteriori, 6 a priori, 5 clase casi ignorante de, 108 condicional, 93 conjugada, 106 clases de, 107 conjunta, 30 marginal, 93 posterior, 122 posterior, 98, 99 predictiva, 5, 96 Dispersi on, 33
182 a priori, 124 inicial, 78 posterior, 124 Distribuci on a priori, 87 clases de, 91 acumulada, 13 Beta, 31, 96 Binomial, 31, 96 de Cauchy, 23 de Murphy, 36, 42 F de Fisher, 121 Gamma, 105 Normal, 30, 89, 117, 127 t-student, 94, 121 Uniforme, 108 Elementos de un problema de decisi on, 3 Error cuadr atico medio, 18 de tipo I, 83, 85 de tipo II, 83 Errores no correlacionados, 120 Espacio de acciones, 3 de estados, 3 de par ametros, 83 no acotado, 119 de par ametros can onicos, 103 muestral, 4 Esperanza a posteriori, 31, 104, 122 a priori, 104, 106 matem atica, 12 posterior, 101
INDICE
Estad stico suciente, 29, 93 Estimaci on puntual, 17 Estimador Bayes condicional, 32 de Bayes, 46 de encogimiento, 128 de m nimos cuadrados, 23, 120, 123, 127, 128 de m axima verosimilitud, 23, 99, 120 insesgado, 23 tonto, 21 Estimadores ridge regression, 129 F ormula de cambio de variable, 118 Factor de Bayes, 87, 91 Familia conjugada, 108 de experimentos, 3 de medidas a priori, 104 Exponencial, 48 exponencial, 103 exponencial conjugada, 107 Filtro, 124 Funci on de p erdida, 4 de p erdida, 66, 75 de riesgo, 83 de utilidad, 4, 66, 72 de verosimilitud, 17, 76 utilidad m etodos de construcci on de, 68 Hiperpar ametros, 93, 106, 125
INDICE
183 Minimax decisi on, 43 estrategia, 53 regla, 35, 41 teorema, 56 valor, 35, 55 Modas, 127 Modelo de clasicaci on, 127 de regresi on m ultiple, 129 lineal, 117, 121, 122 an alisis no informativo, 120 jer arquico, 122, 125 Normal, 117 Normal jer arquico, 124, 125 verosimilitud, 120 Muestra secuencial, 102 tama no optimo, 100, 102 Neyman, criterio de factorizaci on de, 29 Neyman-Pearson lema de, 83, 84 teor a de, 88 Normalidad asint otica, 98 Ordenamiento Bayesiano, 24 Minimax, 35 P erdida cuadr atica, 17, 98, 101 esperada, 76 esperada a posteriori, 92 esperada posterior, 79 posterior, 107 posterior esperada, 86
Inferencia predictiva, 95 Informaci on muestral a priori, 107 Intervalo de conanza, 120, 121 de credibilidad, 120, 121 Intervalos de conanza, 78, 92 de credibilidad, 92, 94 de probabilidad, 92 Invarianza propiedad de, 119 Jereys previas de, 120 regla de, 119, 120 Jensen, desigualdad de, 50 Laplace aproximaci on de, 95, 100 ley de sucesi on, 108 ley de sucesion, 97 M etodos aproximados, 95 Matriz de dise no, 117 de Fisher, 119 de informaci on de sher, 99 de varianza-covarianza, 100, 117, 127 Maximin, valor, 55 Mediana, 33 Medida a priori, 105, 122 de Lebesgue, 104 invariante, 119 Medidas de probabilidad, 103 no informativas, 118
184 Par ametro can onico, 105 de localizaci on, 119 Par ametros, 95 de localizaci on, 22 de molestia, 93, 95 vector de, 96 Paradoja de Lindley, 89 de San Petersburgo, 67 Peso de la evidencia, 87 Precisi on, 32 Previa, 5 de Jereys, 120 de referencia, 75 no informativa, 124, 127, 129 Normal-Gamma, 93 Previas no informativas, 118 uniforme, 118 Principio Bayesiano, 66, 75, 79 de la maximizaci on de la utilidad, 25 de la verosimilitud, 76, 77, 120 de minimizaci on de la p erdida esperada, 102 del riesgo posterior, 79 Probabilidad a posteriori, 88 asignaci on de, 4 condicional, 5 predictiva, 96 subjetiva, 73 Procedimientos optimo-Bayes, 24 insesgados, 22 invariantes, 22 Promedio poderado, 123 Promedio ponderado, 94
INDICE
Recompensas, 67, 68, 73, 75 Regla optima, 21 optima Bayes promedio, 27 optima Bayes-promedio, 24 admisible, 20 aleatoria degenerada, 19 aleatorias, 19 aleatorizada, 43 Bayes promedio, 45 Bayes promedio optima, 84 de Bayes, 39, 40 de Cromwell, 47, 100 de decisi on determinada, 13, 19 de Jereys, 119, 120 determinada, 27 igualadora, 37 inadmisible, 20 Minimax, 35, 41 regresion simple, 118 Restricci on del conjunto de deciones, 21 Riesgo Bayesiano, 24, 53, 100, 102 Bayesiano promedio, 84 conjunto de, 20, 40 cuadr atico, 78 frecuentista, 14 inicial, 78 posterior, 79
INDICE
185 de parar ametros, 103 de regresores, 118, 129 Ventaja a priori, 87 a priori y post, 87 posterior, 86, 87 Verosimilitud, 5, 80, 88, 96, 123 cociente de, 85, 87 estimador de m axima, 23 exponencial, 105 funci on de, 17 Normal, 93, 97 principio de la, 76, 120
promedio, 83 Sesgo, 18 Taylor f ormula de, 99 Teor a de imprecision, 74 de Juegos, 35, 52 de utilidad, 65, 72, 75 subjetiva, 65 Teorema de Bayes, 5, 80, 85 del hiperplano separante, 50 del l mite Central, 98 Minimax, 56 Test de diagn ostico, 127 de hip otesis, 17, 83, 87, 88 cl asico, 89 puntual, 88, 91 de signicancia de Fisher, 85 Transformaci on a normalidad, 121 de Box y Cox, 121 Utilidad del dinero, 70, 71 funci on de, 4, 72 Varianza a priori, 90 Vector can onico, 103 de errores, 117 de medias, 125 de observaciones, 119 de par ametros, 93, 117

Teoria de Decision e Inferencia Bayesiana

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Teoria de Decision e Inferencia Bayesiana

Cargado por

Copyright:

Formatos disponibles

An alisis de Decisi on, Inferencia y Predicci on Estad stica Bayesiana

Por Luis Ra ul Pericchi Guerra Complementos: Ana Judith Mata

An alisis de Decisi on, Inferencia y y Predicci on Estad stica Bayesiana

Luis Ra ul Pericchi Guerra

Complementos: Ana Judith Mata Universidad Sim on Bol var

147 . 147 . 152 . 157 . 159 . 163 169

Cap tulo 1 Elementos del Problema de Decisi on Estad stica

Elementos de un Problema de decisi on Estad stica

ESTADSTICA CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

ESTADSTICA 1.1. ELEMENTOS DE UN PROBLEMA DE DECISION

p(x | )d() , m(x)

ESTADSTICA CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

El Problema de Decisi on como un Juego entre el TD y la Naturaleza

COMO UN JUEGO ENTRE EL TD Y LA NATURALEZA13 1.2. EL PROBLEMA DE DECISION

ESTADSTICA CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

-5000+C 2000+C C -500+C -5000+C 2000+C C -500+C -5000 2000 0 -500

Figura 1.2. Arbol de decisi on Ejemplo 1.2

COMO UN JUEGO ENTRE EL TD Y LA NATURALEZA15 1.2. EL PROBLEMA DE DECISION

ESTADSTICA CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

Cap tulo 2 Teor a Cl asica de Decisi on

CAPTULO 2. TEORA CLASICA DE DECISION

Conceptos B asicos de la Teor a de Decisi on Cl asica

CLASICA 2.2. CONCEPTOS BASICOS DE LA TEORA DE DECISION

CAPTULO 2. TEORA CLASICA DE DECISION

CLASICA 2.2. CONCEPTOS BASICOS DE LA TEORA DE DECISION

Adem as las reglas en las cuales se ha decidido no realizar el experimento e0 : d5 = a1 y d6 = a2

CAPTULO 2. TEORA CLASICA DE DECISION

CLASICA 2.2. CONCEPTOS BASICOS DE LA TEORA DE DECISION

CAPTULO 2. TEORA CLASICA DE DECISION

2c EX | (d(x)) EX | d(x) EX | (d(x)) y como

CLASICA 2.2. CONCEPTOS BASICOS DE LA TEORA DE DECISION

CAPTULO 2. TEORA CLASICA DE DECISION

demostrar a en la secci on 2.3.

2.3. DECISIONES OPTIMAS

CAPTULO 2. TEORA CLASICA DE DECISION

2.3. DECISIONES OPTIMAS

CAPTULO 2. TEORA CLASICA DE DECISION

2.3. DECISIONES OPTIMAS

(, (x)) = E|X [L(, (x))] =

L(, (x))d( | x).

CAPTULO 2. TEORA CLASICA DE DECISION

2.3. DECISIONES OPTIMAS

CAPTULO 2. TEORA CLASICA DE DECISION

-5000+C 2000+C -500+C -5000+C 2000+C C -500+C -5000 2000 0 -500

Figura 2.2. Arbol de decisi on Ejemplo 2.1

2.3. DECISIONES OPTIMAS

CAPTULO 2. TEORA CLASICA DE DECISION

N (, ) con y 2 conocidas. Entonces la densidad conjunta de X y es: p(x, ) = ()p(x | ) = 2 n

y X es suciente. Supongamos que () es

n Denamos: = 12 + 2 , completando cuadrados en el argumento de la exponencial obtenemos:

y por tanto la densidad marginal (o predictiva) de X ser a, 2 p(x) = p(x, )d = (2 )( + ) n

o sea, p(x) = N , 2 + es:

. Finalmente la densidad posteriori de

p(x, ) ()p(x | ) = = p(x) p(x) 2

1 exp [ (x)]2 , 2 (2.9)

2.3. DECISIONES OPTIMAS

1 con probabilidad 0 con probabilidad (1-).

Xi el n umero de exitos en n intentos. Su verosimil-

n0 > 0, 0 < x0 < 1.

Entonces, llamando a X = emos: ( | x+ ) =

(2.13) usando la regla de Bayes obten-

()p(x+ | ) ()p(x+ | ) = n(x)1 (1 )n(1(x))1 p(x+ ) (2.14) donde n = n0 + n y n0 n (x) = x0 + x. (2.15) n n

CAPTULO 2. TEORA CLASICA DE DECISION

2. Si L(, d) = w()(d g ())2 , entonces: