Métodos Bayesianos para Seleccion de Modelos

MÉTODOS BAYESIANOS PARA SELECCIÓN DE MODELOS.
M.C. Norma Edith Alamilla López

Instituto de Física y Matemáticas
(953) 53 2 03 99 Ext. 500
edith@mixteco.utm.mx
Resumen
Entre los diferentes métodos bayesianos que se presentan en la literatura para el estudio de
comparación de modelos, destacan los procedimientos basados en los factores de Bayes. Sin
embargo, estos procedimientos, tienen la limitación de que si se trabaja con distribuciones a
prioris impropias, entonces los factores de Bayes no están bien definidos.
En este trabajo se discuten dos alternativas para dicho problema, en los cuales podremos
apreciar como existe discrepancia entre ellas.
En la primera alternativa se discute una generalización de un criterio propuesto por San
Martini y Spezaferri el cuál se basa en el uso de la distribución predictiva a posteriori. Y en
la segunda alternativa estudiaremos los así llamados Factores de Bayes intrínsecos, definidos
por Berger y Pericchi .
Además se presenta una introducción del Método propuesto por Elías Moreno, Francesco
Bertolino y Walter Racugno, el cual es un procedimiento Límite intrínseco para selección de
modelos. Caso particular de Berger y Pericchi.
Las propiedades de estos procedimientos se ilustran con una serie de ejemplos.
MÉTODO PREDICTIVO BAYESIANO.
Introducción
El problema de selección de modelos, puede plantearse de manera natural como un problema

de decisión estadístico. En la literatura se discuten diversos enfoques para resolver este
problema. En Bernardo y Smith (1994), se proponen dos de éstos enfoques: M-cerrado y
M-abierto.
En el enfoque M-cerrado, se considera que uno de los dos modelos a comparar es el

verdadero, sin el conocimiento explícito de cual de ellos lo es. Desde esta perspectiva tiene
sentido asignar probabilidades a los modelos.
En el enfoque M-abierto, no se considera que alguno de los modelos a comparar es el

verdadero. En este caso no tiene sentido asignarle probabilidades a los modelos.
Recientemente Gutiérrez-Peña y Walker (2001), propusieron un nuevo enfoque llamado

M-mezcla, del cual los enfoques M-abierto y M-cerrado son casos especiales, y que puede
ser pensado como una mezcla de los dos enfoques.
En la literatura se han propuesto diversos procedimientos para resolver el problema de

selección de modelos. Considerando el enfoque M-cerrado, tradicionalmente tales
procedimientos se basan en los llamados Factores de Bayes. De especial interés es el caso
donde se trabaja con distribuciones a prioris impropias, ya que en esta situación no están
bien definidos. Aitkin(1991), O'Hagan (1995), y Berger y Pericchi (1996), proponen
modificaciones a los factores de Bayes en un intento por resolver este problema. En cierta
medida este problema no ha alcanzado ningún conclusión satisfactoria
UN ENFOQUE PREDICTIVO
Los elementos del problema de decisión serán descritos con detalle a continuación:
ESPACIO DE DECISIONES
Sea M =  M 1 , M 2 ,..., M k  un conjunto de modelos paramétricos bajo comparación, donde

M i   f i   |  i  ,   i  . Donde f i es una densidad con parámetro  i y  i es una densidad a
priori especifica para  i ( no necesariamente propia).
El espacio de decisiones está dado por:
D=M
ESPACIO DE SUCESOS INCIERTOS
F=  F : F es una distribución de probabilidad definida sobre el espacio muestral
LA DISTRIBUCIÓN A PRIORI
Se considera PD  0 , F0  , que denota un proceso Dirichlet con parámetro de localización

F0 y parámetro escala  0 . El proceso Dirichlet genera una distribución de probabilidad
aleatoria F tal que E  F   F0 , y  0 describe la variabilidad alrededor de la media. De los
procesos Dirichlet se necesita el siguiente resultado:
Dada x   x1 , x 2 ,  , x n  una muestra de tamaño n de F, entonces
 F | x ~ PD n , Fn  ,
 0 F0  nGn
donde  n   0  n, Fn  y Gn es la distribución empírica de la muestra.
0  n
En esencia, el proceso Dirichlet centrado en F0 permite reflejar el supuesto implícito en el
enfoque M-cerrado.
Si  0   entonces la distribución a priori favorece más al enfoque M-cerrado, mientras que

el caso  0  0 se reduce al enfoque M-abierto.
En el enfoque M-cerrado se supone que wi  Pr( M i ) es el peso a priori para el modelo

indexado por i . Por facilidad de notación y cálculo se introduce la variable latente
   1 ,  2 ,  ,  k  donde  i  1 y  j  0, j  i si el i  ésimo modelo es el verdadero. La
distribución a priori para   ,   , donde    1 ,  2 ,  ,  k  , puede escribirse ahora como:
p  ,    p  |   p   
donde
k
p  |      i i ( i )
i 1
y p    es la distribución Bernoulli multivariada con pesos  w1 , w2 ,  , wk  . Se tiene

entonces que
 F |  ,  ~ PD 0 ,   i f i   |  i   ,
 k
 i 1 
corresponde a una mezcla de a prioris Procesos Dirichlet (Antoniak, 1974).
La a priori para F de San Martini y Spezaferri (1984) es completamente paramétrica y

corresponde al caso  0   .
LA DISTRIBUCIÓN A POSTERIORI ESTÁ DADA POR.
 F |  , , x ~ PD n , Fn 
y
p   ,  | x   p  |  , x  p   | x  ,
con
k
p   |  , x     i  i  i | x  ,
i 1
donde  i  i | x  es la distribución a posteriori de  i bajo el i -ésimo modelo, y p  | x  es la

distribución Bernoulli Multivariada con pesos dados por  w1 , w2 ,  , wk  , donde
* * *
wi*  Pr  M i | x   wi  f i  x |  i  i  i  d i .
LA FUNCIÓN DE UTILIDAD
Bernardo (1979) propone el uso de la función Score Logarítmica en problemas de decisión

estadística, basándose en el hecho de que esta regla es local y propia. Esto sugiere una
función de utilidad de la forma:
U  M i , F    log p i  y | x dF  y  ,
la cual tiene la siguiente interpretación: dada F, maximizar U  M i , F  con respecto a i es
equivalente a minimizar la divergencia de Kullback-Leibler
 Fˆ  y  
 
 KL pi  y | x  , Fˆ  y    log
p  y | x 
dF  y  ,

 i 
donde F̂  y  denota el estimador para la distribución F.
La utilidad esperada a posteriori esta dada por
U  M i   E F |x  log p  y | x  dF  y   ,
i
esto es,
U  M i   q n U c  M i   1  q n U o  M i  ,
0
donde q n  ,
0  n
k
U c  M i    log p i  y | x   w*j p j  y | x  dy
j 1
(la utilidad esperada a posteriori obtenida por San Martini y Spezaferri para el enfoque M-
cerrado), y
U o  M i    log pi  y | x  dG n  y  .
La solución del problema de decisión consiste entonces en elegir el modelo que maximice la
utilidad esperada a posteriori U  M i  .
Ejemplo 1.- Supóngase que se desean comparar los dos modelos paramétricos Binomial-
Negativa y Poisson definidos por:
M 1 : Nb xi | 1, 1  M 2 : Pn xi |  2  i  1,2,  , n
El factor de Bayes en este caso está dado por el simple cociente de verosimilitudes

n
i 1
Nb( x i | 1,  1 )  1n (1   1 ) nx
B12 ( x)  

n
i 1
Pn( x i |  2 )  2nx e  n 2  n
i 1

xi !
1
1
Supóngase por ilustración que  1  ,  2  2 (implicando el mismo valor de medias para los
3
e4
dos modelos). Entonces por ejemplo si n  2, x1  x 2  0 , se tiene que B12 ( x)   6.1 ,
9
indicando que los datos favorecen al Modelo 1, mientras con que n  2, x1  x 2  2 , si tiene
4e 4
que B12 ( x)   0.3 , indicando evidencia a favor del modelo 2.
729
Supóngase ahora que  1 y  2 , no son conocidas y se les asigna una distribución a priori.
p1 ( 1 )  Be( 1 |  1 ,  1 ), p 2 ( 2 )  Ga( 2 |  2 ,  2 ),
Entonces
( 1   1 ) 1 n 1 1 n x  1 1
p ( x1 , x 2 ,  , x n | M 1 )  
( 1 )(  1 ) 0
1 (1   1 ) d
( 1   1 )( n   1 )(n x   1 )

p ( x1 , x 2 ,  , x n | M 1 ) 
( 1 )(  1 )(n  n x   1   1 )
y
 2 2 
p ( x1 , x 2 ,  , x n | M 2 ) 
 2  i 1
n
x!
 0
 2n x  2 1e ( n   2 ) 2 d
i
(n x   2 )  2 2 1
p ( x1 , x 2 ,  , x n | M 2 ) 
 2  n   2  
n x  2 n
i 1 i
x!
Nótese que
(1   1 )
E  xi | M 1    E  xi | M 1 , 1  Be i |  1 ,  1 d 1  
1 1
Be( i |  1 ,  1 )d 1
0 0 1
( 1   1 ) ( 1  1)(  1  1) 1

E  xi | M 1   
( 1 )(  1 ) ( 1   1 ) 1  1

E  xi | M 2    E  xi | M 2 , 2  Ga( 2 |  2 ,  2 )d 2
0
 2
E  xi | M 2     2 Ga( 2 |  2 ,  2 )d 2 
0 2
Así, las especificaciones a priori con ( 1  1) 2   1  2 , implican la misma media para los
dos modelos predictivos.
En un estudio realizado por Bernardo y Smith (descrito en la tabla siguiente ) notamos que
las distribuciones a prioris especifican la misma media predictiva para los dos modelos, pero
la distribución a priori en la segunda columna es más informativa.
B12 ( x )  1  2,  1  2  1  31,  1  60  1  2,  1  2
 2  2,  2  1  2  60,  2  30  2  4,  2  2
x1  x 2  0 2.7 5.7 4.8
x1  x 2  2 0.29 0.30 0.23
Utilizando el procedimiento predictivo propuesto en este trabajo, y considerando los mismos

modelos especificados anteriormente, se tiene lo siguiente.
x1  x 2  0  1  2,  1  2  1  31,  1  60  1  2,  1  2
 2  2,  2  1  2  60,  2  30  2  4,  2  2
U o (M 1 ) -0.405465 -1.036092 -0.405465
U o (M 2 ) -0.575364 -1.846300 -0.892574
U c (M 1 ) -1.065129 -1.862616 -1.201073
U c (M 2 ) -1.275666 -2.127139 -1.387933
x1  x 2  2  1  2,  1  2  1  31,  1  60  1  2,  1  2
 2  2,  2  1  2  60,  2  30  2  4,  2  2
U o (M 1 ) -2.061423 -1.925020 -2.061423
U o (M 2 ) -1.454159 -1.322278 -1.420505
U c (M 1 ) -2.032183 -1.918213 -1.979118
U c (M 2 ) -1.460365 -1.892560 -1.909341
Por lo que podemos apreciar, tanto para el enfoque M-abierto como para el enfoque M-
cerrado, en el primer caso se prefiere el Modelo 1 que al Modelo 2, mientras que en el
segundo caso se prefiere al Modelo 2 que al Modelo 1.
El enfoque M-mezcla sólo puede aplicarse en el caso donde  1  31,  1  60, 2  60,  2  30
, los resultados se presenta a continuación.
x1  x 2  0 x1  x 2  2
U ( M 1 )  1.636306 U ( M 1 )  1.920077
U ( M 2 )  1.828400 U ( M 2 )  1.736412
Ejemplo 2.- Esta basado sobre el conjunto de datos reales presentado por Proschan (1963).
Tres modelos alternativos son considerados: El exponencial, los dos parámetros log-normal y
dos parámetro Weibull.
Dado que no puede aplicarse ni el criterio M-cerrado, ni el criterio M –mezcla (por la
suposición de las distribuciones a prioris), nada más se aplicó el criterio M -abierto.
En el criterio M -abierto se selecciona M1 en preferencia a M2 si
1 n  p ( x | x) 
Co   log  1 l 0
n l 1  p 2 ( xl | x) 
lo que nos lleva a seleccionar M1 en preferencia de M2 si:

1
 p ( x | x) 
n n
 ij    1 l  1
l 1  p 2 ( x l | x ) 
Por lo tanto

M 1  f1 ( x |  )   1 exp( x /  ),  1 ( )  1 /  ) , 

M 2   f 2 ( x |  , ) 

exp  (log x   ) 2 /( 2 2 )  
,  2 ( , )  1 /  
 2 x 
   
M 3  f 3 ( x |  ,  )  x (  1)   exp  ( x /  )  ,  3 (  ,  )  1 /(  )
La distribución predictiva a posteriori para el modelo 1 esta dado por
n ( nx ) n
p1 ( y | x) 
( y  nx ) n 1
También tenemos que p 2 ( y | x) es una distribución log-t con parámetros (t , T 2 , n  1) ,

donde t  n  es la varianza muestral de  log xi  . Finalmente, como
1
log xi y
i
T2
p 3 ( y | x) no tiene una forma cerrada entonces en tal caso la predictiva sobre un punto
particular y puede ser evaluado usando el método de Monte Carlo.
De este cálculo tenemos que   1.52,   0.0.65,   0.99 lo que nos lleva a
12 23 13
concluir que los modelos exponencial y Weibull se prefieren en comparación de la log-

normal .
FACTORES DE BAYES INTRÍNSECOS.

Cuando las a prioris impropias aparecen, los factores de Bayes no están bien definidos. Los
factores de Bayes intrínsecos introducidos por Berger y Pericchi (1993, 1996) es un
método interesante para resolver esta dificultad. Que es la segunda alternativa en el presente
trabajo.
Para el cálculo del factor de Bayes a menudo se usa como a priori una no informativa
 iN ( i ) .
 A priori “uniforme”  iU ( i )  1
 A priori de Jeffreys  iJ ( i )  (det( i ( i ))) 2 , donde  i ( i ) es la matriz de
1
Información de Fisher esperada correspondiente al modelo M i y

 A priori referencia  iR ( i ) ,
Bernardo(1979) y Berger y Bernardo(1992).
Usando cualquiera de las  iN ( i ) el factor de Bayes que se produce es.
B Nji 
m Nj ( x )

 f (x | 
j j ) Nj ( j )d j
miN ( x )  f (x | 
i i ) iN ( i )d i
La dificultad con esta expresión es que  iN ( i ) son típicamente impropias, y por lo tanto
N
definidas solamente salvo una constante ci . Por lo tanto B ji esta definido solamente salvo
una constante c j / ci lo cual es en si mismo arbitrario.
Una solución común a este problema es usar parte de los datos como una muestra de
entrenamiento. Sea x (l ) que denota la parte de estos datos para ser usados. La idea es que
x (l ) sería usada para convertir  iN ( i ) en distribuciones a posteriori propia
 iN ( i | x(l ))  f i ( x(l ) |  i ) iN ( i ) / miN ( x(l )) , donde, abusando un poco de la notación
f i ( x (l ) |  i ) es la densidad marginal de X (l ) bajo M i y miN ( x (l ))  f i ( x |  i ) iN ( i )d i .
De aquí la idea es calcular el factor de Bayes con el resto de los datos, usando  ( i | x (l )) N
i
como a priori.
Lemma.- El factor de Bayes del modelo j sobre el modelo i, condicional sobre x (l ) y

asumiendo que  iN ( i | x (l )) son propias, esta dado por:
B ji ( x(l ))  B N
ji  Bij ( x (l ))
N
donde BijN ( x(l ))  miN ( x (l )) / m N

j ( x (l ))
Definición.- Una muestra de entrenamiento, x (l ) , sería llamada propia si 0  miN ( x(l ))  

para todo M i y minimal si es propia y ningún subconjunto es propio.
Factores de Bayes Intrínseco
Para un conjunto de datos dados x , típicamente habrá muchas muestras de entrenamiento tal
como fue definido anteriormente.
Sea.
XT=  x (1), x ( 2),..., x ( L)
denota el conjunto de todas las muestras de entrenamiento minimales, x (l ) . Claramente el
factor de Bayes B21 ( x (l )) antes definido, dependerá de la elección de la muestra de
entrenamiento minimal. Para eliminar esta dependencia y aumentar la estabilidad, una idea
natural es promediar los B21 ( x (l )) sobre todas las x (l )  XT. Este promedio puede ser
cualquiera aritmético o geométrico, lo que nos lleva a el factor de Bayes intrínseco
aritmético(AIBF) y factor de Bayes intrínseco Geométrico (GIBF) definidos respectivamente
por:
1 L 1 L
AI
B21  
L l 1
B21 ( x(l ))  B21
N
  B12N ( x(l ))
L l 1
*
1 1
 L  L
 L  L
B GI
21    B21 ( x(l ))  B N
21    B12N ( x(l ))  **
 l 1   l 1 
GI
Note que B21  B21AI , puesto que la media geométrica es menor o igual a la media aritmética.
GI AI
Así B21 favorecerá el modelo anidado mas simple a una magnitud mayor que lo hará B21 .
Nota 1: Se define B12AI , para ser 1 B21AI

, y no por * con los índices invertidos. La asimetría
GI
surge porque M 1 se anida dentro de M 2 . Para B21 , no existe problema; invirtiendo los
GI
índices en ** claramente resulta 1 B21 .
Nota 2: Si el tamaño de muestra es muy pequeño, habrá problemas claramente por usar parte
de los datos como una muestra de entrenamiento.
Ejemplo 3.- Proschan(1963). Considera datos de fallos que surgen de aires acondicionados
sobre varios aeroplanos diferentes. Para cada aeroplano individual, el sugiere que un modelo
exponencial ajusta bien los datos. Para ilustrar esto, considere los siguientes 30 tiempos de
fallos de una aeroplano particular: 23, 261, 87, 7, 120, 14, 62, 47, 225, 71, 246, 21, 42, 20, 5,
12, 120, 11, 3, 14, 71, 11, 14, 11, 16, 90, 1, 16, 52, 95. Tres modelos se toman en
consideración para los tiempos de fallos, X i :
 
M 1  f1 ( x |  )   1 exp( x /  ), , (Exponencial (  1 ))

M 2   f 2 ( x | , ) 

exp  (log x   ) 2 /( 2 2 )  
 (lognormal(  ,  ) )
 2 x 
  
M 3  f 3 ( x |  ,  )  x (  1)   exp  ( x /  )  (Weibull(  ,  ) )
Para M 1 y M 2 , las a priori consideradas fueron:  1N ( 1 )  1 /  1 y  2N (  ,  )  1 /  . Para

M 3 , se tomaron la de Jeffreys y la de referencia,  3J ( ,  )  1 /  , y  3R ( ,  )  1 / 
respectivamente. El cálculo produce, para x  ( x1 , x 2,  , x n ) ,
((n  1) / 2)
(n) m2N ( x) 
m ( x) 
N
 n

1
 x  i
n ,
  xi  ( n 1) / 2 2 n S y( n 1)
 i 1 
n
donde S y   ( y i  y ) , y i  log xi . En este caso las muestras de entrenamiento minimales
2 2
i 1
son de la forma x(l )  ( xi , x j ), xi  x j así que:
1 1
m1N ( x(l ))  , m2N ( x) 
( xi  x j ) 2 2 xi x j log( xi / x j )
Para la a priori de referencia y M3 , m3N ( x(l ))  m2N ( x(l )) . El cálculo para m3N ( x), y de
M3 y la a priori de Jeffreys, requieren de integración numérica .
La tabla que muestra los resultados se muestra a continuación:
AI GI AI GI AI GI AI GI
B21 B21 B31 B31 B32 B32 B23 B23
Jeffreys 0.37 0.33 0.25 0.15 0.66 0.46 3.93 2.15
Referencia 0.37 0.33 0.26 0.23 0.70 0.70 1.42 1.42
Notamos que el modelo lognormal es preferido sobre el modelo Weibull. Mientras que el
modelo exponencial es preferido sobre el modelo lognormal, y sobre el modelo Weibull.
Esto es en contraste con el método predictivo Bayesiano de Eduardo Gutiérrez-Peña y

Walker S.G., ya que en su análisis se prefiere al modelo Weibull sobre el modelo
exponencial, y también se prefiere al modelo Weibull sobre el modelo Log-normal.
A continuación se muestra una introducción del Método propuesto por Elías Moreno,
Francesco Bertolino y Walter Racugno, el cual es un procedimiento Límite Intrínseco para
selección de modelos.
La meta de este trabajo es desarrollar un procedimiento límite que proporcione una

justificación sólida del uso de los factores de Bayes con a prioris intrínsecas. Este
procedimiento, basado sobre la metodología intrínseca, produce un único Factor de Bayes
para modelos Anidados.
PROCEDIMIENTO LÍMITE INTRÍNSECO
Asumimos que  f 1 ( x |  1 ),  1  1  y  f 2 ( x |  2 ),  2   2  , son modelos anidados y las a

prioris  1N (1 ) y  2N ( 2 ) son impropias. Anidado se entiende en su sentido más amplio,
esto es:
 1   2
 f 2 ( x |  2 )  f1 ( x |  1 ), si  2   1
Tomando la ecuación 2 se tiene que:

 2 ( 2 )  T ( 2 ) 1 ( 1 ( 2 )) ***
donde
 2N ( 2 )
T ( 2 )  EM2 2 B12N ( x(l )) está claro que  2 está determinada por  1 y que la
 1 ( 1 ( 2 ))
N
ecuación no impone restricción sobre  1 (1 ) .

La idea se basa en el hecho que para una a priori  1 ( 1 ) tal que   1 ( 1 )d 1  1 , dado la
ecuación ***, bajo condiciones moderadas, una única densidad de probabilidad para  2 . La
pregunta es como tomar tal distribución a priori para  1 . El camino más simple de ver esta
a priori es normalizar la restricción de  1N ( 1 ) a un conjunto C m donde  1N ( 1 ) integre a
una cantidad finita. Entonces encontramos la correspondiente densidad de probabilidad para
 2 y para esta a priori calculamos el factor de Bayes. Finalmente, hacemos que el
subconjunto C m tienda a espacio total 1 .
Este procedimiento tiene sentido si el límite no depende sobre el camino que toma C m
cuando tiende a 1 . Este procedimiento se formaliza en tres etapas.
Etapa I
Consideramos las restricciones de  1N ( 1 ) sobre una sucesión creciente de subconjuntos

 C m  m1  1 esto es,
 N ( )
 1m (1 )  1 1 1C m (1 ), m  1,
km
donde  Cm  m 1 es tal que
0  km  Cm
 1N (1 )d1  , m 1
Etapa II
Encontrar la a priori intrínseca  2m ( 2 ) usando los modelos


M 1m : f1 ( x | 1 ), 1m (1 )  y  
M 2 : f 2 ( x |  2 ),  2N ( 2 )
Etapa III
Calcular el factor de Bayes
lim
B21 ( x)  m
B21 ( x)
m
m2m ( x)
donde B21 ( x) 
m
m1m ( x)
Este procedimiento es justificado por los siguientes argumentos:
 Bajo condiciones generales es completamente automático y da un único límite B21 ( x ) .

 Cuando el tamaño de muestra crece B21 ( x ) tiende al mismo límite que los AIBF bajo
los dos modelos. Sin embargo, pude argumentarse que B21 ( x ) puede no ser un actual
Factor de Bayes pero sí el limite de una sucesión de un actual Factores de Bayes
 m
B21 ( x1 ,...x n ), m   . 
 Es fácil de implementar. En efecto el límite resultante de Factores de Bayes esta
f
2
2 ( x |  2 ) 2N ( 2 )d 2 EM2 2 B12N ( x (l ))d 2
dado como B21 ( x)   B21 ( x ) E 2 | x EM2 2 B12N ( x (l )) ,
N
 f (x | 
1
1 1 ) 1N ( 1 ) d 1
donde E 2 | x indica la esperanza con respecto a la densidad a posteriori

f 2 ( x |  2 ) 2N ( 2 )
 2 ( 2 | x)  .
m2N ( x)
 El principio de suficiencia se satisface puesto que B21 ( x )  B21 (t ( x)), donde t ( x) es
una estadística suficiente para el modelo complejo.
m
 La sucesión de a prioris intrínsecas para obtener B21 ( x ) está dado por
 ( )
N
 1m ( 1 )  1 1 1C ( 1 ), y  2m ( 2 )   2N ( 2 ) EM2 2 B12m, N ( x(l )).
km m
Ejemplo 4.- Datos reales de Proschan (1963).Consideren los datos de Proschan(1963) los
cuales surgieron de tiempos de fallos en aire acondicionado de aeroplanos.
Los datos consisten de los siguientes tiempos de fallos asumidos iid 23,
261,87,7,120,14,62,47,225,71,246,21,42,20,5,12,120,11,3,14,71,11,14,11,16,90,1,16,52 y
95. Él sugiere que un modelo exponencial se ajusta bien a los datos.
Nosotros permitimos calcular el factor de Bayes para a prioris intrínsecas para dos modelos
anidados, el exponencial (  1 ) y Weibull(  ,  ) . Esto es, consideramos
1 c
M 1 : f1 ( x |  1 )  exp  x /  1  ,  1N ( 1 )  1
1 1

M 2 : f 2 ( x |  ,  )   x (  1)   exp  ( x /  )  ,  2N ( ,  )   c2

donde f 1 ( x |  1 ) esta anidado en f 2 ( x |  ,  ) y las a prioris son las a prioris referencia. Las
constantes no especificadas son positivas.
Una muestra de entrenamiento minimal es un par de observaciones. Después de hacer algo

de álgebra se ve que el límite de los factores de Bayes para a prioris intrínsecas es
n
 n   n
 ( n 1)
B21 ( x)  2  xi   ( x
(  1)
i n
I (  ) d
 i 1  0
i 1
( x )  n
i
i 1
donde
 cos( )
 cos( ) sen ( )   log sen
I ( )   d
2 ( )
0  cos( )  sen ( )  2  cos 

( )  sen  ( )  2
usando integración numérica, se obtiene que B21  0.29 . El valor del AIBF es 0.26 ( ver
Berger y Pericchi (1996)).
La conclusión es que los AIBF y los factores de Bayes para a priori intrínsecas llevan a los
mismos resultados: los datos están a favor del modelo exponencial sobre el modelo Weibull.
Este procedimiento esta basado sobre el comportamiento asintótico de AIBF lo cual da

inferencias a posteriori consistente para modelos anidados.
Las principales propiedades de este procedimiento son:
1.- El método no necesita muestras de entrenamiento así que el problema de la inestabilidad

para muestras pequeñas no es cosa de preocupación.
2.- Es coherente. Esto es la igualdad B 21 ( x) = 1 / B ( x) se satisface
21
3.- Satisface el principio de suficiencia.

4.- Corresponde a el límite del actual factor de Bayes.
Para aplicación de modelos no-anidados, el procedimiento necesita tomar precaución. De

momento parece que la aplicación tiene que hacerse caso-por-caso. El problema principal es
que el método puede no ser coherente. Por lo tanto, un problema abierto es caracterizar las
clases de modelos para los cuales la coherencia puede ser afirmada.
BIBLIOGRAFIA
Aitkin, M (1991) Posterior Bayes factors (with discussion) J.R. Statist. Soc. B 53, 111-142
Antoniak, C.E. (1974). Mixture of Dirichlet processes with applications to Bayesian non-
parametric problems. Ann. Statis. 2, 1152-1174.
Berger, J.O. (1985) Statistical Decision Theory and Bayesian analysis 2 nd. Ed. Springer-
Verlag: New-York.
Berger, J.O. and Pericchi, L.R. (1996) The intrisic Bayes Factor for model selection and
prediction. J.Am. Statist. Assoc. 91, 109-122.
Bernardo, J.M. 1979. Expected information as expected utility. Ann. Statist. 7, 686-690.
Bernardo, J.M. and Smith, A.F.M. (1994) Bayesian Theory. Chichester: Wiley
Degroot, Morris H. (1970) Optimal Statistics, principles, models and applications. John
Wiley & Sons, Inc. USA.
Degroot, Morris H. (1988) Probabilidad y Estadística: Addison-Wesley Iberoamericana.
Gutiérrez-Peña, E. and Walker, S.G. (1997) A Bayesian Predictive Approach to Model

Selection. Technical Report, TR9614. Department of Mathematics, Imperial College
London.
Gutiérrez-Peña, E. and Walker, S.G. (2001) A Bayesian Predictive Approach to Model
Selection. Journal of Statist. Planning and inference 93, 259-276.
Gutiérrez-Peña, E. and Walker, S.G. (1998) Robustifying Bayesian Procedures. Bayesian

Statistics 6, J.M. Bernardo, J.O. Berger, A.P. Dawid and F.M. Smith (Eds.) Oxford
University Press (En prensa).
Moreno, Elías, Bertolino Francesco and Racugno Walter (1998). An intrinsic Limiting
Procedure for Model Selection and Hypotheses Testing. Journal Amer. Statist. Assoc. Vol.
93, No. 444, Theory and Methods.
O´Hagan, a. (1995) Fractional Bayes Factors for Model Comparison (with discussion) J.R.
Statist. Soc. B 57, 99-138.
O´Hagan, A. (1994) Kendall´s Advaced Theory of Statistics, Volume 2B Bayesian

Inference. Kendall's Library of Statistics.
Press, S.J. (1989) Bayesian Statistics: principles, models, and applications, Jhon Wiley &
Sons, Inc. USA.
Robert, Ch. P. (1994) The Bayesian Choice A Decision-Theoretic Motivation. Springer-

Verlag. New York, Inc.
San Martini, A., Spezzaferri F., (1984). A predictive model selection criterion. J. Roy.
Statist. Soc. B 46, 296-303.

Métodos Bayesianos para Seleccion de Modelos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Métodos Bayesianos para Seleccion de Modelos

Cargado por

Copyright:

Formatos disponibles

MÉTODOS BAYESIANOS PARA SELECCIÓN DE MODELOS.

M.C. Norma Edith Alamilla López

MÉTODO PREDICTIVO BAYESIANO.

El problema de selección de modelos, puede plantearse de manera natural como un problema

En el enfoque M-cerrado, se considera que uno de los dos modelos a comparar es el

En el enfoque M-abierto, no se considera que alguno de los modelos a comparar es el

Recientemente Gutiérrez-Peña y Walker (2001), propusieron un nuevo enfoque llamado

En la literatura se han propuesto diversos procedimientos para resolver el problema de

Sea M =  M 1 , M 2 ,..., M k  un conjunto de modelos paramétricos bajo comparación, donde

El espacio de decisiones está dado por:

ESPACIO DE SUCESOS INCIERTOS

F=  F : F es una distribución de probabilidad definida sobre el espacio muestral

Se considera PD  0 , F0  , que denota un proceso Dirichlet con parámetro de localización

Dada x   x1 , x 2 ,  , x n  una muestra de tamaño n de F, entonces

Si  0   entonces la distribución a priori favorece más al enfoque M-cerrado, mientras que

En el enfoque M-cerrado se supone que wi  Pr( M i ) es el peso a priori para el modelo

y p    es la distribución Bernoulli multivariada con pesos  w1 , w2 ,  , wk  . Se tiene

corresponde a una mezcla de a prioris Procesos Dirichlet (Antoniak, 1974).

La a priori para F de San Martini y Spezaferri (1984) es completamente paramétrica y

LA DISTRIBUCIÓN A POSTERIORI ESTÁ DADA POR.

donde  i  i | x  es la distribución a posteriori de  i bajo el i -ésimo modelo, y p  | x  es la

Bernardo (1979) propone el uso de la función Score Logarítmica en problemas de decisión

donde F̂  y  denota el estimador para la distribución F.

La utilidad esperada a posteriori esta dada por

M 1 : Nb xi | 1, 1  M 2 : Pn xi |  2  i  1,2,  , n

( 1   1 )( n   1 )(n x   1 )

( 1   1 ) ( 1  1)(  1  1) 1

Utilizando el procedimiento predictivo propuesto en este trabajo, y considerando los mismos

lo que nos lleva a seleccionar M1 en preferencia de M2 si:

La distribución predictiva a posteriori para el modelo 1 esta dado por

También tenemos que p 2 ( y | x) es una distribución log-t con parámetros (t , T 2 , n  1) ,

concluir que los modelos exponencial y Weibull se prefieren en comparación de la log-

FACTORES DE BAYES INTRÍNSECOS.

Información de Fisher esperada correspondiente al modelo M i y

Usando cualquiera de las  iN ( i ) el factor de Bayes que se produce es.

Lemma.- El factor de Bayes del modelo j sobre el modelo i, condicional sobre x (l ) y

donde BijN ( x(l ))  miN ( x (l )) / m N

Definición.- Una muestra de entrenamiento, x (l ) , sería llamada propia si 0  miN ( x(l ))  

Factores de Bayes Intrínseco

Nota 1: Se define B12AI , para ser 1 B21AI

Para M 1 y M 2 , las a priori consideradas fueron:  1N ( 1 )  1 /  1 y  2N (  ,  )  1 /  . Para

son de la forma x(l )  ( xi , x j ), xi  x j así que:

Esto es en contraste con el método predictivo Bayesiano de Eduardo Gutiérrez-Peña y

La meta de este trabajo es desarrollar un procedimiento límite que proporcione una

PROCEDIMIENTO LÍMITE INTRÍNSECO

Asumimos que  f 1 ( x |  1 ),  1  1  y  f 2 ( x |  2 ),  2   2  , son modelos anidados y las a

Tomando la ecuación 2 se tiene que:

ecuación no impone restricción sobre  1 (1 ) .

Consideramos las restricciones de  1N ( 1 ) sobre una sucesión creciente de subconjuntos

Encontrar la a priori intrínseca  2m ( 2 ) usando los modelos

Calcular el factor de Bayes

 Bajo condiciones generales es completamente automático y da un único límite B21 ( x ) .

donde E 2 | x indica la esperanza con respecto a la densidad a posteriori

Una muestra de entrenamiento minimal es un par de observaciones. Después de hacer algo

0  cos( )  sen ( )  2  cos 

Este procedimiento esta basado sobre el comportamiento asintótico de AIBF lo cual da

Las principales propiedades de este procedimiento son:

1.- El método no necesita muestras de entrenamiento así que el problema de la inestabilidad

3.- Satisface el principio de suficiencia.

Para aplicación de modelos no-anidados, el procedimiento necesita tomar precaución. De

Degroot, Morris H. (1988) Probabilidad y Estadística: Addison-Wesley Iberoamericana.

Gutiérrez-Peña, E. and Walker, S.G. (1997) A Bayesian Predictive Approach to Model

Gutiérrez-Peña, E. and Walker, S.G. (1998) Robustifying Bayesian Procedures. Bayesian