Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen
Entre los diferentes métodos bayesianos que se presentan en la literatura para el estudio de
comparación de modelos, destacan los procedimientos basados en los factores de Bayes. Sin
embargo, estos procedimientos, tienen la limitación de que si se trabaja con distribuciones a
prioris impropias, entonces los factores de Bayes no están bien definidos.
En este trabajo se discuten dos alternativas para dicho problema, en los cuales podremos
apreciar como existe discrepancia entre ellas.
En la primera alternativa se discute una generalización de un criterio propuesto por San
Martini y Spezaferri el cuál se basa en el uso de la distribución predictiva a posteriori. Y en
la segunda alternativa estudiaremos los así llamados Factores de Bayes intrínsecos, definidos
por Berger y Pericchi .
Además se presenta una introducción del Método propuesto por Elías Moreno, Francesco
Bertolino y Walter Racugno, el cual es un procedimiento Límite intrínseco para selección de
modelos. Caso particular de Berger y Pericchi.
Las propiedades de estos procedimientos se ilustran con una serie de ejemplos.
Introducción
Los elementos del problema de decisión serán descritos con detalle a continuación:
ESPACIO DE DECISIONES
D=M
LA DISTRIBUCIÓN A PRIORI
F | x ~ PD n , Fn ,
0 F0 nGn
donde n 0 n, Fn y Gn es la distribución empírica de la muestra.
0 n
En esencia, el proceso Dirichlet centrado en F0 permite reflejar el supuesto implícito en el
enfoque M-cerrado.
p , p | p
donde
k
p | i i ( i )
i 1
F | , ~ PD 0 , i f i | i ,
k
i 1
F | , , x ~ PD n , Fn
y
p , | x p | , x p | x ,
con
k
p | , x i i i | x ,
i 1
wi* Pr M i | x wi f i x | i i i d i .
LA FUNCIÓN DE UTILIDAD
U M i , F log p i y | x dF y ,
la cual tiene la siguiente interpretación: dada F, maximizar U M i , F con respecto a i es
equivalente a minimizar la divergencia de Kullback-Leibler
Fˆ y
KL pi y | x , Fˆ y log
p y | x
dF y ,
i
U M i E F |x log p y | x dF y ,
i
esto es,
U M i q n U c M i 1 q n U o M i ,
0
donde q n ,
0 n
k
U c M i log p i y | x w*j p j y | x dy
j 1
(la utilidad esperada a posteriori obtenida por San Martini y Spezaferri para el enfoque M-
cerrado), y
U o M i log pi y | x dG n y .
La solución del problema de decisión consiste entonces en elegir el modelo que maximice la
utilidad esperada a posteriori U M i .
Ejemplo 1.- Supóngase que se desean comparar los dos modelos paramétricos Binomial-
Negativa y Poisson definidos por:
El factor de Bayes en este caso está dado por el simple cociente de verosimilitudes
n
i 1
Nb( x i | 1, 1 ) 1n (1 1 ) nx
B12 ( x)
n
i 1
Pn( x i | 2 ) 2nx e n 2 n
i 1
xi !
1
1
Supóngase por ilustración que 1 , 2 2 (implicando el mismo valor de medias para los
3
e4
dos modelos). Entonces por ejemplo si n 2, x1 x 2 0 , se tiene que B12 ( x) 6.1 ,
9
indicando que los datos favorecen al Modelo 1, mientras con que n 2, x1 x 2 2 , si tiene
4e 4
que B12 ( x) 0.3 , indicando evidencia a favor del modelo 2.
729
Supóngase ahora que 1 y 2 , no son conocidas y se les asigna una distribución a priori.
p1 ( 1 ) Be( 1 | 1 , 1 ), p 2 ( 2 ) Ga( 2 | 2 , 2 ),
Entonces
( 1 1 ) 1 n 1 1 n x 1 1
p ( x1 , x 2 , , x n | M 1 )
( 1 )( 1 ) 0
1 (1 1 ) d
E xi | M 2 E xi | M 2 , 2 Ga( 2 | 2 , 2 )d 2
0
2
E xi | M 2 2 Ga( 2 | 2 , 2 )d 2
0 2
Así, las especificaciones a priori con ( 1 1) 2 1 2 , implican la misma media para los
dos modelos predictivos.
En un estudio realizado por Bernardo y Smith (descrito en la tabla siguiente ) notamos que
las distribuciones a prioris especifican la misma media predictiva para los dos modelos, pero
la distribución a priori en la segunda columna es más informativa.
B12 ( x ) 1 2, 1 2 1 31, 1 60 1 2, 1 2
2 2, 2 1 2 60, 2 30 2 4, 2 2
x1 x 2 0 2.7 5.7 4.8
x1 x 2 2 0.29 0.30 0.23
x1 x 2 0 1 2, 1 2 1 31, 1 60 1 2, 1 2
2 2, 2 1 2 60, 2 30 2 4, 2 2
U o (M 1 ) -0.405465 -1.036092 -0.405465
U o (M 2 ) -0.575364 -1.846300 -0.892574
U c (M 1 ) -1.065129 -1.862616 -1.201073
U c (M 2 ) -1.275666 -2.127139 -1.387933
x1 x 2 2 1 2, 1 2 1 31, 1 60 1 2, 1 2
2 2, 2 1 2 60, 2 30 2 4, 2 2
U o (M 1 ) -2.061423 -1.925020 -2.061423
U o (M 2 ) -1.454159 -1.322278 -1.420505
U c (M 1 ) -2.032183 -1.918213 -1.979118
U c (M 2 ) -1.460365 -1.892560 -1.909341
Por lo que podemos apreciar, tanto para el enfoque M-abierto como para el enfoque M-
cerrado, en el primer caso se prefiere el Modelo 1 que al Modelo 2, mientras que en el
segundo caso se prefiere al Modelo 2 que al Modelo 1.
El enfoque M-mezcla sólo puede aplicarse en el caso donde 1 31, 1 60, 2 60, 2 30
, los resultados se presenta a continuación.
x1 x 2 0 x1 x 2 2
U ( M 1 ) 1.636306 U ( M 1 ) 1.920077
U ( M 2 ) 1.828400 U ( M 2 ) 1.736412
Ejemplo 2.- Esta basado sobre el conjunto de datos reales presentado por Proschan (1963).
Tres modelos alternativos son considerados: El exponencial, los dos parámetros log-normal y
dos parámetro Weibull.
Dado que no puede aplicarse ni el criterio M-cerrado, ni el criterio M –mezcla (por la
suposición de las distribuciones a prioris), nada más se aplicó el criterio M -abierto.
En el criterio M -abierto se selecciona M1 en preferencia a M2 si
1 n p ( x | x)
Co log 1 l 0
n l 1 p 2 ( xl | x)
ij 1 l 1
l 1 p 2 ( x l | x )
Por lo tanto
M 1 f1 ( x | ) 1 exp( x / ), 1 ( ) 1 / ) ,
M 2 f 2 ( x | , )
exp (log x ) 2 /( 2 2 )
, 2 ( , ) 1 /
2 x
M 3 f 3 ( x | , ) x ( 1) exp ( x / ) , 3 ( , ) 1 /( )
n ( nx ) n
p1 ( y | x)
( y nx ) n 1
De este cálculo tenemos que 1.52, 0.0.65, 0.99 lo que nos lleva a
12 23 13
Para el cálculo del factor de Bayes a menudo se usa como a priori una no informativa
iN ( i ) .
A priori “uniforme” iU ( i ) 1
A priori de Jeffreys iJ ( i ) (det( i ( i ))) 2 , donde i ( i ) es la matriz de
1
B Nji
m Nj ( x )
f (x |
j j ) Nj ( j )d j
miN ( x ) f (x |
i i ) iN ( i )d i
La dificultad con esta expresión es que iN ( i ) son típicamente impropias, y por lo tanto
N
definidas solamente salvo una constante ci . Por lo tanto B ji esta definido solamente salvo
una constante c j / ci lo cual es en si mismo arbitrario.
Una solución común a este problema es usar parte de los datos como una muestra de
entrenamiento. Sea x (l ) que denota la parte de estos datos para ser usados. La idea es que
x (l ) sería usada para convertir iN ( i ) en distribuciones a posteriori propia
iN ( i | x(l )) f i ( x(l ) | i ) iN ( i ) / miN ( x(l )) , donde, abusando un poco de la notación
f i ( x (l ) | i ) es la densidad marginal de X (l ) bajo M i y miN ( x (l )) f i ( x | i ) iN ( i )d i .
De aquí la idea es calcular el factor de Bayes con el resto de los datos, usando ( i | x (l )) N
i
como a priori.
Para un conjunto de datos dados x , típicamente habrá muchas muestras de entrenamiento tal
como fue definido anteriormente.
Sea.
XT= x (1), x ( 2),..., x ( L)
denota el conjunto de todas las muestras de entrenamiento minimales, x (l ) . Claramente el
factor de Bayes B21 ( x (l )) antes definido, dependerá de la elección de la muestra de
entrenamiento minimal. Para eliminar esta dependencia y aumentar la estabilidad, una idea
natural es promediar los B21 ( x (l )) sobre todas las x (l ) XT. Este promedio puede ser
cualquiera aritmético o geométrico, lo que nos lleva a el factor de Bayes intrínseco
aritmético(AIBF) y factor de Bayes intrínseco Geométrico (GIBF) definidos respectivamente
por:
1 L 1 L
AI
B21
L l 1
B21 ( x(l )) B21
N
B12N ( x(l ))
L l 1
*
1 1
L L
L L
B GI
21 B21 ( x(l )) B N
21 B12N ( x(l )) **
l 1 l 1
GI
Note que B21 B21AI , puesto que la media geométrica es menor o igual a la media aritmética.
GI AI
Así B21 favorecerá el modelo anidado mas simple a una magnitud mayor que lo hará B21 .
Ejemplo 3.- Proschan(1963). Considera datos de fallos que surgen de aires acondicionados
sobre varios aeroplanos diferentes. Para cada aeroplano individual, el sugiere que un modelo
exponencial ajusta bien los datos. Para ilustrar esto, considere los siguientes 30 tiempos de
fallos de una aeroplano particular: 23, 261, 87, 7, 120, 14, 62, 47, 225, 71, 246, 21, 42, 20, 5,
12, 120, 11, 3, 14, 71, 11, 14, 11, 16, 90, 1, 16, 52, 95. Tres modelos se toman en
consideración para los tiempos de fallos, X i :
M 1 f1 ( x | ) 1 exp( x / ), , (Exponencial ( 1 ))
M 2 f 2 ( x | , )
exp (log x ) 2 /( 2 2 )
(lognormal( , ) )
2 x
M 3 f 3 ( x | , ) x ( 1) exp ( x / ) (Weibull( , ) )
n
donde S y ( y i y ) , y i log xi . En este caso las muestras de entrenamiento minimales
2 2
i 1
1 1
m1N ( x(l )) , m2N ( x)
( xi x j ) 2 2 xi x j log( xi / x j )
Para la a priori de referencia y M3 , m3N ( x(l )) m2N ( x(l )) . El cálculo para m3N ( x), y de
M3 y la a priori de Jeffreys, requieren de integración numérica .
La tabla que muestra los resultados se muestra a continuación:
AI GI AI GI AI GI AI GI
B21 B21 B31 B31 B32 B32 B23 B23
Jeffreys 0.37 0.33 0.25 0.15 0.66 0.46 3.93 2.15
Referencia 0.37 0.33 0.26 0.23 0.70 0.70 1.42 1.42
Notamos que el modelo lognormal es preferido sobre el modelo Weibull. Mientras que el
modelo exponencial es preferido sobre el modelo lognormal, y sobre el modelo Weibull.
A continuación se muestra una introducción del Método propuesto por Elías Moreno,
Francesco Bertolino y Walter Racugno, el cual es un procedimiento Límite Intrínseco para
selección de modelos.
1 2
f 2 ( x | 2 ) f1 ( x | 1 ), si 2 1
donde
2N ( 2 )
T ( 2 ) EM2 2 B12N ( x(l )) está claro que 2 está determinada por 1 y que la
1 ( 1 ( 2 ))
N
Etapa I
Etapa III
lim
B21 ( x) m
B21 ( x)
m
m2m ( x)
donde B21 ( x)
m
m1m ( x)
Este procedimiento es justificado por los siguientes argumentos:
f
2
2 ( x | 2 ) 2N ( 2 )d 2 EM2 2 B12N ( x (l ))d 2
dado como B21 ( x) B21 ( x ) E 2 | x EM2 2 B12N ( x (l )) ,
N
f (x |
1
1 1 ) 1N ( 1 ) d 1
Ejemplo 4.- Datos reales de Proschan (1963).Consideren los datos de Proschan(1963) los
cuales surgieron de tiempos de fallos en aire acondicionado de aeroplanos.
Los datos consisten de los siguientes tiempos de fallos asumidos iid 23,
261,87,7,120,14,62,47,225,71,246,21,42,20,5,12,120,11,3,14,71,11,14,11,16,90,1,16,52 y
95. Él sugiere que un modelo exponencial se ajusta bien a los datos.
Nosotros permitimos calcular el factor de Bayes para a prioris intrínsecas para dos modelos
anidados, el exponencial ( 1 ) y Weibull( , ) . Esto es, consideramos
1 c
M 1 : f1 ( x | 1 ) exp x / 1 , 1N ( 1 ) 1
1 1
M 2 : f 2 ( x | , ) x ( 1) exp ( x / ) , 2N ( , ) c2
donde f 1 ( x | 1 ) esta anidado en f 2 ( x | , ) y las a prioris son las a prioris referencia. Las
constantes no especificadas son positivas.
n
n n
( n 1)
B21 ( x) 2 xi ( x
( 1)
i n
I ( ) d
i 1 0
i 1
( x ) n
i
i 1
donde
cos( )
cos( ) sen ( ) log sen
I ( ) d
2 ( )
usando integración numérica, se obtiene que B21 0.29 . El valor del AIBF es 0.26 ( ver
Berger y Pericchi (1996)).
La conclusión es que los AIBF y los factores de Bayes para a priori intrínsecas llevan a los
mismos resultados: los datos están a favor del modelo exponencial sobre el modelo Weibull.
BIBLIOGRAFIA
Aitkin, M (1991) Posterior Bayes factors (with discussion) J.R. Statist. Soc. B 53, 111-142
Antoniak, C.E. (1974). Mixture of Dirichlet processes with applications to Bayesian non-
parametric problems. Ann. Statis. 2, 1152-1174.
Berger, J.O. (1985) Statistical Decision Theory and Bayesian analysis 2 nd. Ed. Springer-
Verlag: New-York.
Berger, J.O. and Pericchi, L.R. (1996) The intrisic Bayes Factor for model selection and
prediction. J.Am. Statist. Assoc. 91, 109-122.
Bernardo, J.M. 1979. Expected information as expected utility. Ann. Statist. 7, 686-690.
Bernardo, J.M. and Smith, A.F.M. (1994) Bayesian Theory. Chichester: Wiley
Degroot, Morris H. (1970) Optimal Statistics, principles, models and applications. John
Wiley & Sons, Inc. USA.
Moreno, Elías, Bertolino Francesco and Racugno Walter (1998). An intrinsic Limiting
Procedure for Model Selection and Hypotheses Testing. Journal Amer. Statist. Assoc. Vol.
93, No. 444, Theory and Methods.
O´Hagan, a. (1995) Fractional Bayes Factors for Model Comparison (with discussion) J.R.
Statist. Soc. B 57, 99-138.
Press, S.J. (1989) Bayesian Statistics: principles, models, and applications, Jhon Wiley &
Sons, Inc. USA.
San Martini, A., Spezzaferri F., (1984). A predictive model selection criterion. J. Roy.
Statist. Soc. B 46, 296-303.