Análise Estatística de Dados Usando Métodos Bayesianos

ANALISE
ESTATISTICA DE DADOS
USANDO METODOS
BAYESIANOS
CEMEQ - Centro de Metodos Quantitativos
Ribeirao Preto
2008
Sum
ario
1 Conceitos B
asicos: M
etodos Bayesianos
1.1 Introducao . . . . . . . . . . . . . . . . .
1.2 Distribuicoes a priori conjugadas . . . .
1.3 Priori normal e verossimilhanca normal .
1.4 Inferencia Bayesiana . . . . . . . . . . .
1.4.1 Estimacao por intervalo: . . . . .
1.4.2 Testes de hipoteses: . . . . . . . .
1.4.3 Teoria Bayesiana Assintotica: . .
1.4.4 Estimacao por ponto: . . . . . . .
1.5 Vetores parametricos . . . . . . . . . . .
1.6 Exerccios . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
3
3
7
8
9
9
9
9
10
13
15
2 Densidades Preditivas e Discriminac

ao de Modelos
2.1 Uso da Densidade Preditiva para Verificacao da Adequabilidade de um Modelo .
2.2 O Fator de Bayes a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Distribuicoes Preditivas Alternativas . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Uso da Densidade Preditiva na Discriminacao de Modelos . . . . . . . . . . . . .
2.5 Resduos Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Pseudo-Fator de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 Outros Criterios para Discriminacao de modelos . . . . . . . . . . . . . . . . . .
2.8 Teoria Bayesiana de De Finetti . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.8.1 Teorema da Representacao de De Finetti para Quantidades Aleatorias 0-1
2.9 Uma nota sobre Testes de Hipotese . . . . . . . . . . . . . . . . . . . . . . . . .
2.9.1 Hipotese simples contra alternativa composta . . . . . . . . . . . . . . .
2.10 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
19
19
20
20
20
22
22
23
24
24
25
27
3 Distribuic
oes a Priori
3.1 Metodo Estrutural de Elicitacao . . . .
3.2 Metodo Preditivo de Elicitacao . . . .
3.3 Distribuicoes a Priori Nao-informativas
3.4 Exerccios . . . . . . . . . . . . . . . .
.
.
.
.
28
28
29
30
36
.
.
.
.
.
38
38
41
42
44
47
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Aproximaco
es Num
ericas e M
etodos de Monte Carlo
4.1 Aproximacao de Laplace . . . . . . . . . . . . . . . . . . .
4.2 Metodo de Monte Carlo Ordinario . . . . . . . . . . . . . .
4.3 Metodo de Monte Carlo por Importancia . . . . . . . . . .
4.4 Algoritmo de Amostragem-Reamostragem por Importancia
4.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

SUMARIO
5 M
etodos de Monte Carlo em Cadeias de Markov
5.1 O Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Metodo de Gelman e Rubin para monitorar a convergencia
5.2 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . .
5.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
. . . . . . . . 49
do algoritmo 51
. . . . . . . . 59
. . . . . . . . 73
6 Algumas aplicac
oes
76
6.1 Modelos Bayesianos Hierarquicos . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.2 Analise Bayesiana Emprica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Ap
endices
A Resoluc
ao de Alguns Exerccios
A.1 Capitulo 1 . . . . . . . . . . . .
A.1.1 Item 1 . . . . . . . . . .
A.1.2 Item 2 . . . . . . . . . .
A.1.3 Item 3 . . . . . . . . . .
A.1.4 Item 4 . . . . . . . . . .
A.1.5 Item 5 . . . . . . . . . .
A.1.6 Item 6 . . . . . . . . . .
A.2 Capitulo 2 . . . . . . . . . . . .
A.2.1 Item 1 . . . . . . . . . .
A.2.2 Item 2 . . . . . . . . . .
A.2.3 Item 3 . . . . . . . . . .
A.2.4 (a) . . . . . . . . . . . .
A.2.5 (c) . . . . . . . . . . . .
A.3 Capitulo 3 . . . . . . . . . . . .
A.3.1 Item 1 . . . . . . . . . .
A.3.2 Item 2 . . . . . . . . . .
A.4 Capitulo 4 . . . . . . . . . . . .
A.4.1 Item 1 . . . . . . . . . .
A.4.2 Item 2 . . . . . . . . . .
A.4.3 Item 3 . . . . . . . . . .
A.5 Capitulo 5 . . . . . . . . . . . .
A.5.1 Item 1 . . . . . . . . . .
A.5.2 Item 2 . . . . . . . . . .
94
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
94
94
94
94
96
97
98
99
100
100
101
102
102
103
103
103
103
104
104
107
110
110
110
113
Captulo 1
Conceitos B
asicos: M
etodos Bayesianos
1.1
Introduc
ao
O uso de metodos Bayesianos tem se tornado uma alternativa poderosa na analise de dados.
A fundamentacao da teoria de inferencia Bayesiana e baseada na formula de Bayes dada a
seguir:
Formula de Bayes: Sejam os eventos A1 , A2 , . . . , Ak formando uma seq
uencia de eventos
mutuamente exclusivos e exaustivos formando uma particao do espaco amostral
, isto e,
!
k
k
k
[
[
X
Aj = e Ai Aj = (conjunto vazio) para i 6= j tal que P
Aj =
P (Aj ) =
j=1
j=1
j=1
1.
Entao para qualquer outro evento B (B ), temos,
P (Ai | B) =
P (B | Ai ) P (Ai )
k
X
P (B | Aj ) P (Aj )
(1.1)
j=1
para todo i variando de 1 ate k.

Podemos interpretar a formula de Bayes (1.1) da seguinte forma: antes do conhecimento de
qualquer informacao sobre o evento Ai , atribuir uma probabilidade a priori para Ai , dada por
P (Ai ); essa probabilidade e atualizada a partir da ocorrencia do evento B. Essa probabilidade
atualizada, ou probabilidade condicional do evento Ai dado a ocorrencia do evento B, ou seja,
P (Ai | B) e dada pela formula de Bayes (1.1).
Exemplo 1.1: Um novo teste diagnostico para detectar o vrus HIV e apresentado como
tendo 95% de sensitividade e 98% de especificidade. Em uma populacao com um prevalencia
de 1/1000 para o vrus HIV, qual e a chance de alguma pessoa com teste positivo ter realmente
o vrus HIV?
Seja A o evento que representa o indivduo que realmente e portador do vrus HIV; denotar
por A o evento complementar, isto e, o indivduo realmente nao e portador do vrus HIV e seja
B o evento que representa um resultado positivo para o teste. Temos interesse em determinar
P (A | B).
Observe que uma sensibilidade igual a 95% e dada por
P (B | A) = (teste positivo | indivduo e portador do vrus HIV) = 0, 95
3

1.1. INTRODUC
AO
e que uma especificidade igual a 98% e dada por

| A = (teste negativo | indivduo nao e portador do vrus HIV) = 0, 98
P B

| A = 0, 02.
isto e, P B | A = 1 P B
Pela formula de Bayes (1.1), temos
P (A | B) =
P (B | A) P (A)

P (B | A) P (A) + P B | A P A
(1.2)
Observe que neste caso os eventos A e A particionam o espaco amostral .

Assim,
P (A | B) =
0, 95 0, 001
= 0, 045
0, 95 0, 001 + 0, 02 0, 999
Observe que P (A) = 0, 001 e a probabilidade a priori de um indivduo ser portador do

virus HIV (prevalencia do virus HIV na populacao) e P (A | B) = 0, 045 e a probabilidade a
posteriori atualizada com a informacao de um teste com resultado positivo para o indivduo.
Desse resultado, observamos que mais de 95% dos indivduos com resultados positivos para o
teste nao tem o virus HIV.
0
Assumindo agora que temos um vetor de dados y = (y1 , . . . , yn ) e quantidades desconhecidas representando os parametros de uma distribuicao de probabilidade associada com a
variavel aleatoria Yi com valores observados yi , i = 1, . . . , n.
Considerando uma amostra aleatoria y = (y1 , . . . , yn ), isto e, os dados sao independentes e
identicamente distribudos com uma distribuicao conjunta dada pela densidade f (y | ), tambem definida como funcao de verossimilhanca para quando os dados foram observados e uma
distribuicao a priori para , dada por (), assumindo os valores discretos 1 , . . . , k , temos de
(1.1), a distribuicao a posteriori para i dado y,
(i | y) =
f (y | i ) (i )
k
X
f (y | j ) (j )
(1.3)
j=1
Observar que o parametro tambem e considerado como uma quantidade aleatoria sob o
enfoque Bayesiano.
Supondo agora que o parametro assume valores contnuos num dado intervalo, podemos
escrever (1.3) por
f (y | ) ()
( | y) = Z
(1.4)
f (y | ) ()
em que a integral no denominador de (1.4) e definida no intervalo de variacao de .
Exemplo 1.2: Seja Y uma variavel aleatoria com distribuicao binomial denotada por
b (n, ), em que e assumida com uma distribuicao a priori beta, denotada por beta(a, b), com
hiperparametros a e b conhecidos. Assim,

n y
f (y | ) =
(1 )ny
(1.5)
y

1.1. INTRODUC
AO
em que y = 0, 1, 2, . . . , n, e
() =
1
a1 (1 )b1 ; 0 < < 1
B (a, b)
(1.6)
em que
B (a, b) =
(a) (b)
(a + b)
e a funcao beta.
Observar que (a) denota uma funcao gama, dada por
Z
(a) =
ta1 exp (t) dt
A distribuicao a posteriori para e dada, a partir de (1.4), por

( | y) = Z
y+a1 (1 )n+by1
1
y+a1 (1 )n+by1 d
0
Como
Z1
y+a1 (1 )n+by1 d =
(y + a) (n + b y)
(n + a + b)
temos,
( | y) =
1
y+a1 (1 )n+by1
B (y + a, n + b y)
(1.7)
para 0 < < 1. Observar que a distribuicao a posteriori para tambem e dada por uma
distribuicao beta, agora com parametros y + a e n + b y.
Exemplo 1.3: Seja Y uma variavel aleatoria com distribuicao de Poisson, denotada por
P oisson (), com parametro . Assumir que e uma quantidade aleatoria com distribuicao
gama, denotada por gama(, ), com hiperparametros e conhecidos. Assim,
f (y | ) =
em que y = 0, 1, 2, . . . e
() =
exp () y
y!
(1.8)
exp ()
()
(1.9)
em que > 0.
Considerando uma amostra aleatoria (denotada por a.a.) y1 , . . . , yn de tamanho n da distribuicao de Poisson com parametro , a funcao de verossimilhanca para e dada por
L () = f (y | ) =
n
Y
f (yi | ) =
i=1
yi
n
Y
exp ()
i=1
yi !
exp (n) ny
n
Y
yi !
i=1
(1.10)

1.1. INTRODUC
AO
em que n
y=
n
X
yi .
i=1
De (1.4), a distribuicao a posteriori para e dada por

( | y) = Z
() L ()
(1.11)
() L () d
0
= Z
+ny1 exp [ (n + ) ]
+ny1 exp [ (n + ) ] d
Como,
+ny1 exp [ (n + ) ] d =
( + n
y)
+n
(n + ) y
encontramos,
(n + )+ny +ny1 exp [ (n + ) ]
( | y) =
( + n
y)
(1.12)
Observar que a distribuicao a posteriori para tambem e uma distribuicao gama, agora com
parametros + n
y e n + .
Exemplo 1.4 (Ensaios de Bernoulli com priori discreta): Assumir que uma droga
pode ter taxa de resposta para igual a 0, 2; 0, 4; 0, 6 ou 0, 8, cada uma com mesma probabilidade
a priori. Se observamos uma u
nica resposta positiva (y = 1), como nossa crenca pode ser
revisada?
Neste caso, a funcao de verossimilhanca e dada por
f (y | ) = y (1 )1y
Assim temos, conforme tabela 1.1,
Tabela 1.1: Ensaios de Bernoulli com priori discreta.
i
0, 2
0, 4
0, 6
0, 8
X
priori verossimilhanca priori

posteriori
(i )
f (y = 1 | i ) (i )
(i | y = 1)
0, 25
0, 05
0, 10
0, 25
0, 10
0, 20
0, 25
0, 15
0, 30
0, 25
0, 20
0, 40
1, 00
0, 50
1, 00
Observar que a distribuicao a posteriori (i | y = 1) e encontrada a partir de (1.3).

Sob o enfoque Bayesiano, como Y e sao quantidades aleatorias, podemos determinar a
predicao de forma direta.
Supor que desejamos prever o resultado de uma nova observacao, digamos Z, dado que foi
observado o resultado y.

1.2. DISTRIBUIC
OES
A PRIORI CONJUGADAS
Como e discreto, temos

f (z | y) =
f (z, j | y)
(1.13)
Assumindo Z condicionalmente independente de y dado , temos:

X
f (z | y) =
f (z | j ) wj
(1.14)
em que wj = (j | y), representa os pesos a posteriori.

Dos resultados da tabela 1.1, encontradas de (1.14), a probabilidade preditiva de que o
proximo tratamento seja bem sucedido (sucesso, isto e, z = 1) dado que foi observado um
tratamento bem sucedido (y = 1) dado por,
X
f (z = 1 | y = 1) =
j wj
j
= 0, 2 0, 1 + 0, 4 0, 2 + 0, 6 0, 3 + 0, 8 0, 4
= 0, 60
Observar que f (z | j ) = j para z = 1 e wj = (j | y) = (j | y = 1).
Nota: Uma distribuicao a priori () nao precisa ser uma densidade propria para que
( | y) seja uma distribuicao propria.
1.2
Distribuico
es a priori conjugadas
Uma famlia de distribuicoes e conjugada se as distribuicoes a posteriori pertencem a` esta

mesma famlia de distribuicoes.
Como um caso especial, considere observacoes independentes e identicamente distribudas
(observacoes i.i.d.) cuja distribuicao pertence a famlia exponencial,
f (yi | ) = exp [a () b (yi ) + c () + d (yi )]
Com as observacoes yi , a funcao de verossimilhanca para e dada por,
"
#
n
X
L () exp a ()
b (yi ) + nc ()
(1.15)
(1.16)
i=1
Uma distribuicao a priori conjugada para com k1 e k2 conhecidos e dada por,

( | k1 , k2 ) exp [k1 a () + k2 c ()]
(1.17)
Combinando (1.16) e (1.17), a distribuicao a posteriori para e dada por,

(
" n
#
)
X
( | y) exp a ()
b (yi ) + k1 + c () [n + k2 ]
(1.18)
i=1
Isto e,
"
( | y) = | k1 +
n
X
#
b (yi ) , n + k2
(1.19)
i=1
Nota: Uma distribuicao a priori para um parametro pode ser elicitada de varias formas:
1.3. PRIORI NORMAL E VEROSSIMILHANCA

NORMAL
a partir da opiniao de um ou varios especialistas, a partir de procedimentos objetivos ou a

partir procedimentos subjetivos.
Um caso especial e dado por distribuicoes a priori uniformes, isto e, () 1, em que
0 < < 1. A distribuicao a posteriori para usualmente sera uma distribuicao propria
(integral igual a 1 em toda variacao de ) independentemente da priori ser ou nao propria.
1.3
Priori normal e verossimilhan

ca normal
Supor que temos uma amostra aleatoria de tamanho n de uma variavel aleatoria Y com
distribuicao normal N (; 2 ) com media desconhecida e variancia 2 conhecida.
Assumir que tenha uma distribuicao a priori normal N (; 2 ) com e 2 conhecidos, isto
e,

1
1
2
() =
exp 2 ( )
(1.20)
2
2 2
A funcao de verossimilhanca para baseada numa amostra aleatoria y = (y1 , . . . , yn )0 e
dada por,
"
#
n
1 X
L ( | y) exp 2
(yi )2
(1.21)
2 i=1
Combinando (1.20) com (1.21), encontramos a densidade a posteriori para dada por:
( | y) () L ( | y)
"
#)
(
n
1 X
1 ( )2
+ 2
(yi )2
exp
2
2
i=1
(1.22)
Apos um pequeno desenvolvimento algebrico podemos ver, a partir de (1.22), que esta
expressao define o n
ucleo de uma distribuicao normal para .
Assim,

y
+ n
1
2
2
;
( | y) = N 1
(1.23)
+ n2 12 + n2
2
Isto e,

2
(1 )
| y vN + (1 ) y;
n

(1.24)
em que
=
1
2
1
2
n
2
2
n
2
n
+ 2
Assim, a media de (1.24) e a media ponderada da media da priori com a media amostral.
Na combinacao de uma priori normal com uma verossimilhanca normal, podemos usar o
seguinte resultado:
Resultado 1.1:
A (z a)2 + B (z b)2 = (A + b) (z c)2 +
para
c=
(ver Box e Tiao, 1973).
(Aa + Bb)
(A + B)
AB
(a b)2
A+B

1.4. INFERENCIA
BAYESIANA
1.4
1.4.1
Infer
encia Bayesiana
Estima
c
ao por intervalo:
Seja um parametro unidimensional e assumir que a distribuicao a posteriori para seja

unimodal. Um estimador por intervalo Bayesiano com probabilidade (1 ) e dado por ( , )
para
Z
( | y) d =
2
e
Z
( | y) d =
2
O intervalo ( , ) e chamado um intervalo de credibilidade para com probabilidade

(1 ).
Nota: No procedimento classico, se y1 , y2 , . . . , yn e uma a. a. de uma populacao com
densidade f (yi ; ) e S = g (y1 , . . . , yn ) e uma estatstica com uma distribuicao amostral fS (s; ),
usamos fS (s; ) para encontrarmos um intervalo de confianca para .
Com uma confianca 100 (1 ) %, temos
P [s () S s ()] = 1
e assim encontramos h (s) e h (s) tal que
P [h (s) h (s)] = 1
O intervalo de confianca [h (s) ; h (s)] e interpretado da seguinte forma: 100 (1 ) % dos
intervalos construdos contem o verdadeiro valor de .
Observar que os intervalos de credibilidade Bayesianos baseados na distribuicao a posteriori
tem uma interpretacao mais simples do que os intervalos de confianca classicos.
1.4.2
Testes de hip
oteses:
Na inferencia classica consideramos a hipotese H0 (hipotese de nulidade) contra H1 (hipotese

alternativa). Na inferencia Bayesiana, em geral consideramos as probabilidades baseadas na
distribuicao a posteriori de que > 0 , com 0 conhecido.
1.4.3
Teoria Bayesiana Assint

otica:
Para tamanhos amostrais grandes, a distribuicao a posteriori depende quase que exclusivamente da funcao de verossimilhanca. Considere y1 , y2 , . . . , yn uma a. a. da distribuicao f (y | )
e assumir com uma distribuicao a priori (). Assim temos:
( | y) exp [l () + ln ()]
(1.25)
onde l () = ln L () (logaritmo natural da funcao de verossimilhanca L ()).

Considerando o desenvolvimento de uma serie de Taylor na vizinhanca do estimador de maxima verossimilhanca (EMV) (obtido derivando-se o logaritmo de verossimilhanca e igualando= 0), temos,
se a zero, isto e, dl()
d
1
2 d2 l ()
l () ' l +

|
2
d2
(1.26)

1.4. INFERENCIA
BAYESIANA
10
Dessa forma,
a distribui
cao a posteriori para pode ser aproximada por uma distribuicao
i
h
normal N ; I 1 , onde

d2 l ()
I =
|
d2
(informacao de Fisher observada). Isto e,
h
i
a
| y v N ; I 1
(1.27)
1.4.4
Estima
c
ao por ponto:
Um estimador Bayesiano para dado por = d (y) e obtido minimizando-se o erro esperado
(funcao de risco) com respeito a` distribuicao a posteriori para . Para isso, consideramos uma
funcao de perda (d; ).
Uma funcao de perda muito usada na inferencia Bayesiana aplicada e dada pela funcao de
perda quadratica,
(d, ) = (d )2
(1.28)
Assim, devemos encontrar d (y) que minimiza o risco Bayesiano dado por,
R (d, ) = E|y [ (d, )]
Z
[d (y) ]2 ( | y) d
=
(1.29)
Sendo uma funcao diferenciavel, o estimador de Bayes com respeito a` funcao de perda
quadratica e dada por,
Z
dR (d, )
= 2 (d ) ( | y) d = 0
d (d)
Isto e,
= d (y) = E ( | y)
(1.30)
(media a posteriori de ).
Observar que,
Z
E ( | y) =
R
() L () d
( | y) d = R
() L () d
(1.31)
Exemplo 1.5: Seja y1 , . . . , yn uma a. a. de uma distribuicao de Poisson com funcao de

probabilidade,
exp () yi
P (Yi = yi ) = f (yi | ) =
(1.32)
yi !
em que i = 1, 2, . . . , n.
Assumir uma priori para dada pela distribuicao gama com hiperparametros conhecidos
e (ver (1.9)). Isto e, v gama (, ).
A distribuicao a posteriori para (ver (1.12)) e dada por uma distribuicao gama com
parametros + n
y e n + . Isto e,
| y v gama ( + n
y ; n + )
Considerando uma funcao de perda quadratica, um estimador pontual para (ver (1.30)) e
dado pela media a posteriori,
y)
= E ( | y) = ( + n
(n + )

1.4. INFERENCIA
BAYESIANA
11
Como uma ilustracao numerica, seja Y uma variavel aleatoria representando o n

umero de
consultas medicas feitas por 10 pessoas pelo perodo de 5 anos num dado centro medico:
(y1 , . . . , y10 ) = (10, 12, 8, 7, 9, 15, 10, 12, 13, 8)
10
X
Assim, y =
i=1
10
yi
= 10, 4 e, desta forma, n

y=
10
X
yi = 104. Assumir que a priori para
i=1
seja uma distribuicao gama, isto e, v gama (; ), com E () = e var () = 2 . A partir da

opiniao de um especialista em sa
ude, assumir E () = 10 e var () = 4. Dessa forma, considerar
= 25 e = 2, 5 que determinamos a partir das equacoes E () = = 10 e var () = 2 = 4.
O estimador pontual para com respeito à funcao de perda quadratica e dado por,
E ( | y) =
( + n
y)
25 + 104
=
= 10, 32
(n + )
10 + 2, 5
Exemplo 1.6: Seja (y1 , . . . , yn ) uma a. a. de uma distribuicao normal N (; 2 ) com 2

conhecido. Assumir uma priori normal N (; 2 ) para , com e 2 conhecidos. A distribuicao
a posteriori para (de (1.23)) e dada por,

y
+ n
1
2
2
|yN 1
;
(1.33)
+ n2 12 + n2
2
em que y = (y1 , . . . , yn ) e o vetor dos dados.
Um estimador por ponto para e dado pela media a posteriori E ( | y) dada por,
= E ( | y) =
2
1
2
+
+
n
y
2
n
2
(1.34)
Como uma ilustracao numerica, considere yi , i = 1, . . . , 100 como os pesos das criancas
com 10 meses de idade com media amostral y = 11, 85. Assumir que yi N (; 4). A partir
da informacao de um medico pediatra, considerar uma priori N (13; 25) para . Neste caso,
100
X
2
2
= 13; = 25 e = 4. Tambem
yi = 1185.
i=1
De (1.34), a media a posteriori para e dada por,
= E ( | y) =
2
1
2
+
+
n
y
2
n
2
13
+ 1185
25
4
1
100
+
25
4
= 11, 825
Nota: Outras funcoes de perda tambem podem ser consideradas. Um caso especial e dado
pela funcao de perda (d, ) = |d |; o estimador de Bayes que minimiza o erro esperado e
dado pela mediana a posteriori.
Exemplo 1.7: Assumir o modelo estatstico,
yi = + i
(1.35)
para i = 1, 2, . . . , n em que i e um erro suposto com uma distribuicao normal N (0, 4), isto e,
i v N (0, 4).
Assumir tambem que a distribuicao a priori para seja dada por v N (2; 1).
De (1.35), observar que a variavel aleatoria Yi tem uma distribuicao normal N (; 4). Assim,

1.4. INFERENCIA
BAYESIANA
12
a funcao de verossimilhanca para e dada por,

#
"
n
1X
(yi )2
L () exp
8 i=1
(1.36)
e a priori para e dada por,

1
() exp ( 2)2
2

(1.37)
Combinando-se a verossimilhanca normal (1.36) com a priori normal (1.37), obtemos (ver
(1.23)), a distribuicao a posteriori para dada por,

8 + n
y
4
|yvN
;
(1.38)
4+n 4+n
Como uma ilustracao numerica, assumir uma a. a. de tamanho 10, representando os tempos
ate a recuperacao (em semanas) de 10 pacientes: 2, 3, 1, 2, 4, 3, 2, 3, 5, 2 cuja media amostral e
dada por y = 2, 7.
Assim, um estimador por ponto para assumindo uma funcao de perda quadratica e dada
por,
8 + 27
y
= E ( | y) = 8 + n
=
= 2, 5
4+n
4 + 10
Notas:
(1) Observar que o EMV (estimador de maxima verossimilhanca) para e obtido maximizandose a funcao de verossimilhanca (1.36) ou o logaritmo da funcao de verossimilhanca l (), isto
e,
n
X
1
dl ()
= (2)
(yi ) = 0
d ()
8
i=1
n
X
Ou seja,
n
X
yi = n ou =
yi
i=1
. Com os dados, =
27
10
= 2, 7.
i=1
(2) Supondo uma priori nao-informativa para , os resultados devem ser proximos (estimador
de maxima verossimilhanca para e a media a posteriori E ( | y)).
Assim, se considerarmos uma priori normal N (2; 103 ) (variancia muito grande), a distribuicao a posteriori para e dada por,

0, 008 + n
y
4
|yvN
;
0, 004 + n 0, 004 + n
Com os dados,
E ( | y) =
0, 008 + 27
27, 008
=
= 2, 69972
0, 004 + 10
10, 004
ou seja E ( | y) 2, 70 (resultado bem proximo ao EMV: = 2, 7).

(3) Assumindo a mesma priori N (2; 1) para , mas considerando uma amostra muito
grande, os resultados classico e Bayesiano tambem devem ser muito proximos.
n
X
Assim, se considerarmos uma a. a. de tamanho n = 1000 com n
y =
yi = 2758,
i=1

1.5. VETORES PARAMETRICOS
13
observamos que (ver (1.38)),

E ( | y) =
8 + n
y
8 + 2758
2766
=
=
4+n
4 + 1000
1004
Isto e, E ( | y) = 2, 755. Tambem observar que o EMV para e dado por = y = 2, 758
(resultados muito proximos).
1.5
Vetores param
etricos
Seja Y uma variavel aleatoria com distribuicao de probabilidade dada pela densidade f (y | )
em que e um vetor de dimensao k, isto e, = (1 , 2 , . . . , k )0 . Seja () uma distribuicao
a priori conjunta para ; a funcao de verossimilhanca para dada uma a. a. y = (y1 , . . . , yn )0
da variavel aleatoria Y e dada por,
L () =
n
Y
f (yi | )
(1.39)
i=1
A distribuicao a posteriori conjunta para e dada por,

( | y) = c L () ()
(1.40)
onde c e uma constante normalizadora, cuja integracao devera ser igual a 1 (assumir todos
parametros contnuos), isto e,
Z Z
Z
1
L () () d1 d2 . . . dk
(1.41)
c =
...
1
(uma integral m
ultipla).
Para simplificacao, vamos denotar (1.41) por
Z
1
c = L () () d
A media a posteriori para uma funcao g () de = (1 , 2 , . . . , k )0 e dada por,
Z Z
Z
E [g () | y] =
...
g () ( | y) d1 . . . dk
1
(1.42)
(1.43)
Ou, simplesmente,
Z
E [g () | y] =
g () ( | y) d
(1.44)
Dessa forma, observar que precisamos resolver integrais m

ultiplas para encontrar c1 dado
em (1.42) e E [g () | y] dado em (1.44).
Para encontrarmos a distribuicao marginal para alguns componentes de ou mesmo para
um componente individual, tambem precisamos resolver uma integral m
ultipla. Como caso
especial, a distribuicao a posteriori marginal para 1 e dada por,
Z Z
Z
(1 | y) =
...
(1 , 2 , . . . , k | y) d2 . . . dk
(1.45)
2
Exemplo 1.8: Seja Y uma variavel aleatoria com distribuicao normal N (; 2 ). Neste caso

1.5. VETORES PARAMETRICOS
14
= (, 2 ) e um vetor de dois parametros. Supor uma a. a. y = (y1 , . . . , yn )0 de tamanho n

0
da distribuicao N (; 2 ). A funcao de verossimilhanca para = (, 2 ) e dada por,
#
"

n2
n
X

1
1
(yi )2
(1.46)
L ; 2 =
exp 2
2 2
2 i=1
Assumir as seguintes distribuicoes a priori para e 2 :

v N 0; a2 ; a conhecido
2 v IG (b; d) ; b, d conhecidos
(1.47)
em que IG (b; d) denota uma distribuicao gama inversa (isto e, se V v IG (b; d), entao a funcao
densidade de probabilidade para V e dada por f (v) v (b+1) exp vd , v > 0). Tambem
assumir independencia a priori entre e 2 .
A distribuicao a posteriori conjunta para e 2 e dada por,

n

2
2
2 (b+ 2 +1)
exp 2
, | y
2a
"
(
#)
n
1X
1
exp 2 d +
(yi )2
2 i=1
(1.48)
A distribuicao a posteriori marginal para e obtida integrando-se 2 em (1.48), isto e,

Z

( | y) =
, 2 | y d 2
(1.49)
0
Isto e,

2
( | y) = k exp 2
2
(
"
#)
Z
n
X
n

1
1
(b+ 2 +1)
2
exp 2 d +
(yi )2
d 2
2 i=1
0

(1.50)
em que k e uma constante normalizadora.

Observar que,
Z
0
a
(p)
dx = p
x(p+1) exp
x
a
(1.51)
Assim, usando (1.51) em (1.50), encontramos,

2
k1 exp 2
2
( | y) = "
d+
1
2
n
X
#b+ n2
(yi )2
i=1
para < < e k1 e uma constante normalizadora.

(1.52)
1.6. EXERCICIOS
15
Da mesma forma, a distribuicao a posteriori marginal para 2 e dada por,

Z

2
|y =
, 2 | y d

n

d
2 (b+ 2 +1)
exp 2
= k
"
#
Z
n
2
X
1
exp 2 2
(yi )2 d
2a
2 i=1
1.6
Exerccios
(1) Assumir que a distribuicao a posteriori de um parametro dado o vetor de dados y tem
uma densidade Beta com parametros e , isto e,
( + ) 1
(1 ) 1
( | y) =

( ) ( )
em que 0 < < 1. Assumir uma funcao de perda L (d, ) = 2 (d )2 , d 0.

Achar a decisao de Bayes que minimiza o erro esperado.
(2) Considerar a funcao de confiabilidade S (t) = P (T > t), em que T e uma variavel
aleatoria positiva representando o tempo de vida de um componente. Assumir que S (t) para t
fixado, assume dois valores possveis: S (t) = 1 = 0, 50 ou S (t) = 2 = 0, 90.
Assumir duas decisoes possveis:
d1 : o estimador de S (t) e 1 ou
d2 : o estimador de S (t) e 2 .
Considerar a seguinte funcao de perda L (d; ):
Tabela 1.2: Decisao.
S (t) = 1
S (t) = 2
d1
0
3
d2
5
0
Tambem assumir a seguinte distribuicao a priori discreta: (1 ) = 1/4; (2 ) = 3/4.

(a) Achar a solucao Bayesiana.
(b) Retirar uma unidade e testa-la para o tempo t: falha ou sobrevivencia.
Assumir Z = 1 (sobrevivencia) e Z = 0 (falha) e assumir f (z = 1 | 1 ) = 0, 50; f (z = 1 | 2 ) =
0, 90; f (z = 0 | 1 ) = 0, 50 e f (z = 0 | 2 ) = 0, 10.
Achar a solucao de Bayes quando retiramos uma unidade.
(3) Assumir que X representa o tempo de sobrevivencia de uma unidade com distribuicao
exponencial com densidade f (x | ) = exp (x) , x > 0. Assumir uma amostra aleatoria
de tamanho n (X = (x1 , . . . , xn )). Tambem assumir uma distribuicao a priori nao-informativa
para dada por () 1/, > 0.
(a) Achar a densidade a posteriori para dado X.
(b) Achar o estimador Bayesiano para considerando o erro quadratico medio.
(c) Qual e a moda da distribuicao a posteriori?
1.6. EXERCICIOS
16
(d) Achar a distribuicao a posteriori para o tempo de sobrevivencia mediano.

(4) Assumir uma densidade normal N (, 4), isto e,

1
1
2
f (x | ) = exp (x )
8
2 2
em que < x < .
Considerar uma distribuicao a priori normal N (0, 2 ), com 2 conhecido, para .
(a) Achar a distribuicao a posteriori para .
(b) Achar o estimador de Bayes para com respeito à funcao de perda quadratica.
(c) Em qual situacao a solucao obtida pelo estimador de maxima verossimilhanca coincide
com a solucao de Bayes com respeito à perda quadratica?
(5) Assumir que voce tenha uma distribuicao subjetiva para a temperatura media dos proximos dias, dada pela densidade,
() =
exp () , > 0
()
em que e sao conhecidos (E () = / e var () = / 2 ).

Escolher valores para E () e var () que representam sua opiniao sobre a temperatura e
calcular os valores correspondentes de e . Achar a decisao de Bayes d para quando a
funcao de perda e dada por
d2 2
L (d, ) = (d )2 +
1000
e comentar porque esse estimador e maior do que E ().
(6) Supor que (x1 , . . . , xn ) seja uma amostra aleatoria de uma distribuicao de Poisson com
media e que tem uma priori gama com parametros conhecidos e .
(a) Achar a distribuicao a posteriori para e escrever a media a posteriori como uma media
ponderada da media a priori / e a media amostral x.
(b) Mostrar que a variancia a posteriori e dada por
var ( | x) =
+ n
x
( + n)2
(c)
Mostrar
que a variancia a posteriori e menor do que a variancia a priori se e somente se
x < 2 + n E ().
Captulo 2
Densidades Preditivas e Discrimina
c
ao
de Modelos
Seja y1 = (y1 , . . . , yn )0 o vetor dos dados observados e seja y2 = (yn+1 , . . . , ym )0 um vetor de
observacoes futuras. A densidade preditiva para y2 dado y1 e dada por,
Z
(2.1)
f (y2 | y1 ) = f (y2 | ) ( | y1 ) d
em que f (y2 p ) e a distribuicao conjunta de y2 dado e ( p y1 ) e a distribuicao a posteriori
para dado y1 . Observe que y1 e y2 sao independentes dado .
Isto e,
f (y2 | y1 ) = E|y1 [f (y2 | )]
(2.2)
Exemplo 2.1: Supor que yi , i = 1, 2, . . . , n sejam medidas de uma carga viral em uma
amostra de sangue supostos com distribuicao normal N (; V ) com V conhecido. Assim,
f (y1 | ) =
n
Y
f (yi | )
(2.3)
i=1
em que

1
1
2
exp
(yi ) ,
f (yi | ) =
2V
2V
para i = 1, . . . , n.
Assumir uma distribuicao normal N (m; W ) para , com m e W conhecidos. Dessa forma,
a distribuicao a posteriori para dado
y1 e dada por uma distribuicao normal N (m1 ; W1 ) com
Pn
1
1
1
i=1 yi
m1 = W1 (W m + nV y), y = n e W1 = (W 1 + nV 1 ).
A densidade preditiva para uma observacao futura yn+1 e dada por,
Z
f (yn+1 | y1 ) =
f (yn+1 | ) ( | y1 )

Z
1 1
21
1 1
2
2
1
2
= (2) V W1
exp V ( yn+1 ) + W1 ( m1 )
d
2
Apos alguma algebra, encontramos a densidade preditiva para yn+1 dado y1 dada por,
yn+1 | y1 v N (m1 ; V + W1 )
(2.4)
Exemplo 2.2: Supor Yi , i = 1, 2, . . . , n variaveis aleatorias i. i. d. com densidade expo17
18
nencial,
f (yi | ) = exp (yi )
em que yi > 0.
Assumir uma distribuicao Gama (, ) para com e conhecidos.
A funcao de verossimilhanca para e dada por,
!
n
X
L () = n exp
yi
(2.5)
(2.6)
i=1
Combinando-se a priori gama (, ) para com a verossimilhanca (2.6), encontramos a

distribuicao a posteriori para dada por uma distribuicao Gama (1 , 1 ) com 1 = + n e
1 = + n
y.
A densidade preditiva para uma observacao futura yn+1 e dada por,
Z
f (yn+1 | y) =
exp (yn+1 ) ( | y) d
(2.7)
0
Z
1 1
(1 +1)1 exp [ ( 1 + yn+1 )] d
=
(1 ) 0
Isto e,
f (yn+1 | y) =
1 1 (1 + 1)
(1 ) ( 1 + yn+1 )1 +1
(2.8)
Observando que (1 + 1) = 1 (1 ) temos,

f (yn+1 | y) =
1 1 1
( 1 + yn+1 )1 +1
(2.9)
(uma densidade de Pareto).

Como ilustracao numerica, considere o trabalho cir
urgico de um medico que exige o uso de
uma maquina de controle de batimentos cardacos por um perodo de 4 horas consecutivas de
funcionamento. A taxa de falhas por hora dessa maquina varia dependendo de onde e usada,
mas o fabricante garante que a taxa media de falha da maquina e de 10 vezes a cada 100
horas de uso. A variancia de e dada por V = 0, 01.
Com o objetivo de controle de qualidade, supor uma a. a. com m = 5 funcionamentos
consecutivos do equipamento ate falhar: 3, 2; 12, 7; 20, 6; 7, 9 e 10, 2 (tempos em horas).
A partir desses dados, encontramos a media amostral y = 10, 92. Para achar a probabilidade
de que a proxima falha ocorrera antes do termino do trabalho cir
urgico, assumir:
(a) Os tempos de vida (funcionamento ate falhar) yi , i = 1, 2, . . . , 5 sao variaveis aleatorias
i. i. d. com distribuicao exponencial com taxa de falhas igual a` ;
(b) O parametro tem uma distribuicao a priori Gama (, ) com e conhecidos;
(c) E () = = 0, 10 e V ar () = 2 = 0, 01. Assim encontramos = 1 e = 10, a partir
da informacao do fabricante do equipamento.
Assim, a distribuicao a posteriori para e uma distribuicao Gama (1 , 1 ) com 1 = +n =
1 + 5 = 6 e 1 = + n
y = 10 + 54, 6 = 64, 6. Assim,
f (y6 | y) =
1 1 1
6 (64, 6)6
=
( 1 + y6 )1 +1
(64, 6 + y6 )7
Portanto,
P (y6 > 4) = 1 P (y6 4) ,
DA ADEQUABILIDADE
2.1. USO DA DENSIDADE PREDITIVA PARA VERIFICAC
AO
DE UM MODELO
19
em que
6 (64, 6)6
P (y6 4) =
7 dy6
0 (64, 6 + y6 )
(64, 6)6
= 0, 26
= 1
(4 + 64, 6)6
Z
Isto e, P (y6 > 4) = 0, 74.
2.1
Uso da Densidade Preditiva para Verifica

c
ao da Adequabilidade de um Modelo
Seja f (y | ) a densidade conjunta para os dados e seja () a densidade a priori para .

Uma definicao alternativa para a densidade preditiva e dada por,
Z
f (y) = f (y | ) () dy
(2.10)
A densidade preditiva (2.10) tambem e definida como funcao de verossimilhanca marginal.
Supor que M1 e M2 sejam dois modelos distintos.
Fator de Bayes: O fator de Bayes e definido por,
B12 =
f (y | M1 )
f (y | M2 )
(2.11)
Usamos o fator de Bayes (2.11) para comparar dois modelos M1 e M2 .

Observar que o fator de Bayes B12 requer a especificacao da distribuicao a priori () sob
ambos os modelos. Quando consideramos distribuicoes a priori nao informativas improprias
para , essas distribuicoes a priori sao definidas em termos de constantes arbitrarias ci , i = 1, 2.
Dessa forma B12 e definida em termos da razao cc21 que e arbitraria. Isso e um problema que
pode limitar o uso do fator de Bayes na discriminacao de dois modelos quando consideramos
distribuicoes a priori nao informativas improprias para os parametros dos modelos.
Para contornar esse problema, algumas modificacoes sao sugeridas na literatura para o fator
de Bayes (ver por exemplo, Spiegelhalter e Smith, 1982; Berger e Perichi, 1996; Aitkin, 1991).
Quando consideramos distribuicoes a priori proprias para , o fator de Bayes e reduzido
para um problema de testes de hipoteses.
2.2
O Fator de Bayes a posteriori
Sob o modelo Mi , i = 1, 2, dada a funcao de verossimilhanca f (y p i ) e a distribuicao a

priori ( i ), a distribuicao a posteriori e dada por,
( i | y) = R
f (y | i ) ( i )
f (y | i ) ( i ) d i
(2.12)
para i = 1, 2.
Aitkin (1991) define o fator de Bayes a posteriori do modelo M1 contra o modelo M2 , por,
A
B12
=
LA
1
LA
2
(2.13)

2.3. DISTRIBUIC
OES
PREDITIVAS ALTERNATIVAS
20
em que
LA
i
Z
=
f (y | i ) (i | y) di
para i = 1, 2 e i representa o vetor dos parametros sob o modelo Mi , i = 1, 2.

e a media a posteriori da funcao de verossimilhanca
Observar que LA
i = E i |y [f (y | i )]
f (y | i ). Observar tambem que o fator de Bayes a posteriori existe sob distribuicoes a priori
nao-informativas.
2.3
Distribuico
es Preditivas Alternativas
Para discriminacao de modelos podemos definir uma versaocross-validationda distribuicao

preditiva dada por,
Z

f yr | y(r) = f (yr | ) | y(r) d
(2.14)

para y(r) = (y1 , . . . , yr1 , yr+1 , . . . , yn ) em que | y(r) e a densidade a posteriori para
dado y(r) (ver por exemplo, Geisser, 1975; ou Gelfand e Dey, 1994).

Para a verificacao da adequabilidade de um modelo, a densidade preditiva f yr | y(r) e
usada com yr , r = 1, . . . , n no sentido de que um modelo e adequado se yr pode ser considerado
como uma observacao aleatoria da densidade f yr | y(r) .
Definir a ordenada preditiva condicional (CP O) por

dr = f yr | y(r)
(2.15)
(ver Geisser, 1990).
Podemos discriminar dois ou mais modelos, a partir de graficos de dr versus r, r = 1, 2, . . . , n;
maiores valores de dr em media, indicam o melhor modelo.
Outra alternativa e usar o produto de CP O0 s dado por
c (l) =
n
Y
dr (l)
(2.16)
r=1
em que l indexa modelos. Assim, o modelo M1 e melhor do que o modelo M2 , se c (1) > c (2).
2.4
Uso da Densidade Preditiva na Discrimina

c
ao de
Modelos
Para comparar um modelo M1 com um modelo M2 , podemos usar o fator de Bayes B12 =
f (y|M1 )
.
f (y|M2 )
Com os dados observados y, o modelo M1 e melhor do que o modelo M2 se B12 > 1.

Em geral, podemos considerar 2 log B12 (ver Raftery, 1996; ou Kass e Raftery, 1995) e sua
intepretacao e baseada no criterio proprosto por Jeffreys (1961) e apresentada na tabela 2.1.
2.5
Resduos Bayesianos
Seja x = (x1 , . . . , xn )0 uma amostra observada e ( | x) a distribuicao a posteriori para

dado x.
Seja y = (y1 , . . . , yn )0 uma amostra de validacao, isto e, uma amostra independente de x
usada para validar o modelo em estudo.
2.5. RESIDUOS BAYESIANOS
21
Tabela 2.1: Escala de evidencia do modelo M1 .

B12
<1
1, 2, 3
3, . . . , 12
12, . . . , 150
> 150
2 log B12
<0
0, 1, . . . , 2
2, . . . , 5
5, . . . , 10
> 10
Evidencia de M1
negativa
difcil decisao
positiva
forte
muito forte
A densidade preditiva para y dado x (ver (2.1)) e dada por:

Z
f (y | x) = f (y |) ( | x) d
(2.17)
Usamos f (y | x) para avaliacao do modelo. O valor medio e a variancia preditiva para cada
componente de y sao dados, respectivamente, por,
Z
yi f (y | x) dy
(2.18)
E (yi | x) =
Z
V ar (yi | x) =
[yi E (yi | x)]2 f (y | x) dy
para i = 1, 2, . . . , n.
Os resduos Bayesianos padronizados sao dados por:
yi E (yi | x)
di = p
V ar (yi | x)
(2.19)
para i = 1, 2, . . . , n.
O uso dos resduos Bayesianos e semelhante ao uso dos resduos na inferencia classica:
graficos de resduos versus preditos (valores medios preditos); graficos de resduos em ordem
temporal.
Na pratica, podemos particionar uma amostra grande em duas amostras: uma parte (amostra observada) e usada para construir a distribuicao a posteriori e a outra parte (amostra de
validacao) e usada para obter a distribuicao preditiva.
Outra possibilidade na construcao de resduos Bayesianos e o uso de tecnicas Jacknife
(leave one out) considerados na secao 2.3. Assim, considerar x(i) = (x1 , . . . , xi1 , xi+1 , . . . , xn )0
e achar a densidade preditiva de xi dado x(i) para i = 1, 2, . . . , n:
Z

f xi | x(i) = f (xi | ) | x(i) d
(2.20)
Definir os resduos Bayesianos por:
d0
i

xi E xi | x(i)
= q

V ar xi | x(i)
(2.21)
para i = 1, 2, . . . , n.

Nota: Os valores observados de f xi p x(i) (ordenadas preditivas condicionais ou CPO)
podem ser usados em um diagnostico informal. Valores baixos de CPO devem corresponder a
2.6. PSEUDO-FATOR DE BAYES
22
observacoes mal ajustadas.
2.6
Pseudo-Fator de Bayes
Como alternativa ao fator de Bayes, usar o produto das preditivas para xi dado x(i) , dado
n

Q
por,
f xi | x(i) na comparacao de modelos.
i=1
Sejam M1 e M2 dois modelos propostos para analisar os dados. O pseudo-fator de Bayes e

dado por,
n

Q
f xi | x(i) , M1
PF
B12
= i=1
(2.22)
n

Q
f xi | x(i) , M2
i=1
Na presenca de mais de dois modelos, calcular para cada modelo o produto
n
Q

f xi | x(i) ,
i=1
ou equivalentemente, a soma dos logaritmos das ordenadas preditivas condicionais e escolher o

modelo que apresentar o maior valor.
Nota: A soma dos quadrados (ou dos valores absolutos) dos resduos padronizados tambem
podem ser usados na selecao de modelos.
2.7
Outros Crit
erios para Discrimina
c
ao de modelos
Para discriminar modelos, tambem podemos considerar o criterio AIC (Akaike information
criterion); o criterio BIC (Bayesian information criterion) e o criterio DIC (Deviance information
criterion). Esses criterios penalizam a funcao de verossimilhanca (a complexidade do modelo
entra no criterio de selecao).
Crit
erio AIC: Assumir dois modelos M1 e M2 . O criterio AIC e dado por:

supM1 f (y | 1 , M1 )
2 (p2 p1 )
(2.23)
AIC = 2 ln
supM2 f (y | 2 , M2 )
em que pi , i = 1, 2 representa o n
umero de parametros em cada modelo (criterio baseado na
eficiencia classica freq
uentista). A funcao de verossimilhanca f
(y | i , M
i ) deve ser maximizada
sob cada modelo. Tambem poderamos definir AICi = 2 ln L i | Mi 2pi , i = 1, 2 em que
i e o estimador de maxima verossimilhanca para i e assim maiores AICi indicam melhores
modelos.
Crit
erio BIC: Assumir dois modelos M1 e M2 . O criterio BIC e dado por:

supM1 f (y | 1 , M1 )
BIC = 2 ln
2 (p2 p1 ) ln(n)
(2.24)
supM2 f (y | 2 , M2 )
em que n e a dimensao da amostra e pi , i = 1, 2 e o n
umero
de par
ametros no modelo Mi .
Da mesma forma poderiamos definir BICi = 2 ln L i | Mi pi ln (n) para i = 1, 2 em
que i e o estimador de maxima verossimilhanca para i .
Notas (1): Para amostras grandes, Schwarz (1978) mostra que BIC e uma boa aproximacao
para 2 ln B12 , em que B12 (2.23) e o fator de Bayes.
2.8. TEORIA BAYESIANA DE DE FINETTI
23
Notas (2): Carlin e Louis (2000) introduzem uma modificacao do BICi para a forma,
[ i = 2E [ln L ( i | y, Mi )] pi ln(n)
BIC
(2.25)
[ i . Essa forma do BIC e muito usada

escolhendo o modelo Mi que apresenta maior valor de BIC
quando metodos MCMC (Monte Carlo em cadeias de Markov) sao utilizados.
Crit
erio DIC: O criterio DIC e muito utilizado em inferencia Bayesiana aplicada especialmente usando metodos de Monte Carlo em Cadeias de Markov.
Definir o desvio (deviance) por:
D () = 2 ln L () + C
(2.26)
em que e um vetor de parametros desconhecidos do modelo; L () e a verossimilhanca e C e

uma constante nao necessariamente conhecida na comparacao de dois modelos.
O criterio DIC definido por Spiegelhalter et al (2002) e dado por,

+ 2pD
DIC = D
(2.27)

e o desvio calculdado na media a posteriori
= E ( | y) e pD e o n
em que D
umero efetivo

= E [D () | y] e a media
D
, em que D
de parametros no modelo, dado por pD = D
a posteriori do desvio que mede a qualidade do ajuste dos dados para cada modelo. Menores
valores de DIC indicam melhores modelos e esses valores podem ser negativos.
O criterio DIC e implementado em softwares usados para obter inferencias Bayesianas
usando metodos MCMC (Monte Carlo em cadeias de Markov). Um software muito utilizado e
o software Winbugs (Spiegelhalter et al, 1999).
2.8
Teoria Bayesiana de De Finetti
Um metodo mais formal para a metodologia Bayesiana foi introduzida por De Finetti
(1930, 1937, 1964) baseada nas distribuicoes preditivas.
Dessa forma, um modelo preditivo para uma seq
uencia de variaveis aleatorias X1 , X2 , . . .
e uma medida de probabilidade P , que matematicamente especifica a forma da distribuicao
conjunta para qualquer subconjunto de X1 , X2 , . . . que deve incorporar alguma forma de dependencia entre as quantidades aleatorias.
Isso e baseado na especificacao da permutabilidade e no teorema da representacao de De
Finetti (ver por exemplo, Bernardo e Smith, 1995).
Permutabilidade Finita: As quantidades aleatorias X1 , . . . , Xn sao permutaveis sob uma
medida de probabilidade P se,

P (X1 , . . . , Xn ) = P X(1) , . . . , X(n)
(2.28)
para todas as permutacoes definidas no conjunto {1, 2, . . . , n}. Em termos de densidade ou
funcao de probabilidade,

p (x1 , . . . , xn ) = p x(1) , . . . , x(n)
(2.29)
Nota: Observar que a suposicao de permutabilidade captura em essencia a ideia de amostra
aleatoria, aqui sem sentido pois implica a ideia de independencia condicional dado o valor
do parametros do modelo.

2.9. UMA NOTA SOBRE TESTES DE HIPOTESE
2.8.1
24
Teorema da Representac
ao de De Finetti para Quantidades
Aleat
orias 0-1
Se X1 , X2 , . . ., e uma seq
uencia infinita permutavel de quantidades aleatorias 0 1 com
medida de probabilidade P , existe uma funcao distribuicao Q tal que a funcao de probabilidade
conjunta p (x1 , . . . , xn ) para X1 , . . . , Xn tem a forma,
Z
p (x1 , . . . , xn ) =
0
em que Q () = limn P
yn
n
n
1Y
xi (1 )1xi dQ ()
(2.30)
i=1
n

P
com yn =
Xi e = limn
i=1
yn
n
(demonstracao: ver
Bernardo e Smith, 1995).

Uma interpretacao subjetivista para esse resultado:
(a) Os Xi sao julgados como variaveis aleatorias de Bernoulli independentes condicional em
uma quantidade aleatoria ;
(b) A quantidade aleatoria tem uma distribuicao de probabilidade
Q;

yn
(c) Pela lei forte dos grandes n
umeros, = limn n , tal que Q pode ser interpretada
como a crenca sobre a freq
uencia relativa limite dos resultados yi = 1.
(d) Condicional na quantidade aleatoria , X1 , . . . , Xn e uma amostra aleatoria de uma
distribuicao de Bernoulli com parametro gerando uma distribuicao amostral conjunta
p (x1 , . . . , xn | ) =
=
n
Y
i=1
n
Y
p (xi | )
(2.31)
xi (1 )1xi
i=1
em que o parametro tem uma distribuicao a priori Q ().

Considerado como uma funcao de , a distribuicao amostral conjunta e denominada funcao
de verossimilhanca.
2.9
Uma nota sobre Testes de Hip

otese
Na pratica, um estatstico Bayesiano nao considera testes de hipoteses, mas determina

densidades a posteriori para parametros de interesse, por exemplo, 12 ou 1 2 . Apesar disso
podemos sugerir um teste de hipoteses sob o enfoque Bayesiano.
Exemplo 2.3 : Assumir que Y seja uma variavel aleatoria com densidade f (y | ) e supor
o teste de hipoteses H0 : = 0 versus H1 : = 1 em que 0 e 1 sao valores especificados.
Supor que baseado numa amostra aleatoria de tamanho n, y = (y1 , . . . , yn ) temos a estatstica
T = T (y1 , . . . , yn ) apropriada com uma dada distribuicao de probabilidade amostral.
Pela formula de Bayes temos,
P (H0 | T ) =
P (T | H0 ) P (H0 )
P (T | H0 ) P (H0 ) + P (T | H1 ) P (H1 )
em que P (H0 ) e P (H1 ) sao probabilidades a priori para H0 e H1 .

Tambem,
P (T | H1 ) P (H1 )
P (H1 | T ) =
P (T | H0 ) P (H0 ) + P (T | H1 ) P (H1 )

Observar que P (H0 | T ) + P (H1 | T ) = 1.
Portanto,

P (H0 | T )
P (H0 ) P (T | H0 )
=
P (H1 | T )
P (H1 ) P (T | H1 )
25
(2.32)
De (2.32) observar que a razao das probabilidades a posteriori um favor de H0 e igual ao

produto da razao a priori pela razao de verossimilhancas.
Assim,
(i) Se P (H0 | T ) > P (H1 | T ) aceitar H0 ;
(ii) Se P (H0 | T ) < P (H1 | T ) rejeitar H0 .
Observar que esse procedimento pode ser aplicado com varias hipoteses possveis. Entao
achar a hipotese com maior probabilidade a posteriori.
Exemplo 2.4 : Supor que Y seja uma variavel aleatoria com distribuicao normal N (; 1).
Considerar as hipoteses H0 : = 0 versus H1 : = 1. Assumir a priori que P (H0 ) = P (H1 ) =
0, 5.

Observar que T = y (estatstica suficiente para ), y v N ; n1 , isto e,
n
n
P (T | H0 ) = exp y2
2
2
e
i
h n
n
y 1)2
P (T | H1 ) = exp (
2
2
Assim,

exp n2 y2
P (H0 | T )

=
P (H1 | T )
y 1)2
exp n2 (
n n
o
= exp y2 (
y 1)2
2
Isto e,
h n
i
P (H0 | T )
= exp (2
y 1)
P (H1 | T )
2
Como ilustracao numerica supor n = 10 e y = 2 (dos dados). Portanto,
h n
i
P (H0 | T )
= exp (2
y 1) = 3, 1 107
P (H1 | T )
2
Como esse valor e muito pequeno conclumos que devemos rejeitar H0 em favor de H1 : = 1.
2.9.1
Hip
otese simples contra alternativa composta
Supor que H0 seja uma hipotese simples e que H1 seja uma hipotese composta. Supor que
seja o parametro de interesse e que T = T (y1 , . . . , yn ) seja a estatstica do teste.
A razao da posteriori de H0 comparada com a posteriori de H1 e dada por,
P (H0 | T )
P (T | H0 ) P (H0 )
=
P (H1 | T )
P (T | H1 ) P (H1 )
P (H0 ) P (T | H0 , 0 )
R
=
P (H1 ) P (T | H1 , ) () d
em que () e a densidade a priori para sob H1 .
(2.33)
(2.34)

26
Observar que com mais de um parametro devemos integrar os parametros adicionais.

Exemplo 2.5 : Supor que a variavel aleatoria Y tenha uma distribuicao normal N (; 1) e
assumir o teste de hipoteses H0 : = 0 versus H1 : 6= 0. Tambem supor que selecionamos
uma amostra aleatoria de tamanho 10 com y = 2 (dos dados observados).
Observar que T = y e uma
estatstica suficiente para . Assumir P (H0 ) = P (H1 ) = 0, 5.
Observar que y | v N ; n1 .
Portanto,
n 21
n
P (T | H0 , = 0) =
exp y2
2
2
e
n 12
h n
i
2
P (T | H1 , ) =
exp (
y )
2
2
Assumir uma priori normal N (1, 1) para sob H1 , isto e,

1
1
2
() = exp ( 1)
2
2
De (2.33) temos:
P (H0 | T )
= R
P (H1 | T )
n
2
12
12
exp n2 y2
12
n
2
2
1
exp
(
y
1)
d
2
2

1
(2) 2 exp n2 y2

=
R
[(1)2 +n(
y )2 ]
exp
d
2
n
2
1
2
Desenvolvendo o denominador temos:

(
)

Z
( 1)2 + n ( y)2
(n
y + 1)
1
exp
d = exp (n
y + 1) +
2
2
2 (n + 1)
"

2 #
Z
1
n
y+1
exp
d
n+1
2 (n + 1)1
Como
Z
"
1
exp
2 (n + 1)1

2 #

12
n
y+1
2
d =
n+1
n+1
temos:
21

1
exp n2 y2 (2) 2
h
i
1 2 12
(n
y +1)2
n 2
1
n
y
+
1
+
exp
2
n+1
2
2(n+1)

1
(n + 1) 2 exp n2 y2
h
i
=
y +1)2
n
y2
1
1 (n
exp 2 2 + 2 (n+1)
(
"
#)
2
1
1
(n
y
+
1)
= (n + 1) 2 exp
1
2 (n + 1)
P (H0 | T )
=
P (H1 | T )
n
2
2.10. EXERCICIOS
27
Com n = 10 e y = 2 temos:
P (H0 | T )
= 1, 1 108
P (H1 | T )
Assim devemos rejeitar H0 : = 0 em favor de H1 : 6= 0.
2.10
Exerccios
(1) Seja y = (y1 , . . . , yn ) representando uma amostra aleatoria da distribuicao exponencial

com densidade f (y | ) = exp (y) , y > 0, y > 0. Considerar uma distribuicao a priori
conjugada para . Achar:
(a) A densidade a posteriori para .
(b) Um aproximacao normal para a densidade a posteriori para .
(c) A densidade preditiva para uma observacao futura yn+1 .
(d) Achar a moda da distribuicao preditiva para uma observacao futura de yn+1 .
(2) Seja y = (y1 , . . . , yn ) representando uma amostra aleatoria da distribuicao uniforme
com densidade f (y | ) = 1/, 0 < y < e considere uma densidade a priori para dada por
() = a (+1) , > a, > 0 e a > 0 (a conhecido).
(a) Achar a densidade a posteriori para .
(b) Achar a densidade preditiva para uma observacao futura yn+1 .
(3) Considerar uma distribuicao Gaussiana inversa IG (, ) com densidade, f (y | , ) =
12
i
h
2
2y 3
(y
)
, y > 0; > 0 e > 0. Observar que E (y) = e var (y) = 3 /.
exp
2 y
Assumir uma amostra aleatoria y = (y1 , . . . , yn ) e uma priori nao informativa conjunta para
e dada por
1
(, )
, > 0, > 0
Achar:
(a) A densidade a posteriori conjunta para e . Tambem achar a densidade a posteriori
marginal para .
(b) Considerar duas amostras independentes com distribuicoes Gaussianas inversas IG (1 , 1 )
e IG (2 , 2 ) com 1 e 2 conhecidos. Achar a densidade a posteriori marginal para 1 /2 (razao
de medias).
(c) Achar a densidade preditiva para uma observacao futura yn+1 dado y1 , . . . , yn .
Captulo 3
Distribui
c
oes a Priori
Uma distribuicao a priori para um parametro pode ser elicitada de varias formas:
(a) Podemos assumir distribuicoes a priori definidas no domnio de variacao do parametro
de interesse. Como caso particular, poderamos considerar uma distribuicao a priori Beta que
e definida no intervalo (0, 1) para proporcoes que tambem sao definidas no intervalo (0, 1) ou
considerar uma priori normal para parametros definidos em toda reta;
(b) Podemos construir uma priori baseada em informacoes de um ou mais especialistas;
(c) Podemos considerar metodos estruturais de elicitacao de distribuicoes a priori (ver por
exemplo, Paulino et al, 2002);
(d) Podemos considerar distribuicoes a priori nao-informativas quando temos total ignorancia sobre parametros de interesse;
(e) Podemos usar metodos Bayesianos empricos em dados ou experimentos previos para
construir a priori de interesse.
Alguns casos especiais sao dados a seguir:
3.1
M
etodo Estrutural de Elicita
c
ao
Metodo estrutural e qualquer metodo de elicitacao da distribuicao a priori para um parametro baseados em questoes relacionadas diretamente com o parametro (Kadane, 1980).
Como um caso especial assumir que pode assumir um entre os valores 1 , . . . , k ; a partir
da informacao de um especialista podemos atribuir as probabilidades a priori para cada valor
possvel .
M
etodo do Histograma: Considerar uma particao do espaco parametrico em k ink
S
tervalos, isto e, =
i e consultar um especialista para atribuir probabilidades para cada
i=1
intervalo i . Entao, construir um histograma com essas probabilidades.

Exemplo 3.1: Seja um parametro representando a proporcao de componentes defietuosos
em um equipamento hospitalar.
Supor que atribumos a moda da distribuicao como
M igual a MM=3M0,1. Assim,3Mdividir

,
Q
=
,
,
Q
=
,
M
,
o intervalo [0, 1] em k = 6 subintervalos:
Q
=
0,
1
2
3
2
4
4

2
Q4 = M, 3M4+1 , Q5 = 3M4+1 , M6+1 e Q6 = M6+1 , 1 . Da, solicitar a um especialista as
probabilidades pi para cada intervalo, i = 1, . . . , 6 como um exemplo (ver tabela 3.1), considerar:
A partir dos resultados da tabela 3.1, ajustar uma distribuicao Beta(a, b) com a = 2, 4 e
b = 13, 6 que melhor se ajusta a esses histograma.
Assim, considerar a priori v Beta (2, 4; 13, 6).
28
3.2. METODO
PREDITIVO DE ELICITAC
AO
29
Tabela 3.1: Distribuicao a priori para pi .

Qi
pi
[0; 0, 05]
0, 096
(0, 05; 0, 075] 0, 108
(0, 075; 0, 1] 0, 1233
(0, 1; 0, 325] 0, 6308
(0, 325; 0, 55] 0, 0415
(0, 55; 1]
0, 0004
3.2
M
etodo Preditivo de Elicita
c
ao
Na pratica, um especialista pode achar mais simples fornecer informacao nas observacoes
do que em parametros (ou sumarios ou estatsticas dessas observacoes).
Assumir que f (y | ) e o modelo formulado pelo estatstico. Solicitar a informacao de um
especialista sobre uma estatstica T com distribuicao pT (t).
Seja fT (t | ) a distribuicao dessa estatstica baseada no modelo estatstico elaborado pelo
estatstico.
Se h () e a distribuicao a priori desconhecida, entao pT (t) e h () estao relacionadas a partir
da relacao,
Z
(3.1)
pT (t) = fT (t | ) h () d
Da, escolher h () tal que a integral acima leve a uma boa aproximacao para pT (t) (nem
sempre e um problema simples).
Uma simplificacao possvel e escolher uma famlia de distribuicao a priori h () e da escolher
os valores dos hiperparametros que melhor se aproxime de pT (t).
Exemplo 3.2: Supor o parametro de uma distribuicao binomial; assumir que a distribuicao a priori seja uma distribuicao Beta(a, b); a seguir, o estatstico solicita a um especialista
a distribuicao para o n
umero de sucessos T em uma amostra imaginaria de dimensao m. A
distribuicao marginal (preditiva) para T e dada por,
Z 1
m t
1
a1 (1 )b1 d
(3.2)
pT (t) =
(1 )mt
B (a, b)
t
0

m B (a + t, m t + b)
=
t
B (a, b)
para t = 0, 1, 2, . . . , m e B (a, b) = (a)(b)
e a funcao Beta.
(a+b)
Entao, achar os hiperparametros a e b. Winkler (1980) sugere pedir ao especialista elicitacao
da probabilidade de se observar um sucesso (T = 1) na seguintes situacoes:
(i) m = 1
(ii) m = 2
Supor que ele responde p1 e p2 , respectivamente. De (3.2), temos:
a
; (m = 1)
a+b
2ab
=
; (m = 2)
(a + b) (a + b + 1)
p1 =
p2
(3.3)
3.3. DISTRIBUIC
OES
A PRIORI NAO-INFORMATIVAS
30
Assim, resolver o sistema em (3.3) para achar os valores de a e b.
3.3
Distribuico
es a Priori N
ao-informativas
O uso de distribuicoes a priori nao-informativas tem varios objetivos:

(a) Deduzir crencas a posteriori para quem parte de um conhecimento escasso, isto e, quando
os dados fornecem grande parte da informacao sobre o parametro (ignorancia a priori).
(b) Permitir a comparacao com os resultados obtidos da inferencia classica que so usa a
informacao amostral.
(c) Averiguar a influencia de uma priori subjetiva quando comparada com os resultados
obtidos usando uma priori nao-informativa.
M
etodo de Bayes-Laplace: Assumir que o parametro seja discreto tomando k valores
1 , . . . , k . Uma priori nao-informativa para e dada pela distribuicao uniforme discreta,
(i ) =
1
k
(3.4)
em que i = 1, 2, . . . , k.
Observar que quando e contnuo, o uso de distribuicoes a priori uniformes para pode
levar a distribuicoes a priori nao-uniformes para transformacoes = () de . Neste caso, se
() e uma distribuicao a priori para , entao,

d
(3.5)
() = [ ()]
d
Observar que () nao e necessariamente uniforme.
Exemplo 3.3: Seja o parametro de uma distribuicao de Bernoulli, 0 < < 1. Pela
regra de Bayes-Laplace, uma priori nao-informativa para e dada pela distribuicao uniforme
contnua em (0, 1), isto e, () = 1, 0 < < 1.
Considerando a reparametrizacao = ln 1
, tem uma distribuicao logstica padronizada (o parametro de locacao e igual a zero e o parametro de escala e igual a um), isto
e,
exp ()
(3.6)
() =
[1 + exp ()]2
em que < < .
Supor agora uma distribuicao a priori uniforme para (priori impropria). Isso corresponde
a` uma distribuicao a priori para dada por,
() 1 (1 )1
(3.7)
para 0 < < 1, que e o n

ucleo de uma distribuicao beta (a, b) com a = b = 0 (priori impropria).
Dessa forma, precisamos ter muito cuidado em usar a priori nao-informativa de BayesLaplace a`s aplicacoes em geral.
M
etodo de Jeffreys: Considerar a medida de informacao de Fisher para um parametro
em toda reta,
(
2 )
d ln f (y |)
I () = E
(3.8)
d
em que o valor esperado e determinado sob a distribuicao f (y|) .
3.3. DISTRIBUIC
OES
Para qualquer transformacao um a um de , temos,
2
d
I () = I [ ()]
d
31
(3.9)

Assumir que nessa nova parametrizacao , a funcao de verossimilhanca so muda em amostras diferentes de mesmo tamanho em locacao e nao em escala. Assim, teramos variancia
constante na aproximacao assintotica (ver 1.27) para a distribuicao a posteriori para , ou seja
I () =constante (informacao de Fisher constante).
Dessa forma, teramos de (3.9),

d
d
2
= I 1 [ ()]
(3.10)
Isto e,
1
d
= I 2 [ ()]
d
(3.11)
Como nessa parametrizacao , a funcao de verossimilhanca so muda em locacao para amostras diferentes de mesmo tamanho, uma priori nao-informativa para e dada por uma distribuicao localmente uniforme, isto e,
() constante
(3.12)
Isso implica que na parametrizacao , a priori nao-informativa correspondente e dada por,

d
(3.13)
() = [ ()]
d

d
constante
d
De (3.11), observar que
para dada por,
d
d
= I 2 (), o que leva a uma priori nao-informativa de Jeffreys

1
() I 2 ()
(3.14)
importante salientar que a priori de Jeffreys e invariante.

E
Exemplo 3.4: Seja
Pn Xi uma variavel aleatoria com distribuicao de Bernoulli, i = 1, . . . , n.
dessa forma, Y =
cao binomial b (n, ) em que a informacao de
i=1 Xi tem uma distribui
1
1
Fisher e dada por I () = n (1 ) .
Portanto, uma priori nao-informativa de Jeffreys para e dada por,
1
() 2 (1 ) 2
(3.15)

Isto e, v Beta 12 , 12 .
Nota: Observar que a informacao de Fisher (3.8), tambem pode ser dada na forma,
2

d ln f (y p )
I () = E
(3.16)
d2
Exemplo 3.5: Seja Yi uma variavel aleatoria com distribuicao de Poisson com parametro
3.3. DISTRIBUIC
OES
32
, i = 1, . . . , n. Assumindo observacoes i.i.d., a funcao de verossimilhanca para e dada por,

L () =
n
Y
exp () yi
(3.17)
yi !
i=1
Isto e,
exp (n)
L () =
n
Q
yi !
Pn
i=1
yi
(3.18)
i=1
O logaritmo da verossimilhanca e dado por,

l () = n + n
y log () log
n
Y
!
yi !
(3.19)
i=1
P
em que n
y = ni=1 yi .
A primeira e segunda derivadas de l () sao dadas, respectivamente por,
dl
n
y
= n +
(3.20)
d
n
y
d2 l
2 = 2
d

Observando que E (Y ) = , isto e, E Y = , a informacao de Fisher para e dada por,
2
dl
n
I () = E 2 =
(3.21)
d
Dessa forma, a priori de Jeffreys para e dada por,
1
() I 2 ()
Isto e,
()
(3.22)
1 , > 0
2
Combinando-se (3.18) com (3.22) , encontramos a distribuicao a posteriori para dada por,
1
( | y) (ny+ 2 )1 exp (n)
(3.23)
Isto e,

1
| y v Gama n
y + ,n
2
Um estimador de Bayes com respeito a` funcao perda quadratica para e dado por,
y+
= E ( | y) = n
n
1
2
= y +
1
2n
(3.24)
Observar que o EMV (estimador de maxima verossimilhanca) para e dado por = y.

Exemplo 3.6: Assumir que Y seja uma variavel aleatoria com densidade exponencial
f (y | ) = exp (y) , y > 0. Assumir uma amostra aleatoria de tamanho n dada por
y = (y1 , . . . , yn ).
3.3. DISTRIBUIC
OES
33

L () =
n
Y
exp (yi )
(3.25)
i=1
Isto e,
L () = n exp
n
X
!
yi
(3.26)
i=1
Observar que E (Y ) = 1 .
O logaritmo da funcao de verossimilhanca para e dado por,
l () = n log n
y
(3.27)
A primeira e segunda derivada de l () sao dadas, respectivamente, por

dl
n
=
n
y
d
n
d2 l
2 = 2
d
(3.28)
A informacao de Fisher e dada por,

d2 l
n
I () = E 2 = 2
d
(3.29)
Portanto, a priori de Jeffreys para e dada por,

()
(3.30)
Combinando-se (3.26) com (3.30), encontramos a distribuicao a posteriori para dada por,
( | y) n1 exp (n
y)
(3.31)
| y v Gama (n; n
y)
(3.32)
Isto e,
Observar que o estimador de Bayes para com respeito a funcao de perda quadratica e
dado por,
= E ( | y) = n = 1
(3.33)
n
y
y
Neste caso, o estimador de Bayes coincide com estimador de maxima verossimilhanca para
.
Caso Multiparam
etrico: De forma similar ao caso uniparametrico (ver Box e Tiao, 1973),
determinamos a priori de Jeffreys para um vetor de parametros = (1 , . . . , k )0 .
O logaritmo da funcao de verossimilhanca para um vetor = (1 , . . . , k )0 pode ser aproxi na forma,
mado por uma serie de Taylor na vizinhanca do EMV
0

n

D
(3.34)
l () = log L () =l

2
3.3. DISTRIBUIC
OES
34
em que
1 2l
D =
n i j

(3.35)
para i, j = 1, 2, . . . , k. Observar que D e uma matriz k k.

, em que In
e a matriz de informacao de Fisher,
Para n grande, D =
n1n In

2l
In = E
i j
(3.36)
Considerar uma transformacao () tal que In () seja uma matriz de constantes indepedentes de tal que a funcao de verossimilhanca so muda em locacao. Isto e,
I () = AIn () A0
(3.37)
em que

A=
(1 , . . . k )
(1 , . . . k )
Portanto,
|In ()| = |A|2 |In ()|
(3.38)
em que || denota determinante. Entao considerar

(1 , . . . k )
1

|In ()| 2
|A| =

(1 , . . . k )
(3.39)
em que conclui-se que a priori de Jeffreys e dada por,

1
() |In ()| 2
(3.40)
A matriz de informacao de Fisher dada por,

2

2

2
ln f (yp)
ln f (yp)
E lnf 2(yp)
E
.
.
.
E
2 1 2
21 k
ln f (yp)
ln f (yp)
E 2
. . . E
2 k
2
.
.
I () =
.
.
.
.

2
ln f (yp)
E 2
(3.41)
Exemplo 3.7: Seja y = (y1 , . . . , yn ) uma a. a. de tamanho n da distribuicao normal

0
N (; 2 ). Aqui, = (, 2 ) .
A funcao de verossimilhanca para = (, 2 ) e dada por,
"
#
n
X
n

1
L () = f (y | ) 2 2 exp 2
(yi )2
(3.42)
2 i=1
O logaritmo l () da funcao de verossimilhanca L () e dada por,
n

n
1 X
2
l () = ln L () ln 2
(yi )2
2
2 i=1
(3.43)
3.3. DISTRIBUIC
OES
35
As segundas derivadas de l () com respeito à e 2 sao dadas por,

2l
1
= 2n
2
n
2
n
2 X
l
(yi )2
2 =
2
3
2
2
2
( )
2 ( )
2 ( ) i=1
n
1 X
2l
=
(yi )
( 2 )
( 2 )2 i=1
2
l
Como E (Yi ) = e E (Yi )2 = 2 , observamos que E
=
2

2l
E (
= 0.
2)
Portanto, a informacao de Fisher e dada por,
n

0
2
2
I , =
0 2n4
(3.44)
n
,
2

2l
E (
=
2 )2
n
2 4
(3.45)
A priori de Jeffreys (ver 3.40) e dada por,

1
, 2 3
(3.46)
para < < e 2 > 0.

A distribuicao a posteriori conjunta para e 2 e dada por,
"
#
n
X
(n+3)

1
2
exp 2
(yi )2
, 2 p y 2
2 i=1
M
etodo da Entropia M
axima: Supor inicialmente que seja um parametro discreto
com funcao de probabilidade h (). A entropia e definida como o valor esperado de ln h (),
dada por,
X
E [h ()] =
ln [h (i )] h (i )
(3.47)
i
Da, usar esse conceito para encontrar uma distribuicao a priori nao-informativa.
Exemplo 3.8: Supor que o parametro assume um n
umero finito de valores distintos
1 , . . . , k , com probabilidade P ( = i ) = pi > 0, i = 1, . . . , k.
Pk Dessa forma, usar o metodo de entropia
Pk maxima para achar pi , i = 1, . . . , k com a restricao
i=1 pi = 1 que maximize E [h ()] =
i=1 pi ln pi .
Introduzindo multiplicadores de Lagrange, devemos maximizar,
!
k
k
X
X
E [h ()] =
pi ln pi +
pi 1
(3.48)
i=1
De
E [h()]
pi
i=1
= 0, i = 1, . . . , k temos o sistema de equacoes,

ln pi 1 + = 0
(3.49)
para i = 1, . . . , k, isto e, ln pi = 1 para todo i = 1, . . . , k, o que leva pi a ser contante. Assim

pi = k1 , i = 1, . . . , k e uma priori nao-informativa que maximiza a entropia.
Outra possibilidade e assumir uma ignorancia parcial (e nao total) onde se conhece alguns
3.4. EXERCICIOS
36
momentos da distribuicao. Como um caso especial, assumir novamente discreto tal que
conhecemos para m funcoes gj () , j = 1, . . . , m os seus momentos E [gj ()] = j .
Com a introducao de multiplicadores de Lagrange devemos maximizar E [h ()] dado por,
!
"
#
m
X
X
X
X
E [h ()] =
pi ln pi +
pi 1 +
j
gj (i ) pi j
(3.50)
i
j=1
No caso contnuo a entropia de uma distribuicao h () e definida por,

Z
E [h ()] = h () ln h () d
(3.51)
Nota: Outros metodos para obtencao de distribuicoes a priori nao-informativas sao introduzidos na literatura. Bernardo (1979) introduz a priori de referencia explorando a medida de
divergencia de Kullback-Leibler (ver Bernardo e Smith, 1995).
3.4
Exerccios
(1) Seja X = (X1 , . . . , Xn ) uma amostra aleatoria de uma distribuicao normal N (, 2 ).

(a) Assumindo conhecido, achar uma priori nao-informativa de Jeffreys para .
(b) Assumindo conhecido, achar uma priori nao-informativa de Jeffreys para .
(c) Com e desconhecidos, achar a priori de Jeffreys para e .
(2) Seja T uma variavel aleatoria representando o tempo de vida de um componente, com
distribuicao exponencial com densidade,
f (t | i ) = i exp (i t) , t > 0; i 0
em que i =
1
,
i
i = E (T | i ) e o modelo de potencia inversa i =
,
Vi
i = 1, . . . , k usado em
testes acelerados industriais (Vi e fixo) .

Considere k = 2 e os dados de um teste acelerado com dois nveis para a variavel stress Vi :
i
1
2
Vi ni
10 5
20 8
tji ; i = 1, 2; j = 1, . . . , ni
6, 8, 10, 12, 14
4, 5, 5, 6, 8, 8, 9, 14
(a) Escrever a funcao de verossimilhanca para e ;

(b) Achar uma priori nao-informativa para e usando a regra de Jeffreys;
(c) Achar a posteriori conjunta para e ;
(d) Achar a posteriori marginal para .
(3) Considerar uma variavel aleatoria Y com densidade Gaussiana inversa com parametros
e e densidade,

1
2
1 1
1
1 3 2
f (y | , ) = 2 y
exp y
y 1
2
3
em que y > 0; > 0; > 0, E (y) = e var (y) = .

(a) Assumindo uma amostra aleatoria de tamanho n (y1 , . . . , yn ) achar uma densidade a
priori nao informativa conjunta para e usando a regra de Jeffreys;
3.4. EXERCICIOS
37
(b) Achar a distribuicao a posteriori conjunta para e usando a priori obtido em (a) ;
(c) Achar a densidade a posteriori marginal para ;
(d) Assumindo conhecido, achar uma priori nao-informativa para usando a regra de
Jeffreys.
Captulo 4
Aproxima
co
es Num
ericas e M
etodos de
Monte Carlo
Na obtencao de sumarios a posteriori de interesse, geralmente precisamos resolver integrais
Bayesianas que nao apresentam solucao analtica. Isto e comum quando temos um vetor de
parametros.
Varias alternativas sao introduzidas na literatura para resolver essas integrais Bayesianas.
A seguir, apresentaremos alguns casos especiais.
4.1
Aproximac
ao de Laplace
Supor que estamos interessados em achar momentos a posteriori da forma,

Z
E [g () | y] = g () ( | y) d
(4.1)
em que g () e uma funcao de interesse.

Como a distribuicao a posteriori para e dada por,
( | y) = R
f (y | ) ()
f (y | ) () d
(4.2)
em que f (y | ) e a funcao de verossimilhanca para e () e uma priori para , podemos

escrever (4.1) na forma:
R
g () f (y | ) () d
E [g () | y] = R
(4.3)
f (y | ) () d
em que = (1 , . . . , k )0 e y = (y1 , . . . , yn )0 e o vetor de dados.
Supor g () uma funcao positiva. Assim podemos reescrever (4.3) por,
R
exp [nh ()] d
R
E [g () | y] =
exp [nh ()] d
(4.4)
em que nh () = ln () + ln f (y | ) e nh () = ln g () + ln () + ln f (y | ).
Caso Uniparam
etrico: Seja unidimensional ( R) em que maximiza h () e
h i 21
h
i 12
00
00
maximiza h (). Definir
= h
e
= h
(h00 (.) e a segunda derivada

de h (.)).
38
DE LAPLACE
4.1. APROXIMAC
AO
39
As aproximacoes de Laplace para as integrais no numerador e denominador de (4.4) sao

dadas respectivamente por,
Z
h
i
1
exp [nh ()] d =
2
n 2 exp nh
(4.5)
Z
h
i
1
exp [nh ()] d =
2
n 2 exp nh
Observe que as aproximacoes de Laplace sao aproximacoes normais para os integrandos.
Assim, obtem-se a aproximacao

io
n
h
\
(4.6)
exp n h h
E [g () | y]
=
Tierney e Kadane (1986) mostram que a aproximacao (4.6) e bem precisa e satisfaz,

(4.7)
E [g () | y] =
E [g () | y] 1 + o n2
em que o [(n2 )] e a ordem do erro de aproximacao (observar que an = (bn ) se abnn 0 quando
n ).

Caso Multiparam
etrico: Seja = (1 , . . . , k ) Rk . Neste caso a aproximacao de
Laplace e dada por,
Z

12
h
i
k
exp nh
exp [nh ()] =

(2) 2 n 52 h
(4.8)

2
2
h()
em que maximiza h () e 5 h = i j |= e a matriz hessiana de H calculada

ij
em .

21
21

e
, em que
mazimiza h () e
Escrevendo
= n 52 h
= n 52 h
maximiza h ( ), encontramos a aproximacao de Laplace,

io
n
h
(4.9)
E [g () | y]
=
exp n h h
Podemos usar a aproximacao de Laplace para calcular momentos a posteriori de interesse,

densidades preditivas e densidades a posteriori marginais de interesse (ver Tierney e Kadane,
1986).
Exemplo 4.1: Seja Y uma vari
avel aleatoria com distribuicao binomial b (n, ) e assumir
1 1
uma distribuicao a priori Beta 2 , 2 para o par
ametro . A distribuicao a posteriori para e
dada pela distribuicao Beta y + 12 , n y + 21 .
Neste caso, observamos que a media a posteriori para e dada (forma exata) por E ( | y) =
(y+ 12 )
.
(n+1)
Como ilustracao numerica, vamos considerar a aproximacao de Laplace para a media a

posteriori para . Observar que (ver 4.4),
R1
E ( | y) =
0
R1
0
y+ 2 (1 )ny 2 d
y 2 (1 )ny 2 d
(4.10)
DE LAPLACE
4.1. APROXIMAC
AO
40
Considerar a aproximacao de Laplace para a integral,

Z 1
Z 1
b
a
exp [nh ()] d
(1 ) d =
(4.11)
em que nh () = a ln + b ln (1 ). O maximo de h () e dado (de h0 () = 0) por

3
= a . A segunda derivada de nh () calculada em e dada por nh00 () = (a+b) , isto
(a+b)
ab
h
i
h i 12
1
2
aa bb
e,
= h00
= n(ab)3 . Tambem exp nh = (a+b)
a+b .
(a+b) 2
Dessa forma, a aproximacao de Laplace para (4.11) e dada (ver (4.5)) por,
Z 1
1
1
2aa+ 2 bb+ 2
b
a
(1 ) d=
3
0
(a + b)a+b+ 2
(4.12)
Com a = y + 12 , b = n y 21 (numerador de (4.10)) e a = y 12 , b = n y 12 (denominador

de 4.10), encontramos
y+1
1
(n 1)n+ 2 y + 21
E ( | y) =
(4.13)

3
nn+ 2 y 12
Nota: A aproximacao de Laplace para integrais nao e invariante à reparametrizacoes (ver
Achcar e Smith, 1989).
Exemplo 4.2: Considerar a razao das medias de duas distribuicoes exponenciais com
medias e , respectivamente. Seja y11 , . . . , y1n uma a. a. de tamanho n de uma distribuicao
exponencial com media e seja y21 , . . . , y2n uma a. a. de tamanho n de uma distribuicao
exponencial com media . Assumir independencia entre as duas amostras.
A funcao de verossimilhanca para e e dada por,
L (, ) ()n exp n
y1 1 n
y2 1
P
P
y2 = ni=1 y2i .
em que n
y1 = ni=1 y1i e n
(4.14)
A distribuicao a priori de Jeffreys para e e dada por,

(, )
(4.15)
em que > 0 e > 0.

A razao das medias e dada por = . A media a posteriori para e dada por,

R R n (n+2)
n
y1
n
y2

exp
dd

|y = RR
E
(n+1) (n+1) exp ny1 ny2 dd
Considerar a aproximacao de Laplace para a integral,

Z Z
Z Z
n
y1 n
y2
a b
exp
dd =
exp [nh (, )]
em que nh (, ) = a ln b ln
n
y1
=
O maximo de h (, ) e dado por
(4.16)
(4.17)
n
y2
.
n
y1
a
=
e
n
y2
.
b
h
Tambem n
|(,
) =
2
a3
;
(n
y1 )2
4.2. METODO
DE MONTE CARLO ORDINARIO
2
h
n
| ) =
2 (,
b3
(n
y2 )2
41
n h
e dada por,
e
|(,
) = 0. Portanto a matriz hessiana (ver 4.8)

!
a3

0
2

= (ny1 )
n2 h ,
(4.18)
b3
0
(n
y )2
2
n
h

io 21

isto e, det n2 h ,
=
(n
y1 )(n
y2 )
3
a2 b2
h

i

=
. Tambem, exp nh ,
aa bb
(n
y1 )a (n
y2 )b
exp (a b).
Assim a aproximacao de Laplace (ver 4.8) para (4.17) e dada por,

Z Z
a b

3
3
y2
2aa 2 bb 2 exp [ (a + b)]
n
y1 n
dd=
exp
na+b2 y1a1 y2b1
(4.19)
Dessa forma, usando (4.19) no numerador e denominador de (4.16) encontramos,

1

n 3

\
n 2 (n + 2)n+ 2 y1
E
|y =
y2
(n + 1)2n1
Observar que o resultado exato para esse caso e dado por,

n
y1
E
|y =
n 1 y2
4.2
(4.20)
(4.21)
M
etodo de Monte Carlo Ordin
ario
Supor que estamos interessados em aproximar uma integral na forma,

Z
E [g () | y] = g () ( | y) d
(4.22)
em que y e podem ser vetores.

Pelo metodo de Monte Carlo ordinario, simular uma amostra 1 , . . . , n da distribuicao a
posteriori ( | y). Assim, (4.22) e aproximado por,
n
1X
E [g () | y] =
g (i )
n i=1
(4.23)
Observar que pela lei forte dos grandes n

umeros, E [g () | y] converge quase certamente
para E [g () | y].
A precisao dessa aproximacao pode ser medida pelo erro-padrao de Monte Carlo, dado por,
"
n
X
1
p
n (n 1) i=1
#2 12
n
X
1
g (i )
g (i )
n i=1
(4.24)
Intervalos de credibilidade para podem ser obtidos usando o metodo de Monte Carlo
ordinario. Ordenar a amostra simulada de ( | y) : (1) < (2) < . . . < (n) . Um intervalo de
credibilidade 100% para e dado por,
h
i
Rc () = (1) ; (1+)
(4.25)
2
4.3. METODO
DE MONTE CARLO POR IMPORTANCIA
42
(1)
cujos extremos
de probabilidade
a posteriori
e (1+)
de .
2
2
h definem quantis
i
h
i
Isto e, P (1) | y = (1)
e P (1+) | y = 1 (1)
= (1+)
.
2
2
2
2
4.3
M
etodo de Monte Carlo por Import
ancia
Observar que em muitas aplicacoes, nao podemos simular uma amostra diretamente da
distribuicao a posteriori ( | y), como considerado usando o metodo de Monte Carlo ordinario.
Uma alternativa seria simular uma amostra de uma distribuicao semelhante a` distribuicao
a posteriori ( | y), uma amostragem via funcao de importancia.
Seja p () uma densidade da qual seja facil simular amostras e que aproxime a distribuicao
( | y).
Assim, podemos escrever (4.22) na forma,
R
Z
g () f (y | ) () d
R
(4.26)
g () ( | y) d =
f (y | ) () d
R
g () f (y|)()
p () d
p()
=
R f (y|)()
p () d
p()
R
g () w () p () d
R
=
w () p () d
em que w () = f (y|)()
, f (y | ) e a funcao de verossimilhanca para e () e a distribuicao
p()
a priori para .
Obtendo uma amostra 1 , . . . , n de p (), encontramos a aproximacao de Monte Carlo para
E [g () | y] dada por,
n
X
1
\
P
wi g (i )
(4.27)
E [g () | y] = n
i=1 wi i=1
em que
wi =
f (y | i ) (i )
p (i )
Nota: Observar que o metodo de amostragem via funcao de importancia atribui mais peso
a` regioes em que p () < ( | y) e menos peso às regioes em que p () > ( | y). Geweke
(1989) mostra que se o suporte de p R() inclui suporte de ( | y), os i , i = 1, . . . , n sao os
elementos de uma a. a. de p () e se g () ( | y) d existe e e finito, entao,
n
X
1
Pn
i=1
wi
Z
wi g (i )
i=1
q.c
g () ( | y) d
(4.28)
O erro-padrao dessa estimativa de Monte Carlo via funcao de importancia e dado por,
1
Pn
"
n
X
j=1 wj i=1
g (i ) Pn
j=1 wj
n
X
i=1
#2
wi g (i )
wi2
1
2
(4.29)
Observar que a razao de convergencia depende de como p (), a funcao de importancia, esta
proxima de ( | y).
Uma boa escolha da funcao de importancia segue as propriedades:
1. Simplicidade na geracao de amostras;
4.3. METODO
DE MONTE CARLO POR IMPORTANCIA
43
2. Ter caudas mais pesadas do que ( | y);

3. Ser uma boa aproximacao para ( | y).
Para vetores parametricos , podemos considerar como funcao de importancia distribuicoes
normais multivariadas ou distribuicoes t de Student multivariada.
Exemplo 4.3: De acordo com um modelo genetico, animais de uma determinada especie
estao distribudos em 4 categorias, de acordo com as probabilidades: p1 = (2+)
; p2 = (1)
; p3 =
4
4
(1)
; p4 = 4 , 0 < < 1. Assumir que o parametro de interesse tem uma distribuicao a priori
4
Beta(a, b) com a e b conhecidos ePpara uma amostra de tamanho n se observa yi animais na
i esima categoria, i = 1, 2, 3, 4; ni=1 yi = n. Assim a distribuicao a posteriori para e dada
por:
( | y) (2 + )y1 (1 )y2 +y3 +b1 y4 +a1
(4.30)
para 0 < < 1.
O logaritmo da posteriori e dado por
L () = ln [ ( | y)] y1 ln (2 + ) + (y2 + y3 + b 1) ln (1 ) + (y4 + a 1) ln ()
A primeira e segunda derivadas de L () sao dadas, respectivamente, por
y1
y4 + a 1 (y2 + y3 + b 1)
+
2+
1
y1
(y2 + y3 + b 1) y4 + a 1
+
L00 () =
2 +
2
(2 + )
(1 )2
L0 () =
i1

h
; assumir esses valores como
Seja o valor total que L0 = 0 e 2 = L00
aproximacao para a media e para a variancia da distribuicao importancia. Possveis candidatas:
distribuicao normal e distribuicao beta.
Entao, seguir o seguinte roteiro:
1. Simular 1 , . . . , m de p () a funcao de importancia escolhida;
2. Calcular wi =
3. Calcular
Pm1
f (y|i )(i )
,
p(i )
i=1 wi
Pm
i=1
i = 1, . . . , m;
wi g (i ) com,
g () = para o calculo aproximado da media a posteriori;

g () = 2 para obter uma aproximacao para a variancia a posteriori.
Exemplo 4.4: Considerar uma amostra aleatoria de tamanho n = 5 (11, 4; 7, 3; 9, 8; 13, 7; 10, 6)
de uma densidade de Cauchy

1
f (y | ) = 1 1 + (y )2
(4.31)
em que < y < . A media amostral e dada por y = 10, 56.

Assumindo uma priori nao informativa localmente uniforme () constante, < y <
, a densidade a posteriori para e dada por,
( | y) = cH ()
(4.32)

4.4. ALGORITMO DE AMOSTRAGEM-REAMOSTRAGEM POR IMPORTANCIA
44
em que

1
H () = 105 1 + (11, 4 )2

1
1
1
1 + (7, 3 )2
1 + (9, 8 )2
1 + (13, 7 )2

2 1
e
1 + (10, 6 )
Z
H () d
c1 =
(4.33)

Observar que a variacao de na posteriori esta entre 6 e 16 com media amostral y = 10, 56.
Portanto, escolher uma funcao importancia p () dada por uma densidade normal com media
11 e variancia igual a` 4. Entao, gerar M = 1000 observacoes da distribuicao normal N (11; 4)
e aproximar a media a posteriori para por (4.27), isto e,
E\
( | y) =
1000
X
wi i
(4.34)
i=1
H ( i )
em que wi =
p( i )
P1000
H( m )
i=1
p( m )
e H (i ) e dado por (4.33) e p (m ) e dado por p (m ) =
1
2 2
h
1
exp 2(4)
(m 11)2
Assim encontramos E\
( | y)=10,
620.
(Colocar programa em R!!!)
4.4
Algoritmo de Amostragem-Reamostragem por Import

ancia
Outra forma para simular amostras para uma distribuicao a posteriori de interesse e dada
pelo algoritmo SIR (sampling-importance-resampling).
Assumir que a posteriori de interesse g () = ( | y) e difcil para simular amostras
diretamente. Dessa forma, considerar uma funcao importancia p () que aproxima g () e e
simples para simulacao de amostras.
O algoritmo SIR apresenta duas etapas:
1. Gerar m amostras 1 , 2 , . . . , m de p (). Calcular os pesos wi = w ( i ) =
i = 1, 2, . . . , m.
g ( i )
p( i )
para
2. Selecionar uma amostra 1 , . . . , n com reposicao de 1 , 2 , . . . , m com probabilidades

proporcionais a` [w ( 1 ) , . . . , w ( m )].
Rubin (1987) mostra que a amostra ( i ) e aproximadamente distribuda da densidade a
posteriori de interesse g ( ).
Alguns autores denominam este procedimento como bootstrap ponderado pois selecionamos
amostras com reposicao de ( 1 , . . . , m ) usando pesos (probabilidades) diferentes w ( i ).
importante salientar que:
A precisao aumenta quando m na amostra original aumenta. E
1. Se as medias de p () e g () sao muito diferentes, e importante que um n
umero suficiente
de pontos amostrais de p () seja selecionado na regiao em que g () esta concentrado.


45
2. Em inferencia Bayesiana, g () seria a posteriori ( | y) e p () poderia ser a distribuicao

a priori para se a priori for propria; dessa forma, os pesos seriam proporcionais à funcao
de verossimilhanca, pois,
w ( i ) =
L ( i ) ( i )
= L ( i )
( i )
Exemplo 5.4: Considerar a razao de medias de duas distribuicoes exponenciais com parametros e . Assumir uma amostra de tamanho n, y11 , . . . , y1n de uma distribuicao exponencial
com media e uma amostra de tamanho n, y21 , . . . , y2n de uma distribuicao exponencial com
media . A funcao de verossimilhanca para e , assumindo independencia entre as duas
amostras e dada por

L (, ) ()n exp n
y1 1 n
y2 1
em que
n
y1 =
n
X
y1i ; n
y2 =
i=1
n
X
y2i
i=1
(a) Achar a priori de Jeffreys para e ;

(b) Achar a aproximacao de Laplace para E ( | y) quando = g (, ) =
meidas);
(c) Considerando a reparametrizacao =
(e) Considerar n = 10, y1 = 4 e y2 = 2. Calcular E ( | y) em cada caso.

Soluc
ao:
(b)

| y =
E ( | y) = E

R R n (n+2)
n
y1
n
y2
exp
dd
0
0

= RR
(n+1) (n+1) exp ny1 ny2 dd
0
0

Resultado:
I1 =
a b

y2
n
y1 n
exp
dd
Z Z
=
exp [nh (, )] dd
em que
nh (, ) = a log () b log ()
n
y1 n
y2
Laplace:
h

i 12
h

i
2
I1 u (2) det nD h ,
exp nh ,
(razao de
e = , achar a priori de Jefreys para e ;
(d) Achar a aproximacao de Laplace para E ( | y) na parametrizacao =
Z Z
e = .

46
n
y1
a
n
y2
b
nh
a n
y1
=
= + 2 =0
b n
y2
nh
=
= + 2 =0
n 2 h
a
2n
y1
=
2
2
3
2
n h
b
2n
y2
=
2
2
3
n 2 h
= 0
n 2 h
a3
|
=
)
(,
2
n (n
y1 )2
n 2 h
b3
|
=
(,) n (n
2
y2 )2
a3
n(n
y1 )2

2
nD h , =
0
b3
n(n
y2 )2
isto e,
n
h

io 12
(n
y1 ) (n
y2 )
2
det nD h ,
=
3 3
a2 b2

h

i n
a
b
n
y
a
n
y
b
n
y
y
1
1
2
2

=
exp
exp nh ,
a
b
n
y1
n
y2
Assim,
h
i
exp nh , =
aa b b
(n
y1 )a (n
y2 )b
exp (a b)
Conclus
ao:
3
2aa 2 bb 2 exp [ (a + b)]

I1 u
na+b2 y1a1 y2b1
Observar que com a = n, b = n + 2 no numerador de I1 e com a = n + 1 e b = n + 1 no
denominador de I1 , temos:

E
|y
nn 2 (n + 2)n+ 2
u
(n + 1)2n1
y1
y2
Nota: O resultado exato neste caso e dado por:

n
y1
E
|y =
n1
y2
(c)
Priori de Jefreys para e :
(, ) 1 1 , > 0, > 0
4.5. EXERCICIOS
47
Posteriori conjunta para e :

n1
y1 + y2 ) , > 0, > 0
(, | y) 2n1 exp n1 (
(d)
A media a posteriori para e dada por:

R R n (2n+1)

exp n1 (
y1 + y2 ) dd
0
0
E ( | y) = R R n1 (2n+1)

1
exp
n
(
y
+
y
)
dd
1
2
0
0
Aproximac
ao de Laplace:
Z
a b
exp n

(2) aa+ 2 (b a)ba 2 exp (b)
(
y1 + y2 ) dd u
3
nb 2 y1ba2 y2a+1
entao:
E\
( | y) u
nn+ 2 (n + 1)n 2
1

1
(n 1)n 2 (n + 2)n 2
y1
y2
Ilustrac
ao Num
erica:
n = 10; y1 = 4; y1 = 2
(a) Exato:

n
y1
|y =
= 2, 2222
E
n1
y2
(b) Laplace na parametrizacao e :
1

3
\
nn 2 (n + 2)n+ 2 y1
E
|y u
= 2, 21805
y2
(n + 1)2n1
(c) Laplace na parametrizacao =
e :
3
E\
( | y) u
nn+ 2 (n + 1)n 2
1

1
(n 1)n 2 (n + 2)n 2
y1
y2

= 2, 16442
Conclus
ao: Melhor aproximacao na parametrizacao e .
4.5
Exerccios
(1) Seja y1, . . . , yn uma amostra aleat

oria de tamanho n de uma distribuicao exponencial
y
1
com media f (y | ) exp . Assumir n = 30 e y = 12, e considerar uma priori de
Jeffreys para .
(a) Achar a aproximacao de Laplace para E ( | y) e var ( | y);
(b) Achar a aproximacao de Laplace para a confiabilidade em y = 10;
(c) Determinar os valores exatos de E ( | y) e var ( | y). Comparar com as aproximacoes
obtidas em (a);
(d) Considerar a parametrizacao = ln (). Qual e a priori de Jeffreys para ?
(e) Achar as aproximacoes de Laplace para E ( | y) e var ( | y) na parametrizacao =
ln () ou = exp (); Comparar os resultados exatos obtidos em (c);
(f ) Conclusoes.
4.5. EXERCICIOS
48
(2) Seja y1 , . . . , yn uma a. a. de tamanho n de uma distribuicao de Poisson com parametro

.
(a) Considerar uma distribuicao a priori de Jeffreys para . Calcular aproximacoes de
Laplace para E (a | y) ; (n = 5, y = 10) para a = 1, 2, 3, 5 e 10;
1
(b) Considerar a parametrizacao = 2 . Qual e a priori de Jeffreys para ? Na pa
rametrizacao achar aproximacoes de Laplace para E (a | y) , a = 1, 2, 3, 5 e 10 = 2 .
Conclusoes?
(3) Seja T uma variavel aleatoria representando o tempo de vida de um componente, com
distribuicao exponencial dom densidade,
f (t | i ) = i exp (i t) , t > 0; i 0
em que i =
1
,
i
,
Vi
i = 1, . . . , k usado em
testes acelerados industriais (Vi e fixo) .

Considere k = 2 e os dados de um teste acelerado com dois nveis para a variavel stress Vi :
i
1
2
Vi ni
10 5
20 8
tji ; i = 1, 2, ; j = 1, . . . , ni
6, 8, 10, 12, 14
4, 5, 5, 6, 8, 8, 9, 14
Assumir uma priori de Jeffreys para e .

(a) Achar a aproximacao de Laplace para E ( | D) e E ( | D);
(b) Achar E (1 | ) (Tempo de vida sob nvel usual de stress) usando metodo de Laplace;
(c) Achar ( | D) e ( | D). (Distribuicoes Marginais).
Captulo 5
M
etodos de Monte Carlo em Cadeias
de Markov
Supor que temos interesse em gerar uma amostra de uma distribuicao a posteriori ( | y),
Rk mas nao podemos fazer isso diretamente. Entretanto, supor que podemos construir
uma cadeia de Markov com espaco de estados no espaco parametrico (conjunto de todos
valores possveis de ) que e simples para simular e cuja distribuicao de equilbrio seja dada por
( | y). Se temos muitas simulacoes dessa cadeia, os valores simulados da cadeia podem ser
usados como uma base para sumarizar caractersticas da posteriori ( | y).
Resultado: (Besag, 1994). Se a distribuicao conjunta a posteriori ( | y) for positiva
em 1 2 k , com i sendo suporte para a distribuicao de i , i = 1, . . . , k, entao
a distribuicao a posteriori
( | y) e unicamente determinada pelas distribuicoes condicionais
completas i | y, (i) para i = 1, . . . , k em que = (1 , . . . , k ) e (i) e o vetor de todos os
componentes de exceto i , isto e, (i) = (1 , . . . , i1 , i+1 , . . . , k ).
Sob algumas condicoes de regularidade e facil ver que os resultados simulados da cadeia com
distribuicao de equilbrio ( | y) podem ser supostos com uma amostra aleatoria de ( | y).
Se (1) , (2) , . . . , (t) , . . . e uma realizacao de uma cadeia, temos,
D
(t) v ( | y)
(5.1)
em que o smbolo D significa convergencia em distribuicao.

Da mesma forma para estimar o valor esperado de g () com respeito à ( | y), isto e,
Z
E [g ( | y)] = g () ( | y) d
(5.2)
observamos que
t
1 X (i) q.c.
g
E [g ( | y)]
t i=1
(5.3)
(q.c.: convergencia quase certa).

Na pratica, (i) pode estar correlacionado, mas poderamos considerar espacos adequados
entre os (i) gerados para garantir uma amostra aleatoria de ( | y).
5.1
O Amostrador de Gibbs
Supor que estamos interessados em obter inferencias da distribuicao a posteriori conjunta,

( | y), = (1 , . . . , k ). Para isso simulamos quantidades aleatorias de distribuicoes condici49
5.1. O AMOSTRADOR DE GIBBS

50
onais completas i | y, (i) que produzem uma cadeia de Markov.

Observar que i | y, (i) sao facilmente identificadas como funcoes de i por inspecao da
forma de ( | y) a distribuicao a posteriori para dado y. (ver por exemplo, Gamermam,
1997).
(0) (0)
(0)
Supor que atribumos um conjunto arbitrario de valores iniciais 1 , 2 , . . . , k para o
vetor de parametros .
Da, escrevemos o algoritmo:

(1)
(0)
(0)
(i) Gerar 1 de 1 | y, 2 , . . . , k ;
(5.4)

(1)
(1) (0)
(0)
(ii) Gerar 2 de 2 | y, 1 , 3 , . . . , k ;

(1)
(1) (1) (0)
(0)
(iii) Gerar 3 de 3 | y, 1 , 2 , 4 , . . . , k ;
.
.
.

(1)
(1) (1)
(1)
(k) Gerar k de k | y, 1 , 2 , . . . , k1

(1) (1)
(1)
de
Entao, substituir os valores iniciais com uma nova realizacao (1) = 1 , 2 , . . . , k
e repetir o processo acima.
(t) (t)
(t)
Para t suficientemente grande, observar que o valor 1 , 2 , . . . , k converge para um valor
da quantidade aleatoria com distribuicao ( | y) (ver Geman e Geman, 1984). Alem disso,
(t)
j pode ser considerado como uma observacao simulada da distribuicao a posteriori marginal
(j | y), j = 1, 2, . . . , k.
(t) (t)
(t)
Replicando o processo acima B vezes obtemos B vetores 1g , 2g , . . . , kg ; g = 1, 2, . . . , B.
Da convergencia do amostrador de Gibbs, qualquer caracterstica da densidade a posteriori
marginal (j | y) podeser obtida.
Em particular, se j | (j) , y e dada em forma fechada, entao
B

1 X
g
\
(j | y) =
j | (j) , y
B g=1
(5.5)
em que j = 1, . . . , k.
Nota: Observar que
Z
(j | y) =

j | (j) , y (j) | y d (j)

(1)
(g)
(B)
Assim, gerar (s) , . . . , (s) , . . . , (s) de (s) | y .
Para verificar a convergencia do algoritmo, podemos considerar varias tecnicas. Gelfand e
Smith (1990) sugerem o uso de tecnicas graficas; dessa forma considerar varias cadeias paralelas
geradas a partir de valores iniciais diferentes. Apos um grande n
umero de interacoes em cada
cadeia, comparar os histogramas para cada componente j de . Histogramas similares, indicam
convergencia da cadeia.
Geweke (1992) sugere metodos graficos baseados em series temporais das amostras selecionadas.
Uma tecnica para monitorar a convergencia do algoritmo e proposta por Gelman e Rubin
51
(1992) baseada na analise de variancia.

Nota: Na geracao de amostras de Gibbs devemos considerar as l primeiras iteracoes como
perodo de aquecimento (burn-in-samples) que devem ser descartadas para eliminar o efeito
de valores iniciais.
5.1.1
M
etodo de Gelman e Rubin para monitorar a converg
encia do
algoritmo
Supor varios pontos iniciais dispersos. O metodo proposto por Gelman e Rubin funciona
da seguinte forma:
(a) Simular m 2 seq
uencias; cada seq
uencia de comprimento 2n, considerando pontos ou
valores iniciais diferentes. Ficar somente com as n u
ltimas iteracoes de cada seq
uencia.
(b) Seja U a quantidade de interesse que se pretende estimar (U e uma funcao de ). Seja Uij
o valor de U na j esima iteracao (entre as n u
ltimas das 2n amostras geradas) da i esima
cadeia. Calcular,
n
ui. =
1X
uij
n j=1
s2i =
1 X
(uij ui. )2
n 1 j=1
(5.6)
Observar que ui. e s2i sao, respectivamente, a media e a variancia amostral de U para cada
seq
uencia i = 1, 2, . . . , m.
(c) Calcular as seguintes componentes de variancia:
m
1 X 2
W =
s
m i=1 i
(5.7)
que e a media das m variancias dentro das seq

uencias, cada uma baseada em n 1 graus de
liberdade e
m
1 X
B
=
(
ui. u.. )2
(5.8)
n
m 1 i=1
que e a variancia entre as medias das m seq
uencias ui. cada uma baseada em n valores de uij .
(d) Estimar a media de U como uma media amostral de todos os nm valores simulados de
U , isto e,
m
1 X
= u.. =
ui.
(5.9)
m i=1
(e) Estimar a variancia de U como uma media ponderada de W e B, isto e,
2 =
n1
1
W+ B
n
n
(5.10)
Observar que
2 superestima 2 se a distribuicao inicial for superdispersa e nao e viciada
sob estacionaridade.
(f ) Criar uma distribuicao t de Student conservativa (com poucos graus de liberdade) para
U com media
e dispersao
V =
52
2 +
B
mn
e graus de liberdade V =
2V 2
,
var(V )
em que

2
2

m
+
1
1
2B 2
n
1
2
var V
var si +
+
=
n
m
mn
m1

2 (m 1) (n 1) n
2
2
2
+
cov
s
,
u
2
u
cov
s
,
u
..
i.
i
i.
i
mn2
m
(5.11)
As variancias e covariancias sao estimadas a partir dos m valores amostrais de s2i , ui. e u2i. .
(g) Estimar o fator de reducao de escala por,
s
p
V V
=
(5.12)
R
W V 2
=1
Observar que esta razao (dada em 5.12) decresce para 1 quando n . Valores R
sugerem que o perodo de aquecimento e suficiente e o processo iterativo continua.

Exemplo 5.1: Considere os dados de confiabilidade de um novo software usado em um
equipamento de diagnostico computadorizado para ser usado em hospitais. Antes desse novo
software ser colocado no mercado, os analistas fazem um teste para detectar possveis erros que
devem ser corrigidos antes do software ser colocado em uso. Dessa forma, diferentes inputs
sao colocados em teste por uma dado perodo de funcionamento contnuo do equipamento e
cada vez que um erro e detectado, o software e inspecionado e refeito para tentar corrigir esse
erro. Na tabela 5.1 temos os dados representando as datas xi em que ocorrem os erros (tempos
desde o inicio da fase de teste ate a ocorrencia do erro) e os tempos entre falhas ti = xi xi1 ,
i = 1, . . . , n. O teste termina quando observamos um n
umero previamente fixado de erros.
Tabela 5.1: Dados de confiabilidade de um software.
i
1
2
3
4
5
6
7
8
9
10
ti
9
12
11
4
7
2
5
8
5
7
xi
9
21
32
36
43
45
50
58
63
70
i
11
12
13
14
15
16
17
18
19
20
ti
1
6
1
9
4
1
3
3
6
1
xi
71
77
78
87
91
92
95
98
104
105
i
21
22
23
24
25
26
ti
xi
11 116
33 149
1 150
97 247
2 249
1 250
Seja N o n
umero total (desconhecido) de erros no software. Assumir uma distribuicao
exponencial para os tempos entre falhas ti , com densidade,
f (ti | i ) = i exp (i ti )
(5.13)
em que i = 1, 2, 3, . . . ; ti > 0 e a taxa de falhas i e dada por,

i = (N i + 1)
(5.14)
Esse modelo e conhecido como modelo de confiabilidade de software de Jelinski e Moranda

53
(1972).
Assumir que o teste termina quando encontramos n erros, isto e, temos uma amostra aleatoria de tamanho n para os tempos entre falhas ti , i = 1, . . . , n.
A aleatoriedade e dada a partir de inputs aleatorios na fase de teste. A funcao de verossimilhanca para e N e dada por,
L (, N ) = n A (N ) exp [B (N )]
n
Q
Pn
(N i + 1) ti . Em termos das estatsticas de

P
ordem xi , podemos reescrever B (N ) por B (N ) = ni=1 xi + (N n) xn .
Considerar as seguintes distribuicoes a priori para e N :
em que A (N ) =
(N i + 1) e B (N ) =
(5.15)
i=1
i=1
v Gama (a, b)
N v P oisson ()
(5.16)
em que a, b e sao hiperparametros conhecidos; Gama (a, b) denota uma distribuicao Gama
com media ab e variancia ba2 e P oisson () denota uma distribuicao de Poisson com media e
variancia iguais à .
Assumindo independencia a priori entre e N , a distribuicao a priori conjunta para e N
e dada por,
exp () N a1
exp (b)
(5.17)
(, N )
N!
A distribuicao a posteriori conjunta para e N e dada por,
(, N | t)
n+a1 A (N ) N
(N ! "
exp b + (N n) xn +
(5.18)
n
X
# )
xi
i=1
em que > 0 e N = n, n + 1, n + 2, . . ..
Escrevendo N 0 = N n, isto e, N = N 0 + n, encontramos as distribuicoes condicionais
necessarias para o amostrador de Gibbs dadas por:
!
n
X
(i) | N 0 , t v Gama a + n, b + N 0 xn +
xi
(5.19)
i=1
(ii) N
| , t v P [ exp (xn )]
Para os dados da tabela 5.1 temos n = 26 e X26 = 250. Assumir a = 0, 2; b = 20 e = 30

na priori (5.17) para e N (a escolha dos hiperparametros da distribuicao a priori foi feita
a partir de metodos Bayesianos empricos; neste caso consideramos os estimadores de maxima
verossimilhanca para e N ).
Dessa forma, as distribuicoes condicionais (5.19) sao dadas por:
!
26
X
(i) | N 0 , t v Gama 26, 2; 20 + 250N 0 +
xi
(5.20)
i=1
(ii) N
| , t v P [30 exp (250)]
Para obter amostras simuladas da distribuicao a posteriori (5.18), geramos amostras das
54
distribuicoes condicionais (5.20).

Considerando um programa usando o software MINITAB geramos 5 cadeias de Markov
com 1000 amostras cada
cadeia. Cada cadeia foi gerada a partir dos seguintes valores iniciais
diferentes: N 0(0) , (0) = (3; 0, 01) , (2, 5; 0, 02) , (3; 0, 03) , (3, 5; 0, 01) e (3, 5; 0, 02).
Em cada cadeia descartamos as 800 primeiras amostras simuladas e ficamos com as 200
u
ltimas, o que totaliza 1000 amostras.
O codigo do programa MINITAB usado e dado por:
Listagem 5.1: Programa MINITAB
1
SET C1 ( Xi )
2
3
9 21 32 36 43 45 50 58 63 70 71 77 78 87
4
5
91 92 95 98 104 105 116 149 156 247 249 250
6
7
END
8
9
LET K1=3 (N i n i c i a l )
10
11
LET K2=0 ,01 ( Lambda i n i c i a l )
12
13
SUM C1 K3
14
15
STORE a
16
17
LET K4=1/(20+250 k1+k3 )
18
RANDOM 3 C2 ;
GAMMA 2 6 , 2 K4 .
LET K2=C2 ( 2 )
19
20
21
22
23
LET K5=30EXPONENTIAL( 250K2)
24
RANDOM 3 C3 ;
POISSON K5 .
LET K1=C3 ( 2 )
25
26
27
28
29
STACK C10 K1 C10
30
31
STACK C11 K2 C11
32
33
END
34
35
EXEC a 1000
A partir de 1000pamostras finais, determinamos sumarios a posteriori

p de interesse. Assim
E (N 0 | t) =5,
933 e var (N 0 | t)=3,
720. Tambem E ( | t) =0,
00680 e var ( | t)=0,
00205.
0
Com N = N 26 temos E (N | t) = 26 + 5, 933 = 31, 933. Intervalos de credibilidade 95%
para N 0 e sao dados, respectivamente, por (0; 13) e (0, 00352; 0, 01058).
Uma grande simplificacao na obtencao dos sumarios a posteriori de interesse e dado pelo
software WinBugs (Spiegelhalter et al, 1999) em que so precisamos especificar a distribuicao
conjunta para os dados e as distribuicoes a priori para os parametros.
O codigo do programa WinBugs e dado por:
55
Listagem 5.2: Programa WinBugs

1
2
3
4
5
6
7
8
9
10
model
{
for ( i in 1: n)
{
t [ i ] dexp ( lambda [ i ] )
lambda [ i ]<lambda0 (Ni +1)
}
lambda0 dgamma ( 0 . 2 , 2 0 )
N dpois (30)
}
11
12
13
l i s t ( t=c ( 9 , 1 2 , 1 1 , 4 , 7 , 2 , 5 , 8 , 5 , 7 , 1 , 6 , 1 , 9 , 4 , 1 , 3 , 3 , 6 , 1 , 1 1 , 3 3 , 7 , 9 1 , 2 , 1 ) ,
n=26)
14
15
16
17
18
19
list
list
list
list
list
( lambda0 =0.01 ,N=29)

( lambda0 =0.02 ,N=28)
( lambda0 =0.03 ,N=29)
( lambda0 =0.01 ,N=28)
( lambda0 =0.02 ,N=30)
Os sumarios a posteriori obtidos para os parametros (lambda0), N e i considerando 5

cadeias iniciais sao apresentados na tabela 5.2. Um burn-in de tamanho 1000 e um salto de 10
foram considerados para a geracao das 5000 amostras.
Na figura 5.1 temos os graficos das series temporais das amostras de Gibbs simuladas para
lambda0 () e N ; observamos que o algoritmo converge para series estacionarias. Tambem
apresentamos, na figura 5.1, os graficos das autocorrelacoes das amostras de Gibbs simuladas
para e N ; os graficos das distribuicoes a posteriori marginais aproximadas para lambda0 ()
e N e os graficos dos ndices de Gelman e Rubin para as amostras de Gibbs simuladas para
lambda0 () e N ; observa-se convergencia das series pois os fatores de reducao de Gelman e
Rubin se estabilizam em torno do valor um.
Exemplo 5.2: Na tabela 5.3 temos os dados de um estudo medico considerado para avaliar
a influencia de 3 covariaveis: X1 (proporcao de pacientes com escolaridade de pelo menos 8
anos na escola); X2 (proporcao de pacientes do sexo feminino); X3 (salario mensal medio dos
pacientes em unidades de $1000,00) na resposta y (ndice medio de resposta para pacientes
recebendo uma nova terapia contra o virus HIV) realizado por 8 hospitais (um estudo de
metanalise).
Para analisar esses dados foi considerado um modelo de regressao linear dado por
yi = + 1 X1i + 2 X2i + 3 X3i + i
(5.21)
em que os termos de erros i sao supostos independentes e identicamente distribudos com

distribuicao normal N (0; 2 ) , para i = 1, . . . , 8.
Assumindo independencia a priori entre os parametros , 1 , 2 , 3 e 2 , assumir as seguintes
distribuicoes a priori:

v N 0; a20
(5.22)

2
1 v N 0; a1

2 v N 0; a22

3 v N 0; a23
2 v IG (b, d)
56
Tabela 5.2: Sumarios a posteriori (dados de confiabilidade de um software).

node
mean
sd
MC error
2.5%
median
N
32.2
3.749
0.05924
26.51
31.66
lambda[1]
0.2129
0.04837 5.919E-4
0.1325
0.2083
lambda[2]
0.2061
0.04645 5.684E-4
0.1286
0.2017
lambda[3]
0.1994
0.04454 5.452E-4
0.1251
0.1952
lambda[4]
0.1926
0.04264 5.221E-4
0.1212
0.1888
lambda[5]
0.1858
0.04075 4.993E-4
0.1173
0.1822
lambda[6]
0.179
0.03887 4.768E-4
0.1135
0.1758
lambda[7]
0.1722
0.03701 4.546E-4
0.1099
0.1693
lambda[8]
0.1655
0.03517 4.328E-4
0.1061
0.1628
lambda[9]
0.1587
0.03336 4.115E-4
0.1024
0.1562
lambda[10] 0.1519
0.03157 3.907E-4 0.09835
0.1497
lambda[11] 0.1451
0.02981 3.706E-4 0.09393
0.143
lambda[12] 0.1384
0.02808 3.511E-4 0.08996
0.1365
lambda[13] 0.1316
0.0264
3.325E-4 0.08598
0.1299
lambda[14] 0.1248
0.02478
3.15E-4
0.08186
0.1234
lambda[15]
0.118
0.02321 2.986E-4 0.07741
0.1166
lambda[16] 0.1112
0.02173 2.836E-4 0.07303
0.11
lambda[17] 0.1045
0.02034 2.703E-4 0.06836
0.1033
lambda[18] 0.09768 0.01906 2.588E-4 0.06378 0.09651
lambda[19] 0.0909
0.01793 2.494E-4 0.05872 0.08984
lambda[20] 0.08412 0.01696 2.425E-4 0.05355 0.08307
lambda[21] 0.07734 0.01619 2.381E-4
0.0484
0.07625
lambda[22] 0.07056 0.01565 2.364E-4 0.04293 0.06942
lambda[23] 0.06378 0.01536 2.376E-4 0.03683 0.06258
lambda[24]
0.057
0.01534 2.415E-4 0.02997 0.05589
lambda[25] 0.05022 0.01558
2.48E-4
0.02233 0.04916
lambda[26] 0.04344 0.01608
2.57E-4
0.01401 0.04266
lambda0
0.006779 0.002031 2.574E-5 0.003626 0.006523
Tabela 5.3: Dados de n = 8 hospitais.

y
0,10
0,65
0,30
0,30
0,28
0,78
0,28
0,45
X1
0,08
0,17
0,08
0,30
0,05
0,18
0,09
0,45
X2
0,40
0,40
0,38
0,50
0,52
0,32
0,45
0,65
X3
0,75
1,02
1,09
1,35
1,20
2,20
2,95
2,50
97.5% start sample

40.74
1001
5000
0.3205 1001
5000
0.3095 1001
5000
0.2982 1001
5000
0.2871 1001
5000
0.2761 1001
5000
0.2645 1001
5000
0.2539 1001
5000
0.2431 1001
5000
0.2325 1001
5000
0.2213 1001
5000
0.2107 1001
5000
0.2004 1001
5000
0.1898 1001
5000
0.1792 1001
5000
0.1685 1001
5000
0.1584 1001
5000
0.1479 1001
5000
0.1387 1001
5000
0.1294 1001
5000
0.121
1001
5000
0.1121 1001
5000
0.1044 1001
5000
0.0971 1001
5000
0.08951 1001
5000
0.08297 1001
5000
0.07723 1001
5000
0.01154 1001
5000
57
N chains 1:5
60.0
50.0
40.0
30.0
20.0
1001
1250
1500
1750
2000
1750
2000
iteration
lambda0 chains 1:5

0.02
0.015
0.01
0.005
0.0
1001
1250
1500
iteration
Sries Temporais
N chains 1:5
lambda0 chains 1:5
1.0
0.5
0.0
-0.5
-1.0
1.0
0.5
0.0
-0.5
-1.0
0
20
40
20
lag
40
lag
Autocorrelaes
N chains 1:5 sample: 5000
lambda0 chains 1:5 sample: 5000
0.15
300.0
0.1
200.0
0.05
100.0
0.0
0.0
20.0
30.0
40.0
50.0
0.0
0.005
0.01
Distribuies a posteriori marginal

N chains 1:5
lambda0 chains 1:5
1.0
1.5
1.0
0.5
0.5
0.0
0.0
1001
1500
1001
iteration
1500
iteration
ndices de Gelman e Rubin
Figura 5.1: Graficos das amostras simuladas.
0.015
58
em que a0 , a1 , a2 , a3 , b e d sao supostos conhecidos e IG (b, d) denota uma distribuicao gama

2
d
inversa com media (b1)
e variancia (b1)d2 (b2) , b > 2.
[
]
Observar que se 2 v IG (b, d) entao =
para = (, 1 , 2 , 3 , 2 ) e dada por:
L () =
n
Y
i=1
1
2
v Gama (b, d). A funcao de verossimilhanca
2
exp i 2
2
2 2

(5.23)
em que i = yi 1 X1i 2 X2i 3 X3i , i = 1, 2, . . . , n (n = 8).


d
2
2 (b+1)
exp 2 exp 2
( | x, y)
2a0

2
2
2
23
1
exp 2 exp 2 exp 2
2a1
2a2
2a3
!
n
n
1 X 2
2 2 exp 2

2 i=1 i
(5.24)
em que y = (y1 , . . . , yn )0 ; x denota o vetor das covariaveis e i e dado em (5.23).

As distribuicoes condicionais necessarias para o amostrador de Gibbs sao dadas por:
(i)
2 | , 1 , 2 , 3 , x, y
n

2 (b+ 2 +1)
"
1
exp 2
1X 2
d+

2 i=1 i
!#
que define o n
ucleo de uma distribuicao gama inversa, isto e,
"
#
n
X
n
1
2 | , 1 , 2 , 3 , x, y v IG b + ; d +
2
2
2 i=1 i
em que
i = yi 1 x1i 2 x2i 3 x3i , i = 1, . . . , n
(ii)
#
"

n
2
2
1 X
(0)
i
| 1 , 2 , 3 , , X, y exp 2 exp 2
2a0
2 i=1
2
em que
(0)
i = yi 1 x1i 2 x2i 3 x3i , i = 1, . . . , n

Desenvolvendo-se essas expressoes encontramos o n
ucleo de uma distribuicao normal; isto
e,
n
P
| 1 , 2 , 3 , 2 , x, y v N
i=1
2
a0
(0)
i
;
2
2 + na0
a20 2
2 + na20
(iii)
"
#

n
2
2l
1 X
(l)
l | ( l ) , x, y exp 2 exp 2
l xli i
2al
2 i=1
5.2. ALGORITMO DE METROPOLIS-HASTINGS
59
em que
(l)
i = y i
3
X
j xji , i = 1, . . . , n; l = 1, 2, 3
j=1;j6=l
( l ) denota o vetor de todos os parametros exceto l . Isto e,
n
P
(l)
2
al i=1 xli i
a2l 2
;
l | ( l ) , x, y v N
n
n
P
P
x2li 2 + a2l
x2li
2 + a2l
i=1
i=1
para l = 1, 2, 3.
Para analise dos dados da tabela (5.3), vamos assumir a20 = a21 = a22 = a23 = 106 , isto e,
distribuicoes a priori nao informativas para , 1 , 2 e 3 . Tambem assumir b = d = 1. Para
(0)
(0)
(0)
iniciar o amostrador de Gibbs, assumir os valores iniciais (0) = 0, 1 = 2 = 3 = 0 e
1
(0) = (0)
coes condicionais (5.22).
2 = 1. Gerar amostras da posteriori (5.24) usando as distribui
Usando o software Winbugs escrevemos os seguinte programa:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
model
{
f o r ( i i n 1 :N)
{
y [ i ] dnorm (mu[ i ] , tau )
mu[ i ] < a l p h a + b e t a 1 x1 [ i ] + b e t a 2 x2 [ i ] + b e t a 3 x3 [ i ]
}
tau dgamma ( 1 , 1 )
sigma < 1/ s q r t ( tau )
a l p h a dnorm ( 0 , 1 . 0 E6)
b e t a 1 dnorm ( 0 , 1 . 0 E6)
b e t a 2 dnorm ( 0 , 1 . 0 E6)
b e t a 3 dnorm ( 0 , 1 . 0 E6)
}
15
16
17
18
19
l i s t ( y=c ( 0 . 1 0 , 0 . 6 5 , 0 . 3 0 , 0 . 3 0 , 0 . 2 8 , 0 . 7 8 , 0 . 2 8 , 0 . 4 5 ) ,
x1=c ( 0 . 0 8 , 0 . 1 7 , 0 . 0 8 , 0 . 3 0 , 0 . 0 5 , 0 . 1 8 , 0 . 0 9 , 0 . 4 5 ) ,
x2=c ( 0 . 4 0 , 0 . 4 0 , 0 . 3 8 , 0 . 5 0 , 0 . 5 2 , 0 . 3 2 , 0 . 4 5 , 0 . 6 5 ) ,
x3=c ( 0 . 7 5 , 1 . 0 2 , 1 . 0 9 , 1 . 3 5 , 1 . 2 0 , 2 . 2 0 , 2 . 9 5 , 2 . 5 0 ) , N=8)
Os sumarios a posteriori de interesse considerando um burn-in de 1000 amostras e tomando

uma amostra final de tamanho 1000 escolhidas de 10 em 10 sao apresentadas na tabela 5.4.
A convergencia do amostrador de Gibbs e verificada a partir de graficos de series temporais
das amostras geradas para cada parametro do modelo (5.21) (ver figura 5.2).
Dos sumarios a posteriori dados na tabela 5.4 observa-se que as 3 covariaveis X1 , X2 e X3 nao
apresentam evidencias de efeitos significativos na resposta y, pois os intervalos de credibilidade
com probabilidade 0, 95 para 1 , 2 e 3 incluem o valor zero.
5.2
Algoritmo de Metropolis-Hastings
O amostrador de Gibbs seleciona amostras de todas densidades a posteriori condicionais de

( | y), a distribuicao a posteriori conjunta para . Quando usamos uma priori conjugada, as
60
alpha
10.0
5.0
0.0
-5.0
-10.0
1001
1250
1500
1750
2000
1750
2000
1750
2000
1750
2000
1750
2000
iteration
beta1
20.0
10.0
0.0
-10.0
-20.0
-30.0
1001
1250
1500
iteration
beta2
30.0
20.0
10.0
0.0
-10.0
-20.0
1001
1250
1500
iteration
beta3
2.0
1.0
0.0
-1.0
-2.0
1001
1250
1500
iteration
tau
15.0
10.0
5.0
0.0
1001
1250
1500
iteration
61
Tabela 5.4: Sumarios a posteriori (dados da tabela 5.3).

node
mean
alpha 0,8686
beta1
1,222
beta2 -1,807
beta3 0,07857
sigma 0,6867
tau
2,794
sd
MC error
2,5
median
97,5 start sample
1,394
0,04484 -1,919 0,8628
3,72
1001
1000
2,834
0,08975 -4,315
1,217
6,574 1001
1000
3,548
0,1078
-8,904 -1,878
5,276 1001
1000
0,3643
0,0114
-0,636 0,08039 0,8091 1001
1000
0,2504 0,006468 0,3859 0,6351 1,293 1001
1000
1,588
0,04337 0,6504
2,48
6,72
1001
1000
distribuicoes condicionais em geral sao de forma conhecida como, por exemplo, as distribuicoes
normal, gama, Poisson, beta, etc, e a simulacao de amostras dessas distribuicoes sao disponveis
em qualquer software.
Quando as distribuicoes condicionais nao sao facilmente identificadas, devemos usar o algoritmo de Metropolis-Hastings ou metodos de amostragem por importancia.

Supor que desejamos simular amostras de uma densidade nao-regular i | (i) , y , ou
simplesmente i | (i) , em que (i) = (1 , . . . , i1 , i+1 , . . . , k ).

Definir o n
ucleo de transicao q (, ) da distribuicao p () que representa i | (i) e que
transforma em . Se e uma variavel real com amplitude em toda reta R, podemos construir
q tal que + z, com Z v N (0, 2 ), em que 2 reflete a variancia condicional de em
p ().
Se e limitado com amplitude (a, b) usar uma transformacao que leva (a, b) em (, )
e da usar o n
ucleo de transicao q e aplicar o algoritmo de Metropolis para a densidade da
variavel transformada. O algoritmo de Metropolis e dado por:
(i) Iniciar com um valor (0) e indicador de esta
gio, j =0;
(ii) Gerar um ponto do n
ucleo de transicao q (j) , ;
(iii) Atualizar (j) por (j+1) = com probabilidade,

h
i
(j)
p () q ,
i
p = min 1, h i h
p (j) q , (j)
(5.25)
Ficar com (j) com probabilidade 1 p;

(iv) Repetir os estagios (ii) e (iii) ate conseguir uma distribuicao estacionaria. Observar
que:
(a) O algoritmo de Metropolis Hastings e especificado pela densidade candidata para geracao
q (x, y) ;
(b) Se um valor candidato e rejeitado, o valor atual e considerado na proxima etapa;
(c) O calculo de p em (5.25) nao depende da constante normalizadora;
(d) Se a densidade candidata para geracao das amostras e simetrica, histo ie, q (x, y) = q (y, x),
a probabilidade de movimento se reduz à pp()
. Assim, se p () > p (j) , a cadeia se move
[(j) ]
. Em outras palavras:
para ; em caso contrario, ela se move para com probabilidade pp()
[(j) ]
um salto na direcao ascendente e sempre aceito; um salto na direcao descendente e aceito
com uma dada probabilidade.
Casos Especiais para q (y, x):
Alguns casos especiais sao dados para q (y, x), a densidade usada para gerar amostras canCEMEQ - Centro de Metodos Quantitativos
62
didatas no processo de simulacao. Assim temos:

(i) Seja q (y, x) = q1 (y x) em que q1 (.) e uma densidade multivariada. Entao, o candidato
y e selecionado de acordo com o processo y = x + z, em que z e chamada variavel aleatoria
incremento e segue a distribuicao q1 . Assim, candidato = valor atual + rudo, isto e, temos uma
cadeia de passeio ao acaso.
Como escolhas possveis para q1 , podemos considerar a densidade normal multivariada ou a
distribuicao t de Student multivariada.
(ii) Seja q (x, y) = q2 (y), em que q2 e uma densidade normal multivariada ou t de Student
multivariada. Neste caso e necessario especificar a locacao e a variabilidade da distribuicao
q (x, y).

(iii) Explorar a forma conhecida da distribuicao condicional i | (i) , y para especificar
uma densidade geradora de amostras candidatas (ver por exemplo, Chib e Greenberg, 1995).
Por exemplo, se (t) (t) h (t) em que h (t) e uma densidade conhecida que pode ser facilmente simulada e (t) e uma funcao uniformemente limitada, considerar q (x, y) = h (y) para
gerar amostras candidatas. Neste caso, a probabilidade de movimento so exige o calculo da
funcao que e dada por,
i
h
(j+1)
h i
(5.26)
p = min 1,
(j)
(iv) Outras possibilidades: cadeias autoregressivas, metodo de aceitacao-rejeicao (ver Tierney, 1994).
Escolha da locac
ao e da escala da distribuic
ao geradora:
O desempenho do algoritmo Metropolis-Hastings pode ser afetado pela escolha da locacao
e da escala da distribuicao geradora. Assim podemos ter:
(i) A variabilidade da densidade geradora de amostras candidatas afeta o comportamento
da cadeia em pelo menos duas dimensoes: uma e a taxa de aceitacao (% de vezes que uma
mudanca e feita para um novo ponto) e a outra e a regiao do espaco amostral que e coberta
pela cadeia.
(ii) Se a variabilidade e muito grande, alguns dos candidatos gerados estarao muito distantes
do valor atual e terao uma probabilidade pequena de aceitacao, pois a ordenada do candidato
e pequena em relacao a ordenada perto da moda da distribuicao.
(iii) A reducao da variabilidade corrige esse problema, mas se a variabilidade for muito
pequena, a cadeia levara muito tempo para cobrir o suporte da densidade.
Exemplo 5.3: Supor que um novo software e desenvolvido para um equipamento de tomografia computadorizada usado por centros medicos. Numa fase de testes e correcoes de possveis
erros do software, o mesmo e testado por um dado perodo de tempo fixado. Os dados de confiabilidade do software sao dados pelas contagens de erros (em que o software e tentativamente
corrigido) que ocorrem em intervalos fixos de tempo durante esse perodo de testes.
Considerar os dados da tabela 5.5, representando os n
umeros de falhas ou erros do software
testado por 25 horas, continuamente.
Assumir um processo de Poisson homogeneo com funcao intensidade i = a k1i , em que
0 < k1 < 1, a > 0 para i = 1, 2, 3, . . . com distribuicao para o n
umero de falhas mi no
i esimo perodo de tempo dada por,
P (Mi = mi ) =
i
exp (i ) m
i
mi !
(5.27)
em que mi = 0, 1, 2, . . ..
Considerando m1 , m2 , . . . , mn (n = 25), os n
umeros de falhas observadas durante os n peCEMEQ - Centro de Metodos Quantitativos
63
Tabela 5.5: Dados de confiabilidade de software de um equipamento medico.

hora n falhas
1
27
2
16
3
11
4
10
5
11
6
7
7
2
8
5
9
3
10
1
hora n
11
12
13
14
15
16
17
18
19
20
falhas
4
7
2
5
5
6
0
5
1
1
hora n
21
22
23
24
25
falhas
2
1
2
1
1
rodos de tempo, a funcao de verossimilhanca para a e k1 e dada por,

!
n
X
L (a , k1 ) da1 k1d2 exp a
k1i
(5.28)
i=1
P
P
em que d1 = ni=1 mi e d2 = ni=1 imi .
Assumindo independencia a priori entre a e k1 , considerar as seguintes distribuicoes a
priori:
a v Gama (b1 , b2 )
k1 v Beta (e1 , e2 )
(5.29)
em que b1 , b2 , e1 e e2 sao hiperparametros conhecidos.

A distribuicao a posteriori conjunta para a e k1 e dada por:
"
! #
n
X
d1 +b1 1
i
(a , k1 | m) a
exp b2 +
k1 a
(5.30)
i=1
k1d2 +e1 1 (1 k1 )e2 1

em que m = (m1 , m2 , . . . , mn )0 .
As distribuicoes condicionais para o amostrador de Gibbs sao dadas por:
!
n
X
(i) a | k1 , m v Gama d1 + b1 , b2 +
k1i
i=1
n
X
(ii) (k1 | a , m) k1d2 +e1 1 (1 k1 )e2 1 exp a
(5.31)
!
k1i
i=1
Observar que a quantidade aleatoria k1 deve ser simulada usando o algoritmo de MetropolisHastings, pois a distribuicao condicional (k1 | a , m) nao apresenta uma forma conhecida.
Neste caso, observar que a densidade condicional para k1 dado a e m pode ser reescrita na
forma,
(k1 | a , m) k1e1 1 (1 k1 )e2 1 (a , k1 )
(5.32)
64
em que
(a , k1 ) = exp d2 ln k1 a
n
X
!
k1i
i=1
Assim o valor de k1 e simulado da seguinte forma: na s esima iteracao (dado o valor atual
(s)
simular um candidato k1 de uma distribuicao Beta (e1 , e2 ); mover para este ponto com
probabilidade dada por,

(s)
(s)
,
k
1
a

min 1,
(5.33)
(s) , k (s1)
1
a
(s)
a ),
(s)
(s1)
em outro caso, fazer k1 = k1

.
Apos uma analise preliminar dos dados (observar que os estimadores de maxima verossimi a = 18, 8849 e k = 0, 88285) considerar
lhanca para a e k1 sao dados, respectivamente, por
os valores dos hiperparametros para as distribuicoes a priori (5.29) dadas por b1 = 16; b2 =
0, 8; e1 = 2, 5 e e2 = 0, 6. Observar que
b1
b1
= 20; V ar (a ) = 2 = 25;
b2
b2
e1 e2
e1
= 0, 04
= 0, 8; V ar (k1 ) =
E (k1 ) =
2
(e1 + e2 )
(e1 + e2 ) (e1 + e2 + 1)
E (a ) =
Entao usar as distribuicoes condicionais (5.31) para gerar amostras da distribuicao a posteriori (5.30).
Alternativamente, podemos usar o software WinBugs (ver listagem 5.4).
1
2
3
4
5
6
7
8
9
10
model
{
f o r ( i i n 1 :N)
{
m[ i ] d p o i s ( lambda [ i ] )
lambda [ i ] < lambda0 pow ( k1 , i )
}
lambda0 dgamma ( 1 6 , 0 . 8 )
k1 dbeta ( 2 . 5 , 0 . 6 )
}
11
12
13
l i s t (m=c ( 2 7 , 1 6 , 1 1 , 1 0 , 1 1 , 7 , 2 , 5 , 3 , 1 , 4 , 7 , 2 , 5 , 5 , 6 , 0 , 5 , 1 , 1 , 2 , 1 , 2 , 1 , 1 ) ,
N=25)
Observar que estamos considerando lambda0=a .

Os sumarios a posteriori de interesse considerando um burn-in de 1000 amostras e tomando uma amostra final de tamanho 1000 escolhidas de 10 em 10 para se ter uma amostra
aproximadamente nao-correlacionada e dada na tabela 5.6.
Graficos das series temporais das amostras geradas para os parametros a (lambda 0) e k1
sao dados na figura 5.3. Desses graficos observamos convergencia para o algoritmo.
Tabela 5.6: Sumarios a posterioride interesse (dados da tabela 5.5).

node
mean
sd
MC error
k1
0,8823 0,01243 3,134E-4
lambda[1] 16,88
1,974
0,05333
lambda[2] 14,88
1,59
0,04408
lambda[3] 13,11
1,284
0,03664
lambda[4] 11,56
1,044
0,03072
lambda[5] 10,19 0,8604
0,02608
lambda[6] 8,989 0,7245
0,0225
lambda[7]
7,93
0,6274
0,01977
lambda[8] 6,996 0,5603
0,01771
lambda[9] 6,174 0,5148
0,01615
lambda[10] 5,45
0,4836
0,01495
lambda[11] 4,811
0,461
0,014
lambda[12] 4,248 0,4428
0,01321
lambda[13] 3,752 0,4266
0,01252
lambda[14] 3,314
0,411
0,01189
lambda[15] 2,928
0,395
0,0113
lambda[16] 2,587 0,3785
0,01074
lambda[17] 2,287 0,3615
0,01018
lambda[18] 2,022
0,344
0,009641
lambda[19] 1,787 0,3262 0,009111
lambda[20] 1,581 0,3084 0,008591
lambda[21] 1,398 0,2906 0,008085
lambda[22] 1,237
0,273
0,007594
lambda[23] 1,095 0,2558 0,007119
lambda[24] 0,9687 0,2392 0,006661
lambda[25] 0,8575 0,2231 0,006222
lambda0
19,16
2,45
0,06471
2,5% median 97,5% start sample

0,8567 0,8822 0,9066 1001
1000
13,16
16,81
20,98 1001
1000
11,85
14,86
18,22 1001
1000
10,71
13,12
15,84 1001
1000
9,668
11,55
13,71 1001
1000
8,588
10,18
11,88 1001
1000
7,592
8,987
10,42 1001
1000
6,695
7,921
9,19
1001
1000
5,919
6,978
8,125 1001
1000
5,173
6,183
7,213 1001
1000
4,483
5,464
6,416 1001
1000
3,901
4,809
5,754 1001
1000
3,378
4,249
5,166 1001
1000
2,918
3,745
4,613 1001
1000
2,521
3,301
4,118 1001
1000
2,165
2,908
3,71
1001
1000
1,878
2,571
3,362 1001
1000
1,616
2,272
3,023 1001
1000
1,387
2,008
2,746 1001
1000
1,187
1,778
2,488 1001
1000
1,026
1,569
2,253 1001
1000
0,884
1,387
2,029 1001
1000
0,7569 1,224
1,838 1001
1000
0,647
1,079
1,656 1001
1000
0,5531 0,954
1,494 1001
1000
0,4728 0,8429 1,347 1001
1000
14,71
19,02
24,36 1001
1000
65
66
k1
0.925
0.9
0.875
0.85
0.825
1001
1250
1500
1750
2000
1750
2000
iteration
lambda0
35.0
30.0
25.0
20.0
15.0
10.0
1001
1250
1500
iteration
Figura 5.3: Graficos das amostras simuladas para a (lambda0) e k1 .
67
Exemplo 5.4: (Regressao logstica)

Uma droga muito usada para tratar certos tipos de cancer (droga adriamicina) pode apresentar problemas de toxidade. Alguns pacientes recebendo essa droga apresentam falha coronaria congestiva (CHF) e outros pacientes nao apresentam. Com intuito de verificar se alguns
fatores especficos podem aumentar o risco de desenvolver CHF, duas covariaveis foram consideradas no estudo: X1 representando a dose total da droga e X2 representando o percentual
de decrescimo da voltagem eletrocardiografica QRS. Na tabela 5.7 temos os dados de um estudo considerando 53 pacientes (dados em Lee 1980, pag. 359) em que yi e a resposta CHF
(1 =sim; 0 =nao) e as duas covariaveis sao dadas numa escala transformada: X1i = X1i
X
1
2 , i = 1, . . . , 53.
X
e X2i = X2i
Neste caso, temos uma variavel aleatoria y binaria (CHF) com distribuicao de Bernoulli
com funcao de probabilidade,
P (Yi = yi ) = pyi i (1 pi )1yi
(5.34)
em que pi = P (yi = 1) e a probabilidade de sucesso (apresentar CHF) e 1 pi = P (yi = 0) e

a probabilidade de fracasso (nao apresentar CHF).
Assumir um modelo de regressao logstica,
pi =
exp (0 + 1 X1i + 2 X2i )

1 + exp (0 + 1 X1i + 2 X2i )
(5.35)
para i = 1, 2, . . . , n.
A funcao de verossimilhanca para 0 , 1 e 2 e dada por,
L (0 , 1 , 2 ) =
n
Y
pyi i (1 pi )1yi
(5.36)
i=1
em que pi e dado por (5.35).

Assim temos,
L (0 , 1 , 2 ) =
exp (0
Pn
i=1
n
Q
yi + 1
Pn
i=1
X1i yi + 2
Pn
i=1
X2i yi )
(5.37)
[1 + exp (0 + 1 X1i + 2 X2i )]
i=1
Assumir as seguintes distribuicoes a priori para os parametros:

l v N al , b2l
(5.38)
em que l = 0, 1, 2 e al e bl sao hiperparametros conhecidos. Assumir independencia a priori

entre 0 , 1 e 2 . A distribuicao a posteriori conjunta para 0 , 1 e 2 e dada combinando-se
(5.37) com (5.38), isto e,
2
Y

1
2
(0 , 1 , 2 | x, y) =
exp 2 (l al )
2bl
l=0
Pn
P
P
exp (0 i=1 yi + 1 ni=1 X1i yi + 2 ni=1 X2i yi )
n
Q
[1 + exp (0 + 1 X1i + 2 X2i )]
(5.39)
i=1
Amostras da distribuicao a posteriori (5.39) podem ser geradas usando metodos MCMC.
Observar de (5.39) que as distribuicoes condicionais (0 | 1 , 2 , x, y), (1 | 0 , 2 , x, y) e
68
Tabela 5.7: Dados medicos para 53 pacientes com cancer.

paciente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
yi
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
X1i
-82,6792
82,3208
82,3208
22,3208
-7,6792
222,3208
307,3208
17,3208
-7,6792
-34,6792
-57,6792
-57,6792
32,3208
22,3208
-207,6792
-17,6792
-117,6792
-77,6792
82,3208
-7,6792
-107,6792
22,3208
57,3208
46,3208
-67,6792
52,3208
-37,6792
67,3208
-97,6792
-47,6792
22,3208
67,3208
82,3208
52,3208
52,3208
-7,6792
-47,6792
-112,6792
57,3208
22,3208
-17,6792
-67,6792
2,3208
-22,6792
67,3208
-67,6792
-67,6792
-17,6792
22,3208
-77,6792
-37,6792
32,3208
-17,6792
X2i
14,9811
44,9811
24,9811
13,9811
36,9811
52,9811
34,9811
17,9811
26,9811
0,9811
26,9811
33,9811
38,9811
31,9811
14,9811
37,9811
17,9811
-17,0189
15,9811
-7,0189
-2,0189
-50,0189
12,9811
8,9811
-16,0189
-20,0189
-20,0189
-5,0189
-12,0189
-25,0189
6,9811
6,9811
-22,0189
-24,0189
-21,0189
-14,0189
-27,0189
17,9811
-12,0189
-36,0189
-69,0189
-3,0189
-27,0189
2,9811
13,9811
3,9811
-3,0189
-14,0189
-37,0189
-19,0189
-48,0189
-6,0189
-7,0189
69
(2 | 0 , 1 , x, y) nao apresentam formas conhecidas. Assim, usar o algoritmo MetropolisHasting para gerar amostras de (5.39).
Como uma analise preliminar dos dados e tambem para obtermos informacoes empricas para
os hiperparametros das distribuicoes a priori para l , l = 0, 1, 2 dada em (5.38), considerar uma
analise classica do modelo de regressao logstica definido por (5.34) e (5.35) usando o software
MINITAB. A sada do programa MINITAB e dada a seguir:
Binary Logistic Regression: CHF versus dose-total; %decrscimo-QRS

Link Function: Logit
Response Information
Variable
CHF
Value
1
0
Total
Count
17
36
53
(Event)
Logistic Regression Table

Predictor
Constant
dose-total
%decrscimo-QRS
Coef
-3,27360
-0,0090453
0,230609
SE Coef
1,19331
0,0068396
0,0760250
Z
-2,74
-1,32
3,03
Odds
Ratio
P
0,006
0,186
0,002
0,99
1,26
95% CI
Lower Upper
0,98
1,09
Log-Likelihood = -9,225
Test that all slopes are zero: G = 48,058, DF = 2, P-Value = 0,000
Goodness-of-Fit Tests
Method
Pearson
Deviance
Hosmer-Lemeshow
Chi-Square
27,4813
18,4503
1,8345
DF
49
49
8
P
0,994
1,000
0,986
Table of Observed and Expected Frequencies:

(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Value
1
Obs
Exp
0
Obs
Exp
Total
Group
5
6
0
0,0
0
0,0
0
0,0
0
0,0
0
0,1
5
5,0
5
5
5,0
5
5
5,0
5
6
6,0
6
5
4,9
5
10
Total
1
0,4
1
1,8
4
4,0
5
4,7
6
6,0
17
4
4,6
5
5
4,2
6
1
1,0
5
0
0,3
5
0
0,0
6
36
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Number
598
13
1
612
Percent
97,7
2,1
0,2
100,0
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
0,96
0,96
0,42
53
1,00
1,46
71
Assim, o modelo ajustado por metodos de maxima verossimilhanca e dado por,

pi
= 3, 27361 0, 0090453X1 + 0, 230609X2
ln
1 pi
Dos resultados obtidos usando o software MINITAB observamos que X1 nao apresenta efeito
significativo na incidencia de CHF (p-value igual a 0, 186) mas a covariavel X2 apresenta um
grande efeito na incidencia de CHF (p-value igual a 0, 002).
Para uma analise Bayesiana dos dados da tabela 5.7 assumir os seguintes valores para os
hiperparametros das distribuicoes a priori (5.38) para 0 , 1 e 2 : a0 = 3; b20 = 1; a1 =
0, 009; b21 = 0, 01; a2 = 0, 23 e b22 = 1 (Observar que a variancia da distribuicao normal usando
o software WinBugs e invertida).
Usando o software WinBugs, escrevemos o seguinte programa para analisar os dados:
1
2
3
4
5
6
7
8
9
10
11
model
{
f o r ( i i n 1 :N)
{
y [ i ] dbin ( p [ i ] ,N)
l o g i t ( p [ i ])< a l p h a 0 + a l p h a 1 x1 [ i ]+ a l p h a 2 x2 [ i ]
}
a l p h a 0 dnorm ( 3 ,1)
a l p h a 1 dnorm ( 0 . 0 0 9 , 1 0 0 )
a l p h a 2 dnorm ( 0 . 2 3 , 1 )
}
12
13
14
15
16
17
18
19
20
21
22
23
24
l i s t ( y=c ( 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0) ,
x1=c ( 8 2 . 6 7 9 2 , 8 2 . 3 2 0 8 , 8 2 . 3 2 0 8 , 2 2 . 3 2 0 8 , 7 . 6 7 9 2 , 2 2 2 . 3 2 0 8 , 3 0 7 . 3 2 0 8 ,
17.3208 , 7.6792 , 34.6792 , 57.6792 , 57.6792 ,32.3208 ,22.3208 , 207.6792 ,
17.6792 , 117.6792 , 77.6792 ,82.3208 , 7.6792 , 107.6792 ,22.3208 ,57.3208 ,
46.3208 , 67.6792 ,52.3208 , 37.6792 ,67.3208 , 97.6792 , 47.6792 ,22.3208 ,
67.3208 ,82.3208 ,52.3208 ,52.3208 , 7.6792 , 47.6792 , 112.6792 ,57.3208 ,
22.3208 , 17.6792 , 67.6792 ,2.3208 , 22.6792 ,67.3208 , 67.6792 , 67.6792 ,
17.6792 ,22.3208 , 77.6792 , 37.6792 ,32.3208 , 17.6792) ,
x2=c ( 4 1 , 7 1 , 5 1 , 4 0 , 6 3 , 7 9 , 6 1 , 4 4 , 5 3 , 2 7 , 5 3 , 6 0 , 6 5 , 5 8 , 4 1 , 6 4 , 4 4 , 9 , 4 2 , 1 9 , 2 4 ,
24 ,39 ,35 ,10 ,6 ,6 ,21 ,14 ,1 ,33 ,33 ,4 ,2 ,5 ,12 , 1 ,44 ,14 , 10 , 43 ,23 , 1 ,29 ,40 ,
3 0 , 2 3 , 1 2 , 1 1 , 7 , 2 2 , 2 0 , 1 9 ) ,N=53)
Os sumarios a posteriori de interesse considerando um burn-in de 1000 amostras que sao

descartadas para eliminar o efeito dos valores iniciais e tomando uma amostra final de tamanho
1000 escolhidas de 10 em 10 para se ter uma amostra aproximadamente nao-correlacionada e
dada na tabela 5.8.
Dos resultados da tabela 5.8, observe que a covariavel X1 nao apresenta efeito significativo
na resposta CHF (zero includo no intervalo de credibilidade com probabilidade 0, 95 para 1 )
e a covariavel X2 apresenta um efeito significativo na resposta CHF (zero nao e includo no
intervalo de credibilidade com probabilidade 0, 95 para 2 ).
Dos graficos das amostras geradas para os parametros 0 , 1 e 2 (ver figura 5.4), observamos
a convergencia do algoritmo de simulacao de amostras para a posteriori (5.39).
72
Tabela 5.8: Sumarios a posteriori de interesse (dados da tabela 5.7).

node
alpha0
alpha1
alpha2
p[1]
p[2]
p[3]
p[4]
p[5]
p[6]
p[7]
p[8]
p[9]
p[10]
p[11]
p[12]
p[13]
p[14]
p[15]
p[16]
p[17]
p[18]
p[19]
p[20]
p[21]
p[22]
p[23]
p[24]
p[25]
p[26]
p[27]
p[28]
p[29]
p[30]
p[31]
p[32]
p[33]
p[34]
p[35]
p[36]
p[37]
p[38]
p[39]
p[40]
p[41]
p[42]
p[43]
p[44]
p[45]
p[46]
p[47]
p[48]
p[49]
p[50]
p[51]
p[52]
p[53]
mean
-6,294
-0,001871
0,03598
0,009789
0,02121
0,01019
0,007605
0,01862
0,02365
0,01167
0,008847
0,01286
0,005374
0,01432
0,01858
0,01853
0,01457
0,01371
0,01974
0,0119
0,003193
0,007406
0,003887
0,005684
9,618E-4
0,006924
0,006129
0,003232
0,002309
0,002671
0,003689
0,003943
0,002316
0,00595
0,005537
0,002086
0,002034
0,002237
0,00308
0,002172
0,01175
0,00297
0,001461
5,934E-4
0,005014
0,001991
0,005625
0,007061
0,006394
0,005014
0,003135
0,001417
0,002989
0,001117
0,003758
0,003959
sd
0,4814
0,002417
0,01026
0,003031
0,007361
0,002756
0,001704
0,005723
0,01289
0,008474
0,00195
0,003223
0,00147
0,00441
0,006457
0,005569
0,003807
0,008173
0,006384
0,004564
0,001323
0,002048
0,00123
0,002089
7,295E-4
0,001747
0,001559
0,001291
0,001078
0,001121
0,001331
0,001578
0,001079
0,001455
0,001591
0,001097
0,001027
0,001065
0,001141
0,001052
0,004384
0,001196
8,734E-4
5,808E-4
0,001598
9,799E-4
0,001456
0,001845
0,001872
0,001598
0,001156
8,625E-4
0,001283
7,86E-4
0,001237
0,00125
MC error
0,0164
8,9E-5
3,388E-4
9,697E-5
2,688E-4
1,011E-4
5,904E-5
1,895E-4
5,076E-4
3,202E-4
6,727E-5
1,07E-4
4,876E-5
1,407E-4
2,061E-4
1,928E-4
1,306E-4
2,487E-4
2,096E-4
1,432E-4
4,249E-5
7,394E-5
4,048E-5
6,748E-5
2,23E-5
6,189E-5
5,437E-5
4,158E-5
3,495E-5
3,581E-5
4,493E-5
5,097E-5
3,409E-5
4,99E-5
5,567E-5
3,579E-5
3,302E-5
3,446E-5
3,696E-5
3,31E-5
1,379E-4
3,951E-5
2,725E-5
1,714E-5
5,236E-5
3,093E-5
4,86E-5
6,586E-5
6,132E-5
5,236E-5
3,742E-5
2,687E-5
4,108E-5
2,376E-5
4,12E-5
4,109E-5
2,5%
-7,294
-0,006526
0,01544
0,004774
0,009167
0,005473
0,004722
0,008713
0,005529
0,002126
0,005575
0,00726
0,002995
0,006956
0,008522
0,009126
0,008121
0,003525
0,009021
0,00486
0,001355
0,004046
0,00193
0,002629
1,681E-4
0,003976
0,003532
0,001392
8,139E-4
0,001072
0,001699
0,001678
8,491E-4
0,00354
0,002983
6,41E-4
6,449E-4
7,689E-4
0,001362
7,701E-4
0,004908
0,001212
3,59E-4
7,402E-5
0,002559
6,369E-4
0,003225
0,003974
0,003432
0,002559
0,0014
3,394E-4
0,001229
2,426E-4
0,001827
0,002006
median
-6,3
-0,001759
0,03634
0,009309
0,02023
0,009998
0,007481
0,01808
0,0211
0,009761
0,008732
0,01271
0,005249
0,01369
0,01764
0,01809
0,01433
0,01161
0,01906
0,01109
0,002915
0,007262
0,003724
0,005375
7,616E-4
0,006804
0,005949
0,002959
0,00208
0,002416
0,003468
0,003655
0,00205
0,005818
0,005339
0,001826
0,001813
0,002009
0,002885
0,001904
0,01099
0,002751
0,001255
4,045E-4
0,004812
0,00176
0,005523
0,006925
0,006179
0,004812
0,002947
0,001212
0,002702
8,804E-4
0,003573
0,003789
97,5%
-5,383
0,002974
0,0564
0,01675
0,03873
0,01628
0,01116
0,03097
0,05689
0,03494
0,01285
0,01954
0,008619
0,02366
0,03264
0,0305
0,02253
0,03357
0,03411
0,02231
0,006227
0,01197
0,00673
0,01069
0,002944
0,01068
0,00956
0,006242
0,00483
0,005409
0,006789
0,007646
0,005131
0,009196
0,009073
0,004853
0,004579
0,00474
0,005805
0,004918
0,02169
0,005821
0,003868
0,002248
0,00871
0,004454
0,008792
0,01102
0,01065
0,00871
0,005916
0,003794
0,006052
0,003241
0,006608
0,006803
start
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
sample
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
5.3. EXERCICIOS
73
alpha0
-5.0
-6.0
-7.0
-8.0
1001
1250
1500
1750
2000
1750
2000
1750
2000
iteration
alpha1
0.005
1.73472E-18
-0.005
-0.01
-0.015
1001
1250
1500
iteration
alpha2
0.08
0.06
0.04
0.02
0.0
1001
1250
1500
iteration
Figura 5.4: Graficos das amostras simuladas para 0 , 1 e 2 .
5.3
Exerccios
(1) Dados de economia informal (8 firmas); y = ndice de funcionarios registrados; x1 =

ndice de funcionarios com segundo grau completo; x2 = ndice de funcionarios do sexo feminino;
x3 = capital da firma (em $1000000,00). Dados:
F irma :
y
x1
x2
x3
1
2
3
4
5
6
7
8
0, 10 0, 65 0, 30 0, 30 0, 28 0, 78 0, 28 0, 45
0, 08 0, 17 0, 08 0, 30 0, 05 0, 18 0, 09 0, 45
0, 40 0, 40 0, 38 0, 50 0, 52 0, 32 0, 45 0, 65
0, 75 1, 02 1, 09 1, 35 1, 20 2, 20 2, 95 2, 50
(a) Considerar um modelo linear para analizar estes dados:

yi = + 1 x1i + 2 x2i + 3 x3i + i
em que i sao variaveis aleatorias normais independentes com media zero e variancia 2 para
i = 1, . . . , 8. Assumir diferentes distribuicoes a priori para os parametros. Em cada caso,
assumir 5 cadeias paralelas e verificar a convergencia do algoritmo Gibbs sampling. Usar o
software Winbugs.
5.3. EXERCICIOS
74
1
2
3
4
5
6
7
8
9
10
11
12
13
model
{
f o r ( i i n 1 :N)
{
y [ i ] dnorm (mu[ i ] , tau )
mu[ i ] < a l p h a + b e t a 1 x1 [ i ] + b e t a 2 x2 [ i ] + b e t a 3 x3 [ i ]
}
a l p h a dnorm ( 0 , 1 . 0 E6)
b e t a 1 dnorm ( 0 , 1 . 0 E6)
b e t a 2 dnorm ( 0 , 1 . 0 E6)
b e t a 3 dnorm ( 0 , 1 . 0 E6)
tau dgamma ( 1 , 1 )
}
14
15
16
17
18
l i s t ( y=c ( 0 . 1 0 , 0 . 6 5 , 0 . 3 0 , 0 . 3 0 , 0 . 2 8 , 0 . 7 8 , 0 . 2 8 , 0 . 4 5 ) ,
x1=c ( 0 . 0 8 , 0 . 1 7 , 0 . 0 8 , 0 . 3 0 , 0 . 0 5 , 0 . 1 8 , 0 . 0 9 , 0 . 4 5 ) ,
x2=c ( 0 . 4 0 , 0 . 4 0 , 0 . 3 8 , 0 . 5 0 , 0 . 5 2 , 0 . 3 2 , 0 . 4 5 , 0 . 6 5 ) ,
x3=c ( 0 . 7 5 , 1 . 0 2 , 1 . 0 9 , 1 . 3 5 , 1 . 2 0 , 2 . 2 0 , 2 . 9 5 , 2 . 5 0 ) , N=8)
19
20
l i s t ( a l p h a =1, b e t a 1 =0, b e t a 2 =0, b e t a 3 =0, tau =1)
(b) Escrever as distribuicoes condicionais necessarias para o amostrador de Gibbs;

(c) Escrever um programa pra resolver esse problema (MINITAB, R, SAS, etc). Comparar
os resultados obtidos.
(2) Seja I uma variavel denotando o investimento de uma firma e seja K denotando o seu
ativo imobilizado. Definir uma variavel resposta y como o ndice y = KI de investimento da
da firma
caixa
; x2 = financiamento
; e x3
firma. Sejam x1 , x2 e x3 covariaveis dadas por x1 = fluxo de
K
K
denotando o custo anual com empregados. Dados para 8 firmas acompanhadas durante os anos
de 1990, 1991 e 1992, respectivamente. Dados:
y
0, 06
0, 65
0, 25
0, 32
0, 28
0, 67
0, 25
0, 37
1990
x1
x2
x3
0, 02 0, 36 0, 98
0, 12 0, 45 1, 32
0, 07 0, 38 1, 84
0, 32 0, 49 1, 26
0, 02 0, 51 0, 85
0, 18 0, 28 2, 34
0, 08 0, 36 3, 20
025 0, 38 1, 96
y
0, 12
0, 72
0, 32
0, 26
0, 25
0, 83
0, 32
0, 42
Ano
1991
x1
x2
0, 07 0, 42
0, 15 0, 38
0, 10 0, 42
0, 35 0, 53
0, 01 0, 55
0, 15 0, 30
0, 09 0, 30
0, 32 0, 32
x3
0, 85
1, 42
1, 86
1, 32
0, 92
2, 45
2, 86
2, 65
y
0, 10
0, 65
0, 30
0, 30
0, 28
0, 78
0, 28
0, 45
1992
x1
x2
0, 08 0, 40
0, 17 0, 40
0, 08 0, 38
0, 30 0, 50
0, 05 0, 52
0, 18 0, 32
0, 09 0, 45
0, 45 0, 65
x3
0, 75
1, 02
1, 09
1, 35
1, 20
2, 20
2, 95
2, 50
(a) Considerar um modelo linear para analizar esses dados:

yij = i + j + ij + 0 + 1 x1ij + 2 x2ij + 3 x3ij + ij
em que ij sao variaveis aleatorias independentes com media zero e variancia 2 para i = 1, . . . , 8;
j = 1, 2, 3 (tempos) e assumir diferentes distribuicoes a priori para os parametros. Em cada
caso, assumir 5 cadeias paralelas e verificar a convergencia do algoritmo Gibbs sampling. Usar
o software Winbugs.
5.3. EXERCICIOS
75
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
model {
f o r ( i i n 1 :N)
{
f o r ( j i n 1 :T)
{
y [ i , j ] dnorm (mu[ i , j ] , tau . c )
mu[ i , j ] < a l p h a [ i ] + tau [ j ] + gamma [ i , j ] + b e t a 0+ b e t a 1 x1 [ i , j ] +
b e t a 2 x2 [ i , j ] + b e t a 3 x3 [ i , j ]
}
}
for ( i in 1:8)
{
a l p h a [ i ] dnorm ( 0 , tau . a l p h a )
}
for ( j in 1:3)
{
tau [ j ] dnorm ( 0 , tau . b e t a )
}
f o r ( i i n 1 :N)
{
f o r ( j i n 1 :T)
{
gamma [ i , j ] dnorm ( 0 , tau . gamma)
}
}
tau . gamma dgamma ( 1 , 1 )
tau . c dgamma ( 1 , 1 )
b e t a 0 dnorm ( 0 , 1 . 0 E6)
b e t a 1 dnorm ( 0 , 1 . 0 E6)
b e t a 2 dnorm ( 0 , 1 . 0 E6)
b e t a 3 dnorm ( 0 , 1 . 0 E6)
tau . a l p h a dgamma ( 1 , 1 )
tau . b e t a dgamma ( 1 , 1 )
}
35
36
37
38
39
40
41
42
43
44
45
l i s t ( y=s t r u c t u r e ( . Data =
c (0.06 ,0.12 ,0.1 ,0.65 ,0.72 ,0.65 ,0.25 ,0.32 ,0.3 ,0.32 , 0.26 ,0.3 ,0.28 ,0.25 ,0.28 ,
0 . 6 7 , 0 . 8 3 , 0 . 7 8 , 0 . 2 5 , 0 . 3 2 , 0 . 2 8 , 0 . 3 7 , 0 . 4 2 , 0 . 4 5 ) , . Dim=c ( 8 , 3 ) ) ,
x1=s t r u c t u r e ( . Data = c ( 0 . 0 2 , 0 . 0 7 , 0 . 0 8 , 0 . 1 2 , 0 . 1 5 , 0 . 1 7 , 0 . 0 7 , 0 . 1 , 0 . 0 8 , 0 . 3 2 , 0 . 3 5 ,
0 . 3 , 0 . 0 2 , 0 . 0 1 , 0 . 0 5 , 0 . 1 8 , 0 . 1 5 , 0 . 1 8 , 0 . 0 8 , 0 . 0 9 , 0 . 0 9 , 0 . 2 5 , 0 . 3 2 , 0 . 4 5 ) , . Dim=c ( 8 , 3 ) ) ,
x2=s t r u c t u r e ( . Data = c ( 0 . 3 6 , 0 . 4 2 , 0 . 4 , 0 . 4 5 , 0 . 3 8 , 0 . 4 , 0 . 3 8 , 0 . 4 2 , 0 . 3 8 , 0 . 4 9 , 0 . 5 3 ,
0 . 5 , 0 . 5 1 , 0 . 5 5 , 0 . 5 2 , 0 . 2 8 , 0 . 3 , 0 . 3 2 , 0 . 3 6 , 0 . 3 , 0 . 4 5 , 0 . 3 8 , 0 . 3 2 , 0 . 6 5 ) , . Dim=c ( 8 , 3 ) ) ,
x3=s t r u c t u r e ( . Data = c ( 0 . 9 8 , 0 . 8 5 , 0 . 7 5 , 1 . 3 2 , 1 . 4 2 , 1 . 0 2 , 1 . 8 4 , 1 . 8 6 , 1 . 0 9 , 1 . 2 6 , 1 . 3 2 ,
1 . 3 5 , 0 . 8 5 , 0 . 9 2 , 1 . 2 , 2 . 3 4 , 2 . 4 5 , 2 . 2 , 3 . 2 , 2 . 8 6 , 2 . 9 5 , 1 . 9 6 , 2 . 6 5 , 2 . 5 ) , . Dim=c ( 8 , 3 ) ) ,
N=8,T=3)
46
47
48
49
50
l i s t ( tau . c =1, a l p h a=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ) , b e t a 0 =0, b e t a 1 =0, b e t a 2 =0,

b e t a 3 =0, tau . a l p h a =1, tau . gamma=1, tau . b e t a =1, tau=c ( 0 , 0 , 0 ) ,
gamma=s t r u c t u r e ( . Data=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ) ,
. Dim=c ( 8 , 3 ) ) )
(b) Escrever as distribuicoes condicionais necessarias para o amostrador de Gibbs.

Captulo 6
Algumas aplica
c
oes
6.1
Modelos Bayesianos Hier

arquicos
Considerar uma estrutura de varios nveis de relacao a priori do modelo com verossimilhanca f (y | ) e priori () em que () e decomposto pelas distribuicoes condicionais
1 ( | 1 ) , 2 (1 | 2 ) , . . . , l1 (l2 | l1 ) e na distribuicao marginal l (l1 ) . Assim temos:
Z
() = 1 ( | 1 ) 2 (1 | 2 ) . . . l1 (l2 | l1 ) l (l1 ) d1 d2 . . . dl1
(6.1)
em que i denota o hiperparametro no nvel i = 1, 2, . . . e a integral e considerada para
1 , 2 , . . . , l1 .
Exemplo 6.1: (Modelo Poisson/exponencial hierarquico)
Seja Yi , i = 1, . . . , n uma variavel aleatoria denotando o n
umero de acidentes de trabalho
durante um dado perodo fixado de tempo em n linhas de producao de uma ind
ustria.
Assumir uma distribuicao de Poisson para Yi ,
Yi | i v P oisson (i )
(6.2)
em que 1 , 2 , . . . , n e suposto como uma amostra aleatoria de uma distribuicao exponencial

com hiperparametro desconhecido.
Assumir uma distribuicao a priori nao-informativa para , dada por 2 () 1 , > 0.
Dessa forma, temos um modelo Bayesiano hierarquico definido pela distribuicao conjunta
para y = (y1 , . . . , yn )0 dado = (1 , 2 , . . . , n ) ,
f (y | ) =
n
Y
exp (i ) yi
i
yi !
i=1
(6.3)
Assim uma priori para no primeiro estagio e dada por,

1 ( | ) =
n
Y
exp (i )
(6.4)
i=1
e uma priori para no segundo estagio e dada por,

2 ()
em que > 0.
76
(6.5)

6.1. MODELOS BAYESIANOS HIERARQUICOS
77
Combinando-se (6.3) , (6.4) e (6.5) temos a distribuicao a posteriori conjunta para e

dada por,
(, | y) f (y | ) 1 ( | ) 2 ()
(6.6)
Isto e,
"
(, | y) n1 exp ( + 1)
n
X
i=1
#
i
n
Y
yi i
(6.7)
i=1
As distribuicoes condicionais necessarias para o amostrador de Gibbs sao dadas por:

!
n
X
(i) | , y v Gama n,
i
(6.8)
i=1
(ii) i | , (i) , y v Gama (yi + 1, + 1)

em que i = 1, 2, . . . , n e (i) = (1 , 2 , . . . , i1 , i+1 , . . . , n )
Exemplo 6.2: (modelo normal/normal hierarquico)
Sejam y1 , . . . , yn observacoes independentes de uma distribuicao normal, isto e, yi | i v
N (i , 21 ) para i = 1, . . . , n e com 21 conhecido.
Assumir no primeiro nvel de um modelo Bayesiano hierarquico, a distribuicao a priori para
i dada por,

iid
i | , 22 v N , 22
(6.9)
para i = 1, . . . , n.
No segundo nvel de hierarquia, assumir independencia a priori entre e 22 e uma distribuicao localmente uniforme para , isto e,

, 22 2 22
(6.10)
em que 2 ( 22 ) e uma priori para 22 .
Dessa forma, a distribuicao a posteriori para 1 , . . . , n , , 22 e dada por:
( n

)
Y

1
1
p
exp 2 (yi i )2
1 , . . . , n , , 22 | y
2
2
2
1
1
i=1
( n

)
Y
1
1
p
exp 2 (i )2
2
2
2
2
2
i=1

2
2 2
(6.11)
em que < i < ; < < e 22 > 0.

Assumir uma distribuicao a priori gama inversa para 22 , isto e,
22 v IG (a, b)
(6.12)
em que a e b sao conhecidos.

Portanto,
1 , . . . , n , , 22
|y

b
exp 2
2
"
#
n
n
1 X
1 X
2
2
(yi i ) 2
(i )
exp 2
2 1 i=1
2 2 i=1
(a+ n2 +1)
22
(6.13)

6.2. ANALISE
BAYESIANA EMPIRICA
78
As distribuicoes condicionais necessarias para o amostrador de Gibbs sao dadas por,

#
"
n
X
1
n
(i )2
(6.14)
(a) 22 | , , y v IG a + ; b +
2
2 i=1

2
2
2
(b) | , 2 , y v N ;
n

2
yi 2 + 21 21 22
2
,
(c) i | (i) , , 2 , y v N
21 + 22 21 + 22
P
em que = (1 , . . . , n ); = n1 ni=1 i ; i = 1, . . . , n.
6.2
An
alise Bayesiana Emprica
Em muitas aplicacoes podemos usar os dados y para elicitar uma distribuicao a priori ()
para os parametros do modelo f (y | ). A funcao de verossimilhanca marginal e dada por
Z
f (y) = f (y | ) () d
(6.15)
Assim usar o metodo da maxima verossimilhanca marginal para a escolha da priori ().
Supor n observacoes yi independentes com distribuicoes f (yi | i ) em que os parametros
i , i = 1, . . . , n sao considerados como gerados independentemente da mesma priori () desconhecida. Para simplificacao assumir que ( | ) e especificada, mas com desconhecido.
A verossimilhanca marginal para e dada por,
Z
Z
f (y | ) = . . . f (yi | i ) (i | ) d1 . . . dn
(6.16)
em que
Z
f (yi | ) =
f (yi | i ) (i | ) di
Usando o metodo de maxima verossimilhanca ou o metodo dos momentos obter uma estimativa
do hiperparametro . Entao considerar esse valor para o hiperparametros da
distribuicao a priori ( | ).
Como um caso particular considerar o modelo Poisson/exponencial, com funcao de probabilidade,
exp (i ) yi i
(6.17)
f (yi | i ) =
yi !
para yi = 0, 1, 2, . . . e a priori,
(i | ) = exp (i )
(6.18)
para i > 0.
Dessa forma,
Z
f (yi | ) =
f (yi | i ) (i | ) di
0
(yi +1)1
i
0
(yi + 1)
( + 1)yi +1
exp [ ( + 1) i ] di
(6.19)

6.2. ANALISE
BAYESIANA EMPIRICA
79
Portanto, a funcao de verossimilhanca para assumindo n observacoes independentes e dada

por,
n
Q
(yi + 1)
n
i=1
Pn
L ()
(6.20)
( + 1)n+ i=1 yi
O logaritmo da funcao de verossimilhanca L () e dado por,
!
n
X
l () = ln L () n ln () n +
yi ln ( + 1)
(6.21)
i=1
Pn
i
De l0 () = 0, encontramos = y1 , em que y = i=1
.
n
A distribuicao a posteriori para i e dada por,

(i | y) exp i yi i exp (i )
(6.22)
Isto e,
(i | y)
(y +1)1
i i

1
+ 1 i
exp
y
(6.23)
i = 1, . . . , n.
Ou seja,

1
i | yi v Gama yi + 1; + 1
y

(6.24)
Exemplo 6.3: Qualidade do atendimento em um hospital.

Considerar n = 400 pacientes com AMI (acute myocardial infarction) tendo um ataque
cardaco apos 30 dias do diagnostico de AMI durante o perodo janeiro/2000 a dezembro/2003
por um grande hospital.
A variavel resposta e o status da mortalidade (1 = morte;0 = sobrevivencia). Denotar
essa variavel aleatoria por Y com uma distribuicao de Bernoulli com probabilidade de sucesso
[ = P (Y = 1)]. Assumir uma distribuicao a priori Beta (, ) para . Observar que essas
400 pessoas nao formam uma amostra aleatoria de uma populacao. Apesar disso, assumir
permutabilidade para as observacoes yi , i = 1, . . . , n. O teorema da representacao de DeFinetti
para variaveis 0 1 mostra que dado as variaveis Yi sao independentes.
Supor que um especialista da area de cardiologia afirma que a taxa de mortalidade para
pacientes com 30 dias de AMI e em media de 15%. Alem disso, o especialista fornece outra
informacao: a taxa de mortalidade a partir de estudos previos e um valor entre 5% e 30%.
Com essas informacoes do especialista, escolher os valores dos hiperparemetros da distribui
c
p ao beta por = 4, 5 e = 25, 5 o que leva a uma media E () 0, 15 e desvio-padrao
var () 0, 064 para a distribuicao Beta (, ).
f (y | ) = L () = S (1 )nS
(6.25)
P
em que S = ni=1 yi .
Combinando a funcao de verossimilhanca (6.25) com a distribuicao a priori Beta (4, 5; 25, 5)
para , a distribuicao a posteriori para e uma distribuicao Beta ( + S; + n S). Com os
dados | y, , v Beta (76, 5; 353, 5).
Um estimador de Bayes com respeito a funcao de perda quadratica e dado pela media a

6.2. ANALISE
BAYESIANA EMPIRICA
80
posteriori para , isto e,

E ( | y) =
+S
++n
(6.26)
Isto e, E ( | y) = 0, 178.
Exemplo 6.4: (Meta-analise para efeitos de aspirina em ataques cardacos)
Supor um experimento realizado por 6 centros medicos para comparar o uso de aspirina e
placebo em pacientes apos um ataque cardaco (ver tabela 6.1).
Tabela 6.1: Estudo de 6 centro medicos.
Centro
Aspirina
Medico N pacientes Taxa Mortalidade (%)

UK-1
615
7, 97
CDPA
758
5, 80
GAMS
317
8, 52
UK-2
832
12, 26
Paris
810
10, 49
AMIS
2267
10, 58
Total
5599
9, 88
Placebo
N pacientes Taxa Mortalidade (%)
624
10, 74
771
8, 30
309
10, 36
850
14, 82
406
12, 81
2257
9, 70
5217
10, 73
Considerando inicialmente um estudo classico, temos na tabela 6.2 os sumarios obtidos para
as diferencas entre as taxas de mortalidade para cada uma dos centros medicos considerados.
Tabela 6.2: Sumarios da inferencia classica para os 6 centros medicos.
Centro Medico yi =diferenca em %
UK-1
2, 77
CDPA
2, 50
GAMS
1, 84
UK-2
2, 56
Paris
2, 31
AMIS
1, 15
Total
0, 86
E. P. da diferenca em %
zi
1, 65
1, 68
1, 31
1, 91
2, 34
0, 79
1, 67
1, 54
1, 96
1, 17
0, 90
1, 27
0, 59
1, 47
pi
0, 047
0, 028
0, 216
0, 062
0, 129
0, 898
0, 072
Observar que zi dado na tabela 6.2 representa a razao das diferencas em taxas de mortalidade
em relacao aos seus erros-padrao (EP). Da mesma forma, pi denota o p-value (teste unicaudal)
associado com zi , usando uma aproximacao normal.
A partir dos resultados da tabela 6.2 observamos que os 5 primeiros estudos levam a um
declnio na taxa de mortalidade usando aspirina, apesar de alguns estudos nao mostrarem
evidencias de significancia (p-values maiores do que 0, 05). O u
ltimo estudo (AMIS) leva a uma
aumento na taxa de mortalidade para pacientes recebendo aspirina. Observar que esse grupo
tem o maior n
umero de pacientes.
Uma dificuldade com o uso de metodos classicos aplicados a meta-analise e a combinacao
dos resultados para os diferentes grupos em termos de um p-value geral para todos os estudos.
O uso de metodos Bayesianos tem sido uma alternativa promissora para meta-analise aplicada
a estudos medicos.

6.2. ANALISE
BAYESIANA EMPIRICA
81
Assumir um modelo Bayesiano hierarquico com as taxas de mortalidade para os dois grupos
(aspirina e placebo) com distribuicoes normais, isto e,

y1i v N 1i , 21
(6.27)

2
y2i v N 2i , 2
para i = 1, . . . , 6; y1i e a taxa de mortalidade para pacientes recebendo aspirina e y2i e a taxa
de mortalidade para pacientes recebendo placebo.
Assumir em um primeiro estagio da analise Bayesiana as seguintes distribuicoes a priori
para os parametros do modelo:

1i v N 1i , 21
(6.28)

2
2i v N 2i , 2
21 v Gama (a1 , b1 )
22 v Gama (a2 , b2 )
para i = 1, . . . , 6; a1 , a2 , b1 e b2 hiperparametros conhecidos. Assumir independencia a priori
entre os parametros.
Em um segundo estagio da analise Bayesiana hierarquica assumir as distribuicoes a priori,

1i v N c1i , d21i
(6.29)

2
2i v N c2i , d2i
21 v Gama (e1 , f1 )
22 v Gama (e2 , f2 )
para i = 1, . . . , 6 e com todos os hiperparametros de (6.29) assumidos conhecidos. Com a
informacao obtida dos resultados da inferencia classica (ver tabela 6.2), escolhemos os valores
dos hiperparametros para as distribuicoes a priori (6.28) e (6.29) (Uso de metodos Bayesianos
Empricos).
Usando o software Winbugs, considere o programa:
1
2
3
4
5
6
model
{
f o r ( i i n 1 :N)
{
y1 [ i ] dnorm ( t h e t a 1 [ i ] , tau1 )
y2 [ i ] dnorm ( t h e t a 2 [ i ] , tau2 )
7
8
9
t h e t a 1 [ i ] dnorm ( a l p h a 1 [ i ] , e t a 1 )
t h e t a 2 [ i ] dnorm ( a l p h a 2 [ i ] , e t a 2 )
10
11
12
d [ i ] < t h e t a 2 [ i ] t h e t a 1 [ i ]
}
13
14
15
16
17
18
19
alpha1 [ 1 ]
alpha1 [ 2 ]
alpha1 [ 3 ]
alpha1 [ 4 ]
alpha1 [ 5 ]
alpha1 [ 6 ]
dnorm ( 8 , 1 )
dnorm ( 5 . 8 , 1 )
dnorm ( 8 . 5 , 1 )
dnorm ( 1 2 . 3 , 1 )
dnorm ( 1 0 . 5 , 1 )
dnorm ( 1 0 . 6 , 1 )

6.2. ANALISE
BAYESIANA EMPIRICA
20
21
22
23
24
25
alpha2 [ 1 ]
alpha2 [ 2 ]
alpha2 [ 3 ]
alpha2 [ 4 ]
alpha2 [ 5 ]
alpha2 [ 6 ]
82
dnorm ( 1 0 . 7 , 1 )
dnorm ( 8 . 3 , 1 )
dnorm ( 1 0 . 4 , 1 )
dnorm ( 1 4 . 8 , 1 )
dnorm ( 1 2 . 8 , 1 )
dnorm ( 9 . 7 , 1 )
26
27
28
29
30
31
tau1
tau2
eta1
eta2
}
dgamma ( 0 . 1
dgamma ( 0 . 1
dgamma ( 0 . 1
dgamma ( 0 . 1
,0.1)
,0.1)
,0.1)
,0.1)
32
33
34
l i s t ( y1=c ( 7 . 9 7 , 5 . 8 , 8 . 5 2 , 1 2 . 2 6 , 1 0 . 4 9 , 1 0 . 5 8 ) ,
y2=c ( 1 0 . 7 4 , 8 . 3 , 1 0 . 3 6 , 1 4 . 8 2 , 1 2 . 8 1 , 9 . 7 ) , N=6)
Na geracao de amostras para a distribuicao a posteriori usando o amostrador de Gibbs,

consideramos um burn-in de tamanho 1000 e geramos uma amostra final de tamanho 1000
escolhendo amostras de 10 em 10.
Na tabela 6.3 temos os sumarios a posteriori obtidos usando o software WinBugs.
A partir dos resultados da tabela 6.3 observamos que os intervalos de credibilidade 95%
para as diferencas di = 2i 1i , i = 1, . . . , 6 para os 5 primeiros tratamentos nao incluem o
valor zero, isto e, a aspirina apresenta um ganho em relacao ao placebo em termos de taxas
de mortalidade menores. Alem disso todas as estimativas de Monte Carlo baseadas nas 1000
amostras geradas de Gibbs para as medias a posteriori de di , isto e, E (di | y) sao positivas. O
intervalo de credibilidade 95% para o u
ltimo estudo (i = 6, AMIS) inclui o valor zero, isto e,
indicando um efeito nao significativo da aspirina na taxa de mortalidade para os pacientes apos
um ataque cardaco.
Exemplo 6.5: Supor os dados de um experimento conduzido com pessoas idosas na Dinamarca nos anos 1980 considerando 572 idosos vivendo em diferentes cidades pequenas que
foram aleatorizados para dois grupos: um grupo com 287 pessoas (grupo experimental recebendo um novo tipo de medicina preventiva). O objetivo do estudo foi verificar se a nova terapia
preventiva aplicada aos idosos melhora a sa
ude.
A resposta associada a cada idoso foi relacionada ao n
umero de hospitalizacoes durante o
perodo de 2 anos (tempo de duracao do estudo). Os dados desse estudo sao apresentados na
tabela 6.4.
Considerando inicialmente uma analise preliminar descritiva dos dados, observar que a reducao do mnimo de hospitalizacoes e dado pela
diferenca 0, 944 0, 768 = 0, 176, isto e, levando
= 19%.
a uma reducao no nvel de controle de 100 0,9440,768
0,768
Uma analise classica (erronea) poderia ser feita assumindo distribuicoes normais para Ci
(controle) e Ej (experimental), isto e,

Ci | c , 2c v N c , 2c
(6.30)

2
2
Ej | e , e v N e , e
para i = 1, . . . , nc (nc e o n
umero de pacientes do grupo controle; nc = 287) e j = 1, . . . , ne (ne
e o numero de pacientes idosos no grupo experimental, ne = 285).
Usando a estatstica Z (comparacao de amostras independentes), temos para o efeito de
tratamento uma media amostral igual a 0, 176 (diferenca das medias); um desvio-padrao
amostral igual a 0, 0944 e um intervalo de confianca para a diferenca de medias dado por
(0, 361; 0, 009).

6.2. ANALISE
BAYESIANA EMPIRICA
83
Tabela 6.3: Sumarios a posteriori (analise Bayesiana para os dados da tabela 6.2).
node
mean
sd
MC error
alpha1[1] 8,012 0,6213 0,02164
alpha1[2] 5,811 0,6123 0,02328
alpha1[3] 8,528 0,6122 0,01645
alpha1[4]
12,3
0,5966 0,01637
alpha1[5] 10,48 0,6407 0,02329
alpha1[6] 10,57 0,6314 0,01924
alpha2[1] 10,76 0,5948 0,01458
alpha2[2]
8,31
0,6122 0,01985
alpha2[3] 10,35 0,6145 0,01964
alpha2[4] 14,82 0,6256 0,02158
alpha2[5] 12,78 0,6041 0,01527
alpha2[6] 9,682 0,6171 0,01849
d[1]
2,754 0,7151 0,02227
d[2]
2,505 0,6918 0,02022
d[3]
1,852 0,6981 0,02203
d[4]
2,535 0,7298
0,0262
d[5]
2,308
0,671
0,01984
d[6]
-0,8969 0,7191 0,02416
eta1
6,674
7,068
0,2017
eta2
6,878
7,07
0,2111
tau1
6,719
7,011
0,1986
tau2
6,591
6,687
0,1972
theta1[1] 7,997 0,5034 0,01628
theta1[2] 5,791 0,4899 0,01648
theta1[3] 8,507 0,4986 0,01677
theta1[4] 12,29 0,5215 0,01575
theta1[5] 10,49 0,4792 0,01726
theta1[6] 10,59 0,5237 0,01746
theta2[1] 10,75
0,485
0,01476
theta2[2] 8,297 0,4868 0,01444
theta2[3] 10,36 0,5144
0,0154
theta2[4] 14,83 0,5133 0,01761
theta2[5]
12,8
0,4805 0,01253
theta2[6] 9,688 0,5225 0,01696
2,5% median 97,5% start sample

6,805
8,002
9,332 1001
1000
4,573
5,812
7,014 1001
1000
7,381
8,508
9,765 1001
1000
11,17
12,29
13,46 1001
1000
9,307
10,48
11,8
1001
1000
9,31
10,58
11,78 1001
1000
9,621
10,75
11,96 1001
1000
6,991
8,316
9,541 1001
1000
9,141
10,31
11,61 1001
1000
13,56
14,82
16,09 1001
1000
11,47
12,78
13,96 1001
1000
8,405
9,691
10,94 1001
1000
1,247
2,777
4,149 1001
1000
1,214
2,505
3,926 1001
1000
0,3278 1,841
3,277 1001
1000
1,032
2,539
4,053 1001
1000
0,934
2,331
3,642 1001
1000
-2,364 -0,8849 0,5441 1001
1000
0,5855 4,191
27,23 1001
1000
0,4839 4,639
26,1
1001
1000
0,5612 4,317
28,34 1001
1000
0,6053 4,307
25,24 1001
1000
7,006
7,997
9,065 1001
1000
4,727
5,812
6,792 1001
1000
7,54
8,51
9,577 1001
1000
11,22
12,28
13,44 1001
1000
9,513
10,49
11,46 1001
1000
9,423
10,57
11,65 1001
1000
9,742
10,76
11,78 1001
1000
7,345
8,284
9,303 1001
1000
9,281
10,36
11,43 1001
1000
13,78
14,81
16,0
1001
1000
11,78
12,8
13,76 1001
1000
8,621
9,702
10,71 1001
1000
Tabela 6.4: Dados de pacientes idosos.

N
umero de
Grupo
0
1 2
(C) Controle
140 75 46
(E) Experimental 147 83 37
hospitalizacoes
n
3 4 5 6 7
12 8 4 0 2 287
13 3 1 1 0 285
media
D.P.
0, 944
0, 768
1, 24
1, 01

6.2. ANALISE
BAYESIANA EMPIRICA
84
Observar que os dados da tabela 6.4 sao dados de contagem (dados discretos). Portanto
assumir para uma analise Bayesiana uma distribuicao de Poisson para as variaveis aleatorias
Ci e Ej dados por:
Ci | c v P oisson (c )
Ej | e v P oisson (e )
(6.31)
para i = 1, . . . , nc e j = 1, . . . , ne .
Assumir as seguintes distribuicoes a priori (independentes) para c e e .
c v Gama (0, 01; 0, 01)
e v Gama (0, 01; 0, 01)
(6.32)
Observar que as distribuicoes a priori (6.32) sao nao-informativas para os parametros. Tambem observar que temos interesse no efeito de tratamento dado por = e c .
Um programa usando o software WinBugs considerando as respostas para cada indivduo
nos grupos C e E e dado a seguir:
1
2
3
4
5
6
7
8
9
10
11
12
13
model {
lambda . c
lambda . e
for ( i in
{
C[ i ]
}
for ( i in
{
E[ i ]
}
e f f e c t <
}
dgamma ( 0 . 0 1 , 0 . 0 1 )
dgamma ( 0 . 0 1 , 0 . 0 1 )
1:n . c )
d p o i s ( lambda . c )
1:n . e )
d p o i s ( lambda . e )
lambda . e lambda . c
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
l i s t (C=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,4 ,4 ,4 ,4 ,4 ,4 ,5 ,5 ,
5 , 5 , 7 , 7 ) , n . c =287 ,
E=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,4 ,5 ,6) ,
n . e =285)
l i s t ( lambda . c =1.0 , lambda . e =1.0)

6.2. ANALISE
BAYESIANA EMPIRICA
85
Na tabela 6.5, temos os sumarios a posteriori de interesse assumindo um burn-in de tamanho 2000 e gerando 1000 amostras finais selecionadas de 10 em 10.
Tabela 6.5: Sumarios a posteriori (analise Bayesiana para os dados da tabela 6.6).
node
mean
sd
MC error 2, 5% median 97, 5% start sample
effect
-0,1711 0,07823 0,002539 -0,3272 -0,1691 -0,01809 2001
1000
lambda.c 0,9375 0,05813 0,001708 0,8253 0,9372
1,056
2001
1000
lambda.e 0,7664 0,05143 0,00174
0,67
0,766
0,8693 2001
1000
A partir dos resultados da tabela 6.5, observar que uma estimativa de Monte Carlo para a
media a posteriori da diferenca = e c baseada nas 1000 amostras de Gibbs e dada por
= 0, 1711, um resultado similar ao obtido na inferencia classica assumindo a estatstica
Z. Entretanto, observa-se um intervalo de credibilidade 95% para essa diferenca dado por
(0, 3272; 0, 01809) que tem comprimento menor ao obtido pelo intervalo de confianca 95%
usando a estatstica Z. Tambem observamos que o valor zero nao esta includo no intervalo de
credibilidade 95%, um indicativo de que a nova terapia diminui o n
umero de internacoes dos
[
idosos. O criterio DIC para esse valor foi estimado por DIC = 1497, 21.
Na figura 6.1 temos os graficos de series temporais para as amostras geradas de Gibbs para
cada parametro. Observa-se convergencia do algoritmo.
Observar que sob os dois modelos considerados, classico e Bayesiano, estamos assumindo
um efeito de tratamento aditivo, isto e,
E = C + Ef eito
(6.33)
Outros modelos poderiam ser considerados para analisar os dados de contagem (n

umero
de hospitalizacoes por idosos em um perodo de 2 anos). Dessa forma, assumir um modelo
multiplicativo dado por,
E = (1 + Ef eito) C
(6.34)
Portanto, considerar um modelo de regressao da resposta y (contagem de hospitalizacoes
por indivduo) versus uma variavel independente dummy especificando os dois grupos: 1 para
o grupo experimental e 0 para o grupo controle.
Assim, assumir o modelo,
ind
yi | i v P oisson (i )
(6.35)
em que log (i ) = 0 + 1 Xi , i = 1, 2, . . . , 572 (n
umero total de idosos no estudo).
Assumir as seguintes distribuicoes a priori nao-informativas para os parametros 0 e 1 :

0 v N 0, 104
(6.36)

4
1 v N 0, 10
Observar do modelo (6.35) que o parametro c da distribuicao de Poisson para as pessoas
no grupo controle e dado por,
c = exp [ 0 + 1 (0)]
= exp ( 0 )
(6.37)

6.2. ANALISE
BAYESIANA EMPIRICA
86
effect
0.2
5.55112E-17
-0.2
-0.4
-0.6
2001
2250
2500
2750
3000
2750
3000
2750
3000
iteration
lambda.c
1.2
1.1
1.0
0.9
0.8
0.7
2001
2250
2500
iteration
lambda.e
1.0
0.9
0.8
0.7
0.6
2001
2250
2500
iteration

6.2. ANALISE
BAYESIANA EMPIRICA
87
e o parametro e da distribuicao de Poisson para as pessoas no grupo experimental e dado por,

e = exp [ 0 + 1 (1)]
exp ( 0 + 1 )
(6.38)
Como exp ( 1 ) 1 + 1 , observar que e (1 + 1 ) c (modelo de efeito multiplicativo).

Um programa usando o software Winbugs para esse modelo e dado por:
1
2
3
4
5
6
7
8
9
10
11
12
13
model
{
gamma . 0 dnorm ( 0 . , 0 . 0 0 0 1 )
gamma . 1 dnorm ( 0 . , 0 . 0 0 0 1 )
for ( i in 1: n)
{
l o g ( lambda [ i ])< gamma . 0 + gamma . 1 x [ i ]
y [ i ] d p o i s ( lambda [ i ] )
}
lambda . c< exp (gamma . 0 )
lambda . e< exp (gamma.0+gamma . 1 )
mult . e f f e c t < exp (gamma . 1 )
}
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
l i s t ( y=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,
4 ,4 ,4 ,4 ,4 ,4 ,5 ,5 ,5 ,5 ,7 ,7 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,
3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,4 ,5 ,6) ,
x=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,

6.2. ANALISE
BAYESIANA EMPIRICA
45
46
47
48
49
88
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1) ,
n=572)
50
51
l i s t (gamma.0=0 , gamma.1=0)
Na tabela 6.6 temos os sumarios obtidos para os parametros de interesse considerando um

burn-in de tamanho 2000 e uma amostra de Gibbs de tamanho 1000 em que as amostras
foram escolhidas de 10 em 10.
Tabela 6.6: Sumarios a posteriori considerando um modelo multiplicativo.

node
mean
sd
MC error
2, 5%
median
97, 5%
start sample
gamma.0 0, 07006 0, 06091 0, 002074 0, 1851 0, 0686 0, 04647 2001
1000
gamma.1
0, 1952 0, 08916 0, 00296 0, 3624 0, 1939 0, 01261 2001
1000
lambda.c
0, 9341
0, 05685 0, 001948
0, 831
0, 9337
1, 048
2001
1000
lambda.e
0, 7687
0, 05082 0, 001731
0, 674
0, 7663
0, 8755
2001
1000
mult.effect
0, 826
0, 07414 0, 00242
0, 696
0, 8238
0, 9875
2001
1000
Observar que as estimativas de Monte Carlo para as medias a posteriori para c e e (ver
tabela 6.6) usando um modelo multiplicativo sao muito proximas dos resultados obtidos usando
um modelo aditivo (ver tabela 6.5).
[ = 1497, 10
Para o modelo multiplicativo, encontramos uma valor para DIC dado por DIC
que e um valor muito proximo ao obtido assumindo um modelo aditivo e assim conclumos que
os dois modelos (aditivo e multiplicativo) levam a` resultados similares.
Outra possibilidade e considerar um modelo com variabilidade extra-Poisson. Dos dados para cada indivduo nos dois grupos observamos que as medias amostrais e as variancias amostrais nao sao iguais (media(C) = 0, 9373; var(C) = 1, 5416; media(E) = 0, 7649 e
var(E) = 1, 044). Observar que para uma distribuicao de Poisson devemos ter media igual a`
variancia e isso nao ocorre para os dados dos dois grupos. Assim temos a presenca de variabilidade extra-Poisson.
Isso pode ser interpretado da seguinte forma: cada indivduo tem sua taxa propria de
hospitalizacao que depende de sua sa
ude, idade, etc.
Portanto, assumir o modelo de regressao de Poisson com efeitos aleatorios,
ind
yi | i v P oisson (i )
(6.39)
em que log (i ) = 0 + 1 Xi + ei , em que ei e um efeito aleatorio ou variavel latente com

distribuicao normal com media zero e variancia 2 , isto e,
ind
ei v N 0, 2
para i = 1, . . . , n.
(6.40)

6.2. ANALISE
BAYESIANA EMPIRICA
89
Assumir as seguintes distribuicoes a priori para os parametros do modelo:

0 v N (0, 10)
1 v N (0, 10)
2 v Gama (1, 1)
(6.41)
Tambem assumir independencia a priori entre os parametros 0 , 1 e 2 . O codigo em

WinBugs para esse modelo e dado a seguir:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
model
{
for ( i in 1: n)
{
l o g ( lambda [ i ])< gamma . 0 + gamma . 1 x [ i ] + e [ i ]
y [ i ] d p o i s ( lambda [ i ] )
e [ i ] dnorm ( 0 , sigma )
}
gamma . 0 dnorm ( 0 , 0 . 1 )
gamma . 1 dnorm ( 0 , 0 . 1 )
sigma dgamma ( 1 , 1 )
lambda . c< exp (gamma . 0 )
lambda . e< exp (gamma.0+gamma . 1 )
mult . e f f e c t < exp (gamma . 1 )
}
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
l i s t ( y=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,
4 ,4 ,4 ,4 ,4 ,4 ,5 ,5 ,5 ,5 ,7 ,7 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,
3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,4 ,5 ,6) ,
x=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,

6.2. ANALISE
BAYESIANA EMPIRICA
44
45
46
47
48
49
50
51
90
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1) ,
n=572)
Na tabela 6.7 temos os sumarios a posteriori obtidos a partir de uma amostra de Gibbs com
1000 amostras simuladas tomadas de 10 em 10 apos burn-in de 1000 amostras descartadas
para eliminar o efeito dos valores iniciais.
Tabela 6.7: Sumarios a posteriori (modelo multiplicativo na presenca de um efeito aleatorio).
node
gamma.0
gamma.1
lambda.c
lambda.e
mult.effect
sigma
mean
-0,3229
-0,1828
0,7269
0,6058
0,8384
2,059
sd
MC error 2, 5% median 97, 5% start
0,08896 0,003453 -0,5035 -0,3228 -0,1564 1001
0,1143 0,003771
-0,39
-0,1839 0,04032 1001
0,06445 0,002513 0,6044 0,7241 0,8552 1001
0,05749 0,002029 0,5043 0,6053 0,7266 1001
0,09634 0,003231 0,6771
0,832
1,041
1001
0,416
0,01761
1,383
2,005
3,061
1001
sample
1000
1000
1000
1000
1000
1000
Considerando o modelo multiplicativo na presenca de um efeito aleatorio encontramos o

[ = 1414, 25. Conclumos que
valor de DIC baseado nas 1000 amostras de Gibbs dado por DIC
o modelo multiplicativo na presenca do efeito
aleatorio ei leva
a melhor ajuste para os dados
[ = 1497, 21 e com o modelo multiplicativo
quando comparado com o modelo aditivo DIC

[ = 1497, 10 .
sem efeito aleatorio DIC
Na figura 6.2 temos os graficos das amostras de Gibbs simuladas para cada parametro. Da
figura 6.2 observamos convergencia do amostrador de Gibbs.

6.2. ANALISE
BAYESIANA EMPIRICA
91
gamma.0
5.55112E-17
-0.2
-0.4
-0.6
1001
1250
1500
1750
2000
1750
2000
1750
2000
1750
2000
1750
2000
iteration
gamma.1
0.4
0.2
5.55112E-17
-0.2
-0.4
-0.6
1001
1250
1500
iteration
lambda.c
1.0
0.9
0.8
0.7
0.6
0.5
1001
1250
1500
iteration
lambda.e
0.9
0.8
0.7
0.6
0.5
0.4
1001
1250
1500
iteration
sigma
4.0
3.0
2.0
1.0
1001
1250
1500
iteration
Figura 6.2: Graficos das amostras simuladas (modelo multiplicativo na presenca de um efeito
aleatorio).
Refer
encias Bibliogr
aficas
ACHCAR, J. A.; SMITH, A. F. M. Aspects of reparametrization in approximate Bayesian
inference. Bayesian and Likelihood methods in Statistics and Econometrics: Essays in Honor of
George A. Bernard. S. Geisser, J.S. Hodges, S.J. Press, A. Zellner, eds. Amsterdan:
North Holland, p. 439452, 1989.
AITKIN, M. Posterior Bayes factors. Journal of Royal Statistical Society, B, v. 53, p.
111142, 1991.
BERGER, J. O.; PERICCHI, L. R. The intrinsic Bayes factor for model selection and
prediction. [S.l.], 1993.
BERNARDO, J.; SMITH, A. (Ed.). Bayesian Theory. New York: Wiley Series in Probability
and Statistics, 2000.
BERNARDO, J. M. Reference posterior distribuions for Bayesian inference (with discussion).
Journal of the Royal Statistical Society, B, v. 41, p. 113148, 1979.
BESAG, J.; GREEN P, J. Spatial statistics and Bayesian computation. Journal of the
Royal Statistical Society, B, v. 55, p. 2537, 1993.
BOX, G.; TIAO, G. Bayesian Inference in Statistical Analysis. New York: AddisonWesley, 1973.
CARLIN, B. P.; T., L. Bayes and empirical Bayes methods for data analysis, Segunda
Edic
ao. London: Chapman Hall, 2000.
CHIB, S.; GREENBERG, E. Understanding the Metropolis-Hastings algorithm. The
American Statistician, v. 49, p. 327335, 1995.
FINETTI, B. de. Funzione caratteristica di un fenomeno aleatorio. Memorias Academicas
Naz. Lincei, v. 4, p. 86133, 1930.
FINETTI, B. de. La prevision: ser lois logiques, ses sources subjects.. Ann. Inst. H.
Poincar
e, v. 7, p. 168, 1937/1964.
GAMERMAN, D. Markov Chain Monte Carlo: Stochastic simulation for Bayesian
inference. London: Chapman and Hall, 1997.
GEISSER, S. Predictive inference: an introduction. London: Chapman and Hall, 1993.
GELFAND, A. E.; DEY, D. K. Bayesian model choice: asymptotics and exact calculations.
Journal of the Royal Statistical Society, B, v. 56, n. 56, p. 501514, 1994.
GELFAND, A. E.; SMITH, A. F. M. Sampling-based approaches to calculating marginal
distributions. Journal of the American Statistical Association, v. 85, n. 410, p. 398409,
1990.
92
REFERENCIAS
BIBLIOGRAFICAS
93
GELMAN, A.; RUBIN, D. B. Inference from iterative simulation using multiple sequences.
Statistical Science, v. 7, p. 457511, 1992.
GEMAN, S.; GEMAN, D. Stochatisc relaxation, Gibbs distribution and the bayesian
restoration of images. IEEE Tramsaction on Patterm Analysis and Machine
Intelligence, v. 6, p. 721741, 1984.
GEWEKE, J. Bayesian inference in econometric models using Monte Carlo integration.
Econometrica, v. 57, p. 13171339, 1989.
GEWEKE, J. Evaluating the accuracy of sampling-based approaches to calculating posterior
moments. In: Bayesian Statistics 4. [S.l.]: Oxford: Clarendon Press, 1992.
JELINSKI, Z.; MORANDA, P. B. Software realibility research. New York: Academic
Press: Freiberger, W (ed). Statistical Computer Performance Evaluation, 1972. 465497 p.
KADANE, J. B. Predictive and structural methods for eliciting prior distributions.
North-Holland, Amsterdam: Bayesian Analysis and econometrics and statistics (A. Zellner,
ed), 1980. 8993 p.
KASS, R. E.; RAFTERY, A. E. Bayes factor. Journal of the American Statistical
Association, v. 90, p. 773795, 1995.
LEE, T. E. Statistical Methods for Survival Data Analysis. New York: John Wiley and
Sons, 1992.
PAULINO, C.; TURKMAN, M.; MURTEIRA, B. Estatstica Bayesiana. Lisboa: Fundacao
Calouste Gulbenkian, 2003.
RAFTERY, A. E.; LEWIS, S. M. Implementing MCMC. In: Markov chain Monte Carlo
in practice. London: Chapman and Hall, 1996. p. 115130.
RUBIN, H. A weak system of axioms for rational behaviour and the non-separability of utility
from the prior. Statistical and Decisions, v. 5, p. 4758, 1987.
SCHWARZ, G. Estimating the dimension of a model. Annals of Statistics, v. 6, p. 461466,
1978.
SPIEGELHALTER, D. J. et al. Bayesian measures of model complexity and fit (with
discussion). Journal of the Royal Statistical Society, B, v. 64, p. 583639, 2002.
SPIEGELHALTER, D. J.; SMITH, A. F. M. Bayes factors for linear and log-linear models
with vague prior information. Journal of the Royal Statistical Society, B, v. 44, p.
377387, 1982.
SPIEGELHALTER, D. J. et al. WinBUGS Version 1.4 User Manual. [S.l.], 2003.
TIERNEY, L. Markov chains of exploring posterior distributions. Annals of Statistics,
v. 22, p. 17011762, 1994.
TIERNEY, L.; KADANE, J. B. Accurate approximations for posterior moments and marginal
densities. Journal of the American Statistical Association, v. 81, p. 8286, 1996.
WINKLER, R. L. Prior information, predictive distribution and Bayesian modelbuilding. North-Holland, Amsterdam: Bayesian Analysis and econometrics and statistics (A.
Zellner, ed), 1980. 95109 p.
Ap
endice A
Resolu
c
ao de Alguns Exerccios
A.1
Capitulo 1
A.1.1
Item 1
Seja a distribuicao a posteriori ( | y) beta com parametros e (funcoes dos dados).

Considerar a funcao de perda:
L (d , ) = 2 (d )2 , d 0 e 0 1
Assim:

( + )
1
1
( | y) =
(1
)
, 01
( ) ( )

Achar a decisao de Bayes que minimiza o erro esperado.

Seja a decisao de Bayes dada por:

Z
( + )
1
2
R=
1 (1 ) 1 d
2 (d )
( ) ( )

A decisao de Bayes que minimiza o erro esperado e dada por:

Z
( + )
2
R (d , )
1
1
(d
)
=
(1
)
d = 0
2
d
( ) ( )

d =
A.1.2
2
+ 2
Item 2
Considerar a funcao de confiabilidade S (t) = P (T > t) onde S (t) = 1 = 0, 50 ou S (t) =

2 = 0, 90. Assim, as decisoes A1 (estimador de S (t) e 1 ) e (estimador de S (t) e 2 ) e a
seguinte funcao de perda L (d, ):
S (t) = 1
S (t) = 2
Assumir a priori (1 ) = 14 e (2 ) = 34 .
(a)
Qual e a solucao Bayesiana?
94
A1 A2
0 5
3 0
A.1. CAPITULO 1
95
Tomando a Acao 1:
E [L (A1 , )] = L (A1 , 1 ) (1 ) + L (A1 , 2 ) (2 )
E [L (A1 , )] = 0
1
3
+ 3 = 2, 25
4
4
Tomando a Acao 2:
E [L (A2 , )] = L (A2 , 1 ) (1 ) + L (A2 , 2 ) (2 )
E [L (A2 , )] = 5
1
3
+ 0 = 1, 25
4
4
Assim, A2 minimiza o erro esperado.

(b)
Retirar uma unidade e testa-la para o tempo t : falha ou sobrevivencia. Seja Z = 1 para
sobrevivencia e Z = 0 para falha e a distribuicao f (z = 1 | 1 ) = 0, 50; f (z = 1 | 2 ) = 0, 90;
f (z = 0 | 1 ) = 0, 50 e f (z = 0 | 2 ) = 0, 10. Qual e a solucao Bayesiana quando voce retira
uma unidade?
Para Z = 1 tem-se:
(1 | z = 1) =
(1 ) f (z = 1 | 1 )
(1 ) f (z = 1 | 1 ) + (2 ) f (z = 1 | 2 )
(1 | z = 1) =
1
4
1
4
0, 50
= 0, 15
0, 50 + 34 0, 90
(2 | z = 1) = 1 (1 | z = 1)
(2 | z = 1) = 0, 85
Para Z = 0 tem-se:
(1 | z = 0) =
(1 ) f (z = 0 | 1 )
(1 ) f (z = 0 | 1 ) + (2 ) f (z = 0 | 2 )
(1 | z = 0) =
1
4
1
4
0, 50
= 0, 62
0, 50 + 34 0, 10
(2 | z = 0) = 1 (1 | z = 0)
(2 | z = 0) = 0, 38
O risco de Bayes, com relacao a posteriori, se z = 1 e, executando a Acao 1, e dado por:
E [L (A1 , )] = L (A1 , 1 ) (1 | z = 1) + L (A1 , 2 ) (2 | z = 1)
E [L (A1 , )] = 0 0, 15 + 3 0, 85 = 2, 25
E [L (A2 , )] = L (A2 , 1 ) (1 | z = 1) + L (A2 , 2 ) (2 | z = 1)
E [L (A2 , )] = 5 0, 15 + 0 0, 85 = 0, 75
Logo, se z = 1, ficar com A2 .
A.1. CAPITULO 1
96

E [L (A1 , )] = L (A1 , 1 ) (1 | z = 0) + L (A1 , 2 ) (2 | z = 0)
E [L (A1 , )] = 0 0, 62 + 3 0, 38 = 1, 14
E [L (A2 , )] = L (A2 , 1 ) (1 | z = 0) + L (A2 , 2 ) (2 | z = 0)
E [L (A2 , )] = 5 0, 62 + 0 0, 38 = 3, 10
Logo, se z = 0 ficar com A1 .
A.1.3
Item 3
Supor que o tempo de sobrevivencia X de um componente eletronico tenha uma distribuicao

exponencial com densidade:
f (x | ) = exp (x) , x > 0 e > 0
Assumir uma amostra aleatoria de n unidades (x1 , x2 , ..., xn ) e a distribuicao a priori () =
> 0.
(a)
Achar a densidade a posteriori para .
Assumindo independencia entre as informacoes (x1 , x2 , ..., xn ), a funcao de verossimilhanca
e dada por:
!
n
X
L ( | x) = n exp
xi
1
,
i=1
A densidade a posteriori e dada por:

( | x) n1 exp
n
X
!
xi
i=1
| x v Gama n,
n
X
!
xi
i=1
(b)
Achar o estimador de Bayes para considerando a funcao de perda quadratica:
L (d , ) = (d )2
Z
(d )2 ( | x) d
R=
R (d , )
=
d
2 (d ) ( | x) d = 0
d = E [ ( | x)]
d =
1
x
A.1. CAPITULO 1
Pn
97
i
em que x = i=1
.
n
(c)
Qual e a moda da densidade a posteriori para ?
A moda da densidade a posteriori e dada por
log [ ( | x)]
= 0
(n 1)
para n 1
=
n
x
P
em que n
x = ni=1 xi .
(d)
Qual e a densidade a posteriori para o tempo de sobrevivencia mediano?
A mediana e dada por

(n
x)n [log (2)]
log (2) log (2)
f (tmed | x) =
exp n
x
(n) tmed
tmed
t2med
tmed | x v IG (n, n
x log (2))
Dica: Usar transformacao de variaveis.
A.1.4
Item 4
Assumir uma amostra de tamanho n de uma distribuicao normal com media e variancia
4. Considerar uma priori normal para com media 0 e variancia conhecida 2 .
(a)
Achar a densidade a posteriori para .
Assumindo independencia entre as informacoes (x1 , x2 , ..., xn ), a funcao de verossimilhanca
e dada por:
"
#
n
1X
L ( | x) exp
(xi )2
8 i=1
A priori para e dada por:

1
() exp 2 2
2
A densidade a posteriori e dada por:

"
1X
1
(xi )2 2 2
( | x) exp
8 i=1
2

N
n
x 2
4 2
;
4 + n 2 4 + n 2
(b)
Achar o estimador de Bayes com respeito a funcao de perda quadratica.
Z
R = (d )2 ( | x) d
R (d , )
= d
d
Z
( | x) d
( | x) d = 0
A.1. CAPITULO 1
98
Z
( | x) d = E ( | x)
d =
n
x 2
4 + n 2
(c)
Em qual situacao a solucao obtida pelo estimador de maxima verossimilhanca (EM V )
coincide com a solucao de Bayes com respeito a perda quadratica?
Igualando o EM V ao estimador bayesiano com respeito a perda quadratica tem-se:
n
x 2
= x
4 + n 2
2n
=1
4 + n 2
(A.1)
Logo, os mesmos serao iguais se 2 ou n .
A.1.5
Item 5
Supor que voce tenha uma distribuicao subjetiva para a temperatura media dos proximos
dias, dada por uma distribuicao gama com parametros e com media E () = e variancia
V ar () = 2 , em que e sao valores especificados. Escolher valores para a media e a variancia
que representam a sua opiniao sobre a temperatura e calcular os valores correspondentes de
e .
Achar a decisao de Bayes d (ou estimador de Bayes) para quando a funcao de perda e
dada por
2
L (d , ) = (d )2 + (d )2
1000
e comentar porque esse estimador e menor que E ( | y).
Seja,
E () = 30; V ar () = 5
Logo, a partir de E () =
= 30 e V ar () =
= 5 encontramos:
= 180
= 6
Da funcao de perda dada tem-se que o risco Bayesiano e dado por:
Z
2
2
2
R=
(d ) + (d )
( | y) d
1000

Z
R (d , )
d 2
=
d +
( | y) d = 0
d
1000
Z
Z
Z
d
2
d ( | y) d +
( | y) d ( | y) d = 0
1000
R
Como integral ( | y) d = 1 temos
d +

d
E 2 | y d = E ( | y)
1000
A.1. CAPITULO 1
99
E ( | y)

d =
E (2 |y)
1 + 1000

1
Observar que 1 + 1000
E 2 | y > 1, pois E 2 | y > 0.
.
Conclusao: E ( | y) > E(|y)
E ( 2 |y)
1+
1000
Para os dados deste problema

d =
1000
1000 + (1 + )
d = 27, 99 < E () = 30.
A.1.6
Item 6
Supor que (x1 , ..., xn ) seja uma amostra aleatoria de uma distribuicao de Poisson com media
e que tem uma priori gama com parametros conhecidos e .
a) Achar a distribuicao a posteriori para e escrever a media a posteriori como uma media
ponderada da media a priori e a media amostral x.
De resultados observados no captulo 1 observamos que:
( | x) v Gama (n
x + , n + )
Potanto
E( | x) =
( + n
x)
( + n)
(b) Como a posteriori e uma funcao gama sabemos que a variancia e dada por
var( | x) =
( + n
x)
( + n)2
(c)
Mostrar que a variancia a posteriori e menor do que a variancia a priori x < (2 + n )E().
var( | X) < var()
( + n
x)
<
(n + )2
2
(n + )2
n
x<
2
(n2 + 2n + 2 )
x <
n
x < (2 + )
n
x < E()(2 + )
A.2. CAPITULO 2
A.2
A.2.1
100
Capitulo 2
Item 1
Seja y = (y1 , y2 , ..., yn ) representando uma amostra aleatoria da distribuicao exponencial

com densidade
f (y | ) = exp (y) , y > 0 e > 0
Considerar uma priori conjugada para . Achar:
(a)
A densidade a posteriori para .
Assumindo independencia entre as observacoes, a funcao de verossimilhanca L e dada por:
!
n
X
L (y | ) = n exp
yi
i=1
Assumindo como priori Gama (a, b) com a e b conhecidos, a distribuicao a posteriori e

dada por:
"
!#
n
X
( | y) (n+a)1 exp
yi + b
i=1
Logo:
| y Gama n + a,
n
X
!
yi + b
i=1
(b)
Uma aproximacao normal para a densidade a posteriori para .
i
h
a 1
I
| y ,

1
=
EMV: = y ; I
n
.
2
| y ,
n
"
Vide equacao (1.27).

(c)
A densidade preditiva para uma observacao futura Yn+1 .
Z
f (yn+1 | y) = f (yn+1 | ) ( | y) d
Z
f (yn+1 | y) =
exp (yn+1 )
0
v z z1
exp (v) d
(z)
em que v = n
y + b e z = n + a.
f (yn+1
vz
| y) =
(z)
f (yn+1 | y) =
Como (z + 1) = z (z)
exp (yn+1 + v) z+11 d

vz
(z + 1)
(z) (yn+1 + v)z+1
A.2. CAPITULO 2
f (yn+1
101
vz
para yn+1 v ; Densidade de Pareto
| y) = z
(yn+1 + v)z+1
(d)
Para achar a moda da distribuicao de Pareto podemos construir um grafico ou utilizar
resultados conhecidos.
A.2.2
Item 2
Seja y = (y1 , y2 , ..., yn ) representando uma amostra aleatoria da distribuicao uniforme com
densidade
1
f (y | ) = , 0 < y <
e considere uma densidade a priori para dada por

() = a (+1) , > a, > 0 e a > 0 (a conhecido)
(a)
Achar a densidade a posteriori para dado y1 , y2 , ..., yn e a densidade preditiva para uma
observacao futura yn+1 dado y1 , y2 , ..., yn .
A funcao de verossimilhanca (L) e dada por:
L () =
n
Y
I(0,) (yi )
i=1
Observar que 0 < y1 < , 0 < y2 < , . . . , 0 < yn < , isto e

y(n) = max (y1 , . . . , yn )
L () = n I[y(n) ,] ()
Posteriori:
( | y) (+1) n I[y(n) ,] ()
(+n+1) I[y(n) ,] ()
Conclusao:
( | y) =
em que
k
+n+1 ,
> max a, y(n)
(+n+1) d
=
max(a,y(n) )
A densidade preditiva para uma observacao futura e dada por:

Z
f (yn+1 | y) = f (yn+1 | ) ( | y) d
em que > yn+1 e > max a, y(n) . Assim:

Z
Z
1 k
f (yn+1 | y) =
(+n+1) d
+n+1 d = k
max(y(n+1) ,A)
max(y(n+1) ,A)
A.2. CAPITULO 2
102
Portanto:
f (yn+1 | y) = k
f (yn+1 | y) =
A.2.3
(+n+2)+1
|
( + n + 2) + 1 max((yn+1 ),k)
( + n + 2 1) [max ((yn+1 ) , k)](n++3)
Item 3
Considerar uma distribuicao gaussiana inversa IG (, ) com densidade

!#
"
21

(y )2
, y > 0; > 0 e > 0

exp
f (y | , ) =
2y 3
22 y
Observar que
E (Y ) =
3
V ar (Y ) =
Considerando uma amostra aleatoria (y1 , y2 , ..., yn ) e uma priori nao informativa para e
dada por
1
(, )
achar:
A.2.4
(a)
A densidade a posteriori conjunta para e . Tambem achar a densidade a posteriori

marginal para .
Assumindo independencia entre as observacoes, a funcao de verossimilhanca (L) e dada por
(
#)
"
n2 Y
21
n
n
1
X (yi )2
L (y | , ) =
exp 2
2
yi3
2 i=1
yi
i=1
A densidade a posteriori conjunta para para e e dada por
(
"
#)
n2 Y
n
n
2
X
3
1
(y
)
i
yi2 exp 2
(, | y)
2
2
yi
i=1
i=1
A densidade a posteriori marginal para e dada por:
"
#)
(
n2 Y
Z
n
n
2
X
3
(y
)
1
i
d
( | , y)
yi2 exp 2
2
2
y
i
i=1
i=1
( | , y)
Como
n
Y
1
n
(2) 2
3
2
yi
Z
i=1
()
n
1
2
"
#)
n
2
X
(yi )
exp 2
d
2 i=1
yi
xa1 exp (bx) dx =
(a)
ba
A.3. CAPITULO 3
103
temos
( | , y)
em que:
n
1 Y
n
(2) 2
i=1
3
(a)
yi2 a
b
n
n
2
"
#
n
1 X (yi )2
b= 2
2 i=1
yi
a=
A.2.5
(c)
Achar a densidade preditiva para uma observacao futura Yn+1 dado y1 , y2 , ..., yn .
Z
f (yn+1 | y) = f (yn+1 | ) ( | y) d
( "
#)
21
(yn+1 )2
| y) =
exp
3
2yn+1
22 yn+1

"
(
#)
n2 Y

n
n
1
1
X (yi )2
exp 2
dd
2
yi3
2 i=1
yi
i=1
Z Z
f (yn+1
f (yn+1
A.3
A.3.1
Z

n
Y
1
1
n+1
| y) =
3
yi
2

i=1
#) n+1
"
n
2
1 (yn+1 )2 X (yi )2
d
+
22
yn+1
y
i
i=1
Capitulo 3
Item 1
(a)
p
I () n. Uma constante.
(b)
p
p
I ( 2 ) n2 1
(c)
Ver exemplo 3.7.
A.3.2
Item 2
(a)
L (, ) =
V1
!n1
n1
V1 X
exp
t1j
j=1
(b)
(, )
(c)
V2
!n2
n2
V2 X
exp
t2j
j=1
A.4. CAPITULO 4
104

1
f (, | y)
V1
!n1
n1
V1 X
exp
t1j
j=1
V2
!n2
n2
V2 X
exp
t2j
j=1
(d)
!n1
!
!n2
!
n1
n2
V1
V1 X
V2
V2 X
exp
t1j
exp
t2j d
j=1
j=1

Z
1
n1 n2
(n1 +n2 +1)
f ( | y) = V1 V2
exp () d
Z
1
f ( | y) =
em que
Z
(n1 +n2 +1)
exp n1 +
A.4
A.4.1
n2 , V1
n1
X
t1j +
V2
j=1
n2
X
!
t2j
j=1
Capitulo 4
Item 1
Seja y1 , ..., yn uma amostra aleatoria com distribuicao exponencial

y
1
f (y | ) = exp , y > 0
Supor n = 30 e y = 12 e assumir uma priori de Jeffreys para .

A priori de Jeffreys para e dada por
1
() , > 0
(a)
Achar uma aproximacao de Laplace para E ( | y) e V ar ( | y).
A esperanca de dado y e dada por
R
() L () d
E ( | y) = R0
() L () d
0
em que
(A.2)
n
y
L () = n exp
Logo

n
y
n
d
exp
E ( | y) = R 0 (n+1)

n
y
exp
0
Assumindo I, como uma expressao auxiliar tem-se, por Laplace,

Z
b
a
I=
exp
d = exp [nh ()]
h
i
2
I exp nh
n
(A.3)
(A.4)
A.4. CAPITULO 4
105
em que
12
= [h00 ()]
Os termos necessarios para a resolucao da integral por Laplace sao

nh () = a log ()
a
b
nh0 () = + 2 = 0

= b
a
2b
a
nh00 () = 2 3

3
a
nh00 = 2
b
nb
= 3
a2
h
i aa
exp nh = a exp (a)
b
Retomando a expressao dada em A.4 tem-se
3
2aa 2 exp (a)
I=
ba1
Para o numerador da expressao dada em A.3, tem-se
a = n
b = (n
y)
e para o denominador
a = (n + 1)
b = (n
y)
Assim
1
3
n2
E ( | y) =
1
3
(n+1) 2
n(n)
(n
y )n
exp (n)
(n+1)(n+1)
(n
y )(n+1)
exp [ (n + 1)]
1
n(n 2 ) ye
E ( | y) =
1
(n + 1)(n 2 )
A variancia de dado y e dada por

V ar ( | y) = E 2 | y [E ( | y)]2
Logo, o objetivo e encontrar a esperanca de 2 dado y e dada por
R 2

() L () d
2
E | y = R0
() L () d
0
(A.5)
A.4. CAPITULO 4
106
R
2
R0
0
E |y =

y
(n1) exp n
d

n
y
(n+1)
exp d
(A.6)
A expressao dada em A.4 pode ser usada neste caso onde, para o numerador tem-se
a = (n 1)
b = (n
y)
a = (n + 1)
b = (n
y)
Assim
1
2
E |y =
3
(n1) 2
1
3
(n+1) 2
(n1)(n1)
(n
y )(n1)
exp [ (n 1)]
(n+1)(n+1)
(n
y )(n+1)
exp [ (n + 1)]

1
5
E 2 | y = (n
y )2 (n 1)(n 2 ) e2 (n + 1)( 2 n)
Logo
"
(n 52 ) 2
V ar ( | y) = (n
y ) (n 1)
e (n + 1)(
n(n 2 ) ye
)
1
(n + 1)(n 2 )
#2
1
n
2
h
i
1
5
1
1
V ar ( | y) = (
y e)2 n2 (n 1)(n 2 ) (n + 1)( 2 n) n2(n 2 ) (n + 1)2( 2 n)
(b)
Achar uma aproximacao de Laplace para a confiabilidade em y = 10.
Seja a confiabilidade em y = 10 dada por

10
g () = exp
Logo
1 n

y
exp 10
exp n
d

R 1 n
E [g () | y] =
n
y
exp d
0

R (n+1)
n
y +10
exp
E [g () | y] = 0R (n+1)

y
exp n
d
0
0
A expressao dada em (A.4) pode ser usada neste caso onde, para o numerador tem-se
a = (n + 1)
b = (n
y + 10)
a = (n + 1)
b = (n
y)
A.4. CAPITULO 4
107
Logo
1
(n
y + 10) (ny+10)
(n+1)
E [g () | y] =
(n
y ) (ny)1(n+1)
E [g () | y] = (n
y + 10)n (n
y )n
(c)
Achar os valores exatos para E ( | y), V ar ( | y) e a confiabilidade em y = 10.
Exato Laplace
12, 0
12, 4
4, 8
5, 5
0, 43
0, 44
E ( | y)
V ar ( | y)
S (10)
(d)
Considerar a reparametrizacao = log (). Qual a priori de Jeffreys?
A priori de Jeffreys para a reparametrizacao apresentada e dada por
() constante
A.4.2
Item 2
(a)
Seja y1 , ..., yn uma amostra aleatoria com distribuicao de Poisson
f (y | ) =
y exp ()
, y>0
y!
Assumir uma priori de Jeffreys para . Achar aproximacoes de Laplace para E (c | y),
sendo n = 5 e y = 10 para c = 1, 2, 3, 5 e 10.
A priori de Jeffreys para e dada por
1
() , > 0
A esperanca de c dado y e dada por

R
E (c | y) = R0
0
R
c
E ( | y) =
c 2 ny exp (n) d
R0
0
2 ny exp (n) d
1
c 2 +ny exp (n) d

1
2 +ny exp (n) d

Z
Z
a
I1 =
exp (n) d = exp [nh ()]
0
nh () = a log () n
a
nh0 () = n = 0
= a
n
a
nh00 () = 2
(A.7)
A.4. CAPITULO 4
108
Laplace:
Z
exp [nh ()] d
h
i
1
2n 2 exp nh
h i 12
= h00

an2
n2
nh00 = 2 =
a
a

n
h00 =
a
na
h
i

a a
a
exp
exp nh
= exp n =
n
n
a
a
=
exp (a)
nn
Assim,
12
n 12 aa
exp (a)
a
nn
2n
2n1 a+ 1
u
a 2 exp (a)
nn
I1 u
Isto e,
1
2
I1 u n+1 aa+ 2 exp (a)
n
y no numerador e a = 21 + n
y no denominador de (A.7) temos:
Assim com a = c 12 + n
E (c | y) u
c 1 +ny+ 21

y 2
y
c 12 + n
exp c 12 + n
n
y 12 + 21

2
1 n
1
n
y
exp
n
y
1
2
2
nn+ 2
y+c
1 n
exp (c)
n
y+c 2

n
y
n
y 21
2
n+ 1
2
(b)
1
Considerar a reparametrizacao = 2 .
()
1
1
, > 0
2
Transformacao:
1
= 2
1 1 1
d =
2 d
2
isto e
d
2
= 1 ; = 2
d
2
A.4. CAPITULO 4
109

1 d
()
d
1 2
= constante
isto e,
() constante

E (c | y) = E 2c | y
R 2c
() L () d
R
=
() L () d
ny

exp n2 d
2
E ( | y) =

ny
exp n2 d
2

R 2 ny+c
exp n2 d
0
= R 2 ny

2
exp
n
d
0
2
R
Resultado:
Z
I2 =
c
exp n
Z
d =
exp [nh ()]
em que
nh () = a log () n2
entao
a
2n = 0
a
2 = a
= 2n
2n
nh0 () =
a
2n
2
a
nh00 () = a 2n
nh00 () =
2n
2na
=
2n = 4n
a

00
h =4
i

2 a2

a
2
2
exp nh
= exp n =
exp n
a a2

a
exp n
=
2n
2n
a
a
a2
=
a exp
2
(2n) 2
h
A.5. CAPITULO 5
110
Portanto:
a
n 12 a a2
2
exp
a
2
4 (2n) 2
a

2a 2
a
exp
a
1 a
+
+1
2
n2 222
I2
Entao substituir a = 2 (n
y + c) no numerador de E (c | y) e a = 2n
y no denominador de
1
c
c
E ( | y) para achar a aproximacao de Laplace para E ( | y) na parametrizacao = 2 .
A.4.3
Item 3
(a)
Seja T uma variavel aleatoria representando o tempo de vida de um componente, com
distribuicao exponencial com densidade,
f (t | i ) = i exp (i t) , t > 0; i 0
em que i =
1
,
i
,
Vi
i = 1, . . . , k usado em
testes acelerados industriais (Vi e fixo). A priori de Jeffreys e dada por (, ) 1 .
A.5
A.5.1
Capitulo 5
Item 1
(b)
Ver exemplo 5.2.
(c)
Listagem A.1: Programa R
1
2
#Entrada de dados
3
4
< c ( 0 . 1 0 , 0 . 6 5 , 0 . 3 0 , 0 . 3 0 , 0 . 2 8 , 0 . 7 8 , 0 . 2 8 , 0 . 4 5 )
x1
< c ( 0 . 0 8 , 0 . 1 7 , 0 . 0 8 , 0 . 3 0 , 0 . 0 5 , 0 . 1 8 , 0 . 0 9 , 0 . 4 5 )
x2
< c ( 0 . 4 0 , 0 . 4 0 , 0 . 3 8 , 0 . 5 0 , 0 . 5 2 , 0 . 3 2 , 0 . 4 5 , 0 . 6 5 )
x3
< c ( 0 . 7 5 , 1 . 0 2 , 1 . 0 9 , 1 . 3 5 , 1 . 2 0 , 2 . 2 0 , 2 . 9 5 , 2 . 5 0 )
5
6
7
8
9
10
11
12
< 21000 #Amostras g e r a d a ( sem burni n e sem s a l t o )
sigma2
alfa
beta1
beta2
beta3
<
<
<
<
<
13
14
15
16
17
18
vector ()
vector ()
vector ()
vector ()
vector ()
19
20
#Chute i n i c i a l
21
A.5. CAPITULO 5
22
23
24
25
26
sigma2 [ 1 ]
alfa [1]
beta1 [ 1 ]
beta2 [ 1 ]
beta3 [ 1 ]
<
<
<
<
<
111
1
1
0
0
0
27
28
#H i p e r p a r a m e t r o s
29
30
31
32
33
34
35
36
n
a0
a1
a2
a3
b
d
<
<
<
<
<
<
<
length (y)
1 e+06
1 e+06
1 e+06
1 e+06
1
1
37
38
#Algoritmo Gibbs Sampling
39
40
41
f o r (m i n 2 :M)
{
42
43
44
e
sigma2 [m]
< y a l f a [m1] b e t a 1 [m1] x1 b e t a 2 [m1] x2 b e t a 3 [m1] x3

< 1 / ( rgamma ( 1 , ( b+n / 2 ) , ( d+0.5sum ( e 2 ) ) ) )
mu0
media alfa
var alfa
a l f a [m]
<
<
<
<
y b e t a 1 [m1] x1 b e t a 2 [m1] x2 b e t a 3 [m1] x3

( ( a0 2 ) sum (mu0 ) ) / ( sigma2 [m] + ( n a0 2 ) )
( ( a0 2 ) sigma2 [m] ) / ( sigma2 [m] + ( n a0 2 ) )
rnorm ( 1 , m e d i a a l f a , s q r t ( v a r a l f a ) )
mu1
media b e ta 1
var beta1
b e t a 1 [m]
<
<
<
<
y a l f a [m] b e t a 2 [m1] x2 b e t a 3 [m1] x3

( ( a1 2 ) sum ( x1 mu1 ) ) / ( sigma2 [m] + ( a1 2 ) sum ( x1 2 ) )
( ( a1 2 ) sigma2 [m] ) / ( sigma2 [m] + ( a1 2 ) sum ( x1 2 ) )
rnorm ( 1 , media beta1 , s q r t ( v a r b e t a 1 ) )
mu2
media b e ta 2
var beta2
b e t a 2 [m]
<
<
<
<
y a l f a [m] b e t a 1 [m] x1 b e t a 3 [m1] x3

mu3
media b e ta 3
var beta3
b e t a 3 [m]
<
<
<
<
y a l f a [m] b e t a 1 [m] x1 b e t a 2 [m] x2

45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
#G r a f i c o s das a mo s tra s g e r a d a s
69
70
71
72
73
74
par ( mfrow=c ( 2 , 3 ) )
p l o t ( sigma2 , type =l )
p l o t ( a l f a , type =l )
p l o t ( beta1 , type =l )
A.5. CAPITULO 5
75
112
76
77
#G r a f i c o s de A u t o c o r r e l a c
ao
78
79
80
81
82
83
84
par ( mfrow=c ( 2 , 3 ) )
a c f ( sigma2 )
acf ( alfa )
a c f ( beta1 )
a c f ( beta2 )
a c f ( beta3 )
85
86
bur
< 1000 #Burni n
87
88
89
s a l t o < 20
S
< (M/ s a l t o )
90
91
92
93
94
95
sigma2 a
< v e c t o r ( )
alfa a
< v e c t o r ( )
beta1 a
< v e c t o r ( )
beta2 a
< v e c t o r ( )
b e t a 3 a < v e c t o r ( )
96
97
98
99
100
101
102
103
104
for ( s in 1: S)
{
sigma2 a [ s ]
alfa a [ s ]
beta1 a [ s ]
beta2 a [ s ]
beta3 a [ s ]
}
<
<
<
<
<
sigma2 [ s a l t o s ]
alfa [ salto s ]
beta1 [ s a l t o s ]
105
106
107
108
109
110
111
par ( mfrow=c ( 2 , 3 ) )
a c f ( sigma2 a [ ( bur / s a l t o ) : S ] )
a c f ( a l f a a [ ( bur / s a l t o ) : S ] )
a c f ( b e t a 1 a [ ( bur / s a l t o ) : S ] )
112
113
#Medias e d e s v i o padr
a o a p o s t e r i o r i das q u a n t i d a d e de i n t e r e s s e
114
115
116
mean ( sigm a2 a [ ( bur / s a l t o ) : S ] )

sd ( sigma2 a [ ( bur / s a l t o ) : S ] )
117
118
119
mean ( a l f a a [ ( bur / s a l t o ) : S ] )
sd ( a l f a a [ ( bur / s a l t o ) : S ] )
120
121
122
mean ( b e t a 1 a [ ( bur / s a l t o ) : S ] )
sd ( b e t a 1 a [ ( bur / s a l t o ) : S ] )
123
124
125
126
127
A.5. CAPITULO 5
128
113
A.5.2
Item 2
(b)
Seja Yij uma variavel aleatoria que indica o investimento de uma firma (i = 1, . . . , 8; (firmas)
e j = 1, 2, 3 (tempos))e X1 , X2 e X3 as demais variaveis regressoras apresentadas neste exerccio.
yij = i + j + ij + 0 + 1 x1ij + 2 x2ij + 3 x3ij + ij
(A.8)
em que ij sao variaveis aleatorias independentes com media zero e variancia 2 para i = 1, . . . , 8;
j = 1, 2, 3 (tempos).
Utilizar uma analise Bayesiana hierarquica em dois estagios No primeiro estagio assumir as
seguintes distribuicoes a priori:

i v N 0, 2 ; i = 1, . . . , 8
(A.9)

2
j v N 0, ; j = 1, 2, 3

ij v N 0, 2 ; i = 1, . . . , 8; j = 1, 2, 3

0 v N 0; a20

1 v N 0; a21

2 v N 0; a22

3 v N 0; a23
2 v IG (b, d)
em que a0 , a1 , a2 , a3 , b e d sao supostos conhecidos e IG (b, d) denota uma distribuicao gama
2
d
e variancia (b1)d2 (b2) , b > 2.
inversa com media (b1)
[
]
Em um segundo estatio assumir:
2 v IG (b , d )
2 v IG (b , d )
2 v IG (b , d )
(A.10)

A funcao de verossimilhanca para = i , j , ij , 0 , 1 , 2 , 3 , 2 , 2 , 2 , 2 e dada por:
L () =
3 Y
n
Y
j=1 i=1

2i
exp 2
2
2 2
1
em que i = yij i j ij 0 1 X1i 2 X2i 3 X3i , i = 1, 2, . . . , n (n = 8).

(A.11)
A.5. CAPITULO 5
114

n
Y

Y

3
2j
1
2i
1
p
p
( | x, y)
exp 2
exp 2
2
2
2
2
2
2
i=1
j=1

3 Y
n
Y
1
2i
20
p
exp 2 exp 2
2
2a0
2 2
j=1 i=1

21
22
23
exp 2 exp 2 exp 2
2a1
2a
2a3

2

d
d
2 (b+1)
2 (b +1)

exp 2
exp 2

(b +1)
(b +1)
d
d
2
exp 2 2
exp 2
!
3
n
3n
1 XX 2
2 2 exp 2

2 j=1 i=1 ij
(A.12)
(A.13)
(A.14)
em que y = (y1 , . . . , yn )0 ; x denota o vetor das covariaveis e i e dado em (5.23).

As distribuicoes condicionais para as quantidades aleatorias sao dadas a seguir:
(i)
i | (i )
!

3
n
2
1 XX
2i
()
i ij
exp 2 exp 2
2
2 j=1 i=1
(A.15)
em que
()
ij = yij j ij 0 1 X1i 2 X2i 3 X3i , i = 1, . . . , n; j = 1, 2, 3
(A.16)

e,
i | (i )
3
P
()
ij
2 2
j=1
vN 2
; 2
2
2
+ 3 + 3
(A.17)
(ii)
j | ( j )
!

3
n
2
2j
1 XX
( )
j ij
exp 2 exp 2
2
2 j=1 i=1
(A.18)
em que
( )
ij = yij i ij 0 1 X1i 2 X2i 3 X3i , i = 1, . . . , n; j = 1, 2, 3
(A.19)

e,
n
P
j | ( j ) v N
i=1
( )
ij
2 + n 2
2 2
2 + n 2
(A.20)
A.5. CAPITULO 5
115
(iii)
2ij
ij | ( ij ) exp 2
2

3
n
2
1 XX
()
exp 2
ij
2 j=1 i=1 ij
!
(A.21)
em que
()
ij = yij i j 0 1 X1i 2 X2i 3 X3i , i = 1, . . . , n; j = 1, 2, 3
(A.22)

e,
"
()
2 ij
2 2
;
ij | ( ij ) v N
2 + 2 2 + 2
#
(A.23)
(iv)
0 | ( 0 ) exp
20
2
2 0
3
n
2
1 XX
( 0 )
0 ij
exp 2
2 j=1 i=1
!
(A.24)
em que
( )
ij 0 = yij i j ij 1 X1i 2 X2i 3 X3i , i = 1, . . . , n; j = 1, 2, 3
(A.25)

e,
0 | ( 0 )
2
a0
3 P
n
P
( )
ij 0
a20 2
j=1 i=1
vN 2
; 2
2
2
+ 3na0 + 3na0
(A.26)
(v)
l | ( l )
#
"

n
2
2l
1 X
(l)
l xlij ij
exp 2 exp 2
2al
2 i=1
(A.27)
em que
(l)
ij
= yij i j ij
3
X
j xji , i = 1, . . . , n; l = 1, 2, 3
(A.28)
j=1;j6=l
( l ) denota o vetor de todos os parametros exceto l . Isto e,
3 P
n
P
(l)
2
xli i
al
a2l 2
j=1 i=1
l | ( l ) v N
;
3
n
3
n
PP 2
PP 2
2
2
2
2
+ al
xlij + al
xlij
j=1 i=1
(A.29)
j=1 i=1
para l = 1, 2, 3.
(vi)
2 | (2 )
3n

2 (b+ 2 +1)
"
1
exp 2
1X 2
d+

2 i=1 i
!#
(A.30)
A.5. CAPITULO 5
116
que define o n
#
"
n
X
1
3n
2
2 | (2 ) v IG b + ; d +
2
2 i=1 i
(A.31)
em que
i = yij i j ij 0 1 X1i 2 X2i 3 X3i , i = 1, 2, . . . , n (n = 8)
(A.32)
(vii)
n

2 (b + 2 +1)
2 | (2 )
"
1
exp 2
1X 2
d +
2 i=1 i
!#
(A.33)
que define o n
"
#
n
X
n
1
2 | (2 ) v IG b + ; d +
2
2
2 i=1 i
(A.34)
(vii)
3

2 (b + 2 +1)
2 | (2 )
"
1
exp 2
1X 2
d +
2 j=1 j
!#
(A.35)
que define o n
#
"
n
X
1
3
2j
2 | (2 ) v IG b + ; d +
2
2 i=1
(A.36)
(ix)

3n

2 (b + 2 +1)
2 | (2 )
"
1
exp 2
que define o n
"
#
3 X
n
X
3n
1
2 | (2 ) v IG b + ; d +
2
2 j=1 i=1 ij
1 XX
d +
2 j=1 i=1 ij
!#
(A.37)
(A.38)

Análise Estatística de Dados Usando Métodos Bayesianos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análise Estatística de Dados Usando Métodos Bayesianos

Cargado por

Copyright:

Formatos disponibles

ANALISE

CEMEQ - Centro de Metodos Quantitativos

2 Densidades Preditivas e Discriminac

CEMEQ - Centro de Metodos Quantitativos

para todo i variando de 1 ate k.

e que uma especificidade igual a 98% e dada por

Observe que neste caso os eventos A e A particionam o espaco amostral .

Observe que P (A) = 0, 001 e a probabilidade a priori de um indivduo ser portador do

ta1 exp (t) dt

A distribuicao a posteriori para e dada, a partir de (1.4), por

CEMEQ - Centro de Metodos Quantitativos

De (1.4), a distribuicao a posteriori para e dada por

priori verossimilhanca priori

Observar que a distribuicao a posteriori (i | y = 1) e encontrada a partir de (1.3).

Como e discreto, temos

Assumindo Z condicionalmente independente de y dado , temos:

em que wj = (j | y), representa os pesos a posteriori.

Uma famlia de distribuicoes e conjugada se as distribuicoes a posteriori pertencem a` esta

Uma distribuicao a priori conjugada para com k1 e k2 conhecidos e dada por,

Combinando (1.16) e (1.17), a distribuicao a posteriori para e dada por,

1.3. PRIORI NORMAL E VEROSSIMILHANCA

a partir da opiniao de um ou varios especialistas, a partir de procedimentos objetivos ou a

Priori normal e verossimilhan

Seja um parametro unidimensional e assumir que a distribuicao a posteriori para seja

O intervalo ( , ) e chamado um intervalo de credibilidade para com probabilidade

Na inferencia classica consideramos a hipotese H0 (hipotese de nulidade) contra H1 (hipotese

Teoria Bayesiana Assint

onde l () = ln L () (logaritmo natural da funcao de verossimilhanca L ()).

Exemplo 1.5: Seja y1 , . . . , yn uma a. a. de uma distribuicao de Poisson com funcao de

Como uma ilustracao numerica, seja Y uma variavel aleatoria representando o n

= 10, 4 e, desta forma, n

yi = 104. Assumir que a priori para

seja uma distribuicao gama, isto e, v gama (; ), com E () = e var () = 2 . A partir da

Exemplo 1.6: Seja (y1 , . . . , yn ) uma a. a. de uma distribuicao normal N (; 2 ) com 2

De (1.34), a media a posteriori para e dada por,

a funcao de verossimilhanca para e dada por,

e a priori para e dada por,

ou seja E ( | y) 2, 70 (resultado bem proximo ao EMV: = 2, 7).

CEMEQ - Centro de Metodos Quantitativos

observamos que (ver (1.38)),

A distribuicao a posteriori conjunta para e dada por,

Dessa forma, observar que precisamos resolver integrais m

= (, 2 ) e um vetor de dois parametros. Supor uma a. a. y = (y1 , . . . , yn )0 de tamanho n

A distribuicao a posteriori marginal para e obtida integrando-se 2 em (1.48), isto e,

em que k e uma constante normalizadora.

Assim, usando (1.51) em (1.50), encontramos,

para < < e k1 e uma constante normalizadora.

Da mesma forma, a distribuicao a posteriori marginal para 2 e dada por,

em que 0 < < 1. Assumir uma funcao de perda L (d, ) = 2 (d )2 , d 0.

Tambem assumir a seguinte distribuicao a priori discreta: (1 ) = 1/4; (2 ) = 3/4.

(d) Achar a distribuicao a posteriori para o tempo de sobrevivencia mediano.

em que e sao conhecidos (E () = / e var () = / 2 ).

CEMEQ - Centro de Metodos Quantitativos

Exemplo 2.2: Supor Yi , i = 1, 2, . . . , n variaveis aleatorias i. i. d. com densidade expo17

Combinando-se a priori gama (, ) para com a verossimilhanca (2.6), encontramos a

Observando que (1 + 1) = 1 (1 ) temos,

(uma densidade de Pareto).

Isto e, P (y6 > 4) = 0, 74.

Uso da Densidade Preditiva para Verifica

Seja f (y | ) a densidade conjunta para os dados e seja () a densidade a priori para .

Usamos o fator de Bayes (2.11) para comparar dois modelos M1 e M2 .

O Fator de Bayes a posteriori

Sob o modelo Mi , i = 1, 2, dada a funcao de verossimilhanca f (y p i ) e a distribuicao a

CEMEQ - Centro de Metodos Quantitativos