Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Bayesiana PDF
Estadistica Bayesiana PDF
19 de octubre de 2011
1 Si
tienes comentarios o correcciones envíalos al siguiente correo electrónico:
clopez@lamolina.edu.pe
Índice general
1. Introducción 1
3. Estadística Bayesiana 8
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2. El teorema de Bayes para probabilidades puntuales . . . . . . 8
3.3. El teorema de Bayes aplicado a distribuciones de probabilidad 9
3.4. Distribución predictiva . . . . . . . . . . . . . . . . . . . . . . 10
3.5. Familias conjugadas . . . . . . . . . . . . . . . . . . . . . . . . 11
3.6. La distribución a priori . . . . . . . . . . . . . . . . . . . . . . 11
3.6.1. Principio de invariancia de Jeffreys . . . . . . . . . . . 11
3.6.2. Algunas distribuciones a priori útiles . . . . . . . . . . 12
3.6.2.1. La distribución Dirichlet . . . . . . . . . . . . 12
3.6.2.2. La distribución gamma inversa . . . . . . . . 13
3.6.2.3. Distribución Wishart y Wishart Inversa . . . 13
3.7. Críticas a la estadística Bayesiana . . . . . . . . . . . . . . . . 13
i
ÍNDICE GENERAL ii
5. Modelos uniparamétricos 28
5.1. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . 28
5.2. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.1. Estimación de la media con varianza conocida . . . . . 35
5.2.2. Distribución normal con media conocida y varianza de-
sconocida . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3. El modelo de Poisson . . . . . . . . . . . . . . . . . . . . . . . 39
5.4. Modelo exponencial . . . . . . . . . . . . . . . . . . . . . . . . 41
5.5. Distribuciones a priori no informativas . . . . . . . . . . . . . 42
5.6. Mixtura de distribuciones a priori . . . . . . . . . . . . . . . . 46
6. Modelos multiparamétricos 48
6.1. Distribución normal con media y varianza desconocidas . . . . 48
6.2. Distribución marginal posterior de la media . . . . . . . . . . 49
6.3. Distribución marginal posterior de la varianza . . . . . . . . . 50
6.4. Distribución condicional de la media dada la varianza . . . . . 50
Capítulo 1
Introducción
1
CAPÍTULO 1. INTRODUCCIÓN 2
Teoría de la probabilidad y
Estadística Clásica
∀E∈S
3
CAPÍTULO 2. TEORÍA DE LA PROBABILIDAD Y ESTADÍSTICA CLÁSICA4
1 (x − µ)2
( )
f (x|µ, σ) = √ exp − (2.2.4)
2πσ 2 2σ 2
La idea fundamental detrás del método es elegir como estimación del parámetro
el valor que hace que la data observada tenga la mayor probabilidad de ocur-
rencia. Para realizar este proceso se requiere establecer una función para las
probabilidades en la data conocida como la función de verosimilitud y se
obtiene como el producto de la función de probabilidad o densidad de cada
observación en la muestra. El proceso de estimación involucra los siguientes
pasos:
i=1
Estadística Bayesiana
3.1. Introducción
Suponga que una mujer cree que se encuentra embarazada después de un
encuentro sexual pero no esta de todo segura. Ella decide tomar una prueba
de embarazo que sabe es 90 % segura y la prueba resulta ser positiva. Obvi-
amente, la mujer desea conocer cual es la probabilidad de estar embarazada,
dado el resultado de la prueba en función a la probabilidad de obtener un
resultado positivo en la prueba, dado que esta embarazada y además con-
siderando el hecho de que la prueba resultó positiva.
Bi ∈SB
8
CAPÍTULO 3. ESTADÍSTICA BAYESIANA 9
El valor anterior actua como una constante normalizadora que hace posi-
ble que la distribución posterior sea propia, es decir:
β α −(α+1)
( )
β
f (x) = x exp −
Γ (α) x
para x > 0.
Modelos basados en la
distribución normal
(θ − µ1 )2 (xi − θ)2
( Pn )
f (θ|x) ∝ exp − − i=1
2τ12 2σ 2
14
CAPÍTULO 4. MODELOS BASADOS EN LA DISTRIBUCIÓN NORMAL15
σ 2 µ1 + nτ12 x 2
!
τ12 σ 2
θ|x ∼ N µ2 = , τ =
nτ12 + σ 2 2
nτ12 + σ 2
1 Xn
( ) ( )
2 −n/2
−(α+1) β
f σ |x2
∝ σ exp − 2 (xi − θ)2
σ 2
exp − 2
2σ i=1 σ
1 1X n
( !)
2 −(α+n/2+1)
∝ σ exp − 2 (xi − θ)2 + β
σ 2 i=1
CAPÍTULO 4. MODELOS BASADOS EN LA DISTRIBUCIÓN NORMAL16
tal que:
n−1 (n − 1) s2
! !
σ2
2
θ|σ , x ∼ N x, y σ |x ∼ GI α =
2
,β =
n 2 2
lo cual conduce a:
y|x ∼ N x, σ 2 (1 + 1/n)
1 Y
n
1 (xi − µ)2
( )
2
f µ, σ |x ∝ 2 √ exp − (4.2.1)
σ i=1 2πσ 2 2σ 2
CAPÍTULO 4. MODELOS BASADOS EN LA DISTRIBUCIÓN NORMAL18
Pr (A/B) Pr (B)
Pr (B/A) =
Pr (A)
En la expresión anterior:
4.6. Predicción
Antes que los datos sean observados, la distribución de los x desconocidos
pero observables es: ˆ
f (x) = f (x/θ) f (θ) dθ
θ
Esta distribución marginal de X es llamada la distribución predictiva a
priori. A priori debido a que no está condicionada por ninguna observación
previa, y predictiva porque es la distribución de una cantidad que es observ-
able.
Después que los datos han sido observados, se pueden predecir nuevos
valores, y, desde el mismo proceso. La distribución de los Y es llamada la
distribución predictiva posterior, debido a que se encuentra condicionada por
los datos ya observados x:
ˆ
f (y/x) = f (y, θ/x) dθ
ˆ θ
= f (y/θ, x) f (θ/x) dθ
ˆθ
= f (y/θ) f (θ/x) dθ
θ
(0,5) (0,20)
Pr (θ = 1/x1 , x2 , x3 ) = = 0,1111
(0,5) (0,20) + (1) (0,80)
De igual manera, si se supone que el tercer hijo está enfermo, es fácil veri-
ficar que la probabilidad posterior de que la mujer sea portadora se convierte
en 1. La naturaleza secuencial del teorema de Bayes puede ser interpretada
como un proceso de aprendizaje en términos de probabilidades, el cual per-
mite incorporar al análisis de un problema nuevos datos y con ellos ajustar
la distribución posterior.
Ejemplo 4.8.2 Se tienen dos ratones de dos colores: negro y marrón. Los
ratones negros son de dos tipos genéticos: homocigotes (BB) y heterozigotes
(Bb) mientras que los ratones marrones son de un tipo (bb). Resultados
genéticos indican que las probabilidades asociadas son:
donde
1 θ=0
l (θ/xm = negros) ∝
1/2 θ = 1
Probabilidades
Ratón θ = 0 (BB) θ = 1 (Bb)
Inicial 1/3 2/3
1º negro 1/2 1/2
2º negro 2/3 1/3
3º negro 4/5 1/5
4º negro 8/9 1/9
5º negro 16/17 1/17
6º negro 32/33 1/33
7º negro 64/65 1/65
Modelos uniparamétricos
28
CAPÍTULO 5. MODELOS UNIPARAMÉTRICOS 29
f (θ/x) ∝ θx (1 − θ)n−x
Con n y x fijos, el factor nx no depende del parámetro desconocido θ,
y por lo tanto puede ser considerado como una constante al calcular la dis-
tribución posterior. Como es común en muchos casos, la densidad posterior
puede ser escrita inmediatamente en una forma definida sobre una constante
de proporcionalidad. En problemas uniparamétricos esto permite una rep-
resentación gráfica inmediata de la distribución posterior. Por ejemplo la
figura 5.1 presenta la densidad no normalizada para cuatro experimentos
diferentes, esto es, con diferentes valores de n y x, pero con la misma propor-
ción de éxitos. En este caso, la forma de la densidad posterior no normalizada
corresponde a una distribución beta:
1
f (θ/x) = θx (1 − θ)n−x
B (x + 1, n − x + 1)
Predicción
En el ejemplo binomial con distribución a priori uniforme, la distribución
predictiva a priori puede ser evaluada explícitamente.
ˆ 1 !
n x 1
f (x) = θ (1 − θ)n−x dθ = , x = 0, 1, · · · , n
0 x n+1
Bajo este modelo, todos los posibles valores de x son igualmente proba-
bles a priori. Para la predicción posterior a partir de este modelo, el interés
principal estará en el resultado de un nuevo ensayo, en vez de en otro grupo
de n nuevos ensayos. Usando y para denotar el resultado de un nuevo ensayo,
intercambiable con los primeros n:
ˆ 1
Pr (y = 1/x) = Pr (y = 1/θ, x) f (θ/x) dθ
0
ˆ 1
x+1
= θf (θ/x) dθ =
0 n+2
a partir de las propiedades de la distribución beta.
CAPÍTULO 5. MODELOS UNIPARAMÉTRICOS 30
Inferencia posterior
La distribución posterior contiene toda la información actual sobre el
parámetro θ e idealmente, uno podría reportar la distribución posterior f (θ/x).
En muchos casos, sin embargo, se requiere conocer los valores de algunas me-
didas de posición como la media, mediana y moda; medidas de dispersión
como la desviación estándar, el rango intercuartílico y otros cuantiles.
Adicionalmente a las estimaciones puntuales, es importante reportar la in-
certidumbre posterior. El método usual para esto consiste en presentar cuan-
tiles de la distribución posterior o intervalos centrales de probabilidad pos-
terior, los cuales corresponden, en el caso de un intervalo del 100 (1 − α) %,
al rango de valores abajo y arriba de los cuales cae exactamente 100 (α/2) %
de la probabilidad posterior. Tales intervalos son conocidos como intervalos
posteriores. En modelos simples, tales como el binomial y el normal, los in-
tervalos posteriores pueden ser calculados directamente desde las función de
distribución acumulada, y en general, pueden ser calculados usando el proce-
so de simulación a partir de la distribución posterior. Un método alternativo
para resumir la incertidumbre posterior consiste en calcular el intervalo de
máxima densidad posterior, esto es, la región de valores que contienen el
100 (1 − α) % de la probabilidad posterior pero que además, tienen la car-
acterística de que la densidad dentro de la región nunca es menor a la de
cualquier punto fuera de la misma. Obviamente, tal región es idéntica a la
de un intervalo central posterior si la distribución posterior es unimodal y
simétrica. En general, los intervalos centrales posteriores son preferibles a los
intervalos de máxima densidad posterior debido a que:
(α + x) (β + n − x) E [θ/x] (1 − E [θ/x])
Var (θ/x) = =
(α + β + n) (α + β + n + 1)
2
α+β+n+1
θ − E [θ/x]
q −→ N (0, 1)
Var (θ/x)
1
( )
f (θ) ∝ exp − 2 (θ − µ0 )2
2τ0
1 (x − θ)2 (θ − µ0 )2
( " #)
f (θ/x) ∝ exp − +
2 σ2 τ02
1
( )
f (θ/x) ∝ exp − 2 (θ − µ1 )2
2τ1
donde
1
µ + σ12 x
τ02 0 1 1 1
µ1 = = 2+ 2
1
τ02
+ σ12 τ12
τ0 σ
θ 2σ 2τ1
CAPÍTULO 5. MODELOS UNIPARAMÉTRICOS 37
Luego
i=1
1 n
1
( )
∝ exp − 2 (θ − µ0 ) 2
exp − 2 (xi − θ)2
Y
2τ0 i=1 2σ
1 1 1 X n
( " #)
∝ exp − (θ − µ 0 ) 2
+ (xi − θ)2
2 τ02 σ 2 i=1
CAPÍTULO 5. MODELOS UNIPARAMÉTRICOS 38
1
µ + σn2 x
τ02 0 1 1 n
µn = = 2+ 2
1
τ02
+ σn2 τn2 τ0 σ
Tenga en cuenta que el mismo resultado sería obtenido si, en vez de incor-
porar la información de las n observaciones en un solo paso, se incorporara la
información de los puntos x1 , · · · , xn , de uno en uno, usando la distribución
posterior obtenida en cada paso como la distribución a priori para el paso
siguiente.
θx exp {−θ}
f (x/θ) = , x = 0, 1, · · ·
x!
CAPÍTULO 5. MODELOS UNIPARAMÉTRICOS 40
i=1 xi !
∝ θt(x)
exp {−nθ}
donde t (x) = ni=1 xi es una estadística suficiente. Esta verosimilitud se
P
X ∼ BN (α, β)
xi ∼ P (zi θ)
(α, β) = (1, θ). En este caso sin embargo, esta distribución está siendo usa-
da como una distribución de muestreo para el resultado x, y no como una
distribución a priori para el parámetro θ, como en el ejemplo de Poisson.
La distribución exponencial tiene la propiedad de pérdida de memoria,
lo cual la convierte en un modelo natural para información de supervivencia
o tiempos de vida. La probabilidad de que un objeto sobreviva un tiem-
po adicional t es independiente del tiempo transcurrido hasta ese punto:
Pr (X > t + s/X > s, θ) = Pr (X > t/θ) para cualquier valor positivo s y t.
La distribución a priori conjugada para el parámetro exponencial θ, así como
para la media Poisson, es la G (θ/α, β) con la correspondiente distribución
posterior G (θ/α + 1, β + x). La distribución muestral de n observaciones ex-
ponenciales independientes, x = (x1 , · · · , xn ), con tasa constante θ es:
Cantidades pivotales
Para el modelo binomial y otros modelos uniparamétricos, principios
diferentes dan distribuciones a priori ligeramente diferentes. Pero para dos
casos, parámetros de posición y de escala, todos los principios parecen con-
cordar.
ln f (x/θ) = Constante + x ln θ + (n − x) ln (1 − θ)
i=1
i=1
k
= wi∗ fi (θ/x)
X
i=1
Modelos multiparamétricos
48
CAPÍTULO 6. MODELOS MULTIPARAMÉTRICOS 49
1
( )
f (µ, φ/x) ∝ φ −(υ+1)/2−1
exp − S + n (x − µ)2
2φ
donde:
1
( )
f (µ, φ/x) ∝ φ exp −
−(υ+1)/2−1
S + n (x − µ)2
2φ
( )
S
f (φ/x) = φ−υ/2−1 exp −
2φ
1
( )
f (µ/φ, x) ∝ φ exp − n (x − µ)2
−1/2
2φ
1
( )
−1/2
= (2πφ/n) exp − n (x − µ) 2
2φ