Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadı́stica Bayesiana
Teorı́a y Conceptos Básicos
eduardo@sigma.iimas.unam.mx
Temario
1 Introducción
Conceptos fundamentales
Métodos estadı́sticos tradicionales
2 Inferencia Estadı́stica
El enfoque bayesiano
Interpretación subjetiva de la probabilidad
El proceso de aprendizaje
Predicción
Análisis secuencial
El concepto de intercambiabilidad
3 Teorı́a de la Decisión
Elementos de un problema de decisión
Función de utilidad
Solución bayesiana
Otros criterios
Problemas de decisión estadı́sticos
4 Aspectos Computacionales
Aproximaciones asintóticas
Conceptos fundamentales
¿Qué es la Estadı́stica?
Definiciones de Estadı́stica
Ensayemos otra...
Ensayemos otra...
¿Variabilidad o incertidumbre?
Caso A: se cuenta con todos los datos posibles del fenómeno bajo
estudio (e.g. censos)
Solución:
Selección probabilı́stica de la muestra (i.e. por sorteo)
x −→ X −→ Pr[X = x]
Ası́,
Ası́,
- Estimación puntual: θ̂
- Estimación por intervalo: θ ∈ (θ, θ̄)
- Prueba de hipótesis: H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1
Veamos un ejemplo...
X ∼ Bin(θ, n),
Notemos lo siguiente:
El enfoque bayesiano
Pr(B|A) Pr(A)
Pr(A|B) = .
Pr(B)
Pr(B|Ai ) Pr(Ai )
Pr(Ai |B) = PM .
j=1 Pr(B|Aj ) Pr(Aj )
Sean
A = “la persona tiene VIH” y Ac = “la persona no tiene VIH”
B = “la prueba resulta positiva”
Pr(B|A) Pr(A)
Pr(A|B) = .
Pr(B|A) Pr(A) + Pr(B|Ac ) Pr(Ac )
Es decir,
0.95 × 0.001
Pr(A|B) = = 0.045
(0.95 × 0.001) + (0.02 × 0.999)
Discusión
Entonces
Es decir,
0.95 × 0.001
Pr(θ = 1|X = 1) = = 0.045
0.021
Discusión
Diferencias
• Inferencia bayesiana:
¿Cómo cambian nuestros juicios originales acerca del valor de la
cantidad desconocida θ a la luz de los datos X?
En general tenemos:
(1) Datos, X; y
(2) Cantidades desconocidas, θ, cuyo valor nos interesa.
Las cantidades desconocidas descritas por θ pueden ser: parámetros del
modelo, observaciones faltantes, mediciones que no podemos observar
directamente o con suficiente precisión, etc.
p(x|θ)
p(θ|x)
p(θ) p(x|θ)
p(θ|x) = R
p(θ) p(x|θ) dθ
Un ejemplo...
¿Cuál es la probabilidad que tú asignarı́as en este momento al evento
Ejemplo:
Una mujer afirma que puede detectar, con un sólo sorbo de una
taza de café, si la leche fue agregada antes o después del café. La
mujer detecta correctamente el orden en diez tazas.
Un experto en música afirma que puede distinguir entre una
página de una obra de Hayden y una de Mozart. El experto
clasifica correctamente diez páginas.
Un amigo ebrio afirma que puede predecir el resultado del
lanzamiento de una moneda honesta. El amigo predice
correctamente el resultado de diez lanzamientos.
El proceso de aprendizaje
“Todos los modelos son incorrectos, pero algunos modelos son más
útiles que otros.” (George E.P. Box )
Distribución inicial
Distribución final
Inferencia
El enfoque bayesiano proporciona inferencias más completas en el
sentido de que toda la información disponible sobre el valor de θ
queda representada a través de la distribución final.
Es decir, desde el punto de vista bayesiano, el problema de inferencia
se reduce a encontrar p(θ|x): la distribución final es la inferencia.
Robustez
La idea es que, si las inferencias no son muy distintas en cada uno de estos
casos, el análisis (dados los datos observados) será relativamente robusto en
lo que se refiere a la elección de la distribución inicial. No será necesario
entonces preocuparse demasiado por especificar una distribución inicial con
mucha precisión.
- Función de verosimilitud:
n x
p(x|θ) = Bin(x|θ; n) = θ (1 − θ)n−x ∝ θx (1 − θ)n−x
x
- Distribución inicial:
Γ(a + b) a−1
p(θ) = Beta(θ|a, b) = θ (1 − θ)b−1 ∝ θa−1 (1 − θ)b−1
Γ(a)Γ(b)
- Distribución final:
Caso no informativo
Cabe hacer notar que en este caso Pr(θ > 0.54|x) = 0.97
Distribución predictiva
Distribución predictiva
= Ep(θ|x) [p(y|θ)]
Recapitulando...
Muestra x = ( x1 , x2 , . . . , xn )
Distribución final p( θ | x)
Inferencias a posteriori
Análisis secuencial
El concepto de intercambiabilidad
donde 1 ≤ m < n,
Qm
θxi (1 − θ)1−xi
i=1 dQ(θ)
dQ(θ|x1 , . . . , xm ) = Z 1 (1)
Qm
i=1 θ (1 − θ)
xi 1−xi dQ(θ)
0
Teorı́a de la decisión
Probabilidad y utilidad
Solución bayesiana
donde
m
X
ū(ai ) = u(ai , Ej ) · Pr(Ej ) (i = 1, . . . , k)
j=1
Otros criterios
Pr(E) p q 1−p−q
u(a, E) E1 E2 E3
a1 0.9 0.2 0.5
a2 0.2 0.9 0.5
a3 0.6 0.6 0.7
• Criterio maximin:
En este caso um (a1 ) = 0.2, um (a2 ) = 0.2 y um (a3 ) = 0.6, por lo que el
criterio maximin recomienda elegir a3 .
• Criterio condicional :
Dado que q > p y q > 1 − p − q, tenemos que up (a1 ) = 0.2, up (a2 ) = 0.9
y up (a3 ) = 0.6. Por lo tanto, el criterio condicional recomienda elegir a2 .
Por ejemplo,
Si p = 0.33 y q = 0.50 entonces la mejor acción es a3 .
mientras que
Si p = 0.33 y q = 0.60 entonces la mejor acción es a2 .
Sea
F = {p(x|θ) : θ ∈ Θ}
una familia paramétrica de distribuciones de probabilidad.
Entonces
L∗x (θ̂) = Θ L(θ̂, θ) p(θ|x) dθ
R
Notemos que
Eθ|x [ (θ̂ − θ)2 ] = Eθ|x [ (θ̂ − Eθ|x [θ] + Eθ|x [θ] − θ)2 ]
= Eθ|x [ (θ̂ − Eθ|x [θ])2 ] + Eθ|x [(θ − Eθ|x [θ])2 ]
= Eθ|x [ (θ̂ − Eθ|x [θ])2 ] + Varθ|x [θ],
Ho : θ = θ 0 vs. H1 : θ = θ 1
En este caso
A = {a0 , a1 }
con
a0 = “Actuar como si H0 fuera cierta”
L(a, θ) θ0 θ1
a0 0 k0
a1 k1 0
En este caso
L∗x (a0 ) = L(a0 , θ0 ) · p(θ0 |x) + L(a0 , θ1 ) · p(θ1 |x) = k0 p(θ1 |x)
L∗x (a1 ) = L(a1 , θ0 ) · p(θ0 |x) + L(a0 , θ1 ) · p(θ1 |x) = k1 p(θ0 |x)
Es decir, si y sólo si
p(θ1 |x) k1
> .
p(θ0 |x) k0
Equivalentemente, si y sólo si
p(x|θ0 ) k0 p(θ1 )
< .
p(x|θ1 ) k1 p(θ0 )
Aproximaciones asintóticas
Aproximación de Laplace
donde −1
∂ 2 h(θ)
Σ(θ) = .
∂θ T ∂θ
Proposición. Conforme n → ∞,
Iˆ = I {1 + O(n−1 )}.
Entonces
E(g(θ)|x) ≈ g(θ̂) (2 π/n)d/2 |Σ(θ̂)|1/2 p(θ̂|x)
Entonces
p̂(θ 1 ) ∝ |Σ(θ 1 )|1/2 p(θ 1 , θ̂ 2 (θ 1 )),
2e−θ1 e−θ2
p(θ1 , θ2 ) = , (θ1 , θ2 ) ∈ IR2 .
(1 + e−θ1 + e−θ2 )3
La densidad marginal de θ1 es
e−θ1
p(θ1 ) = , θ1 ∈ IR.
(1 + e−θ1 )2
A manera de conclusión...