Documentos de Académico
Documentos de Profesional
Documentos de Cultura
• Ambos han sido muy exitosos en distintos contextos sacando ventaja de sus
bases teóricas.
Diferencias entre Frecuentistas y Bayesianos
Resumen del método frecuentista
• Estimación
PF( ⋅ ; θ) Proceso
de
• Intervalos de con anza
θ observación • otros
Para cada valor de θ existe una distribución PF( ⋅ ; θ). Se obtiene la data x que es una
observación de X . La data es usada para estimar, seleccionar una hipótesis, etc.
fi
Diferencias entre Frecuentistas y Bayesianos
Resumen del método bayesiano
Estimación de
Cálculo de
A priori PΘ Proceso
(regiones de
posteriori credibilidad,
observación test hip).
Conditional
PX|Θ
Resumen de como funcionan los modelos Bayesianos. El punto de partida son la distribución a
priori Pθ y la distribución condicional PX|Θ (verosimilitud). Luego con la observación x de X, se
obtiene la distribución a posteriori de Θ. Esta distribución se usa para hacer la estimación que se
requiere o estudiar regiones de credibilidad, test de hipótesis.
Obtener la Distribuciones a Posteriori
Las cuatro versiones de la regla de Bayes
• Θ discreto, X discreto:
• Θ continuo, X discreto:
pΘ(θ)pX|Θ(x, θ) fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) =
fΘ|X(θ, x) =
pΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
pΘ|X(θ, x) = fΘ|X(θ, x) =
∑θ′ pΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′














Resumen del método bayesiano
Cálculo de
Estimación de
A priori PΘ Proceso
de
¿cómo errores
observación posteriori
usamos la
Conditional dist.
PX|Θ posteriori?
Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos primero el caso más directo con Θ, X discreto, recordemos la regla de Bayes
P(A | Bi)P(Bi)
P(Bi | A) = N
P(Θ = θ)P(X = x | Θ = θ)
P(Θ = θ | X = x) =



Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos primero el caso más directo con Θ, X discreto, recordemos la regla de Bayes
P(A | Bi)P(Bi)
P(Bi | A) = N
pΘ(θ)pX|Θ(x, θ) fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) =
fΘ|X(θ, x) =
pΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
pΘ|X(θ, x) = fΘ|X(θ, x) =
∑θ′ pΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′














Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ discreto, X continuo, además de la regla de Bayes
P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x, θ)Δx
P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ)Δx
P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ)Δx
∑θ′ P(Θ = θ′)P(X ∈ [x, x + Δx] | Θ = θ′) ∑θ′ P(Θ = θ′)fX|Θ(x, θ′)Δx






Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ discreto, X continuo, además de la regla de Bayes
P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ)Δx
∑θ′ P(Θ = θ′)P(X ∈ [x, x + Δx] | Θ = θ′) ∑θ′ P(Θ = θ′)fX|Θ(x, θ′)Δx






Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ discreto, X continuo, además de la regla de Bayes
P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ)Δx
PΘ(θ)fX|Θ(x, θ)
Luego obtenemos pΘ|X(θ, x) =
∑θ′ PΘ(θ′)fX|Θ(x, θ′)









Obtener la Distribuciones a Posteriori
Las cuatro versiones de la regla de Bayes
• Θ discreto, X discreto:
• Θ continuo, X discreto:
pΘ(θ)pX|Θ(x, θ) fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) =
fΘ|X(θ, x) =
pΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
pΘ|X(θ, x) = fΘ|X(θ, x) =
∑θ′ pΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′














Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ continuo, X discreto, además de la regla de Bayes
P(A | Bi)P(Bi)
P(Bi | A) = N
P(A | Bi)P(Bi)
P(Bi | A) = N
y recordemos que
∑j=1 P(A | Bj)P(Bj)
P(Θ ∈ [θ, θ + Δθ] | X = x) ∼ fΘ|X(θ | x)Δθ
P(A | Bi)P(Bi)
P(Bi | A) = N
recordemos que
∑j=1 P(A | Bj)P(Bj)
P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ) ⋅ Δx
pX|Θ(x, θ)
fΘ(θ)P(X = x | Θ ∈ [θ, θ + Δθ]) fΘ(θ)P(X = x | Θ = θ)
fΘ|X(θ, x) = lim =
fΘ(θ)pX|Θ(x, θ)
Luego obtenemos fΘ|X(θ, x) = .
∫θ′ fΘ(θ′)pX|Θ(x, θ′) dθ′












Obtener la Distribuciones a Posteriori
Ejemplo 2: La probabilidad de obtener cara
Proceso
Cálculo de
Beta (2,2)
x = (x1, …, xn) fΘ|X( ⋅ | k(x)) parámetro
de
n la dist. a
A priori fΘ|X k + 2
∑ θ̂ =
k(x) = xi posteriori
Condicional observación Dist. Beta n+4
i=1
PX|Θ (k + 2,n − k + 2)
Bernoulli (θ)
Obtener la Distribuciones a Posteriori
Ejemplo 2: La probabilidad de obtener cara
• En el ejemplo que vimos la última clase teníamos el caso del lanzamiento de una
moneda no equiprobable. Teníamos X discreto y Θ (la probabilidad de cara)
n
∑
continua (escogimos una distribución beta). Tenemos k(x) = xi y obtuvimos
i=1
fΘ|X(θ | k(x)) ∼ Beta(k + 2,n − k + 2) recuerdo.
•
̂
¿el más probable? θ =
α−1
=
k+1
(no necesita la cte. de renormalización)
α+β−2 n+2
θ ̂ = E(Θ | k) = α k+2
• ¿la media? α+β
= n+4
Obtener la Distribuciones a Posteriori
Las cuatro versiones de la regla de Bayes
• Θ discreto, X discreto:
• Θ continuo, X discreto:
pΘ(θ)pX|Θ(x, θ) fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) =
fΘ|X(θ, x) =
PΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
pΘ|X(θ, x) = fΘ|X(θ, x) =
∑θ′ PΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′














Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Finalmente el caso con Θ, X continuo, además de la regla de Bayes recordemos que
fΘ(θ)fX|Θ(x, θ)
fΘ|X(θ, x) = .
pΘ(θ)pX|Θ(x, θ) fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) =
fΘ|X(θ, x) =
PΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
pΘ|X(θ, x) = fΘ|X(θ, x) =
∑θ′ PΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′














Obtener la Distribuciones a Posteriori
Las cuatro versiones de la regla de Bayes
• Θ discreto, X discreto:
• Θ continuo, X discreto:
pΘ|X(θ, x) ∝ pΘ(θ)pX|Θ(x, θ)
fΘ|X(θ, x) ∝ fΘ(θ)pX|Θ(x, θ)
• Θ discreto, X continuo:
• Θ continuo, X continuo:
2
• De esta forma fXi|Θ(xi, θ) es una distribución Normal de media θ y varianza σ
entonces combinamos la distribuciones a priori de Θ y de la muestra
(X1, …, Xn)
( )
2
1 (θ − x0)
fΘ(θ) = exp − y
• 2πσ02 2σ02
( )
n n
( i=1 )
2 2
1 (xi − θ) 1 (xi − θ)
∏ ∑
fX|Θ(x1, …, xn, θ) = exp − = exp −
• 2πσ 2 2σ 2 (2πσ 2)n/2 2σ 2
i=1
Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida
2 n 2
( )
1 (θ − x0) (xi − θ)
∑
fX|Θ(x1, …, xn, θ)fΘ(θ) = exp − −
• (2π)(n+1)/2σ σ0
n 2σ0
2 2σ 2
i=1
Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida
C1 n
( )
2
1 (θ − x0) (xi − θ)2
∑
fX|Θ(x1, …, xn, θ)fΘ(θ) = exp − −
( )
2 2 2 2
θ − 2x0θ + x0 xi − 2θxi + θ
∑
fX|Θ(x1, …, xn, θ)fΘ(θ) = C1 exp − −
• 2σ02 2σ 2
i=1
2 2
• Donde C1 = C1(x0, …, xn, σ0 , σ ) pero no depende de θ.
( )
2 2
θ − 2x0θ + x0 xi2 − 2θxi + θ 2
∑
fX|Θ(x1, …, xn, θ)fΘ(θ) = C1 exp − −
• 2σ02 2σ 2
i=1
• Después de algo de álgebra (no es directo)
( )
(θ − m)2
• fX|Θ(x1 , …, xn , θ)fΘ(θ) = C1 exp −
2v 2
( 2σ0 2σ 2 )
2 1 n −1 2 x0 xi
∑
con v = ( 2 + ) y m=v +
• σ0 σ2 2
i=1
Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida
( )
2
(θ − m)
• fX|Θ (x1 , …, xn, θ)fΘ (θ) = C1 exp −
2v 2
n
2 1 n −1 2
xi
∑ 2σ 2
con v = ( 2 + ) y m=v
• σ0 σ2
i=1
fX|Θ fΘ
fΘ|X(θ, x1, …, xn) =
• ∫ fX|Θ fΘdθ
( )
2
(θ − m)
fX|Θ (x1 , …, xn, θ)fΘ (θ) = C1 exp −
¡ Θ debe ser Normal !
• 2v 2
( 0 2σ 2 )
2 1 n −1 2 x0 xi
∑
con v = ( 2 + ) y m=v +
• σ0 σ2 2σ 2
i=1
( )
fX|Θ fΘ 1 (θ − m) 2
( 0 2σ 2 )
2 1 n −1 2 x0 xi
∑
con v = ( 2 + ) y m=v +
• σ0 σ2 2σ 2
i=1
( )
2
1 (θ − m)
• fΘ|X (θ, x1, …, xn ) = exp −
2πv 2 2v 2
̂
• En este "el más probable” y E(Θ | x1, …, xn) coinciden es θ = m.
Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida
( )
n
( 2σ0 2σ 2 )
2 1 n −1 2 x0 xi 1 (θ − m)2
∑
v = ( 2 + ) , m=v + , fΘ|X(θ, x1, …, xn) = exp −
• σ0 σ2 2
2πv 2 2v 2
i=1
2 2
• fΘ(θ) := fΘ|X(θ, x1, …, xn) ahora pasa a ser la a priori, (m, v ) cumplen el rol de (x0, σ0 )
( )
1 (θ − my)2
fΘ|X(θ, y1, y2) = exp −
• 2πvy2 2vy2
( )
2 1 2 −1 2 m y
∑
con vy = ( 2 + ) my = vy + i
y .
• v σ2 2v 2 2σ 2
i=1
Estimador
Metodos de Inferencia: Maximum a Posteriori
Dist. a posteriori
̂ = arg max p (θ, x).
θ(x) Θ|X
θ
Estimador
Metodos de Inferencia: Maximum a Posteriori
Dist. a posteriori
̂ = arg max p (θ, x).
θ(x) Θ|X
θ
• Si pΘ|X ̂
(θ, x) tiene una distribución conocida, entonces θ es la moda.
Estimador
Metodos de Inferencia: Estimador de Mínimos Cuadrados
̂ 2 2̂ ̂ 2
E[(Θ − θ(x)) ] = θ (x)−2E(Θ)θ(x)+E(Θ )
Estimador
Metodos de Inferencia: Estimador de Mínimos Cuadrados
̂ 2 2̂ ̂ 2
E[(Θ − θ(x)) ] = θ (x)−2E(Θ)θ(x)+E(Θ )
̂
θ*(x) = E(Θ) = EΘ|X(Θ)
̂ ̂
El estimador θ(x) = E(Θ | X = x) y su error εΘ = Θ − θ(X) tiene las siguientes
propiedades:
• ̂ no están correlacionados,
El error εΘ y el estimador θ(X)
̂
Co-Var(εΘ, θ(X)) = 0.
Cálculo de
MAP o
A priori PΘ Proceso
observación posteriori
Conditional
PX|Θ
FIN