Clase 8

Técnicas Estocásticas y
Estadísticas para el Data Science

Inferencia Bayesiana y Frecuentista
• Recuerdo de las diferencias entre la inferencia frecuentistas y la bayesiana.
• La regla de Bayes para obtener las distribuciones a posteriori

Diferencias entre Frecuentistas y Bayesianos
Comparación de métodos Bayesiano y Frecuentista
• El frecuentista asume que los parámetros son constantes desconocidas, en

cambio el Bayesiano asume que son v.a. y tiene una distr. a priori.
• El frecuentista escoge una función o algoritmo para estimar en cambio el

Bayesiano escoge, además, una prob. a priori.
• Ambos métodos muchas veces proponen el mismo estimador, pero se

basan en distintas hipótesis.
• Ambos han sido muy exitosos en distintos contextos sacando ventaja de sus
bases teóricas.
Resumen del método frecuentista
• Estimación
PF( ⋅ ; θ) Proceso
x = (x1, …, xn) • Selección de hipótesis
de
• Intervalos de con anza
θ observación • otros
Para cada valor de θ existe una distribución PF( ⋅ ; θ). Se obtiene la data x que es una
observación de X . La data es usada para estimar, seleccionar una hipótesis, etc.
fi
Resumen del método bayesiano
Estimación de
Cálculo de
A priori PΘ Proceso
x = (x1, …, xn) PΘ|X( ⋅ | X = x) Parámetros y/

la dist. a
o errores
de
(regiones de
posteriori credibilidad,
observación test hip).
Conditional
PX|Θ
Resumen de como funcionan los modelos Bayesianos. El punto de partida son la distribución a
priori Pθ y la distribución condicional PX|Θ (verosimilitud). Luego con la observación x de X, se
obtiene la distribución a posteriori de Θ. Esta distribución se usa para hacer la estimación que se
requiere o estudiar regiones de credibilidad, test de hipótesis.
Obtener la Distribuciones a Posteriori
Las cuatro versiones de la regla de Bayes
• Θ discreto, X discreto:
• Θ continuo, X discreto:
pΘ(θ)pX|Θ(x, θ) fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) =
fΘ|X(θ, x) =
∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX|Θ(x, θ′) dθ′

• Θ discreto, X continuo:
• Θ continuo, X continuo:
pΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
pΘ|X(θ, x) = fΘ|X(θ, x) =
∑θ′ pΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′

Cálculo de
Estimación de
x = (x1, …, xn) PΘ|X( ⋅ | X = x)

la dist. a
parámetro y/o
de
¿cómo errores
observación posteriori
usamos la
Conditional dist.
PX|Θ posteriori?
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos primero el caso más directo con Θ, X discreto, recordemos la regla de Bayes
P(A | Bi)P(Bi)
P(Bi | A) = N

∑j=1 P(A | Bj)P(Bj)
• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X = x} discreto:
P(Θ = θ)P(X = x | Θ = θ)
P(Θ = θ | X = x) =
∑θ′ P(Θ = θ′)P(X = x | Θ = θ′)

• Veamos primero el caso más directo con Θ, X discreto, recordemos la regla de Bayes
P(A | Bi)P(Bi)
P(Bi | A) = N

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X = x} discreto:
P(Θ = θ)P(X = x | Θ = θ) pX|Θ (x, θ)

P(Θ = θ | X = x) =
∑θ′ P(Θ = θ′)P(X = x | Θ = θ′)

pΘ(θ)pX|Θ(x, θ)
Esto se reescribe usando subíndices pΘ|X(θ, x) =
∑θ′ pΘ(θ′)pX|Θ(x, θ′)

pΘ|X(θ, x) =
fΘ|X(θ, x) =
∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX,Θ(x | θ′) dθ′


• Veamos ahora el caso con Θ discreto, X continuo, además de la regla de Bayes
P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x, θ)Δx
• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]}

discreto:
P(Θ = θ) P(X ∈ [x, x + Δx] | Θ = θ)

P(Θ = θ | X = x) =
∑θ′ P(Θ = θ′) P(X ∈ [x, x + Δx] | Θ = θ′)

P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ)Δx
• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]}

discreto:
fX|Θ(x, θ)Δx
P(Θ = θ) P(X ∈ [x, x + Δx] | Θ = θ)
P(Θ = θ | X = x) =
∑θ′ P(Θ = θ′) P(X ∈ [x, x + Δx] | Θ = θ′)

P(A | Bi)P(Bi)
P(Bi | A) = N
• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]} discreto:
P(Θ = θ)P(X ∈ [x, x + Δx] | Θ = θ) P(Θ = θ)fX|Θ(x, θ)Δx

P(Θ = θ | X = x) = =
∑θ′ P(Θ = θ′)P(X ∈ [x, x + Δx] | Θ = θ′) ∑θ′ P(Θ = θ′)fX|Θ(x, θ′)Δx

P(A | Bi)P(Bi)
P(Bi | A) = N
P(Θ = θ)P(X ∈ [x, x + Δx] | Θ = θ) P(Θ = θ)fX|Θ(x, θ)Δx

P(Θ = θ | X = x) = =
∑θ′ P(Θ = θ′)P(X ∈ [x, x + Δx] | Θ = θ′) ∑θ′ P(Θ = θ′)fX|Θ(x, θ′)Δx

P(A | Bi)P(Bi)
P(Bi | A) = N
P(Θ = θ)fX|Θ(x, θ) PΘ(θ)fX|Θ(x, θ)

P(Θ = θ | X = x) = =
∑θ′ P(Θ = θ′)fX|Θ(x, θ′) ∑θ′ PΘ(θ′)fX|Θ(x, θ′)
PΘ(θ)fX|Θ(x, θ)
Luego obtenemos pΘ|X(θ, x) =
∑θ′ PΘ(θ′)fX|Θ(x, θ′)

pΘ|X(θ, x) =
fΘ|X(θ, x) =
∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX,Θ(x, θ′) dθ′


• Veamos ahora el caso con Θ continuo, X discreto, además de la regla de Bayes
P(A | Bi)P(Bi)
P(Bi | A) = N

• Aplicando la regla a los eventos Bθ = {Θ ∈ [θ, θ + Δθ]} y A = {X = x} discreto:
P(Θ ∈ [θ, θ + Δθ]) P(X = x | Θ ∈ [θ, θ + Δθ])

P(Θ ∈ [θ, θ + Δθ] | X = x) =
∑θ′ P(Θ ∈ [θ′, θ′ + Δθ]) P(X = x | Θ ∈ [θ′, θ′ + Δθ])

Además P(Θ ∈ [θ, θ + Δθ] | X = x) ∼ fΘ|X(θ, x)Δθ

P(A | Bi)P(Bi)
P(Bi | A) = N
y recordemos que
P(Θ ∈ [θ, θ + Δθ] | X = x) ∼ fΘ|X(θ | x)Δθ
• Obtenemos la densidad condicional
fΘ(θ)Δθ P(X = x | Θ ∈ [θ, θ + Δθ]

fΘ|X(θ, x)Δθ ∼
∑θ′ fΘ(θ′) P(X = x | Θ ∈ [θ′, θ′ + Δθ′]Δθ′

Tomaremos el límite cuando Δθ se va a 0.

P(A | Bi)P(Bi)
P(Bi | A) = N
recordemos que
P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ) ⋅ Δx
pX|Θ(x, θ)
fΘ(θ)P(X = x | Θ ∈ [θ, θ + Δθ]) fΘ(θ)P(X = x | Θ = θ)
fΘ|X(θ, x) = lim =
Δθ→0 ∑ fΘ(θ′)P(X = x | Θ ∈ [θ′, θ′ + Δθ′]) Δθ′ ∫ fΘ(θ′)P(X = x | Θ = θ′) dθ′

θ′ θ′
fΘ(θ)pX|Θ(x, θ)
Luego obtenemos fΘ|X(θ, x) = .
∫θ′ fΘ(θ′)pX|Θ(x, θ′) dθ′

Ejemplo 2: La probabilidad de obtener cara
• En el ejemplo que vimos la última clase teníamos el caso del lanzamiento de

una moneda no equiprobable. Teníamos X discreto y Θ (la probabilidad de
cara) continua (escogimos una distribución beta).
A priori fΘDist. Estimación de
Proceso
Cálculo de
Beta (2,2)
x = (x1, …, xn) fΘ|X( ⋅ | k(x)) parámetro
de
n la dist. a
A priori fΘ|X k + 2
∑ θ̂ =
k(x) = xi posteriori
Condicional observación Dist. Beta n+4
i=1
PX|Θ (k + 2,n − k + 2)
Bernoulli (θ)
Ejemplo 2: La probabilidad de obtener cara
• En el ejemplo que vimos la última clase teníamos el caso del lanzamiento de una
moneda no equiprobable. Teníamos X discreto y Θ (la probabilidad de cara)
n
∑
continua (escogimos una distribución beta). Tenemos k(x) = xi y obtuvimos
i=1
fΘ|X(θ | k(x)) ∼ Beta(k + 2,n − k + 2) recuerdo.
• ¿cómo escogemos el estimador?
•
̂
¿el más probable? θ =
α−1
=
k+1
(no necesita la cte. de renormalización)
α+β−2 n+2
θ ̂ = E(Θ | k) = α k+2
• ¿la media? α+β
= n+4
pΘ|X(θ, x) =
fΘ|X(θ, x) =

PΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
∑θ′ PΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′

• Finalmente el caso con Θ, X continuo, además de la regla de Bayes recordemos que
P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ) Δx
P(Θ ∈ [θ, θ + Δθ] | X = x) ∼ fΘ|X(θ | x) Δθ
Aplicando la Bayes a los eventos Bθ = {Θ ∈ [θ, θ + Δθ]} y A = {X ∈ [x, x + Δx]} y

luego tomando límites cuando Δx y Δθ se van a 0, so obtiene la densidad a posteriori:
fΘ(θ)fX|Θ(x, θ)
fΘ|X(θ, x) = .
∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′

pΘ|X(θ, x) =
fΘ|X(θ, x) =

PΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
∑θ′ PΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′

pΘ|X(θ, x) ∝ pΘ(θ)pX|Θ(x, θ)
fΘ|X(θ, x) ∝ fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) ∝ PΘ(θ)fX|Θ(x, θ) fΘ|X(θ, x) ∝ fΘ(θ)fX|Θ(x, θ)

Ejemplo: Estimar la media de una normal con varianza conocida
• Sean X = (X1, …, Xn) observaciones iid de una distribución Normal de

2
varianza σ (conocida) y media desconocida.
• Queremos estimar la media, asumiremos que la distribución a priori de la

media Θ que queremos estimar es una Normal de parámetros media x0 y
2
varianza σ0 (conocidos).
2
• De esta forma fXi|Θ(xi, θ) es una distribución Normal de media θ y varianza σ
entonces combinamos la distribuciones a priori de Θ y de la muestra
(X1, …, Xn)
( )
2
1 (θ − x0)
fΘ(θ) = exp − y
• 2πσ02 2σ02
( )
n n
( i=1 )
2 2
1 (xi − θ) 1 (xi − θ)
∏ ∑
fX|Θ(x1, …, xn, θ) = exp − = exp −
• 2πσ 2 2σ 2 (2πσ 2)n/2 2σ 2
i=1
2 n 2
( )
1 (θ − x0) (xi − θ)
∑
fX|Θ(x1, …, xn, θ)fΘ(θ) = exp − −
• (2π)(n+1)/2σ σ0
n 2σ0
2 2σ 2
i=1
C1 n
( )
2
1 (θ − x0) (xi − θ)2
∑
fX|Θ(x1, …, xn, θ)fΘ(θ) = exp − −
• (2π)(n+1)/2σ nσ0 2σ02 2σ 2

i=1
2 2
• Donde C1 = C1(x0, …, xn, σ0 , σ ) pero no depende de θ.
( )
2 2 2 2
θ − 2x0θ + x0 xi − 2θxi + θ
∑
fX|Θ(x1, …, xn, θ)fΘ(θ) = C1 exp − −
• 2σ02 2σ 2
i=1
• Después de algo de álgebra (no es directo)

2 2
• Donde C1 = C1(x0, …, xn, σ0 , σ ) pero no depende de θ.
( )
2 2
θ − 2x0θ + x0 xi2 − 2θxi + θ 2
∑
fX|Θ(x1, …, xn, θ)fΘ(θ) = C1 exp − −
• 2σ02 2σ 2
i=1
• Después de algo de álgebra (no es directo)
( )
(θ − m)2
• fX|Θ(x1 , …, xn , θ)fΘ(θ) = C1 exp −
2v 2
( 2σ0 2σ 2 )
2 1 n −1 2 x0 xi
∑
con v = ( 2 + ) y m=v +
• σ0 σ2 2
i=1
( )
2
(θ − m)
• fX|Θ (x1 , …, xn, θ)fΘ (θ) = C1 exp −
2v 2
n
2 1 n −1 2
xi
∑ 2σ 2
con v = ( 2 + ) y m=v
• σ0 σ2
i=1
fX|Θ fΘ
fΘ|X(θ, x1, …, xn) =
• ∫ fX|Θ fΘdθ
Constante de renormalización para que integre 1

( )
2
(θ − m)
fX|Θ (x1 , …, xn, θ)fΘ (θ) = C1 exp −
¡ Θ debe ser Normal !
• 2v 2
( 0 2σ 2 )
2 1 n −1 2 x0 xi
∑
con v = ( 2 + ) y m=v +
• σ0 σ2 2σ 2
i=1
( )
fX|Θ fΘ 1 (θ − m) 2
• fΘ|X (θ, x1, …, xn ) = ∫ fX|Θ fΘdθ

= exp −
2πv 2 2v 2
( 0 2σ 2 )
2 1 n −1 2 x0 xi
∑
con v = ( 2 + ) y m=v +
• σ0 σ2 2σ 2
i=1
( )
2
1 (θ − m)
• fΘ|X (θ, x1, …, xn ) = exp −
2πv 2 2v 2
• ¿cómo estimamos la media θ de la muestra?
̂
• En este "el más probable” y E(Θ | x1, …, xn) coinciden es θ = m.
( )
n
( 2σ0 2σ 2 )
2 1 n −1 2 x0 xi 1 (θ − m)2
∑
v = ( 2 + ) , m=v + , fΘ|X(θ, x1, …, xn) = exp −
• σ0 σ2 2
2πv 2 2v 2
i=1
• ¿qué ocurre si aparecen dos muestras más?
2 2
• fΘ(θ) := fΘ|X(θ, x1, …, xn) ahora pasa a ser la a priori, (m, v ) cumplen el rol de (x0, σ0 )
( )
1 (θ − my)2
fΘ|X(θ, y1, y2) = exp −
• 2πvy2 2vy2
( )
2 1 2 −1 2 m y
∑
con vy = ( 2 + ) my = vy + i
y .
• v σ2 2v 2 2σ 2
i=1
Estimador
Metodos de Inferencia: Maximum a Posteriori
• En los ejemplos vimos el estimado más probable. Este criterio se conoce

como la regla “maximum a posteriori” (MAP). En este caso
Dist. a posteriori
̂ = arg max p (θ, x).
θ(x) Θ|X
θ
Estimador
Metodos de Inferencia: Maximum a Posteriori
• En los ejemplos vimos el estimado más probable. Este criterio se conoce

como la regla “maximum a posteriori” (MAP). En este caso
Dist. a posteriori
̂ = arg max p (θ, x).
θ(x) Θ|X
θ
• Como pΘ|X(θ, x) ∝ pX|Θ(x, θ)pΘ(θ), en este criterio no se necesita re-

normalizar.
• Si pΘ|X ̂
(θ, x) tiene una distribución conocida, entonces θ es la moda.
Estimador
Metodos de Inferencia: Estimador de Mínimos Cuadrados
• Recordemos que θ ̂ es una función de la muestra x. Buscaremos el estimador

̂ 2
que minimice el error cuadrático E[(Θ − θ(x)) ], usando la distribución a
posteriori. Desarrollando la expresión
̂ 2 2̂ ̂ 2
E[(Θ − θ(x)) ] = θ (x)−2E(Θ)θ(x)+E(Θ )
• Que es una ecuación cuadrática en θ,̂ entonces el máximo se alcanza en:
Estimador
• Recordemos que θ ̂ es una función de la muestra x. Buscaremos el estimador

̂ 2
que minimice el error cuadrático E[(Θ − θ(x)) ], usando la distribución a
posteriori. Desarrollando la expresión
̂ 2 2̂ ̂ 2
E[(Θ − θ(x)) ] = θ (x)−2E(Θ)θ(x)+E(Θ )
• Que es una ecuación cuadrática en θ,̂ entonces el máximo se alcanza en:
̂
θ*(x) = E(Θ) = EΘ|X(Θ)
• Corresponde a la media de la dist. a posteriori. También se denota E(Θ | X).

Estimador
̂ ̂
El estimador θ(x) = E(Θ | X = x) y su error εΘ = Θ − θ(X) tiene las siguientes
propiedades:
• El error es insesgado E(εΘ) = 0 aun más E(εΘ | X = x) = 0 para todo x
• ̂ no están correlacionados,
El error εΘ y el estimador θ(X)
̂
Co-Var(εΘ, θ(X)) = 0.
• Estas buenas propiedades explican lo popular del estimador.
• También se puede buscar el mejor estimador en una subfamilia porque E(Θ | X)

puede ser complicado de calcular.
Método Bayesianos
Cálculo de
MAP o
x = (x1, …, xn) PΘ|X( ⋅ | X = x) E(Θ | X) u

de
la dist. a
otro
observación posteriori
Conditional
PX|Θ
FIN

Clase 8

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 8

Cargado por

Copyright:

Formatos disponibles

Técnicas Estocásticas y

Estadísticas para el Data Science

• La regla de Bayes para obtener las distribuciones a posteriori

• El frecuentista asume que los parámetros son constantes desconocidas, en

• El frecuentista escoge una función o algoritmo para estimar en cambio el

• Ambos métodos muchas veces proponen el mismo estimador, pero se

x = (x1, …, xn) • Selección de hipótesis

x = (x1, …, xn) PΘ|X( ⋅ | X = x) Parámetros y/

∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX|Θ(x, θ′) dθ′

x = (x1, …, xn) PΘ|X( ⋅ | X = x)

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X = x} discreto:

∑θ′ P(Θ = θ′)P(X = x | Θ = θ′)

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X = x} discreto:

P(Θ = θ)P(X = x | Θ = θ) pX|Θ (x, θ)

∑θ′ P(Θ = θ′)P(X = x | Θ = θ′)

∑θ′ pΘ(θ′)pX|Θ(x, θ′)

∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX,Θ(x | θ′) dθ′

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]}

P(Θ = θ) P(X ∈ [x, x + Δx] | Θ = θ)

∑θ′ P(Θ = θ′) P(X ∈ [x, x + Δx] | Θ = θ′)

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]}

∑θ′ P(Θ = θ′) P(X ∈ [x, x + Δx] | Θ = θ′)

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]} discreto:

P(Θ = θ)P(X ∈ [x, x + Δx] | Θ = θ) P(Θ = θ)fX|Θ(x, θ)Δx

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]} discreto:

P(Θ = θ)P(X ∈ [x, x + Δx] | Θ = θ) P(Θ = θ)fX|Θ(x, θ)Δx

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]} discreto:

P(Θ = θ)fX|Θ(x, θ) PΘ(θ)fX|Θ(x, θ)

∑θ′ P(Θ = θ′)fX|Θ(x, θ′) ∑θ′ PΘ(θ′)fX|Θ(x, θ′)

∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX,Θ(x, θ′) dθ′

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ ∈ [θ, θ + Δθ]} y A = {X = x} discreto:

P(Θ ∈ [θ, θ + Δθ]) P(X = x | Θ ∈ [θ, θ + Δθ])

∑θ′ P(Θ ∈ [θ′, θ′ + Δθ]) P(X = x | Θ ∈ [θ′, θ′ + Δθ])

• Obtenemos la densidad condicional

fΘ(θ)Δθ P(X = x | Θ ∈ [θ, θ + Δθ]

∑θ′ fΘ(θ′) P(X = x | Θ ∈ [θ′, θ′ + Δθ′]Δθ′

Δθ→0 ∑ fΘ(θ′)P(X = x | Θ ∈ [θ′, θ′ + Δθ′]) Δθ′ ∫ fΘ(θ′)P(X = x | Θ = θ′) dθ′

• En el ejemplo que vimos la última clase teníamos el caso del lanzamiento de

A priori fΘDist. Estimación de

• ¿cómo escogemos el estimador?

∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX|Θ(x, θ′) dθ′

P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ) Δx

P(Θ ∈ [θ, θ + Δθ] | X = x) ∼ fΘ|X(θ | x) Δθ

Aplicando la Bayes a los eventos Bθ = {Θ ∈ [θ, θ + Δθ]} y A = {X ∈ [x, x + Δx]} y

∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′

∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX|Θ(x, θ′) dθ′

pΘ|X(θ, x) ∝ PΘ(θ)fX|Θ(x, θ) fΘ|X(θ, x) ∝ fΘ(θ)fX|Θ(x, θ)

• Sean X = (X1, …, Xn) observaciones iid de una distribución Normal de

• Queremos estimar la media, asumiremos que la distribución a priori de la

• (2π)(n+1)/2σ nσ0 2σ02 2σ 2

• Después de algo de álgebra (no es directo)

Constante de renormalización para que integre 1

• fΘ|X (θ, x1, …, xn ) = ∫ fX|Θ fΘdθ

• ¿cómo estimamos la media θ de la muestra?

• ¿qué ocurre si aparecen dos muestras más?

• En los ejemplos vimos el estimado más probable. Este criterio se conoce