Está en la página 1de 41

Técnicas Estocásticas y

Estadísticas para el Data Science


Inferencia Bayesiana y Frecuentista
• Recuerdo de las diferencias entre la inferencia frecuentistas y la bayesiana.

• La regla de Bayes para obtener las distribuciones a posteriori


Diferencias entre Frecuentistas y Bayesianos
Comparación de métodos Bayesiano y Frecuentista

• El frecuentista asume que los parámetros son constantes desconocidas, en


cambio el Bayesiano asume que son v.a. y tiene una distr. a priori.

• El frecuentista escoge una función o algoritmo para estimar en cambio el


Bayesiano escoge, además, una prob. a priori.

• Ambos métodos muchas veces proponen el mismo estimador, pero se


basan en distintas hipótesis.

• Ambos han sido muy exitosos en distintos contextos sacando ventaja de sus
bases teóricas.
Diferencias entre Frecuentistas y Bayesianos
Resumen del método frecuentista

• Estimación

PF( ⋅ ; θ) Proceso

x = (x1, …, xn) • Selección de hipótesis

de
• Intervalos de con anza

θ observación • otros

Para cada valor de θ existe una distribución PF( ⋅ ; θ). Se obtiene la data x que es una
observación de X . La data es usada para estimar, seleccionar una hipótesis, etc.
fi
Diferencias entre Frecuentistas y Bayesianos
Resumen del método bayesiano

Estimación de

Cálculo de

A priori PΘ Proceso

x = (x1, …, xn) PΘ|X( ⋅ | X = x) Parámetros y/


la dist. a
o errores
de

(regiones de
posteriori credibilidad,
observación test hip).
Conditional
PX|Θ

Resumen de como funcionan los modelos Bayesianos. El punto de partida son la distribución a
priori Pθ y la distribución condicional PX|Θ (verosimilitud). Luego con la observación x de X, se
obtiene la distribución a posteriori de Θ. Esta distribución se usa para hacer la estimación que se
requiere o estudiar regiones de credibilidad, test de hipótesis.
Obtener la Distribuciones a Posteriori
Las cuatro versiones de la regla de Bayes
• Θ discreto, X discreto:
• Θ continuo, X discreto:

pΘ(θ)pX|Θ(x, θ) fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) =
fΘ|X(θ, x) =

∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX|Θ(x, θ′) dθ′


• Θ discreto, X continuo:
• Θ continuo, X continuo:

pΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
pΘ|X(θ, x) = fΘ|X(θ, x) =
∑θ′ pΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′














Resumen del método bayesiano

Cálculo de
Estimación de

A priori PΘ Proceso

x = (x1, …, xn) PΘ|X( ⋅ | X = x)


la dist. a
parámetro y/o

de

¿cómo errores
observación posteriori
usamos la
Conditional dist.
PX|Θ posteriori?
Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos primero el caso más directo con Θ, X discreto, recordemos la regla de Bayes

P(A | Bi)P(Bi)
P(Bi | A) = N

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X = x} discreto:

P(Θ = θ)P(X = x | Θ = θ)
P(Θ = θ | X = x) =

∑θ′ P(Θ = θ′)P(X = x | Θ = θ′)




Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos primero el caso más directo con Θ, X discreto, recordemos la regla de Bayes

P(A | Bi)P(Bi)
P(Bi | A) = N

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X = x} discreto:

P(Θ = θ)P(X = x | Θ = θ) pX|Θ (x, θ)


P(Θ = θ | X = x) =

∑θ′ P(Θ = θ′)P(X = x | Θ = θ′)


pΘ(θ)pX|Θ(x, θ)
Esto se reescribe usando subíndices pΘ|X(θ, x) =

∑θ′ pΘ(θ′)pX|Θ(x, θ′)








Obtener la Distribuciones a Posteriori
Las cuatro versiones de la regla de Bayes
• Θ discreto, X discreto:
• Θ continuo, X discreto:

pΘ(θ)pX|Θ(x, θ) fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) =
fΘ|X(θ, x) =

∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX,Θ(x | θ′) dθ′


• Θ discreto, X continuo:
• Θ continuo, X continuo:

pΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
pΘ|X(θ, x) = fΘ|X(θ, x) =
∑θ′ pΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′














Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ discreto, X continuo, además de la regla de Bayes

P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x, θ)Δx

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]}


discreto:

P(Θ = θ) P(X ∈ [x, x + Δx] | Θ = θ)


P(Θ = θ | X = x) =

∑θ′ P(Θ = θ′) P(X ∈ [x, x + Δx] | Θ = θ′)





Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ discreto, X continuo, además de la regla de Bayes

P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ)Δx

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]}


discreto:
fX|Θ(x, θ)Δx
P(Θ = θ) P(X ∈ [x, x + Δx] | Θ = θ)
P(Θ = θ | X = x) =

∑θ′ P(Θ = θ′) P(X ∈ [x, x + Δx] | Θ = θ′)





Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ discreto, X continuo, además de la regla de Bayes

P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ)Δx

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]} discreto:

P(Θ = θ)P(X ∈ [x, x + Δx] | Θ = θ) P(Θ = θ)fX|Θ(x, θ)Δx


P(Θ = θ | X = x) = =

∑θ′ P(Θ = θ′)P(X ∈ [x, x + Δx] | Θ = θ′) ∑θ′ P(Θ = θ′)fX|Θ(x, θ′)Δx






Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ discreto, X continuo, además de la regla de Bayes

P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ)Δx

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]} discreto:

P(Θ = θ)P(X ∈ [x, x + Δx] | Θ = θ) P(Θ = θ)fX|Θ(x, θ)Δx


P(Θ = θ | X = x) = =

∑θ′ P(Θ = θ′)P(X ∈ [x, x + Δx] | Θ = θ′) ∑θ′ P(Θ = θ′)fX|Θ(x, θ′)Δx






Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ discreto, X continuo, además de la regla de Bayes

P(A | Bi)P(Bi)
P(Bi | A) = N
y que P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ)Δx

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ = θ} y A = {X ∈ [x, x + Δx]} discreto:

P(Θ = θ)fX|Θ(x, θ) PΘ(θ)fX|Θ(x, θ)


P(Θ = θ | X = x) = =

∑θ′ P(Θ = θ′)fX|Θ(x, θ′) ∑θ′ PΘ(θ′)fX|Θ(x, θ′)

PΘ(θ)fX|Θ(x, θ)
Luego obtenemos pΘ|X(θ, x) =
∑θ′ PΘ(θ′)fX|Θ(x, θ′)









Obtener la Distribuciones a Posteriori
Las cuatro versiones de la regla de Bayes
• Θ discreto, X discreto:
• Θ continuo, X discreto:

pΘ(θ)pX|Θ(x, θ) fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) =
fΘ|X(θ, x) =

∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX,Θ(x, θ′) dθ′


• Θ discreto, X continuo:
• Θ continuo, X continuo:

pΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
pΘ|X(θ, x) = fΘ|X(θ, x) =
∑θ′ pΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′














Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ continuo, X discreto, además de la regla de Bayes

P(A | Bi)P(Bi)
P(Bi | A) = N

∑j=1 P(A | Bj)P(Bj)

• Aplicando la regla a los eventos Bθ = {Θ ∈ [θ, θ + Δθ]} y A = {X = x} discreto:

P(Θ ∈ [θ, θ + Δθ]) P(X = x | Θ ∈ [θ, θ + Δθ])


P(Θ ∈ [θ, θ + Δθ] | X = x) =

∑θ′ P(Θ ∈ [θ′, θ′ + Δθ]) P(X = x | Θ ∈ [θ′, θ′ + Δθ])


Además P(Θ ∈ [θ, θ + Δθ] | X = x) ∼ fΘ|X(θ, x)Δθ





Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ continuo, X discreto, además de la regla de Bayes

P(A | Bi)P(Bi)
P(Bi | A) = N
y recordemos que
∑j=1 P(A | Bj)P(Bj)
P(Θ ∈ [θ, θ + Δθ] | X = x) ∼ fΘ|X(θ | x)Δθ

• Obtenemos la densidad condicional

fΘ(θ)Δθ P(X = x | Θ ∈ [θ, θ + Δθ]


fΘ|X(θ, x)Δθ ∼

∑θ′ fΘ(θ′) P(X = x | Θ ∈ [θ′, θ′ + Δθ′]Δθ′


Tomaremos el límite cuando Δθ se va a 0.






Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Veamos ahora el caso con Θ continuo, X discreto, además de la regla de Bayes

P(A | Bi)P(Bi)
P(Bi | A) = N
recordemos que
∑j=1 P(A | Bj)P(Bj)
P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ) ⋅ Δx
pX|Θ(x, θ)
fΘ(θ)P(X = x | Θ ∈ [θ, θ + Δθ]) fΘ(θ)P(X = x | Θ = θ)
fΘ|X(θ, x) = lim =

Δθ→0 ∑ fΘ(θ′)P(X = x | Θ ∈ [θ′, θ′ + Δθ′]) Δθ′ ∫ fΘ(θ′)P(X = x | Θ = θ′) dθ′


θ′ θ′

fΘ(θ)pX|Θ(x, θ)
Luego obtenemos fΘ|X(θ, x) = .
∫θ′ fΘ(θ′)pX|Θ(x, θ′) dθ′












Obtener la Distribuciones a Posteriori
Ejemplo 2: La probabilidad de obtener cara

• En el ejemplo que vimos la última clase teníamos el caso del lanzamiento de


una moneda no equiprobable. Teníamos X discreto y Θ (la probabilidad de
cara) continua (escogimos una distribución beta).

A priori fΘDist. Estimación de

Proceso
Cálculo de

Beta (2,2)
x = (x1, …, xn) fΘ|X( ⋅ | k(x)) parámetro

de
n la dist. a

A priori fΘ|X k + 2
∑ θ̂ =
k(x) = xi posteriori
Condicional observación Dist. Beta n+4
i=1
PX|Θ (k + 2,n − k + 2)
Bernoulli (θ)
Obtener la Distribuciones a Posteriori
Ejemplo 2: La probabilidad de obtener cara

• En el ejemplo que vimos la última clase teníamos el caso del lanzamiento de una
moneda no equiprobable. Teníamos X discreto y Θ (la probabilidad de cara)
n


continua (escogimos una distribución beta). Tenemos k(x) = xi y obtuvimos
i=1
fΘ|X(θ | k(x)) ∼ Beta(k + 2,n − k + 2) recuerdo.

• ¿cómo escogemos el estimador?


̂
¿el más probable? θ =
α−1
=
k+1
(no necesita la cte. de renormalización)

α+β−2 n+2

θ ̂ = E(Θ | k) = α k+2
• ¿la media? α+β
= n+4
Obtener la Distribuciones a Posteriori
Las cuatro versiones de la regla de Bayes
• Θ discreto, X discreto:
• Θ continuo, X discreto:

pΘ(θ)pX|Θ(x, θ) fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) =
fΘ|X(θ, x) =

∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX|Θ(x, θ′) dθ′


• Θ discreto, X continuo:
• Θ continuo, X continuo:

PΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
pΘ|X(θ, x) = fΘ|X(θ, x) =
∑θ′ PΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′














Obtener la Distribuciones a Posteriori
Cómo se obtiene la distribución a posterior con la regla de Bayes
• Finalmente el caso con Θ, X continuo, además de la regla de Bayes recordemos que

P(X ∈ [x, x + Δx] | Θ = θ) ∼ fX|Θ(x | θ) Δx

P(Θ ∈ [θ, θ + Δθ] | X = x) ∼ fΘ|X(θ | x) Δθ

Aplicando la Bayes a los eventos Bθ = {Θ ∈ [θ, θ + Δθ]} y A = {X ∈ [x, x + Δx]} y


luego tomando límites cuando Δx y Δθ se van a 0, so obtiene la densidad a posteriori:

fΘ(θ)fX|Θ(x, θ)
fΘ|X(θ, x) = .

∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′






Obtener la Distribuciones a Posteriori
Las cuatro versiones de la regla de Bayes
• Θ discreto, X discreto:
• Θ continuo, X discreto:

pΘ(θ)pX|Θ(x, θ) fΘ(θ)pX|Θ(x, θ)
pΘ|X(θ, x) =
fΘ|X(θ, x) =

∑θ′ pΘ(θ′)pX|Θ(x, θ′) ∫θ′ fΘ(θ′)pX|Θ(x, θ′) dθ′


• Θ discreto, X continuo:
• Θ continuo, X continuo:

PΘ(θ)fX|Θ(x, θ) fΘ(θ)fX|Θ(x, θ)
pΘ|X(θ, x) = fΘ|X(θ, x) =
∑θ′ PΘ(θ′)fX|Θ(x, θ′) ∫θ′ fΘ(θ′)fX|Θ(x, θ′) dθ′














Obtener la Distribuciones a Posteriori
Las cuatro versiones de la regla de Bayes
• Θ discreto, X discreto:
• Θ continuo, X discreto:

pΘ|X(θ, x) ∝ pΘ(θ)pX|Θ(x, θ)
fΘ|X(θ, x) ∝ fΘ(θ)pX|Θ(x, θ)

• Θ discreto, X continuo:
• Θ continuo, X continuo:

pΘ|X(θ, x) ∝ PΘ(θ)fX|Θ(x, θ) fΘ|X(θ, x) ∝ fΘ(θ)fX|Θ(x, θ)


Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida

• Sean X = (X1, …, Xn) observaciones iid de una distribución Normal de


2
varianza σ (conocida) y media desconocida.

• Queremos estimar la media, asumiremos que la distribución a priori de la


media Θ que queremos estimar es una Normal de parámetros media x0 y
2
varianza σ0 (conocidos).
Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida

2
• De esta forma fXi|Θ(xi, θ) es una distribución Normal de media θ y varianza σ
entonces combinamos la distribuciones a priori de Θ y de la muestra
(X1, …, Xn)

( )
2
1 (θ − x0)
fΘ(θ) = exp − y

• 2πσ02 2σ02

( )
n n

( i=1 )
2 2
1 (xi − θ) 1 (xi − θ)
∏ ∑
fX|Θ(x1, …, xn, θ) = exp − = exp −
• 2πσ 2 2σ 2 (2πσ 2)n/2 2σ 2
i=1
Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida

2 n 2

( )
1 (θ − x0) (xi − θ)

fX|Θ(x1, …, xn, θ)fΘ(θ) = exp − −
• (2π)(n+1)/2σ σ0
n 2σ0
2 2σ 2
i=1
Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida

C1 n

( )
2
1 (θ − x0) (xi − θ)2

fX|Θ(x1, …, xn, θ)fΘ(θ) = exp − −

• (2π)(n+1)/2σ nσ0 2σ02 2σ 2


i=1
2 2
• Donde C1 = C1(x0, …, xn, σ0 , σ ) pero no depende de θ.

( )
2 2 2 2
θ − 2x0θ + x0 xi − 2θxi + θ

fX|Θ(x1, …, xn, θ)fΘ(θ) = C1 exp − −

• 2σ02 2σ 2
i=1

• Después de algo de álgebra (no es directo)


Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida

2 2
• Donde C1 = C1(x0, …, xn, σ0 , σ ) pero no depende de θ.

( )
2 2
θ − 2x0θ + x0 xi2 − 2θxi + θ 2

fX|Θ(x1, …, xn, θ)fΘ(θ) = C1 exp − −

• 2σ02 2σ 2
i=1
• Después de algo de álgebra (no es directo)

( )
(θ − m)2
• fX|Θ(x1 , …, xn , θ)fΘ(θ) = C1 exp −

2v 2

( 2σ0 2σ 2 )
2 1 n −1 2 x0 xi

con v = ( 2 + ) y m=v +
• σ0 σ2 2
i=1
Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida

( )
2
(θ − m)
• fX|Θ (x1 , …, xn, θ)fΘ (θ) = C1 exp −

2v 2
n
2 1 n −1 2
xi
∑ 2σ 2
con v = ( 2 + ) y m=v

• σ0 σ2
i=1
fX|Θ fΘ
fΘ|X(θ, x1, …, xn) =
• ∫ fX|Θ fΘdθ

Constante de renormalización para que integre 1


Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida

( )
2
(θ − m)
fX|Θ (x1 , …, xn, θ)fΘ (θ) = C1 exp −
¡ Θ debe ser Normal !
• 2v 2

( 0 2σ 2 )
2 1 n −1 2 x0 xi

con v = ( 2 + ) y m=v +

• σ0 σ2 2σ 2
i=1

( )
fX|Θ fΘ 1 (θ − m) 2

• fΘ|X (θ, x1, …, xn ) = ∫ fX|Θ fΘdθ


= exp −
2πv 2 2v 2
Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida

( 0 2σ 2 )
2 1 n −1 2 x0 xi

con v = ( 2 + ) y m=v +

• σ0 σ2 2σ 2
i=1

( )
2
1 (θ − m)
• fΘ|X (θ, x1, …, xn ) = exp −

2πv 2 2v 2

• ¿cómo estimamos la media θ de la muestra?

̂
• En este "el más probable” y E(Θ | x1, …, xn) coinciden es θ = m.
Obtener la Distribuciones a Posteriori
Ejemplo: Estimar la media de una normal con varianza conocida

( )
n

( 2σ0 2σ 2 )
2 1 n −1 2 x0 xi 1 (θ − m)2

v = ( 2 + ) , m=v + , fΘ|X(θ, x1, …, xn) = exp −

• σ0 σ2 2
2πv 2 2v 2
i=1

• ¿qué ocurre si aparecen dos muestras más?

2 2
• fΘ(θ) := fΘ|X(θ, x1, …, xn) ahora pasa a ser la a priori, (m, v ) cumplen el rol de (x0, σ0 )

( )
1 (θ − my)2
fΘ|X(θ, y1, y2) = exp −

• 2πvy2 2vy2

( )
2 1 2 −1 2 m y

con vy = ( 2 + ) my = vy + i
y .
• v σ2 2v 2 2σ 2
i=1
Estimador
Metodos de Inferencia: Maximum a Posteriori

• En los ejemplos vimos el estimado más probable. Este criterio se conoce


como la regla “maximum a posteriori” (MAP). En este caso

Dist. a posteriori
̂ = arg max p (θ, x).
θ(x) Θ|X
θ
Estimador
Metodos de Inferencia: Maximum a Posteriori

• En los ejemplos vimos el estimado más probable. Este criterio se conoce


como la regla “maximum a posteriori” (MAP). En este caso

Dist. a posteriori
̂ = arg max p (θ, x).

θ(x) Θ|X
θ

• Como pΘ|X(θ, x) ∝ pX|Θ(x, θ)pΘ(θ), en este criterio no se necesita re-


normalizar.

• Si pΘ|X ̂
(θ, x) tiene una distribución conocida, entonces θ es la moda.
Estimador
Metodos de Inferencia: Estimador de Mínimos Cuadrados

• Recordemos que θ ̂ es una función de la muestra x. Buscaremos el estimador


̂ 2
que minimice el error cuadrático E[(Θ − θ(x)) ], usando la distribución a
posteriori. Desarrollando la expresión

̂ 2 2̂ ̂ 2
E[(Θ − θ(x)) ] = θ (x)−2E(Θ)θ(x)+E(Θ )

• Que es una ecuación cuadrática en θ,̂ entonces el máximo se alcanza en:

Estimador
Metodos de Inferencia: Estimador de Mínimos Cuadrados

• Recordemos que θ ̂ es una función de la muestra x. Buscaremos el estimador


̂ 2
que minimice el error cuadrático E[(Θ − θ(x)) ], usando la distribución a
posteriori. Desarrollando la expresión

̂ 2 2̂ ̂ 2
E[(Θ − θ(x)) ] = θ (x)−2E(Θ)θ(x)+E(Θ )

• Que es una ecuación cuadrática en θ,̂ entonces el máximo se alcanza en:

̂
θ*(x) = E(Θ) = EΘ|X(Θ)

• Corresponde a la media de la dist. a posteriori. También se denota E(Θ | X).


Estimador
Metodos de Inferencia: Estimador de Mínimos Cuadrados

̂ ̂
El estimador θ(x) = E(Θ | X = x) y su error εΘ = Θ − θ(X) tiene las siguientes
propiedades:

• El error es insesgado E(εΘ) = 0 aun más E(εΘ | X = x) = 0 para todo x

• ̂ no están correlacionados,
El error εΘ y el estimador θ(X)
̂
Co-Var(εΘ, θ(X)) = 0.

• Estas buenas propiedades explican lo popular del estimador.

• También se puede buscar el mejor estimador en una subfamilia porque E(Θ | X)


puede ser complicado de calcular.
Método Bayesianos
Resumen del método bayesiano

Cálculo de
MAP o
A priori PΘ Proceso

x = (x1, …, xn) PΘ|X( ⋅ | X = x) E(Θ | X) u


de
la dist. a
otro

observación posteriori
Conditional
PX|Θ
FIN

También podría gustarte