Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Detección y Estimación
Version 2.0
1
Information and Decision System Group, Universidad de Chile.
Resumen
El objetivo de estas notas es presentar brevemente los fundamentos y
principios básicos de la teorı́a de detección y estimación. Se pondrá
énfasis en la formalización matemática y la presentación de resultados
fundamentales. También se presentarán algunos ejemplos y contextos
de aplicación.
Contenidos
i
ii Contents
1
2 Unidad I: Detección Paramétrica
Esto significa que π será nuestro detector. Lo que nos interesa saber es
si el detector tiene un buen comportamiento, para eso introduciremos
algunas definiciones de desempeño. Dada la regla o detector π : X →
Θ = {0, 1} podemos definir las siguientes medidas.
Definición 1.1. (Tamaño del Test) Dada una regla π : X 7→ {0, 1}, se
define el tamaño de π como:
Definición 1.2. (Poder del Test) Dada una regla π : X 7→ {0, 1}, se
define el poder de π como:
π se dirá óptimo para su tamaño si, ∀π̃ ∈ F (X, Θ)3 tal que
se tiene que:
βπ̃ ≤ βπ = EX1n (π(X1n )|θ = 1). (1.7)
Figura 1.1: Zona admisible de punto de operación (απ̃ , βπ̃ ) para los
tests π̃ ∈ F (X, Θ).
Esto nos dice que si π es óptimo para su tamaño α, cualquier otro test
de tamaño menor que α (i.e. con menor error de tipo I), tendrá necesa-
riamente un menor poder de test que el test óptimo (en consecuencia
tendrá un mayor error de tipo II). En otras palabras podemos decir que
π es una de las soluciones al problema de decisión óptimo de tamaño
α si:
máx EX1n (π(X1n )|θ = 1) sujeto a απ ≤ α (1.8)
π∈F (X,Θ)
Observaciones:
Demostración: Propuesto.
es un test aleatorio.
Demostración: Propuesto.
Observaciones:
1.2.3. Demostración
Para la demostración de este resultado, verificaremos su optimali-
dad y existencia.
7 Recordar que esto es porque estamos pidiendo la integral sobre un único valor y no sobre
un intervalo
14 Unidad I: Detección Paramétrica
que:
fX (X(w)|θ = 1) fX (X(w)|θ = 1)
P >ν θ=0 y P ≥ν θ=0
fX (X(w)|θ = 0) fX (X(w)|θ = 0)
(1.31)
∗
son funciones continuas de ν y, por lo tanto, existe ν (como función
de α) tal que
fX (X(w)|θ = 1) ∗
P > ν (α) θ = 0 = α. (1.32)
fX (X(w)|θ = 0)
Entonces, en el caso continuo, para todo α ∈ [0, 1] existe un ν tal que
P (Y (w) > ν|θ = 0) = α lo que resuelve el problema de existencia.
Proposición 1.4.
lı́m P (Y (w) > ν0 − ϵ) − P (Y (w) > ν0 ) = P (Y (w) = ν0 )
ϵ→0
⇔ lı́m P (Y (w) > ν0 − ϵ) = P (Y (w) ≥ ν0 ) (1.35)
ϵ→0
Figura 1.3: Gráfico de la función F̃Y (ν) = P(Y (w) > ν|θ = 0) bajo la
condición en (1.33) y (1.34).
β πα = máx βπ , (1.46)
π∈F(X,Θ) con απ ≤α
por tanto el conjunto de pares {(α, βπα ) : α ∈ [0, 1]} ofrece el compro-
miso óptimo para el problema en (1.1) entre los errores de tipo I y
tipo II.
Es decir la curva ROC es la función que asocia el poder del test por
cada error de tipo I en [0, 1].
Observaciones:
1 −(x−µ0 )2
fX (x|θ = 0) = √ e 2σ2
2πσ
1.4. Caso de Estudio 1: Ruido Gaussiano 21
y
1 −(x−µ1 )2
fX (x|θ = 1) = √ e 2σ2
2πσ
El test se plantea como, dado ν > 0:
−(x−µ1 )2 −(x−µ0 )2
1 1
1 si √ e 2 > ν √ e 2σ 2
2σ
2πσ 2πσ
−(x−µ1 )2 −(x−µ0 )2
π(w, x) = 1 1 (1.51)
0 si √2πσ e 2σ2 < ν √2πσ e 2σ2
−(x−µ1 ) 2 −(x−µ0 )2
1 1
ρ(w) si √2πσ e 2σ2 = ν √2πσ e 2σ2
(x − µ1 )2 (x − µ0 )2
− > log(ν) −
2σ 2 2σ 2
(x − µ0 )2 (x − µ1 )2
2
− > log(ν)
2σ 2σ 2 (1.52)
(x − µ0 )2 − (x − µ1 )2 > 2 log(ν)σ 2
x2 − 2xµ0 + µ20 − (x2 − 2xµ1 + µ21 ) > 2 log(ν)σ 2
x2 − 2xµ0 + µ20 − x2 + 2xµ1 − µ21 > 2 log(ν)σ 2
x(2µ1 − 2µ0 ) + µ20 − µ21 > 2 log(ν)σ 2
2 log(ν)σ 2 + µ21 − µ20
x>
2µ1 − 2µ0
Luego, el test de Neyman Pearson se puede expresar de la siguiente
forma:
2 log(ν)σ 2 +µ21 −µ20
1
si x > 2µ1 −2µ0
2 log(ν)σ 2 +µ21 −µ20
π(w, x) = 0 si x < 2µ1 −2µ0
(1.53)
ρ(w) si x = 2 log(ν)σ2 +µ21 −µ20
2µ1 −2µ0
Observaciones:
22 Unidad I: Detección Paramétrica
α = P(π(X(w)) = 1|θ = 0)
(1.60)
= PX (X ∈ A1 |θ = 0) + pPX (X ∈ A2 |θ = 0)
απ = P(π(X(w)) = 1|θ = 0)
= PX (X ∈ A1 |θ = 0) + pPX (X ∈ A2 |θ = 0)
2 log(ν)σ 2 +µ2 2
1 −µ0
Z ∞ −(x−µ0 )2
Z −(x−µ0 )2
1 2µ1 −2µ0 1
= 2 log(ν)σ 2 +µ2 2 √ e 2σ2 dx + 2 log(ν)σ 2 +µ2 2 √ e 2σ2
1 −µ0 2πσ 1 −µ0 2πσ
2µ1 −2µ0 2µ1 −2µ0
Z ∞ −(x−µ0 )2
1
= 2 log(ν)σ 2 +µ2 2 √ e 2σ2 dx
1 −µ0 2πσ
2µ1 −2µ0
(1.61)
24 Unidad I: Detección Paramétrica
Observaciones:
n −(xi −µ0 )2
Y 1
fX (x1 , ..., xn |θ = 0) = √ e 2σ2 (1.67)
i=1
2πσ
y
n −(xi −µ1 )2
Y 1
fX (x|θ = 1) = √ e 2σ2 (1.68)
i=1
2πσ
(1.69)
Como en el ejemplo anterior, es mejor expresar la partición de una
26 Unidad I: Detección Paramétrica
n −(xi −µ1 )2
n −(xi −µ0 )2
Y 1 Y 1
√ e 2σ2 >ν √ e 2σ2
i=1
2πσ i=1
2πσ
n 2 n
n P −(xi −µ1 ) n P −(xi −µ0 )2
1 2σ 2 1 2σ 2
√ ei=1 >ν √ e i=1
2πσ 2πσ
n n
P −(xi −µ1 )2 P −(xi −µ0 )2
2σ 2 2σ 2
ei=1 > νe i=1
n n
X (xi − µ1 )2 X (xi − µ0 )2
− 2
> log(ν) −
2σ 2σ 2
i=1 i=1
Xn n
X
− (xi − µ1 )2 > 2σ 2 log(ν) − (xi − µ0 )2
i=1 i=1
n
X n
X
(xi − µ0 )2 − (xi − µ1 )2 > 2σ 2 log(ν)
i=1 i=1
n
X
x2i − 2xi µ0 + µ20 − (x2i − 2xi µ1 + µ21 ) > 2σ 2 log(ν)
i=1
n
X
−2xi µ0 + µ20 + 2xi µ1 − µ21 > 2σ 2 log(ν)
i=1
n
X
xi (2µ1 − 2µ0 ) + µ20 − µ21 > 2σ 2 log(ν)
i=1
n
X
(2µ1 − 2µ0 ) xi + nµ20 − nµ21 > 2σ 2 log(ν)
i=1
n
1X
(2µ1 − 2µ0 )nx + nµ20 − nµ21 > 2σ 2 log(ν) con xi = x
n
i=1
2σ 2 log(ν) − nµ20
+ nµ21
x>
(2µ1 − 2µ0 )n
(1.70)
1.4. Caso de Estudio 1: Ruido Gaussiano 27
n
P
xi
i=1
donde x = n Con lo que el test ahora queda
2σ 2 log(ν)−nµ20 +nµ21
1 si x > (2µ1 −2µ0 )n
2σ 2 log(ν)−nµ20 +nµ21
π(w, x) = 0 si x < (2µ1 −2µ0 )n
(1.71)
2σ 2 log(ν)−nµ20 +nµ21
ρ(w) si x =
(2µ1 −2µ0 )n
α = P(π(X(w)) = 1|θ = 0)
2σ 2 log(ν) − nµ20 + nµ21
α = P X(w) ≥ |θ = 0
(2µ1 − 2µ0 )n
2σ 2 log(ν)−nµ20 +nµ21
X(w) − µ0 (2µ1 −2µ0 )n − u0
α = P √ ≥ √ (1.73)
σ/ n σ/ n
2
2σ log(ν)−nµ20 +nµ21
(2µ1 −2µ0 )n − u 0
α = Q √
σ/ n
R∞ 2
donde Q(x) = √12π x e−y /2 dy. Se ocupó el clásico resultado de la
distribución normalizada N (0, 1). Como observarán, nuevamente existe
una relación entre α y ν y que finalmente sintetiza el resultado visto
en test de hipótesis “se acepta H0 si el promedio es menor que cierto
umbral”.
28 Unidad I: Detección Paramétrica
tal que
∞ x x (α)∗
X
−λ0 λ0 −λ0 λ0 0
e +e pα = α. (1.84)
x! x0 (α)∗ !
x>x0 (α)∗
x
10 La función f (x0 ) = ∞ −λ0 λ0 es decreciente
P
x>x0 e x!
11 Esto también se puede deducir por el teorema de los valores intermedios
1.6. Problemas 31
1.6. Problemas
Se presentan a continuación una sección de problemas relacionados
con detección paramétrica.
θ = 0 : X ∼ U nif ome[0, 1]
θ = 1 : X ∼ U nif ome[0, K]
con K > 1.
12 Considere 0 x
para estos efectos que log 0
≡ lı́mx→0 log x
= 0.
1.6. Problemas 35
fX1 ,..,Xn (x1 , .., xn |θ) = PX1 ,..,Xn |S1 ,..,Sn (x1 , .., xn |θ, θ, ..., θ).
dH ((x1 , .., xn ); (1, 1, .., 1)) < dH ((x1 , .., xn ); (0, 0, .., 0))+τ (v, ϵ),
(1.96)
y determine la expresión de τ (v, ϵ) ∈ R, función de v y ϵ.
Repita el mismo análisis y determine los conjuntos
fX1 ,..,Xn (x1 , .., xn |θ = 1)
A0 = (x1 , .., xn ) : <v
fX1 ,..,Xn (x1 , .., xn |θ = 0)
fX1 ,..,Xn (x1 , .., xn |θ = 1)
A2 = (x1 , .., xn ) : =v
fX1 ,..,Xn (x1 , .., xn |θ = 0)
como función de la regla de minina distancia sugerida en
Eq.(1.96). Indicación: Utilice lo obtenido en el punto a).
e) Considere n par, v = 1 y P (ρ(w) = 1) = 0,5. Muestre
primero que τ (v = 1, ϵ = 0,5) = 0.
38
2.1. Formalización del Problema de Detección Bayesiano 39
o bien si es discreto,
para todo B ⊂ X y θ ∈ A.
Z
L(θ, π(x))fX|Θ (x|θ)dx
|X
{z }
Caso espacio continuo con f.d.p condicional
R(θ, π) ≜ E(L(θ, π(X))|Θ = θ) = X
L(θ, π(x))PX|θ (X = x|Θ = θ)
x∈X
| {z }
Caso espacio discreto con f.p.m condicional
(2.7)
La expresión anterior está condicionada a una realización de Θ. Por lo
tanto R(Θ, π) es una variable aleatoria (función de Θ y X) y podemos
evaluar la función de costo promedio o Riesgo Bayesiano como el
promedio de R(Θ, π) con respecto a la variable Θ (asumiremos el caso
2.3. Decisión Óptima: Distribución a Posteriori 41
i) PΘ distribución a priori.
ii) fX|Θ (·|θ), función de densidad de probabilidad condicional
(o de masa según sea el caso).
iii) L : A × A → R+ , función de costo.
siguiente:
XZ
EX,Θ {L(Θ, π(X))} = L(θ, π(x))fX,θ (x, θ)dx
θ∈A X
Z "X #
= L(θ, π(x))PΘ|X (θ|x) fX (x)dx. (2.10)
X θ∈A
P
Se puede notar que el término L(θ, π(x))PΘ|X (θ|x) es función ex-
θ∈A
clusiva de la evaluación de π(·) en el punto x y no de los restantes
valores π(y) que adopta en y ∈ X\{x}. Por lo tanto, minimizar (2.9)
equivale a minimizar el argumento de la función (2.10) punto a punto,
es decir, dada una observación o ∀x ∈ X, π ∗ (x) es solución de:
X
π ∗ (x) = arg mı́n L(θ, y)PΘ|X (Θ = θ|x), ∀x ∈ X. (2.11)
y∈A
θ∈A
donde
X X
fX (x) = fX,Θ (x, θ̃) = fX|Θ (x|θ̃)PΘ (Θ = θ̃). (2.13)
θ̃∈A θ̃∈A
= fX|Θ (x|θ)dx
Acθ
Alternativamente:
k
X
r0,1 (π) = PΘ (Θ = θ) · PX|Θ (Acθ |θ) (2.26)
θ=1
Xk
= PΘ (Θ = θ) · PX|Θ (π(X) ̸= θ|Θ = θ)
θ=1
k
X
= PX,Θ (π(X) ̸= θ, Θ = θ)
θ=1
= PX,Θ (π(X) ̸= Θ). (2.27)
siguiente relación:
1 − ϵ si x = 0
PX|Θ (X = x|Θ = 0) = (2.32)
ϵ si x = 1
ϵ si x = 0
PX|Θ (X = x|Θ = 1) = (2.33)
1 − ϵ si x = 1
Es decir, la probabilidad de que el sı́mbolo sea intercambiado al pasar
por el canal es ϵ, por otra parte, la probabilidad de que el sı́mbolo
no cambie es 1 − ϵ. Por otro lado, asumiremos que PΘ (Θ = 1) = p
y Pθ (Θ = 0) = 1 − p. En general consideremos una función de costo
L(v1 , v2 ) ∀v1 , v2 ∈ {0, 1}
A
0 1
A
0 l00 = 0 l01 = 5
1 l10 = 7 l11 = 0
Sabemos que la regla óptima dada una observación x ∈ {0, 1} está dada
por (2.11), más precisamente,
X
π ∗ (x) = arg mı́n L(θ, y)PΘ|X (Θ = θ|x), ∀x ∈ X. (2.34)
y∈A
θ∈A
2.4. Caso de Estudio 1: Canal Binario Simétrico 47
∗ 5 14
π (1) = 1 dado que <
3 3
π ∗ (0) = 0
48 Unidad II: Detección Bayesiana
Propuesto:
donde
S1,2 = {x ∈ Rn : ||x − m1 || < ||x − m2 ||} , (2.44)
∗ (x) = 1 si ||x − m || < ||x − m ||.
por lo tanto, πM L 1 2
Por lo tanto
S12 = π({1})−1 = {x ∈ Rn : πM L (x) = 1}
= {x ∈ Rn : ||x − m1 || < ||x − m2 ||}
||m2 ||2 − ||m1 ||2
n
= x ∈ R : ⟨x, (m2 − m1 )⟩ < .
2
es la regla de mı́nima distancia. Finalmente evaluamos la probabilidad
de error
pe = EX,Θ (L(Θ, π(X)))
X
= PΘ (Θ = θ)PX,Θ (π(X) ̸= θ|Θ = θ)
θ∈{1,2}
1 1
= PX|Θ (π(X) ̸= 1|Θ = 1) + P (π(X) ̸= 2|Θ = 2)
2 2 X|Θ
1 1
= PX|Θ (π(X) = 2|Θ = 1) + P (π(X) = 1|Θ = 2)
2 2 X|Θ
2.5. Caso de Estudio 2: Modelo Gaussiano 51
t t t
E((N (m2 − m1 ))2 } = E{(N (m2 − m1 ))(N (m2 − m1 )))
t
= E((m2 − m1 )N N (m2 − m1 ))
t
= (m2 − m1 )E(N N )(m2 − m1 )
= (m2 − m1 )σ 2 I(m2 − m1 )
= σ 2 ||m2 − m1 ||2 (2.47)
t
Luego, definiendo Z = N (m2 − m1 ), tenemos que
R∞ 2
con Q(z) = √1 e−y /2 dy. Finalmente,
2π
z
||m1 − m2 ||
perror,1 = Q (2.49)
2σ
La razón SN R = ||m1 −m
σ
2 ||
en (2.49) se conoce como la razón señal a
ruido del problema de detección. Cuando se tiene una variable aleatoria
Z positiva de esperanza finita, es posible utilizar la desigualdad de
Markov.
E(Z)
PZ (Z ≥ z) ≤ . (2.50)
z
2.5. Caso de Estudio 2: Modelo Gaussiano 53
con z ∈ R+ . Con esto podemos obtener una cota superior para la
||m1 −m2 ||
función Q 2σ , considerando Z ∼ N (0, 1) y
||m1 − m2 ||2
||m1 − m2 || 2
PZ Z ≥ ≤ PZ Z >
2σ 4σ 2
E(Z 2 )4σ 2
≤
||m1 − m2 ||2
4σ 2
=
||m1 − m2 ||2
4
= (2.51)
SN R2
54 Unidad II: Detección Bayesiana
2.6. Problemas
Se presentan a continuación una sección de problemas relacionados
con detección Bayesiana.
Θ = (Θ1 , Θ2 , Θ3 ) = (b1 , b2 , b3 ) si Z = 0
Θ = (Θ1 , Θ2 , Θ3 ) = (c1 , c2 , c3 ) si Z = 1
Ausencia de señal Θ = 0:
X1 N1
X2 ) N2
= (2.66)
, .., , ..,
Xn Nn
Ejemplo 3.1. Sea X = {0, 1}, {PX (·|θ) : θ ∈ [0, 1]}, la familia de
distribuciones asociadas a X donde
PX (X = 0|θ) = θ (3.1)
PX (X = 1|θ) = 1 − θ (3.2)
Supongamos que poseemos un vector aleatorio X1n ∼ PX (·|θ), la pre-
gunta es estimar θ a partir de este vector de observaciones. Un estima-
59
60 Unidad III: Estimación Paramétrica
es la función indicatriz.
FΘ = {PX (·|θ) : θ ∈ Θ} ,
PX1n (X1 ∈ A1 , ..., Xn ∈ An |θ) = PX (A1 |θ) · PX (A2 |θ) · ... · PX (An |θ), ∀A1 , ..., An ⊆ X,
(3.5)
en otras palabras X1n = (X1 , ..., Xn ) son muestras i.i.d. con marginal
PX (·|θ) ∈ FΘ .
Observaciones:
Notar que Eq. (3.6) es equivalente a decir que ∀ϵ > 0, ∀ν > 0, ∃n0 ∈ N
∀n ≥ n0
PX1n ((x1 , ..., xn ) ∈ Xn : |τn (x1 , ..., xn ) − θ| > ϵ) < ν. (3.7)
En lenguaje de convergencia de variables aleatorias Eq. (3.6) y Eq. (3.7)
equivale a decir que la secuencia τ1 (X1 ), τ2 (X12 ), τ3 (X13 ), ..., τn (X1n ) → θ
en probabilidad.
Una propiedad más débil sobre una familia de estimadores (τn )n∈N es
el concepto de asintóticamente insesgado:
64 Unidad III: Estimación Paramétrica
n
1 P
Ahora consideramos Yn = n Xi , entonces E(Yn ) = µ. Adicionalmen-
i=1
te:
n
!
1X
V ar(Yn ) = V ar Xi
n
i=1
n
1 X
= 2 V ar (Xi )
n
i=1
n
1 X 2
= 2 σ
n
i=1
σ2
= . (3.12)
n
Por lo tanto,
V ar(Yn ) σ 2 n→∞
PYn (|Yn − µ| > ϵ) ≤ = −−−→ 0. (3.13)
ϵ2 nϵ2
Finalmente Yn = τn (X1 , ..., Xn ) es un estimador consistente de µ.
Teorema 3.3. Sea (τn )n∈N asintóticamente insesgado que sigue la si-
guiente estructura, es decir,
n→∞
EX1 ,...,Xn (τn (X1 , ..., Xn )) = θ + kn donde kn −−−→ 0.
Si adicionalmente se tiene que:
lı́m V ar(τn (X1 , ..., Xn )) = 0,
n→∞
66 Unidad III: Estimación Paramétrica
(τn (X1 , ..., Xn ) − θ)2 = (τn (X1 , ..., Xn ) − E(τn (X1 , ..., Xn )) + kn )2
= kn2 − 2kn (τn (X1 , ..., Xn ) − E(τn (X1 , ..., Xn )))
+ (τn (X1 , ..., Xn ) − E(τn (X1 , ..., Xn )))2
(3.15)
1 Pn
donde X̂n = n i=1 Xi es la media empı́rica.
mente insesgado.
n
!
2
1X
E τnσ (X1 , ..., Xn ) =E (Xi − X̂n )2
n
i=1
n
!
1 X
= E (Xi2 − 2Xi X̂n + X̂n2 )
n
i=1
n n n n n
1 X 2 2 X X 1 XX
= E Xi − Xi Xj + Xi Xj
n n n
i=1 i=1 j=1 i=1 j=1
n n Xn n X n
1 X 2 X 1 X
= E Xi2 − Xi Xj + Xi Xj
n n n
i=1 i=1 j=1 i=1 j=1
n n X n n X n
1 X 2 X 1 X
= E(Xi2 ) − E Xi Xj + E Xi Xj
n n n
i=1 i=1 j=1 i=1 j=1
1
n(σ 2 + µ2 ) − 2 (σ 2 + µ2 ) + (n − 1)µ + (σ 2 + µ2 ) + (n − 1)µ2
2
=
n
1
n(σ 2 + µ2 ) − 2 σ 2 + nµ2 + σ 2 + nµ2
=
n
1
nσ 2 − 2σ 2 + σ 2
=
n
n−1 2
= σ = (1 − 1/n)σ 2
n
(3.17)
Por lo tanto si proponemos el siguiente estimador
n
1 X
τnI (X1 , ..., Xn ) = (Xi − X̂n )2 ,
n−1
i=1
2
Propuesto 3.1. Verifique que τnσ (X1 , ..., Xn ) y τnI (X1 , ..., Xn ) son es-
timadores consistentes de σ 2 .
tenemos que:
Z ∞ Z ∞
··· fX1n (x1 , x2 , ..., xn |θ) dx1 ...dxn = 1. (3.18)
−∞ −∞ | {z }
f.d.p conjunta de X1 ,...,Xn
(3.19)
Notar que la expresión en Eq.(3.19) es equivalente a:
∂ ln fX1n (X1 , X2 , ..., Xn |θ)
EX1 ,...,Xn = 0. (3.20)
∂θ
Por otro lado, consideremos un estimador del parámetro θ arbitrario,
dado por τn (·) : Xn → Θ y, sin perdida de generalidad, que:
EX1 ,...,Xn (τn (X1 , ..., Xn )) = f (θ) ∀θ ∈ Θ. (3.21)
Es decir, que el sesgo es una función de θ. Asumiendo que f (θ) es
diferenciable, y derivando (3.21), tenemos que:
Z ∞ Z ∞ ∂ ln fX1n (x1 , x2 , ..., xn |θ)
··· τn (x1 , ..., xn ) ·fX1n (x1 , x2 , ..., xn |θ)dx1 ...dxn = f ′ (θ)
−∞ −∞ ∂θ
(3.22)
∀θ ∈ Θ. Por otro lado, de (3.20), tenemos que:
Z ∞ Z ∞ ∂fX1n (x1 , x2 , ..., xn |θ)
f (θ) · ··· dx1 ...dxn = 0
−∞ −∞ ∂θ
Z ∞ Z ∞ ∂ ln fX1n (x1 , x2 , ..., xn |θ)
⇔ ··· f (θ) fX1n (x1 , x2 , ..., xn |θ)dx1 ...dxn = 0.
−∞ −∞ ∂θ
(3.23)
Observaciones:
3.3. El Criterio de Mı́nima Varianza 71
Observaciones:
72 Unidad III: Estimación Paramétrica
Observaciones:
y vemos que:
n
!
∂ ln L(X1 , ..., Xn |θ) n 1X
= 2
Xi − θ (3.45)
∂θ |σ n
{z } i=1
A(θ) | {z }
(τn∗ (X1 ,...,Xn )−f (θ))
valor es:
1 σ2
V ar(τn∗ (X1 , ..., Xn )) = = . (3.46)
In (θ) n
3.3. El Criterio de Mı́nima Varianza 75
observaciones.
1 1
τ3 (X1 , ..., Xn ) = τ1 (X1 , ..., Xn ) + τ2 (X1 , ..., Xn ) (3.53)
2 2
Claramente τ3 (X1 , ..., Xn ) es insesgado ya que τ1 (X1 , ..., Xn ) y
τ2 (X1 , ..., Xn ) lo son y, por lo tanto, τ3 (·) ∈ Tn . Al calcular su varianza
tenemos que:
Notando que
(Cov(τ1 (X1 , ..., Xn ), τ2 (X1 , ..., Xn )))2
=|E (τ1 (X1 , ..., Xn ) − E(τ1 (X1 , ..., Xn )), τ2 (X1 , ..., Xn ) − E(τ2 (X1 , ..., Xn )))2 |
τ1 (X1 , ..., Xn )−E(τ1 (X1 , ..., Xn )) = k0 (τ2 (X1 , ..., Xn )−E(τ2 (X1 , ..., Xn )))
(3.56)
para cierto k0 ∈ R, reemplazando (3.56) en (3.54) obtenemos
n
X
θ̂M L (X1n ) = arg máx ln(L(Xi |θ)). (3.60)
θ∈Θ
i=1
3.4. Estimador de Máxima Verosimilitud 79
:0
∂In (θ)
∗
n ) − θ̂M L (X1 , ..., Xn )) − In (θ̂M L (X1 , ..., Xn ))
= (τn (X1, ...,
X
∂θ
θ=
θ̂M L
= −In (θ̂M L (X1 , ..., Xn )) < 0
(3.64)
P
θ̂M L (X1 , ..., Xn ) −
→ θ0 ⇔ (∀ϵ > 0) lı́m PX1 ,...,Xn θ̂M L (X1 , ..., Xn ) − θ0 > ϵ = 0
n→∞
(3.65)
7 Si
f : R −→ R es una función cóncava, entonces para cualquier variable aleatoria X:
EX (f (X)) ≤ f (EX (X)).
82 Unidad III: Estimación Paramétrica
Ejemplo 3.7. Sea X1n un vector i.i.d. tal que (∀i ∈ {1, ..., n})Xi ∼
N (θ, σ 2 ). Asumiremos σ 2 conocido y el problema de estimación se re-
duce a estimar θ (la media de la distribución normal). En este contexto
la función de verosimilitud es:
n −(Xi −θ)2
Y 1
L(X1 , ..., Xn |θ) = √ e 2σ2 . (3.79)
i=1
2πσ
Si analizamos:
n
(Xi − θ)2
1 X
log(L(X1 , ..., Xn |θ)) = n ln √ − , (3.80)
2πσ 2σ 2
i=1
Observaciones:
Lema 3.1.
( 2 )
∂ ln L(X1 , X2 , ..., Xn |θ)
In (θ0 ) = EX1 ,..,Xn = nI1 (θ0 ). (3.91)
∂θ
√
1 ∂ ln L(X1 , X2 , ..., Xn |θ) − n ∂ 2 ln L(X1 , X2 , ..., Xn |θ)
lı́m √ = lı́m (θ̂M L − θ0 ).
n→∞ n ∂θ θ=θ0
n→∞ n ∂θ2 θ=θ̃
(3.95)
n
−1 ∂ 2 ln L(X1 , X2 , ..., Xn |θ) 1 X ∂ 2 ln L(Xi |θ)
=−
n ∂θ2 θ=θ̃ n ∂θ2 θ=θ̃
i=1
( )
∂ 2 ln(fX1 (X1 |θ))
→ −E X1
|{z} ∂θ2 θ=θ0
c.s.
= I1 (θ0 ) (3.96)
(3.99)
√
Por lo tanto n(θ̂M L (X1 , .., Xn ) − θ0 ) converge
en distribución
a una
1 1
variable aleatoria Z ∼ I1 (θ0 ) N (0, I1 (θ0 )) = N 0, I1 (θ0 )
Observaciones:
Luego
n n
ln(L(Y1 , ..., Yn |m, K)) = − log(2π) − log |K|
2 2
n
1X
− (Yi − m)t K −1 (Yi − m) (3.101)
2
i=1
n n n :0
X X X
= (Yi − Y )t K −1 (Yi − Y ) + (Y − m)t K −1 (Y − m) + 2 (Y −
m) K −1 (Yi − Y )
t
i=1 i=1
i=1
Xn
= (Yi − Y )t K −1 (Yi − Y ) + n · (Y − m)t K −1 (Y − m) (3.105)
i=1
| {z }
| {z } Sesgo
Dispersión
Notar que:
(Yi − Y )t K −1 (Yi − Y ) = tr((Yi − Y )(Yi − Y )t K −1 ) (3.106)
−1 t
= tr(K (Yi − Y )(Yi − Y ) ) (3.107)
Donde tr corresponde a la traza de una matriz. Entonces volviendo a
(3.105)
n n
!
X X
(Yi − m)t K −1 (Yi − m) = n · (Y − m)t K −1 (Y − m) + tr K −1
(Yi − Y )(Yi − Y ) t
i=1 i=1
= n · (Y − m)t K −1 (Y − m) + tr K −1 nS
(3.108)
tenemos que:
∂ log(L(Y1 , ..., Yn |m, V )
∂V
∂ n n n
= log |V | − tr V S − (Y − m)t V (Y − m)
∂V 2 2 2
n −1 t t ∂
tr V (Y − m)(Y − m)t
= (V ) − S −
2 ∂V
n −1 t t
= (V ) − S − ((Y − m)(Y − m)t )−1 = 0 (3.112)
2
Finalmente, tomando traspuesto, podemos notar que dado que
mM L (Y1 , ..., Yn ) = Y :
:0
−1 t −1 t
0=V − S − (Y − m)(Y − m) = V − S − (Y−
m)(Y
− m) .
(3.113)
−1
Por lo tanto K̂M L (Y1 , .., Yn ) = V̂M L (Y1 , .., Yn ) = S.
donde:
Notar que (X θ̄)i es la fila i-ésima del problema. En este escenario hay
varios casos:
∂
1- ∂θ
(bt θ) = b.
∂ t
2- ∂θ
(θ Aθ) = 2Aθ
tenemos que:
t
∂ θ X t W Xθ∂ 2z t W Xθ
∂J(θ)
=0⇒ − =0
∂θ ∂θ ∂θ
= 2X t W Xθ − 2(z t W X)t = 0
⇒ θ̂W LS = (X t W X)−1 (X t W )Y1n (3.120)
En el caso particular que no se utilice una matriz de pesos se reduce al
estimador lineal de mı́nimos cuadrados, dado por:
θ̂LS = (X t X)−1 X t Y1n (3.121)
Observación: La condición de invertibilidad se da cuando W es definida
no negativa, es invertible y el rango de X es completo, es decir, cuando
n ≥ m y las columnas de X son linealmente independientes.
1 Yn
n
1 X
= Yi | Media empı́rica
n
i=1
(3.124)
3.5. Estimador de Mı́nimo Error Cuadrático Medio 95
Y1 1 X1 V1
.. .. α ..
. = . · + . (3.126)
β
Yn 1 Xn Vn
Observaciones:
n
n
2
10 Más 1 P 1 P
precisamente la varianza empı́rica es n
Yi − n
Yi
i=1 i=1
3.6. Caso de Estudio: Astrometrı́a y Fotometrı́a 99
n
1 P
peor desempeño que haber utilizado la media n Yi .
i=1
−(x − G(u))2
1
F (x, u) = F · √ exp , ∀x ∈ R. (3.136)
2πσx 2σx2
−(x − xc )2
1
F (x, xc ) = F · √ exp , ∀x ∈ R. (3.137)
2πσx 2σx2
Estrella
Flujo
Centroide
CCD
xi +∆x/2
−(x − xc )2
Z
1
gi (xc ) = √ exp dx (3.138)
2πσx xi −∆x/2 2σx2
donde xi corresponderá a la posición del pixel i-ésimo y ∆x
el tamaño de este (resolución del instrumento), el cual será
constante a lo largo del arreglo.
c- El ruido de medición, el cual sigue una distribución de Pois-
son en cada pixel.
n ∞
−(x − xc )2
Z
X X 1
gi (xc ) ≈ gi (xc ) ≈ √ exp dx = 1
2πσx −∞ 2σx2
i=1 i∈Z
(3.141)
11 Recuerde e−λ λk
que si X ∼ P oisson(λ) entonces PX (X = k) = k!
102 Unidad III: Estimación Paramétrica
x i +∆ x/ 2
gi (x c) = φ(x,x c)dx
x i − ∆ x/ 2
∆x B
x inf x sup
λ i (x c ) = F .g i (x c ) +B
de la distribución de Poisson.
F · gi (xc ) + B
i=1
3.7. Problemas
Se presentan a continuación una sección de problemas relacionados
con estimación paramétrica.
Problema 3.9. Sea X1 , .., Xn una secuencia i.i.d. que sigue una dis-
tribución exponencial, es decir, su densidad está dada por fX (x|θ) =
θ · e−θx con x ∈ R+ ∪ {0},
γ = σ/θ
111
112 Unidad IV: Estimación Bayesiana
como:
Z
L(θ, ϕ(x))fX|Θ (x|θ)dx
|X
{z }
Caso espacio continuo con f.d.p condicional
R(θ, ϕ) ≜ E(L(θ, ϕ(X))|Θ = θ) = X
L(θ, ϕ(x))PX|θ (X = x|Θ = θ)
x∈X
| {z }
Caso espacio discreto con f.p.m condicional
(4.4)
La ecuación (4.4) representa el riesgo promedio de ϕ sobre las estadı́sti-
cas de X dado que Θ = θ. Por lo tanto R(Θ, ϕ) es una variable aleatoria
(función de Θ y X) y podemos evaluar la función de costo promedio
o Riesgo Bayesiano como el promedio de R(Θ, π) con respecto a la
variable Θ (asumiremos el caso continuo para X):
i) PΘ distribución a priori.
ii) fX|Θ (·|θ), función de densidad de probabilidad condicional
(o de masa según sea el caso).
iii) L : A × A → R+ , función de costo.
114 Unidad IV: Estimación Bayesiana
Notar que:
y+∆/2
Z
∆
fΘ|X (θ|x)dθ ≤ sup fΘ|X (θ|x) . (4.22)
θ∈A 2
y−∆/2
Observaciones:
y con esto,
n
!
Y 1 −(xi −y)2
ϕ∗M AP (x1 , ..., xn ) = arg máx ln √ e 2σ2 + ln λe−λy
y∈R+
i=1
2πσ
√ n
X (xi − y)2
= arg máx −n ln 2πσ − − λy + ln(λ).
y∈R+ 2σ 2
i=1
(4.27)
Aplicando el criterio de primer orden respecto a y tenemos que:
n n
!
∂ √ X (xi − y)2 X (xi − y)
−n ln 2πσ − − λy + ln(λ) = −λ
∂y 2σ 2 σ2
i=1 i=1
(4.28)
Despejando y, obtenemos:
n
X (xi − y)
−λ=0
σ2
i=1
n
X
xi − yn − λσ 2 = 0
i=1
n
xi − λσ 2
P
i=1
y= , (4.29)
n
Por lo tanto,
n
Xi − λσ 2
P
i=1
ϕ∗M AP (X1 , ..., Xn ) = . (4.30)
n
1 Paraevitar sobercargar la notación, utilizaremos por esta vez X e Y en vez de X1n e Y1m ,
respectivamente. Por lo tanto se utilizarán operaciones matriciales.
4.4. Caso de Estudio: Distribución Conjunta Normal Multivariada 121
kZ = E((Z − µZ )(Z − µZ )t )
kX kXY
= (4.36)
kY X kY
Donde
kY X = E((Y − µY )(X − µX )t ) ∈ Mm×n (4.37)
y la covarianza es:
−1
kY |X = E((Y −µY |X (X))(Y −µY |X (X))t ) = kY −kY X ·kX ·kXY (4.40)
Observaciones:
donde:
C ≜ kY−1|X = (kY − kY X kX
−1
kXY )−1 .
−1 −1
A = kX + kX kXY kY−1|X kY X kX
−1
.
−1
B = −kX kXY kY−1|X
1
fY |X (y|x) =
[(2π)m |kZ |]1/2 |kX |−1/2
1
· exp − (x − µX )t A(x − µX ) + 2(x − µX )t B(y − µY )
2
−1
+(y − µY )t C(y − µY ) − (x − µX )t kX
(x − µX )
1
=
[(2π) |kZ |]1/2 |kX |−1/2
m
1h −1 −1
· exp − (x − µX )t (kX + kX kXY kY−1|X kY X kX
−1
)(x − µX )
2
−1
− 2(x − µX )t kX kXY kY−1|X (y − µY ) + (y − µY )t kY−1|X (y − µY )
−1
−(x − µX )t kX
(x − µX )
1
=
[(2π) |kZ |]1/2 |kX |−1/2
m
1h −1
· exp − (x − µX )t kX kXY kY−1|X kY X kX
−1
(x − µX )
2
i
−1
−2(x − µX )t kX kXY kY−1|X (y − µY ) + (y − µY )t kY−1|X (y − µY )
(4.43)
y − µY , tenemos que:
i
1 1h
fY |X (y|x) = exp − P t kY−1|X P − 2P t kY−1|X T + T t kY−1|X T
[(2π)m |kZ |]1/2 |kX |−1/2 2
1 1
= exp − (P − T )t kY−1|X (P − T )
[(2π)m |kZ |]1/2 |kX |−1/2 2
(4.44)
Identificamos:
−1
P − T = kY X kX (x − µX ) − y + µY
−1
= −(y − (µY + kY X kX (x − µX )))
= −(y − µY |X (x)), (4.45)
−1
donde se definió µY |X (x) ≜ µY + kY X kX (x − µX ) con lo que:
1 1 t −1
fY |X (y|x) = exp − (y − µY |X (x)) kY |X (y − µY |X (x))
[(2π)m |kZ |]1/2 |kX |−1/2 2
(4.46)
Ahora basta ver que, por propiedades de determinantes en bloques:
−1
|kZ | = |kX ||kY − kY X kX kXY | = |kX ||kY |X |. (4.47)
Deducimos entonces que:
1 1 t −1
fY |X (y|x) = exp − (y − µY |X (x)) kY |X (y − µY |X (x))
[(2π)m |kZ |]1/2 |kX |−1/2 2
1 1 t −1
= 1/2 exp − 2 (y − µY |X (x)) kY |X (y − µY |X (x))
(2π)m |k |
Y |X
(4.48)
Por lo que encontramos una estrutura de una distribución normal mul-
tivariada cuyos parámetros son:
Y |X ∼ N (µY |X (X), kY |X ), (4.49)
donde
−1
kY |X ≜ kY − kY X · kX kXY (4.50)
y
−1
E(Y |X) ≜ µY |X (X) = µY + kXY kX (X − µX ) (4.51)
124 Unidad IV: Estimación Bayesiana
4.5. Problemas
Se presentan a continuación una sección de problemas relacionados
con estimación Bayesiana.
KXZ = E (X − θ) · (Z − µZ )t .
(λp)k −λp
PX (X = k) = e ∀k ∈ {0, 1, 2, · · · }
k!
b) Muestre que:
1 −(x−µ)2
fX|Θ (x|µ) = √ e 2σ 2
2πσ 2
Las observaciones son independientes cuando son condicionadas por µ.
La media µ sigue una distribución a priori
µ ∼ N (µ0 , σ02 ).
127