Está en la página 1de 50

Facultad de Ciencias Fı́sicas y Matemáticas

Departamento de Ingenierı́a Eléctrica


EL4003 Señales y Sistemas II
Semestre Otoño 2017

Principios de Detección
Version 1.4

Jorge F. Silva y Sebastián Espinosa1

1
Information and Decision System Group, Universidad de Chile.

Resumen
El objetivo de este apunte es presentar los fundamentos y principios
básicos de la teorı́a de estimación y detección. Se pondrá énfasis en la
formalización matemática y la presentación de resultados fundamenta-
les, junto con ilustrar algunos ejemplos y contextos de aplicación.
Contenidos

1. Detección Paramétrica 1
1.1. Planteamiento del Problema de Decisión 2
1.2. Lema de Neyman Pearson 3
1.3. Curva ROC (Receiver Operating Characteristic) 13
1.4. Caso de Estudio: Detección Binaria con Observaciones
Discretas 16
1.5. Problemas 19

2. Detección Bayesiana 26

2.1. Teorı́a Bayesiana de Detección 26


2.2. Función de Riesgo 27
2.3. Decisión óptima: Distribución a posteriori 30
2.4. Problemas 43
References 48

i
1
Detección Paramétrica

EL problema de detección se entiende como el problema de infe-


rir una variable θ discreta (que toma una cantidad finita o numerable
de posibles valores) a partir de una variable aleatoria de observación
X(w). Ejemplos emblemáticos del problema de detección son el proble-
ma de test de hipótesis, los problemas de reconocimiento de patrones
y los problemas de detección como parte de los sistemas de detección
en comunicaciones digitales. En estas notas cubriremos dos alternati-
vas para plantear este problema: las llamadas variante paramétrica y
Bayesiana.
Comenzaremos con el caso paramétrico donde el objetivo es inferir
un parámetro fijo pero desconocido. Del punto del análisis del problema
la idea es determinar el compromiso óptimo entre los costos que tiene
un esquema dado de decisión π medido por {r(θ, π), θ ∈ Θ}.

1
2 Detección Paramétrica

1.1. Planteamiento del Problema de Decisión


Consideremos el caso de detección binario, es decir cuando θ ∈ Θ =
{0, 1}. En este problema tenemos dos hipótesis:
H0 : θ = 0 ⇒ X(w) ∼ PX (·|θ = 0) (Hipótesis Nula)
H1 : θ = 1 ⇒ X(w) ∼ PX (·|θ = 1) (Hipótesis Alternativa), (1.1)
y el espacio de decisión es Θ = {0, 1} donde
π(x) = δ = 0 (Aceptar H0 )
π(x) = δ = 1 (Rechazar H0 ). (1.2)

Definición 1.1. (Tamaño del Test) Sea una regla π : X 7→ {0, 1}, se
define el tamaño de π como:
απ ≡ P{π(X(w)) = 1|θ = 0}
| {z }
rechazar Ho dado H0

= EX {π(X(w))|θ = 0}
Z Z
= · · · π(x) · fX (x1 , ..., xd |θ = 0)dx1 ...dxd
Z Z
= ··· fX (x1 , ..., xd |θ = 0)dx1 ...dxd . (1.3)
{x̄:π(x)=1}
απ corresponde a la probabilidad de rechazar H0 cuando H0 es correcto,
la probabilidad de falsa alarma, el error de tipo I, o el tamaño del test.

Definición 1.2. Sea una regla π : X 7→ {0, 1}, se define el poder de


π como:
βπ ≡ P{π(X(w)) = 1|θ = 1}
| {z }
aceptar H1 dado H1

= EX {π(X(w))|θ = 1}
Z Z
= · · · π(x) · fX (x1 , ..., xd |θ = 1)dx1 ...dxd (1.4)

Notar que P{π(X(w)) = 0|θ = 1} es la probabilidad de no detección o


el error tipo II que corresponde precisamente a 1 − βπ .
1.2. Lema de Neyman Pearson 3

Podemos introducir el concepto de test óptimo en el siguiente sen-


tido:

Definición 1.3. Consideremos un test π de tamaño α, i.e.,

α = EX {π(X(w))|θ = 0} = απ .

π es óptimo en el sentido de ofrecer el compromiso óptimo para su


tamaño α si, ∀π̃ ∈ F (X, Θ) tal que

απ̃ = EX {π̃(X(w))|θ = 0} ≤ α

entonces
βπ̃ ≤ βπ = EX {π(X(w))|θ = 1}.

En otras palabras π es una de las posibles soluciones al problema


de decisión óptimo:

máx EX {π(X(w))|θ = 1} sujeto a απ̃ ≤ α = απ (1.5)


π̃∈F (X,Θ)

Notar que si π es solución al problema (1.5) entonces ofrece el máximo


poder para su tamaño απ . Por otro lado de la Definición 1.3 si π es
óptimo para su tamaño determina una zona lı́mite de los posibles pares
(α, β) como se ve en la Figura 1.1.

1.2. Lema de Neyman Pearson


El resultado central de esta sección es el llamado Lemma de Ney-
man Pearson que permite caracterizar de forma cerrada una familia
de test óptimos en el sentido de la Definición 1.3. Antes de introducir
el resultado necesitamos considerar en el análisis una familia más ge-
neral del test que permitan la toma de decisiones aleatorias en ciertas
circunstancias.

1.2.1. Test Aleatorios


Para lo anterior definimos el concepto de test binario aleatorio de
la siguiente forma:
4 Detección Paramétrica

Figura 1.1: Zona factible de punto de operación para los tests


π̃ ∈ F (X, Θ).

Definición 1.4. Un test π̃ : (Ω, X) −→ Θ se dice aleatorio si esta con-


formado por: una función determinista de 3 estados φ : X −→ {0, 1, 2}
y una variable aleatoria binaria ρ : Ω −→ {0, 1} caracterizada por
p = P(ρ(w) = 1) y cumple que ∀x ∈ X
π̃(w, x) = 1φ−1 ({1}) (x) + ρ(w) · 1φ−1 ({2}) (x) ∈ {0, 1}, (1.6)
donde 1A (x) es la función indicatriz del conjunto A ⊂ X.

Esencialmente un test aleatorio se puede ver como un test de tres


estados donde en dos de ellos tiene una salida determinista y en
1.2. Lema de Neyman Pearson 5

uno de ellos aleatoria. Para esto notar que la función φ particio-


na el espacio X en tres componentes φ−1 ({0}), φ−1 ({1}), φ−1 ({2}) .


De (1.6) notar que cuando x ∈ φ−1 ({0}) ⇒ π̃(w, x) = 0, cuando


x ∈ φ−1 ({1}) ⇒ π̃(w, x) = 1 y cuando x ∈ φ−1 ({2}) ⇒ π̃(w, x) = ρ(w).
Por tanto solo cuando x ∈ φ−1 ({2}), el test tiene una comportamiento
aleatoria gobernado por ρ(w).
De la Definición 1.4 una regla aleatoria π̃ se caracteriza completa-
mente por una partición del espacio {A0 , A1 , A2 } y p que es la proba-
bilidad de ρ(w) ∈ {0, 1} (p = E{ρ(w)}), donde


 1 si x ∈ A1
π̃(w, x) ≡ 0 si x ∈ A0 (1.7)
ρ(w) si x ∈ A2

Figura 1.2: Partición de X ⊂ RN inducida por una regla de decisión


aleatoria.
6 Detección Paramétrica

En este contexto el tamaño del test esta dado por:

απ̃ ≡ EX,ρ {π(w, X(w))|θ = 0}


= Eρ {EX {π(w, X(w))|θ = 0}}
= Eρ {EX {1A1 (X) + ρ(w) · 1A2 (X)|θ = 0}}
= Eρ {P(X(w) ∈ A1 |θ = 0) + ρ(w) · P(X(w) ∈ A2 |θ = 0)}
= P(X(w) ∈ A1 |θ = 0) + p · P(X(w) ∈ A2 |θ = 0), (1.8)

donde en la ultima igualdad se asume que ρ(w) es independiente a


X(w) y por tanto el parámetro θ solo incide en la determinación de las
estadı́sticas de X(w). Por otro lado el poder del test esta dado por:

βπ̃ ≡ EX,ρ {π(w, X(w))|θ = 1}


= P(X(w) ∈ A1 |θ = 1) + p · P(X(w) ∈ A2 |θ = 1). (1.9)

El siguiente resultado muestra como es posible construir un test


aleatorio por medio de la composición o mezcla (aleatoria) de test de-
terminı́sticos.

Proposición 1.1. Sea π̃ un test aleatorio caracterizado por


{A0 , A1 , A2 } y p ∈ (0, 1). Si definimos los test determinı́sticos1

0 si x ∈ A0 ∪ A2
π1 (w, x) ←→ {A0 ∪ A2 , A1 , ∅, p} = (1.10)
1 si x ∈ A1

0 si x ∈ A0
π2 (w, x) ←→ {A0 , A1 ∪ A2 , ∅, p} = (1.11)
1 si x ∈ A1 ∪ A2
y ρ(w) una variable aleatoria binaria con P(ρ(w) = 1) = p, entonces se
tiene que:
π̃(w, x) = π1 (x)(1 − ρ(w)) + π2 (x)ρ(w). (1.12)

Proof. Propuesto.

1 Notar que π1 y π2 son determinı́sticos en el sentido que no dependen de w y por ende de


p.
1.2. Lema de Neyman Pearson 7

Proposición 1.2. Sea ρ(w) una variable aleatoria binaria arbitraria y


π1 (·), π2 (·) dos test aleatorios arbitrarios, entonces

π12 (w, x) = π1 (w, x) · 1{ρ(w)=0} + π2 (w, x) · 1{ρ(w)=1} (1.13)

es un test aleatorio.

Proof. Propuesto.

Problema 1.1. De la demostración del resultado anterior determine


los parámetros que determinan π12 (·) como función de π1 (·), π2 (·) y
p̃ = E(ρ(w)).

1.2.2. Resultado Principal


.

Teorema 1.1. (Lemma de Neyman-Pearson) Sea Θ = {0, 1} y X(w)


la variable aleatoria de observación con valores en X y distribuciones
factibles {fX (x|θ) : θ = 0, 1} que definen el problema en (1.1). Para un
ν > 0 arbitrario y una variable aleatoria binaria ρ(w), se tiene que el
test de la forma

 1 si fX (x|θ = 1) > νfX (x|θ = 0)
π(w, x) = 0 si fX (x|θ = 1) < νfX (x|θ = 0) (1.14)

ρ(w) si fX (x|θ = 1) = νfX (x|θ = 0)

es óptimo para su tamaño en el sentido de la Definición 1.3.


Adicionalmente ∀α ∈ (0, 1) existe un test de la forma en (1.14)
donde E{π(w, X(w))|θ = 0} = α. Finalmente, el test π() en (1.14) es
único para su tamaño salvo soluciones que difieren de π en un conjunto
de probabilidad cero respecto a fX (x|θ = 1) y fX (x|θ = 0).

Es importante mencionar que el Teorema 1.1 señala que la razón


fX (x|θ=1)
fX (x|θ=0) es la información suficiente que permite construir una familia
de test óptimo en el sentido de la Definición 1.3.
8 Detección Paramétrica

1.2.3. Demostración
[Optimalidad]: Introducidos estos elementos necesitamos demos-
trar que ∀ν ∈ R+ y ∀p ∈ [0, 1] π ν (w, x) de parámetros {Aν0 , Aν1 , Aν2 , p},
con
Aν0 , {x ∈ X : fX (x|θ = 1) < νfX (x|θ = 0)}
Aν1 , {x ∈ X : fX (x|θ = 1) > νfX (x|θ = 0)}
Aν2 , {x ∈ X : fX (x|θ = 1) = νfX (x|θ = 0)}, (1.15)
es óptimo dado su tamaño
Z Z
απ v = fX (x|θ = 0)dx + p · fX (x|θ = 0)dx
Av1 Av2

= PX (Av1 |θ = 0) + p · PX (Av2 |θ = 0). (1.16)


En otras palabras, si ∃π̃ test aleatorio tal que απ̃ ≤ απv entonces seria
suficiente verificar que
βπ̃ ≤ βπv . (1.17)
Consideremos para estos efectos
Z
(π v (w, x) − π̃(w, x))(fX (x|θ = 1) − νfX (x|θ = 0))dx
X=Av0 ∪Av1 ∪Av2
Z
= −π̃(w, x) (fX (x|θ = 1) − νfX (x|θ = 0)) dx
Av0 | {z }
<0 de (1.15)
| {z }
>0
Z
+ (1 − π̃(w, x)) (fX (x|θ = 1) − νfX (x|θ = 0)) dx
Av1 | {z }
>0 de (1.15)
| {z }
>0
Z
+ (π v (w, x) − π̃(w, x))(fX (x|θ = 1) − νfX (x|θ = 0)) dx . (1.18)
Av2 | {z }
=0 de (1.15)
| {z }
=0
Esto lleva a que para todo w ∈ Ω
EX {π v (w, X)|θ = 1} − EX {π̃(w, X)|θ = 1}
≥ ν(EX {π v (w, X)|θ = 0} − EX {π̃(w, X)|θ = 0}).
(1.19)
1.2. Lema de Neyman Pearson 9

Finalmente tomando esperanza en ambos lados de (1.19) con respecto


a ρ(w) y ρ̄(w) (la parte aleatoria de π y π̄, respectivamente) se tiene
que

βπ − βπ̃ ≥ ν(απ − απ̃ ). (1.20)

Finalmente como απ ≥ απ̃ , esto implica que βπ ≥ βπ̃ .


[Existencia]: Tenemos que mostrar que ∀α ∈ (0, 1) existe un test
aleatorio de la forma π → {A0 , A1 , A2 , p} donde ρ(w) es su variable
aleatoria binaria, tal que α = απ = Eρ {EX (π(X)|θ = 0)}. Analizamos
el tamaño del test de parámetros {A0 , A1 , A2 , p}:

απ = Eρ {EX (π(w, X(w))|θ = 0)}


= Eρ {P(X(w) ∈ A1 |θ = 0) + ρ(w)P(X(w) ∈ A2 |θ = 0)}
= P(X(w) ∈ A1 |θ = 0) + P(X(w) ∈ A2 |θ = 0) · p. (1.21)

Por definición, el primer termino en (1.21) corresponde a:

P(f1 (X(w)) > νf0 (X(w))|θ = 0)


 
f1 (X(w))
=P > ν|θ = 0 , (1.22)
f0 (X(w))
y el segundo termino en (1.21) a:

P(f1 (X(w)) = νf0 (X(w))|θ = 0)p


 
f1 (X(w))
=P = ν|θ = 0 p. (1.23)
f0 (X(w))
Notar que resulta útil mirar la siguiente variable aleatoria Y (w) =
f1 (X(w))
f0 (X(w)) inducida por X(w) con valores en R ∪ {∞}, donde tenemos
que:

απ = P (Y (w) > ν|θ = 0) + P (Y (w) = ν|θ = 0) · p. (1.24)

En el caso que Y (w) tenga una densidad bajo el modelo θ = 0 entonces


su función de distribución FY (y|θ = 0) es continua y por lo tanto
P(Y (w) = ν|θ = 0) = 0. Entonces de esto es simple verificar que para
todo α ∈ (0, 1) existe un ν tal que P (Y (w) > ν|θ = 0) = α lo que
resuelve el problema de Eq.(1.24).
10 Detección Paramétrica

Destacar 1.1. Si Y (w) tiene una densidad fY (y) entonces es simple


de verificar que
   
f1 (X(w)) f1 (X(w))
P > ν|θ = 0 y P ≥ ν|θ = 0 (1.25)
f0 (X(w)) f0 (X(w))

son funciones continuas de ν y por lo tanto ∃ν ∗ (α) tal que


 
f1 (X(w))
P > ν ∗ (α)|θ = 0 = α. (1.26)
f0 (X(w))

f1 (X(w)) fX (X(w)|θ=1)
Supongamos que Y (w) = f0 (X(w)) = fX (X(w)|θ=0) es tal que la fun-
ción F̃Y (ν) = P(Y (w) > ν|θ = 0) no toma el valor α, es decir, ∃ν0 tal
que
P (Y (w) > ν0 |θ = 0) < α y (1.27)

∀ > 0 P (Y (w) > ν0 − |θ = 0) > α. (1.28)


Notar que en caso contrario el problema se resuelve.

Proposición 1.3. La condición en (1.27) y (1.28) se observa si y solo


si P (Y (w) = ν0 |θ = 0) > 0.2

Para esto resulta util verificar la siguiente identidad:

Proposición 1.4.

lı́m P (Y (w) > ν0 − ) − P (Y (w) > ν0 ) = P (Y (w) = ν0 )


→0
⇔ lı́m P (Y (w) > ν0 − ) = P (Y (w) ≥ ν0 ) (1.29)
→0

Proof. Propuestos

2 En otras palabras cuando la función de distribución de Y es discontinua en ν0 , ver Figura


1.3.
1.2. Lema de Neyman Pearson 11

Figura 1.3: Gráfico de la función F̃Y (ν) = P(Y (w) > ν|θ = 0) bajo la
condición en (1.27) y (1.28).

De la condición en (1.27) y (1.28) y el resultado en (1.29), tenemos


que:

lı́m P (Y (w) > ν0 − |θ = 0) = P (Y (w) ≥ ν0 |θ = 0) > α. (1.30)


→0

Con esto podemos considerar ν0 como parámetro para definir


{Aν00 , Aν10 , Aν20 } y p ∈ (0, 1) como solución de la identidad

P (Y (w) > ν0 |θ = 0) + p · P (Y (w) = ν0 |θ = 0) = α (1.31)

(dado que P (Y (w) > ν0 |θ = 0) < α y P (Y (w) ≥ ν0 |θ = 0) > α) es


decir:
α − P (Y (w) > ν0 |θ = 0)
p= ∈ (0, 1). (1.32)
P (Y (w) = ν0 |θ = 0)
12 Detección Paramétrica

1.2.4. Discusion del Resultado

1- Si Y (w) tiene f.d.p. y, en consecuencia, ∀ν ∈ R+ P(f1 (x) =


f0 (x)ν|θ = 0) = 0, el test óptimo de NP puede expresarse de
forma determinı́stica como:

1 si f1 (x) > νf0 (x)
πν (x) = (1.33)
0 si f1 (x) ≤ νf0 (x),

o en su defecto como:

1 si f1 (x) ≥ νf0 (x)
π̃ν (x) = (1.34)
0 si f1 (x) < νf0 (x).

En esta caso πν (x), π̃ν (x) ofrecen el mismo desempeño en


términos que:

EX (πν (X)|θ = 0) = EX (π̃ν (X)|θ = 0) = απν (1.35)

EX (πν (X)|θ = 1) = EX (π̃ν (X)|θ = 1) = βπν (1.36)


2- Si Y (w) = ff10 (X(w))
(X(w)) es la función de razón de probabilidad,
entonces el test para el parámetro ν está dado por:

1 si Y (x) ≥ ν
πν (x) = (1.37)
0 si Y (x) < ν

Por lo que si somos capaces de determinar: P(Y (w) ≤ y|θ =


0) = FY (y|θ = 0) y su f.d.p. fY (y|θ = 0), se tiene que:

απν = EX (πν (X)|θ = 0) = P(Y (w) ≥ y|θ = 0)


Z ∞
= fY (y|θ = 0)dy (1.38)
ν

βπν = EX (πν (X)|θ = 1) = P(Y (w) ≥ y|θ = 1)


Z ∞
= fY (y|θ = 1)dy. (1.39)
ν

En la práctica determinar expresiones cerradas para la dis-


tribución de Y (w) puede ser un problema dificil.
1.3. Curva ROC (Receiver Operating Characteristic) 13

1.3. Curva ROC (Receiver Operating Characteristic)


Dado un problema de decisión binario en Eq.(1.1), el Lema de NP
nos entrega una familia de test óptimos {πα (·) : ∀α ∈ (0, 1)} donde
sabemos que:
βπα = EX (πα (X)|θ = 1) = máx βπ , (1.40)
π∈F(X,Θ) con απ ≤α

por tanto el conjunto de pares {(α, βπα ) : α ∈ [0, 1]} ofrece el compro-
miso óptimo para el problema en Eq.(1.1) entre los errores de tipo I y
tipo II. Se define por tanto la curva ROC del problema como:
fROC (α) = βπα = EX (πα (X)|θ = 1), ∀α ∈ [0, 1]. (1.41)

Proposición 1.5. Se puede verificar que:

1- fROC (α) es una función no decreciente.


2- fROC (0) = 0 y fROC (1) = 1.
3- fROC (α) es una función cóncava.

Una ilustracion es presentada en la Figura 1.4.

De alguna forma la curva ROC determina la complejidad del proble-


ma en el sentido que evidencia el compromiso óptimo alcanzable entre
los errores del problema y por ende refleja la dificultad de la tarea de
inferencia.

1.3.1. El Caso Gaussiano


El caso de distribuciones Gaussianas es emblemático tanto por su
simplicidad analı́tica, como por su amplio uso como modelo de observa-
ción, en particular en problemas de comunicaciones digitales y recono-
cimiento de patrones. Veremos una instancia básica de este problema
en el siguiente ejemplo:

Ejemplo 1.1. Consideremos Θ = {0, 1} y


H0 :θ = 0 : X ∼ N (µ0 , σ 2 ) → fX (x|θ = 0) = f0 (x)
H1 :θ = 1 : X ∼ N (µ1 , σ 2 ) → fX (x|θ = 1) = f1 (x), (1.42)
14 Detección Paramétrica

Figura 1.4: Ilustración de la curva ROC para un problema de


detección binario.

donde se asume que µ0 6= µ1 . Estas probabilidades de observación se


obtienen por ejemplo en el caso del modelo de ruido aditivo Gaussiano
en comunicaciones, donde por uso de canal se transmite una señal de
dos posibles estados (binaria) por medio de la regla:

H0 :S = µ0
H1 :S = µ1 , (1.43)

y las observaciones (en el receptor) están dadas por:

X = S + Z(w) (1.44)

donde Z(w) ∼ N (0, σ 2 ). En esta caso dado un test π (o detector en este


contexto) la probabilidad de falsa alarma es α = P(π(X(w)) = 1|θ = 0)
y probabilidad de detección es β = P(π(X(w)) = 1|θ = 1).
1.3. Curva ROC (Receiver Operating Characteristic) 15

El lema de NP señala que la familia de test óptimos tienen la si-


guiente forma:

0 si Λ(x) ≥ ν
πν (x) = (1.45)
1 si Λ(x) < ν
 
(x−µ1 )2 (x−µ0 )2
con Λ(x) = log ff01 (x)
(x) = 2σ 2
− 2σ2 . Analicemos la regla decisión
πν (·), esta decide 0 si:

Λ(x) ≥ ν ⇔ (x − µ1 )2 − (x − µ0 )2 ≥ 2σ 2 ν
⇔ 2x(µ0 − µ1 ) ≥ 2σ 2 ν + µ20 − µ21
2σ 2 ν + µ20 − µ21
⇔x≥ . (1.46)
2(µ0 − µ1 )
| {z }
τ (µ)

Asumiendo µ0 > µ1 , entonces tenemos que:

A0 = πν−1 ({0}) = [τ (ν), ∞)


A1 = πν−1 ({1}) = (−∞, τ (ν)). (1.47)

Por lo tanto el detector opera como sigue:


(
x ≥ τ (ν) → θ̂ = πν (x) = 0
x ∼ X(w) −→ (1.48)
| {z } x < τ (ν) → θ̂ = πν (x) = 1
Observación

Resultará útil considerar la función Q(x) ≡ P (Z ≥ x) donde Z ∼


N (0, 1), es decir: Z ∞
1 y2
Q(x) = √ e− 2 dy. (1.49)
x 2π
 
Entonces si X(w) ∼ N (µ, σ 2 ) se tiene que X(w)−µ
σ ∼ N (0, 1), luego
  
X(w) − µ x−µ
P(X(w) ≥ x) = P ≥
σ σ
 
x−µ
=Q . (1.50)
σ
16 Detección Paramétrica

Por lo tanto se puede verificar que:


 
τ (ν) − µ1
β πν = 1 − Q
σ
 
τ (ν) − µ0
απν = 1 − Q . (1.51)
σ

Problema 1.2. Genere la curva ROC del test óptimo explorando un


rango de valores µ ∈ R y de σ 2 para el caso que µ1 = −µ0 = −1.
Comente sus resultados.

Problema 1.3. Si definimos d = |µ0 − µ1 | y con ellos SN R = σd =


|µ0 −µ1 |
σ . Encontrar una expresión para βπν y απν como función de ν,
SN R y σ 2 .

1.4. Caso de Estudio: Detección Binaria con Observaciones


Discretas
El siguiente ejemplo es un modelo simplificado de un sistema de
comunicaciones óptico.

Ejemplo 1.2. Se tiene θ ∈ {0, 1} parámetro fijo que representa el


estado de una variable binaria que se transmite por un canal de comu-
nicaciones digitales. La variable observada en el receptor es X(w) con
valores en N (la cantidad de fotones medidos por un detector óptico).
El modelo de observación dice que X(w) ∼ P oisson(λ) donde
λ = λ0 si θ = 0
λ = λ1 si θ = 1 (1.52)
es decir
λx0
f0 (x) = P(X(w) = x|θ = 0) = e−λ0 ∀x ≥ 0
x!
λ x
f1 (x) = P(X(w) = x|θ = 1) = e−λ1 1 ∀x ≥ 0 (1.53)
x!
1.4. Caso de Estudio: Detección Binaria con Observaciones Discretas 17

Estudiemos la forma de la familia de test óptimo que nos ofrece el


Lemma de NP y, en particular, encontraremos los parámetros para el
test óptimo de tamaño α ∈ (0, 1).
La función de razón de verosimilitud está dado por:
 x
f1 (x) λ0 −λ1 λ1
l(x) = =e > ν. (1.54)
f0 (x) λ0
Por lo tanto decidir H1 corresponde al siguiente conjunto:
  x 
ν λ0 −λ1 λ1
A1 = x ∈ N : e >ν
λ0
   
λ1
= x ∈ N : λ0 − λ1 + x ln > ln(ν)
λ0
 
ln(ν) + (λ1 − λ0 )
= x∈N:x> . (1.55)
ln(λ1 ) − ln(λ0 )
De forma mas general, la partición {Aν0 , Aν1 , Aν2 } inducida por la familia
de test óptimos es la siguiente:
 
ln(ν) + (λ1 − λ0 )
Aν0 = x ∈ N : x <
ln(λ1 ) − ln(λ0 )
 
ν ln(ν) + (λ1 − λ0 )
A1 = x ∈ N : x >
ln(λ1 ) − ln(λ0 )
 
ν ln(ν) + (λ1 − λ0 )
A2 = x ∈ N : x = , (1.56)
ln(λ1 ) − ln(λ0 )

con λ1 , λ2 ∈ R+ \{0}. Si adicionalmente p es la probabilidad de la


variable ρ(w) entonces el test queda descrito por π = {Aν1 , Aν0 , Aν2 , p} y
en particular por los parámetros v y p. Por tanto la expresión para el
tamaño del test esta dada por:

απ = P(X(w) ∈ Aν1 |θ = 0) + p · P(X(w) ∈ Aν2 |θ = 0)


 

X λx0  ln(ν) + (λ − λ ) 
1 0  λ xv
= e−λ0 + 1N   · pe−λ0 0

ln(ν)+(λ1 −λ0 )
x!  ln(λ1 ) − ln(λ0 )  xv !
x> ln(λ1 )−ln(λ0 )
| {z }
xv ≡

(1.57)
18 Detección Paramétrica

Por lo tanto dado un α ∈ (0, 1) arbitrario, podemos partir asumien-


do un test determinı́stico (p = 0). Esto equivale a pedir que ∃x(α) ∈ N
tal que:
x(α)
X λx
1−α= e−λ0 0 . (1.58)
x!
x=1
Bajo la identidad en (1.58) se toma να como solución de:
 
λ1
ln(να ) = x(α) ln − (λ1 − λ0 )
λ0
 
λ1
x(α) ln −(λ1 −λ0 )
να = e λ0
(1.59)

y por tanto p = 0.
Si por el contrario para un α dado no es posible encontrar solución
para (1.58) para un x(α) entero positivo, se toma en cambio
( ∞ )
x
−λ0 λ0
X

x0 (α) = arg máx e <α (1.60)
x0 ∈N
x>x
x!
0

con να dado por (1.59) donde sabemos que


∞ x x (α)∗
X
−λ0 λ0 −λ0 λ0 0
e +e > α ⇒ ∃pα ∈ [0, 1] (1.61)
x! x0 (α)∗ !
x>x0 (α)∗

tal que
∞ x x (α)∗
X
−λ0 λ0 −λ0 λ0 0
e +e pα = α. (1.62)
x! x0 (α)∗ !
x>x0 (α)∗

Finalmente, el test optimo está dado por los parámetros να →


{Aν0α , Aν1α , Aν2α } y pα ∈ (0, 1).
1.5. Problemas 19

1.5. Problemas
Se presentan a continuación una sección de problemas relacionados
con detección paramétrica.

Problema 1.4. (Detección de Variables con distribución Poisson)


Considere una variable aleatoria X(w) con distribución Poisson de
parámetro λ.
λk e−λ
P (X(w) = k) = , (1.63)
k!
a) Determine la función caracterı́stica de X(w), es decir:
X
φX (u) = P (X(w) = k) · ejuk , (1.64)
k≥0
ju
y verifique que es igual a eλ·(e −1) .
b) Considere X1 (w),..,Xn (w) variables aleatorias independien-
tes e idénticamente distribuidas (iid) con distribución Pois-
son de parámetro λ. Verifique que X(w) = ni=1 Xi (w) es
P

Poisson de parámetro nλ.


Indicación: Utilice la función caracterı́stica del punto a).
Considere los resultados de probabilidades respecto a suma
de variables aleatorias y las propiedades de la Transformada
de Fourier discreta frente a la convolución de señales.
c) Considere el problema de detección binario en el escenario
paramétrico, donde Θ = {1, 2} y se tiene que:

θ = 1 ⇒ X(w) ∼ P oisson(λ1 ), (1.65)


θ = 2 ⇒ X(w) ∼ P oisson(λ2 ) (1.66)

con λ1 > λ2 .
Determine la forma general de la familia de test óptimos
dados por el lema de NP, y analice la forma de las zonas de
decisión considerando que λ1 > λ2 . Comente.
d) Encuentre el test óptimo para el tamaño α = 0,01. Considere
λ1 = 2 y λ2 = 4.
Indicación: Notar que un test aleatorio podrı́a ser necesa-
rio.
20 Detección Paramétrica

e) Encuentre los valores de tamaño α sobre los cuales los test


deterministicos son óptimos o en su defecto la condición que
se debe cumplir para ello.

Problema 1.5. (Detección de sı́mbolos sobre ruido aditivo Gaussiano)


Considere el problema clásico de comunicaciones digitales, de la detec-
ción de sı́mbolos binarios contaminadas por ruido aditivo Gaussiano.
En este caso Θ = {0, 1} y la variable aleatoria de observación dado
θ ∈ Θ esta dada por:
X(w) = Sθ + N (w) (1.67)
con S0 = µ amd S1 = −µ, µ > 0 y N (w) ∼ N (0, σ 2 ).
Del lema de NP, se sabe que la familia de test óptimos
{πη (·) : η ∈ R}, es determinı́stica y ofrece la siguiente estructura:

πη (x) = 1, si ln(l(x)) > η (1.68)


πη (x) = 0, si ln(l(x)) ≤ η (1.69)
fX (x|θ=1)
donde l(x) = fX (x|θ=0) es la razón de las verosimilitudes (the likelihood
ratio).

a) Verifique que la regla de decisión en este caso reduce a:


πη (x) = 1 si x < τη y πη (x) = 0 de lo contrario. Encuentre
una expresión para τη .
b) Verifique que Y (w) = ln(l(X(w))) es una variable aleatoria
Gaussiana y determine su media y varianza para los dos
escenarios θ = 0 y θ = 1.
c) Encuentre expresiones para el poder y el tamaño de πη (·)
como función de los parámetros del problema (σ 2 , µ,η) y la
R∞ 2
función Q(z) = z √12π e−y /2 dy.
d) Considere σ 2 = 1, µ = 1,y con ello genere la curva ROC
cubriendo un rango representativo de pares de valores de ta-
maño y poder. (Utilice MATLAB u otro software estadı́stico
para crear la curva).
1.5. Problemas 21

e) Repita el computo anterior, considerando los si-


guientes valores para la varianza del ruido σ 2 =
10−3 , 10−2 , 10−1 , 1, 102 , 103 . Analice los resultados ob-
tenidos y comente sobre la complejidad del problema de
decisión.

Problema 1.6. (Múltiples Mediciones)


Considere el mismo escenario del Problema 1.5, pero asuma que se
tienen múltiples mediciones (o en su defecto transmisiones sucesivas
del mismo sı́mbolo),
X1 (w), X2 (w), . . . , Xk (w)
y donde Xi (w) = Sθ + Ni (w) (i = 1, .., k), para lo cual N1 (w), .., Nk (w)
son variables aleatorias i.i.d. que siquen una N (0, σ 2 ).
Ahora la regla de decisión enfrenta el vector aleatorio Gaussiano
X̄ k (w) = (X1 (w), .., Xk (w)) con valores en Rk y va al espacio de deci-
sión Θ = {0, 1}.

a) Condicionado a los valores de θ ∈ Θ, determine la distribu-


ción de X̄ k (w) y sus parámetros.
b) Analice la familia de test óptimos y verifique que ∀x̄ ∈ Rk
2 t
log l(x̄) = µ̄ · x̄
σ2
donde µ̄ = (µ, µ, ..., µ) ∈ Rk .
Especı́ficamente para k = 2 y η = 0, determine gráficamente
las zonas de decisión, es decir:
A0 = πη−1 ({0}) = x̄ ∈ R2 : ln l(x̄) ≤ η ,


A1 = πη−1 ({1}) = x̄ ∈ R2 : ln l(x̄) > η .




c) Considere µ = 1, σ 2 = 10 y k = 1, 10, 102 , 103 , respectiva-


mente.
Para estos distintos escenarios determine el test óptimo πηk :
Rk → {0, 1} (es decir determine η) tal que:
απηk = E(πηk (X̄ k (w))|θ = 0) = 0,01 (CONDICION de TAMAÑO)
22 Detección Paramétrica

y con ello grafique βπηk = E(πηk (X̄ k (w))|θ = 1) como función


de k.(MATLAB)
Comente que observa en el poder del test y cual es la in-
fluencia en el numero de mediciones.
d) Complemente el análisis anterior generando la curva ROC
completa para los escenarios k = 1, 10, 102 , 103 . Comente si
este resultado es consistente con lo observado en el punto
anterior.

Problema 1.7. Considere un problema de detección binario Θ =


{0, 1} donde la variable aleatoria de observación X(w) toma valores en
la recta real X = R y sigue las estadı́sticas como función del parámetro
θ (es decir, fθ (x)) dadas por:
θ = 0 : X(w) ∼ U nif ome[0, 1]
θ = 1 : X(w) ∼ U nif ome[0, K]
con K > 1.

a) Determine la familia de test óptimos en el sentido del Lemma


de NP.
b) Fije un umbral τ ∈ R y considere el siguiente test deter-
minı́stico:
f1 (x)
πτ (x) = 1 si log ≥τ (1.70)
f0 (x)
y πτ (x) = 0 si la condición en Eq. (1.70) no se cumple3 .
Determine las regiones de decisión de πτ (·), es decir los con-
juntos Aτ0 = πτ−1 ({0}) y Aτ1 = πτ−1 ({1}). Especifique como
cambian dichas regiones como función de τ . Identifique ran-
gos concretos en el espacio de posibles valores de τ .
c) Del punto anterior, determine las expresiones para el poder
y tamaño del test como función del valor de τ . Recordar que:
απτ = P(πτ (X(w)) = 1|θ = 0)
βπτ = P(πτ (X(w)) = 1|θ = 1)
3 Considere 0 x
para estos efectos que log 0
≡ lı́mx→0 log x
= 0.
1.5. Problemas 23

d) Determine la curva ROC. Es posible obtener la curva ROC


completa (para todos los tamaños) con test determinı́sticos?
Justifique su respuesta.
e) Vuelva al punto b) y d) y discuta que pasa con las regiones
de decisión y la curva ROC si K → ∞.

Problema 1.8. Considere una secuencia binaria de largo n


(s1 , .., sn ) ∈ {0, 1}n transmitida por un canal binario simétrico
(BSC). La probabilidad condicional de observar (x1 , .., xn ) ∈ {0, 1}n a
la salida del canal dado que se transmite la secuencia (s1 , .., sn ) esta
dada por el siguiente modelo:
n
Y
PX1 ,..,Xn |S1 ,..,Sn (x1 , .., xn |s1 , .., sn ) = PX|S (xi |si )
i=1
Yn
= ( · 1{xi 6=si } + (1 − ) · 1{xi =si } )
i=1
(1.71)
donde  ∈ (0, 1) es la probabilidad de error del canal.

a) Encuentre una expresión para


PX1 ,..,Xn |S1 ,..,Sn (x1 , .., xn |s1 , .., sn ) como función de
n
X
dH ((x1 , .., xn ); (s1 , .., sn )) = 1{xi 6=si } ,
i=1

conocida como la distancia de Hamming entre las palabras


binarias.
b) Si definimos el conjunto B̄k (s1 , .., sn ) =
{(x1 , .., xn ) : dH ((x1 , .., xn ); (s1 , .., sn )) ≤ k} ⊂ {0, 1}n
para todo k ∈ {0, .., n}, determine una expresión para.

ηk = PX1 ,..,Xn |S1 ,..,Sn (B̄k (s1 , .., sn )|s1 , .., sn ). (1.72)

De una interpretación a esta probabilidad del punto de vista


del problema de transmitir (s1 , .., sn ) y recibir (x1 , .., xn ).
24 Detección Paramétrica

Indicación 1: Notar que dH ((x1 , .., xn ); (s1 , .., sn )) = k


equivale a decir que hay k-bits donde (x1 , .., xn ) difiere de
(s1 , .., sn ).
Indicación 2: Puede ser útil, en primera instancia, consi-
derar el conjunto

Āk (s1 , .., sn ) = {(x1 , .., xn ) : dH ((x1 , .., xn ); (s1 , .., sn )) = k}

⊂ {0, 1}n y determinar

ςk = PX1 ,..,Xn |S1 ,..,Sn (Āk (s1 , .., sn )|s1 , .., sn ). (1.73)

c) Considere que tenemos dos hipótesis, Θ = {0, 1}, y que dado


θ = 0 entonces se transmite (0, 0, ..., 0) ∈ {0, 1}n y que dado
θ = 1 se transmite (1, 1, ..., 1) ∈ {0, 1}n .
Utilice el Lemma de NP para determinar la forma de la
familia de test óptimos en este problema.
Indicación: Notar que en este caso la función de probabili-
dad de masa se construye como:

fX1 ,..,Xn (x1 , .., xn |θ) = PX1 ,..,Xn |S1 ,..,Sn (x1 , .., xn |θ, θ, ..., θ).

d) Restrinja el análisis al conjunto de decisión


 
n fX1 ,..,Xn (x1 , .., xn |θ = 1)
A1 = (x1 , .., xn ) ∈ {0, 1} : >v
fX1 ,..,Xn (x1 , .., xn |θ = 0)
de parámetro v. Verifique que este conjunto esta dado por
la regla de mı́nima distancia, es decir (x1 , .., xn ) ∈ A1 si, y
solo si,

dH ((x1 , .., xn ); (1, 1, .., 1)) < dH ((x1 , .., xn ); (0, 0, .., 0))+τ (v, ),
(1.74)
y determine la expresión de τ (v, ) ∈ R, función de v y .
Repita el mismo análisis y determine los conjuntos
 
fX1 ,..,Xn (x1 , .., xn |θ = 1)
A0 = (x1 , .., xn ) : <v
fX1 ,..,Xn (x1 , .., xn |θ = 0)
 
fX1 ,..,Xn (x1 , .., xn |θ = 1)
A2 = (x1 , .., xn ) : =v
fX1 ,..,Xn (x1 , .., xn |θ = 0)
1.5. Problemas 25

como función de la regla de minina distancia sugerida en


Eq.(1.74).
Indicación: Utilice lo obtenido en el punto a).
e) Considere n par, v = 1 y P (ρ(w) = 1) = 0,5. Muestre
primero que τ (v = 1,  = 0,5) = 0.
Verifique primero que en el caso n par, A2 6= ∅, ca-
racterice el conjunto y determine su cardinalidad.
Encuentre expresiones para el tamaño y el poder del
test.
Indicación: Será de gran utilidad obtener las expresiones
obtenidas en Eq.(1.72) y Eq.(1.73). En particular, asocie
los conjuntos A0 , A1 y A2 a los conjuntos B̄k (s1 , .., sn ) y
Āk (s1 , .., sn ) del punto b).
f) (PENDIENTE)4 Consideremos el problema del punto c),
pero en un contexto Bayesiano, done P (Θ(w) = 0) =
P (Θ(w) = 1) = 0,5.
Determine el test Bayesiano óptimo para la función de costo
01 (es decir L0,0 = L1,1 = 0 y L1,0 = L0,1 = 1) y verifi-
que formalmente que la solución esta dada por la siguiente
estructura:

π ∗ (x1 , .., xn ) = 0 si:


dH ((x1 , .., xn ); (1, 1, .., 1)) > dH ((x1 , .., xn ); (0, 0, .., 0))
(1.75)
π ∗ (x1 , .., xn ) = 1 si:
dH ((x1 , .., xn ); (1, 1, .., 1)) < dH ((x1 , .., xn ); (0, 0, .., 0))
(1.76)
π ∗ (x1 , .., xn ) = 0 o 1 si:
dH ((x1 , .., xn ); (1, 1, .., 1)) = dH ((x1 , .., xn ); (0, 0, .., 0)).
(1.77)

4 Este problema requiere conocimientos del contexto Bayesiano.


2
Detección Bayesiana

En la variante Bayesiana del problema de detección la variable a


inferir Θ(w) se modela como una variable aleatoria en un alfabeto finito
que depende (estadı́sticamente) de la observación X(w).

2.1. Teorı́a Bayesiana de Detección


En el contexto Bayesiano Θ(w) se considera un objeto aleatorio
con distribución Pθ (distribución a priori) en A = {1, .., K}. Por otro
lado, dado Θ(w) = θ0 se tiene la probabilidad condicional sobre la
observación X(w) expresada como:
P(X(w) ∈ A|Θ(w) = θ0 ), (2.1)
que se puede caracterizar alternativamente por la distribución
PX|Θ (A|θ0 ) en X. De esta forma tenemos que ∀B ⊆ X:
P(X(w) ∈ B, Θ(w) = θ0 ) = PX,Θ (B, θ0 )
= PΘ (θ0 ) · PX|Θ (B|θ0 ) . (2.2)
| {z }
Regla de Probabilidad Condicional

Tı́picamente tenemos que X(w) toma valores en X = Rd y Θ(w)


toma valores en A = {1, ..., K}, por lo tanto, PΘ (θ0 ) denota la función

26
2.2. Función de Riesgo 27

de probabilidad de masa de Θ(w) y por otro lado

Z
PX|Θ (A|θ0 ) = fX|Θ (x|θ0 )dx (2.3)
A

donde fX|Θ (x|θ0 ) denota la función de densidad de probabilidad con-


dicional de X(w) dado Θ(w) = θ0 .
Finalmente la distribución conjunta del par (X, Θ) queda determi-
nada por:

P(X(w) ∈ B, Θ(w) = θ0 ) = PX,Θ (B, θ0 )


Z
= PΘ (θ0 ) · fX|Θ (x|θ0 )dx (2.4)
B

para todo B ⊂ X y θ0 ∈ A.

2.2. Función de Riesgo


Consideremos una función de riesgo: L : A × A → R+ que penaliza
los errores en la toma de decisión y una regla de decisión: π : X → A.
Dado un θ0 que determina las estadı́sticas de las observaciones X(w) ∼
fX|Θ (·|θ0 ), el costo o riesgo promedio bajo esta hipótesis es:

R(θ0 , π) = E(L(θ0 , π(X))|Θ = θ0 )


Z
= L(θ0 , π(x))fX|Θ (x|θ0 )dx
X
| {z }
Caso espacio continuo con f.d.p condicional
X
= L(θ0 , π(x))fX|θ (x|θ0 )dx (2.5)
x∈X
| {z }
Caso espacio discreto con f.p.m condicional

Dado que Θ(w) es una variable aleatoria, R(Θ(w), π) también lo es


y por tanto debemos evaluar la función de costo promedio o Riesgo
28 Detección Bayesiana

Bayesiano como:

r(π) = EΘ(w)∼PΘ (R(Θ, π))


X
= R(v, π) · PΘ (v)
v∈A
X
= E {L(v, π(X(w)))|Θ(w) = v} · PΘ (v)
v∈A
X Z
= PΘ (v) · L(v, π(x))fX|Θ (x|v)dx
v∈A X
XZ
= L(v, π(x)) · fX,Θ (x, v) dx
v∈A X
| {z }
densidad conjunta

= EX,Θ {L(Θ, π(X))} (2.6)

2.2.1. Función de Costo L0,1


Consideraremos el caso emblemático de la función de costo 0-1. Es-
ta juega un rol central en problemas de reconocimiento de patrones y
comunicaciones digitales pues su costo promedio equivale a la probabi-
lidad de error de decisión. La función de costo 0-1 esta dada por:

0 si x = y
L0,1 (x, y) = ∀x, y ∈ A (2.7)
1 si x 6= y

En este caso dada una regla π y su valor v ∈ A

R0,1 (v, π) = EX (L0,1 (v, π(X))|Θ = v) (2.8)


Z
= L0,1 (v, π(x))fX|Θ (x|v)dx. (2.9)
X

Si definimos la partición inducida por la regla π como {A1 , ..., AK }


donde
Ai = π −1 ({i}) ⊂ X ∀i ∈ {1, ..., K} = A, (2.10)
por definición tenemos que:

∀x ∈ Av L(v, π(x)) = 0
∀x 6∈ Av L(v, π(x)) = 1. (2.11)
2.2. Función de Riesgo 29

Por lo tanto tenemos que:

L(v, π(x)) = 1(Av )c (x). (2.12)

Con esta identidad:


Z
R0,1 (v, π) = 1(Av )c (x) · fX|Θ (x|v)dx
ZX
= fX|Θ (x|v)dx
Acv

= PX|Θ (Acv |v) (2.13)


= P(X(w) ∈ Acv |Θ(w) = v)
= P(π(X(w)) 6= v|Θ(w) = v). (2.14)
| {z }
Pve (π)

Destacar 2.1. Por lo tanto R0,1 (v, π) representa la probabilidad de


error de la regla π bajo la hipótesis Θ(w) = v.

Con esto la función de costo promedio 0-1 de la regla π es: .

r0,1 (π) = EX,Θ {L0,1 (Θ, π(X))}


K
X
= PΘ (v) · R0,1 (v, π)
v=1
K
X
=
|{z} PΘ (v) · PX|Θ (Acv |v) (2.15)
de (2.13) v=1
!
[
= PX,Θ Acv × {v} (2.16)
v∈A
=
|{z} PX,Θ ({(x, v) ∈ X × A : π(x) 6= v}). (2.17)
definición de π
30 Detección Bayesiana

Alternativamente:
K
X
r0,1 (π) = P(Θ(w) = v) · P(π(X(w)) 6= v|Θ(w) = v)
v=1
K
X
= P(π(X(w)) 6= v, Θ(w) = v)
v=1
= P(π(X(w)) 6= Θ(w)). (2.18)

Destacar 2.2. La función de costo promedio r0,1 (π) reduce a la


probabilidad de error de π respecto a la distribución conjunta de
(X(w), θ(w)), ver (2.18). Por lo tanto r0,1 (π) se entiende como la Pro-
babilidad de Incorrecta Clasificación. Del punto de vista de computo
este valor es el promedio de los valores {R0,1 (v, π) : v ∈ A} con respecto
a la distribución a priori de Θ(w), ver (2.15), es decir:

K
X
Perror (π) = r0,1 (π) = PΘ (v) · R0,1 (v, π). (2.19)
v=1

2.3. Decisión óptima: Distribución a posteriori


La regla óptima Bayesiano como función de

PΘ (v), distribución a priori ∀v ∈ A = {1, ..., K}


fX|Θ (·|θ), función de densidad de probabilidad condicional
L : A × A → R+ , función de costo

es la solución del siguiente problema:

π ∗ = arg mı́n r(π)


π∈F{X,A}

= arg mı́n EX,Θ {L(Θ, π(X))}. (2.20)


π∈F{X,A}
2.3. Decisión óptima: Distribución a posteriori 31

Si analizamos de forma más detallada la función objetivo

XZ
EX,Θ {L(Θ, π(X))} = L(v, π(x))fX,θ (x, v)dx
v∈A X
Z "X #
= L(v, π(x))PΘ|X (v|x) fX (x)dx, (2.21)
X v∈A
| {z }
l(π,x)≡

notamos que el término l(π, x) es función exclusiva de la evaluación


de π(·) en el punto x y no de los restantes valores π(y) que adopta
en y ∈ X\{x}. Por lo tanto, minimizar (2.20) equivale a minimizar el
argumento de la función (2.21) punto a punto, es decir, ∀x̄ ∈ X, π ∗ (x̄)
es solución de:
X
π ∗ (x̄) = arg mı́n L(v, θ̃)PΘ|X (v|x), ∀x ∈ X. (2.22)
θ̃∈A
v∈A

Destacar 2.3. Interpretando la regla óptima Bayesiana en (2.22), da-


da una observación x, π(x) es la hipótesis que minimiza el riesgo o
costo promedio, respecto a la distribución a posteriori de Θ(w) dado el
evento X(w) = x.

Recordamos que por Bayes la distribución a posteriori se obtiene


como:

fΘ,X (v, x) fX|Θ (x|v)PΘ (v)


PΘ|X (v|x) = =P (2.23)
fX (x) ṽ∈A fX|Θ (x|ṽ)PΘ (ṽ)

donde
X X
fX (x) = fX,Θ (x, ṽ) = fX|Θ (x|ṽ)PΘ (ṽ). (2.24)
ṽ∈A ṽ∈A
32 Detección Bayesiana

2.3.1. Función de costo L0,1


Si consideramos la función de costo L0,1 (v, ṽ) = δv (v − ṽ), entonces
de (2.22) se tiene que
X

π0,1 (x) = arg mı́n PΘ|X (v|x)
θ̃∈A
v∈A v6=θ̃

= arg mı́n PΘ|X (A\{θ̃}|x)


θ̃∈A
= arg mı́n 1 − PΘ|X (θ̃|x)
θ̃∈A
= arg máx PΘ|X (θ̃|x), (2.25)
θ̃∈A

que corresponde al criterio de maximizar la probabilidad a poste-


riori o regla MAP (maximum a posteriori).
Un caso particular a considerar es cuando PΘ (θ) = N1 (Distribución
a priori equiprobable):

π0,1 (x) = arg máx PΘ|X (θ̃|x)
θ̃∈A
fΘ,X (θ̃, x)
= arg máx
θ̃∈A fX (x)
= arg máx fΘ,X (θ̃, x)
θ̃∈A
= arg máx fX|Θ (x|θ̃) · PΘ (θ̃)
θ̃∈A
= arg máx fX|Θ (x|θ̃) (2.26)
θ̃∈A

que corresponde al criterio de máxima verosimilitud o ML (maxi-


mum likelihood).

Ejemplo 2.1. Caso canal binario Simétrico: Considere el caso simple


de transmisión a bits A = {0, 1}, por un canal digital
2.3. Decisión óptima: Distribución a posteriori 33

Figura 2.1: Canal Binario Simétrico

En otras palabras

1 −  si x = 0
fX|Θ (x|0) = (2.27)
 si x = 1

 si x = 0
fX|Θ (x|1) = (2.28)
1 −  si x = 1
que son las funciones de probabilidad de masa condicional, por otro
lado, Pθ (0) = 1 − p y Pθ (1) = p. en general consideremos a la función
de costo L(v1 , v2 ) ∀v1 , v2 ∈ {0, 1}


0 1
A
0 l00 = 0 l01 = 5
1 l10 = 7 l11 = 0

En este caso: ∀π : X = {0, 1} → {0, 1} = ∆ = A


 
X  X 
r(π) = L(θ, π(x))PΘ|X (θ|x) fX (x) (2.29)
 
x∈{0,1} θ∈{0,1}
P
θ∈{0,1} L(θ, π(x))PΘ|X (θ|x) es el término en la distribución a priori a
34 Detección Bayesiana

optimizar. por lo tanto la decisión Bayesiana es solución de


X
π ∗ (x) = arg mı́n L(θ, θ̃)PΘ|X (θ|x)
θ̃∈{0,1}
θ∈{0,1}

(2.30)
Analizamos más en detalle π ∗ (x = 1)
n o
= arg mı́n L(0, θ̃)PΘ|X (0|1) + L(1, θ̃)PΘ|X (1|1)
θ̃∈{0,1}
 

 

= arg mı́n L(0, 0)PΘ|X (0|1) + L(1, 0)PΘ|X (1|1), L(0, 1)PΘ|X (0|1) + L(1, 1)PΘ|X (1|1)
θ̃ 
| {z } | {z }

θ̃=0 θ̃=1
 

 

= arg mı́n L(1, 0)PΘ|X (1|1), L(0, 1)PΘ|X (0|1)
θ̃ 
| {z } | {z }
θ̃=0 θ̃=1
 

 

 
fX,Θ (1, 1) fX,Θ (1, 0)
 
= arg mı́n l10 , l01
θ̃ 
 fX,Θ (1, 0) + fX,Θ (1, 1) fX,Θ (1, 0) + fX,Θ (1, 1) 

| {z } | {z }

θ̃=0 θ̃=1

(2.31)

 

 

 
 fX|Θ (1|1)PΘ (1) fX|Θ (1|0)PΘ (0) 
= arg mı́n l10 , l01
θ̃ 
 fX|Θ (1|0)PΘ (0) + fX|Θ (1|1)PΘ (1) fX|Θ (1|0)PΘ (0) + fX|Θ (1|1)PΘ (1) 


| {z } | {z }
θ̃=0 θ̃=1
 

 

 
(1 − )p (1 − p)
 
= arg mı́n l10 , l01
θ̃ 
 (1 − p) + (1 − )p (1 − p) + p(1 − ) 

| {z } | {z }

θ̃=0 θ̃=1

(2.32)

Veamos el caso PΘ (0) = PΘ (1) = 1/2 y  = 1/3, se tiene que


 

 

14 5
 
π ∗ (x = 1) = arg mı́n ,
θ̃ 
 3 3 
|{z} |{z}

θ̃=0 θ̃=1

θ̃ = 1
(2.33)
2.3. Decisión óptima: Distribución a posteriori 35

análogamente
 

 

 
p (1 − )(1 − p)
 

π (x = 0) = arg mı́n l10 , l01
θ̃ 
 p + (1 − )(1 − p) (1 − )(1 − p) + p 

| {z } | {z }

θ̃=0 θ̃=1
 

 

7 10
 
= arg mı́n ,
θ̃ 
 3 3 
|{z} |{z}

θ̃=0 θ̃=1

θ̃ = 0
(2.34)

Propuesto:

a- Analizar el caso l01 = l10 = 1, l00 = l11 = 0 (Regla MAP)


como función de p ∈ (0, 1)
b- Determine el régimen en p donde π ∗ (x) = x y por el contrario
donde π ∗ (x) = (1 − x)2 = x̃

Ejemplo 2.2. (Caso Gaussiano) considere m1 , m2 , m3 , m4 ∈ R2 y


Θ(w) toma valores en A = {1, 2, 3, 4} con probabilidad p1 , p2 , p3 , p4 .
Tenemos que

X(w) = mΘ(w) + N (w) (2.35)

donde N (w) ∼ N (0, σ 2 I2×2 ). por lo tanto

H1 = X(w)|θ(w) = 1 ∼ N (m1 , σ 2 I)
H2 = X(w)|θ(w) = 2 ∼ N (m2 , σ 2 I)
H3 = X(w)|θ(w) = 3 ∼ N (m3 , σ 2 I)
H4 = X(w)|θ(w) = 4 ∼ N (m4 , σ 2 I)
(2.36)
36 Detección Bayesiana

El criterio óptimo (receptor óptimo), dada una observación x ∈ R2

k̂ = arg máx PΘ|X (k|x)


k∈A
= arg máx fX|Θ (x|k)PΘ (k)
k∈A
= arg máx N (mk , σ 2 I2×2 )pk
k∈A
(2.37)

Caso Binario: Veamos la región

S1,2 = {x ∈ R2 : N (m1 , σ 2 I2×2 )p1 > N (m2 , σ 2 I2×2 )p2 } (2.38)


Analizamos la condición de decisión
N (x, m1 , σ 2 I2×2 ) p2
> | log(·)
N (x, m2 , σ 2 I2×2 ) p1
     
1 I 1 I p2
− (x − m1 )t 2 (x − m1 ) + (x − m2 )t 2 (x − m2 ) > log
2 σ 2 σ p1
 
1  p2
||x − m2 ||2 − ||x − m1 ||2 > log

2σ 2 p1
 
p2
||x||2 − 2hx, m2 i + ||m2 ||2 − ||x||2 + 2hx, m1 i − ||m1 ||2 > 2σ 2 log
p1
||m2 ||2 − ||m1 ||2
 
p1
hx, (m2 − m1 )i ≤ + σ 2 log
2 p2
(2.39)

Es decir
||m2 ||2 − ||m1 ||2
  
2 2 p1
S1,2 = x ∈ R : hx, (m2 − m1 )i ≤ + σ log
2 p2
(2.40)
2.3. Decisión óptima: Distribución a posteriori 37

Figura 2.2: Diagrama región S12

Analizamos el caso ||m1 || = ||m2 || = r y p2 = p1

S1,2 = x ∈ R2 : hx, (m2 − m1 )i ≤ 0



(2.41)

Finalmente la regla óptima es tal que π(x) = k si x ∈ Skj , ∀j 6= k


38 Detección Bayesiana

Figura 2.3: Diagrama región caso A = {1, 2, 3, 4}

En particular el caso p1 = p2 = p3 = p4 implica el criterio de


máxima verosimilitud que implica la regla de mı́nima distancia

k̂ = arg mı́n ||x − mk || (2.42)


k
(2.43)

donde

S1,2 = x ∈ R2 : ||x − m1 || < ||x − m2 ||



(2.44)

por lo tanto πM L (x) = k si ||x − mk || < ||x − mj || ∀j 6= k.


2.3. Decisión óptima: Distribución a posteriori 39

Si consideramos el caso binario

H1 = X(w)|Θ(w) = 1 ∼ N (m1 , σ 2 I)
H2 = X(w)|Θ(w) = 2 ∼ N (m2 , σ 2 I)
(2.45)
1
entonces cuando p1 = p2 = 2 entonces el criterio de máxima verosimi-
litud es

1 si ||x − m1 || < ||x − m2 ||
πM L (x) = (2.46)
2 si ||x − m1 || ≥ ||x − m2 ||
Por lo tanto

S12 = π({1})−1 = {x : πM L (x) = 1}


= {x : ||x − m1 || < ||x − m2 ||}
(2.47)
40 Detección Bayesiana

Figura 2.4: Diagrama región de mı́nima distancia

Es decir corresponde a la regla de mı́nima distancia. Si ahora eva-


luamos la probabilidad de error

pe = EX,Θ {L(Θ, π(X))}


X
= PΘ (θ)P{π(X(w)) 6= θ|Θ(w) = θ}
θ∈{1,2}
1 1
= P{π(X(w)) 6= 1|Θ(w) = 1} + P{π(X(w)) 6= 2|Θ(w) = 2}
2 2
(2.48)

Por simetrı́a analizamos


2.3. Decisión óptima: Distribución a posteriori 41

||m2 ||2 − ||m1 ||2


 
perror,1 = P hx, (m2 − m1 )i > |X(w) = m1 + N (w)
2
||m2 ||2 − ||m1 ||2
 
t
= P hN (w), (m2 − m1 )i + m1 (m2 − m1 ) >
2
||m2 ||2 − ||m1 ||2
 
2
= P hN (w), (m2 − m1 )i + hm1 , m2 i − ||m1 || >
2
2 2
 
||m2 || + ||m1 || − 2hm1 , m2 i
= P hN (w), (m2 − m1 )i >
2
2
 
||m1 − m2 ||
= P N (w)t (m2 − m1 ) >
2
(2.49)

Notar que N (w) es un vector Gaussiano, lo que significa que


N (w)t (m2 − m1 ) es una variable aleatoria Gaussiana de media
E{N (w)t (m2 − m1 )} = 0 y Varianza

E{(N (w)t (m2 − m1 ))2 } = E{(N (w)t (m2 − m1 ))(N (w)t (m2 − m1 ))}
= E{(m2 − m1 )N (w)t N (w)t (m2 − m1 )}
= (m2 − m1 )E{N (w)t N (w)t }(m2 − m1 )
= (m2 − m1 )σ 2 I(m2 − m1 )
= σ 2 ||m2 − m1 ||2
(2.50)

Luego

||m1 − m2 ||2 ||m1 − m2 ||2


   
t
P N (w) (m2 − m1 ) > = P Z̃(w) >
2 2
( )
Z̃(w) ||m1 − m2 ||2
=P >
σ||m2 − m1 || 2σ||m2 − m1 ||
 
||m1 − m2 ||
=Q

(2.51)
42 Detección Bayesiana

R∞ 2
con Q(z) = √1 e−y /2 dy Por lo tanto

z
 
||m1 − m2 ||
perror,1 = Q (2.52)

donde la razón ||m12σ
−m2 ||
se conoce como la razón señal a ruido del
problema de detección. Alternativamente cuando se tiene que Z̃(w) es
varianza positiva de esperanza finita, es posible utilizar la desigualdad
de Markov.

E(Z(w))
P(Z(w) > z) ≤ (2.53)
z
con esto se puede obtener una cota superior para la función
Q ||m12σ
−m2 ||
, considerando Z(w) ∼ N (0, 1) se tiene

||m1 − m2 ||2
   
||m1 − m2 || 2
P Z(w) > ≤ P (Z(w)) >
2σ 4σ 2
E((Z(w))2 )4σ 2

||m1 − m2 ||2
4σ 2
=
||m1 − m2 ||2
4
=
SN R2
(2.54)
2.4. Problemas 43

2.4. Problemas
Se presentan a continuación una sección de problemas relacionados
con detección Bayesiana.

Problema 2.1. (Detección y Criterio de Máxima Verosimilitud)


Considere el problema diseñar un sistema de detección para un lector
digital (por ejemplo un lector de CD). La idea es decodificar (detectar)
sı́mbolos binarios almacenados, por medio de mediciones secuenciales
con ruido o errores de medición.
Formalmente consideremos que Y (w) es la variable en {0, 1} al-
macenada, y medimos una versión ruidosa de ella X(w) ∈ {0, 1} (la
variable de observación) donde se tiene que:

P (X(w) = 0|Y (w) = 1) = P (X(w) = 1|Y (w) = 0) =  (2.55)


| {z }
(P robabilidad de Error)

P (X(w) = 1|Y (w) = 1) = P (X(w) = 0|Y (w) = 0) = 1 −  (2.56)

con 0 <  < 12 .

a) (12 %) Para el problema de detectar Y (w) como función de


X(w), determine la regla óptima de decisión r∗ : {0, 1} →
{0, 1}, es decir:

r∗ = arg mı́n E(Y,X) {l0,1 (r(X), Y )} (2.57)


r:{0,1}→{0,1}

= arg mı́n P (Y = 1)P (r(X) = 0|Y = 1)


r:{0,1}→{0,1}

+ P (Y = 0)P (r(X) = 1|Y = 0) (2.58)

cuando P (Y = 1) = P (Y = 0) = 21 . Finalmente obtenga una


expresión para la probabilidad de error de la regla optima,
es decir determine

pe = E(Y,X) {l0,1 (r∗ (X), Y )} . (2.59)

b) La idea de esta parte es evaluar un esquema de CODIFICA-


CION para mejorar el desempeño del detector de la parte
a). Para ello consideremos un código C(·) como una función
44 Detección Bayesiana

de {0, 1} a {0, 1}3 , donde la palabras binarias asociadas a


los sı́mbolos cero y uno las llamamos (b1 , b2 , b3 ) = C(0) y
(c1 , c2 , c3 ) = C(1), respectivamente.
Si Z(w) denota la fuente binaria a leer y Ȳ la señal codi-
ficada, Ȳ queda dada por la siguiente regla (PROCESO de
CODIFICACION):

Ȳ = (Y1 , Y2 , Y3 ) = (b1 , b2 , b3 ) si Z = 0 (2.60)


Ȳ = (Y1 , Y2 , Y3 ) = (c1 , c2 , c3 ) si Z = 1. (2.61)

Finalmente, observamos el vector aleatorio X̄ = (X1 , X2 , X3 )


(versión ruidosa de Ȳ ), donde tenemos que:

P ((X1 , X2 , X3 ) = (x1 , x2 , x3 )|(Y1 , Y2 , Y3 ) = (y1 , y2 , y3 )) =


P (X1 = x1 |Y1 = y1 ) · P (X2 = x2 |Y2 = y2 ) · P (X3 = x3 |Y3 = y3 )
(2.62)
y con la misma probabilidad de error P (Xi 6= b|Yi = b) = .
i) (5 %) Determine las distribuciones condicionales de
las dos posibles hipótesis:

f0 (x1 , x2 , x3 ) = P (X̄ = (x1 , x2 , x3 )|Z = 0) (2.63)


f1 (x1 , x2 , x3 ) = P (X̄ = (x1 , x2 , x3 )|Z = 1) (2.64)

como función de (b1 , b2 , b3 ), (c1 , c2 , c3 ) y .


1
ii) (12 %) Si P (Z = 1) = P (Z = 0) = 2 determine la
regla óptima
∗ 3
rM L : {0, 1} → {0, 1}

de detección de Z como función de X̄ para la función


de costo l0,1 y verifique que:

I0 = {(x1 , x2 , x3 ) : rM L (x1 , x2 , x3 ) = 0}
= {(x1 , x2 , x3 ) : dH (x1 , x2 , x3 ; b1 , b2 , b3 ) < dH (x1 , x2 , x3 ; c1 , c2 , c3 )}
(2.65)
donde dH (x1 , x2 , x3 ; y1 , y2 , y3 ) = 1{x1 6=y1 } +1{x2 6=y2 } +
1{x3 6=y3 } .
2.4. Problemas 45

iii) (12 %) Determine una expresión para:



pe = E(Z,X) {l0,1 (rM L (X), Z)} . (2.66)
y demuestre que es inversamente proporcional a
dH (b1 , b2 , b3 ; c1 , c2 , c3 ). Con ello determine una condi-
ción sobre (b1 , b2 , b3 ) y (c1 , c2 , c3 ) (es decir el código
C(·)) para minimizar (2.66).

Problema 2.2. Considere un problema de detección binario Θ =


{0, 1} en un contexto Bayesiano, donde p = P (Θ(w) = 1) y 1 − p =
P (Θ(w) = 0) y donde la probabilidad condicional de X(w) dado
Θ(w) = θ esta dada por PX|Θ (|θ) con densidad fX|Θ (|θ). Para ello
considere L0,0 , L1,0 , L0,1 y L1,1 los elementos que definen la función de
costo1 .

a) Dado A ⊂ X arbitrario, considere un test de la forma:


πA (x) = 1A (x), donde 1A (x) es la función indicatriz de A.
Determine expresiones para Pj,i = P (πA (X(w)) = i|Θ(w) =
j) y con ello el riesgo del test dado por
r(πA ) = EX,Θ (LΘ(w),πA (X(w)) ).
b) Considere L0,0 = L1,1 = 0. Determine el test Bayesiano
óptimo πM AP (x) y verifique que πM AP (x) = πA (x) para un
A ⊂ X. Determine la forma del conjunto óptimo A, como
función de L0,1 , L1,0 , p, fX|Θ (|0) y fX|Θ (|1).
c) Verifique que la solución Bayesiano óptima del punto ante-
rior, es también óptima en el sentido de Neyman-Pearson, es
decir en el sentido que ofrece un compromiso optimo entre
poder y tamaño.
Para ello determine απM AP y demuestre que no existe un
test binario de tamaño menor que απM AP tal que su poder
sea mayor que βπM AP
IND: Encuentre una expresión para relacionar r(πM AP ) con
απM AP y βπM AP .
1L es el costo de decidir j cuando el valor verdadero es que toma Θ(w) es i.
i,j
46 Detección Bayesiana

Problema 2.3. Se pide que implemente un sistema de decisión que


detecte la presencia de una señal s(t). Para eso suponga que se tiene
un sistema que observa n muestras ruidosas de la señal (s(k))k=1,..,n .
De hecho se distinguen dos escenarios posibles de observación.
Presencia de señal Θ(w) = 1:
     
X1 (w) s1 N1 (w)
 X2 (w)   s2   N2 (w) 
     
= + (2.67)
 , ..,   , ..,   , .., 
 
Xn (w) sn Nn (w)

Ausencia de señal Θ(w) = 0:


   
X1 (w) N1 (w)
 X2 (w)   N2 (w) 
   
= (2.68)
 , ..,   , .., 
 
Xn (w) Nn (w)

donde N1 (w), ..,Nn (w) son variables aleatorias independientes que dis-
tribuyen N (0, σ 2 ).

a) Notar que dado el valor de Θ(w), X1 , .., Xn es un vector


Gaussiano. Determine su vector de media y matriz de cova-
rianza en ambos escenarios (presencia y ausencia de señal).
IND.: Notar que X1 , .., Xn son variables aleatorias indepen-
dientes.
b) Del punto anterior determine la función de verosimilitud

L(x1 , .., xn |θ) = ln fX1 ,..,Xn |Θ (x1 , .., xn |θ)

y la solución del problema:

θ̂M L (x1 , .., xn ) = arg máx L(x1 , .., xn |θ). (2.69)


θ∈{0,1}

IND.:Se debe llegar a una expresión cerrada para


θ̂M L (x1 , .., xn ), función de x1 , .., xn y los parámetros conoci-
dos del problema.
2.4. Problemas 47

c) Determine la probabilidad de error del test del punto ante-


rior cuando P(Θ(w) = 1) = P(Θ(w) = 0) = 12 .
d) Determine que pasa con la probabilidad de error del test
óptimo en Eq.(4), si la potencia de la señal dada por
||s||2 = ni=1 s(i)2 → ∞
P
Referencias

[1] C. E. Shannon, “Communication in the presence of noise,”Proc. IRE, vol. 37,


pp. 10–21, Jan. 1949.

48

También podría gustarte