Está en la página 1de 131

Facultad de Ciencias Fı́sicas y Matemáticas

Departamento de Ingenierı́a Eléctrica


EL3204 Análisis de Sistemas Dinámicos y Es-
timación
2023

Detección y Estimación
Version 2.0

Sebastián Espinosa y Jorge F. Silva1

1
Information and Decision System Group, Universidad de Chile.

Resumen
El objetivo de estas notas es presentar brevemente los fundamentos y
principios básicos de la teorı́a de detección y estimación. Se pondrá
énfasis en la formalización matemática y la presentación de resultados
fundamentales. También se presentarán algunos ejemplos y contextos
de aplicación.
Contenidos

1. Unidad I: Detección Paramétrica 1

1.1. Formalización del Problema de Detección Paramétrico 2


1.2. Lema de Neyman Pearson 6
1.3. Curva ROC (Receiver Operating Characteristic) 17
1.4. Caso de Estudio 1: Ruido Gaussiano 19
1.5. Caso de Estudio 2: Detección Binaria con Observaciones
Discretas 28
1.6. Problemas 31

2. Unidad II: Detección Bayesiana 38


2.1. Formalización del Problema de Detección Bayesiano 38
2.2. Riesgo Promedio 40
2.3. Decisión Óptima: Distribución a Posteriori 41
2.4. Caso de Estudio 1: Canal Binario Simétrico 45
2.5. Caso de Estudio 2: Modelo Gaussiano 48
2.6. Problemas 54

i
ii Contents

3. Unidad III: Estimación Paramétrica 59


3.1. Formalización del Problema de Estimación Paramétrica 60
3.2. Nociones de Optimalidad 62
3.3. El Criterio de Mı́nima Varianza 68
3.4. Estimador de Máxima Verosimilitud 77
3.5. Estimador de Mı́nimo Error Cuadrático Medio 91
3.6. Caso de Estudio: Astrometrı́a y Fotometrı́a 99
3.7. Problemas 105

4. Unidad IV: Estimación Bayesiana 111


4.1. Formalización del Problema de Estimación Bayesiana 111
4.2. Riesgo Promedio 112
4.3. Decisión Óptima: Distribución a Posteriori 113
4.4. Caso de Estudio: Distribución Conjunta Normal
Multivariada 120
4.5. Problemas 124
Referencias 127
1
Unidad I: Detección Paramétrica

El problema de detección se entiende como el problema de inferir


una variable θ discreta (que toma una cantidad finita o numerable de
posibles valores) a partir de una variable aleatoria (o vector aleatorio)
de observación X. Por ejemplo, las observaciones pueden provenir
de una distribución de probabilidad que se conoce en su totalidad
salvo por su esperanza, luego, en este contexto, θ representa todos los
posibles candidatos esperanzas o medias desconocidas.

Para que el problema de inferencia sea definido como de detec-


ción θ puede tomar una cantidad finita o a lo más numerable de
opciones. En caso de que θ tome valores infinitos no numerables se
entenderá como estimación.

Ejemplos emblemáticos del problema de detección son el proble-


ma de test de hipótesis, los problemas de reconocimiento de patrones
y los problemas de inferencia presentes en los sistemas de detección en
comunicaciones digitales.

En estas notas cubriremos dos alternativas clásicas para plantear

1
2 Unidad I: Detección Paramétrica

y abordar el problema de detección: las llamadas variante paramétri-


ca y Bayesiana. Comenzaremos con el caso paramétrico donde el
objetivo es inferir un parámetro θ fijo pero desconocido a partir de
observaciones ruidosas.

1.1. Formalización del Problema de Detección Paramétrico


Consideremos el caso de detección binario, es decir θ la variable
a inferir pertenece al conjunto Θ = {0, 1}. El objetivo es decidir, a
partir de observación(es) si θ = 0 o bien θ = 1. En este problema, las
observaciones se modelan como variables (vectores) aleatorias X1n con
n ∈ N, las dos posibles opciones se llaman tradicionalmente hipótesis.
Luego, un test de hipótesis binario posee las siguientes componentes:

Un espacio de observación X y variables aleatorias que toman


valores en X. X se conoce como observación o dato. X es un
espacio numérico y también puede ser multidimensional, por
ejemplo, X = Rn con n ∈ N en cuyo caso las observaciones
corresponden a un vector aleatorio X1n ∈ X.
Un espacio de parámetros Θ binario, tı́picamente Θ = {0, 1}.
También se conoce como el espacio de llegada o el espacio
donde nos interesa inferir el parámetro.
Dos distribuciones de probabilidad indexadas por θ ∈ Θ, es
decir, PX (·|θ = 0) y PX (·|θ = 1) tradicionalmente conocidas
como hipótesis.
Una regla, detector o test π : X 7→ {0, 1} que será la función
que tomará una decisión en base a algún criterio.

El objetivo es decidir, a partir de observación(es) si θ = 0 o bien θ = 1.

Matemáticamente el problema se suele describir como:


H0 : θ = 0 ⇒ X1n ∼ PX1n (·|θ = 0) (Hipótesis Nula)
H1 : θ = 1 ⇒ X1n ∼ PX1n (·|θ = 1) (Hipótesis Alternativa), (1.1)
PX1n (·|θ = 0) (respectivamente PX1n (·|θ = 1)) representa la distribución
de probabilidad inducida por X1n en caso de que θ = 0 (respectivamen-
te θ = 1) sea la correcta en las observaciones que denotamos por X1n .
1.1. Formalización del Problema de Detección Paramétrico 3

En adelante nos gustarı́a establecer un criterio para decidir una


hipótesis o la otra. Supongamos que tenemos una función π (en
adelante se llamará regla o test) que va desde el espacio de las
observaciones X al espacio de las decisiones Θ. Como estamos en el
escenario binario el espacio de decisión es Θ = {0, 1} donde dado π
tenemos que:

π(x1 , ..., xn ) = 0 (Aceptar H0 )


π(x1 , ..., xn ) = 1 (Rechazar H0 ). (1.2)

Esto significa que π será nuestro detector. Lo que nos interesa saber es
si el detector tiene un buen comportamiento, para eso introduciremos
algunas definiciones de desempeño. Dada la regla o detector π : X →
Θ = {0, 1} podemos definir las siguientes medidas.

Definición 1.1. (Tamaño del Test) Dada una regla π : X 7→ {0, 1}, se
define el tamaño de π como:

απ ≡ PX1n (π(X1n ) = 1|θ = 0)


| {z }
rechazar H0 dado H0

= EX1n (π(X1n )|θ = 0)


Z Z
= ··· π(x1 , ..., xn ) · fX (x1 , ..., xn |θ = 0)dx1 ...dxn
n
Z ZR
= ··· fX (x1 , ..., xn |θ = 0)dx1 ...dxn .
{(x1 ,...,xn )∈Rn : π(x1 ,...,xn )=1}
(1.3)
Hemos asumido que el espacio de observación X = Rn , y que por tanto
el vector aleatorio esta dotado una densidad de probabilidad fX (la
expresión es análoga si es un espacio discreto). En la tercera lı́nea se
calcula, por definición de esperanza, la integral sobre todo el espacio.
Sin embargo la regla π vale 0 en todo lugar donde no se haya decidido 1.
Por lo que esa esperanza se puede reducir al calculo de la probabilidad
en el espacio donde se decidió 1 (que es lo que se observa en la cuarta
igualdad), esto hace que la integral ya no sea sobre todo Rn sino que
solamente una zona de ella (π −1 ({1}) = {xn1 ∈ X : π(x1 , ..., xn ) = 1}).
4 Unidad I: Detección Paramétrica

Notar que απ es la probabilidad “condicional”1 . de que la regla


decida la hipótesis alternativa (θ = 1) cuando la correcta era la
hipótesis nula (θ = 0). Dicho de otra manera, απ corresponde a la
probabilidad de rechazar H0 cuando H0 es correcto, la probabilidad
de falsa alarma, el error de tipo I, o el tamaño del test, todos estos
nombres representan la misma probabilidad de error.

Definición 1.2. (Poder del Test) Dada una regla π : X 7→ {0, 1}, se
define el poder de π como:

βπ ≡ PX1n (π(X1n ) = 1|θ = 1)


| {z }
aceptar H1 dado H1

= EX1n (π(X1n )|θ = 1)


Z Z
= ··· π(x1 , ..., xn ) · fX (x1 , ..., xn |θ = 1)dx1 ...dxn
Rn
Z Z
= ··· fX (x1 , ..., xn |θ = 1)dx1 ...dxn .
{(x1 ,...,xn )∈Rn : π(x1 ,...,xn )=1}
(1.4)

Los argumentos para obtener las igualdades en (1.4) son análogos al


caso del tamaño del test presentados anteriormente. Este valor indica
la probabilidad de correcta detección de la hipótesis alternativa. Notar
que PX1n (π(X) = 0|θ = 1) es la probabilidad de no detección o el error
tipo II que corresponde precisamente a 1 − βπ 2 .

A partir de las dos definiciones anteriores podemos introducir el con-


cepto de test óptimo:

Definición 1.3. Consideremos un test π de tamaño απ , i.e.,

απ = EX1n (π(X1n )|θ = 0). (1.5)

1 En rigor no es una probabilidad condicional debido a que θ no es una variable aleatoria.


2 En algunos libros, por notación, βπ corresponde al error de tipo II, en este apunte dicho
error es 1 − βπ .
1.1. Formalización del Problema de Detección Paramétrico 5

π se dirá óptimo para su tamaño si, ∀π̃ ∈ F (X, Θ)3 tal que

απ̃ = EX1n (π̃(X1n )|θ = 0) ≤ απ (1.6)

se tiene que:
βπ̃ ≤ βπ = EX1n (π(X1n )|θ = 1). (1.7)

Figura 1.1: Zona admisible de punto de operación (απ̃ , βπ̃ ) para los
tests π̃ ∈ F (X, Θ).

3 F (X, Θ) es el conjunto de reglas que van de X a Θ


6 Unidad I: Detección Paramétrica

Esto nos dice que si π es óptimo para su tamaño α, cualquier otro test
de tamaño menor que α (i.e. con menor error de tipo I), tendrá necesa-
riamente un menor poder de test que el test óptimo (en consecuencia
tendrá un mayor error de tipo II). En otras palabras podemos decir que
π es una de las soluciones al problema de decisión óptimo de tamaño
α si:
máx EX1n (π(X1n )|θ = 1) sujeto a απ ≤ α (1.8)
π∈F (X,Θ)

Por lo tanto si π es solución al problema (1.8) entonces ofrece el


máximo poder para su tamaño απ . Por otro lado, de la Definición
1.3 si π es óptimo para su tamaño determina una zona lı́mite de los
posibles pares (α, β) admisibles que pueden tomar otros test π̃ como
se observa en la Figura 1.1.

La pregunta que se debe resolver ahora es de qué manera pode-


mos diseñar un test, y si existe un test que sea óptimo en el sentido
de mejor compromiso entre tamaño y poder del test. La respuesta es
afirmativa y está dado por el Lema de Neyman-Pearson.

1.2. Lema de Neyman Pearson


El resultado central de esta sección es el llamado Lema de Ney-
man Pearson que permite caracterizar de forma cerrada una familia
de test óptimos en el sentido de la Definición 1.3. Este resultado nos
entrega una receta concreta para poder encontrar test óptimos. Antes
de introducir el resultado necesitamos considerar una familia más ge-
neral del test que permitan la toma de decisiones aleatorias en ciertas
circunstancias que garanticen la optimalidad del test.

1.2.1. Test Aleatorios

En adelante consideraremos X como un espacio arbitrario numérico


y sus elementos serán denotados como x ∈ X, luego x podrı́a repre-
sentar un vector o un escalar. Definimos el concepto de test binario
aleatorio de la siguiente forma:
1.2. Lema de Neyman Pearson 7

Definición 1.4. Un test o regla π̃ : Ω × X −→ Θ se dice aleatorio si


esta conformado por dos condiciones:

Una función de 3 estados ϕ : X −→ {0, 1, 2}


Una variable aleatoria binaria (distribución Bernoulli) ρ :
Ω −→ {0, 1}4 caracterizada por p = P(ρ(w) = 1).

Luego el test aleatorio se puede escribir, ∀x ∈ X, como

π̃(w, x) = 1ϕ−1 ({1}) (x) + ρ(w) · 1ϕ−1 ({2}) (x), (1.9)

donde 1A (x) es la función indicatriz del conjunto A ⊂ X. Por otro


lado ϕ−1 ({1}) y ϕ−1 ({2}) corresponden al conjunto preimagen de 1 y
2, respectivamente.

Observaciones:

Un test aleatorio se puede ver como un test de tres estados


donde en dos de ellos tiene una salida determinista (0 o 1)
y en uno de ellos aleatoria (dado por la variable aleatoria
ρ(w)).
La función ϕ particiona el espacio de observación X en tres
componentes ϕ−1 ({0}), ϕ−1 ({1}), ϕ−1 ({2})


De (1.9) podemos notar que cuando x ∈ ϕ−1 ({0}) ⇒ π̃(w, x) = 0,


cuando x ∈ ϕ−1 ({1}) ⇒ π̃(w, x) = 1 y cuando x ∈ ϕ−1 ({2}) ⇒
π̃(w, x) = ρ(w).

Por tanto solo cuando x ∈ ϕ−1 ({2}), el test ofrece un comporta-


miento aleatorio gobernado por la variable ρ(w). En otras palabras,
los elementos en ϕ−1 ({2}) no se sabe con certeza si toman el valor 0 o
1 y es la variable ρ(w) (bernoulli) la que asigna 1 con probabilidad p
o 0 con probabilidad 1 − p.

Redefiniendo A0 ≡ ϕ−1 ({0}), A1 ≡ ϕ−1 ({1}), A2 ≡ ϕ−1 ({2}),


tenemos que de la Definición 1.4 una regla aleatoria π̃ se caracteriza
4 Recordar que Ω corresponde al espacio muestral original o espacio madre
8 Unidad I: Detección Paramétrica

completamente por una partición del espacio {A0 , A1 , A2 } y p que es


la probabilidad de ρ(w) = 1 (p = E(ρ)5 ), donde

 1 si x ∈ A1
π̃(w, x) ≡ 0 si x ∈ A0 (1.10)
ρ(w) si x ∈ A2

En este contexto el tamaño del test esta dado por:

Figura 1.2: Partición de X inducida por una regla de decisión


aleatoria.

απ̃ ≡ P(π̃(w, X(w)) = 1|θ = 0)


= P(1ϕ−1 ({1}) (X(w)) + ρ(w) · 1ϕ−1 ({2}) (X(w)) = 1|θ = 0)
= P(X(w) ∈ A1 |θ = 0) + p · P(X(w) ∈ A2 |θ = 0), (1.11)

donde se asume que ρ(w) es independiente a X(w) y por tanto el


parámetro θ es el que incide exclusivamente en la determinación de las
estadı́sticas de X(w).

5 Recordar que en una distribución Bernoulli el parámetro p corresponde al valor esperado


de la variable aleatoria ρ(w).
1.2. Lema de Neyman Pearson 9

Es posible también escribir el tamaño de la siguiente manera:

απ̃ ≡ P(X(w) ∈ A1 |θ = 0) + p · P(X(w) ∈ A2 |θ = 0)


= Eρ (P(X(w) ∈ A1 |θ = 0) + ρ · P(X(w) ∈ A2 |θ = 0))
= Eρ (EX (1A1 (X) + ρ · 1A2 (X)|θ = 0))
= Eρ (EX (π̃(ρ, X)|θ = 0))
= EX,ρ (π̃(ρ, X)|θ = 0) (1.12)

análogamente, el poder del test esta dado por:

βπ̃ ≡ P(π̃(w, X(w)) = 1|θ = 1)


= P(1ϕ−1 ({1}) (X(w)) + ρ(w) · 1ϕ−1 ({2}) (X(w)) = 1|θ = 1)
= P(X(w) ∈ A1 |θ = 1) + p · P(X(w) ∈ A2 |θ = 1). (1.13)

Es posible construir un test aleatorio por medio de la composición o


mezcla (aleatoria) de test determinı́sticos.

Proposición 1.1. Sea π̃ un test aleatorio caracterizado por


{A0 , A1 , A2 } y p ∈ (0, 1). Consideremos los test determinı́sticos6

0 si x ∈ A0 ∪ A2
π1 (x) = (1.14)
1 si x ∈ A1

0 si x ∈ A0
π2 (x) = (1.15)
1 si x ∈ A1 ∪ A2
y una variable aleatoria binaria ρ(w) con P(ρ(w) = 1) = p, entonces que
se tiene que el test aleatorio π̃ puede escribirse de la siguiente maneras:

π̃(w, x) = π1 (x)(1 − ρ(w)) + π2 (x)ρ(w). (1.16)

Demostración: Propuesto.

Por otro lado, la combinación lineal de test aleatorios es un test alea-


torio, apoyado por siguiente resultado:

6 Notar que π1 y π2 son determinı́sticos en el sentido que no dependen de ρ.


10 Unidad I: Detección Paramétrica

Proposición 1.2. Sea ρ(w) una variable aleatoria binaria arbitraria y


π1 (·), π2 (·) dos test aleatorios arbitrarios, entonces

π12 (w, x) = π1 (w, x) · 1{0} (ρ(w)) + π2 (w, x) · 1{1} (ρ(w)) (1.17)

es un test aleatorio.

Demostración: Propuesto.

1.2.2. Resultado Principal

A continuación introduciremos el resultado principal conocido como


el Lema de Neyman-Pearson.

Teorema 1.1. (Lema de Neyman-Pearson) Sea Θ = {0, 1} y X la


variable aleatoria de observación con valores en X y dos distribuciones
factibles {PX (·|θ) : θ ∈ {0, 1}}) que definen el problema en (1.1) (es
decir que para θ = 0 existe una distribución PX (x|0) y para θ = 1
existe una distribución PX (x|1)).

Para un ν > 0 arbitrario y una variable aleatoria binaria ρ(w),


se tiene que el test aleatorio de la forma:

 1 si L(x|θ = 1) > νL(x|θ = 0)
π(w, x) = 0 si L(x|θ = 1) < νL(x|θ = 0) (1.18)

ρ(w) si L(x|θ = 1) = νL(x|θ = 0)

es óptimo para su tamaño en el sentido de la Definición 1.3.

Observaciones:

L(x|θ) es la función de verosimilitud. PX (x|θ) cambiará de-


pendiendo si X es un espacio continuo o discreto. Ası́, en el
caso continuo PX (x|θ) corresponde a la densidad de X y en
el caso discreto PX (x|θ) será una función de probabilidad de
masa. Más precisamente
1.2. Lema de Neyman Pearson 11

ˆ Si X1n siguen una distribución discreta la verosimili-


tud se define como:

L(X1 = x1 , X2 = x2 , ..., Xn = xn |θ) =


PX1n (X1 = x1 , X2 = x2 , ..., Xn = xn |θ).

ˆ Si X1n siguen una distribución continua la verosimili-


tud se define como:

L(X1 = x1 , X2 = x2 , ..., Xn = xn |θ) =


fX1n (x1 , x2 , ..., xn |θ).

La función de verosimilitud no es más que la probabilidad de


masa conjunta o densidad de probabilidad conjunta evaluada
en las observaciones.
∀α ∈ [0, 1] existe un test aleatorio de la forma en (1.18) tal
que su tamaño de test es α (existencia).
El test π(·) en (1.18) es único para su tamaño salvo solucio-
nes que difieren de π en un conjunto de probabilidad cero
respecto a fX (x|θ = 1) y fX (x|θ = 0).
El Teorema 1.1 nos dice que la razón ffX (x|θ=1)
X (x|θ=0)
de probabi-
lidades (o likelihood ratio) es la información suficiente que
permite construir una familia de test óptimo en el sentido de
la Definición 1.3.

1.2.3. Demostración
Para la demostración de este resultado, verificaremos su optimali-
dad y existencia.

[Optimalidad]: El resultado se demostrará para el caso conti-


nuo, el caso discreto es análogo. Necesitamos demostrar que ∀ν ∈ R+
y ∀p ∈ [0, 1], π ν (w, x) de parámetros {Aν0 , Aν1 , Aν2 , p}, con

Aν0 ≜ {x ∈ X : fX (x|θ = 1) < νfX (x|θ = 0)}


Aν1 ≜ {x ∈ X : fX (x|θ = 1) > νfX (x|θ = 0)}
Aν2 ≜ {x ∈ X : fX (x|θ = 1) = νfX (x|θ = 0)}, (1.19)
12 Unidad I: Detección Paramétrica

es óptimo dado su tamaño


Z Z
απv = fX (x|θ = 0)dx + p · fX (x|θ = 0)dx
Av1 Av2

= PX (Av1 |θ = 0) + p · PX (Av2 |θ = 0). (1.20)


En otras palabras, si ∃π̃ test aleatorio tal que απ̃ ≤ απv entonces seria
suficiente verificar que
βπ̃ ≤ βπv . (1.21)
Consideremos para estos efectos el siguiente desarrollo descompuesto
en tres integrales. Fijemos un ρ y un ρ̃ para cada test aleatorio tenemos
que
EX (π v (ρ, X) − π̃(ρ̃, X)|θ = 1) − ν(EX (π v (ρ, X) − π̃(ρ̃, X)|θ = 0))
Z
= (π v (ρ, x) − π̃(ρ̃, x))(fX (x|θ = 1) − νfX (x|θ = 0))dx
X=Av0 ∪Av1 ∪Av2
Z
= −π̃(ρ̃, x) (fX (x|θ = 1) − νfX (x|θ = 0)) dx
Av0 | {z }
<0 de (1.19)
| {z }
>0
Z
+ (1 − π̃(ρ̃, x)) (fX (x|θ = 1) − νfX (x|θ = 0)) dx
Av1 | {z }
>0 de (1.19)
| {z }
>0
Z
+ (π v (ρ, x) − π̃(ρ̃, x))(fX (x|θ = 1) − νfX (x|θ = 0)) dx . (1.22)
Av2 | {z }
=0 de (1.19)
| {z }
=0

Esto lleva a que para todo w ∈ Ω (y por consiguiente ρ y ρ̃ arbitrarios)


EX (π v (ρ, X)|θ = 1) − EX (π̃(ρ̃, X)|θ = 1)
≥ ν(EX (π v (ρ, X)|θ = 0) − EX (π̃(ρ̃, X)|θ = 0)).
(1.23)
Tomando esperanza en ambos lados de (1.23) con respecto a ρ(w) y
ρ̄(w) (la parte aleatoria de π y π̃, respectivamente) se tiene que:
βπ − βπ̃ ≥ ν(απ − απ̃ ). (1.24)
1.2. Lema de Neyman Pearson 13

Finalmente como απ ≥ απ̃ , esto implica que βπ ≥ βπ̃ .

[Existencia]: Tenemos que mostrar que ∀α ∈ (0, 1) existe un


test aleatorio de la forma π → {A0 , A1 , A2 , p} donde ρ es su variable
aleatoria binaria, tal que su tamaño del test es efectivamente α.

Para esto analizamos el tamaño del test de parámetros {A0 , A1 , A2 , p}:

απ = Eρ (EX (π(ρ, X)|θ = 0))


= Eρ (P(X(w) ∈ A1 |θ = 0) + ρ(w)P(X(w) ∈ A2 |θ = 0))
= P(X(w) ∈ A1 |θ = 0) + P(X(w) ∈ A2 |θ = 0) · p. (1.25)

Por definición, (y asumiendo positividad de las densidades) el primer


término en (1.25) corresponde a:

P(fX (X(w)|θ = 1) > νfX (X(w)|θ = 0)|θ = 0) (1.26)


 
fX (X(w)|θ = 1)
=P >ν θ=0 , (1.27)
fX (X(w)|θ = 0)
y el segundo término en (1.25) a:

P(fX (X(w)|θ = 1) = νfX (X(w)|θ = 0)|θ = 0)p (1.28)


 
fX (X(w)|θ = 1)
=P = ν θ = 0 p. (1.29)
fX (X(w)|θ = 0)
Notar que resulta útil mirar la siguiente variable aleatoria Y (w) =
fX (X(w)|θ=1)
fX (X(w)|θ=0) (llamado razón de verosimilitud o likelihood ratio) induci-
da por X(w), donde tenemos que:

απ = P (Y (w) > ν|θ = 0) + P (Y (w) = ν|θ = 0) · p. (1.30)

En el caso que Y tenga una densidad bajo el modelo θ = 0 entonces


su función de distribución FY (y|θ = 0) es continua y por lo tanto
P(Y (w) = ν|θ = 0) = 07 .

Formalmente si Y tiene una densidad fY (y) entonces se verifica

7 Recordar que esto es porque estamos pidiendo la integral sobre un único valor y no sobre
un intervalo
14 Unidad I: Detección Paramétrica

que:
   
fX (X(w)|θ = 1) fX (X(w)|θ = 1)
P >ν θ=0 y P ≥ν θ=0
fX (X(w)|θ = 0) fX (X(w)|θ = 0)
(1.31)

son funciones continuas de ν y, por lo tanto, existe ν (como función
de α) tal que
 
fX (X(w)|θ = 1) ∗
P > ν (α) θ = 0 = α. (1.32)
fX (X(w)|θ = 0)
Entonces, en el caso continuo, para todo α ∈ [0, 1] existe un ν tal que
P (Y (w) > ν|θ = 0) = α lo que resuelve el problema de existencia.

Supongamos ahora que Y (w) = ffX X (X(w)|θ=1)


(X(w)|θ=0) no necesariamen-
te admite densidad (y continuidad) y es tal que la función
F̃Y (ν) = P(Y (w) > ν|θ = 0) no toma el valor α, es decir, existe
ν0 tal que  
P Y (w) > ν0 θ = 0 < α y (1.33)
 
∀ϵ > 0 P Y (w) > ν0 − ϵ θ = 0 > α. (1.34)
Esto nos indica que Y tiene un punto de discontinuidad en ν0 . Notar
que en caso contrario el problema se resuelve. Además vemos que {w ∈
Ω : Y (w) > ν0 } ⊆ {w ∈ Ω : Y (w) ≥ ν0 }, por lo que la probabilidad
P(Y (w) > ν|θ = 0) es decreciente con ν.

Proposición 1.3. La condición en (1.33) y (1.34) se observa si y solo


si P (Y (w) = ν0 |θ = 0) > 0.8

Para esto resulta util verificar la siguiente identidad:

Proposición 1.4.
lı́m P (Y (w) > ν0 − ϵ) − P (Y (w) > ν0 ) = P (Y (w) = ν0 )
ϵ→0
⇔ lı́m P (Y (w) > ν0 − ϵ) = P (Y (w) ≥ ν0 ) (1.35)
ϵ→0

8 En otras palabras cuando la función de distribución de Y es discontinua en ν0 , ver Figura


1.3.
1.2. Lema de Neyman Pearson 15

Figura 1.3: Gráfico de la función F̃Y (ν) = P(Y (w) > ν|θ = 0) bajo la
condición en (1.33) y (1.34).

Demostración: Es una aplicación directa de la continuidad de la medi-


da en probabilidades.

De la condición en (1.33) y (1.34) y el resultado en (1.35), tenemos que:

lı́m P (Y (w) > ν0 − ϵ|θ = 0) = P (Y (w) ≥ ν0 |θ = 0) > α. (1.36)


ϵ→0

Con esto podemos considerar ν0 como parámetro para definir


{Aν00 , Aν10 , Aν20 } y p ∈ (0, 1) como solución del cálculo del tamaño del
test:

P (Y (w) > ν0 |θ = 0) + p · P (Y (w) = ν0 |θ = 0) = α (1.37)


16 Unidad I: Detección Paramétrica

(dado que P (Y (w) > ν0 |θ = 0) < α y P (Y (w) ≥ ν0 |θ = 0) > α) es


decir:
α − P (Y (w) > ν0 |θ = 0)
p= ∈ (0, 1). (1.38)
P (Y (w) = ν0 |θ = 0)
Lo anterior nos dice que si Y presenta un punto de discontinuidad,
entonces mediante el ajuste del valor de p es posible de todas maneras
lograr un tamaño de test α arbitrario, esto último es muy usado cuan-
do se poseen probabilidades de masa que no son continuas. Con esto
concluimos la demostración de la existencia.

1.2.4. Discusión del Resultado


1- Si Y tiene función de densidad de probabilidad. y, en con-
secuencia, ∀ν ∈ R+ PX (fX (X|θ = 1) = νfX (X|θ = 0)|θ =
0) = 0, el test óptimo de Neyman Pearson puede expresarse
de forma determinı́stica como:

1 si fX (x|θ = 1) > νfX (x|θ = 0)
πν (x) = (1.39)
0 si fX (x|θ = 1) ≤ νfX (x|θ = 0),
o en su defecto como:

1 si fX (x|θ = 1) ≥ νfX (x|θ = 0)
π̃ν (x) = (1.40)
0 si fX (x|θ = 1) < νfX (x|θ = 0).
En esta caso πν (x), π̃ν (x) ofrecen el mismo desempeño en
términos que:
EX (πν (X)|θ = 0) = EX (π̃ν (X)|θ = 0) = απν (1.41)
EX (πν (X)|θ = 1) = EX (π̃ν (X)|θ = 1) = βπν (1.42)
fX (X|θ=1)
2- Si Y (X) = fX (X|θ=0)admite densidad, entonces el test para
el parámetro ν está dado por:

1 si Y (x) ≥ ν
πν (x) = (1.43)
0 si Y (x) < ν
Por lo que se tiene que:
απν = EX (πν (X)|θ = 0) = PY (Y ≥ y|θ = 0)
Z ∞
= fY (y|θ = 0)dy (1.44)
ν
1.3. Curva ROC (Receiver Operating Characteristic) 17

βπν = EX (πν (X)|θ = 1) = PY (Y ≥ y|θ = 1)


Z ∞
= fY (y|θ = 1)dy. (1.45)
ν

Sin embargo determinar expresiones cerradas para la distri-


bución de Y puede ser un problema dificil.

1.3. Curva ROC (Receiver Operating Characteristic)


Dado un problema de decisión binario como en la ecuación (1.1),
el Lema de Neyman Pearson nos entrega una familia9 de test óptimos
{πα (·) : ∀α ∈ [0, 1]} donde sabemos que:

β πα = máx βπ , (1.46)
π∈F(X,Θ) con απ ≤α

por tanto el conjunto de pares {(α, βπα ) : α ∈ [0, 1]} ofrece el compro-
miso óptimo para el problema en (1.1) entre los errores de tipo I y
tipo II.

Definimos la curva ROC asociado al problema de detección y su


test de Neyman-Pearson como:

fROC (α) = βπα , ∀α ∈ [0, 1]. (1.47)

Es decir la curva ROC es la función que asocia el poder del test por
cada error de tipo I en [0, 1].

Proposición 1.5. Se puede verificar que la curva ROC:

fROC (α) es una función no decreciente.


fROC (0) = 0 y fROC (1) = 1.
fROC (α) es una función cóncava.

Una ilustracion es presentada en la Figura 1.4.

La curva ROC expresa la complejidad del problema de inferencia


en el sentido que evidencia el compromiso óptimo alcanzable entre los
9 Se le dice familia ya que es una cantidad no numerable de reglas, indexadas por α o por ν
18 Unidad I: Detección Paramétrica

dos errores que definen este problema.

Observaciones:

Figura 1.4: Ilustración de la curva ROC para un problema de


detección binario.

La curva ROC es una curva teórica ya que depende del test de


Neyman-Pearson que a su vez depende de las distribuciones,
algo que en la p ráctica no suele tenerse.
Es posible generar otras curvas ROC, usando otras reglas
de decisión, estas curvas tendrán un mejor desempeño en la
medida que se acerquen cada vez más a la curva entregada
por el Lema de Neyman-Pearson
El desempeño de la curva de Neyman-Pearson puede mejorar
aún más en la medida que se tengan muchas observaciones
1.4. Caso de Estudio 1: Ruido Gaussiano 19

independientes e identicamente distribuidas (i.i.d.), esto es,


αn → 0 y βn → 1 si es que se posee un vector aleatorio
X1n ∈ X i.i.d..

La siguiente figura muestra los distintos comportamientos de los


detectores, dado que en la práctica no se puede obtener el test óptimo
que está dado por el Lema de Neyman-Pearson, se busca un test que
se pueda acercar tanto al entregado por el lema.

Un test tendrá mejor desempeño en la medida que para un va-


lor dado de error de tipo I, el poder del test es lo más grande posible
y, consecuentemente, el error de tipo II es más pequeño.

Figura 1.5: Fuente:


https://en.wikipedia.org/wiki/Receiver operating characteristic

1.4. Caso de Estudio 1: Ruido Gaussiano


El caso de distribuciones Gaussianas es emblemático tanto por su
simplicidad analı́tica, como por su amplio uso como modelo de observa-
20 Unidad I: Detección Paramétrica

ción, en particular en problemas de comunicaciones digitales y recono-


cimiento de patrones. Veremos una instancia básica de este problema
en el siguiente ejemplo:

Ejemplo 1.1. Consideremos Θ = {0, 1} y


1 (x−µ0 )2
H0 :θ = 0 : X ∼ N (µ0 , σ 2 ) → L(x|θ = 0) = fX (x|θ = 0) = √ e− 2σ2
2πσ
1 (x−µ1 )2
H1 :θ = 1 : X ∼ N (µ1 , σ 2 ) → L(x|θ = 1) = fX (x|θ = 1) = √ e− 2σ2 ,
2πσ
(1.48)
donde se asume que µ0 < µ1 . Estas probabilidades de observación se
obtienen por ejemplo en el caso del modelo de ruido aditivo Gaussiano
en comunicaciones, donde por uso de canal se transmite una señal de
dos posibles estados (binaria) por medio de la regla:
H0 :S = µ0
H1 :S = µ1 , (1.49)
y las observaciones (en el receptor) están dadas por la variable
X =S+Z (1.50)
donde Z ∼ N (0, σ 2 ) modela el ruido agregado por el canal de
comunicaciones.

En este caso dado un test π lo que debe hacer es decidir si la


observación X proviene de una Gaussiana de media µ0 o de media µ1 .

Aplicaremos entonces el Lema de Neyman-Pearson para determi-


nar la forma de los test óptimos en este caso. Es importante primero
caracterizar la función de verosimilitud para cada hipótesis (Recor-
dando que la verosimilitud corresponde a la función de densidad
de probabilidad o función de probabilidad de masa inducida por la
variable aleatoria observada), ası́, tenemos que, para una observación
x∈X=R

1 −(x−µ0 )2
fX (x|θ = 0) = √ e 2σ2
2πσ
1.4. Caso de Estudio 1: Ruido Gaussiano 21

y
1 −(x−µ1 )2
fX (x|θ = 1) = √ e 2σ2
2πσ
El test se plantea como, dado ν > 0:
−(x−µ1 )2 −(x−µ0 )2

1 1
1 si √ e 2 > ν √ e 2σ 2

 2σ
2πσ 2πσ


−(x−µ1 )2 −(x−µ0 )2

π(w, x) = 1 1 (1.51)
 0 si √2πσ e 2σ2 < ν √2πσ e 2σ2

 −(x−µ1 ) 2 −(x−µ0 )2
 1 1
 ρ(w) si √2πσ e 2σ2 = ν √2πσ e 2σ2

En general se requerirá expresar este test de forma más amigable, de


modo de determinar de forma explı́cita la partición que genera este test
sobre las observaciones. Dicho lo anterior, podemos trabajar una de las
desigualdades del test y dejarla más clara.
1 −(x−µ1 )2 1 −(x−µ0 )2
√ e 2σ2 > ν √ e 2σ2
2πσ 2πσ
−(x−µ1 )2 −(x−µ0 )2
e 2σ 2 > νe 2σ 2

(x − µ1 )2 (x − µ0 )2
− > log(ν) −
2σ 2 2σ 2
(x − µ0 )2 (x − µ1 )2
2
− > log(ν)
2σ 2σ 2 (1.52)
(x − µ0 )2 − (x − µ1 )2 > 2 log(ν)σ 2
x2 − 2xµ0 + µ20 − (x2 − 2xµ1 + µ21 ) > 2 log(ν)σ 2
x2 − 2xµ0 + µ20 − x2 + 2xµ1 − µ21 > 2 log(ν)σ 2
x(2µ1 − 2µ0 ) + µ20 − µ21 > 2 log(ν)σ 2
2 log(ν)σ 2 + µ21 − µ20
x>
2µ1 − 2µ0
Luego, el test de Neyman Pearson se puede expresar de la siguiente
forma:
2 log(ν)σ 2 +µ21 −µ20

 1

 si x > 2µ1 −2µ0
2 log(ν)σ 2 +µ21 −µ20
π(w, x) = 0 si x < 2µ1 −2µ0
(1.53)
 ρ(w) si x = 2 log(ν)σ2 +µ21 −µ20


2µ1 −2µ0
Observaciones:
22 Unidad I: Detección Paramétrica

2 log(ν)σ 2 +µ21 −µ20


n o
Noten que si definimos A1 = x ∈ R : x > ,
o 2µ1 −2µ0
2 log(ν)σ 2 +µ21 −µ20
n
A0 = x∈R:x< y A2 =
o 2µ1 −2µ0
2 log(ν)σ 2 +µ21 −µ20
n
x∈R:x= 2µ1 −2µ0 , la unión de estos tres
conjuntos forman R y además entre ellos son disjuntos,
luego forman una partición del espacio.
En palabras simples el test nos indica que para decidir, a
partir de una observación, entre una hipótesis u otra, se debe
verificar que este valor supere o no un umbral que depende
de ν y las medias de las Gaussianas.
Notemos que el evento (sea bajo θ = 0 o θ = 1)
2 log(ν)σ 2 +µ21 −µ20
n o
w ∈ Ω : x(w) = 2µ1 −2µ0 es de probabilidad 0 debi-
do a que la probabilidad de X se calcula sobre una distribu-
ción continua, por lo que no tiene masa. Dicho de otro modo,
la probabilidad de un singleton siempre es 0 sobre cualquier
distribución continua. Lo anterior es un argumento suficien-
te para transformar el test aleatorio en uno determinı́stico,
entregando el conjunto A2 a cualquiera de los otros dos con-
juntos (A0 o A1 ). El test pasa a ser entonces

2 log(ν)σ 2 +µ21 −µ20


(
1 si x ≥ 2µ1 −2µ0
π(w, x) = 2 log(ν)σ 2 +µ21 −µ20 (1.54)
0 si x < 2µ1 −2µ0

o también puede ser

2 log(ν)σ 2 +µ21 −µ20


(
1 si x > 2µ1 −2µ0
π(w, x) = 2 log(ν)σ 2 +µ21 −µ20 (1.55)
0 si x ≤ 2µ1 −2µ0

Cualquiera de los dos es correcto. Lo importante es que en


estas situaciones un test aleatorio (que tiene una tercera va-
riable ρ(w)) pasa a ser determinı́stico (que solo tiene dos
opciones 0 o 1). Con lo anterior los conjuntos Aν0 = πν−1 ({0})
y Aν1 = πν−1 ({1}) ya quedan determinados de la siguiente
manera:
1.4. Caso de Estudio 1: Ruido Gaussiano 23

Si se adopta la ecuación (1.54):

2 log(ν)σ 2 + µ21 − µ20


 
ν −1
A0 = πν ({0}) = x ∈ R : x <
2µ1 − 2µ0
(1.56)
2 2 2
 
ν −1 2 log(ν)σ + µ1 − µ0
A1 = πν ({1}) = x ∈ R : x ≥
2µ1 − 2µ0
(1.57)
Si se adopta la ecuación (1.55):

2 log(ν)σ 2 + µ21 − µ20


 
Aν0 = πν−1 ({0}) = x ∈ R : x ≤
2µ1 − 2µ0
(1.58)
2 2 2
 
ν −1 2 log(ν)σ + µ1 − µ0
A1 = πν ({1}) = x ∈ R : x >
2µ1 − 2µ0
(1.59)
(Basta elegir una opción para que el problema este resuelto).

Ahora calcularemos el tamaño y poder del test. Recordemos que:

α = P(π(X(w)) = 1|θ = 0)
(1.60)
= PX (X ∈ A1 |θ = 0) + pPX (X ∈ A2 |θ = 0)

Esto quiere decir que corresponde a la probabilidad de observar la


variable aleatoria X en el conjunto A1 más la probabilidad de observar
la variable aleatoria X en el conjunto A2 por p (la probabilidad de que
ρ = 1), dado que en realidad la hipótesis correcta era θ = 0, con lo
anterior, es claro que se debe integrar lo siguiente

απ = P(π(X(w)) = 1|θ = 0)
= PX (X ∈ A1 |θ = 0) + pPX (X ∈ A2 |θ = 0)
2 log(ν)σ 2 +µ2 2
1 −µ0
Z ∞ −(x−µ0 )2
Z −(x−µ0 )2
1 2µ1 −2µ0 1
= 2 log(ν)σ 2 +µ2 2 √ e 2σ2 dx + 2 log(ν)σ 2 +µ2 2 √ e 2σ2
1 −µ0 2πσ 1 −µ0 2πσ
2µ1 −2µ0 2µ1 −2µ0
Z ∞ −(x−µ0 )2
1
= 2 log(ν)σ 2 +µ2 2 √ e 2σ2 dx
1 −µ0 2πσ
2µ1 −2µ0

(1.61)
24 Unidad I: Detección Paramétrica

Similarmente el poder del test se puede calcular como


βπ = P(π(X(w)) = 1|θ = 1)
Z ∞ −(x−µ1 )2
1 (1.62)
= 2 log(ν)σ2 +µ2 −µ2 √ e 2σ2 dx
2µ −2µ
1 0 2πσ
1 0

Resultará útil considerar la función Q(x) ≡ PZ (Z ≥ x) donde Z ∼


N (0, 1), es decir: Z ∞
1 y2
Q(x) = √ e− 2 dy. (1.63)
x 2π
 
Entonces si X ∼ N (µ, σ 2 ) se tiene que X−µσ ∼ N (0, 1), luego
  
X(w) − µ x−µ
P(X(w) ≥ x) = P ≥
σ σ
 
x−µ
=Q . (1.64)
σ
Por lo tanto se puede verificar que:
 
τ (ν) − µ1
βπ = Q
σ
 
τ (ν) − µ0
απ = Q . (1.65)
σ
2 log(ν)σ 2 +µ21 −µ20
donde τ (ν) = 2µ1 −2µ0 .

Observaciones:

En general, para test de variables aleatorias continuas es nor-


mal que el evento X ∈ A2 sea de probabilidad cero por lo que
suele obviarse en el cálculo del error de tipo I o II, para este
caso se decidió ser más explicitó solamente por completitud.
El resultado anterior entrega un compromiso entre el error
de tipo I y el valor de ν. Se observa que existe una relación
entre ambos cuya formula explicita no es directa de determi-
nar analı́ticamente. Sin embargo, la intuición detrás es que
a mayor ν es de esperarse un menor error de tipo I (con el
compromiso que aumenta el error de tipo II).
1.4. Caso de Estudio 1: Ruido Gaussiano 25

Si bien fijar el ν me entrega un error de tipo I, en la práctica


el procedimiento es inverso, es decir, se pide un error ϵ (tı́pi-
camente 0.05) con el que a partir de imponer eso, es posible
despejar ν (numéricamente).

Consideremos ahora el caso de múltiples mediciones i.i.d.

H0 :θ = 0 : (X1 , ..., Xn ) ∼ N (µ0 , σ 2 ) → fX1n (x1 , ..., xn |θ = 0)


H1 :θ = 1 : (X1 , ..., Xn ) ∼ N (µ1 , σ 2 ) → fX1n (x1 , ..., xn |θ = 1), (1.66)

Bajo las mismas hipótesis del planteamiento anterior, caracterizaremos


la familia de test óptimos en el sentido de Neyman-Pearson para un
ν ∈ R+ . Nuevamente es importante primero expresar la función de ve-
rosimilitud para cada hipótesis. En este caso poseemos n observaciones
independientes e idénticamente distribuidas (i.i.d.) y recordando que la
verosimilitud conjunta equivale al producto de las marginales cuando
son i.i.d, se tiene que para xn ∈ X = Rn .

n −(xi −µ0 )2
Y 1
fX (x1 , ..., xn |θ = 0) = √ e 2σ2 (1.67)
i=1
2πσ

y
n −(xi −µ1 )2
Y 1
fX (x|θ = 1) = √ e 2σ2 (1.68)
i=1
2πσ

El test se plantea como

−(xi −µ1 )2 −(xi −µ0 )2



si ni=1
Qn
√1 e √1
Q
1 2σ 2 >ν i=1 2πσ e
2σ 2


2πσ


−(xi −µ1 )2 −(xi −µ0 )2

si ni=1
Qn
π(w, x) = √1 e √1
Q
 0 2πσ
2σ 2 <ν i=1 2πσ e
2σ 2

−(xi −µ1 )2 −(xi −µ0 )2




ρ(w) si ni=1
Qn
√1 e √1
 Q

2πσ
2σ 2 =ν i=1 2πσ e
2σ 2

(1.69)
Como en el ejemplo anterior, es mejor expresar la partición de una
26 Unidad I: Detección Paramétrica

forma más cómoda. De sta forma trabajamos una de las desigualdades

n −(xi −µ1 )2
n −(xi −µ0 )2
Y 1 Y 1
√ e 2σ2 >ν √ e 2σ2
i=1
2πσ i=1
2πσ
n 2 n
 n P −(xi −µ1 )  n P −(xi −µ0 )2
1 2σ 2 1 2σ 2
√ ei=1 >ν √ e i=1
2πσ 2πσ
n n
P −(xi −µ1 )2 P −(xi −µ0 )2
2σ 2 2σ 2
ei=1 > νe i=1

n n
X (xi − µ1 )2 X (xi − µ0 )2
− 2
> log(ν) −
2σ 2σ 2
i=1 i=1
Xn n
X
− (xi − µ1 )2 > 2σ 2 log(ν) − (xi − µ0 )2
i=1 i=1
n
X n
X
(xi − µ0 )2 − (xi − µ1 )2 > 2σ 2 log(ν)
i=1 i=1
n
X
x2i − 2xi µ0 + µ20 − (x2i − 2xi µ1 + µ21 ) > 2σ 2 log(ν)
i=1
n
X
−2xi µ0 + µ20 + 2xi µ1 − µ21 > 2σ 2 log(ν)
i=1
n
X
xi (2µ1 − 2µ0 ) + µ20 − µ21 > 2σ 2 log(ν)
i=1
n
X
(2µ1 − 2µ0 ) xi + nµ20 − nµ21 > 2σ 2 log(ν)
i=1
n
1X
(2µ1 − 2µ0 )nx + nµ20 − nµ21 > 2σ 2 log(ν) con xi = x
n
i=1
2σ 2 log(ν) − nµ20
+ nµ21
x>
(2µ1 − 2µ0 )n
(1.70)
1.4. Caso de Estudio 1: Ruido Gaussiano 27
n
P
xi
i=1
donde x = n Con lo que el test ahora queda
2σ 2 log(ν)−nµ20 +nµ21

 1 si x > (2µ1 −2µ0 )n


2σ 2 log(ν)−nµ20 +nµ21
π(w, x) = 0 si x < (2µ1 −2µ0 )n
(1.71)
2σ 2 log(ν)−nµ20 +nµ21


 ρ(w) si x =
(2µ1 −2µ0 )n

Nuevamente como estamos en un o espacio continuo y el evento


2σ 2 log(ν)−nµ20 +nµ21
n
w ∈ Ω : x(w) = (2µ1 −2µ0 )n tiene probabilidad 0 (sea para θ =
0 o θ = 1) ya que la variable aleatoria X sigue una distribución nor-
mal (la combinación lineal de Gaussianas es Gaussiana), luego, estamos
pidiendo la probabilidad de un singleton sobre una variable continua.
Podemos entonces reducir este test a uno determinı́stico, dejándolo co-
mo 
 1 si x ≥ 2σ2 log(ν)−nµ20 +nµ21
(2µ1 −2µ0 )n
π(w, x) = 2 2 2 (1.72)
 0 si x < 2σ log(ν)−nµ0 +nµ1
(2µ1 −2µ0 )n

Para calcular el error de tipo I, trabajando en el espacio Rn puede


no resultar una tarea fácil, sin embargo, se puede recordar que X ∼
N (µ, σ 2 /n), con lo que se define la variable aleatoria Y = X, luego

α = P(π(X(w)) = 1|θ = 0)
2σ 2 log(ν) − nµ20 + nµ21
 
α = P X(w) ≥ |θ = 0
(2µ1 − 2µ0 )n
2σ 2 log(ν)−nµ20 +nµ21
 
X(w) − µ0 (2µ1 −2µ0 )n − u0
α = P √ ≥ √  (1.73)
σ/ n σ/ n
 2
2σ log(ν)−nµ20 +nµ21

(2µ1 −2µ0 )n − u 0
α = Q √ 
σ/ n
R∞ 2
donde Q(x) = √12π x e−y /2 dy. Se ocupó el clásico resultado de la
distribución normalizada N (0, 1). Como observarán, nuevamente existe
una relación entre α y ν y que finalmente sintetiza el resultado visto
en test de hipótesis “se acepta H0 si el promedio es menor que cierto
umbral”.
28 Unidad I: Detección Paramétrica

Propuesto 1.1. Genere la curva ROC del test óptimo explorando un


rango de valores µ ∈ R y de σ 2 para el caso que µ0 = −µ1 = −1.
Comente sus resultados.

Propuesto 1.2. Si definimos d = |µ0 − µ1 | y con ellos SN R = σd =


|µ0 −µ1 |
σ . Encontrar una expresión para απν y βπν en (1.65) como función
de ν, SN R y σ 2 .

1.5. Caso de Estudio 2: Detección Binaria con Observaciones


Discretas
El siguiente ejemplo es un modelo simplificado de un sistema de co-
municaciones óptico. En este problema las observaciones son discretas
por lo que no es posible reducir el problema a un test determinı́stico.

Ejemplo 1.2. Se tiene θ ∈ {0, 1} parámetro fijo que representa el


estado de una variable binaria que se transmite por un canal de co-
municaciones digitales. La variable observada en el receptor es X con
valores en N (la cantidad de fotones medidos por un detector óptico).
El modelo de observación dice que X ∼ P oisson(λ) donde
λ = λ0 si θ = 0
λ = λ1 si θ = 1 (1.74)
es decir
λx0
fX (x|θ = 0) = P(X(w) = x|θ = 0) = e−λ0
x!
x
−λ1 λ1
fX (x|θ = 1) = P(X(w) = x|θ = 1) = e (1.75)
x!
Estudiemos la forma de la familia de test óptimo que nos ofrece el Lem-
ma de Neyman-Pearson y, en particular, encontraremos los parámetros
para el test óptimo de tamaño α ∈ (0, 1). Asumiremos el caso no trivial
donde λ1 > λ0 . La función de razón de verosimilitud está dado por:
 x
fX (x|θ = 1) λ1
l(x) = = eλ0 −λ1 > ν. (1.76)
fX (x|θ = 0) λ0
1.5. Caso de Estudio 2: Detección Binaria con Observaciones Discretas 29

Por lo tanto decidir H1 corresponde al siguiente conjunto:


  x 
ν λ0 −λ1 λ1
A1 = x ∈ N : e >ν
λ0
   
λ1
= x ∈ N : λ0 − λ1 + x ln > ln(ν)
λ0
 
ln(ν) + (λ1 − λ0 )
= x∈N:x> . (1.77)
ln(λ1 ) − ln(λ0 )
De forma mas general, la partición {Aν0 , Aν1 , Aν2 } inducida por la familia
de test óptimos es la siguiente (ver Teorema 1.1):
 
ν ln(ν) + (λ1 − λ0 )
A0 = x ∈ N : x <
ln(λ1 ) − ln(λ0 )
 
ν ln(ν) + (λ1 − λ0 )
A1 = x ∈ N : x >
ln(λ1 ) − ln(λ0 )
 
ν ln(ν) + (λ1 − λ0 )
A2 = x ∈ N : x = , (1.78)
ln(λ1 ) − ln(λ0 )
con λ1 , λ2 ∈ R+ \{0}. Notar que A2 puede ser vacı́o. Si adicionalmente
p es la probabilidad que la variable ρ(w) tome el valor 1, entonces el
test queda descrito por π = {Aν1 , Aν0 , Aν2 , p} y en particular por los
parámetros v y p. Por tanto la expresión para el tamaño del test esta
dada por:
απ = P(X(w) ∈ Aν1 |θ = 0) + p · P(X(w) ∈ Aν2 |θ = 0)
 
∞ xv
X λx0  ln(ν) + (λ1 − λ0 ) 
 · pe−λ0 λ0 ,
= e−λ0 + 1N 
 ln(λ1 ) − ln(λ0 ) 
ln(ν)+(λ1 −λ0 )
x! xv !
x> ln(λ1 )−ln(λ0 )
| {z }
xv ≡
(1.79)
recordando que 1N (xv ) vale uno si xv es natural y 0 si no. Dado un
α ∈ [0, 1] arbitrario, nos pondremos en el caso que existe un test de-
terminı́stico (p = 0) tal que sea de tamaño α. A partir de (1.79), esto
equivale a pedir que ∃x(α) ∈ N tal que:
x(α)
X λx0
1−α= e−λ0 . (1.80)
x!
x=1
30 Unidad I: Detección Paramétrica

Bajo la identidad en (1.80) se toma να (el subı́ndice α indica que ν es


función de α por ser este último un parámetro de diseño) como solución
de:
 
λ1
ln(να ) = x(α) ln − (λ1 − λ0 )
λ0
 
λ1
x(α) ln −(λ1 −λ0 )
να = e λ0
. (1.81)

Si por el contrario para un α dado no es posible encontrar solución para


(1.80) para un x(α) entero positivo, necesariamente se debe recurrir a
un test aleatorio. En este caso podemos considerar:
( ∞ ) ∞
x λx
−λ0 λ0
X X

x0 (α) = arg máx e tal que e−λ0 0 < α
x0 ∈N
x>x
x! ∗
x!
0 x>x0 (α)
(1.82)
x
Es decir el natural x0 (α)∗ que maximice f (x0 ) = ∞ −λ0 λ0 y que
P
x>x0 e x!
garantice que la suma a partir de x0 (α)∗ + 1 sea menor que α. Por lo
tanto la suma desde x0 (α)∗ será mayor que α10 , y tenemos que
∞ x x (α)∗
X
−λ0 λ0 −λ0 λ0 0
e +e > α ⇒ ∃pα ∈ [0, 1] (1.83)
x! x0 (α)∗ !
x>x0 (α)∗

tal que
∞ x x (α)∗
X
−λ0 λ0 −λ0 λ0 0
e +e pα = α. (1.84)
x! x0 (α)∗ !
x>x0 (α)∗

Lo anterior debido a la garantı́a de existencia del Lema de Neyman-


Pearson11 . Finalmente, el test optimo está dado por los parámetros
να → {Aν0α , Aν1α , Aν2α } y pα ∈ (0, 1).

x
10 La función f (x0 ) = ∞ −λ0 λ0 es decreciente
P
x>x0 e x!
11 Esto también se puede deducir por el teorema de los valores intermedios
1.6. Problemas 31

1.6. Problemas
Se presentan a continuación una sección de problemas relacionados
con detección paramétrica.

Problema 1.1. (Detección de variables con distribución Poisson)


Considere una variable aleatoria X con distribución Poisson de paráme-
tro λ.
λk e−λ
PX (X = k) = , (1.85)
k!
a) Determine la función generadora de momentos de X, es de-
cir: X
MX (t) = PX (X = k) · etk , (1.86)
k≥0
t
y verifique que es igual a eλ·(e −1) .
b) Considere X1 ,..,Xn variables aleatorias independientes e
idénticamente distribuidas (i.i.d.) con distribución Poisson
de parámetro λ. Verifique que X = ni=1 Xi es Poisson de
P

parámetro nλ. Indicación: Considere los resultados de pro-


babilidades respecto a suma de variables aleatorias y las pro-
piedades de la función generadora de momentos.
c) Considere el problema de detección binario en el escenario
paramétrico, donde Θ = {0, 1} y se tiene que:
θ = 0 ⇒ X ∼ P oisson(λ0 ), (1.87)
θ = 1 ⇒ X ∼ P oisson(λ1 ) (1.88)
con λ1 > λ0 .
Determine la forma general de la familia de test óptimos
dados por el Lema de Neyman-Pearson, y analice la forma
de las zonas de decisión considerando que λ1 > λ0 . Comente.
d) Encuentre el test óptimo para el tamaño α = 0,01. Considere
λ0 = 2 y λ1 = 4. Indicación: Notar que un test aleatorio
podrı́a ser necesario.
e) Encuentre los valores de tamaño α sobre los cuales los test
deterministicos son óptimos o en su defecto la condición que
se debe cumplir para ello.
32 Unidad I: Detección Paramétrica

Problema 1.2. (Detección de sı́mbolos sobre ruido aditivo Gaussiano)


Considere el problema clásico de comunicaciones digitales, de la detec-
ción de sı́mbolos binarios contaminadas por ruido aditivo Gaussiano.
En este caso Θ = {0, 1} y la variable aleatoria de observación dado
θ ∈ Θ esta dada por:
X = Sθ + N (1.89)
con S0 = µ amd S1 = −µ, µ > 0 y N ∼ N (0, σ 2 ). Del Lema de
Neyman-Pearson, se sabe que la familia de test óptimos {πη (·) : η ∈ R},
es determinı́stica y ofrece la siguiente estructura:
πη (x) = 1, si ln(l(x)) > η (1.90)
πη (x) = 0, si ln(l(x)) ≤ η (1.91)
fX (x|θ=1)
donde l(x) = fX (x|θ=0) es la razón de las verosimilitud (the likelihood
ratio).

a) Verifique que la regla de decisión en este caso reduce a:


πη (x) = 1 si x < τη y πη (x) = 0 de lo contrario. Encuentre
una expresión para τη .
b) Verifique que Y = ln(l(X)) es una variable aleatoria Gaus-
siana y determine su media y varianza para los dos escenarios
θ = 0 y θ = 1.
c) Encuentre expresiones para el poder y el tamaño de πη (·)
como función de los parámetros del problema (σ 2 , µ,η) y la
R∞ 2
función Q(z) = z √12π e−y /2 dy.
d) Considere σ 2 = 1, µ = 1,y con ello genere la curva ROC
cubriendo un rango representativo de pares de valores de
tamaño y poder. (Utilice Python o el lenguaje de programa-
ción que desee para crear la curva).
e) Repita el computo anterior, considerando los si-
guientes valores para la varianza del ruido σ 2 =
10−3 , 10−2 , 10−1 , 1, 102 , 103 . Analice los resultados ob-
tenidos y comente sobre la complejidad del problema de
decisión.
1.6. Problemas 33

Problema 1.3. (Múltiples mediciones)


Considere el mismo escenario del Problema 1.2, pero asuma que se
tienen múltiples mediciones (o en su defecto transmisiones sucesivas
del mismo sı́mbolo),
X1 , X2 , . . . , Xn
y donde Xi = Sθ + Ni (i = 1, .., n), para lo cual N1 , .., Nn son variables
aleatorias i.i.d. que siquen una N (0, σ 2 ). Ahora la regla de decisión
enfrenta el vector aleatorio Gaussiano X̄ = (X1 , .., Xn ) con valores en
Rk y va al espacio de decisión Θ = {0, 1}.

a) Condicionado a los valores de θ ∈ Θ, determine la distribu-


ción de X̄ k y sus parámetros.
b) Analice la familia de test óptimos y verifique que ∀x̄ ∈ Rn
2
log l(x̄) = 2 µ̄t · x̄
σ
donde µ̄ = (µ, µ, ..., µ) ∈ Rn . Especı́ficamente para n = 2
y η = 0, determine gráficamente las zonas de decisión, es
decir:
A0 = πη−1 ({0}) = x̄ ∈ R2 : ln l(x̄) ≤ η ,


A1 = πη−1 ({1}) = x̄ ∈ R2 : ln l(x̄) > η .




c) Considere µ = 1, σ 2 = 10 y n = 1, 10, 102 , 103 , respecti-


vamente. Para estos distintos escenarios determine el test
óptimo πηn : Rn → {0, 1} (es decir determine η) tal que:
απηn = E(πηk (X̄)|θ = 0) = 0,01
y con ello grafique βπηn = E(πηn (X̄)|θ = 1) como función de
n. Comente que observa en el poder del test y cual es la
influencia en el número de mediciones.
d) Complemente el análisis anterior generando la curva ROC
completa para los escenarios n = 1, 10, 102 , 103 . Comente si
este resultado es consistente con lo observado en el punto
anterior.
34 Unidad I: Detección Paramétrica

Problema 1.4. Considere un problema de detección binario Θ =


{0, 1} donde la variable aleatoria de observación X toma valores en
la recta real X = R y sigue las estadı́sticas como función del parámetro
θ (es decir, fθ (x)) dadas por:

θ = 0 : X ∼ U nif ome[0, 1]

θ = 1 : X ∼ U nif ome[0, K]
con K > 1.

a) Determine la familia de test óptimos en el sentido del Lema


de Neyman-Pearson.
b) Fije un umbral τ ∈ R y considere el siguiente test deter-
minı́stico:
fX (x|θ = 1)
πτ (x) = 1 si log ≥τ (1.92)
fX (x|θ = 0)
y πτ (x) = 0 si la condición en Eq. (1.92) no se cumple12 .
Determine las regiones de decisión de πτ (·), es decir los con-
juntos Aτ0 = πτ−1 ({0}) y Aτ1 = πτ−1 ({1}). Especifique como
cambian dichas regiones como función de τ e identifique ran-
gos concretos en el espacio de posibles valores de τ .
c) Del punto anterior, determine las expresiones para el poder
y tamaño del test como función del valor de τ . Recordar que:

απτ = P(πτ (X(w)) = 1|θ = 0)


βπτ = P(πτ (X(w)) = 1|θ = 1)

d) Determine la curva ROC. Es posible obtener la curva ROC


completa (para todos los tamaños) con test determinı́sticos?
Justifique su respuesta.
e) Vuelva al punto b) y d) y discuta que pasa con las regiones
de decisión y la curva ROC si K → ∞.

12 Considere 0 x
para estos efectos que log 0
≡ lı́mx→0 log x
= 0.
1.6. Problemas 35

Problema 1.5. Considere una secuencia binaria de largo n


(s1 , .., sn ) ∈ {0, 1}n transmitida por un canal binario simétrico
(BSC). La probabilidad condicional de observar (x1 , .., xn ) ∈ {0, 1}n a
la salida del canal dado que se transmite la secuencia (s1 , .., sn ) esta
dada por el siguiente modelo:
n
Y
PX1 ,..,Xn |S1 ,..,Sn (x1 , .., xn |s1 , .., sn ) = PX|S (xi |si )
i=1
n
Y
= (ϵ · 1{xi ̸=si } + (1 − ϵ) · 1{xi =si } )
i=1
(1.93)
donde ϵ ∈ (0, 1) es la probabilidad de error del canal.

a) Encuentre una expresión para


PX1 ,..,Xn |S1 ,..,Sn (x1 , .., xn |s1 , .., sn ) como función de
n
X
dH ((x1 , .., xn ); (s1 , .., sn )) = 1{xi ̸=si } ,
i=1
conocida como la distancia de Hamming entre las palabras
binarias.
b) Si definimos el conjunto B̄k (s1 , .., sn ) =
{(x1 , .., xn ) : dH ((x1 , .., xn ); (s1 , .., sn )) ≤ k} ⊂ {0, 1}n
para todo k ∈ {0, .., n}, determine una expresión para.
ηk = PX1 ,..,Xn |S1 ,..,Sn (B̄k (s1 , .., sn )|s1 , .., sn ). (1.94)
De una interpretación a esta probabilidad del punto de vis-
ta del problema de transmitir (s1 , .., sn ) y recibir (x1 , .., xn ).
Indicaciones: Notar que dH ((x1 , .., xn ); (s1 , .., sn )) = k equi-
vale a decir que hay k-bits donde (x1 , .., xn ) difiere de
(s1 , .., sn ). Puede ser útil, en primera instancia, considerar
el conjunto
Āk (s1 , .., sn ) = {(x1 , .., xn ) : dH ((x1 , .., xn ); (s1 , .., sn )) = k}
⊂ {0, 1}n y determinar
ςk = PX1 ,..,Xn |S1 ,..,Sn (Āk (s1 , .., sn )|s1 , .., sn ). (1.95)
36 Unidad I: Detección Paramétrica

c) Considere que tenemos dos hipótesis, Θ = {0, 1}, y que dado


θ = 0 entonces se transmite (0, 0, ..., 0) ∈ {0, 1}n y que dado
θ = 1 se transmite (1, 1, ..., 1) ∈ {0, 1}n . Utilice el Lemma
de Neyman-Pearson para determinar la forma de la familia
de test óptimos en este problema. Indicación: Notar que en
este caso la función de probabilidad de masa se construye
como:

fX1 ,..,Xn (x1 , .., xn |θ) = PX1 ,..,Xn |S1 ,..,Sn (x1 , .., xn |θ, θ, ..., θ).

d) Restrinja el análisis al conjunto de decisión


 
n fX1 ,..,Xn (x1 , .., xn |θ = 1)
A1 = (x1 , .., xn ) ∈ {0, 1} : >v
fX1 ,..,Xn (x1 , .., xn |θ = 0)

de parámetro v. Verifique que este conjunto esta dado por


la regla de mı́nima distancia, es decir (x1 , .., xn ) ∈ A1 si, y
solo si,

dH ((x1 , .., xn ); (1, 1, .., 1)) < dH ((x1 , .., xn ); (0, 0, .., 0))+τ (v, ϵ),
(1.96)
y determine la expresión de τ (v, ϵ) ∈ R, función de v y ϵ.
Repita el mismo análisis y determine los conjuntos
 
fX1 ,..,Xn (x1 , .., xn |θ = 1)
A0 = (x1 , .., xn ) : <v
fX1 ,..,Xn (x1 , .., xn |θ = 0)
 
fX1 ,..,Xn (x1 , .., xn |θ = 1)
A2 = (x1 , .., xn ) : =v
fX1 ,..,Xn (x1 , .., xn |θ = 0)
como función de la regla de minina distancia sugerida en
Eq.(1.96). Indicación: Utilice lo obtenido en el punto a).
e) Considere n par, v = 1 y P (ρ(w) = 1) = 0,5. Muestre
primero que τ (v = 1, ϵ = 0,5) = 0.

Verifique primero que en el caso n par, A2 ̸= ∅, ca-


racterice el conjunto y determine su cardinalidad.
Encuentre expresiones para el tamaño y el poder del
test.
1.6. Problemas 37

Indicación: Será de gran utilidad obtener las expresiones


obtenidas en Eq.(1.94) y Eq.(1.95). En particular, asocie
los conjuntos A0 , A1 y A2 a los conjuntos B̄k (s1 , .., sn ) y
Āk (s1 , .., sn ) del punto b).
f) (PENDIENTE)13 Consideremos el problema del punto c),
pero en un contexto Bayesiano, done PΘ (Θ = 0) = PΘ (Θ =
1) = 0,5. Determine el test Bayesiano óptimo para la función
de costo 0-1 (es decir L0,0 = L1,1 = 0 y L1,0 = L0,1 = 1)
y verifique formalmente que la solución esta dada por la
siguiente estructura:

π ∗ (x1 , .., xn ) = 0 si:


dH ((x1 , .., xn ); (1, 1, .., 1)) > dH ((x1 , .., xn ); (0, 0, .., 0))
(1.97)
π ∗ (x1 , .., xn ) = 1 si:
dH ((x1 , .., xn ); (1, 1, .., 1)) < dH ((x1 , .., xn ); (0, 0, .., 0))
(1.98)
π ∗ (x1 , .., xn ) = 0 o 1 si:
dH ((x1 , .., xn ); (1, 1, .., 1)) = dH ((x1 , .., xn ); (0, 0, .., 0)).
(1.99)

13 Este problema requiere conocimientos del contexto Bayesiano.


2
Unidad II: Detección Bayesiana

En esta unidad la variable a inferir Θ se modela como una variable


aleatoria en un conjunto finito que depende (estadı́sticamente) de la
observación X, por lo que deja de ser un parámetro a diferencia del
caso paramétrico. Esto entrega una flexibilidad mayor ya que es posible
modelar el problema usando la Teorı́a de Bayes.

2.1. Formalización del Problema de Detección Bayesiano


En el contexto Bayesiano Θ se modela como una variable aleatoria
con distribución PΘ en A = {1, .., k}, k ∈ N, (es decir a valores finitos),
PΘ se le llama distribución a priori. En este contexto tenemos que,
dado Θ = θ0 se tiene una probabilidad condicional de la variable de
observación X que está dada por:

P(X(w) ∈ A|Θ(w) = θ). (2.1)

38
2.1. Formalización del Problema de Detección Bayesiano 39

Alternativamente esta probabilidad se puede caracterizar por la distri-


bución inducida PX|Θ (A|θ) en X. De esta forma tenemos que ∀B ⊆ X:

P(X(w) ∈ B, Θ(w) = θ) = PX,Θ (B, {θ})


= PΘ ({θ}) · PX|Θ (B|{θ}) . (2.2)
| {z }
Regla de Probabilidad Condicional

Tı́picamente X toma valores en X = Rn , n ∈ N y Θ toma valores en


A = {1, ..., k}, por lo tanto, PΘ (Θ = θ) = PΘ ({θ}) denota la función
de probabilidad de masa de Θ. Por otro lado se tiene:
Z
PX|Θ (A|θ) = fX|Θ (x|θ)dx (2.3)
A

donde fX|Θ (x|θ) denota la función de densidad de probabilidad condi-


cional de X dado Θ = θ. Similarmente:
X
PX|Θ (A|θ) = PX|Θ (X = x|Θ = θ), (2.4)
x∈A

donde PX|Θ (X = x|Θ = θ) es la función de masa condicional. Final-


mente la distribución del vector conjunto (X, Θ) queda determinada
por:

P(X(w) ∈ B, Θ(w) = θ) = PX,Θ (B, {θ})


Z
= PΘ ({θ}) · fX|Θ (x|θ)dx, (2.5)
B

o bien si es discreto,

P(X(w) ∈ B, Θ(w) = θ) = PX,Θ (B, {θ})


X
= PΘ ({θ}) · PX|Θ (X = x|Θ = θ), (2.6)
x∈B

para todo B ⊂ X y θ ∈ A.

Con este breve repaso, ahora podemos introducir los elementos


que componen un problema de detección Bayesiano.

Un espacio de observación X y variables aleatorias que to-


man valores en X. X se conoce como observación o dato. X
40 Unidad II: Detección Bayesiana

es un espacio numérico abstracto y también puede ser multi-


dimensional, por ejemplo, X = Rn con n ∈ N en cuyo caso las
observaciones corresponden a un vector aleatorio X1n ∈ X.
Un espacio de decisión A finito o numerable y una variable
aleatoria Θ con valores en A.
Distribuciones de probabilidad condicionales indexadas por
θ ∈ Θ, es decir, PX (·|Θ = θ), θ ∈ A. Además se posee
una distribución de probabibilidad sobre Θ, PΘ (·) la cual se
conocerá como distribución a priori o prior.
Una regla, detector o test π : X 7→ A que será la función que
tomará una decisión en base a algún criterio.
Una función de costo o riesgo L : A × A → R+ que penaliza
la incorrecta decisión.

En adelante hablaremos más en detalle del riesgo ya que es un elemento


nuevo respecto al caso paramétrico.

2.2. Riesgo Promedio


Consideremos una función de riesgo: L : A × A → R+ que penaliza
los errores en la toma de decisión y una regla de decisión: π : X → A.
Dado un θ0 que determina las estadı́sticas de las observaciones X ∼
fX|Θ (·|θ0 ), definimos el riesgo promedio condicionado a θ0 como:

 Z


 L(θ, π(x))fX|Θ (x|θ)dx
|X



 {z }
Caso espacio continuo con f.d.p condicional

R(θ, π) ≜ E(L(θ, π(X))|Θ = θ) = X


 L(θ, π(x))PX|θ (X = x|Θ = θ)



 x∈X
 | {z }
Caso espacio discreto con f.p.m condicional
(2.7)
La expresión anterior está condicionada a una realización de Θ. Por lo
tanto R(Θ, π) es una variable aleatoria (función de Θ y X) y podemos
evaluar la función de costo promedio o Riesgo Bayesiano como el
promedio de R(Θ, π) con respecto a la variable Θ (asumiremos el caso
2.3. Decisión Óptima: Distribución a Posteriori 41

continuo para X):

r(π) ≜ EΘ (R(Θ, π))


X
= R(θ, π) · PΘ (Θ = θ)
θ∈A
X
= E (L(θ, π(X))|Θ = θ) · PΘ (Θ = θ)
θ∈A
X Z
= PΘ (Θ = θ) · L(θ, π(x))fX|Θ (x|θ)dx
θ∈A X
XZ
= L(θ, π(x)) · PΘ (Θ = θ) · fX|Θ (x|θ)dx
θ∈A X
XZ
= L(θ, π(x)) · fX,Θ (x, θ) dx
θ∈A X
| {z }
densidad conjunta

= EX,Θ {L(Θ, π(X))}. (2.8)

2.3. Decisión Óptima: Distribución a Posteriori


Recapitulando, la regla óptima Bayesiana dependerá de los siguien-
tes elementos previamente introducidos:

i) PΘ distribución a priori.
ii) fX|Θ (·|θ), función de densidad de probabilidad condicional
(o de masa según sea el caso).
iii) L : A × A → R+ , función de costo.

Luego, la solución del problema de detección Bayesiana se plantea co-


mo:

π ∗ = arg mı́n r(π)


π∈F (X,A)

= arg mı́n EX,Θ (L(Θ, π(X))). (2.9)


π∈F (X,A)

Por lo tanto, π ∗ es la regla que minimiza el riesgo Bayesiano. Si anali-


zamos de forma más detallada la función objetivo en (2.9) tenemos lo
42 Unidad II: Detección Bayesiana

siguiente:
XZ
EX,Θ {L(Θ, π(X))} = L(θ, π(x))fX,θ (x, θ)dx
θ∈A X
Z "X #
= L(θ, π(x))PΘ|X (θ|x) fX (x)dx. (2.10)
X θ∈A
P
Se puede notar que el término L(θ, π(x))PΘ|X (θ|x) es función ex-
θ∈A
clusiva de la evaluación de π(·) en el punto x y no de los restantes
valores π(y) que adopta en y ∈ X\{x}. Por lo tanto, minimizar (2.9)
equivale a minimizar el argumento de la función (2.10) punto a punto,
es decir, dada una observación o ∀x ∈ X, π ∗ (x) es solución de:
X
π ∗ (x) = arg mı́n L(θ, y)PΘ|X (Θ = θ|x), ∀x ∈ X. (2.11)
y∈A
θ∈A

Observación: Interpretando la regla óptima Bayesiana en (2.11), dada


una observación x, π(x) es la decisión que minimiza el riesgo promedio,
respecto a la distribución a posteriori de Θ dado el evento X = x.

Por Bayes sabemos que la distribución a posteriori se obtiene


como:
fΘ,X (θ, x) fX|Θ (x|θ)PΘ (Θ = θ)
PΘ|X (Θ = θ|x) = = P (2.12)
fX (x) fX|Θ (x|θ̃)PΘ (Θ = θ̃)
θ̃∈A

donde
X X
fX (x) = fX,Θ (x, θ̃) = fX|Θ (x|θ̃)PΘ (Θ = θ̃). (2.13)
θ̃∈A θ̃∈A

De esta manera la regla de decisión óptima es solución de


X fX|Θ (x|θ)PΘ (Θ = θ)
π ∗ (x) = arg mı́n L(θ, y) P , ∀x ∈ X. (2.14)
y∈A
θ∈A
fX|Θ (x|θ̃)PΘ (Θ = θ̃)
θ̃∈A

La expresión anterior tiene la ventaja de ser general, pero a su vez


dificil de manejar, veremos una función de costo particular que reduce
el problema significativamente.
2.3. Decisión Óptima: Distribución a Posteriori 43

2.3.1. Función de costo L0,1


Consideraremos el caso especial de la función de costo 0-1 en (2.15).
Ésta juega un rol central en problemas de reconocimiento de patrones
y comunicaciones digitales pues su costo promedio equivale a la proba-
bilidad de error de decisión. La función de costo 0-1 esta dada por:

0 si x = y
L0,1 (x, y) = ∀x, y ∈ A (2.15)
1 si x ̸= y
Notar que el costo es simétrico y penaliza con el mismo valor el evento
de error. Dada una regla π y un valor θ ∈ A tenemos que el riesgo
promedio condicional de la función L0,1 es:
R0,1 (θ, π) = EX (L0,1 (θ, π(X))|Θ = θ) (2.16)
Z
= L0,1 (θ, π(x))fX|Θ (x|θ)dx. (2.17)
X
Como se desarrolló anteriormente en el caso paramétrico, sabemos que
la regla π particiona el espacio de observación. Podemos definir la par-
tición inducida por la regla π como {A1 , ..., Ak } donde tenemos que:
Aθ = π −1 ({θ}) ⊂ X ∀θ ∈ {1, ..., k} = A. (2.18)
Por definición se puede verificar que:
∀x ∈ Aθ L(θ, π(x)) = 0
∀x ̸∈ Aθ L(θ, π(x)) = 1, (2.19)
por lo tanto se puede escribir la función de costo mediante la siguiente
indicatriz:
L(θ, π(x)) = 1Acθ (x). (2.20)
Con esta identidad y gracias a la propiedad de la esperanza, tenemos
que:
Z
R0,1 (θ, π) = 1Acθ (x) · fX|Θ (x|θ)dx
ZX

= fX|Θ (x|θ)dx
Acθ

= PX|Θ (Acθ |Θ = θ) (2.21)


= PX|Θ (X ∈ Acθ |Θ = θ)
= PX|Θ (π(X) ̸= θ|Θ = θ). (2.22)
44 Unidad II: Detección Bayesiana

Observación: De la expresión (2.22) R0,1 (θ, π) representa la probabi-


lidad de error de la regla π bajo la hipótesis Θ = θ.

La función de costo promedio 0-1 de la regla π es: .

r0,1 (π) = EX,Θ {L0,1 (Θ, π(X))}


k
X
= PΘ (Θ = θ) · R0,1 (θ, π)
θ=1
Xk
= PΘ (Θ = θ) · PX|Θ (Acθ |θ) de 2.21 (2.23)
θ=1
!
[
= PX,Θ Acθ × {θ} (2.24)
θ∈A
=
|{z} PX,Θ ({(x, θ) ∈ X × A : π(x) ̸= θ}). (2.25)
definición de π

Alternativamente:
k
X
r0,1 (π) = PΘ (Θ = θ) · PX|Θ (Acθ |θ) (2.26)
θ=1
Xk
= PΘ (Θ = θ) · PX|Θ (π(X) ̸= θ|Θ = θ)
θ=1
k
X
= PX,Θ (π(X) ̸= θ, Θ = θ)
θ=1
= PX,Θ (π(X) ̸= Θ). (2.27)

Observación: La función de costo promedio r0,1 (π) es la probabilidad


de error de π respecto a la distribución conjunta de (X, Θ), ver (2.27).
Por lo tanto r0,1 (π) se entiende como la probabilidad de incorrecta
clasificación. Del punto de vista de cómputo este valor es el promedio
de los valores {R0,1 (θ, π) : θ ∈ A} con respecto a la distribución a priori
de Θ, es decir:
k
X
Perror (π) = r0,1 (π) = PΘ (θ) · R0,1 (θ, π). (2.28)
θ=1
2.4. Caso de Estudio 1: Canal Binario Simétrico 45

Si consideramos la función de costo L0,1 , entonces (2.11) reduce a:


X

π0,1 (x) = arg mı́n L0,1 (θ, y)PΘ|X (Θ = θ|x)
y∈A
θ∈A
X
= arg mı́n PΘ|X (Θ = θ|x)
y∈A
θ∈A θ̸=y

= arg mı́n PΘ|X (A\{y}|x)


y∈A

= arg mı́n 1 − PΘ|X (Θ = y|x)


y∈A

= arg máx PΘ|X (Θ = y|x), (2.29)


y∈A

es decir, cuando la función de costo es L0,1 la regla Bayesiana ópti-


∗ (x) corresponde al criterio de maximizar la probabilidad
ma π0,1
a posteriori o regla MAP (maximum a posteriori). Es posible seguir
trabajando la exrepsión gracias a la regla de Bayes, con lo quue:

π0,1 (x) = arg máx PΘ|X (Θ = θ|x)
θ∈A
fΘ,X (θ, x)
= arg máx
θ∈A fX (x)
= arg máx fΘ,X (θ, x)
θ∈A
= arg máx fX|Θ (x|θ) · PΘ (Θ = θ). (2.30)
θ∈A
1
Un caso particular a considerar es cuando PΘ (θ) = N (distribución a
priori equiprobable), se tiene que:

π0,1 (x) = arg máx fX|Θ (x|θ) (2.31)
θ∈A

que corresponde al criterio de máxima verosimilitud o ML (maxi-


mum likelihood).

2.4. Caso de Estudio 1: Canal Binario Simétrico


El canal binario simétrico es un ejemplo básico en comunicacio-
nes, la idea es que un bit de información (0 o 1) es transmitido por
un canal hacia un receptor, quien debe decidir si el sı́mbolo recibido
corresponde al transmitido. Consideremos el siguiente canal de trans-
misión, modelado mediante probabilidades condicionales: Se tiene la
46 Unidad II: Detección Bayesiana

Figura 2.1: Canal Binario Simétrico

siguiente relación:

1 − ϵ si x = 0
PX|Θ (X = x|Θ = 0) = (2.32)
ϵ si x = 1

ϵ si x = 0
PX|Θ (X = x|Θ = 1) = (2.33)
1 − ϵ si x = 1
Es decir, la probabilidad de que el sı́mbolo sea intercambiado al pasar
por el canal es ϵ, por otra parte, la probabilidad de que el sı́mbolo
no cambie es 1 − ϵ. Por otro lado, asumiremos que PΘ (Θ = 1) = p
y Pθ (Θ = 0) = 1 − p. En general consideremos una función de costo
L(v1 , v2 ) ∀v1 , v2 ∈ {0, 1}

A
0 1
A
0 l00 = 0 l01 = 5
1 l10 = 7 l11 = 0

Sabemos que la regla óptima dada una observación x ∈ {0, 1} está dada
por (2.11), más precisamente,
X
π ∗ (x) = arg mı́n L(θ, y)PΘ|X (Θ = θ|x), ∀x ∈ X. (2.34)
y∈A
θ∈A
2.4. Caso de Estudio 1: Canal Binario Simétrico 47

Luego analizaremos la regla óptima según sea la observación recibida.


Supongamos que x = 1, luego la regla óptima es:
π ∗ (1) = arg mı́n L(0, θ)PΘ|X (Θ = 0|X = 1) + L(1, θ)PΘ|X (Θ = 1|X = 1)

θ∈{0,1}


= arg mı́n L(0, 0)PΘ|X (Θ = 0|X = 1) + L(1, 0)PΘ|X (Θ = 1|X = 1), L(0, 1)PΘ|X (Θ = 0|X = 1) + L(1, 1)PΘ|X (Θ = 1
θ | {z } | {z
θ=0 θ=1
 
 
= arg mı́n L(1, 0)PΘ|X (Θ = 1|X = 1), L(0, 1)PΘ|X (Θ = 0|X = 1)
θ | {z } | {z }
θ=0 θ=1
 

 

fX,Θ (1, 1) fX,Θ (1, 0)
 
= arg mı́n l10 , l01
θ  f (1, 0) + fX,Θ (1, 1) fX,Θ (1, 0) + fX,Θ (1, 1) 
| X,Θ
 {z } | {z }

θ=0 θ=1
 

 

 fX|Θ (1|1)PΘ (Θ = 1) fX|Θ (1|0)PΘ (Θ = 0) 
= arg mı́n l10 , l01
θ  f (1|0)PΘ (Θ = 0) + fX|Θ (1|1)PΘ (Θ = 1) fX|Θ (1|0)PΘ (Θ = 0) + fX|Θ (1|1)PΘ (Θ = 1) 
| X|Θ
 {z } | {z }
θ=0 θ=1
 

 

(1 − ϵ)p ϵ(1 − p)
 
= arg mı́n l10 , l01 (2.35)
θ  ϵ(1 − p) + (1 − ϵ)p ϵ(1 − p) + p(1 − ϵ) 
| {z } | {z }
θ=0 θ=1

Particularicemos el análisis cuando PΘ (Θ = 0) = PΘ (Θ = 1) = 1/2 y


ϵ = 1/3. La ecuación (2.35) reduce a:
 
 
14 5
 
π ∗ (1) = arg mı́n ,
θ  3 |{z}
|{z} 3 
θ=0 θ=1

∗ 5 14
π (1) = 1 dado que <
3 3

Análogamente, cuando x = 0, tenemos que:


 

 

pϵ (1 − ϵ)(1 − p)
 
π ∗ (0) = arg mı́n l10 , l01
θ 
 pϵ + (1 − ϵ)(1 − p) (1 − ϵ)(1 − p) + pϵ 
| {z } | {z }
θ=0 θ=1
 
 
7 10
 
= arg mı́n ,
θ  3 |{z}
|{z} 3 

θ=0 θ=1

π ∗ (0) = 0
48 Unidad II: Detección Bayesiana

Por lo tanto la regla óptima en este caso es simplemente la función


identidad. Lo anterior tiene sentido pues el canal no es lo suficiente-
mente corrupto como para pensar que el sı́mbolo recibido es distinto
al que se transmite. Luego la decisión óptima implica creer que el
sı́mbolo que se recibe es el correcto.

Propuesto:

a- Analizar el caso l01 = l10 = 1, l00 = l11 = 0 (Regla MAP)


como función de p ∈ (0, 1)
b- Suponga p = 12 y la función costo L0,1 , determine el régimen
en ϵ donde π ∗ (x) = x y por el contrario donde π ∗ (x) = 1 − x

2.5. Caso de Estudio 2: Modelo Gaussiano


Consideremos m1 ∈ Rn y que Θ toma valores en A = {1, 2} con
probabilidad p1 y p2 . El modelo asume lo siguiente:
X = mΘ + N (2.36)
donde X es un vector de dimensión n y N ∼ N (0, σ 2 In×n )
(donde In×n
es la matriz identidad). Por lo tanto tenemos las siguiente probabilida-
des condicionales :
X|Θ = 1 ∼ N (m1 , σ 2 In×n )
X|Θ = 2 ∼ N (m2 , σ 2 In×n ) (2.37)
El criterio óptimo bajo la regla L0,1 dada una observación x ∈ Rn es
θ̂ = arg máx PΘ|X (θ|x)
θ∈{1,2}

= arg máx fX|Θ (x|θ)PΘ (Θ = θ)


θ∈{1,2}
h i
1 −1 (x−mθ )t I
σ2
(x−mθ )
= arg máx n e 2 pθ (2.38)
θ∈{1,2} (2π) 2 σ 2n

Considermos la siguiente región de decisión, aquella donde se decide


Θ = 1,:
 h i h i 
n 1 − 12 (x−m1 )t I2 (x−m1 ) 1 − 21 (x−m2 )t I2 (x−m2 )
S1,2 = x ∈ R : n e σ p1 > n e σ p2 ,
(2π) 2 σ 2n (2π) 2 σ 2n
(2.39)
2.5. Caso de Estudio 2: Modelo Gaussiano 49

dicho de otra forma, esta zona corresponde a la zona donde PΘ|X (Θ =


1|X = x) es mayor que PΘ|X (Θ = 2|X = x). Analizamos la condición
de pertenencia en S1,2 con más detalle, tomando logaritmo:
     
1 I 1 I p2
− (x − m1 )t 2 (x − m1 ) + (x − m2 )t 2 (x − m2 ) > log
2 σ 2 σ p1
 
1  p2
||x − m2 ||2 − ||x − m1 ||2 > log

2σ 2 p1
 
p2
||x||2 − 2⟨x, m2 ⟩ + ||m2 ||2 − ||x||2 + 2⟨x, m1 ⟩ − ||m1 ||2 > 2σ 2 log
p1
||m2 ||2 − ||m1 ||2
 
p1
⟨x, (m2 − m1 )⟩ < + σ 2 log
2 p2
(2.40)

Es decir tenemos de (2.40) que:

||m2 ||2 − ||m1 ||2


  
n 2 p1
S1,2 = x ∈ R : ⟨x, (m2 − m1 )⟩ < + σ log .
2 p2
(2.41)
Si simplificamos al caso ||m1 || = ||m2 || = r y p2 = p1 la regla reduce
a:
S1,2 = {x ∈ Rn : ⟨x, (m2 − m1 )⟩ ≤ 0} . (2.42)

Supongamos ahora que estamos en el escenario equiprobable y además


asumiendo la función de costo L0,1 , luego, p1 = p2 = 12 , vemos que el
criterio de máxima verosimilitud implica la regla de mı́nima distancia:

πM L (x) = arg mı́n ||x − mθ || (2.43)
θ∈{1,2}

donde
S1,2 = {x ∈ Rn : ||x − m1 || < ||x − m2 ||} , (2.44)
∗ (x) = 1 si ||x − m || < ||x − m ||.
por lo tanto, πM L 1 2

Entonces cuando p1 = p2 = 12 el criterio de máxima verosimili-


tud reduce a:

1 si ||x − m1 || < ||x − m2 ||
πM L (x) = (2.45)
2 si ||x − m1 || ≥ ||x − m2 ||
50 Unidad II: Detección Bayesiana

Figura 2.2: Diagrama región S12

Por lo tanto
S12 = π({1})−1 = {x ∈ Rn : πM L (x) = 1}
= {x ∈ Rn : ||x − m1 || < ||x − m2 ||}
||m2 ||2 − ||m1 ||2
 
n
= x ∈ R : ⟨x, (m2 − m1 )⟩ < .
2
es la regla de mı́nima distancia. Finalmente evaluamos la probabilidad
de error
pe = EX,Θ (L(Θ, π(X)))
X
= PΘ (Θ = θ)PX,Θ (π(X) ̸= θ|Θ = θ)
θ∈{1,2}
1 1
= PX|Θ (π(X) ̸= 1|Θ = 1) + P (π(X) ̸= 2|Θ = 2)
2 2 X|Θ
1 1
= PX|Θ (π(X) = 2|Θ = 1) + P (π(X) = 1|Θ = 2)
2 2 X|Θ
2.5. Caso de Estudio 2: Modelo Gaussiano 51

Figura 2.3: Diagrama región de mı́nima distancia cuando n = 2.

Por simetrı́a analizaremos solamente PX|Θ (π(X) = 2|Θ = 1), lo que


nos lleva a:

||m2 ||2 − ||m1 ||2


 
perror,1 = PX ⟨X, (m2 − m1 )⟩ ≥ X = m1 + N
2
||m2 ||2 − ||m1 ||2
 
t
= PN N , (m2 − m1 ) + m1 (m2 − m1 ) ≥
2
||m2 ||2 − ||m1 ||2
 
2
= PN N , (m2 − m1 ) + ⟨m1 , m2 ⟩ − ||m1 || ≥
2
2 2
 
||m2 || + ||m1 || − 2⟨m1 , m2 ⟩
= PN N , (m2 − m1 ) ≥
2
2
 
t ||m1 − m2 ||
= PN N (m2 − m1 ) ≥ (2.46)
2
52 Unidad II: Detección Bayesiana

Notar que N es un vector Gaussiano multidimensional, lo que signi-


t
fica que N (m2 − m1 ) es una variable aleatoria Gaussiana de media
t
E(N (m2 − m1 )) = 0 y varianza:

t t t
E((N (m2 − m1 ))2 } = E{(N (m2 − m1 ))(N (m2 − m1 )))
t
= E((m2 − m1 )N N (m2 − m1 ))
t
= (m2 − m1 )E(N N )(m2 − m1 )
= (m2 − m1 )σ 2 I(m2 − m1 )
= σ 2 ||m2 − m1 ||2 (2.47)

t
Luego, definiendo Z = N (m2 − m1 ), tenemos que

||m1 − m2 ||2 ||m1 − m2 ||2


   
t
PN N (m2 − m1 ) ≥ = PZ Z ≥
2 2
||m1 − m2 ||2
 
Z
= PZ ≥
σ||m2 − m1 || 2σ||m2 − m1 ||
 
||m1 − m2 ||
=Q (2.48)

R∞ 2
con Q(z) = √1 e−y /2 dy. Finalmente,

z

 
||m1 − m2 ||
perror,1 = Q (2.49)

La razón SN R = ||m1 −m
σ
2 ||
en (2.49) se conoce como la razón señal a
ruido del problema de detección. Cuando se tiene una variable aleatoria
Z positiva de esperanza finita, es posible utilizar la desigualdad de
Markov.

E(Z)
PZ (Z ≥ z) ≤ . (2.50)
z
2.5. Caso de Estudio 2: Modelo Gaussiano 53

con z ∈ R+ . Con esto  podemos obtener una cota superior para la
||m1 −m2 ||
función Q 2σ , considerando Z ∼ N (0, 1) y

||m1 − m2 ||2
   
||m1 − m2 || 2
PZ Z ≥ ≤ PZ Z >
2σ 4σ 2
E(Z 2 )4σ 2

||m1 − m2 ||2
4σ 2
=
||m1 − m2 ||2
4
= (2.51)
SN R2
54 Unidad II: Detección Bayesiana

2.6. Problemas
Se presentan a continuación una sección de problemas relacionados
con detección Bayesiana.

Problema 2.1. (Detección y Criterio de Máxima Verosimilitud)


Considere el problema de diseñar un sistema de detección para un
lector digital (por ejemplo un lector de CD). La idea es decodificar
(detectar) sı́mbolos binarios almacenados, por medio de mediciones
secuenciales con ruido o errores de medición.

Formalmente consideremos Θ(w) es la variable aleatoria en {0, 1}


almacenada, y medimos una versión ruidosa de ella X(w) ∈ {0, 1} (la
variable de observación) donde se tiene que:

PX|Θ (X = 0|Θ = 1) = PX|Θ (X = 1|Θ = 0) = ϵ (2.52)

PX|Θ (X = 0|Θ = 0) = PX|Θ (X = 1|Θ = 1) = 1 − ϵ (2.53)


con 0 < ϵ < 12 .

a) Para el problema de detectar Θ como función de X, deter-


mine la regla óptima de decisión π ∗ : {0, 1} → {0, 1}, para
la función de costo L0,1 es decir:

π ∗ = arg mı́n EX,Θ (L0,1 (Θ, π(X))) (2.54)


π:{0,1}→{0,1}

cuando P (Θ = 1) = P (Θ = 0) = 12 . Finalmente obtenga una


expresión para la probabilidad de error de la regla óptima,
es decir, determine

pϵ = EX,Θ (L0,1 (Θ, π ∗ (X))). (2.55)

b) La idea de esta parte es evaluar un esquema de codificación


para mejorar el desempeño del detector de la parte a).
Para ellos consideremos un código C : {0, 1} → {0, 1}3 ,
donde las palabras binarias asociadas a los sı́mbolos cero
y uno las llamamos C(0) = (b1 , b2 , b3 ) y C(1) = (c1 , c2 , c3 ),
respectivamente (luego bi , ci ∈ {0, 1}, i ∈ {1, 2, 3}).
2.6. Problemas 55

Consideremos Z denota la nueva decisión y Θ la señal


codificada, Θ queda dada por la siguiente regla o proceso
de codificación:

Θ = (Θ1 , Θ2 , Θ3 ) = (b1 , b2 , b3 ) si Z = 0
Θ = (Θ1 , Θ2 , Θ3 ) = (c1 , c2 , c3 ) si Z = 1

Finalmente, lo que observamos es un vector aleatorio X =


(X1 , X2 , X3 ) (versión ruidosa de Θ), donde tenemos que, por
independencia, lo siguiente:

PX|Θ ((X1 , X2 , X3 ) = (x1 , x2 , x3 )|(Θ1 , Θ2 , Θ3 ) = (θ1 , θ2 , θ3 ))


(2.56)
= PX|Θ (X1 = x1 |Θ1 = θ1 )PX|Θ (X2 = x2 |Θ2 = θ2 )PX|Θ (X3 = x3 |Θ3 = θ3 )
(2.57)

y con la misma probabilidad de error

(∀i ∈ {1, 2, 3}) PXi |Θi (Xi ̸= b|Θi = b) = ϵ. (2.58)

b.1) Determine las distribuciones condicionales, es decir,


determine:

f0 (x1 , x2 , x3 ) = PX|Z (X = (x1 , x2 , x3 )|Z = 0)


(2.59)
f1 (x1 , x2 , x3 ) = PX|Z (X = (x1 , x2 , x3 )|Z = 1)
(2.60)

como función de (b1 , b2 , b3 ), (c1 , c2 , c3 ) y ϵ. Indica-


ción: Puede serle útil la función indicatriz 1xi ̸=bi y
1xi ̸=ci .
1
b.2) Si PZ (Z = 1) = PZ (Z = 0) = 2 determine la regla
óptima
π ∗ : {0, 1}3 → {0, 1} (2.61)
de detección de Z como función de X para la función
56 Unidad II: Detección Bayesiana

costo L0,1 y verifique que:


I0 = {(x1 , x2 , x3 ) : π ∗ (x1 , x2 , x3 ) = 0} (2.62)
= {(x1 , x2 , x3 ) : dH (x1 , x2 , x3 ; b1 , b2 , b3 ) < dH (x1 , x2 , x3 ; c1 , c2 , c3 )}
(2.63)
donde dH (x1 , x2 , x3 ; y1 , y2 , y3 ) = 1x1 ̸=y1 + 1x2 ̸=y2 +
1x3 ̸=y3 .
b.3) Determine una expresión para la nueva probabilidad
de error
pϵ = EX,Z (L0,1 (Z, π ∗ (X))) (2.64)
y demuestre que disminuye a medida que
dH (b1 , b2 , b3 ; c1 , c2 , c3 ) aumenta. Con ellos de-
termine una condición sobre (b1 , b2 , b3 ) y (c1 , c2 , c3 )
(es decir sobre el código C) para minimizar (2.64).

Problema 2.2. Considere un problema de detección binario Θ =


{0, 1} en un contexto Bayesiano, donde p = PΘ (Θ = 1) y 1 − p =
PΘ (Θ = 0) y donde la probabilidad condicional de X dado Θ = θ esta
dada por la distribución PX|Θ (·|θ) con densidad fX|Θ (x|θ). Considere
una función de costo arbitraria con los siguientes valores: L0,0 , L1,0 ,
L0,1 y L1,1 . Estos elementos definen la función de costo1 .

a) Dado A ⊂ X arbitrario, considere un test de la forma:


πA (x) = 1A (x), donde 1A (x) es la función indicatriz de A.
Determine expresiones para Pj,i = PX|Θ (πA (X) = i|Θ = j)
y con ello el riesgo del test dado por
r(πA ) = EX,Θ (L(Θ, πA (X))).
b) Considere L0,0 = L1,1 = 0. Determine el test Bayesiano
óptimo πM AP (x) y verifique que πM AP (x) = πA (x) para un
A ⊂ X. Determine la forma del conjunto óptimo A, como
función de L0,1 , L1,0 , p, fX|Θ (x|0) y fX|Θ (x|1).

1L es el costo de decidir j cuando el valor verdadero es que toma Θ es i.


i,j
2.6. Problemas 57

c) Verifique que la solución Bayesiano óptima del punto ante-


rior, es también óptima en el sentido de Neyman-Pearson, es
decir en el sentido que ofrece un compromiso optimo entre
poder y tamaño.
Para ello determine απM AP y demuestre que no existe un
test binario de tamaño menor que απM AP tal que su poder
sea mayor que βπM AP . Indicación: Encuentre una expresión
para relacionar r(πM AP ) con απM AP y βπM AP .

Problema 2.3. Se pide que implemente un sistema de decisión que


detecte la presencia de una señal s(t). Para eso suponga que se tie-
ne un sistema que observa n muestras ruidosas de la señal (s(k))k=1,..,n .

En concreto se distinguen dos escenarios posibles de observación.


Presencia de señal Θ = 1:
     
X1 s1 N1
 X2   s2   N2 
     
= + (2.65)
 , ..,   , ..,   , .., 
 
Xn sn Nn

Ausencia de señal Θ = 0:
   
X1 N1
 X2 )   N2
   
= (2.66)

 , ..,   , ..,
 

Xn Nn

donde N1 , ..,Nn son variables aleatorias independientes que distribuyen


N (0, σ 2 ).

a) Notar que dado el valor de Θ, X1 , .., Xn es un vector Gaus-


siano. Determine su vector de media y matriz de covarianza
en ambos escenarios (presencia y ausencia de señal). Indica-
ción: Notar que X1 , .., Xn son variables aleatorias indepen-
dientes.
58 Unidad II: Detección Bayesiana

b) Del punto anterior determine la función de verosimilitud

L(x1 , .., xn |θ) = ln fX1 ,..,Xn |Θ (x1 , .., xn |θ)

y la solución del problema:

θ̂M L (x1 , .., xn ) = arg máx L(x1 , .., xn |θ). (2.67)


θ∈{0,1}

Indicación: Se debe llegar a una expresión cerrada para


θ̂M L (x1 , .., xn ), función de x1 , .., xn y los parámetros conoci-
dos del problema.
c) Determine la probabilidad de error del test del punto ante-
rior cuando PΘ (Θ = 1) = PΘ (Θ = 0) = 12 .
d) Determine que pasa con la probabilidad de error del test
óptimo en (2.67), si la potencia de la señal dada por ||s||2 =
Pn 2 2
i=1 s(i) tiende a infinito, es decir, lı́m ||s|| = ∞
n→∞
3
Unidad III: Estimación Paramétrica

El problema de estimación se entiende como el problema de inferir


una variable θ continua (que toma una cantidad no numerable de
posibles valores) a partir de una variable aleatoria (o vector aleatorio)
de observación X.

En muchos ámbitos teóricos y prácticos, nos vemos enfrentados


al problema de estimar un parámetro (o parámetros) de una distri-
bución indexada por θ por medio de observaciones independientes
e idénticamente distribuidas (i.i.d.). El siguiente ejemplo ilustra la
familia de distribuciones Bernoulli indexadas por θ ∈ [0, 1].

Ejemplo 3.1. Sea X = {0, 1}, {PX (·|θ) : θ ∈ [0, 1]}, la familia de
distribuciones asociadas a X donde

PX (X = 0|θ) = θ (3.1)

PX (X = 1|θ) = 1 − θ (3.2)
Supongamos que poseemos un vector aleatorio X1n ∼ PX (·|θ), la pre-
gunta es estimar θ a partir de este vector de observaciones. Un estima-

59
60 Unidad III: Estimación Paramétrica

dor natural para este caso serı́a el siguiente:


n
1X
θ̂(X1 , ..., Xn ) = 1{0} (Xi ), (3.3)
n
i=1

donde (X1 , ..., Xn ) ∈ {0, 1}n y



1, x ∈ A
1A (x) = (3.4)
0, x ∈
̸ A

es la función indicatriz.

El estimador anterior corresponde al promedio empı́rico. En lo que


sigue formalizaremos el problema de estimación paramétrica y también
encontraremos criterios para diseñar un estimador en algún sentido de
optimalidad.

3.1. Formalización del Problema de Estimación Paramétrica


Un problema de estimación paramétrica se compone de 4 elementos
centrales:

Un espacio de observación X (tı́picamente X = R) y varia-


bles aleatorias que toman valores en X. X se conoce como
observación o dato. Si se tienen n ∈ N observaciones o datos
entonces X1n ∈ Xn .
Un espacio de parámetros Θ infinito no numerable. Es tam-
bién el espacio de llegada o el espacio donde nos interesa
inferir el parámetro.
Una familia de distribuciones de probabilidad indexadas por
θ ∈ Θ, es decir, considerando el vector aleatorio X1n , tenemos
lo siguiente:
FΘ = {PX (·|θ) : θ ∈ Θ}.
FΘ se conoce como una familia de distribuciones de proba-
bilidad parametrizadas mediante θ, es decir, por cada valor
de θ se obtiene una distribución distinta (θ es el parámetro
que indexa la familia) y Θ el universo de posibles parámetros
factibles (por ejemplo θ ∈ Rq con q ∈ N). En este apunte nos
3.1. Formalización del Problema de Estimación Paramétrica 61

concentraremos en la estimación de un sólo parámetro, luego


q = 1.
Una función τn : Xn → Θ donde τn (X1n ) = τn (X1 , ..., Xn )
llamado estimador.

Ejemplo 3.2. Consideremos la variable aleatoria X y una familia de


distribuciones normales de media θ ∈ R y varianza σ 2 ∈ R+ , luego,

FΘ = {PX (·|θ) : θ ∈ Θ} ,

donde PX (x|θ) es una distribución que se caracteriza por su densidad


de probabilidad dada por:
1 −(x−θ)2
fX (x|θ) = √ e 2σ2 .
2πσ

Observación: Las distribuciones pueden ser discretas o continuas, pero


el parámetro θ debe estar en un conjunto no numerable para ser
considerado un problema de estimación.

Consideremos un vector aleatorio, en adelante lo llamaremos


vector de observaciones X1n = (X1 , ..., Xn ) con distribución conjunta
PX1n (·|θ) ∈ FΘ . El problema de estimación paramétrica consiste en
encontrar un estimador τn : Xn → Θ donde τn (X1n ) = τn (X1 , ..., Xn )1
es el valor estimado.

En adelante vamos a considerar el problema más rico de muchas


observaciones independientes e idénticamente distribuidas, es decir,
tenemos:
θ ∈ Θ → (X1 , ..., Xn ) ∼ PX (·|θ)n
lo que lleva a:

PX1n (X1 ∈ A1 , ..., Xn ∈ An |θ) = PX (A1 |θ) · PX (A2 |θ) · ... · PX (An |θ), ∀A1 , ..., An ⊆ X,
(3.5)

1 También se suele escribir como θ̂n (X1n ).


62 Unidad III: Estimación Paramétrica

en otras palabras X1n = (X1 , ..., Xn ) son muestras i.i.d. con marginal
PX (·|θ) ∈ FΘ .

Observaciones:

1- Un estimador τn (X1n ) = τn (X1 , ..., Xn ) no es más que una


función que va desde el espacio de observaciones a una deci-
sión en el espacio de parámetros.
2- τn (X1n ) es una variable aleatoria en Θ, dado que X1n es un
vector aleatorio en Xn .
3- τn (X1n ) es también llamado un estadı́stico.
4- Si X1n ∼ PX1n (·|θ) ⇒ τn (X1n ) ∼ ρθ en Θ. En otras palabras al
fijar θ la PX n (·|θ) induce una distribución ρθ en θ por medio
de τn .

El problema de estimación paramétrica es encontrar el estimador


τn : Xn → Θ donde τn (X1n ) = τn (X1 , ..., Xn )2 es el valor estimado.

En resumen, cualquier función de Xn → Θ induce un estimador,


estos estimadores pueden acercarse al valor real como no. Para saber
si un estimador es una buena elección necesitamos proponer criterios
para seleccionar uno, con alguna noción de optimalidad.

3.2. Nociones de Optimalidad


Un principio básico que debe satisfacer la familia es la noción de
identificabilidad o discriminabilidad.

Definición 3.1. (Familias distinguibles) Decimos que la familia pa-


ramétrica
FΘ = {PX (·|θ) : θ ∈ Θ} ,
es identificable o discriminable si ∀θ, θ′ ∈ Θ tal que θ ̸= θ′ entonces
PX (·|θ) ̸= PX (·|θ′ ). Matemáticamente PX (·|θ) ̸= PX (·|θ′ ) es equivalen-
te a pedir que
V (PX (·|θ), PX (·|θ′ )) = sup |PX (A|θ) − PX (A|θ′ )| > 0,
A⊆X

2 También se suele escribir como θ̂n (X1n ).


3.2. Nociones de Optimalidad 63

donde V : F × F 7→ R+ se llama distancia en variaciones totales.

Lo que se pide es que exista al menos un evento donde las me-


didas de probabilidad difieran, de esta manera son distinguibles y por
lo tanto sea posible plantear un problema de estimación. En adelante
asumiremos que la familia paramétrica es distinguible.

Definición 3.2. (Consistencia) Una secuencia de estimadores (τn )n∈N


se dice consistente, si ∀ϵ > 0, ∀θ ∈ Θ y (X1 , ..., Xn ) ∼ PX1n (·|θ) se
cumple que:
lı́m PX1n (|τn (X1n ) − θ| > ϵ) = 0.
n→∞
o, alternativamente, ∀θ ∈ Θ
P
τn (X1n ) −
→ θ. (3.6)

Notar que Eq. (3.6) es equivalente a decir que ∀ϵ > 0, ∀ν > 0, ∃n0 ∈ N
∀n ≥ n0
PX1n ((x1 , ..., xn ) ∈ Xn : |τn (x1 , ..., xn ) − θ| > ϵ) < ν. (3.7)
En lenguaje de convergencia de variables aleatorias Eq. (3.6) y Eq. (3.7)
equivale a decir que la secuencia τ1 (X1 ), τ2 (X12 ), τ3 (X13 ), ..., τn (X1n ) → θ
en probabilidad.

La definición de consistencia es una propiedad asintótica, es de-


cir cuando n → ∞ se cumple lo pedido. También es importante tener
condiciones deseables en el régimen de muestras finitas.

Definición 3.3. (Estimador Insesgado) Un estimador τn : Xn → Θ se


dice insesgado si
∀θ ∈ Θ EX1 ,...,Xn (τn (X1n )) = θ. (3.8)
Es decir que en promedio el estimador se acerca al parámetro descono-
cido.

Una propiedad más débil sobre una familia de estimadores (τn )n∈N es
el concepto de asintóticamente insesgado:
64 Unidad III: Estimación Paramétrica

Definición 3.4. (Estimador Asintótocamente Insesgado) (τn )n∈N se


dice asintóticamente insesgado si:

∀θ ∈ Θ lı́m EX1 ,...,Xn (τn (X1 , ..., Xn )) = θ, (3.9)


n→∞

Ejemplo 3.3. Consideremos el caso de una distribución normal donde


se poseen n observaciones independientes e idénticamente distribuidas
Xi ∼ N (µ, σ 2 ) ∀i ∈ {1, ..., n}. Consideremos el estimador media empı́ri-
ca:
n
1X
τn (X1 , ..., Xn ) = Xi .
n
i=1
Podemos ver que este estimador es insesgado, ya que:
n
!
1X
EX1 ,...,Xn (τn (X1 , ..., Xn )) = EX1 ,...,Xn Xi
n
i=1
n
1X
= EX1 ,...,Xn (Xi )
n (3.10)
i=1
n
1 X
= µ
n
i=1

Ahora veremos que el estimador es consistente, para esto, recordemos


las desigualdades de Markov y Chebyshev.

Teorema 3.1. (Desigualdad de Markov) Sea una variable aleatoria X


a valores en R+ o 0 con esperanza finita E(X), tenemos la siguiente
desigualdad conocida como desigualdad de Markov:
E(X)
(∀ϵ > 0) PX (X > ϵ) ≤ .
ϵ
3.2. Nociones de Optimalidad 65

Teorema 3.2. (Desigualdad de Chebyshev) Sea una variable aleatoria


X con esperanza finita E(X) y E(X 2 ) finito, tenemos que:
V ar(X)
(∀ϵ > 0) PX (|X − E(X)| > ϵ) ≤ . (3.11)
ϵ2

n
1 P
Ahora consideramos Yn = n Xi , entonces E(Yn ) = µ. Adicionalmen-
i=1
te:
n
!
1X
V ar(Yn ) = V ar Xi
n
i=1
n
1 X
= 2 V ar (Xi )
n
i=1
n
1 X 2
= 2 σ
n
i=1
σ2
= . (3.12)
n
Por lo tanto,
V ar(Yn ) σ 2 n→∞
PYn (|Yn − µ| > ϵ) ≤ = −−−→ 0. (3.13)
ϵ2 nϵ2
Finalmente Yn = τn (X1 , ..., Xn ) es un estimador consistente de µ.

Observación: De este ejemplo se puede demostrar un resultado que dice


que si (τn )n∈N es insesgado y su varianza converge a cero cuando n →
∞, entonces (τn )n∈N es consistente. A continuación vamos a demostrar
una variante más general:

Teorema 3.3. Sea (τn )n∈N asintóticamente insesgado que sigue la si-
guiente estructura, es decir,
n→∞
EX1 ,...,Xn (τn (X1 , ..., Xn )) = θ + kn donde kn −−−→ 0.
Si adicionalmente se tiene que:
lı́m V ar(τn (X1 , ..., Xn )) = 0,
n→∞
66 Unidad III: Estimación Paramétrica

entonces (τn )n∈N es consistente.

Demostración: Sea ϵ > 0, por la desigualdad de Markov tenemos que

E{|τn (X1 , ..., Xn ) − θ|2 }


PX1n (|τn (X1 , ..., Xn ) − θ| > ϵ) ≤ . (3.14)
ϵ2
Analicemos más en detalle la siguiente expresión:

(τn (X1 , ..., Xn ) − θ)2 = (τn (X1 , ..., Xn ) − E(τn (X1 , ..., Xn )) + kn )2
= kn2 − 2kn (τn (X1 , ..., Xn ) − E(τn (X1 , ..., Xn )))
+ (τn (X1 , ..., Xn ) − E(τn (X1 , ..., Xn )))2
(3.15)

Tomando esperanza en (3.15) y aplicando esto en (3.14)

E{|τn (X1 , ..., Xn ) − θ|2 }


≤ kn2 + 2kn EX1 ,...,Xn (τn (X1 , ..., Xn ) − E(τn (X1 , ..., Xn )))
ϵ2
+ V ar(τn (X1 , ..., Xn ))
n→∞
= kn2 + V ar(τn (X1 , ..., Xn )) −−−→ 0
(3.16)

Ejemplo 3.4. Nuevamente consideremos el caso de una distribución


normal donde se poseen n observaciones independientes e idénticamente
distribuidas Xi ∼ N (µ, σ 2 ) ∀i ∈ {1, ..., n}. Propondremos un estimador
de la varianza conocido como la varianza empı́rica:
n
2 1X
τnσ (X1 , ..., Xn ) = (Xi − X̂n )2 .
n
i=1

1 Pn
donde X̂n = n i=1 Xi es la media empı́rica.

σ es sesgado pero que (τ )


Mostraremos que τN n n∈N es asintotica-
3.2. Nociones de Optimalidad 67

mente insesgado.
n
!
 2
 1X
E τnσ (X1 , ..., Xn ) =E (Xi − X̂n )2
n
i=1
n
!
1 X
= E (Xi2 − 2Xi X̂n + X̂n2 )
n
i=1
 
n n n n n
1 X 2 2 X X 1 XX
= E Xi − Xi Xj + Xi Xj 
n n n
i=1 i=1 j=1 i=1 j=1
 
n n Xn n X n
1 X 2 X 1 X
= E Xi2 − Xi Xj + Xi Xj 
n n n
i=1 i=1 j=1 i=1 j=1
    
n n X n n X n
1 X 2 X 1 X
=  E(Xi2 ) − E  Xi Xj  + E  Xi Xj 
n n n
i=1 i=1 j=1 i=1 j=1
1
n(σ 2 + µ2 ) − 2 (σ 2 + µ2 ) + (n − 1)µ + (σ 2 + µ2 ) + (n − 1)µ2
2
 
=
n
1
n(σ 2 + µ2 ) − 2 σ 2 + nµ2 + σ 2 + nµ2
 
=
n
1
nσ 2 − 2σ 2 + σ 2

=
n
n−1 2
= σ = (1 − 1/n)σ 2
n
(3.17)
Por lo tanto si proponemos el siguiente estimador
n
1 X
τnI (X1 , ..., Xn ) = (Xi − X̂n )2 ,
n−1
i=1

esta función corresponde a un estimador de σ 2 insesgado.

2
Propuesto 3.1. Verifique que τnσ (X1 , ..., Xn ) y τnI (X1 , ..., Xn ) son es-
timadores consistentes de σ 2 .

Los ejemplos anteriores nos muestran distintos estimadores en casos


bien particulares de distribuciones. En la sección siguiente queremos
68 Unidad III: Estimación Paramétrica

establecer un criterio para seleccionar un estimador en el sentido de


mı́nima varianza.

Veremos que existe un lı́mite fundamental (una cota) para la


varianza de la familia de estimadores insesgados.

3.3. El Criterio de Mı́nima Varianza


En este punto introduciremos la varianza del estimador como
criterio de decisión. En particular, si nos concentramos en la familia
de estimadores insesgados, una pregunta fundamental es caracterizar
el estimador de minima varianza. En esta linea uno de los resultados
centrales de la teorı́a de estimación es la celebrada cota de Cramer-Rao
que ofrece una expresión analı́tica para acotar la mı́nima varianza en
un contexto de estimación paramétrica.

De forma más especifica consideremos nuestro escenario paramétrico


dado por la familia de distribuciones:

FΘ = {PX (·|θ) : θ ∈ Θ}.

Consideremos la función de verosimilitud que, dependiendo de si la


distribución es discreta o continua, tendremos dos casos:

Si X1n siguen una distribución discreta la verosimilitud se


define como:

L(X1 = x1 , X2 = x2 , ..., Xn = xn |θ) =


PX1n (X1 = x1 , X2 = x2 , ..., Xn = xn |θ).

Si X1n siguen una distribución continua la verosimilitud se


define como:

L(X1 = x1 , X2 = x2 , ..., Xn = xn |θ) =


fX1n (x1 , x2 , ..., xn |θ).

En adelante asumiremos que tenemos una familia de distribuciones


continuas en FΘ (el resultado es análogo para el caso discreto), luego
3.3. El Criterio de Mı́nima Varianza 69

tenemos que:
Z ∞ Z ∞
··· fX1n (x1 , x2 , ..., xn |θ) dx1 ...dxn = 1. (3.18)
−∞ −∞ | {z }
f.d.p conjunta de X1 ,...,Xn

Asumiendo que L(x1 , x2 , ..., xn |θ) es diferenciable respecto a θ y que


además podemos intercambiar lı́mites en (3.18), se tiene la siguiente
identidad:
Z ∞ Z ∞
∂fX1n (x1 , x2 , ..., xn |θ)
··· dx1 ...dxn = 0
−∞ −∞ ∂θ
Z ∞ Z ∞
∂fX1n (x1 , .., xn |θ)

1
··· fX1n (x1 ..., xn |θ)dx1 ...dxn = 0
−∞ −∞ fX1n (x1 , ., xn |θ) ∂θ
| {z }


ln f X n (x1 , , ..., xn |θ)
∂θ 1

(3.19)
Notar que la expresión en Eq.(3.19) es equivalente a:
∂ ln fX1n (X1 , X2 , ..., Xn |θ)
 
EX1 ,...,Xn = 0. (3.20)
∂θ
Por otro lado, consideremos un estimador del parámetro θ arbitrario,
dado por τn (·) : Xn → Θ y, sin perdida de generalidad, que:
EX1 ,...,Xn (τn (X1 , ..., Xn )) = f (θ) ∀θ ∈ Θ. (3.21)
Es decir, que el sesgo es una función de θ. Asumiendo que f (θ) es
diferenciable, y derivando (3.21), tenemos que:
Z ∞ Z ∞ ∂ ln fX1n (x1 , x2 , ..., xn |θ)
··· τn (x1 , ..., xn ) ·fX1n (x1 , x2 , ..., xn |θ)dx1 ...dxn = f ′ (θ)
−∞ −∞ ∂θ
(3.22)
∀θ ∈ Θ. Por otro lado, de (3.20), tenemos que:
Z ∞ Z ∞ ∂fX1n (x1 , x2 , ..., xn |θ)
f (θ) · ··· dx1 ...dxn = 0
−∞ −∞ ∂θ
Z ∞ Z ∞ ∂ ln fX1n (x1 , x2 , ..., xn |θ)
⇔ ··· f (θ) fX1n (x1 , x2 , ..., xn |θ)dx1 ...dxn = 0.
−∞ −∞ ∂θ
(3.23)

Combinando (3.22) y (3.23) se tiene que:


Z ∞ Z ∞ ∂ ln fX1n (x1 , ..., xn |θ)
··· (τn (x1 , ., xn ) − f (θ)) fX1n (x1 , ..., xn |θ)dx1 ...dxn = f ′ (θ),
−∞ −∞ ∂θ
(3.24)
70 Unidad III: Estimación Paramétrica

En este contexto podremos hacer uso de la desigualdad de Cauchy-


Schwarz que dice que para dos variables aleatorias X e Y :

|E(XY )|2 ≤ E(X 2 )E(Y 2 ). (3.25)

Por lo tanto aplicando (3.25) en (3.24)


 2
∂ ln fX1n (x1 , x2 , ..., xn |θ)

′ 2
(f (θ)) = EX1 ,..,Xn (τn (X1 , ..., Xn ) − f (θ)) ·
∂θ
 !
∂ ln fX1n (X1 , .., Xn |θ) 2

2

≤ EX1 ,..,Xn (τn (X1 , ., Xn ) − f (θ)) ·EX1 ,..,Xn ,
| {z } ∂θ
Varianza de τn (X1 ,...,Xn )
(3.26)
que equivalente a decir que
f ′ (θ)2
V ar(τn (X1 , ..., Xn )) ≥  2  . (3.27)
∂ ln L(X1 ,X2 ,...,Xn |θ)
EX1 ,..,Xn ∂θ

La expresión en (3.27) corresponde a una cota inferior para la varianza


de la familia de estimadores dada la familia de distribuciones FΘ . En
la sección que viene aplicaremos este resultado sobre los estimadores
insesgados, lo que nos dará una cota fundamental ampliamente usada
en estadı́stica.

3.3.1. La Información de Fisher y La Cota de Cramér-Rao


Nos detendremos a analizar la desigualdad en (3.27).

Definición 3.5. El término del denominador del lado derecho de


Eq.(3.27) depende exclusivamente de la familia FΘ y de el número de
observaciones. Se define la Información de Fisher de FΘ asociada a
n observaciones como:
 !
∂ ln L(X1 , X2 , ..., Xn |θ) 2

In (θ) ≡ EX1 ,..,Xn (3.28)
∂θ

Observaciones:
3.3. El Criterio de Mı́nima Varianza 71

In (θ) es independiente del estimador τn


La desigualdad en (3.27) ofrece una cota inferior para la va-
rianza del estimador τn (·) sujeto a la condición en (3.21).
Gracias a la propiedad de la derivada del logarit-
 2 
∂ ln L(X1 ,X2 ,...,Xn |θ)
mo, tenemos que: EX1 ,..,Xn ∂θ =
 2 
,X2 ,...,Xn |θ)
−EX1 ,..,Xn ∂ ln L(X1∂θ 2 .

Si en particular restringimos el análisis a la familia de estimadores


insesgados, es decir, se tiene la siguiente familia:

Tn ≜ {τn : Xn → Θ : EX1 ,...,Xn (τn (X1 , ..., Xn )) = θ, ∀θ ∈ Θ} (3.29)

entonces, observando que f (θ) = θ ⇒ f ′ (θ) = 1, tenemos que ∀τn ∈ Tn :


1
V ar(τn (X1 , ..., Xn )) ≥ . (3.30)
In (θ)
Dado que la cota es independiente de τn , entonces en particular se
cumple para:
1
mı́n V ar(τn (X1 , ..., Xn )) ≥  2  , (3.31)
τn ∈Tn ∂ ln L(X1 ,X2 ,...,Xn |θ)
EX1 ,..,Xn ∼µnθ ∂θ

∀θ ∈ Θ. Este resultado es conocido como la desigualdad de Cramér-


Rao (Rao 1345, Cramér 1946).

Teorema 3.4. (Desigualdad de Crámer-Rao) Sea Tn la familia de es-


timadores insesgados de n observaciones, entonces ∀θ ∈ Θ
1
mı́n EX1 ,...,Xn {(τn (X1 , ..., Xn ) − θ)2 } ≥ (3.32)
τn ∈Tn In (θ)
donde In (θ) esta dada por:
( 2 )
∂ ln L(X1 , X2 , ..., Xn |θ)
In (θ) = EX1 ,..,Xn (3.33)
∂θ

Observaciones:
72 Unidad III: Estimación Paramétrica

La información de Fisher se interpreta como la canti-


dad de información promedio que ofrecen las observaciones
(X1 , ..., Xn ) para estimar el parámetro θ en un sentido de
varianza.
La desigualdad de Cramér-Rao ofrece una cota inferior para
la mı́nima varianza de estimadores insesgados.
Alternativamente es una cota para el error cuadrático medio
mı́nimo de estimadores insesgados.
In (θ) es función en general de θ y el número de observaciones.
Si existe familia de estimadores insesgados consistentes por
medio de la siguiente condición:

lı́m V ar(τn (X1 , ..., Xn )) = 0, (3.34)


n→∞

entonces se tiene de (3.32) que necesariamente

lı́m In (θ) = ∞, ∀θ ∈ Θ. (3.35)


n→∞

En general (In (θ))−1 es una cota inferior que no se alcanza,


por lo tanto puede ocurrir que3 ∄τn∗ (·) ∈ Tn donde:

V ar(τn∗ (X1 , ..., Xn )) = In (θ)−1 (3.36)

3.3.2. Condiciones de Alcanzabilidad de la Cota Cramér-Rao


Este resultado da condiciones necesarias y suficientes para poder
alcanzar la cota de Cramér-Rao. Se tiene el siguiente resultado:

Teorema 3.5. La cota de Cramér-Rao es alcanzable por un estimador


insesgado, si y solo si, existe una función f (X1 , .., Xn ) (exclusiva de las
observaciones y que no dependa del parámetro) tal que para todo θ ∈ Θ:
∂ ln L(X1 , X2 , ..., Xn |θ)
= In (θ) · (f (X1 , ..., Xn ) − θ). (3.37)
∂θ
En este caso el estimador de minima varianza es f (X1 , .., Xn ) y la
minima varianza V ar(f (X1 , .., Xn )) es In1(θ) .

3 Veremos que hay muchos problemas donde la cota de Cramér-Rao no es alcanzable.


3.3. El Criterio de Mı́nima Varianza 73

Demostración: Del uso de la desigualdad de Cauchy-Schwarz una con-


dición necesaria y suficiente para alcanzar la igualdad en (3.27), y
en consecuencia la existencia de un estimador que alcance la cota de
2 ,...,Xn |θ)
Cramér-Rao, es que ∂ ln L(X1 ,X
∂θ sea colineal a (τn (X1 , ..., Xn )−θ)
en el sentido que ∃A(θ) ∈ R, donde
∂ ln L(X1 , X2 , ..., Xn |θ)
= A(θ) · (τn (X1 , ..., Xn ) − θ), (3.38)
∂θ
donde A(θ) es una constante que puede depender puntualmente de θ.
Reemplazando esta condición de co-linealidad en (3.24) se obtiene que
1
V ar(τn (X1 , ..., Xn )) = , (3.39)
A(θ)
Además, de la igualdad en
2
EX1 ,..,Xn ((τn (X1 , ..., Xn ) − f (θ)) · A(θ) · (τn (X1 , ..., Xn ) − θ))
2
= A(θ)2 · EX1 ,..,Xn (τn (X1 , ., Xn ) − f (θ))2
 2 !
2
 ∂ ln L(X1 , .., Xn |θ)
= EX1 ,..,Xn (τn (X1 , ., Xn ) − f (θ)) · EX1 ,..,Xn ,
∂θ
(3.40)
por lo tanto, tenemos que:
 2 !
2 ∂ ln L(X1 , .., Xn |θ)
A(θ) · V ar(τn (X1 , ..., Xn )) = EX1 ,..,Xn ,
∂θ
(3.41)

y reemplazando lo obtenido en (3.39) concluimos que:

A(θ) = In (θ). (3.42)

Observaciones:

En general la familia de funciones que ofrecen la descompo-


sición en (3.37) son de tipo exponenciales.
74 Unidad III: Estimación Paramétrica

Si se tiene que ∂ ln∂θ L(·|θ)


ofrece la descomposición en (3.37),
la función τn (X1 , ..., Xn ) es el estimador de mı́nima varianza
1
y su varianza esta dada por A(θ) .

A continuación veremos dos ejemplos que nos ayudarán a ilustrar y


demostrar la alcanzabilidad de la cota de Cramér-Rao en estos escena-
rios.

Ejemplo 3.5. Consideremos el caso de distribución normal, por lo que


su densidad marginal está dada por:
1 −(x−θ)2
PX (·|θ) 7→ fX (x|θ) = √ e 2σ2 ∀x ∈ R. (3.43)
2πσ
donde σ es conocido y queremos estimar θ a partir de n observaciones
i.i.d. (X1 , ..., Xn ) ∼ PX (·|θ)n . Vemos que el logaritmo de la verosimili-
tud está dado por:
n
!
1 (Xi −θ)2
e− 2σ2
Y
ln L(X1 , ..., Xn |θ) = ln √
i=1
2πσ
n
(3.44)
(Xi − θ)2
  X
1
= n ln √ − .
2πσ 2σ 2
i=1

y vemos que:
n
!
∂ ln L(X1 , ..., Xn |θ)  n  1X
= 2
Xi − θ (3.45)
∂θ |σ n
{z } i=1
A(θ) | {z }
(τn∗ (X1 ,...,Xn )−f (θ))

y dado que E(τn∗ (X1 , ..., Xn )) = θ, entonces se cumple la descom-


posición de (3.37). Por lo que el estimador de mı́nima varianza es
τn∗ (X1 , ..., Xn ) = n1 ni=1 Xi y alcanza la cota de Cramér-Rao cuyo
P

valor es:
1 σ2
V ar(τn∗ (X1 , ..., Xn )) = = . (3.46)
In (θ) n
3.3. El Criterio de Mı́nima Varianza 75

Ejemplo 3.6. Consideremos X una variable aleatoria discreta (X =


N) con distribución Poisson cuya función de probabilidad de masa es:
e−θ θx
PX (·|θ) 7→ PX (X = x|θ) = ∀x ∈ N. (3.47)
x!
Queremos estimar θ a partir de (X1 , ..., Xn ) ∼ µnθ (i.i.d.). Vemos que
el logaritmo de la verosimilitud está dado por:
n
!
Y e−θ θXi
ln L(X1 , ..., Xn |θ) = ln
Xi !
i=1
n
(3.48)
X
= Xi ln(θ) − ln(Xi !) − θ.
i=1
n
!
∂ ln L(X1 , ..., Xn |θ)  n  1X
= Xi − θ . (3.49)
∂θ θ} n
| {z i=1
A(θ) | {z }
(τn∗ (X1 ,...,Xn )−f (θ))

Dado que E(τn∗ (X1 , ..., Xn ))


= θ, entonces nuevamente se cumple la
descomposición de (3.37). Por lo que el estimador de mı́nima varianza
n
es τn∗ (X1 , ..., Xn ) = n1
P
Xi y alcanza la cota de Cramér-Rao cuyo
i=1
valor es:
1 θ
V ar(τn∗ (X1 , ..., Xn )) = = . (3.50)
In (θ) n

En un número mayoritario de escenarios de inferencia paramétrica, la


familia de distribuciones FΘ no ofrecen la descomposición en (3.37) y
por lo tanto
1
mı́n EX1 ,...,Xn (τn (X1 , ..., Xn ) − θ)2 >

. (3.51)
τn ∈Tn In (θ)
De todas formas In (θ)−1 se utiliza como una figura de mérito o
indicador para, por un lado, evaluar que tan lejos es el desempeño de
un estimador insesgado de la cota de Cramér-Rao de mı́nima varianza
y, por otro lado, como un indicador de la complejidad del problema
de inferencia y como este lı́mite escala como función del numero de
76 Unidad III: Estimación Paramétrica

observaciones.

Podemos ver que la cota de Cramér-Rao actúa como un lı́mite


fundamental del problema de estimación. Es importante recalcar
que esta desigualdad es válida solamente para la familia de estimadores
insesgados por lo que de debe verificar dicha condición previamente.
Para una cota más general para estimadores sesgados se puede utilizar
la expresión en (3.27)

3.3.3. Unicidad del Estimador de Mı́nima Varianza

El siguiente resultado es importante para el análisis numérico a la


hora de buscar un estimador de mı́nima varianza. El resultado dice lo
siguiente:

Teorema 3.6. Si existe un estimador insesgado de minimiza varianza


entonces es único (casi seguramente).

Demostración: Supongamos que existen dos estimadores τ1 (X1 , ..., Xn )


y τ2 (X1 , ..., Xn ) con τ1 ̸= τ2 tales que son solución del problema:

mı́n V ar(τn (X1 , ..., Xn )) = V0 (θ), (3.52)


τn ∈Tn

Sobre estos dos estimadores podemos proponer un tercer estimador:

1 1
τ3 (X1 , ..., Xn ) = τ1 (X1 , ..., Xn ) + τ2 (X1 , ..., Xn ) (3.53)
2 2
Claramente τ3 (X1 , ..., Xn ) es insesgado ya que τ1 (X1 , ..., Xn ) y
τ2 (X1 , ..., Xn ) lo son y, por lo tanto, τ3 (·) ∈ Tn . Al calcular su varianza
tenemos que:

V ar(τ3 (X1 , ..., Xn )) = E{(τ3 (X1 , ..., Xn ) − θ)2 }


1
= (V ar(τ1 (X1 , ..., Xn )) + V ar(τ2 (X1 , ..., Xn ))
4
+ 2Cov(τ1 (X1 , ..., Xn ), τ2 (X1 , ..., Xn ))).
3.4. Estimador de Máxima Verosimilitud 77

Notando que
(Cov(τ1 (X1 , ..., Xn ), τ2 (X1 , ..., Xn )))2
=|E (τ1 (X1 , ..., Xn ) − E(τ1 (X1 , ..., Xn )), τ2 (X1 , ..., Xn ) − E(τ2 (X1 , ..., Xn )))2 |


≤V ar(τ1 (X1 , ..., Xn ))V ar(τ2 (X1 , ..., Xn )) Usando Cauchy-Schwarz


=V02 (3.54)

Finalmente se tiene que:


1
V ar(τ3 (X1 , ..., Xn )) ≤ (V0 + V0 + 2V0 ) = V0 (3.55)
4
La desigualdad estricta no es factible pues contradice el hecho que
τ1 (x1 , ..., xn ) y τ2 (x1 , ..., xn ) son estimadores de mı́nima varianza. Por
lo tanto, V ar(τ3 (X1 , ..., Xn )) = V0 , en ese sentido, la desigualdad de
Cauchy-Schwarz se cumple con igualdad y necesariamente son lineal-
mente dependientes, es decir,

τ1 (X1 , ..., Xn )−E(τ1 (X1 , ..., Xn )) = k0 (τ2 (X1 , ..., Xn )−E(τ2 (X1 , ..., Xn )))
(3.56)
para cierto k0 ∈ R, reemplazando (3.56) en (3.54) obtenemos

k02 V02 = V02 ⇒ k02 = 1 (3.57)

por lo tanto τ1 (X1 , ..., Xn ) = τ2 (X1 , ..., Xn ), lo que contradice la hipo-


tesis.

3.4. Estimador de Máxima Verosimilitud


En la sección anterior encontramos un lı́mite fundamental para
un estimador insesgado de mı́nima varianza. Sin embargo, poco se ha
dicho para obtener un estimador a partir de observaciones.

En esta sección veremos un criterio concreto de selección de parámetros


(y por lo tanto obtener un estimador). Uno de los principios clásicos
es el criterio de máxima verosimilitud.

Consideremos nuevamente el escenario paramétrico

FΘ = {PX (·|θ) : θ ∈ Θ}.


78 Unidad III: Estimación Paramétrica

Y también consideramos la función de verosimilitud


L(X1 , X2 , ..., Xn |θ).

Definimos el estimador de máxima varosimilitud τM L (·) : Xn → Θ


como:

θ̂M L (X1n ) = arg máx L(X1 , ..., Xn |θ). (3.58)


θ∈Θ

Donde arg máx f (θ) corresponde a el argumento θ ∈ Θ que maximiza


θ∈Θ
la función f . Normalmente las familias a optimizar son exponencia-
les, luego es conveniente aplicarle logaritmo y trabajar sobre la log-
verosimilitud, con esto el estimador de máxima verosimilitud también
puede definirse como:

θ̂M L (X1n ) = arg máx ln(L(X1 , ..., Xn |θ)), (3.59)


θ∈Θ

Podemos observar que al aplicar logaritmo, al ser una función cóncava


y monótona, el resultado del estimador no cambia ya que estamos
buscando el argumento que maximiza la función y no el valor máximo
de la función.

Notamos entonces que el estimador de máxima verosimilitud equivale


a encontrar el parámetro en Θ que mejor describa los datos en un
sentido de probabilidad. En otras palabras el objetivo es encontrar
el parámetro que hace las observaciones más probables dentro de la
familia FΘ .

Por lo general las observaciones suelen ser independientes y de


familia exponencial, por lo que el estimador de máxima verosimilitud
se puede escribir como:

n
X
θ̂M L (X1n ) = arg máx ln(L(Xi |θ)). (3.60)
θ∈Θ
i=1
3.4. Estimador de Máxima Verosimilitud 79

Para resolver la ecuación anterior la condición de primer orden4 dice


que:
∂ ln L(X1 , X2 , ..., Xn |θ) 1 ∂L(X1 , X2 , ..., Xn |θ)
= · = 0.
∂θ L(X1 , X2 , ..., Xn |θ) ∂θ
(3.61)
Naturalmente si ln(L(X1 , ..., Xn |θ)) es cóncava, la solución de la ecua-
ción anterior nos da el óptimo global del problema. En la práctica la
condición de primer orden nos define el espacio de soluciones factibles,
sobre las cuales podremos encontrar la solución optima5 .

3.4.1. Maxima Verosimilitud y Mı́nima Varianza

Si asumimos que la cota de Cramér-Rao se alcanza (ver Sección


3.3.2), entonces sabemos que ∃τn∗ (·) : Xn → Θ donde:

∂ ln L(X1 , X2 , ..., Xn |θ)


= In (θ)(τn∗ (X1 , ..., Xn ) − θ), (3.62)
∂θ
La solución a las condiciones de primer orden en (3.61) nos dice enton-
ces que

In (θ)(τn∗ (X1 , ..., Xn ) − θ) = 0 ⇒ θ̂M L (X1 , ..., Xn ) = τn∗ (X1 , ..., Xn ).


(3.63)
Para analizar si este óptimo local es al mismo tiempo global, calculamos
la segunda derivada de la función objetivo en torno a θ̂M L (X1 , ..., Xn ):

∂ 2 ln L(X1 , X2 , ..., xXn |θ)


∂θ2
θ=θ̂M L

 :0
  
∂In (θ) 
∗ 
n ) − θ̂M L (X1 , ..., Xn )) − In (θ̂M L (X1 , ..., Xn ))
= (τn (X1, ...,
X

∂θ  
θ=
 θ̂M L


= −In (θ̂M L (X1 , ..., Xn )) < 0
 (3.64)

4 Asumiendo que L(X1 , X2 , ..., Xn |θ) es diferenciable.


5 En la práctica para muchos problemas la solución del estimador de máxima verosimilitud
no ofrece expresiones cerradas y solo es posible aproximar por medio de métodos numéricos
tipo gradiente descendente.
80 Unidad III: Estimación Paramétrica

De este análisis se desprende que la solución al problema


∂ ln L(X1 ,X2 ,...,Xn |θ)
∂θ es única dado la forma en (3.62) y es equiva-
lente a la solución que alcanza la mı́nima varianza.

Notar entonces que si existiese un estimador insesgado de mı́ni-


ma varianza, éste coincidirá con el entregado por el estimador de
máxima verosimilitud.
Lo interesante es que la información de Fisher juega un rol en el
sentido que actúa como criterio para determinar la concavidad de la
función de verosimilitud.

3.4.2. Consistencia del Estimador de Máxima Verosimilitud

En lo que viene demostraremos que el estimador de máxima vero-


similitud es consistente.

Teorema 3.7. Supongamos una familia FΘ , un vector X1n ∼


PX (·|θ0 )n (i.i.d) y el estimador θ̂M L (X1 , ..., Xn ) como variable alea-
toria en Θ. El estimador de máxima verosimilitud converge a θ0 en
probabilidad, es decir:

 
P
θ̂M L (X1 , ..., Xn ) −
→ θ0 ⇔ (∀ϵ > 0) lı́m PX1 ,...,Xn θ̂M L (X1 , ..., Xn ) − θ0 > ϵ = 0
n→∞
(3.65)

Demostración: Trabajaremos en el espacio continuo para las variables


de observación. Para esto asumamos que existe θ1 ̸= θ0 , arbitrario. La
idea por tanto reduce a verificar que el siguiente evento6

{xn1 ∈ Xn : L(x1 , ..., xn |θ0 ) − L(x1 , ..., xn |θ1 ) > 0} (3.66)

ocurre con alta probabilidad para n suficientemente grande (y en el


limite con probabilidad 1 cuando n tiende a infinito). Cuando n es

6 Recordando que el criterio de máxima verosimilitud es el argumento θ que maximiza


L(X1 , ..., Xn |θ), por lo tanto, nos interesa elegir θ0 .
3.4. Estimador de Máxima Verosimilitud 81

suficientemente grande se tiene que:


n
1 1X
log(L(X1 , ..., Xn |θ1 )) |{z}
= log(L(Xi |θ1 ))
n n
i.i.d. i=1
n
1 X
= log(fX (Xi |θ1 )) (3.67)
n | {z }
i=1 Variable aleatoria i.i.d.

Notar que la esperanza de log(fX (Xi |θ1 )) es:


Z ∞
EX (log(fX (X|θ1 ))|θ0 ) = log(fX (x|θ1 ))fX (x|θ0 )dx < ∞. (3.68)
−∞

Entonces por ley fuerte de los grande números:


n
1X c.s.
log(fX (Xi |θ1 )) −−→ EX (log(fX (X|θ1 ))|θ0 ). (3.69)
n
i=1

Análogamente se tiene que:


n
1X c.s.
log(fX (Xi |θ0 )) −−→ EX (log(fX (X|θ0 ))|θ0 ). (3.70)
n
i=1

bajo el hecho que


Z ∞
EX (log(fX (X|θ0 ))|θ0 ) = log(fX (x|θ0 ))fX (x|θ0 )dx < ∞. (3.71)
−∞

Utilizando la desigualdad de Jensen7 vemos que:


     
fX (X|θ1 ) fX (X|θ1 )
EX log θ0 ≤ log EX
fX (X|θ0 ) fX (X|θ0 )
Z ∞   
fX (x|θ1 )
= log fX (x|θ0 )dx
fX (x|θ0 )
Z−∞
∞ 
= log fX (x|θ1 )dx
−∞
| {z }
1
= 0. (3.72)

7 Si
f : R −→ R es una función cóncava, entonces para cualquier variable aleatoria X:
EX (f (X)) ≤ f (EX (X)).
82 Unidad III: Estimación Paramétrica

Esto es equivalente a decir que


  
fX (X|θ0 )
EX log θ0 ≥ 0, (3.73)
fX (X|θ1 )
donde la igualdad se obtiene en (3.73), si y sólo si,
fX (x|θ0 ) = fX (x|θ1 ) ∀x ∈ R. (3.74)
Observación: La expresión:
Z ∞  
fX (x|θ0 )
D(fX (X|θ0 )||fX (X|θ1 )) = fX (x|θ0 ) log dx ≥ 0.
| {z } −∞ fX (x|θ1 )
Divergencia entre fX (X|θ0 ) y fX (X|θ1 )
(3.75)
corresponde a la divergencia entre dos distribuciones, es un operador
muy usado en Teorı́a de la Información que sirve para medir similitudes
entre dos distribuciones de probabilidad.

Resumiendo lo hecho hasta el momento tenemos lo siguiente:


n n
1X 1X
L(X1 , ..., Xn |θ0 ) − L(X1 , ..., Xn |θ1 ) = log(fX (Xi |θ0 )) − log(fX (Xi |θ1 ))
n n
i=1 i=1
c.s
→ EX (log(fX (X|θ0 ))|θ0 ) − EX (log(fX (X|θ1 ))|θ0 )
z}|{
  
fX (X|θ0 )
= EX log θ0
fX (X|θ1 )
>0 (3.76)
y, por ende,
 
PX1 ,...,Xn {xn1 ∈ Xn : lı́m L(x1 , ..., xn |θ0 ) − L(x1 , ..., xn |θ1 ) > 0} = 1.
n→∞
(3.77)
Finalmente dado que (3.77) se cumple ∀θ1 ̸= θ0 entonces la probabili-
dad en (3.77) se puede expresar como:
 
PX1 ,...,Xn lı́m θ̂M L (X1 , ..., Xn ) = θ0 = 1 (3.78)
n→∞

Por lo tanto θ̂M L (X1 , ..., Xn ) converge a θ0 casi seguramente (y en con-


secuencia en probabilidad8 ), luego θ̂M L (·) es un estimador consistente.
8 Laconvergencia casi segura de una secuencia aleatoria es más fuerte que la convergencia
en probabilidad. Detalles en [9].
3.4. Estimador de Máxima Verosimilitud 83

Ejemplo 3.7. Sea X1n un vector i.i.d. tal que (∀i ∈ {1, ..., n})Xi ∼
N (θ, σ 2 ). Asumiremos σ 2 conocido y el problema de estimación se re-
duce a estimar θ (la media de la distribución normal). En este contexto
la función de verosimilitud es:
n −(Xi −θ)2
Y 1
L(X1 , ..., Xn |θ) = √ e 2σ2 . (3.79)
i=1
2πσ
Si analizamos:
n
(Xi − θ)2
 
1 X
log(L(X1 , ..., Xn |θ)) = n ln √ − , (3.80)
2πσ 2σ 2
i=1

el problema de estimación de máxima verosimilitud equivale a encon-


trar:
θ̂M L (X1n ) = arg máx ln(L(X1 , ..., Xn |θ)) (3.81)
θ∈R
n
X (Xi − θ)2
= arg mı́n . (3.82)
θ∈R 2σ 2
i=1

La última expresión corresponde a minimizar (en promedio) el error


cuadrático entre la observación Xi y la media µ = E(Xi ). Luego, al
tomar la expresión:
n  n
Xi − θ 2

X 1 X
arg mı́n √ = 2 · arg mı́n (Xi − θ)2 , (3.83)
θ∈R 2σ 2σ θ∈R
i=1 i=1

y aplicando la condición de primer orden nos dice que:


n
∂ log L(X1 , X2 , ..., Xn |θ) X (Xi − θ)
=0⇔ =0
∂θ σ2
i=1
n
n 1X
⇒θ̂M L (X1 ) = Xi . (3.84)
n
i=1

Por otro lado,


∂ 2 log L(X1 , X2 , ..., Xn |θ) −n
= < 0, (3.85)
∂θ2 σ2
µ=θ̂
84 Unidad III: Estimación Paramétrica

con lo que θ̂M L (X1n ) = n1 ni=1 Xi es el estimador de máxima verosimi-


P

litud. Analicemos el sesgo.


n
!
1 X
E(θ̂M L (X1n )) = E Xi
n
i=1
n
P
E (Xi )
i=1
=
n
n
P
θ
i=1
=
n
= µ, (3.86)
es insesgado. Para ver la consistencia, notemos que aplicando la des-
igualdad de Chebyshev tenemos que, para ϵ > 0:
V ar(θ̂M L (X1n ))
PX1n (|θ̂M L (X1n ) − θ| > ϵ) ≤
ϵ2
Pn
V ar(Xi )
i=1
=
n2 ϵ2
n
σ2
P
i=1
=
n2 ϵ2
σ2
= . (3.87)
nϵ2
P
Tomando n → ∞ vemos que θ̂M L (X1n ) −
→ θ, luego el estimador es
consistente.

Observaciones:

Particularmente para el caso anterior, el estimador


n
1
θ̂M L (X1n ))
P
= n Xi es consistente y se pudo haber de-
i=1
mostrado como consecuencia directa de la ley débil de los
grandes números.
Del ejemplo 3.3 notamos que este estimador alcanza la cota
de Cramér-Rao, por ende también es de mı́nima varianza.
3.4. Estimador de Máxima Verosimilitud 85

Propuesto 3.2. Considere el caso de observaciones i.i.d. Gaussianas


donde µ es conocido y se desea estimar σ 2 . Verifique que
n
2 1X
σ̂M L (X1 , .., Xn ) = (Xi − µ)2 . (3.88)
n
i=1

3.4.3. Condición de Normalidad Asintótica del Estimador de


Máxima Verosimilitud

El siguiente resultado indica que el estimador de maxima verosimi-


litud es óptimo (eficiente en un sentido estadı́stico) en el sentido que
su varianza (viendo al estimador como variable aleatoria) converge a la
cota de Cramér-Rao cuando el número de observaciones se va a infinito.

Teorema 3.8. Sea FΘ una familia de distribuciones y conside-


remos θ̂M L (X1 , ..., Xn ) el estimador de máxima verosimilitud. Si
log(fX (X1 , ..., Xn |θ)) es dos veces diferenciable (con respecto a θ) y
θ0 es el valor tal que (X1 , ..., Xn ) ∼ P (·|θ0 )n (i.i.d), se tiene que:
Distribución

n(θ̂M L (X1 , ..., Xn ) − θ0 ) −→
z}|{
Y, (3.89)
 
1
con Y ∼ N 0, I1 (θ 0)
donde
( 2 )
∂ log L(X1 |θ0 )
I1 (θ0 ) = EX1 . (3.90)
∂θ0

En este punto es importante mencionar la siguiente propiedad aditiva


de la Información de Fisher, que nos dice que, bajo la hipótesis que
la distribución de X1n es independiente e idénticamente distribuida, se
tiene que:
86 Unidad III: Estimación Paramétrica

Lema 3.1.
( 2 )
∂ ln L(X1 , X2 , ..., Xn |θ)
In (θ0 ) = EX1 ,..,Xn = nI1 (θ0 ). (3.91)
∂θ

Este Lema se puede demostrar de la hipótesis i.i.d. impuesta en las


observaciones y del hecho que (ver Eq.(3.20)):
 
∂ ln L(X1 , X2 , ..., Xn |θ)
EX1 ,..,Xn = 0. (3.92)
∂θ
El estimador de Máxima Verosimilitud es consistente en probabilidad
(en consecuencia asintoticamente insesgado9 ) y adicionalmente su
varianza converge (con n) a la mı́nima varianza dada por la cota de
Cramér-Rao.

Por lo tanto para el caso de observaciones independientes e idénti-


camente distribuidas, no existe un mejor estimador con mejores
propiedades de optimalidad que el de máxima verosimilitud.

Demostración: Dado que θ̂M L (X1 , ..., Xn ) → θ0 casi seguramente (o


con probabilidad 1), la idea es utilizar la hipotesis que la función
ln L(X1 , X2 , ..., Xn |θ) es dos veces diferenciable con respecto a θ. Con
2 ,...,Xn |θ)
esto tomaremos la siguiente función √1n ∂ ln L(X1 ,X ∂θ y realizare-
mos un desarrollo en serie de Taylor entorno a θ0 de orden 0 evaluado
en θ = θ̂M L (X1 , ..., Xn ), es decir:
1 ∂ ln L(X1 , X2 , ..., Xn |θ) 1 ∂ ln L(X1 , X2 , ..., Xn |θ)
√ =√
n ∂θ θ=θ̂M L n ∂θ θ=θ0
1 ∂ 2 ln L(X1 , X2 , ..., Xn |θ)
+√ (θ̂M L − θ0 ), (3.93)
n ∂θ2 θ=θ̃

con θ̃ ∈ (θ̂M L , θ0 ). Lo primero es que por la consistencia del estimador


de Máxima Verosimilitud θ̃ → θ0 casi seguramente.
9 Engeneral la convergencia casi segura o en probabilidad no implican convergencia en
media, salvo que el estimador sea integrable
3.4. Estimador de Máxima Verosimilitud 87

Por otro lado, dado que el estimador de Máxima Verosimilitud


cumple la condición de primer orden (por definición maximiza la
función ln L(X1 , X2 , ..., Xn |θ)), entonces:

1 ∂ ln L(X1 , X2 , ..., Xn |θ)


√ =0 (3.94)
n ∂θ θ=θ̂M L

de (3.93) tenemos entonces que cuando n tiende a infinito:


1 ∂ ln L(X1 , X2 , ..., Xn |θ) − n ∂ 2 ln L(X1 , X2 , ..., Xn |θ)
lı́m √ = lı́m (θ̂M L − θ0 ).
n→∞ n ∂θ θ=θ0
n→∞ n ∂θ2 θ=θ̃
(3.95)

Vamos a analizar las expresiones de ambos lados de la identidad en


(3.95).

Respecto al termino del lado derecho de (3.95), debido a la ley


fuerte de los grandes números (notando que log(L(X1 , ..., Xn |θ)) =
Pn
log(L(Xi |θ))) se tiene que:
i=1

n
−1 ∂ 2 ln L(X1 , X2 , ..., Xn |θ) 1 X ∂ 2 ln L(Xi |θ)
=−
n ∂θ2 θ=θ̃ n ∂θ2 θ=θ̃
i=1
( )
∂ 2 ln(fX1 (X1 |θ))
→ −E X1
|{z} ∂θ2 θ=θ0
c.s.
= I1 (θ0 ) (3.96)

Respecto al término del lado izquierdo de (3.95), podemos notar que


∂ ln(fX1 (X1 |θ))
∂θ es una variable aleatoria de media 0 y varianza
θ=θ0
I1 (θ0 ). Luego deducimos que de la aplicación del Teorema Central del
88 Unidad III: Estimación Paramétrica

Lı́mite [5] que:


n
1 1 ∂ ln L(X1 , X2 , ..., Xn |θ) 1 1 X ∂ ln L(Xi |θ)
√ ·p =√ p
n I1 (θ0 ) ∂θ θ=θ0 n I1 (θ0 ) ∂θ θ=θ0
i=1
n
1 n 1 X ∂ ln L(Xi |θ)
=√ ·p ·
n I1 (θ0 ) n i=1
∂θ θ=θ0
n
1 P ∂ ln L(Xi |θ)
n ∂θ
i=1 θ=θ0
= √
I1 (θ0 )

n

|{z} N (0, 1) (3.97)
Distribución

que equivale a decir que:


1 ∂ ln L(X1 , X2 , ..., Xn |θ)
√ → N (0, I1 (θ0 )). (3.98)
n ∂θ |{z}
θ=θ0 Distribución

Finalmente regresando a (3.95), y tomando n → ∞ tenemos que:


1 ∂ ln L(X1 , X2 , ..., Xn |θ) √ −1 ∂ 2 ln L(X1 , X2 , ..., Xn |θ)
√ = n (θ̂M L − θ0 )
n ∂θ θ=θ0 n ∂θ2 θ=θ0
| {z } | {z }

|{z} Y ∼N (0,I1 (θ0 )) → I1 (θ0 )
|{z}
Distribución c.s.

(3.99)

Por lo tanto n(θ̂M L (X1 , .., Xn ) − θ0 ) converge
 en distribución
 a una
1 1
variable aleatoria Z ∼ I1 (θ0 ) N (0, I1 (θ0 )) = N 0, I1 (θ0 )

Observaciones:

El estimador de máxima verosimilitud puede no ser insesga-


do, pero al ser consistente y además le pedimos integrabilidad
entonces se puede garantizar que sea asintóticamente inses-
gado.
Los resultados de consistencia y normalidad asintótica son
válidos cuando los modelos son independientes e idéntica-
mente distribuidos , por lo tanto, si este supuesto no se cum-
ple no se puede garantizar tales propiedades.
3.4. Estimador de Máxima Verosimilitud 89

No siempre el estimador de máxima verosimilitud ofrecerá


una solución cerrada, por lo que muchas veces se requerirá
utilizar algún optimizador y calcular el estimador de manera
numérica.

3.4.4. Caso de Estudio: Distribución Normal Multivariada

Consideremos un vector aleatorio (X1 , ..., Xd ) con valores en Rd tal


que:
X1d ∼ N (m, K)

con m ∈ Rd es el vector de media y K = E{(X − m)(X − m)t } ∈ Rd×d


la matriz de covarianza. El problema consiste en estimar m, K como
función de n observaciones vectoriales ((X1d )1 , ..., (X1d )n ). Notar que
este caso cada observación corresponde a un vector de dimensión d.
Para reducir la notación diremos que Yi = (X1d )i , es decir, Y representa
un vector. La función de verosimilitud conjunta en este caso es:
n
−1
(Yi −m)t K −1 (Yi −m)
P
−n/2 −n/2 2
L(Y1 , ..., Yn |m, K) = (2π) |K| e i=1 (3.100)

Luego
n n
ln(L(Y1 , ..., Yn |m, K)) = − log(2π) − log |K|
2 2
n
1X
− (Yi − m)t K −1 (Yi − m) (3.101)
2
i=1

Imponiendo las condiciones de primer orden, podemos obtener el ópti-


mo global de (3.101). Para lo anterior resulta útil introducir las siguien-
tes definiciones:
n
1X
Y = Yi (Media Empı́rica) (3.102)
n
i=1
n
1 X
S= (Yi − Y )(Yi − Y )t (Covarianza Empı́rica Muestral).
n
i=1
(3.103)
90 Unidad III: Estimación Paramétrica

El término cuadrático de (3.101) se puede re-escribir como:


(Yi − m)t K −1 (Yi − m)
= (Yi − Y + Y − m)t K −1 (Yi − Y + Y − m)
= (Yi − Y )t K −1 (Yi − Y ) + (Y − m)t K −1 (x − m) + 2(Y − m)t K −1 (Yi − Y )
(3.104)
donde al tomar sumatoria tenemos que
n
X
(Yi − m)t K −1 (Yi − m)
i=1

n n n  :0

X X X 
= (Yi − Y )t K −1 (Yi − Y ) + (Y − m)t K −1 (Y − m) + 2 (Y −
m) K −1 (Yi − Y )
t 

i=1 i=1 
i=1

Xn
= (Yi − Y )t K −1 (Yi − Y ) + n · (Y − m)t K −1 (Y − m) (3.105)
i=1
| {z }
| {z } Sesgo
Dispersión

Notar que:
(Yi − Y )t K −1 (Yi − Y ) = tr((Yi − Y )(Yi − Y )t K −1 ) (3.106)
−1 t
= tr(K (Yi − Y )(Yi − Y ) ) (3.107)
Donde tr corresponde a la traza de una matriz. Entonces volviendo a
(3.105)
n n
!
X X
(Yi − m)t K −1 (Yi − m) = n · (Y − m)t K −1 (Y − m) + tr K −1
(Yi − Y )(Yi − Y ) t

i=1 i=1

= n · (Y − m)t K −1 (Y − m) + tr K −1 nS

(3.108)

Integrando tenemos que:


log(L(Y1 , ..., Yn |m, K)) =
n n n  n
− log(2π) − log |K| − tr K −1 S − (Y − m)t K −1 (Y − m).
2 2 2 2
(3.109)
Si consideramos la verosimilatud en (3.109) función de V = K −1 y m (y
la denotamos como log(L(Y1 , ..., Yn |m, V )) e imponemos las condiciones
de primer orden tenemos que:
∂ log(L(Y1 , ..., Yn |m, V ) ∂ log(L(Y1 , ..., Yn |m, V )
=0 ∧ = 0.
∂m ∂V
(3.110)
3.5. Estimador de Mı́nimo Error Cuadrático Medio 91

Esto implica que:


∂ log(L(Y1 , ..., Yn |m, V ) ∂  n 
= − (Y − m)t K −1 (Y − m)
∂m ∂m 2
n −1
= − K (Y − m) = 0
2
⇒ mM L (Y1 , ..., Yn ) = Y . (3.111)

Por otro lado utilizando las siguientes identidades:


∂ log(|V |)
1- ∂V = (V −1 )t
∂tr(V ·S) t
2- ∂V =S

tenemos que:
∂ log(L(Y1 , ..., Yn |m, V )
∂V
∂ n n  n 
= log |V | − tr V S − (Y − m)t V (Y − m)
∂V 2 2 2 
n −1 t t ∂
tr V (Y − m)(Y − m)t

= (V ) − S −
2 ∂V
n  −1 t t

= (V ) − S − ((Y − m)(Y − m)t )−1 = 0 (3.112)
2
Finalmente, tomando traspuesto, podemos notar que dado que
mM L (Y1 , ..., Yn ) = Y :
:0

−1 t −1  t
0=V − S − (Y − m)(Y − m) = V − S − (Y−
m)(Y
 − m) .

(3.113)
−1
Por lo tanto K̂M L (Y1 , .., Yn ) = V̂M L (Y1 , .., Yn ) = S.

3.5. Estimador de Mı́nimo Error Cuadrático Medio


El estimador de mı́nimos cuadrados o Least Squares es un estima-
dor muy usado debido a su simpleza de implementación. Surge como
una alternativa cuando no se posee acceso a las distribuciones del
modelo asociado. Su origen proviene del hecho de buscar minimizar la
distancia entre el valor observado y el estimado.

En este problema entonces dado un vector de observación Y1n la


92 Unidad III: Estimación Paramétrica

idea es estimar θ ∈ Rm de tal forma de minimizar su error cuadrático,


es decir, debemos minimizar:
n
X
||θ − θ̂(Y1n )||2 = (θi − θ̂i (Y1n ))2 . (3.114)
i=1

donde θi es la componente i-ésima del vector θ. Notar que (3.114)


es intratable dado que no conocemos θ y por lo tanto encontrar un
estimador θ̂(Y1n ) sin una hipótesis adicional es inviable.

Por lo tanto, se simplificará el problema buscando minimizar la


distancia entre el vector de observaciones Y1n con el parámetro θ
proyectado en el espacio de observaciones Rn , es decir,

||Y1n − f (X, θ)||2 (3.115)

donde f : Mn×m × Rm → Rn es una función de ajuste entre X e


Y . Esto significa que el problema de mı́nimos cuadrados se redujo
a encontrar el vector de parámetros θ tales que la función f mejor
describa la relación entre X e Y . Esto último se conoce como el
problema de regresión.

Para este obtener este estimador, dado que f aún es implı́cito,


nos limitaremos al caso del estimador lineal de mı́nimos cuadrados, es
decir, f (X, θ) = Xθ . Hay muchos problemas inversos en ingenierı́a
que reducen al modelo lineal de observación, con lo que:

Y1n = Xθ + V1n , (3.116)

donde:

1- Y1n ∈ Rn es el vector de observación (variable independiente),


2- X ∈ Mn×m es la matriz de proyección o el operador lineal
que mapea el parámetro al espacio de observaciones (variable
dependiente),
3- θ ∈ Rm es el parámetro a inferir, en este caso es un vector
de parámetros.
4- V1n ∈ Rn representa un ruido aditivo con valores en Rn .
3.5. Estimador de Mı́nimo Error Cuadrático Medio 93

a continuación vamos a despreciar el efecto del ruido, es decir, busca-


remos minimizar:
n
X
θ̂LS (Y1 , ..., Yn ) = arg mı́n (Yi − (Xθ)i )2
θ∈Rm i=1

= arg mı́n ||Y1n − Xθ||2


θ∈Rm
= arg mı́n (Y1n − Xθ)t (Y1n − Xθ) (3.117)
θ∈Rm

Notar que (X θ̄)i es la fila i-ésima del problema. En este escenario hay
varios casos:

1- n ≥ m: Caso sobre-estimado. Más mediciones que grados de


libertad.
2- n = m: Caso crı́tico.
3- n < m: Caso sub-estimado. Menos mediciones que grados de
libertad.

En lo que sigue veremos una solución genérica para este problema.


Vamos a considerar una matriz W ∈ Mn×n (llamada matriz de
pesos) definida positiva y simétrica lo que transformará el problema de
mı́nimos cuadrados a una versión ponderada (Weighted Least Squares).

El problema de estimación cuadrática ponderada se define como


θ̂W LS (Y1 , ..., Yn ) = arg mı́n (Y1n − Xθ)t W (Y1n − Xθ)
θ∈Rm
n Medición
X z}|{
= arg mı́n wi ( Yi −(Xθ)i )2 , (3.118)
θ∈Rm i=1

donde la última expresión se puede desprender solamente si W es diago-


nal cuya componente i-ésima es wi . En adelante analizaremos la función
objetivo:
J(θ) = (Y1n − Xθ)t W (Y1n − Xθ)
t
= (Y1n )t W Y1n + θ X t W Xθ − 2(Y1n )t W Xθ (3.119)
Aplicamos la condición de primer orden y las identidades válidas para
toda matriz A ∈ Mm×m y b ∈ Rm
94 Unidad III: Estimación Paramétrica


1- ∂θ
(bt θ) = b.
∂ t
2- ∂θ
(θ Aθ) = 2Aθ
tenemos que:
 
t
∂ θ X t W Xθ∂ 2z t W Xθ

∂J(θ)
=0⇒ − =0
∂θ ∂θ ∂θ
= 2X t W Xθ − 2(z t W X)t = 0
⇒ θ̂W LS = (X t W X)−1 (X t W )Y1n (3.120)
En el caso particular que no se utilice una matriz de pesos se reduce al
estimador lineal de mı́nimos cuadrados, dado por:
θ̂LS = (X t X)−1 X t Y1n (3.121)
Observación: La condición de invertibilidad se da cuando W es definida
no negativa, es invertible y el rango de X es completo, es decir, cuando
n ≥ m y las columnas de X son linealmente independientes.

Ejemplo 3.8. Supongamos que tenemos un instrumento que mide una


variable escalar por medio de la siguiente ecuación
Yi = θ + Vi ∀i ∈ {1, ..., n} (3.122)
|{z}
ruido
Se determinará el estimador LS óptimo, para esto notemos que:
     
Y1 1 V1
 ..   ..   .. 
 .  = . · θ +  .  (3.123)
Yn 1 Vn
n ≥ 1, es un caso sobre-determinado. Aplicamos el estimador lineal de
mı́nimos cuadrados y tenemos que:
  −1  
1 Y1
  .   . 
θ̂LS (Y1 , ..., Yn ) =  1 · · · 1  ..  1 · · · 1  .. 

1 Yn
n
1 X
= Yi | Media empı́rica
n
i=1
(3.124)
3.5. Estimador de Mı́nimo Error Cuadrático Medio 95

Ejemplo 3.9. (Regresión Lineal) Supongamos que tenemos un con-


junto de puntos {(xi , yi )}ni=1 . Consideremos el siguiente modelo lineal

Yi = α + βXi + Vi ∀i ∈ {1, ..., n} (3.125)


|{z}
ruido

Nos gustarı́a encontrar los parámetros α y β que mejor se ajusten


al modelo lineal en el sentido de mı́nimo error cuadrático. Para esto
entonces se determinará el estimador de mı́nimos cuadrados óptimo.
Notemos que:

     
Y1 1 X1   V1
 ..   ..  α  .. 
 .  = . · + .  (3.126)
β
Yn 1 Xn Vn

n ≥ 2, es un caso sobre-determinado. Aplicamos el estimador lineal de


96 Unidad III: Estimación Paramétrica

mı́nimos cuadrados y tenemos que:


  −1  
  1 X1   Y1
 X1 · · · Xn  .. X1 · · · Xn  . 
θ̂LS (Y1 , ..., Yn ) =   .. 

.
1 ··· 1 1 ··· 1

1 Xn Yn
n n
 −1  n

2
P P P
i=1 Xi i=1 Xi  i=1 Xi Yi 
= n
P
  n
  P


n Xi Yi
i=1 i=1
n n
 n 
2
P P P
X i − X i  X Y
i i
1 
i=1 i=1  i=1n
= 2 n

n n
  P  P 
P
Xi − n
P
Xi2 −n Xi Yi
i=1 i=1
i=1 i=1
n n n n

2
P P P P
 Xi Xi Yi − Xi Yi 
1 i=1 ni=1 i=1 i=1 
= 2 n n
n n
  P P P 
P
Xi − n
P
Xi2 −n Xi Yi + Xi Yi
i=1 i=1 i=1
i=1 i=1
n n n n

P 2P P P
 Xi Yi − Xi Xi Yi 
1 i=1 n i=1 i=1 i=1
= 2  n n

n n
  P P P 
n
P
Xi2 −
P
Xi n Xi Yi − Xi Yi
i=1 i=1 i=1
i=1 i=1
(3.127)

Si nos concentramos en el parámetro β̂(Y1n ), tenemos que:


n
P n
P n
P
n Xi Yi − Xi Yi
i=1 i=1 i=1
β̂(Y1n ) = 2
n
n
Xi2 −
P P
n Xi
i=1 i=1
n n n
1 1
Xi n1
P P P
n Xi Yi − n Yi
i=1 i=1 i=1
= 2 . (3.128)
n n

1 1
Xi2
P P
n − n Xi
i=1 i=1

El numerador corresponde a la covarianza empı́rica entre X e Y . El


denominador corresponde a la varianza empı́rica de X. Recordemos
3.5. Estimador de Mı́nimo Error Cuadrático Medio 97

que la covarianza entre dos variables se interpreta como el grado de


dependencia lineal entre dos variables, lo que tiene directa relación con
que forme parte del coeficiente de β̂(Y1n ), ya que β̂(Y1n ) es la pendiente
de la recta que asocia X con Y .

Observaciones:

La regla anterior se puede extender a polinomios de mayor


grado, por lo que el estimador lineal de mı́nimos cuadrados
puede ser extendido a escenarios más complejos siempre y
cuando exista una combinación lineal de parámetros. Consi-
deremos el siguiente modelo lineal
Yi = α + βXi + γXi2 + Vi ∀i ∈ {1, ..., n} (3.129)
|{z}
ruido

Inmediatamente podemos realizar el ajuste al modelo lineal


en el sentido de mı́nimo error cuadrático. Notemos que:
1 X1 X12
       
Y1 α V1
 ..   ..     .. 
 .  = . · β + .  (3.130)
Yn 1 Xn Xn 2 γ Vn
Lo cual nos permite utilizar la expresión en (3.121).
Similarmente puede ser extendido a funciones no necesaria-
mente lineales pero que de todas formas exista un ajuste li-
neal de los parámetros mediante alguna transformación. Con-
sideremos el siguiente modelo:
Yi = KeβXi + Vi ∀i ∈ {1, ..., n} (3.131)
|{z}
ruido

Tomando logaritmo y despreciando el ruido notemos que:


ln(Yi ) = ln(K) + βXi ∀i ∈ {1, ..., n} (3.132)
Lo que nos entrega una relación lineal de la forma:
   
ln(Y1 ) 1 X1  
 ..   ..  ln(K)
 .  = . · (3.133)
β
ln(Yn ) 1 Xn
98 Unidad III: Estimación Paramétrica

Y nuevamente nos permite utilizar la expresión en (3.121).


Lo que nos da un ajuste tipo exponencial.
Dado que ya tenemos θ̂LS (Y1n ) podemos entonces calcular la
mı́nima distancia a optimizar dada en (3.117). Al hacer esto
nos encontramos con la siguiente expresión:
n
X
||Y1n − X θ̂LS (Y1n )||2 = (Yi − (X θ̂LS (Y1n ))i )2 (3.134)
i=1

El valor (Yi − (X θ̂LS (Y1n ))i ) corresponde al residuo ya que


es la diferencia entre el valor observador y el valor estimado.
n
2 ≜ (Yi − (X θ̂LS (Y1n ))i )2 se
P
Esto significa entonces que σR
i=1
interpreta como la varianza residual.

Por otro lado, conocemos el estimador más simple que co-


n
rresponde a la media empı́rica n1
P
Yi , lo que también posee
i=1
n
 n
2
su propio error residual dado por σY2 ≜ Yi − n1
P P
Yi .
i=1 i=1
Notemos que este valor corresponde a la varianza empı́rica
de Y (salvo por un factor de n que falta)10 .

Para saber entonces un buen criterio de ajuste, defini-


mos el coeficiente de determinación R2 como:
σR2
R2 = 1 − (3.135)
σY2

Un valor R2 cercano a 1 significa una varianza residual 0 y


el modelo explica con mucha precisión la variable Y . Por el
contrario, un R2 cercano a 0 significa un modelo de base,
n
donde la predicción coincide con la media n1
P
Yi y por lo
i=1
tanto tiende a ser bastante pobre en desempeño. Es posible
tener coeficientes negativos lo que indicarı́a un ajuste con

n
 n
2
10 Más 1 P 1 P
precisamente la varianza empı́rica es n
Yi − n
Yi
i=1 i=1
3.6. Caso de Estudio: Astrometrı́a y Fotometrı́a 99
n
1 P
peor desempeño que haber utilizado la media n Yi .
i=1

3.6. Caso de Estudio: Astrometrı́a y Fotometrı́a


Contextualización y Modelamiento del Problema

Dos parámetros importantes para el estudio de la astronomı́a son


la posición de los objetos luminosos en el cielo nocturno y la cantidad
de luz (o más precisamente flujo) que llega desde el lugar donde se ob-
serva. La estimación de estos parámetros se conocen como astrometrı́a
y fotometrı́a, respectivamente. A través de las cámaras digitales CCD
(Charge Coupled Devices) se puede abordar el problema de estimación
(posición y flujo), contando la cantidad de fotones de la estrella que
inciden en segmentos discretos del CCD llamados pixeles.
El astro o fuente puntual está en una posición u del cielo, emite un
perfil de intensidad F (x, u) de la forma (ver Fig. 3.1)

−(x − G(u))2
 
1
F (x, u) = F · √ exp , ∀x ∈ R. (3.136)
2πσx 2σx2

Esta es la forma Gaussiana standard usada para modelar la propaga-


ción de luz y la difusión desde el astro al instrumento CCD. F corres-
ponde a la intensidad total de luz emitida por el astro, σx corresponde
al coeficiente de difusión, y por último G(u) y x corresponden a puntos
dentro del eje de medición del CCD. G(u) es el mapeo entre la ubicación
del astro en el espacio y su punto correspondiente en el eje de medición
del CCD, de aquı́ en adelante dicho parámetro será renombrado como
xc , con lo que se tiene

−(x − xc )2
 
1
F (x, xc ) = F · √ exp , ∀x ∈ R. (3.137)
2πσx 2σx2

F (x, xc ) en (3.137) e ilustrado en el manto Gaussiano de la Fig.


3.1 no es observado directamente en el CCD, sino que a través de tres
fuente de perturbación, es decir, la medición en el arreglo de pixeles
está sujeto a ruido. Estas fuentes de perturbación son:
100 Unidad III: Estimación Paramétrica

Estrella

Flujo

Centroide

CCD

Figura 3.1: Dispersión de la luz en un arreglo de pixeles en una


cámara CCD.

a) Un perfil aditivo que captura la emisión de fotones, tanto de


astros aledaños como de otros elementos del cielo nocturno
(fotones que provienen de la luz de la luna por ejemplo) lla-
mado Background (B) o Ruido de Fondo.
b) La cuantización espacial del perfil de la estrella al ser me-
dida a través del arreglo de pixeles. Considerando el perfil
dispersión gaussiano, la cuantización será (ver Fig. 3.2):

xi +∆x/2
−(x − xc )2
Z  
1
gi (xc ) = √ exp dx (3.138)
2πσx xi −∆x/2 2σx2
donde xi corresponderá a la posición del pixel i-ésimo y ∆x
el tamaño de este (resolución del instrumento), el cual será
constante a lo largo del arreglo.
c- El ruido de medición, el cual sigue una distribución de Pois-
son en cada pixel.

Integrando estos tres efectos, el modelo de observación del problema


consiste en una colección de variables aleatorias independientes (obser-
3.6. Caso de Estudio: Astrometrı́a y Fotometrı́a 101

vaciones) {Ii : i ∈ N} tales que

Ii ∼ Poisson(λi (xc , F )) (3.139)


donde el parámetro λi (xc , F ) (la media de la distribución Poisson)11
recoge la observación en el pixel i-ésimo que se hubiera visto, es decir,

λi (xc , F ) = F · gi (xc ) + B. (3.140)

Existen tres escenarios clásicos de estimación:

a- Astrometrı́a: Se supondrán conocidos todos los parámetros


salvo xc y el problema es estimar xc de {Ii , i ∈ N}.
b- Fotometrı́a, estimación de flujo: Se supondrán conocidos to-
dos los parámetros salvo F y el problema es estimar F de
{Ii , i ∈ N}.
c- Fotometrı́a, estimación de ruido de fondo: Se supondrán co-
nocidos todos los parámetros salvo B y el problema es esti-
mar B de {Ii , i ∈ N}.

Se asumirá una cantidad finita de observaciones {Ii , i = 1, ..., n}, donde


se asume una buena cobertura del objeto que se mide, en el sentido que:

n ∞
−(x − xc )2
Z  
X X 1
gi (xc ) ≈ gi (xc ) ≈ √ exp dx = 1
2πσx −∞ 2σx2
i=1 i∈Z
(3.141)

Problema 3.1. (Resultados Premilinares). Verifique que se cumple lo


siguiente:
  !2   !2  
∆x ∆x
∂gi (xc ) 1 xi − 2 − xc xi + 2 − xc
3.1. =√ exp − √  − exp − √ 
∂xc 2πσx 2σx 2σx
N
X ∂gi (xc )
3.2. ≈0
∂xc
i=1

11 Recuerde e−λ λk
que si X ∼ P oisson(λ) entonces PX (X = k) = k!
102 Unidad III: Estimación Paramétrica

x i +∆ x/ 2
gi (x c) = φ(x,x c)dx
x i − ∆ x/ 2

∆x B

x inf x sup
λ i (x c ) = F .g i (x c ) +B

Figura 3.2: Descripción del modelo de adquisición digital (discreta) de


datos en un arreglo unidimensional de pixeles

3.3. E I 2 = λ2 + λ, para ello utilice propiedades de la varianza




de la distribución de Poisson.

3.6.1. Astrometrı́a, Estimación de Posición

Suponiendo conocidos los parámetros F , σx y B se tiene que el


vector de observaciones I1n = (I1 , ..., In ) ∈ Xn sigue una distribución
de probabilidad según (3.139) la cual depende del parámetro xc ∈ Θ,
siendo Θ = R el espacio de parámetros posibles. Considere la familia
de estimadores insesgados:

T n = {τn : Xn → Θ; EI1 ,...,In (τn (I1 , ..., In )) = θ para todo θ ∈ Θ}


(3.142)
el siguiente problema tiene como objetivo encontrar un estimador x̂c :
Xn → Θ ∈ T n , tal que:
3.6. Caso de Estudio: Astrometrı́a y Fotometrı́a 103

x̂c ≡ arg mı́nn V ar(τn (I1 , ..., In ))


τn ∈T

= arg mı́nn EI1 ,...,In (τn (I1 , ..., In ) − xc )2 .



(3.143)
τn ∈T

Problema 3.2. (Lı́mites Fundamentales)

a) Demuestre que la cota de Cramér-Rao para el parámetro xc


está dada por:
1
V ar(x̂c ) ≥  2 (3.144)
n
X F ∂g∂x
i (xc )
c

F · gi (xc ) + B
i=1

b) Analice si existe algún estimador insesgado de xc que alcance


la cota de Cramér-Rao.

3.6.2. Fotometrı́a, Estimación del Flujo


Suponiendo conocidos los parámetros xc , σx y B se tiene que el
vector de observaciones I1n = (I1 , ..., In ) ∈ Xn sigue una distribución
de probabilidad según (3.139) la cual depende del parámetro F ∈ Θ,
siendo Θ = R+ el espacio de parámetros posibles.

Problema 3.3. (Lı́mites Fundamentales)

a) Determine una expresión cerrada para:


n
Y
ln L(I1 , .., In |F ) = ln PIk (Ik ). (3.145)
k=1

b) Verifique la siguiente identidad:


n  
d X gk (xc ) · Ik
ln L(I1 , .., In |F ) = − gk (xc ) . (3.146)
dF λk (xc , F )
k=1
104 Unidad III: Estimación Paramétrica

c) Si definimos la variable aleatoria Yk = gλkk(x c )·Ik


(xc ,F ) − gk (xc ),
verificar que es una variable aleatoria de media cero. Con
ello demuestre que la Información de Fisher del problema
está dada por:
n
( 2 ) X
d gk2 (xc )
In (F ) ≡ E(I1 ,..In ) ln L(I1 , .., In |F ) = .
dF F · gk (xc ) + B
k=1
(3.147)
Indicación: Recordar la propiedad de la varianza sobre la
suma de variables aleatorias independientes.
d) Considere el régimen de alta relación señal a ruido cuando
se cumple que: F gk (xc ) ≫ B. Demuestre en este caso que:

minτn ∈Tn V ar(τn (I1 , .., In )) ≥ F (3.148)

donde Tn denota la familia de estimadores insesgados.


e) Verifique si en este problema existe un estimador insesgado
que alcance la cota de Cramer-Rao.

Problema 3.4. Estimador LS: Para el problema de fotometrı́a pre-


sentado anteriormente, analizaremos el estimador Least Square, solu-
ción del siguiente problema de optimización:
n
X

FLS (I1 , .., In ) = arg mı́n (Ik − λk (xc , F ))2 . (3.149)
F ≥0
k=1

a) Determine una expresión cerrada para FLS ∗ (I , .., I ) como


1 n
función de los datos medidos.
∗ es un estimador insesgado de F y determine
b) Verifique si FLS
la varianza del estimador.
c) Compare la varianza del estimador LS con la cota de
Cramér-Rao de la pregunta anterior. Comente.
3.7. Problemas 105

3.7. Problemas
Se presentan a continuación una sección de problemas relacionados
con estimación paramétrica.

Problema 3.5. Verifique si el vector de observaciones X1 , ..., Xn es


i.i.d. con distribución PX1n (′ cdot|θ) entonces
(  )
∂ ln L(X1 , X2 , ..., Xn |θ) 2
 2 
∂ ln L(X1 , X2 , ..., Xn |θ)
EX1 ,..,Xn = −EX1 ,..,Xn .
∂θ ∂θ2
(3.150)

Problema 3.6. Compruebe que si el vector de observaciones


X1 , ..., Xn es i.i.d. con distribución PX1n (′ cdot|θ) entonces la informa-
ción de Fisher es aditiva, es decir:
(  )
∂ ln L(X1 , X2 , ..., Xn |θ) 2
In (θ) ≡ EX1 ,..,Xn = n · I1 (θ). (3.151)
∂θ

Problema 3.7. Muestre que para cualquier estimador τn de θ su error


de estimación se puede descomponer como varianza mas sesgo, es decir:
n o
EX1 ,..,Xn (τn (X1 , ..., Xn ) − θ)2 = V ar(τn (X1 , ..., Xn ))
+ (EX1 ,..,Xn (τn (X1 , ..., Xn )) − θ)2 .
(3.152)

Problema 3.8. Considere el problema de estimación paramétrico so-


bre la familia FΘ visto en clase.

a) Considere que (X1 , .., Xn ) un vector i.i.d. con valores en


{0, 1} que sigue una distribución Bernoulli de parámetro
106 Unidad III: Estimación Paramétrica

θ ∈ [0, 1]. Es decir PXi (Xi = 1|θ) = θ. Determine una expre-


sión para L(X1 , .., Xn |θ) y verifique que ofrece la siguiente
descomposición:
PX1n ((X1 , .., Xn ) = (x1 , .., xn )|θ) = PX1n (τn (X1 , .., Xn ) = τn (x1 , .., xn )|θ)
· PX1n ((X1 , .., Xn ) = (x1 , .., xn )|τn (X1 , .., Xn ) = τn (x1 , .., xn ), θ)
donde
τn (X1 , .., Xn ) = X1 + .. + Xn (3.153)
y
1
PX1n ((X1 , .., Xn ) = (x1 , .., xn )|τn (X1 , .., Xn ) = τn (x1 , .., xn ), θ) = n
.
τn (x1 ,..,xn )
(3.154)
En otras palabras se tiene que τn en Eq.(3.153) es un es-
tadı́stico suficiente para inferir θ.
b) Del punto anterior verifique que el estimador de máxima ve-
rosimilitud esta dado por:
θ̂M L (X1 , .., Xn ) = τn (X1 , .., Xn )/n.
c) Finalmente demuestre que θ̂M L (X1 , .., Xn ) es insesgado, de
mı́nima varianza y determine una expresión cerrada para
V ar(θ̂M L (X1 , .., Xn )).
d
Indicación: Verifique la condición sobre log dθ L(X1 , .., Xn |θ)
que permite alcanzar la cota de Cramér-Rao.

Problema 3.9. Sea X1 , .., Xn una secuencia i.i.d. que sigue una dis-
tribución exponencial, es decir, su densidad está dada por fX (x|θ) =
θ · e−θx con x ∈ R+ ∪ {0},

a) Determine el estimador de máxima verosimilitud


b) Determine EX1 ,..,Xn (θ̂M L (X1 , .., , Xn ))
c) ¿Es este estimador de mı́nima varianza?
3.7. Problemas 107

Problema 3.10. Sea X1 , .., Xn un vector aleatorio i.i.d. uniformemen-


te distribuida en [0, θ] con θ.

a) Determine el estimador de máxima verosimilitud de θ y ve-


rifique que esta dado por

θ̂M L (X1 , .., Xn ) = máx {Xi : i = 1, .., n} .

b) Demuestre que θ̂M L (X1 , .., Xn ) es sesgado.

Problema 3.11. Considere un sistema de modulación AM que genera


la señal discreta
 

sk = A · cos ·k k ∈ {1, .., n} (3.155)
T
que depende del parámetro A y donde T > 0 es un número entero
conocido.
El vector sn1 no es observable directamente, si no que por medio de
un ruido aditivo:
Xk = sk + Nk (3.156)
donde N1 , N2 , .., Nn son variables aleatorias Gaussianas independientes
e idénticamente distribuidas con media cero y varianza σ 2 > 0.

a) Notar que X1 , .., Xn es un vector Gaussiano. Con ello deter-


mine su vector de media y matriz de covarianza.
b) Del punto anterior determine la función de verosimilitud
L(X1 , .., Xn |A) y con ello el estimador de máxima verosi-
militud de A dadas las observaciones X1 , .., Xn . Es decir la
solución de:

ÂM L (X1 , .., Xn ) = arg máx ln L(X1 , .., Xn |A). (3.157)


A∈R+

Indicación: Se debe llegar a una expresión cerrada función


de X1 , .., Xn y parámetros conocidos del problema.
108 Unidad III: Estimación Paramétrica

c) Verifique que ÂM L (X1 , .., Xn ) es insesgado y determine su


varianza.
d) Demuestre que ÂM L (X1 , .., Xn ) es el estimador insesgado de
A de mı́nima varianza.
Indicación: Utilice la cota de Cramér-Rao y concluya de su
análisis.
e) Demuestre que ÂM L (X1 , .., Xn ) es un estimador consistente
de A cuando n → ∞.

Problema 3.12. Considere un cuerpo radiactivo que emite θ partı́cu-


las, con θ ∈ N. Para detectar las partı́culas emitidas, se cuenta con un
detector imperfecto, el cual detecta cada partı́cula emitida de forma
independiente. Para modelar el proceso de detección, consideremos la
variable aleatoria Bi que toma el valor 1 si la partı́cula i-ésima fue
detectada y 0 si no, donde Bi distribuye Bernoulli de parámetro p
(PBi (Bi = 1) = p). Finalmente, la variable de observación X es el
número de partı́culas totales detectadas dada por
θ
X
X= Bi .
i=1

Notar que dados p y θ conocidos, X distribuye binomial de parámetros


p y θ, es decir:  
θ k
PX (X = k) = p (1 − p)θ−k
k

a) Asuma que conoce la cantidad de partı́culas emitidas θ. De-


termine el estimador de máxima verosimilitud del parámetro
p dada una observación de X ∈ {0, · · · , θ}.
b) Ahora considere que se cuenta con n realizaciones i.i.d. de la
variable X ∈ {0, · · · , θ}. Determine la información de Fisher
asociada al parámetro p, la cota de Crámer-Rao y verifique
si existe un estimador que la alcance.
c) Ahora considere conocido el parámetro p. Determine el esti-
mador de máxima verosimilitud del parámetro θ (cantidad
3.7. Problemas 109

de partı́culas emitidas) θ̂M L dada una observación de X.


Analice si el estimador es insesgado y determine su varian-
za. Utilice la aproximación log θ! = θ log θ − θ.

Problema 3.13. En muchas aplicaciones de laboratorio, es posible


obtener valores con alta precisión llamado Media de Población. Este
valor puede ser beneficioso ya que permite obtener estimadores (sesga-
dos) con un error de estimación menor que la cota de Crámer-Rao. En
particular, considere el caso Gaussiano, i.e, la densidad está dada por:
1 −(x−θ)2
fX (x|θ) = √ e 2σ2 ∀x ∈ R (3.158)
2πσ
donde σ es conocido y queremos estimar θ a partir de (X1 , ..., Xn ),
observaciones independientes e idénticamente distribuidas. Se pide:

a) Verifique que la información de Fisher está dada por


(  )
∂ ln L(X1 , X2 , ..., Xn |θ) 2 n
In (θ) ≡ EX1 ,..,Xn = 2.
∂θ σ
(3.159)
b) Demuestre la existencia de un estimador insesgado que al-
cance la cota de Crámer-Rao, es decir, encontrar y explicitar
τn∗ tal que
1
EX1 ,...,Xn {(τn∗ (X1 , ..., Xn ) − θ)2 } = . (3.160)
In (θ)
Indicación: Utilizar la condición de alcanzabilidad de la fun-
ción de verosimilitud.
c) Si definimos la media de población como

γ = σ/θ

y estudiamos un estimador de θ de la siguiente forma:


n
X
τnC (X1 , ..., Xn ) = C · Xi (3.161)
i=1
110 Unidad III: Estimación Paramétrica

con C ∈ R+ el parámetro a definir.

Muestre que el valor de C óptimo (que minimiza el


error cuadrático medio de estimación), es decir el C ∗
solución del problema:
n 2 o
mı́n EX1 ,..,Xn τnC (X1 , ..., Xn ) − θ , (3.162)
C∈R+

está dado por:


C ∗ = (N + γ 2 )−1 . (3.163)
d) Verifique que :
n

X
τnC (X1 , ..., Xn ) = C ∗ Xi (3.164)
i=1

es sesgado y contraste este estimador con el obtenido en



el punto (b). En particular verifique que τnC (·) tiene una
varianza menor que el estimador τn∗ (·) encontrado en (b).

e) Se define la eficiencia de τnC relativa a τn∗ como el cuociente
de sus errores cuadráticos medios, es decir:
n o
E (τ ∗ (X , ..., X ) − θ)2
∗ X1 ,..,Xn n 1 n
ef iciencia(τnC ) = n o.
EX1 ,..,Xn (τnC ∗ (X1 , ..., Xn ) − θ)2
(3.165)
∗ ∗
Verifique que τn es asintóticamente insesgado y que τnC es
C

eficiente en el sentido que:



lı́m ef iciencia(τnC ) = 1. (3.166)
n→∞
4
Unidad IV: Estimación Bayesiana

En este problema de inferencia la idea es plantear un problema de


decisión sobre θ ∈ Θ, pero donde el parámetro θ es ahora un objeto
aleatorio con valores en A = Rd . Dado que ahora poseemos una va-
riable o vector aleatorio Θ significa que tenemos una distribución de
probabilidad:
PΘ (B) = P(Θ(w) ∈ B) (4.1)
Esta distribución se conoce normalmente como distribución a priori.

En particular, Θ está dotado de una función de densidad de


probabilidad dada por:
fΘ (θ) ∀θ ∈ A (4.2)
y, por lo tanto,
Z
PΘ (B) = fΘ (θ1 , ..., θd )dθ1 ...dθd . (4.3)
B

4.1. Formalización del Problema de Estimación Bayesiana


Un problema de estimación Bayesiano se compone de 5 elementos
centrales:

111
112 Unidad IV: Estimación Bayesiana

Un espacio de observación X y variables aleatorias que to-


man valores en X. X se conoce como observación o dato. X
es un espacio numérico abstracto y también puede ser multi-
dimensional, por ejemplo, X = Rn con n ∈ N en cuyo caso las
observaciones corresponden a un vector aleatorio X1n ∈ X.
Un espacio de decisión A infinito no numerable y una va-
riable aleatoria Θ con valores en A. Además se posee una
distribución de probabibilidad sobre Θ, PΘ (·) la cual se co-
nocerá como distribución a priori o prior.
Distribuciones de probabilidad condicionales indexadas por
θ ∈ Θ, es decir, PX (·|Θ = θ), θ ∈ A.
Una regla, detector o test ϕ : X 7→ A que será la función que
tomará una decisión en base a algún criterio.
Una función de costo o riesgo L : A × A → R+ que penaliza
la incorrecta decisión.

Análogo al caso de detección hablaremos más en detalle del riesgo ya


que es un elemento nuevo respecto al caso paramétrico.

4.2. Riesgo Promedio


En este caso el problema de estimar Θ a partir de X, se basa en
minimizar la siguiente función de riesgo L : A × A → R+ o también
llamada función de costo o error.

Para cada θ1 , θ2 ∈ A, L(θ1 , θ2 ) cuantifica el error de estimar θ2


cuando el parámetro real es θ1 . Dada una regla de decisión: ϕ : X → A
y dado un θ que determina las estadı́sticas de las observaciones
X ∼ PX|Θ (·|Θ = θ), definimos el riesgo promedio condicionado a θ
4.3. Decisión Óptima: Distribución a Posteriori 113

como:
 Z


 L(θ, ϕ(x))fX|Θ (x|θ)dx
|X



 {z }
Caso espacio continuo con f.d.p condicional

R(θ, ϕ) ≜ E(L(θ, ϕ(X))|Θ = θ) = X


 L(θ, ϕ(x))PX|θ (X = x|Θ = θ)



 x∈X
 | {z }
Caso espacio discreto con f.p.m condicional
(4.4)
La ecuación (4.4) representa el riesgo promedio de ϕ sobre las estadı́sti-
cas de X dado que Θ = θ. Por lo tanto R(Θ, ϕ) es una variable aleatoria
(función de Θ y X) y podemos evaluar la función de costo promedio
o Riesgo Bayesiano como el promedio de R(Θ, π) con respecto a la
variable Θ (asumiremos el caso continuo para X):

r(ϕ) ≜ EΘ (R(Θ, ϕ))


Z
= R(θ, ϕ) · fΘ (θ)dθ
ZA

= E (L(θ, ϕ(X))|Θ = θ) · fΘ (θ)dθ


A
Z Z
= L(θ, ϕ(x)) · fX|Θ (x|θ) · fΘ (θ)dxdθ
ZA ZX
= L(θ, ϕ(x))fX,Θ (x, θ)dxdθ
A X
= EΘ,X (L(Θ, ϕ(X))). (4.5)

4.3. Decisión Óptima: Distribución a Posteriori


Recapitulando, la regla óptima Bayesiana dependerá de los siguien-
tes elementos previamente introducidos:

i) PΘ distribución a priori.
ii) fX|Θ (·|θ), función de densidad de probabilidad condicional
(o de masa según sea el caso).
iii) L : A × A → R+ , función de costo.
114 Unidad IV: Estimación Bayesiana

Luego, la solución del problema de detección Bayesiana se plantea co-


mo: Luego la regla Bayesiana óptima estará dada por:
ϕ∗ = arg mı́n r(ϕ)
ϕ:X→Θ

= arg mı́n EΘ,X (L(Θ, ϕ(X))). (4.6)


ϕ:X→Θ

Por lo tanto, ϕ∗ es la regla que minimiza el riesgo Bayesiano. Si anali-


zamos de forma más detallada la función objetivo en (4.5) tenemos lo
siguiente:
Z Z
EΘ,X {L(Θ, ϕ(X))} = L(θ, ϕ(x))fX,Θ (x, θ)dxdθ
A
Z Z X

= L(θ, ϕ(x))fΘ|X (θ|x)dθfX (x)dx (4.7)


X A

Es importante notar que el término positivo presente en (4.7)


Z
L(θ, ϕ(x))fΘ|X (θ|x)dθ (4.8)
A

es función exclusiva de la evaluación de ϕ(·) en el punto x y no de los


restantes valores ϕ(y) que adopta en y ∈ X\{x}. depende exclusiva-
mente de x, y por lo tanto define el valor de ϕ(x) de forma aislada de
las otras elecciones del valor de la función. Por lo tanto minimizar (4.7)
equivale a minimizar punto a punto, es decir, dada una observación o
∀x ∈ X, ϕ∗ (x) es solución de:
Z

ϕ (x) = arg mı́n L(θ, y)fΘ|X (θ|x)dθ, ∀x ∈ X
y∈A A
= arg mı́n E (L(Θ, y)|X = x) , ∀x ∈ X (4.9)
y∈A

Observación: Interpretando la regla óptima Bayesiana en (4.9), dada


una observación x, ϕ(x) es la decisión que minimiza el riesgo promedio,
respecto a la distribución a posteriori de Θ dado el evento X = x.

Por Bayes sabemos que la distribución a posteriori se obtiene


como:
fΘ,X (θ, x) fX|Θ (x|θ)fΘ (θ)
fΘ|X (θ|x) = =R . (4.10)
fX (x) fX|Θ (x|θ̃)fΘ (θ̃)dθ̃
A
4.3. Decisión Óptima: Distribución a Posteriori 115

De esta manera la regla de decisión óptima es solución de

fX|Θ (x|θ)fΘ (θ)dθ


Z

ϕ (x) = arg mı́n L(θ, y) R , ∀x ∈ X
y∈A A fX|Θ (x|θ̃)fΘ (θ̃)dθ̃
A
Z
= arg mı́n L(θ, y)fX|Θ (x|θ)fΘ (θ)dθ, ∀x ∈ X (4.11)
y∈A A

Donde la última igualdad se tiene del hecho que fX (x) no depende de Θ.

Observación: Notar que el problema de caracterizar ϕ∗ (x) en


(4.11) equivale a encontrar la constante y ∈ A, que mejor estima Θ,
cuando ésta sigue la distribución:

Θ ∼ PΘ|X (·|x). (4.12)

En otras palabras, ϕ∗ (x) = y ∗ es el centroide óptimo o la constante


que minimiza el riesgo de estimar Θ condicionado a X = x.

En lo que sigue consideraremos distintas funciones de costos muy


usadas en estimación bayesiana las cuales nos entregarán estimadores
con expresiones cerradas.

4.3.1. Costo de Tipo Cuadrático

En este escenario estamos interesados en el error cuadrático medio,


es decir, la función de costo es L(θ0 , θ1 ) = (θ0 − θ1 )2 . En este caso
ϕ∗ se conoce como el estimador de mı́nimo error cuadrático medio o
Minimum Mean Square Error (MMSE) estimator. La ecuación (4.9) se
reduce a, tomando x ∈ X:
Z

ϕ (x) = arg mı́n (θ − y)2 fΘ|X (θ|x)dθ (4.13)
y∈A A

Consideremos el siguiente operador:


Z
E(Θ|X = x) = θfΘ|X (θ|x)dθ (4.14)
A
116 Unidad IV: Estimación Bayesiana

que corresponde a la esperanza condicional de Θ dado X = x, entonces,


el argumento en (4.13) lo podemos descomponer como:
Z
(θ − y)2 fΘ|X (θ|x)dθ
AZ

= (θ − E(Θ|X = x) + E(Θ|X = x) − y)2 fΘ|X (θ|x)dθ


ZA Z
= (θ − E(Θ|X = x))2 fΘ|X (θ|x)dθ + (E(Θ|X = x) − y)2 fΘ|X (θ|x)dθ
A A
:0


Z  

+ 2(E(Θ|X = x) − y) (θ − E(Θ|X
 =x))fΘ|X (θ|x)dθ
A 
Z 
= (θ − E(Θ|X = x))2 fΘ|X (θ|x)dθ + (E(Θ|X = x) − y)2 (4.15)
A

Podemos notar que


Z
(θ − E(Θ|X = x))2 fΘ|X (θ|x)dθ = V ar(Θ|X = x) (4.16)
A

es la varianza condicional de Θ dado X = x. Por lo tanto:

ϕ∗ (x) = arg mı́n V ar(Θ|X = x) + (E(Θ|X = x) − y)2


y∈A

= arg mı́n(E(Θ|X = x) − y)2


y∈A

= E(Θ|X = x). (4.17)

La última igualdad es evidente a partir del hecho que si tomamos


y = E(Θ|X = x) la función (E(Θ|X = x) − y)2 es mı́nima tomando
valor 0.

Observación: El estimado óptimo que minimiza el error cuadráti-


co medio corresponde a:
Z
ϕM M SE (x) = E(Θ|X = x) = θfΘ|X (θ|x)dθ, (4.18)
A

que es la esperanza condicional o la esperanza de la distribución a


posteriori de Θ dado X = x.
4.3. Decisión Óptima: Distribución a Posteriori 117

Finalmente el riesgo Bayesiano mı́nimo o error cuadrático medio


mı́nimo (MMSE) está dado por la siguiente expresión

M M SE = mı́n EΘ,X (L(Θ, ϕ(X)))


ϕ:X→A

= mı́n EΘ,X ((Θ − ϕ(X))2 )


ϕ:X→A
Z Z 
= (θ − E(Θ|X = x))2 fΘ|X (θ|x)dθ fX (x)dx
ZX A
= V ar(Θ|X = x)fX (x)dx. (4.19)
X

4.3.2. Costo Tipo Uniforme


En este escenario consideremos A = R, estamos interesados en el
error uniforme definido como:
1 si |θ − y| > ∆

L(θ, y) = 2 (4.20)
0 si |θ − y| ≤ ∆
2

∀∆ > 0. En este caso la ecuación (4.9) se reduce a, tomando x ∈ X:


y+∆/2
Z
ϕ∗M AP (x) = arg mı́n 1 − fΘ|X (θ|x)dθ
y∈A
y−∆/2
y+∆/2
Z
= arg máx fΘ|X (θ|x)dθ (4.21)
y∈A
y−∆/2

Notar que:
y+∆/2
Z

fΘ|X (θ|x)dθ ≤ sup fΘ|X (θ|x) . (4.22)
θ∈A 2
y−∆/2

Por lo que el máximo se encuentra eligiendo

ϕ∗M AP (x) = arg máx fΘ|X (y|x). (4.23)


y∈A

Podemos ver entonces que esta expresión corresponde a elegir el


estimador que máximiza la distribución a posteriori (también conocida
118 Unidad IV: Estimación Bayesiana

como regla MAP o maximum a posteriori).

Nuevamente aprovechándonos de la concavidad y crecimiento del


logaritmo, además de la regla de Bayes podemos escribir (4.23) como:
ϕ∗M AP (x) = arg máx ln(fθ|X (y|x))
y∈A
fX|Θ (x|y)fΘ (y)
 
= arg máx ln
y∈A fX (x)

= arg máx ln fX|Θ (x|y)fΘ (y)
y∈A

= arg máx ln fX|Θ (x|y) + ln (fΘ (y)) (4.24)
y∈A

Observaciones:

La ecuación (4.24) puede resolverse aplicando el criterio de


primer orden.

El término ln fX|Θ (x|y) corresponde a la función de log-
verosimilitud visto en estimación paramétrica. Por lo tanto
el estimador M AP es una extensión del estimador de máxima
verosimilitud en el caso Bayesiano donde ahora se considera
la densidad de Θ

Ejemplo 4.1. La secuencia Xi = Θ + Wi , i = 1, ..., n es observada. El


parámetro aleatorio Θ es desconocido y sigue la siguiente función de
densidad de probabilidad a priori
(
λe−λθ , si θ > 0
fΘ (θ) =
0, ∼
donde λ > 0 y Wi ∼ N (0, σ 2 ) e independiente de Θ. Vamos a encontrar
el estimador M AP , para esto entonces debemos resolver, dado X1n = xn1
 
ϕ∗M AP (x1 , ..., xn ) = arg máx ln fX1n |Θ (x1 , ..., xn |y) + ln (fΘ (y))
y∈R+
(4.25)
Podemos ver que, dado Θ = y, Xi ∼ N (y, σ 2 ), luego:
n −(xi −y)2
Y 1
fX1n |Θ (x1 , ..., xn |y) = √ e 2σ2 (4.26)
i=1
2πσ
4.3. Decisión Óptima: Distribución a Posteriori 119

y con esto,
n
!
Y 1 −(xi −y)2  
ϕ∗M AP (x1 , ..., xn ) = arg máx ln √ e 2σ2 + ln λe−λy
y∈R+
i=1
2πσ
√ n
 X (xi − y)2
= arg máx −n ln 2πσ − − λy + ln(λ).
y∈R+ 2σ 2
i=1
(4.27)
Aplicando el criterio de primer orden respecto a y tenemos que:
n n
!
∂ √  X (xi − y)2 X (xi − y)
−n ln 2πσ − − λy + ln(λ) = −λ
∂y 2σ 2 σ2
i=1 i=1
(4.28)
Despejando y, obtenemos:
n
X (xi − y)
−λ=0
σ2
i=1
n
X
xi − yn − λσ 2 = 0
i=1
n
xi − λσ 2
P
i=1
y= , (4.29)
n
Por lo tanto,
n
Xi − λσ 2
P
i=1
ϕ∗M AP (X1 , ..., Xn ) = . (4.30)
n

4.3.3. Costo Tipo Absoluto


En este escenario consideremos nuevamente A = R, estamos intere-
sados en el error absoluto de la forma, dado y, θ ∈ A, L(θ, y) = |θ − y|.
En este caso la ecuación (4.9) se reduce a, tomando x ∈ X:
Z∞
ϕ∗abs (x) = arg mı́n |θ − y|fΘ|X (θ|x)dθ (4.31)
y∈A
−∞
120 Unidad IV: Estimación Bayesiana

Notar que el argumento en (4.31) se puede descomponer de la siguiente


manera:
Z∞ ϕ∗abs
Z (x) Z∞
|θ−y|fΘ|X (θ|x)dθ = (y−θ)fΘ|X (θ|x)dθ+ (θ−y)fΘ|X (θ|x)dθ
−∞ −∞ ϕ∗abs (x)
(4.32)
Por lo que al establecer las condiciones de primer orden se obtiene que
ϕ∗abs
Z (x) Z∞
fΘ|X (θ|x)dθ = fΘ|X (θ|x)dθ (4.33)
−∞ ϕ∗abs (x)

Este resultado nos indica que el estimador óptimo corresponde a la


mediana de la densidad de probabilidad a posteriori.

4.4. Caso de Estudio: Distribución Conjunta Normal Multi-


variada
En este ejemplo analizaremos la extensión de la distribución
normal multivariada a densidades condicionales, el gran resultado es
que si se posee un vector aleatorio de distribución normal, entonces la
distribución condicional también será normal.

Sea X e Y vectores aleatorios1 con valores en Rn y Rm respec-


tivamente, con distribución normal multivariada y parámetros

N (µX , ΣX ) ⇒ µX = E(X) kX = E((X − µX )(X − µX )t )


N (µY , ΣY ) ⇒ µY = E(Y ) kY = E((Y − µY )(Y − µY )t ) (4.34)
 
X
Adicionalmente consideremos la concatenación Z = con valores
Y
en Rn+m cuya distribución conjunta es Normal y además:
 
µX
µZ = E(Z) = (4.35)
µY

1 Paraevitar sobercargar la notación, utilizaremos por esta vez X e Y en vez de X1n e Y1m ,
respectivamente. Por lo tanto se utilizarán operaciones matriciales.
4.4. Caso de Estudio: Distribución Conjunta Normal Multivariada 121

kZ = E((Z − µZ )(Z − µZ )t )
 
kX kXY
= (4.36)
kY X kY

Donde
kY X = E((Y − µY )(X − µX )t ) ∈ Mm×n (4.37)

kXY = E((X − µX )(Y − µY )t ) ∈ Mn×m (4.38)


Entonces se tiene que la distribución de Y dado X = x es Gaussiana
de parámetros:
−1
µY |X (x) = E(Y |X = x) = µY + kY X kX (x − µX ) (4.39)

y la covarianza es:
−1
kY |X = E((Y −µY |X (X))(Y −µY |X (X))t ) = kY −kY X ·kX ·kXY (4.40)

Observaciones:

1- Notar que un corolario de este resultado es que el estimador


MMSE de Y dado X es un operador de la observación x
2- El error cuadrático medio o rieso Bayesiano tomando el costo
cuadrático está dado por la expresión (4.40)

Demostración: Podemos utilizar la definición de distribución normal


multivariada y probabilidad condicional para caracterizar la densidad
condicional Y dado X, ası́ tenemos que:
fZ=(X,Y ) (x, y)
fY |X (y|x) =
fX (x)
1
=
[(2π)m |kZ |]1/2 |kX |−1/2
" t   #!
1 x − µX x − µ X
· exp − kZ−1 −1
− (x − µX )t kX (x − µX )
2 y − µY y − µY
(4.41)
122 Unidad IV: Estimación Bayesiana

Vamos a utilizar el siguiente resultado válido para inversas de bloques


de matrices:
 −1  
kX kXY A B
kZ−1 = = (4.42)
kY X kY Bt C

donde:

C ≜ kY−1|X = (kY − kY X kX
−1
kXY )−1 .
−1 −1
A = kX + kX kXY kY−1|X kY X kX
−1
.
−1
B = −kX kXY kY−1|X

Si aplicamos este resultado en (4.41) se tiene que

1
fY |X (y|x) =
[(2π)m |kZ |]1/2 |kX |−1/2

1
· exp − (x − µX )t A(x − µX ) + 2(x − µX )t B(y − µY )
2
−1
+(y − µY )t C(y − µY ) − (x − µX )t kX

(x − µX )
1
=
[(2π) |kZ |]1/2 |kX |−1/2
m

1h −1 −1
· exp − (x − µX )t (kX + kX kXY kY−1|X kY X kX
−1
)(x − µX )
2
−1
− 2(x − µX )t kX kXY kY−1|X (y − µY ) + (y − µY )t kY−1|X (y − µY )
−1
−(x − µX )t kX

(x − µX )
1
=
[(2π) |kZ |]1/2 |kX |−1/2
m

1h −1
· exp − (x − µX )t kX kXY kY−1|X kY X kX
−1
(x − µX )
2
i
−1
−2(x − µX )t kX kXY kY−1|X (y − µY ) + (y − µY )t kY−1|X (y − µY )
(4.43)

Al ver la estructura dentro de la exponencial identificamos una forma


−1
cuadrática. Llamemos provisoriamente P = kY X kX (x − µX ) y T =
4.4. Caso de Estudio: Distribución Conjunta Normal Multivariada 123

y − µY , tenemos que:
 i
1 1h
fY |X (y|x) = exp − P t kY−1|X P − 2P t kY−1|X T + T t kY−1|X T
[(2π)m |kZ |]1/2 |kX |−1/2 2
 
1 1
= exp − (P − T )t kY−1|X (P − T )
[(2π)m |kZ |]1/2 |kX |−1/2 2
(4.44)
Identificamos:
−1
P − T = kY X kX (x − µX ) − y + µY
−1
= −(y − (µY + kY X kX (x − µX )))
= −(y − µY |X (x)), (4.45)
−1
donde se definió µY |X (x) ≜ µY + kY X kX (x − µX ) con lo que:
 
1 1 t −1
fY |X (y|x) = exp − (y − µY |X (x)) kY |X (y − µY |X (x))
[(2π)m |kZ |]1/2 |kX |−1/2 2
(4.46)
Ahora basta ver que, por propiedades de determinantes en bloques:
−1
|kZ | = |kX ||kY − kY X kX kXY | = |kX ||kY |X |. (4.47)
Deducimos entonces que:
 
1 1 t −1
fY |X (y|x) = exp − (y − µY |X (x)) kY |X (y − µY |X (x))
[(2π)m |kZ |]1/2 |kX |−1/2 2
 
1 1 t −1
= 1/2 exp − 2 (y − µY |X (x)) kY |X (y − µY |X (x))
(2π)m |k |
Y |X
(4.48)
Por lo que encontramos una estrutura de una distribución normal mul-
tivariada cuyos parámetros son:
Y |X ∼ N (µY |X (X), kY |X ), (4.49)
donde
−1
kY |X ≜ kY − kY X · kX kXY (4.50)
y
−1
E(Y |X) ≜ µY |X (X) = µY + kXY kX (X − µX ) (4.51)
124 Unidad IV: Estimación Bayesiana

4.5. Problemas
Se presentan a continuación una sección de problemas relacionados
con estimación Bayesiana.

Problema 4.1. Considere la siguiente función de densidad condicional


definida como:
(
e−(θ−x) , si θ > x
fΘ|X (θ|x) =
0, si x > θ

Encuentre el estimador de mı́nimo error cuadrático medio y MAP.

Problema 4.2. Considere que X ∼ N (θ, K) con valores en Rm , donde


θ es el vector de media y K una matriz de covarianza (invertible). Con-
sidere que conocemos K y queremos estimar θ por medio de mediciones
lineales indirectas dadas por el siguiente modelo:

Z1n = HX + N1n (4.52)

donde H es una matriz de n × m y N1n ∼ N (0, σ 2 · In×n ), y N1n es


independiente de X1n (Este modelo se conoce como Canal Lineal más
Ruido Aditivo Gaussiano).

a) Verifique que Z1n ∼ N (µZ , KZ ) y determine especı́ficamente


su vector de media y matriz de covarianza como función de
σ 2 ,H, K y θ.
b) Asuma que n > m y que H es de rango completo. Adicional-
mente considere K, H y σ 2 conocidos. Con esto determine
una expresión para el estimador de máxima verosimilitud
dada una observación de Z1n .
Indicación: Reduzca el problema a un problema tipo mı́ni-
mos cuadrados y con ello utilice la expresión cerrada que da
solución a ese criterio.
c) En el mismo escenario del modelo aditivo presentado en
(4.52), considere en cambio el problema de estimar X (va-
riable de estado) como función de una observación de Z1n
4.5. Problemas 125

dados todos los parámetros θ, K, H y σ 2 conocidos. Para


ello primero determine una expresión para:

KXZ = E (X − θ) · (Z − µZ )t .


d) Finalmente obtenga una expresión para el estimador de mı́ni-


mo error cuadrático medio (MMSE) de X dada una obser-
vación Z1n .

Problema 4.3. Considere un cuerpo radiactivo que emite θ partı́cu-


las, con θ ∈ N. Para detectar las partı́culas emitidas, se cuenta con un
detector imperfecto, el cual detecta cada partı́cula emitida de forma
independiente. Para modelar el proceso de detección, consideremos la
variable aleatoria Bi que toma el valor 1 si la partı́cula i-ésima fue
detectada y 0 si no, donde Bi distribuye Bernoulli de parámetro p
(PBi (Bi = 1) = p).

Finalmente, la variable de observación X es el número de partı́culas


totales detectadas dada por
θ
X
X= Bi ∈ {0, · · · , θ}
i=1

Notar que dados p y θ conocidos, X distribuye binomial de parámetros


p y θ, es decir:  
θ k
PX (X = k) = p (1 − p)θ−k
k
Considere el problema de estimar la cantidad de partı́culas emitidas θ
asumiendo conocido p, pero en un contexto Bayesiano, donde la canti-
dad de partı́culas emitidas distribuye Poisson de parámetro λ conocido,
es decir:
λθ −λ
PΘ (Θ = θ) = e , ∀θ ∈ {0, 1, 2, · · · }
θ!
Luego, se busca el estimador que minimice el error cuadrático medio
ϕM M SE (X), dada una observación de X. Para ello, siga los siguientes
pasos:
126 Unidad IV: Estimación Bayesiana

a) Determine la probabilidad conjunta PX,Θ (X = k, Θ = θ)


y con ello muestre que la variable aleatoria X (número de
partı́culas detectadas) distribuye Poisson de parámetro λp,
es decir:

(λp)k −λp
PX (X = k) = e ∀k ∈ {0, 1, 2, · · · }
k!
b) Muestre que:

(λ(1 − p))θ−k −λ(1−p)


PΘ|X (Θ = θ|X = k) = e , si θ ≥ k
(θ − k)!
y
PΘ|X (θ|k) = 0 si θ < k
y con ello obtenga ϕM M SE (X). Comente sobre los regı́menes
p≈1yp≈0

Problema 4.4. La secuencia Xi , i = 1, ..., n es observada y sigue la


siguiente función de densidad de probabilidad condicionada a Θ = µ

1 −(x−µ)2
fX|Θ (x|µ) = √ e 2σ 2
2πσ 2
Las observaciones son independientes cuando son condicionadas por µ.
La media µ sigue una distribución a priori

µ ∼ N (µ0 , σ02 ).

Encuentre el estimador de mı́nimo error cuadrático medio y MAP para


µ.
Referencias

[1] Breiman, L. (1992). “Probability”.


[2] Meyer, P. (1992). “Probabilidad y Aplicaciones Estadisticas”.
[3] Ross, S. (1997). “A First Course in Probability”.
[4] Todd K. Moon & W. C. Stirling, “Mathematical methods and algorithms for
signal processing”, NJ: Prentice hall, USA, 2000.
[5] Ravi R. Mazumdar, (2002) “Notes on Probability and Stochastic Proces-
ses,”Purdue University.
[6] Jaime San Martı́n, “Teorı́a de la medida”, Editorial Universitaria, Chile, 2018.
[7] Gray, R. y Davisson. L.D. (2004). “An Introduction to Statistical Signal Pro-
cessing”.
[8] Gray, R. (2009). “Probability, Random Process and Ergodic Properties”, se-
cond edition.
[9] Espinosa, S. (2023). “Probabilidad y Procesos Estocásticos”, versión 1.0.

Agradecimientos especiales para:

127

También podría gustarte