Apunte Deteccion y Estimacion

Facultad de Ciencias Fı́sicas y Matemáticas
Departamento de Ingenierı́a Eléctrica

EL3204 Análisis de Sistemas Dinámicos y Es-
timación
2023
Detección y Estimación
Version 2.0
Sebastián Espinosa y Jorge F. Silva1
1
Information and Decision System Group, Universidad de Chile.
Resumen
El objetivo de estas notas es presentar brevemente los fundamentos y
principios básicos de la teorı́a de detección y estimación. Se pondrá
énfasis en la formalización matemática y la presentación de resultados
fundamentales. También se presentarán algunos ejemplos y contextos
de aplicación.
Contenidos
1. Unidad I: Detección Paramétrica 1
1.1. Formalización del Problema de Detección Paramétrico 2

1.2. Lema de Neyman Pearson 6
1.3. Curva ROC (Receiver Operating Characteristic) 17
1.4. Caso de Estudio 1: Ruido Gaussiano 19
1.5. Caso de Estudio 2: Detección Binaria con Observaciones
Discretas 28
1.6. Problemas 31
2. Unidad II: Detección Bayesiana 38

2.1. Formalización del Problema de Detección Bayesiano 38
2.2. Riesgo Promedio 40
2.3. Decisión Óptima: Distribución a Posteriori 41
2.4. Caso de Estudio 1: Canal Binario Simétrico 45
2.5. Caso de Estudio 2: Modelo Gaussiano 48
2.6. Problemas 54
i
ii Contents
3. Unidad III: Estimación Paramétrica 59

3.1. Formalización del Problema de Estimación Paramétrica 60
3.2. Nociones de Optimalidad 62
3.3. El Criterio de Mı́nima Varianza 68
3.4. Estimador de Máxima Verosimilitud 77
3.5. Estimador de Mı́nimo Error Cuadrático Medio 91
3.6. Caso de Estudio: Astrometrı́a y Fotometrı́a 99
3.7. Problemas 105
4. Unidad IV: Estimación Bayesiana 111

4.1. Formalización del Problema de Estimación Bayesiana 111
4.2. Riesgo Promedio 112
4.4. Caso de Estudio: Distribución Conjunta Normal
Multivariada 120
4.5. Problemas 124
Referencias 127
1
Unidad I: Detección Paramétrica
El problema de detección se entiende como el problema de inferir

una variable θ discreta (que toma una cantidad finita o numerable de
posibles valores) a partir de una variable aleatoria (o vector aleatorio)
de observación X. Por ejemplo, las observaciones pueden provenir
de una distribución de probabilidad que se conoce en su totalidad
salvo por su esperanza, luego, en este contexto, θ representa todos los
posibles candidatos esperanzas o medias desconocidas.
Para que el problema de inferencia sea definido como de detec-

ción θ puede tomar una cantidad finita o a lo más numerable de
opciones. En caso de que θ tome valores infinitos no numerables se
entenderá como estimación.
Ejemplos emblemáticos del problema de detección son el proble-

ma de test de hipótesis, los problemas de reconocimiento de patrones
y los problemas de inferencia presentes en los sistemas de detección en
comunicaciones digitales.
En estas notas cubriremos dos alternativas clásicas para plantear
1
2 Unidad I: Detección Paramétrica
y abordar el problema de detección: las llamadas variante paramétri-

ca y Bayesiana. Comenzaremos con el caso paramétrico donde el
objetivo es inferir un parámetro θ fijo pero desconocido a partir de
observaciones ruidosas.
1.1. Formalización del Problema de Detección Paramétrico

Consideremos el caso de detección binario, es decir θ la variable
a inferir pertenece al conjunto Θ = {0, 1}. El objetivo es decidir, a
partir de observación(es) si θ = 0 o bien θ = 1. En este problema, las
observaciones se modelan como variables (vectores) aleatorias X1n con
n ∈ N, las dos posibles opciones se llaman tradicionalmente hipótesis.
Luego, un test de hipótesis binario posee las siguientes componentes:
Un espacio de observación X y variables aleatorias que toman

valores en X. X se conoce como observación o dato. X es un
espacio numérico y también puede ser multidimensional, por
ejemplo, X = Rn con n ∈ N en cuyo caso las observaciones
corresponden a un vector aleatorio X1n ∈ X.
Un espacio de parámetros Θ binario, tı́picamente Θ = {0, 1}.
También se conoce como el espacio de llegada o el espacio
donde nos interesa inferir el parámetro.
Dos distribuciones de probabilidad indexadas por θ ∈ Θ, es
decir, PX (·|θ = 0) y PX (·|θ = 1) tradicionalmente conocidas
como hipótesis.
Una regla, detector o test π : X 7→ {0, 1} que será la función
que tomará una decisión en base a algún criterio.
El objetivo es decidir, a partir de observación(es) si θ = 0 o bien θ = 1.
Matemáticamente el problema se suele describir como:

H0 : θ = 0 ⇒ X1n ∼ PX1n (·|θ = 0) (Hipótesis Nula)
H1 : θ = 1 ⇒ X1n ∼ PX1n (·|θ = 1) (Hipótesis Alternativa), (1.1)
PX1n (·|θ = 0) (respectivamente PX1n (·|θ = 1)) representa la distribución
de probabilidad inducida por X1n en caso de que θ = 0 (respectivamen-
te θ = 1) sea la correcta en las observaciones que denotamos por X1n .
En adelante nos gustarı́a establecer un criterio para decidir una

hipótesis o la otra. Supongamos que tenemos una función π (en
adelante se llamará regla o test) que va desde el espacio de las
observaciones X al espacio de las decisiones Θ. Como estamos en el
escenario binario el espacio de decisión es Θ = {0, 1} donde dado π
tenemos que:
π(x1 , ..., xn ) = 0 (Aceptar H0 )

π(x1 , ..., xn ) = 1 (Rechazar H0 ). (1.2)
Esto significa que π será nuestro detector. Lo que nos interesa saber es
si el detector tiene un buen comportamiento, para eso introduciremos
algunas definiciones de desempeño. Dada la regla o detector π : X →
Θ = {0, 1} podemos definir las siguientes medidas.
Definición 1.1. (Tamaño del Test) Dada una regla π : X 7→ {0, 1}, se
define el tamaño de π como:
απ ≡ PX1n (π(X1n ) = 1|θ = 0)

| {z }
rechazar H0 dado H0
= EX1n (π(X1n )|θ = 0)

Z Z
= ··· π(x1 , ..., xn ) · fX (x1 , ..., xn |θ = 0)dx1 ...dxn
n
Z ZR
= ··· fX (x1 , ..., xn |θ = 0)dx1 ...dxn .
{(x1 ,...,xn )∈Rn : π(x1 ,...,xn )=1}
(1.3)
Hemos asumido que el espacio de observación X = Rn , y que por tanto
el vector aleatorio esta dotado una densidad de probabilidad fX (la
expresión es análoga si es un espacio discreto). En la tercera lı́nea se
calcula, por definición de esperanza, la integral sobre todo el espacio.
Sin embargo la regla π vale 0 en todo lugar donde no se haya decidido 1.
Por lo que esa esperanza se puede reducir al calculo de la probabilidad
en el espacio donde se decidió 1 (que es lo que se observa en la cuarta
igualdad), esto hace que la integral ya no sea sobre todo Rn sino que
solamente una zona de ella (π −1 ({1}) = {xn1 ∈ X : π(x1 , ..., xn ) = 1}).
Notar que απ es la probabilidad “condicional”1 . de que la regla

decida la hipótesis alternativa (θ = 1) cuando la correcta era la
hipótesis nula (θ = 0). Dicho de otra manera, απ corresponde a la
probabilidad de rechazar H0 cuando H0 es correcto, la probabilidad
de falsa alarma, el error de tipo I, o el tamaño del test, todos estos
nombres representan la misma probabilidad de error.
Definición 1.2. (Poder del Test) Dada una regla π : X 7→ {0, 1}, se
define el poder de π como:
βπ ≡ PX1n (π(X1n ) = 1|θ = 1)

| {z }
aceptar H1 dado H1
= EX1n (π(X1n )|θ = 1)

Z Z
= ··· π(x1 , ..., xn ) · fX (x1 , ..., xn |θ = 1)dx1 ...dxn
Rn
Z Z
= ··· fX (x1 , ..., xn |θ = 1)dx1 ...dxn .
{(x1 ,...,xn )∈Rn : π(x1 ,...,xn )=1}
(1.4)
Los argumentos para obtener las igualdades en (1.4) son análogos al

caso del tamaño del test presentados anteriormente. Este valor indica
la probabilidad de correcta detección de la hipótesis alternativa. Notar
que PX1n (π(X) = 0|θ = 1) es la probabilidad de no detección o el error
tipo II que corresponde precisamente a 1 − βπ 2 .
A partir de las dos definiciones anteriores podemos introducir el con-

cepto de test óptimo:
Definición 1.3. Consideremos un test π de tamaño απ , i.e.,
απ = EX1n (π(X1n )|θ = 0). (1.5)
1 En rigor no es una probabilidad condicional debido a que θ no es una variable aleatoria.

2 En algunos libros, por notación, βπ corresponde al error de tipo II, en este apunte dicho
error es 1 − βπ .
π se dirá óptimo para su tamaño si, ∀π̃ ∈ F (X, Θ)3 tal que
απ̃ = EX1n (π̃(X1n )|θ = 0) ≤ απ (1.6)
se tiene que:
βπ̃ ≤ βπ = EX1n (π(X1n )|θ = 1). (1.7)
Figura 1.1: Zona admisible de punto de operación (απ̃ , βπ̃ ) para los
tests π̃ ∈ F (X, Θ).
3 F (X, Θ) es el conjunto de reglas que van de X a Θ

Esto nos dice que si π es óptimo para su tamaño α, cualquier otro test
de tamaño menor que α (i.e. con menor error de tipo I), tendrá necesa-
riamente un menor poder de test que el test óptimo (en consecuencia
tendrá un mayor error de tipo II). En otras palabras podemos decir que
π es una de las soluciones al problema de decisión óptimo de tamaño
α si:
máx EX1n (π(X1n )|θ = 1) sujeto a απ ≤ α (1.8)
π∈F (X,Θ)
Por lo tanto si π es solución al problema (1.8) entonces ofrece el

máximo poder para su tamaño απ . Por otro lado, de la Definición
1.3 si π es óptimo para su tamaño determina una zona lı́mite de los
posibles pares (α, β) admisibles que pueden tomar otros test π̃ como
se observa en la Figura 1.1.
La pregunta que se debe resolver ahora es de qué manera pode-

mos diseñar un test, y si existe un test que sea óptimo en el sentido
de mejor compromiso entre tamaño y poder del test. La respuesta es
afirmativa y está dado por el Lema de Neyman-Pearson.
1.2. Lema de Neyman Pearson

El resultado central de esta sección es el llamado Lema de Ney-
man Pearson que permite caracterizar de forma cerrada una familia
de test óptimos en el sentido de la Definición 1.3. Este resultado nos
entrega una receta concreta para poder encontrar test óptimos. Antes
de introducir el resultado necesitamos considerar una familia más ge-
neral del test que permitan la toma de decisiones aleatorias en ciertas
circunstancias que garanticen la optimalidad del test.
1.2.1. Test Aleatorios
En adelante consideraremos X como un espacio arbitrario numérico

y sus elementos serán denotados como x ∈ X, luego x podrı́a repre-
sentar un vector o un escalar. Definimos el concepto de test binario
aleatorio de la siguiente forma:
Definición 1.4. Un test o regla π̃ : Ω × X −→ Θ se dice aleatorio si

esta conformado por dos condiciones:
Una función de 3 estados ϕ : X −→ {0, 1, 2}

Una variable aleatoria binaria (distribución Bernoulli) ρ :
Ω −→ {0, 1}4 caracterizada por p = P(ρ(w) = 1).
Luego el test aleatorio se puede escribir, ∀x ∈ X, como
π̃(w, x) = 1ϕ−1 ({1}) (x) + ρ(w) · 1ϕ−1 ({2}) (x), (1.9)
donde 1A (x) es la función indicatriz del conjunto A ⊂ X. Por otro

lado ϕ−1 ({1}) y ϕ−1 ({2}) corresponden al conjunto preimagen de 1 y
2, respectivamente.
Observaciones:
Un test aleatorio se puede ver como un test de tres estados

donde en dos de ellos tiene una salida determinista (0 o 1)
y en uno de ellos aleatoria (dado por la variable aleatoria
ρ(w)).
La función ϕ particiona el espacio de observación X en tres
componentes ϕ−1 ({0}), ϕ−1 ({1}), ϕ−1 ({2})

De (1.9) podemos notar que cuando x ∈ ϕ−1 ({0}) ⇒ π̃(w, x) = 0,

cuando x ∈ ϕ−1 ({1}) ⇒ π̃(w, x) = 1 y cuando x ∈ ϕ−1 ({2}) ⇒
π̃(w, x) = ρ(w).
Por tanto solo cuando x ∈ ϕ−1 ({2}), el test ofrece un comporta-

miento aleatorio gobernado por la variable ρ(w). En otras palabras,
los elementos en ϕ−1 ({2}) no se sabe con certeza si toman el valor 0 o
1 y es la variable ρ(w) (bernoulli) la que asigna 1 con probabilidad p
o 0 con probabilidad 1 − p.
Redefiniendo A0 ≡ ϕ−1 ({0}), A1 ≡ ϕ−1 ({1}), A2 ≡ ϕ−1 ({2}),

tenemos que de la Definición 1.4 una regla aleatoria π̃ se caracteriza
4 Recordar que Ω corresponde al espacio muestral original o espacio madre
completamente por una partición del espacio {A0 , A1 , A2 } y p que es

la probabilidad de ρ(w) = 1 (p = E(ρ)5 ), donde

 1 si x ∈ A1
π̃(w, x) ≡ 0 si x ∈ A0 (1.10)
ρ(w) si x ∈ A2

En este contexto el tamaño del test esta dado por:
Figura 1.2: Partición de X inducida por una regla de decisión

aleatoria.
απ̃ ≡ P(π̃(w, X(w)) = 1|θ = 0)

= P(1ϕ−1 ({1}) (X(w)) + ρ(w) · 1ϕ−1 ({2}) (X(w)) = 1|θ = 0)
= P(X(w) ∈ A1 |θ = 0) + p · P(X(w) ∈ A2 |θ = 0), (1.11)
donde se asume que ρ(w) es independiente a X(w) y por tanto el

parámetro θ es el que incide exclusivamente en la determinación de las
estadı́sticas de X(w).
5 Recordar que en una distribución Bernoulli el parámetro p corresponde al valor esperado

de la variable aleatoria ρ(w).
Es posible también escribir el tamaño de la siguiente manera:
απ̃ ≡ P(X(w) ∈ A1 |θ = 0) + p · P(X(w) ∈ A2 |θ = 0)

= Eρ (P(X(w) ∈ A1 |θ = 0) + ρ · P(X(w) ∈ A2 |θ = 0))
= Eρ (EX (1A1 (X) + ρ · 1A2 (X)|θ = 0))
= Eρ (EX (π̃(ρ, X)|θ = 0))
= EX,ρ (π̃(ρ, X)|θ = 0) (1.12)
análogamente, el poder del test esta dado por:
βπ̃ ≡ P(π̃(w, X(w)) = 1|θ = 1)

= P(1ϕ−1 ({1}) (X(w)) + ρ(w) · 1ϕ−1 ({2}) (X(w)) = 1|θ = 1)
= P(X(w) ∈ A1 |θ = 1) + p · P(X(w) ∈ A2 |θ = 1). (1.13)
Es posible construir un test aleatorio por medio de la composición o

mezcla (aleatoria) de test determinı́sticos.
Proposición 1.1. Sea π̃ un test aleatorio caracterizado por

{A0 , A1 , A2 } y p ∈ (0, 1). Consideremos los test determinı́sticos6

0 si x ∈ A0 ∪ A2
π1 (x) = (1.14)
1 si x ∈ A1

0 si x ∈ A0
π2 (x) = (1.15)
1 si x ∈ A1 ∪ A2
y una variable aleatoria binaria ρ(w) con P(ρ(w) = 1) = p, entonces que
se tiene que el test aleatorio π̃ puede escribirse de la siguiente maneras:
π̃(w, x) = π1 (x)(1 − ρ(w)) + π2 (x)ρ(w). (1.16)
Demostración: Propuesto.
Por otro lado, la combinación lineal de test aleatorios es un test alea-

torio, apoyado por siguiente resultado:
6 Notar que π1 y π2 son determinı́sticos en el sentido que no dependen de ρ.

Proposición 1.2. Sea ρ(w) una variable aleatoria binaria arbitraria y

π1 (·), π2 (·) dos test aleatorios arbitrarios, entonces
π12 (w, x) = π1 (w, x) · 1{0} (ρ(w)) + π2 (w, x) · 1{1} (ρ(w)) (1.17)
es un test aleatorio.
Demostración: Propuesto.
1.2.2. Resultado Principal
A continuación introduciremos el resultado principal conocido como

el Lema de Neyman-Pearson.
Teorema 1.1. (Lema de Neyman-Pearson) Sea Θ = {0, 1} y X la

variable aleatoria de observación con valores en X y dos distribuciones
factibles {PX (·|θ) : θ ∈ {0, 1}}) que definen el problema en (1.1) (es
decir que para θ = 0 existe una distribución PX (x|0) y para θ = 1
existe una distribución PX (x|1)).
Para un ν > 0 arbitrario y una variable aleatoria binaria ρ(w),

se tiene que el test aleatorio de la forma:

 1 si L(x|θ = 1) > νL(x|θ = 0)
π(w, x) = 0 si L(x|θ = 1) < νL(x|θ = 0) (1.18)

ρ(w) si L(x|θ = 1) = νL(x|θ = 0)
es óptimo para su tamaño en el sentido de la Definición 1.3.
Observaciones:
L(x|θ) es la función de verosimilitud. PX (x|θ) cambiará de-

pendiendo si X es un espacio continuo o discreto. Ası́, en el
caso continuo PX (x|θ) corresponde a la densidad de X y en
el caso discreto PX (x|θ) será una función de probabilidad de
masa. Más precisamente
Si X1n siguen una distribución discreta la verosimili-

tud se define como:
L(X1 = x1 , X2 = x2 , ..., Xn = xn |θ) =

PX1n (X1 = x1 , X2 = x2 , ..., Xn = xn |θ).
Si X1n siguen una distribución continua la verosimili-

tud se define como:
L(X1 = x1 , X2 = x2 , ..., Xn = xn |θ) =

fX1n (x1 , x2 , ..., xn |θ).
La función de verosimilitud no es más que la probabilidad de

masa conjunta o densidad de probabilidad conjunta evaluada
en las observaciones.
∀α ∈ [0, 1] existe un test aleatorio de la forma en (1.18) tal
que su tamaño de test es α (existencia).
El test π(·) en (1.18) es único para su tamaño salvo solucio-
nes que difieren de π en un conjunto de probabilidad cero
respecto a fX (x|θ = 1) y fX (x|θ = 0).
El Teorema 1.1 nos dice que la razón ffX (x|θ=1)
X (x|θ=0)
de probabi-
lidades (o likelihood ratio) es la información suficiente que
permite construir una familia de test óptimo en el sentido de
la Definición 1.3.
1.2.3. Demostración
Para la demostración de este resultado, verificaremos su optimali-
dad y existencia.
[Optimalidad]: El resultado se demostrará para el caso conti-

nuo, el caso discreto es análogo. Necesitamos demostrar que ∀ν ∈ R+
y ∀p ∈ [0, 1], π ν (w, x) de parámetros {Aν0 , Aν1 , Aν2 , p}, con
Aν0 ≜ {x ∈ X : fX (x|θ = 1) < νfX (x|θ = 0)}

Aν1 ≜ {x ∈ X : fX (x|θ = 1) > νfX (x|θ = 0)}
Aν2 ≜ {x ∈ X : fX (x|θ = 1) = νfX (x|θ = 0)}, (1.19)
es óptimo dado su tamaño

Z Z
απv = fX (x|θ = 0)dx + p · fX (x|θ = 0)dx
Av1 Av2
= PX (Av1 |θ = 0) + p · PX (Av2 |θ = 0). (1.20)

En otras palabras, si ∃π̃ test aleatorio tal que απ̃ ≤ απv entonces seria
suficiente verificar que
βπ̃ ≤ βπv . (1.21)
Consideremos para estos efectos el siguiente desarrollo descompuesto
en tres integrales. Fijemos un ρ y un ρ̃ para cada test aleatorio tenemos
que
EX (π v (ρ, X) − π̃(ρ̃, X)|θ = 1) − ν(EX (π v (ρ, X) − π̃(ρ̃, X)|θ = 0))
Z
= (π v (ρ, x) − π̃(ρ̃, x))(fX (x|θ = 1) − νfX (x|θ = 0))dx
X=Av0 ∪Av1 ∪Av2
Z
= −π̃(ρ̃, x) (fX (x|θ = 1) − νfX (x|θ = 0)) dx
Av0 | {z }
<0 de (1.19)
| {z }
>0
Z
+ (1 − π̃(ρ̃, x)) (fX (x|θ = 1) − νfX (x|θ = 0)) dx
Av1 | {z }
>0 de (1.19)
| {z }
>0
Z
+ (π v (ρ, x) − π̃(ρ̃, x))(fX (x|θ = 1) − νfX (x|θ = 0)) dx . (1.22)
Av2 | {z }
=0 de (1.19)
| {z }
=0
Esto lleva a que para todo w ∈ Ω (y por consiguiente ρ y ρ̃ arbitrarios)

EX (π v (ρ, X)|θ = 1) − EX (π̃(ρ̃, X)|θ = 1)
≥ ν(EX (π v (ρ, X)|θ = 0) − EX (π̃(ρ̃, X)|θ = 0)).
(1.23)
Tomando esperanza en ambos lados de (1.23) con respecto a ρ(w) y
ρ̄(w) (la parte aleatoria de π y π̃, respectivamente) se tiene que:
βπ − βπ̃ ≥ ν(απ − απ̃ ). (1.24)
Finalmente como απ ≥ απ̃ , esto implica que βπ ≥ βπ̃ .
[Existencia]: Tenemos que mostrar que ∀α ∈ (0, 1) existe un

test aleatorio de la forma π → {A0 , A1 , A2 , p} donde ρ es su variable
aleatoria binaria, tal que su tamaño del test es efectivamente α.
Para esto analizamos el tamaño del test de parámetros {A0 , A1 , A2 , p}:
απ = Eρ (EX (π(ρ, X)|θ = 0))

= Eρ (P(X(w) ∈ A1 |θ = 0) + ρ(w)P(X(w) ∈ A2 |θ = 0))
= P(X(w) ∈ A1 |θ = 0) + P(X(w) ∈ A2 |θ = 0) · p. (1.25)
Por definición, (y asumiendo positividad de las densidades) el primer

término en (1.25) corresponde a:
P(fX (X(w)|θ = 1) > νfX (X(w)|θ = 0)|θ = 0) (1.26)

fX (X(w)|θ = 1)
=P >ν θ=0 , (1.27)
fX (X(w)|θ = 0)
y el segundo término en (1.25) a:
P(fX (X(w)|θ = 1) = νfX (X(w)|θ = 0)|θ = 0)p (1.28)

fX (X(w)|θ = 1)
=P = ν θ = 0 p. (1.29)
fX (X(w)|θ = 0)
Notar que resulta útil mirar la siguiente variable aleatoria Y (w) =
fX (X(w)|θ=1)
fX (X(w)|θ=0) (llamado razón de verosimilitud o likelihood ratio) induci-
da por X(w), donde tenemos que:
απ = P (Y (w) > ν|θ = 0) + P (Y (w) = ν|θ = 0) · p. (1.30)
En el caso que Y tenga una densidad bajo el modelo θ = 0 entonces

su función de distribución FY (y|θ = 0) es continua y por lo tanto
P(Y (w) = ν|θ = 0) = 07 .
Formalmente si Y tiene una densidad fY (y) entonces se verifica
7 Recordar que esto es porque estamos pidiendo la integral sobre un único valor y no sobre
un intervalo
que:

fX (X(w)|θ = 1) fX (X(w)|θ = 1)
P >ν θ=0 y P ≥ν θ=0
fX (X(w)|θ = 0) fX (X(w)|θ = 0)
(1.31)
∗
son funciones continuas de ν y, por lo tanto, existe ν (como función
de α) tal que

fX (X(w)|θ = 1) ∗
P > ν (α) θ = 0 = α. (1.32)
fX (X(w)|θ = 0)
Entonces, en el caso continuo, para todo α ∈ [0, 1] existe un ν tal que
P (Y (w) > ν|θ = 0) = α lo que resuelve el problema de existencia.
Supongamos ahora que Y (w) = ffX X (X(w)|θ=1)

(X(w)|θ=0) no necesariamen-
te admite densidad (y continuidad) y es tal que la función
F̃Y (ν) = P(Y (w) > ν|θ = 0) no toma el valor α, es decir, existe
ν0 tal que
P Y (w) > ν0 θ = 0 < α y (1.33)

∀ϵ > 0 P Y (w) > ν0 − ϵ θ = 0 > α. (1.34)
Esto nos indica que Y tiene un punto de discontinuidad en ν0 . Notar
que en caso contrario el problema se resuelve. Además vemos que {w ∈
Ω : Y (w) > ν0 } ⊆ {w ∈ Ω : Y (w) ≥ ν0 }, por lo que la probabilidad
P(Y (w) > ν|θ = 0) es decreciente con ν.
Proposición 1.3. La condición en (1.33) y (1.34) se observa si y solo

si P (Y (w) = ν0 |θ = 0) > 0.8
Para esto resulta util verificar la siguiente identidad:
Proposición 1.4.
lı́m P (Y (w) > ν0 − ϵ) − P (Y (w) > ν0 ) = P (Y (w) = ν0 )
ϵ→0
⇔ lı́m P (Y (w) > ν0 − ϵ) = P (Y (w) ≥ ν0 ) (1.35)
ϵ→0
8 En otras palabras cuando la función de distribución de Y es discontinua en ν0 , ver Figura

1.3.
Figura 1.3: Gráfico de la función F̃Y (ν) = P(Y (w) > ν|θ = 0) bajo la
condición en (1.33) y (1.34).
Demostración: Es una aplicación directa de la continuidad de la medi-

da en probabilidades.
De la condición en (1.33) y (1.34) y el resultado en (1.35), tenemos que:
lı́m P (Y (w) > ν0 − ϵ|θ = 0) = P (Y (w) ≥ ν0 |θ = 0) > α. (1.36)

ϵ→0
Con esto podemos considerar ν0 como parámetro para definir

{Aν00 , Aν10 , Aν20 } y p ∈ (0, 1) como solución del cálculo del tamaño del
test:
P (Y (w) > ν0 |θ = 0) + p · P (Y (w) = ν0 |θ = 0) = α (1.37)

(dado que P (Y (w) > ν0 |θ = 0) < α y P (Y (w) ≥ ν0 |θ = 0) > α) es

decir:
α − P (Y (w) > ν0 |θ = 0)
p= ∈ (0, 1). (1.38)
P (Y (w) = ν0 |θ = 0)
Lo anterior nos dice que si Y presenta un punto de discontinuidad,
entonces mediante el ajuste del valor de p es posible de todas maneras
lograr un tamaño de test α arbitrario, esto último es muy usado cuan-
do se poseen probabilidades de masa que no son continuas. Con esto
concluimos la demostración de la existencia.
1.2.4. Discusión del Resultado

1- Si Y tiene función de densidad de probabilidad. y, en con-
secuencia, ∀ν ∈ R+ PX (fX (X|θ = 1) = νfX (X|θ = 0)|θ =
0) = 0, el test óptimo de Neyman Pearson puede expresarse
de forma determinı́stica como:

1 si fX (x|θ = 1) > νfX (x|θ = 0)
πν (x) = (1.39)
0 si fX (x|θ = 1) ≤ νfX (x|θ = 0),
o en su defecto como:

1 si fX (x|θ = 1) ≥ νfX (x|θ = 0)
π̃ν (x) = (1.40)
0 si fX (x|θ = 1) < νfX (x|θ = 0).
En esta caso πν (x), π̃ν (x) ofrecen el mismo desempeño en
términos que:
EX (πν (X)|θ = 0) = EX (π̃ν (X)|θ = 0) = απν (1.41)
EX (πν (X)|θ = 1) = EX (π̃ν (X)|θ = 1) = βπν (1.42)
fX (X|θ=1)
2- Si Y (X) = fX (X|θ=0)admite densidad, entonces el test para
el parámetro ν está dado por:

1 si Y (x) ≥ ν
πν (x) = (1.43)
0 si Y (x) < ν
Por lo que se tiene que:
απν = EX (πν (X)|θ = 0) = PY (Y ≥ y|θ = 0)
Z ∞
= fY (y|θ = 0)dy (1.44)
ν
1.3. Curva ROC (Receiver Operating Characteristic) 17
βπν = EX (πν (X)|θ = 1) = PY (Y ≥ y|θ = 1)

Z ∞
= fY (y|θ = 1)dy. (1.45)
ν
Sin embargo determinar expresiones cerradas para la distri-

bución de Y puede ser un problema dificil.
1.3. Curva ROC (Receiver Operating Characteristic)

Dado un problema de decisión binario como en la ecuación (1.1),
el Lema de Neyman Pearson nos entrega una familia9 de test óptimos
{πα (·) : ∀α ∈ [0, 1]} donde sabemos que:
β πα = máx βπ , (1.46)
π∈F(X,Θ) con απ ≤α
por tanto el conjunto de pares {(α, βπα ) : α ∈ [0, 1]} ofrece el compro-
miso óptimo para el problema en (1.1) entre los errores de tipo I y
tipo II.
Definimos la curva ROC asociado al problema de detección y su

test de Neyman-Pearson como:
fROC (α) = βπα , ∀α ∈ [0, 1]. (1.47)
Es decir la curva ROC es la función que asocia el poder del test por
cada error de tipo I en [0, 1].
Proposición 1.5. Se puede verificar que la curva ROC:
fROC (α) es una función no decreciente.

fROC (0) = 0 y fROC (1) = 1.
fROC (α) es una función cóncava.
Una ilustracion es presentada en la Figura 1.4.
La curva ROC expresa la complejidad del problema de inferencia

en el sentido que evidencia el compromiso óptimo alcanzable entre los
9 Se le dice familia ya que es una cantidad no numerable de reglas, indexadas por α o por ν
dos errores que definen este problema.
Observaciones:
Figura 1.4: Ilustración de la curva ROC para un problema de

detección binario.
La curva ROC es una curva teórica ya que depende del test de

Neyman-Pearson que a su vez depende de las distribuciones,
algo que en la p ráctica no suele tenerse.
Es posible generar otras curvas ROC, usando otras reglas
de decisión, estas curvas tendrán un mejor desempeño en la
medida que se acerquen cada vez más a la curva entregada
por el Lema de Neyman-Pearson
El desempeño de la curva de Neyman-Pearson puede mejorar
aún más en la medida que se tengan muchas observaciones
independientes e identicamente distribuidas (i.i.d.), esto es,

αn → 0 y βn → 1 si es que se posee un vector aleatorio
X1n ∈ X i.i.d..
La siguiente figura muestra los distintos comportamientos de los

detectores, dado que en la práctica no se puede obtener el test óptimo
que está dado por el Lema de Neyman-Pearson, se busca un test que
se pueda acercar tanto al entregado por el lema.
Un test tendrá mejor desempeño en la medida que para un va-

lor dado de error de tipo I, el poder del test es lo más grande posible
y, consecuentemente, el error de tipo II es más pequeño.
Figura 1.5: Fuente:

https://en.wikipedia.org/wiki/Receiver operating characteristic
1.4. Caso de Estudio 1: Ruido Gaussiano

El caso de distribuciones Gaussianas es emblemático tanto por su
simplicidad analı́tica, como por su amplio uso como modelo de observa-
ción, en particular en problemas de comunicaciones digitales y recono-

cimiento de patrones. Veremos una instancia básica de este problema
en el siguiente ejemplo:
Ejemplo 1.1. Consideremos Θ = {0, 1} y

1 (x−µ0 )2
H0 :θ = 0 : X ∼ N (µ0 , σ 2 ) → L(x|θ = 0) = fX (x|θ = 0) = √ e− 2σ2
2πσ
1 (x−µ1 )2
H1 :θ = 1 : X ∼ N (µ1 , σ 2 ) → L(x|θ = 1) = fX (x|θ = 1) = √ e− 2σ2 ,
2πσ
(1.48)
donde se asume que µ0 < µ1 . Estas probabilidades de observación se
obtienen por ejemplo en el caso del modelo de ruido aditivo Gaussiano
en comunicaciones, donde por uso de canal se transmite una señal de
dos posibles estados (binaria) por medio de la regla:
H0 :S = µ0
H1 :S = µ1 , (1.49)
y las observaciones (en el receptor) están dadas por la variable
X =S+Z (1.50)
donde Z ∼ N (0, σ 2 ) modela el ruido agregado por el canal de
comunicaciones.
En este caso dado un test π lo que debe hacer es decidir si la

observación X proviene de una Gaussiana de media µ0 o de media µ1 .
Aplicaremos entonces el Lema de Neyman-Pearson para determi-

nar la forma de los test óptimos en este caso. Es importante primero
caracterizar la función de verosimilitud para cada hipótesis (Recor-
dando que la verosimilitud corresponde a la función de densidad
de probabilidad o función de probabilidad de masa inducida por la
variable aleatoria observada), ası́, tenemos que, para una observación
x∈X=R
1 −(x−µ0 )2
fX (x|θ = 0) = √ e 2σ2
2πσ
y
1 −(x−µ1 )2
fX (x|θ = 1) = √ e 2σ2
2πσ
El test se plantea como, dado ν > 0:
−(x−µ1 )2 −(x−µ0 )2

1 1
1 si √ e 2 > ν √ e 2σ 2

 2σ
2πσ 2πσ


−(x−µ1 )2 −(x−µ0 )2

π(w, x) = 1 1 (1.51)
 0 si √2πσ e 2σ2 < ν √2πσ e 2σ2

 −(x−µ1 ) 2 −(x−µ0 )2
 1 1
 ρ(w) si √2πσ e 2σ2 = ν √2πσ e 2σ2
En general se requerirá expresar este test de forma más amigable, de

modo de determinar de forma explı́cita la partición que genera este test
sobre las observaciones. Dicho lo anterior, podemos trabajar una de las
desigualdades del test y dejarla más clara.
1 −(x−µ1 )2 1 −(x−µ0 )2
√ e 2σ2 > ν √ e 2σ2
2πσ 2πσ
−(x−µ1 )2 −(x−µ0 )2
e 2σ 2 > νe 2σ 2
(x − µ1 )2 (x − µ0 )2
− > log(ν) −
2σ 2 2σ 2
(x − µ0 )2 (x − µ1 )2
2
− > log(ν)
2σ 2σ 2 (1.52)
(x − µ0 )2 − (x − µ1 )2 > 2 log(ν)σ 2
x2 − 2xµ0 + µ20 − (x2 − 2xµ1 + µ21 ) > 2 log(ν)σ 2
x2 − 2xµ0 + µ20 − x2 + 2xµ1 − µ21 > 2 log(ν)σ 2
x(2µ1 − 2µ0 ) + µ20 − µ21 > 2 log(ν)σ 2
2 log(ν)σ 2 + µ21 − µ20
x>
2µ1 − 2µ0
Luego, el test de Neyman Pearson se puede expresar de la siguiente
forma:
2 log(ν)σ 2 +µ21 −µ20

 1

 si x > 2µ1 −2µ0
2 log(ν)σ 2 +µ21 −µ20
π(w, x) = 0 si x < 2µ1 −2µ0
(1.53)
 ρ(w) si x = 2 log(ν)σ2 +µ21 −µ20


2µ1 −2µ0
Observaciones:
2 log(ν)σ 2 +µ21 −µ20

n o
Noten que si definimos A1 = x ∈ R : x > ,
o 2µ1 −2µ0
2 log(ν)σ 2 +µ21 −µ20
n
A0 = x∈R:x< y A2 =
o 2µ1 −2µ0
2 log(ν)σ 2 +µ21 −µ20
n
x∈R:x= 2µ1 −2µ0 , la unión de estos tres
conjuntos forman R y además entre ellos son disjuntos,
luego forman una partición del espacio.
En palabras simples el test nos indica que para decidir, a
partir de una observación, entre una hipótesis u otra, se debe
verificar que este valor supere o no un umbral que depende
de ν y las medias de las Gaussianas.
Notemos que el evento (sea bajo θ = 0 o θ = 1)
2 log(ν)σ 2 +µ21 −µ20
n o
w ∈ Ω : x(w) = 2µ1 −2µ0 es de probabilidad 0 debi-
do a que la probabilidad de X se calcula sobre una distribu-
ción continua, por lo que no tiene masa. Dicho de otro modo,
la probabilidad de un singleton siempre es 0 sobre cualquier
distribución continua. Lo anterior es un argumento suficien-
te para transformar el test aleatorio en uno determinı́stico,
entregando el conjunto A2 a cualquiera de los otros dos con-
juntos (A0 o A1 ). El test pasa a ser entonces
2 log(ν)σ 2 +µ21 −µ20

(
1 si x ≥ 2µ1 −2µ0
π(w, x) = 2 log(ν)σ 2 +µ21 −µ20 (1.54)
0 si x < 2µ1 −2µ0
o también puede ser
2 log(ν)σ 2 +µ21 −µ20

(
1 si x > 2µ1 −2µ0
π(w, x) = 2 log(ν)σ 2 +µ21 −µ20 (1.55)
0 si x ≤ 2µ1 −2µ0
Cualquiera de los dos es correcto. Lo importante es que en

estas situaciones un test aleatorio (que tiene una tercera va-
riable ρ(w)) pasa a ser determinı́stico (que solo tiene dos
opciones 0 o 1). Con lo anterior los conjuntos Aν0 = πν−1 ({0})
y Aν1 = πν−1 ({1}) ya quedan determinados de la siguiente
manera:
Si se adopta la ecuación (1.54):
2 log(ν)σ 2 + µ21 − µ20

ν −1
A0 = πν ({0}) = x ∈ R : x <
2µ1 − 2µ0
(1.56)
2 2 2

ν −1 2 log(ν)σ + µ1 − µ0
A1 = πν ({1}) = x ∈ R : x ≥
2µ1 − 2µ0
(1.57)
Si se adopta la ecuación (1.55):
2 log(ν)σ 2 + µ21 − µ20

Aν0 = πν−1 ({0}) = x ∈ R : x ≤
2µ1 − 2µ0
(1.58)
2 2 2

ν −1 2 log(ν)σ + µ1 − µ0
A1 = πν ({1}) = x ∈ R : x >
2µ1 − 2µ0
(1.59)
(Basta elegir una opción para que el problema este resuelto).
Ahora calcularemos el tamaño y poder del test. Recordemos que:
α = P(π(X(w)) = 1|θ = 0)
(1.60)
= PX (X ∈ A1 |θ = 0) + pPX (X ∈ A2 |θ = 0)
Esto quiere decir que corresponde a la probabilidad de observar la

variable aleatoria X en el conjunto A1 más la probabilidad de observar
la variable aleatoria X en el conjunto A2 por p (la probabilidad de que
ρ = 1), dado que en realidad la hipótesis correcta era θ = 0, con lo
anterior, es claro que se debe integrar lo siguiente
απ = P(π(X(w)) = 1|θ = 0)
= PX (X ∈ A1 |θ = 0) + pPX (X ∈ A2 |θ = 0)
2 log(ν)σ 2 +µ2 2
1 −µ0
Z ∞ −(x−µ0 )2
Z −(x−µ0 )2
1 2µ1 −2µ0 1
= 2 log(ν)σ 2 +µ2 2 √ e 2σ2 dx + 2 log(ν)σ 2 +µ2 2 √ e 2σ2
1 −µ0 2πσ 1 −µ0 2πσ
2µ1 −2µ0 2µ1 −2µ0
Z ∞ −(x−µ0 )2
1
= 2 log(ν)σ 2 +µ2 2 √ e 2σ2 dx
1 −µ0 2πσ
2µ1 −2µ0
(1.61)
Similarmente el poder del test se puede calcular como

βπ = P(π(X(w)) = 1|θ = 1)
Z ∞ −(x−µ1 )2
1 (1.62)
= 2 log(ν)σ2 +µ2 −µ2 √ e 2σ2 dx
2µ −2µ
1 0 2πσ
1 0
Resultará útil considerar la función Q(x) ≡ PZ (Z ≥ x) donde Z ∼

N (0, 1), es decir: Z ∞
1 y2
Q(x) = √ e− 2 dy. (1.63)
x 2π

Entonces si X ∼ N (µ, σ 2 ) se tiene que X−µσ ∼ N (0, 1), luego

X(w) − µ x−µ
P(X(w) ≥ x) = P ≥
σ σ

x−µ
=Q . (1.64)
σ
Por lo tanto se puede verificar que:

τ (ν) − µ1
βπ = Q
σ

τ (ν) − µ0
απ = Q . (1.65)
σ
2 log(ν)σ 2 +µ21 −µ20
donde τ (ν) = 2µ1 −2µ0 .
Observaciones:
En general, para test de variables aleatorias continuas es nor-

mal que el evento X ∈ A2 sea de probabilidad cero por lo que
suele obviarse en el cálculo del error de tipo I o II, para este
caso se decidió ser más explicitó solamente por completitud.
El resultado anterior entrega un compromiso entre el error
de tipo I y el valor de ν. Se observa que existe una relación
entre ambos cuya formula explicita no es directa de determi-
nar analı́ticamente. Sin embargo, la intuición detrás es que
a mayor ν es de esperarse un menor error de tipo I (con el
compromiso que aumenta el error de tipo II).
Si bien fijar el ν me entrega un error de tipo I, en la práctica

el procedimiento es inverso, es decir, se pide un error ϵ (tı́pi-
camente 0.05) con el que a partir de imponer eso, es posible
despejar ν (numéricamente).
Consideremos ahora el caso de múltiples mediciones i.i.d.
H0 :θ = 0 : (X1 , ..., Xn ) ∼ N (µ0 , σ 2 ) → fX1n (x1 , ..., xn |θ = 0)

H1 :θ = 1 : (X1 , ..., Xn ) ∼ N (µ1 , σ 2 ) → fX1n (x1 , ..., xn |θ = 1), (1.66)
Bajo las mismas hipótesis del planteamiento anterior, caracterizaremos

la familia de test óptimos en el sentido de Neyman-Pearson para un
ν ∈ R+ . Nuevamente es importante primero expresar la función de ve-
rosimilitud para cada hipótesis. En este caso poseemos n observaciones
independientes e idénticamente distribuidas (i.i.d.) y recordando que la
verosimilitud conjunta equivale al producto de las marginales cuando
son i.i.d, se tiene que para xn ∈ X = Rn .
n −(xi −µ0 )2
Y 1
fX (x1 , ..., xn |θ = 0) = √ e 2σ2 (1.67)
i=1
2πσ
y
n −(xi −µ1 )2
Y 1
fX (x|θ = 1) = √ e 2σ2 (1.68)
i=1
2πσ
El test se plantea como
−(xi −µ1 )2 −(xi −µ0 )2


si ni=1
Qn
√1 e √1
Q
1 2σ 2 >ν i=1 2πσ e
2σ 2


2πσ


−(xi −µ1 )2 −(xi −µ0 )2

si ni=1
Qn
π(w, x) = √1 e √1
Q
 0 2πσ
2σ 2 <ν i=1 2πσ e
2σ 2
−(xi −µ1 )2 −(xi −µ0 )2



ρ(w) si ni=1
Qn
√1 e √1
 Q

2πσ
2σ 2 =ν i=1 2πσ e
2σ 2
(1.69)
Como en el ejemplo anterior, es mejor expresar la partición de una
forma más cómoda. De sta forma trabajamos una de las desigualdades
n −(xi −µ1 )2
n −(xi −µ0 )2
Y 1 Y 1
√ e 2σ2 >ν √ e 2σ2
i=1
2πσ i=1
2πσ
n 2 n
n P −(xi −µ1 ) n P −(xi −µ0 )2
1 2σ 2 1 2σ 2
√ ei=1 >ν √ e i=1
2πσ 2πσ
n n
P −(xi −µ1 )2 P −(xi −µ0 )2
2σ 2 2σ 2
ei=1 > νe i=1
n n
X (xi − µ1 )2 X (xi − µ0 )2
− 2
> log(ν) −
2σ 2σ 2
i=1 i=1
Xn n
X
− (xi − µ1 )2 > 2σ 2 log(ν) − (xi − µ0 )2
i=1 i=1
n
X n
X
(xi − µ0 )2 − (xi − µ1 )2 > 2σ 2 log(ν)
i=1 i=1
n
X
x2i − 2xi µ0 + µ20 − (x2i − 2xi µ1 + µ21 ) > 2σ 2 log(ν)
i=1
n
X
−2xi µ0 + µ20 + 2xi µ1 − µ21 > 2σ 2 log(ν)
i=1
n
X
xi (2µ1 − 2µ0 ) + µ20 − µ21 > 2σ 2 log(ν)
i=1
n
X
(2µ1 − 2µ0 ) xi + nµ20 − nµ21 > 2σ 2 log(ν)
i=1
n
1X
(2µ1 − 2µ0 )nx + nµ20 − nµ21 > 2σ 2 log(ν) con xi = x
n
i=1
2σ 2 log(ν) − nµ20
+ nµ21
x>
(2µ1 − 2µ0 )n
(1.70)
n
P
xi
i=1
donde x = n Con lo que el test ahora queda
2σ 2 log(ν)−nµ20 +nµ21

 1 si x > (2µ1 −2µ0 )n


π(w, x) = 0 si x < (2µ1 −2µ0 )n
(1.71)


 ρ(w) si x =
(2µ1 −2µ0 )n
Nuevamente como estamos en un o espacio continuo y el evento

n
w ∈ Ω : x(w) = (2µ1 −2µ0 )n tiene probabilidad 0 (sea para θ =
0 o θ = 1) ya que la variable aleatoria X sigue una distribución nor-
mal (la combinación lineal de Gaussianas es Gaussiana), luego, estamos
pidiendo la probabilidad de un singleton sobre una variable continua.
Podemos entonces reducir este test a uno determinı́stico, dejándolo co-
mo 
 1 si x ≥ 2σ2 log(ν)−nµ20 +nµ21
(2µ1 −2µ0 )n
π(w, x) = 2 2 2 (1.72)
 0 si x < 2σ log(ν)−nµ0 +nµ1
(2µ1 −2µ0 )n
Para calcular el error de tipo I, trabajando en el espacio Rn puede

no resultar una tarea fácil, sin embargo, se puede recordar que X ∼
N (µ, σ 2 /n), con lo que se define la variable aleatoria Y = X, luego
α = P(π(X(w)) = 1|θ = 0)
2σ 2 log(ν) − nµ20 + nµ21

α = P X(w) ≥ |θ = 0
(2µ1 − 2µ0 )n
 
X(w) − µ0 (2µ1 −2µ0 )n − u0
α = P √ ≥ √  (1.73)
σ/ n σ/ n
 2
2σ log(ν)−nµ20 +nµ21

(2µ1 −2µ0 )n − u 0
α = Q √ 
σ/ n
R∞ 2
donde Q(x) = √12π x e−y /2 dy. Se ocupó el clásico resultado de la
distribución normalizada N (0, 1). Como observarán, nuevamente existe
una relación entre α y ν y que finalmente sintetiza el resultado visto
en test de hipótesis “se acepta H0 si el promedio es menor que cierto
umbral”.
Propuesto 1.1. Genere la curva ROC del test óptimo explorando un

rango de valores µ ∈ R y de σ 2 para el caso que µ0 = −µ1 = −1.
Comente sus resultados.
Propuesto 1.2. Si definimos d = |µ0 − µ1 | y con ellos SN R = σd =

|µ0 −µ1 |
σ . Encontrar una expresión para απν y βπν en (1.65) como función
de ν, SN R y σ 2 .
1.5. Caso de Estudio 2: Detección Binaria con Observaciones

Discretas
El siguiente ejemplo es un modelo simplificado de un sistema de co-
municaciones óptico. En este problema las observaciones son discretas
por lo que no es posible reducir el problema a un test determinı́stico.
Ejemplo 1.2. Se tiene θ ∈ {0, 1} parámetro fijo que representa el

estado de una variable binaria que se transmite por un canal de co-
municaciones digitales. La variable observada en el receptor es X con
valores en N (la cantidad de fotones medidos por un detector óptico).
El modelo de observación dice que X ∼ P oisson(λ) donde
λ = λ0 si θ = 0
λ = λ1 si θ = 1 (1.74)
es decir
λx0
fX (x|θ = 0) = P(X(w) = x|θ = 0) = e−λ0
x!
x
−λ1 λ1
fX (x|θ = 1) = P(X(w) = x|θ = 1) = e (1.75)
x!
Estudiemos la forma de la familia de test óptimo que nos ofrece el Lem-
ma de Neyman-Pearson y, en particular, encontraremos los parámetros
para el test óptimo de tamaño α ∈ (0, 1). Asumiremos el caso no trivial
donde λ1 > λ0 . La función de razón de verosimilitud está dado por:
x
fX (x|θ = 1) λ1
l(x) = = eλ0 −λ1 > ν. (1.76)
fX (x|θ = 0) λ0
1.5. Caso de Estudio 2: Detección Binaria con Observaciones Discretas 29
Por lo tanto decidir H1 corresponde al siguiente conjunto:

x
ν λ0 −λ1 λ1
A1 = x ∈ N : e >ν
λ0

λ1
= x ∈ N : λ0 − λ1 + x ln > ln(ν)
λ0

ln(ν) + (λ1 − λ0 )
= x∈N:x> . (1.77)
ln(λ1 ) − ln(λ0 )
De forma mas general, la partición {Aν0 , Aν1 , Aν2 } inducida por la familia
de test óptimos es la siguiente (ver Teorema 1.1):

ν ln(ν) + (λ1 − λ0 )
A0 = x ∈ N : x <
ln(λ1 ) − ln(λ0 )

ν ln(ν) + (λ1 − λ0 )
A1 = x ∈ N : x >
ln(λ1 ) − ln(λ0 )

ν ln(ν) + (λ1 − λ0 )
A2 = x ∈ N : x = , (1.78)
ln(λ1 ) − ln(λ0 )
con λ1 , λ2 ∈ R+ \{0}. Notar que A2 puede ser vacı́o. Si adicionalmente
p es la probabilidad que la variable ρ(w) tome el valor 1, entonces el
test queda descrito por π = {Aν1 , Aν0 , Aν2 , p} y en particular por los
parámetros v y p. Por tanto la expresión para el tamaño del test esta
dada por:
απ = P(X(w) ∈ Aν1 |θ = 0) + p · P(X(w) ∈ Aν2 |θ = 0)
 
∞ xv
X λx0  ln(ν) + (λ1 − λ0 ) 
 · pe−λ0 λ0 ,
= e−λ0 + 1N 
 ln(λ1 ) − ln(λ0 ) 
ln(ν)+(λ1 −λ0 )
x! xv !
x> ln(λ1 )−ln(λ0 )
| {z }
xv ≡
(1.79)
recordando que 1N (xv ) vale uno si xv es natural y 0 si no. Dado un
α ∈ [0, 1] arbitrario, nos pondremos en el caso que existe un test de-
terminı́stico (p = 0) tal que sea de tamaño α. A partir de (1.79), esto
equivale a pedir que ∃x(α) ∈ N tal que:
x(α)
X λx0
1−α= e−λ0 . (1.80)
x!
x=1
Bajo la identidad en (1.80) se toma να (el subı́ndice α indica que ν es

función de α por ser este último un parámetro de diseño) como solución
de:

λ1
ln(να ) = x(α) ln − (λ1 − λ0 )
λ0

λ1
x(α) ln −(λ1 −λ0 )
να = e λ0
. (1.81)
Si por el contrario para un α dado no es posible encontrar solución para

(1.80) para un x(α) entero positivo, necesariamente se debe recurrir a
un test aleatorio. En este caso podemos considerar:
( ∞ ) ∞
x λx
−λ0 λ0
X X
∗
x0 (α) = arg máx e tal que e−λ0 0 < α
x0 ∈N
x>x
x! ∗
x!
0 x>x0 (α)
(1.82)
x
Es decir el natural x0 (α)∗ que maximice f (x0 ) = ∞ −λ0 λ0 y que
P
x>x0 e x!
garantice que la suma a partir de x0 (α)∗ + 1 sea menor que α. Por lo
tanto la suma desde x0 (α)∗ será mayor que α10 , y tenemos que
∞ x x (α)∗
X
−λ0 λ0 −λ0 λ0 0
e +e > α ⇒ ∃pα ∈ [0, 1] (1.83)
x! x0 (α)∗ !
x>x0 (α)∗
tal que
∞ x x (α)∗
X
−λ0 λ0 −λ0 λ0 0
e +e pα = α. (1.84)
x! x0 (α)∗ !
x>x0 (α)∗
Lo anterior debido a la garantı́a de existencia del Lema de Neyman-

Pearson11 . Finalmente, el test optimo está dado por los parámetros
να → {Aν0α , Aν1α , Aν2α } y pα ∈ (0, 1).
x
10 La función f (x0 ) = ∞ −λ0 λ0 es decreciente
P
x>x0 e x!
11 Esto también se puede deducir por el teorema de los valores intermedios
1.6. Problemas 31
1.6. Problemas
Se presentan a continuación una sección de problemas relacionados
con detección paramétrica.
Problema 1.1. (Detección de variables con distribución Poisson)

Considere una variable aleatoria X con distribución Poisson de paráme-
tro λ.
λk e−λ
PX (X = k) = , (1.85)
k!
a) Determine la función generadora de momentos de X, es de-
cir: X
MX (t) = PX (X = k) · etk , (1.86)
k≥0
t
y verifique que es igual a eλ·(e −1) .
b) Considere X1 ,..,Xn variables aleatorias independientes e
idénticamente distribuidas (i.i.d.) con distribución Poisson
de parámetro λ. Verifique que X = ni=1 Xi es Poisson de
P
parámetro nλ. Indicación: Considere los resultados de pro-

babilidades respecto a suma de variables aleatorias y las pro-
piedades de la función generadora de momentos.
c) Considere el problema de detección binario en el escenario
paramétrico, donde Θ = {0, 1} y se tiene que:
θ = 0 ⇒ X ∼ P oisson(λ0 ), (1.87)
θ = 1 ⇒ X ∼ P oisson(λ1 ) (1.88)
con λ1 > λ0 .
Determine la forma general de la familia de test óptimos
dados por el Lema de Neyman-Pearson, y analice la forma
de las zonas de decisión considerando que λ1 > λ0 . Comente.
d) Encuentre el test óptimo para el tamaño α = 0,01. Considere
λ0 = 2 y λ1 = 4. Indicación: Notar que un test aleatorio
podrı́a ser necesario.
e) Encuentre los valores de tamaño α sobre los cuales los test
deterministicos son óptimos o en su defecto la condición que
se debe cumplir para ello.
Problema 1.2. (Detección de sı́mbolos sobre ruido aditivo Gaussiano)

Considere el problema clásico de comunicaciones digitales, de la detec-
ción de sı́mbolos binarios contaminadas por ruido aditivo Gaussiano.
En este caso Θ = {0, 1} y la variable aleatoria de observación dado
θ ∈ Θ esta dada por:
X = Sθ + N (1.89)
con S0 = µ amd S1 = −µ, µ > 0 y N ∼ N (0, σ 2 ). Del Lema de
Neyman-Pearson, se sabe que la familia de test óptimos {πη (·) : η ∈ R},
es determinı́stica y ofrece la siguiente estructura:
πη (x) = 1, si ln(l(x)) > η (1.90)
πη (x) = 0, si ln(l(x)) ≤ η (1.91)
fX (x|θ=1)
donde l(x) = fX (x|θ=0) es la razón de las verosimilitud (the likelihood
ratio).
a) Verifique que la regla de decisión en este caso reduce a:

πη (x) = 1 si x < τη y πη (x) = 0 de lo contrario. Encuentre
una expresión para τη .
b) Verifique que Y = ln(l(X)) es una variable aleatoria Gaus-
siana y determine su media y varianza para los dos escenarios
θ = 0 y θ = 1.
c) Encuentre expresiones para el poder y el tamaño de πη (·)
como función de los parámetros del problema (σ 2 , µ,η) y la
R∞ 2
función Q(z) = z √12π e−y /2 dy.
d) Considere σ 2 = 1, µ = 1,y con ello genere la curva ROC
cubriendo un rango representativo de pares de valores de
tamaño y poder. (Utilice Python o el lenguaje de programa-
ción que desee para crear la curva).
e) Repita el computo anterior, considerando los si-
guientes valores para la varianza del ruido σ 2 =
10−3 , 10−2 , 10−1 , 1, 102 , 103 . Analice los resultados ob-
tenidos y comente sobre la complejidad del problema de
decisión.
1.6. Problemas 33
Problema 1.3. (Múltiples mediciones)

Considere el mismo escenario del Problema 1.2, pero asuma que se
tienen múltiples mediciones (o en su defecto transmisiones sucesivas
del mismo sı́mbolo),
X1 , X2 , . . . , Xn
y donde Xi = Sθ + Ni (i = 1, .., n), para lo cual N1 , .., Nn son variables
aleatorias i.i.d. que siquen una N (0, σ 2 ). Ahora la regla de decisión
enfrenta el vector aleatorio Gaussiano X̄ = (X1 , .., Xn ) con valores en
Rk y va al espacio de decisión Θ = {0, 1}.
a) Condicionado a los valores de θ ∈ Θ, determine la distribu-

ción de X̄ k y sus parámetros.
b) Analice la familia de test óptimos y verifique que ∀x̄ ∈ Rn
2
log l(x̄) = 2 µ̄t · x̄
σ
donde µ̄ = (µ, µ, ..., µ) ∈ Rn . Especı́ficamente para n = 2
y η = 0, determine gráficamente las zonas de decisión, es
decir:
A0 = πη−1 ({0}) = x̄ ∈ R2 : ln l(x̄) ≤ η ,

A1 = πη−1 ({1}) = x̄ ∈ R2 : ln l(x̄) > η .

c) Considere µ = 1, σ 2 = 10 y n = 1, 10, 102 , 103 , respecti-

vamente. Para estos distintos escenarios determine el test
óptimo πηn : Rn → {0, 1} (es decir determine η) tal que:
απηn = E(πηk (X̄)|θ = 0) = 0,01
y con ello grafique βπηn = E(πηn (X̄)|θ = 1) como función de
n. Comente que observa en el poder del test y cual es la
influencia en el número de mediciones.
d) Complemente el análisis anterior generando la curva ROC
completa para los escenarios n = 1, 10, 102 , 103 . Comente si
este resultado es consistente con lo observado en el punto
anterior.
Problema 1.4. Considere un problema de detección binario Θ =

{0, 1} donde la variable aleatoria de observación X toma valores en
la recta real X = R y sigue las estadı́sticas como función del parámetro
θ (es decir, fθ (x)) dadas por:
θ = 0 : X ∼ U nif ome[0, 1]
θ = 1 : X ∼ U nif ome[0, K]
con K > 1.
a) Determine la familia de test óptimos en el sentido del Lema

de Neyman-Pearson.
b) Fije un umbral τ ∈ R y considere el siguiente test deter-
minı́stico:
fX (x|θ = 1)
πτ (x) = 1 si log ≥τ (1.92)
fX (x|θ = 0)
y πτ (x) = 0 si la condición en Eq. (1.92) no se cumple12 .
Determine las regiones de decisión de πτ (·), es decir los con-
juntos Aτ0 = πτ−1 ({0}) y Aτ1 = πτ−1 ({1}). Especifique como
cambian dichas regiones como función de τ e identifique ran-
gos concretos en el espacio de posibles valores de τ .
c) Del punto anterior, determine las expresiones para el poder
y tamaño del test como función del valor de τ . Recordar que:
απτ = P(πτ (X(w)) = 1|θ = 0)

βπτ = P(πτ (X(w)) = 1|θ = 1)
d) Determine la curva ROC. Es posible obtener la curva ROC

completa (para todos los tamaños) con test determinı́sticos?
Justifique su respuesta.
e) Vuelva al punto b) y d) y discuta que pasa con las regiones
de decisión y la curva ROC si K → ∞.
12 Considere 0 x
para estos efectos que log 0
≡ lı́mx→0 log x
= 0.
1.6. Problemas 35
Problema 1.5. Considere una secuencia binaria de largo n

(s1 , .., sn ) ∈ {0, 1}n transmitida por un canal binario simétrico
(BSC). La probabilidad condicional de observar (x1 , .., xn ) ∈ {0, 1}n a
la salida del canal dado que se transmite la secuencia (s1 , .., sn ) esta
dada por el siguiente modelo:
n
Y
PX1 ,..,Xn |S1 ,..,Sn (x1 , .., xn |s1 , .., sn ) = PX|S (xi |si )
i=1
n
Y
= (ϵ · 1{xi ̸=si } + (1 − ϵ) · 1{xi =si } )
i=1
(1.93)
donde ϵ ∈ (0, 1) es la probabilidad de error del canal.
a) Encuentre una expresión para

PX1 ,..,Xn |S1 ,..,Sn (x1 , .., xn |s1 , .., sn ) como función de
n
X
dH ((x1 , .., xn ); (s1 , .., sn )) = 1{xi ̸=si } ,
i=1
conocida como la distancia de Hamming entre las palabras
binarias.
b) Si definimos el conjunto B̄k (s1 , .., sn ) =
{(x1 , .., xn ) : dH ((x1 , .., xn ); (s1 , .., sn )) ≤ k} ⊂ {0, 1}n
para todo k ∈ {0, .., n}, determine una expresión para.
ηk = PX1 ,..,Xn |S1 ,..,Sn (B̄k (s1 , .., sn )|s1 , .., sn ). (1.94)
De una interpretación a esta probabilidad del punto de vis-
ta del problema de transmitir (s1 , .., sn ) y recibir (x1 , .., xn ).
Indicaciones: Notar que dH ((x1 , .., xn ); (s1 , .., sn )) = k equi-
vale a decir que hay k-bits donde (x1 , .., xn ) difiere de
(s1 , .., sn ). Puede ser útil, en primera instancia, considerar
el conjunto
Āk (s1 , .., sn ) = {(x1 , .., xn ) : dH ((x1 , .., xn ); (s1 , .., sn )) = k}
⊂ {0, 1}n y determinar
ςk = PX1 ,..,Xn |S1 ,..,Sn (Āk (s1 , .., sn )|s1 , .., sn ). (1.95)
c) Considere que tenemos dos hipótesis, Θ = {0, 1}, y que dado

θ = 0 entonces se transmite (0, 0, ..., 0) ∈ {0, 1}n y que dado
θ = 1 se transmite (1, 1, ..., 1) ∈ {0, 1}n . Utilice el Lemma
de Neyman-Pearson para determinar la forma de la familia
de test óptimos en este problema. Indicación: Notar que en
este caso la función de probabilidad de masa se construye
como:
fX1 ,..,Xn (x1 , .., xn |θ) = PX1 ,..,Xn |S1 ,..,Sn (x1 , .., xn |θ, θ, ..., θ).
d) Restrinja el análisis al conjunto de decisión

n fX1 ,..,Xn (x1 , .., xn |θ = 1)
A1 = (x1 , .., xn ) ∈ {0, 1} : >v
fX1 ,..,Xn (x1 , .., xn |θ = 0)
de parámetro v. Verifique que este conjunto esta dado por

la regla de mı́nima distancia, es decir (x1 , .., xn ) ∈ A1 si, y
solo si,
dH ((x1 , .., xn ); (1, 1, .., 1)) < dH ((x1 , .., xn ); (0, 0, .., 0))+τ (v, ϵ),
(1.96)
y determine la expresión de τ (v, ϵ) ∈ R, función de v y ϵ.
Repita el mismo análisis y determine los conjuntos

fX1 ,..,Xn (x1 , .., xn |θ = 1)
A0 = (x1 , .., xn ) : <v
fX1 ,..,Xn (x1 , .., xn |θ = 0)

fX1 ,..,Xn (x1 , .., xn |θ = 1)
A2 = (x1 , .., xn ) : =v
fX1 ,..,Xn (x1 , .., xn |θ = 0)
como función de la regla de minina distancia sugerida en
Eq.(1.96). Indicación: Utilice lo obtenido en el punto a).
e) Considere n par, v = 1 y P (ρ(w) = 1) = 0,5. Muestre
primero que τ (v = 1, ϵ = 0,5) = 0.
Verifique primero que en el caso n par, A2 ̸= ∅, ca-

racterice el conjunto y determine su cardinalidad.
Encuentre expresiones para el tamaño y el poder del
test.
1.6. Problemas 37
Indicación: Será de gran utilidad obtener las expresiones

obtenidas en Eq.(1.94) y Eq.(1.95). En particular, asocie
los conjuntos A0 , A1 y A2 a los conjuntos B̄k (s1 , .., sn ) y
Āk (s1 , .., sn ) del punto b).
f) (PENDIENTE)13 Consideremos el problema del punto c),
pero en un contexto Bayesiano, done PΘ (Θ = 0) = PΘ (Θ =
1) = 0,5. Determine el test Bayesiano óptimo para la función
de costo 0-1 (es decir L0,0 = L1,1 = 0 y L1,0 = L0,1 = 1)
y verifique formalmente que la solución esta dada por la
siguiente estructura:
π ∗ (x1 , .., xn ) = 0 si:

dH ((x1 , .., xn ); (1, 1, .., 1)) > dH ((x1 , .., xn ); (0, 0, .., 0))
(1.97)
π ∗ (x1 , .., xn ) = 1 si:
dH ((x1 , .., xn ); (1, 1, .., 1)) < dH ((x1 , .., xn ); (0, 0, .., 0))
(1.98)
π ∗ (x1 , .., xn ) = 0 o 1 si:
dH ((x1 , .., xn ); (1, 1, .., 1)) = dH ((x1 , .., xn ); (0, 0, .., 0)).
(1.99)
13 Este problema requiere conocimientos del contexto Bayesiano.

2
Unidad II: Detección Bayesiana
En esta unidad la variable a inferir Θ se modela como una variable

aleatoria en un conjunto finito que depende (estadı́sticamente) de la
observación X, por lo que deja de ser un parámetro a diferencia del
caso paramétrico. Esto entrega una flexibilidad mayor ya que es posible
modelar el problema usando la Teorı́a de Bayes.
2.1. Formalización del Problema de Detección Bayesiano

En el contexto Bayesiano Θ se modela como una variable aleatoria
con distribución PΘ en A = {1, .., k}, k ∈ N, (es decir a valores finitos),
PΘ se le llama distribución a priori. En este contexto tenemos que,
dado Θ = θ0 se tiene una probabilidad condicional de la variable de
observación X que está dada por:
P(X(w) ∈ A|Θ(w) = θ). (2.1)
38
2.1. Formalización del Problema de Detección Bayesiano 39
Alternativamente esta probabilidad se puede caracterizar por la distri-

bución inducida PX|Θ (A|θ) en X. De esta forma tenemos que ∀B ⊆ X:
P(X(w) ∈ B, Θ(w) = θ) = PX,Θ (B, {θ})

= PΘ ({θ}) · PX|Θ (B|{θ}) . (2.2)
| {z }
Regla de Probabilidad Condicional
Tı́picamente X toma valores en X = Rn , n ∈ N y Θ toma valores en

A = {1, ..., k}, por lo tanto, PΘ (Θ = θ) = PΘ ({θ}) denota la función
de probabilidad de masa de Θ. Por otro lado se tiene:
Z
PX|Θ (A|θ) = fX|Θ (x|θ)dx (2.3)
A
donde fX|Θ (x|θ) denota la función de densidad de probabilidad condi-

cional de X dado Θ = θ. Similarmente:
X
PX|Θ (A|θ) = PX|Θ (X = x|Θ = θ), (2.4)
x∈A
donde PX|Θ (X = x|Θ = θ) es la función de masa condicional. Final-

mente la distribución del vector conjunto (X, Θ) queda determinada
por:
P(X(w) ∈ B, Θ(w) = θ) = PX,Θ (B, {θ})

Z
= PΘ ({θ}) · fX|Θ (x|θ)dx, (2.5)
B
o bien si es discreto,
P(X(w) ∈ B, Θ(w) = θ) = PX,Θ (B, {θ})

X
= PΘ ({θ}) · PX|Θ (X = x|Θ = θ), (2.6)
x∈B
para todo B ⊂ X y θ ∈ A.
Con este breve repaso, ahora podemos introducir los elementos

que componen un problema de detección Bayesiano.
Un espacio de observación X y variables aleatorias que to-

man valores en X. X se conoce como observación o dato. X
40 Unidad II: Detección Bayesiana
es un espacio numérico abstracto y también puede ser multi-

dimensional, por ejemplo, X = Rn con n ∈ N en cuyo caso las
observaciones corresponden a un vector aleatorio X1n ∈ X.
Un espacio de decisión A finito o numerable y una variable
aleatoria Θ con valores en A.
Distribuciones de probabilidad condicionales indexadas por
θ ∈ Θ, es decir, PX (·|Θ = θ), θ ∈ A. Además se posee
una distribución de probabibilidad sobre Θ, PΘ (·) la cual se
conocerá como distribución a priori o prior.
Una regla, detector o test π : X 7→ A que será la función que
tomará una decisión en base a algún criterio.
Una función de costo o riesgo L : A × A → R+ que penaliza
la incorrecta decisión.
En adelante hablaremos más en detalle del riesgo ya que es un elemento

nuevo respecto al caso paramétrico.
2.2. Riesgo Promedio

Consideremos una función de riesgo: L : A × A → R+ que penaliza
los errores en la toma de decisión y una regla de decisión: π : X → A.
Dado un θ0 que determina las estadı́sticas de las observaciones X ∼
fX|Θ (·|θ0 ), definimos el riesgo promedio condicionado a θ0 como:
 Z


 L(θ, π(x))fX|Θ (x|θ)dx
|X



 {z }
Caso espacio continuo con f.d.p condicional

R(θ, π) ≜ E(L(θ, π(X))|Θ = θ) = X


 L(θ, π(x))PX|θ (X = x|Θ = θ)



 x∈X
 | {z }
Caso espacio discreto con f.p.m condicional
(2.7)
La expresión anterior está condicionada a una realización de Θ. Por lo
tanto R(Θ, π) es una variable aleatoria (función de Θ y X) y podemos
evaluar la función de costo promedio o Riesgo Bayesiano como el
promedio de R(Θ, π) con respecto a la variable Θ (asumiremos el caso
continuo para X):
r(π) ≜ EΘ (R(Θ, π))

X
= R(θ, π) · PΘ (Θ = θ)
θ∈A
X
= E (L(θ, π(X))|Θ = θ) · PΘ (Θ = θ)
θ∈A
X Z
= PΘ (Θ = θ) · L(θ, π(x))fX|Θ (x|θ)dx
θ∈A X
XZ
= L(θ, π(x)) · PΘ (Θ = θ) · fX|Θ (x|θ)dx
θ∈A X
XZ
= L(θ, π(x)) · fX,Θ (x, θ) dx
θ∈A X
| {z }
densidad conjunta
= EX,Θ {L(Θ, π(X))}. (2.8)
2.3. Decisión Óptima: Distribución a Posteriori

Recapitulando, la regla óptima Bayesiana dependerá de los siguien-
tes elementos previamente introducidos:
i) PΘ distribución a priori.
ii) fX|Θ (·|θ), función de densidad de probabilidad condicional
(o de masa según sea el caso).
iii) L : A × A → R+ , función de costo.
Luego, la solución del problema de detección Bayesiana se plantea co-

mo:
π ∗ = arg mı́n r(π)

π∈F (X,A)
= arg mı́n EX,Θ (L(Θ, π(X))). (2.9)

π∈F (X,A)
Por lo tanto, π ∗ es la regla que minimiza el riesgo Bayesiano. Si anali-

zamos de forma más detallada la función objetivo en (2.9) tenemos lo
siguiente:
XZ
EX,Θ {L(Θ, π(X))} = L(θ, π(x))fX,θ (x, θ)dx
θ∈A X
Z "X #
= L(θ, π(x))PΘ|X (θ|x) fX (x)dx. (2.10)
X θ∈A
P
Se puede notar que el término L(θ, π(x))PΘ|X (θ|x) es función ex-
θ∈A
clusiva de la evaluación de π(·) en el punto x y no de los restantes
valores π(y) que adopta en y ∈ X\{x}. Por lo tanto, minimizar (2.9)
equivale a minimizar el argumento de la función (2.10) punto a punto,
es decir, dada una observación o ∀x ∈ X, π ∗ (x) es solución de:
X
π ∗ (x) = arg mı́n L(θ, y)PΘ|X (Θ = θ|x), ∀x ∈ X. (2.11)
y∈A
θ∈A
Observación: Interpretando la regla óptima Bayesiana en (2.11), dada

una observación x, π(x) es la decisión que minimiza el riesgo promedio,
respecto a la distribución a posteriori de Θ dado el evento X = x.
Por Bayes sabemos que la distribución a posteriori se obtiene

como:
fΘ,X (θ, x) fX|Θ (x|θ)PΘ (Θ = θ)
PΘ|X (Θ = θ|x) = = P (2.12)
fX (x) fX|Θ (x|θ̃)PΘ (Θ = θ̃)
θ̃∈A
donde
X X
fX (x) = fX,Θ (x, θ̃) = fX|Θ (x|θ̃)PΘ (Θ = θ̃). (2.13)
θ̃∈A θ̃∈A
De esta manera la regla de decisión óptima es solución de

X fX|Θ (x|θ)PΘ (Θ = θ)
π ∗ (x) = arg mı́n L(θ, y) P , ∀x ∈ X. (2.14)
y∈A
θ∈A
fX|Θ (x|θ̃)PΘ (Θ = θ̃)
θ̃∈A
La expresión anterior tiene la ventaja de ser general, pero a su vez

dificil de manejar, veremos una función de costo particular que reduce
el problema significativamente.
2.3.1. Función de costo L0,1

Consideraremos el caso especial de la función de costo 0-1 en (2.15).
Ésta juega un rol central en problemas de reconocimiento de patrones
y comunicaciones digitales pues su costo promedio equivale a la proba-
bilidad de error de decisión. La función de costo 0-1 esta dada por:

0 si x = y
L0,1 (x, y) = ∀x, y ∈ A (2.15)
1 si x ̸= y
Notar que el costo es simétrico y penaliza con el mismo valor el evento
de error. Dada una regla π y un valor θ ∈ A tenemos que el riesgo
promedio condicional de la función L0,1 es:
R0,1 (θ, π) = EX (L0,1 (θ, π(X))|Θ = θ) (2.16)
Z
= L0,1 (θ, π(x))fX|Θ (x|θ)dx. (2.17)
X
Como se desarrolló anteriormente en el caso paramétrico, sabemos que
la regla π particiona el espacio de observación. Podemos definir la par-
tición inducida por la regla π como {A1 , ..., Ak } donde tenemos que:
Aθ = π −1 ({θ}) ⊂ X ∀θ ∈ {1, ..., k} = A. (2.18)
Por definición se puede verificar que:
∀x ∈ Aθ L(θ, π(x)) = 0
∀x ̸∈ Aθ L(θ, π(x)) = 1, (2.19)
por lo tanto se puede escribir la función de costo mediante la siguiente
indicatriz:
L(θ, π(x)) = 1Acθ (x). (2.20)
Con esta identidad y gracias a la propiedad de la esperanza, tenemos
que:
Z
R0,1 (θ, π) = 1Acθ (x) · fX|Θ (x|θ)dx
ZX
= fX|Θ (x|θ)dx
Acθ
= PX|Θ (Acθ |Θ = θ) (2.21)

= PX|Θ (X ∈ Acθ |Θ = θ)
= PX|Θ (π(X) ̸= θ|Θ = θ). (2.22)
Observación: De la expresión (2.22) R0,1 (θ, π) representa la probabi-

lidad de error de la regla π bajo la hipótesis Θ = θ.
La función de costo promedio 0-1 de la regla π es: .
r0,1 (π) = EX,Θ {L0,1 (Θ, π(X))}

k
X
= PΘ (Θ = θ) · R0,1 (θ, π)
θ=1
Xk
= PΘ (Θ = θ) · PX|Θ (Acθ |θ) de 2.21 (2.23)
θ=1
!
[
= PX,Θ Acθ × {θ} (2.24)
θ∈A
=
|{z} PX,Θ ({(x, θ) ∈ X × A : π(x) ̸= θ}). (2.25)
definición de π
Alternativamente:
k
X
r0,1 (π) = PΘ (Θ = θ) · PX|Θ (Acθ |θ) (2.26)
θ=1
Xk
= PΘ (Θ = θ) · PX|Θ (π(X) ̸= θ|Θ = θ)
θ=1
k
X
= PX,Θ (π(X) ̸= θ, Θ = θ)
θ=1
= PX,Θ (π(X) ̸= Θ). (2.27)
Observación: La función de costo promedio r0,1 (π) es la probabilidad

de error de π respecto a la distribución conjunta de (X, Θ), ver (2.27).
Por lo tanto r0,1 (π) se entiende como la probabilidad de incorrecta
clasificación. Del punto de vista de cómputo este valor es el promedio
de los valores {R0,1 (θ, π) : θ ∈ A} con respecto a la distribución a priori
de Θ, es decir:
k
X
Perror (π) = r0,1 (π) = PΘ (θ) · R0,1 (θ, π). (2.28)
θ=1
Si consideramos la función de costo L0,1 , entonces (2.11) reduce a:

X
∗
π0,1 (x) = arg mı́n L0,1 (θ, y)PΘ|X (Θ = θ|x)
y∈A
θ∈A
X
= arg mı́n PΘ|X (Θ = θ|x)
y∈A
θ∈A θ̸=y
= arg mı́n PΘ|X (A\{y}|x)

y∈A
= arg mı́n 1 − PΘ|X (Θ = y|x)

y∈A
= arg máx PΘ|X (Θ = y|x), (2.29)

y∈A
es decir, cuando la función de costo es L0,1 la regla Bayesiana ópti-

∗ (x) corresponde al criterio de maximizar la probabilidad
ma π0,1
a posteriori o regla MAP (maximum a posteriori). Es posible seguir
trabajando la exrepsión gracias a la regla de Bayes, con lo quue:
∗
π0,1 (x) = arg máx PΘ|X (Θ = θ|x)
θ∈A
fΘ,X (θ, x)
= arg máx
θ∈A fX (x)
= arg máx fΘ,X (θ, x)
θ∈A
= arg máx fX|Θ (x|θ) · PΘ (Θ = θ). (2.30)
θ∈A
1
Un caso particular a considerar es cuando PΘ (θ) = N (distribución a
priori equiprobable), se tiene que:
∗
π0,1 (x) = arg máx fX|Θ (x|θ) (2.31)
θ∈A
que corresponde al criterio de máxima verosimilitud o ML (maxi-

mum likelihood).
2.4. Caso de Estudio 1: Canal Binario Simétrico

El canal binario simétrico es un ejemplo básico en comunicacio-
nes, la idea es que un bit de información (0 o 1) es transmitido por
un canal hacia un receptor, quien debe decidir si el sı́mbolo recibido
corresponde al transmitido. Consideremos el siguiente canal de trans-
misión, modelado mediante probabilidades condicionales: Se tiene la
Figura 2.1: Canal Binario Simétrico
siguiente relación:

1 − ϵ si x = 0
PX|Θ (X = x|Θ = 0) = (2.32)
ϵ si x = 1

ϵ si x = 0
PX|Θ (X = x|Θ = 1) = (2.33)
1 − ϵ si x = 1
Es decir, la probabilidad de que el sı́mbolo sea intercambiado al pasar
por el canal es ϵ, por otra parte, la probabilidad de que el sı́mbolo
no cambie es 1 − ϵ. Por otro lado, asumiremos que PΘ (Θ = 1) = p
y Pθ (Θ = 0) = 1 − p. En general consideremos una función de costo
L(v1 , v2 ) ∀v1 , v2 ∈ {0, 1}
A
0 1
A
0 l00 = 0 l01 = 5
1 l10 = 7 l11 = 0
Sabemos que la regla óptima dada una observación x ∈ {0, 1} está dada
por (2.11), más precisamente,
X
π ∗ (x) = arg mı́n L(θ, y)PΘ|X (Θ = θ|x), ∀x ∈ X. (2.34)
y∈A
θ∈A
Luego analizaremos la regla óptima según sea la observación recibida.

Supongamos que x = 1, luego la regla óptima es:
π ∗ (1) = arg mı́n L(0, θ)PΘ|X (Θ = 0|X = 1) + L(1, θ)PΘ|X (Θ = 1|X = 1)

θ∈{0,1}


= arg mı́n L(0, 0)PΘ|X (Θ = 0|X = 1) + L(1, 0)PΘ|X (Θ = 1|X = 1), L(0, 1)PΘ|X (Θ = 0|X = 1) + L(1, 1)PΘ|X (Θ = 1
θ | {z } | {z
θ=0 θ=1
 
 
= arg mı́n L(1, 0)PΘ|X (Θ = 1|X = 1), L(0, 1)PΘ|X (Θ = 0|X = 1)
θ | {z } | {z }
θ=0 θ=1
 

 

fX,Θ (1, 1) fX,Θ (1, 0)
 
= arg mı́n l10 , l01
θ  f (1, 0) + fX,Θ (1, 1) fX,Θ (1, 0) + fX,Θ (1, 1) 
| X,Θ
 {z } | {z }

θ=0 θ=1
 

 

 fX|Θ (1|1)PΘ (Θ = 1) fX|Θ (1|0)PΘ (Θ = 0) 
= arg mı́n l10 , l01
θ  f (1|0)PΘ (Θ = 0) + fX|Θ (1|1)PΘ (Θ = 1) fX|Θ (1|0)PΘ (Θ = 0) + fX|Θ (1|1)PΘ (Θ = 1) 
| X|Θ
 {z } | {z }
θ=0 θ=1
 

 

(1 − ϵ)p ϵ(1 − p)
 
= arg mı́n l10 , l01 (2.35)
θ  ϵ(1 − p) + (1 − ϵ)p ϵ(1 − p) + p(1 − ϵ) 
| {z } | {z }
θ=0 θ=1
Particularicemos el análisis cuando PΘ (Θ = 0) = PΘ (Θ = 1) = 1/2 y

ϵ = 1/3. La ecuación (2.35) reduce a:
 
 
14 5
 
π ∗ (1) = arg mı́n ,
θ  3 |{z}
|{z} 3 
θ=0 θ=1
∗ 5 14
π (1) = 1 dado que <
3 3
Análogamente, cuando x = 0, tenemos que:

 

 

pϵ (1 − ϵ)(1 − p)
 
π ∗ (0) = arg mı́n l10 , l01
θ 
 pϵ + (1 − ϵ)(1 − p) (1 − ϵ)(1 − p) + pϵ 
| {z } | {z }
θ=0 θ=1
 
 
7 10
 
= arg mı́n ,
θ  3 |{z}
|{z} 3 

θ=0 θ=1
π ∗ (0) = 0
Por lo tanto la regla óptima en este caso es simplemente la función

identidad. Lo anterior tiene sentido pues el canal no es lo suficiente-
mente corrupto como para pensar que el sı́mbolo recibido es distinto
al que se transmite. Luego la decisión óptima implica creer que el
sı́mbolo que se recibe es el correcto.
Propuesto:
a- Analizar el caso l01 = l10 = 1, l00 = l11 = 0 (Regla MAP)

como función de p ∈ (0, 1)
b- Suponga p = 12 y la función costo L0,1 , determine el régimen
en ϵ donde π ∗ (x) = x y por el contrario donde π ∗ (x) = 1 − x
2.5. Caso de Estudio 2: Modelo Gaussiano

Consideremos m1 ∈ Rn y que Θ toma valores en A = {1, 2} con
probabilidad p1 y p2 . El modelo asume lo siguiente:
X = mΘ + N (2.36)
donde X es un vector de dimensión n y N ∼ N (0, σ 2 In×n )
(donde In×n
es la matriz identidad). Por lo tanto tenemos las siguiente probabilida-
des condicionales :
X|Θ = 1 ∼ N (m1 , σ 2 In×n )
X|Θ = 2 ∼ N (m2 , σ 2 In×n ) (2.37)
El criterio óptimo bajo la regla L0,1 dada una observación x ∈ Rn es
θ̂ = arg máx PΘ|X (θ|x)
θ∈{1,2}
= arg máx fX|Θ (x|θ)PΘ (Θ = θ)

θ∈{1,2}
h i
1 −1 (x−mθ )t I
σ2
(x−mθ )
= arg máx n e 2 pθ (2.38)
θ∈{1,2} (2π) 2 σ 2n
Considermos la siguiente región de decisión, aquella donde se decide

Θ = 1,:
h i h i
n 1 − 12 (x−m1 )t I2 (x−m1 ) 1 − 21 (x−m2 )t I2 (x−m2 )
S1,2 = x ∈ R : n e σ p1 > n e σ p2 ,
(2π) 2 σ 2n (2π) 2 σ 2n
(2.39)
dicho de otra forma, esta zona corresponde a la zona donde PΘ|X (Θ =

1|X = x) es mayor que PΘ|X (Θ = 2|X = x). Analizamos la condición
de pertenencia en S1,2 con más detalle, tomando logaritmo:

1 I 1 I p2
− (x − m1 )t 2 (x − m1 ) + (x − m2 )t 2 (x − m2 ) > log
2 σ 2 σ p1

1 p2
||x − m2 ||2 − ||x − m1 ||2 > log

2σ 2 p1

p2
||x||2 − 2⟨x, m2 ⟩ + ||m2 ||2 − ||x||2 + 2⟨x, m1 ⟩ − ||m1 ||2 > 2σ 2 log
p1
||m2 ||2 − ||m1 ||2

p1
⟨x, (m2 − m1 )⟩ < + σ 2 log
2 p2
(2.40)
Es decir tenemos de (2.40) que:
||m2 ||2 − ||m1 ||2

n 2 p1
S1,2 = x ∈ R : ⟨x, (m2 − m1 )⟩ < + σ log .
2 p2
(2.41)
Si simplificamos al caso ||m1 || = ||m2 || = r y p2 = p1 la regla reduce
a:
S1,2 = {x ∈ Rn : ⟨x, (m2 − m1 )⟩ ≤ 0} . (2.42)
Supongamos ahora que estamos en el escenario equiprobable y además

asumiendo la función de costo L0,1 , luego, p1 = p2 = 12 , vemos que el
criterio de máxima verosimilitud implica la regla de mı́nima distancia:
∗
πM L (x) = arg mı́n ||x − mθ || (2.43)
θ∈{1,2}
donde
S1,2 = {x ∈ Rn : ||x − m1 || < ||x − m2 ||} , (2.44)
∗ (x) = 1 si ||x − m || < ||x − m ||.
por lo tanto, πM L 1 2
Entonces cuando p1 = p2 = 12 el criterio de máxima verosimili-

tud reduce a:

1 si ||x − m1 || < ||x − m2 ||
πM L (x) = (2.45)
2 si ||x − m1 || ≥ ||x − m2 ||
Figura 2.2: Diagrama región S12
Por lo tanto
S12 = π({1})−1 = {x ∈ Rn : πM L (x) = 1}
= {x ∈ Rn : ||x − m1 || < ||x − m2 ||}
||m2 ||2 − ||m1 ||2

n
= x ∈ R : ⟨x, (m2 − m1 )⟩ < .
2
es la regla de mı́nima distancia. Finalmente evaluamos la probabilidad
de error
pe = EX,Θ (L(Θ, π(X)))
X
= PΘ (Θ = θ)PX,Θ (π(X) ̸= θ|Θ = θ)
θ∈{1,2}
1 1
= PX|Θ (π(X) ̸= 1|Θ = 1) + P (π(X) ̸= 2|Θ = 2)
2 2 X|Θ
1 1
= PX|Θ (π(X) = 2|Θ = 1) + P (π(X) = 1|Θ = 2)
2 2 X|Θ
Figura 2.3: Diagrama región de mı́nima distancia cuando n = 2.
Por simetrı́a analizaremos solamente PX|Θ (π(X) = 2|Θ = 1), lo que

nos lleva a:
||m2 ||2 − ||m1 ||2

perror,1 = PX ⟨X, (m2 − m1 )⟩ ≥ X = m1 + N
2
||m2 ||2 − ||m1 ||2

t
= PN N , (m2 − m1 ) + m1 (m2 − m1 ) ≥
2
||m2 ||2 − ||m1 ||2

2
= PN N , (m2 − m1 ) + ⟨m1 , m2 ⟩ − ||m1 || ≥
2
2 2

||m2 || + ||m1 || − 2⟨m1 , m2 ⟩
= PN N , (m2 − m1 ) ≥
2
2

t ||m1 − m2 ||
= PN N (m2 − m1 ) ≥ (2.46)
2
Notar que N es un vector Gaussiano multidimensional, lo que signi-

t
fica que N (m2 − m1 ) es una variable aleatoria Gaussiana de media
t
E(N (m2 − m1 )) = 0 y varianza:
t t t
E((N (m2 − m1 ))2 } = E{(N (m2 − m1 ))(N (m2 − m1 )))
t
= E((m2 − m1 )N N (m2 − m1 ))
t
= (m2 − m1 )E(N N )(m2 − m1 )
= (m2 − m1 )σ 2 I(m2 − m1 )
= σ 2 ||m2 − m1 ||2 (2.47)
t
Luego, definiendo Z = N (m2 − m1 ), tenemos que
||m1 − m2 ||2 ||m1 − m2 ||2

t
PN N (m2 − m1 ) ≥ = PZ Z ≥
2 2
||m1 − m2 ||2

Z
= PZ ≥
σ||m2 − m1 || 2σ||m2 − m1 ||

||m1 − m2 ||
=Q (2.48)
2σ
R∞ 2
con Q(z) = √1 e−y /2 dy. Finalmente,
2π
z

||m1 − m2 ||
perror,1 = Q (2.49)
2σ
La razón SN R = ||m1 −m
σ
2 ||
en (2.49) se conoce como la razón señal a
ruido del problema de detección. Cuando se tiene una variable aleatoria
Z positiva de esperanza finita, es posible utilizar la desigualdad de
Markov.
E(Z)
PZ (Z ≥ z) ≤ . (2.50)
z
con z ∈ R+ . Con esto podemos obtener una cota superior para la
||m1 −m2 ||
función Q 2σ , considerando Z ∼ N (0, 1) y
||m1 − m2 ||2

||m1 − m2 || 2
PZ Z ≥ ≤ PZ Z >
2σ 4σ 2
E(Z 2 )4σ 2
≤
||m1 − m2 ||2
4σ 2
=
||m1 − m2 ||2
4
= (2.51)
SN R2
2.6. Problemas
con detección Bayesiana.
Problema 2.1. (Detección y Criterio de Máxima Verosimilitud)

Considere el problema de diseñar un sistema de detección para un
lector digital (por ejemplo un lector de CD). La idea es decodificar
(detectar) sı́mbolos binarios almacenados, por medio de mediciones
secuenciales con ruido o errores de medición.
Formalmente consideremos Θ(w) es la variable aleatoria en {0, 1}

almacenada, y medimos una versión ruidosa de ella X(w) ∈ {0, 1} (la
variable de observación) donde se tiene que:
PX|Θ (X = 0|Θ = 1) = PX|Θ (X = 1|Θ = 0) = ϵ (2.52)
PX|Θ (X = 0|Θ = 0) = PX|Θ (X = 1|Θ = 1) = 1 − ϵ (2.53)

con 0 < ϵ < 12 .
a) Para el problema de detectar Θ como función de X, deter-

mine la regla óptima de decisión π ∗ : {0, 1} → {0, 1}, para
la función de costo L0,1 es decir:
π ∗ = arg mı́n EX,Θ (L0,1 (Θ, π(X))) (2.54)

π:{0,1}→{0,1}
cuando P (Θ = 1) = P (Θ = 0) = 12 . Finalmente obtenga una

expresión para la probabilidad de error de la regla óptima,
es decir, determine
pϵ = EX,Θ (L0,1 (Θ, π ∗ (X))). (2.55)
b) La idea de esta parte es evaluar un esquema de codificación

para mejorar el desempeño del detector de la parte a).
Para ellos consideremos un código C : {0, 1} → {0, 1}3 ,
donde las palabras binarias asociadas a los sı́mbolos cero
y uno las llamamos C(0) = (b1 , b2 , b3 ) y C(1) = (c1 , c2 , c3 ),
respectivamente (luego bi , ci ∈ {0, 1}, i ∈ {1, 2, 3}).
2.6. Problemas 55
Consideremos Z denota la nueva decisión y Θ la señal

codificada, Θ queda dada por la siguiente regla o proceso
de codificación:
Θ = (Θ1 , Θ2 , Θ3 ) = (b1 , b2 , b3 ) si Z = 0
Θ = (Θ1 , Θ2 , Θ3 ) = (c1 , c2 , c3 ) si Z = 1
Finalmente, lo que observamos es un vector aleatorio X =

(X1 , X2 , X3 ) (versión ruidosa de Θ), donde tenemos que, por
independencia, lo siguiente:
PX|Θ ((X1 , X2 , X3 ) = (x1 , x2 , x3 )|(Θ1 , Θ2 , Θ3 ) = (θ1 , θ2 , θ3 ))

(2.56)
= PX|Θ (X1 = x1 |Θ1 = θ1 )PX|Θ (X2 = x2 |Θ2 = θ2 )PX|Θ (X3 = x3 |Θ3 = θ3 )
(2.57)
y con la misma probabilidad de error
(∀i ∈ {1, 2, 3}) PXi |Θi (Xi ̸= b|Θi = b) = ϵ. (2.58)
b.1) Determine las distribuciones condicionales, es decir,

determine:
f0 (x1 , x2 , x3 ) = PX|Z (X = (x1 , x2 , x3 )|Z = 0)

(2.59)
f1 (x1 , x2 , x3 ) = PX|Z (X = (x1 , x2 , x3 )|Z = 1)
(2.60)
como función de (b1 , b2 , b3 ), (c1 , c2 , c3 ) y ϵ. Indica-

ción: Puede serle útil la función indicatriz 1xi ̸=bi y
1xi ̸=ci .
1
b.2) Si PZ (Z = 1) = PZ (Z = 0) = 2 determine la regla
óptima
π ∗ : {0, 1}3 → {0, 1} (2.61)
de detección de Z como función de X para la función
costo L0,1 y verifique que:

I0 = {(x1 , x2 , x3 ) : π ∗ (x1 , x2 , x3 ) = 0} (2.62)
= {(x1 , x2 , x3 ) : dH (x1 , x2 , x3 ; b1 , b2 , b3 ) < dH (x1 , x2 , x3 ; c1 , c2 , c3 )}
(2.63)
donde dH (x1 , x2 , x3 ; y1 , y2 , y3 ) = 1x1 ̸=y1 + 1x2 ̸=y2 +
1x3 ̸=y3 .
b.3) Determine una expresión para la nueva probabilidad
de error
pϵ = EX,Z (L0,1 (Z, π ∗ (X))) (2.64)
y demuestre que disminuye a medida que
dH (b1 , b2 , b3 ; c1 , c2 , c3 ) aumenta. Con ellos de-
termine una condición sobre (b1 , b2 , b3 ) y (c1 , c2 , c3 )
(es decir sobre el código C) para minimizar (2.64).
Problema 2.2. Considere un problema de detección binario Θ =

{0, 1} en un contexto Bayesiano, donde p = PΘ (Θ = 1) y 1 − p =
PΘ (Θ = 0) y donde la probabilidad condicional de X dado Θ = θ esta
dada por la distribución PX|Θ (·|θ) con densidad fX|Θ (x|θ). Considere
una función de costo arbitraria con los siguientes valores: L0,0 , L1,0 ,
L0,1 y L1,1 . Estos elementos definen la función de costo1 .
a) Dado A ⊂ X arbitrario, considere un test de la forma:

πA (x) = 1A (x), donde 1A (x) es la función indicatriz de A.
Determine expresiones para Pj,i = PX|Θ (πA (X) = i|Θ = j)
y con ello el riesgo del test dado por
r(πA ) = EX,Θ (L(Θ, πA (X))).
b) Considere L0,0 = L1,1 = 0. Determine el test Bayesiano
óptimo πM AP (x) y verifique que πM AP (x) = πA (x) para un
A ⊂ X. Determine la forma del conjunto óptimo A, como
función de L0,1 , L1,0 , p, fX|Θ (x|0) y fX|Θ (x|1).
1L es el costo de decidir j cuando el valor verdadero es que toma Θ es i.

i,j
2.6. Problemas 57
c) Verifique que la solución Bayesiano óptima del punto ante-

rior, es también óptima en el sentido de Neyman-Pearson, es
decir en el sentido que ofrece un compromiso optimo entre
poder y tamaño.
Para ello determine απM AP y demuestre que no existe un
test binario de tamaño menor que απM AP tal que su poder
sea mayor que βπM AP . Indicación: Encuentre una expresión
para relacionar r(πM AP ) con απM AP y βπM AP .
Problema 2.3. Se pide que implemente un sistema de decisión que

detecte la presencia de una señal s(t). Para eso suponga que se tie-
ne un sistema que observa n muestras ruidosas de la señal (s(k))k=1,..,n .
En concreto se distinguen dos escenarios posibles de observación.

Presencia de señal Θ = 1:
     
X1 s1 N1
 X2   s2   N2 
     
= + (2.65)
 , ..,   , ..,   , .., 
 
Xn sn Nn
Ausencia de señal Θ = 0:
   
X1 N1
 X2 )   N2
   
= (2.66)

 , ..,   , ..,
 

Xn Nn
donde N1 , ..,Nn son variables aleatorias independientes que distribuyen

N (0, σ 2 ).
a) Notar que dado el valor de Θ, X1 , .., Xn es un vector Gaus-

siano. Determine su vector de media y matriz de covarianza
en ambos escenarios (presencia y ausencia de señal). Indica-
ción: Notar que X1 , .., Xn son variables aleatorias indepen-
dientes.
b) Del punto anterior determine la función de verosimilitud
L(x1 , .., xn |θ) = ln fX1 ,..,Xn |Θ (x1 , .., xn |θ)
y la solución del problema:
θ̂M L (x1 , .., xn ) = arg máx L(x1 , .., xn |θ). (2.67)

θ∈{0,1}
Indicación: Se debe llegar a una expresión cerrada para

θ̂M L (x1 , .., xn ), función de x1 , .., xn y los parámetros conoci-
dos del problema.
c) Determine la probabilidad de error del test del punto ante-
rior cuando PΘ (Θ = 1) = PΘ (Θ = 0) = 12 .
d) Determine que pasa con la probabilidad de error del test
óptimo en (2.67), si la potencia de la señal dada por ||s||2 =
Pn 2 2
i=1 s(i) tiende a infinito, es decir, lı́m ||s|| = ∞
n→∞
3
Unidad III: Estimación Paramétrica
El problema de estimación se entiende como el problema de inferir

una variable θ continua (que toma una cantidad no numerable de
posibles valores) a partir de una variable aleatoria (o vector aleatorio)
de observación X.
En muchos ámbitos teóricos y prácticos, nos vemos enfrentados

al problema de estimar un parámetro (o parámetros) de una distri-
bución indexada por θ por medio de observaciones independientes
e idénticamente distribuidas (i.i.d.). El siguiente ejemplo ilustra la
familia de distribuciones Bernoulli indexadas por θ ∈ [0, 1].
Ejemplo 3.1. Sea X = {0, 1}, {PX (·|θ) : θ ∈ [0, 1]}, la familia de
distribuciones asociadas a X donde
PX (X = 0|θ) = θ (3.1)
PX (X = 1|θ) = 1 − θ (3.2)
Supongamos que poseemos un vector aleatorio X1n ∼ PX (·|θ), la pre-
gunta es estimar θ a partir de este vector de observaciones. Un estima-
59
60 Unidad III: Estimación Paramétrica
dor natural para este caso serı́a el siguiente:

n
1X
θ̂(X1 , ..., Xn ) = 1{0} (Xi ), (3.3)
n
i=1
donde (X1 , ..., Xn ) ∈ {0, 1}n y

1, x ∈ A
1A (x) = (3.4)
0, x ∈
̸ A
es la función indicatriz.
El estimador anterior corresponde al promedio empı́rico. En lo que

sigue formalizaremos el problema de estimación paramétrica y también
encontraremos criterios para diseñar un estimador en algún sentido de
optimalidad.
3.1. Formalización del Problema de Estimación Paramétrica

Un problema de estimación paramétrica se compone de 4 elementos
centrales:
Un espacio de observación X (tı́picamente X = R) y varia-

bles aleatorias que toman valores en X. X se conoce como
observación o dato. Si se tienen n ∈ N observaciones o datos
entonces X1n ∈ Xn .
Un espacio de parámetros Θ infinito no numerable. Es tam-
bién el espacio de llegada o el espacio donde nos interesa
inferir el parámetro.
Una familia de distribuciones de probabilidad indexadas por
θ ∈ Θ, es decir, considerando el vector aleatorio X1n , tenemos
lo siguiente:
FΘ = {PX (·|θ) : θ ∈ Θ}.
FΘ se conoce como una familia de distribuciones de proba-
bilidad parametrizadas mediante θ, es decir, por cada valor
de θ se obtiene una distribución distinta (θ es el parámetro
que indexa la familia) y Θ el universo de posibles parámetros
factibles (por ejemplo θ ∈ Rq con q ∈ N). En este apunte nos
3.1. Formalización del Problema de Estimación Paramétrica 61
concentraremos en la estimación de un sólo parámetro, luego

q = 1.
Una función τn : Xn → Θ donde τn (X1n ) = τn (X1 , ..., Xn )
llamado estimador.
Ejemplo 3.2. Consideremos la variable aleatoria X y una familia de

distribuciones normales de media θ ∈ R y varianza σ 2 ∈ R+ , luego,
FΘ = {PX (·|θ) : θ ∈ Θ} ,
donde PX (x|θ) es una distribución que se caracteriza por su densidad

de probabilidad dada por:
1 −(x−θ)2
fX (x|θ) = √ e 2σ2 .
2πσ
Observación: Las distribuciones pueden ser discretas o continuas, pero

el parámetro θ debe estar en un conjunto no numerable para ser
considerado un problema de estimación.
Consideremos un vector aleatorio, en adelante lo llamaremos

vector de observaciones X1n = (X1 , ..., Xn ) con distribución conjunta
PX1n (·|θ) ∈ FΘ . El problema de estimación paramétrica consiste en
encontrar un estimador τn : Xn → Θ donde τn (X1n ) = τn (X1 , ..., Xn )1
es el valor estimado.
En adelante vamos a considerar el problema más rico de muchas

observaciones independientes e idénticamente distribuidas, es decir,
tenemos:
θ ∈ Θ → (X1 , ..., Xn ) ∼ PX (·|θ)n
lo que lleva a:
PX1n (X1 ∈ A1 , ..., Xn ∈ An |θ) = PX (A1 |θ) · PX (A2 |θ) · ... · PX (An |θ), ∀A1 , ..., An ⊆ X,
(3.5)
1 También se suele escribir como θ̂n (X1n ).

en otras palabras X1n = (X1 , ..., Xn ) son muestras i.i.d. con marginal
PX (·|θ) ∈ FΘ .
Observaciones:
1- Un estimador τn (X1n ) = τn (X1 , ..., Xn ) no es más que una

función que va desde el espacio de observaciones a una deci-
sión en el espacio de parámetros.
2- τn (X1n ) es una variable aleatoria en Θ, dado que X1n es un
vector aleatorio en Xn .
3- τn (X1n ) es también llamado un estadı́stico.
4- Si X1n ∼ PX1n (·|θ) ⇒ τn (X1n ) ∼ ρθ en Θ. En otras palabras al
fijar θ la PX n (·|θ) induce una distribución ρθ en θ por medio
de τn .
El problema de estimación paramétrica es encontrar el estimador

τn : Xn → Θ donde τn (X1n ) = τn (X1 , ..., Xn )2 es el valor estimado.
En resumen, cualquier función de Xn → Θ induce un estimador,

estos estimadores pueden acercarse al valor real como no. Para saber
si un estimador es una buena elección necesitamos proponer criterios
para seleccionar uno, con alguna noción de optimalidad.
3.2. Nociones de Optimalidad

Un principio básico que debe satisfacer la familia es la noción de
identificabilidad o discriminabilidad.
Definición 3.1. (Familias distinguibles) Decimos que la familia pa-

ramétrica
FΘ = {PX (·|θ) : θ ∈ Θ} ,
es identificable o discriminable si ∀θ, θ′ ∈ Θ tal que θ ̸= θ′ entonces
PX (·|θ) ̸= PX (·|θ′ ). Matemáticamente PX (·|θ) ̸= PX (·|θ′ ) es equivalen-
te a pedir que
V (PX (·|θ), PX (·|θ′ )) = sup |PX (A|θ) − PX (A|θ′ )| > 0,
A⊆X
2 También se suele escribir como θ̂n (X1n ).

donde V : F × F 7→ R+ se llama distancia en variaciones totales.
Lo que se pide es que exista al menos un evento donde las me-

didas de probabilidad difieran, de esta manera son distinguibles y por
lo tanto sea posible plantear un problema de estimación. En adelante
asumiremos que la familia paramétrica es distinguible.
Definición 3.2. (Consistencia) Una secuencia de estimadores (τn )n∈N

se dice consistente, si ∀ϵ > 0, ∀θ ∈ Θ y (X1 , ..., Xn ) ∼ PX1n (·|θ) se
cumple que:
lı́m PX1n (|τn (X1n ) − θ| > ϵ) = 0.
n→∞
o, alternativamente, ∀θ ∈ Θ
P
τn (X1n ) −
→ θ. (3.6)
Notar que Eq. (3.6) es equivalente a decir que ∀ϵ > 0, ∀ν > 0, ∃n0 ∈ N
∀n ≥ n0
PX1n ((x1 , ..., xn ) ∈ Xn : |τn (x1 , ..., xn ) − θ| > ϵ) < ν. (3.7)
En lenguaje de convergencia de variables aleatorias Eq. (3.6) y Eq. (3.7)
equivale a decir que la secuencia τ1 (X1 ), τ2 (X12 ), τ3 (X13 ), ..., τn (X1n ) → θ
en probabilidad.
La definición de consistencia es una propiedad asintótica, es de-

cir cuando n → ∞ se cumple lo pedido. También es importante tener
condiciones deseables en el régimen de muestras finitas.
Definición 3.3. (Estimador Insesgado) Un estimador τn : Xn → Θ se

dice insesgado si
∀θ ∈ Θ EX1 ,...,Xn (τn (X1n )) = θ. (3.8)
Es decir que en promedio el estimador se acerca al parámetro descono-
cido.
Una propiedad más débil sobre una familia de estimadores (τn )n∈N es
el concepto de asintóticamente insesgado:
Definición 3.4. (Estimador Asintótocamente Insesgado) (τn )n∈N se

dice asintóticamente insesgado si:
∀θ ∈ Θ lı́m EX1 ,...,Xn (τn (X1 , ..., Xn )) = θ, (3.9)

n→∞
Ejemplo 3.3. Consideremos el caso de una distribución normal donde

se poseen n observaciones independientes e idénticamente distribuidas
Xi ∼ N (µ, σ 2 ) ∀i ∈ {1, ..., n}. Consideremos el estimador media empı́ri-
ca:
n
1X
τn (X1 , ..., Xn ) = Xi .
n
i=1
Podemos ver que este estimador es insesgado, ya que:
n
!
1X
EX1 ,...,Xn (τn (X1 , ..., Xn )) = EX1 ,...,Xn Xi
n
i=1
n
1X
= EX1 ,...,Xn (Xi )
n (3.10)
i=1
n
1 X
= µ
n
i=1
=µ
Ahora veremos que el estimador es consistente, para esto, recordemos

las desigualdades de Markov y Chebyshev.
Teorema 3.1. (Desigualdad de Markov) Sea una variable aleatoria X

a valores en R+ o 0 con esperanza finita E(X), tenemos la siguiente
desigualdad conocida como desigualdad de Markov:
E(X)
(∀ϵ > 0) PX (X > ϵ) ≤ .
ϵ
Teorema 3.2. (Desigualdad de Chebyshev) Sea una variable aleatoria

X con esperanza finita E(X) y E(X 2 ) finito, tenemos que:
V ar(X)
(∀ϵ > 0) PX (|X − E(X)| > ϵ) ≤ . (3.11)
ϵ2
n
1 P
Ahora consideramos Yn = n Xi , entonces E(Yn ) = µ. Adicionalmen-
i=1
te:
n
!
1X
V ar(Yn ) = V ar Xi
n
i=1
n
1 X
= 2 V ar (Xi )
n
i=1
n
1 X 2
= 2 σ
n
i=1
σ2
= . (3.12)
n
Por lo tanto,
V ar(Yn ) σ 2 n→∞
PYn (|Yn − µ| > ϵ) ≤ = −−−→ 0. (3.13)
ϵ2 nϵ2
Finalmente Yn = τn (X1 , ..., Xn ) es un estimador consistente de µ.
Observación: De este ejemplo se puede demostrar un resultado que dice

que si (τn )n∈N es insesgado y su varianza converge a cero cuando n →
∞, entonces (τn )n∈N es consistente. A continuación vamos a demostrar
una variante más general:
Teorema 3.3. Sea (τn )n∈N asintóticamente insesgado que sigue la si-
guiente estructura, es decir,
n→∞
EX1 ,...,Xn (τn (X1 , ..., Xn )) = θ + kn donde kn −−−→ 0.
Si adicionalmente se tiene que:
lı́m V ar(τn (X1 , ..., Xn )) = 0,
n→∞
entonces (τn )n∈N es consistente.
Demostración: Sea ϵ > 0, por la desigualdad de Markov tenemos que
E{|τn (X1 , ..., Xn ) − θ|2 }

PX1n (|τn (X1 , ..., Xn ) − θ| > ϵ) ≤ . (3.14)
ϵ2
Analicemos más en detalle la siguiente expresión:
(τn (X1 , ..., Xn ) − θ)2 = (τn (X1 , ..., Xn ) − E(τn (X1 , ..., Xn )) + kn )2
= kn2 − 2kn (τn (X1 , ..., Xn ) − E(τn (X1 , ..., Xn )))
+ (τn (X1 , ..., Xn ) − E(τn (X1 , ..., Xn )))2
(3.15)
Tomando esperanza en (3.15) y aplicando esto en (3.14)
E{|τn (X1 , ..., Xn ) − θ|2 }

≤ kn2 + 2kn EX1 ,...,Xn (τn (X1 , ..., Xn ) − E(τn (X1 , ..., Xn )))
ϵ2
+ V ar(τn (X1 , ..., Xn ))
n→∞
= kn2 + V ar(τn (X1 , ..., Xn )) −−−→ 0
(3.16)
Ejemplo 3.4. Nuevamente consideremos el caso de una distribución

normal donde se poseen n observaciones independientes e idénticamente
distribuidas Xi ∼ N (µ, σ 2 ) ∀i ∈ {1, ..., n}. Propondremos un estimador
de la varianza conocido como la varianza empı́rica:
n
2 1X
τnσ (X1 , ..., Xn ) = (Xi − X̂n )2 .
n
i=1
1 Pn
donde X̂n = n i=1 Xi es la media empı́rica.
σ es sesgado pero que (τ )

Mostraremos que τN n n∈N es asintotica-
mente insesgado.
n
!
2
1X
E τnσ (X1 , ..., Xn ) =E (Xi − X̂n )2
n
i=1
n
!
1 X
= E (Xi2 − 2Xi X̂n + X̂n2 )
n
i=1
 
n n n n n
1 X 2 2 X X 1 XX
= E Xi − Xi Xj + Xi Xj 
n n n
i=1 i=1 j=1 i=1 j=1
 
n n Xn n X n
1 X 2 X 1 X
= E Xi2 − Xi Xj + Xi Xj 
n n n
i=1 i=1 j=1 i=1 j=1
    
n n X n n X n
1 X 2 X 1 X
=  E(Xi2 ) − E  Xi Xj  + E  Xi Xj 
n n n
i=1 i=1 j=1 i=1 j=1
1
n(σ 2 + µ2 ) − 2 (σ 2 + µ2 ) + (n − 1)µ + (σ 2 + µ2 ) + (n − 1)µ2
2

=
n
1
n(σ 2 + µ2 ) − 2 σ 2 + nµ2 + σ 2 + nµ2

=
n
1
nσ 2 − 2σ 2 + σ 2

=
n
n−1 2
= σ = (1 − 1/n)σ 2
n
(3.17)
Por lo tanto si proponemos el siguiente estimador
n
1 X
τnI (X1 , ..., Xn ) = (Xi − X̂n )2 ,
n−1
i=1
esta función corresponde a un estimador de σ 2 insesgado.
2
Propuesto 3.1. Verifique que τnσ (X1 , ..., Xn ) y τnI (X1 , ..., Xn ) son es-
timadores consistentes de σ 2 .
Los ejemplos anteriores nos muestran distintos estimadores en casos

bien particulares de distribuciones. En la sección siguiente queremos
establecer un criterio para seleccionar un estimador en el sentido de

mı́nima varianza.
Veremos que existe un lı́mite fundamental (una cota) para la

varianza de la familia de estimadores insesgados.
3.3. El Criterio de Mı́nima Varianza

En este punto introduciremos la varianza del estimador como
criterio de decisión. En particular, si nos concentramos en la familia
de estimadores insesgados, una pregunta fundamental es caracterizar
el estimador de minima varianza. En esta linea uno de los resultados
centrales de la teorı́a de estimación es la celebrada cota de Cramer-Rao
que ofrece una expresión analı́tica para acotar la mı́nima varianza en
un contexto de estimación paramétrica.
De forma más especifica consideremos nuestro escenario paramétrico

dado por la familia de distribuciones:
FΘ = {PX (·|θ) : θ ∈ Θ}.
Consideremos la función de verosimilitud que, dependiendo de si la

distribución es discreta o continua, tendremos dos casos:
Si X1n siguen una distribución discreta la verosimilitud se

define como:
L(X1 = x1 , X2 = x2 , ..., Xn = xn |θ) =

PX1n (X1 = x1 , X2 = x2 , ..., Xn = xn |θ).
Si X1n siguen una distribución continua la verosimilitud se

define como:
L(X1 = x1 , X2 = x2 , ..., Xn = xn |θ) =

fX1n (x1 , x2 , ..., xn |θ).
En adelante asumiremos que tenemos una familia de distribuciones

continuas en FΘ (el resultado es análogo para el caso discreto), luego
tenemos que:
Z ∞ Z ∞
··· fX1n (x1 , x2 , ..., xn |θ) dx1 ...dxn = 1. (3.18)
−∞ −∞ | {z }
f.d.p conjunta de X1 ,...,Xn
Asumiendo que L(x1 , x2 , ..., xn |θ) es diferenciable respecto a θ y que

además podemos intercambiar lı́mites en (3.18), se tiene la siguiente
identidad:
Z ∞ Z ∞
∂fX1n (x1 , x2 , ..., xn |θ)
··· dx1 ...dxn = 0
−∞ −∞ ∂θ
Z ∞ Z ∞
∂fX1n (x1 , .., xn |θ)

1
··· fX1n (x1 ..., xn |θ)dx1 ...dxn = 0
−∞ −∞ fX1n (x1 , ., xn |θ) ∂θ
| {z }
∂

ln f X n (x1 , , ..., xn |θ)
∂θ 1
(3.19)
Notar que la expresión en Eq.(3.19) es equivalente a:
∂ ln fX1n (X1 , X2 , ..., Xn |θ)

EX1 ,...,Xn = 0. (3.20)
∂θ
Por otro lado, consideremos un estimador del parámetro θ arbitrario,
dado por τn (·) : Xn → Θ y, sin perdida de generalidad, que:
EX1 ,...,Xn (τn (X1 , ..., Xn )) = f (θ) ∀θ ∈ Θ. (3.21)
Es decir, que el sesgo es una función de θ. Asumiendo que f (θ) es
diferenciable, y derivando (3.21), tenemos que:
Z ∞ Z ∞ ∂ ln fX1n (x1 , x2 , ..., xn |θ)
··· τn (x1 , ..., xn ) ·fX1n (x1 , x2 , ..., xn |θ)dx1 ...dxn = f ′ (θ)
−∞ −∞ ∂θ
(3.22)
∀θ ∈ Θ. Por otro lado, de (3.20), tenemos que:
Z ∞ Z ∞ ∂fX1n (x1 , x2 , ..., xn |θ)
f (θ) · ··· dx1 ...dxn = 0
−∞ −∞ ∂θ
Z ∞ Z ∞ ∂ ln fX1n (x1 , x2 , ..., xn |θ)
⇔ ··· f (θ) fX1n (x1 , x2 , ..., xn |θ)dx1 ...dxn = 0.
−∞ −∞ ∂θ
(3.23)
Combinando (3.22) y (3.23) se tiene que:

Z ∞ Z ∞ ∂ ln fX1n (x1 , ..., xn |θ)
··· (τn (x1 , ., xn ) − f (θ)) fX1n (x1 , ..., xn |θ)dx1 ...dxn = f ′ (θ),
−∞ −∞ ∂θ
(3.24)
En este contexto podremos hacer uso de la desigualdad de Cauchy-

Schwarz que dice que para dos variables aleatorias X e Y :
|E(XY )|2 ≤ E(X 2 )E(Y 2 ). (3.25)
Por lo tanto aplicando (3.25) en (3.24)

2
∂ ln fX1n (x1 , x2 , ..., xn |θ)

′ 2
(f (θ)) = EX1 ,..,Xn (τn (X1 , ..., Xn ) − f (θ)) ·
∂θ
!
∂ ln fX1n (X1 , .., Xn |θ) 2

2

≤ EX1 ,..,Xn (τn (X1 , ., Xn ) − f (θ)) ·EX1 ,..,Xn ,
| {z } ∂θ
Varianza de τn (X1 ,...,Xn )
(3.26)
que equivalente a decir que
f ′ (θ)2
V ar(τn (X1 , ..., Xn )) ≥ 2 . (3.27)
∂ ln L(X1 ,X2 ,...,Xn |θ)
EX1 ,..,Xn ∂θ
La expresión en (3.27) corresponde a una cota inferior para la varianza

de la familia de estimadores dada la familia de distribuciones FΘ . En
la sección que viene aplicaremos este resultado sobre los estimadores
insesgados, lo que nos dará una cota fundamental ampliamente usada
en estadı́stica.
3.3.1. La Información de Fisher y La Cota de Cramér-Rao

Nos detendremos a analizar la desigualdad en (3.27).
Definición 3.5. El término del denominador del lado derecho de

Eq.(3.27) depende exclusivamente de la familia FΘ y de el número de
observaciones. Se define la Información de Fisher de FΘ asociada a
n observaciones como:
!
∂ ln L(X1 , X2 , ..., Xn |θ) 2

In (θ) ≡ EX1 ,..,Xn (3.28)
∂θ
Observaciones:
In (θ) es independiente del estimador τn

La desigualdad en (3.27) ofrece una cota inferior para la va-
rianza del estimador τn (·) sujeto a la condición en (3.21).
Gracias a la propiedad de la derivada del logarit-
2
∂ ln L(X1 ,X2 ,...,Xn |θ)
mo, tenemos que: EX1 ,..,Xn ∂θ =
2
,X2 ,...,Xn |θ)
−EX1 ,..,Xn ∂ ln L(X1∂θ 2 .
Si en particular restringimos el análisis a la familia de estimadores

insesgados, es decir, se tiene la siguiente familia:
Tn ≜ {τn : Xn → Θ : EX1 ,...,Xn (τn (X1 , ..., Xn )) = θ, ∀θ ∈ Θ} (3.29)
entonces, observando que f (θ) = θ ⇒ f ′ (θ) = 1, tenemos que ∀τn ∈ Tn :

1
V ar(τn (X1 , ..., Xn )) ≥ . (3.30)
In (θ)
Dado que la cota es independiente de τn , entonces en particular se
cumple para:
1
mı́n V ar(τn (X1 , ..., Xn )) ≥ 2 , (3.31)
τn ∈Tn ∂ ln L(X1 ,X2 ,...,Xn |θ)
EX1 ,..,Xn ∼µnθ ∂θ
∀θ ∈ Θ. Este resultado es conocido como la desigualdad de Cramér-

Rao (Rao 1345, Cramér 1946).
Teorema 3.4. (Desigualdad de Crámer-Rao) Sea Tn la familia de es-

timadores insesgados de n observaciones, entonces ∀θ ∈ Θ
1
mı́n EX1 ,...,Xn {(τn (X1 , ..., Xn ) − θ)2 } ≥ (3.32)
τn ∈Tn In (θ)
donde In (θ) esta dada por:
( 2 )
∂ ln L(X1 , X2 , ..., Xn |θ)
In (θ) = EX1 ,..,Xn (3.33)
∂θ
Observaciones:
La información de Fisher se interpreta como la canti-

dad de información promedio que ofrecen las observaciones
(X1 , ..., Xn ) para estimar el parámetro θ en un sentido de
varianza.
La desigualdad de Cramér-Rao ofrece una cota inferior para
la mı́nima varianza de estimadores insesgados.
Alternativamente es una cota para el error cuadrático medio
mı́nimo de estimadores insesgados.
In (θ) es función en general de θ y el número de observaciones.
Si existe familia de estimadores insesgados consistentes por
medio de la siguiente condición:
lı́m V ar(τn (X1 , ..., Xn )) = 0, (3.34)

n→∞
entonces se tiene de (3.32) que necesariamente
lı́m In (θ) = ∞, ∀θ ∈ Θ. (3.35)

n→∞
En general (In (θ))−1 es una cota inferior que no se alcanza,

por lo tanto puede ocurrir que3 ∄τn∗ (·) ∈ Tn donde:
V ar(τn∗ (X1 , ..., Xn )) = In (θ)−1 (3.36)
3.3.2. Condiciones de Alcanzabilidad de la Cota Cramér-Rao

Este resultado da condiciones necesarias y suficientes para poder
alcanzar la cota de Cramér-Rao. Se tiene el siguiente resultado:
Teorema 3.5. La cota de Cramér-Rao es alcanzable por un estimador

insesgado, si y solo si, existe una función f (X1 , .., Xn ) (exclusiva de las
observaciones y que no dependa del parámetro) tal que para todo θ ∈ Θ:
∂ ln L(X1 , X2 , ..., Xn |θ)
= In (θ) · (f (X1 , ..., Xn ) − θ). (3.37)
∂θ
En este caso el estimador de minima varianza es f (X1 , .., Xn ) y la
minima varianza V ar(f (X1 , .., Xn )) es In1(θ) .
3 Veremos que hay muchos problemas donde la cota de Cramér-Rao no es alcanzable.

Demostración: Del uso de la desigualdad de Cauchy-Schwarz una con-

dición necesaria y suficiente para alcanzar la igualdad en (3.27), y
en consecuencia la existencia de un estimador que alcance la cota de
2 ,...,Xn |θ)
Cramér-Rao, es que ∂ ln L(X1 ,X
∂θ sea colineal a (τn (X1 , ..., Xn )−θ)
en el sentido que ∃A(θ) ∈ R, donde
∂ ln L(X1 , X2 , ..., Xn |θ)
= A(θ) · (τn (X1 , ..., Xn ) − θ), (3.38)
∂θ
donde A(θ) es una constante que puede depender puntualmente de θ.
Reemplazando esta condición de co-linealidad en (3.24) se obtiene que
1
V ar(τn (X1 , ..., Xn )) = , (3.39)
A(θ)
Además, de la igualdad en
2
EX1 ,..,Xn ((τn (X1 , ..., Xn ) − f (θ)) · A(θ) · (τn (X1 , ..., Xn ) − θ))
2
= A(θ)2 · EX1 ,..,Xn (τn (X1 , ., Xn ) − f (θ))2
2 !
2
∂ ln L(X1 , .., Xn |θ)
= EX1 ,..,Xn (τn (X1 , ., Xn ) − f (θ)) · EX1 ,..,Xn ,
∂θ
(3.40)
por lo tanto, tenemos que:
2 !
2 ∂ ln L(X1 , .., Xn |θ)
A(θ) · V ar(τn (X1 , ..., Xn )) = EX1 ,..,Xn ,
∂θ
(3.41)
y reemplazando lo obtenido en (3.39) concluimos que:
A(θ) = In (θ). (3.42)
Observaciones:
En general la familia de funciones que ofrecen la descompo-

sición en (3.37) son de tipo exponenciales.
Si se tiene que ∂ ln∂θ L(·|θ)

ofrece la descomposición en (3.37),
la función τn (X1 , ..., Xn ) es el estimador de mı́nima varianza
1
y su varianza esta dada por A(θ) .
A continuación veremos dos ejemplos que nos ayudarán a ilustrar y

demostrar la alcanzabilidad de la cota de Cramér-Rao en estos escena-
rios.
Ejemplo 3.5. Consideremos el caso de distribución normal, por lo que

su densidad marginal está dada por:
1 −(x−θ)2
PX (·|θ) 7→ fX (x|θ) = √ e 2σ2 ∀x ∈ R. (3.43)
2πσ
donde σ es conocido y queremos estimar θ a partir de n observaciones
i.i.d. (X1 , ..., Xn ) ∼ PX (·|θ)n . Vemos que el logaritmo de la verosimili-
tud está dado por:
n
!
1 (Xi −θ)2
e− 2σ2
Y
ln L(X1 , ..., Xn |θ) = ln √
i=1
2πσ
n
(3.44)
(Xi − θ)2
X
1
= n ln √ − .
2πσ 2σ 2
i=1
y vemos que:
n
!
∂ ln L(X1 , ..., Xn |θ) n 1X
= 2
Xi − θ (3.45)
∂θ |σ n
{z } i=1
A(θ) | {z }
(τn∗ (X1 ,...,Xn )−f (θ))
y dado que E(τn∗ (X1 , ..., Xn )) = θ, entonces se cumple la descom-

posición de (3.37). Por lo que el estimador de mı́nima varianza es
τn∗ (X1 , ..., Xn ) = n1 ni=1 Xi y alcanza la cota de Cramér-Rao cuyo
P
valor es:
1 σ2
V ar(τn∗ (X1 , ..., Xn )) = = . (3.46)
In (θ) n
Ejemplo 3.6. Consideremos X una variable aleatoria discreta (X =

N) con distribución Poisson cuya función de probabilidad de masa es:
e−θ θx
PX (·|θ) 7→ PX (X = x|θ) = ∀x ∈ N. (3.47)
x!
Queremos estimar θ a partir de (X1 , ..., Xn ) ∼ µnθ (i.i.d.). Vemos que
el logaritmo de la verosimilitud está dado por:
n
!
Y e−θ θXi
ln L(X1 , ..., Xn |θ) = ln
Xi !
i=1
n
(3.48)
X
= Xi ln(θ) − ln(Xi !) − θ.
i=1
n
!
∂ ln L(X1 , ..., Xn |θ) n 1X
= Xi − θ . (3.49)
∂θ θ} n
| {z i=1
A(θ) | {z }
(τn∗ (X1 ,...,Xn )−f (θ))
Dado que E(τn∗ (X1 , ..., Xn ))

= θ, entonces nuevamente se cumple la
descomposición de (3.37). Por lo que el estimador de mı́nima varianza
n
es τn∗ (X1 , ..., Xn ) = n1
P
Xi y alcanza la cota de Cramér-Rao cuyo
i=1
valor es:
1 θ
V ar(τn∗ (X1 , ..., Xn )) = = . (3.50)
In (θ) n
En un número mayoritario de escenarios de inferencia paramétrica, la

familia de distribuciones FΘ no ofrecen la descomposición en (3.37) y
por lo tanto
1
mı́n EX1 ,...,Xn (τn (X1 , ..., Xn ) − θ)2 >

. (3.51)
τn ∈Tn In (θ)
De todas formas In (θ)−1 se utiliza como una figura de mérito o
indicador para, por un lado, evaluar que tan lejos es el desempeño de
un estimador insesgado de la cota de Cramér-Rao de mı́nima varianza
y, por otro lado, como un indicador de la complejidad del problema
de inferencia y como este lı́mite escala como función del numero de
observaciones.
Podemos ver que la cota de Cramér-Rao actúa como un lı́mite

fundamental del problema de estimación. Es importante recalcar
que esta desigualdad es válida solamente para la familia de estimadores
insesgados por lo que de debe verificar dicha condición previamente.
Para una cota más general para estimadores sesgados se puede utilizar
la expresión en (3.27)
3.3.3. Unicidad del Estimador de Mı́nima Varianza
El siguiente resultado es importante para el análisis numérico a la

hora de buscar un estimador de mı́nima varianza. El resultado dice lo
siguiente:
Teorema 3.6. Si existe un estimador insesgado de minimiza varianza

entonces es único (casi seguramente).
Demostración: Supongamos que existen dos estimadores τ1 (X1 , ..., Xn )

y τ2 (X1 , ..., Xn ) con τ1 ̸= τ2 tales que son solución del problema:
mı́n V ar(τn (X1 , ..., Xn )) = V0 (θ), (3.52)

τn ∈Tn
Sobre estos dos estimadores podemos proponer un tercer estimador:
1 1
τ3 (X1 , ..., Xn ) = τ1 (X1 , ..., Xn ) + τ2 (X1 , ..., Xn ) (3.53)
2 2
Claramente τ3 (X1 , ..., Xn ) es insesgado ya que τ1 (X1 , ..., Xn ) y
τ2 (X1 , ..., Xn ) lo son y, por lo tanto, τ3 (·) ∈ Tn . Al calcular su varianza
tenemos que:
V ar(τ3 (X1 , ..., Xn )) = E{(τ3 (X1 , ..., Xn ) − θ)2 }

1
= (V ar(τ1 (X1 , ..., Xn )) + V ar(τ2 (X1 , ..., Xn ))
4
+ 2Cov(τ1 (X1 , ..., Xn ), τ2 (X1 , ..., Xn ))).
Notando que
(Cov(τ1 (X1 , ..., Xn ), τ2 (X1 , ..., Xn )))2
=|E (τ1 (X1 , ..., Xn ) − E(τ1 (X1 , ..., Xn )), τ2 (X1 , ..., Xn ) − E(τ2 (X1 , ..., Xn )))2 |

≤V ar(τ1 (X1 , ..., Xn ))V ar(τ2 (X1 , ..., Xn )) Usando Cauchy-Schwarz

=V02 (3.54)
Finalmente se tiene que:

1
V ar(τ3 (X1 , ..., Xn )) ≤ (V0 + V0 + 2V0 ) = V0 (3.55)
4
La desigualdad estricta no es factible pues contradice el hecho que
τ1 (x1 , ..., xn ) y τ2 (x1 , ..., xn ) son estimadores de mı́nima varianza. Por
lo tanto, V ar(τ3 (X1 , ..., Xn )) = V0 , en ese sentido, la desigualdad de
Cauchy-Schwarz se cumple con igualdad y necesariamente son lineal-
mente dependientes, es decir,
τ1 (X1 , ..., Xn )−E(τ1 (X1 , ..., Xn )) = k0 (τ2 (X1 , ..., Xn )−E(τ2 (X1 , ..., Xn )))
(3.56)
para cierto k0 ∈ R, reemplazando (3.56) en (3.54) obtenemos
k02 V02 = V02 ⇒ k02 = 1 (3.57)
por lo tanto τ1 (X1 , ..., Xn ) = τ2 (X1 , ..., Xn ), lo que contradice la hipo-

tesis.
3.4. Estimador de Máxima Verosimilitud

En la sección anterior encontramos un lı́mite fundamental para
un estimador insesgado de mı́nima varianza. Sin embargo, poco se ha
dicho para obtener un estimador a partir de observaciones.
En esta sección veremos un criterio concreto de selección de parámetros

(y por lo tanto obtener un estimador). Uno de los principios clásicos
es el criterio de máxima verosimilitud.
Consideremos nuevamente el escenario paramétrico
FΘ = {PX (·|θ) : θ ∈ Θ}.

Y también consideramos la función de verosimilitud

L(X1 , X2 , ..., Xn |θ).
Definimos el estimador de máxima varosimilitud τM L (·) : Xn → Θ

como:
θ̂M L (X1n ) = arg máx L(X1 , ..., Xn |θ). (3.58)

θ∈Θ
Donde arg máx f (θ) corresponde a el argumento θ ∈ Θ que maximiza

θ∈Θ
la función f . Normalmente las familias a optimizar son exponencia-
les, luego es conveniente aplicarle logaritmo y trabajar sobre la log-
verosimilitud, con esto el estimador de máxima verosimilitud también
puede definirse como:
θ̂M L (X1n ) = arg máx ln(L(X1 , ..., Xn |θ)), (3.59)

θ∈Θ
Podemos observar que al aplicar logaritmo, al ser una función cóncava

y monótona, el resultado del estimador no cambia ya que estamos
buscando el argumento que maximiza la función y no el valor máximo
de la función.
Notamos entonces que el estimador de máxima verosimilitud equivale

a encontrar el parámetro en Θ que mejor describa los datos en un
sentido de probabilidad. En otras palabras el objetivo es encontrar
el parámetro que hace las observaciones más probables dentro de la
familia FΘ .
Por lo general las observaciones suelen ser independientes y de

familia exponencial, por lo que el estimador de máxima verosimilitud
se puede escribir como:
n
X
θ̂M L (X1n ) = arg máx ln(L(Xi |θ)). (3.60)
θ∈Θ
i=1
Para resolver la ecuación anterior la condición de primer orden4 dice

que:
∂ ln L(X1 , X2 , ..., Xn |θ) 1 ∂L(X1 , X2 , ..., Xn |θ)
= · = 0.
∂θ L(X1 , X2 , ..., Xn |θ) ∂θ
(3.61)
Naturalmente si ln(L(X1 , ..., Xn |θ)) es cóncava, la solución de la ecua-
ción anterior nos da el óptimo global del problema. En la práctica la
condición de primer orden nos define el espacio de soluciones factibles,
sobre las cuales podremos encontrar la solución optima5 .
3.4.1. Maxima Verosimilitud y Mı́nima Varianza
Si asumimos que la cota de Cramér-Rao se alcanza (ver Sección

3.3.2), entonces sabemos que ∃τn∗ (·) : Xn → Θ donde:
∂ ln L(X1 , X2 , ..., Xn |θ)

= In (θ)(τn∗ (X1 , ..., Xn ) − θ), (3.62)
∂θ
La solución a las condiciones de primer orden en (3.61) nos dice enton-
ces que
In (θ)(τn∗ (X1 , ..., Xn ) − θ) = 0 ⇒ θ̂M L (X1 , ..., Xn ) = τn∗ (X1 , ..., Xn ).

(3.63)
Para analizar si este óptimo local es al mismo tiempo global, calculamos
la segunda derivada de la función objetivo en torno a θ̂M L (X1 , ..., Xn ):
∂ 2 ln L(X1 , X2 , ..., xXn |θ)

∂θ2
θ=θ̂M L
:0

∂In (θ)
∗
n ) − θ̂M L (X1 , ..., Xn )) − In (θ̂M L (X1 , ..., Xn ))
= (τn (X1, ...,
X

∂θ
θ=
θ̂M L

= −In (θ̂M L (X1 , ..., Xn )) < 0
(3.64)
4 Asumiendo que L(X1 , X2 , ..., Xn |θ) es diferenciable.

5 En la práctica para muchos problemas la solución del estimador de máxima verosimilitud
no ofrece expresiones cerradas y solo es posible aproximar por medio de métodos numéricos
tipo gradiente descendente.
De este análisis se desprende que la solución al problema

∂ ln L(X1 ,X2 ,...,Xn |θ)
∂θ es única dado la forma en (3.62) y es equiva-
lente a la solución que alcanza la mı́nima varianza.
Notar entonces que si existiese un estimador insesgado de mı́ni-

ma varianza, éste coincidirá con el entregado por el estimador de
máxima verosimilitud.
Lo interesante es que la información de Fisher juega un rol en el
sentido que actúa como criterio para determinar la concavidad de la
función de verosimilitud.
3.4.2. Consistencia del Estimador de Máxima Verosimilitud
En lo que viene demostraremos que el estimador de máxima vero-

similitud es consistente.
Teorema 3.7. Supongamos una familia FΘ , un vector X1n ∼

PX (·|θ0 )n (i.i.d) y el estimador θ̂M L (X1 , ..., Xn ) como variable alea-
toria en Θ. El estimador de máxima verosimilitud converge a θ0 en
probabilidad, es decir:

P
θ̂M L (X1 , ..., Xn ) −
→ θ0 ⇔ (∀ϵ > 0) lı́m PX1 ,...,Xn θ̂M L (X1 , ..., Xn ) − θ0 > ϵ = 0
n→∞
(3.65)
Demostración: Trabajaremos en el espacio continuo para las variables

de observación. Para esto asumamos que existe θ1 ̸= θ0 , arbitrario. La
idea por tanto reduce a verificar que el siguiente evento6
{xn1 ∈ Xn : L(x1 , ..., xn |θ0 ) − L(x1 , ..., xn |θ1 ) > 0} (3.66)
ocurre con alta probabilidad para n suficientemente grande (y en el

limite con probabilidad 1 cuando n tiende a infinito). Cuando n es
6 Recordando que el criterio de máxima verosimilitud es el argumento θ que maximiza

L(X1 , ..., Xn |θ), por lo tanto, nos interesa elegir θ0 .
suficientemente grande se tiene que:

n
1 1X
log(L(X1 , ..., Xn |θ1 )) |{z}
= log(L(Xi |θ1 ))
n n
i.i.d. i=1
n
1 X
= log(fX (Xi |θ1 )) (3.67)
n | {z }
i=1 Variable aleatoria i.i.d.
Notar que la esperanza de log(fX (Xi |θ1 )) es:

Z ∞
EX (log(fX (X|θ1 ))|θ0 ) = log(fX (x|θ1 ))fX (x|θ0 )dx < ∞. (3.68)
−∞
Entonces por ley fuerte de los grande números:

n
1X c.s.
log(fX (Xi |θ1 )) −−→ EX (log(fX (X|θ1 ))|θ0 ). (3.69)
n
i=1
Análogamente se tiene que:

n
1X c.s.
log(fX (Xi |θ0 )) −−→ EX (log(fX (X|θ0 ))|θ0 ). (3.70)
n
i=1
bajo el hecho que

Z ∞
EX (log(fX (X|θ0 ))|θ0 ) = log(fX (x|θ0 ))fX (x|θ0 )dx < ∞. (3.71)
−∞
Utilizando la desigualdad de Jensen7 vemos que:

fX (X|θ1 ) fX (X|θ1 )
EX log θ0 ≤ log EX
fX (X|θ0 ) fX (X|θ0 )
Z ∞
fX (x|θ1 )
= log fX (x|θ0 )dx
fX (x|θ0 )
Z−∞
∞
= log fX (x|θ1 )dx
−∞
| {z }
1
= 0. (3.72)
7 Si
f : R −→ R es una función cóncava, entonces para cualquier variable aleatoria X:
EX (f (X)) ≤ f (EX (X)).
Esto es equivalente a decir que

fX (X|θ0 )
EX log θ0 ≥ 0, (3.73)
fX (X|θ1 )
donde la igualdad se obtiene en (3.73), si y sólo si,
fX (x|θ0 ) = fX (x|θ1 ) ∀x ∈ R. (3.74)
Observación: La expresión:
Z ∞
fX (x|θ0 )
D(fX (X|θ0 )||fX (X|θ1 )) = fX (x|θ0 ) log dx ≥ 0.
| {z } −∞ fX (x|θ1 )
Divergencia entre fX (X|θ0 ) y fX (X|θ1 )
(3.75)
corresponde a la divergencia entre dos distribuciones, es un operador
muy usado en Teorı́a de la Información que sirve para medir similitudes
entre dos distribuciones de probabilidad.
Resumiendo lo hecho hasta el momento tenemos lo siguiente:

n n
1X 1X
L(X1 , ..., Xn |θ0 ) − L(X1 , ..., Xn |θ1 ) = log(fX (Xi |θ0 )) − log(fX (Xi |θ1 ))
n n
i=1 i=1
c.s
→ EX (log(fX (X|θ0 ))|θ0 ) − EX (log(fX (X|θ1 ))|θ0 )
z}|{

fX (X|θ0 )
= EX log θ0
fX (X|θ1 )
>0 (3.76)
y, por ende,

PX1 ,...,Xn {xn1 ∈ Xn : lı́m L(x1 , ..., xn |θ0 ) − L(x1 , ..., xn |θ1 ) > 0} = 1.
n→∞
(3.77)
Finalmente dado que (3.77) se cumple ∀θ1 ̸= θ0 entonces la probabili-
dad en (3.77) se puede expresar como:

PX1 ,...,Xn lı́m θ̂M L (X1 , ..., Xn ) = θ0 = 1 (3.78)
n→∞
Por lo tanto θ̂M L (X1 , ..., Xn ) converge a θ0 casi seguramente (y en con-

secuencia en probabilidad8 ), luego θ̂M L (·) es un estimador consistente.
8 Laconvergencia casi segura de una secuencia aleatoria es más fuerte que la convergencia
en probabilidad. Detalles en [9].
Ejemplo 3.7. Sea X1n un vector i.i.d. tal que (∀i ∈ {1, ..., n})Xi ∼
N (θ, σ 2 ). Asumiremos σ 2 conocido y el problema de estimación se re-
duce a estimar θ (la media de la distribución normal). En este contexto
la función de verosimilitud es:
n −(Xi −θ)2
Y 1
L(X1 , ..., Xn |θ) = √ e 2σ2 . (3.79)
i=1
2πσ
Si analizamos:
n
(Xi − θ)2

1 X
log(L(X1 , ..., Xn |θ)) = n ln √ − , (3.80)
2πσ 2σ 2
i=1
el problema de estimación de máxima verosimilitud equivale a encon-

trar:
θ̂M L (X1n ) = arg máx ln(L(X1 , ..., Xn |θ)) (3.81)
θ∈R
n
X (Xi − θ)2
= arg mı́n . (3.82)
θ∈R 2σ 2
i=1
La última expresión corresponde a minimizar (en promedio) el error

cuadrático entre la observación Xi y la media µ = E(Xi ). Luego, al
tomar la expresión:
n n
Xi − θ 2

X 1 X
arg mı́n √ = 2 · arg mı́n (Xi − θ)2 , (3.83)
θ∈R 2σ 2σ θ∈R
i=1 i=1
y aplicando la condición de primer orden nos dice que:

n
∂ log L(X1 , X2 , ..., Xn |θ) X (Xi − θ)
=0⇔ =0
∂θ σ2
i=1
n
n 1X
⇒θ̂M L (X1 ) = Xi . (3.84)
n
i=1
Por otro lado,

∂ 2 log L(X1 , X2 , ..., Xn |θ) −n
= < 0, (3.85)
∂θ2 σ2
µ=θ̂
con lo que θ̂M L (X1n ) = n1 ni=1 Xi es el estimador de máxima verosimi-

P
litud. Analicemos el sesgo.

n
!
1 X
E(θ̂M L (X1n )) = E Xi
n
i=1
n
P
E (Xi )
i=1
=
n
n
P
θ
i=1
=
n
= µ, (3.86)
es insesgado. Para ver la consistencia, notemos que aplicando la des-
igualdad de Chebyshev tenemos que, para ϵ > 0:
V ar(θ̂M L (X1n ))
PX1n (|θ̂M L (X1n ) − θ| > ϵ) ≤
ϵ2
Pn
V ar(Xi )
i=1
=
n2 ϵ2
n
σ2
P
i=1
=
n2 ϵ2
σ2
= . (3.87)
nϵ2
P
Tomando n → ∞ vemos que θ̂M L (X1n ) −
→ θ, luego el estimador es
consistente.
Observaciones:
Particularmente para el caso anterior, el estimador

n
1
θ̂M L (X1n ))
P
= n Xi es consistente y se pudo haber de-
i=1
mostrado como consecuencia directa de la ley débil de los
grandes números.
Del ejemplo 3.3 notamos que este estimador alcanza la cota
de Cramér-Rao, por ende también es de mı́nima varianza.
Propuesto 3.2. Considere el caso de observaciones i.i.d. Gaussianas

donde µ es conocido y se desea estimar σ 2 . Verifique que
n
2 1X
σ̂M L (X1 , .., Xn ) = (Xi − µ)2 . (3.88)
n
i=1
3.4.3. Condición de Normalidad Asintótica del Estimador de

Máxima Verosimilitud
El siguiente resultado indica que el estimador de maxima verosimi-

litud es óptimo (eficiente en un sentido estadı́stico) en el sentido que
su varianza (viendo al estimador como variable aleatoria) converge a la
cota de Cramér-Rao cuando el número de observaciones se va a infinito.
Teorema 3.8. Sea FΘ una familia de distribuciones y conside-

remos θ̂M L (X1 , ..., Xn ) el estimador de máxima verosimilitud. Si
log(fX (X1 , ..., Xn |θ)) es dos veces diferenciable (con respecto a θ) y
θ0 es el valor tal que (X1 , ..., Xn ) ∼ P (·|θ0 )n (i.i.d), se tiene que:
Distribución
√
n(θ̂M L (X1 , ..., Xn ) − θ0 ) −→
z}|{
Y, (3.89)

1
con Y ∼ N 0, I1 (θ 0)
donde
( 2 )
∂ log L(X1 |θ0 )
I1 (θ0 ) = EX1 . (3.90)
∂θ0
En este punto es importante mencionar la siguiente propiedad aditiva

de la Información de Fisher, que nos dice que, bajo la hipótesis que
la distribución de X1n es independiente e idénticamente distribuida, se
tiene que:
Lema 3.1.
( 2 )
∂ ln L(X1 , X2 , ..., Xn |θ)
In (θ0 ) = EX1 ,..,Xn = nI1 (θ0 ). (3.91)
∂θ
Este Lema se puede demostrar de la hipótesis i.i.d. impuesta en las

observaciones y del hecho que (ver Eq.(3.20)):

∂ ln L(X1 , X2 , ..., Xn |θ)
EX1 ,..,Xn = 0. (3.92)
∂θ
El estimador de Máxima Verosimilitud es consistente en probabilidad
(en consecuencia asintoticamente insesgado9 ) y adicionalmente su
varianza converge (con n) a la mı́nima varianza dada por la cota de
Cramér-Rao.
Por lo tanto para el caso de observaciones independientes e idénti-

camente distribuidas, no existe un mejor estimador con mejores
propiedades de optimalidad que el de máxima verosimilitud.
Demostración: Dado que θ̂M L (X1 , ..., Xn ) → θ0 casi seguramente (o

con probabilidad 1), la idea es utilizar la hipotesis que la función
ln L(X1 , X2 , ..., Xn |θ) es dos veces diferenciable con respecto a θ. Con
2 ,...,Xn |θ)
esto tomaremos la siguiente función √1n ∂ ln L(X1 ,X ∂θ y realizare-
mos un desarrollo en serie de Taylor entorno a θ0 de orden 0 evaluado
en θ = θ̂M L (X1 , ..., Xn ), es decir:
1 ∂ ln L(X1 , X2 , ..., Xn |θ) 1 ∂ ln L(X1 , X2 , ..., Xn |θ)
√ =√
n ∂θ θ=θ̂M L n ∂θ θ=θ0
1 ∂ 2 ln L(X1 , X2 , ..., Xn |θ)
+√ (θ̂M L − θ0 ), (3.93)
n ∂θ2 θ=θ̃
con θ̃ ∈ (θ̂M L , θ0 ). Lo primero es que por la consistencia del estimador

de Máxima Verosimilitud θ̃ → θ0 casi seguramente.
9 Engeneral la convergencia casi segura o en probabilidad no implican convergencia en
media, salvo que el estimador sea integrable
Por otro lado, dado que el estimador de Máxima Verosimilitud

cumple la condición de primer orden (por definición maximiza la
función ln L(X1 , X2 , ..., Xn |θ)), entonces:
1 ∂ ln L(X1 , X2 , ..., Xn |θ)

√ =0 (3.94)
n ∂θ θ=θ̂M L
de (3.93) tenemos entonces que cuando n tiende a infinito:
√
1 ∂ ln L(X1 , X2 , ..., Xn |θ) − n ∂ 2 ln L(X1 , X2 , ..., Xn |θ)
lı́m √ = lı́m (θ̂M L − θ0 ).
n→∞ n ∂θ θ=θ0
n→∞ n ∂θ2 θ=θ̃
(3.95)
Vamos a analizar las expresiones de ambos lados de la identidad en

(3.95).
Respecto al termino del lado derecho de (3.95), debido a la ley

fuerte de los grandes números (notando que log(L(X1 , ..., Xn |θ)) =
Pn
log(L(Xi |θ))) se tiene que:
i=1
n
−1 ∂ 2 ln L(X1 , X2 , ..., Xn |θ) 1 X ∂ 2 ln L(Xi |θ)
=−
n ∂θ2 θ=θ̃ n ∂θ2 θ=θ̃
i=1
( )
∂ 2 ln(fX1 (X1 |θ))
→ −E X1
|{z} ∂θ2 θ=θ0
c.s.
= I1 (θ0 ) (3.96)
Respecto al término del lado izquierdo de (3.95), podemos notar que

∂ ln(fX1 (X1 |θ))
∂θ es una variable aleatoria de media 0 y varianza
θ=θ0
I1 (θ0 ). Luego deducimos que de la aplicación del Teorema Central del
Lı́mite [5] que:

n
1 1 ∂ ln L(X1 , X2 , ..., Xn |θ) 1 1 X ∂ ln L(Xi |θ)
√ ·p =√ p
n I1 (θ0 ) ∂θ θ=θ0 n I1 (θ0 ) ∂θ θ=θ0
i=1
n
1 n 1 X ∂ ln L(Xi |θ)
=√ ·p ·
n I1 (θ0 ) n i=1
∂θ θ=θ0
n
1 P ∂ ln L(Xi |θ)
n ∂θ
i=1 θ=θ0
= √
I1 (θ0 )
√
n
→
|{z} N (0, 1) (3.97)
Distribución
que equivale a decir que:

1 ∂ ln L(X1 , X2 , ..., Xn |θ)
√ → N (0, I1 (θ0 )). (3.98)
n ∂θ |{z}
θ=θ0 Distribución
Finalmente regresando a (3.95), y tomando n → ∞ tenemos que:

1 ∂ ln L(X1 , X2 , ..., Xn |θ) √ −1 ∂ 2 ln L(X1 , X2 , ..., Xn |θ)
√ = n (θ̂M L − θ0 )
n ∂θ θ=θ0 n ∂θ2 θ=θ0
| {z } | {z }
→
|{z} Y ∼N (0,I1 (θ0 )) → I1 (θ0 )
|{z}
Distribución c.s.
(3.99)
√
Por lo tanto n(θ̂M L (X1 , .., Xn ) − θ0 ) converge
en distribución
a una
1 1
variable aleatoria Z ∼ I1 (θ0 ) N (0, I1 (θ0 )) = N 0, I1 (θ0 )
Observaciones:
El estimador de máxima verosimilitud puede no ser insesga-

do, pero al ser consistente y además le pedimos integrabilidad
entonces se puede garantizar que sea asintóticamente inses-
gado.
Los resultados de consistencia y normalidad asintótica son
válidos cuando los modelos son independientes e idéntica-
mente distribuidos , por lo tanto, si este supuesto no se cum-
ple no se puede garantizar tales propiedades.
No siempre el estimador de máxima verosimilitud ofrecerá

una solución cerrada, por lo que muchas veces se requerirá
utilizar algún optimizador y calcular el estimador de manera
numérica.
3.4.4. Caso de Estudio: Distribución Normal Multivariada
Consideremos un vector aleatorio (X1 , ..., Xd ) con valores en Rd tal

que:
X1d ∼ N (m, K)
con m ∈ Rd es el vector de media y K = E{(X − m)(X − m)t } ∈ Rd×d

la matriz de covarianza. El problema consiste en estimar m, K como
función de n observaciones vectoriales ((X1d )1 , ..., (X1d )n ). Notar que
este caso cada observación corresponde a un vector de dimensión d.
Para reducir la notación diremos que Yi = (X1d )i , es decir, Y representa
un vector. La función de verosimilitud conjunta en este caso es:
n
−1
(Yi −m)t K −1 (Yi −m)
P
−n/2 −n/2 2
L(Y1 , ..., Yn |m, K) = (2π) |K| e i=1 (3.100)
Luego
n n
ln(L(Y1 , ..., Yn |m, K)) = − log(2π) − log |K|
2 2
n
1X
− (Yi − m)t K −1 (Yi − m) (3.101)
2
i=1
Imponiendo las condiciones de primer orden, podemos obtener el ópti-

mo global de (3.101). Para lo anterior resulta útil introducir las siguien-
tes definiciones:
n
1X
Y = Yi (Media Empı́rica) (3.102)
n
i=1
n
1 X
S= (Yi − Y )(Yi − Y )t (Covarianza Empı́rica Muestral).
n
i=1
(3.103)
El término cuadrático de (3.101) se puede re-escribir como:

(Yi − m)t K −1 (Yi − m)
= (Yi − Y + Y − m)t K −1 (Yi − Y + Y − m)
= (Yi − Y )t K −1 (Yi − Y ) + (Y − m)t K −1 (x − m) + 2(Y − m)t K −1 (Yi − Y )
(3.104)
donde al tomar sumatoria tenemos que
n
X
(Yi − m)t K −1 (Yi − m)
i=1
n n n :0

X X X
= (Yi − Y )t K −1 (Yi − Y ) + (Y − m)t K −1 (Y − m) + 2 (Y −
m) K −1 (Yi − Y )
t

i=1 i=1
i=1

Xn
= (Yi − Y )t K −1 (Yi − Y ) + n · (Y − m)t K −1 (Y − m) (3.105)
i=1
| {z }
| {z } Sesgo
Dispersión
Notar que:
(Yi − Y )t K −1 (Yi − Y ) = tr((Yi − Y )(Yi − Y )t K −1 ) (3.106)
−1 t
= tr(K (Yi − Y )(Yi − Y ) ) (3.107)
Donde tr corresponde a la traza de una matriz. Entonces volviendo a
(3.105)
n n
!
X X
(Yi − m)t K −1 (Yi − m) = n · (Y − m)t K −1 (Y − m) + tr K −1
(Yi − Y )(Yi − Y ) t
i=1 i=1
= n · (Y − m)t K −1 (Y − m) + tr K −1 nS

(3.108)
Integrando tenemos que:

log(L(Y1 , ..., Yn |m, K)) =
n n n n
− log(2π) − log |K| − tr K −1 S − (Y − m)t K −1 (Y − m).
2 2 2 2
(3.109)
Si consideramos la verosimilatud en (3.109) función de V = K −1 y m (y
la denotamos como log(L(Y1 , ..., Yn |m, V )) e imponemos las condiciones
de primer orden tenemos que:
∂ log(L(Y1 , ..., Yn |m, V ) ∂ log(L(Y1 , ..., Yn |m, V )
=0 ∧ = 0.
∂m ∂V
(3.110)
Esto implica que:

∂ log(L(Y1 , ..., Yn |m, V ) ∂ n
= − (Y − m)t K −1 (Y − m)
∂m ∂m 2
n −1
= − K (Y − m) = 0
2
⇒ mM L (Y1 , ..., Yn ) = Y . (3.111)
Por otro lado utilizando las siguientes identidades:

∂ log(|V |)
1- ∂V = (V −1 )t
∂tr(V ·S) t
2- ∂V =S
tenemos que:
∂ log(L(Y1 , ..., Yn |m, V )
∂V
∂ n n n
= log |V | − tr V S − (Y − m)t V (Y − m)
∂V 2 2 2
n −1 t t ∂
tr V (Y − m)(Y − m)t

= (V ) − S −
2 ∂V
n −1 t t

= (V ) − S − ((Y − m)(Y − m)t )−1 = 0 (3.112)
2
Finalmente, tomando traspuesto, podemos notar que dado que
mM L (Y1 , ..., Yn ) = Y :
:0

−1 t −1 t
0=V − S − (Y − m)(Y − m) = V − S − (Y−
m)(Y
− m) .

(3.113)
−1
Por lo tanto K̂M L (Y1 , .., Yn ) = V̂M L (Y1 , .., Yn ) = S.
3.5. Estimador de Mı́nimo Error Cuadrático Medio

El estimador de mı́nimos cuadrados o Least Squares es un estima-
dor muy usado debido a su simpleza de implementación. Surge como
una alternativa cuando no se posee acceso a las distribuciones del
modelo asociado. Su origen proviene del hecho de buscar minimizar la
distancia entre el valor observado y el estimado.
En este problema entonces dado un vector de observación Y1n la

idea es estimar θ ∈ Rm de tal forma de minimizar su error cuadrático,

es decir, debemos minimizar:
n
X
||θ − θ̂(Y1n )||2 = (θi − θ̂i (Y1n ))2 . (3.114)
i=1
donde θi es la componente i-ésima del vector θ. Notar que (3.114)

es intratable dado que no conocemos θ y por lo tanto encontrar un
estimador θ̂(Y1n ) sin una hipótesis adicional es inviable.
Por lo tanto, se simplificará el problema buscando minimizar la

distancia entre el vector de observaciones Y1n con el parámetro θ
proyectado en el espacio de observaciones Rn , es decir,
||Y1n − f (X, θ)||2 (3.115)
donde f : Mn×m × Rm → Rn es una función de ajuste entre X e

Y . Esto significa que el problema de mı́nimos cuadrados se redujo
a encontrar el vector de parámetros θ tales que la función f mejor
describa la relación entre X e Y . Esto último se conoce como el
problema de regresión.
Para este obtener este estimador, dado que f aún es implı́cito,

nos limitaremos al caso del estimador lineal de mı́nimos cuadrados, es
decir, f (X, θ) = Xθ . Hay muchos problemas inversos en ingenierı́a
que reducen al modelo lineal de observación, con lo que:
Y1n = Xθ + V1n , (3.116)
donde:
1- Y1n ∈ Rn es el vector de observación (variable independiente),

2- X ∈ Mn×m es la matriz de proyección o el operador lineal
que mapea el parámetro al espacio de observaciones (variable
dependiente),
3- θ ∈ Rm es el parámetro a inferir, en este caso es un vector
de parámetros.
4- V1n ∈ Rn representa un ruido aditivo con valores en Rn .
a continuación vamos a despreciar el efecto del ruido, es decir, busca-

remos minimizar:
n
X
θ̂LS (Y1 , ..., Yn ) = arg mı́n (Yi − (Xθ)i )2
θ∈Rm i=1
= arg mı́n ||Y1n − Xθ||2

θ∈Rm
= arg mı́n (Y1n − Xθ)t (Y1n − Xθ) (3.117)
θ∈Rm
Notar que (X θ̄)i es la fila i-ésima del problema. En este escenario hay
varios casos:
1- n ≥ m: Caso sobre-estimado. Más mediciones que grados de

libertad.
2- n = m: Caso crı́tico.
3- n < m: Caso sub-estimado. Menos mediciones que grados de
libertad.
En lo que sigue veremos una solución genérica para este problema.

Vamos a considerar una matriz W ∈ Mn×n (llamada matriz de
pesos) definida positiva y simétrica lo que transformará el problema de
mı́nimos cuadrados a una versión ponderada (Weighted Least Squares).
El problema de estimación cuadrática ponderada se define como

θ̂W LS (Y1 , ..., Yn ) = arg mı́n (Y1n − Xθ)t W (Y1n − Xθ)
θ∈Rm
n Medición
X z}|{
= arg mı́n wi ( Yi −(Xθ)i )2 , (3.118)
θ∈Rm i=1
donde la última expresión se puede desprender solamente si W es diago-

nal cuya componente i-ésima es wi . En adelante analizaremos la función
objetivo:
J(θ) = (Y1n − Xθ)t W (Y1n − Xθ)
t
= (Y1n )t W Y1n + θ X t W Xθ − 2(Y1n )t W Xθ (3.119)
Aplicamos la condición de primer orden y las identidades válidas para
toda matriz A ∈ Mm×m y b ∈ Rm
∂
1- ∂θ
(bt θ) = b.
∂ t
2- ∂θ
(θ Aθ) = 2Aθ
tenemos que:

t
∂ θ X t W Xθ∂ 2z t W Xθ

∂J(θ)
=0⇒ − =0
∂θ ∂θ ∂θ
= 2X t W Xθ − 2(z t W X)t = 0
⇒ θ̂W LS = (X t W X)−1 (X t W )Y1n (3.120)
En el caso particular que no se utilice una matriz de pesos se reduce al
estimador lineal de mı́nimos cuadrados, dado por:
θ̂LS = (X t X)−1 X t Y1n (3.121)
Observación: La condición de invertibilidad se da cuando W es definida
no negativa, es invertible y el rango de X es completo, es decir, cuando
n ≥ m y las columnas de X son linealmente independientes.
Ejemplo 3.8. Supongamos que tenemos un instrumento que mide una

variable escalar por medio de la siguiente ecuación
Yi = θ + Vi ∀i ∈ {1, ..., n} (3.122)
|{z}
ruido
Se determinará el estimador LS óptimo, para esto notemos que:
     
Y1 1 V1
 ..   ..   .. 
 .  = . · θ +  .  (3.123)
Yn 1 Vn
n ≥ 1, es un caso sobre-determinado. Aplicamos el estimador lineal de
mı́nimos cuadrados y tenemos que:
  −1  
1 Y1
 .   . 
θ̂LS (Y1 , ..., Yn ) =  1 · · · 1  ..  1 · · · 1  .. 

1 Yn
n
1 X
= Yi | Media empı́rica
n
i=1
(3.124)
Ejemplo 3.9. (Regresión Lineal) Supongamos que tenemos un con-

junto de puntos {(xi , yi )}ni=1 . Consideremos el siguiente modelo lineal
Yi = α + βXi + Vi ∀i ∈ {1, ..., n} (3.125)

|{z}
ruido
Nos gustarı́a encontrar los parámetros α y β que mejor se ajusten

al modelo lineal en el sentido de mı́nimo error cuadrático. Para esto
entonces se determinará el estimador de mı́nimos cuadrados óptimo.
Notemos que:
     
Y1 1 X1 V1
 ..   ..  α  .. 
 .  = . · + .  (3.126)
β
Yn 1 Xn Vn
n ≥ 2, es un caso sobre-determinado. Aplicamos el estimador lineal de

mı́nimos cuadrados y tenemos que:

  −1  
1 X1 Y1
 X1 · · · Xn  .. X1 · · · Xn  . 
θ̂LS (Y1 , ..., Yn ) =   .. 

.
1 ··· 1 1 ··· 1

1 Xn Yn
n n
 −1  n

2
P P P
i=1 Xi i=1 Xi  i=1 Xi Yi 
= n
P
  n
  P


n Xi Yi
i=1 i=1
n n
 n 
2
P P P
X i − X i  X Y
i i
1 
i=1 i=1  i=1n
= 2 n

n n
 P  P 
P
Xi − n
P
Xi2 −n Xi Yi
i=1 i=1
i=1 i=1
n n n n

2
P P P P
 Xi Xi Yi − Xi Yi 
1 i=1 ni=1 i=1 i=1 
= 2 n n
n n
 P P P 
P
Xi − n
P
Xi2 −n Xi Yi + Xi Yi
i=1 i=1 i=1
i=1 i=1
n n n n

P 2P P P
 Xi Yi − Xi Xi Yi 
1 i=1 n i=1 i=1 i=1
= 2  n n

n n
P P P 
n
P
Xi2 −
P
Xi n Xi Yi − Xi Yi
i=1 i=1 i=1
i=1 i=1
(3.127)
Si nos concentramos en el parámetro β̂(Y1n ), tenemos que:

n
P n
P n
P
n Xi Yi − Xi Yi
i=1 i=1 i=1
β̂(Y1n ) = 2
n
n
Xi2 −
P P
n Xi
i=1 i=1
n n n
1 1
Xi n1
P P P
n Xi Yi − n Yi
i=1 i=1 i=1
= 2 . (3.128)
n n

1 1
Xi2
P P
n − n Xi
i=1 i=1
El numerador corresponde a la covarianza empı́rica entre X e Y . El

denominador corresponde a la varianza empı́rica de X. Recordemos
que la covarianza entre dos variables se interpreta como el grado de

dependencia lineal entre dos variables, lo que tiene directa relación con
que forme parte del coeficiente de β̂(Y1n ), ya que β̂(Y1n ) es la pendiente
de la recta que asocia X con Y .
Observaciones:
La regla anterior se puede extender a polinomios de mayor

grado, por lo que el estimador lineal de mı́nimos cuadrados
puede ser extendido a escenarios más complejos siempre y
cuando exista una combinación lineal de parámetros. Consi-
deremos el siguiente modelo lineal
Yi = α + βXi + γXi2 + Vi ∀i ∈ {1, ..., n} (3.129)
|{z}
ruido
Inmediatamente podemos realizar el ajuste al modelo lineal

en el sentido de mı́nimo error cuadrático. Notemos que:
1 X1 X12
       
Y1 α V1
 ..   ..     .. 
 .  = . · β + .  (3.130)
Yn 1 Xn Xn 2 γ Vn
Lo cual nos permite utilizar la expresión en (3.121).
Similarmente puede ser extendido a funciones no necesaria-
mente lineales pero que de todas formas exista un ajuste li-
neal de los parámetros mediante alguna transformación. Con-
sideremos el siguiente modelo:
Yi = KeβXi + Vi ∀i ∈ {1, ..., n} (3.131)
|{z}
ruido
Tomando logaritmo y despreciando el ruido notemos que:

ln(Yi ) = ln(K) + βXi ∀i ∈ {1, ..., n} (3.132)
Lo que nos entrega una relación lineal de la forma:
   
ln(Y1 ) 1 X1
 ..   ..  ln(K)
 .  = . · (3.133)
β
ln(Yn ) 1 Xn
Y nuevamente nos permite utilizar la expresión en (3.121).

Lo que nos da un ajuste tipo exponencial.
Dado que ya tenemos θ̂LS (Y1n ) podemos entonces calcular la
mı́nima distancia a optimizar dada en (3.117). Al hacer esto
nos encontramos con la siguiente expresión:
n
X
||Y1n − X θ̂LS (Y1n )||2 = (Yi − (X θ̂LS (Y1n ))i )2 (3.134)
i=1
El valor (Yi − (X θ̂LS (Y1n ))i ) corresponde al residuo ya que

es la diferencia entre el valor observador y el valor estimado.
n
2 ≜ (Yi − (X θ̂LS (Y1n ))i )2 se
P
Esto significa entonces que σR
i=1
interpreta como la varianza residual.
Por otro lado, conocemos el estimador más simple que co-

n
rresponde a la media empı́rica n1
P
Yi , lo que también posee
i=1
n
n
2
su propio error residual dado por σY2 ≜ Yi − n1
P P
Yi .
i=1 i=1
Notemos que este valor corresponde a la varianza empı́rica
de Y (salvo por un factor de n que falta)10 .
Para saber entonces un buen criterio de ajuste, defini-

mos el coeficiente de determinación R2 como:
σR2
R2 = 1 − (3.135)
σY2
Un valor R2 cercano a 1 significa una varianza residual 0 y

el modelo explica con mucha precisión la variable Y . Por el
contrario, un R2 cercano a 0 significa un modelo de base,
n
donde la predicción coincide con la media n1
P
Yi y por lo
i=1
tanto tiende a ser bastante pobre en desempeño. Es posible
tener coeficientes negativos lo que indicarı́a un ajuste con
n
n
2
10 Más 1 P 1 P
precisamente la varianza empı́rica es n
Yi − n
Yi
i=1 i=1
n
1 P
peor desempeño que haber utilizado la media n Yi .
i=1
3.6. Caso de Estudio: Astrometrı́a y Fotometrı́a

Contextualización y Modelamiento del Problema
Dos parámetros importantes para el estudio de la astronomı́a son

la posición de los objetos luminosos en el cielo nocturno y la cantidad
de luz (o más precisamente flujo) que llega desde el lugar donde se ob-
serva. La estimación de estos parámetros se conocen como astrometrı́a
y fotometrı́a, respectivamente. A través de las cámaras digitales CCD
(Charge Coupled Devices) se puede abordar el problema de estimación
(posición y flujo), contando la cantidad de fotones de la estrella que
inciden en segmentos discretos del CCD llamados pixeles.
El astro o fuente puntual está en una posición u del cielo, emite un
perfil de intensidad F (x, u) de la forma (ver Fig. 3.1)
−(x − G(u))2

1
F (x, u) = F · √ exp , ∀x ∈ R. (3.136)
2πσx 2σx2
Esta es la forma Gaussiana standard usada para modelar la propaga-

ción de luz y la difusión desde el astro al instrumento CCD. F corres-
ponde a la intensidad total de luz emitida por el astro, σx corresponde
al coeficiente de difusión, y por último G(u) y x corresponden a puntos
dentro del eje de medición del CCD. G(u) es el mapeo entre la ubicación
del astro en el espacio y su punto correspondiente en el eje de medición
del CCD, de aquı́ en adelante dicho parámetro será renombrado como
xc , con lo que se tiene
−(x − xc )2

1
F (x, xc ) = F · √ exp , ∀x ∈ R. (3.137)
2πσx 2σx2
F (x, xc ) en (3.137) e ilustrado en el manto Gaussiano de la Fig.

3.1 no es observado directamente en el CCD, sino que a través de tres
fuente de perturbación, es decir, la medición en el arreglo de pixeles
está sujeto a ruido. Estas fuentes de perturbación son:
Estrella
Flujo
Centroide
CCD
Figura 3.1: Dispersión de la luz en un arreglo de pixeles en una

cámara CCD.
a) Un perfil aditivo que captura la emisión de fotones, tanto de

astros aledaños como de otros elementos del cielo nocturno
(fotones que provienen de la luz de la luna por ejemplo) lla-
mado Background (B) o Ruido de Fondo.
b) La cuantización espacial del perfil de la estrella al ser me-
dida a través del arreglo de pixeles. Considerando el perfil
dispersión gaussiano, la cuantización será (ver Fig. 3.2):
xi +∆x/2
−(x − xc )2
Z
1
gi (xc ) = √ exp dx (3.138)
2πσx xi −∆x/2 2σx2
donde xi corresponderá a la posición del pixel i-ésimo y ∆x
el tamaño de este (resolución del instrumento), el cual será
constante a lo largo del arreglo.
c- El ruido de medición, el cual sigue una distribución de Pois-
son en cada pixel.
Integrando estos tres efectos, el modelo de observación del problema

consiste en una colección de variables aleatorias independientes (obser-
vaciones) {Ii : i ∈ N} tales que
Ii ∼ Poisson(λi (xc , F )) (3.139)

donde el parámetro λi (xc , F ) (la media de la distribución Poisson)11
recoge la observación en el pixel i-ésimo que se hubiera visto, es decir,
λi (xc , F ) = F · gi (xc ) + B. (3.140)
Existen tres escenarios clásicos de estimación:
a- Astrometrı́a: Se supondrán conocidos todos los parámetros

salvo xc y el problema es estimar xc de {Ii , i ∈ N}.
b- Fotometrı́a, estimación de flujo: Se supondrán conocidos to-
dos los parámetros salvo F y el problema es estimar F de
{Ii , i ∈ N}.
c- Fotometrı́a, estimación de ruido de fondo: Se supondrán co-
nocidos todos los parámetros salvo B y el problema es esti-
mar B de {Ii , i ∈ N}.
Se asumirá una cantidad finita de observaciones {Ii , i = 1, ..., n}, donde

se asume una buena cobertura del objeto que se mide, en el sentido que:
n ∞
−(x − xc )2
Z
X X 1
gi (xc ) ≈ gi (xc ) ≈ √ exp dx = 1
2πσx −∞ 2σx2
i=1 i∈Z
(3.141)
Problema 3.1. (Resultados Premilinares). Verifique que se cumple lo

siguiente:
  !2   !2  
∆x ∆x
∂gi (xc ) 1 xi − 2 − xc xi + 2 − xc
3.1. =√ exp − √  − exp − √ 
∂xc 2πσx 2σx 2σx
N
X ∂gi (xc )
3.2. ≈0
∂xc
i=1
11 Recuerde e−λ λk
que si X ∼ P oisson(λ) entonces PX (X = k) = k!
x i +∆ x/ 2
gi (x c) = φ(x,x c)dx
x i − ∆ x/ 2
∆x B
x inf x sup
λ i (x c ) = F .g i (x c ) +B
Figura 3.2: Descripción del modelo de adquisición digital (discreta) de

datos en un arreglo unidimensional de pixeles
3.3. E I 2 = λ2 + λ, para ello utilice propiedades de la varianza

de la distribución de Poisson.
3.6.1. Astrometrı́a, Estimación de Posición
Suponiendo conocidos los parámetros F , σx y B se tiene que el

vector de observaciones I1n = (I1 , ..., In ) ∈ Xn sigue una distribución
de probabilidad según (3.139) la cual depende del parámetro xc ∈ Θ,
siendo Θ = R el espacio de parámetros posibles. Considere la familia
de estimadores insesgados:
T n = {τn : Xn → Θ; EI1 ,...,In (τn (I1 , ..., In )) = θ para todo θ ∈ Θ}

(3.142)
el siguiente problema tiene como objetivo encontrar un estimador x̂c :
Xn → Θ ∈ T n , tal que:
x̂c ≡ arg mı́nn V ar(τn (I1 , ..., In ))

τn ∈T
= arg mı́nn EI1 ,...,In (τn (I1 , ..., In ) − xc )2 .

(3.143)
τn ∈T
Problema 3.2. (Lı́mites Fundamentales)
a) Demuestre que la cota de Cramér-Rao para el parámetro xc

está dada por:
1
V ar(x̂c ) ≥ 2 (3.144)
n
X F ∂g∂x
i (xc )
c
F · gi (xc ) + B
i=1
b) Analice si existe algún estimador insesgado de xc que alcance

la cota de Cramér-Rao.
3.6.2. Fotometrı́a, Estimación del Flujo

Suponiendo conocidos los parámetros xc , σx y B se tiene que el
vector de observaciones I1n = (I1 , ..., In ) ∈ Xn sigue una distribución
de probabilidad según (3.139) la cual depende del parámetro F ∈ Θ,
siendo Θ = R+ el espacio de parámetros posibles.
Problema 3.3. (Lı́mites Fundamentales)
a) Determine una expresión cerrada para:

n
Y
ln L(I1 , .., In |F ) = ln PIk (Ik ). (3.145)
k=1
b) Verifique la siguiente identidad:

n
d X gk (xc ) · Ik
ln L(I1 , .., In |F ) = − gk (xc ) . (3.146)
dF λk (xc , F )
k=1
c) Si definimos la variable aleatoria Yk = gλkk(x c )·Ik

(xc ,F ) − gk (xc ),
verificar que es una variable aleatoria de media cero. Con
ello demuestre que la Información de Fisher del problema
está dada por:
n
( 2 ) X
d gk2 (xc )
In (F ) ≡ E(I1 ,..In ) ln L(I1 , .., In |F ) = .
dF F · gk (xc ) + B
k=1
(3.147)
Indicación: Recordar la propiedad de la varianza sobre la
suma de variables aleatorias independientes.
d) Considere el régimen de alta relación señal a ruido cuando
se cumple que: F gk (xc ) ≫ B. Demuestre en este caso que:
minτn ∈Tn V ar(τn (I1 , .., In )) ≥ F (3.148)
donde Tn denota la familia de estimadores insesgados.

e) Verifique si en este problema existe un estimador insesgado
que alcance la cota de Cramer-Rao.
Problema 3.4. Estimador LS: Para el problema de fotometrı́a pre-

sentado anteriormente, analizaremos el estimador Least Square, solu-
ción del siguiente problema de optimización:
n
X
∗
FLS (I1 , .., In ) = arg mı́n (Ik − λk (xc , F ))2 . (3.149)
F ≥0
k=1
a) Determine una expresión cerrada para FLS ∗ (I , .., I ) como

1 n
función de los datos medidos.
∗ es un estimador insesgado de F y determine
b) Verifique si FLS
la varianza del estimador.
c) Compare la varianza del estimador LS con la cota de
Cramér-Rao de la pregunta anterior. Comente.
3.7. Problemas 105
3.7. Problemas
con estimación paramétrica.
Problema 3.5. Verifique si el vector de observaciones X1 , ..., Xn es

i.i.d. con distribución PX1n (′ cdot|θ) entonces
( )
∂ ln L(X1 , X2 , ..., Xn |θ) 2
2
∂ ln L(X1 , X2 , ..., Xn |θ)
EX1 ,..,Xn = −EX1 ,..,Xn .
∂θ ∂θ2
(3.150)
Problema 3.6. Compruebe que si el vector de observaciones

X1 , ..., Xn es i.i.d. con distribución PX1n (′ cdot|θ) entonces la informa-
ción de Fisher es aditiva, es decir:
( )
∂ ln L(X1 , X2 , ..., Xn |θ) 2
In (θ) ≡ EX1 ,..,Xn = n · I1 (θ). (3.151)
∂θ
Problema 3.7. Muestre que para cualquier estimador τn de θ su error

de estimación se puede descomponer como varianza mas sesgo, es decir:
n o
EX1 ,..,Xn (τn (X1 , ..., Xn ) − θ)2 = V ar(τn (X1 , ..., Xn ))
+ (EX1 ,..,Xn (τn (X1 , ..., Xn )) − θ)2 .
(3.152)
Problema 3.8. Considere el problema de estimación paramétrico so-

bre la familia FΘ visto en clase.
a) Considere que (X1 , .., Xn ) un vector i.i.d. con valores en

{0, 1} que sigue una distribución Bernoulli de parámetro
θ ∈ [0, 1]. Es decir PXi (Xi = 1|θ) = θ. Determine una expre-

sión para L(X1 , .., Xn |θ) y verifique que ofrece la siguiente
descomposición:
PX1n ((X1 , .., Xn ) = (x1 , .., xn )|θ) = PX1n (τn (X1 , .., Xn ) = τn (x1 , .., xn )|θ)
· PX1n ((X1 , .., Xn ) = (x1 , .., xn )|τn (X1 , .., Xn ) = τn (x1 , .., xn ), θ)
donde
τn (X1 , .., Xn ) = X1 + .. + Xn (3.153)
y
1
PX1n ((X1 , .., Xn ) = (x1 , .., xn )|τn (X1 , .., Xn ) = τn (x1 , .., xn ), θ) = n
.
τn (x1 ,..,xn )
(3.154)
En otras palabras se tiene que τn en Eq.(3.153) es un es-
tadı́stico suficiente para inferir θ.
b) Del punto anterior verifique que el estimador de máxima ve-
rosimilitud esta dado por:
θ̂M L (X1 , .., Xn ) = τn (X1 , .., Xn )/n.
c) Finalmente demuestre que θ̂M L (X1 , .., Xn ) es insesgado, de
mı́nima varianza y determine una expresión cerrada para
V ar(θ̂M L (X1 , .., Xn )).
d
Indicación: Verifique la condición sobre log dθ L(X1 , .., Xn |θ)
que permite alcanzar la cota de Cramér-Rao.
Problema 3.9. Sea X1 , .., Xn una secuencia i.i.d. que sigue una dis-
tribución exponencial, es decir, su densidad está dada por fX (x|θ) =
θ · e−θx con x ∈ R+ ∪ {0},
a) Determine el estimador de máxima verosimilitud

b) Determine EX1 ,..,Xn (θ̂M L (X1 , .., , Xn ))
c) ¿Es este estimador de mı́nima varianza?
3.7. Problemas 107
Problema 3.10. Sea X1 , .., Xn un vector aleatorio i.i.d. uniformemen-

te distribuida en [0, θ] con θ.
a) Determine el estimador de máxima verosimilitud de θ y ve-

rifique que esta dado por
θ̂M L (X1 , .., Xn ) = máx {Xi : i = 1, .., n} .
b) Demuestre que θ̂M L (X1 , .., Xn ) es sesgado.
Problema 3.11. Considere un sistema de modulación AM que genera

la señal discreta

2π
sk = A · cos ·k k ∈ {1, .., n} (3.155)
T
que depende del parámetro A y donde T > 0 es un número entero
conocido.
El vector sn1 no es observable directamente, si no que por medio de
un ruido aditivo:
Xk = sk + Nk (3.156)
donde N1 , N2 , .., Nn son variables aleatorias Gaussianas independientes
e idénticamente distribuidas con media cero y varianza σ 2 > 0.
a) Notar que X1 , .., Xn es un vector Gaussiano. Con ello deter-

mine su vector de media y matriz de covarianza.
b) Del punto anterior determine la función de verosimilitud
L(X1 , .., Xn |A) y con ello el estimador de máxima verosi-
militud de A dadas las observaciones X1 , .., Xn . Es decir la
solución de:
ÂM L (X1 , .., Xn ) = arg máx ln L(X1 , .., Xn |A). (3.157)

A∈R+
Indicación: Se debe llegar a una expresión cerrada función

de X1 , .., Xn y parámetros conocidos del problema.
c) Verifique que ÂM L (X1 , .., Xn ) es insesgado y determine su

varianza.
d) Demuestre que ÂM L (X1 , .., Xn ) es el estimador insesgado de
A de mı́nima varianza.
Indicación: Utilice la cota de Cramér-Rao y concluya de su
análisis.
e) Demuestre que ÂM L (X1 , .., Xn ) es un estimador consistente
de A cuando n → ∞.
Problema 3.12. Considere un cuerpo radiactivo que emite θ partı́cu-

las, con θ ∈ N. Para detectar las partı́culas emitidas, se cuenta con un
detector imperfecto, el cual detecta cada partı́cula emitida de forma
independiente. Para modelar el proceso de detección, consideremos la
variable aleatoria Bi que toma el valor 1 si la partı́cula i-ésima fue
detectada y 0 si no, donde Bi distribuye Bernoulli de parámetro p
(PBi (Bi = 1) = p). Finalmente, la variable de observación X es el
número de partı́culas totales detectadas dada por
θ
X
X= Bi .
i=1
Notar que dados p y θ conocidos, X distribuye binomial de parámetros

p y θ, es decir:
θ k
PX (X = k) = p (1 − p)θ−k
k
a) Asuma que conoce la cantidad de partı́culas emitidas θ. De-

termine el estimador de máxima verosimilitud del parámetro
p dada una observación de X ∈ {0, · · · , θ}.
b) Ahora considere que se cuenta con n realizaciones i.i.d. de la
variable X ∈ {0, · · · , θ}. Determine la información de Fisher
asociada al parámetro p, la cota de Crámer-Rao y verifique
si existe un estimador que la alcance.
c) Ahora considere conocido el parámetro p. Determine el esti-
mador de máxima verosimilitud del parámetro θ (cantidad
3.7. Problemas 109
de partı́culas emitidas) θ̂M L dada una observación de X.

Analice si el estimador es insesgado y determine su varian-
za. Utilice la aproximación log θ! = θ log θ − θ.
Problema 3.13. En muchas aplicaciones de laboratorio, es posible

obtener valores con alta precisión llamado Media de Población. Este
valor puede ser beneficioso ya que permite obtener estimadores (sesga-
dos) con un error de estimación menor que la cota de Crámer-Rao. En
particular, considere el caso Gaussiano, i.e, la densidad está dada por:
1 −(x−θ)2
fX (x|θ) = √ e 2σ2 ∀x ∈ R (3.158)
2πσ
donde σ es conocido y queremos estimar θ a partir de (X1 , ..., Xn ),
observaciones independientes e idénticamente distribuidas. Se pide:
a) Verifique que la información de Fisher está dada por

( )
∂ ln L(X1 , X2 , ..., Xn |θ) 2 n
In (θ) ≡ EX1 ,..,Xn = 2.
∂θ σ
(3.159)
b) Demuestre la existencia de un estimador insesgado que al-
cance la cota de Crámer-Rao, es decir, encontrar y explicitar
τn∗ tal que
1
EX1 ,...,Xn {(τn∗ (X1 , ..., Xn ) − θ)2 } = . (3.160)
In (θ)
Indicación: Utilizar la condición de alcanzabilidad de la fun-
ción de verosimilitud.
c) Si definimos la media de población como
γ = σ/θ
y estudiamos un estimador de θ de la siguiente forma:

n
X
τnC (X1 , ..., Xn ) = C · Xi (3.161)
i=1
con C ∈ R+ el parámetro a definir.
Muestre que el valor de C óptimo (que minimiza el

error cuadrático medio de estimación), es decir el C ∗
solución del problema:
n 2 o
mı́n EX1 ,..,Xn τnC (X1 , ..., Xn ) − θ , (3.162)
C∈R+
está dado por:

C ∗ = (N + γ 2 )−1 . (3.163)
d) Verifique que :
n
∗
X
τnC (X1 , ..., Xn ) = C ∗ Xi (3.164)
i=1
es sesgado y contraste este estimador con el obtenido en

∗
el punto (b). En particular verifique que τnC (·) tiene una
varianza menor que el estimador τn∗ (·) encontrado en (b).
∗
e) Se define la eficiencia de τnC relativa a τn∗ como el cuociente
de sus errores cuadráticos medios, es decir:
n o
E (τ ∗ (X , ..., X ) − θ)2
∗ X1 ,..,Xn n 1 n
ef iciencia(τnC ) = n o.
EX1 ,..,Xn (τnC ∗ (X1 , ..., Xn ) − θ)2
(3.165)
∗ ∗
Verifique que τn es asintóticamente insesgado y que τnC es
C
eficiente en el sentido que:

∗
lı́m ef iciencia(τnC ) = 1. (3.166)
n→∞
4
Unidad IV: Estimación Bayesiana
En este problema de inferencia la idea es plantear un problema de

decisión sobre θ ∈ Θ, pero donde el parámetro θ es ahora un objeto
aleatorio con valores en A = Rd . Dado que ahora poseemos una va-
riable o vector aleatorio Θ significa que tenemos una distribución de
probabilidad:
PΘ (B) = P(Θ(w) ∈ B) (4.1)
Esta distribución se conoce normalmente como distribución a priori.
En particular, Θ está dotado de una función de densidad de

probabilidad dada por:
fΘ (θ) ∀θ ∈ A (4.2)
y, por lo tanto,
Z
PΘ (B) = fΘ (θ1 , ..., θd )dθ1 ...dθd . (4.3)
B
4.1. Formalización del Problema de Estimación Bayesiana

Un problema de estimación Bayesiano se compone de 5 elementos
centrales:
111
112 Unidad IV: Estimación Bayesiana
Un espacio de observación X y variables aleatorias que to-

man valores en X. X se conoce como observación o dato. X
es un espacio numérico abstracto y también puede ser multi-
dimensional, por ejemplo, X = Rn con n ∈ N en cuyo caso las
observaciones corresponden a un vector aleatorio X1n ∈ X.
Un espacio de decisión A infinito no numerable y una va-
riable aleatoria Θ con valores en A. Además se posee una
distribución de probabibilidad sobre Θ, PΘ (·) la cual se co-
nocerá como distribución a priori o prior.
Distribuciones de probabilidad condicionales indexadas por
θ ∈ Θ, es decir, PX (·|Θ = θ), θ ∈ A.
Una regla, detector o test ϕ : X 7→ A que será la función que
tomará una decisión en base a algún criterio.
Una función de costo o riesgo L : A × A → R+ que penaliza
la incorrecta decisión.
Análogo al caso de detección hablaremos más en detalle del riesgo ya

que es un elemento nuevo respecto al caso paramétrico.
4.2. Riesgo Promedio

En este caso el problema de estimar Θ a partir de X, se basa en
minimizar la siguiente función de riesgo L : A × A → R+ o también
llamada función de costo o error.
Para cada θ1 , θ2 ∈ A, L(θ1 , θ2 ) cuantifica el error de estimar θ2

cuando el parámetro real es θ1 . Dada una regla de decisión: ϕ : X → A
y dado un θ que determina las estadı́sticas de las observaciones
X ∼ PX|Θ (·|Θ = θ), definimos el riesgo promedio condicionado a θ
como:
 Z


 L(θ, ϕ(x))fX|Θ (x|θ)dx
|X



 {z }
Caso espacio continuo con f.d.p condicional

R(θ, ϕ) ≜ E(L(θ, ϕ(X))|Θ = θ) = X


 L(θ, ϕ(x))PX|θ (X = x|Θ = θ)



 x∈X
 | {z }
Caso espacio discreto con f.p.m condicional
(4.4)
La ecuación (4.4) representa el riesgo promedio de ϕ sobre las estadı́sti-
cas de X dado que Θ = θ. Por lo tanto R(Θ, ϕ) es una variable aleatoria
(función de Θ y X) y podemos evaluar la función de costo promedio
o Riesgo Bayesiano como el promedio de R(Θ, π) con respecto a la
variable Θ (asumiremos el caso continuo para X):
r(ϕ) ≜ EΘ (R(Θ, ϕ))

Z
= R(θ, ϕ) · fΘ (θ)dθ
ZA
= E (L(θ, ϕ(X))|Θ = θ) · fΘ (θ)dθ

A
Z Z
= L(θ, ϕ(x)) · fX|Θ (x|θ) · fΘ (θ)dxdθ
ZA ZX
= L(θ, ϕ(x))fX,Θ (x, θ)dxdθ
A X
= EΘ,X (L(Θ, ϕ(X))). (4.5)
4.3. Decisión Óptima: Distribución a Posteriori

Recapitulando, la regla óptima Bayesiana dependerá de los siguien-
tes elementos previamente introducidos:
i) PΘ distribución a priori.
ii) fX|Θ (·|θ), función de densidad de probabilidad condicional
(o de masa según sea el caso).
iii) L : A × A → R+ , función de costo.
Luego, la solución del problema de detección Bayesiana se plantea co-

mo: Luego la regla Bayesiana óptima estará dada por:
ϕ∗ = arg mı́n r(ϕ)
ϕ:X→Θ
= arg mı́n EΘ,X (L(Θ, ϕ(X))). (4.6)

ϕ:X→Θ
Por lo tanto, ϕ∗ es la regla que minimiza el riesgo Bayesiano. Si anali-

zamos de forma más detallada la función objetivo en (4.5) tenemos lo
siguiente:
Z Z
EΘ,X {L(Θ, ϕ(X))} = L(θ, ϕ(x))fX,Θ (x, θ)dxdθ
A
Z Z X
= L(θ, ϕ(x))fΘ|X (θ|x)dθfX (x)dx (4.7)

X A
Es importante notar que el término positivo presente en (4.7)

Z
L(θ, ϕ(x))fΘ|X (θ|x)dθ (4.8)
A
es función exclusiva de la evaluación de ϕ(·) en el punto x y no de los

restantes valores ϕ(y) que adopta en y ∈ X\{x}. depende exclusiva-
mente de x, y por lo tanto define el valor de ϕ(x) de forma aislada de
las otras elecciones del valor de la función. Por lo tanto minimizar (4.7)
equivale a minimizar punto a punto, es decir, dada una observación o
∀x ∈ X, ϕ∗ (x) es solución de:
Z
∗
ϕ (x) = arg mı́n L(θ, y)fΘ|X (θ|x)dθ, ∀x ∈ X
y∈A A
= arg mı́n E (L(Θ, y)|X = x) , ∀x ∈ X (4.9)
y∈A
Observación: Interpretando la regla óptima Bayesiana en (4.9), dada

una observación x, ϕ(x) es la decisión que minimiza el riesgo promedio,
respecto a la distribución a posteriori de Θ dado el evento X = x.
Por Bayes sabemos que la distribución a posteriori se obtiene

como:
fΘ,X (θ, x) fX|Θ (x|θ)fΘ (θ)
fΘ|X (θ|x) = =R . (4.10)
fX (x) fX|Θ (x|θ̃)fΘ (θ̃)dθ̃
A
De esta manera la regla de decisión óptima es solución de
fX|Θ (x|θ)fΘ (θ)dθ

Z
∗
ϕ (x) = arg mı́n L(θ, y) R , ∀x ∈ X
y∈A A fX|Θ (x|θ̃)fΘ (θ̃)dθ̃
A
Z
= arg mı́n L(θ, y)fX|Θ (x|θ)fΘ (θ)dθ, ∀x ∈ X (4.11)
y∈A A
Donde la última igualdad se tiene del hecho que fX (x) no depende de Θ.
Observación: Notar que el problema de caracterizar ϕ∗ (x) en

(4.11) equivale a encontrar la constante y ∈ A, que mejor estima Θ,
cuando ésta sigue la distribución:
Θ ∼ PΘ|X (·|x). (4.12)
En otras palabras, ϕ∗ (x) = y ∗ es el centroide óptimo o la constante

que minimiza el riesgo de estimar Θ condicionado a X = x.
En lo que sigue consideraremos distintas funciones de costos muy

usadas en estimación bayesiana las cuales nos entregarán estimadores
con expresiones cerradas.
4.3.1. Costo de Tipo Cuadrático
En este escenario estamos interesados en el error cuadrático medio,

es decir, la función de costo es L(θ0 , θ1 ) = (θ0 − θ1 )2 . En este caso
ϕ∗ se conoce como el estimador de mı́nimo error cuadrático medio o
Minimum Mean Square Error (MMSE) estimator. La ecuación (4.9) se
reduce a, tomando x ∈ X:
Z
∗
ϕ (x) = arg mı́n (θ − y)2 fΘ|X (θ|x)dθ (4.13)
y∈A A
Consideremos el siguiente operador:

Z
E(Θ|X = x) = θfΘ|X (θ|x)dθ (4.14)
A
que corresponde a la esperanza condicional de Θ dado X = x, entonces,

el argumento en (4.13) lo podemos descomponer como:
Z
(θ − y)2 fΘ|X (θ|x)dθ
AZ
= (θ − E(Θ|X = x) + E(Θ|X = x) − y)2 fΘ|X (θ|x)dθ

ZA Z
= (θ − E(Θ|X = x))2 fΘ|X (θ|x)dθ + (E(Θ|X = x) − y)2 fΘ|X (θ|x)dθ
A A
:0

Z

+ 2(E(Θ|X = x) − y) (θ − E(Θ|X
=x))fΘ|X (θ|x)dθ
A
Z
= (θ − E(Θ|X = x))2 fΘ|X (θ|x)dθ + (E(Θ|X = x) − y)2 (4.15)
A
Podemos notar que

Z
(θ − E(Θ|X = x))2 fΘ|X (θ|x)dθ = V ar(Θ|X = x) (4.16)
A
es la varianza condicional de Θ dado X = x. Por lo tanto:
ϕ∗ (x) = arg mı́n V ar(Θ|X = x) + (E(Θ|X = x) − y)2

y∈A
= arg mı́n(E(Θ|X = x) − y)2

y∈A
= E(Θ|X = x). (4.17)
La última igualdad es evidente a partir del hecho que si tomamos

y = E(Θ|X = x) la función (E(Θ|X = x) − y)2 es mı́nima tomando
valor 0.
Observación: El estimado óptimo que minimiza el error cuadráti-

co medio corresponde a:
Z
ϕM M SE (x) = E(Θ|X = x) = θfΘ|X (θ|x)dθ, (4.18)
A
que es la esperanza condicional o la esperanza de la distribución a

posteriori de Θ dado X = x.
Finalmente el riesgo Bayesiano mı́nimo o error cuadrático medio

mı́nimo (MMSE) está dado por la siguiente expresión
M M SE = mı́n EΘ,X (L(Θ, ϕ(X)))

ϕ:X→A
= mı́n EΘ,X ((Θ − ϕ(X))2 )

ϕ:X→A
Z Z
= (θ − E(Θ|X = x))2 fΘ|X (θ|x)dθ fX (x)dx
ZX A
= V ar(Θ|X = x)fX (x)dx. (4.19)
X
4.3.2. Costo Tipo Uniforme

En este escenario consideremos A = R, estamos interesados en el
error uniforme definido como:
1 si |θ − y| > ∆

L(θ, y) = 2 (4.20)
0 si |θ − y| ≤ ∆
2
∀∆ > 0. En este caso la ecuación (4.9) se reduce a, tomando x ∈ X:

y+∆/2
Z
ϕ∗M AP (x) = arg mı́n 1 − fΘ|X (θ|x)dθ
y∈A
y−∆/2
y+∆/2
Z
= arg máx fΘ|X (θ|x)dθ (4.21)
y∈A
y−∆/2
Notar que:
y+∆/2
Z
∆
fΘ|X (θ|x)dθ ≤ sup fΘ|X (θ|x) . (4.22)
θ∈A 2
y−∆/2
Por lo que el máximo se encuentra eligiendo
ϕ∗M AP (x) = arg máx fΘ|X (y|x). (4.23)

y∈A
Podemos ver entonces que esta expresión corresponde a elegir el

estimador que máximiza la distribución a posteriori (también conocida
como regla MAP o maximum a posteriori).
Nuevamente aprovechándonos de la concavidad y crecimiento del

logaritmo, además de la regla de Bayes podemos escribir (4.23) como:
ϕ∗M AP (x) = arg máx ln(fθ|X (y|x))
y∈A
fX|Θ (x|y)fΘ (y)

= arg máx ln
y∈A fX (x)

= arg máx ln fX|Θ (x|y)fΘ (y)
y∈A

= arg máx ln fX|Θ (x|y) + ln (fΘ (y)) (4.24)
y∈A
Observaciones:
La ecuación (4.24) puede resolverse aplicando el criterio de

primer orden.

El término ln fX|Θ (x|y) corresponde a la función de log-
verosimilitud visto en estimación paramétrica. Por lo tanto
el estimador M AP es una extensión del estimador de máxima
verosimilitud en el caso Bayesiano donde ahora se considera
la densidad de Θ
Ejemplo 4.1. La secuencia Xi = Θ + Wi , i = 1, ..., n es observada. El

parámetro aleatorio Θ es desconocido y sigue la siguiente función de
densidad de probabilidad a priori
(
λe−λθ , si θ > 0
fΘ (θ) =
0, ∼
donde λ > 0 y Wi ∼ N (0, σ 2 ) e independiente de Θ. Vamos a encontrar
el estimador M AP , para esto entonces debemos resolver, dado X1n = xn1

ϕ∗M AP (x1 , ..., xn ) = arg máx ln fX1n |Θ (x1 , ..., xn |y) + ln (fΘ (y))
y∈R+
(4.25)
Podemos ver que, dado Θ = y, Xi ∼ N (y, σ 2 ), luego:
n −(xi −y)2
Y 1
fX1n |Θ (x1 , ..., xn |y) = √ e 2σ2 (4.26)
i=1
2πσ
y con esto,
n
!
Y 1 −(xi −y)2
ϕ∗M AP (x1 , ..., xn ) = arg máx ln √ e 2σ2 + ln λe−λy
y∈R+
i=1
2πσ
√ n
X (xi − y)2
= arg máx −n ln 2πσ − − λy + ln(λ).
y∈R+ 2σ 2
i=1
(4.27)
Aplicando el criterio de primer orden respecto a y tenemos que:
n n
!
∂ √ X (xi − y)2 X (xi − y)
−n ln 2πσ − − λy + ln(λ) = −λ
∂y 2σ 2 σ2
i=1 i=1
(4.28)
Despejando y, obtenemos:
n
X (xi − y)
−λ=0
σ2
i=1
n
X
xi − yn − λσ 2 = 0
i=1
n
xi − λσ 2
P
i=1
y= , (4.29)
n
Por lo tanto,
n
Xi − λσ 2
P
i=1
ϕ∗M AP (X1 , ..., Xn ) = . (4.30)
n
4.3.3. Costo Tipo Absoluto

En este escenario consideremos nuevamente A = R, estamos intere-
sados en el error absoluto de la forma, dado y, θ ∈ A, L(θ, y) = |θ − y|.
En este caso la ecuación (4.9) se reduce a, tomando x ∈ X:
Z∞
ϕ∗abs (x) = arg mı́n |θ − y|fΘ|X (θ|x)dθ (4.31)
y∈A
−∞
Notar que el argumento en (4.31) se puede descomponer de la siguiente

manera:
Z∞ ϕ∗abs
Z (x) Z∞
|θ−y|fΘ|X (θ|x)dθ = (y−θ)fΘ|X (θ|x)dθ+ (θ−y)fΘ|X (θ|x)dθ
−∞ −∞ ϕ∗abs (x)
(4.32)
Por lo que al establecer las condiciones de primer orden se obtiene que
ϕ∗abs
Z (x) Z∞
fΘ|X (θ|x)dθ = fΘ|X (θ|x)dθ (4.33)
−∞ ϕ∗abs (x)
Este resultado nos indica que el estimador óptimo corresponde a la

mediana de la densidad de probabilidad a posteriori.
4.4. Caso de Estudio: Distribución Conjunta Normal Multi-

variada
En este ejemplo analizaremos la extensión de la distribución
normal multivariada a densidades condicionales, el gran resultado es
que si se posee un vector aleatorio de distribución normal, entonces la
distribución condicional también será normal.
Sea X e Y vectores aleatorios1 con valores en Rn y Rm respec-

tivamente, con distribución normal multivariada y parámetros
N (µX , ΣX ) ⇒ µX = E(X) kX = E((X − µX )(X − µX )t )

N (µY , ΣY ) ⇒ µY = E(Y ) kY = E((Y − µY )(Y − µY )t ) (4.34)

X
Adicionalmente consideremos la concatenación Z = con valores
Y
en Rn+m cuya distribución conjunta es Normal y además:

µX
µZ = E(Z) = (4.35)
µY
1 Paraevitar sobercargar la notación, utilizaremos por esta vez X e Y en vez de X1n e Y1m ,
respectivamente. Por lo tanto se utilizarán operaciones matriciales.
4.4. Caso de Estudio: Distribución Conjunta Normal Multivariada 121
kZ = E((Z − µZ )(Z − µZ )t )

kX kXY
= (4.36)
kY X kY
Donde
kY X = E((Y − µY )(X − µX )t ) ∈ Mm×n (4.37)
kXY = E((X − µX )(Y − µY )t ) ∈ Mn×m (4.38)

Entonces se tiene que la distribución de Y dado X = x es Gaussiana
de parámetros:
−1
µY |X (x) = E(Y |X = x) = µY + kY X kX (x − µX ) (4.39)
y la covarianza es:
−1
kY |X = E((Y −µY |X (X))(Y −µY |X (X))t ) = kY −kY X ·kX ·kXY (4.40)
Observaciones:
1- Notar que un corolario de este resultado es que el estimador

MMSE de Y dado X es un operador de la observación x
2- El error cuadrático medio o rieso Bayesiano tomando el costo
cuadrático está dado por la expresión (4.40)
Demostración: Podemos utilizar la definición de distribución normal

multivariada y probabilidad condicional para caracterizar la densidad
condicional Y dado X, ası́ tenemos que:
fZ=(X,Y ) (x, y)
fY |X (y|x) =
fX (x)
1
=
[(2π)m |kZ |]1/2 |kX |−1/2
" t #!
1 x − µX x − µ X
· exp − kZ−1 −1
− (x − µX )t kX (x − µX )
2 y − µY y − µY
(4.41)
Vamos a utilizar el siguiente resultado válido para inversas de bloques

de matrices:
−1
kX kXY A B
kZ−1 = = (4.42)
kY X kY Bt C
donde:
C ≜ kY−1|X = (kY − kY X kX
−1
kXY )−1 .
−1 −1
A = kX + kX kXY kY−1|X kY X kX
−1
.
−1
B = −kX kXY kY−1|X
Si aplicamos este resultado en (4.41) se tiene que
1
fY |X (y|x) =
[(2π)m |kZ |]1/2 |kX |−1/2

1
· exp − (x − µX )t A(x − µX ) + 2(x − µX )t B(y − µY )
2
−1
+(y − µY )t C(y − µY ) − (x − µX )t kX

(x − µX )
1
=
[(2π) |kZ |]1/2 |kX |−1/2
m

1h −1 −1
· exp − (x − µX )t (kX + kX kXY kY−1|X kY X kX
−1
)(x − µX )
2
−1
− 2(x − µX )t kX kXY kY−1|X (y − µY ) + (y − µY )t kY−1|X (y − µY )
−1
−(x − µX )t kX

(x − µX )
1
=
[(2π) |kZ |]1/2 |kX |−1/2
m

1h −1
· exp − (x − µX )t kX kXY kY−1|X kY X kX
−1
(x − µX )
2
i
−1
−2(x − µX )t kX kXY kY−1|X (y − µY ) + (y − µY )t kY−1|X (y − µY )
(4.43)
Al ver la estructura dentro de la exponencial identificamos una forma

−1
cuadrática. Llamemos provisoriamente P = kY X kX (x − µX ) y T =
4.4. Caso de Estudio: Distribución Conjunta Normal Multivariada 123
y − µY , tenemos que:
i
1 1h
fY |X (y|x) = exp − P t kY−1|X P − 2P t kY−1|X T + T t kY−1|X T
[(2π)m |kZ |]1/2 |kX |−1/2 2

1 1
= exp − (P − T )t kY−1|X (P − T )
[(2π)m |kZ |]1/2 |kX |−1/2 2
(4.44)
Identificamos:
−1
P − T = kY X kX (x − µX ) − y + µY
−1
= −(y − (µY + kY X kX (x − µX )))
= −(y − µY |X (x)), (4.45)
−1
donde se definió µY |X (x) ≜ µY + kY X kX (x − µX ) con lo que:

1 1 t −1
fY |X (y|x) = exp − (y − µY |X (x)) kY |X (y − µY |X (x))
[(2π)m |kZ |]1/2 |kX |−1/2 2
(4.46)
Ahora basta ver que, por propiedades de determinantes en bloques:
−1
|kZ | = |kX ||kY − kY X kX kXY | = |kX ||kY |X |. (4.47)
Deducimos entonces que:

1 1 t −1
fY |X (y|x) = exp − (y − µY |X (x)) kY |X (y − µY |X (x))
[(2π)m |kZ |]1/2 |kX |−1/2 2

1 1 t −1
= 1/2 exp − 2 (y − µY |X (x)) kY |X (y − µY |X (x))
(2π)m |k |
Y |X
(4.48)
Por lo que encontramos una estrutura de una distribución normal mul-
tivariada cuyos parámetros son:
Y |X ∼ N (µY |X (X), kY |X ), (4.49)
donde
−1
kY |X ≜ kY − kY X · kX kXY (4.50)
y
−1
E(Y |X) ≜ µY |X (X) = µY + kXY kX (X − µX ) (4.51)
4.5. Problemas
con estimación Bayesiana.
Problema 4.1. Considere la siguiente función de densidad condicional

definida como:
(
e−(θ−x) , si θ > x
fΘ|X (θ|x) =
0, si x > θ
Encuentre el estimador de mı́nimo error cuadrático medio y MAP.
Problema 4.2. Considere que X ∼ N (θ, K) con valores en Rm , donde

θ es el vector de media y K una matriz de covarianza (invertible). Con-
sidere que conocemos K y queremos estimar θ por medio de mediciones
lineales indirectas dadas por el siguiente modelo:
Z1n = HX + N1n (4.52)
donde H es una matriz de n × m y N1n ∼ N (0, σ 2 · In×n ), y N1n es

independiente de X1n (Este modelo se conoce como Canal Lineal más
Ruido Aditivo Gaussiano).
a) Verifique que Z1n ∼ N (µZ , KZ ) y determine especı́ficamente

su vector de media y matriz de covarianza como función de
σ 2 ,H, K y θ.
b) Asuma que n > m y que H es de rango completo. Adicional-
mente considere K, H y σ 2 conocidos. Con esto determine
una expresión para el estimador de máxima verosimilitud
dada una observación de Z1n .
Indicación: Reduzca el problema a un problema tipo mı́ni-
mos cuadrados y con ello utilice la expresión cerrada que da
solución a ese criterio.
c) En el mismo escenario del modelo aditivo presentado en
(4.52), considere en cambio el problema de estimar X (va-
riable de estado) como función de una observación de Z1n
4.5. Problemas 125
dados todos los parámetros θ, K, H y σ 2 conocidos. Para

ello primero determine una expresión para:
KXZ = E (X − θ) · (Z − µZ )t .

d) Finalmente obtenga una expresión para el estimador de mı́ni-

mo error cuadrático medio (MMSE) de X dada una obser-
vación Z1n .
Problema 4.3. Considere un cuerpo radiactivo que emite θ partı́cu-

las, con θ ∈ N. Para detectar las partı́culas emitidas, se cuenta con un
detector imperfecto, el cual detecta cada partı́cula emitida de forma
independiente. Para modelar el proceso de detección, consideremos la
variable aleatoria Bi que toma el valor 1 si la partı́cula i-ésima fue
detectada y 0 si no, donde Bi distribuye Bernoulli de parámetro p
(PBi (Bi = 1) = p).
Finalmente, la variable de observación X es el número de partı́culas

totales detectadas dada por
θ
X
X= Bi ∈ {0, · · · , θ}
i=1
Notar que dados p y θ conocidos, X distribuye binomial de parámetros

p y θ, es decir:
θ k
PX (X = k) = p (1 − p)θ−k
k
Considere el problema de estimar la cantidad de partı́culas emitidas θ
asumiendo conocido p, pero en un contexto Bayesiano, donde la canti-
dad de partı́culas emitidas distribuye Poisson de parámetro λ conocido,
es decir:
λθ −λ
PΘ (Θ = θ) = e , ∀θ ∈ {0, 1, 2, · · · }
θ!
Luego, se busca el estimador que minimice el error cuadrático medio
ϕM M SE (X), dada una observación de X. Para ello, siga los siguientes
pasos:
a) Determine la probabilidad conjunta PX,Θ (X = k, Θ = θ)

y con ello muestre que la variable aleatoria X (número de
partı́culas detectadas) distribuye Poisson de parámetro λp,
es decir:
(λp)k −λp
PX (X = k) = e ∀k ∈ {0, 1, 2, · · · }
k!
b) Muestre que:
(λ(1 − p))θ−k −λ(1−p)

PΘ|X (Θ = θ|X = k) = e , si θ ≥ k
(θ − k)!
y
PΘ|X (θ|k) = 0 si θ < k
y con ello obtenga ϕM M SE (X). Comente sobre los regı́menes
p≈1yp≈0
Problema 4.4. La secuencia Xi , i = 1, ..., n es observada y sigue la

siguiente función de densidad de probabilidad condicionada a Θ = µ
1 −(x−µ)2
fX|Θ (x|µ) = √ e 2σ 2
2πσ 2
Las observaciones son independientes cuando son condicionadas por µ.
La media µ sigue una distribución a priori
µ ∼ N (µ0 , σ02 ).
Encuentre el estimador de mı́nimo error cuadrático medio y MAP para

µ.
Referencias
[1] Breiman, L. (1992). “Probability”.

[2] Meyer, P. (1992). “Probabilidad y Aplicaciones Estadisticas”.
[3] Ross, S. (1997). “A First Course in Probability”.
[4] Todd K. Moon & W. C. Stirling, “Mathematical methods and algorithms for
signal processing”, NJ: Prentice hall, USA, 2000.
[5] Ravi R. Mazumdar, (2002) “Notes on Probability and Stochastic Proces-
ses,”Purdue University.
[6] Jaime San Martı́n, “Teorı́a de la medida”, Editorial Universitaria, Chile, 2018.
[7] Gray, R. y Davisson. L.D. (2004). “An Introduction to Statistical Signal Pro-
cessing”.
[8] Gray, R. (2009). “Probability, Random Process and Ergodic Properties”, se-
cond edition.
[9] Espinosa, S. (2023). “Probabilidad y Procesos Estocásticos”, versión 1.0.
Agradecimientos especiales para:
127

Apunte Deteccion y Estimacion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte Deteccion y Estimacion

Cargado por

Copyright:

Formatos disponibles

Facultad de Ciencias Fı́sicas y Matemáticas

Departamento de Ingenierı́a Eléctrica

Sebastián Espinosa y Jorge F. Silva1

1. Unidad I: Detección Paramétrica 1

1.1. Formalización del Problema de Detección Paramétrico 2

2. Unidad II: Detección Bayesiana 38

3. Unidad III: Estimación Paramétrica 59

4. Unidad IV: Estimación Bayesiana 111

El problema de detección se entiende como el problema de inferir

Para que el problema de inferencia sea definido como de detec-

Ejemplos emblemáticos del problema de detección son el proble-

En estas notas cubriremos dos alternativas clásicas para plantear

y abordar el problema de detección: las llamadas variante paramétri-

1.1. Formalización del Problema de Detección Paramétrico

Un espacio de observación X y variables aleatorias que toman

El objetivo es decidir, a partir de observación(es) si θ = 0 o bien θ = 1.

Matemáticamente el problema se suele describir como:

En adelante nos gustarı́a establecer un criterio para decidir una

π(x1 , ..., xn ) = 0 (Aceptar H0 )

απ ≡ PX1n (π(X1n ) = 1|θ = 0)

= EX1n (π(X1n )|θ = 0)

Notar que απ es la probabilidad “condicional”1 . de que la regla

βπ ≡ PX1n (π(X1n ) = 1|θ = 1)

= EX1n (π(X1n )|θ = 1)

Los argumentos para obtener las igualdades en (1.4) son análogos al

A partir de las dos definiciones anteriores podemos introducir el con-

Definición 1.3. Consideremos un test π de tamaño απ , i.e.,

απ = EX1n (π(X1n )|θ = 0). (1.5)

1 En rigor no es una probabilidad condicional debido a que θ no es una variable aleatoria.

απ̃ = EX1n (π̃(X1n )|θ = 0) ≤ απ (1.6)

3 F (X, Θ) es el conjunto de reglas que van de X a Θ

Por lo tanto si π es solución al problema (1.8) entonces ofrece el

La pregunta que se debe resolver ahora es de qué manera pode-

1.2. Lema de Neyman Pearson

1.2.1. Test Aleatorios

En adelante consideraremos X como un espacio arbitrario numérico

Definición 1.4. Un test o regla π̃ : Ω × X −→ Θ se dice aleatorio si

Una función de 3 estados ϕ : X −→ {0, 1, 2}

Luego el test aleatorio se puede escribir, ∀x ∈ X, como

π̃(w, x) = 1ϕ−1 ({1}) (x) + ρ(w) · 1ϕ−1 ({2}) (x), (1.9)

donde 1A (x) es la función indicatriz del conjunto A ⊂ X. Por otro

Un test aleatorio se puede ver como un test de tres estados

De (1.9) podemos notar que cuando x ∈ ϕ−1 ({0}) ⇒ π̃(w, x) = 0,

Por tanto solo cuando x ∈ ϕ−1 ({2}), el test ofrece un comporta-

Redefiniendo A0 ≡ ϕ−1 ({0}), A1 ≡ ϕ−1 ({1}), A2 ≡ ϕ−1 ({2}),

completamente por una partición del espacio {A0 , A1 , A2 } y p que es

En este contexto el tamaño del test esta dado por:

Figura 1.2: Partición de X inducida por una regla de decisión

απ̃ ≡ P(π̃(w, X(w)) = 1|θ = 0)

donde se asume que ρ(w) es independiente a X(w) y por tanto el

5 Recordar que en una distribución Bernoulli el parámetro p corresponde al valor esperado

Es posible también escribir el tamaño de la siguiente manera:

απ̃ ≡ P(X(w) ∈ A1 |θ = 0) + p · P(X(w) ∈ A2 |θ = 0)

análogamente, el poder del test esta dado por:

βπ̃ ≡ P(π̃(w, X(w)) = 1|θ = 1)

Es posible construir un test aleatorio por medio de la composición o

Proposición 1.1. Sea π̃ un test aleatorio caracterizado por

π̃(w, x) = π1 (x)(1 − ρ(w)) + π2 (x)ρ(w). (1.16)

Por otro lado, la combinación lineal de test aleatorios es un test alea-

6 Notar que π1 y π2 son determinı́sticos en el sentido que no dependen de ρ.

Proposición 1.2. Sea ρ(w) una variable aleatoria binaria arbitraria y

π12 (w, x) = π1 (w, x) · 1{0} (ρ(w)) + π2 (w, x) · 1{1} (ρ(w)) (1.17)

1.2.2. Resultado Principal

Si X1n siguen una distribución discreta la verosimili-

Si X1n siguen una distribución continua la verosimili-