Está en la página 1de 29

PROCESAMIENTO DIGITAL DE

SEÑALES
1 ESTADÍSTICA BÁSICA

Distribución Normal Caracterizada por una media μ y desviación estándar σ .


Distribución Normal Estándar Con media 0 y desviación estándar 1.
X−μ
Conversión Z=
σ
Para el promedio de una muestra de tamaño n de alguna población con media μ y
σ
desviación estándar σ , el error estándar es
√n
X−μ
Z=
σ
√n
Tablas Z
Acumulados desde la media: Probabilidad de que una estadística esté entre 0
(media) y z. Ej: P ( 0 ≤ Z ≤ 0.69 ) =0.2549
Acumulados: Probabilidad de que una estadística sea menor que z. Ej:
P ( Z ≤ 0.69 )=0.7549
Acumulados complementarios: Probabilidad de que una estadística sea mayor que
z. Ej. P ( Z ≥ 0.69 )=1−P ( 0.69 ≤ Z ) =1−0.7549=0.2451
Fórmulas útiles
1
f ( z )=ϕ ( z )−
2
x
ϕ μ ,σ ( x )= ∫ φ μ , σ ( u ) du , xϵ R
2 2

−∞

2
x −(u−μ)

( x )= 1 ∫ e
2

ϕ μ ,σ du , xϵ R
σ √ 2 π −∞
2

ϕ μ ,σ : función de distribución
2

φ μ , σ : densidad de probabilidad
2
2
−(x−μ )

( x )= 1 e
2
También se define la distribución normal como: φ μ , σ 2σ
, xϵ R
σ √2 π
2

1 −x 2

Normal estándar: φ ( x )=φ0 ,1 ( x )= e , xϵ R


√2 π
1
φ ( x )=φ0 ,1 ( x )= ¿
2
También se tiene Q ( x )=1−φ ( x )
Nota:
1. En el intervalo [ x−σ , x+ σ ] se encuentra el 68.28% de la distribución.
2. En el intervalo [ x−2 σ , x +2 σ ] se encuentra el 95.44% de la distribución.
3. En el intervalo [ x−3 σ , x+3 σ ] se encuentra el 99.74% de la distribución.
Intervalo de Confianza
Es el intervalo [−z , z ] entre los cuales Z tiene probabilidad 1−α .
Generalmente se toma 1−α=0.95
Ejemplo 1: Se llena una taza con 250 g. Se considera el llenado como una
variable aleatoria que se ajusta a una distribución normal N(250, 2.5).
Se toman 25 muestras:
25
1
^μ= X= ∑ x =250.2
25 i =1 i
σ 2.5
El error estándar es: = =0.5
√n 5
X−μ X −μ
Z= =
σ 0.5
√n
Hallar [−z , z ] entre los cuales Z tiene una probabilidad 1−α .
Sol: Sea 1−α=0.95, entonces P (−z ≤ Z ≤ z )=1−α =0.95
P (−z ≤ Z ≤ z )=P ( Z ≤ z )−P ( Z ≤−z ) =P ( Z ≤ z )−P(z ≤ Z )
P (−z ≤ Z ≤ z )=P ( Z ≤ z )−(1−P ( Z ≤ z ))
P (−z ≤ Z ≤ z )=2 P ( Z ≤ z )−1=1−α
α 0.95+1
P ( Z ≤ z ) =1− = =0.975
2 2
Entonces de la tabla acumulada z=ϕ−1 ( ϕ ( z ) )=ϕ−1 ( ϕ ( z ) 0.975 )=1.96
X−μ
P (−z ≤ Z ≤ z )=P(−1.96 ≤ ≤ 1.96)
σ /√n

P ( X −1.96 σ / √ n ≤ μ ≤ X +1.96 σ / √ n )=P ( X −1.96∗0.5≤ μ ≤ X +1.96∗0.5 )


¿ P ( X−0.98≤ μ ≤ X +0.98 ) =P (250.2−0.98 ≤ μ ≤250.2+ 0.98)
El valor 250 está dentro del intervalo de confianza.
El error máximo se calcula como 0.98.
Ejemplo 2: X N (μ , σ ), hallar P(μ−3 σ ≤ X ≤ μ+3 σ )

(
Sol: P ( μ−3 σ ≤ X ≤ μ+ 3 σ )=P −3 ≤
X −μ
σ )
≤ 3 =P(−3 ≤ Z ≤3)

¿ P ( Z ≤3 )−P( Z ≤−3)

Pero P ( Z ≤−3 )=P(Z ≥ 3) por simetría y P ( Z ≥3 )=1−P ( Z ≤ 3 ), entonces


P (−3 ≤ Z ≤ 3 ) =2 P ( Z ≤ 3 )−1

Por tablas tenemos que P ( Z ≤3 )=0.9987 , así 2 P ( Z ≤ 3 ) −1=0.9974


Ejemplo 3: Sea X N (4 , 2), calcular α tal que P ( 4−α ≤ X ≤ 4 +α )=0.5934

Sol: P ( 4−α ≤ X ≤ 4 +α )=P ( 4−α−4


2

X −4 4+ α−4
2

2 )=P (
−α
2
≤Z ≤ )
α
2

¿ 2 P ( Z ≤ )−1=0.5934
α
2

P ( Z ≤ )=0.7967
α
2
α
Por tablas =0.83, es decir α =1.66
2
Ejemplo 4: La temperatura en el mes de junio es modelada como una variable
aleatoria X N (23 0 , 50 ). Calcular el número de días con temperatura entre 21 y 27
grados.

Sol: P ( 21≤ X ≤ 27 )=P ( 21−23


5
≤X≤
2 )
27−23
=P(−0.4 ≤ Z ≤ 0.8)

¿ P ( Z ≤ 0.8 ) + P ( Z ≤ 0.4 )−1

Por tablas P ( Z ≤ 0.8 )=0.7881 , P ( Z ≤0.4 )=0.6554


Así P ( 21≤ X ≤ 27 )=P (−0.4 ≤ Z ≤ 0.8 ) =0.4435
Por lo tanto, el número de días con temperatura entre 21 y 27 grados será:
n [dias ]=0.4435∗30[dias]
n [ dias ] =13 [dias]
Repaso de funciones
Inversa de una función
Sean Ω , Ω' dos conjuntos, y X : Ω→ Ω' una función. La función de conjunto,
−1 '
X : P(Ω )→ P(Ω)
Definida como

X ( B )= { ω ∈Ω| X (ω)∈ B}, ∀ B ∈ P( Ω )


−1 '

se denomina inversa de X. Al conjunto X −1 ( B ) ⊆Ω se le denomina imagen inversa


de B.
NOTA: Obsérvese que X es una función puntual pero X −1 transforma conjuntos en
'
Ω en conjuntos en Ω , es decir, es una función de conjunto. A veces, por abuso de
lenguaje, la llamaremos función inversa de f, pero no ha de confundirse con la
correspondencia inversa.
La función inversa verifica
1. X −1 ( ∅ )= ∅
2. X −1 ( A c ) =( X−1 ( A ) )c
3. X ( ∪ i=1 Ai ) =∪i =1 X ( A i)
−1 ∞ ∞ −1

4. X ( ∩i=1 A i) =∩i=1 X ( A i)
−1 ∞ ∞ −1

−1 −1
5. A1 ⊆ A 2 ⇒ X ( A ¿¿ 1)⊆ X ( A ¿¿ 2) ¿ ¿
6. A1 ∩ A 2= ∅ ⇒ X−1 ( A1 )∩ X−1 ( A¿¿ 2)= ∅ ¿
7. Si F ' es un σ -álgebra sobre Ω' entonces,
X −1 ( F ' )={ X−1 ( A )| A ∈ F' }
es un σ -álgebra sobre Ω .
Nota: Un σ -álgebra sobre un conjunto Ω es una familia A ⊆ P(Ω) no vacía de
subconjuntos de Ω , cerrada bajo complementarios y uniones numerables.
Un σ -álgebra sobre un conjunto Ω no vacío es una familia A ⊆ P(Ω) no vacía de
subconjuntos de Ω que verifica:
1. Ω ∈ A (contiene al total)
2. A ∈ A ⇒ A c =Ω ¿ ∈ A (cerrada bajo complementarios)
3. An ∈ A ∀ n ∈ N ⇒ ∪ n ∈N A n ∈ A (cerrada bajo uniones numerables)
Al par (Ω, A ) se le llama espacio medible o espacio probabilizable, en función del
contexto.
A los elementos de A se les llama conjuntos A -medibles (o simplemente conjuntos
medibles). En un contexto probabilístico, se les suele llamar sucesos.
Funciones medibles. Variables aleatorias
Dados dos espacios medibles ( Ω , F ) y (Ω' , F ' ), diremos que la función X : Ω→ Ω' es
medible si verifica
−1 '
X ( B ) ∈ F ∀ B∈ F
Ya que los σ -álgebra desempeñan un papel fundamental para que una función sea
medible o no, se suele emplear la notación,
' '
X : (Ω , F )→( Ω , F )
Para resaltar las estructuras medibles, y la dependencia que tiene la definición
anterior de dichas estructuras.
Dados dos espacios medibles ( Ω , F ) y ( Ω' , F ' ), sea X : Ω→ Ω' una función, y C ⊆ F '
una clase de sucesos tal que σ ( C )=F . En estas condiciones, X es medible si y
solo si
−1
X ( B ) ∈ F ∀ B∈ C
Definición. Diremos que la función
X : ( Ω, F ) →(R , B ( R ))
es una variable aleatoria si verifica
−1
X ( B ) ∈ F ∀ B∈ B ( R )
Corolario. La función,
X : ( Ω, F ) →(R , B ( R ))
es variable aleatoria si y solo si,

X ( (−∞ , x ] )={ ω ∈ Ω| X (ω)≤ x }∈ F ∀ x ∈ R


−1

σ -álgebra de Borel
Si (X , T ) es un espacio topológico, la σ -álgebra B=σ (T ) se denomina σ -álgebra
de Borel.
A sus elementos se les llama conjuntos de Borel o borelianos.
Definición. Una función g : R → R se denomina medible Borel o Borel medible si
verifica
−1
g (B )∈ B ( R ) ∀ B ∈ R
Es decir, es una función real de variable real, medible en relación al σ -álgebra de
Borel que define las estructuras medibles.
Según el resultado anterior, bastará que se cumpla g−1 ( A ) ∈ B ( R ) para todo A de
alguna clase de subconjuntos de R que genere a los borelianos. Al ser los abiertos
(de la topología usual en R ) una de tales clases, se tiene obviamente que toda
función real de variable real, continua, es medible Borel. Es decir,
Corolario. Si la función
g:R→R
Es continua (con la topología de los intervalos abiertos), entonces es medible
Borel.
Si X : ( Ω, F ) →(R , B ( R )) es una variable aleatoria y g es una función real de
variable real, medible Borel, entonces la composición g ∘ X =g ( X ) : ( Ω , F ) →(R , B ( R ) )
, es también variable aleatoria.
Corolario. Si X : ( Ω, F ) →(R , B ( R )) es una variable aleatoria, c ∈ R , n ∈ N y h :R → R
es una función polinómica, entonces también son variables aleatorias: c
(considerada como función constante), X + c , cX ,|X| , X n y h( X) .

Si X , Y : ( Ω , F ) →( R , B ( R ) ) son variables aleatorias, entonces también son variables


aleatorias
X −¿=máx{−X , 0}=−mín {X , 0} ¿

X +Y , X −Y , XY , ( supuesto que { ω ∈ Ω|Y ( ω )=0 }=∅ ¿ , máx {X , Y }, mín {X , Y }, X


+¿=máx { X ,0 } y X ¿
Y
.
Probabilidad asociada a una variable aleatoria. Función de distribución
Definición. Sea (Ω, F , P) un espacio de probabilidad X : ( Ω, F ) →(R , B ( R )) una
variable aleatoria. La función,
Px : B (R )→ R

Definida como

P X ( B )=P ( X−1 ( B ) ) , ∀ B ∈ B ( R )

se denomina probabilidad asociada a, o inducida por, la variable aleatoria X .


La función P X está bien definida y (R , B ( R ) , P X ) es un espacio de probabilidad.
Definición. El espacio de probabilidad (R , B ( R ) , P X ), previamente construido, se
denomina espacio de probabilidad asociado a, o inducido por la variable aleatoria
X.

NOTA. La probabilidad P X , definida sobre B ( R ) se denomina genéricamente


distribución de probabilidad de X o distribución de X .
Definición. Dada una variable aleatoria X : Ω→ R , la función real de variable real
F X ( x )=F ( x )=P X ( (−∞, x ] ) ∀ x ∈ R

se denomina función de distribución de X .


Propiedades básicas de la función de distribución. La función de distribución
F, previamente definida, presenta las siguientes propiedades.
1. Es monótona creciente (o no decreciente).
2. ∃ lim F ( x )=0 , ∃ lim F ( x )=1
x→−∞ x →−∞
3. Es continua por la derecha, es decir, ∀ a ∈ R
∃F ¿
Propiedades adicionales de la función de distribución. La función de
distribución X verifica las siguientes propiedades
1. Tiene límite por la izquierda en todo punto a ∈ R . Dicho límite es
F¿
que en general es distinto de F ( a )
Por consiguiente, presenta a la sumo una discontinuidad de primera espeie
(o de salto) en todo punto a ∈ R , siendo la magnitud del salto.-
F¿
2. Si dos funciones de distribución, X F Y verifican que F X (x )=FY (x ), ∀ x ∈ D
F y
siendo D un subconjunto denso en R , entonces F X (x )=FY ( x ), ∀ x ∈ R.
3. El conjunto de puntos de discontinuidad de una función de distribución es
numerable.
4. Si F X y F Y son dos funciones de distribución, C X y C Y sus respectivos
conjuntos de puntos de continuidad y F X ( x )=FY ( x ) ∀ x ∈ R .
NOTACIÓN ABREVIADA PARA VARIABLES ALEATORIAS: El tratamiento
de variables aleatorias tiene su notación especial abreviada a la que hay que
acostumbrarse. Así, para abreviar el conjunto X −1 ( B )= { ω ∈Ω| X (ω)∈ B} se
escribe [ X ∈ B ] ó { X ∈ B }. Usaremos [ X ∈ B ] .

X ( (−∞ , x ] )={ ω ∈ Ω| X (ω)≤ x }=[ X ≤ x ]


−1

 −1
X ¿
X ( ¿ ) ={ ω ∈ Ω|a< X (ω)≤b }=[a< X ≤ b ]
−1

X ( { x })= X ( x ) ={ ω ∈ Ω| X ( ω )=x }=[X =x ]
−1 −1

c
 X −1 ( ( a ,+ ∞ ) )= { ω ∈Ω| X ( ω ) >a }=[ X > a ] = {ω ∈ Ω| X ( ω ) ≤ a } =[X ≤ a] c

A partir de la función de distribución asociada a X es posible calcular, de manera


simple, probabilidades asociadas a dicha variable aleatoria. Suponemos
a , b ∈ R , a<b.

P [ X ≤b ] =P ( X ( (−∞ , b ] ) ) =P X ( (−∞ , b ] ) =F(b)


−1

 P [ X <b ] =P ( X −1 ((−∞ , b) ) ) =P X ( (−∞ , b) )=F ¿
P [ a< X ≤ b ]=P ( X ( ( a , b ] ) ) =P X ( ( a ,b ] )=P X ( (−∞ , b ] −(−∞ , a ] )
−1

¿ P X ( (−∞ , b ] ) −P X ¿ ¿=F (b)−F(a)

NOTA: Las posibles discontinuidades de F son de salto. Así, si x es un punto de


continuidad de F entonces P [ X=x ] =0 . En caso contrario P [ X=x ] = p>0 , siendo
precisamente p la magnitud del salto. Por supuesto, si F es continua en R ,
tendremos P [ X=x ] =0 , ∀ x ∈ R .

Teorema: Si X : ( Ω, A , P ) →( R , B , P X ) es una variable aleatoria y g : ( R , B ) → ( R , B ) es


una función medible, entonces Y =g ( X ) : ( Ω, A , P ) → ( R , B ) es una variable aleatoria.
Demostración
−1
∀ B ∈ B , Y ( B )=¿
Por lo tanto, Y es medible y, puesto que está definida sobre un espacio de
probabilidad es una variable aleatoria.
Planteamos el problema de obtener la distribución de probabilidad de Y a partir de
la de X. En teoría, el problema se resuelve de forma inmediata mediante el
siguiente teorema general.
Teorema general del cambio de variable.

Sea X : ( Ω, A , P ) → ( R , B , P X ) una variable aleatoria y g : ( R , B ) → ( R , B ) una función


medible. Sea Y =g (X ), entonces
−1
 ∀ B ∈ B , PY ( B )=P X (g ( B ) )
 ∀ y ∈ R , F Y ( y )=P X ¿

Demostración

 PY ( B ) =P [ Y ( B ) ]=P [ X−1 ( g−1 ( B ) ) ]=P X (g−1 ( B ))


−1

F Y ( y )=PY ( (−∞ , y ] ) =P X (g ( (−∞ , y ] ) )


−1

En la práctica trabajaremos con funciones masa de probabilidad o funciones de
densidad, interesa, por tanto, especificar las fórmulas de cambio de variable para
tales casos.
CAMBIO DE VARIABLE DISCRETO
Teorema

Si X : ( Ω, A , P ) → ( R , B , P X ) una variable aleatoria discreta,

Distribución Chi Cuadrado


Sea {x [ 0 ] , x [ 2 ] , … , x [ N−1 ] } una data con distribución N ( μ , σ 2 ).

x [ n ] −μ N −1
Hacemos z [ n ] = , entonces, la variable aleatoria X = ∑ z [n] sigue la
2
σ n=0

distribución χ n chi cuadrado con n grados de libertad, y se representa X χ 2n.


2

Sea y=ε 2 con ε =x−μ, así la función de densidad de error será


2
−ε
1 2

ϕ (ε )= e 2 σ εϵ R
√ 2 πσ
Se tiene entonces que
|ε|= √ y
1
d |ε|= dy
2√y
Definimos la función de densidad como
−y −y −1
1 2
1 1 2

g1 ( y )=2 e 2σ = e 2σ y 2
y >0
√ 2 πσ 2 √ √
y 2 πσ
Esta es la distribución chi cuadrado con un grado de libertad.
En el caso que
2 2
y=ε 1 +ε 2= y 1+ y 2

Como se quiere evaluar la probabilidad de obtener un error y , se evalúa la integral


en términos de y 1 ya que y 2= y − y 1. Como son variables independientes se
multiplican.
El límite de la integral se define por su dominio teniendo en cuenta la ecuación
Y =Y 1+Y 2.
p ( y 1 , y 2 ) =p ( y 1)∗p( y 2 )

2 ESTIMACIÓN EN PROCESAMIENTO DE SEÑALES


La teoría moderna de estimación es el corazón de muchos sistemas electrónicos
de procesamiento de señales diseñados para extraer información. Estos incluyen:
radar, sonar, habla, análisis de imágenes, biomedicina, comunicaciones, control,
sismología. Comparten un problema en común, la necesidad de estimar valores de
un grupo de parámetros.
En radar nos interesamos en la determinación de la posición de una aeronave, por
ejemplo, en radares de vigilancia de un aeropuerto. Para determinar el rango R se
transmite un pulso electromagnético que es reflejado por la nave, causando un
eco que es recibido por la antena τ 0 segundos más tarde. El rango es determinado
2R
por la ecuación τ 0= , donde c es la velocidad de la propagación
c
electromagnética. El eco recibido decrece en amplitud debido a pérdidas en la
propagación y por lo tanto puede ser enmascarado por ruido ambiental. También
puede ser perturbado por retardos de tiempo introducidos por la electrónica del
receptor. La determinación del tiempo de ida y vuelta requiere por lo tanto más
que solo un medio de detectar un salto en el nivel de potencia en el receptor. En
los sistemas actuales de procesamiento, el sistema de radar recibe una onda
continua en un computador digital que toma muestras por medio de un convertidor
análogo a digital. Una vez muestreada, la data compone unas series temporales.
Problema 1: En un sistema de radar un estimador de retardo de ida y vuelta τ 0
tiene una función de densidad de probabilidad (PDF)τ^ 0 N (τ 0 , σ τ^ ), donde τ 0 es el
0

valor verdadero. Si lo que se va a estimar es el rango, proponer un estimado ^ Ry


encontrar su PDF. A continuación, determinar la desviación estándar σ ^τ tal que el 0

99% del tiempo el rango estimado entre los 100 m sea el verdadero. Usar c=3∗108
m/s para la velocidad de la propagación electromagnética.
cτ 0 c τ^ 0
Sol: R= , usamos ^
R= .
2 2
cτ 0 c
El PDF es τ^ 0 N (τ 0 , σ τ^ ), por lo tanto ^
R N( , σ^ )
0
2 2 τ 0

Cuando se está entre los 100m debemos tener


^ ≤ 100)=0.99
P( R

( )
τ0
^
R−c
2 100
P ≤ =0.99
c c
σ σ
2 ^τ 0
2 ^τ 0

( )
100
P Z≤ =0.99
c
σ
2 τ^ 0

100
=2.58
Por tablas tenemos que c , así σ ^τ =0.26[μsec ]
σ τ^ 0

2 0

Problema 2: Un parámetro θ desconocido influencia la salida de un experimento


que es modelado por una variable aleatoria x. El PDF de x es
1 −1
p(x ; θ)= exp ⁡[ ( x−θ )2 ]
√2 π 2

Una serie de experimentos es realizada, y se encuentra que x está siempre en el


intervalo [97, 103]. Como resultado, el investigador concluye que θ debe ser 100.
¿Es correcta esta aseveración?
Sol: No. Para poder aseverar algo, debemos saber el número de mediciones
realizadas para con esto calcular el error máximo e intervalo de confianza.
Supongamos que solo se realizaron 2 mediciones, entonces para n=2 la media y
error estándar serán:
n
^ 1 ∑ x i=¿ 97+103 =100 ¿
θ=
n i=1 2
1 1
error estándar= = =0.707
√n √2
^
θ−θ 100−θ
Entonces Z= =
σ / √ n 0.707
Por lo tanto, el intervalo de confianza será
P (−z ≤ Z ≤ z )=1−α =0.95
P ( Z ≤ z ) =0.975

Así z=1.96

(
P −1.96 ≤
100−θ
0.707 )
≤1.96 =P (100−1.96∗0.707 ≤ θ ≤ 100+1.96∗.707)

P ( 100−1.38572 ≤θ ≤ 100+1.38572 ) =P (98.61 ≤θ ≤ 101.38)


El intervalo de confianza es bastante amplio ya que el error máximo es 1.38572.
Por otra parte, si n = 100
1 1
error estándar= = =0.1
√ n √100
P ( 100−1.96∗0.1 ≤θ ≤ 100+1.96∗0.1 ) =P (100−0.196 ≤θ ≤ 100+0.196)

¿ P(99.804 ≤θ ≤ 100.196)
El error máximo es 0.196 y 100 se encuentra en el intervalo. En este caso es
acertado.
Entonces, la validez depende del número de mediciones realizadas y que el valor
sea elegido u obtenido se encuentre en el intervalo de confianza.
EL PROBLEMA MATEMÁTICO DE ESTIMACIÓN
Para determinar un buen estimador, el primer paso es modelar matemáticamente
los datos.
Debido a que los datos son inherentemente aleatorios los describimos con su
función de densidad de probabilidad (PDF) o p ( x [ 0 ] , x [ 1 ] ,… [ xN −1 ] ; θ ) . El PDF es
parametrizado por el parámetro desconocido θ , es decir, tenemos una clase se
PDFs donde cada uno es diferente debido a un valor diferente de θ . Por ejemplo,
si N=1 y θ denota la media, entonces el PDF podría ser
1 −1 2
p ( x [ 0 ] ; θ)= exp ⁡[ ( x [ 0 ] −θ ) ]
√2 π σ 2

2
En la figura se muestra los PDFs para varios valores de θ . Queda intuitivamente
claro que debido a que el valor de θ afecta la probabilidad de x[0], deberíamos ser
capaces de inferir el valor de θ a partir del valor observado de x[0]. Por ejemplo, si
el valor de x[0] es negativo, es improbable que θ=θ2, un valor más razonable sería
θ=θ1. Esta especificación del PDF es crítica para determinar un buen estimador.
En los problemas actuales no se nos da un PDF pero debemos elegir uno que no
solo sea consistente con el problema y algún conocimiento a priori, sino uno que
sea también matemáticamente tratable.
Para ilustrar la aproximación consideremos la siguiente figura que corresponde a
un proceso Dow-Jones hipotético.

Se podría conjeturar, a pesar de que parece fluctuar, es en realidad “un promedio”


que se incrementa. Para determinas si esto es verdadero podemos asumir que la
data consiste de una línea recta embebida en ruido aleatorio o
x [ n ] =A + Bn+ w [ n ] n=0 , 1 , … , N −1

Un modelo razonable para el ruido es que w [ n ]sea ruido blanco Gausiano (WGN)
o que cada muestra de w [ n ] tiene un PDF N (0 ,σ 2) y no es correlacionada con
todas la otras muestras. Entonces, los parámetros desconocidos son A y B, que
arreglados como vectores se convierten en un parámetro vector θ=[ A B ]T . Dado
T
x=x [ 0 ] , x [ 1 ] …[ x [ N−1 ] ] , el PDF es
N−1
1 −1
2 ∑
2
p ( x ; θ )= N
exp ⁡[ x [ n ] − A−Bn ¿ ¿]
2 σ n=0
(2 π σ 2) 2
La elección de una línea recta para el componente de señal es consistente con el
conocimiento de que el promedio Dow-Jones se mueve alrededor de 3000 (A
modela esto) y la conjetura que se incrementa (B modela esto). El supuesto de
WGN es justificado por la necesidad de formular un modelo matemáticamente
tratable de tal manera que estimadores de forma cerrada puedan ser encontrados.
También, es razonable a no ser que exista una fuerte evidencia de lo contrario, tal
como ruido altamente correlacionado. Por supuesto que el funcionamiento de
cualquier estimador obtenido será críticamente dependiente de las suposiciones
del PDF. Solo se puede esperar que el estimador obtenido es robusto, en que
ligeros cambios en el PDF no afecten severamente el funcionamiento del
estimador.
Un estimador basado en PDFs es denominado estimación clásica ya que los
parámetros de interés son considerados determinísticos pero desconocidos. En el
ejemplo del promedio Dow-Jones sabemos a priori que la media está alrededor de
3000. Esto parece inconsistente con la realidad, entonces, se elige un estimador A
que pueda resultar en valores mayores a 2000 y menores a 4000. Podemos
restringir el estimador para producir valores de A en el rango [2800, 3200]. Para
incorporar este conocimiento a priori podemos asumir que A no es más
determinístico sino una variable aleatoria y asignarle un PDF, posiblemente
uniforme sobre el intervalo [2800, 3200]. Entonces, cualquier estimador
subsecuente dará valores en ese rango. Tal aproximación se conoce como
aproximación Bayesiana. El parámetro que intentamos estimar es entonces visto
como una realización de la variable aleatoria θ . La data es descrita por la PDF
conjunta
p ( x , θ ) =p ( x|θ ) p(θ)

donde p(θ) es la PDF a priori, que sintetiza nuestro conocimiento acerca de θ


antes que cualquier data sea observada, y p ( x|θ ) es un PDF condicional,
sintetizando nuestro conocimiento del dato x condicionado a un θ conocido.
Problema 3: Sea x=θ+ ω, donde ω es una variable aleatoria con PDF pω (ω ). Si θ
es un parámetro determinístico, encontrar el PDF de x en términos de pω y
denotarla como p(x ; θ). A continuación asumir que θ es una variable aleatoria
independiente de ω y encontrar el PDF condicional p ( x|θ ). Finalmente, no asumir
que θ y ω son independientes y determinar p ( x|θ ). ¿Qué se puede decir acerca de
p(x ; θ) versus p ( x|θ ).
Sol:
a) Como x=θ+ ω como ω=x−θ y θ es determinado, entonces
p x ( x )= pω ( w )= pω (x−θ), así el PDF es p ( x ; θ )=p ω ( x−θ).
b) Como que θ es una variable aleatoria independiente de ω
p xθ ( x , θ) p ωθ (x −θ ,θ)
p ( x|θ )= =
p (θ) p(θ)

p ω ( x−θ ) p(θ)
¿ = p ω ( x−θ )= p( x ;θ)
p(θ)
c) Si θ es una variable independiente de ω , entonces
p xθ ( x , θ) p ω∨θ ( x−θ ,θ)
p ( x|θ )= =
p (θ) p( θ)

p ω∨θ (x−θ) p(θ)


¿ = p ω∨θ (x −θ)
p(θ)
pω∨θ (x−θ) será diferente de pω (x−θ)
En general, p(x ; θ) será diferente de p(x∨θ)
Una vez especificado el PDF, el problema consiste en determinar un estimador
óptimo o función de la data. Un estimador puede depender de otros parámetros,
peros solo si son conocidos. Un estimador puede considerarse como una regla
que asigna un valor a θ para cada realización de x. El estimado de θ es el valor de
θ obtenido de la realización de x dada. Esta distinción es análoga a una variable
aleatoria (que es una función definida en un espacio de muestreo) y el valor que
toma. Aunque algunos autores distinguen entre las dos usando mayúsculas y
minúsculas.
3 EVALUACIÓN DEL FUNCIONAMIENTO DEL ESTIMADOR
Consideremos los datos de la siguiente figura
Por simple inspección, parece que x [n] consiste de un valor A de DC en ruido.
Modelamos la data como
x [ n ] =A +ω [n]
Donde ω [n] denota algún proceso de ruido con media cero. Basados en el
conjunto de datos {x [ 0 ] , x [ 1 ] , … x [ N−1 ] }, queremos estimar A. Intuitivamente,
como A es el nivel promedio de x [ n ], sería razonable estimar A como
N −1
1
^
A=
N
∑ x [n]
n=0

Surgen las siguientes preguntas:


1. ¿Cuán cerca está ^
A de A ?
2. ¿Hay mejores estimadores que la media?
De los datos encontramos que ^
A=0.9 que está cerca de A=1. Otro estimador
podría ser
A=x [0 ]
Intuitivamente, no esperaríamos que este estimador funcione muy bien ya que no
hace uso de toda la data. No hay promedio para reducir los efectos del ruido. Sin
embargo, para el conjunto de datos de la figura A=0.95, que es cercano al valor
real de A que la estimación media. ¿Podemos concluir que A es mejor estimador
que ^ A ? La respuesta es no. Debido a que un estimador es función de la data, que
son variables aleatorias, es también una variable aleatoria, sujeta a muchos
posibles resultados. El hecho de que A es un valor más cercano al valor
verdadero solo significa que para una realización dada de datos, este estimado es
más cercano al valor real que el otro. Para evaluar el funcionamiento debemos
hacerlo estadísticamente. Una posibilidad podría ser repetir el experimento que
genera la data y aplicad cada estimador a cada conjunto de datos y luego
preguntar que estimador produce el mejor estimado en la mayoría de los casos,
elaborando un histograma.

Para probar cual es mejor podríamos establecer cual tiene la menor varianza.
Debemos suponer en el modelaje que los ω [ n ] ' s , además de tener media cero, no
son correlacionadas y que tienen una varianza igual a σ 2.
Primero mostramos que la media de cada estimador es el valor verdadero
N−1
1
E(^
A ) =E(
N
∑ x [ n ])
n=0
N −1
1
¿
N
∑ E(x [ n ] )
n=0

¿A
E ( A ) =E ( x [ 0 ] )
¿A
El promedio de los estimadores produce el valor verdadero.
Segundo, las varianzas son

var ( ^
A )=var ¿
N −1
1
¿ ∑ var (x [n])
N 2 n=0
1 2
¿ 2

N
1 2
¿ σ
N
Debido a que ω [n]' s no son correlacionadas
var ( A )=var ¿
2
¿σ
¿ var ( ^
A)
Adicionalmente, si podemos asumir que ω [n] es Gausiano, se puede concluir que
la probabilidad para una magnitud de error dada es menor para ^
A que para A .
Los siguientes puntos ilustrados por el ejemplo anterior deben siempre tenerse en
cuenta.
1. Un estimador es una variable aleatoria. Su funcionamiento puede
solamente ser completamente descrita estadísticamente o por su PDF.
2. El uso de simulación por computadora para evaluar el funcionamiento de la
estimación, aunque es valiosa para ganar visibilidad y motivar conjeturas,
no es nunca conclusiva. A lo mucho, el funcionamiento verdadero puede
ser obtenido al grado deseado de precisión. Por otro lado, para un
insuficiente número de experimentos y/o errores en las técnicas de
simulación empleadas, resultados erróneos pueden ser obtenidos.
Otro tema que se encontrará repetidamente es el compromiso entre
funcionamiento y complejidad computacional. Como en el ejemplo previo, aunque
^
A tiene mejor funcionamiento, también requiere más computo. Los estimadores
óptimos son algunas veces difíciles de implementar, requieren una optimización
multidimensional o integración. En estas situaciones, estimadores alternativos que
son subóptimos, pero que pueden ser implementados en un computador digital,
pueden ser preferidos. Para una aplicación particular, el usuario debe determinar
si la pérdida en funcionamiento es sesgada por la complejidad computacional
reducida de un estimador subóptimo.
Problema 4: Se desea estimar el valor A de un nivel DC en WGN
x [ n ] =A +ω [ n ] n=0 ,1 , … N−1

Donde ω [ n ] tiene media cero y no es correlacionada, cada muestra tiene una


varianza σ 2=1.
Consideramos dos estimadores
N −1
1
^
A=
N
∑ x [n]
n=0

1
A= ¿
N +2
¿Cuál es mejor? ¿Depende del valor de A?
Sol:

E(^
A)= A
E ( A ) =A
2
1 σ
var ( ^
A )= 2 N σ =
2

N N
1 N +6 2
var ( A )= 2
( 4 σ 2+ ( N −2 ) σ 2 +4 σ 2 )= 2
σ
(N +2) ( N +2)
Tenemos entonces
2 2
N +6 1 N +6 N−N −4 N −4 2 N −4
2
− = 2
= 2
>0 para N >2
( N +2) N N ( N + 2) N ( N +2 )

Entonces ^
A tiene menor varianza y es independiente de A.
Problema 5: Para el mismo conjunto de datos del problema anterior se propone

{
2
,∧ A 2
x [0]
2
= A >1000
^
A= σ
N−1 2
1 ,∧ A

N n=0
x [n]
σ
2
2
= A <1000
2
A
La razón para este estimador es que para una relación señal-ruido alta [SNR] o 2
σ
, no se necesita reducir el efecto del ruido promediándolo y por lo tanto se puede
evitar computación adicional. Comentar esta aproximación.
Sol: La esperanza del estimador para un SNR grande es A y su varianza σ 2.
^
A− A
Haciendo Z= , el intervalo de confianza para el 95% es
σ
P (−z ≤ Z ≤ z )=0.95
De donde tenemos que z=1.96 . Así tenemos

(
P (−1.96 ≤ Z ≤ 1.96 )=P −1.96 ≤
^
A− A
σ )
≤1.96 =0.95

¿ P( ^
A−1.96∗σ ≤ A ≤ ^
A+1.96∗σ )
2
A A 1.96 A
Pero >1000 por lo cual tenemos que σ ≤ , así 1.96 σ ≤ =0.063 A .
σ
2
31 31

Es decir que el error máximo es menor al 6.3% del valor de A y para un valor
mayor de SNR este error se hace menor. En esos casos, una sola muestra puede
ser una buena elección.
4 ESTIMACIÓN NO SESGADA DE MÍNIMA VARIANZA
Se buscarán buenos estimadores de parámetros determinísticos desconocidos. Se
restringirá la atención a estimadores que en el promedio den el valor verdadero del
parámetro. El objetivo será encontrar aquel que exhiba la mínima variabilidad.
ESTIMADORES NO SESGADOS
Por estimador no sesgado entendemos que en promedio el estimador dará el valor
verdadero del parámetro desconocido. Como el valor del parámetro puede en
general estar en algún lugar en el intervalo a< θ<b , no sesgado significa que sin
importar cuál es el verdadero valor de θ , nuestro estimador lo dará en promedio.
Matemáticamente, un estimador es no sesgado si

E ( θ^ ) =θ a<θ <b
Donde (a,b) denota el rango de posibles valores de θ.
Ejemplo 1: Estimador no sesgado para nivel DC en ruido blanco Gausiano
(WGN)
Considerar las observaciones
x [ n ] =A +w [ n ] n=0 , 1, … , N−1
donde A es el parámetro a estimar y w [ n ] es WGN. El parámetro A puede tomar
cualquier valor en el intervalo −∞ < A< ∞. Entonces, un estimador razonable para
el valor promedio de x [ n ] es
N −1
1
^
A=
N
∑ x [n]
n=0

o la media muestral. Debido a las propiedades de linealidad del operador de


esperanza

[ ]
N −1 N −1
1
E(^
A ) =E
N
∑ x [ n ] = N1 ∑ E ( x [ n ] )
n=0 n=0

N −1
1
¿
N
∑ A= A
n=0

^
Una restricción importante es que E ( θ^ ) =θ para todo θ . Haciendo que θ=g (x),
T
donde x=[x [ 0 ] x [ 1 ] … x [ N −1 ] ] , se tiene que

E ( θ^ ) =∫ g ( x ) p ( x ; θ ) dx=θ para todo θ

Es posible que esto sea cierto para algunos valores de θ y no para otros.
Un estimador no sesgado no necesariamente significa que sea un buen estimador.
Solo garantiza que en el promedio obtendrá el valor verdadero. Por otro lado, los
estimadores sesgados son aquellos que son caracterizados por un error
sistemático, que presumiblemente no debería estar presente.
Criterio de la mínima varianza
En la búsqueda de estimadores óptimos se necesita adoptar algún criterio de
optimalidad. Uno muy natural es el error medio cuadrático definido como

mse ( θ^ )=E [ ( θ−θ


^ 2
)]
Esto mide el promedio de la desviación promedio cuadrática al valor verdadero del
estimador. Desafortunadamente, la adopción de este criterio natural conduce a
estimadores no realizables, que no pueden ser escritos solamente como función
de la data.

[ ]
2
mse ( θ^ )=E { ( θ−E
^ ( θ^ ) ) + ( E ( θ^ )−θ ) }

¿ var ( θ^ ) +[E ( θ^ )−θ]


2

¿ var ( θ^ ) +b 2( θ)
Que muesta que el MSE est compuesto por errores debido a la varianza del
estimador ý también como el sesgo.
Consideremos el siguiente estimador
N −1
1
^
A=a
N
∑ x [n ]
n=0

para alguna constante a. Intentamos buscar el a que da el mínimo MSE. Como


2 2
a σ
A ) =aA y var ( ^
E(^ A)= , tenemos que
N
2 2
^ a σ
(
mse A =) 2 2
+(a−1) A
N
Diferenciando con respecto a “a”
dmse( ^
A) 2 a σ 2 2
= + 2(a−1) A
da N
Luego de igualar a cero y resolver se tiene el valor óptimo
2
A
a opt = 2
2 σ
A +
N
Se puede ver que el valor óptimo “a” depende del parámetro desconocido A. Por lo
tanto, el estimador no es realizable. Aunque esto es verdadero en general, en
algunas ocasiones se puede encontrar estimadores de mínimo MSE realizables.
Para un punto de vista práctico estimadores de mínimo MSE necesitan ser
abandonados. Una aproximación alternativa es restringir el sesgo a cero y
encontrar el estimador que minimiza la varianza. Tal estimador es denominado
como estimador no sesgado de mínima varianza (MVU). Nótese que el MSE de un
estimador no sesgado es justamente la varianza.
La minimización de la varianza de un estimador no sesgado tiene también el
^ , alrededor de cero. El
efecto de concentrar el PDR del error de estimación, θ−θ
error de estimación por lo tanto será menos probable que sea grande.
FUNCIÓN GENERADORA DE MOMENTOS
La función generadora de momentos de una v.a. X es una función a valores reales
∑ tx
e p X ( x) si X es discreta
M x ( t )=E ( e tx ) ={ x∈
x

R

∫ e tx f x ( x ) dx si X es continua
−∞

Siempre para que el valor esperado exista para todo t ∈ (−h , h ) , h>0. Esta última es
una condición técnica necesaria M x (t ) sea diferenciable en 0.
Se denomina función generadora de momentos porque los momentos de X (E ( X n ))
pueden ser obtenidos derivando esta función y evaluando la derivada en t=0.
Lema: Si la función g(t) definida por

g ( t )=∑ e p ( x ) ó g ( t )= ∫ e f ( x ) dx
tx tx

x −∞

converge para todo t ∈(−h ,h) para algún h>0, entonces existen las derivadas de
orden n de g(t) para todo t ∈(−h ,h) y para todo n entero positivo y se obtienen
como

∂n g (t) n tx
∂ e ∂ n g(t ) n tx
∂ e
n
=∑ n
p ( x )ó n
=∫ n
f ( x ) dx
∂t x ∂t ∂t −∞ ∂ t

Teorema: Sea X una v.a. para la cual existe una función generadora de
momentos M x (t ), entonces

|
n

E ( X )= n M x ( t )
n

∂t t=0

Dem: Si la función generadora de momentos existe para todo t ∈(−h ,h) para
algún h>0, aplicando el lema
n n ∞
∂ M x (t) n tx
∂ e ∂ M x (t ) ∂n e tx
n
=∑ n
p ( x ) ó n ∫ n f ( x ) dx
∂t x ∂t ∂t −∞ ∂ t

n n ∞
∂ M x (t) ∂ M x (t)
=∑ x e p ( x ) ó =∫ x e f ( x ) dx
n tx n tx
n n
∂t x ∂t −∞

Evaluando estas derivadas en 0

| |
n n ∞
∂ M x (t) ∂ M x (t)
=∑ x p ( x )=E( X ) ó =∫ x f ( x ) dx=E( X )
n n n n
n n
∂t t=0 x ∂t t=0 −∞

Función generatriz de momentos de la distribución normal


La función de densidad de una v.a. X N ( μ , σ ) es
2
−1 x−μ
1 ( )
f ( x )= e 2 σ
−∞ < x <∞ ,−∞< μ< ∞ , σ >0
√2 π σ
Entonces
2
∞ −1 x− μ
1 ( ) 1
M x ( t )=E ( e )= ∫
2 2
xt
e xt e 2 σ
dx=e μt + 2 σ t
√ 2 π σ −∞
Problema 1: La data {x [ 0 ] , x [ 1 ] , … , x [ N−1 ] } es observada donde los x [ n ] ' s son
idénticamente distribuidos (IID) como N (0 ,σ 2). Deseamos estimar la varianza σ 2
como
N −1
1
σ^ 2=
N
∑ x 2 [n]
n=0

Este estimador ¿no es sesgado?. Encontrar la varianza de σ^ 2 y examinar que pasa


cuando N → ∞.
Sol:

E( σ^ )=E ¿
2

N −1
1
¿
N
∑ E(x ¿¿ 2[n]) ¿
n=0

Tenemos que

|
2
∂ M x (t)
2
=¿ ¿
∂t t =0

2 2 2
¿ σ + μ =σ ya que μ=0
Así
E(x ¿¿ 2 [n])=¿ ¿
N−1
1
E(x ¿¿ 2 [n])=
N
∑ σ 2=σ 2 ¿
n=0

El estimador no es sesgado.
Por otra parte
N−1
1
var ( σ^ 2)=var (
N
∑ x2 [ n ])
n=0

N−1
1
2 ∑
var ( x¿ ¿ 2 [ n ] ¿)¿ ¿
2
var ( σ^ )=
N n=0
Tenemos que
2
var (x ¿¿ 2 [ n ] )=E (x 2 [n ]−E(x 2 [ n ] )) ¿
2
¿ E(x [ n ] −2 x [ n ] E( x [ n ] )+ E ( x [ n ] ) )
4 2 2 2

2
¿ E ( x [ n ] )−E ( x [ n ] )
4 2
2
Sabemos que E ( x 2 [ n ] ) =σ 2, así E ( x 2 [ n ] ) =σ 4

Por otra parte, haciendo uso del teorema de los momentos tenemos que

|
4
∂ M x (t)
=E ( x [ n ] )
4
4
∂t t =0

E ( x 4 [ n ] )=3 σ 4 +3 μ2 +3 μ2 σ 2 + μ4

E ( x 4 [ n ] )=3 σ 4 ya que μ=0

Entonces
2
var (x ¿¿ 2 [ n ] )=E ( x [ n ] ) −E ( x [ n ] ) =3 σ −σ ¿
4 2 4 4

var ( x ¿¿ 2 [ n ] )=2 σ ¿
4

Por lo tanto
4

var ( σ^ )=
2
N
La varianza tiende a cero al incrementarse N. Por lo tanto, el PDF de σ^ 2 tiende al
valor verdadero cuando N → ∞.
Problema 2: Demostrar que el PDF de ^
A del problema anterior es N ( A , σ 2).
Dem:
N −1
1
^
A=
N
∑ x [n]
n=0

Como los x [ n ] ' s son idénticamente distribuidos (IID) como N (0 ,σ 2) y ^


A es una
función lineal de estas variables entonces es Gaussiana.
La media es A y la varianza

var ( ^
A )=var ¿
1
¿ 2
var ¿
N
1
¿ var ( x [ n ] )
N
Como los x [ n ] ' s son IID y por lo tanto no correlacionados, entonces
2
σ
var ( ^
A )=
N
Problema 3: Considerar la data {x [ 0 ] , x [ 1 ] , … , x [ N−1 ] }, donde cada muestra está
distribuida como U [0 , θ] y las muestras son IID. Encontrar un estimador no
sesgado para θ , el rango de θ es 0<θ <∞ .
θ
Sol: La distribución es uniforme, por lo tanto E [ x ( n ) ] = .
2
Así, el estimador propuesto sería
N −1
^ 2
θ= ∑ x [n]
N n=0

Es decir

( )
N−1
2
^
E( θ)=E
N
∑ x [n]
n=0

N −1 N−1
2 2
¿
N
∑ E(x [ n ] )=
N
∑ θ2 =θ
n=0 n=0

Problema 4: El pulso h de un paciente son registrados automáticamente por una


computadora cada 100 ms. En 1 seg. las medidas { h^ 1 , h^ 2 , … , h^ 10 } son promediadas
para obtener h^ . Si E ( h^ i )=αh para alguna constante α y var ( h^ i ) =1 para cada i ,
determinar si el promediar mejora el estimador si α =1 y α=1/2. Asumir que cada
medida no es correlacionada.
10
^ 1 ∑ h^ i , como E ( h^ )=αh entonces
Sol: Tenemos que h= i
10 i=1

( )
10
1
E ( h^ )=E ∑ h^
10 i=1 i
10
1
¿ ∑ E( h^ ¿ ¿ i)=αh ¿
10 i=1

La varianza de h^ es

( )
10
1
var ( h^ )=var ∑ h^
10 i=1 i
10
1 1
var ( h^ )= ∑
100 i=1
var ( h^ i )=
10

Antes y después de promediar α =1


El promediar provoque que el PDF quede más fuertemente concentrado alrededor
del valor verdadero h.
Antes y después de promediar α =1/2

El promediar causa que el PDF quede más fuertemente concentrado alrededor el


valor incorrecto de h. La probabilidad de h^ de estar cercano a h disminuye debido
al promedio.
Para α =1, el promediar es beneficioso.
Problema 5: Dos muestras {x [ 0 ] , x [ 1 ] } de una distribución N (0 ,σ 2) son
observados independientemente. El estimador
2 1
σ^ = ( x [ 0 ] + x [ 1 ] )
2 2
2
No es sesgado. Encontrar el PDF de σ^ 2 para determinar si es simétrica alrededor
de σ 2.
Sol:
1 2
2
E( σ^ )=E( ( x [ 0 ] + x2 [ 1 ] ) )
2
1
E ( σ^ )= ¿
2
2

E ( σ^ 2 )=σ 2
Por otra parte
1 2
var ( σ^ )=var ( ( x [ 0 ] + x 2 [ 1 ] ))
2
2
1
var ( σ^ )= (var ( x [ 0 ] ) +var ( x [ 1 ] ) )
2 2 2
4
2
var ( σ^ )= (2 σ + μ )
2 2 2
4

var ( σ^ 2 )=σ 4
Entonces

También podría gustarte