Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SEÑALES
1 ESTADÍSTICA BÁSICA
−∞
2
x −(u−μ)
( x )= 1 ∫ e
2
2σ
ϕ μ ,σ du , xϵ R
σ √ 2 π −∞
2
ϕ μ ,σ : función de distribución
2
φ μ , σ : densidad de probabilidad
2
2
−(x−μ )
( x )= 1 e
2
También se define la distribución normal como: φ μ , σ 2σ
, xϵ R
σ √2 π
2
1 −x 2
(
Sol: P ( μ−3 σ ≤ X ≤ μ+ 3 σ )=P −3 ≤
X −μ
σ )
≤ 3 =P(−3 ≤ Z ≤3)
¿ P ( Z ≤3 )−P( Z ≤−3)
¿ 2 P ( Z ≤ )−1=0.5934
α
2
P ( Z ≤ )=0.7967
α
2
α
Por tablas =0.83, es decir α =1.66
2
Ejemplo 4: La temperatura en el mes de junio es modelada como una variable
aleatoria X N (23 0 , 50 ). Calcular el número de días con temperatura entre 21 y 27
grados.
4. X ( ∩i=1 A i) =∩i=1 X ( A i)
−1 ∞ ∞ −1
−1 −1
5. A1 ⊆ A 2 ⇒ X ( A ¿¿ 1)⊆ X ( A ¿¿ 2) ¿ ¿
6. A1 ∩ A 2= ∅ ⇒ X−1 ( A1 )∩ X−1 ( A¿¿ 2)= ∅ ¿
7. Si F ' es un σ -álgebra sobre Ω' entonces,
X −1 ( F ' )={ X−1 ( A )| A ∈ F' }
es un σ -álgebra sobre Ω .
Nota: Un σ -álgebra sobre un conjunto Ω es una familia A ⊆ P(Ω) no vacía de
subconjuntos de Ω , cerrada bajo complementarios y uniones numerables.
Un σ -álgebra sobre un conjunto Ω no vacío es una familia A ⊆ P(Ω) no vacía de
subconjuntos de Ω que verifica:
1. Ω ∈ A (contiene al total)
2. A ∈ A ⇒ A c =Ω ¿ ∈ A (cerrada bajo complementarios)
3. An ∈ A ∀ n ∈ N ⇒ ∪ n ∈N A n ∈ A (cerrada bajo uniones numerables)
Al par (Ω, A ) se le llama espacio medible o espacio probabilizable, en función del
contexto.
A los elementos de A se les llama conjuntos A -medibles (o simplemente conjuntos
medibles). En un contexto probabilístico, se les suele llamar sucesos.
Funciones medibles. Variables aleatorias
Dados dos espacios medibles ( Ω , F ) y (Ω' , F ' ), diremos que la función X : Ω→ Ω' es
medible si verifica
−1 '
X ( B ) ∈ F ∀ B∈ F
Ya que los σ -álgebra desempeñan un papel fundamental para que una función sea
medible o no, se suele emplear la notación,
' '
X : (Ω , F )→( Ω , F )
Para resaltar las estructuras medibles, y la dependencia que tiene la definición
anterior de dichas estructuras.
Dados dos espacios medibles ( Ω , F ) y ( Ω' , F ' ), sea X : Ω→ Ω' una función, y C ⊆ F '
una clase de sucesos tal que σ ( C )=F . En estas condiciones, X es medible si y
solo si
−1
X ( B ) ∈ F ∀ B∈ C
Definición. Diremos que la función
X : ( Ω, F ) →(R , B ( R ))
es una variable aleatoria si verifica
−1
X ( B ) ∈ F ∀ B∈ B ( R )
Corolario. La función,
X : ( Ω, F ) →(R , B ( R ))
es variable aleatoria si y solo si,
σ -álgebra de Borel
Si (X , T ) es un espacio topológico, la σ -álgebra B=σ (T ) se denomina σ -álgebra
de Borel.
A sus elementos se les llama conjuntos de Borel o borelianos.
Definición. Una función g : R → R se denomina medible Borel o Borel medible si
verifica
−1
g (B )∈ B ( R ) ∀ B ∈ R
Es decir, es una función real de variable real, medible en relación al σ -álgebra de
Borel que define las estructuras medibles.
Según el resultado anterior, bastará que se cumpla g−1 ( A ) ∈ B ( R ) para todo A de
alguna clase de subconjuntos de R que genere a los borelianos. Al ser los abiertos
(de la topología usual en R ) una de tales clases, se tiene obviamente que toda
función real de variable real, continua, es medible Borel. Es decir,
Corolario. Si la función
g:R→R
Es continua (con la topología de los intervalos abiertos), entonces es medible
Borel.
Si X : ( Ω, F ) →(R , B ( R )) es una variable aleatoria y g es una función real de
variable real, medible Borel, entonces la composición g ∘ X =g ( X ) : ( Ω , F ) →(R , B ( R ) )
, es también variable aleatoria.
Corolario. Si X : ( Ω, F ) →(R , B ( R )) es una variable aleatoria, c ∈ R , n ∈ N y h :R → R
es una función polinómica, entonces también son variables aleatorias: c
(considerada como función constante), X + c , cX ,|X| , X n y h( X) .
Definida como
P X ( B )=P ( X−1 ( B ) ) , ∀ B ∈ B ( R )
Demostración
x [ n ] −μ N −1
Hacemos z [ n ] = , entonces, la variable aleatoria X = ∑ z [n] sigue la
2
σ n=0
ϕ (ε )= e 2 σ εϵ R
√ 2 πσ
Se tiene entonces que
|ε|= √ y
1
d |ε|= dy
2√y
Definimos la función de densidad como
−y −y −1
1 2
1 1 2
g1 ( y )=2 e 2σ = e 2σ y 2
y >0
√ 2 πσ 2 √ √
y 2 πσ
Esta es la distribución chi cuadrado con un grado de libertad.
En el caso que
2 2
y=ε 1 +ε 2= y 1+ y 2
99% del tiempo el rango estimado entre los 100 m sea el verdadero. Usar c=3∗108
m/s para la velocidad de la propagación electromagnética.
cτ 0 c τ^ 0
Sol: R= , usamos ^
R= .
2 2
cτ 0 c
El PDF es τ^ 0 N (τ 0 , σ τ^ ), por lo tanto ^
R N( , σ^ )
0
2 2 τ 0
( )
τ0
^
R−c
2 100
P ≤ =0.99
c c
σ σ
2 ^τ 0
2 ^τ 0
( )
100
P Z≤ =0.99
c
σ
2 τ^ 0
100
=2.58
Por tablas tenemos que c , así σ ^τ =0.26[μsec ]
σ τ^ 0
2 0
Así z=1.96
(
P −1.96 ≤
100−θ
0.707 )
≤1.96 =P (100−1.96∗0.707 ≤ θ ≤ 100+1.96∗.707)
¿ P(99.804 ≤θ ≤ 100.196)
El error máximo es 0.196 y 100 se encuentra en el intervalo. En este caso es
acertado.
Entonces, la validez depende del número de mediciones realizadas y que el valor
sea elegido u obtenido se encuentre en el intervalo de confianza.
EL PROBLEMA MATEMÁTICO DE ESTIMACIÓN
Para determinar un buen estimador, el primer paso es modelar matemáticamente
los datos.
Debido a que los datos son inherentemente aleatorios los describimos con su
función de densidad de probabilidad (PDF) o p ( x [ 0 ] , x [ 1 ] ,… [ xN −1 ] ; θ ) . El PDF es
parametrizado por el parámetro desconocido θ , es decir, tenemos una clase se
PDFs donde cada uno es diferente debido a un valor diferente de θ . Por ejemplo,
si N=1 y θ denota la media, entonces el PDF podría ser
1 −1 2
p ( x [ 0 ] ; θ)= exp [ ( x [ 0 ] −θ ) ]
√2 π σ 2
2σ
2
En la figura se muestra los PDFs para varios valores de θ . Queda intuitivamente
claro que debido a que el valor de θ afecta la probabilidad de x[0], deberíamos ser
capaces de inferir el valor de θ a partir del valor observado de x[0]. Por ejemplo, si
el valor de x[0] es negativo, es improbable que θ=θ2, un valor más razonable sería
θ=θ1. Esta especificación del PDF es crítica para determinar un buen estimador.
En los problemas actuales no se nos da un PDF pero debemos elegir uno que no
solo sea consistente con el problema y algún conocimiento a priori, sino uno que
sea también matemáticamente tratable.
Para ilustrar la aproximación consideremos la siguiente figura que corresponde a
un proceso Dow-Jones hipotético.
Un modelo razonable para el ruido es que w [ n ]sea ruido blanco Gausiano (WGN)
o que cada muestra de w [ n ] tiene un PDF N (0 ,σ 2) y no es correlacionada con
todas la otras muestras. Entonces, los parámetros desconocidos son A y B, que
arreglados como vectores se convierten en un parámetro vector θ=[ A B ]T . Dado
T
x=x [ 0 ] , x [ 1 ] …[ x [ N−1 ] ] , el PDF es
N−1
1 −1
2 ∑
2
p ( x ; θ )= N
exp [ x [ n ] − A−Bn ¿ ¿]
2 σ n=0
(2 π σ 2) 2
La elección de una línea recta para el componente de señal es consistente con el
conocimiento de que el promedio Dow-Jones se mueve alrededor de 3000 (A
modela esto) y la conjetura que se incrementa (B modela esto). El supuesto de
WGN es justificado por la necesidad de formular un modelo matemáticamente
tratable de tal manera que estimadores de forma cerrada puedan ser encontrados.
También, es razonable a no ser que exista una fuerte evidencia de lo contrario, tal
como ruido altamente correlacionado. Por supuesto que el funcionamiento de
cualquier estimador obtenido será críticamente dependiente de las suposiciones
del PDF. Solo se puede esperar que el estimador obtenido es robusto, en que
ligeros cambios en el PDF no afecten severamente el funcionamiento del
estimador.
Un estimador basado en PDFs es denominado estimación clásica ya que los
parámetros de interés son considerados determinísticos pero desconocidos. En el
ejemplo del promedio Dow-Jones sabemos a priori que la media está alrededor de
3000. Esto parece inconsistente con la realidad, entonces, se elige un estimador A
que pueda resultar en valores mayores a 2000 y menores a 4000. Podemos
restringir el estimador para producir valores de A en el rango [2800, 3200]. Para
incorporar este conocimiento a priori podemos asumir que A no es más
determinístico sino una variable aleatoria y asignarle un PDF, posiblemente
uniforme sobre el intervalo [2800, 3200]. Entonces, cualquier estimador
subsecuente dará valores en ese rango. Tal aproximación se conoce como
aproximación Bayesiana. El parámetro que intentamos estimar es entonces visto
como una realización de la variable aleatoria θ . La data es descrita por la PDF
conjunta
p ( x , θ ) =p ( x|θ ) p(θ)
p ω ( x−θ ) p(θ)
¿ = p ω ( x−θ )= p( x ;θ)
p(θ)
c) Si θ es una variable independiente de ω , entonces
p xθ ( x , θ) p ω∨θ ( x−θ ,θ)
p ( x|θ )= =
p (θ) p( θ)
Para probar cual es mejor podríamos establecer cual tiene la menor varianza.
Debemos suponer en el modelaje que los ω [ n ] ' s , además de tener media cero, no
son correlacionadas y que tienen una varianza igual a σ 2.
Primero mostramos que la media de cada estimador es el valor verdadero
N−1
1
E(^
A ) =E(
N
∑ x [ n ])
n=0
N −1
1
¿
N
∑ E(x [ n ] )
n=0
¿A
E ( A ) =E ( x [ 0 ] )
¿A
El promedio de los estimadores produce el valor verdadero.
Segundo, las varianzas son
var ( ^
A )=var ¿
N −1
1
¿ ∑ var (x [n])
N 2 n=0
1 2
¿ 2
Nσ
N
1 2
¿ σ
N
Debido a que ω [n]' s no son correlacionadas
var ( A )=var ¿
2
¿σ
¿ var ( ^
A)
Adicionalmente, si podemos asumir que ω [n] es Gausiano, se puede concluir que
la probabilidad para una magnitud de error dada es menor para ^
A que para A .
Los siguientes puntos ilustrados por el ejemplo anterior deben siempre tenerse en
cuenta.
1. Un estimador es una variable aleatoria. Su funcionamiento puede
solamente ser completamente descrita estadísticamente o por su PDF.
2. El uso de simulación por computadora para evaluar el funcionamiento de la
estimación, aunque es valiosa para ganar visibilidad y motivar conjeturas,
no es nunca conclusiva. A lo mucho, el funcionamiento verdadero puede
ser obtenido al grado deseado de precisión. Por otro lado, para un
insuficiente número de experimentos y/o errores en las técnicas de
simulación empleadas, resultados erróneos pueden ser obtenidos.
Otro tema que se encontrará repetidamente es el compromiso entre
funcionamiento y complejidad computacional. Como en el ejemplo previo, aunque
^
A tiene mejor funcionamiento, también requiere más computo. Los estimadores
óptimos son algunas veces difíciles de implementar, requieren una optimización
multidimensional o integración. En estas situaciones, estimadores alternativos que
son subóptimos, pero que pueden ser implementados en un computador digital,
pueden ser preferidos. Para una aplicación particular, el usuario debe determinar
si la pérdida en funcionamiento es sesgada por la complejidad computacional
reducida de un estimador subóptimo.
Problema 4: Se desea estimar el valor A de un nivel DC en WGN
x [ n ] =A +ω [ n ] n=0 ,1 , … N−1
1
A= ¿
N +2
¿Cuál es mejor? ¿Depende del valor de A?
Sol:
E(^
A)= A
E ( A ) =A
2
1 σ
var ( ^
A )= 2 N σ =
2
N N
1 N +6 2
var ( A )= 2
( 4 σ 2+ ( N −2 ) σ 2 +4 σ 2 )= 2
σ
(N +2) ( N +2)
Tenemos entonces
2 2
N +6 1 N +6 N−N −4 N −4 2 N −4
2
− = 2
= 2
>0 para N >2
( N +2) N N ( N + 2) N ( N +2 )
Entonces ^
A tiene menor varianza y es independiente de A.
Problema 5: Para el mismo conjunto de datos del problema anterior se propone
{
2
,∧ A 2
x [0]
2
= A >1000
^
A= σ
N−1 2
1 ,∧ A
∑
N n=0
x [n]
σ
2
2
= A <1000
2
A
La razón para este estimador es que para una relación señal-ruido alta [SNR] o 2
σ
, no se necesita reducir el efecto del ruido promediándolo y por lo tanto se puede
evitar computación adicional. Comentar esta aproximación.
Sol: La esperanza del estimador para un SNR grande es A y su varianza σ 2.
^
A− A
Haciendo Z= , el intervalo de confianza para el 95% es
σ
P (−z ≤ Z ≤ z )=0.95
De donde tenemos que z=1.96 . Así tenemos
(
P (−1.96 ≤ Z ≤ 1.96 )=P −1.96 ≤
^
A− A
σ )
≤1.96 =0.95
¿ P( ^
A−1.96∗σ ≤ A ≤ ^
A+1.96∗σ )
2
A A 1.96 A
Pero >1000 por lo cual tenemos que σ ≤ , así 1.96 σ ≤ =0.063 A .
σ
2
31 31
Es decir que el error máximo es menor al 6.3% del valor de A y para un valor
mayor de SNR este error se hace menor. En esos casos, una sola muestra puede
ser una buena elección.
4 ESTIMACIÓN NO SESGADA DE MÍNIMA VARIANZA
Se buscarán buenos estimadores de parámetros determinísticos desconocidos. Se
restringirá la atención a estimadores que en el promedio den el valor verdadero del
parámetro. El objetivo será encontrar aquel que exhiba la mínima variabilidad.
ESTIMADORES NO SESGADOS
Por estimador no sesgado entendemos que en promedio el estimador dará el valor
verdadero del parámetro desconocido. Como el valor del parámetro puede en
general estar en algún lugar en el intervalo a< θ<b , no sesgado significa que sin
importar cuál es el verdadero valor de θ , nuestro estimador lo dará en promedio.
Matemáticamente, un estimador es no sesgado si
E ( θ^ ) =θ a<θ <b
Donde (a,b) denota el rango de posibles valores de θ.
Ejemplo 1: Estimador no sesgado para nivel DC en ruido blanco Gausiano
(WGN)
Considerar las observaciones
x [ n ] =A +w [ n ] n=0 , 1, … , N−1
donde A es el parámetro a estimar y w [ n ] es WGN. El parámetro A puede tomar
cualquier valor en el intervalo −∞ < A< ∞. Entonces, un estimador razonable para
el valor promedio de x [ n ] es
N −1
1
^
A=
N
∑ x [n]
n=0
[ ]
N −1 N −1
1
E(^
A ) =E
N
∑ x [ n ] = N1 ∑ E ( x [ n ] )
n=0 n=0
N −1
1
¿
N
∑ A= A
n=0
^
Una restricción importante es que E ( θ^ ) =θ para todo θ . Haciendo que θ=g (x),
T
donde x=[x [ 0 ] x [ 1 ] … x [ N −1 ] ] , se tiene que
Es posible que esto sea cierto para algunos valores de θ y no para otros.
Un estimador no sesgado no necesariamente significa que sea un buen estimador.
Solo garantiza que en el promedio obtendrá el valor verdadero. Por otro lado, los
estimadores sesgados son aquellos que son caracterizados por un error
sistemático, que presumiblemente no debería estar presente.
Criterio de la mínima varianza
En la búsqueda de estimadores óptimos se necesita adoptar algún criterio de
optimalidad. Uno muy natural es el error medio cuadrático definido como
[ ]
2
mse ( θ^ )=E { ( θ−E
^ ( θ^ ) ) + ( E ( θ^ )−θ ) }
¿ var ( θ^ ) +b 2( θ)
Que muesta que el MSE est compuesto por errores debido a la varianza del
estimador ý también como el sesgo.
Consideremos el siguiente estimador
N −1
1
^
A=a
N
∑ x [n ]
n=0
∫ e tx f x ( x ) dx si X es continua
−∞
Siempre para que el valor esperado exista para todo t ∈ (−h , h ) , h>0. Esta última es
una condición técnica necesaria M x (t ) sea diferenciable en 0.
Se denomina función generadora de momentos porque los momentos de X (E ( X n ))
pueden ser obtenidos derivando esta función y evaluando la derivada en t=0.
Lema: Si la función g(t) definida por
∞
g ( t )=∑ e p ( x ) ó g ( t )= ∫ e f ( x ) dx
tx tx
x −∞
converge para todo t ∈(−h ,h) para algún h>0, entonces existen las derivadas de
orden n de g(t) para todo t ∈(−h ,h) y para todo n entero positivo y se obtienen
como
∞
∂n g (t) n tx
∂ e ∂ n g(t ) n tx
∂ e
n
=∑ n
p ( x )ó n
=∫ n
f ( x ) dx
∂t x ∂t ∂t −∞ ∂ t
Teorema: Sea X una v.a. para la cual existe una función generadora de
momentos M x (t ), entonces
|
n
∂
E ( X )= n M x ( t )
n
∂t t=0
Dem: Si la función generadora de momentos existe para todo t ∈(−h ,h) para
algún h>0, aplicando el lema
n n ∞
∂ M x (t) n tx
∂ e ∂ M x (t ) ∂n e tx
n
=∑ n
p ( x ) ó n ∫ n f ( x ) dx
∂t x ∂t ∂t −∞ ∂ t
n n ∞
∂ M x (t) ∂ M x (t)
=∑ x e p ( x ) ó =∫ x e f ( x ) dx
n tx n tx
n n
∂t x ∂t −∞
| |
n n ∞
∂ M x (t) ∂ M x (t)
=∑ x p ( x )=E( X ) ó =∫ x f ( x ) dx=E( X )
n n n n
n n
∂t t=0 x ∂t t=0 −∞
E( σ^ )=E ¿
2
N −1
1
¿
N
∑ E(x ¿¿ 2[n]) ¿
n=0
Tenemos que
|
2
∂ M x (t)
2
=¿ ¿
∂t t =0
2 2 2
¿ σ + μ =σ ya que μ=0
Así
E(x ¿¿ 2 [n])=¿ ¿
N−1
1
E(x ¿¿ 2 [n])=
N
∑ σ 2=σ 2 ¿
n=0
El estimador no es sesgado.
Por otra parte
N−1
1
var ( σ^ 2)=var (
N
∑ x2 [ n ])
n=0
N−1
1
2 ∑
var ( x¿ ¿ 2 [ n ] ¿)¿ ¿
2
var ( σ^ )=
N n=0
Tenemos que
2
var (x ¿¿ 2 [ n ] )=E (x 2 [n ]−E(x 2 [ n ] )) ¿
2
¿ E(x [ n ] −2 x [ n ] E( x [ n ] )+ E ( x [ n ] ) )
4 2 2 2
2
¿ E ( x [ n ] )−E ( x [ n ] )
4 2
2
Sabemos que E ( x 2 [ n ] ) =σ 2, así E ( x 2 [ n ] ) =σ 4
Por otra parte, haciendo uso del teorema de los momentos tenemos que
|
4
∂ M x (t)
=E ( x [ n ] )
4
4
∂t t =0
E ( x 4 [ n ] )=3 σ 4 +3 μ2 +3 μ2 σ 2 + μ4
Entonces
2
var (x ¿¿ 2 [ n ] )=E ( x [ n ] ) −E ( x [ n ] ) =3 σ −σ ¿
4 2 4 4
var ( x ¿¿ 2 [ n ] )=2 σ ¿
4
Por lo tanto
4
2σ
var ( σ^ )=
2
N
La varianza tiende a cero al incrementarse N. Por lo tanto, el PDF de σ^ 2 tiende al
valor verdadero cuando N → ∞.
Problema 2: Demostrar que el PDF de ^
A del problema anterior es N ( A , σ 2).
Dem:
N −1
1
^
A=
N
∑ x [n]
n=0
var ( ^
A )=var ¿
1
¿ 2
var ¿
N
1
¿ var ( x [ n ] )
N
Como los x [ n ] ' s son IID y por lo tanto no correlacionados, entonces
2
σ
var ( ^
A )=
N
Problema 3: Considerar la data {x [ 0 ] , x [ 1 ] , … , x [ N−1 ] }, donde cada muestra está
distribuida como U [0 , θ] y las muestras son IID. Encontrar un estimador no
sesgado para θ , el rango de θ es 0<θ <∞ .
θ
Sol: La distribución es uniforme, por lo tanto E [ x ( n ) ] = .
2
Así, el estimador propuesto sería
N −1
^ 2
θ= ∑ x [n]
N n=0
Es decir
( )
N−1
2
^
E( θ)=E
N
∑ x [n]
n=0
N −1 N−1
2 2
¿
N
∑ E(x [ n ] )=
N
∑ θ2 =θ
n=0 n=0
( )
10
1
E ( h^ )=E ∑ h^
10 i=1 i
10
1
¿ ∑ E( h^ ¿ ¿ i)=αh ¿
10 i=1
La varianza de h^ es
( )
10
1
var ( h^ )=var ∑ h^
10 i=1 i
10
1 1
var ( h^ )= ∑
100 i=1
var ( h^ i )=
10
E ( σ^ 2 )=σ 2
Por otra parte
1 2
var ( σ^ )=var ( ( x [ 0 ] + x 2 [ 1 ] ))
2
2
1
var ( σ^ )= (var ( x [ 0 ] ) +var ( x [ 1 ] ) )
2 2 2
4
2
var ( σ^ )= (2 σ + μ )
2 2 2
4
var ( σ^ 2 )=σ 4
Entonces