Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Curso 2004-2005
Ingeniería Técnica de Telecomunicación.
Especialidad Telemática
14 de septiembre de 2004
2 Prof. Dr. Antonio José Sáez Castillo
Índice General
3
4 Prof. Dr. Antonio José Sáez Castillo
6 Estimación I 149
6.1 Estimación de una v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
6.1.1 Estimación a ciegas . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.1.2 Estimación conocida la ocurrencia de un suceso . . . . . . . . . . 152
6.1.3 Estimación conocido el valor de otra v.a. Y = y . . . . . . . . . . 153
11 Estimación II 293
11.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
11.2 Planteamiento de distintos problemas en estimación . . . . . . . . . . . 294
11.3 Solución de algunos problemas de estimación mediante resultados ya
conocidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
11.4 Otros problemas de estimación . . . . . . . . . . . . . . . . . . . . . . . 302
11.5 Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
11.6 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
8 Prof. Dr. Antonio José Sáez Castillo
Capítulo 1
Introducción al Cálculo de
Probabilidades
9
10 Prof. Dr. Antonio José Sáez Castillo
1.1 Introducción
• ¿Qué ruido se adhiere a una señal que se envía desde un emisor a un receptor?
Dependiendo de las características del canal, dicho ruido será más o menos rele-
vante, pero su presencia no podrá ser conocida a priori, y deberá ser diferenciada
de la señal primitiva, sin que se conozca ésta, teniendo en cuenta que se trata de
un ruido aleatorio.
La aproximación más común al concepto de probabilidad tiene que ver con los
promedios de ocurrencia de los sucesos del experimento en cuestión. Pensemos en el
lanzamiento de una moneda: Si nos preguntamos por la probabilidad de que un lanza-
miento resulte cara o cruz, podríamos estimar dicha probabilidad lanzando la moneda
un gran número de veces y anotando el número de caras y de cruces; si tenemos que
apostar, lo haremos por aquel evento con mayor frecuencia de ocurrencia. Generalizan-
do este proceso, podríamos decir que la probabilidad de un evento A, P [A] , es
nA
P [A] = lim ,
n→∞ n
donde nA es el número de ocurrencias de A en n ensayos del experimento. Esta defini-
ción se conoce como definición frecuentista de la probabilidad. Se trata de una definición
de carácter eminentemente práctico porque permite una aproximación física al concep-
to de probabilidad, pero se ve limitada por las complicaciones que supone la definición
en términos de un límite que, como tal, sólo se alcanza ”en el infinito”.
son dos los resultados posibles, y no hay razones para pensar que uno de ellos es
más probable que otro, así que tiene sentido considerar que la probabilidad de cara
y la probabilidad de cruz son ambas del 50%. En general, podíamos decir que la
probabilidad de un evento A, P [A] , es
NA
P [A] = ,
N
donde N es el número de posibles resultados del experimento, todos ellos con la misma
probabilidad, y NA es el número de resultados favorables a la ocurrencia de A. Esta
definición, conocida como definición clásica, también es fundamentalmente práctica;
más aún que la definición frecuentista ya que, por ejemplo, nos permite deducir que
1
P [cara] =
2
en el lanzamiento de una moneda sin tener que lanzar la moneda un gran número
de veces. Sin embargo, la definición tiene dos grandes inconvenientes: El conjunto de
resultados posibles, N, tiene que ser finito y, además, todos los resultados posibles deben
tener la misma probabilidad (con lo cual, lo definido queda implícitamente inmerso en
la definición).
Así pues, vemos que mediante las definiciones frecuentista o clásica podrían calcu-
larse probabilidades de eventos, si bien ambas tienen inconvenientes desde el punto de
vista formal. Veremos más adelante la denominada definición axiomática, que reune
todas las condiciones formales necesarias y que, además, supone una generalización de
las definiciones frecuentista y clásica.
Dentro del espacio muestral conviene considerar dos sucesos de especial relevancia:
Ejemplo 1.1 Al observar un dígito transmitido a través de un canal binario, los re-
sultados posibles son Ω = {0, 1} , y los 22 = 4 subconjuntos de Ω, {∅, {0} , {1} , {0, 1}} .
14 Prof. Dr. Antonio José Sáez Castillo
Ejemplo 1.2 Al observar el tiempo que dura una llamada telefónica, el conjunto de
resultados posible es Ω = (0, ∞) ; un posible subconjunto es A = (a, b) , aunque no es
posible explicitar todos los subconjuntos de Ω.
a) A1 ∪ ... ∪ AN = Ω
b) Ai ∩ Aj = ∅ para todo i 6= j.
A ∪ Ā = Ω
A ∩ Ā = ∅
(Ac )c = A
Ω̄ = ∅
Si B ⊂ A → Ā ⊂ B̄
Si A = B → Ā = B̄.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 15
A ∪ B = Ā ∩ B̄
A ∩ B = Ā ∪ B̄.
Así pues, como hemos comentado, cada vez que nos encontremos con un experi-
mento aleatorio, caracterizaremos los resultados posibles mediante conjuntos del espa-
cio muestral. Sin embargo, dado un experimento aleatorio con espacio muestral Ω, no
siempre será necesario observar o tener en cuenta todos y cada uno de los subconjuntos
o sucesos posibles de este espacio muestral. En realidad deberíamos especificar qué
elementos del conjunto de todos los sucesos posibles son en realidad sucesos que vamos
a tener en cuenta, sucesos que formarán una colección que debe tener buenas propieda-
des, en el sentido de que sea una colección que se baste a sí misma para comprender a
las operaciones elementales del álgebra de conjuntos.
1. si A y B ∈ z, entonces A ∪ B y A ∩ B ∈ z;
2. si A ∈ z, entonces Ā ∈ z;
3. ∅ ∈ z,
conveniente considerar álgebras que también sean cerradas para estas ope-
raciones.
Se denomina, así, σ−álgebra o σ−campo a cualquier álgebra o campo,
z, que contenga también a cualquier unión o intersección numerable de
elementos propios, es decir,
si A1 , A2 , ... ∈ z entonces, ∪∞ ∞
i=1 Ai ∈ z y ∩i=1 Ai ∈ F.
1. P [A] ≥ 0.
2. P [Ω] = 1.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 17
P [cara] = p
P [cruz] = 1 − p,
para cada p ∈ [0, 1] . Aunque si la moneda no está cargada, como sucede habitualmente,
se considera el caso en que p = 12 .
Como consecuencia de la definición se verifican, entre otras, las siguientes propie-
dades.
£ ¤
Lema 1.5 Sea A un suceso cualquiera. Entonces, P Ā = 1 − P [A] .
£ ¤ £ ¤
Demostración. 1 = P A ∪ Ā = P [A] + P Ā .
£ ¤
Lema 1.6 Sean A y B dos sucesos cualesquiera. Entonces, P A ∩ B̄ = P [A] −
P [A ∩ B] .
£ ¤ £ ¤
Demostración. P [A] = P A ∩ B ∪ A ∩ B̄ = P [A ∩ B] + P A ∩ B̄ .
Demostración.
£ ¤ £ ¤ £ ¤
P [A ∪ B] = P A ∩ B̄ ∪ Ā ∩ B ∪ A ∩ B = P A ∩ B̄ + P Ā ∩ B + P [A ∩ B]
= P [A] − P [A ∩ B] + P [B] − P [A ∩ B] + P [A ∩ B]
= P [A] + P [B] − P [A ∩ B] .
4 sotas 1
P [A] = =
40 cartas 10
4 sotas 1
P [A | B1 ] = =
12 figuras 3
1 sota de copas 1
P [A | B2 ] = = .
10 copas 10
P [A ∩ B]
P [A | B] = ,
P [B]
1. P [A | B] ≥ 0
P [Ω∩B] P [B]
2. P [Ω | B] = P [B] = P [B] =1
3.
" # P P
X P [( i Ai ) ∩ B] P [( i Ai ∩ B)]
P Ai | B = =
P [B] P [B]
i
P
P [Ai ∩ B] X P [Ai ∩ B]
= i =
P [B] P [B]
i
X
= P [Ai | B] siempre que Ai ∩ Aj = ∅ para todo i 6= j.
i
Ejemplo 1.4 Notemos como t la edad de una persona al morir. Supongamos que la
probabilidad de que una persona muera antes de los t0 años o a los t0 años viene dada
Rt
por P [t ≤ t0 ] = 0 0 α (t) dt, donde la función α (t) es una función que depende de las
tasas de mortalidad en cada país. Supongamos que
Podemos preguntarnos por la probabilidad de que una persona muera entre los 60 y
R 70
los 70 años, calculándola como P [60 ≤ t ≤ 70] = 60 α (t) dt = 0.154. Esta cantidad
multiplicada por 100 representa el % promedio de personas que morirán entre los 60 y
los 70 años.
Ahora supongamos que conocemos a una persona que está viva a los 60 años y
preguntémonos de nuevo por la probabilidad de que esa persona muera entre los 60 y
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 21
los 70 años:
= 0.486
Ahora esta cantidad representa el porcentaje de personas que morirán entre los 60 y los
70 años de entre aquellos que han vivido hasta los 60.
Teorema 1.1 (Teorema de la Probabilidad Total) Sea {A1 , ..., AN } una partición
del espacio muestral Ω y sea B un suceso cualquiera. Entonces, P [B] = P [B | A1 ] P [A1 ]+
... + P [B | AN ] P [AN ] .
Demostración.
= P [B ∩ A1 ] + ... + P [B ∩ AN ]
Demostración.
P [Ai ∩ B]
P [Ai | B] =
P [B]
P [B | Ai ] P [Ai ]
= .
P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ]
Ejemplo 1.5 Supongamos que tenemos 4 cajas con componentes electrónicas dentro.
La caja 1 contiene 2000 componentes, con un 5% de defectuosas; la caja 2 contiene 500
componentes, con un 40% de defectuosas; las cajas 3 y 4 contienen 1000 componentes,
con un 10% de defectuosas.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 23
2000 4
P [C1 ] = =
2000 + 500 + 1000 + 1000 9
500 1
P [C2 ] = =
2000 + 500 + 1000 + 1000 9
1000 2
P [C3 ] = =
2000 + 500 + 1000 + 1000 9
1000 2
P [C4 ] = =
2000 + 500 + 1000 + 1000 9
P [D | C1 ] = 0.05
P [D | C2 ] = 0.4
P [D | C3 ] = 0.1
P [D | C4 ] = 0.1
+P [D | C4 ] P [C4 ]
4 1 2 2
= 0.05 + 0.4 + 0.1 + 0.1 = 0. 11111
9 9 9 9
P [C1 | D]
P [D | C1 ] P [C1 ]
=
P [D | C1 ] P [C1 ] + P [D | C2 ] P [C2 ] + P [D | C3 ] P [C3 ] + P [D | C4 ] P [C4 ]
0.05 49
= = 0. 2
0.11111
sin memoria indica que las salidas del canal en cada instante sólo dependen de las
entradas al propio canal.
El error en este tipo de canales se produce cuando, habiendo emitido 0, se recibe 1
o viceversa. El canal se dice simétrico cuando ambos errores son igualmente probables.
Para describir la naturaleza probabilística de este tipo de canales es necesario cono-
cer dos conjuntos de probabilidades:
P [A0 ] = p0
P [A1 ] = p1 = 1 − p0
2. La probabilidad de error:
P [B1 | A0 ] = P [B0 | A1 ] = p
Entonces,
P [B0 | A0 ] = 1 − p
P [B1 | A1 ] = 1 − p
= (1 − p) p0 + pp1
= pp0 + (1 − p) p1
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 25
1-p
A0 B0
p p
A1 1-p B1
P [B0 | A0 ] P [A0 ]
P [A0 | B0 ] =
P [B0 ]
(1 − p) p0
=
(1 − p) p0 + pp1
P [B1 | A1 ] P [A1 ]
P [A1 | B1 ] =
P [B1 ]
(1 − p) p1
=
pp0 + (1 − p) p1
P[Y = 1 / X = 1] = 1-a
X=1 Y=1
a/2
a/2
b/2
X=2 Y=2
b/2
P[Y = 2 / X = 2] = 1-b
g/2
g/2
X=3 Y=3
P[Y = 3 / X = 3] = 1-g
1 = P [X = 1] + P [X = 2] + P [X = 3] = 6p,
se tiene que
1 1 1
P [X = 1] = , P [X = 2] = y P [X = 3] = .
6 3 2
+P [dı́gito OK / X = 2] P [X = 2]
+P [dı́gito OK / X = 3] P [X = 3]
= P [Y = 1 / X = 1] P [X = 1]
+P [Y = 2 / X = 2] P [X = 2]
+P [Y = 3 / X = 3] P [X = 3]
1 1 1
= (1 − α) + (1 − β) + (1 − γ) = P.
6 3 2
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 27
P [Y = 1 / X = 1] P [X = 1]
P [X = 1 / Y = 1] = .
P [Y = 1]
Por su parte,
P [Y = 1] = P [Y = 1 / X = 1] P [X = 1]
+P [Y = 1 / X = 2] P [X = 2]
+P [Y = 1 / X = 3] P [X = 3]
1−α β γ
= + + ,
6 6 4
luego
1−α
6 −1 + α
P [X = 1 / Y = 1] = 1−α β γ
=2 .
+ + −2 + 2α − 2β − 3γ
6 6 4
Hay que tener en cuenta que existen muchas posibilidades a la hora de que
5 de 10 de los dígitos sean correctos; concretamente, tantas como combi-
naciones de los 10 dígitos tomados de 5 en 5. Por su parte, todas esas
combinaciones tienen la misma probabilidad, P 5 (1 − P )5 y, además, son
claramente incompatibles unas con otras. Por tanto,
µ ¶
10 5
P [5 de 10 OK] = P (1 − P )5 .
5
P [0.01µF ] = P [0.01µF / c1] P [c1] + P [0.01µF / c2] P [c2] + P [0.01µF / c3] P [c3]
20 1 95 1 25 1 5903
= + + = = 0.23078.
145 3 210 3 245 3 25 578
Por su parte,
P [1.0µF ] = P [0.01µF / c1] P [c1] + P [0.01µF / c2] P [c2] + P [0.01µF / c3] P [c3]
70 1 80 1 145 1 6205
= + + = = 0.48518,
145 3 210 3 245 3 12 789
luego
70 1
145 3 2058
P [c1 / 1.0µF ] = 6205 = = 0.33167.
12 789
6205
igualdad:
entonces,
P [A1 ∩ ... ∩ AN ]
A, B y C , entonces
−P [B ∩ C] + P [A ∩ B ∩ C]
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 31
a1
b2 b3
a2
b1 b6
a3 a4 a5 b4 b5
Circuito A Circuito B
P [A ∪ B ∪ C]
Circuito A: En este caso, las alternativas son tres: que se cierre el interruptor a1
(camino1), que se cierre el interruptor a2 (camino2) o que se cierren simultánea-
mente los interruptores a3, a4 y a5 (camino3). Por tanto,
= p + p + p3 − p2 − p4 − p4 + p5 .
32 Prof. Dr. Antonio José Sáez Castillo
Circuito B: En este caso son sólo dos las alternativas: b1, b2, b3 y b6 cerrados
o b1, b4, b5 y b6 cerrados. Por tanto,
P [+ / H0 ] = P [− / H0 ] = 0.5.
P [+ / H1 ] = 0.95,
P [− / H1 ] = 0.05.
P [H1 / n+ = k] = 1 − P [H0 / n+ = k] .
Por tanto el valor umbral a partir del cual decidiremos que sí hay señal
presente es k0 = 14. Por su parte, la probabilidad de error tipo II en ese
caso es
14 µ ¶
X 20
P [n+ ≤ k0 / H1 ] = 0.95k 0.0520−k = 3. 292 9 × 10−4 .
k
k=0
6. Interesantes ejemplos en Grimmet & Stirzaker (2001) 16-20 y Yates & Goodman
(1998) 12-35.
Capítulo 2
2.1 Definición
35
36 Prof. Dr. Antonio José Sáez Castillo
uniones e intersecciones de conjuntos del tipo (−∞, x], que son la base de la σ−álgebra
de Borel.
F : R→R
x→P [X≤x]
1. limx→−∞ F (x) = 0.
2. limx→∞ F (x) = 1.
3. F es creciente.
4. F es continua a la derecha.
F :R→R
1 1 1 1
F (x) = u (x − 1) + u (x − 2) + u (x − 3) + u (x − 4)
6 6 6 6
1 1
+ u (x − 5) + u (x − 6) ,
6 6
Ejemplo 2.3 Supongamos que una llamada ocurre al azar en el intervalo (0, 1). En
ese caso, como veremos, la cdf de la variable X : tiempo entre llamadas es
0 si x < 0
F (t) = t si 0 ≤ t < 1 ,
1 si t ≥ 1
0.8
0.6
F(x)
0.4
0.2
0 2 4 6 8
x
0.8
0.6
F(x)
0.4
0.2
no de valores ≤ x
SN (x) = .
N
para cada x.
Por ejemplo, aunque sabemos cuál es la verdadera forma de la cdf del ejemplo
anterior, en la Figura 2.3 vamos a calcular dos funciones de distribución empíricas
asociadas a sendas muestras de tamaño N = 10 (izquierda) y N = 100 (derecha).
Obsérvese que cuando aumenta el tamaño de la muestra (N), la función de dis-
tribución empírica se parece cada vez más a la cdf.
Obsérvese que las condiciones fundamentales que ha de verificar una dpf son dos:
Una función con esas características puede considerarse dpf de alguna v.a. de tipo
continuo.
Por otra parte, de la propiedad cuarta se deduce la que sin duda es la característica
fundamental de la función de densidad:
una barra cuya área es igual a la proporción de datos de la muestra que pertenecen al
intervalo.
En general, si notamos HN (x) a un histograma asociado a una muestra de tamaño
√
N de una v.a. X, considerando (por ejemplo) N intervalos en el eje X, se verifica
que
Vamos a considerar un sencillo ejemplo para ilustrar esto: Veremos más adelante
una cierta función de densidad cuya expresión es fX (x) = e−x u (x). Mediante Matlab
simulamos dos muestras de esta variable, una con N = 100 valores y otra con N =
1000, y cuyos histogramas aparecen en la Figura 2.4.
Obsérvese que cuanto mayor es N más se aproximan los histogramas a la auténtica
dpf.
Además, téngase en cuenta que el área por debajo del histograma es la proporción
de datos de la muestra en cada intervalo del eje X, de igual forma que el área bajo la
dpf es la proporción de valores de la v.a. en el intervalo en cuestión.
En Viniotis (1997) 86-95 aparecen varios histogramas vinculados a muestras de v.a.
en el campo de las Telecomunicaciones que pueden resultar interesantes para compren-
44 Prof. Dr. Antonio José Sáez Castillo
Por otra parte, a la hora de observar una v.a. de tipo continuo y de interpretar su
función de densidad, es importante tener en cuenta que la probabilidad de los valores
una v.a. de estas características es cero, ya que
Z x0
P [X = x0 ] = f (x) dx = 0.
x0
Rx
Proposición 2.3 Si X es una v.a. continua con dpf f (x) , entonces F (x) = −∞ f (t) dt.
Ejemplo 2.4 Considérese una variable aleatoria continua, X, con dpf f (x) = ce−a|x| .
Vamos a calcular la constante c, la cdf y P [X ≥ 0].
En primer lugar,
Z ∞ Z 0 Z ∞
1= f (x) dx = f (x) dx + f (x) dx
−∞ −∞ 0
Z 0 Z ∞
2c
= c exp (ax) dx + c exp (−ax) dx = ,
−∞ 0 a
0.5
1
0.4
0.8
0.3
0.6
0.2 0.4
0.1 0.2
-4 -2 0 2 4 -4 -2 0 2 4
x x
la dpf es
dF 1 si 0 ≤ x ≤ 1
f (x) = = I[0,1] (x) =
dx 0 en otro caso
¡ ¢
f (x) = P [X = x] = F (x) − F x− ,
para cada x ∈ R.
46 Prof. Dr. Antonio José Sáez Castillo
1 1
0.8 0.8
0.6 0.6
F(x) F(x)
0.4 0.4
0.2 0.2
Obsérvese que en una v.a. discreta, los únicos valores que pueden darse (con pro-
babilidad no nula) son los puntos donde se dan los saltos de la cdf. Por ello también se
puede decir que
Desde ese punto de vista, la mpf es la función que da la probabilidad de cada punto
o valor posible de la variable aleatoria.
Veamos las propiedades más importantes de esta función:
Proposición 2.4 Sea X una v.a. discreta, F (x) su cdf y f (x) su mpf. Entonces
P
5. P [X < a] = F (a− ) = xi <a f (xi )
P
6. P [X ≥ a] = 1 − F (a− ) = xi ≥a f (xi )
P
7. P [X > a] = 1 − F (a) = xi >a f (xi )
P
8. P [a < X < b] = F (b− ) − F (a) = a<xi <b f (xi )
P
9. P [a ≤ X < b] = F (b− ) − F (a− ) = a≤xi <b f (xi )
P
10. P [a < X ≤ b] = F (b) − F (a) = a<xi ≤b f (xi )
P
11. P [a ≤ X ≤ b] = F (b) − F (a− ) = a≤xi ≤b f (xi )
P
12. En general, para cualquier conjunto B tal que X −1 (B) ∈ z, P [X ∈ B] = xi ∈B f (x) ,
donde xi son valores posibles de X.
1. f (x) ≥ 0
P
2. xi f (xi ) = 1.
Una función que verifique esas dos condiciones puede considerarse mpf de alguna
v.a. de tipo discreto.
Obsérvese la similitud de estas propiedades con las que debe verificar cualquier dpf.
1
f (1) = ... = f (6) =
6
f (x) = 0 en cualquier otro caso,
48 Prof. Dr. Antonio José Sáez Castillo
y su cdf,
1 1 1 1
F (x) = u (x − 1) + u (x − 2) + u (x − 3) + u (x − 4) +
6 6 6 6
1 1
u (x − 5) + u (x − 6) .
6 6
Entonces, su mpf es
1 1
f (0) = F (0) − ”F (−∞) ” = −0=
3 3
2 1 1
f (1) = F (1) − F (0) = − =
3 3 3
2 1
f (2) = F (2) − F (1) = 1 − =
3 3
f (x) = 0 en cualquier otro caso.
f (0) = 0.1
f (1) = 0.2
f (2) = 0.1
f (3) = 0.4
f (4) = 0.2
Entonces, su cdf es
0 si x < 0
0.1 si 0 ≤ x < 1
0.3 si 1 ≤ x < 2
F (x) =
0.4 si 2 ≤ x < 3
0.8 si 3 ≤ x < 4
1 si 4 ≤ x
= 0.1u (x) + 0.2u (x − 1) + 0.1u (x − 2) + 0.4u (x − 3) + 0.2u (x − 4) .
¡ ¢
P [X ≥ 1] = 1 − F 1− = 1 − 0.1 = 0.9
Hasta ahora podemos estudiar v.a. de tipo continuo, que tienen cdf continua y
derivable (salvo en un conjunto numerable) y toman valores en intervalos, y v.a. dis-
cretas, que tienen cdf escalonadas y toman valores aislados. El problema que presenta el
estudio conjunto de estos dos tipos de v.a. es que la notación se complica enormemente,
ya que constantemente hay que estar distinguiendo el caso discreto del continuo.
El objetivo de este apartado es ofrecer una interpretación de las v.a. discretas que
permita estudiarlas como v.a. continuas límite, considerando para ello la denomina-
da función delta de Dirac, que permitirá definir para una v.a. discreta una función
equivalente a la dpf de las v.a. continuas, llamada dpf generalizada.
50 Prof. Dr. Antonio José Sáez Castillo
3 3
2.5 2.5
2 2
1.5 1.5
1 1
0.5 0.5
-1 -0.5 0 0.5 1 -2 -1 0 1 2
x x
Figura 2.7: La función delta de Dirac como límite de funciones rectángulo (izquierda)
y funciones de Gauss (derecha).
La función Delta de Dirac, notada δ (x), se ’define’ habitualmente como una función
constantemente nula fuera del punto x = 0, donde su valor es infinito, de tal manera
que
Z ∞
δ (x) dx = 1.
−∞
Dado que la función así definida es no negativa e integra la unidad, también puede
verse como una dpf que acumula toda la probabilidad en el punto cero (se trataría por
tanto, de una v.a. discreta, ya que sólo toma un valor).
En un sentido más riguroso, esta función puede verse como función límite de suce-
siones de funciones (también de densidad). Por ejemplo,
R∞
−∞ f (y) δ (y − x) dy = f (x) .
Por otra parte, la función umbral en el punto x = 0, u (x), que es discontinua en
x = 0, puede verse también como lim∆→0 g∆ (x) , donde g∆ (x) son funciones continuas
de la forma
0 si x ≤ −∆
2
x 1
g∆ (x) = + si − ∆
2 <x≤
∆ .
∆ 2 2
∆
1 si x> 2
∂ ∂ ∂
y lim∆→0 ∂x g∆ (x) = δ (x) . Por otra parte, lim∆→0 ∂x g∆ (x) = ∂x lim∆→0 g∆ (x) =
∂ ∂
∂x u (x); luego, δ (x) = ∂x u (x) , de manera que
Por otra parte, hemos visto que dada una v.a. discreta X, se tiene que su función
de distribución puede expresarse en términos de su función masa como
X
FX (x) = fX (xi ) u (x − xi ) .
xi
Si ’derivamos’ en esta expresión, se tiene que para esta v.a. discreta podemos considerar
una función de densidad generalizada, dada por
dFX (x) X
f (x) = = fX (xi ) δ (x − xi ) .
dx x i
Para calcular probabilidades de esta variable a partir de la función f (·), se tendría que
Z x+
FX (x) = f (ξ) dξ,
−∞
52 Prof. Dr. Antonio José Sáez Castillo
1
3
0.8 2.5
0.6 2
1.5
0.4
1
0.2
0.5
Teorema 2.1 Sea X una v.a. discreta que toma valores x1 , x2 , ..., con mpf dada por
fX (·) , dpf generalizada dada por f (·) y cdf dada por FX (·). Entonces:
X
FX (x) = fX (xi ) u (x − xi ) ,
xi
dFX (x) X
f (x) = = fX (xi ) δ (x − xi ) ,
dx x i
Z x+
FX (x) = f (ζ) dζ
−∞
y
Z b−(+)
P [a < (≤)X < (≤)b] = f (ζ) dζ.
a+(−)
Ejemplo 2.10 Consideremos una v.a. discreta con mpf dada por
0.2 si x=0
fX (x) = 0.6 si x=1 .
0.2 si x=3
y su cdf,
En esta sección se describen algunos de los modelos más conocidos para las v.a. En
general, cuando se habla de estos modelos se les denomina distribuciones. La forma
de caracterizar una distribución es definir su cdf, su dpf (caso continuo) o su mpf o dpf
generalizada (caso discreto).
54 Prof. Dr. Antonio José Sáez Castillo
$
$
2=:Z?
2=:Z?
: :
n!
f (x) = px (1 − p)n−x , x = 0, 1, 2, ..., n,
x! (n − x)!
y su dpf generalizada
n
X n!
f (x) = pk (1 − p)n−k δ (x − k)
k! (n − k)!
k=0
Gráficamente, por ejemplo, la mpf de v.a. con distribuciones B (10, 0.2) y B (10, 0.8)
aparecen en la Figura 2.9.
Para comprobar que, efectivamente, es mpf hemos de confirmar que su suma es la
unidad (se ve claramente que es positiva):
n
X n!
· px · (1 − p)n−x = [p + (1 − p)]n = 1,
x=0
x! (n − x)!
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 55
Por ejemplo, la mpf de distribuciones P (1) y P (10) tienen la forma que aparece
en la Figura 2.10.
Comprobemos que, efectivamente, es mpf :
X∞ X∞
λx λx
e−λ = e−λ = e−λ · eλ = 1,
x=0
x! x=0
x!
utilizando el desarrollo en serie de la función exponencial.
56 Prof. Dr. Antonio José Sáez Castillo
2
2
2=:Z?
2=:Z?
: :
Una v.a. se dice que sigue una distribución geométrica de parámetro p, con
0 < p < 1, si su mpf es
y su dpf generalizada
∞
X
f (x) = p (1 − p)k−1 δ (x − k) .
k=1
P∞ x−1 1
Obsérvese que x=1 p (1 − p) = p 1−(1−p) = 1, por lo que, en efecto, se trata de
una auténtica mpf.
Esta distribución está muy relacionada con la distribución de Bernouilli. Con-
cretamente, una distribución geométrica contabiliza el número de repeticiones de un
experimento de Bernouilli hasta el primer éxito. Es decir, si por ejemplo una v.a. que
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 57
f (y) = P [Y = y] = P [X = y + 1] = p (1 − p)y ,
Ejemplo 2.14 El tráfico WEB de datos puede analizarse como la transmisión a los
largo del tiempo de los denominados paquetes de llamada, que son mensajes transmi-
tidos en una trama compuestos a su vez por datagramas.
58 Prof. Dr. Antonio José Sáez Castillo
)
)
2=:Z?
2=:Z?
: :
Un paquete de llamada
Un datagrama dentro de
un paquete de llamada
Una v.a. se dice que sigue una distribución binomial negativa de parámetros r
y p, con r entero y 0 < p < 1, y se nota X → BN (r, p), si su mpf es
µ ¶
x−1 r
f (x) = p (1 − p)x−r para x = r, r + 1, ...
r−1
ó
x+r−1
f (x) = pr (1 − p)x para x = 0, 1, ...;
r−1
Ejemplo 2.15 Continuando con el ejemplo del canal binario simétrico con probabilidad
de cruce ε = 0.05, si, por ejemplo, estamos interesados en contar el número de bits
correctos hasta que se produce el 2o error, dicha v.a. sigue una distribución BN(2, 0.95).
= 0 + 1 + 0 = 1.
su dpf
½
λ · e−λx si x ≥ 0
f (x) = = λe−λx u (x)
0 en otro caso
y su función de supervivencia,
½ −λx
e si x ≥ 0
P [X > x] = .
1 en otro caso
Ejemplo 2.17 Si en Ejemplo 9.4 consideramos el tiempo que transcurre entre visita y
visita a la página WEB, este tiempo (medido en días), T , es una v.a. exp (15).
62 Prof. Dr. Antonio José Sáez Castillo
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
-1 0 1 2 3 4 5 -1 0 1 2 3 4 5
x x
λ (λx)a−1 e−λx
f (x) = u (x) ,
Γ (a)
R∞
donde Γ (x) = 0 sx−1 e−s ds es la función gamma.
0.35 0.12
0.3
0.1
0.25
0.08
0.2
0.06
0.15
0.04
0.1
0.05 0.02
0 2 4 6 8 10 0 5 10 15 20 25 30
x x
β
f (x) = αβxβ−1 e−αx u (x) .
Su cdf es
β
F (x) = 1 − e−αx u (x) .
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2 0.2
-1 0 1 2 3 4 5 -1 0 1 2 3 4 5
x x
Esta dpf tiene la propiedad de ser simétrica respecto a µ (que como veremos es
su media). Además, es tanto más ”achatada” cuanto mayor sea σ2 , y tanto más
”apuntada” cuanto menor sea σ2 (ver Figura 2.16).
Su cdf viene dada por
Z " #
x
1 (t − µ)2
F (x) = √ exp − dt,
−∞ 2πσ2 2σ 2
sin que esta integral pueda ser expresada mediante funciones elementales. Su cálculo
debe llevarse a cabo mediante técnicas de análisis numérico.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 65
Hasta ahora hemos dado las definiciones necesarias para describir una variable
aleatoria X, discreta o continua, mediante su distribución de probabilidad: Dicha dis-
tribución de probabilidad queda caracterizada mediante la cdf o mediante las funciones
mpf o dpf, según sea discreta o continua. De esta forma, aunque los valores que tome
la variable X no pueden ser conocidos a priori, hasta que se produce una realización
concreta, sí podemos conocer la probabilidad de que los valores que adquiera la variable
pertenezcan a un intervalo, por ejemplo.
En esta sección queremos generalizar el concepto de distribución de probabilidad
considerando un concepto del que ya hemos hablado: La probabilidad condicionada. La
66 Prof. Dr. Antonio José Sáez Castillo
Sea una variable aleatoria X con cdf F (x) y sea un suceso A con proba-
bilidad no nula. Se define la cdf condicionada de la v.a. X al suceso
A como
P [{X ≤ x} ∩ A]
F (x | A) = ,
P [A]
donde P [·] es la probabilidad asociada a la distribución de la v.a. X.
f (x | A) = P [X = x | A] .
Sea X una v.a. continua y sea A = {a < X < b}1 . En ese caso,
P [X ≤ x ∩ a < X < b]
F (x | A) =
P [a < X < b]
0 si x ≤ a
P [X≤x]
= si a < x < b
P [a<X<b]
1 si x ≥ b
0 si x ≤ a
F (x)
= si a < x < b .
F (b)−F (a)
1 si x ≥ b
0 si x ≤ 2
P [X = x ∩ X > 2] 0.4
si x = 3
0.4+0.2
f (x | A) = =
P [X > 2]
0.2
si x = 4
0.4+0.2
0 en cualquier otro caso
Ejemplo 2.19 Sea una v.a. uniforme en el intervalo (0, 1). En ese caso, su dpf es
f (x) = 1 si 0 ≤ x ≤ 1
Supongamos que nos dicen que una realización de esta variable ha ocurrido en el
intervalo (0.5, 1). En ese caso, la dpf condicionada es
0 si x ≤ 0.5 ó x ≥ 1
f (x | X ∈ (0.5, 1)) =
f (x)
si 0.5 < x < 1
F (b)−F (a)
0 si x ≤ 0.5 ó x ≥ 1
=
1 si 0.5 < x < 1
0.5
0 si x ≤ 0.5 ó x ≥ 1
= .
2 si 0.5 < x < 1
Por último, la consideración de las v.a. discretas como límite de continuas utilizando
la función delta de Dirac puede realizarse de manera completamente análoga para definir
la dpf generalizada condicionada de una v.a. discreta.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 69
Teorema 2.2 Sea X una v.a. continua definida sobre un espacio probabilístico (Ω, z, P ),
y sea B un suceso medible de dicho espacio. Entonces,
fX (x | B) P [B]
P [B | X = x] = .
fX (x)
Demostración. Si consideramos los sucesos B y X = x, según la definición de
probabilidad condicionada se tendría que
P [B, X = x]
P [B | X = x] = .
P [X = x]
El problema en esta expresión es que si X es continua, P [X = x] = 0. De todas formas,
tiene sentido pensar en la probabilidad P [B | X = x] como en la probabilidad de que
ocurra el suceso B una vez que se ha comprobado el valor de X, que ha resultado ser
x. Esta probabilidad, que no puede calcularse mediante la definición de probabilidad
condicionada, sí puede ser definirse de la siguiente manera. Por un lado, se tiene que
P [x < X ≤ x + ∆x | B] P [B]
P [B | x < X ≤ x + ∆x] = ;
P [x < X ≤ x + ∆x]
además,
P [x < X ≤ x + ∆x | B] = FX (x + ∆x | B) − FX (x | B)
Teorema 2.3 Sea X una v.a. continua definida sobre un espacio probabilístico (Ω, z, P ),
y sea B un suceso medible de dicho espacio. Entonces:
Z ∞
P [B] = P [B | X = x] fX (x) dx
−∞
De igual forma,
o equivalentemente
Por su parte,
h v v0 i ³v ´
0 0
P [|v (t)| < v0 ] = P − <Z< = 2FZ − 1,
3.5 3.5 3.5
En ese caso,
v0
= 1.645
3.5
v0 = 5.7575V.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 73
La densidad de A es
2
fA (x) = 0.4xe−0.2x .
0.8
0.6
0.4
0.2
0 2 4 6 8
x
que llega a través de las terminales de una antena. El output final del
receptor, muestreado en un cierto instante de tiempo t, es una v.a. X.
Cuando no hay señal, sino sólo ruido ambiental (hipótesis H0 ), la dpf
de esta variable es
1 x2
fX (x / H0 ) = √ e− 0.5 .
0.5π
1 (x−2.5)2
fX (x / H1 ) = √ e− 0.5 .
0.5π
fX (1.2 / H1 ) P [H1 ]
P [H1 / x = 1.2] =
fX (1.2 / H1 ) P [H1 ] + fX (1.2 / H0 ) P [H0 ]
= 0.3775.
(c) ¿Cuál debe ser el umbral a partir del cual decidamos que hay
señal presente si queremos que la probabilidad de error tipo II sea
inferior al 5%? ¿Cuál es la probabilidad del error tipo I en ese
caso?
76 Prof. Dr. Antonio José Sáez Castillo
2. V.a. de tipo mixto (mezcla de discretas y continuas) en Yates & Goodman (1998)
148-150 y Stark & Woods (1994) 68-69.
Sea X una v.a. definida sobre el espacio probabilístico (Ω, z, P (·)), y sea Y = g (X)
una nueva v.a.1 fruto de aplicar la función g (·) sobre los valores de X. De esta manera,
los valores concretos de Y se darán cuando:
77
78 Prof. Dr. Antonio José Sáez Castillo
Por tanto, la nueva variable Y es una v.a. definida sobre el mismo espacio proba-
bilístico que la variable X, pero cuya distribución, lógicamente, no es la misma que la
de X, ya que se ve afectada por la transformación g (·). El objetivo de esta sección es
describir la distribución de la variable Y a partir de la de la variable X.
Teorema 3.1 (del cambio de variable discreto) Sea X una v.a. cualquiera y sea
Y = g (X) una transformación medible de X de manera que resulte una v.a. discreta.
Entonces, la mpf de Y viene dada por
£ ¤
fY (y) = P X ∈ g −1 (y) .
Demostración. Trivial.
Corolario 3.1 Sea X una v.a. discreta y sea Y = g (X) una transformación medible
de X de manera que resulte una v.a. discreta. Entonces, la mpf de Y viene dada por
X
fY (y) = fX (x) ,
x∈g −1 (y)
Demostración. Trivial.
1 1 1 1 11
fX (x) = δ (x + 2) + δ (x + 1) + δ (x) + δ (x − 1) + δ (x − 2)
5 6 5 15 30
La mpf de Y :
X 1
fY (0) = fX (x) = fX (0) =
5
x∈g −1 (0)
X 1 1
fY (1) = fX (x) = fX (−1) + fX (1) = +
6 15
x∈g −1 (1)
X 1 11
fY (4) = fX (x) = fX (−2) + fX (2) = + .
5 30
x∈g −1 (4)
Teorema 3.2 (del cambio de variable continuo) Sea X una v.a. continua con
dpf fX positiva en el conjunto A. Sea Y = g (X) una transformación medible de X
de manera que Y resulte una v.a. continua.
Entonces, la dpf de Y puede calcularse en dos pasos de la siguiente manera:
2. Asignando
fX (x1 )
+ ... + fX (xn )
+ ... si y ∈ g (A)
|g 0 (x1 )| |g 0 (xn )|
fY (y) = .
0 en otro caso
Observación 3.1 Puede darse una expresión alternativa de este resultado consideran-
do la fórmula de la derivada inversa.
80 Prof. Dr. Antonio José Sáez Castillo
Ejemplo 3.4 Sea una v.a. X con distribución exponencial de parámetro λ = 1. Sea la
v.a. Y = 2X 2 . Calculemos la dpf de Y.
Dado que g (X) = 2X 2 , se tiene que g 0 (X) = 4X.
Si y < 0, la ecuación y = 2x2 tiene soluciones no reales. Por tanto, fY (y) = 0 para
todo y < 0.
q q
y
Si y > 0, la ecuación y = 2x2 tiene soluciones x1 = 2 y x2 = − y2 . Por tanto,
³q ´ ³ q ´
y
fX 2 fX − y2
fY (y) = q + q si y > 0;
y
4· 2 4 · y2
³ q ´
como fX (x) = 0 si x < 0, fX − y2 = 0, así que
³q ´
y
fX 2
fY (y) = q si y > 0.
y
4· 2
Sea X una v.a. y sea Y = g (X) una función medible suya. Entonces,
se define la media de la función g (X) como
Z ∞
E [g (X)] = g (x) · fX (x) · dx,
−∞
Como caso particular y más evidente, tenemos la definición de media de una varia-
ble, considerando la función g (X) = X.
1 2 2
f (x) = δ (x) + δ (x − 1) + δ (x − 2) .
5 5 5
En ese caso,
1 2 2 6
EX = 0 · + 1 · + 2 · = = 1.2
5 5 5 5
n
X n!
EX = x· · px · (1 − p)n−x
x! (n − x)!
x=0
n
X (n − 1)!
=n·p· · px−1 · (1 − p)n−x
x=1
(x − 1)! (n − x)!
n−1
X
x−1=t (n − 1)!
= n·p· · pt · (1 − p)n−t−1 = n · p,
t! (n − t − 1)!
t=0
n−1
X (n − 1)!
· pt · (1 − p)n−t−1 = 1
t! (n − t − 1)!
t=0
porque es la suma de todos los valores de una mpf de una v.a. binomial de parámetros
n − 1 y p.
∞
X λx
EX = x · e−λ ·
x=0
x!
∞
X ∞ X λx−1
−λ λx
= x·e · = e−λ · λ ·
x! (x − 1)!
x=1 x=1
∞
X
x−1=t λt
= λ · e−λ · = λ · e−λ · eλ = λ.
t=0
t!
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 83
Z x2
1
EX = x· · dx
x1 x 2 − x1
· 2 ¸x2
1 x 1 x2 − x21
= · = · 2
x2 − x1 2 x1 2 x2 − x1
1 (x2 − x1 ) · (x2 + x1 ) 1
= · = (x1 + x2 ) ,
2 x2 − x1 2
Ejemplo 3.9 Sea una variable exponencial, X → exp (λ) . Calculemos su media:
Z ∞
EX = x · λ · e−λx · dx
0
u=x
dv = λ · e−λx · dx h i∞ Z ∞
= −x · e−λx + e−λx · dx
0 0
· ¸
1 −λx ∞ 1
=0+ − e = .
λ 0 λ
Z ∞
λ (λx)a−1 · e−λx a
EX = x dx = .
0 Γ (a) λ
³ ´
Z ∞ Γ 1 + β1
β
EX = xαβxβ−1 e−αx dx = .
0 α1/β
84 Prof. Dr. Antonio José Sáez Castillo
¡ ¢
Ejemplo 3.12 Sea una variable normal, X → N µ, σ2 . Calculemos su media:
Z ∞ " #
1 (x − µ)2
EX = x· √ exp − · dx
−∞ 2πσ2 2σ2
Z ∞ " #
1 (x − µ)2
=√ x · exp − · dx
2πσ2 −∞ 2σ2
x−µ Z ∞
=y 1 1 2
σ
= √ (µ + σy) · e− 2 y · dy
2π
·Z ∞−∞ Z ∞ ¸
1 1 2 1 2
=√ µ · e− 2 y · dy + σ · y · e− 2 y · dy
2π −∞ −∞
1 h √ i
=√ µ · 2π + σ · 0 = µ.
2π
Ejemplo 3.13 Sea una v.a. uniforme en el intervalo (0, 1). Supongamos que nos dicen
que una realización de esta variable ha ocurrido en el intervalo (0.5, 1). En ese caso,
vimos en el Ejemplo 2.19 que la dpf condicionada es
A partir de medias condicionadas a sucesos que formen una partición puede recu-
perarse la media global, en un resultado análogo al Teorema de la Probabilidad Total.
Para enunciarlo es necesario previamente demostrar que este teorema, que puede apli-
carse a una mpf porque éstas son probabilidades, también es aplicable a una dpf.
Lema 3.1 Sea una v.a. X con dpf fX (x) y una partición del espacio muestral formada
por los conjuntos A1 , ..., AN . Entonces,
N
X
fX (x) = fX (x | Ai ) P [Ai ] .
i=1
Teorema 3.3 Sea X una v.a. y una partición del espacio muestral formada por los
conjuntos A1 , ..., AN . Entonces,
N
X
E [X] = E [X | Ai ] P [Ai ] .
i=1
No obstante, este cómputo puede ser bastante complejo desde el punto de vista del
cálculo. En este sentido, utilizar la definición puede ser mucho más sencillo, como se
ilustra en el siguiente ejemplo.
Ejemplo 3.14 Calculemos la media de la v.a. Y del Ejemplo 3.4 de las dos formas,
es decir, mediante el cambio de variable y mediante la definición.
Calculemos la media:
Z √y
∞
e− 2
E [Y ] = y q dy = 4.
0 4 y2
Proposición 3.1 Sean X una v.a., a1 , ..., an constantes y g1 (X) , ..., gn (X) n fun-
ciones de la variable. Entonces,
= n · p · [(n − 1) · p + 1] .
Por tanto,
£ ¤
V ar [X] = E X 2 − EX 2 = (np)2 + np (1 − p) − (np)2 = np (1 − p) .
así que
£ ¤
V ar [X] = E X 2 − EX 2 = λ.
Obsérvese que en este caso no hay cota para la variabilidad de los datos: cuanto
mayor sea el parámetro λ, mayor será la variabilidad de los resultados.
u=x
dv = x · λ · e−λx · dx · µ 1
¶¸∞
= x · −x · e−λx + · e−λx
λ 0
Z ∞µ ¶
1
− −x · e−λx + · e−λx dx
0 λ
· ¸
1 1 2
= 0 − − 2 − 2 = 2.
λ λ λ
Por tanto,
£ ¤ 1
V ar [X] = E X 2 − EX 2 = 2 .
λ
90 Prof. Dr. Antonio José Sáez Castillo
Recordemos que esta variable es un buen modelo para describir el tiempo de vida de
1
sistemas con esperanza de vida λ. En este sentido, se observa que cuanto mayor sea
esta esperanza de vida mucho mayor será la variabilidad que puede darse en ese tiempo
de vida.
a
Ejemplo 3.19 La varianza de X → Gamma (a, λ) es λ2
.
así que
£ ¤
V ar [X] = E X 2 − EX 2 = σ2 .
EX
P [X ≥ t] ≤ para todo t > 0.
t
1000
P [R ≥ 1500] = = 0.67,
1500
V ar [X]
P [|X − EX| ≥ t] ≤ .
t2
Ejemplo 3.23 Vamos a estimar qué porcentaje de valores se desvían más de dos
desviaciones típicas de la media en cualquier variable.
h p i V ar [X] 1
P |X − EX| ≥ 2 V ar [X] ≤ ³ p ´2 = .
4
2 V ar [X]
0 1 1
0.5 0.617 1
1 0.317 1
1.5 0.134 0.444
2 0.045 0.250
2.5 0.012 0.160
3 0.003 0.111
x = A cos (2πfc t + θ)
Y (t) se trata de una v.a. que no es enteramente continua, ya que puede tomar
los valores 1 y −1 con probabilidad no nula: esta es una v.a. de las denominadas
mixtas. Tiene sentido pensar en su dpf como en una función que al evaluarla en
1 y −1, proporcione la masa de probabilidad de estos valores, mientras que al
evaluarla en y ∈ (−1, 1) proporcione la densidad de probabilidad de estos valores,
de manera que
Z 1
fY (t) (−1) + fY (t) (y) dy + fY (t) (1) = 1.
−1
Además,
Z 1
1 y2
E [Y (t)] = (−1) × 0.1587 + y √ e− 2 dy + 1 × 0.1587 = 0
−1 2π
Z 1
£ ¤ 1 y2
E Y 2 (t) = (−1)2 × 0.1587 + y 2 √ e− 2 dy + 12 × 0.1587
−1 2π
= V ar [Y (t)] = 0.5161.
Por su parte,
∞
X 1 − e−1.5
E [Y ] = k = 0.2872
e1.5k
k=0
∞
X
£ ¤ 1 − e−1.5
E Y2 = k2 = 0.4522
e1.5k
k=0
V ar [Y ] = 0.4522 − 0.28722 = 0.6397.
da1 1 1 da2 1 1
= r³ ´ , = − r³ ´ .
dd 2 v2
2 dd 2 v2
2
g − d2 g − d2
96 Prof. Dr. Antonio José Sáez Castillo
h 2i
donde d ∈ 0, vg .
En esta expresión,
· ¸ Z v2 µ ³ ´ ³ ³ ´´ ¶
v2 g 3 1 3
arcsin x g2 3
π−arcsin x g2
P D> = 3
r³ ´ e 2 v +e 2 v dx
2g v2
e2π − 1 v2
2
2g
2 g − x2
à ! à à !!
Z 152 3
arcsin x 3
π−arcsin x
10 3 1 2 152 2 152
= 3 r³ ´ e 10 +e 10 dx
2 π 2
15
e2 − 1 152 2
20
2 10 −x
= 0.4402.
h i R 15102
v2 xfD (x)
Por tanto, E D / D > 2g = 152 0.4402 dx = 20.25.
20
cuya derivada es
dx 1
si 0 ≤ y < 1
1−y
= .
dy 1
si − 1 < y ≤ 0
1+y
2. Más sobre función característica con aplicaciones en Grimmet & Stirzaker (2001)
148-212, y Papoulis (1991) 115-120.
Variables aleatorias
multidimensionales
99
100 Prof. Dr. Antonio José Sáez Castillo
aleatorio de dimensión N.
FX,Y (x, y) = P [X ≤ x, Y ≤ y] .
Ejemplo 4.1 Sea un vector aleatorio (X, Y ) con los siguientes valores y probabilidades
de éstos:
P [X = 1, Y = 1] = 0.2
P [X = 2, Y = 1] = 0.3
P [X = 3, Y = 3] = 0.5
Entonces, la cdf,
0 si x < 1 o y < 1
0.2 si 1 ≤ x < 2 e y ≥ 1
FX,Y (x, y) = 0.5 si 2 ≤ x < 3 e y ≥ 1 .
0.5 si x ≥ 3 y 1 ≤ y < 3
1 si x ≥ 3 e y ≥ 3
Proposición 4.1 Cualquier cdf conjunta FX,Y verifica las siguientes propiedades:
2. FX,Y (∞, ∞) = 1
3. 0 ≤ FX,Y (x, y) ≤ 1
4. Si el vector es continuo
Z x Z ∞ Z ∞ Z y
FX (x) = fX,Y (t, s) · ds · dt y FY (y) = fX,Y (t, s) · ds · dt
−∞ −∞ −∞ −∞
104 Prof. Dr. Antonio José Sáez Castillo
Si el vector es discreto
XX XX
FX (x) = fX,Y (xi , yj ) y FY (y) = fX,Y (xi , xj )
xi ≤x yj xi yj≤y
5. Si el vector es continuo
Z x2 Z y2
P [x1 < X ≤ x2 , y1 < Y ≤ y2 ] = fX,Y (t, s) · ds · dt,
x1 y1
y las desigualdades pueden ser estrictas o no, sin que la igualdad varíe.
7. Si el vector es continuo
Z ∞ Z ∞
fX (x) = fX,Y (x, y) · dy y fY (y) = fX,Y (x, y) · dx
−∞ −∞
Si el vector es discreto,
X X
fX (x) = fX,Y (x, y) y fY (y) = fX,Y (x, y)
y x
3
fX1 ,X2 ,X3 (x1 , x2 , x3 ) = I√ 2 2 2 (x1 , x2 , x3 ) .
4πa3 { x1 +x2 +x3 <a}
Como
0 si x < 1 o y < 1
0.2 si 1 ≤ x < 2 e y ≥ 1
FX,Y (x, y) = 0.5 si 2 ≤ x < 3 e y ≥ 1 ,
0.5 si x ≥ 3 y 1 ≤ y < 3
1 si x ≥ 3 e y ≥ 3
0 si x < 1
0.2 si 1 ≤ x < 2
FX (x) = FX,Y (x, ∞) =
0.5 si 2 ≤ x < 3
1 si x ≥ 3
0 si y < 1
FY (y) = FX,Y (∞, y) = 0.5 si 1 ≤ y < 3 .
1 si y ≥ 3
b) Si el vector es discreto,
X X
fX1 ,...,XK (x1 , ..., xK ) = ... fX1 ,...,XK ,Xk+1 ,...,XN (x1 , ..., xK , xK+1 , ..., xN )
xK+1 xN
Ejemplo 4.5 Sea el vector bidimensional (X, Y ) con dpf conjunta fX,Y (x, y) = x ·
e−x(y+1) u (x) u (y) . La dpf marginal de X,
Z ∞
fX (x) = fX,Y (x, y) dy
Z−∞
∞
= xe−x(y+1) u (x) dy = e−x u (x) .
0
fX,Y (x, y)
fX|Y =y (x) =
fY (y)
Análogamente, se define la dpf o la mpf de Y condicionada a
X = x,
fX,Y (x, y)
fY |X=x (y) =
fX (x)
Por último, se define la cdf de X condicionada a Y = y, como
R
x f
−∞ X|Y =y (t) · dt si el vector es continuo
FX (x | Y = y) = P [X ≤ x | Y = y] = P
f (x ) si el vector es continuo
xi ≤x X|Y =y i
y\x 0 1 2
9
28
si y = 0
15
28
3
fY |X=1 (y) = 14
15 si x = 1 .
28
0
15 si x = 2
28
Con los datos expuestos podemos caracterizar mediante sus dpf generalizadas las
distribuciones marginales de X e Y , la distribución conjunta de ambos y las dos dis-
tribuciones condicionadas posibles de cada variable respecto de la otra.
La distribución marginal de X viene dada por
1 1
fX (x) = δ (x − 1) + δ (x + 1)
2 2
P [Y = −1] = 0.5
1 1
fY (y) = δ (y − 1) + δ (y + 1) .
2 2
fX,Y (x, y) = P [Y = y | X = x] P [X = x]
0.95 × 0.5 si x = +1, y = +1
0.05 × 0.5 si x = +1, y = −1
= 0.05 × 0.5 si x = −1, y = +1
0.95 × 0.5 si x = −1, y = −1
0 en otro caso
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 111
fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl )
fXi1 ,...,Xik |Xj1 =xj1 ,...,Xjl =xjl (xi1 , ..., xik ) = ,
fXj1 ,...,Xjl (xj1 , ..., xjl )
donde fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl ) es la mpf o la dpf conjunta de las
variables Xi1 , ..., Xik , Xj1 , ..., Xjl y fXj1 ,...,Xjl (xj1 , ..., xjl ) es la mpf o la dpf conjunta
de las variables Xj1 , ..., Xjl .
P [X ≤ x, Y ≤ y] = P [X ≤ x] · P [Y ≤ y]
o lo que es lo mismo,
La dpf marginal de X :
Z 1−x
fX (x) = 24xy · dy = 12x (1 − x)2 si 0 ≤ x ≤ 1
0
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 113
La dpf marginal de Y :
Z 1−y
fY (y) = 24xy · dx = 12y (1 − y)2 si 0 ≤ y ≤ 1.
0
Como
La dpf marginal de X:
Z 1
fX (x) = 4xy · dy = 2x si 0 ≤ x ≤ 1
0
La dpf marginal de Y :
Z 1
fY (y) = 4xy · dx = 2y si 0 ≤ y ≤ 1.
0
Como
= fX ∗ fY (w)
Ejemplo 4.10 Un sistema opera con una componente clave cuya duración, T1 , sigue
una distribución exponencial de parámetro λ. Si esta componente falla, inmediatamente
se pone en funcionamiento una componente exactamente igual que hasta entonces ha
funcionado en standby, cuya duración notamos por T2 , variable aleatoria independiente
de T1 .
Si pretendemos conocer la distribución de probabilidad de la duración total del sis-
tema, que vendrá dada por la v.a. T = T1 + T2 , podemos poner en práctica el teorema
de convolución. Para ello, tengamos en cuenta que
Por tanto,
Z z
fT (z) = λe−λx λe−λ(z−x) dx = λ2 ze−λz u (z) .
0
Finalmente, si se tienen dos vectores aleatorios XN×1 e YM×1 , se dice que son
independientes si
√ q¡ ¢
Z ∞ Z + 42 −x20 42 − x20
1
fX (x0 ) = fX,Y (x0 , y) dy = √ dy = ,
−∞ − 42 −x20 π × 42 8π
R 4 √(42 −x2 )
−4 8π dx = 1. Por tanto,
1 q q
π×42 1
fY / X=x0 (y) = q = q¡ ¢ si − 42 − x20 < y < + 42 − x20
(42 −x20 ) 2 42 − x20
8π
√
R + 42 −x2
y cero en otro caso. De nuevo podemos ver que es densidad, ya que √ 2 20 q 12 2 dy =
− 4 −x0 2 (4 −x0 )
h p p i
1. De hecho, obsérvese que se trata de la distribución uniforme en − 42 − x20 , 42 − x20 .
Se nos pide
Z
£ © ª¤ 1
P (X, Y ) ∈ (x, y) /x2 + y 2 ≤ d2 = dxdy
x2 +y2 ≤d2 π × 42
x = ρ cos α
y = ρ sin α Z d Z 2π
1 d2
= ρdρdα = para 0 ≤ d ≤ 4.
0 0 π × 42 16
y su dpf
0 si d < 0 ó d > 4
fD (d) = .
d si 0 ≤ d ≤ 4
8
P [Q = q, R = r] = P [N = qM + r] = (1 − p) pqM+r .
Dado que
Z ∞ Z ∞
1 = fX,Y (x, y) dydx
Z−∞∞ Z −∞
∞
c
= ce−(x+y) dxdy = ,
0 y 2
se tiene que c = 2.
118 Prof. Dr. Antonio José Sáez Castillo
Z ∞ Z ∞
fY (y) = fX,Y (x, y) dx = 2e−(x+y) dx = 2e−2y para 0 < y < ∞.
−∞ y
Por su parte,
fX,Y (x, y) e−y
si 0 < y < x0
1−e−x0
fY / X=x0 (y) = = .
fX (x0 ) 0 en otro caso
e−x+y0 si 0 < y0 < x
fX/Y =y0 (x) =
0 en otro caso
Finalmente,
Z
P [X + Y ≤ 1] = fX,Y (x, y) dxdy
x+y≤1
Z 1/2 Z 1−y
= 2e−(x+y) dxdy = e−2 − 2e−1 + 1 = 0.264
0 y
Antes de comenzar, obsérvese que las tres variables del vector son indepen-
dientes.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 119
P∞
P [X1 ≥ 2] = x1 =2 fX1 (x1 ) . Por su parte, la marginal de X1 es
∞ X
X ∞
fX1 (x1 ) = (1 − a1 ) (1 − a2 ) (1 − a3 ) ax1 1 ax2 2 ax3 3 = (1 − a1 ) ax1 1 .
x2 =0 x3 =0
Por tanto,
∞
X
P [X1 ≥ 2] = (1 − a1 ) ax1 1 = a21 .
x1 =2
−P [X1 ≥ 1 ∩ X3 ≥ 1 / X2 = 1]
X∞ ∞
X
= fX1 / X2 =1 (x1 ) + fX3 / X2 =1 (x3 )
x1 =1 x3 =1
∞
X ∞
X
− fX1 ,X3 / X2 =1 (x1 , x3 ) .
x1 =1 x3 =1
de manera que
∞
X ∞
X
P [X1 + X3 ≥ 1 / X2 = 1] = (1 − a1 ) ax1 1 + (1 − a3 ) ax3 3
x1 =1 x3 =1
∞
X X∞
− (1 − a1 ) ax1 1 (1 − a3 ) ax2 3
x1 =1 x3 =1
= a1 + a3 − a1 a3 .
120 Prof. Dr. Antonio José Sáez Castillo
= 1 − P [X1 = 0, X2 = 0, X3 = 0]
= 1 − (1 − a1 ) (1 − a2 ) (1 − a3 ) .
fX,Y (x, y0 )
fX / Y =y0 (x) = .
fY (y0 )
Por su parte,
Z ∞ Z y
fY (y) = fX,Y (x, y) dx = λ2 e−λy dx = λ2 ye−λy ,
−∞ 0
1
fX / Y =y0 (x) = para 0 < x < y0 .
y0
3. Teoría de la decisión desde una perspectiva bayesiana en Stark & Woods (1994)
303-312, con aplicación a un sistema de comunicación digital.
Capítulo 5
123
124 Prof. Dr. Antonio José Sáez Castillo
1. Resolviendo para cada y la ecuación (y1 , ..., yM ) = (T1 (x) , ..., TM (x)) , denotando
¡ ¢
x(k) = T1−1 (y1 , ..., yM ) , ..., TM
−1
(y1 , ..., yM ) a cada una de sus soluciones reales
(tantas como inversas de la transformación global), y Jk al jacobiano de cada una
de estas inversas, es decir,
¯ ¯
¯ ∂T1−1 ∂T1−1 ¯
¯ ∂y1 ... ∂yM ¯
¯ ¯
¯ .. .. .. ¯
Jk = ¯ . . . ¯
¯ ¯
¯ ∂TM−1 −1
∂TM ¯
¯ ... ¯
∂y1 ∂yM
2. Asignando
P ¡ (k) ¢
k fX x |Jk | si y ∈ (T1 (A) , ..., TM (A))
fY (y1 , ...yM ) = .
0 en otro caso
Y1 = aX1 + bX2
Y2 = cX1 + dX2
dY1 − bY2
X1 =
ad − bc
−cY1 + aY2
X2 = ,
ad − bc
si suponemos que ad − bc 6= 0.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 125
Por tanto,
µ ¶
1 dy1 − by2 −cy1 + ay2
fY1 ,Y2 (y1 , y2 ) = fX ,X ,
|ad − bc| 1 2 ad − bc ad − bc
así que
Z 2 Z 3
1= k (x + y)2 dydx = 104 · k,
−2 −3
1
luego k = 104 .
ya que el jacobiano es
¯ ¯
¯ 1 ¯
¯ w 0 ¯
¯ ¯.
¯ 1 ¯¯
¯ 0 2
126 Prof. Dr. Antonio José Sáez Castillo
X V
a1 Σ
a2
a3
Y Σ W
a4
a1 = a2 = cos θ
a3 = a4 = sin θ,
V = X cos θ + Y sin θ
W = X sin θ − Y cos θ.
x = v cos θ + w sin θ
y = v sin θ − w cos θ,
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 127
con jacobiano
¯ ¯ ¯ ¯
¯ dx dx ¯ ¯ ¯
¯ ¯ ¯ cos θ sin θ ¯
J = ¯¯ dv dw ¯=¯
¯ ¯
¯ = −1,
¯
¯ dy dy ¯ ¯ sin θ − cos θ ¯
dv dw
luego
· ¸
1 1 ¡ 2 2
¢
fV,W (v, w) = exp − 2 v + w ,
2πσ 2 2σ
es decir, mantienen la misma distribución conjunta que X e Y .
E = X,
x1 = e
p
y1 = d2 − e2
x2 = e
p
y2 = − d2 − e2 ,
128 Prof. Dr. Antonio José Sáez Castillo
Por tanto,
£ ¤
1
exp − 2σ1 2 d2 √d2d−e2 +
2πσ 2
1
£ ¤
fD,E (d, e) = exp − 2σ1 2 d2 √d2d−e2 si d > 0, −e < d < e
2πσ2
0 en otro caso
h 2i
1 √ d d
exp − 2σ si d > 0, −e < d < e
πσ 2 d2 −e2 2
=
0 en otro caso
donde fX1 ,...,XN (x1 , ..., xN ) es la dpf o la dpf generalizada del vector aleatorio.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 129
Como consecuencia inmediata de esta definición, se tiene el hecho de que este opera-
dor esperanza multivariante también es lineal, en el sentido que se recoge en el siguiente
teorema.
Teorema 5.2 Sea un vector aleatorio (X1 , ..., XN )0 y sean α1 , ..., αN escalares cua-
lesquiera. Entonces
PN
Demostración. Si consideramos g (X1 , ..., XN ) = i=1 αi · Xi , entonces
Z ∞ Z N
∞ X
E [g (X1 , ..., XN )] = ... αi · Xi · fX1 ,...,XN (x1 , ..., xN ) · dxN · ... · dx1
−∞ −∞ i=1
N Z
X ∞ Z ∞
= ... αi · Xi · fX1 ,...,XN (x1 , ..., xN ) · dxN · ... · dx1
i=1 −∞ −∞
XN Z ∞ N
X
= αi · Xi · fXi (xi ) · dxi = αi · E [Xi ] .
i=1 −∞ i=1
Cov [X, Y ]
ρ= p .
V ar [X] · V ar [Y ]
Este coeficiente es siempre un número real entre -1 y 1 (Yates & Goodman (1998),
98). Si es cero, indica una ausencia total de relación lineal entre las variables. Si es
uno o menos uno indica una relación lineal total entre las variables, directa o inversa
según lo indique el signo.
luego
Z ∞ Z ∞
RXY = xy · fX (x) · fY (y) · dy · dx
Z−∞
∞
−∞
Z ∞
= xfX (x) dx · yfY (y) dy = EX · EY,
−∞ −∞
1
Si se considera la covarianza de una v.a. consigo misma,
£ ¤
Cov (X, X) = E [(X − EX) (X − EX)] = E (X − EX)2 = V arX,
Ejemplo 5.5 Consideremos una variable aleatoria X y una combinación lineal de ésta,
Y = aX +b. Estudiemos el grado de relación lineal que une a ambas variables mediante
su coeficiente de correlación lineal.
£ ¤
E [XY ] = E [X (aX + b)] = aE X 2 + bE [X]
luego
Es decir, la relación lineal entre ambas variables es total (trivial), y dicha relación es
directa si a es positivo e inversa si a es negativo.
Las propiedades del operador esperanza son muy útiles en la práctica, por ejemplo,
cuando se trata de conocer la varianza de combinaciones lineales de varias variables.
Veamos algún ejemplo al respecto y después un resultado general que los englobe todos.
132 Prof. Dr. Antonio José Sáez Castillo
h i £ ¤ £ ¤ £ ¤
E (X1 + X2 )2 = E X12 + X22 + 2X1 X2 = E X12 + E X22 + 2E [X1 X2 ]
h i
V ar (X1 + X2 ) = E (X1 + X2 )2 − E [X1 + X2 ]2
£ ¤ £ ¤
= E X12 + E X22 + 2E [X1 X2 ] − (EX1 + EX2 )2
£ ¤ £ ¤
= E X12 + E X22 + 2E [X1 X2 ] − EX12 − EX22 − 2EX1 EX2
£ ¤ £ ¤
= E X12 − EX12 + E X22 − EX22 + 2 (E [X1 X2 − EX1 EX2 ])
h i £ ¤ £ ¤ £ ¤
E (X1 − X2 )2 = E X12 + X22 − 2X1 X2 = E X12 + E X22 − 2E [X1 X2 ]
h i
V ar (X1 − X2 ) = E (X1 − X2 )2 − E [X1 − X2 ]2
£ ¤ £ ¤
= E X12 + E X22 − 2E [X1 X2 ] − (EX1 − EX2 )2
£ ¤ £ ¤
= E X12 + E X22 − 2E [X1 X2 ] − EX12 − EX22 + 2EX1 EX2
£ ¤ £ ¤
= E X12 − EX12 + E X22 − EX22 − 2 (E [X1 X2 − EX1 EX2 ])
PN
Proposición 5.2 Sea una suma de N−variables, X = i=1 αi · Xi . Entonces,
N X
X N
V ar [X] = αi · αj · Cov (Xi , Xj ) ,
i=1 j=1
P
Demostración. Como X̄ = N i=1 αi · EXi ,
h¡ ¢2 i
V ar [X] = E X − X̄
"Ã N !Ã N !#
X ¡ ¢ X ¡ ¢
=E αi · Xi − X̄i αi · Xi − X̄i
i=1 i=1
N
XXN
£¡ ¢¡ ¢¤
= αi · αj · E Xi − X̄i Xj − X̄j
i=1 j=1
N X
X N
= αi · αj · Cov (Xi , Xj )
i=1 j=1
CX = (Ci,j )i,j=1,...,N ,
donde
V ar (Xi ) si i = j
Ci,j = .
Cov (X , X ) si i 6= j
i j
Esta matriz contiene las varianzas de cada variable del vector en la diagonal
y en el elemento (i, j) la covarianza entre la i−ésima y la j−ésima variable.
134 Prof. Dr. Antonio José Sáez Castillo
£ ¤
CX N×N = E (X − µX )N×1 (X − µX )01×N .
£ ¤ £ ¤
CX = E (X − µX ) (X − µX )0 = E XX 0 − µX µ0X ,
Proposición 5.3 Sea el vector aleatorio XN×1 con vector de medias µX y matriz de
varianzas covarianzas CX . Sea el vector YM×1 = AM×N · XN×1 + bM×1 . Entonces, el
vector de medias y la matriz de varianzas covarianzas de Y vienen dadas por
µY = AµX + b
CY = ACX A0 .
Ejemplo 5.8 Vamos a ver que la aplicación de este resultado facilita bastante deter-
minados cálculos. Por ejemplo, si queremos calcular V ar (X1 + X2 ), podemos tener en
cuenta que
³ ´ X1
X1 + X2 = 1 1 ,
X2
de manera que
³ ´ V arX1 Cov (X1 , X2 ) 1
V ar (X1 + X2 ) = 1 1
Cov (X1 , X2 ) V arX2 1
= V arX1 + V arX2 + 2Cov (X1 , X2 ) .
Recordemos que se dice que una v.a. X sigue una distribución normal o gaussiana
si su dpf es de la forma
1 1
fX (x) = √ exp{− 2 (x − µ)2 }.
2πσ 2σ
Supongamos ahora que tenemos un vector aleatorio de componentes independientes,
X = (X1 , ..., XN )0 , donde todas ellas sigue una distribución gaussiana, esto es,
¡ ¢
Xi → N µi ; σ 2i .
donde
x = (x1 , ..., xN )0
µX = (µ1 , ..., µN )0
σ2 . . . 0
1
. ..
CX = .. . . . . .
0 ... σN2
donde
CX = (Ci,j )i,j=1,...,N
V ar [Xi ] si i = j
Cij =
Cov [X , X ] si i 6= j
i j
x = (x1 , ..., xN )0
y se nota X → NN (µX ; CX ) .
Puede demostrarse que, en efecto, la dpf así definida cumple las condiciones para ser
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 137
una auténtica función de densidad siempre que CX sea una matriz definida positiva2 ,
y que además, el vector µX es en efecto el vector de medias y la matriz CX la matriz
de covarianzas de X (Grimmet & Stirzaker (2001), 116-117).
Vamos a destacar algunas de las excelentes propiedades de la distribución conjun-
tamente gaussiana. Concretamente, nos centraremos en los siguientes resultados:
Teorema 5.3 Sea un vector XN×1 = (X1 , ..., XN )0 con distribución conjuntamente
gaussiana de vector de medias µ y matriz de covarianzas CX . En ese caso, el subcon-
junto de variables del vector, (Xi1 , ..., XiM ), con M < N también sigue distribución
conjuntamente gaussiana, de parámetros (µi1 , ..., µiM )0 y matriz de covarianzas consti-
tuida por las filas y las columnas de CX correspondientes a las variables Xi1 , ..., XiN .
Ejemplo 5.9 Sea un vector (X1 , X2 , X3 )0 gaussiano, de vector de medias cero y matriz
de covarianzas
2 1 0
1 3 1 .
0 1 1
y matriz de varianzas-covarianzas
³ ´
V ar X |Y=y = CX − CXY CY−1 CXY
0
,
Ejemplo 5.11 Como caso particular, vamos a describir con más detalle el caso bi-
variante, tanto en lo que respecta a su densidad como a las distribuciones marginales
y condicionadas.
Sea por tanto un vector (X, Y )02×1 , con distribución conjuntamente gaussiana de
vector de medias (µX , µY )0 y matriz de covarianzas
σX2 ρσX σ Y
C(X,Y ) = ,
ρσ X σY σY2
donde ρ = Cov(X,Y
σ X σY
)
es el coeficiente de correlación lineal. Entonces, det C(X,Y ) =
¡ ¢
σ2X σ2Y 1 − ρ2 y
1 σ2X
1
− σXρσY
−1
C(X,Y = .
) 1 − ρ2 − σXρσY 1
σ 2Y
1
fX,Y (x, y) = p
2πσ X σY 1 − ρ2
( " #)
−1 (x − µX )2 2ρ (x − µx ) (y − µY ) (y − µY )2
· exp − + .
2 (1 − ρ2 ) σ 2X σ X σY σ2Y
1√
Puede verse fácilmente que esta función alcanza su máximo, , en el punto
2πσ X σ Y 1−ρ2
(µX , µY ).
Por ejemplo, si
0 1 0
µ= , CX =
0 0 1
se tiene una dpf con la forma que aparece en la Figura 5.2 (izquierda), o si por ejemplo,
140 Prof. Dr. Antonio José Sáez Castillo
0.16
0.14 0.08
0.12
0.1 0.06
0.08 0.04
0.06
-4 0.04 -4 -4 0.02 -4
0.02
-2 0 -2 -2 0 -2
y x y x
2 2 2 2
4 4 4 4
Continuando con las propiedades, una de las más útiles es su invarianza frente a
transformaciones lineales, como se recoge en los siguientes resultados.
Y = A1×N · XN×1
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 141
Teorema 5.6 Sea un vector aleatorio XN ×1 = (X1 , ..., XN )0 con distribución gaussia-
na, vector de medias µX y matriz de covarianzas CX . Sea
Ejemplo 5.12 Sean dos v.a. X1 y X2 con distribución conjuntamente gaussiana con
medias cero, varianzas σ2X1 = 4 y σ2X2 = 9 y covarianza, cX1 ,X2 = 3. Si estas variables
se transforman linealmente en las variables
Y1 = X1 − 2X2
Y2 = 3X1 + 4X2
y matriz de covarianzas
σ2Y1 cY1 ,Y2 1 −2 4 3 1 3 28 −66
= =
cY1 ,Y2 σY22 3 4 3 9 −2 4 −66 252
Otra de las más importantes propiedades es que se trata del único caso en el que
independencia e incorrelación son equivalentes.
142 Prof. Dr. Antonio José Sáez Castillo
Teorema 5.7 Sea XN×1 un vector con distribución conjuntamente gaussiana. En-
tonces sus componentes son incorreladas si y sólo si son independientes.
Y = A−1 · X
1. Una señal analógica aleatoria que se observa a lo largo del tiempo tiene
la expresión X (t) = A · cos (2πfc t + Θ) ,donde A sigue una distribución de
Rayleigh de parámetro α, Θ → U (0, 2π), siendo ambas v.a. indepen-
dientes. Calcular la media y la varianza de la v.a. X (t) para cada
t.
2 1
fA,Θ (a, θ) = fA (a) · fΘ (θ) = 2αae−αa ,
2π
Z Z
£ ¤
E X 2 (t) = x2 (t) fA,Θ (a, θ) dadθ
R2
Z ∞ Z 2π
2 1
= a2 cos2 (2πfc t + θ) 2αae−αa dadθ
0 0 2π
Z 2π Z ∞
1 2 2
= cos (2πfc t + θ) dθ a2 2αae−αa da
2π 0 0
1 1
= ·π· ,
2π α
pπ
donde se ha utilizado que E [A] = 4α y V ar [A] = 4−π4α . Por tanto,
£ ¤ 1
V ar [X (t)] = E X 2 (t) − E [X (t)]2 = .
2α
3. Sea una señal aleatoria X (t): es decir, para cada t0 , tenemos una v.a.
X (t0 ). Supongamos, además, que todas las v.a. X (t) son gaussianas
y que cualquier subconjunto de ellas tiene distribución conjuntamente
gaussiana. Consideremos también que la media de todas estas variables
es cero y que la correlación entre pares de variables viene dada por
RX (τ ) = E [X (t) X (t + τ )] = e−|τ | ,para todo t y todo τ .
A · µX = 0
Por su parte, Y1 → N (0, 535. 56) , Y2 → N (0, 378. 56) y Y3 → N (0, 260. 72).
448. 31
ρY1 ,Y2 = √ = 0. 995 650 688 6
378. 56 × 535. 56
366. 06
ρY1 ,Y3 = √ = 0. 979 627 651 4
535. 56 × 260. 72
311. 32
ρY2 ,Y3 = √ = 0. 990 951 698 9
378. 56 × 260. 72
lo que implica que existe un altísimo grado de relación lineal entre cada par
de variables.
Esto ocurre si
¡ ¢ a12
a11 = − a21 e−1 + a22 ,
a21 + a22 e−1
1 + 2e−1
a12 = 1, a21 = 2, a22 = 1, a11 = − .
2 + e−1
p
Notemos v = x2 + y2 y θ = ] (x, y). En ese caso, la transformación inversa es
x = v cos θ e y = v sin θ. El jacobiano de esta transformación inversa
¯ ¯
¯ ¯
¯ cos θ −v sin θ ¯
Jv,θ = ¯¯ ¯ = v.
¯
¯ sin θ v cos θ ¯
Por tanto,
v2
donde fV (v) = ve− 2 para v ≥ 0 y fΘ (θ) = 1
2π para 0 ≤ θ < 2π. Es decir,
1
V sigue una distribución de Rayleigh de parámetro α = 2 y Θ una distribución
uniforme en [0, 2π].
5. Sean X e Y las v.a. que miden el tiempo que transcurre hasta la primera
y la segunda llamada, respectivamente, a una centralita telefónica. La
densidad conjunta de estas variables es fX,Y (x, y) = λ2 e−λy para 0 < x <
y. Calcular la densidad conjunta y las marginales de X, tiempo hasta
la primera llamada, y W = Y − X, tiempo entre la primera llamada y la
segunda llamada. ¿Qué se puede decir de la relación entre las variables
X e Y ? ¿Y entre las variables X y W ?
Estimación I
149
150 Prof. Dr. Antonio José Sáez Castillo
Podría darse el caso en que se conozca tan sólo la distribución de la v.a. X, sin
ninguna otra información relevante acerca de esta v.a., como por ejemplo, su relación
con otras v.a. que puedan observarse. Este caso es denominado en algunos libros en
inglés blind estimation (literalmente, estimación ciega) ya que es muy poco lo que se
conoce a la hora de estimar X. Desde luego, es la peor de las situaciones que pueden
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 151
x̂ = E [X] .
Si desarrollamos el ecm,
£ ¤
ε = E X 2 − 2x̂E [X] + x̂2 .
x̂ = E [X] .
es decir, la varianza (el ecm del estimador óptimo) es el menor ecm que puede darse.
Ejemplo 6.1 Si aplicamos el teorema al caso en que queramos apostar a los dados,
como
1 1 1 1 1 1
EX = 1 · + 2 · + 3 · + 4 · + 5 · + 6 · = 3.5,
6 6 6 6 6 6
152 Prof. Dr. Antonio José Sáez Castillo
paradójicamente, el estimador mínimo cuadrático nos haría perder siempre. Hay que
decir que existen otras técnicas de estimación que garantizarían siempre que el esti-
mador fuera un valor verosímil de la v.a.
Teorema 6.2 Dada la ocurrencia del suceso A, el estimador mínimo cuadrático (es
decir, con mínimo ecm o estimador óptimo) de X es
x̂ = E [X | A] .
En este caso deseamos predecir el valor que tomará la v.a. X, para lo que contamos
con la información que proporciona la observación de otra v.a., Y , relacionada en mayor
o menor medida con X.
Teniendo en cuenta el estimador óptimo cuando se conoce un suceso dado (caso es-
tudiado en el apartado anterior), podríamos considerar que este suceso es precisamente
la observación de la v.a. Y . Es decir, si se observa que Y = y, el estimador óptimo,
según lo visto en el apartado anterior, sería E [X | Y = y]. Pero si, por ejemplo, la v.a.
Y es continua, el suceso Y = y es un suceso con probabilidad cero, de manera que no
es posible considerar el apartado anterior, donde imponíamos que P [A] > 0.
No obstante, tiene sentido pensar en la media condicionada como mejor estimador,
y demostraremos enseguida que, en efecto, lo es. Pero es importante tener en cuenta
que, en este caso, estamos tratando de predecir el valor de una v.a. X cuando se de
un cierto valor y de otra v.a. Y . Tenemos por tanto, que el estimador óptimo de X en
esa situación es una v.a., ya que depende del valor que Y tome, siendo éste aleatorio.
En el siguiente resultado vamos a demostrar que, en efecto, la media condicionada
es el estimador óptimo. Notaremos a la v.a. que para cada valor de Y proporciona la
media de X condicionada a ese valor como E [X | Y ].
X̂ (Y ) = E [X | Y ] ,
x̂ (y) = E [X | Y = y] .
154 Prof. Dr. Antonio José Sáez Castillo
g (Y ) = E [X | Y ] + δ,
E [(X − E [X | Y ]) δ] = E [Xδ] − E [E [X | Y ] δ]
= E [Xδ] − E [Xδ] = 0,
ya que
Z
E [E [X | Y ] δ] = E [X | Y = y] δ fY (y) dy
ZR Z
= x fX|Y =y (x) dx δ fY (y) dy
ZR ZR
= x δ fX|Y =y (x) fY (y) dx dy
ZR ZR
= x δ fX,Y (x, y) dx dy = E [Xδ] .
R R
Por tanto,
h i £ ¤
ε = E (X − E [X | Y ])2 + E δ 2
h i
≥ E (X − E [X | Y ])2
x̂ = E [X | Y = y] = E [X] .
Dicho de otra forma, si las v.a. son independientes, la estimación mínimo cuadrática
es la misma que si ignoráramos el valor de Y .
En general,
1
X̂ (Y ) = (1 + Y ) .
2
M
X h i
ε= E (Xi − E [Xi | Y])2 .
i=1
Si bien el problema teórico del cálculo del mejor estimador está resuelto, incluso
cuando se tiene más de una v.a. a predecir con más de una v.a. a observar, también
es cierto que ese cálculo implica un proceso que en la práctica puede resultar bastante
complejo: habría que calcular la media condicionada y esto no siempre es sencillo, sobre
todo si el número de variables predictoras es mayor que uno.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 157
s (X, Y) = X − E [X | Y] ,
Teorema 6.4 Sea una v.a. X centrada que se desea estimar mediante las observa-
ciones de N−variables Y1 , ..., YN , de manera que (X, Y1 , ..., YN ) sigue una distribución
conjuntamente gaussiana con vector de medias cero.
1
Por analogía con la propiedad geométrica de ortogonalidad, notaremos a esta propiedad
s (X, Y ) ⊥ h (Y ) .
158 Prof. Dr. Antonio José Sáez Castillo
donde los pesos ai son tales que verifican la siguiente condición de ortogonalidad:
"Ã N
! #
X
E X− ai Yi Yj = 0 para todo j = 1, ..., N.
i=1
de ortogonalidad,
"Ã N
! #
X
E X− ai Yi Yj = 0 para todo j = 1, ..., N.
i=1
X c = X − EX
de donde
£ ¤
E [X1 X2 ] = aE X22 + bE [X2 X3 ]
£ ¤
E [X1 X3 ] = aE [X2 X3 ] + bE X32 ;
160 Prof. Dr. Antonio José Sáez Castillo
1 = a×2+b×3
2 = a×3+b×1
Ejemplo 6.6 Vamos a resolver el mismo ejercicio, pero suponiendo que el vector de
³ ´
medias es 1 2 3 .
Como las variables no tienen medias cero, debemos considerarlas centradas para
poder aplicar el principio de ortogonalidad. Se trata, por tanto, de encontrar el esti-
mador óptimo de X1 − 1 dadas X2 − 2 y X3 − 3, que notaremos X̂1 − 1 = a (X2 − 2) +
b (X3 − 3) .
Aplicando el principio de ortogonalidad (a las variables centradas), se tiene que
de donde
1 = a×2+b×3
2 = a×3+b×1
Teorema 6.5 Supongamos que tenemos una variable X que queremos predecir o esti-
mar, conocido el valor de un conjunto de variables predictoras, Y1 , ..., YN . Supongamos
también que todas las variables están centradas (tienen media cero). En estas condi-
P
ciones, el estimador lineal óptimo de X dadas Y1 , ..., YN es X̂ = N
i=1 ai Yi , donde los
¿Qué ocurre si la variable a estimar y/o las variables predictoras no están centradas?
Actuaremos como se comentó en el caso de la estimación gaussiana óptima:
Ejemplo 6.7 Vamos a deducir como un sencillo ejercicio el caso más simple, que
corresponde a la estimación lineal óptima de una v.a. X conocido el valor de otra v.a.
Y . A esta estimación se le conoce como recta de regresión.
• En principio las variables no tienen porqué estar centradas, así que consideramos
la estimación de X − EX dada Y − EY .
E [(X − EX − a (Y − EY )) (Y − EY )] = 0,
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 163
es decir,
Cov(X,Y )
de donde a = V arY .
Obsérvese que cuanto mayor es la varianza del ruido, menos se tiene en cuenta la
observación de Y , tendiendo a cero, es decir, a la media de X, que es el estimador
cuando se ignora por completo a Y .
164 Prof. Dr. Antonio José Sáez Castillo
Por otra parte, si ambas v.a. siguieran una distribución conjuntamente gaussiana,
lo cual no es difícil en la práctica, se tendría la garantía de que la recta de regresión es
en realidad el estimador óptimo.
µ ¶ µ ¶ µ ¶
1 1 1 1 1 1 1 1 1
EY = (−1) + + +0 + + +1 + + =0
12 12 6 12 6 12 6 12 12
µ ¶ µ ¶ µ ¶
£ ¤ 1 1 1 1 1 1 1 1 1 2
E Y 2 = (−1)2 + + +02
+ + +12
+ + = = V arY
12 12 6 12 6 12 6 12 12 3
1 1 1 1
E [XY ] = (−1) · (−1) + (−1) · 0 + (−1) · 1 + 0 · (−1)
12 12 6 12
1 1 1 1 1
+0 · 0 + 0 · 1 + 1 · (−1) + 1 · 0 + 1 · 1
6 12 6 12 12
1
= − = Cov (X, Y )
6
− 16
ρ= 2 = −0.25.
3
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 165
Cov(X,Y )
Por tanto, la recta de regresión es X̂ (Y ) = V arY Y = −0.25Y. El ecm de este
estimador es
¡ ¢ 2¡ ¢
e = V arX 1 − ρ2 = 1 − 0.252 = 0.625.
3
En la sección anterior se parte del conocimiento de la distribución que las v.a. siguen
para el cálculo de los estimadores.
Pero ¿qué ocurre cuando desconocemos uno o más parámetros de la distribución
que sigue una v.a.? Por ejemplo, si observamos repetidamente los valores de una v.a. y
sospechamos por la forma de su densidad que sigue una distribución gaussiana, ¿cómo
conocer los parámetros µ y σ2 ?
El punto de partida en el planteamiento de este problema es el siguiente: dada
una v.a. X que sigue una determinada distribución de probabilidad, deseamos conocer
un parámetro asociado a esta distribución, que notaremos en general θ. La única
información de la que dispondremos será una muestra aleatoria simple (a partir de
ahora, mas), es decir, un conjunto de observaciones X1 , ..., XN que no son más que
copias i.i.d., con la misma distribución que la v.a. X. Esta muestra debe ayudarnos a
calcular al menos, una aproximación lo más precisa posible del parámetro θ.
Vamos a considerar dos formas distintas de aproximar el valor de θ. La primera será
la construcción de estimadores puntuales que proporcionarán, a partir de la muestra,
un valor concreto que aproxime el parámetro desconocido. La segunda forma consiste
en dar una región o intervalo de confianza donde tengamos amplias garantías de que
el parámetro se encuentra.
Por otra parte, también sería deseable que cuanto más rica fuera la muestra, más se
aproximara el estimador al valor del parámetro desconocido. Este tipo de estimadores
se denominan consistentes.
Existen otras propiedades que pueden resultar de interés para los estimadores, pero
no las veremos aquí.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 167
Teorema 6.6 Sea una v.a. X, y una mas suya, X1 , ..., XN . Entonces, la media
muestral,
X1 + ... + XN
MN (X) =
N
Teorema 6.7 Sea una v.a. X y una mas suya, X1 , ..., XN . Entonces, la varianza
muestral,
N
1 X
VN (X) = (Xi − MN (X))2
N −1
i=1
Demostración.
2
X N XN
E Xi − 1 Xj
N
i=1 j=1
X N XN XN
2 1
= E 2
X − Xi Xj + 2 Xj Xk
i N N
i=1 j=1 j,k=1
N
X 2 2 XN
1 XN
1 XN
= E 2
Xi − Xi −2
Xi Xj + 2 2
Xj + 2 Xj Xk
N N N N
i=1
j=1 j=1 j,k=1
j6=i j6=k
2
= (N − 1) σ ,
£ ¤
ya que E Xi2 = σ2 + µ2 . Por tanto,
"P #
N
− µ̂)2
i=1 (Xi
E = σ2 ,
N −1
Ejemplo 6.10 Mediante Matlab hemos generado una muestra aleatoria simple de 1000
valores de una distribución N (0, 1). No obstante, vamos a suponer que desconocemos
de qué distribución proceden los datos y vamos a tratar de ajustar una distribución
teórica partiendo de los valores de la muestra:
Para empezar, debemos pensar en una distribución adecuada. Para ello puede obser-
varse el histograma de los datos por si éste recuerda la forma de alguna dpf conocida.
En este caso, el histograma de la muestra aparece en la Figura 6.1, histograma que
recuerda claramente la dpf de una distribución normal.
La pregunta inmediata una vez que se opta por ajustar mediante una distribución
normal es ¿qué normal? Es decir, ¿qué media y qué varianza se proponen para la
distribución que queremos ajustar a estos datos? Evidentemente, la respuesta a esta
pregunta la proporcionan los estimadores insesgados y consistentes que hemos encon-
trado para estos parámetros. Concretamente,
por lo que ajustaríamos los datos de la muestra x mediante una distribución N (−0.0387, 0.8906).
Obsérvese que es una distribución muy parecida a la que sabemos que es la auténtica
distribución, N (0, 1).
Teorema 6.8 Sea X una v.a. con distribución gaussiana de media µ desconocida
y varianza σ2 conocida. Sea una mas X = (X1 , ..., XN )0 de X, y MN (X) la media
muestral asociada:
N
1 X
MN (X) = Xi .
N
i=1
Entonces,
· · ¸¸
σ σ
P µ ∈ MN (X) − z1− α2 √ , MN (X) + z1− α2 √ = 1 − α,
N N
³ ´
donde z1− α2 es tal que FZ z1− α2 = 1 − α2 , siendo Z → N (0, 1) .
Es decir, la media se encuentra en el intervalo
· ¸
σ σ
MN (X) − z1− α2 √ , MN (X) + z1− α2 √
N N
con un (1 − α)% de confianza.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 171
¡ ¢
Demostración. Dado que la v.a. sigue una distribución N µ, σ2 , la media
³ 2
´
muestral sigue una distribución N µ, σN ; por lo tanto,
MN (X) − µ
Z= q → N (0, 1) .
σ2
N
No obstante, hay que reconocer que en la práctica es poco probable que se desconoz-
ca el valor de la media y sí se conozca el de la varianza, de manera que la aplicación
de este teorema es muy limitada. El siguiente resultado responde precisamente a la
necesidad de extender el anterior cuando se desconoce el valor de la varianza.
Teorema 6.9 Sea X una v.a. con distribución gaussiana de media µ y varianza σ2 ,
ambas desconocidas. Sea una mas X = (X1 , ..., XN )0 de X, la media muestral
N
1 X
MN (X) = Xi
N
i=1
172 Prof. Dr. Antonio José Sáez Castillo
y la varianza muestral,
N
1 X
VN (X) = (Xi − MN (X))2 .
N −1
i=1
Entonces,
" " r r ##
VN (X) VN (X)
P µ ∈ MN (X) − t1− α2 ;N−1 , MN (X) + t1− α2 ;N−1 = 1 − α,
N N
donde tα;N es el valor tal que FTN (tα;N ) = α, siendo TN una v.a. con distribución
llamada T de Student con N grados de libertad2 .
Es decir, confiamos en un (1 − α)% en que el intervalo
" r r #
VN (X) VN (X)
MN (X) − t1−α/2;N−1 , MN (X) + t1−α/2;N−1
N N
Ejemplo 6.11 Para la muestra que hemos considerado en el Ejemplo 6.10, el intervalo
de confianza que se establece al 95% de confianza para la media es
à r !
0.8906 ¡ ¢
−0.0387 ∓ 1.6464 = −8. 783 3 × 10−2 , 1. 043 3 × 10−2
1000
Teorema 6.10 Sea X una v.a. con distribución gaussiana de media µ y varianza σ2 .
Sea una mas X = (X1 , ..., XN )0 de X, la media muestral
N
1 X
MN (X) = Xi .
N
i=1
Entonces:
1. Si la media µ es conocida,
"P PN #
N 2 2
i=1 (Xi − µ) 2 i=1 (Xi − µ)
P <σ < = 1 − α.
χ21− α ;N χ2α ;N
2 2
2. Si la media µ es desconocida,
"P PN #
N 2 2
(X i − M N (X)) (Xi − M N (X))
P i=1
< σ2 < i=1 2 = 1 − α.
χ21− α ;N−1 χ α ;N−1
2 2
³ ´
En ambas expresiones, χ2α;N corresponde con aquel valor tal que Fχ2 χ2α;N =
α, donde χ2 sigue una distribución conocida como χ cuadrado con N grados de
libertad3 .
Ejemplo 6.12 Para la muestra del Ejemplo 6.10, el intervalo de confianza para la
varianza al 95% que proporciona el teorema es
µ ¶
889.7524 889.7524
, = (0. 817 41, 0. 974 22) .
1.0885 × 103 913.3010
1. Nos encontramos en ese 5% de casos en que la varianza, por error, cae fuera del
intervalo.
3
Estos valores pueden obtenerse mediante la función chi2inv (1 − α, N) de MATLAB. También
existen tablas donde aparecen algunos de estos valores, como en Papoulis 253.
174 Prof. Dr. Antonio José Sáez Castillo
Vamos a notar X̂n = aXn−1 +bXn−2 al estimador lineal óptimo. Según el principio
de ortogonalidad,
es decir,
h i
E (Xn − (1.131Xn−1 − 0.371Xn−2 ))2
£ ¤
= E Xn2 − 2 × 1.131E [Xn Xn−1 ] + 2 × 0.371E [Xn Xn−2 ]
£ 2 ¤ £ 2 ¤
+1.1312 E Xn−1 + 0.3712 E Xn−2 − 2 × 1.131 × 0.371E [Xn−1 Xn−2 ]
= 0.275σ2 ,
1
La dpf conjunta de (X, Y ) es fX,Y (x, y) = π×42
para x2 + y2 ≤ 42 .
Para obtener la mejor estimación posible debemos calcular previamente las dis-
tribuciones condicionadas, y para éstas, antes hemos de calcular las marginales:
Z √
42 −x2
√
1 1 42 − x2
f X (x) = √ 2
dy = ,
− 42 −x2 π×4 8 π
176 Prof. Dr. Antonio José Sáez Castillo
Por su parte,
1
π×42 1
fY / X=x (y) = √ = √
1 42 −x2 2 4 − x2
2
8 π
√ √
para − 42 − x2 < y < 42 − x2 . Se trata de una distribución uniforme, cuya
h i
media es el punto medio. Así, E [Y / X] = 0 y el ecm es e = E (Y − 0)2 =
R 4 2 1 √42 −y2
−4 y 8 π dy = 4.
En cualquier caso, las estimaciones no serán muy fiables, ya que en una distribu-
ción uniforme puede darse cualquier valor con la misma densidad, luego la media
no será en absoluto un buen estimador.
3. Sea una señal aleatoria X (t): es decir, para cada t0 , tenemos una v.a.
X (t0 ). Supongamos, además, que todas las v.a. X (t) son gaussianas
y que cualquier subconjunto de ellas tiene distribución conjuntamente
gaussiana. Consideremos también que la media de todas estas variables
es cero y que la correlación entre pares de variables viene dada por
RX (τ ) = E [X (t) X (t + τ )] = e−|τ | ,para todo t y todo τ . Se toma una
muestra de la señal en los instantes t = 0, t = 1 y t = 2, y se desea con
ellas predecir el valor de la señal en el instante t = 3.
se tiene que
es decir,
¡ ¢ ¡ ¢
Hay que tener en cuenta que si V → N 0, σ 2 , entonces X → N V0 , σ2 .
Además, la media muestral, al ser suma de v.a. gaussianas independientes
es también gaussiana, de media
"P #
N
i=1 Xi NV0
E [MN (X)] = E = = V0 .
N N
PN
Xi
Para calcular su varianza, consideremos que i=1
N puede verse como el
resultado de la combinación lineal
X1
µ ¶
1 1 1 X
2
,
MN (X) = , , ...,
N N N ...
XN
luego la varianza de esta variable es
σ 2 0 · · · 0
1
.. .
2 . .. N
µ ¶ 0 σ 1
1 1 1 .. . . . N σ2
, , ..., .
N N N . . . .. = N
.
σ2 0 1
N
0 ··· 0 σ2
³ 2
´
Así pues, MN (X) → N V0 , σN . Por tanto, para encontrar N tal que
P [|MN (X) − V0 | < 0.01σ] > 0.95 debemos tener en cuenta que
√ √
de donde 0.01 N > 1.96 ⇐⇒ N > 196.
SUGERENCIA: Para elegir una distribución adecuada a los datos de la señal, dibujar un
histograma con 5 intervalos y elegir como distribución la de una función de densidad que
se parezca al histograma.
En primer lugar, el histograma de estos datos (ver Figura 2.4) sugiere que pro-
pongamos como modelo aleatorio una distribución normal. Para caracterizar
exactamente qué distribución normal proponemos, debemos estimar la media y
la varianza, que son desconocidas. Nosotros proponemos estimadores insesgados
180 Prof. Dr. Antonio José Sáez Castillo
Por tanto, la distribución que proponemos para los datos es una N (0.1161, 0.7697).
Por otra parte, considerando que la distribución es normal, podemos dar intervalos
de confianza para la media y la varianza:
Para la media
" r r #
0.7697 0.7697
0.1161 − 2.09 , 0.1161 + 2.09 = [−0.294, 0.527] ,
20 20
y para la varianza
· ¸
0.7697 × 19 0.7697 × 19
, = [0.444, 1.642] .
32.85 8.91
1. Estimación de los valores de una v.a. mediante estimación bayesiana (no mínimo
cuadrática) en Stark & Woods (1994) 303-312 y Yates & Goodman (1998) 307-
310.
2. Estimación de los valores de una v.a. mediante estimación por máxima verosimi-
litud y ejemplo sobre un canal de comunicaciones en Viniotis (1997) 322-324.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 181
11. Estimación lineal de un vector de parámetros en Stark & Woods (1994) 288-296.
7.1 Introducción
Uno de los problemas más frecuentes dentro del ámbito de las telecomunicaciones
es la caracterización y el estudio de fenómenos de tipo aleatorio tales como señales de
audio o imagen, datos digitales provenientes de una computadora o señales eléctricas
en general. En todos estos ejemplos, hay una característica que es común a todos ellos:
su comportamiento se modifica de manera natural en función de un nuevo parámetro
183
184 Prof. Dr. Antonio José Sáez Castillo
no considerado hasta ahora, el tiempo. Es decir, todos estos fenómenos se ven afectados
por dos fuentes de variación:
a. Por una parte son aleatorios, así que su valor depende de la ocurrencia de un deter-
minado suceso medible de un espacio probabilístico.
b. Por otra parte, y esto es una novedad, su valor depende del instante en que se
observe, ya que evoluciona con el paso del tiempo.
La distinción entre secuencias y procesos aleatrorios es crucial, y tiene que ver con la
manera en que se observe el tiempo: hablaremos de secuencias cuando éste se observe
en pulsos aislados, y de procesos cuando se mida sin interrupción. El tratamiento de
ambos, secuencias y procesos, es muy distinto, lo que conduce a que deban estudiarse
por separado, como haremos en los siguientes capítulos. Decir por último que algunos
autores hablan de procesos aleatorios en tiempo discreto refiriéndose a lo que nosotros
llamamos aquí secuencias aleatorias y de procesos aleatorios en tiempo continuo en
referencia a lo que nosotros denominamos procesos aleatorios.
7.2 Definición
Es decir, podemos decir que una s.a. es la asignación de una sucesión a cada suceso
de un espacio muestral de un espacio probabilístico, es decir,
X [n, ·] : Ω → {sucesiones} ,
ω→x[n,ω]
X (t, ·) : Ω → {f unciones de t ∈ T } ,
ω→x(t,ω)
Espacio
muestral
ω2 ω1
ω3
X1( t )
X1( tk )
X2(tk )
X2( t )
X3( t ) X3(tk )
tk
Es importante observar que los conceptos de secuencia y proceso aleatorios son una
extensión del concepto de vector aleatorio. Téngase en cuenta que un vector aleatorio es
una secuencia finita de v.a., mientras que una s.a. es una secuencia infinita numerable
y un p.a. una secuencia infinita no numerable de v.a.
Por último, hay un aspecto técnico muy importante a destacar de cara a los próx-
imos capítulos. En los conceptos de secuencia y proceso se realiza una clasificación
implícita de los fenómenos aleatorios dependiendo de si el tiempo es considerado dis-
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 187
creto o continuo. Esa misma clasificación podría realizarse del mismo fenómeno en sí:
es decir, podríamos estudiar por un lado fenómenos aleatorios medidos por variables
discretas y por otro lado fenómenos aleatorios descritos por variables continuas. Eso
nos llevaría a estudiar cuatro familias: las s.a. discretas, las s.a. continuas, los p.a.
discretos y los p.a. continuos. Afortunadamente, vimos cómo las v.a. dicretas pueden
englobarse en el estudio de las v.a. continuas mediante el uso de su dpf generalizada,
de manera que no es necesario realizar esa nueva clasificación. En los siguientes capí-
tulos vamos a estudiar exclusivamente secuencias y procesos aleatorios, incluyendo en
ambos tanto v.a. discretas como continuas mediante el concepto de dpf. No obstante,
es importante distinguir en cada caso qué tipo de fenómeno se está analizando, de cara
a aplicar convenientemente las propiedades de las v.a. estudiadas hasta ahora
7.3 Ejemplos
Nótese que en este ejemplo el tiempo y el conjunto de valores posibles son con-
juntos discretos (se mide día a día y el número de llamadas es un entero), aunque
la apariencia de la gráfica sea la de una función continua de variable continua: se
trata, por tanto, de una s.a. discreta.
Figura 7.2: Número de llamadas recibidas en un día. Secuencia asociada a 276 días.
s.a. continua.
4. Se observa una señal eléctrica (de forma sinusoidal) que se sabe está contaminada
por un ruido. Un valor observado x (t, s) , que se representa en la Figura 7.4,
corresponde a una función muestral de la señal, parte de la cual se debe al efecto
aleatorio del ruido.
En esta ocasión, tanto el tiempo como el rango de valores de la señal, son contin-
uos, de manera que se trata de un p.a. continuo.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 189
Secuencias aleatorias
Recordemos que una s.a., X [n], puede interpretarse como una sucesión, en general
infinita, de v.a. De esta forma, si nos preguntamos qué es necesario conocer para que
podamos calcular la probabilidad de cualquier suceso que involucre a X [n], hemos
de decir que deberíamos disponer de todas las cdf o todas las dpf de un conjunto
cualesquiera de v.a. que componen la s.a.1 . Decimos, por tanto, que una s.a. queda
estadísticamente especificada si para cada N v.a. consideradas en cualesquiera
1
¿Con las dpf de cualquier conjunto finito de v.a. de X [n] podríamos conocer probabilidades de
sucesos que involucren un número infinito de éstas? La respuesta es que sí. Para profundizar sobre este
hecho puede verse Stark & Woods (1998) 321-326.
191
192 Prof. Dr. Antonio José Sáez Castillo
instantes k1 , ..., kN , se conoce la dpf (o la cdf ) conjunta de las v.a. X [k1 ] , ..., X [kN ],
De todas formas, como vimos al considerar las variables y vectores aleatorios, gran
parte de las propiedades estadísticas de éstos dependen en gran medida de sus primeros
momentos. En este sentido,
µX [n] = E [X [n]] ,
Es cierto que no siempre tienen que existir los momentos de primer y segundo
orden de una v.a. Las s.a. que posean estos momentos se denominan s.a. de segundo
orden, y serán las que principalmente consideremos en esta asignatura.
RX [n, k] = RX [k, n]
CX [n, k] = CX [k, n] .
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 193
En esta sección vamos a introducir las definiciones de algunas de las familias de s.a.
más habituales y que se utilizarán en adelante.
Sea una s.a. X [n]. Se dice que X [n] es una secuencia aleatoria
gaussiana si cualquier conjunto de N v.a. de la secuencia tienen distribu-
ción conjuntamente gaussiana.
Los dos siguientes tipos de s.a. tienen que ver con propiedades de independencia
entre las v.a. que forman la secuencia.
Sea una s.a. X [n]. Se dice que X [n] es una secuencia aleatoria
independiente si cualquier conjunto de N v.a. de la secuencia son inde-
pendientes entre sí.
194 Prof. Dr. Antonio José Sáez Castillo
CX [n, k] = 0 si n 6= k,
Lo que hemos puesto de manifiesto, por tanto, es que una s.a. independiente es
incorrelada. El recíproco no es cierto, en general, pero como ocurre con los vectores
gaussianos, sí lo es cuando consideramos s.a. gaussianas.
Sea una s.a. X [n]. Se dice que X [n] es una secuencia aleatoria
con incrementos independientes si cualquier conjunto de N v.a. de la
secuencia, X [k1 ] , X [k2 ] , ..., X [kN ], con k1 < k2 < ... < kN , son tales que
los incrementos
Como veremos más adelante, son numerosas las ocasiones en que las relaciones entre
las v.a. que forman una s.a. tan sólo dependen de la distancia que las separa en el
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 195
tiempo, no del instante en que se produzcan. En este tipo de s.a. el modelo matemático
es mucho más sencillo, como veremos.
Sea una s.a. X [n]. Se dice que X [n] es una secuencia aleatoria
estacionaria en sentido estricto o estrictamente estacionaria si para
cualquier conjunto de N v.a. de la secuencia, X [k1 ] , X [k2 ] , ..., X [kN ], con
k1 < k2 < ... < kN , y para cada entero l se verifica que
fX[k1 ],X[k2 ],...,X[kN ] (x1 , ..., xN ) = fX[k1 +l],X[k2 +l],...,X[kN +l] (x1 , ..., xN )
para todo k y todo l. Es decir, todas las dpf de las v.a. que forman la s.a. son la
misma.
Por otra parte, si se toma N = 2,
para todo n, k y l. Por tanto, las densidades entre dos v.a. cualesquiera es la misma
siempre que las separe la misma distancia en el tiempo (en este caso k − n).
Sea una s.a. X [n]. Se dice que X [n] es una secuencia aleatoria
estacionaria en sentido débil o débilmente estacionaria si:
RX [n, k]
RX [n, k] ≡ RX [k − n] .
Demostración.
µX [n] = E [X [n]] .
Ahora bien, todas las v.a. de la s.a. tienen la misma dpf, luego en particular tienen la
misma media.
Análogamente,
sólo depende de k − n ya que la dpf conjunta de X [n] y X [k] sólo depende de esta
cantidad.
¿El recíproco de este teorema será cierto? No en general. Sin embargo, vamos a ver
que en el caso de s.a. gaussianas ambos conceptos son equivalentes.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 197
Teorema 8.3 Sea X [n] una s.a. gaussiana. Entonces X [n] es débilmente estacionaria
si y sólo si es estrictamente estacionaria.
X [0] = 0
donde W [n] es a su vez una s.a. gaussiana, de media cero, varianza σ2 en todas sus v.a.
que, además, son todas incorreladas entre sí. A una s.a. de este tipo se le denomina
recorrido aleatorio, en este caso, con incrementos gaussianos (e independientes).
En la Figura 8.1 aparecen dos secuencias muestrales de este tipo, con σ2 = 1,
simuladas mediante un sencillo programa implementado en MATLAB.
En primer lugar, tengamos en cuenta que si las v.a. de W [·] son incorreladas y
conjuntamente gaussianas, son también independientes: por tanto, W [n] es una s.a.
independiente. Como además todas las v.a. tienen la misma varianza, σ2 , y media
198 Prof. Dr. Antonio José Sáez Castillo
RW [n, k] = σ2 δ [k − n] ,
donde
1 si k = n
δ [k] =
0 si k 6= n
X [n] = X [n − 1] + W [n]
= X [n − 2] + W [n − 1] + W [n]
de manera que al ser cada vector de v.a. de X [n] combinación lineal de v.a. de W [n]
se tiene que X [n] es también una s.a. gaussiana.
Para ver si X [n] tiene incrementos independientes consideramos una muestra suya
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 199
y
Xn k
X
n<k
RX [n, k] = E W [i] W [j]
i=0 j=0
X k
n X n X
X k
= E W [i] W [j] = E [W [i] W [j]]
i=0 j=0 i=0 j=0
2
= σ n,
ya que
σ 2 si i = j
E [W [i] W [j]] = .
0 si i 6= j
RX [n, k] = σ2 k,
200 Prof. Dr. Antonio José Sáez Castillo
V ar (X [n]) = σ2 n
Las cadenas de Markov en tiempo discreto constituyen una importante de s.a. con
importantes aplicaciones en distintos ámbitos. En este apartado presentamos tan sólo
una breve introducción a los aspectos más relevantes que involucran.
Sea X [n] una s.a. con espacio de estados discreto formado por los ele-
mentos
0, 1, 2, ...
P [X [n + 1] = j | X [n] = i] .
P [X [n + 1] = j | X [n] = i] = pij
pij ≥ 0 y
X
pij = 1 para todo j.
j
P (n) = P n .
202 Prof. Dr. Antonio José Sáez Castillo
Ejemplo 8.2 Supongamos una máquina con dos componentes electrónicos que se ins-
peccionan cada hora. Un componente que está operativo en el instante n tiene una
probabilidad p de fallar antes de la próxima revisión. Un componente que está en
reparación en el instante n tiene una probabilidad r de estar operativo en la próxima
revisión. Se supone que las componentes fallan y se reparan independientemente unas
de otras. Plantear la cadena de Markov en tiempo discreto que modela el número de
componentes operativos.
El tiempo toma valores 0, 1, 2, ... y representa las sucesivas revisiones del equipo.
El espacio de estados está formado por 0, 1, 2. La matriz de transición es
0 1 2
0 (1 − r)2 2r (1 − r) r2
1 p (1 − r) pr + (1 − p) (1 − r) (1 − p) r
2 p2 2p (1 − p) (1 − p)2
Habrá ocasiones en que nos interese conocer la probabilidad de que la cadena esté
ocupando el estado i en el instante n, independientemente de la posición en estados
anteriores. En este sentido, si notamos
(n)
pi = P [X [n] = i]
a las llamadas probabilidades absolutas, se tiene que (Grimmet & Stirzaker (2001)
215-216)
p(n) = p0 · P n ,
Ejemplo 8.3 Supóngase que el estado de una componente electrónica puede ser activa
(A) o inactiva (I) y que la observación de dicha componente en sucesivos instantes fijos
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 203
de tiempo (cada día) forma una cadena de Markov homogénea. Supóngase también que
la matriz de transición es la siguiente:
A I
A 0.7 0.3
I 0.6 0.4
a) Si un día concreto está inactiva, ¿cuál es la probabilidad de que también esté inactiva
el día siguiente?
0.4
0.7
c) Si un día concreto está inactiva, ¿cuál es la probabilidad de que el día siguiente esté
activa?
0.6
la respuesta es 0.667.
0.666
Supóngase que la probabilidad de que un miércoles esté activa es 0.2 y que la pro-
babilidad que esté inactiva es 0.8: (Es decir, p(0) = (0.2, 0.8))
204 Prof. Dr. Antonio José Sáez Castillo
la respuesta es 0.338.
Distribución estacionaria
Como se ha comprobado en este último ejemplo, hay ocasiones en que las distribu-
ciones absolutas de la cadena parece que convergen, con el paso del tiempo, a una
distribución particular, que no depende del tiempo. ¿Cuándo ocurre esto?
Teorema 8.5 (Criterios de Foster) Sea una cadena de Markov en tiempo discreto con
matriz de transición de estados P, irreducible y aperiódica. Si existe distribución de
probabilidad z tal que
z = z · P,
(n) (n)
lim p = lim pj = zj .
n→∞ ij n→∞
π = π · P,
X
π i = 1.
i
2
Para más detalles acerca de estos conceptos, ver Grimmet & Stirzaker (2001) o Viniotis (1997)
543-545.
206 Prof. Dr. Antonio José Sáez Castillo
Ejemplo 8.4 Una centralita telefónica puede estar desocupada (estado 0), con una
llamada (estado 1) o con una llamada y otra en espera (estado 2) y es observada cada
minuto, siguiendo estas observaciones una cadena de Markov homogénea con matriz de
transición
π =π·P
π0 + π1 + π2 = 1,
da como resultado
π0 = 0.2777
π1 = 0.4166
π2 = 0.3055
Sistemas Lineales que se cursa en este mismo cuatrimestre del Plan de Estudios. Aquí
sólo se presentan los resultados necesarios para su aplicación a las s.a.
y [n] = L {x [n]} ,
1 1 1
y [n] = x [n + 1] + x [n] + x [n − 1]
3 3 3
y [n] = ay [n − 1] + by [n − 2] + cx [n] .
208 Prof. Dr. Antonio José Sáez Castillo
y [n + k] = L {x [n + k]} .
En el caso de los sistemas LTI el operador puede sustituirse por la convolución con
una función llamada respuesta al impulso:
∞
X
y [n] = h [n] ∗ x [n] = h [k] x [n − k] ,
k=−∞
donde
h [n] = L {δ [n]} ,
3
Aunque no se haya dicho explícitamente, téngase en cuenta que el output de un sistema LTI con
input una secuencia lineal podría ser una secuencia compleja. Por ejemplo, esto ocurriría con ciertas
respuestas de impulso complejas.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 209
Ahora bien, en esta última igualdad debemos tener en cuenta que la serie es el límite
de la sucesión de sumas parciales, es decir,
N
X
Y [n] = lim h [k] X [n − k] .
N→∞
k=−N
Aunque podemos imaginar que ese límite es en realidad una v.a. para cada n y por
tanto, Y [n] es una s.a. este aspecto formal lo trataremos en el apartado 8.4.1.
Lógicamente, el objetivo desde el punto de vista estadístico sería caracterizar el
output del sistema mediantes sus dpf. Pero el problema en la aplicación de sistemas a
s.a. es que éste mezcla las v.a. del input para dar lugar al output, de manera que puede
resultar extremadamente complejo encontrar siquiera la dpf de cada v.a. del output
dadas todas las conjuntas del input.
Sin embargo, como vamos a ver, resulta algo más sencillo obtener los primeros
momentos (de primer y segundo orden) del output dados los del input, de manera que
podemos estudiar mediante éstos las principales características del output.
Teorema 8.6 Sea X [n] el input de un sistema LTI dado por el operador L. Entonces,
si notamos por Y [n] al output, se tiene que
Suponiendo que el operador media pueda entrar dentro del sumatorio4 , tendríamos
∞
X
E [Y [n]] = h [k] E [X [n − k]] = L {E [X [n]]} .
k=−∞
Demostración.
por tanto,
E [X [n] Y [k]∗ ] = E [L∗k {X [n] X ∗ [k]}] = L∗k {E [X [n] X ∗ [k]]} = L∗k {RX [n, k]} .
Análogamente,
de manera que
E [Y [n] Y ∗ [k]] = E [Ln {X [n] Y [k]∗ }] = Ln {E [X [n] Y [k]∗ ]} = Ln {RXY [n, k]} .
Para obtener las expresiones en términos de las respuestas al impulso no hay más
que expresar los operadores como convoluciones.
212 Prof. Dr. Antonio José Sáez Castillo
Teorema 8.8 Sea X [n] una s.a. débilmente estacionaria real, que se introduce como
input de un sistema LTI en tiempo discreto también real, L [·], caracterizado por h [n].
En ese caso, el output Y [n] = L {X [n]} , es también débilmente estacionario y
Análogamente,
"Ã ! #
X
RY [n] = E [Y [m] Y [m + n]] = E h [k] X [m − k] Y [n + m]
k
X
= h [k] E [X [m − k] Y [m + n]]
k
X X
= h [k] RXY [n + k] = h [−l] RX [m − l] = RXY [n] ∗ h [−n] .
k l
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 213
Ejemplo 8.6 Consideremos una secuencia X [n] y el sistema LTI dado por
Y [n] = X [n] − X [n − 1] .
Por tanto,
= RX [n, k] − RX [n, k − 1] − RX [n − 1, k] + RX [n − 1, k − 1] .
Si consideráramos, por ejemplo, que X [n] es una s.a. débilmente estacionaria con
media cero y
entonces,
µY [n] = 0
Teorema 8.9 Consideremos una s.a. gaussiana X [n] como input de un sistema LTI
dado por el operador L [.]. Entonces el output es una s.a. gaussiana cuya función media
y función de autocorrelación viene dado en el Teorema 8.7.
Se dice que una s.a. X [n] con cdf FX[n] (x) converge en distribución
d
a la v.a. X, y se nota X [n] → X, con cdf FX (x) si
Teorema 8.11 (Ley débil de los grandes números) Sea X [n] una s.a. constitui-
da por v.a. independientes tales que todas ellas tienen la misma media, µ, y la misma
varianza, σ2 . Entonces,
Pn
i=1 X [i] p.
→ µ.
n
Teorema 8.12 (Ley débil de los grandes números con varianzas no homogéneas)
Sea X [n] una s.a. constituida por v.a. independientes tales que todas ellas tienen la
misma media, µ, y varianzas σ2 [n] que verifican
∞
X σ2 [n]
< ∞.
n2
n=1
Entonces,
Pn
i=1 X [i] p.
→ µ.
n
Teorema 8.13 (Ley fuerte de los grandes números) Sea X [n] una s.a. consti-
tuida por v.a. independientes tales que todas ellas tienen la misma media, µ, y la
misma varianza, σ2 . Entonces,
Pn
i=1 X [i] c.s. y m.c.
→ µ.
n
Teorema 8.14 (Teorema Central del Límite) Sea X [n] una s.a. constituida por
v.a. independientes tales que todas ellas tienen la misma distribución de probabilidad6 ,
6
Existe una versión más general de este teorema donde sólo se exige que coincidan los momentos de
primer y segundo orden de las v.a. de la secuencia. Puede encontrarse en Stark 213-214.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 217
Ejemplo 8.7 Consideremos una v.a. X con distribución U [0, 1]. Consideremos una
P ¡ ¢
m.a.s. de ella, X1 , ..., XN . Según el teorema central del límite, N
i=1 X [i] ≈ N N × 0.5, N × 12
−1 .
histograma en cada caso. Estos histogramas aparecen en la Figura 8.3. En ella se pone
de manifiesto como según N crece, el histograma se va pareciendo cada vez más a una
densidad gaussiana.
El hecho de que Zn sea una cadena de Markov en tiempo discreto viene dado
porque su evolución en cada paso sólo tiene que ver con su estado en el paso
anterior.
Notemos a los estados de la cadena como A : (0, 0), B : (0, 1), C : (1, 0) y
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 219
o equivalentemente,
π1 (1 − p)2 + π2 p (1 − p) + π3 p (1 − p) + π4 p2 = π1
π1 p (1 − p) + π2 (1 − p)2 + π3 p2 + π4 p (1 − p) = π2
π1 p (1 − p) + π2 p2 + π3 (1 − p)2 + π4 p (1 − p) = π3
π1 p2 + π2 p (1 − p) + π3 p (1 − p) + π4 (1 − p)2 = π4
Como
n−1
X n−1
X
Sn = (2In − 1) = 2 In − n
i=0 i=0
Pn−1
y i=0 In es una v.a. binomial de parámetros n y p (al ser suma de n v.a.
Bernouilli de parámetro p), la mpf es
µ ¶
n k
fSn (s) = P [Sn = s] = P [Sn = 2k − n] = p (1 − p)n−k ,
k
Como hemos visto, µ [n] = n (2p − 1) , por lo que ya podemos afirmar que
la s.a. no es débilmente estacionaria, ya que su media depende del tiempo.
Además,
CS [n, k] = E [(Sn − E [Sn ]) (Sk − E [Sk ])] = E [(Sn − nE [Xn ]) (Sk − kE [Xk ])]
à ! k
X n X
= E (Xn − E [Xn ]) (Xk − E [Xk ])
i=1 j=1
n X
X k n X
X k
= E [(Xn − E [Xn ]) (Xk − E [Xk ])] = CX [n, k] .
i=1 j=1 i=1 j=1
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 221
k
n X min(n,k)
X X
CS [n, k] = CX [n, k] = V ar (Xi ) = min (n, k) 4p (1 − p) .
i=1 j=1 i=1
µY [n] = 3 + E [Wn ] = 5
= 9 + 6µW + RW [m − n] = 25 + σ2W δ [m − n] .
Notemos, por su parte, al output como Z [n] = h [n] ∗ Y [n]. En ese caso, µZ [n] =
P µY
µY ∞k=−∞ h [k] = 1−ρ .
Por otra parte, obsérvese que Yn es débilmente estacionaria. Por tanto, Zn tam-
bién lo es y
∞
X
CY Z [n] = CY [n] ∗ h [n] = σ2W δ [k] ρn−k u [n − k] = σ2W ρn u [n]
k=−∞
X∞
CY [n] = CY Z [n] ∗ h [−n] = σ2W ρk u [k] ρk−n u [k − n]
k=−∞
∞
X X∞
¡ 2 ¢k−n ρn
= σ2W ρ2k−n = 2 n
σW ρ ρ = σ2W .
1 − ρ2
k=n k=n
222 Prof. Dr. Antonio José Sáez Castillo
Podemos estimar la probabilidad que se nos pide mediante el teorema central del
límite:
· ¸ · ¸
S100 − 20 20 − 20 S100 − 20
P [S100 > 20] = P √ > √ =P √ > 0 ' P [Z > 0] = 0.5.
16 16 16
3. Más sobre cadenas de Markov en tiempo discreto en Grimmet & Stirzaker (2001)
213-256 y Yates & Goodman (1998) 357-380.
4. Modelos ARMA (Autorregresive Moving Average) en Stark & Woods (2002) 365
y Viniotis (1997) 409.
5. Simulación de s.a. como outputs de sistemas LTI en Stark & Woods (2002)
355-358.
7. Un tipo particular de s.a., las martingalas, y teoremas límite para éstas en Stark
& Woods (1994) 357-361, Grimmet & Stirzaker (2001) 333-342.
8. Más sobre teoremas límite en Grimmet & Stirzaker (2001) 328 y 332 y Peyton
(1993) 118-121.
9. Importancia del Teorema Central del Límite en ejemplos en Viniotis (1997) 352-
355.
224 Prof. Dr. Antonio José Sáez Castillo
9.1 Introducción
225
226 Prof. Dr. Antonio José Sáez Castillo
Realmente, hemos de ser conscientes de que la gran mayoría de fenómenos que forman
parte de un proceso de comunicación utilizan el tiempo como un parámetro continuo, de
manera que la utilización de s.a. para su modelización no deja de ser una simplificación
del problema que podrá ser más o menos exitosa. Por ello este capítulo adquiere una
importancia fundamental en el transcurso de la asignatura, ya que en él consideramos
la que a juicio de muchos es la herramienta fundamental que la Estadística proporciona
al campo de la telecomunicaciones: los procesos aleatorios.
Por otra parte, la utilización del tiempo como parámetro continuo supone un enorme
salto cualitativo en cuanto a la complicación de los modelos y su análisis desde el punto
de vista matemático. Pero esto, a la vez, los enriquece enormemente, ya que podremos
utilizar nuevas herramientas matemáticas que en el caso de las s.a. no eran procedentes,
como el cálculo diferencial e integral sobre la variable temporal (continua).
A efectos introductorios, recordemos las definiones básicas de forma simplificada:
Al decir que en cada instante de tiempo el proceso es una v.a., estamos admitiendo
que para cada n variables del proceso, medidas en los instantes t1 , ..., tn , X (t1 ) , ..., X (tn ) ,
existe su dpf conjunta, fX(t1 ),...,X(tn ) (x1 , ..., xn ) , que verifica todas las propiedades ex-
puestas en el Capítulo 4.
Al hilo de la consideración de estas dpf conjuntas surge la siguiente pregunta: ¿qué
es necesario saber de un p.a. para que quede completamente especificado? En el caso
de las s.a. vimos que las dpf conjuntas eran suficientes, pero ahora contamos con la
dificultad de que el tiempo es continuo o, dicho de otra forma, existen muchísimas
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 227
más v.a. en el p.a. que en una s.a. ¿Serán entonces suficientes las dpf conjuntas?
La respuesta es que no, en general. De todas formas, nosotros sólo vamos a estudiar
p.a. suficientemente regulares, procesos tales que conociendo todas estas dpf conjuntas
de cualesquiera familias de vectores del proceso (se dice en ese caso que el proceso
está estadísticamente determinado), se pueden calcular probabilidades de todo tipo
referentes al p.a. Este tipo de procesos se conocen como p.a. separables.
medimos el incremento del consumo respecto del consumo medio habitual (cono-
cido). De esta forma garantizamos que Z (t) tiene media constantemente cero.
Nótese que, como su nombre indica, se trata de una función determinística, real o
compleja. No tiene ninguna componente aleatoria.
Nótese que la diferencia entre ambas funciones tan sólo es el producto de las medias.
2. Los pulsos son asincrónicos en el siguiente sentido: como no se sabe cuándo em-
pezó la señal, el instante en que se produce el primer pulso desde que se comienza
a contabilizar el tiempo es Td , donde Td → U [0, T ]. Puede decirse que el valor de
T es equivalente a la fase de la señal.
E [X (t) X (t + τ )] = E [X (t)] E [X (t + τ )] = 0
De igual forma puede encontrarse la misma expresión para cualquier otro valor de
t, de manera que
A2 ¡1 − τ ¢ si |τ | < T
T
RX (t, t + τ ) = .
0 si |τ | ≥ T
Obsérvese que esa cantidad no depende de t. Veremos más adelante que en ese caso se
dice que el p.a. es débilmente estacionario.
Sea un p.a. X (t). Si para cada n instantes de tiempo, t1 , ..., tn , las v.a.
del p.a. en esos instantes son independientes, es decir,
o equivalentemente,
h i
E X (t1 )2 si t1 = t2
RX (t1 , t2 ) = .
E [X (t )] E [X (t )] en otro caso
1 2
Figura 9.2: Función muestral de un proceso independiente formado por v.a gaussianas
de media cero y varianza uno.
Las propiedades de los p.a. estacionarios en sentido estricto son muchas, pero
destaquemos algunas inmediatas. Hay que insistir, no obstante, en que la definición es
mucho más amplia de lo que estas propiedades implican.
1. Todas las v.a. del proceso tienen la misma distribución. Para ver que esto es
cierto tómese n = 1 en la definición, ya que, en ese caso, fX(t) (x) = fX(t+∆) (x)
para todo ∆.
Esto implica, entre otros aspectos, que todos los momentos pares de v.a. del
proceso que disten lo mismo en el tiempo son iguales.
Uno de los errores más habituales entre el alumnado es pensar que los p.a. esta-
cionarios son procesos que no dependen del tiempo. Eso es absolutamente falso. Que
las propiedades estadísticas no dependan del tiempo no quiere decir que el proceso no
dependa del tiempo.
En la práctica podría ocurrir que difícilmente un proceso fuera estrictamente esta-
cionario, ya que las condiciones que exige la definición de estos procesos, la invarianza
de las distribuciones conjuntas en el tiempo, parecen muy exigentes. Es por ello que
se definen otro tipo de procesos, los procesos débilmente estacionarios, que también
tienen, en cierto sentido, propiedades de invarianza estadística en el tiempo, pero que
podrían darse más fácilmente en la práctica. Concretamente,
1. mX (t) es independiente de t y
Por otra parte, se ha comentado con anterioridad que dadas dos v.a., ocurre en gen-
eral que2 m211 ≤ m02 m20 . En el caso de que consideremos una v.a. X (t) y otra v.a.
X (t + τ ), se tiene que
h i h i
E [X (t) X (t + τ )]2 ≤ E X (t)2 E X (t + τ )2 ,
es decir,
Ejemplo 9.5 La señal recibida por un receptor AM de radio es una señal sinusoidal
con fase aleatoria, dada por X (t) = A · cos [2πfc t + Ξ] , donde A y fc son constantes y
Ξ es una v.a. uniforme en (−π, π) .
En ese caso,
Z π
1 A
E [X (t)] = A cos (2πfc t + ξ) dξ = [sin (2πfc t + ξ)]ξ=π
ξ=−π
−π 2π 2π
A
= sin (2πfc t) cos (π) + cos (2πfc t) sin (π) − sin (2πfc t) cos (−π) − cos (2πfc t) sin (−π)
2π
A
= [0 + 0] = 0.
2π
£ ¤
RX (t, t + τ ) = E [X (t + τ ) X (t)] = E A2 cos (2πfc t + 2πfc τ + Ξ) cos (2πfc t + Ξ)
A2 A2
= E [cos (4πfc t + 2πfc τ + 2Ξ)] + E [cos (2πfc τ )]
2 2
2
Para más detalles ver Haykin 244.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 237
Z
A2 π 1 A2
= cos (4πfc t + 2πfc τ + 2ξ) dξ + cos (2πfc τ )
2 −π 2π 2
A2 A2 A2
= ·0+ cos (2πfc τ ) = cos (2πfc τ ) .
2 2 2
Cov (X (t) X (t + τ )) CX (τ )
ρ (τ ) = p = .
V ar (X (t)) V ar (X (t + τ )) CX (0)
En este sentido,
238 Prof. Dr. Antonio José Sáez Castillo
si estas dpf conjuntas de dos procesos X (t) e Y (t) son todas indepen-
dientes del tiempo, de manera que son constantes cuando se las desplaza en
el tiempo, es decir, para cualesquiera ∆,
= fX(t1 +∆),...,X(tn +∆),Y (s1 +∆),...,Y (sm +∆) (x1 , ..., xn , y1 , ..., ym ) ,
o análogamente
Teorema 9.2 Sean X (t) e Y (t) dos procesos aleatorios conjuntamente estacionarios
(débil). Entonces:
£ ¤
= E A2 · cos [ω0 t] · cos [ω 0 (t + τ )] +
£ ¤
RY (t, t + τ ) = E B 2 · cos [ω0 t] · cos [ω 0 (t + τ )] −
una condición suficiente para que ambos procesos sean estacionarios en sentido débil
es que A y B sean centrados en media, incorreladas y con la misma varianza, σ2 .
En esas condiciones,
y vamos a ver que así son también conjuntamente estacionarios en sentido débil:
+B 2 sin (ω 0 t) cos (ω 0 t + ω 0 τ )
=0
= −σ2 sin [ω 0 τ ]
Hasta ahora hemos definido y estudiado familias muy amplias de procesos (inde-
pendientes, estacionarios, ...). En esta sección vamos a considerar más concretamente
la conocida como familia de procesos aleatorios gaussianos, que constituye, sin duda, la
más importante de entre las que se utilizan en Telecomunicaciones y en cualquier otro
ámbito de aplicación de la Estadística.
Esta definición puede interpretarse como una extensión de la propiedad que ob-
servamos para los vectores gaussianos, donde combinaciones lineales de éstos seguían
siendo gaussianos. En este caso se trata de una combinación lineal continua, es decir de
una integración ponderada por los pesos que determina la función g (·)3 . No obstante,
esta definición no es en absoluto práctica para comprobar si un p.a. es gaussiano. La
siguiente es una definición alternativa que sí es fácilmente utilizable:
donde
x = (x1 , ..., xn )0 ,
C = (Ci,j )i,j=1,..,n ,
Nótese que un proceso gaussiano está completamente descrito una vez que se cono-
cen su función media y su autocovarianza o su autocorrelación.
Existen dos razones fundamentales por las que, como hemos comentado, los p.a.
gaussianos son la familia de p.a. más relevante: Por una parte, las propiedades analíti-
cas que verifican los hacen fácilmente manejables, como veremos a continuación. Por
otra parte, estos procesos han demostrado ser un excelente modelo matemático para
gran número de experimentos o fenómenos reales (resultado amparado en el Teorema
Central del Límite).
son idénticos. Comoquiera que la distribución gaussiana sólo depende del vector de
medias y de la matriz de covarianzas, la demostración está concluida.
Ejemplo 9.7 Sea un proceso gaussiano X (t) débilmente estacionario con E [X (t)] = 4
y autocorrelación RX (τ ) = 25e−3|τ | . Obsérvese que la autocorrelación decrece rápida-
mente con el paso del tiempo.
Si deseamos caracterizar la distribución de probabilidad de tres v.a. del proceso,
1 1
observadas en los instantes t0 , t1 = t0 + 2 y t2 = t1 + 2 = t0 + 1, necesitamos las
medias, E [X (ti )] = 4 y la matriz de covarianzas,
25 − 16 25e−3/2 − 16 25e−6/2 − 16
CX(t0 ),X(t1 ),X(t2 ) = 25e−3/2 − 16 25 − 16 25e−3/2 − 16 .
25e−6/2 − 16 25e−3/2 − 16 25 − 16
fX(tn+1 )|X(t1 )=x1 ,...,X(tn )=xn (xn+1 ) = fX(tn+1 )|X(tn )=xn (xn+1 ) .
Teorema 9.5 Sea X (t) un proceso de Markov. Entonces, la dpf conjunta de cua-
lesquiera n v.a. del proceso puede darse en términos de las densidades condicionadas
de v.a. consecutivas y de la dpf inicial. Concretamente, si t1 < ... < tn ,
fX(t1 ),...,X(tn ) (x1 , ..., xn ) = fX(tn )|X(tn−1 )=xn−1 (xn ) · ... · fX(t2 )|X(t1 )=x1 (x2 ) · fX(t1 ) (x1 ) .
Teorema 9.6 Sea X (t) un proceso gaussiano. Este proceso es markoviano si y sólo si
CX (t1 , t2 ) · CX (t2 , t3 )
CX (t1 , t3 ) = ,
CX (t2 , t2 )
Para ello es necesario conocer previamente cuál es el modelo aleatorio de los tiem-
pos de fallo de los procesadores: el modelo más habitual es considerar que estos tiempos
que se dan desde que un procesador comienza a funcionar hasta que falla siguen una
distribución exponencial de parámetro λ > 0; asimismo es necesario conocer el modelo
del tiempo necesario para la reparación de un procesador o tiempo de servicio, que tam-
bién suele considerarse exponencial, de parámetro µ > 0. Además, hemos de suponer
que los tiempos de fallo y los tiempos de servicio son independientes.
Para caracterizar la cadena debemos analizar de qué manera se producen las transi-
ciones de un estado a otro. En este sentido, teniendo en cuenta que el mínimo de dos
distribuciones exponenciales independientes es una nueva exponencial de parámetro la
suma de los parámetros, se pueden dar las siguientes transiciones con sus respectivas
distribuciones:
Vamos a calcular ahora las probabilidades de cada uno de los estados. Para ello es
importante tener en cuenta que si T sigue una distribución exponencial de parámetro
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 247
2λ λ
0 1 2
µ 2µ
a, se tiene que
e−at − e−a(t+∆t)
P [t < T ≤ t + ∆t | T > t] =
e−at
−a ∆t
= 1 − eà !
−a ∆t (−a ∆t)2
= 1− 1+ + + ...
1! 2!
= a ∆t + o (∆t) ,
donde o (∆t) denota una cantidad de inferior orden a ∆t. Con esta puntualización,
como
p0 (t + ∆t) − p0 (t) −2λ µ 0 p0 (t)
p1 (t + ∆t) − p1 (t) = 2λ − (λ + µ) 2µ p1 (t) ∆t + o (t) .
p2 (t + ∆t) − p2 (t) 0 λ −2µ p2 (t)
la ecuación diferencial queda 0 = Ap; resolviendo este sistema lineal queda que
µ ¶2
µ
p0 =
λ+µ
2λµ
p1 =
(λ + µ)2
µ ¶2
λ
p2 =
λ+µ
Hasta hora casi siempre hemos pensado en ejemplos prácticos, reales, de procesos
fundamentalmente vinculados a señales aleatorias. Sin embargo, el proceso de Poisson
es un modelo para un nuevo tipo de procesos de la vida real que cuentan ocurrencias
de un suceso a lo largo del tiempo, denominados por ello procesos de recuento. Algunos
de los ejemplos más comunes en el campo de las telecomunicaciones son el proceso que
cuenta el número de llamadas recibidas en una centralita telefónica o el que cuenta
el número de visitas a una página WEB. En otros ámbitos, como la Física, estos p.a.
pueden servir, por ejemplo, para contabilizar el número de partículas emitidas por un
cuerpo. En todas estas aplicaciones, el p.a. tendría la expresión
∞
X
N (t) = u (t − T [n]) ,
n=1
donde T [n] es una s.a. que representa el momento de la n−ésima llegada que cuenta
el proceso.
El proceso de Poisson de parámetro λ es precisamente el p.a. para el cual la
v.a. T [n] es una suma de n exponenciales independientes del mismo parámetro λ, lo
250 Prof. Dr. Antonio José Sáez Castillo
Ti Ø exp ( λ )
Ίi Ø Erlang ( i ; λ ) X(t)
T1 T2 T3 T4 T5 T6 T7
Ί1 Ί2 Ί3 Ί4 Ί5 Ί6 Ί7
(λt)n−1 −λt
fT [n] (t) = λe u (t) .
(n − 1)!
Υ [n] = T [n] − T [n − 1] ,
Si observamos tan sólo el eje del tiempo, podríamos señalar los instantes en que se
producen las llegadas. Sabemos que esos incrementos en el tiempo desde que se produce
una llegada hasta la siguiente siguen una distribución exponencial, en este caso de
parámetro 1.
Hay que notar que este proceso es discreto. Vamos a ver cuáles son las mpf asociadas
y analicemos sus principales propiedades.
Teorema 9.7 Sea N (t) un proceso de Poisson de parámetro λ. Entonces, para todo t
se tiene que N (t) → P (λt).
252 Prof. Dr. Antonio José Sáez Castillo
Demostración.
Demostración. Trivial.
Demostración. Trivial.
Demostración. Si t2 ≥ t1
= λt1 + λ2 t1 t2 .
Análogamente, si t2 < t1 ,
Por tanto,
Conocidas las mpf de cada v.a. del proceso, podemos conocer también las conjuntas
de cualquier vector de v.a. del proceso, como se recoge en el siguiente resultado.
Teorema 9.10 Sea N (t) un proceso de Poisson de parámetro λ. Entonces, para cua-
lesquiera t1 < ... < tk ,
Demostración. Si se tienen t1 < t2 < ... < tn , dado que el proceso tiene incre-
mentos independientes,
fX(tn+1 )|X(t1 )=x1 ,...,X(tn )=xn (xn+1 ) = fX(tn+1 )|X(tn )=xn (xn+1 ) .
Las siguientes propiedades que destacamos del proceso de Poisson tienen importan-
tísimas aplicaciones en el ámbito del Teletráfico y, en general, de la Teoría de Colas.
Teorema 9.12 (Propiedad aditiva del proceso de Poisson) Sean N1 (t) p.a. de
Poisson de parámetro λ1 , N2 (t) p.a. de Poisson de parámetro λ2 , ambos independien-
tes. Entonces, N1 (t) + N2 (t) es un p.a. de Poisson de parámetro λ1 + λ2 .
Ejemplo 9.10 Es frecuente considerar que el proceso que cuenta el número de partícu-
las emitidas por un material radiactivo es un proceso de Poisson. Vamos a suponer por
tanto, que estamos observando el comportamiento de un determinado material del que
se conoce que emite a razón de λ partículas por segundo.
Supongamos que se observa el proceso que cuenta el número de partículas emitidas
desde un instante t hasta el instante t + T0 . Si en ese intervalo de tiempo se supera un
umbral de N0 partículas, debería sonar una señal de alarma. En ese caso, la probabili-
dad de que la alarma suene es
∞
X k N0
X
−λT0 (λT0 ) (λT0 )k
P [N (t + T0 ) − N (t) > N0 ] = e =1− e−λT0 ,
k! k!
k=N0 +1 k=0
Ejemplo 9.11 El número de visitas a la página WEB de una empresa que desea vender
sus productos a través de INTERNET es adecuadamente descrito mediante un proceso
de Poisson. Sabiendo que durante una hora se reciben un promedio de 5 visitas,
256 Prof. Dr. Antonio José Sáez Castillo
(5 × 0.5)0
P [N (0.5) = 0] = e−5×0.5 = 8. 208 5 × 10−2 ,
0!
apenas un 8% de probabilidad.
3. La empresa absorbe otra empresa del sector y opta por establecer un enlace di-
rectamente desde la página de su filial a la propia, garantizándose que todos los
clientes de la filial visitan su página. Si el promedio de clientes que visitaban la
página de la filial era de 2 clientes a la hora, ¿cuál es la probabilidad de que tras
la fusión no se reciba ninguna visita en 10 minutos?
Al hacerse con los clientes de la otra empresa (notemos por M (t) al proceso de
Poisson que contaba sus visitas, de parámetro λ = 2 visitas/hora), lo que ha
ocurrido es que ahora el número de visitas a la WEB de la empresa es la suma
de ambos procesos: T (t) = N (t) + M (t) .
Suponiendo que los procesos de Poisson que contaban las visitas a ambas empresas
fueran independientes, se tiene que T (t), en virtud de la propiedad aditiva del
proceso de Poisson, es también un proceso de Poisson, de parámetro λ = 5 + 2 =
7 visitas/hora. Por tanto,
· µ ¶ ¸ ¡ ¢
1 0
1 −7× 16 7 × 6
P T =0 =e = 0.3114,
6 0!
∞
X (0.25 × 30)k
P [N (60) − N (30) > 10] = e−0.25×30 = 0.1379
k!
k=11
(c) Entre los mensajes recibidos el 20% son mensajes de datos. Calcu-
lar la probabilidad de que se reciban más de 5 mensajes de datos
en un minuto.
2. Sean X (t) e Y (t) dos señales aleatorias independientes entre sí, gaus-
sianas, de media cero y ambas con la misma función de autocovarian-
za, C (t1 , t2 ). Consideremos la señal modulada en amplitud dada por
Z (t) = X (t) cos 2πfc t + Y (t) sin 2πfc t.
Para que Z (t) sea débilmente estacionaria, basta con que X (t) e Y (t) lo
sean, ya que en ese caso, además de tener media cero (constante por tanto),
CZ (t, t + τ ) sólo dependerá de τ .
Por otra parte, Z (t) también es un proceso gaussiano. Para ponerlo de mani-
fiesto, tengamos en cuenta que una muestra de v.a. de Z (t) puede obtenerse
como combinación lineal de v.a. de X (t) e Y (t): como ambos procesos son
gaussianos, combinaciones lineales de v.a. suyas siguen distribución conjun-
tamente gaussiana.
Así pues, al ser gaussiano, las condiciones para ser estrictamente estacionario
son las mismas que para ser débilmente estacionario, ya que ambos conceptos
coinciden en estos procesos.
La dpf conjunta de (Z (t1 ) , ..., Z (tn ))0 será la de un vector con distribución
conjuntamente gaussiana. Para determinarlo totalmente necesitamos el vec-
tor de medias y la matriz de covarianzas: el vector de medias es cero; por su
parte, para el cálculo de la matriz de covarianzas debemos tener en cuenta
que CZ (t, t + τ ) = C (t, t + τ ) cos 2πfc τ . Por tanto, el elemento (i, j) de esta
matriz es C (tj − ti ) cos 2πfc (tj − ti ).
Comencemos por la dpf de cada v.a. Y (t). Obsérvese que el cambio Y (t) =
p
X 2 (t) tiene dos inversas, X (t) = ± Y (t). Así, para 0 ≤ y < ∞
√ 1 √ 1 √ 1 1 1
fY (t) (y) = fX(t) (+ y) √ + fX(t) (− y) √ = fX(t) ( y) √ = √ e− 2 y .
2 y 2 y y 2πy
¡ ¢
Análogamente, el cambio (Y (t1 ) , Y (t2 )) = X 2 (t1 ) , X 2 (t2 ) tiene cuatro inver-
³ p p ´
sas, (X (t1 ) , X (t2 )) = ± Y (t1 ), ± Y (t2 ) , todas ellas con el mismo jaco-
1
biano en valor absoluto, |J| = √ . Por tanto, y teniendo en cuenta la
4 Y (t1 )Y (t2 )
1 √1 − 12 (y1 +y2 )
simetría de la densidad de (X (t1 ) , X (t2 )) , fY (t1 ),Y (t2 ) (y1 , y2 ) = 2π y1 y2 e ,
para 0 ≤ y1 , y2 < ∞.
y la autocorrelación
£ ¤
RY (t, t + τ ) = E [Y (t) Y (t + τ )] = E X 2 (t) X 2 (t + τ )
£ ¤ £ ¤ 1 si τ > 0
= E X 2 (t) E X 2 (t + τ ) = ,
3 si τ = 0
0 si τ > 0
por tanto, CY (t, t + τ ) = .
2 si τ = 0
o matricialmente,
p0 (t + ∆t) − p0 (t) 0 1.5 0 0 p0 (t)
p1 (t + ∆t) − p1 (t) 0 −1.5 1.5 0 p1 (t)
= ∆t + o (t)
p2 (t + ∆t) − p2 (t) 0 0 −1.5 1.5 p2 (t)
p3 (t + ∆t) − p3 (t) 0 0 0 −1.5 p3 (t)
Hay que tener en cuenta que X (5) − X (0) → N (0, 5) siendo X (0) = 0. Por
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 263
tanto,
Z 0.5
1 x2
P [|X (5) − X (0)| > 0.5] = 1 − √ e− 10 dx = 0.823.
−0.5 10π
(b) Calcular de nuevo el apartado (a) suponiendo que en el instante
t = 3 la posición de la partícula era X (3) = 1.
Hemos de calcular P [|X (5)| > 0.5 / X (3) = 1] . Para ello, tengamos en cuen-
ta que la dpf de X (5) / X (3) = 1 es
h i
fX(3) (1) √ 1
exp − (x−1)
2
" #
2π(5−3) 2(5−3) 1 (x − 1)2
fX(5) / X(3)=1 (x) = = √ exp − ,
fX(3) (1) 4π 4
4. Más sobre el proceso de Wiener en Stark & Woods (1994) 386-387 y Grimmet &
Stirzaker (2001) 516-525.
12. Aplicación de las cadenas de Markov en tiempo continuo a redes de área local en
Viniotis (1997) 571-574.
14. P.a. periódicos y cicloestacionarios en Stark & Woods (1994) 408-411, Gardner
(1989) 323-402 y Papoulis (1991) 373-376.
17. Modulación digital por desplazamiento de la fase en Stark & Woods (2002) 416-
418.
Transmisión de procesos
aleatorios a través de sistemas
lineales
10.1 Introducción
Sin duda, uno de los fenómenos que justifica en gran medida la existencia de las
Telecomunicaciones como una de las más importantes ramas de la Ingeniería es la
necesidad de la transmisión de señales a través de cualquier medio físico.
En general, en el proceso de transmisión interviene una señal original, llamada de
entrada o input y un sistema que modifica el input y lo convierte en otra señal, llamada
267
268 Prof. Dr. Antonio José Sáez Castillo
de salida o output.
El objeto de este capítulo es estudiar qué ocurre, desde el punto de vista estadístico,
cuando un p.a. se introduce como entrada en un sistema lineal, invariante en el tiempo.
Concretamente, querremos conocer las características de la salida y su relación con la
entrada.
Así pues, vamos a comenzar con las definiciones más sencillas que intervienen en
este proceso de transmisión:
Input : x (t)
Un sistema se dice lineal si F (αx1 (t) + βx2 (t)) = αF (x1 (t))+βF (x2 (t))
para cualesquiera α, β, t reales, x1 , x2 funciones o procesos.
x(t) y(t)
F(·)
interpretable como los pesos sobre los inputs que dan lugar a los outputs.
entonces,
µZ ∞ ¶ Z ∞
y (t) = F (x (t)) = F x (ξ) · δ (t − ξ) · dξ = x (ξ) · F (δ (t − ξ)) · dξ,
−∞ −∞
los modelos matemáticos que estamos ofreciendo en toda la asignatura, modelos que,
en ocasiones, son más fácilmente observables en el dominio de las frecuencias.
Precisamente, el motivo de que se estudie análisis espectral en el contexto de este
capítulo es que una de las propiedades más utilizadas es la que permite realizar convolu-
ciones como productos de transformadas de Fourier, como vamos a ver a continuación.
Esto facilita en gran medida los cálculos que hay que realizar para describir el output
de un sistema LTI con inputs aleatorios.
Como hemos comentado, la descripción espectral o en el dominio de frecuencias
se obtiene mediante el análisis de las transformadas de Fourier. A este respecto, el
siguiente apartado sirve a modo de recordatorio de los principales resultados referentes
a estas transformadas de Fourier.
El par formado por las expresiones de g (t) y G (f) , una en función de la otra,
forma lo que se denomina un par de transformadas de Fourier, y se simboliza
g (t) ←→ G (f) .
1
Al considerar como variable independiente f , se está utilizando como unidad de medida los ciclos
por segundo o Herzios (Hz). Otros autores utilizan ω = 2πf, cuyas unidades son radianes por segundo.
Es importante no mezclar ambas unidades.
272 Prof. Dr. Antonio José Sáez Castillo
Pero más allá de las condiciones matemáticas para la existencia del espectro debe-
R∞
mos pensar que cualquier señal real (físicamente realizable) de energía finita −∞ |g (t)|2 dt <
∞ tiene espectro.
De entre las propiedades más importantes de la transformada de Fourier destacamos
las siguientes.
PN PN
Proposición 10.1 1. g (t) = n=1 αn gn (t) ←→ n=1 αn Gn (f) = G (f )
2. g (t − t0 ) ←→ G (f ) e−j2πf t0
g (t) ej2πf0 t ←→ G (f − f0 )
³ ´
1 f
3. g (αt) ←→ |α| G α
4. G (t) ←→ g (−f)
dn g(t)
5. dtn ←→ (j2πf)n G (f)
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 273
Rt G(f ) G(0)
6. −∞ g (τ ) dτ ←→ j2πf + 2 δ (f)
7. g ∗ (t) = G∗ (−f)
g ∗ (−t) = G∗ (f)
R∞
8. g1 (t) ∗ g2 (t) = −∞ g1 (τ ) · g2 (t − τ ) · dτ ←→ G1 (f) · G2 (f)
R∞
g1 (t) · g2 (t) ←→ −∞ G1 (ξ) G2 (f − ξ) dξ = G1 (f) ∗ G2 (f)
R∞ ∗
R∞ ∗
9. −∞ g1 (τ ) g2 (τ ) dτ = −∞ G1 (2πf ) G2 (2πf) df, resultado conocido como Teore-
R∞ R∞
ma de Parseval; si g1 (t) = g2 (t) , se tiene −∞ |g (t)|2 dt = −∞ |G (2πf)|2 df .
Sea un p.a. X (t) débilmente estacionario y de segundo orden, esto es, que verifique
h i
E |X (t)|2 < ∞.
Ejemplo 10.1 Sea el proceso X (t) = cos (2πf0 · t + Ξ) , donde Ξ → U (−π, π).
Calculemos su densidad espectral de potencia
1
Ya sabemos que RX (τ ) = 2 cos (2πf0 τ ) .
1
Como cos (2πf0 τ ) ←→ 2 [δ (f − f0 ) + δ (f + f0 )] , se tiene que
1
SX (f) = (δ (f − f0 ) + δ (f + f0 )) .
4
a
Ejemplo 10.2 Consideremos un p.a. X (t) con autocorrelación RX (τ ) = 2 · e−a·|τ | ;
entonces dicho proceso es estacionario y
ha i a2
SX (f ) = T F · e−a·|τ | = ,
2 a2 + (2πf)2
2a
ya que e−a·|τ | ←→ a2 +(2πf )2
.
El ruido blanco es un tipo de proceso aleatorio que puede ser un modelo matemático
adecuado para describir fenómenos reales tales como el ruido termal. El motivo de que
se defina aquí es que su descripción es muy sencilla en términos de su dps.
N0
De hecho, su función de autocorrelación es RX (τ ) = 2 · δ (τ ) .
Esto conduce a una aparente paradoja:
R∞
• Por un lado, parece claro que PXX = −∞ SX df = RX (0) = ∞.
• Sin embargo, se trata de procesos que son físicamente realizables, de manera que
no tiene mucho sentido pensar que su potencia promedio sea infinita.
Hemos de decir que esta paradoja es un serio inconveniente que plantea el modelo
matemático que se propone con un ruido blanco a la hora de representar el fenómeno
físico que lo motiva. No obstante, tiene tan buenas propiedades por su sencillez que
merece la pena asumir esa paradoja. Así, debemos pensar en un ruido blanco como
N0 N0
en un p.a. con SX (f ) = 2 y RX (τ ) = 2 δ (τ ) , donde a pesar de que se tendría que
N0 0
PX = RX (0) = ∞, consideraremos en ocasiones que 0 PX = 2 .
Por otra parte, interpretando en otro sentido la función de autocorrelación, dos v.a.
de un ruido blanco están incorreladas, por muy próximas que se encuentren entre sí. Si
además consideramos que el ruido blanco es gaussiano, no sólo están incorreladas sino
que son independientes.
En muchísimas aplicaciones prácticas se consideran ruidos blancos y además gaus-
sianos, hipótesis que suele estar avalada por el Teorema Central del Límite, ya que el
proceso estará generado en cada instante por la suma de un gran número de observa-
ciones.
SXY (f ) = T F [RXY (τ )]
276 Prof. Dr. Antonio José Sáez Castillo
SY X (f ) = T F [RY X (τ )] .
Teorema 10.2 Sean X (t) e Y (t) procesos conjuntamente estacionarios (débil). En-
tonces:
Ejemplo 10.4 Supongamos que deseamos observar el proceso X (t) pero sólo podemos
observar este proceso interferido por otro, N (t), centrado y estacionario en sentido
débil, a través del proceso
Dado que N (t) es algo ajeno a X (t) que se adhiere a él, vamos a suponer, adi-
cionalmente, que X (t) y N (t) son independientes. En ese caso,
RXN (τ ) = E [X (t)] · E [N (t + τ )] = 0
RNX (τ ) = 0,
luego
RY (τ ) = RX (τ ) + RN (τ )
SY (f) = SX (f ) + SN (f) .
Teorema 10.3 Dado un sistema LTI, F (·), para cualquier proceso aleatorio se cumple
que
E [F (X (t))] = F (E [X (t)]) .
Y (t) = F (X (t)) ,
mX(t) mY(t)
h(t)
es decir,
Y (t) = F (X (t)) ,
tomando esperanza
Demostración. Trivial.
En lo que resta del capítulo vamos a suponer que el input es un proceso débilmente
estacionario, X (t) , que pasa a través de un filtro lineal invariante en el tiempo con
función de respuesta al impulso unidad h (·), dando lugar a un nuevo proceso Y (t).
Vamos a ver cuál es la forma de los momentos del output en ese caso.
Teorema 10.4 El proceso Y (t) resultante del paso del input estacionario (débil) X (t)
a través de un sistema LTI dado por la función de respuesta al impulso unidad h (·) es
también estacionario (débil). Además, ambos procesos son conjuntamente estacionarios
en sentido débil y
Z ∞
µY = µX · h (s) · ds = µX · H (0)
−∞
RXY (τ ) = RX (τ ) ∗ h (τ )
RY X (τ ) = RX (τ ) ∗ h (−τ )
RY (t, t + τ ) = E [Y (t) · Y (t + τ )]
·Z ∞ ¸
=E X (t − ξ) · h (ξ) · dξ · Y (t + τ )
Z ∞ −∞ Z ∞
= E [X (t − ξ) · Y (t + τ )] · h (ξ) · dξ = RXY (τ + ξ) · h (ξ) · dξ
−∞ −∞
Z ∞
= RXY (τ − α) · h (−α) · dα = RXY (τ ) ∗ h (−τ ) ,
−∞
que también depende tan sólo de τ . Uniendo estos dos últimos resultados tenemos que
Z ∞ Z ∞
RY (τ ) = RX (τ ) ∗ h (τ ) ∗ h (−τ ) = h (s) h (r) RX (τ − r + s) dsdr
−∞ −∞
µX = 10 V.
Este p.a. es input de un sistema lineal invariante en el tiempo con respuesta al impulso
unidad
e 0.2
t
si 0 ≤ t ≤ 0.1
h (t) = .
0 en otro caso
N0
Ejemplo 10.6 Sea X (t) un ruido blanco con RX (τ ) = 2 δ (τ ) . Vamos a tratar de
calcular la potencia promedio un output resultante de introducir como input este ruido
282 Prof. Dr. Antonio José Sáez Castillo
N0 N0
RXY (τ ) = RX (τ ) ∗ h (τ ) = δ (τ ) ∗ h (τ ) = h (τ ) .
2 2 Z
N0 N0 ∞
RY Y (τ ) = RXY (τ ) ∗ h (−τ ) = h (τ ) ∗ h (−τ ) = h (τ − ξ) · h (−ξ) · dξ
2 2 −∞
Teorema 10.5 Sea SY (f) la dps del proceso Y (t) generado mediante un sistema LTI
R∞
a partir de un input estacionario (débil) X (t) , Y (t) = −∞ h (t − s) · X (s) · ds.
Entonces,
Σ-
Y(t)
X(t)
= X ( t ) – X ( t-T )
Retraso T
|H ( f )|2
4
-3/T
-3 -2/T
-2 -1/T
-1 00 1/T
1 2/T
2 3/T
3
1/T f
Figura 10.3: Comb filter. Arriba el diagrama que representa el filtro. Abajo, el módulo
al cuadrado de la función de transferencia.
TF
RX (τ ) → SX (f)
↓
T F −1
RY (τ ) ← SY (f ) = SX (f) |H (f )|2
La función de transferencia
dado que
h (t) = δ (t) − δ (t − T ) .
luego
Demostración. Trivial.
Esta última ecuación describe la potencia del output. Obsérvese que si, por ejemplo,
el filtro sólo considera frecuencias bajas, esto es, H (f ) = 0 para |f | > f0 , y SX (f) = 0
h i
para |f| < f0 , entonces E |Y (t)|2 = 0 y estaríamos ante una señal nula debido a que
el filtro la ha eliminado totalmente.
Para finalizar el capítulo, vamos a analizar con más detalle lo que ocurre si el input
del sistema LTI es un proceso gaussiano.
Vamos a mostrar que Y (t) es un proceso gaussiano utilizando la primera definición que
vimos de esta familia de procesos.
Si consideramos cualquier función g (t) ,
Z T Z T Z ∞
Y (t) · g (t) · dt = h (t − τ ) · X (τ ) · dτ · g (t) · dt
0 0 −∞
Z ∞ µZ T ¶
= X (τ ) · h (t − τ ) · g (t) · dt · dτ
−∞ 0
W
Ejemplo 10.8 Un proceso gaussiano de ruido blanco con N0 = 10−15 Hz es el input
de un sistema lineal invariante en el tiempo con respuesta al impulso unidad
2π106 e−2π106 t si t ≥ 0
h (t) = .
0 en otro caso
Calculemos
Por tanto,
¡ ¢2
2 10−15 2π106 π10−9 4π106
SY (f ) = |H (f)| · SX (f) = · = .
2 (2πf )2 + (2π106 )2 2 (2πf)2 + (2π106 )2
π10−9 6 |τ |
Haciendo transformada de Fourier inversa, RY (τ ) = 2 · e−2π10 ,luego la
π
potencia promedio del output es RY (0) = 2 · 10−9 W.
Para esta función de respuesta al impulso unidad h (t), la función ρ (t) = h (t) ∗
1
h (−t) es un triángulo centrado en cero con base de longitud 4T y altura 2T .
sin (T 2πf)
H (f) =
T 2πf
sin2 (T 2πf )
SY (f) = SX (f) ·
T 2 (2πf)2
RY (τ ) = RX (τ ) ∗ ρ (t)
Z 2T µ ¶
1 |α|
= 1− RX (τ − α) · dα
2T −2T 2T
1
RT
Si tomamos t = 0, tenemos la v.a. ν T = 2T −T X (t) · dt = Y (0) . La varianza de
esta v.a. es
Z 2T µ ¶
1 |α|
CY (0) = 1− CX (α) · dα.
2T −2T 2T
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 287
En primer lugar hay que decir que como el input es un proceso gaussiano y
el sistema es LTI, el output también es gaussiano. Además, si notamos Y (t)
a dicho output, su media es µY = µX · H (0) = 0 y su densidad espectral de
potencia
SY (f ) = SX (f ) · |H (f)|2
N0 1 1 N0 1
= · · =
2 1 + j2πfRC 1 − j2πf RC 2 1 + (2πfRC)2
N0 (1/RC)2 N0 (1/RC) 2 (1/RC)
= 2 2 = ,
2 (1/RC) + (2πf ) 2 2 (1/RC)2 + (2πf)2
Por lo tanto, entre cada par de v.a. del otput, el grado de relación lineal
en %, observado mediante el coeficiente de correlación lineal al cuadrado es
RY (t−s)2 1
100 × ρ2Y (t),Y (s) = RY (0)2
= e− RC |τ | .
Si deseamos que las v.a. disten entre sí un tiempo τ tal que este grado de
1
relación lineal sea inferior al 1%, debe cumplirse e− RC |τ | < 0.01 o equivalen-
temente, |τ | > −RC ln 0.01 = 4.60RC.
Así pues, esas tres variables seguirán una distribución conjuntamente gaussia-
288 Prof. Dr. Antonio José Sáez Castillo
Dado que
N0 1
SXY (f) = SX (f) · H (f) = · ,
2 1 + j2πf RC
N0 1 − τ
RXY (τ ) = e RC u (τ ) .
2 RC
Por tanto,
N0
r
RXY (0) 2
ρX(t)Y (t) =p = q 2RC = .
RX (0) RY (0) N0 N0 RC
2 4RC
2W 2
H (f) = ,
W 2 + (2πf )2
por tanto,
2W 2 A
SXY (f ) = 2 · [δ (f − fc ) + δ (f + fc )] .
W 2 + (2πf) 4
Finalmente,
Z ∞
AW 2
Cov (X (t) , Y (t)) = RXY (0) = SXY (f ) df =
−∞ W 2 + (2πfc )2
y
Z ∞
2A2 W 4
V ar (Y (t)) = SY (f) df = ³ ´2
−∞ W 2 + (2πfc )2
luego
Z ∞
2
Y (10) = cos (2πs + θ) e−|10−s| ds = cos θ.
−∞ 1 + (2π)2
h (t) = a1 δ (t − t1 ) + a2 δ (t − t2 ) .
Por tanto,
y
h i
RY (τ ) = RXY (τ ) ∗ h (−τ ) = a1 e−2|τ −t1 | + a2 e−2|τ −t2 | ∗ [a1 δ (τ + t1 ) + a2 δ (τ + t2 )]
¡ ¢ ³ ´
= a21 + a22 e−2|τ | + a1 a2 e−2|τ −(t1 −t2 )| + e−2|τ −(t2 −t1 )|
(a) Encontrar un sistema LTI de manera que este proceso Y (t) sea
el output al introducir como input un ruido blanco gaussiano con
densidad espectral de potencia σ2 .
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 291
Dado que
σ2
SY (f ) = ,
α2 + (2πf)2
σ2
= σ2 |H (f )|2 ,
α2 + (2πf)2
de donde
1 1 1
|H (f)|2 = 2 = .
α2 + (2πf ) α + j2πf α − j2πf
1
Así, podemos considerar que H (f ) = α+j2πf , en cuyo caso, h (t) = e−αt u (t) .
(b) Calcular la probabilidad de que Y (t) así generado recorra una dis-
tancia superior a 1 unidad en 1 unidad de tiempo.
Hay que tener en cuenta que el output es gaussiano al serlo también el input.
Por tanto, Y (t + 1) − Y (t) es una v.a. gaussiana de media cero y varianza
h i σ2 ¡ ¢
E (Y (t + 1) − Y (t))2 = 2 (RY (0) − RY (1)) = 1 − e−α .
α
Así pues,
1
X (t) y función de transferencia dada por H (f) = c+j(2πf ) . Encontrar
µY , RXY (τ ) y RY (τ ) si X (t) es un ruido blanco gaussiano.
1
SXY (f) = σ2 ,
c + j (2πf )
1
de donde RXY (τ ) = σ2 exp (−cτ ) u (τ ) y SY (f) = σ2 c2 +(2πf )2
, de donde RY (τ ) =
σ2
2c exp (−c |τ |) .
4. Sistemas LTI multidimensionales con inputs vectores de p.a. en Stark & Woods
(1994) 511-519.
Estimación II
11.1 Introducción
293
294 Prof. Dr. Antonio José Sáez Castillo
Este tipo de problemas se dará cuando se trate de predecir el valor del proceso (o
de la secuencia) conocida la historia de éste en un intervalo de tiempo anterior.
Hay que tener presente que en el Capítulo 6 se dieron técnicas muy relacionadas
con los problemas que estamos planteando aquí, pero referidas a variables y vectores
aleatorios. Es evidente que podemos aplicar esas técnicas en este ambiente siempre que
sea posible.
Concretamente, esto ocurrirá cuando deseemos estimar X (t) conocido, a lo sumo,
un conjunto finito de valores de Y (s). El problema vendrá cuando las observaciones de
Y (s) sean demasiadas, es decir, cuando ya no sean un vector finito sino una secuencia
infinita (numerable) o, incluso, una función de variable real (no numerable).
En esta sección vamos a utilizar, por tanto, las técnicas del Capítulo 6 para resolver
distintos ejemplos de problemas de estimación planteados en el apartado anterior, siem-
pre desde el punto de vista de la estimación lineal óptima.
Predicción
y el ecm
µ ¶
¡ 2
¢ RX (λ)
e = V ar (X (t + λ)) 1 − ρ = RX (0) 1 − = RX (0) − RX (λ) .
RX (0)
1
Esto no supone pérdida de generalidad, sino tan sólo simplificar el cálculo.
296 Prof. Dr. Antonio José Sáez Castillo
2
Ejemplo 11.1 Consideremos el proceso X (t) centrado con RX (τ ) = 3e−2τ . En ese
caso, el predictor lineal óptimo es
2
X̂ (t + λ) = e−2λ X (t) ,
con un ecm
³ 2
´
e = 3 1 − e−2λ .
Obsérvese como, lógicamente, cuanto mayor es λ, es decir, cuanto más a largo plazo
es la estimación, mayor es el error que se comete.
Los dos casos límites se darían:
• Supongamos ahora la misma situación anterior, pero donde ahora contamos con
la observación de X (t) y de Ẋ (t).
X̂ (t + λ) = a1 X (t) + a2 Ẋ (t) ,
Dado que
dRX (τ )
RẊX (τ ) =
dτ
dRX (τ )
RX Ẋ (τ ) = −
dτ
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 297
d2 RX (τ )
RẊ (τ ) = − ,
dτ 2
dRX (0)
RX (λ) − a1 RX (0) − a2 = 0
dτ
dRX (−λ) dRX (0) d2 RX (0)
− + a1 + a2 = 0.
dτ dτ dτ 2
dRX (λ) 2
= −12λe−2λ
dτ
dRX (0)
=0
dτ
d2 RX (0)
= −12,
dτ
2
3e−2λ − 3a1 = 0
2
−12λe−2λ + 12a2 = 0,
de donde
2
a1 = e−2λ
2
a2 = λe−2λ
2 2
X̂ (τ + λ) = e−2λ X (t) + λe−2λ Ẋ (t) .
n−1
X (n)
X̂n = ai Xi .
i=0
En este caso, del Teorema 6.5 se sigue que el vector de parámetros debe verificar
la ecuación
0 ¡ £ ¤¢−1
a(n) = E [(Xn−1 , ..., X0 ) Xn ] E (Xn−1 , ..., X0 )0 (Xn−1 , ..., X0 )
donde
0 −1
a1
(2) ³ ´ RX (0) RX (1)
= RX (2) RX (1)
(2)
a2 RX (1) RX (0)
³ ´
= σ21 ρ21 + σ 22 ρ22 σ21 ρ1 + σ22 ρ2
−1
σ 21 + σ22 σ21 ρ1 + σ 22 ρ2
×
σ21 ρ1 + σ22 ρ2 σ21 + σ 22
Filtrado
y el ecm
à !
¡ 2
¢ RXY (0)
e = V ar (X (t)) 1 − ρ = RX (0) 1 − p .
RX (0) RY (0)
Ejemplo 11.4 Una señal aleatoria X (t), débilmente estacionaria, centrada en media
con RX (τ ) = 5e−|τ | , es contaminada por un ruido blanco N (t) con potencia promedio
PN = 3, de manera que lo que se observa realmente es la señal resultante,
sin que se sepa, observado Y (t), cuál es el verdadero valor de X (t). El proceso X (t)
es independiente del ruido N (t).
El proceso de filtrado debe tratar de estimar linealmente el valor de X (t) observada
la señal contaminada Y (t).
Para ello, obsérvese que
= RX (τ ) + 0 + 0 + RN (τ ) ,
dado que los procesos X (t) son independientes y centrados, luego ortogonales.
300 Prof. Dr. Antonio José Sáez Castillo
Por tanto,
RXY (0)
X̂ (t) = Y (t)
RY (0)
E [X (t) (X (t) + N (t))]
= Y (t)
RX (0) + RN (0)
RX (0)
= Y (t)
RX (0) + RN (0)
1
= Y (t)
1+ R N (0)
RX (0)
1
= Y (t) = 0.625Y (t)
1 + 35
y el error cuadrático medio,
¡ ¢
ecm = V ar [X (t)] · 1 − ρ2
1
= RX (0) 1 −
1+ R N (0)
RX (0)
= 1.875,
lo que supone un
ρ2 × 100% = 62.5%
de bondad de ajuste.
Obsérvese que cuanto mayor sea la potencia del ruido, peor será el ajuste.
Yn = Xn + Vn ,
£ ¤
RY [i, j] = E Yi Yj∗ = RX [i, j] + σ 2V δ ij
¡ £ ¤¢−1
a(n)0 = E [(Yn , ..., Y0 ) Xn ] E (Y0 , ..., Yn )0 (Y0 , ..., Yn )
h i−1
= (RX [n, n] , ..., RX [0, n]) (RX [i, j])i,j=0,...,n + σ2V In+1
Yn = Xn + Wn
|m| |m|
con Xn y Wn centrados, Wn ruido blanco de varianza σ 2W y RX [m] = σ21 ρ1 + σ22 ρ2 .
Entonces,
donde
0 0
a20 σ21 + σ 22
(2)
a1 = σ21 ρ1 + σ 22 ρ2
(2)
a2 σ21 ρ21 + σ 22 ρ22
−1
σ 2 + σ22 + σ2W σ21 ρ1 + σ22 ρ2 σ21 ρ21 + σ22 ρ22
1
× σ 21 ρ1 + σ22 ρ2 2 2 2 2
σ1 + σ 2 + σW σ1 ρ1 + σ2 ρ2 . 2
σ 21 ρ21 + σ22 ρ22 2 2 2
σ1 ρ1 + σ2 ρ2 σ1 + σ2 + σW2 2
Interpolación
k=N
X
X̂ (t + λ) = ak X (t + kT ) , con 0 < λ < T.
k=−N
o equivalentemente
k=N
X
ak RX (kT − nT ) = RX (λ − nT ) para |n| ≤ N.
k=−N
A la vista de los ejemplos que acabamos de estudiar, parece evidente que las limi-
taciones de las técnicas que conocemos vienen dadas, como se ha comentado, por la
dimensión finita del vector de las componentes predictoras.
En este sentido, todos estos ejemplos y otros que pueden plantearse cuando se tiene
un conjunto de observaciones infinito (numerable o no numerable) tienen una resolución
más compleja y no se abordan en esta asignatura. No obstante, es importante hacer
hincapié en la riqueza que estas aplicaciones tienen en un campo como las Telecomuni-
caciones, de manera que un estudio más exhaustivo del proceso de estimación se hace
necesario en la formación del Ingeniero de Telecomunicaciones.
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 303
donde
Por tanto,
h³ ´ i µ ¶
1
E Xn+ 1 − aXn − bXn+1 Xn = RX − aRX (0) − bRX (1) = 0
2 2
h³ ´ i µ ¶
1
E Xn+ 1 − aXn − bXn+1 Xn+1 = RX − aRX (1) − bRX (0) = 0
2 2
o equivalentemente,
1 1
a + be− 2 = e− 4
1 1
ae− 2 + b = e− 4
× [X (0) + W (0)]]
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 305
En la segunda ecuación:
× [X (1) + W (1)]]
En la tercera ecuación:
× [X (2) + W (2)]]
2.52 1 22
e− 2 − 2a − be− 2 − ce− 2 = 0
2
− 1.5 1 1
e 2 − ae− 2 − 2b − ce− 2 = 0
2 2
− 0.5 − 22 − 12
e 2 − ae − be − 2c = 0,
En este problema de predicción, las coordenadas son independientes entre sí, luego
podemos estimar cada una de ellas por separado. Además, tienen los mismos
momentos de primer y segundo orden, luego la estimación lineal (y óptima en
general, al ser procesos gaussianos) es la misma para ambas.
2 × 33 − 2a − 2 × 31 b − 2 × 32 c = 0
2 × 32 − 2 × 31 a − 2b − 2 × 31 c = 0
2 × 31 − 2 × 32 a − 2 × 31 b − 2c = 0
[3] Grimmet, G. and Stirzaker, D. (2001). Probability and Random Processes. Oxford
University Press, Oxford.
[4] Haykin, S. (1994). Communications Systems. John Wiley & Sons, New York.
[5] Helstrom, C.W. (1991). Probability and Stochastic Processes for Engineers. Pren-
tice Hall, New Jersey.
[6] Leon-Garcia, A. (1994). Probability and Random Processes for Electrical Engi-
neers. Addison-Wesley, Massachusetts.
[7] Muirhead R. (1982). Aspects of Multivariate Statistical Theory. John Wiley &
Sons, New York.
[9] Peyton, Z. (1993). Probability, Random Variables and Random Signal Principles.
McGraw-Hill, New York.
309
310 Prof. Dr. Antonio José Sáez Castillo
[10] Stark, H. and Woods, J. (1994). Probability, Random Processes and Estimation
Theory for Engineers. Prentice Hall, New Jersey.
[11] Stark, H. and Woods, J. (2002). Probability, Random Processes with Applications
to Signal Processing. Prentice Hall, New Jersey.
[13] Viniotis, A. (1998). Probability and Random Processes for Electrical Engineers.
McGraw-Hill, New York.
[14] Yates, R. and Goodman, D. (1998). Probability and Random Processes. John Wiley
& Sons, New York.