Documentos de Académico
Documentos de Profesional
Documentos de Cultura
X1
X
X 3
2
X Y
4
X
5
X
6
X
7
X8
fY(y|H ) fY(y|H )
0 1
Y
m0 t* m1
Universidad de Valladolid
PROBABILIDAD, VARIABLES ALEATORIAS Y
PROCESOS ESTOCÁSTICOS
Una introducción orientada a
las Telecomunicaciones
Serie: INGENIERÍA, nº 12
519.21:621.39
CARLOS ALBEROLA LÓPEZ
Universidad de Valladolid
Secretariado de Publicaciones
e Intercambio Editorial
No está permitida la reproducción total o parcial de este libro, ni su
tratamiento informático, ni la transmisión de ninguna forma o por
cualquier medio, ya sea electrónico, mecánico, por fotocopia, por
registro u otros métodos, ni su préstamo, alquiler o cualquier otra
forma de cesión de uso del ejemplar, sin el permiso previo y por
escrito de los titulares del Copyright.
ISBN: 978-84-8448-307-6
Dep. Legal: SE-3851-2004
Imprime: Publidisa
A quien fue,
a quien es,
a quien no pudo ser
y a quienes serán.
Prólogo
Este libro es el resultado de los diez años de docencia en la materia
de Teorı́a de la Probabilidad y Señales Aleatorias que, en el momento de
redacción de este prólogo, el autor del mismo ha impartido en la Escuela
Técnica Superior de Ingenieros de Telecomunicación de la Universidad de
Valladolid. Pretende ser, como objetivo prioritario, un manual que incluya
los conocimientos probabilı́sticos básicos que se precisan para abordar el
análisis y diseño de los Sistemas de Comunicación.
En el Plan de Estudios de la titulación de Ingeniero de Telecomunica-
ción, tanto el que tuvo esta Escuela en su origen, como en el que actualmente
está en vigor, la materia arriba mencionada se concentra fundamentalmen-
te en una asignatura, a saber, Señales y Sistemas de Transmisión I en el
plan antiguo, y Señales Aleatorias en Ruido (SAR, en adelante), en el plan
actual. El resto de asignaturas que hacen uso de estos temas (fundamen-
talmente Teorı́a de la Comunicación, Teletráfico, Tratamiento Digital de
la Señal y optativas afines ası́ como alguna Telemática) construyen sobre
los pilares de ésta. Por tanto, es SAR el soporte teórico sobre el que otras
asignaturas se basan para impartir sus conocimientos especı́ficos.
Este libro está diseñado para constituir el material docente, a impartir
en un único cuatrimestre, de la única asignatura que proporciona formación
en temas de probabilidad para los alumnos de este Plan de Estudios. Para
el autor tal afirmación supone un reto; no es fácil sintetizar una materia tan
amplia en un único cuatrimestre, partiendo además de un desconocimiento
por parte de los alumnos prácticamente total de conceptos probabilı́sticos
(la experiencia dice que es el caso). Se debe por tanto hacer una selección
minuciosa de los temas a tratar, ası́ como del grado de profundidad en su
tratamiento, para conseguir transmitir esta materia persiguiendo, asimis-
mo, que el alumno pueda llegar a verla como una poderosa herramienta
que le sea útil para abordar problemas futuros.
Dado que la materia es clásica, es evidente que existe una enorme bi-
bliografı́a al respecto. Sin embargo el autor (que es ingeniero del ramo) ha
pretendido escribir un libro para ingenieros y para aspirantes a ello. Por
ello las fuentes bibliográficas que se han tenido presentes (véase la sección
de Bibliografı́a, epı́grafe “Básica”) responden a este perfil de probabilidad
aplicada a las señales y comunicaciones. De tales fuentes bibliográficas des-
taca, en el campo de la Ingenierı́a de Telecomunicación y, en concreto, en el
área de conocimiento de Teorı́a de la Señal, la obra de Athanasios Papou-
lis, recientemente fallecido. Sin exageración ninguna, esta obra es referente
mundial y cubre, con creces, los contenidos de la asignatura a que va dirigi-
10 C. Alberola López
do este libro. Sin embargo, como se dijo antes, el autor dispone de un único
cuatrimestre para realizar su función. En tan poco tiempo esta obra resulta
exhaustiva en exceso de forma que, si bien se tendrá presente a lo largo de
todo el tratado, se debe realizar un trabajo de sı́ntesis importante, sı́ntesis
que, a juicio de su autor, consigue el libro que ahora comienza. Se podrı́a
argumentar que existen otra obras también sintéticas; tal es el caso, por
ejemplo, de la obra de Peebles, también referenciada en el epı́grafe ante-
riormente indicado. No obstante, esta obra tal vez adolece de simplificación
excesiva en determinados momentos, carencia que aquı́ hemos tratado de
evitar.
Este libro no es un libro de estadı́stica— hemos incluido, no obstante
alguna referencia bibliográfica al respecto —, si entendemos por tal el con-
junto de procedimientos a llevar a cabo para extraer conclusiones acerca
de una población a partir de observaciones de una muestra. Por tanto, en
el libro no se encontrará una sola mención, por ejemplo, del concepto de
intervalo de confianza, ni de la estimación de máxima verosimilitud, ni se
hablará de funciones como la t de Student o la F de Snedecor. Sin embar-
go, sı́ que se proporciona una base probabilı́stica que permita al alumno,
si resultase interesado en estos temas, avanzar en esa dirección. Excep-
ción a lo dicho, esto es, descripción de un procedimiento estadı́stico, es el
caso de la estimación de mı́nimo error cuadrático medio que se incluye al
final del capı́tulo tercero. El objetivo de la impartición de tal concepto es
proporcionar al alumno una pequeña base sobre la que construir, en otras
asignaturas, procedimientos óptimos de filtrado de señales. Estarı́amos ha-
blando, concretamente, de proporcionar las bases para la comprensión del
filtro de Wiener y, adicionalmente, del filtro de Kalman. Tampoco se des-
cribe formalmente el concepto de test de hipótesis (se hace una mención
indirecta en el primer capı́tulo para ilustrar la trascendencia del Teorema
de Bayes) ni se deducen las soluciones óptimas en sentido bayesiano ni en
sentido Neyman-Pearson. Sin embargo, a lo largo del texto se plantean
ejemplos de éstos y el alumno puede observar que, en un momento dado,
dispone de las herramientas que le permiten calcular, pongamos, umbrales
para conseguir un determinado requisito. Por tanto, este libro tiene como
objetivo adicional proporcionar una base para poder profundizar, si es de-
seo del alumno, en temas de tratamiento estadı́stico de señales (estimación
y detección) y reconocimiento de patrones, para lo cual hemos incluido en
la bibliografı́a varias referencias enormemente conocidas.
El libro se ha estructurado en cinco capı́tulos, de los cuales los cuatro
primeros formarı́an una unidad conceptual (probabilidad y variables aleato-
11
Teorı́a de la Probabilidad
1.1 Introducción
La mayor parte de los fenómenos en la naturaleza tienen un carácter alea-
torio si bien, en numerosos casos, se simplifican la situaciones con el fin de
hacerlas abarcables y ası́ se tratan de cerrar los experimentos en fórmulas
determinı́sticas. Por ejemplo, si dejamos caer un objeto desde una cierta
altura, asumimos que conocemos con qué aceleración se produce la caı́da y,
asimismo, damos por supuesto que la posición de parada del objeto se pro-
ducirá en la proyección vertical del mismo sobre el suelo. Tal aproximación
deja de ser válida si se introducen otros factores que hacen del problema
algo más complejo como, por ejemplo, la existencia de fuerzas descontro-
ladas (digamos, la acción del viento). Asimismo, si medimos el tiempo de
caı́da del objeto en varias ocasiones raramente conseguiremos dos medi-
das exactamente iguales. No es difı́cil por tanto aceptar que la realidad
se puede aproximar mediante un modelo matemático, más un término de
ambigüedad (al que tı́picamente se denomina ruido).
Podemos pensar en experimentos implı́citamente aleatorios. Piénsese,
por ejemplo, el tiempo que se invierte en llegar de un punto a otro en una
ciudad mediante tráfico rodado. Claramente, este tiempo será uno u otro
en función de las condiciones del tráfico, las cuales no son completamente
predecibles.
Los sistemas de comunicación no son ajenos a estos escenarios de in-
certidumbre. En primer lugar, las señales que se manejan transportan
información, de forma que no son caracterizables con exactitud mediante
un conjunto finito de parámetros. Es decir, si una señal transporta infor-
mación, no podremos predecir sin error— en general —el valor que toma
13
14 C. Alberola López
A
B
C=A-B
A A UB
B
U
A A B
B
N
A1 ∩ A2 ∩ . . . ∩ AN = Ai (1.2)
i=1
Por razones que se verán posteriormente, es habitual en cálculo probabilı́sti-
co escribir
A∪B = A+B (1.3)
A ∩ B = AB (1.4)
y, extendido al caso de operaciones múltiples,
N
A1 ∪ A2 ∪ . . . ∪ AN = Ai (1.5)
i=1
N
A1 ∩ A2 ∩ . . . ∩ AN = Ai (1.6)
i=1
Debe repararse que estos signos no tienen el significado algebraico de suma
y multiplicación sino, como hemos dicho, de unión e intersección respecti-
vamente.
Es interesante, por su utilidad, recordar que estas dos operaciones cum-
plen las propiedades conmutativa, asociativa y distributiva. Esta última
hace referencia al uso combinado de las mismas, mientras que las dos prime-
ras se refieren a cada una de las operaciones por separado. Concretamente,
la conmutatividad implica que
A∪B = B∪A (1.7)
A∩B = B∩A (1.8)
Con respecto a la propiedad asociativa
A ∪ (B ∪ C) = (A ∪ B) ∪ C (1.9)
A ∩ (B ∩ C) = (A ∩ B) ∩ C (1.10)
Finalmente la propiedad distributiva permite escribir
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (1.11)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) (1.12)
Complemento de un conjunto
El conjunto complemento (o complementario) de un conjunto A (véase figu-
ra 1.4) es el conjunto diferencia entre el conjunto universal S y el conjunto
A. Formalmente podemos escribirlo como A = S − A. Es fácil ver que
A ∪ A = S ası́ como que A ∩ A = ∅.
Capı́tulo 1. Teorı́a de la Probabilidad 19
A
A
1. P (A) ≥ 0
2. P (S) = 1
A ∪ B = A ∪ (B − A) = A ∪ C
B = C ∪ (A ∩ B)
P (A ∪ B) = P (A ∪ C) = P (A) + P (C)
P (B) = P (C) + P (A ∩ B)
• Pc (S) = N
N = 1, pues todos los casos son favorables al espacio mues-
tral.
P (B) = 1 − P (B)
= 1 − P (A1 An+1 ) = 1 − (P (A1 ) + P (An+1 ))
1 1 2 n−1
= 1− − =1− = (1.18)
n+1 n+1 n+1 n+1
♣
Espacio de Probabilidad
Un experimento aleatorio se formalizará mediante la terna < S, F, P >.
El primer elemento de la terna es el espacio muestral; el segundo es la clase
de sucesos que podemos extraer del espacio muestral y el tercero es la ley
de asignación de probabilidades.
Al respecto de la clase de sucesos debemos mencionar que si el espa-
cio muestral tiene cardinal finito igual a N , la clase de sucesos tendrá un
número de subconjuntos igual a 2N . No obstante, si el cardinal del espacio
muestral es infinito, el número de subconjuntos también lo será, de forma
que podrı́amos pensar en uniones e intersecciones de infinitos sucesos. Para
que el espacio de probabilidad esté bien definido la clase de sucesos a con-
siderar debe tener estructura de campo de Borel2 , esto es, la clase debe ser
cerrada frente a una cantidad numerable de aplicaciones de las operaciones
2
También denominado σ-algebra [3].
Capı́tulo 1. Teorı́a de la Probabilidad 25
P (A ∩ B)
P (A|B) = (1.20)
P (B)
definición en la que se asume que el suceso condicionante B tienen proba-
bilidad no nula, esto es, P (B) = 0. En lo que sigue, aunque no hagamos
mención expresa de esta asunción, debemos tenerla en mente siempre que
manejemos probabilidades condicionadas (de forma inmediata en las sec-
ciones 1.5.1 y 1.6, y a lo largo de los diferentes capı́tulos).
Esta nueva definición debe ser coherente con los axiomas de la proba-
bilidad. Veamos que, en efecto, ası́ es:
1. P (A|B) = P P(A∩B)
(B) ≥ 0, pues es el cociente de dos probabilidades
axiomáticas y, por ello, el cociente de dos magnitudes no negativas.
P (S∩B) P (B)
2. P (S|B) = P (B) = P (B) =1
P (A ∩ B) P (A16 ∪ A61 )
P (A|B) = =
P (B) P (B)
2
P (A16 ∪ A61 ) 36 2
= = 11 =
P ( i=6 ó j=6 Aij ) 36
11
P (A ∩ B) P (B|A)P (A)
P (A|B) = = (1.22)
P (B) P (B)
P (A ∩ B)
P (A|B) = = P (A)
P (B)
P (“as”∩“rey”)
a) P (“as”|“rey”) = P (“rey”)
. Es obvio que si la carta
que tenemos en la mano es un rey (como dice el condicio-
nante) esa carta no puede ser un as. Por tanto, el suceso
del numerador es el conjunto vacı́o y por tanto, la proba-
bilidad que nos piden es nula. Estamos hablando pues de
sucesos disjuntos y, por ello, no independientes.
..
.
N
N
• Independencia global: P Ai = p(Ai )
i=1 i=1
1. Ai ∩ Aj = ∅, ∀i = j;
N
2. S = Ai
i=1
Por tanto, una partición es un conjunto de sucesos disjuntos, tales que todos
ellos unidos dan lugar al espacio muestral. Nótese que los elementos de la
partición serı́an como las teselas de un mosaico.
Repárese en que hemos hablado de una partición del espacio muestral
tratando ası́ de enfatizar el hecho de que sobre un espacio muestral se puede
definir, en general, un número arbitrario de particiones. Un caso particular
de tal serı́a el conjunto de sucesos A1 = A y A2 = A, esto es, un suceso
cualquiera y su complementario.
es una partición del espacio muestral, podemos escribir dicho suceso como
una superposición de las partes del suceso que caen sobre cada elemento de
la partición, es decir,
N
B= (B ∩ Ai ) (1.27)
i=1
Por tanto, podemos escribir P (B) haciendo uso de la anterior igualdad
N
N
P (B) = P (B ∩ Ai ) = P (B ∩ Ai ) (1.28)
i=1 i=1
dado que si los elementos de la partición son disjuntos, también lo serán
los sucesos B ∩ Ai , i = 1, . . . , N . Ası́ pues, recordando la definición de
probabilidad condicionada, podemos escribir
N
P (B) = P (B|Ai )P (Ai ) (1.29)
i=1
que es la expresión del teorema.
Ejemplo: Podemos plantear el ejemplo propuesto en el
apartado 1.4 mediante el teorema que acabamos de ver. Con-
cretamente:
P (A) = P (A|B)P (B) + P (A|B)P (B)
2 11 4 25
= +
11 36 25 36
2 4 6 1
= + = =
36 36 36 6
N
P (B|Aj )P (Aj )
j=1
34 C. Alberola López
11 1
P (Cij ) = P (Ai ∩ Bj ) = P (Ai )P (Bj ) = = (1.39)
66 36
6
6
P (Ai ) = P (Ai |Bj )P (Bj ) = P (Ai ∩ Bj )
j=1 j=1
(1.40)
40 C. Alberola López
6
6
P (Bj ) = P (Bj |Ai )P (Ai ) = P (Ai ∩ Bj )
i=1 i=1
(1.41)
1
Con la restricción P (Ai ) = P (Bj ) = i, j = {1, . . . , 6}
6
construya una tabla con los valores P (Ai ∩Bj ) que cumplan,
además, el condicionante de que las caras 3 y 5 no se pueden
dar conjuntamente.
Solución: Las expresiones anteriores— ecuaciones (1.40)
y (1.41) —significan que la probabilidad de cada cara se ob-
tendrı́a sumando por filas las probabilidades de cada resul-
tado elemental del experimento compuesto para el primer
dado y por columnas para el segundo. Ası́ pues, una posible
tabla serı́a
Ai \ Bj 1 2 3 4 5 6
1 x x x x x x
2 x x x x x x
3 x x 2x x 0 x
4 x x x x x x
5 x x 0 x 2x x
6 x x x x x x
1
donde x = 36 . Nótese que nos hemos limitado a paliar
el efecto de la probabilidad cero en los resultados (3, 5) y
(5, 3) forzando probabilidad doble en los resultados (3, 3) y
(5, 5), sin necesidad de afectar a los demás elementos de la
tabla.
que el número de resultados del experimento sea sólo dos, sino que estamos
dividiendo las soluciones en dos subconjuntos. Ası́ pues, el lanzamiento de
un dado y la observación del resultado obtenido puede considerarse un en-
sayo de Bernoulli sin más que dividir los resultados en, por ejemplo, A=“ha
salido un valor superior a tres”, y su complementario.
En este apartado nos interesa analizar la composición de tales ensa-
yos. Supongamos que llevamos a cabo varias ejecuciones de un ensayo de
Bernoulli de forma independiente entre ellas (recuérdese que esta asunción
permite emplear el resultado de la expresión 1.38). Pensemos que el núme-
ro de veces que realizamos el experimento es N . En estas condiciones, la
cuestión a resolver es ¿cuál es la probabilidad de que el resultado A haya
salido k veces (de N posibles)?
Si denominamos Bk al suceso cuya probabilidad buscamos conocer, el
proceso para el cálculo de la misma será, básicamente, escribir dicho suceso
Bk como función de sucesos cuya probabilidad sea conocida. Como, por
ahora, sólo conocemos la probabilidad de cada resultado elemental, tendre-
mos que escribir dicho suceso como función de los resultados elementales
en cada uno de los ensayos.
Denominando Bkj a cada una de las posibles formas de darse el suceso
Bk , y denotando por Ai al suceso “ha salido el resultado A en el ensayo
i-ésimo”, podremos escribir5 :
M
Bk = Bkj (1.45)
j=1
P (Bk ) = M pk q N −k (1.48)
Solución:
a) Denominemos kr al primer número entero menor que
0.1N (kr = floor(0.1N )). Dado que los experimentos son in-
dependientes entre sı́ y el resultado de cada experimento es re-
chazar el producto (suceso A, con probabilidad p(A) = pr ) o
aceptarlo (suceso A, con probabilidad qr = 1 − pr ), estamos
ante una composición de ensayos de Bernoulli independientes.
En este caso el suceso (digamos) B cuya probabilidad se pide
se puede escribir, siguiendo la definición de los sucesos Bk dada
por la ecuación (1.45), de la forma
kr
B= Bk
k=0
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25 30
Figura 1.5: Ajuste de P (Bk ) mediante una curva dada por la expresión
(1.51).
1 (x−a)2
√ e 2b2 (1.51)
b 2π
donde el parámetro a = N p √ es el parámetro de simetrı́a de la curva
anterior y el parámetro b = N pq es tal que cuanto mayor sea este
valor más ancho es el lóbulo de la curva. Como puede verse, las
probabilidades P (Bk ) se ajustan de manera bastante aproximada a
la curva anterior para valores de k próximos al centro de simetrı́a de
la curva. De hecho, esta aproximación es√válida cuando N pq √ >> 1 y
para valores de k en el intervalo N p − 3 N pq ≤ k ≤ N p + 3 N pq.
Cuando el objetivo sea calcular la probabilidad de la unión de varios
Bk (es el caso del apartado a) del ejercicio anterior) debemos acudir
al área bajo esta curva. Concretamente:
k0
k0 1 (x−a)2 k0 − N p
P Bk ∼
= √ e 2b2 dx = G √ (1.52)
k=0 −∞ b 2π N pq
Variable aleatoria
unidimensional
Z : S → CN
47
48 C. Alberola López
F (x)
X
0 x
• FX (∞) = 1, esto es, esta función presenta una segunda ası́ntota hori-
zontal, en este caso, de cota unidad. En efecto, el suceso {X ≤ ∞} =
S, es decir, es el suceso seguro.
{X ≤ x2 } = {X ≤ x1 } ∪ {x1 < X ≤ x2 } →
FX (x2 ) = P (X ≤ x2 ) = P ((X ≤ x1 ) ∪ (x1 < X ≤ x2 )) =
= P (X ≤ x1 ) + P (x1 < X ≤ x2 )
= FX (x1 ) + P (x1 < X ≤ x2 ) (2.4)
S = {X ≤ x} ∪ {X > x}
F (x) F (x)
X 1 X 1
p a +p b +p c
pc
p a +p b
pb px
0
pa
0 x 0 x
a b c x0
a) b)
Figura 2.2: a) FX (x) para una VA discreta que toma tres valores. b) FX (x)
para una VA mixta que toma el valor x0 con probabilidad px0 .
con u(x) la función escalón. Generalizando a una variable que tome los
valores xi , i = {1, . . . , N }, con probabilidades respectivas pi , podemos es-
cribir
N
FX (x) = pi u(x − xi ) (2.6)
i=1
cesaria que pi = 1.
i
Variables mixtas
dFX (x)
fX (x) = (2.7)
dx
de forma que también es una función real de variable real. Esta función
tiene exactamente la misma información que la función de distribución. De
hecho, si, como hemos visto, de la primera podemos pasar a la segunda,
podemos hacer el paso inverso, esto es, de la segunda pasar a la primera.
Basta resolver la ecuación diferencial resultante de la definición integral
anterior:
x
FX (x) − FX (−∞) = fX (τ )dτ
−∞
x
FX (x) = fX (τ )dτ (2.8)
−∞
du(x)
δ(x) = (2.9)
dx
Esta función es nula para todo punto de abscisa distinto de cero y, en ese
punto, presenta una singularidad (su valor es infinito)de forma tal que el
∞
área encerrada bajo esta función es unitaria, es decir, −∞ δ(x)dx = 1.
Haciendo uso de esta función, ası́ como de la linealidad del operador
derivación, es obvio que la función de densidad de una variable discreta (y
de una mixta en los puntos de discontinuidad de la función de distribución)
puede escribirse
N
fX (x) = pi δ(x − xi ) (2.10)
i=1
2.3.1 Continuas
Uniforme
Una VA X es una variable uniforme en el intervalo definido por los puntos4
a y b si su función de densidad es constante (y no nula) en el interior de
dicho intervalo, y es nula fuera del mismo. Denotaremos tal tipo de variable
de la forma X ∼ U (a, b).
El valor de la constante asociada a esta función de densidad no puede
ser arbitrario dado que, como hemos visto, el área bajo cualquier función
de densidad es siempre unitaria. Aplicando esta restricción tendremos
∞ b
fX (x)dx = fX (x)dx
−∞ a
b
= kdx
a
b
= k dx = k(b − a) = 1
a
(2.11)
x
x<a FX (x) = 0dτ = 0
−∞
x
1 x−a
a≤x<b FX (x) = dτ =
a b−a b−a
x b 1
x≥b FX (x) = fX (τ )dτ = dτ = 1
a a b−a
(2.12)
Puede observarse, por tanto, que FX (x) tiene los comportamientos asintóti-
cos esperados (cero, por lado izquierdo, y uno por lado derecho) y que crece
linealmente en el interior del intervalo (a, b). Asimismo, dado que X es una
VA continua, FX (x) es una función continua.
Es interesante realizar unos comentarios adicionales:
es fácil ver que esta integral sólo es distinta de cero si los interva-
los (x1 , x2 ) y (a, b) tienen intersección no vacı́a, dado que la función
subintegral es no nula en el interior del segundo intervalo.
Gaussiana
Una VA X se dice que es gaussiana, de parámetros a y b si su función de
densidad tiene la expresión
1 (x−a)2
fX (x) = √ e− 2b2 (2.14)
b 2π
0.3
0.25
b1
b2 > b1
0.2
b2
0.15
0.1
0.05
0
0 1 2 3 4 5 6 7 8 9 10
a=5
x−a
1
b α2
= √ e− 2 dα
−∞ 2π
x−a
= G (2.17)
b
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
40 45 50 55 60 65 70 75 80
Exponencial
0.4
0.3
0.2
0.1
0
−5 0 5 10
0.8
0.6
0.4
0.2
0
−5 0 5 10
• fX (x) ≥ 0 ∀x
∞ −λx u(x)dx
∞
• −∞ λe = 0 λe−λx dx = (−e−λx )∞
0 = 1.
por lo que
FX (x) = 1 − e−λx u(x) (2.19)
2.3.2 Discretas
Bernoulli
Una VA X discreta se dice que es de Bernoulli, de parámetro p (p ≥ 0), si
sólo puede tomar los valores x = 0 y x = 1 con probabilidades respectivas
P (X = 0) = 1 − p = q y P (X = 1) = p.
Tales variables pueden asociarse de manera inmediata a un ensayo de
Bernoulli. Basta para ello llevar a cabo la igualdad
A = {X = 1}
A = {X = 0}
Binomial
Una VA X discreta se dice que es Binomial, de parámetros N y p (N ∈ Z +
y p ≥ 0), si puede tomar los valores x = k con k = {0, 1, 2, . . . , N }, con
66 C. Alberola López
probabilidades
N k N −k
P (X = k) = p q (2.20)
k
donde q = 1 − p. En tal caso la variable se denota X ∼ B(N, k).
Puede observarse que esta variable se asocia fácilmente a la composición
de ensayos (independientes) de Bernoulli, sin más que hacer la igualdad
Bk = {X = k}, con k = {0, . . . , N } y Bk el suceso definido en la sección
1.7.1.
Poisson
Una VA X discreta se dice que es de Poisson, de parámetro a (a > 0), si
puede tomar los valores enteros x = k con k ≥ 0, con probabilidades
ak
P (X = k) = e−a (2.21)
k!
Obsérvese que los valores que puede tomar esta variable no está acotados
superiormente.
Geométrica
Una VA X discreta se dice que es geométrica, de parámetro p (p ≥ 0), si
puede tomar los valores enteros x = k con k ≥ 0, con probabilidades
P (X = k) = q k p (2.22)
P (X = 0) = P (A1 = A) = p
P (X = 1) = P ((A1 = A) ∩ (A2 = A)) = qp
6
La palabra repetición está aquı́ empleada en el más puro sentido académico: si se
repite un experimento (por ejemplo, cursar una asignatura) una vez es porque se ejecuta
dos veces (el alumno se ha matriculado dos veces) y en la primera ejecución el resultado
no ha sido el deseado (esto es, no se ha aprobado en primera matrı́cula). En este sentido
repetir cero veces implica aprobar en primera matrı́cula.
Capı́tulo 2. Variable aleatoria unidimensional 67
P (X ≤ x, B)
FX (x|B) = P (X ≤ x|B) = (2.24)
P (B)
dFX (x|B)
fX (x|B) = (2.25)
dx
P (X = x1 , X ≤ a) P (X = x1 ) p1
p1|B = = =
P (X ≤ a) P (X = x1 X = x2 ) p1 + p2
P (X = x2 , X ≤ a) P (X = x2 ) p2
p2|B = = =
P (X ≤ a) P (X = x1 X = x2 ) p1 + p2
P (X = x3 , X ≤ a) 0
p3|B = = =0
P (X ≤ a) P (X = x1 X = x2 )
N
P (X ≤ x) = P (X ≤ x|Ai )P (Ai ) =⇒
i=1
N
FX (x) = FX (x|Ai )P (Ai ) (2.30)
i=1
N
fX (x) = fX (x|Ai )P (Ai ) (2.31)
i=1
FX (x|Aj )P (Aj )
j=1
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
−10 −8 −6 −4 −2 0 2 4 6 8 10
forma que los operadores de suma pasarán a ser sumas continuas, esto es,
integrales. Sin embargo, conceptualmente, no existe diferencia alguna.
Para ver cómo podemos hacer esto, consideremos el suceso condicionan-
te B = {x1 < X ≤ x2 }. Acorde con él, podemos escribir
2.5.1 Media
Consideremos que disponemos de M observaciones de una variable (por
ejemplo, medimos la altura de M personas). Aceptemos que medimos
74 C. Alberola López
P (X ≤ xM E ) = P (X > xM E )
xM E ∞
fX (x)dx = fX (x)dx (2.46)
−∞ xM E
2.5.3 Varianza
La varianza de una VA X es un valor de dispersión con respecto al valor
2 , y se define
medio ηX . Concretamente, se denota por σX
∞
2
σX = E{(X − ηX )2 } = (x − ηX )2 fX (x)dx (2.47)
−∞
Para el caso de VAs discretas, es fácil comprobar, sin más que sustituir
la expresión genérica de la función de densidad por la particularización de
la ecuación (2.10), que la expresión de la varianza pasa a ser
2
σX = (xi − ηX )2 pi
i
= E{X2 } − ηX
2
2
= x2i pi − xi pi (2.50)
i i
• E{X} = i pi xi =a·1=a
• E{X2 } = 2
i pi xi = a2 · 1 = a2
2 = E{X2 } − E 2 {X} = a2 − a2 = 0
• σX
• Media:
∞
E{X} = xfX (x)dx
∞
b 1 a+b
= x dx = (2.51)
a b−a 2
Capı́tulo 2. Variable aleatoria unidimensional 79
• VCM
∞
2
E{X } = x2 fX (x)dx
∞
b
2 1 1 b3 − a3
= x dx = (2.52)
a b−a 3 b−a
Gaussiana
Consideremos ahora que X ∼ N (a, b). El cálculo de media y varianza de
la distribución se harı́a como sigue:
∞ (x−a)2
1
= (x − a) √ e− 2b2 dx +
−∞ b 2π
∞ (x−a)2
1
a √ e− 2b2 dx (2.55)
−∞ b 2π
E{X} = ηX = a (2.56)
def (b)
= ef (b) f (b) (2.59)
db
y es obvio que al derivar la función del exponente con respecto a b, el
término (x−a)2 , el cual actúa como constante a efectos de b, pasará a
multiplicar a la exponencial, como necesitamos.
Procediendo de esta manera
1 ∞ (x−a)2 (x − a)2 1
1 = √ e− 2b2 − (−2) dx
−∞ 2π 2 b3
∞ 2
1 (x−a)
b2 = (x − a)2 √ e− 2b2 (2.60)
−∞ b 2π
2 = b2 .
de forma que, según dice la expresión (2.57), σX
Exponencial
Consideremos ahora que X ∼ exp(λ). El cálculo de media y varianza de la
distribución se harı́a como sigue:
82 C. Alberola López
Ambas integrales son de corte similar, y pueden resolverse sin más que
aplicar integración por partes, con la consiguiente dosis de paciencia. No
obstante, existen resultados conocidos, los cuales pueden servir de base
para obtener los parámetros que nos piden de forma más rápida y elegante.
Concretamente, hablamos de la función gamma, o factorial generalizado, la
cual se define
∞ ∞
Γ(p) = xp−1 e−x dx = k p xp−1 e−kx dx (2.63)
0 0
Bernoulli
Este caso es particularmente sencillo, pues los sumatorios se extienden a
sólo dos valores. Por tanto
N
• Media: E{X} = ηX = i=1 xi pi =0·q+1·p=p
N
• VCM: E{X2 } = 2
i=1 xi pi = 02 · q + 12 · p = p
2 = E{X2 } − E 2 {X} = p − p2 = p(1 − p) = pq
• Varianza: σX
Capı́tulo 2. Variable aleatoria unidimensional 83
Binomial
Para el caso en que X ∼ B(N, p) tenemos:
• Media:
N
N
N
E{X} = ηX = xi pi = i pi q N −i (2.64)
i=0 i=0
i
• VCM:
N
N
N
2
E{X } = x2i pi = i2 pi q N −i (2.65)
i=0 i=0
i
El cómo llevar a cabo estos sumatorios de forma directa no parece
obvio, pero sı́ que es abordable en base a un resultado conocido, que
no es otro que el desarrollo de un binomio de Newton:
N
N
(p + q) N
= pi q N −i
i=0
i
Poisson
Si X es una VA de Poisson de parámetro a, es fácil obtener que:
• Media: ηX = a
• VCM: E{X2 } = a2 + a
2 =a
• Varianza: σX
Geométrica
Si X es una VA geométrica de parámetro p (q = 1 − p), es fácil obtener
que:
• Media: ηX = q
p
• VCM: E{X2 } = q
p2
(1 + q)
2 =
• Varianza: σX q
p2
η - ε η η +ε
X X X
Repárese que por cota, entendemos cota no trivial. Es obvio que cual-
quier probabilidad se encuentra entre cero y uno, de forma que está intrı́nse-
camente acotada. Esta desigualdad pretende proporcionar un valor que
86 C. Alberola López
• Valor exacto:
P (|X − η| ≥ ) = P (X ≤ η − ) + P (X ≥ η + )
η−−η η+−η
= G( ) + (1 − G( ))
σ σ
−3σ 3σ
= G + 1−G
σ σ
3σ
= 2 1−G = 0.0027 (2.70)
σ
σ2 σ2 1
P (|X − η| ≥ ) ≤ 2
= 2
= = 0.11 (2.71)
9σ 9
Nótese pues que, si bien la cota no es trivial, la diferencia entre el
valor real y el previsto por la cota es de dos órdenes de magnitud. Es
por tanto muy conservadora, como hemos indicado.
E{X}
P (X ≥ δ) ≤
δ
con δ > 0.
X:S → R
a ∈ S → X(a) (2.72)
g:R → R
x ∈ R → y = g(x) ∈ R (2.73)
X g
S→R→R (2.74)
g(X) : S → R
a ∈ S → Y(X(a)) ∈ R (2.75)
Vemos por lo tanto que los valores reales que toma la función g son función
del resultado obtenido en el experimento aleatorio < S, F, P >. Cabe
pues considerar que la colección de resultados, Y, constituye una VA, ge-
nerada a partir de la transformación de X mediante la función g(x). Pues,
en efecto, ası́ será siempre que, como hemos visto en la sección 2.1, se
cumplan unas determinadas condiciones, a saber7 :
1. Que el dominio en que g(x) está definida contenga a todos los valores
de X. Caso contrario, podrı́an existir valores a ∈ S sin imagen en la
variable Y.
y4
y3
x2 x3 x5 x
x1 x4
y2
y1
1. Valores yj : Los valores que puede tomar Y son los valores trans-
formados directamente de g(xi ). Si la transformación es inyectiva,
es decir, si ∀xi = xj → g(xi ) = g(xj ) la variable Y tomará tantos
valores distintos como la variable X y estos valores serán yj = g(xi ).
Si la función no es inyectiva hay que ver qué valores origen xi se trans-
forman en la misma imagen y. En este caso, la variable Y tomará un
número menor de valores distintos que la VA X.
90 C. Alberola López
2. Probabilidades P (Y = yi ):
P (Y = y1 ) = P (X = x5 ) = p5
P (Y = y2 ) = P ((X = x2 ) ∪ (X = x3 ))
= P (X = x2 ) + P (X = x3 ) = p2 + p3
P (Y = y3 ) = P (X = x4 ) = p4
P (Y = y4 ) = P (X = x1 ) = p1
(2.76)
y=g(x)
ymax
y2
y1
ymin
Solución:
0√ y≤0
1
FY (y) = 2 y 0<y≤ 4
1 y > 14
y2
y1
x1 x2 x
x
x1 x2
y1
a) b)
y=g(x)
y2
y1
x
x0
c)
P(Y =y1 )
y y
y1 y1 y2
a) b)
P (Y = y1 ) = P (X ≤ x1 ) = FX (x1 )
P (Y = y2 ) = P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 )
P (Y = y3 ) = P (X > x2 ) = 1 − FX (x2 ) (2.80)
y=g(x)
x2 + dx 2 x3 + dx 3 x
x1 + dx 1 x1 x2 x3
y+dy
N (y)
fY (y)dy = fX (xi )|dxi |
i=1
N (y) N (y)
|dxi | fX (xi )
fY (y) = fX (xi ) =
dy dy
i=1 i=1 dxi
fX (x)
N (y)
fY (y) = (2.82)
|g (x)|
i=1 x=xi
√1 0<y≤ 1
y 4
fY (y) =
0 resto
y = a sin(x + θ)
y
= sin(x + θ)
a
y
x = arcsin −θ (2.83)
a
98 C. Alberola López
de forma que
1 1
fY (y) = 2π y + 2π y
|a cos(arcsin )|
a x=x1
|a cos(arcsin a )| x=x2
Nótese pues que si bien para realizar la primera de las integrales necesitamos
conocer la función de densidad de la VA Y, para realizar la segunda basta
con conocer la función de transformación y la función de densidad de la VA
X, información conocida según hemos asumido desde el principio.
Este resultado generaliza a cualquier función de la VA Y sin más que
escribirla como una función de la variable X. Por ejemplo, si se desea
conocer la esperanza de una variable Z = h(Y), y sólo se dispone de infor-
mación probabilı́stica de la variable X, variable origen de la transformación
Y = g(X), escribiremos:
∞
E{Z} = E{h(Y)} = h(y)fY (y)dy
−∞
∞
= E{h(g(X))} = h(g(x))fX (x)dx (2.88)
−∞
• VCM de Y:
∞
E{Y2 } = y 2 fY (y)dy
−∞
= E{g 2 (X)}
∞
= g 2 (x)fX (x)dx (2.89)
−∞
• Varianza
∞
2
σY = (y − ηY )2 fY (y)dy
−∞
= E{(g(X) − E{g(X)})2 }
∞
= (g(x) − E{g(X})2 fX (x)dx (2.90)
−∞
µn = f (m0 , m1 , . . . , mn ) = E{(X − m1 )n }
#
n
n
= E Xk (−m1 )(n−k)
k=0
k
n
n $ %
= E Xk (−m1 )(n−k)
k=0
k
Capı́tulo 2. Variable aleatoria unidimensional 103
n
n $ %
= (−m1 )(n−k) E Xk
k=0
k
n
n
= (−m1 )(n−k) mk (2.94)
k=0
k
d2 φX (ω) ∞
= (jx)2 ejωx fX (x)dx
dω 2 −∞
..
.
∞
dn φX (ω)
= (jx)n ejωx fX (x)dx (2.97)
dω n −∞
La última lı́nea indica pues la relación genérica que existen entre la derivada
n-ésima de la función caracterı́stica y el momento no central de orden n de
la VA en cuestión. Por ello, en efecto, la función caracterı́stica φX (ω) es
una función que genera momentos.
Por otra parte, recordando el desarrollo en serie de Taylor de una fun-
ción analı́tica, vemos que los momentos nos permiten sintetizar la función
caracterı́stica φX (ω) en cualquier punto ω, dado que podemos escribir
φX (ω)
∞
(n) ∞
(jω)n
φX (ω) = ωn = mn (2.99)
n=0
n! ω=0 n=0
n!
y = ax2
√
dy = 2axdx = 2 aydx
106 C. Alberola López
entonces
∞
2 y dy
φY (ω) = √ ejωy e− 2aσ2 √
σ 2π 0 2 ay
∞
1 y
= √ ejωy e− 2aσ2 dy (2.103)
σ 2πay 0
Dado que
y = g(x) = a sin(x)
!
dy = a cos(x)dx = ± a2 − (a sin(x))2 dx
!
dy = ± a2 − y 2 dx (2.105)
Y =g(X )
a
III IV
−π π
X
II
I
-a
1 0 1 0 1
jωy "
= e dy + ejωy " dy+
2π −a a − y2
2 −a a2 − y2
a 1 a 1
jωy " jωy "
e dy + e dy
0 a − y2
2 0 a − y2
2
1 0 1 a 1
= 2 " ejωy dy + 2 " ejωy dy
2π −a a − y2
2 0 a − y2
2
a 1
= " ejωy dy
−a π a2 − y2
(2.106)
A partir de ésta se define una segunda función ΨX (s) = lnMX (s), cuyas
derivadas dan lugar a los cumulantes de orden n
dn ΨX (s)
λn = (2.112)
dsn s=0
Es fácil comprobar que
λ1 = ηX
2 (2.113)
λ2 = σX
Sobre los cumulantes de orden n se construye la teorı́a de estadı́sticos de or-
den superior la cual ha tenido un moderado éxito en la comunidad cientı́fica
para el manejo de señales no gaussianas.
Capı́tulo 3
Variable aleatoria
bidimensional
3.1 Introducción
Para introducir el concepto de VA bidimensional, acudiremos a un ejemplo
consistente en el juego del lanzamiento de dardos sobre una diana (véase
figura 3.1). En este juego, como es bien sabido, se pretende que los dardos
caigan tan cerca como sea posible del centro y que, además, éstos caigan
en los sectores circulares marcados con una puntuación más alta. Si con-
sideramos el origen de coordenadas localizado en el centro de la diana, las
desviaciones con respecto a este punto pueden considerarse, en coordena-
das cartesianas, mediante el par (x, y), con x la desviación horizontal e y
la desviación vertical. Cada lanzamiento puede considerarse la ejecución
de un experimento aleatorio pues, naturalmente, el lanzador no sabe en
qué posición va a caer el dado (por eso el juego tiene interés). Si consi-
deramos un único lanzador y aceptamos que todos los lanzamientos son
probabilı́sticamente idénticos, los diferentes lanzamientos pueden conside-
rarse los diferentes valores que puede tomar el par (X, Y). A priori, y cara
a este ejemplo, posiblemente sea razonable pensar que los errores en el eje
horizontal no tienen relación con los errores en el eje vertical. Pero esto
no necesariamente tiene por qué ser ası́: los movimientos de hombro, codo
y muñeca de un determinado individuo pueden relacionar los errores en
una coordenada y en la otra. Asimismo, y considerando la estrategia en el
juego, un jugador puede deliberadamente alejarse del centro de la diana en
sentido horizontal si desea tener mayor tolerancia vertical para caer en el
sector angular que desee. En tal caso estarı́a acoplando deliberadamente
111
112 C. Alberola López
k=2 -sin( ω 0 t)
y
y
k=1
k=3
k=0
x x
cos(ω 0 t)
k=4
k=5 k=7
k=6
a) b)
Este ejemplo puede resultar ingenuo pero no está lejos de las Tecnologı́as
de la Información. Concretamente, una determinada modulación digital
consiste en el envı́o, recepción y discriminación de señales de la forma
2πk
φk (t) = 0≤k ≤M −1
M
Capı́tulo 3. Variable aleatoria bidimensional 113
(x,y)
FXY (∞, ∞) = 1
B = A ∪ C, A ∩ C = ∅ →
P (B) = P (A ∪ C) = P (A) + P (C)
FXY (x1 , y1 ) = FXY (x0 , y0 ) + P (C)
FXY (x1 , y1 ) ≥ FXY (x0 , y0 ) (3.3)
y y
(x 1 ,y1 ) y
C (x 0 ,y0 )
x D x
B
A
x1 x2
a) b)
y y
y2
L D
y2 y1
D
y1
x x
x x1 x2
c) d)
{X ≤ x2 , Y ≤ y} = D ∪ {X ≤ x1 , Y ≤ y}
P (X ≤ x2 , Y ≤ y) = P (D ∪ {X ≤ x1 , Y ≤ y})
= P (D) + P (X ≤ x1 , Y ≤ y)
P (D) = P (X ≤ x2 , Y ≤ y) − P (X ≤ x1 , Y ≤ y)
Capı́tulo 3. Variable aleatoria bidimensional 117
de distribución FXY (x, y). En este caso la derivada debe ser con respecto
a las dos variables, de forma que
∂ 2 FXY (x, y)
fXY (x, y) = (3.7)
∂x∂y
La relación inversa, naturalmente, es integral, con la expresión
x y
FXY (x, y) = fXY (α, β)dαdβ (3.8)
−∞ −∞
FX (x) = P (X ≤ x)
{X ≤ x} = {X ≤ x} ∩ {Y ≤ ∞}
120 C. Alberola López
pues el segundo suceso del segundo miembro es el suceso seguro. Por ello,
podemos concluir que
De la misma manera
Para realizar esta operación debemos derivar bajo el signo integral. Esto
se puede realizar en base a la Regla de Leibnitz, la cual se formula
µs (u)
dϕ(u) d
= G(τ, u)dτ
du du µi (u)
µs (u)
dµs (u) dµi (u) ∂G(τ, u)
= G(µs (u), u) − G(µi (u), u) + dτ
du du µi (u) ∂u
(3.12)
y por ello ∞
fX (x) = fXY (x, y)dy (3.13)
−∞
De forma similar ∞
fY (y) = fXY (x, y)dx (3.14)
−∞
{ X >x, Y >y }
(x,y)
x
X e Y discretas
En tal caso, la VA bidimensional (X, Y) no toma valores en todo el plano,
o en partes del plano de forma continua, sino que sólo toma valores en un
Capı́tulo 3. Variable aleatoria bidimensional 123
(x,y)
y
y
3
y
2 x
y x1 x2 x3
1
x
x1 x2 x3
a) b)
P (X ≤ x) = P ({X = x1 } ∪ {X = x2 }) = P (X = x1 ) + P (X = x2 )
y dado que
{X = x1 } = {X = x1 , Y = y1 }
{X = x2 } = {X = x2 , Y = y1 } ∪ {X = x2 , Y = y2 }
entonces
P (X = x1 ) = P (X = x1 , Y = y1 ) = p11
P (X = x2 ) = P (X = x2 , Y = y1 ) + P (X = x2 , Y = y2 ) = p21 + p22
124 C. Alberola López
de forma que
P (X ≤ x) = p11 + p21 + p22
si x2 < x < x3 .
X discreta e Y continua
En el caso en que las VAs sean discreta y continua, la VA bidimensional
tomará valores sólo sobre rectas horizontales o verticales en función de quién
de las VAs sea discreta. Para la selección hecha en el tı́tulo del apartado,
las rectas serán verticales, situadas en los valores de abscisa que tome la
VA X (véase figura 3.5b).
Para poder analizar una situación como ésta basta con que recordemos
algunas expresiones introducidas en el capı́tulo anterior (véase sección 2.4).
Tomando como base la figura 3.5b), calculemos P (X ≤ x, Y ≤ y) para los
valores de x e y seleccionados en la figura. Ası́ pues
P (X ≤ x, Y ≤ y) = P (({X = x1 } ∪ {X = x2 }) ∩ {Y ≤ y})
= P (({X = x1 } ∩ {Y ≤ y}) ∪ ({X = x2 } ∩ {Y ≤ y}))
= P (X = x1 , Y ≤ y) + P (X = x2 , Y ≤ y)
Las expresiones anteriores son probabilidades de intersección de sucesos,
de forma que nada nos impide escribirlas en términos de probabilidades
condicionadas. Por ello
P (X ≤ x, Y ≤ y) = P (X = x1 , Y ≤ y) + P (X = x2 , Y ≤ y)
= P (Y ≤ y|X = x1 )P (X = x1 ) +
P (Y ≤ y|X = x2 )P (X = x2 )
Recordando ahora que (expresión 2.31)
N
fY (y) = fY (y|Ai )P (Ai )
i=1
Como puede verse, por lo tanto, para abordar el caso que nos ocupa, la
información que debemos tener de la VA bidimensional se reduce a
fX (x|A)P (A)
P (A|X = x) =
fX (x)
fY (y|xi )pi
P (X = xi |Y = y) = P (X = xi |y) = 3
fY (y|xj )pj
j=1
y=g(x)=2x
y=g(x) y (1,5) (4,5)
y
y<g(x)
y>g(x)
x
(x,0) -1 x
(g (y),0)
1. FXY (x, y)
2. P (1 < X ≤ 4, 0 < Y ≤ 5)
Solución: A partir de la figura 3.6b) es fácil ver que:
1.
y > 2x FXY (x, y) = FX (x)
y ≤ 2x FXY (x, y) = FX (g −1 (y)) = FX (y/2)
2.
P (1 < X ≤ 4, 0 < Y ≤ 5) = FXY (4, 5) − FXY (4, 0) −
FXY (1, 5) + FXY (1, 0)
= FX (5/2) − FX (0/2) −
FX (1) + FX (0/2)
= FX (5/2) − FX (1) (3.17)
resultado que se podrı́a haber anticipado viendo los lı́mites
de variación de la VA X dentro de la región {1 < X ≤
4, 0 < Y ≤ 5}.
♣
Capı́tulo 3. Variable aleatoria bidimensional 127
P (X ≤ x, Y ≤ y, M )
FXY (x, y|M ) = (3.18)
P (M )
2
∂ FXY (x, y|M )
fXY (x, y|M ) = (3.19)
∂x∂y
y y
y
M y
y y 2
y
x x
x
x y
1
x x
a) b) c)
Comentarios adicionales:
(y−η(x)) 2
1 − 2
fY (y|x) = √ e 2σx
(3.26)
σ(x) 2π
N
P (B) = P (B|Ai )P (Ai )
i=1
P (B|Aj )P (Aj )
j=1
132 C. Alberola López
Haciendo uso, una vez más, de las igualdades (3.24) y (3.25) llegamos a la
conclusión de que:
3.4 Independencia
En la introducción a este capı́tulo dijimos que la VA bidimensional (X, Y)
se construye a partir de un experimento compuesto, c < Sc , Fc , Pc >, el
cual es el resultado de la composición de dos subexperimentos, a saber, 1 <
S1 , F1 , P1 > y 2 < S2 , F2 , P2 >. Allı́ se dijo que la ley para asignación de
probabilidades no es, en general, determinable a partir de las leyes P1 y P2
de cada uno de los subexperimentos, sino que interviene una tercera entidad
para la creación de tal ley, la cual es, precisamente, la propia composición
de los experimentos.
Sin embargo, esto no es siempre ası́. Consideremos que los sucesos
AX ∈ F1 y BY ∈ F2 . Si se verifica que4
entonces las VAs X e Y se dice que son independientes. En tal caso, la ley
Pc sı́ puede obtenerse como función exclusiva de las leyes P1 y P2 . Repárese
que, de hecho, cuando existe independencia entre variables la composición
de los experimentos es meramente nominal, esto es, los experimentos se
4
De forma coherente con la notación de la sección 1.7, la escritura estricta del suceso
compuesto serı́a (AX × S2 ) ∩ (S1 × BY ).
Capı́tulo 3. Variable aleatoria bidimensional 133
P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y)
FXY (x, y) = FX (x)FY (y) (3.29)
Comentarios adicionales
y y
y
4
y
2
y
0
y
3
y
1
x x
x x x
0 1 0
a) b)
1. Identificar la región Dz .
2. Calcular P (Dz ) = Dz fXY (x, y)dxdy
FZ (z) = P (Z ≤ z) = P (X + Y ≤ z) = P (Dz )
y=z-x
Dz (0,z)
(z,0) x
(z>0)
∞
con ϕ(t) = −∞ fX,Y (x, t − x)dx. Si derivamos la anterior expresión
con respecto a z (recuérdese la regla de Leibnitz, expresión 3.12),
tenemos
∞
dFZ (z) dz
fZ (z) = = ϕ(z) = ϕ(z) = fX,Y (x, z − x)dx
dz dz −∞
1 1
1
1/2 1/2
1/2
τ τ τ
τ =z τ =z τ =z
a) z ≤ 0 b) 0 < z ≤ 1 c) 1 < z ≤ 2
1 1
1/2 1/2
τ τ
τ =z τ =z
d) 2 < z ≤ 3 e) z > 3
f (z)
Z
1/2
z
0 1 2 3
Para que el máximo de dos variables sea menor que una cierta can-
tidad z debe verificarse que ambas variables sean menores o iguales
que z. Por ello, Dz es la región {X ≤ z, Y ≤ z} (zona sombreada en
figura 3.12a), y la función que nos piden es:
y y
z
(z,z)
Dz
Dz
x
x
z
a) b)
1
x
1 2
Figura 3.13: Puntos de probabilidad no nula de la VA (X, Y).
será discreta, de forma que su caracterización viene dada por los valo-
res zk que tomará la variable y por las probabilidades pk = P (Z = zk ).
Por tanto, podemos construir la siguiente tabla:
zk pk
1 p1 = p11
2 p2 = p12 + p21
4 p4 = p22
6 p6 = p23
puesto que
P (Z = 1) = p1 = P (X = 1, Y = 1) = p11
P (Z = 2) = p2 = P (X = 1, Y = 2) + P (X = 2, Y = 1) = p12 + p21
P (Z = 4) = p4 = P (X = 2, Y = 2) = p22
P (Z = 6) = p6 = P (X = 2, Y = 3) = p23
Z = g(X, Y)
W = h(X, Y)
142 C. Alberola López
con Dzw el lugar geométrico de los puntos del plano (x, y) que se transfor-
man en puntos del plano (z, w) pertenecientes al suceso cuya probabilidad
buscamos, esto es
Dzw = {(x, y) ∈ R2 t.q. g(x, y) ≤ z, h(x, y) ≤ w}
Para tal fin, debemos identificar la región Dzw para, a continuación, hallar
la probabilidad asociada a dicha región.
y
y
y =w x
y =w x
z
z
x
a) b)
w+d w
w
y2
y3
y1
z x
z z+dz x1 x2 x3
N
= P [xi < X ≤ xi + dxi , yi < Y ≤ yi + dyi ]
i=1
N
= P (xi < X ≤ xi + dxi , yi < Y ≤ yi + dyi )
i=1
N
= fXY (xi , yi )|dxi ||dyi |
i=1
(3.36)
donde los valores absolutos se han incluido para evitar problemas de signos
entre los diferenciales, dado que vamos a hacer uso de una relación explı́cita
entre ambos. En efecto, la relación que liga los cuatro diferenciales es
con
∂x ∂x
J−1 (z, w) = ∂z ∂w
∂y
∂z
∂y
∂w
por lo que
N
fZW (z, w) = fXY (x, y)|J−1 ||(xi ,yi ) (3.39)
i=1
Z = g(X, Y) = XY
W = h(X, Y) = X
fXY (x, y)
fZW (z, w) =
|J|
Capı́tulo 3. Variable aleatoria bidimensional 147
Sustituyendo términos
1
fZW (z, w) =
y
x
1 0
1 1
= =
| − x| |x|
Llegado a este punto resta indicar las dos cuestiones anterior-
mente apuntadas. Ası́ pues
w w=z
0 z
z=w
Figura 3.16: Región de soporte de la función fZW (z, w).
Z = g(R, Θ) = R cos(Θ)
W = h(R, Θ) = R sin(Θ)
tomar cualquier valor del plano R2 . Por ello las conclusiones que
extraigamos serán válidas para todo el plano.
Aplicando el Teorema Fundamental, tenemos
Sustituyendo términos
−r 2
1 r 2σ2
2π σ 2 e
fZW (z, w) =
r
1 −r 2
= e 2σ 2
σ 2 2π
1 − z2 +w2 2
= e 2σ
σ 2 2π
ya que r2 = z 2 + w2 .
Repárese que la expresión anterior puede factorizarse en
1 z2 1 w2
fZW (z, w) = √ e− 2σ2 √ e− 2σ2
σ 2π σ 2π
= fZ (z)fW (w)
Z = g(X, Y) = XY
W = h(X, Y)
Z = g(X, Y) = X + Y
W = h(X, Y) = X
Capı́tulo 3. Variable aleatoria bidimensional 151
fXY (x, y)
fZW (z, w) =
|J|
Sustituyendo términos
fXY (x, y)
fZW (z, w) =
1 1
1 0
fXY (x, y) fXY (x, y)
= = = fXY (x, y)
| − 1| 1
= fXY (w, z − w)
Por tanto
∞ ∞
fZ (z) = fZW (z, w)dw = fXY (w, z − w)dw
−∞ −∞
para calcular la función de densidad fY (y) de esta VA, sino que bastaba
con la transformación g(X) y la función de densidad de la VA X para hallar
cualquier momento de la VA Y.
Estas conclusiones aplican, por idéntico motivo, al caso Z = g(X, Y).
Si necesitamos conocer, en relación con la VA Z, el valor de E{h(Z)}, po-
demos reflejar el problema sobre el dominio (X, Y) (al cual, naturalmente,
supondremos caracterizado) y escribir
E{h(Z)} = E{h(g(X, Y))} = h(g(x, y))fXY (x, y)dxdy (3.40)
∞ ∞
= (x − ηX )(y − ηY )fXY (x, y)dxdy
−∞ −∞
∞ ∞
= (x − ηX )(y − ηY )fX (x)fY (y)dxdy
−∞ −∞
∞ ∞
= (x − ηX )fX (x)dx (y − ηY )fY (y)dxdy
−∞ −∞
= (E{X} − ηX )(E{Y} − ηY ) = 0
lineal entre las VAs, sı́ que existe una covarianza no nula.
Con ello se está afirmando que una función lineal de la VA
X predice mejor a la VA Y (apartado 3.7.4) que una recta
horizontal de valor igual a la media de la VA Y (apartado
3.7.3).
♣
2. Si X e Y son incorreladas:
(a) CXY = 0 → RXY = E{XY} = E{X}E{Y}, es decir, la espe-
ranza del producto es igual al producto de las esperanzas
(b) La varianza de la suma es igual a la suma de las varianzas. En
efecto:
2
σX+Y = E{((X + Y) − (ηX + ηY ))2 }
= E{((X − ηX ) + (Y − ηY ))2 }
= E{(X − ηX )2 + (Y − ηY )2 + 2(X − ηX )(Y − ηY )}
2 2
= σX + σY + 2CXY (3.51)
Si las VAs son incorreladas, el tercer sumando se anula, y se
verifica el resultado indicado.
3. Incorrelación y ortogonalidad son una misma propiedad si al menos
una de las dos VAs involucradas tiene media nula. Tal afirmación es
obvia a partir de la relación (3.49).
4. Sin las VAs son ortogonales, entonces el VCM de la suma es igual
a la suma de los VCMs. Esto se deduce haciendo un razonamiento
paralelo al hecho para la varianza de la suma, de la forma:
Interpretación geométrica
Es fácil comprobar que la operación E{XY} es un producto escalar, de
forma que se puede considerar el espacio de las VAs como un espacio vec-
torial con una métrica asociada. En base a esto, los resultados expuestos
anteriormente tienen una interpretación geométrica relativamente directa.
Capı́tulo 3. Variable aleatoria bidimensional 157
X- η + Y- η
X Y
X+Y Y- η
Y
Y
X- η
X X
a) b)
^ = g (X)
Y
Y X
EMISOR CANAL RECEPTOR
PERTURBACIONES
con Z una VA que agruparı́a todas las perturbaciones que se habrı́an su-
perpuesto sobre la transformación de Y mediante el canal. En este caso, el
receptor tratará de averiguar el valor y que ha tomado la variable Y, pero,
como se ve, en base a una observación x de la VA X, versión transfor-
mada y ruidosa de la variable de origen. Para ello construirá una función
Ŷ = g(X), la cual pretenderá acercarse lo máximo posible al verdadero
valor y que haya tomado la variable Y. No obstante, dado que la relación
5
Si la señal fuese y(t) ∈ R y analizamos el instante temporal t0 entonces el valor que
manejarı́amos serı́a y(t0 ) = y. Planteamos en este ejemplo un problema de filtrado de
señales pero, para evitar emplear conceptos que analizaremos en el capı́tulo 5, hemos
considerado la simplificación indicada.
Capı́tulo 3. Variable aleatoria bidimensional 159
^ =g (X )
Y ε = Y - Y^
2 2 y 0 2 2
^
Y3 =g (X ) ε = Y - Y^ 3
3 y 0 3
a = E{Y} (3.54)
CXY
a = 2 (3.55)
σX
b = E{Y} − aE{X} (3.56)
= Y&
− Ŷ = Y −'a
2 $ %
2
E{ } = E Y − Ŷ = E (Y − a)2
y por ello
$ %
dE (Y − a)2
= E{2 (Y − a) (−1)}
da
con lo que igualando a cero y despejando a favor de a obtenemos el resultado
a∗ = E{Y}.
En cuanto al error
E{} = E {Y − a∗ } = E {Y} − a∗ = 0
$ % $ %
E{2 } = E (Y − a∗ )2 = E (Y − E{Y})2 = σY
2
= Y − Ŷ = Y − (aX + b)
& 2 ' $ %
2
E{ } = E Y − Ŷ = E [Y − (aX + b)]2
(3.58)
y sustituyendo en (3.59)
Por lo tanto
CXY
a∗ = 2 (3.61)
σX
b∗ = E{Y} − a∗ E{X} (3.62)
^ = g (X)
Y
Puede por tanto concluirse que el estimador lineal es tal que el error
cometido es ortogonal a la observación empleada. Podemos interpretar esto
gráficamente como que estarı́amos proyectando la variable a estimar sobre
la observación, de modo que el error cometido serı́a la componente de Y
que se pierde al proyectar (véase figura 3.20).
Este principio es una forma equivalente de obtener las ecuaciones de los
parámetros de la estimación. Repárese que, de hecho, la expresión (3.65)
es equivalente a la ecuación (3.59).
Capı́tulo 3. Variable aleatoria bidimensional 165
= Y − Ŷ = Y − g(X)
$ %
2 2
E{ } = E (Y − g(X)) = (y − g(x))2 fXY (x, y)dxdy
= (y − g(x))2 fY (y|x)fX (x)dxdy (3.66)
Respecto de la varianza:
♣
Capı́tulo 4
Variable N-dimensional
167
168 C. Alberola López
y los puntos (xi1 , . . . , xiN ), i = (1, . . . , M ) son los M puntos del domi-
nio origen que se convierten en el punto (y1 , . . . , yN ) donde estamos
construyendo la función de densidad de la VA Y.
Si el número de transformaciones gi fuese k < N , entonces podrı́amos
hacer uso de N − k variables auxiliares para poder aplicar el teorema
fundamental. Con ello, extenderı́amos a N VAs el método de la VA
auxiliar visto en la sección 3.5.4.
6. Independencia: también este concepto se extiende de una forma natu-
ral al caso de N variables. Si éstas son independientes se verifica que
existe independencia entre los sucesos definidos a partir de las mis-
mas, en particular, entre los sucesos {Xi ≤ xi } y {Xj ≤ xj } ∀i = j.
Por ello podremos escribir1
N
FX1 X2 ...XN (x1 , x2 , . . . , xN ) = FXi (xi ) (4.5)
i=1
1
En términos estrictos y según la notación de la sección 1.7, el suceso en el experimento
compuesto asociado al suceso {Xi ≤ xi } deberı́a escribirse S1 × · · · × Si−1 × {Xi ≤
xi } × Si+1 × · · · × SN . Emplearemos la notación simplificada, no obstante.
Capı́tulo 4. Variable N-dimensional 169
N
fX1 X2 ...XN (x1 , x2 , . . . , xN ) = fXi (xi ) (4.6)
i=1
Nótese que esta expresión implica independencia entre cada dos va-
riables, entre cada tres etc ..., hasta la independencia conjunta de las
N variables. El motivo no es otro que a partir de las expresiones
anteriores podemos reducir a nuestro gusto el número de VAs invo-
lucradas sin más que aplicar la operativa indicada en las expresiones
(4.1) y (4.2) y la igualdad se seguirı́a manteniendo.
7. Distribuciones condicionadas: en el capı́tulo anterior obtuvimos que
1. Vector de medias:
ηX1
ηX2
ηX = E{X} =
..
(4.14)
.
ηXN
2. Matriz de correlación:
E{X1 X1 } E{X1 X2 } ··· E{X1 XN }
E{X2 X1 } E{X2 X2 } ··· E{X2 XN }
= E{XX } =
T
RX .. .. .. ..
. . . .
E{XN X1 } E{XN X2 } · · · E{XN XN }
172 C. Alberola López
E{X21 } RX1 X2 · · · RX1 XN
RX2 X1 E{X22 } · · · RX2 XN
=
.. .. .. ..
(4.15)
. . . .
RXN X1 RXN X2 · · · E{X2N }
Nótese, pues, que esta matriz no es otra cosa que una tabla de N 2
elementos, donde los términos de la diagonal principal son los VCMs
de cada variable y el resto de los elementos son las correlaciones cru-
zadas entre cada dos variables distintas. Obviamente, para variables
reales esta matriz es simétrica.
2
σX 1
CX1 X2 · · · CX1 XN
2 · · · CX2 XN
CX2 X1 σX
CX =
2
.. .. .. .. (4.16)
. . . .
CXN X1 CXN X2 ··· 2
σX N
2
N N
N
E{Z2 } = E Xi =E Xi Xj
i=1 i=1 j=1
#
N N
N
= E X2i +E Xi Xj
i=1 j=1
i=1
j=i
N $ %
N
N
= E X2i + E {Xi Xj }
i=1 i=1 j=1
j=i
N $ %
N
N
= E X2i + R Xi Xj
i=1 i=1 j=1
j=i
N $ %
=
Ortog. E X2i (4.17)
i=1
N
N
E (Xi − ηXi )(Xj − ηXj )
i=1 j=1
j=i
N $ %
= E (Xi − ηXi )2 +
i=1
N N $ %
E (Xi − ηXi )(Xj − ηXj )
i=1 j=1
j=i
N $ %
N
N
= E (Xi − ηXi )2 + CXi Xj
i=1 i=1 j=1
j=i
=
N
2
Incorr. σX i
(4.18)
i=1
2. Según se verá (sección 4.5.1), el Teorema del Lı́mite Central hace que
en la naturaleza muchos problemas de ı́ndole estocástico tiendan a
comportarse de forma gaussiana.
η = Aη X (4.20)
−1 −1 −1
1 1
(y−η))T C X (A
= 1 N e− 2 (A (y−η))
|C X | |A|(2π)
2 2
−1 −1 −1
1 1 T (A )T C X A (y−η)
= 1 N e− 2 (y−η)
|C X | 2 |A|(2π) 2
(4.21)
Si denominamos ahora
T
C = A C XA (4.22)
Capı́tulo 4. Variable N-dimensional 177
y recordando que
T T
(A B)T = B A
−1 T T
(B ) = (B )−1
|A B| = |A||B|
(suponiendo en el último caso que ambas matrices son cuadra-
das y de la misma dimensión), entonces
−1 T −1 −1 −1 T −1 −1
C = (A )−1 C X A = (A ) CX A
y también se verifica que
T T
|C| = |A C X A | = |A||C X ||A | = |C X ||A|2
de forma que volviendo a la ecuación (4.21) podemos escribir
−1
1 1 TC
fY1 ...YN (y1 , . . . , yN ) = 1 N e− 2 (y−η) (y−η)
|C| (2π)
2 2
(4.23)
por lo que concluimos que, en efecto, el vector Y es un vector
de variables conjuntamente gaussianas.
Asimismo, comparando la expresión obtenida con la indicada
por definición en la ecuación (4.19) vemos que los parámetros
η Y y C Y , coinciden con los definidos por comodidad en las
expresiones (4.20) y (4.22), por tanto
ηY = A η X
T
C Y = A C XA
cuyo determinante es
2 2 2 2 2
|C XY | = σX σY − CXY = σX σY (1 − ρ2XY )
y su inversa
−1 1 2
σY −CXY
C XY = 2 2 2
σX σY (1 − ρ2XY ) −CXY σX
1 1
fXY (x, y) = ! e− 2 α
2π 2 σ 2 (1
σX − ρ2XY )
Y
(4.25)
1 − 12 1
Ψ(τ1 ,τ2 )
(1−ρ2 )
= ! e XY
σX σY 2π 1 − ρ2XY
(4.26)
Entonces
2 τ 2 − 2ρ
σY 2 2
1 XY σX σY τ1 τ2 + σX τ2
Ψ(τ1 , τ2 ) = 2 2
σX σY
2
2 τ −ρ
σX σY 2 τ 2 1 − ρ2
2 XY σX τ1 + σY 1 XY
= 2 σ2
σX Y
2
τ2 − ρXY σσY τ1 τ 2 1 − ρ2XY
= 2
X
+ 1 2
σY σX
Por ello, retomando la expresión (4.26)
τ12 1−ρ2
( )
1 XY
1 −
2(1−ρ2 σ2
fXY (τ1 , τ2 ) = √ e XY
)
X ·
σX 2π
σ 2
τ2 −ρXY σY τ1
1 X
1 −
2(1−ρ2 ) σ2
! e XY Y
σY 2π(1 − ρ2XY )
σY 2π(1 − ρ2XY )
(x−ηX )2
1 −
σ2
= √ e X ·
σX 2π
σ 2
y− ηY +ρXY σY (x−ηX )
− X
1 2(1−ρ2 )σ 2
! e XY Y
σY 2π(1 − ρ2XY )
= fX (x)fY (y|x)
donde la última igualdad procede de las identidades (3.24) y
(3.25). Entonces podemos afirmar que
X ∼ N (ηX , σX )
!
σY
Y|x ∼ N ηY + ρXY (x − ηX ), σY 1 − ρ2XY
σX
(4.27)
por lo que, según se desprende de (4.27)
σY
E{Y|X} = ηY + ρXY (X − ηX )
σX
182 C. Alberola López
y[0] = x[0]h[0]
y[1] = x[0]h[1] + x[1]h[0]
y[2] = x[0]h[2] + x[1]h[1] + x[2]h[0]
y[3] = x[1]h[2] + x[2]h[1] + x[3]h[0]
y[4] = x[2]h[2] + x[3]h[1]
y[5] = x[3]h[2]
de modo que las expresiones dadas para las matrices de correlación y co-
varianza (ecuaciones 4.15 y 4.16) eran especı́ficas del caso real. Para VAs
complejas las matrices tienen que incorporar los complejos conjugados, de
modo que las matrices no serán simétricas sino hermı́ticas (la matriz coin-
cide con su conjugada traspuesta).
a) b)
c) d)
2 >B >0
1. σX ∀i = 1, . . . , N
i 1
N
Z= Xi
i=1
186 C. Alberola López
tiene el comportamiento
z − ηZ
FZ (z) −→N →∞ G (4.35)
σZ
con
N
ηZ = ηXi
i=1
N
2 2
σZ = σX i
i=1
N
Z= Xi
i=1
ηZ = N p
σZ = N pq
∀δ > 0, δ ∈ R.
Para ver que esto es ası́ basta caracterizar la VA NA . Esta VA es
igual, como hemos dicho antes, al número de veces que se verifica el suceso
deseado, de N veces posibles, cuando se ejecutan experimentos independien-
tes. Esta VA, por definición, es una VA Binomial, concretamente, B(N, p).
Ası́ pues, aplicando la aproximación de DeMoivre-Laplace, podemos escri-
bir:
2
σX
P (|X − ηX | < ) ≥ 1 − (4.40)
2
sistema de control para tomar una decisión se propone otra estrategia; ésta
consiste en los subsistemas en orden creciente de ı́ndice (de 1 a N ), y dar
alarma en cuanto alguno de ellos haya enviado señal de alarma. Obtenga
el umbral µ para cada subsistema de modo que la Pfa de esta estrategia
coincida con la del apartado c), ası́ como el número medio de operaciones
realizadas por el sistema de control para tomar una decisión, suponiendo
que la consulta a cada subsistema requiere P operaciones.
Solución:
a) La función de densidad de la VA cada Yi puede obtenerse me-
diante el Teorema Fundamental para variables unidimensionales (véase sec-
ción 2.6.3) cuya expresión es
fX (x)
N (y)
fYi (y) = i .
|g (x)|
i=1 x=xi
−(αy)β = ln(x)
β
x = e−(αy)
Por ello
(αµ)β = −ln(λ)
1
αµ = [−ln(λ)] β
1 1
µ = [ln(λ)] β (4.42)
α
Para los valores planteados en el enunciado µ = 0.1998.
c) Se plantea una composición de ensayos de Bernoulli (decisión en
cada subsistema de presencia/ausencia de aeronave) mediante subsistemas
independientes. Por ello, podemos emplear las conclusiones obtenidas en
la sección 1.7.1. En particular, definiendo el suceso Bk como “ha habido k
alarmas de N posibles”, la probabilidad pedida se puede escribir
M −1 −1
N
M
Pfa = P Bk =1−P Bk =1− P (Bk )
k=M k=0 k=0
Capı́tulo 4. Variable N-dimensional 193
por lo que
N
P f a = P (F A) = 1 − P (F A) = 1 − P Ai
i=1
N
= 1− P (Ai ) = 1 − (1 − p)N
i=1
Z=P → P (Z = P ) = P (A1 ) = p
Z = 2P → P (Z = 2P ) = P (A1 A2 ) = qp
Z = 3P → P (Z = 3P ) = P (A1 A2 A3 ) = q 2 p
..
.
−2
N
Z = (N − 1)P → P (Z = (N − 1)P ) = P Ai AN −1 = q N −2 p
i=1
−1
N
Z = NP → P (Z = N P ) = P Ai AN AN =
i=1
= q N −1 (p + q) = q N −1
A partir de ello el cálculo del valor medio E{Z} se llevarı́a a cabo en base
a la expresión (2.41) y operando de forma acorde. Concretamente
N
N −1
E{Z} = zi P (Z = zi ) = (iP )q i−1 p + (N P )q N −1
i=1 i=1
N
q(1 − q N ) q − q N +1
S(q) = qi = =
i=1
1−q 1−q
Por tanto
1 − (N + 1)q N [1 − q] + (q − q N +1 )
E{Z} = pP + qN N P
(1 − q)2
P 1 − (N + 1)q N (1 − q) + (q − q N +1 ) + pq N N P
=
p
P (1 − q N )p − P N q N p + P q(1 − q N ) + P N q N p
=
p
P (1 − q )(p + q)
N 1 − qN
= =P
p p
β −αi αi −1 −x/β
fXi (x) = x e x≥0
Γ(αi )
Solución:
a) Las VAs X1 y X2 toman valores no negativos, luego su cocien-
te también será no negativo. Podemos emplear el método de la variable
auxiliar (sección 3.5.4) de la forma
X1
Z =
X2
W = X2
Entonces
fX1 X2 (x1 , x2 )
fZW (z, w) =
1 − x1 = x2 fX1 X2 (x1 , x2 )
x2 x2
2
0
1
= x2 fX1 (x1 )fX2 (x2 ) = wfX1 (zw)fX2 (w), w ≥ 0, z ≥ 0
Marginalizando, obtenemos
∞
fZ (z) = wfX1 (zw)fX2 (w)dw
0
∞β −α1 β −α2
= w (zw)α1 −1 e−zw/β (w)α2 −1 e−w/β dw
0 Γ(α 1 ) Γ(α 2 )
β −α1 β −α2 α1 −1 ∞ α1 +α2 −1 − z+1 w
= z w e β dw
Γ(α1 ) Γ(α2 ) 0
X1 Y1
f()
X2 Y2
f()
...
Σ
XN YN
f()
∞
Γ(p) = k p τ p−1 exp(−kτ )dτ ; p, k > 0
0
√
Γ(p + 1) = pΓ(p), p ∈ R; Γ( 12 ) = π; Γ(z + 1) = z!, z ∈ N
Solución:
a) Recordando que la desigualdad de Tchebycheff (véase sección
2.5.5)
σ2
P (|Z − ηZ | ≥ ) ≤ 2Z
donde, según dice el enunciado, = 3ηZ , entonces el problema se reduce a
calcular la media y la varianza de la VA Z. En las condiciones del apartado
N
se verifica que Z = N i=1 Yi = i=1 Xi de forma que
N
β 1
E{Z} = E{Xi } = N Γ
i=1
α α
N N
2 2
σZ = σX i
= E{X2i } − E 2 {Xi }
i=1 i=1
Por ello
5 6
2 22 2 β2 1 β2 2 1 1
σX i
= β Γ − 2 Γ2 = 2Γ − Γ2
α α α α α α α α
2 2
σZ = N σ Xi
b)
1
φ − jω y a = p entonces
φ−a −a ∞ a a−1 −ku
φU (ω) = k k u e du
Γ(a) 0
φ−a −a
= k Γ(a)
Γ(a)
a
1 − jωφ −a 1
= φ−a =
φ 1 − jωφ
N
N α
d) En este caso Z = i=1 Yi = i=1 Xi . Por ello
N
N
N
Xα α
φZ (ω) = E{ejωZ } = E{ejω i=1 i }= E{ejωXi } = φXαi (ω)
i=1 i=1
Por lo que
N
1
φZ (ω) =
1 − jωβ α
Según el resultado del apartado anterior, podemos escribir
φ−a a−1 z
fZ (z) = z exp(− ), z > 0
Γ(a) φ
con a = N y φ = β α .
♣
202 C. Alberola López
con 0 ≤ w ≤ z.
b) Recordando la definición de función de densidad conjunta (ecua-
ción 3.7)
∂ 2 FZW (z, w)
fZW (z, w) =
∂z∂w
∂2
= [FY (z) − [FY (z) − FY (w)]n ]
∂z∂w
∂
= n [FY (z) − FY (w)]n−1 fY (w)
∂z
= n(n − 1) [FY (z) − FY (w)]n−2 fY (z)fY (w)
n(n − 1)
P (W < Y0 ≤ Z) = ×
n(n + 1)
n(n + 1) [FY (z) − FY (w)]n−1 fY (z)fY (w)dzdw
zw
204 C. Alberola López
n(n − 1)
= f n+1 (z, w)dzdw
n(n + 1) zw ZW
n(n − 1) (n − 1)
= =
n(n + 1) (n + 1)
resultado que coincide con el obtenido en el ejercicio de la página 23.
c) Las VAs Xi son variables de Bernoulli con probabilidades
p(Xi = 1) = p = n−1
n+1
Xi 2
p(Xi = 0) = 1 − p = q = 1 − n−1
n+1 = n+1
Definiendo
V 1 N
U= = Xi
N N i=1
y siendo N >> 1 podemos hacer uso de la Ley de los Grandes Números
(sección 4.5.3) y escribir
por lo que 8
pq
= 1.96
N
♣
Capı́tulo 4. Variable N-dimensional 205
Solución:
con la VA Yi .
b) Por definición la VA I es binomial en ambos supuestos (esto es,
en supuestos H0 y H1 ), ya que esta variable se construye en base a una
composición de ensayos de Bernoulli independientes (véase secciones 1.7.1
y 2.3.2). Lo que cambia entre H0 y H1 es la probabilidad de cada valor de
la VA I.
Ası́ pues
donde
E{IH0 } = N pH0
E{IH1 } = N pH1
Para calcular las probabilidades pH0 y pH1 empleamos los datos siguien-
do las expresiones escritas en el apartado anterior, e identificando— según
indica el enunciado — probabilidad con frecuencia relativa. Ası́ pues
Procesos estocásticos
209
210 C. Alberola López
x (t) = X(t, a )
1 1
x (t) = X(t, a )
2 2
x (t) = X(t, a )
3 3
t0
t
X(t 0)
VA. Recuérdese que una variable era una función del espacio muestral en
el cuerpo de los número reales, de forma que para cada a ∈ S obtenı́amos
un número real X(a). No obstante, por simplicidad en la notación, nos
hemos referido siempre a las VAs sin explicitar la dependencia con el resul-
tado a del experimento aleatorio. En el caso de los procesos estocásticos
(particularizados a funciones unidimensionales del tiempo) la dependencia
es similar. A cada a ∈ S le asociamos una función del tiempo X(t, a). De
forma similar al caso de las VAs, denotaremos al proceso estocástico como
X(t) dando por sentado la dependencia con el resultado aleatorio.
No obstante, antes de eliminar de la notación esta dependencia, haga-
mos una última aclaración. Para ello, tomaremos como base tanto la figura
5.1 como el proceso estocástico Y(t, a) = Acos(ω0 t + Θ(a)), con Θ(a) una
VA uniforme en un rango de 2π radianes, y el resto de los parámetros
involucrados determinı́sticos.
dFX (x; t)
fX (x; t) = (5.2)
dx
Nada nos impide extraer más de una variable del proceso. Si extraemos
dos, léase, (X(t1 ), X(t2 )), habrı́amos creado una variable bidimensional a
partir del proceso. Si extraemos N podemos crear un vector aleatorio a
partir de variables del proceso de la forma [X(t1 ), X(t2 ), . . . , X(tN )]T , por
lo que los conceptos ya conocidos de temas anteriores aplican directamente.
A modo de ejemplo:
FX (x1 , t1 ) = FX (x1 , ∞; t1 , t2 )
∞
fX (x1 , t1 ) = fX (x1 , x2 ; t1 , t2 )dx2
−∞
• Varianza:
∞
2
σX (t) = E{(X(t) − ηX (t))2 } = (x − ηX (t))2 fX (x; t)dx
−∞
= E{X2 (t)} − ηX
2
(t) (5.6)
• Autocovarianza
CX (t1 , t2 )
rX (t1 , t2 ) = (5.9)
σX (t1 )σX (t2 )
• Si los ı́ndices son discretos, esto es, si estamos tratando con una se-
cuencia aleatoria, los operadores son los mismos, dado que en este
caso el ı́ndice temporal simplemente es un seleccionador de la varia-
ble o variables empleadas para el cálculo. Por ejemplo, si la secuencia
(real, por simplicidad) es X[n] podremos escribir
∞
– ηX [n] = E{X[n]} = −∞ xfX (x; n)dx
– 2 [n]
σX = E{(X[n] − ηX [n])2 } = E{X2 [n]} 2 [n], sustituyendo
− ηX
t por n en la expresión (5.6).
– RX [n1 , n2 ] = E{X[n1 ]X[n2 ]}, sustituyendo t1 y t2 por n1 y n2 ,
respectivamente, en la expresión (5.7).
– CX [n1 , n2 ] = E{(X[n1 ]−ηX [n1 ])(X[n2 ]−ηX [n2 ])} = RX [n1 , n2 ]−
ηX [n1 ]ηX [n2 ], haciendo la misma sustitución que en el caso an-
terior, ahora en la expresión (5.8).
N
fX (x1 , x2 , . . . , xN ; t1 , t2 , . . . , xN ) = fX (xi ; ti ) (5.12)
i=1
5.4 Estacionariedad
Hasta ahora, como se ha observado, apenas se ha hecho uso de la dimensión
temporal del proceso estocástico X(t). Básicamente, no hemos centrado en
la visión de un proceso estocástico como una colección de VAs y las relacio-
nes que hemos manejado entre ellas han sido las ya conocidas (correlaciones,
covarianzas, etc . . . ). En este punto, y en los que siguen, explotaremos el
hecho de que un proceso estocástico es una función del tiempo.
El concepto de estacionariedad está ligado a las variaciones de las pro-
piedades estadı́sticas del proceso a lo largo del tiempo. En este caso, tam-
bién distinguiremos entre estacionariedad en sentido estricto y estaciona-
riedad en sentido amplio. El primer sentido hará referencia a las propie-
dades que debe cumplir la función de densidad, mientras que el segundo
impondrá condiciones sólo sobre la media y la correlación del proceso.
fX (x; t) = fX (x)
fX (x1 , x2 ; t1 , t2 ) = fX (x1 , x2 ; t1 − t2 ) (5.16)
(5.20)
K
X(t) = Ak ej(kωo t+Θk )
k=1
K
K $ % $ %
= ejpωo t1 e−jqωo t2 E Ap A∗q E ej Θp e−Θq
p=1 q=1
K $ %
= E |Ap |2 ejpωo τ
p=1
Capı́tulo 5. Procesos estocásticos 223
= RX (τ )
Correlación cruzada
Si los procesos X(t) e Y(t) son procesos conjuntamente WSS entonces se
verifica que:
∗ (τ )
1. RXY (−τ ) = RYX
"
2. |RXY (τ )| ≤ RX (0)RY (0)
5.5 Ergodicidad
5.5.1 Ergodicidad con respecto de la media
Según conocemos de los temas anteriores, si observamos el valor que han to-
mado N variables Xi idénticamente distribuidas, cada una con valor medio
η y varianza σ 2 , entonces si creamos otra variable
1 N
Z= Xi (5.23)
N i=1
224 C. Alberola López
Este operador, como es natural, resulta en una VA puesto que es una fun-
ción de las infinitas variables del proceso estocástico. ¿Cuáles son la media
y la varianza de dicho operador? Al respecto de la media:
#
1 T
E{MT } = E X(t)dt
2T −T
T T
1 1
= E{X(t)}dt = ηX dt = ηX (5.26)
2T −T 2T −T
la cual, como puede verse, coincide con la media del proceso. Al respecto
de la varianza el cálculo es un poco más complejo, pero metodológicamente
interesante:
2
σM T
= E{(MT − ηX )(MT − ηX )∗ }
#
1 T 1 T
= E (X(t1 ) − ηX )dt1 (X(t2 ) − ηX )∗ dt2
2T −T 2T −T
1 2 T T
= E{(X(t1 ) − ηX )(X(t2 ) − ηX )∗ }dt1 dt2
2T −T −T
1 2 T T
= CX (t1 , t2 )dt1 dt2
2T −T −T
1 2 T T
= CX (t1 − t2 )dt1 dt2 (5.27)
2T −T −T
Para calcular esta integral es conveniente hacer el cambio de variable
t2 s 2T
T
-T T -2T 2T
t1 τ
-T
-2T
s = t1 + t 2
τ = t1 − t 2 (5.28)
(la figura 5.2 indica los dominios de integración original y transformado) y
dado que el jacobiano de la transformación es
∂s ∂s 1 1
∂t1 ∂t1
= = −2 (5.29)
∂τ
∂t1
∂τ
∂t1
1 −1
226 C. Alberola López
entonces
lim AT (τ ) = RX (τ ), ∀τ (5.35)
T →∞
Para que esto sea ası́ se pueden hacer las mismas consideraciones que en el
caso de ergodicidad con respecto de la media. Es sencillo comprobar que la
esperanza de la ecuación (5.34) coincide con la autocorrelación RX (τ ) del
proceso. Por la tanto, se cumple la primera condición para que el anterior
lı́mite se verifique. La segunda condición tiene que ver con la reducción
progresiva de la varianza del anterior operador conforme el intervalo de
integración crece. Se puede verificar que la varianza de AT (τ ) es:
2T
2 1 |λ|
σA T (τ )
= CYτ (λ) 1 − dλ (5.36)
2T −2T 2T
con CYτ (λ) es la covarianza del proceso Yτ (t) = X(t + τ )X∗ (t) evaluada
en el punto λ. Ası́ pues, para que el proceso sea ergódico respecto de la
autocorrelación, se debe verificar que
2
lim σA T (τ )
= 0, ∀τ (5.37)
T →∞
X(t) = Y, ∀t (5.38)
2.5
1.5
0.5
−0.5
−1
−1.5
−2
−2.5
0 10 20 30 40 50 60 70 80 90 100
a)
7
0
0 10 20 30 40 50 60 70 80 90 100
b)
−1
−2
−3
0 2 4 6 8 10 12 14 16 18 20
−1
−2
−3
0 2 4 6 8 10 12 14 16 18 20
Figura 5.4: Ejemplo de ajuste entre una función y ella misma desplazada en
el tiempo. Superior: retraso de τ = 1 unidades temporales (ut). Inferior:
retraso de τ = 4 ut.
1.5
0.5
−0.5
−1
−1.5
−2
0 2 4 6 8 10 12 14 16 18
X(t) |t| ≤ T
XT (t) = (5.40)
0 |t| > T
dado que en esa ventana temporal los dos procesos coinciden. Asimismo, si
aceptamos que los procesos son una magnitud eléctrica (tensión o corriente)
la anterior expresión se puede considerar que es igual a la energı́a disipada
por el proceso sobre una resistencia normalizada de valor igual a 1Ω. No se
pierda de vista que, naturalmente, dado que el proceso estocástico es una
colección de VAs, dicha energı́a es una función de VA y, por ello, una VA.
En virtud del teorema de Parseval para señales continuas podemos es-
cribir T
1 ∞
ER=1Ω = |X(t)|2 dt = |XfT (ω)|2 dω (5.43)
−T 2π −∞
podemos escribir esta expresión haciendo uso del operador media temporal,
de forma que $ %
P X = lim MT E |X(t)|2 (5.48)
T →∞
es decir, estamos calculando la media temporal de la función de VCMs del
proceso. En el caso de procesos WSS, el VCM es contante, de forma que,
dado que la media temporal de una constante coincide con la constante,
podemos escribir $ %
P X = E |X(t)|2 (5.49)
Ası́ pues, para un proceso WSS, el VCM tiene el significado de la potencia
media del mismo.
Por otra parte, la expresión general de la densidad espectral de potencia
SX (ω) se simplifica notablemente, resultando una expresión mucho más
intuitiva. Concretamente, llevando a cabo una operativa muy similar a la
desarrollada en la sección 5.5, podemos escribir
T
XfT (ω) = X(t)e−jωt dt
−T
$ % T T
E |XfT (ω)|2 = E {X(t1 )X∗ (t2 )} e−jω(t1 −t2 ) dt1 dt2
−T −T
(5.50)
y haciendo el cambio de variable
s = t1 + t2
τ = t1 − t 2 (5.51)
podemos escribir
$ %
E |XfT (ω)|2 2T
(2T −|τ |)
1 1
= dτ RX (τ )e−jωτ ds
2T 2T −2T −(2T −|τ |) 2
2T
1 1
= RX (τ )e−jωτ 2(2T − |τ |)dτ
2T −2T 2
2T
1 |τ |
= RX (τ )e−jωτ 2T (1 − )dτ
2T −2T 2T
2T
|τ |
= RX (τ )e−jωτ (1 − )dτ (5.52)
−2T 2T
Capı́tulo 5. Procesos estocásticos 235
Por otra parte, los espectros cruzados surgen con frecuencia en la prácti-
ca. Por ejemplo, supongamos que necesitamos calcular la densidad espec-
tral de un proceso Z(t) = X(t) + Y(t). Entonces, calculando su autocorre-
lación
RZ (τ ) = E{Z(t + τ )Z∗ (t)}
= E{(X(t + τ ) + Y(t + τ ))(X(t) + Y(t))∗ }
= E{X(t + τ )X∗ (t)} + E{X(t + τ )Y∗ (t)} +
E{Y(t + τ )X∗ (t)} + E{Y(t + τ )Y∗ (t)}
= RX (τ ) + RY (τ ) + RXY (τ ) + RYX (τ ) (5.57)
por lo que, tomando transformadas de Fourier, obtenemos
SZ (ω) = SX (ω) + SY (ω) + SXY (ω) + SYX (ω) (5.58)
densidad espectrak que, como se observa, es función de dos densidades es-
pectrales y dos espectros cruzados. No obstante, para el caso particular en
el que los procesos sean ortogonales se verifica que RXY (τ ) = RYX (τ ) = 0
∀τ , de forma que los espectros cruzados serı́an nulos ∀ω y la densidad espec-
tral de la suma de dos procesos coincidirı́a con la suma de las densidades
espectrales. Una vez más, la ortogonalidad de procesos hace que ciertas
operaciones sean mucho más sencillas.
& ∞ '
E{Y(t)} = E X(t − τ )h(τ )dτ
−∞
∞ ∞
= h(τ )E {X(t − τ )} dτ = h(τ )ηX (t − τ )dτ
−∞ −∞
(5.59)
y si el proceso es WSS
∞
E{Y(t)} = ηX h(τ )dτ = ηX H(ω = 0) (5.60)
−∞
& ∞ ∞ '
2 ∗ ∗
E{|Y(t)| } = E h(τ1 )X(t − τ1 )dτ1 h (τ2 )X (t − τ2 )dτ2
−∞ −∞
∞ ∞
= E {X(t − τ1 )X∗ (t − τ2 )} h(τ1 )h∗ (τ2 )dτ1 dτ2
−∞ −∞
(5.61)
∞ ∞
E{|Y(t)|2 } = RX (τ2 − τ1 ) h(τ1 )h∗ (τ2 )dτ1 dτ2 (5.62)
−∞ −∞
238 C. Alberola López
& ∞ '
∗ ∗ ∗
RXY (t1 , t2 ) = E {X(t1 )Y (t2 )} = E X(t1 ) X (t2 − α)h (α)dα
−∞
∞
= h∗ (α)E {X(t1 )X∗ (t2 − α)} dα
−∞
∞ ∞
= h∗ (α)RX (t1 − t2 + α) dα = h∗ (α)RX (τ + α) dα
−∞ −∞
= RXY (τ ) (5.65)
es decir,
RY (τ ) = h(τ ) ∗ RXY (τ )
= h(τ ) ∗ h∗ (−τ ) ∗ RX (τ ) (5.68)
b) Se define el proceso
(n+1)T
Z[n] = X(t)cos (2πf1 t) dt
nT
A
ηX (t = 0) = [1 + 1] = A
2 5 6
T A π A
ηX t = = cos + cos (π) = −
4 2 2 2
Ası́ pues Z[n] es un proceso de VAs discretas que toman los valores A2 T y
0 de forma equiprobable.
c) Es evidente, a partir del procedimiento seguido en el apartado
anterior, que el proceso W[n] es también un proceso de VAs discretas que
toman los mismos valores que Z[n] y con las mismas probabilidades. Sin
embargo, debido a la definición de estos procesos, cuando Z[n] = 0 entonces
W[n] = A2 T y viceversa. Por ello la VA bidimensional (Z[n], W[n]) toma los
valores (0, A2 T ) y ( A2 T, 0) de forma equiprobable. Recordando la definición
de correlación entre dos VAs (sección 3.6.2) podemos escribir
RZW [n, n] = E{Z[n]W[n]} = zi wi P (Z[n] = zi , W[n] = wi )
i
1 A A
= 0· T + T ·0 =0
2 2 2
Por ello las VAs Z[n] y W[n] son ortogonales.
242 C. Alberola López
Solución:
a) Aplicando linealidad del operador esperanza (apartado 3.6) po-
demos escribir
E{Z(t)} = E{X(t) + Y(t) + N(t)}
= E{X(t)} + E{Y(t)} + E{N(t)}
Al respecto de la esperanza de X(t)
#
N
E{X(t)} = E Ai cos(ωix t + Θi )
i=1
N
= E{Ai cos(ωix t + Θi )}
i=1
N
= E{Ai }E{cos(ωix t + Θi )}
i=1
N 2π
1
= E{Ai } cos(ωix t + θi )dθi
i=1
2π 0
N
= E{A2i cos(ωix t1 + Θi )cos(ωix t2 + Θi )} +
i=1
N
N
E{Ai Aj cos(ωix t1 + Θi )cos(ωjx t2 + Θj )}
i=1 j=1
j=i
N
= E{A2i }E{cos(ωix t1 + Θi )cos(ωix t2 + Θi )} +
i=1
N
N
E{Ai }E{Aj } ×
i=1 j=1
j=i
E{cos(ωix t1 + Θi )}E{cos(ωjx t2 + Θj )}
N
= E{A2i }E{cos(ωix t1 + Θi )cos(ωix t2 + Θi )}
i=1
N
E{A2i }
= E{cos(ωix (t1 + t2 ) + 2Θi ) + cos(ωix (t1 − t2 ))} +
i=1
2
N
E{A2i }
N
2/λ2
= cos(ωix (t1 − t2 )) = cos(ωix (t1 − t2 ))
i=1
2 i=1
2
N
1
N
1
= cos(ωix (t1 − t2 )) = cos(ωix τ )
i=1
λ2 i=1
λ2
con τ = t1 − t2 . Repárese que se ha hecho uso de la independencia de VAs,
ası́ como del VCM de una VA exponencial (apartado 2.5.4).
Respecto del proceso Y(t) el razonamiento serı́a similar, y el único
cambio procederı́a de los VCMs de las VAs Bi . Por ello, podemos concluir
que
N
1
N
1 N0
RZ (t1 , t2 ) = 2
cos(ωix τ ) + cos(ωjy τ ) + δ(τ )
i=1
λ j=1
µ2 2
Capı́tulo 5. Procesos estocásticos 245
= RZ (τ )
por lo que el proceso es WSS (apartado 5.4).
b) La ergodicidad respecto de la media se puede plantear analizando
si el lı́mite del operador media temporal (expresión 5.25) coincide con la
esperanza matemática del proceso. Para tal fin
MT [Z] = MT [X + Y + N] = MT [X] + MT [Y] + MT [N]
(5.71)
Respecto del proceso N(t), el enunciado dice que es ergódico. Queda pues
comprobar qué sucede con los otros dos. Razonando, como anteriormente,
con el proceso X(t)
T
1
MT [X] = X(t)dt
2T −T
T
N
1
= Ai cos(ωix t + Θi )dt
2T −T i=1
N T
1
lim MT [X] = lim Ai cos(ωix t + Θi )dt
T →∞ T →∞ 2T −T
i=1
En este caso el factor T 2 que divide a la expresión hace que el lı́mite sea
nuevamente cero. Por ello limT →∞ σi2 = 0, de forma que limT →∞ σM 2
T
=0
y el proceso es ergódico con respecto de la media.
Lo mismo sucede para el proceso Y(t) por lo que podemos concluir que
el proceso Z(t) es ergódico respecto de la media.
En relación con la ergodicidad con respecto a la autocorrelación repáre-
se que la autocorrelación temporal (expresión (5.34)) será función de los
valores concretos observados de las VAs Ai y Bj . Por ello la autocorrela-
ción temporal será una función aleatoria, de forma que no coincidirá, en
general, con RZ (τ ), por lo que el proceso no será ergódico respecto de la
autocorrelación.
c) Haciendo uso de la expresión (5.70) y dado que H(ω) = 1−e−jωT0
[15] entonces
SW (ω) = |H(ω)|2 SZ (ω)
= 2(1 − cos(ωT0 ))SZ (ω)
con
N
π
SZ (ω) = [δ(ω − ωix ) + δ(ω + ωix )] +
i=1
λ2
N
π N0
δ(ω − ωjy ) + δ(ω + ωjy ) +
j=1
µ2 2
Capı́tulo 5. Procesos estocásticos 247
σ 2 = σX
2
(1 − ρ2X [1])
Dado que
RX [1] RX [1]
ρX [1] = " " = = a11
RX [0] RX [0] RX [0]
entonces
σ 2 = RX [0](1 − a211 )
S(τ ) = ∞ n
n=m τ lo cual se obtiene de forma sencilla haciendo
∞
S(τ ) = τ n = τ m + τ m+1 + . . .
n=m
∞
τ S(τ ) = τ τ n = τ m+1 + τ m+2 + . . .
n=m
(1 − τ )S(τ ) = τ m
τm
S(τ ) = (5.74)
1−τ
por lo que uniendo los resultados de (5.74) y (5.73) y sustituyendo en (5.72)
llegamos a
am
RY [m] = σ 2 ,
1 − a2
lo cual es válido ∀m ≥ 0. Como dijimos, la correlación debe ser par. Por
ello
a|m|
RY [m] = σ 2 , ∀m
1 − a2
c) En este caso nos plantean la extensión a dos variables del
estimador lineal óptimo, esto es, la particularización de la expresión (4.12)
para N = 2. Para tal fin, dado que b = 0 puesto que el proceso es de me-
dia nula, podemos, simplemente, hacer uso del principio de ortogonalidad
(véase apartado 3.7.5). Concretamente, denominando [n] = X[n] − X̂[n]
podemos escribir
E{[n]X[n − 1]} = 0
E{[n]X[n − 2]} = 0
Por lo que
sistema de dos ecuaciones con dos incógnitas que podemos resolver, por
ejemplo, mediante la regla de Cramer, esto es:
RX [1] RX [1]
RX [2] RX [0] RX [1]RX [0] − RX [1]RX [2]
a21 =
= 2 [0] − R2 [1]
RX [0] RX [1] RX X
RX [1] RX [0]
RX [0] RX [1]
RX [1] RX [2] RX [2]RX [0] − RX 2 [1]
a22 =
= 2 [0] − R2 [1]
RX [0] RX [1] RX X
RX [1] RX [0]
2 [1]
RX
RX [0] RX [2] − RX [0]
=
2 [1]
RX
RX [0] 1 − 2 [0]
RX
RX [0]
RX [2] − a11 RX [1]
=
σ2
4.- El proceso estocástico real M(t) es WSS, de media nula, con densidad
espectral SM (ω), de la que se sabe que SM (ω) = 0 para |ω| > ω0 . A partir
de éste se construye el proceso X(t) de la forma
La figura 5.6 muestra, para una forma escogida de SM (ω) que cumple
la restricción del enunciado, la densidad espectral de potencia SX (ω) del
proceso X(t). Como puede verse, se ha desplazado la densidad espectral
SM (ω) del proceso M(t) al valor ω = ωc pero sólo se ha conservado la
banda lateral superior de tal densidad espectral (esto es, los valores SM (ω)
para ω > 0). Al ser M(t) un proceso real su densidad espectral es par,
de forma que al conservar sólo la banda lateral superior (o la inferior) no
perdemos información de dicha función. El procedimiento descrito en este
Capı́tulo 5. Procesos estocásticos 253
A
S (ω )
M
−ω 0 ω0
A 1
S (ω ) A
X
−ω c ωc ω
−(ω c+ ω 0) −ωc + ω ωc − ω 0 ω c+ ω 0
0 0
A 2
S (ω ) A
X
−ω c −ωc + ω ωc − ω 0 ωc
0 ω
−(ω c+ ω 0) 0 ω c+ ω 0
-A -A
S (ω )
2Aπ X 2A π
−ω c ωc ω
−(ω c+ ω 0) 0 ω c+ ω 0
♣
Bibliografı́a
Básica
[1] P. Z. Peebles, Probability, Random Variables and Random Signal Prin-
ciples, Mc-Graw Hill Int. Ed., 3rd Ed., 1994.
Avanzada
255
256 C. Alberola López
Sistemas de comunicación
[13] S. Haykin, Communication Systems, John Wiley and Sons Inc., 3rd
Ed., 1994.
Prólogo 9
1 Teorı́a de la Probabilidad 13
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Álgebra de conjuntos . . . . . . . . . . . . . . . . . . . . . . 15
1.2.1 Definiciones, terminologı́a y notación . . . . . . . . . 15
1.2.2 Operaciones con conjuntos . . . . . . . . . . . . . . . 16
1.3 Definición de probabilidad . . . . . . . . . . . . . . . . . . . 19
1.3.1 Probabilidad como frecuencia relativa . . . . . . . . 20
1.3.2 Definición clásica . . . . . . . . . . . . . . . . . . . . 20
1.3.3 Definición axiomática de la probabilidad . . . . . . . 21
1.4 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . 26
1.5 Independencia de sucesos . . . . . . . . . . . . . . . . . . . 28
1.5.1 Independencia de pares de sucesos . . . . . . . . . . 28
1.5.2 Independencia de múltiple sucesos . . . . . . . . . . 31
1.6 Teoremas de la Probabilidad total y de Bayes . . . . . . . . 32
1.6.1 Concepto de partición . . . . . . . . . . . . . . . . . 32
1.6.2 Teorema de la Probabilidad Total . . . . . . . . . . 32
1.6.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . 33
1.6.4 Sobre el teorema de Bayes y los sistemas de comuni-
caciones . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.7 Experimentos compuestos. Composición de ensayos de Ber-
noulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.7.1 Composición de ensayos de Bernoulli . . . . . . . . . 40
257
258 C. Alberola López
Bibliografı́a 255