Documentos de Académico
Documentos de Profesional
Documentos de Cultura
X1
X
X 3
2
X Y
4
X
5
X
6
X
7
X8
fY(y|H ) fY(y|H )
0 1
Y
m0 t* m1
Universidad de Valladolid
PROBABILIDAD, VARIABLES ALEATORIAS Y
PROCESOS ESTOCSTICOS
Una introduccin orientada a
las Telecomunicaciones
Serie: INGENIERA, n 12
519.21:621.39
CARLOS ALBEROLA LPEZ
Universidad de Valladolid
Secretariado de Publicaciones
e Intercambio Editorial
No est permitida la reproduccin total o parcial de este libro, ni su
tratamiento informtico, ni la transmisin de ninguna forma o por
cualquier medio, ya sea electrnico, mecnico, por fotocopia, por
registro u otros mtodos, ni su prstamo, alquiler o cualquier otra
forma de cesin de uso del ejemplar, sin el permiso previo y por
escrito de los titulares del Copyright.
ISBN: 978-84-8448-307-6
Dep. Legal: SE-3851-2004
Imprime: Publidisa
A quien fue,
a quien es,
a quien no pudo ser
y a quienes seran.
Prologo
Este libro es el resultado de los diez anos de docencia en la materia
de Teora de la Probabilidad y Senales Aleatorias que, en el momento de
redaccion de este prologo, el autor del mismo ha impartido en la Escuela
Tecnica Superior de Ingenieros de Telecomunicacion de la Universidad de
Valladolid. Pretende ser, como objetivo prioritario, un manual que incluya
los conocimientos probabilsticos basicos que se precisan para abordar el
analisis y diseno de los Sistemas de Comunicacion.
En el Plan de Estudios de la titulacion de Ingeniero de Telecomunica-
cion, tanto el que tuvo esta Escuela en su origen, como en el que actualmente
esta en vigor, la materia arriba mencionada se concentra fundamentalmen-
te en una asignatura, a saber, Senales y Sistemas de Transmision I en el
plan antiguo, y Senales Aleatorias en Ruido (SAR, en adelante), en el plan
actual. El resto de asignaturas que hacen uso de estos temas (fundamen-
talmente Teora de la Comunicacion, Teletraco, Tratamiento Digital de
la Senal y optativas anes as como alguna Telematica) construyen sobre
los pilares de esta. Por tanto, es SAR el soporte teorico sobre el que otras
asignaturas se basan para impartir sus conocimientos especcos.
Este libro esta disenado para constituir el material docente, a impartir
en un unico cuatrimestre, de la unica asignatura que proporciona formacion
en temas de probabilidad para los alumnos de este Plan de Estudios. Para
el autor tal armacion supone un reto; no es facil sintetizar una materia tan
amplia en un unico cuatrimestre, partiendo ademas de un desconocimiento
por parte de los alumnos practicamente total de conceptos probabilsticos
(la experiencia dice que es el caso). Se debe por tanto hacer una seleccion
minuciosa de los temas a tratar, as como del grado de profundidad en su
tratamiento, para conseguir transmitir esta materia persiguiendo, asimis-
mo, que el alumno pueda llegar a verla como una poderosa herramienta
que le sea util para abordar problemas futuros.
Dado que la materia es clasica, es evidente que existe una enorme bi-
bliografa al respecto. Sin embargo el autor (que es ingeniero del ramo) ha
pretendido escribir un libro para ingenieros y para aspirantes a ello. Por
ello las fuentes bibliogracas que se han tenido presentes (vease la seccion
de Bibliografa, epgrafe Basica) responden a este perl de probabilidad
aplicada a las senales y comunicaciones. De tales fuentes bibliogracas des-
taca, en el campo de la Ingeniera de Telecomunicacion y, en concreto, en el
area de conocimiento de Teora de la Senal, la obra de Athanasios Papou-
lis, recientemente fallecido. Sin exageracion ninguna, esta obra es referente
mundial y cubre, con creces, los contenidos de la asignatura a que va dirigi-
10 C. Alberola Lopez
do este libro. Sin embargo, como se dijo antes, el autor dispone de un unico
cuatrimestre para realizar su funcion. En tan poco tiempo esta obra resulta
exhaustiva en exceso de forma que, si bien se tendra presente a lo largo de
todo el tratado, se debe realizar un trabajo de sntesis importante, sntesis
que, a juicio de su autor, consigue el libro que ahora comienza. Se podra
argumentar que existen otra obras tambien sinteticas; tal es el caso, por
ejemplo, de la obra de Peebles, tambien referenciada en el epgrafe ante-
riormente indicado. No obstante, esta obra tal vez adolece de simplicacion
excesiva en determinados momentos, carencia que aqu hemos tratado de
evitar.
Este libro no es un libro de estadstica hemos incluido, no obstante
alguna referencia bibliograca al respecto , si entendemos por tal el con-
junto de procedimientos a llevar a cabo para extraer conclusiones acerca
de una poblacion a partir de observaciones de una muestra. Por tanto, en
el libro no se encontrara una sola mencion, por ejemplo, del concepto de
intervalo de confianza, ni de la estimacion de maxima verosimilitud, ni se
hablara de funciones como la t de Student o la F de Snedecor. Sin embar-
go, s que se proporciona una base probabilstica que permita al alumno,
si resultase interesado en estos temas, avanzar en esa direccion. Excep-
cion a lo dicho, esto es, descripcion de un procedimiento estadstico, es el
caso de la estimacion de mnimo error cuadratico medio que se incluye al
nal del captulo tercero. El objetivo de la imparticion de tal concepto es
proporcionar al alumno una pequena base sobre la que construir, en otras
asignaturas, procedimientos optimos de ltrado de senales. Estaramos ha-
blando, concretamente, de proporcionar las bases para la comprension del
ltro de Wiener y, adicionalmente, del ltro de Kalman. Tampoco se des-
cribe formalmente el concepto de test de hipotesis (se hace una mencion
indirecta en el primer captulo para ilustrar la trascendencia del Teorema
de Bayes) ni se deducen las soluciones optimas en sentido bayesiano ni en
sentido Neyman-Pearson. Sin embargo, a lo largo del texto se plantean
ejemplos de estos y el alumno puede observar que, en un momento dado,
dispone de las herramientas que le permiten calcular, pongamos, umbrales
para conseguir un determinado requisito. Por tanto, este libro tiene como
objetivo adicional proporcionar una base para poder profundizar, si es de-
seo del alumno, en temas de tratamiento estadstico de senales (estimacion
y deteccion) y reconocimiento de patrones, para lo cual hemos incluido en
la bibliografa varias referencias enormemente conocidas.
El libro se ha estructurado en cinco captulos, de los cuales los cuatro
primeros formaran una unidad conceptual (probabilidad y variables aleato-
11
Teora de la Probabilidad
1.1 Introduccion
La mayor parte de los fenomenos en la naturaleza tienen un caracter alea-
torio si bien, en numerosos casos, se simplican la situaciones con el n de
hacerlas abarcables y as se tratan de cerrar los experimentos en formulas
determinsticas. Por ejemplo, si dejamos caer un objeto desde una cierta
altura, asumimos que conocemos con que aceleracion se produce la cada y,
asimismo, damos por supuesto que la posicion de parada del objeto se pro-
ducira en la proyeccion vertical del mismo sobre el suelo. Tal aproximacion
deja de ser valida si se introducen otros factores que hacen del problema
algo mas complejo como, por ejemplo, la existencia de fuerzas descontro-
ladas (digamos, la accion del viento). Asimismo, si medimos el tiempo de
cada del objeto en varias ocasiones raramente conseguiremos dos medi-
das exactamente iguales. No es difcil por tanto aceptar que la realidad
se puede aproximar mediante un modelo matematico, mas un termino de
ambiguedad (al que tpicamente se denomina ruido).
Podemos pensar en experimentos implcitamente aleatorios. Piensese,
por ejemplo, el tiempo que se invierte en llegar de un punto a otro en una
ciudad mediante traco rodado. Claramente, este tiempo sera uno u otro
en funcion de las condiciones del traco, las cuales no son completamente
predecibles.
Los sistemas de comunicacion no son ajenos a estos escenarios de in-
certidumbre. En primer lugar, las senales que se manejan transportan
informacion, de forma que no son caracterizables con exactitud mediante
un conjunto nito de parametros. Es decir, si una senal transporta infor-
macion, no podremos predecir sin error en general el valor que toma
13
14 C. Alberola Lopez
A
B
C=A-B
A A UB
B
U
A A B
B
N
A1 A2 . . . AN = Ai (1.2)
i=1
Por razones que se veran posteriormente, es habitual en calculo probabilsti-
co escribir
AB = A+B (1.3)
A B = AB (1.4)
y, extendido al caso de operaciones multiples,
N
A1 A2 . . . AN = Ai (1.5)
i=1
N
A1 A2 . . . AN = Ai (1.6)
i=1
Debe repararse que estos signos no tienen el signicado algebraico de suma
y multiplicacion sino, como hemos dicho, de union e interseccion respecti-
vamente.
Es interesante, por su utilidad, recordar que estas dos operaciones cum-
plen las propiedades conmutativa, asociativa y distributiva. Esta ultima
hace referencia al uso combinado de las mismas, mientras que las dos prime-
ras se reeren a cada una de las operaciones por separado. Concretamente,
la conmutatividad implica que
AB = BA (1.7)
AB = BA (1.8)
Con respecto a la propiedad asociativa
A (B C) = (A B) C (1.9)
A (B C) = (A B) C (1.10)
Finalmente la propiedad distributiva permite escribir
A (B C) = (A B) (A C) (1.11)
A (B C) = (A B) (A C) (1.12)
Complemento de un conjunto
El conjunto complemento (o complementario) de un conjunto A (vease gu-
ra 1.4) es el conjunto diferencia entre el conjunto universal S y el conjunto
A. Formalmente podemos escribirlo como A = S A. Es facil ver que
A A = S as como que A A = .
Captulo 1. Teora de la Probabilidad 19
A
A
1. P (A) 0
2. P (S) = 1
3. P (A B) = P (A) + P (B) si AB =
A B = A (B A) = A C
B = C (A B)
P (A B) = P (A C) = P (A) + P (C)
P (B) = P (C) + P (A B)
Pc (S) = N
N = 1, pues todos los casos son favorables al espacio mues-
tral.
P (B) = 1 P (B)
= 1 P (A1 An+1 ) = 1 (P (A1 ) + P (An+1 ))
1 1 2 n1
= 1 =1 = (1.18)
n+1 n+1 n+1 n+1
Espacio de Probabilidad
Un experimento aleatorio se formalizara mediante la terna < S, F, P >.
El primer elemento de la terna es el espacio muestral; el segundo es la clase
de sucesos que podemos extraer del espacio muestral y el tercero es la ley
de asignacion de probabilidades.
Al respecto de la clase de sucesos debemos mencionar que si el espa-
cio muestral tiene cardinal nito igual a N , la clase de sucesos tendra un
numero de subconjuntos igual a 2N . No obstante, si el cardinal del espacio
muestral es innito, el numero de subconjuntos tambien lo sera, de forma
que podramos pensar en uniones e intersecciones de innitos sucesos. Para
que el espacio de probabilidad este bien denido la clase de sucesos a con-
siderar debe tener estructura de campo de Borel2 , esto es, la clase debe ser
cerrada frente a una cantidad numerable de aplicaciones de las operaciones
2
Tambien denominado -algebra [3].
Captulo 1. Teora de la Probabilidad 25
P (A B)
P (A|B) = (1.20)
P (B)
denicion en la que se asume que el suceso condicionante B tienen proba-
bilidad no nula, esto es, P (B) = 0. En lo que sigue, aunque no hagamos
mencion expresa de esta asuncion, debemos tenerla en mente siempre que
manejemos probabilidades condicionadas (de forma inmediata en las sec-
ciones 1.5.1 y 1.6, y a lo largo de los diferentes captulos).
Esta nueva denicion debe ser coherente con los axiomas de la proba-
bilidad. Veamos que, en efecto, as es:
1. P (A|B) = P P(AB)
(B) 0, pues es el cociente de dos probabilidades
axiomaticas y, por ello, el cociente de dos magnitudes no negativas.
P (SB) P (B)
2. P (S|B) = P (B) = P (B) =1
P (A B) P (A16 A61 )
P (A|B) = =
P (B) P (B)
2
P (A16 A61 ) 36 2
= = 11 =
P ( i=6 o j=6 Aij ) 36
11
P (A B) P (B|A)P (A)
P (A|B) = = (1.22)
P (B) P (B)
P (A B)
P (A|B) = = P (A)
P (B)
P (asrey)
a) P (as|rey) = P (rey)
. Es obvio que si la carta
que tenemos en la mano es un rey (como dice el condicio-
nante) esa carta no puede ser un as. Por tanto, el suceso
del numerador es el conjunto vaco y por tanto, la proba-
bilidad que nos piden es nula. Estamos hablando pues de
sucesos disjuntos y, por ello, no independientes.
..
.
N
N
Independencia global: P Ai = p(Ai )
i=1 i=1
1. Ai Aj = , i = j;
N
2. S = Ai
i=1
Por tanto, una particion es un conjunto de sucesos disjuntos, tales que todos
ellos unidos dan lugar al espacio muestral. Notese que los elementos de la
particion seran como las teselas de un mosaico.
Reparese en que hemos hablado de una particion del espacio muestral
tratando as de enfatizar el hecho de que sobre un espacio muestral se puede
denir, en general, un numero arbitrario de particiones. Un caso particular
de tal sera el conjunto de sucesos A1 = A y A2 = A, esto es, un suceso
cualquiera y su complementario.
es una particion del espacio muestral, podemos escribir dicho suceso como
una superposicion de las partes del suceso que caen sobre cada elemento de
la particion, es decir,
N
B= (B Ai ) (1.27)
i=1
Por tanto, podemos escribir P (B) haciendo uso de la anterior igualdad
N
N
P (B) = P (B Ai ) = P (B Ai ) (1.28)
i=1 i=1
dado que si los elementos de la particion son disjuntos, tambien lo seran
los sucesos B Ai , i = 1, . . . , N . As pues, recordando la denicion de
probabilidad condicionada, podemos escribir
N
P (B) = P (B|Ai )P (Ai ) (1.29)
i=1
que es la expresion del teorema.
Ejemplo: Podemos plantear el ejemplo propuesto en el
apartado 1.4 mediante el teorema que acabamos de ver. Con-
cretamente:
P (A) = P (A|B)P (B) + P (A|B)P (B)
2 11 4 25
= +
11 36 25 36
2 4 6 1
= + = =
36 36 36 6
N
P (B|Aj )P (Aj )
j=1
34 C. Alberola Lopez
11 1
P (Cij ) = P (Ai Bj ) = P (Ai )P (Bj ) = = (1.39)
66 36
6
6
P (Ai ) = P (Ai |Bj )P (Bj ) = P (Ai Bj )
j=1 j=1
(1.40)
40 C. Alberola Lopez
6
6
P (Bj ) = P (Bj |Ai )P (Ai ) = P (Ai Bj )
i=1 i=1
(1.41)
1
Con la restriccion P (Ai ) = P (Bj ) = i, j = {1, . . . , 6}
6
construya una tabla con los valores P (Ai Bj ) que cumplan,
ademas, el condicionante de que las caras 3 y 5 no se pueden
dar conjuntamente.
Solucion: Las expresiones anteriores ecuaciones (1.40)
y (1.41) signican que la probabilidad de cada cara se ob-
tendra sumando por las las probabilidades de cada resul-
tado elemental del experimento compuesto para el primer
dado y por columnas para el segundo. As pues, una posible
tabla sera
Ai \ Bj 1 2 3 4 5 6
1 x x x x x x
2 x x x x x x
3 x x 2x x 0 x
4 x x x x x x
5 x x 0 x 2x x
6 x x x x x x
1
donde x = 36 . Notese que nos hemos limitado a paliar
el efecto de la probabilidad cero en los resultados (3, 5) y
(5, 3) forzando probabilidad doble en los resultados (3, 3) y
(5, 5), sin necesidad de afectar a los demas elementos de la
tabla.
que el numero de resultados del experimento sea solo dos, sino que estamos
dividiendo las soluciones en dos subconjuntos. As pues, el lanzamiento de
un dado y la observacion del resultado obtenido puede considerarse un en-
sayo de Bernoulli sin mas que dividir los resultados en, por ejemplo, A=ha
salido un valor superior a tres, y su complementario.
En este apartado nos interesa analizar la composicion de tales ensa-
yos. Supongamos que llevamos a cabo varias ejecuciones de un ensayo de
Bernoulli de forma independiente entre ellas (recuerdese que esta asuncion
permite emplear el resultado de la expresion 1.38). Pensemos que el nume-
ro de veces que realizamos el experimento es N . En estas condiciones, la
cuestion a resolver es cual es la probabilidad de que el resultado A haya
salido k veces (de N posibles)?
Si denominamos Bk al suceso cuya probabilidad buscamos conocer, el
proceso para el calculo de la misma sera, basicamente, escribir dicho suceso
Bk como funcion de sucesos cuya probabilidad sea conocida. Como, por
ahora, solo conocemos la probabilidad de cada resultado elemental, tendre-
mos que escribir dicho suceso como funcion de los resultados elementales
en cada uno de los ensayos.
Denominando Bkj a cada una de las posibles formas de darse el suceso
Bk , y denotando por Ai al suceso ha salido el resultado A en el ensayo
i-esimo, podremos escribir5 :
M
Bk = Bkj (1.45)
j=1
P (Bk ) = M pk q N k (1.48)
Solucion:
a) Denominemos kr al primer numero entero menor que
0.1N (kr = oor(0.1N )). Dado que los experimentos son in-
dependientes entre s y el resultado de cada experimento es re-
chazar el producto (suceso A, con probabilidad p(A) = pr ) o
aceptarlo (suceso A, con probabilidad qr = 1 pr ), estamos
ante una composicion de ensayos de Bernoulli independientes.
En este caso el suceso (digamos) B cuya probabilidad se pide
se puede escribir, siguiendo la denicion de los sucesos Bk dada
por la ecuacion (1.45), de la forma
kr
B= Bk
k=0
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25 30
Figura 1.5: Ajuste de P (Bk ) mediante una curva dada por la expresion
(1.51).
1 (xa)2
e 2b2 (1.51)
b 2
donde el parametro a = N p es el parametro de simetra de la curva
anterior y el parametro b = N pq es tal que cuanto mayor sea este
valor mas ancho es el lobulo de la curva. Como puede verse, las
probabilidades P (Bk ) se ajustan de manera bastante aproximada a
la curva anterior para valores de k proximos al centro de simetra de
la curva. De hecho, esta aproximacion esvalida cuando N pq >> 1 y
para valores de k en el intervalo N p 3 N pq k N p + 3 N pq.
Cuando el objetivo sea calcular la probabilidad de la union de varios
Bk (es el caso del apartado a) del ejercicio anterior) debemos acudir
al area bajo esta curva. Concretamente:
k0
k0 1 (xa)2 k0 N p
P Bk
= e 2b2 dx = G (1.52)
k=0 b 2 N pq
Variable aleatoria
unidimensional
Z : S CN
47
48 C. Alberola Lopez
P (2 X 2) = P ({X = 2} {X = 1} {X = 0}
{X = 1} {X = 2})
= P (X = 2) + P (X = 1) + P (X = 0) +
P (X = 1) + P (X = 2)
= p2 + p1 + p0 + p1 + p2
2
= pi (2.2)
i=2
F (x)
X
0 x
FX () = P (X ) = P (X = ) = 0
{X x2 } = {X x1 } {x1 < X x2 }
FX (x2 ) = P (X x2 ) = P ((X x1 ) (x1 < X x2 )) =
= P (X x1 ) + P (x1 < X x2 )
= FX (x1 ) + P (x1 < X x2 ) (2.4)
S = {X x} {X > x}
F (x) F (x)
X 1 X 1
p a +p b +p c
pc
p a +p b
pb px
0
pa
0 x 0 x
a b c x0
a) b)
Figura 2.2: a) FX (x) para una VA discreta que toma tres valores. b) FX (x)
para una VA mixta que toma el valor x0 con probabilidad px0 .
con u(x) la funcion escalon. Generalizando a una variable que tome los
valores xi , i = {1, . . . , N }, con probabilidades respectivas pi , podemos es-
cribir
N
FX (x) = pi u(x xi ) (2.6)
i=1
cesaria que pi = 1.
i
Variables mixtas
dFX (x)
fX (x) = (2.7)
dx
de forma que tambien es una funcion real de variable real. Esta funcion
tiene exactamente la misma informacion que la funcion de distribucion. De
hecho, si, como hemos visto, de la primera podemos pasar a la segunda,
podemos hacer el paso inverso, esto es, de la segunda pasar a la primera.
Basta resolver la ecuacion diferencial resultante de la denicion integral
anterior:
x
FX (x) FX () = fX ( )d
x
FX (x) = fX ( )d (2.8)
P (x < X x + x) = FX (x + x) FX (x)
du(x)
(x) = (2.9)
dx
Esta funcion es nula para todo punto de abscisa distinto de cero y, en ese
punto, presenta una singularidad (su valor es innito)de forma tal que el
area encerrada bajo esta funcion es unitaria, es decir, (x)dx = 1.
Haciendo uso de esta funcion, as como de la linealidad del operador
derivacion, es obvio que la funcion de densidad de una variable discreta (y
de una mixta en los puntos de discontinuidad de la funcion de distribucion)
puede escribirse
N
fX (x) = pi (x xi ) (2.10)
i=1
2.3.1 Continuas
Uniforme
Una VA X es una variable uniforme en el intervalo denido por los puntos4
a y b si su funcion de densidad es constante (y no nula) en el interior de
dicho intervalo, y es nula fuera del mismo. Denotaremos tal tipo de variable
de la forma X U (a, b).
El valor de la constante asociada a esta funcion de densidad no puede
ser arbitrario dado que, como hemos visto, el area bajo cualquier funcion
de densidad es siempre unitaria. Aplicando esta restriccion tendremos
b
fX (x)dx = fX (x)dx
a
b
= kdx
a
b
= k dx = k(b a) = 1
a
(2.11)
x
x<a FX (x) = 0d = 0
x
1 xa
ax<b FX (x) = d =
a ba ba
x b 1
xb FX (x) = fX ( )d = d = 1
a a ba
(2.12)
Puede observarse, por tanto, que FX (x) tiene los comportamientos asintoti-
cos esperados (cero, por lado izquierdo, y uno por lado derecho) y que crece
linealmente en el interior del intervalo (a, b). Asimismo, dado que X es una
VA continua, FX (x) es una funcion continua.
Es interesante realizar unos comentarios adicionales:
es facil ver que esta integral solo es distinta de cero si los interva-
los (x1 , x2 ) y (a, b) tienen interseccion no vaca, dado que la funcion
subintegral es no nula en el interior del segundo intervalo.
Gaussiana
Una VA X se dice que es gaussiana, de parametros a y b si su funcion de
densidad tiene la expresion
1 (xa)2
fX (x) = e 2b2 (2.14)
b 2
0.3
0.25
b1
b2 > b1
0.2
b2
0.15
0.1
0.05
0
0 1 2 3 4 5 6 7 8 9 10
a=5
xa
1
b 2
= e 2 d
2
xa
= G (2.17)
b
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
40 45 50 55 60 65 70 75 80
Exponencial
0.4
0.3
0.2
0.1
0
5 0 5 10
0.8
0.6
0.4
0.2
0
5 0 5 10
fX (x) 0 x
x u(x)dx
e = 0 ex dx = (ex )
0 = 1.
por lo que
FX (x) = 1 ex u(x) (2.19)
2.3.2 Discretas
Bernoulli
Una VA X discreta se dice que es de Bernoulli, de parametro p (p 0), si
solo puede tomar los valores x = 0 y x = 1 con probabilidades respectivas
P (X = 0) = 1 p = q y P (X = 1) = p.
Tales variables pueden asociarse de manera inmediata a un ensayo de
Bernoulli. Basta para ello llevar a cabo la igualdad
A = {X = 1}
A = {X = 0}
Binomial
Una VA X discreta se dice que es Binomial, de parametros N y p (N Z +
y p 0), si puede tomar los valores x = k con k = {0, 1, 2, . . . , N }, con
66 C. Alberola Lopez
probabilidades
N k N k
P (X = k) = p q (2.20)
k
donde q = 1 p. En tal caso la variable se denota X B(N, k).
Puede observarse que esta variable se asocia facilmente a la composicion
de ensayos (independientes) de Bernoulli, sin mas que hacer la igualdad
Bk = {X = k}, con k = {0, . . . , N } y Bk el suceso denido en la seccion
1.7.1.
Poisson
Una VA X discreta se dice que es de Poisson, de parametro a (a > 0), si
puede tomar los valores enteros x = k con k 0, con probabilidades
ak
P (X = k) = ea (2.21)
k!
Observese que los valores que puede tomar esta variable no esta acotados
superiormente.
Geometrica
Una VA X discreta se dice que es geometrica, de parametro p (p 0), si
puede tomar los valores enteros x = k con k 0, con probabilidades
P (X = k) = q k p (2.22)
P (X = 0) = P (A1 = A) = p
P (X = 1) = P ((A1 = A) (A2 = A)) = qp
6
La palabra repeticion esta aqu empleada en el mas puro sentido academico: si se
repite un experimento (por ejemplo, cursar una asignatura) una vez es porque se ejecuta
dos veces (el alumno se ha matriculado dos veces) y en la primera ejecucion el resultado
no ha sido el deseado (esto es, no se ha aprobado en primera matrcula). En este sentido
repetir cero veces implica aprobar en primera matrcula.
Captulo 2. Variable aleatoria unidimensional 67
P (X x, B)
FX (x|B) = P (X x|B) = (2.24)
P (B)
dFX (x|B)
fX (x|B) = (2.25)
dx
P (X = x1 , X a) P (X = x1 ) p1
p1|B = = =
P (X a) P (X = x1 X = x2 ) p1 + p2
P (X = x2 , X a) P (X = x2 ) p2
p2|B = = =
P (X a) P (X = x1 X = x2 ) p1 + p2
P (X = x3 , X a) 0
p3|B = = =0
P (X a) P (X = x1 X = x2 )
N
P (X x) = P (X x|Ai )P (Ai ) =
i=1
N
FX (x) = FX (x|Ai )P (Ai ) (2.30)
i=1
N
fX (x) = fX (x|Ai )P (Ai ) (2.31)
i=1
FX (x|Aj )P (Aj )
j=1
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
10 8 6 4 2 0 2 4 6 8 10
forma que los operadores de suma pasaran a ser sumas continuas, esto es,
integrales. Sin embargo, conceptualmente, no existe diferencia alguna.
Para ver como podemos hacer esto, consideremos el suceso condicionan-
te B = {x1 < X x2 }. Acorde con el, podemos escribir
2.5.1 Media
Consideremos que disponemos de M observaciones de una variable (por
ejemplo, medimos la altura de M personas). Aceptemos que medimos
74 C. Alberola Lopez
P (X xM E ) = P (X > xM E )
xM E
fX (x)dx = fX (x)dx (2.46)
xM E
2.5.3 Varianza
La varianza de una VA X es un valor de dispersion con respecto al valor
2 , y se dene
medio X . Concretamente, se denota por X
2
X = E{(X X )2 } = (x X )2 fX (x)dx (2.47)
Para el caso de VAs discretas, es facil comprobar, sin mas que sustituir
la expresion generica de la funcion de densidad por la particularizacion de
la ecuacion (2.10), que la expresion de la varianza pasa a ser
2
X = (xi X )2 pi
i
= E{X2 } X
2
2
= x2i pi xi pi (2.50)
i i
E{X} = i pi xi =a1=a
E{X2 } = 2
i pi xi = a2 1 = a2
2 = E{X2 } E 2 {X} = a2 a2 = 0
X
Media:
E{X} = xfX (x)dx
b 1 a+b
= x dx = (2.51)
a ba 2
Captulo 2. Variable aleatoria unidimensional 79
VCM
2
E{X } = x2 fX (x)dx
b
2 1 1 b3 a3
= x dx = (2.52)
a ba 3 ba
Gaussiana
Consideremos ahora que X N (a, b). El calculo de media y varianza de
la distribucion se hara como sigue:
(xa)2
1
= (x a) e 2b2 dx +
b 2
(xa)2
1
a e 2b2 dx (2.55)
b 2
E{X} = X = a (2.56)
def (b)
= ef (b) f (b) (2.59)
db
y es obvio que al derivar la funcion del exponente con respecto a b, el
termino (xa)2 , el cual actua como constante a efectos de b, pasara a
multiplicar a la exponencial, como necesitamos.
Procediendo de esta manera
1 (xa)2 (x a)2 1
1 = e 2b2 (2) dx
2 2 b3
2
1 (xa)
b2 = (x a)2 e 2b2 (2.60)
b 2
2 = b2 .
de forma que, segun dice la expresion (2.57), X
Exponencial
Consideremos ahora que X exp(). El calculo de media y varianza de la
distribucion se hara como sigue:
82 C. Alberola Lopez
Ambas integrales son de corte similar, y pueden resolverse sin mas que
aplicar integracion por partes, con la consiguiente dosis de paciencia. No
obstante, existen resultados conocidos, los cuales pueden servir de base
para obtener los parametros que nos piden de forma mas rapida y elegante.
Concretamente, hablamos de la funcion gamma, o factorial generalizado, la
cual se dene
(p) = xp1 ex dx = k p xp1 ekx dx (2.63)
0 0
Bernoulli
Este caso es particularmente sencillo, pues los sumatorios se extienden a
solo dos valores. Por tanto
N
Media: E{X} = X = i=1 xi pi =0q+1p=p
N
VCM: E{X2 } = 2
i=1 xi pi = 02 q + 12 p = p
2 = E{X2 } E 2 {X} = p p2 = p(1 p) = pq
Varianza: X
Captulo 2. Variable aleatoria unidimensional 83
Binomial
Para el caso en que X B(N, p) tenemos:
Media:
N
N
N
E{X} = X = xi pi = i pi q N i (2.64)
i=0 i=0
i
VCM:
N
N
N
2
E{X } = x2i pi = i2 pi q N i (2.65)
i=0 i=0
i
El como llevar a cabo estos sumatorios de forma directa no parece
obvio, pero s que es abordable en base a un resultado conocido, que
no es otro que el desarrollo de un binomio de Newton:
N
N
(p + q) N
= pi q N i
i=0
i
Poisson
Si X es una VA de Poisson de parametro a, es facil obtener que:
Media: X = a
VCM: E{X2 } = a2 + a
2 =a
Varianza: X
Geometrica
Si X es una VA geometrica de parametro p (q = 1 p), es facil obtener
que:
Media: X = q
p
VCM: E{X2 } = q
p2
(1 + q)
2 =
Varianza: X q
p2
- +
X X X
Reparese que por cota, entendemos cota no trivial. Es obvio que cual-
quier probabilidad se encuentra entre cero y uno, de forma que esta intrnse-
camente acotada. Esta desigualdad pretende proporcionar un valor que
86 C. Alberola Lopez
Valor exacto:
P (|X | ) = P (X ) + P (X + )
+
= G( ) + (1 G( ))
3 3
= G + 1G
3
= 2 1G = 0.0027 (2.70)
2 2 1
P (|X | ) 2
= 2
= = 0.11 (2.71)
9 9
Notese pues que, si bien la cota no es trivial, la diferencia entre el
valor real y el previsto por la cota es de dos ordenes de magnitud. Es
por tanto muy conservadora, como hemos indicado.
E{X}
P (X )
con > 0.
X:S R
a S X(a) (2.72)
g:R R
x R y = g(x) R (2.73)
X g
SRR (2.74)
g(X) : S R
a S Y(X(a)) R (2.75)
Vemos por lo tanto que los valores reales que toma la funcion g son funcion
del resultado obtenido en el experimento aleatorio < S, F, P >. Cabe
pues considerar que la coleccion de resultados, Y, constituye una VA, ge-
nerada a partir de la transformacion de X mediante la funcion g(x). Pues,
en efecto, as sera siempre que, como hemos visto en la seccion 2.1, se
cumplan unas determinadas condiciones, a saber7 :
1. Que el dominio en que g(x) esta denida contenga a todos los valores
de X. Caso contrario, podran existir valores a S sin imagen en la
variable Y.
y4
y3
x2 x3 x5 x
x1 x4
y2
y1
1. Valores yj : Los valores que puede tomar Y son los valores trans-
formados directamente de g(xi ). Si la transformacion es inyectiva,
es decir, si xi = xj g(xi ) = g(xj ) la variable Y tomara tantos
valores distintos como la variable X y estos valores seran yj = g(xi ).
Si la funcion no es inyectiva hay que ver que valores origen xi se trans-
forman en la misma imagen y. En este caso, la variable Y tomara un
numero menor de valores distintos que la VA X.
90 C. Alberola Lopez
2. Probabilidades P (Y = yi ):
P (Y = y1 ) = P (X = x5 ) = p5
P (Y = y2 ) = P ((X = x2 ) (X = x3 ))
= P (X = x2 ) + P (X = x3 ) = p2 + p3
P (Y = y3 ) = P (X = x4 ) = p4
P (Y = y4 ) = P (X = x1 ) = p1
(2.76)
y=g(x)
ymax
y2
y1
ymin
Solucion:
0 y0
1
FY (y) = 2 y 0<y 4
1 y > 14
y2
y1
x1 x2 x
x
x1 x2
y1
a) b)
y=g(x)
y2
y1
x
x0
c)
P(Y =y1 )
y y
y1 y1 y2
a) b)
P (Y = y1 ) = P (X x1 ) = FX (x1 )
P (Y = y2 ) = P (x1 < X x2 ) = FX (x2 ) FX (x1 )
P (Y = y3 ) = P (X > x2 ) = 1 FX (x2 ) (2.80)
y=g(x)
x2 + dx 2 x3 + dx 3 x
x1 + dx 1 x1 x2 x3
y+dy
N (y)
fY (y)dy = fX (xi )|dxi |
i=1
N (y) N (y)
|dxi | fX (xi )
fY (y) = fX (xi ) =
dy dy
i=1 i=1 dxi
fX (x)
N (y)
fY (y) = (2.82)
|g (x)|
i=1 x=xi
1 0<y 1
y 4
fY (y) =
0 resto
y = a sin(x + )
y
= sin(x + )
a
y
x = arcsin (2.83)
a
98 C. Alberola Lopez
de forma que
1 1
fY (y) = 2 y + 2 y
|a cos(arcsin )|
a x=x1
|a cos(arcsin a )| x=x2
fY (y) = p1 (y y1 ) + p2 (y y2 ) + p3 (y y3 )
Notese pues que si bien para realizar la primera de las integrales necesitamos
conocer la funcion de densidad de la VA Y, para realizar la segunda basta
con conocer la funcion de transformacion y la funcion de densidad de la VA
X, informacion conocida segun hemos asumido desde el principio.
Este resultado generaliza a cualquier funcion de la VA Y sin mas que
escribirla como una funcion de la variable X. Por ejemplo, si se desea
conocer la esperanza de una variable Z = h(Y), y solo se dispone de infor-
macion probabilstica de la variable X, variable origen de la transformacion
Y = g(X), escribiremos:
E{Z} = E{h(Y)} = h(y)fY (y)dy
= E{h(g(X))} = h(g(x))fX (x)dx (2.88)
VCM de Y:
E{Y2 } = y 2 fY (y)dy
= E{g 2 (X)}
= g 2 (x)fX (x)dx (2.89)
Varianza
2
Y = (y Y )2 fY (y)dy
= E{(g(X) E{g(X)})2 }
= (g(x) E{g(X})2 fX (x)dx (2.90)
n = f (m0 , m1 , . . . , mn ) = E{(X m1 )n }
#
n
n
= E Xk (m1 )(nk)
k=0
k
n
n $ %
= E Xk (m1 )(nk)
k=0
k
Captulo 2. Variable aleatoria unidimensional 103
n
n $ %
= (m1 )(nk) E Xk
k=0
k
n
n
= (m1 )(nk) mk (2.94)
k=0
k
d2 X ()
= (jx)2 ejx fX (x)dx
d 2
..
.
dn X ()
= (jx)n ejx fX (x)dx (2.97)
d n
La ultima lnea indica pues la relacion generica que existen entre la derivada
n-esima de la funcion caracterstica y el momento no central de orden n de
la VA en cuestion. Por ello, en efecto, la funcion caracterstica X () es
una funcion que genera momentos.
Por otra parte, recordando el desarrollo en serie de Taylor de una fun-
cion analtica, vemos que los momentos nos permiten sintetizar la funcion
caracterstica X () en cualquier punto , dado que podemos escribir
X ()
(n)
(j)n
X () = n = mn (2.99)
n=0
n! =0 n=0
n!
y = ax2
dy = 2axdx = 2 aydx
106 C. Alberola Lopez
entonces
2 y dy
Y () = ejy e 2a2
2 0 2 ay
1 y
= ejy e 2a2 dy (2.103)
2ay 0
Dado que
y = g(x) = a sin(x)
!
dy = a cos(x)dx = a2 (a sin(x))2 dx
!
dy = a2 y 2 dx (2.105)
Y =g(X )
a
III IV
X
II
I
-a
1 0 1 0 1
jy "
= e dy + ejy " dy+
2 a a y2
2 a a2 y2
a 1 a 1
jy " jy "
e dy + e dy
0 a y2
2 0 a y2
2
1 0 1 a 1
= 2 " ejy dy + 2 " ejy dy
2 a a y2
2 0 a y2
2
a 1
= " ejy dy
a a2 y2
(2.106)
A partir de esta se dene una segunda funcion X (s) = lnMX (s), cuyas
derivadas dan lugar a los cumulantes de orden n
dn X (s)
n = (2.112)
dsn s=0
Es facil comprobar que
1 = X
2 (2.113)
2 = X
Sobre los cumulantes de orden n se construye la teora de estadsticos de or-
den superior la cual ha tenido un moderado exito en la comunidad cientca
para el manejo de senales no gaussianas.
Captulo 3
Variable aleatoria
bidimensional
3.1 Introduccion
Para introducir el concepto de VA bidimensional, acudiremos a un ejemplo
consistente en el juego del lanzamiento de dardos sobre una diana (vease
gura 3.1). En este juego, como es bien sabido, se pretende que los dardos
caigan tan cerca como sea posible del centro y que, ademas, estos caigan
en los sectores circulares marcados con una puntuacion mas alta. Si con-
sideramos el origen de coordenadas localizado en el centro de la diana, las
desviaciones con respecto a este punto pueden considerarse, en coordena-
das cartesianas, mediante el par (x, y), con x la desviacion horizontal e y
la desviacion vertical. Cada lanzamiento puede considerarse la ejecucion
de un experimento aleatorio pues, naturalmente, el lanzador no sabe en
que posicion va a caer el dado (por eso el juego tiene interes). Si consi-
deramos un unico lanzador y aceptamos que todos los lanzamientos son
probabilsticamente identicos, los diferentes lanzamientos pueden conside-
rarse los diferentes valores que puede tomar el par (X, Y). A priori, y cara
a este ejemplo, posiblemente sea razonable pensar que los errores en el eje
horizontal no tienen relacion con los errores en el eje vertical. Pero esto
no necesariamente tiene por que ser as: los movimientos de hombro, codo
y muneca de un determinado individuo pueden relacionar los errores en
una coordenada y en la otra. Asimismo, y considerando la estrategia en el
juego, un jugador puede deliberadamente alejarse del centro de la diana en
sentido horizontal si desea tener mayor tolerancia vertical para caer en el
sector angular que desee. En tal caso estara acoplando deliberadamente
111
112 C. Alberola Lopez
k=2 -sin( 0 t)
y
y
k=1
k=3
k=0
x x
cos( 0 t)
k=4
k=5 k=7
k=6
a) b)
Este ejemplo puede resultar ingenuo pero no esta lejos de las Tecnologas
de la Informacion. Concretamente, una determinada modulacion digital
consiste en el envo, recepcion y discriminacion de senales de la forma
2k
k (t) = 0k M 1
M
Captulo 3. Variable aleatoria bidimensional 113
(x,y)
FXY (, ) = 1
B = A C, A C =
P (B) = P (A C) = P (A) + P (C)
FXY (x1 , y1 ) = FXY (x0 , y0 ) + P (C)
FXY (x1 , y1 ) FXY (x0 , y0 ) (3.3)
y y
(x 1 ,y1 ) y
C (x 0 ,y0 )
x D x
B
A
x1 x2
a) b)
y y
y2
L D
y2 y1
D
y1
x x
x x1 x2
c) d)
{X x2 , Y y} = D {X x1 , Y y}
P (X x2 , Y y) = P (D {X x1 , Y y})
= P (D) + P (X x1 , Y y)
P (D) = P (X x2 , Y y) P (X x1 , Y y)
Captulo 3. Variable aleatoria bidimensional 117
de distribucion FXY (x, y). En este caso la derivada debe ser con respecto
a las dos variables, de forma que
2 FXY (x, y)
fXY (x, y) = (3.7)
xy
La relacion inversa, naturalmente, es integral, con la expresion
x y
FXY (x, y) = fXY (, )dd (3.8)
FX (x) = P (X x)
{X x} = {X x} {Y }
120 C. Alberola Lopez
pues el segundo suceso del segundo miembro es el suceso seguro. Por ello,
podemos concluir que
De la misma manera
FY (y) = P (X , Y y) = FXY (, y)
Para realizar esta operacion debemos derivar bajo el signo integral. Esto
se puede realizar en base a la Regla de Leibnitz, la cual se formula
s (u)
d(u) d
= G(, u)d
du du i (u)
s (u)
ds (u) di (u) G(, u)
= G(s (u), u) G(i (u), u) + d
du du i (u) u
(3.12)
y por ello
fX (x) = fXY (x, y)dy (3.13)
De forma similar
fY (y) = fXY (x, y)dx (3.14)
{ X >x, Y >y }
(x,y)
x
X e Y discretas
En tal caso, la VA bidimensional (X, Y) no toma valores en todo el plano,
o en partes del plano de forma continua, sino que solo toma valores en un
Captulo 3. Variable aleatoria bidimensional 123
(x,y)
y
y
3
y
2 x
y x1 x2 x3
1
x
x1 x2 x3
a) b)
P (X x) = P ({X = x1 } {X = x2 }) = P (X = x1 ) + P (X = x2 )
y dado que
{X = x1 } = {X = x1 , Y = y1 }
{X = x2 } = {X = x2 , Y = y1 } {X = x2 , Y = y2 }
entonces
P (X = x1 ) = P (X = x1 , Y = y1 ) = p11
P (X = x2 ) = P (X = x2 , Y = y1 ) + P (X = x2 , Y = y2 ) = p21 + p22
124 C. Alberola Lopez
de forma que
P (X x) = p11 + p21 + p22
si x2 < x < x3 .
X discreta e Y continua
En el caso en que las VAs sean discreta y continua, la VA bidimensional
tomara valores solo sobre rectas horizontales o verticales en funcion de quien
de las VAs sea discreta. Para la seleccion hecha en el ttulo del apartado,
las rectas seran verticales, situadas en los valores de abscisa que tome la
VA X (vease gura 3.5b).
Para poder analizar una situacion como esta basta con que recordemos
algunas expresiones introducidas en el captulo anterior (vease seccion 2.4).
Tomando como base la gura 3.5b), calculemos P (X x, Y y) para los
valores de x e y seleccionados en la gura. As pues
P (X x, Y y) = P (({X = x1 } {X = x2 }) {Y y})
= P (({X = x1 } {Y y}) ({X = x2 } {Y y}))
= P (X = x1 , Y y) + P (X = x2 , Y y)
Las expresiones anteriores son probabilidades de interseccion de sucesos,
de forma que nada nos impide escribirlas en terminos de probabilidades
condicionadas. Por ello
P (X x, Y y) = P (X = x1 , Y y) + P (X = x2 , Y y)
= P (Y y|X = x1 )P (X = x1 ) +
P (Y y|X = x2 )P (X = x2 )
Recordando ahora que (expresion 2.31)
N
fY (y) = fY (y|Ai )P (Ai )
i=1
Como puede verse, por lo tanto, para abordar el caso que nos ocupa, la
informacion que debemos tener de la VA bidimensional se reduce a
fX (x|A)P (A)
P (A|X = x) =
fX (x)
fY (y|xi )pi
P (X = xi |Y = y) = P (X = xi |y) = 3
fY (y|xj )pj
j=1
y=g(x)=2x
y=g(x) y (1,5) (4,5)
y
y<g(x)
y>g(x)
x
(x,0) -1 x
(g (y),0)
1. FXY (x, y)
2. P (1 < X 4, 0 < Y 5)
Solucion: A partir de la gura 3.6b) es facil ver que:
1.
y > 2x FXY (x, y) = FX (x)
y 2x FXY (x, y) = FX (g 1 (y)) = FX (y/2)
2.
P (1 < X 4, 0 < Y 5) = FXY (4, 5) FXY (4, 0)
FXY (1, 5) + FXY (1, 0)
= FX (5/2) FX (0/2)
FX (1) + FX (0/2)
= FX (5/2) FX (1) (3.17)
resultado que se podra haber anticipado viendo los lmites
de variacion de la VA X dentro de la region {1 < X
4, 0 < Y 5}.
Captulo 3. Variable aleatoria bidimensional 127
P (X x, Y y, M )
FXY (x, y|M ) = (3.18)
P (M )
2
FXY (x, y|M )
fXY (x, y|M ) = (3.19)
xy
y y
y
M y
y y 2
y
x x
x
x y
1
x x
a) b) c)
Comentarios adicionales:
(y(x)) 2
1 2
fY (y|x) = e 2x
(3.26)
(x) 2
N
P (B) = P (B|Ai )P (Ai )
i=1
P (B|Aj )P (Aj )
j=1
132 C. Alberola Lopez
Haciendo uso, una vez mas, de las igualdades (3.24) y (3.25) llegamos a la
conclusion de que:
3.4 Independencia
En la introduccion a este captulo dijimos que la VA bidimensional (X, Y)
se construye a partir de un experimento compuesto, c < Sc , Fc , Pc >, el
cual es el resultado de la composicion de dos subexperimentos, a saber, 1 <
S1 , F1 , P1 > y 2 < S2 , F2 , P2 >. All se dijo que la ley para asignacion de
probabilidades no es, en general, determinable a partir de las leyes P1 y P2
de cada uno de los subexperimentos, sino que interviene una tercera entidad
para la creacion de tal ley, la cual es, precisamente, la propia composicion
de los experimentos.
Sin embargo, esto no es siempre as. Consideremos que los sucesos
AX F1 y BY F2 . Si se verica que4
entonces las VAs X e Y se dice que son independientes. En tal caso, la ley
Pc s puede obtenerse como funcion exclusiva de las leyes P1 y P2 . Reparese
que, de hecho, cuando existe independencia entre variables la composicion
de los experimentos es meramente nominal, esto es, los experimentos se
4
De forma coherente con la notacion de la seccion 1.7, la escritura estricta del suceso
compuesto sera (AX S2 ) (S1 BY ).
Captulo 3. Variable aleatoria bidimensional 133
P (X x, Y y) = P (X x)P (Y y)
FXY (x, y) = FX (x)FY (y) (3.29)
Comentarios adicionales
y y
y
4
y
2
y
0
y
3
y
1
x x
x x x
0 1 0
a) b)
1. Identicar la region Dz .
2. Calcular P (Dz ) = Dz fXY (x, y)dxdy
FZ (z) = P (Z z) = P (X + Y z) = P (Dz )
y=z-x
Dz (0,z)
(z,0) x
(z>0)
con (t) = fX,Y (x, t x)dx. Si derivamos la anterior expresion
con respecto a z (recuerdese la regla de Leibnitz, expresion 3.12),
tenemos
dFZ (z) dz
fZ (z) = = (z) = (z) = fX,Y (x, z x)dx
dz dz
1 1
1
1/2 1/2
1/2
=z =z =z
a) z 0 b) 0 < z 1 c) 1 < z 2
1 1
1/2 1/2
=z =z
d) 2 < z 3 e) z > 3
f (z)
Z
1/2
z
0 1 2 3
Para que el maximo de dos variables sea menor que una cierta can-
tidad z debe vericarse que ambas variables sean menores o iguales
que z. Por ello, Dz es la region {X z, Y z} (zona sombreada en
gura 3.12a), y la funcion que nos piden es:
y y
z
(z,z)
Dz
Dz
x
x
z
a) b)
1
x
1 2
Figura 3.13: Puntos de probabilidad no nula de la VA (X, Y).
sera discreta, de forma que su caracterizacion viene dada por los valo-
res zk que tomara la variable y por las probabilidades pk = P (Z = zk ).
Por tanto, podemos construir la siguiente tabla:
zk pk
1 p1 = p11
2 p2 = p12 + p21
4 p4 = p22
6 p6 = p23
puesto que
P (Z = 1) = p1 = P (X = 1, Y = 1) = p11
P (Z = 2) = p2 = P (X = 1, Y = 2) + P (X = 2, Y = 1) = p12 + p21
P (Z = 4) = p4 = P (X = 2, Y = 2) = p22
P (Z = 6) = p6 = P (X = 2, Y = 3) = p23
Z = g(X, Y)
W = h(X, Y)
142 C. Alberola Lopez
con Dzw el lugar geometrico de los puntos del plano (x, y) que se transfor-
man en puntos del plano (z, w) pertenecientes al suceso cuya probabilidad
buscamos, esto es
Dzw = {(x, y) R2 t.q. g(x, y) z, h(x, y) w}
Para tal n, debemos identicar la region Dzw para, a continuacion, hallar
la probabilidad asociada a dicha region.
y
y
y =w x
y =w x
z
z
x
a) b)
w+d w
w
y2
y3
y1
z x
z z+dz x1 x2 x3
N
= P [xi < X xi + dxi , yi < Y yi + dyi ]
i=1
N
= P (xi < X xi + dxi , yi < Y yi + dyi )
i=1
N
= fXY (xi , yi )|dxi ||dyi |
i=1
(3.36)
donde los valores absolutos se han incluido para evitar problemas de signos
entre los diferenciales, dado que vamos a hacer uso de una relacion explcita
entre ambos. En efecto, la relacion que liga los cuatro diferenciales es
con
x x
J1 (z, w) = z w
y
z
y
w
por lo que
N
fZW (z, w) = fXY (x, y)|J1 ||(xi ,yi ) (3.39)
i=1
Z = g(X, Y) = XY
W = h(X, Y) = X
fXY (x, y)
fZW (z, w) =
|J|
Captulo 3. Variable aleatoria bidimensional 147
Sustituyendo terminos
1
fZW (z, w) =
y
x
1 0
1 1
= =
| x| |x|
Llegado a este punto resta indicar las dos cuestiones anterior-
mente apuntadas. As pues
w w=z
0 z
z=w
Figura 3.16: Region de soporte de la funcion fZW (z, w).
Z = g(R, ) = R cos()
W = h(R, ) = R sin()
tomar cualquier valor del plano R2 . Por ello las conclusiones que
extraigamos seran validas para todo el plano.
Aplicando el Teorema Fundamental, tenemos
fR (r, ) fR (r)f ()
fZW (z, w) = =
|J| |J|
Sustituyendo terminos
r 2
1 r 22
2 2 e
fZW (z, w) =
r
1 r 2
= e 2 2
2 2
1 z2 +w2 2
= e 2
2 2
ya que r2 = z 2 + w2 .
Reparese que la expresion anterior puede factorizarse en
1 z2 1 w2
fZW (z, w) = e 22 e 22
2 2
= fZ (z)fW (w)
Z = g(X, Y) = XY
W = h(X, Y)
Z = g(X, Y) = X + Y
W = h(X, Y) = X
Captulo 3. Variable aleatoria bidimensional 151
fXY (x, y)
fZW (z, w) =
|J|
Sustituyendo terminos
fXY (x, y)
fZW (z, w) =
1 1
1 0
fXY (x, y) fXY (x, y)
= = = fXY (x, y)
| 1| 1
= fXY (w, z w)
Por tanto
fZ (z) = fZW (z, w)dw = fXY (w, z w)dw
para calcular la funcion de densidad fY (y) de esta VA, sino que bastaba
con la transformacion g(X) y la funcion de densidad de la VA X para hallar
cualquier momento de la VA Y.
Estas conclusiones aplican, por identico motivo, al caso Z = g(X, Y).
Si necesitamos conocer, en relacion con la VA Z, el valor de E{h(Z)}, po-
demos reejar el problema sobre el dominio (X, Y) (al cual, naturalmente,
supondremos caracterizado) y escribir
E{h(Z)} = E{h(g(X, Y))} = h(g(x, y))fXY (x, y)dxdy (3.40)
= (x X )(y Y )fXY (x, y)dxdy
= (x X )(y Y )fX (x)fY (y)dxdy
= (x X )fX (x)dx (y Y )fY (y)dxdy
= (E{X} X )(E{Y} Y ) = 0
2. Si X e Y son incorreladas:
(a) CXY = 0 RXY = E{XY} = E{X}E{Y}, es decir, la espe-
ranza del producto es igual al producto de las esperanzas
(b) La varianza de la suma es igual a la suma de las varianzas. En
efecto:
2
X+Y = E{((X + Y) (X + Y ))2 }
= E{((X X ) + (Y Y ))2 }
= E{(X X )2 + (Y Y )2 + 2(X X )(Y Y )}
2 2
= X + Y + 2CXY (3.51)
Si las VAs son incorreladas, el tercer sumando se anula, y se
verica el resultado indicado.
3. Incorrelacion y ortogonalidad son una misma propiedad si al menos
una de las dos VAs involucradas tiene media nula. Tal armacion es
obvia a partir de la relacion (3.49).
4. Sin las VAs son ortogonales, entonces el VCM de la suma es igual
a la suma de los VCMs. Esto se deduce haciendo un razonamiento
paralelo al hecho para la varianza de la suma, de la forma:
Interpretacion geometrica
Es facil comprobar que la operacion E{XY} es un producto escalar, de
forma que se puede considerar el espacio de las VAs como un espacio vec-
torial con una metrica asociada. En base a esto, los resultados expuestos
anteriormente tienen una interpretacion geometrica relativamente directa.
Captulo 3. Variable aleatoria bidimensional 157
X- + Y-
X Y
X+Y Y-
Y
Y
X-
X X
a) b)
^ = g (X)
Y
Y X
EMISOR CANAL RECEPTOR
PERTURBACIONES
con Z una VA que agrupara todas las perturbaciones que se habran su-
perpuesto sobre la transformacion de Y mediante el canal. En este caso, el
receptor tratara de averiguar el valor y que ha tomado la variable Y, pero,
como se ve, en base a una observacion x de la VA X, version transfor-
mada y ruidosa de la variable de origen. Para ello construira una funcion
Y = g(X), la cual pretendera acercarse lo maximo posible al verdadero
valor y que haya tomado la variable Y. No obstante, dado que la relacion
5
Si la senal fuese y(t) R y analizamos el instante temporal t0 entonces el valor que
manejaramos sera y(t0 ) = y. Planteamos en este ejemplo un problema de filtrado de
senales pero, para evitar emplear conceptos que analizaremos en el captulo 5, hemos
considerado la simplicacion indicada.
Captulo 3. Variable aleatoria bidimensional 159
^ =g (X )
Y = Y - Y^
2 2 y 0 2 2
^
Y3 =g (X ) = Y - Y^ 3
3 y 0 3
a = E{Y} (3.54)
CXY
a = 2 (3.55)
X
b = E{Y} aE{X} (3.56)
= Y&
Y = Y 'a
2 $ %
2
E{ } = E Y Y = E (Y a)2
y por ello
$ %
dE (Y a)2
= E{2 (Y a) (1)}
da
con lo que igualando a cero y despejando a favor de a obtenemos el resultado
a = E{Y}.
En cuanto al error
E{} = E {Y a } = E {Y} a = 0
$ % $ %
E{2 } = E (Y a )2 = E (Y E{Y})2 = Y
2
= Y Y = Y (aX + b)
& 2 ' $ %
2
E{ } = E Y Y = E [Y (aX + b)]2
(3.58)
y sustituyendo en (3.59)
Por lo tanto
CXY
a = 2 (3.61)
X
b = E{Y} a E{X} (3.62)
E{} = E {Y (a X + b )} = 0 (compruebese)
$ %
E{2 } = 2 = E [Y (a X + b )]2 (3.63)
$ %
= E [Y (a X + E{Y} a E{X})]2
$ %
= E [Y E{Y} a (X E{X})]2
2
= Y + (a )2 X
2
2a E{(Y E{Y})(X E{X})}
2
= Y + (a )2 X
2
2a CXY
2
2 CXY 2 CXY
= Y + 2 X 2 2 CXY
X X
2 C2 2
2
CXY
= Y XY
2 = Y 1 2 2
X Y X
2
= Y (1 2XY ) (3.64)
^ = g (X)
Y
Puede por tanto concluirse que el estimador lineal es tal que el error
cometido es ortogonal a la observacion empleada. Podemos interpretar esto
gracamente como que estaramos proyectando la variable a estimar sobre
la observacion, de modo que el error cometido sera la componente de Y
que se pierde al proyectar (vease gura 3.20).
Este principio es una forma equivalente de obtener las ecuaciones de los
parametros de la estimacion. Reparese que, de hecho, la expresion (3.65)
es equivalente a la ecuacion (3.59).
Captulo 3. Variable aleatoria bidimensional 165
= Y Y = Y g(X)
$ %
2 2
E{ } = E (Y g(X)) = (y g(x))2 fXY (x, y)dxdy
= (y g(x))2 fY (y|x)fX (x)dxdy (3.66)
Respecto de la varianza:
Captulo 4
Variable N-dimensional
167
168 C. Alberola Lopez
y los puntos (xi1 , . . . , xiN ), i = (1, . . . , M ) son los M puntos del domi-
nio origen que se convierten en el punto (y1 , . . . , yN ) donde estamos
construyendo la funcion de densidad de la VA Y.
Si el numero de transformaciones gi fuese k < N , entonces podramos
hacer uso de N k variables auxiliares para poder aplicar el teorema
fundamental. Con ello, extenderamos a N VAs el metodo de la VA
auxiliar visto en la seccion 3.5.4.
6. Independencia: tambien este concepto se extiende de una forma natu-
ral al caso de N variables. Si estas son independientes se verica que
existe independencia entre los sucesos denidos a partir de las mis-
mas, en particular, entre los sucesos {Xi xi } y {Xj xj } i = j.
Por ello podremos escribir1
N
FX1 X2 ...XN (x1 , x2 , . . . , xN ) = FXi (xi ) (4.5)
i=1
1
En terminos estrictos y segun la notacion de la seccion 1.7, el suceso en el experimento
compuesto asociado al suceso {Xi xi } debera escribirse S1 Si1 {Xi
xi } Si+1 SN . Emplearemos la notacion simplicada, no obstante.
Captulo 4. Variable N-dimensional 169
N
fX1 X2 ...XN (x1 , x2 , . . . , xN ) = fXi (xi ) (4.6)
i=1
Notese que esta expresion implica independencia entre cada dos va-
riables, entre cada tres etc ..., hasta la independencia conjunta de las
N variables. El motivo no es otro que a partir de las expresiones
anteriores podemos reducir a nuestro gusto el numero de VAs invo-
lucradas sin mas que aplicar la operativa indicada en las expresiones
(4.1) y (4.2) y la igualdad se seguira manteniendo.
7. Distribuciones condicionadas: en el captulo anterior obtuvimos que
1. Vector de medias:
X1
X2
X = E{X} =
..
(4.14)
.
XN
2. Matriz de correlacion:
E{X1 X1 } E{X1 X2 } E{X1 XN }
E{X2 X1 } E{X2 X2 } E{X2 XN }
= E{XX } =
T
RX .. .. .. ..
. . . .
E{XN X1 } E{XN X2 } E{XN XN }
172 C. Alberola Lopez
E{X21 } RX1 X2 RX1 XN
RX2 X1 E{X22 } RX2 XN
=
.. .. .. ..
(4.15)
. . . .
RXN X1 RXN X2 E{X2N }
Notese, pues, que esta matriz no es otra cosa que una tabla de N 2
elementos, donde los terminos de la diagonal principal son los VCMs
de cada variable y el resto de los elementos son las correlaciones cru-
zadas entre cada dos variables distintas. Obviamente, para variables
reales esta matriz es simetrica.
2
X 1
CX1 X2 CX1 XN
2 CX2 XN
CX2 X1 X
CX =
2
.. .. .. .. (4.16)
. . . .
CXN X1 CXN X2 2
X N
2
N N
N
E{Z2 } = E Xi =E Xi Xj
i=1 i=1 j=1
#
N N
N
= E X2i +E Xi Xj
i=1 j=1
i=1
j=i
N $ %
N
N
= E X2i + E {Xi Xj }
i=1 i=1 j=1
j=i
N $ %
N
N
= E X2i + R Xi Xj
i=1 i=1 j=1
j=i
N $ %
=
Ortog. E X2i (4.17)
i=1
N
N
E (Xi Xi )(Xj Xj )
i=1 j=1
j=i
N $ %
= E (Xi Xi )2 +
i=1
N N $ %
E (Xi Xi )(Xj Xj )
i=1 j=1
j=i
N $ %
N
N
= E (Xi Xi )2 + CXi Xj
i=1 i=1 j=1
j=i
=
N
2
Incorr. X i
(4.18)
i=1
2. Segun se vera (seccion 4.5.1), el Teorema del Lmite Central hace que
en la naturaleza muchos problemas de ndole estocastico tiendan a
comportarse de forma gaussiana.
= A X (4.20)
1 1 1
1 1
(y))T C X (A
= 1 N e 2 (A (y))
|C X | |A|(2)
2 2
1 1 1
1 1 T (A )T C X A (y)
= 1 N e 2 (y)
|C X | 2 |A|(2) 2
(4.21)
Si denominamos ahora
T
C = A C XA (4.22)
Captulo 4. Variable N-dimensional 177
y recordando que
T T
(A B)T = B A
1 T T
(B ) = (B )1
|A B| = |A||B|
(suponiendo en el ultimo caso que ambas matrices son cuadra-
das y de la misma dimension), entonces
1 T 1 1 1 T 1 1
C = (A )1 C X A = (A ) CX A
y tambien se verica que
T T
|C| = |A C X A | = |A||C X ||A | = |C X ||A|2
de forma que volviendo a la ecuacion (4.21) podemos escribir
1
1 1 TC
fY1 ...YN (y1 , . . . , yN ) = 1 N e 2 (y) (y)
|C| (2)
2 2
(4.23)
por lo que concluimos que, en efecto, el vector Y es un vector
de variables conjuntamente gaussianas.
Asimismo, comparando la expresion obtenida con la indicada
por denicion en la ecuacion (4.19) vemos que los parametros
Y y C Y , coinciden con los denidos por comodidad en las
expresiones (4.20) y (4.22), por tanto
Y = A X
T
C Y = A C XA
cuyo determinante es
2 2 2 2 2
|C XY | = X Y CXY = X Y (1 2XY )
y su inversa
1 1 2
Y CXY
C XY = 2 2 2
X Y (1 2XY ) CXY X
1 1
fXY (x, y) = ! e 2
2 2 2 (1
X 2XY )
Y
(4.25)
1 12 1
(1 ,2 )
(12 )
= ! e XY
X Y 2 1 2XY
(4.26)
Entonces
2 2 2
Y 2 2
1 XY X Y 1 2 + X 2
(1 , 2 ) = 2 2
X Y
2
2
X Y 2 2 1 2
2 XY X 1 + Y 1 XY
= 2 2
X Y
2
2 XY Y 1 2 1 2XY
= 2
X
+ 1 2
Y X
Por ello, retomando la expresion (4.26)
12 12
( )
1 XY
1
2(12 2
fXY (1 , 2 ) = e XY
)
X
X 2
2
2 XY Y 1
1 X
1
2(12 ) 2
! e XY Y
Y 2(1 2XY )
Y 2(1 2XY )
(xX )2
1
2
= e X
X 2
2
y Y +XY Y (xX )
X
1 2(12 ) 2
! e XY Y
Y 2(1 2XY )
= fX (x)fY (y|x)
donde la ultima igualdad procede de las identidades (3.24) y
(3.25). Entonces podemos armar que
X N (X , X )
!
Y
Y|x N Y + XY (x X ), Y 1 2XY
X
(4.27)
por lo que, segun se desprende de (4.27)
Y
E{Y|X} = Y + XY (X X )
X
182 C. Alberola Lopez
y[0] = x[0]h[0]
y[1] = x[0]h[1] + x[1]h[0]
y[2] = x[0]h[2] + x[1]h[1] + x[2]h[0]
y[3] = x[1]h[2] + x[2]h[1] + x[3]h[0]
y[4] = x[2]h[2] + x[3]h[1]
y[5] = x[3]h[2]
= E{|Z|2 } |Z |2 (4.28)
de modo que las expresiones dadas para las matrices de correlacion y co-
varianza (ecuaciones 4.15 y 4.16) eran especcas del caso real. Para VAs
complejas las matrices tienen que incorporar los complejos conjugados, de
modo que las matrices no seran simetricas sino hermticas (la matriz coin-
cide con su conjugada traspuesta).
a) b)
c) d)
2 >B >0
1. X i = 1, . . . , N
i 1
2. E{|Xi Xi |3 } > B2 i = 1, . . . , N
N
Z= Xi
i=1
186 C. Alberola Lopez
tiene el comportamiento
z Z
FZ (z) N G (4.35)
Z
con
N
Z = Xi
i=1
N
2 2
Z = X i
i=1
N
Z= Xi
i=1
Z = N p
Z = N pq
> 0, R.
Para ver que esto es as basta caracterizar la VA NA . Esta VA es
igual, como hemos dicho antes, al numero de veces que se verica el suceso
deseado, de N veces posibles, cuando se ejecutan experimentos independien-
tes. Esta VA, por denicion, es una VA Binomial, concretamente, B(N, p).
As pues, aplicando la aproximacion de DeMoivre-Laplace, podemos escri-
bir:
2
X
P (|X X | < ) 1 (4.40)
2
sistema de control para tomar una decision se propone otra estrategia; esta
consiste en los subsistemas en orden creciente de ndice (de 1 a N ), y dar
alarma en cuanto alguno de ellos haya enviado senal de alarma. Obtenga
el umbral para cada subsistema de modo que la Pfa de esta estrategia
coincida con la del apartado c), as como el numero medio de operaciones
realizadas por el sistema de control para tomar una decision, suponiendo
que la consulta a cada subsistema requiere P operaciones.
Solucion:
a) La funcion de densidad de la VA cada Yi puede obtenerse me-
diante el Teorema Fundamental para variables unidimensionales (vease sec-
cion 2.6.3) cuya expresion es
fX (x)
N (y)
fYi (y) = i .
|g (x)|
i=1 x=xi
(y) = ln(x)
x = e(y)
Por ello
() = ln()
1
= [ln()]
1 1
= [ln()] (4.42)
Para los valores planteados en el enunciado = 0.1998.
c) Se plantea una composicion de ensayos de Bernoulli (decision en
cada subsistema de presencia/ausencia de aeronave) mediante subsistemas
independientes. Por ello, podemos emplear las conclusiones obtenidas en
la seccion 1.7.1. En particular, deniendo el suceso Bk como ha habido k
alarmas de N posibles, la probabilidad pedida se puede escribir
M 1 1
N
M
Pfa = P Bk =1P Bk =1 P (Bk )
k=M k=0 k=0
Captulo 4. Variable N-dimensional 193
por lo que
N
P f a = P (F A) = 1 P (F A) = 1 P Ai
i=1
N
= 1 P (Ai ) = 1 (1 p)N
i=1
Z=P P (Z = P ) = P (A1 ) = p
Z = 2P P (Z = 2P ) = P (A1 A2 ) = qp
Z = 3P P (Z = 3P ) = P (A1 A2 A3 ) = q 2 p
..
.
2
N
Z = (N 1)P P (Z = (N 1)P ) = P Ai AN 1 = q N 2 p
i=1
1
N
Z = NP P (Z = N P ) = P Ai AN AN =
i=1
= q N 1 (p + q) = q N 1
A partir de ello el calculo del valor medio E{Z} se llevara a cabo en base
a la expresion (2.41) y operando de forma acorde. Concretamente
N
N 1
E{Z} = zi P (Z = zi ) = (iP )q i1 p + (N P )q N 1
i=1 i=1
N
q(1 q N ) q q N +1
S(q) = qi = =
i=1
1q 1q
Por tanto
1 (N + 1)q N [1 q] + (q q N +1 )
E{Z} = pP + qN N P
(1 q)2
P 1 (N + 1)q N (1 q) + (q q N +1 ) + pq N N P
=
p
P (1 q N )p P N q N p + P q(1 q N ) + P N q N p
=
p
P (1 q )(p + q)
N 1 qN
= =P
p p
i i 1 x/
fXi (x) = x e x0
(i )
Solucion:
a) Las VAs X1 y X2 toman valores no negativos, luego su cocien-
te tambien sera no negativo. Podemos emplear el metodo de la variable
auxiliar (seccion 3.5.4) de la forma
X1
Z =
X2
W = X2
Entonces
fX1 X2 (x1 , x2 )
fZW (z, w) =
1 x1 = x2 fX1 X2 (x1 , x2 )
x2 x2
2
0
1
= x2 fX1 (x1 )fX2 (x2 ) = wfX1 (zw)fX2 (w), w 0, z 0
Marginalizando, obtenemos
fZ (z) = wfX1 (zw)fX2 (w)dw
0
1 2
= w (zw)1 1 ezw/ (w)2 1 ew/ dw
0 ( 1 ) ( 2 )
1 2 1 1 1 +2 1 z+1 w
= z w e dw
(1 ) (2 ) 0
X1 Y1
f()
X2 Y2
f()
...
XN YN
f()
(p) = k p p1 exp(k )d ; p, k > 0
0
(p + 1) = p(p), p R; ( 12 ) = ; (z + 1) = z!, z N
Solucion:
a) Recordando que la desigualdad de Tchebyche (vease seccion
2.5.5)
2
P (|Z Z | ) 2Z
donde, segun dice el enunciado, = 3Z , entonces el problema se reduce a
calcular la media y la varianza de la VA Z. En las condiciones del apartado
N
se verica que Z = N i=1 Yi = i=1 Xi de forma que
N
1
E{Z} = E{Xi } = N
i=1
N N
2 2
Z = X i
= E{X2i } E 2 {Xi }
i=1 i=1
Por ello
5 6
2 22 2 2 1 2 2 1 1
X i
= 2 2 = 2 2
2 2
Z = N Xi
b)
1
j y a = p entonces
a a a a1 ku
U () = k k u e du
(a) 0
a a
= k (a)
(a)
a
1 j a 1
= a =
1 j
N
N
d) En este caso Z = i=1 Yi = i=1 Xi . Por ello
N
N
N
X
Z () = E{ejZ } = E{ej i=1 i }= E{ejXi } = Xi ()
i=1 i=1
Por lo que
N
1
Z () =
1 j
Segun el resultado del apartado anterior, podemos escribir
a a1 z
fZ (z) = z exp( ), z > 0
(a)
con a = N y = .
202 C. Alberola Lopez
con 0 w z.
b) Recordando la denicion de funcion de densidad conjunta (ecua-
cion 3.7)
2 FZW (z, w)
fZW (z, w) =
zw
2
= [FY (z) [FY (z) FY (w)]n ]
zw
= n [FY (z) FY (w)]n1 fY (w)
z
= n(n 1) [FY (z) FY (w)]n2 fY (z)fY (w)
n(n 1)
P (W < Y0 Z) =
n(n + 1)
n(n + 1) [FY (z) FY (w)]n1 fY (z)fY (w)dzdw
zw
204 C. Alberola Lopez
n(n 1)
= f n+1 (z, w)dzdw
n(n + 1) zw ZW
n(n 1) (n 1)
= =
n(n + 1) (n + 1)
resultado que coincide con el obtenido en el ejercicio de la pagina 23.
c) Las VAs Xi son variables de Bernoulli con probabilidades
p(Xi = 1) = p = n1
n+1
Xi 2
p(Xi = 0) = 1 p = q = 1 n1
n+1 = n+1
Deniendo
V 1 N
U= = Xi
N N i=1
y siendo N >> 1 podemos hacer uso de la Ley de los Grandes Numeros
(seccion 4.5.3) y escribir
por lo que 8
pq
= 1.96
N
Captulo 4. Variable N-dimensional 205
Solucion:
con la VA Yi .
b) Por denicion la VA I es binomial en ambos supuestos (esto es,
en supuestos H0 y H1 ), ya que esta variable se construye en base a una
composicion de ensayos de Bernoulli independientes (vease secciones 1.7.1
y 2.3.2). Lo que cambia entre H0 y H1 es la probabilidad de cada valor de
la VA I.
As pues
donde
E{IH0 } = N pH0
E{IH1 } = N pH1
Para calcular las probabilidades pH0 y pH1 empleamos los datos siguien-
do las expresiones escritas en el apartado anterior, e identicando segun
indica el enunciado probabilidad con frecuencia relativa. As pues
Procesos estocasticos
209
210 C. Alberola Lopez
x (t) = X(t, a )
1 1
x (t) = X(t, a )
2 2
x (t) = X(t, a )
3 3
t0
t
X(t 0)
VA. Recuerdese que una variable era una funcion del espacio muestral en
el cuerpo de los numero reales, de forma que para cada a S obtenamos
un numero real X(a). No obstante, por simplicidad en la notacion, nos
hemos referido siempre a las VAs sin explicitar la dependencia con el resul-
tado a del experimento aleatorio. En el caso de los procesos estocasticos
(particularizados a funciones unidimensionales del tiempo) la dependencia
es similar. A cada a S le asociamos una funcion del tiempo X(t, a). De
forma similar al caso de las VAs, denotaremos al proceso estocastico como
X(t) dando por sentado la dependencia con el resultado aleatorio.
No obstante, antes de eliminar de la notacion esta dependencia, haga-
mos una ultima aclaracion. Para ello, tomaremos como base tanto la gura
5.1 como el proceso estocastico Y(t, a) = Acos(0 t + (a)), con (a) una
VA uniforme en un rango de 2 radianes, y el resto de los parametros
involucrados determinsticos.
dFX (x; t)
fX (x; t) = (5.2)
dx
Nada nos impide extraer mas de una variable del proceso. Si extraemos
dos, lease, (X(t1 ), X(t2 )), habramos creado una variable bidimensional a
partir del proceso. Si extraemos N podemos crear un vector aleatorio a
partir de variables del proceso de la forma [X(t1 ), X(t2 ), . . . , X(tN )]T , por
lo que los conceptos ya conocidos de temas anteriores aplican directamente.
A modo de ejemplo:
FX (x1 , t1 ) = FX (x1 , ; t1 , t2 )
fX (x1 , t1 ) = fX (x1 , x2 ; t1 , t2 )dx2
Varianza:
2
X (t) = E{(X(t) X (t))2 } = (x X (t))2 fX (x; t)dx
= E{X2 (t)} X
2
(t) (5.6)
Autocovarianza
CX (t1 , t2 )
rX (t1 , t2 ) = (5.9)
X (t1 )X (t2 )
Si los ndices son discretos, esto es, si estamos tratando con una se-
cuencia aleatoria, los operadores son los mismos, dado que en este
caso el ndice temporal simplemente es un seleccionador de la varia-
ble o variables empleadas para el calculo. Por ejemplo, si la secuencia
(real, por simplicidad) es X[n] podremos escribir
X [n] = E{X[n]} = xfX (x; n)dx
2 [n]
X = E{(X[n] X [n])2 } = E{X2 [n]} 2 [n], sustituyendo
X
t por n en la expresion (5.6).
RX [n1 , n2 ] = E{X[n1 ]X[n2 ]}, sustituyendo t1 y t2 por n1 y n2 ,
respectivamente, en la expresion (5.7).
CX [n1 , n2 ] = E{(X[n1 ]X [n1 ])(X[n2 ]X [n2 ])} = RX [n1 , n2 ]
X [n1 ]X [n2 ], haciendo la misma sustitucion que en el caso an-
terior, ahora en la expresion (5.8).
N
fX (x1 , x2 , . . . , xN ; t1 , t2 , . . . , xN ) = fX (xi ; ti ) (5.12)
i=1
5.4 Estacionariedad
Hasta ahora, como se ha observado, apenas se ha hecho uso de la dimension
temporal del proceso estocastico X(t). Basicamente, no hemos centrado en
la vision de un proceso estocastico como una coleccion de VAs y las relacio-
nes que hemos manejado entre ellas han sido las ya conocidas (correlaciones,
covarianzas, etc . . . ). En este punto, y en los que siguen, explotaremos el
hecho de que un proceso estocastico es una funcion del tiempo.
El concepto de estacionariedad esta ligado a las variaciones de las pro-
piedades estadsticas del proceso a lo largo del tiempo. En este caso, tam-
bien distinguiremos entre estacionariedad en sentido estricto y estaciona-
riedad en sentido amplio. El primer sentido hara referencia a las propie-
dades que debe cumplir la funcion de densidad, mientras que el segundo
impondra condiciones solo sobre la media y la correlacion del proceso.
fX (x; t) = fX (x)
fX (x1 , x2 ; t1 , t2 ) = fX (x1 , x2 ; t1 t2 ) (5.16)
RX ( ) = E{X(t + )X (t)}
CX ( ) = E{(X(t + ) X )(X(t) X ) } = RX ( ) |X |2
RXY ( ) = E{X(t + )Y (t)}
CXY ( ) = E{(X(t + ) X )(Y(t) Y ) } = RXY ( ) X Y
(5.20)
K
X(t) = Ak ej(ko t+k )
k=1
K
K $ % $ %
= ejpo t1 ejqo t2 E Ap Aq E ej p eq
p=1 q=1
K $ %
= E |Ap |2 ejpo
p=1
Captulo 5. Procesos estocasticos 223
= RX ( )
Correlacion cruzada
Si los procesos X(t) e Y(t) son procesos conjuntamente WSS entonces se
verica que:
( )
1. RXY ( ) = RYX
"
2. |RXY ( )| RX (0)RY (0)
5.5 Ergodicidad
5.5.1 Ergodicidad con respecto de la media
Segun conocemos de los temas anteriores, si observamos el valor que han to-
mado N variables Xi identicamente distribuidas, cada una con valor medio
y varianza 2 , entonces si creamos otra variable
1 N
Z= Xi (5.23)
N i=1
224 C. Alberola Lopez
Este operador, como es natural, resulta en una VA puesto que es una fun-
cion de las innitas variables del proceso estocastico. Cuales son la media
y la varianza de dicho operador? Al respecto de la media:
#
1 T
E{MT } = E X(t)dt
2T T
T T
1 1
= E{X(t)}dt = X dt = X (5.26)
2T T 2T T
la cual, como puede verse, coincide con la media del proceso. Al respecto
de la varianza el calculo es un poco mas complejo, pero metodologicamente
interesante:
2
M T
= E{(MT X )(MT X ) }
#
1 T 1 T
= E (X(t1 ) X )dt1 (X(t2 ) X ) dt2
2T T 2T T
1 2 T T
= E{(X(t1 ) X )(X(t2 ) X ) }dt1 dt2
2T T T
1 2 T T
= CX (t1 , t2 )dt1 dt2
2T T T
1 2 T T
= CX (t1 t2 )dt1 dt2 (5.27)
2T T T
Para calcular esta integral es conveniente hacer el cambio de variable
t2 s 2T
T
-T T -2T 2T
t1
-T
-2T
s = t1 + t 2
= t1 t 2 (5.28)
(la gura 5.2 indica los dominios de integracion original y transformado) y
dado que el jacobiano de la transformacion es
s s 1 1
t1 t1
= = 2 (5.29)
t1
t1
1 1
226 C. Alberola Lopez
entonces
lim AT ( ) = RX ( ), (5.35)
T
Para que esto sea as se pueden hacer las mismas consideraciones que en el
caso de ergodicidad con respecto de la media. Es sencillo comprobar que la
esperanza de la ecuacion (5.34) coincide con la autocorrelacion RX ( ) del
proceso. Por la tanto, se cumple la primera condicion para que el anterior
lmite se verique. La segunda condicion tiene que ver con la reduccion
progresiva de la varianza del anterior operador conforme el intervalo de
integracion crece. Se puede vericar que la varianza de AT ( ) es:
2T
2 1 ||
A T ( )
= CY () 1 d (5.36)
2T 2T 2T
X(t) = Y, t (5.38)
2.5
1.5
0.5
0.5
1.5
2.5
0 10 20 30 40 50 60 70 80 90 100
a)
7
0
0 10 20 30 40 50 60 70 80 90 100
b)
3
0 2 4 6 8 10 12 14 16 18 20
3
0 2 4 6 8 10 12 14 16 18 20
Figura 5.4: Ejemplo de ajuste entre una funcion y ella misma desplazada en
el tiempo. Superior: retraso de = 1 unidades temporales (ut). Inferior:
retraso de = 4 ut.
1.5
0.5
0.5
1.5
2
0 2 4 6 8 10 12 14 16 18
X(t) |t| T
XT (t) = (5.40)
0 |t| > T
dado que en esa ventana temporal los dos procesos coinciden. Asimismo, si
aceptamos que los procesos son una magnitud electrica (tension o corriente)
la anterior expresion se puede considerar que es igual a la energa disipada
por el proceso sobre una resistencia normalizada de valor igual a 1. No se
pierda de vista que, naturalmente, dado que el proceso estocastico es una
coleccion de VAs, dicha energa es una funcion de VA y, por ello, una VA.
En virtud del teorema de Parseval para senales continuas podemos es-
cribir T
1
ER=1 = |X(t)|2 dt = |XfT ()|2 d (5.43)
T 2
podemos escribir esta expresion haciendo uso del operador media temporal,
de forma que $ %
P X = lim MT E |X(t)|2 (5.48)
T
es decir, estamos calculando la media temporal de la funcion de VCMs del
proceso. En el caso de procesos WSS, el VCM es contante, de forma que,
dado que la media temporal de una constante coincide con la constante,
podemos escribir $ %
P X = E |X(t)|2 (5.49)
As pues, para un proceso WSS, el VCM tiene el signicado de la potencia
media del mismo.
Por otra parte, la expresion general de la densidad espectral de potencia
SX () se simplica notablemente, resultando una expresion mucho mas
intuitiva. Concretamente, llevando a cabo una operativa muy similar a la
desarrollada en la seccion 5.5, podemos escribir
T
XfT () = X(t)ejt dt
T
$ % T T
E |XfT ()|2 = E {X(t1 )X (t2 )} ej(t1 t2 ) dt1 dt2
T T
(5.50)
y haciendo el cambio de variable
s = t1 + t2
= t1 t 2 (5.51)
podemos escribir
$ %
E |XfT ()|2 2T
(2T | |)
1 1
= d RX ( )ej ds
2T 2T 2T (2T | |) 2
2T
1 1
= RX ( )ej 2(2T | |)d
2T 2T 2
2T
1 | |
= RX ( )ej 2T (1 )d
2T 2T 2T
2T
| |
= RX ( )ej (1 )d (5.52)
2T 2T
Captulo 5. Procesos estocasticos 235
Algunas propiedades de SX ()
La funcion de densidad de potencia de un proceso verica las siguientes
propiedades:
1. SX () es una funcion real. Notese, segun indica la expresion (5.46),
que se calcula mediante una esperanza de un modulo al cuadrado de
un numero complejo. Por lo tanto es una esperanza de una magnitud
real, luego ha de ser real.
2. SX () 0 . En efecto, segun hemos dicho, es la esperanza de una
magnitud no negativa (un modulo al cuadrado) luego no puede ser
negativa.
3. Si el proceso X(t) es real y estacionario, SX () = SX (), es decir,
es una funcion par. Esto es debido a que es igual a la transformada
de Fourier de RX ( ), funcion que, como hemos visto, es real y par
si el proceso X(t) es real. Si el proceso X(t) fuese complejo, SX ()
sera una funcion hermtica, puesto que tambien lo sera la correlacion
RX ( ).
4. Habida cuenta de la relacion entre el VCM de un proceso estocastico
WSS y su funcion de autocorrelacion, se verica que
1
PX = SX ()d = RX (0) = E{X2 (t)} (5.55)
2
236 C. Alberola Lopez
Por otra parte, los espectros cruzados surgen con frecuencia en la practi-
ca. Por ejemplo, supongamos que necesitamos calcular la densidad espec-
tral de un proceso Z(t) = X(t) + Y(t). Entonces, calculando su autocorre-
lacion
RZ ( ) = E{Z(t + )Z (t)}
= E{(X(t + ) + Y(t + ))(X(t) + Y(t)) }
= E{X(t + )X (t)} + E{X(t + )Y (t)} +
E{Y(t + )X (t)} + E{Y(t + )Y (t)}
= RX ( ) + RY ( ) + RXY ( ) + RYX ( ) (5.57)
por lo que, tomando transformadas de Fourier, obtenemos
SZ () = SX () + SY () + SXY () + SYX () (5.58)
densidad espectrak que, como se observa, es funcion de dos densidades es-
pectrales y dos espectros cruzados. No obstante, para el caso particular en
el que los procesos sean ortogonales se verica que RXY ( ) = RYX ( ) = 0
, de forma que los espectros cruzados seran nulos y la densidad espec-
tral de la suma de dos procesos coincidira con la suma de las densidades
espectrales. Una vez mas, la ortogonalidad de procesos hace que ciertas
operaciones sean mucho mas sencillas.
& '
E{Y(t)} = E X(t )h( )d
= h( )E {X(t )} d = h( )X (t )d
(5.59)
y si el proceso es WSS
E{Y(t)} = X h( )d = X H( = 0) (5.60)
& '
2
E{|Y(t)| } = E h(1 )X(t 1 )d1 h (2 )X (t 2 )d2
= E {X(t 1 )X (t 2 )} h(1 )h (2 )d1 d2
(5.61)
E{|Y(t)|2 } = RX (2 1 ) h(1 )h (2 )d1 d2 (5.62)
238 C. Alberola Lopez
E{Y(t)} = X H( = 0) = 0 (5.63)
N0
E{|Y(t)|2 } = (2 1 )h(1 )h (2 )d1 d2
2
N0
= |h( )|2 d (5.64)
2
& '
RXY (t1 , t2 ) = E {X(t1 )Y (t2 )} = E X(t1 ) X (t2 )h ()d
= h ()E {X(t1 )X (t2 )} d
= h ()RX (t1 t2 + ) d = h ()RX ( + ) d
= RXY ( ) (5.65)
es decir,
RY ( ) = h( ) RXY ( )
= h( ) h ( ) RX ( ) (5.68)
as como que
b) Se dene el proceso
(n+1)T
Z[n] = X(t)cos (2f1 t) dt
nT
A
X (t = 0) = [1 + 1] = A
2 5 6
T A A
X t = = cos + cos () =
4 2 2 2
Solucion:
a) Aplicando linealidad del operador esperanza (apartado 3.6) po-
demos escribir
E{Z(t)} = E{X(t) + Y(t) + N(t)}
= E{X(t)} + E{Y(t)} + E{N(t)}
Al respecto de la esperanza de X(t)
#
N
E{X(t)} = E Ai cos(ix t + i )
i=1
N
= E{Ai cos(ix t + i )}
i=1
N
= E{Ai }E{cos(ix t + i )}
i=1
N 2
1
= E{Ai } cos(ix t + i )di
i=1
2 0
N
= E{A2i cos(ix t1 + i )cos(ix t2 + i )} +
i=1
N
N
E{Ai Aj cos(ix t1 + i )cos(jx t2 + j )}
i=1 j=1
j=i
N
= E{A2i }E{cos(ix t1 + i )cos(ix t2 + i )} +
i=1
N
N
E{Ai }E{Aj }
i=1 j=1
j=i
E{cos(ix t1 + i )}E{cos(jx t2 + j )}
N
= E{A2i }E{cos(ix t1 + i )cos(ix t2 + i )}
i=1
N
E{A2i }
= E{cos(ix (t1 + t2 ) + 2i ) + cos(ix (t1 t2 ))} +
i=1
2
N
E{A2i }
N
2/2
= cos(ix (t1 t2 )) = cos(ix (t1 t2 ))
i=1
2 i=1
2
N
1
N
1
= cos(ix (t1 t2 )) = cos(ix )
i=1
2 i=1
2
con = t1 t2 . Reparese que se ha hecho uso de la independencia de VAs,
as como del VCM de una VA exponencial (apartado 2.5.4).
Respecto del proceso Y(t) el razonamiento sera similar, y el unico
cambio procedera de los VCMs de las VAs Bi . Por ello, podemos concluir
que
N
1
N
1 N0
RZ (t1 , t2 ) = 2
cos(ix ) + cos(jy ) + ( )
i=1
j=1
2 2
Captulo 5. Procesos estocasticos 245
= RZ ( )
por lo que el proceso es WSS (apartado 5.4).
b) La ergodicidad respecto de la media se puede plantear analizando
si el lmite del operador media temporal (expresion 5.25) coincide con la
esperanza matematica del proceso. Para tal n
MT [Z] = MT [X + Y + N] = MT [X] + MT [Y] + MT [N]
(5.71)
Respecto del proceso N(t), el enunciado dice que es ergodico. Queda pues
comprobar que sucede con los otros dos. Razonando, como anteriormente,
con el proceso X(t)
T
1
MT [X] = X(t)dt
2T T
T
N
1
= Ai cos(ix t + i )dt
2T T i=1
N T
1
lim MT [X] = lim Ai cos(ix t + i )dt
T T 2T T
i=1
En este caso el factor T 2 que divide a la expresion hace que el lmite sea
nuevamente cero. Por ello limT i2 = 0, de forma que limT M 2
T
=0
y el proceso es ergodico con respecto de la media.
Lo mismo sucede para el proceso Y(t) por lo que podemos concluir que
el proceso Z(t) es ergodico respecto de la media.
En relacion con la ergodicidad con respecto a la autocorrelacion repare-
se que la autocorrelacion temporal (expresion (5.34)) sera funcion de los
valores concretos observados de las VAs Ai y Bj . Por ello la autocorrela-
cion temporal sera una funcion aleatoria, de forma que no coincidira, en
general, con RZ ( ), por lo que el proceso no sera ergodico respecto de la
autocorrelacion.
c) Haciendo uso de la expresion (5.70) y dado que H() = 1ejT0
[15] entonces
SW () = |H()|2 SZ ()
= 2(1 cos(T0 ))SZ ()
con
N
SZ () = [( ix ) + ( + ix )] +
i=1
2
N
N0
( jy ) + ( + jy ) +
j=1
2 2
Captulo 5. Procesos estocasticos 247
2 = X
2
(1 2X [1])
Dado que
RX [1] RX [1]
X [1] = " " = = a11
RX [0] RX [0] RX [0]
entonces
2 = RX [0](1 a211 )
S( ) = n
n=m lo cual se obtiene de forma sencilla haciendo
S( ) = n = m + m+1 + . . .
n=m
S( ) = n = m+1 + m+2 + . . .
n=m
(1 )S( ) = m
m
S( ) = (5.74)
1
por lo que uniendo los resultados de (5.74) y (5.73) y sustituyendo en (5.72)
llegamos a
am
RY [m] = 2 ,
1 a2
lo cual es valido m 0. Como dijimos, la correlacion debe ser par. Por
ello
a|m|
RY [m] = 2 , m
1 a2
c) En este caso nos plantean la extension a dos variables del
estimador lineal optimo, esto es, la particularizacion de la expresion (4.12)
para N = 2. Para tal n, dado que b = 0 puesto que el proceso es de me-
dia nula, podemos, simplemente, hacer uso del principio de ortogonalidad
(vease apartado 3.7.5). Concretamente, denominando [n] = X[n] X[n]
podemos escribir
E{[n]X[n 1]} = 0
E{[n]X[n 2]} = 0
Por lo que
sistema de dos ecuaciones con dos incognitas que podemos resolver, por
ejemplo, mediante la regla de Cramer, esto es:
RX [1] RX [1]
RX [2] RX [0] RX [1]RX [0] RX [1]RX [2]
a21 =
= 2 [0] R2 [1]
RX [0] RX [1] RX X
RX [1] RX [0]
RX [0] RX [1]
RX [1] RX [2] RX [2]RX [0] RX 2 [1]
a22 =
= 2 [0] R2 [1]
RX [0] RX [1] RX X
RX [1] RX [0]
2 [1]
RX
RX [0] RX [2] RX [0]
=
2 [1]
RX
RX [0] 1 2 [0]
RX
RX [0]
RX [2] a11 RX [1]
=
2
4.- El proceso estocastico real M(t) es WSS, de media nula, con densidad
espectral SM (), de la que se sabe que SM () = 0 para || > 0 . A partir
de este se construye el proceso X(t) de la forma
SX () = SM () ( [( c ) + ( + c )]) +
SMM () [( c ) ( + c )]
j
= [SM ( c ) + SM ( + c )] +
3 4
SMM ( c ) SMM ( + c )
j
= [SM ( c ) + SM ( + c )] +
[SM ( c )sgn( c ) SM ( + c )sgn( + c )]
A
S ( )
M
0 0
A 1
S ( ) A
X
c c
( c+ 0) c + c 0 c+ 0
0 0
A 2
S ( ) A
X
c c + c 0 c
0
( c+ 0) 0 c+ 0
-A -A
S ( )
2A X 2A
c c
( c+ 0) 0 c+ 0
Bibliografa
Basica
[1] P. Z. Peebles, Probability, Random Variables and Random Signal Prin-
ciples, Mc-Graw Hill Int. Ed., 3rd Ed., 1994.
Avanzada
255
256 C. Alberola Lopez
Sistemas de comunicacion
[13] S. Haykin, Communication Systems, John Wiley and Sons Inc., 3rd
Ed., 1994.
Prologo 9
1 Teora de la Probabilidad 13
1.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Algebra de conjuntos . . . . . . . . . . . . . . . . . . . . . . 15
1.2.1 Deniciones, terminologa y notacion . . . . . . . . . 15
1.2.2 Operaciones con conjuntos . . . . . . . . . . . . . . . 16
1.3 Denicion de probabilidad . . . . . . . . . . . . . . . . . . . 19
1.3.1 Probabilidad como frecuencia relativa . . . . . . . . 20
1.3.2 Denicion clasica . . . . . . . . . . . . . . . . . . . . 20
1.3.3 Denicion axiomatica de la probabilidad . . . . . . . 21
1.4 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . 26
1.5 Independencia de sucesos . . . . . . . . . . . . . . . . . . . 28
1.5.1 Independencia de pares de sucesos . . . . . . . . . . 28
1.5.2 Independencia de multiple sucesos . . . . . . . . . . 31
1.6 Teoremas de la Probabilidad total y de Bayes . . . . . . . . 32
1.6.1 Concepto de particion . . . . . . . . . . . . . . . . . 32
1.6.2 Teorema de la Probabilidad Total . . . . . . . . . . 32
1.6.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . 33
1.6.4 Sobre el teorema de Bayes y los sistemas de comuni-
caciones . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.7 Experimentos compuestos. Composicion de ensayos de Ber-
noulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.7.1 Composicion de ensayos de Bernoulli . . . . . . . . . 40
257
258 C. Alberola Lopez
Bibliografa 255