Apuntes de Estadistica Especialidad Telematica PDF

Apuntes de Estadística
Curso 2004-2005
Ingeniería Técnica de Telecomunicación.
Especialidad Telemática
Prof. Dr. Antonio José Sáez Castillo

Departamento de Estadística e Investigación Operativa
Universidad de Jaén
14 de septiembre de 2004
2 Prof. Dr. Antonio José Sáez Castillo
Índice General
1 Introducción al Cálculo de Probabilidades 9

1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.1 Interpretación frecuentista de la probabilidad . . . . . . . . . . . 11
1.1.2 Interpretación clásica de la probabilidad . . . . . . . . . . . . . . 11

1.2 Definición axiomática de probabilidad . . . . . . . . . . . . . . . . . . . 12
1.2.1 Teoría de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.2 Espacio probabilístico . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Probabilidad condicionada. Independencia de sucesos . . . . . . . . . . . 18
1.3.1 Teorema de la probabilidad total y Teorema de Bayes . . . . . . 22
1.4 Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2 Variable aleatoria unidimensional 35

2.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2 Función de distribución. V.a. discretas y continuas . . . . . . . . . . . . 37
2.2.1 Función de distribución . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.2 V.a. continua. Función de densidad . . . . . . . . . . . . . . . . 40
2.2.3 V.a. discreta. Función masa de probabilidad . . . . . . . . . . . 45

2.2.4 Función Delta de Dirac . . . . . . . . . . . . . . . . . . . . . . . 49
3
2.3 Descripción de algunos modelos de v.a. discretas y continuas . . . . . . 53

2.3.1 Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3.2 Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . 55
2.3.3 Distribución geométrica . . . . . . . . . . . . . . . . . . . . . . . 56
2.3.4 Distribución binomial negativa . . . . . . . . . . . . . . . . . . . 59
2.3.5 Distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . 60
2.3.6 Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . 61
2.3.7 Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . 62

2.3.8 Distribución de Weibull . . . . . . . . . . . . . . . . . . . . . . . 63
2.3.9 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4 Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . . 65
2.5 Extensión del Teorema de la Probabilidad Total y del Teorema de Bayes 69
2.7 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3 Funciones de una variable aleatoria 77

3.1 Transformaciones de una variable aleatoria . . . . . . . . . . . . . . . . 77
3.2 Momentos de una v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.4 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4 Variables aleatorias multidimensionales 99

4.1 Distribuciones conjunta, marginal y condicionada . . . . . . . . . . . . . 99
4.1.1 Distribución conjunta . . . . . . . . . . . . . . . . . . . . . . . . 99
4.1.2 Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . 105

4.1.3 Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . 108
4.2 Independencia estadística . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Apuntes de Estadística. I.T. Telemática. Universidad de Jaén. 5
4.4 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5 Funciones de varias variables aleatorias 123

5.1 Transformaciones de un vector aleatorio . . . . . . . . . . . . . . . . . . 123
5.2 Momentos asociados a varias variables . . . . . . . . . . . . . . . . . . . 128
5.3 Distribución conjuntamente gaussiana . . . . . . . . . . . . . . . . . . . 135
5.5 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
6 Estimación I 149
6.1 Estimación de una v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
6.1.1 Estimación a ciegas . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.1.2 Estimación conocida la ocurrencia de un suceso . . . . . . . . . . 152
6.1.3 Estimación conocido el valor de otra v.a. Y = y . . . . . . . . . . 153
6.1.4 Estimación conocido el valor de otro vector Y = y . . . . . . . . 156
6.1.5 Estimación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

6.2 Estimación de los parámetros de una distribución . . . . . . . . . . . . . 165
6.2.1 Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . 165
6.2.2 Estimación por intervalos de confianza . . . . . . . . . . . . . . . 170
6.4 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
7 Secuencias y procesos aleatorios. Introducción 183

7.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
7.2 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

7.3 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7.4 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
8 Secuencias aleatorias 191

8.1 Descripción estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
8.2 Algunas familias de s.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
8.2.1 S.a. gaussianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
8.2.2 S.a. independientes y s.a. incorreladas . . . . . . . . . . . . . . . 193
8.2.3 S.a. con incrementos independientes . . . . . . . . . . . . . . . . 194
8.2.4 S.a. estacionarias . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
8.2.5 Cadenas de Markov en tiempo discreto . . . . . . . . . . . . . . . 200
8.3 Sistemas lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

8.3.1 Principios básicos de los sistemas lineales en tiempo discreto . . 206
8.3.2 Sistemas lineales y s.a. . . . . . . . . . . . . . . . . . . . . . . . . 208
8.4 Convergencia de s.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
8.4.1 Tipos de convergencia . . . . . . . . . . . . . . . . . . . . . . . . 214
8.4.2 Teoremas límite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
8.6 Para saber más . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
9 Procesos aleatorios. Introducción 225

9.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
9.2 Valores esperados de un p.a. . . . . . . . . . . . . . . . . . . . . . . . . . 228
9.3 P.a. independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
9.4 P.a. estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233

9.5 Pares de p.a. estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . 237
9.6 P.a. gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
9.7 P.a. de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
9.8 El p.a. de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
9.10 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
10 Transmisión de procesos aleatorios a través de sistemas lineales 267

10.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
10.2 Sistemas lineales en tiempo continuo . . . . . . . . . . . . . . . . . . . . 268
10.3 Análisis espectral de la función de autocorrelación de un proceso débil-
mente estacionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
10.3.1 Transformada de Fourier . . . . . . . . . . . . . . . . . . . . . . . 271
10.3.2 Densidad espectral de potencia . . . . . . . . . . . . . . . . . . . 273
10.3.3 Ruido blanco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
10.3.4 Densidad espectral cruzada de potencia . . . . . . . . . . . . . . 275
10.4 Sistemas LTI con inputs aleatorios . . . . . . . . . . . . . . . . . . . . . 277

10.6 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
11 Estimación II 293
11.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
11.2 Planteamiento de distintos problemas en estimación . . . . . . . . . . . 294
11.3 Solución de algunos problemas de estimación mediante resultados ya
conocidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
11.4 Otros problemas de estimación . . . . . . . . . . . . . . . . . . . . . . . 302
11.6 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
Capítulo 1
Introducción al Cálculo de
Probabilidades
Resumen. El concepto de probabilidad que forma parte del lenguaje

de la vida cotidiana puede considerarse como la asignación de un grado de
certidumbre a un determinado evento, resultado de un experimento donde
el azar juega un papel que no puede obviarse. Así, cualquier experimento
aleatorio encuentra un modelo matemático adecuado en un espacio proba-
bilístico, que comprende: el conjunto de todos los posibles resultados del ex-
perimento o espacio muestral; un conjunto de posibles resultados de interés
con propiedades adecuadas para su tratamiento; y una medida de probabi-
lidad para dichos resultados. En este capítulo se introducen las definiciones
de todos estos conceptos, así como las propiedades básicas que se verifican
en cualquier espacio probabilístico; se estudian asimismo los conceptos de
probabilidad condicionada e independencia.
9
1.1 Introducción
En nuestra vida cotidiana asociamos usualmente el concepto de Probabilidad a su

calificativo probable, considerando probables aquellos eventos en los que tenemos un
alto grado de creencia en su ocurrencia. En esta línea, Probabilidad es un concepto
asociado a la medida del azar. También pensamos en el azar vinculado, fundamental-
mente, con los juegos de azar, pero desde esa óptica tan reducida se nos escapan otros
muchísimos ejemplos de fenómenos de la vida cotidiana o asociados a disciplinas de
distintas ciencias donde el azar juega un papel fundamental. Por citar algunos:
• ¿Qué número de llamadas telefónicas se produce a una centralita en un día? No

existe un número fijo que pueda ser conocido a priori, sino un conjunto de posibles
valores que podrían darse, cada uno de ellos con un cierto grado de certeza.
• ¿Cuál es el tamaño de un paquete de información que se transmite a través de

HTTP? No existe en realidad un número fijo, sino que éste es desconocido a priori.
• ¿Cuál es la posición de un objeto detectado mediante GPS? Dicho sistema ob-

tiene, realmente, una estimación de dicha posición, pero existen márgenes de
error que determinan una región del plano donde el objeto se encuentra con alta
probabilidad.
• ¿Qué ruido se adhiere a una señal que se envía desde un emisor a un receptor?
Dependiendo de las características del canal, dicho ruido será más o menos rele-
vante, pero su presencia no podrá ser conocida a priori, y deberá ser diferenciada
de la señal primitiva, sin que se conozca ésta, teniendo en cuenta que se trata de
un ruido aleatorio.
En todos estos ejemplos el azar es un factor insoslayable para conocer el compor-

tamiento del fenómeno en estudio. En general, un experimento del que se conocen
todos sus posibles resultados y que, repetido en las mismas condiciones, no siempre
proporciona los mismos resultados se conoce como experimento aleatorio. En con-

traposición, un experimento determinístico es aquel donde las mismas condiciones
aseguran que se obtengan los mismos resultados.
En un experimento aleatorio lo más relevante sería encontrar una medida de la in-
certidumbre o de la certidumbre que se tiene de todos los posibles resultados, ya que
jamás (o muy difícilmente) se podrá conocer a priori el resultado de cualquier experi-
mento donde el azar esté presente: a esta medida de la incertidumbre la denominaremos
probabilidad.
1.1.1 Interpretación frecuentista de la probabilidad
La aproximación más común al concepto de probabilidad tiene que ver con los
promedios de ocurrencia de los sucesos del experimento en cuestión. Pensemos en el
lanzamiento de una moneda: Si nos preguntamos por la probabilidad de que un lanza-
miento resulte cara o cruz, podríamos estimar dicha probabilidad lanzando la moneda
un gran número de veces y anotando el número de caras y de cruces; si tenemos que
apostar, lo haremos por aquel evento con mayor frecuencia de ocurrencia. Generalizan-
do este proceso, podríamos decir que la probabilidad de un evento A, P [A] , es
nA
P [A] = lim ,
n→∞ n
donde nA es el número de ocurrencias de A en n ensayos del experimento. Esta defini-
ción se conoce como definición frecuentista de la probabilidad. Se trata de una definición
de carácter eminentemente práctico porque permite una aproximación física al concep-
to de probabilidad, pero se ve limitada por las complicaciones que supone la definición
en términos de un límite que, como tal, sólo se alcanza ”en el infinito”.
1.1.2 Interpretación clásica de la probabilidad
Otro punto de vista que permite abordar el proceso de asignación de probabilidad a

sucesos es el siguiente: Continuando con el ejemplo de la moneda, en este experimento
son dos los resultados posibles, y no hay razones para pensar que uno de ellos es
más probable que otro, así que tiene sentido considerar que la probabilidad de cara
y la probabilidad de cruz son ambas del 50%. En general, podíamos decir que la
probabilidad de un evento A, P [A] , es
NA
P [A] = ,
N
donde N es el número de posibles resultados del experimento, todos ellos con la misma
probabilidad, y NA es el número de resultados favorables a la ocurrencia de A. Esta
definición, conocida como definición clásica, también es fundamentalmente práctica;
más aún que la definición frecuentista ya que, por ejemplo, nos permite deducir que
1
P [cara] =
2
en el lanzamiento de una moneda sin tener que lanzar la moneda un gran número
de veces. Sin embargo, la definición tiene dos grandes inconvenientes: El conjunto de
resultados posibles, N, tiene que ser finito y, además, todos los resultados posibles deben
tener la misma probabilidad (con lo cual, lo definido queda implícitamente inmerso en
la definición).
1.2 Definición axiomática de probabilidad
Así pues, vemos que mediante las definiciones frecuentista o clásica podrían calcu-
larse probabilidades de eventos, si bien ambas tienen inconvenientes desde el punto de
vista formal. Veremos más adelante la denominada definición axiomática, que reune
todas las condiciones formales necesarias y que, además, supone una generalización de
las definiciones frecuentista y clásica.
1.2.1 Teoría de conjuntos
Si consideramos un experimento aleatorio, podemos caracterizar los posibles re-

sultados de dicho experimento como conjuntos. Es de interés, por tanto, repasar los
conceptos y propiedades básicas del álgebra de conjuntos. Todas las demostraciones de

los resultados enunciados en esta sección pueden encontrarse, por ejemplo, en Yates &
Goodman (1998) 3-11.
Un conjunto es una colección de elementos.

Se dice que B es un subconjunto de A si todos sus elementos lo son
también de A, y se notará B ⊂ A.
Para cada A se verifica ∅ ⊂ A ⊂ A ⊂ Ω.
Lema 1.1 Propiedad transitiva. Si C ⊂ B y B ⊂ A, entonces, C ⊂ A.
El conjunto formado por todos los posibles resultados elementales de un

experimento aleatorio recibe el nombre de espacio muestral, que notare-
mos Ω.
Nos referiremos a los subconjuntos de un espacio muestral como sucesos
o eventos.
Hablaremos de ensayo de un experimento aleatorio refiriéndonos a una
ejecución de dicho experimento. Así, diremos que en un ensayo ocurre un
suceso A si se observa en dicho ensayo cualquier resultado incluido en el
suceso A.
Dentro del espacio muestral conviene considerar dos sucesos de especial relevancia:
Llamaremos suceso seguro a la unión de todos los elementos del espacio

muestral. Por otra parte, llamaremos suceso vacío o nulo a un conjunto
que no contenga elementos.
Ejemplo 1.1 Al observar un dígito transmitido a través de un canal binario, los re-
sultados posibles son Ω = {0, 1} , y los 22 = 4 subconjuntos de Ω, {∅, {0} , {1} , {0, 1}} .
Ejemplo 1.2 Al observar el tiempo que dura una llamada telefónica, el conjunto de
resultados posible es Ω = (0, ∞) ; un posible subconjunto es A = (a, b) , aunque no es
posible explicitar todos los subconjuntos de Ω.
La unión de B y A es un conjunto cuyos elementos son los elementos de

A y B, y se nota A ∪ B. Esta operación verifica la propiedad conmutativa
y asociativa.
Lema 1.2 Si A ⊂ B, entonces A ∪ B = B.
La intersección de A y B es el conjunto formado por los elementos

comunes de A y B, y se nota AB o A ∩ B. Esta operación verifica la
propiedad conmutativa, asociativa y distributiva respecto de la unión.
Dos conjuntos, A y B, se dicen mutuamente excluyentes, disjuntos
o incompatibles si su intersección es vacía, es decir, A ∩ B = ∅.
Los conjuntos A1 , ..., AN se dicen mutuamente excluyentes si Ai ∩
Aj = ∅ para todo i 6= j.
Una partición es una colección de conjuntos, A1 , ..., AN tal que:
a) A1 ∪ ... ∪ AN = Ω
b) Ai ∩ Aj = ∅ para todo i 6= j.
El conjunto complementario de un conjunto A, Ā ó Ac , está formado

por todos los elementos de Ω que no pertenecen a A. Se sigue por tanto,
A ∪ Ā = Ω
A ∩ Ā = ∅
(Ac )c = A
Ω̄ = ∅
Si B ⊂ A → Ā ⊂ B̄
Si A = B → Ā = B̄.
Lema 1.3 Leyes de Morgan.
A ∪ B = Ā ∩ B̄
A ∩ B = Ā ∪ B̄.
Así pues, como hemos comentado, cada vez que nos encontremos con un experi-
mento aleatorio, caracterizaremos los resultados posibles mediante conjuntos del espa-
cio muestral. Sin embargo, dado un experimento aleatorio con espacio muestral Ω, no
siempre será necesario observar o tener en cuenta todos y cada uno de los subconjuntos
o sucesos posibles de este espacio muestral. En realidad deberíamos especificar qué
elementos del conjunto de todos los sucesos posibles son en realidad sucesos que vamos
a tener en cuenta, sucesos que formarán una colección que debe tener buenas propieda-
des, en el sentido de que sea una colección que se baste a sí misma para comprender a
las operaciones elementales del álgebra de conjuntos.
En este sentido, dado un espacio muestral Ω, cualquier colección de

subconjuntos de Ω, z, que verifique que:
1. si A y B ∈ z, entonces A ∪ B y A ∩ B ∈ z;
2. si A ∈ z, entonces Ā ∈ z;
3. ∅ ∈ z,
se denomina álgebra o campo.

Es decir, un álgebra es una colección de posibles resultados cerrada
para las operaciones básicas (complementariedad, uniones e intersecciones
finitas) y que contiene a los elementos triviales (suceso nulo y suceso se-
guro). Pero en ocasiones esta colección puede quedarse pequeña al no in-
cluir uniones o intersecciones no finitas de elementos propios, así que es
conveniente considerar álgebras que también sean cerradas para estas ope-
raciones.
Se denomina, así, σ−álgebra o σ−campo a cualquier álgebra o campo,
z, que contenga también a cualquier unión o intersección numerable de
elementos propios, es decir,
si A1 , A2 , ... ∈ z entonces, ∪∞ ∞
i=1 Ai ∈ z y ∩i=1 Ai ∈ F.
Ejemplo 1.3 Sea un espacio muestral Ω.

De manera inmediata pueden construirse dos σ−álgebras ’ triviales’, considerando
la más pequeña de las posibles, z1 = {∅, Ω}, y la mayor de todal ellas, formada por
todos los subconjuntos posibles de Ω, z2 = {subconjuntos de Ω} .
Consideremos ahora un suceso cualquiera A. En ese caso, z3 = {∅, A, Ac , Ω} tam-
bién constituye una σ−álgebra, denominada la σ-álgebra generada por A.
En resumen, dado un experimento aleatorio, cada posible resultado estará carac-

terizado por un conjunto o suceso; la colección de todos los sucesos se denominará
espacio muestral; aquellos sucesos que sean realmente relevantes podrán agruparse en
colecciones llamadas σ−álgebras siempre que sean cerradas para las operaciones básicas
de los conjuntos.
1.2.2 Espacio probabilístico
Dado un espacio muestral Ω y una σ−álgebra sobre este espacio, z,

una función de probabilidad es cualquier función P : z → [0, 1] , que
verifique
1. P [A] ≥ 0.
2. P [Ω] = 1.
3. Dada una colección de sucesos A1 , A2 , ..., con Ai ∩ Aj = ∅ para todo i 6= j,

∞
X
P [∪∞
i=1 Ai ] = P [Ai ] .
i=1
Esta definición, llamada definición axiomática, permite interpretar la probabilidad

como una métrica: más concretamente, como la métrica que mide la creencia en la
ocurrencia de cada suceso posible. Como métrica que es, tiene las mismas propiedades
que cualquier métrica, incluida la euclídea, que es la que usualmente consideramos.
La terna (Ω, z, P [·]) recibe el nombre de espacio probabilístico.
En lo sucesivo, y por comodidad, sólo consideraremos sucesos de la σ−álgebra

asociada al espacio probabilístico, es decir, sucesos a los que se les puede calcular la
probabilidad o sucesos medibles.
Hay que notar que se puede dar más de un espacio probabilístico asociado al mismo
espacio muestral y a la misma σ−álgebra, dependiendo de qué probabilidad se utilice.
Por ejemplo, asociado al espacio muestral Ω = {cara, cruz}, del lanzamiento de una
moneda, con sucesos posibles z = {∅, {cara}, {cruz}, {cara, cruz}}, pueden darse un
número infinito no numerable de medidas de la probabilidad; concretamente, asociadas
a cada elección
P [cara] = p
P [cruz] = 1 − p,
para cada p ∈ [0, 1] . Aunque si la moneda no está cargada, como sucede habitualmente,
se considera el caso en que p = 12 .
Como consecuencia de la definición se verifican, entre otras, las siguientes propie-
dades.
Lema 1.4 P [∅] = 0.

Demostración. 1 = P [Ω ∪ ∅] = P [Ω] + P [∅] .
£ ¤
Lema 1.5 Sea A un suceso cualquiera. Entonces, P Ā = 1 − P [A] .
£ ¤ £ ¤
Demostración. 1 = P A ∪ Ā = P [A] + P Ā .
£ ¤
Lema 1.6 Sean A y B dos sucesos cualesquiera. Entonces, P A ∩ B̄ = P [A] −
P [A ∩ B] .
£ ¤ £ ¤
Demostración. P [A] = P A ∩ B ∪ A ∩ B̄ = P [A ∩ B] + P A ∩ B̄ .
Lema 1.7 Sean A y B dos sucesos cualesquiera. Entonces, P [A ∪ B] = P [A]+P [B]−

P [A ∩ B] .
Demostración.
£ ¤ £ ¤ £ ¤
P [A ∪ B] = P A ∩ B̄ ∪ Ā ∩ B ∪ A ∩ B = P A ∩ B̄ + P Ā ∩ B + P [A ∩ B]
= P [A] − P [A ∩ B] + P [B] − P [A ∩ B] + P [A ∩ B]
= P [A] + P [B] − P [A ∩ B] .
1.3 Probabilidad condicionada. Independencia de sucesos
Para introducir de manera intuitiva el concepto de probabilidad condicionada debe-

mos pensar en la probabilidad como medida de la creencia en la ocurrencia de los
sucesos.
Pensemos en un experimento aleatorio y en un suceso de dicho experimento, A,
en el que, en principio, tenemos un grado de creencia P [A] ; pero supongamos que
conocemos algo del resultado de dicho experimento; concretamente, sabemos que ha
ocurrido un suceso B. Parece lógico pensar que esa información conocida sobre el
resultado del ensayo modificará nuestro grado de creencia en A: Llamemos a este
nuevo grado de creencia P [A | B], probabilidad de A conocida B o probabilidad

de A condicionada a B. Vamos a ilustrar esto con dos sencillos ejemplos:
1. Consideremos el suceso A : el día de hoy va a llover y el suceso B : el día de hoy

está nublado. Obviamente, la probabilidad P [A] será menor que la probabilidad
P [A | B] , ya que el hecho de que esté nublado refuerza nuestra creencia en que
llueva.
2. Consideremos el experimento aleatorio de extraer una carta de una baraja es-

pañola. Sea el suceso A : Obtener una sota, el suceso B1 : Obtener una figura y
el suceso B2 : Obtener una carta de copas.
Las distintas probabilidades, condicionadas o no, son las siguientes:
4 sotas 1
P [A] = =
40 cartas 10
4 sotas 1
P [A | B1 ] = =
12 figuras 3
1 sota de copas 1
P [A | B2 ] = = .
10 copas 10
Como puede verse, B1 modifica la probabilidad a priori, pero no así B2 . Puede

decirse que B2 no ofrece información acerca de A, o que A y B2 son indepen-
dientes.
Vamos a dar a continuación una definición de probabilidad condicionada que

responde a esta idea de recalcular la probabilidad en función de la información existente.
La probabilidad condicionada de un suceso A, conocido otro

suceso B, denotada por P [A | B], se define como el cociente
P [A ∩ B]
P [A | B] = ,
P [B]
siempre que P [B] 6= 0.

La primera observación importante que se puede hacer al hilo de esta definición es

que cumple los tres axiomas de la probabilidad y, por tanto, puede llamarse probabilidad
con todo rigor. Téngase en cuenta que:
1. P [A | B] ≥ 0
P [Ω∩B] P [B]
2. P [Ω | B] = P [B] = P [B] =1
3.
" # P P
X P [( i Ai ) ∩ B] P [( i Ai ∩ B)]
P Ai | B = =
P [B] P [B]
i
P
P [Ai ∩ B] X P [Ai ∩ B]
= i =
P [B] P [B]
i
X
= P [Ai | B] siempre que Ai ∩ Aj = ∅ para todo i 6= j.
i
Ejemplo 1.4 Notemos como t la edad de una persona al morir. Supongamos que la
probabilidad de que una persona muera antes de los t0 años o a los t0 años viene dada
Rt
por P [t ≤ t0 ] = 0 0 α (t) dt, donde la función α (t) es una función que depende de las
tasas de mortalidad en cada país. Supongamos que
α (t) = 3 × 10−9 t2 (100 − t)2 , para 0 ≤ t ≤ 100 años.
Podemos preguntarnos por la probabilidad de que una persona muera entre los 60 y
R 70
los 70 años, calculándola como P [60 ≤ t ≤ 70] = 60 α (t) dt = 0.154. Esta cantidad
multiplicada por 100 representa el % promedio de personas que morirán entre los 60 y
los 70 años.
Ahora supongamos que conocemos a una persona que está viva a los 60 años y
preguntémonos de nuevo por la probabilidad de que esa persona muera entre los 60 y
los 70 años:
P [(60 ≤ t ≤ 70) ∩ (t ≥ 60)]

P [60 ≤ t ≤ 70 | t ≥ 60] =
P [t ≥ 60]
R 70
P [60 ≤ t ≤ 70] 60 α (t) dt
= = R 100
P [t ≥ 60] α (t) dt
60
= 0.486
Ahora esta cantidad representa el porcentaje de personas que morirán entre los 60 y los
70 años de entre aquellos que han vivido hasta los 60.
Como hemos comentado, la idea de la probabilidad condicionada es utilizar la infor-

mación que nos da un suceso conocido sobre la ocurrencia de otro suceso. Pero, como
ya hemos puesto de manifiesto en un ejemplo, no siempre un suceso da información
sobre otro. En este caso se dice que ambos sucesos son independientes. Por tanto:
Dos sucesos A y B se dicen independientes si P [A | B] = P [A] , o

equivalentemente si P [B | A] = P [B], o equivalentemente si P [A ∩ B] =
P [A] · P [B] .
Esta definición de independencia puede extenderse a una familia de conjuntos.
Así, se dice que A1 , ..., An son independientes si
P [Ai Aj ] = P [Ai ] P [Aj ]
P [Ai Aj Ak ] = P [Ai ] P [Aj ] P [Ak ]

..
.
P [A1 ∩ ... ∩ An ] = P [A1 ] ...P [An ]
para cualquier combinación de índices tal que 1 ≤ i < j < k... ≤ n.

1.3.1 Teorema de la probabilidad total y Teorema de Bayes
Los siguientes dos resultados se conocen como Teorema de la probabilidad total

y Teorema de Bayes respectivamente, y juegan un importante papel a la hora de
calcular probabilidades. Los dos utilizan como principal herramienta el concepto de
probabilidad condicionada.
Teorema 1.1 (Teorema de la Probabilidad Total) Sea {A1 , ..., AN } una partición
del espacio muestral Ω y sea B un suceso cualquiera. Entonces, P [B] = P [B | A1 ] P [A1 ]+
... + P [B | AN ] P [AN ] .
Demostración.
P [B] = P [B ∩ (A1 ∪ ... ∪ AN )] = P [B ∩ A1 ∪ ... ∪ B ∩ AN ]
= P [B ∩ A1 ] + ... + P [B ∩ AN ]
= P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ] .
Teorema 1.2 (Teorema de Bayes) En esas mismas condiciones,

P [B | Ai ] P [Ai ]
P [Ai | B] = .
P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ]
Demostración.
P [Ai ∩ B]
P [Ai | B] =
P [B]
P [B | Ai ] P [Ai ]
= .
P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ]
Ejemplo 1.5 Supongamos que tenemos 4 cajas con componentes electrónicas dentro.
La caja 1 contiene 2000 componentes, con un 5% de defectuosas; la caja 2 contiene 500
componentes, con un 40% de defectuosas; las cajas 3 y 4 contienen 1000 componentes,
con un 10% de defectuosas.
a) ¿Cuál es la probabilidad de escoger al azar una componente defectuosa?
Notemos D : componente defectuosa y Ci : componente de la caja i-ésima. En-

tonces, se tiene que
2000 4
P [C1 ] = =
2000 + 500 + 1000 + 1000 9
500 1
P [C2 ] = =
2000 + 500 + 1000 + 1000 9
1000 2
P [C3 ] = =
2000 + 500 + 1000 + 1000 9
1000 2
P [C4 ] = =
2000 + 500 + 1000 + 1000 9
P [D | C1 ] = 0.05
P [D | C2 ] = 0.4
P [D | C3 ] = 0.1
P [D | C4 ] = 0.1
Utilizando el Teorema de la probabilidad total,
P [D] = P [D | C1 ] P [C1 ] + P [D | C2 ] P [C2 ] + P [D | C3 ] P [C3 ]
+P [D | C4 ] P [C4 ]
4 1 2 2
= 0.05 + 0.4 + 0.1 + 0.1 = 0. 11111
9 9 9 9
b) Si se escoge una componente al azar y resulta ser defectuosa, ¿cuál es la probabi-

lidad de que pertenezca a la caja 1?
P [C1 | D]
P [D | C1 ] P [C1 ]
=
P [D | C1 ] P [C1 ] + P [D | C2 ] P [C2 ] + P [D | C3 ] P [C3 ] + P [D | C4 ] P [C4 ]
0.05 49
= = 0. 2
0.11111
Ejemplo 1.6 Canal binario simétrico. Consideremos un canal binario simétrico

sin memoria. El canal se dice binario cuando transmite sólo dos símbolos. El apelativo
sin memoria indica que las salidas del canal en cada instante sólo dependen de las
entradas al propio canal.
El error en este tipo de canales se produce cuando, habiendo emitido 0, se recibe 1
o viceversa. El canal se dice simétrico cuando ambos errores son igualmente probables.
Para describir la naturaleza probabilística de este tipo de canales es necesario cono-
cer dos conjuntos de probabilidades:
1. Las probabilidades a priori:
P [A0 ] = p0
P [A1 ] = p1 = 1 − p0
donde Ai nota la emisión por la fuente del input i = 0, 1.
2. La probabilidad de error:
P [B1 | A0 ] = P [B0 | A1 ] = p
donde Bj indica la recepción en el destino del output j = 0, 1.
Entonces,
P [B0 | A0 ] = 1 − p
P [B1 | A1 ] = 1 − p
Según el teorema de la probabilidad total:
P [B0 ] = P [B0 | A0 ] p [A0 ] + P [B0 | A1 ] p [A1 ]
= (1 − p) p0 + pp1
P [B1 ] = P [B1 | A0 ] p [A0 ] + P [B1 | A1 ] p [A1 ]
= pp0 + (1 − p) p1
1-p
A0 B0
p p
A1 1-p B1
Figura 1.1: Representación de un canal binario simétrico con probabilidad de cruce p.
Aplicando el teorema de Bayes se conocen las probabilidades a posteriori:
P [B0 | A0 ] P [A0 ]
P [A0 | B0 ] =
P [B0 ]
(1 − p) p0
=
(1 − p) p0 + pp1
P [B1 | A1 ] P [A1 ]
P [A1 | B1 ] =
P [B1 ]
(1 − p) p1
=
pp0 + (1 − p) p1
1.4 Ejercicios resueltos
1. En el canal de comunicaciones ternario que se describe en la Figura

1.2, se ha observado que el dígito 3 es enviado tres veces más frecuente-
mente que 1 y 2 dos veces más frecuentemente que 1.
(a) Calcular la probabilidad de que un dígito cualquiera enviado a

través del canal sea recibido correctamente.
P[Y = 1 / X = 1] = 1-a
X=1 Y=1
a/2
a/2
b/2
X=2 Y=2
b/2
P[Y = 2 / X = 2] = 1-b
g/2
g/2
X=3 Y=3
P[Y = 3 / X = 3] = 1-g
Figura 1.2: Canal de comunicación ternario.
En primer lugar, si notamos P [X = 1] = p, entonces P [X = 2] = 2p y

P [X = 3] = 3p. Por otra parte, como
1 = P [X = 1] + P [X = 2] + P [X = 3] = 6p,
se tiene que
1 1 1
P [X = 1] = , P [X = 2] = y P [X = 3] = .
6 3 2
Utilizando el teorema de la probabilidad total,
P [dı́gito OK] = P [dı́gito OK / X = 1] P [X = 1]
+P [dı́gito OK / X = 2] P [X = 2]
+P [dı́gito OK / X = 3] P [X = 3]
= P [Y = 1 / X = 1] P [X = 1]
+P [Y = 2 / X = 2] P [X = 2]
+P [Y = 3 / X = 3] P [X = 3]
1 1 1
= (1 − α) + (1 − β) + (1 − γ) = P.
6 3 2
(b) Si se recibe un 1, ¿cuál es la probabilidad de que se hubiera enviado

un 1?
Utilizando el teorema de Bayes,
P [Y = 1 / X = 1] P [X = 1]
P [X = 1 / Y = 1] = .
P [Y = 1]
Por su parte,
P [Y = 1] = P [Y = 1 / X = 1] P [X = 1]
+P [Y = 1 / X = 2] P [X = 2]
+P [Y = 1 / X = 3] P [X = 3]
1−α β γ
= + + ,
6 6 4
luego
1−α
6 −1 + α
P [X = 1 / Y = 1] = 1−α β γ
=2 .
+ + −2 + 2α − 2β − 3γ
6 6 4
(c) Si se considera un mensaje que está constituido por 10 dígitos y

que el envío de cada uno de éstos es independiente del resto, ¿cuál
es la probabilidad de que exactamente 5 de ellos sean recibidos
correctamente?
Hay que tener en cuenta que existen muchas posibilidades a la hora de que
5 de 10 de los dígitos sean correctos; concretamente, tantas como combi-
naciones de los 10 dígitos tomados de 5 en 5. Por su parte, todas esas
combinaciones tienen la misma probabilidad, P 5 (1 − P )5 y, además, son
claramente incompatibles unas con otras. Por tanto,
µ ¶
10 5
P [5 de 10 OK] = P (1 − P )5 .
5
(d) ¿Y la probabilidad de que al menos uno de ellos sea recibido co-

rrectamente?
Número en cada caja

µF 1 2 3 Total
0.01 20 95 25 140
0.1 55 35 75 165
1.0 70 80 145 295
Total 145 210 245 600
Tabla 1.1: Acumuladores.
Para simplificar el cálculo, tengamos en cuenta que el suceso al menos uno

correcto es el complementario del suceso ninguno correcto. Por tanto,
P [al menos uno correcto] = 1 − P [ninguno correcto] = 1 − (1 − P )10 .
2. Se disponen tres cajas donde se almacenan acumuladores según aparece

en la Tabla 1.1.
(a) Se escoge al azar una caja y de ella, a su vez, un acumulador.
i. ¿Cuál es la probabilidad de que se haya seleccionado un acu-

mulador de 0.01µF ?
Notemos 0.01µF, 0.1µF y 1.0µF a los sucesos extraer un acumulador de
0.01µF, 0.1µF y 1.0µF respectivamente. De igual forma, notemos c1, c2
y c3 a los sucesos elegir la caja 1, la caja 2 y la caja 3, respectivamente.
P [0.01µF ] = P [0.01µF / c1] P [c1] + P [0.01µF / c2] P [c2] + P [0.01µF / c3] P [c3]
20 1 95 1 25 1 5903
= + + = = 0.23078.
145 3 210 3 245 3 25 578
ii. Si ha sido seleccionado un acumulador de 1.0µF , ¿cuál es la

probabilidad de que proceda de la caja 1?
Utilizando el teorema de Bayes,
P [1.0µF / c1] P [c1]

P [c1 / 1.0µF ] = .
P [1.0µF ]
Por su parte,
P [1.0µF ] = P [0.01µF / c1] P [c1] + P [0.01µF / c2] P [c2] + P [0.01µF / c3] P [c3]
70 1 80 1 145 1 6205
= + + = = 0.48518,
145 3 210 3 245 3 12 789
luego
70 1
145 3 2058
P [c1 / 1.0µF ] = 6205 = = 0.33167.
12 789
6205
(b) Se escogen ahora al azar 4 acumuladores uno a continuación del

otro, sin reemplazarlos, de la primera caja. ¿Cuál es la probabili-
dad de que todos ellos sean de 0.01µF ?
SUGERENCIA: Se recomienda previamente demostrar por inducción la siguiente
igualdad:
P [A1 ∩ ... ∩ AN ] = P [A1 ] · P [A2 | A1 ] · ... · P [AN | A1 ∩ ... ∩ AN−1 ]
En primer lugar hemos de demostrar por inducción la igualdad. Para ello,

consideremos el primer caso no trivial, que se da si N = 2, en cuyo caso
tenemos la expresión
P [A1 ∩ A2 ] = P [A1 ] · P [A2 | A1 ] ,
cierta por definición de probabilidad condicionada.
Si lo suponemos cierto para N − 1, es decir
P [A1 ∩ ... ∩ AN −1 ] = P [A1 ] · P [A2 | A1 ] · ... · P [AN−1 | A1 ∩ ... ∩ AN−2 ] ,

entonces,
P [A1 ∩ ... ∩ AN ]
= P [(A1 ∩ ... ∩ AN−1 ) ∩ AN ]
= P [AN | A1 ∩ ... ∩ AN−1 ] · P [A1 ∩ ... ∩ AN−1 ]
= P [AN | A1 ∩ ... ∩ AN−1 ] · P [A1 ] · P [A2 | A1 ] · ... · P [AN−1 | A1 ∩ ... ∩ AN−2 ]
= P [A1 ] · P [A2 | A1 ] · ... · P [AN−1 | A1 ∩ ... ∩ AN−2 ] · P [AN | A1 ∩ ... ∩ AN−1 ]
Notemos en el problema 0.01µF (i) al suceso extraer un acumulador de 0.01µF

en la i-ésima extracción de la caja 1. En ese caso, se nos pide
h i
P 0.01µF (1) ∩ 0.01µF (2) ∩ 0.01µF (3) ∩ 0.01µF (4)
h i
= P 0.01µF (1)
h i
P 0.01µF (2) / 0.01µF (1)
h i
P 0.01µF (3) / 0.01µF (1) ∩ 0.01µF (2)
h i
P 0.01µF (4) / 0.01µF (1) ∩ 0.01µF (2) ∩ 0.01µF (3)
20 19 18 17 323
= = = 2. 742 5 × 10−4 .
145 144 143 142 1177 748
3. En los circuitos que aparecen en la Figura 1.3, la probabilidad de que

un interruptor esté cerrado (circuito abierto, por tanto) es p. Calcular
en cada uno de ellos la probabilidad de que pueda transmitirse co-
rriente desde el origen hasta el destino por al menos un camino entre
ambos, teniendo en cuenta que los interruptores funcionan indepen-
dientemente unos de otros.
SUGERENCIA: Se recomienda previamente demostrar que si se tienen tres conjuntos
A, B y C , entonces
P [A ∪ B ∪ C] = P [A] + P [B] + P [C] − P [A ∩ B] − P [A ∩ C]
−P [B ∩ C] + P [A ∩ B ∩ C]
a1
b2 b3
a2
b1 b6
a3 a4 a5 b4 b5
Circuito A Circuito B
Figura 1.3: Circuitos A y B.
Vamos a comenzar demostrando la igualdad que se nos propone:
P [A ∪ B ∪ C]
= P [(A ∪ B) ∪ C] = P [A ∪ B] + P [C] − P [(A ∪ B) ∩ C]
= P [A] + P [B] − P [A ∩ B] + P [C] − P [(A ∩ C) ∪ (B ∩ C)]
= P [A] + P [B] − P [A ∩ B] + P [C] − (P [A ∩ C] + P [B ∩ C] − P [A ∩ B ∩ C])
= P [A] + P [B] − P [A ∩ B] + P [C] − P [A ∩ C] − P [B ∩ C] + P [A ∩ B ∩ C]
= P [A] + P [B] − P [A ∩ B] + P [C] − P [A ∩ B] − P [A ∩ C] − P [B ∩ C] + P [A ∩ B ∩ C]
Circuito A: En este caso, las alternativas son tres: que se cierre el interruptor a1
(camino1), que se cierre el interruptor a2 (camino2) o que se cierren simultánea-
mente los interruptores a3, a4 y a5 (camino3). Por tanto,
P [conexión] = P [camino1 ∪ camino2 ∪ camino3 ]
= P [camino1 ] + P [camino2 ] + P [camino3 ]
−P [camino1 ∩ camino2 ] − P [camino1 ∩ camino3 ]
−P [camino2 ∩ camino3 ] + P [camino1 ∩ camino2 ∩ camino3 ]
= p + p + p3 − p2 − p4 − p4 + p5 .
Circuito B: En este caso son sólo dos las alternativas: b1, b2, b3 y b6 cerrados
o b1, b4, b5 y b6 cerrados. Por tanto,
P [conexión] = P [b1, b2, b3 y b6 cerrados ∪ b1, b4, b5 y b6 cerrados] = p4 + p4 − p6 .
4. Un receptor de un sistema de comunicaciones debe decidir si en el

ruido que habitualmente recibe como input está además presente una
cierta señal positiva. Para ello toma 20 muestras del input recibido y
basa su decisión en el número n+ de muestras positivas. Los signos de
las 20 muestras son estadísticamente independientes. Cuando la señal
no está presente en el ruido (situación que llamaremos hipótesis nula
y notaremos H0 ), la probabilidad de que una muestra sea positiva es
de 12 , es decir,
P [+ / H0 ] = P [− / H0 ] = 0.5.
Cuando sí hay una señal presente en el ruido (situación que llamaremos

hipótesis alternativa y notaremos H1 ),
P [+ / H1 ] = 0.95,
P [− / H1 ] = 0.05.
En principio (a priori), es igualmente probable que haya señal en el

ruido y que no la haya, es decir
1
P [H0 ] = P [H1 ] = .
2
(a) Calcular la probabilidad de que, bajo H0 , k muestras sean positivas

y 20 − k negativas. Realizar el mismo cálculo bajo H1 .
µ ¶ µ ¶
20 20 20
P [n+ = k / H0 ] = 0.5 ; P [n+ = k / H1 ] = 0.95k 0.0520−k
k k
(b) Se observa que k muestras son positivas. Calcular la probabilidad

de que se den, respectivamente H0 y H1 (probabilidades a poste-
riori).
P [n+ = / H0 ] P [H0 ] 0.520
P [H0 / n+ = k] = =
P [n+ = / H0 ] P [H0 ] + P [n+ = / H1 ] P [H1 ] 0.520 + 0.95k 0.0520−k
P [H1 / n+ = k] = 1 − P [H0 / n+ = k] .
(c) El receptor debe establecer una regla para la toma de su decisión.

Así, basándose en la información de la muestra, decidirá que la
señal está presente si n+ supera un determinado umbral, k0 . Ob-
viamente, si pone este umbral muy bajo, posiblemente cometerá
muchos errores al decidir que hay señal cuando en realidad no
la hay (este error se denomina error Tipo I); si por el contrario,
pone el umbral muy alto, posiblemente no detectará que hay señal
cuando en realidad sí la hay (este error se denomina error Tipo
II). Determinar cuál debe ser el umbral mínimo k0 necesario para
que la probabilidad de error Tipo I sea inferior a 0.05 y calcular
para ese umbral cuál es la probabilidad de error Tipo II.
En este caso queremos encontrar el valor de k0 tal que P [n+ > k0 / H0 ] <
0.05. Ahora bien,
20
X µ ¶
20
P [n+ > k0 / H0 ] = 0.520 .
k
k=k0 +1
Debemos ir probando valores de k0 hasta que encontremos el primero para

el que esta probabilidad es menor que 0.05:
X20 µ ¶ X20 µ ¶
20 20 20
0.5 = 0.4119; 0.520 = 5. 765 9 × 10−2
k k
k=10+1 k=13+1
X20 µ ¶
20
0.520 = 2. 069 5 × 10−2 .
k
k=14+1
Por tanto el valor umbral a partir del cual decidiremos que sí hay señal
presente es k0 = 14. Por su parte, la probabilidad de error tipo II en ese
caso es
14 µ ¶
X 20
P [n+ ≤ k0 / H1 ] = 0.95k 0.0520−k = 3. 292 9 × 10−4 .
k
k=0
1.5 Para saber más...
1. Magnífica motivación de la necesidad de estudiar Cálculo de Probabilidades en

Viniotis (1997) 1-19.
2. Interesante introducción al significado de la probabilidad en Papoulis (1991) 3-14.
3. Ejemplos de aplicación de los modelos aleatorios en la Ingeniería mediante el

Cálculo de Probabilidades en León-García 9-19.
4. Combinatoria en el cálculo de probabilidades y aplicaciones en Stark & Woods

(1994) 21-28, Yates & Goodman (1998) 24-31 y León-García 42-48.
5. Espacio probabilístico producto en Grimmet & Stirzaker (2001) 14-15, Peyton

(1993) 22-25 y Papoulis (1991) 38-43.
6. Interesantes ejemplos en Grimmet & Stirzaker (2001) 16-20 y Yates & Goodman
(1998) 12-35.
Capítulo 2
Variable aleatoria unidimensional
Resumen. Aquellas cantidades que en la vida real están asociadas a

sucesos de un espacio probabilístico se denominan variables aleatorias. Los
valores que toman, por tanto, estas variables, están sujetos a incertidumbre,
que puede medirse mediante la llamada función de distribución. Se estudian
las dos grandes clases de variables aleatorias: las que toman un conjunto
de valores aislados o variables discretas, y las que toman valores que sólo
pueden encerrase en intervalos o variables continuas. Se estudian asimismo,
ejemplos concretos de modelos de probabilidad habituales para un gran
número de variables aleatorias.
2.1 Definición
Consideremos un espacio probabilístico (Ω, z, P [·]) . Una variable aleato-

ria (a partir de ahora v.a.) no es más que un número real asociado al
resultado de un experimento aleatorio. Se trata, por tanto, de una función
real con dominio en la σ−álgebra del espacio probabilístico, X : Ω → R.
Sin embargo, una v.a. debe verificar además que, para cada x ∈ R, el
suceso {ω ∈ Ω : X (ω) ≤ x} pertenezca a la σ−álgebra considerada. Se dice
35
en ese caso que X es una función medible.
En la notación que vamos a utilizar representaremos las variables aleatorias como

funciones siempre en mayúsculas, y a sus valores concretos siempre en minúscula. Es
decir, si queremos referirnos a una v.a. antes de observar su valor, podemos notarla
como X, por ejemplo; pero una vez que se observa el valor de dicha variable (ya no es,
por tanto, algo aleatorio), debemos notar a ese valor en minúscula, por ejemplo, como
x.
Veamos un sencillo ejemplo.
Ejemplo 2.1 Consideremos el experimento aleatorio consistente en observar la du-

ración de cada llamada telefónica recibida por una centralita. Dicha observación cons-
tituye una v.a. que notaremos, por ejemplo, como T (en mayúscula, por supuesto).
Ahora deberíamos especificar la σ−álgebra asociada al espacio probabilístico. Este
es un tema complejo, en principio, pero que se obvia completamente. En la inmensa
mayoría de las ocasiones podemos considerar la denominada σ-álgebra de Borel, defini-
da como la menor σ-álgebra que contiene a todos los intervalos del tipo (−∞, x]. En
los ejemplos y aplicaciones en Ingeniería, ni siquiera hay que especificar la σ−álgebra.
¿Cuál es la función de probabilidad asociada al espacio muestral? Eso sólo puede
saberse después de observar los valores de la v.a. en numerosas ocasiones, infiriendo
un modelo adecuado a esos valores. En sucesivos capítulos daremos detalles de cómo
hacerlo.
Pero centrémonos en la variable y en su notación. Cuando hablemos de ella lo
haremos notándola en mayúscula, T , pero si nos referimos a un valor que ha tomado
en una observación concreta debemos hacerlo en minúscula. Así, por ejemplo, debemos
decir: ”La v.a. T ha tomado el valor t en su última observación”.
¿Qué nos interesará conocer de la v.a.? Pues, por ejemplo, la probabilidad de que
una llamada dure más de un minuto, P [T > 1], o menos de 30 segundos, P [0 ≤ T < 0.5]...
Obsérvese que cualquier suceso que se nos pase por la cabeza podría expresarse como
uniones e intersecciones de conjuntos del tipo (−∞, x], que son la base de la σ−álgebra
de Borel.
2.2 Función de distribución. V.a. discretas y continuas
2.2.1 Función de distribución
Dada una variable aleatoria X, sobre un espacio probabilístico con fun-

ción de probabilidad P [·], se define su función de distribución (a partir
de ahora cdf, por cumulative distribution function) como
F : R→R
x→P [X≤x]
Es decir, dado cualquier valor real x, definimos la cdf como la probabilidad de

todos los sucesos cuyos valores de la v.a. quedan por debajo de x. Obsérvese que
se está utilizando implícitamente el hecho de que la v.a. es una función medible, de
manera que es posible calcular la probabilidad de los conjuntos [X ≤ x], ya que éstos
pertenecen a la σ−álgebra sobre la que la función de probabilidad está definida.
Vamos a dar las propiedades fundamentales de toda cdf :
Proposición 2.1 Sea F la cdf de una v.a. X. Entonces:
1. limx→−∞ F (x) = 0.
2. limx→∞ F (x) = 1.
3. F es creciente.
4. F es continua a la derecha.
Demostración. Es trivial considerando la definición de cdf (Para más detalles,

Papoulis (1991) 69-71).
Nótese que la interpretación de la cdf es la de la curva que acumula la probabilidad
de la variable aleatoria; de ahí que también se le conozca como curva acumulativa.
Ejemplo 2.2 Sea la v.a. X, asociada al lanzamiento de un dado, cuyo valor es la

puntuación de la cara resultante. Entonces, la cdf de esta variable es
F :R→R
F (x) = 0 para todo x < 1

1
F (x) = para todo 1 ≤ x < 2
6
2
6
3
6
4
6
5
6
F (x) = 1 para todo 6 ≤ x.
Si consideramos la llamada función umbral,


 0 si x < 0
u (x) = ,
 1 si x ≥ 0
podemos expresar esta cdf como
1 1 1 1
F (x) = u (x − 1) + u (x − 2) + u (x − 3) + u (x − 4)
6 6 6 6
1 1
+ u (x − 5) + u (x − 6) ,
6 6
que aparece representada en la Figura 2.1.
Ejemplo 2.3 Supongamos que una llamada ocurre al azar en el intervalo (0, 1). En
ese caso, como veremos, la cdf de la variable X : tiempo entre llamadas es


 0 si x < 0


F (t) = t si 0 ≤ t < 1 ,



 1 si t ≥ 1
que se representa gráficamente en la Figura 2.2.

0.8
0.6
F(x)
0.4
0.2
0 2 4 6 8
x
Figura 2.1: Funcion de distribución asociada al lanzamiento de un dado.
0.8
0.6
F(x)
0.4
0.2
-1 -0.5 0 0.5 1 1.5 2

x
Figura 2.2: Función de distribución asociada a un evento al azar en (0,1).

Observación 2.1 Función de distribución empírica

En los dos ejemplos que hemos dado se conoce a priori la función de probabilidad
que da lugar al espacio probabilístico. Sin embargo, puede ocurrir que no conozcamos
absolutamente nada acerca de la probabilidad subyacente. En este caso, ¿cómo se puede
calcular o al menos aproximar la función de distribución? Mediante la llamada función
de distribución empírica.
Dado un conjunto de valores, (x1 , ..., xN ) , esta función se define como
no de valores ≤ x
SN (x) = .
N
El procedimiento para aproximar la función de distribución mediante la función de

distribución empírica es obtener esta curva para un gran número de valores; en ese
caso, la curva empírica se parecerá bastante a la función de distribución. Dicho de otra
forma,
lim SN (x) = F (x) ,

N→∞
para cada x.
Por ejemplo, aunque sabemos cuál es la verdadera forma de la cdf del ejemplo
anterior, en la Figura 2.3 vamos a calcular dos funciones de distribución empíricas
asociadas a sendas muestras de tamaño N = 10 (izquierda) y N = 100 (derecha).
Obsérvese que cuando aumenta el tamaño de la muestra (N), la función de dis-
tribución empírica se parece cada vez más a la cdf.
2.2.2 V.a. continua. Función de densidad
Si una v.a. X posee cdf, F (x) , continua y derivable excepto en un

conjunto numerable de puntos, se dice que es una v.a. continua.
El inconveniente de esta definición es que sólo puede utilizarse si se conoce a priori

la cdf de la v.a. De todas formas, puede verse que si la cdf es continua, el conjunto

Figura 2.3: Funciones de distribución empíricas.
de valores que puede tomar la v.a. es continuo, es decir, es un intervalo o uniones e

intersecciones de intervalos. Por ello, podemos decir también que
una v.a. es continua si el conjunto de valores que puede tomar

la v.a. sólo puede encerrarse en intervalos.
Dada una v.a. continua, X, la función de densidad de probabilidad
(a partir de ahora, dpf, por density probability function) de X es
dF (x)
f (x) =
dx
en todos los puntos donde F (x) sea derivable. En aquellos puntos donde
no lo sea, puede asignarse cualquier valor positivo a la dpf.
Proposición 2.2 Dada una v.a. continua, X con dpf f (x):
1. f (x) ≥ 0 para todo x ∈ R.

R∞
2. −∞ f (x) = 1.
Rb
3. P [a < X < b] = P [a ≤ X < b] = P [a < X ≤ b] = P [a ≤ X ≤ b] = a f (x) dx.
4. En general, para cualquier conjunto de números reales, B, tal que X −1 (B) ∈ z,

R
P [X ∈ B] = B f (x) dx.
Demostración. La primera propiedad es trivial considerando que F es no decre-

ciente.
La segunda y la tercera se deducen del Teorema Fundamental del Cálculo, de la
Regla de Barrow y de la definición de cdf.
La cuarta es una extensión de la tercera que se basa en la expresión de B como
unión e intersección numerable de intervalos disjuntos.
Obsérvese que las condiciones fundamentales que ha de verificar una dpf son dos:
1. f (x) ≥ 0 para todo x

R∞
2. −∞ f (x) dx = 1.
Una función con esas características puede considerarse dpf de alguna v.a. de tipo
continuo.
Por otra parte, de la propiedad cuarta se deduce la que sin duda es la característica
fundamental de la función de densidad:
se trata de aquella función que permite calcular la probabilidad

de un suceso como el área encerrada bajo ella.
Observación 2.2 Interpretación frecuentista de la dpf. Histograma.

Para entender correctamente el significado de la dpf de una variable de tipo conti-
nuo, vamos a considerar el llamado histograma asociado a unos datos, que cuando el
número de datos tiende a infinito, tiende a la dpf de la variable.
Concretamente, dada una muestra de N elementos de una v.a. (x1 , ..., xN ), un
histograma asociado a esos datos es un diagrama de barras en el que se divide el eje
X en intervalos (generalmente de la misma longitud) y se representa en cada intervalo
Figura 2.4: Histogramas.
una barra cuya área es igual a la proporción de datos de la muestra que pertenecen al
intervalo.
En general, si notamos HN (x) a un histograma asociado a una muestra de tamaño
√
N de una v.a. X, considerando (por ejemplo) N intervalos en el eje X, se verifica
que
lim HN (x) = fX (x) .

N→∞
Vamos a considerar un sencillo ejemplo para ilustrar esto: Veremos más adelante
una cierta función de densidad cuya expresión es fX (x) = e−x u (x). Mediante Matlab
simulamos dos muestras de esta variable, una con N = 100 valores y otra con N =
1000, y cuyos histogramas aparecen en la Figura 2.4.
Obsérvese que cuanto mayor es N más se aproximan los histogramas a la auténtica
dpf.
Además, téngase en cuenta que el área por debajo del histograma es la proporción
de datos de la muestra en cada intervalo del eje X, de igual forma que el área bajo la
dpf es la proporción de valores de la v.a. en el intervalo en cuestión.
En Viniotis (1997) 86-95 aparecen varios histogramas vinculados a muestras de v.a.
en el campo de las Telecomunicaciones que pueden resultar interesantes para compren-
der el concepto de función de densidad.
Por otra parte, a la hora de observar una v.a. de tipo continuo y de interpretar su
función de densidad, es importante tener en cuenta que la probabilidad de los valores
una v.a. de estas características es cero, ya que
Z x0
P [X = x0 ] = f (x) dx = 0.
x0
La forma de calcular la cdf, conocida la dpf, es obvia y queda recogida en el siguiente

resultado.
Rx
Proposición 2.3 Si X es una v.a. continua con dpf f (x) , entonces F (x) = −∞ f (t) dt.
Demostración. Es el Teorema Fundamental del Cálculo, considerando que F (−∞) =

0.
Ejemplo 2.4 Considérese una variable aleatoria continua, X, con dpf f (x) = ce−a|x| .
Vamos a calcular la constante c, la cdf y P [X ≥ 0].
En primer lugar,
Z ∞ Z 0 Z ∞
1= f (x) dx = f (x) dx + f (x) dx
−∞ −∞ 0
Z 0 Z ∞
2c
= c exp (ax) dx + c exp (−ax) dx = ,
−∞ 0 a
luego es necesario que c = a2 .

Por otra parte,

Z x  1 ax
2e si x < 0
F (x) = f (t) dt =
−∞  1
+1−e−ax
si x ≥ 0
2 2
µ −ax
¶
1 1 1−e
= eax I(−∞,0) (x) + + I[0,∞) (x) .
2 2 2
R∞
Por último, P [X ≥ 0] = 0 f (x) dx = 12 .
La función de densidad y la de distribución, para a = 1, aparecen en la Figura 2.5.
0.5
1
0.4
0.8
0.3
0.6
0.2 0.4
0.1 0.2
-4 -2 0 2 4 -4 -2 0 2 4
x x
Figura 2.5: Función de densidad (izquierda) y de distribución (derecha).
Ejemplo 2.5 Si consideramos la cdf del Ejemplo 2.3,



 0 si x < 0


F (t) = t si 0 ≤ t < 1 ,



 1 si t ≥ 1
la dpf es

dF  1 si 0 ≤ x ≤ 1
f (x) = = I[0,1] (x) =
dx  0 en otro caso
Gráficamente, ambas funciones aparecen en la Figura 2.6.
2.2.3 V.a. discreta. Función masa de probabilidad
Se dice que una v.a. es discreta si su cdf es de tipo escalonado.

En ese caso, se define la función masa de probabilidad (a partir de
ahora, mpf, por mass probability function) de la v.a. X como
¡ ¢
f (x) = P [X = x] = F (x) − F x− ,
para cada x ∈ R.
1 1
0.8 0.8
0.6 0.6
F(x) F(x)
0.4 0.4
0.2 0.2
-1 -0.5 0 0.5 1 1.5 2 -1 -0.5 0 0.5 1 1.5 2

x x
Figura 2.6: Función de densidad (izquierda) y de distribución (derecha).
Obsérvese que en una v.a. discreta, los únicos valores que pueden darse (con pro-
babilidad no nula) son los puntos donde se dan los saltos de la cdf. Por ello también se
puede decir que
una v.a. es discreta si toma un conjunto a lo sumo numerable

de valores aislados.
Desde ese punto de vista, la mpf es la función que da la probabilidad de cada punto
o valor posible de la variable aleatoria.
Veamos las propiedades más importantes de esta función:
Proposición 2.4 Sea X una v.a. discreta, F (x) su cdf y f (x) su mpf. Entonces
1. f (x) ≥ 0 para todo x ∈ R.

P
2. x∈R f (x) = 1.
P
3. F (x) = xi ≤x f
(xi ) , donde xi son los puntos de salto de la función F . Equiva-
P
lentemente, F (x) = xi f (xi ) u (x − xi ) .
P
4. P [X ≤ a] = F (a) = x1 ≤a f (xi )
P
5. P [X < a] = F (a− ) = xi <a f (xi )
P
6. P [X ≥ a] = 1 − F (a− ) = xi ≥a f (xi )
P
7. P [X > a] = 1 − F (a) = xi >a f (xi )
P
8. P [a < X < b] = F (b− ) − F (a) = a<xi <b f (xi )
P
9. P [a ≤ X < b] = F (b− ) − F (a− ) = a≤xi <b f (xi )
P
10. P [a < X ≤ b] = F (b) − F (a) = a<xi ≤b f (xi )
P
11. P [a ≤ X ≤ b] = F (b) − F (a− ) = a≤xi ≤b f (xi )
P
12. En general, para cualquier conjunto B tal que X −1 (B) ∈ z, P [X ∈ B] = xi ∈B f (x) ,
donde xi son valores posibles de X.
Demostración. Trivial a partir de la definición de mpf y cdf.

A la luz de este resultado, se observa que las propiedades fundamentales que tiene
que cumplir una función para ser mpf son:
1. f (x) ≥ 0
P
2. xi f (xi ) = 1.
Una función que verifique esas dos condiciones puede considerarse mpf de alguna
v.a. de tipo discreto.
Obsérvese la similitud de estas propiedades con las que debe verificar cualquier dpf.
Ejemplo 2.6 En el ejemplo del lanzamiento del dado,
1
f (1) = ... = f (6) =
6
f (x) = 0 en cualquier otro caso,
y su cdf,
1 1 1 1
F (x) = u (x − 1) + u (x − 2) + u (x − 3) + u (x − 4) +
6 6 6 6
1 1
u (x − 5) + u (x − 6) .
6 6
Ejemplo 2.7 Sea una v.a. X con cdf dada por



 0 si x < 0




1 1 1  1
si 0 ≤ x < 1
3
F (x) = u (x) + u (x − 1) + u (x − 2) =
3 3 3 
 2
si 1 ≤ x < 2

 3


 1 si 2 ≤ x
Entonces, su mpf es
1 1
f (0) = F (0) − ”F (−∞) ” = −0=
3 3
2 1 1
f (1) = F (1) − F (0) = − =
3 3 3
2 1
f (2) = F (2) − F (1) = 1 − =
3 3
f (x) = 0 en cualquier otro caso.
Ejemplo 2.8 Sea X v.a. con mpf dada por
f (0) = 0.1
f (1) = 0.2
f (2) = 0.1
f (3) = 0.4
f (4) = 0.2
f (x) = 0 en cualquier otro caso.

Entonces, su cdf es


 0 si x < 0





 0.1 si 0 ≤ x < 1




 0.3 si 1 ≤ x < 2
F (x) =

 0.4 si 2 ≤ x < 3





 0.8 si 3 ≤ x < 4





1 si 4 ≤ x
= 0.1u (x) + 0.2u (x − 1) + 0.1u (x − 2) + 0.4u (x − 3) + 0.2u (x − 4) .
Ejemplo 2.9 Con los datos del ejemplo anterior, calculemos:
P [0 < X < 3] = f (1) + f (2) = 0.2 + 0.1 = 0.3

¡ ¢
= F 3− − F (0) = 0.4 − 0.1 = 0.3
¡ ¢
P [X ≥ 1] = 1 − F 1− = 1 − 0.1 = 0.9
= f (1) + f (2) + f (3) + f (4) = 0.2 + 0.1 + 0.4 + 0.2 = 0.9
2.2.4 Función Delta de Dirac
Hasta ahora podemos estudiar v.a. de tipo continuo, que tienen cdf continua y
derivable (salvo en un conjunto numerable) y toman valores en intervalos, y v.a. dis-
cretas, que tienen cdf escalonadas y toman valores aislados. El problema que presenta el
estudio conjunto de estos dos tipos de v.a. es que la notación se complica enormemente,
ya que constantemente hay que estar distinguiendo el caso discreto del continuo.
El objetivo de este apartado es ofrecer una interpretación de las v.a. discretas que
permita estudiarlas como v.a. continuas límite, considerando para ello la denomina-
da función delta de Dirac, que permitirá definir para una v.a. discreta una función
equivalente a la dpf de las v.a. continuas, llamada dpf generalizada.
3 3
2.5 2.5
2 2
1.5 1.5
1 1
0.5 0.5
-1 -0.5 0 0.5 1 -2 -1 0 1 2
x x
Figura 2.7: La función delta de Dirac como límite de funciones rectángulo (izquierda)
y funciones de Gauss (derecha).
La función Delta de Dirac, notada δ (x), se ’define’ habitualmente como una función
constantemente nula fuera del punto x = 0, donde su valor es infinito, de tal manera
que
Z ∞
δ (x) dx = 1.
−∞
Dado que la función así definida es no negativa e integra la unidad, también puede
verse como una dpf que acumula toda la probabilidad en el punto cero (se trataría por
tanto, de una v.a. discreta, ya que sólo toma un valor).
En un sentido más riguroso, esta función puede verse como función límite de suce-
siones de funciones (también de densidad). Por ejemplo,
δ (x) = lim a rect (ax)

a→∞
2 x2
δ (x) = lim a e−πa .
a→∞
Aún se da una definición alternativa de la función δ (x) como el elemento neutro de

la convolución, es decir, como aquella función tal que para cualquier otra función f (·) ,
R∞
−∞ f (y) δ (y − x) dy = f (x) .
Por otra parte, la función umbral en el punto x = 0, u (x), que es discontinua en
x = 0, puede verse también como lim∆→0 g∆ (x) , donde g∆ (x) son funciones continuas
de la forma


 0 si x ≤ −∆

 2
x 1
g∆ (x) = + si − ∆
2 <x≤
∆ .

 ∆ 2 2

 ∆
1 si x> 2
Obsérvese que la derivada de estas funciones es



 0 if x ≤ −∆

 2
∂ 1 ∆ ∆
g∆ (x) = ∆ if − 2 < x ≤
∂x 
 2

 0 if x> ∆
2
∂ ∂ ∂
y lim∆→0 ∂x g∆ (x) = δ (x) . Por otra parte, lim∆→0 ∂x g∆ (x) = ∂x lim∆→0 g∆ (x) =
∂ ∂
∂x u (x); luego, δ (x) = ∂x u (x) , de manera que
la función delta también puede interpretarse como la derivada

de la función impulso unitario.
Por otra parte, hemos visto que dada una v.a. discreta X, se tiene que su función
de distribución puede expresarse en términos de su función masa como
X
FX (x) = fX (xi ) u (x − xi ) .
xi
Si ’derivamos’ en esta expresión, se tiene que para esta v.a. discreta podemos considerar
una función de densidad generalizada, dada por
dFX (x) X
f (x) = = fX (xi ) δ (x − xi ) .
dx x i
Para calcular probabilidades de esta variable a partir de la función f (·), se tendría que
Z x+
FX (x) = f (ξ) dξ,
−∞
1
3
0.8 2.5
0.6 2
1.5
0.4
1
0.2
0.5
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1

x x
Figura 2.8: La función delta de Dirac como derivada de la función umbral.
y pueden aplicarse las propiedades de la cdf.

En resumen:
Teorema 2.1 Sea X una v.a. discreta que toma valores x1 , x2 , ..., con mpf dada por
fX (·) , dpf generalizada dada por f (·) y cdf dada por FX (·). Entonces:
X
FX (x) = fX (xi ) u (x − xi ) ,
xi
dFX (x) X
f (x) = = fX (xi ) δ (x − xi ) ,
dx x i
Z x+
FX (x) = f (ζ) dζ
−∞
y
Z b−(+)
P [a < (≤)X < (≤)b] = f (ζ) dζ.
a+(−)
Demostración. La hemos venido haciendo a lo largo del capítulo.

Ejemplo 2.10 Consideremos una v.a. discreta con mpf dada por


 0.2 si x=0


fX (x) = 0.6 si x=1 .



 0.2 si x=3
En ese caso, su densidad generalizada sería
f (x) = 0.2δ (x) + 0.6δ (x − 1) + 0.2δ (x − 3) ,
y su cdf,
FX (x) = 0.2u (x) + 0.6u (x − 1) + 0.2u (x − 3) .
Así, por ejemplo:

Z 1.5+
P [X ≤ 1.5] = f (ξ) dξ = f (0) + f (1) = 0.2 + 0.6 = 0.8
−∞
Z 3+
P [1 < X ≤ 3] = f (ξ) dξ = f (3) = 0.2
1−
Z 3−
P [1 ≤ X < 3] = f (ξ) dξ = f (1) = 0.6
1+
Gracias al concepto de dpf generalizada, podremos más adelante tratar de manera

unificada las v.a. discretas y continuas, utilizando para el cálculo de probabilidades las
propiedades enunciadas para las dpf en general.
2.3 Descripción de algunos modelos de v.a. discretas y

continuas
En esta sección se describen algunos de los modelos más conocidos para las v.a. En
general, cuando se habla de estos modelos se les denomina distribuciones. La forma
de caracterizar una distribución es definir su cdf, su dpf (caso continuo) o su mpf o dpf
generalizada (caso discreto).

$
$

2=:Z?
2=:Z?

: :
Figura 2.9: Funciones masa de sendas distribuciones binomiales.
2.3.1 Distribución binomial
Consideremos un experimento aleatorio que se repite n veces de forma

independiente y donde un suceso que denominamos éxito ocurre con proba-
bilidad constante p. La variable aleatoria que mide el número de éxitos es
una variable que se denomina binomial de parámetros n y p y se nota
X → B (n, p). Su mpf es
n!
f (x) = px (1 − p)n−x , x = 0, 1, 2, ..., n,
x! (n − x)!
y su dpf generalizada
n
X n!
f (x) = pk (1 − p)n−k δ (x − k)
k! (n − k)!
k=0
Gráficamente, por ejemplo, la mpf de v.a. con distribuciones B (10, 0.2) y B (10, 0.8)
aparecen en la Figura 2.9.
Para comprobar que, efectivamente, es mpf hemos de confirmar que su suma es la
unidad (se ve claramente que es positiva):
n
X n!
· px · (1 − p)n−x = [p + (1 − p)]n = 1,
x=0
x! (n − x)!
utilizando el desarrollo del binomio de Newton.

Un ejemplo particular de distribución binomial lo constituye la denominada dis-
tribución de Bernouilli. Se trata de una distribución B (1, p), con mpf

 1 − p si x = 0
f (x) = .
 p si x = 1
Ejemplo 2.11 Consideremos que se transmiten mensajes de 10 dígitos a través de un

canal binario simétrico con probabilidad de cruce ε = 0.05. Notemos por X el no de
dígitos erróneos recibidos en cada mensaje. Se trata de una v.a. y su distribución es
B (10, 0.05) .
2.3.2 Distribución de Poisson
Consideremos el número de éxitos en una serie indefinida de realizaciones

independientes donde los éxitos acontecen a razón de λ veces por unidad de
tiempo (en promedio). En ese caso
X : número de ocurrencias del suceso por unidad de tiempo
es una variable de Poisson de parámetro λ, y se nota X → P (λ) . Su

mpf vale:
λx
f (x) = e−λ , x = 0, 1, 2, ...
x!
∞
X λk
f (x) = e−λ δ (x − k) .
k!
k=0
Por ejemplo, la mpf de distribuciones P (1) y P (10) tienen la forma que aparece
en la Figura 2.10.
Comprobemos que, efectivamente, es mpf :
X∞ X∞
λx λx
e−λ = e−λ = e−λ · eλ = 1,
x=0
x! x=0
x!
utilizando el desarrollo en serie de la función exponencial.

2
2

2=:Z?
2=:Z?

: :
Figura 2.10: Funciones masa de sendas distribuciones de Poisson.
Ejemplo 2.12 Si el promedio de visitas a una página WEB es de 15 visitas/día, el

número exacto de visitas en un día cualquiera podría considerarse una v.a. con dis-
tribución de Poisson de parámetro λ = 15.
2.3.3 Distribución geométrica
Una v.a. se dice que sigue una distribución geométrica de parámetro p, con
0 < p < 1, si su mpf es
f (x) = p (1 − p)x−1 , para x = 1, 2, ...
∞
X
f (x) = p (1 − p)k−1 δ (x − k) .
k=1
P∞ x−1 1
Obsérvese que x=1 p (1 − p) = p 1−(1−p) = 1, por lo que, en efecto, se trata de
una auténtica mpf.
Esta distribución está muy relacionada con la distribución de Bernouilli. Con-
cretamente, una distribución geométrica contabiliza el número de repeticiones de un
experimento de Bernouilli hasta el primer éxito. Es decir, si por ejemplo una v.a. que
tiene distribución geométrica de parámetro p toma el valor k, este hecho es equivalente

a decir que se han producido k − 1 ensayos de una v.a. con distribución de Bernouilli
con resultado cero y un último ensayo (el que hace el k−ésimo) con resultado uno, o
equivalentemente, se produzcan k − 1 ensayos hasta el primer éxito.
En ocasiones puede ser más conveniente utilizar la v.a. Y = X − 1, que tiene mpf
f (y) = P [Y = y] = P [X = y + 1] = p (1 − p)y ,
para valores y = 0, 1, 2, ... La razón es que si X se interpreta como el número de experi-

mentos hasta el éxito, puede resultar más conveniente contar el número de fracasos, Y ,
hasta el éxito, que será el número de experimentos hasta el éxito, X, menos el propio
éxito.
Se tiene, por tanto, que hay dos formas de expresar esta distribución, dependiendo
de si la variable objeto de nuestro estudio puede tomar o no el valor 0. Así, las funciones
masa pueden ser
f (x) = p (1 − p)x−1 , para x = 1, 2, ...
f (x) = p (1 − p)x , para x = 0, 1, 2, ...
Por ejemplo, la mpf de sendas distribuciones geométricas de parámetros p = 0.5, p =

0.9 aparecen en la Figura 2.11.
Ejemplo 2.13 Siguiendo con el ejemplo de la binomial, si tratamos de contar uno a

uno el número de bits correctos hasta llegar en una secuencia de bits hasta el primer
bit erróneo, dicha v.a. seguirá una distribución geométrica de parámetro 0.05.
Ejemplo 2.14 El tráfico WEB de datos puede analizarse como la transmisión a los
largo del tiempo de los denominados paquetes de llamada, que son mensajes transmi-
tidos en una trama compuestos a su vez por datagramas.

)
)

2=:Z?
2=:Z?

: :
Figura 2.11: Funciones masa de sendas distribuciones geométricas.
Instantes de llegada de datagramas al buffer
Un paquete de llamada
Una sesión de tráfico WEB
Un datagrama dentro de
un paquete de llamada
Figura 2.12: Esquema de las características de una sesión de tráfico WEB.

Determinados organismos, como la European Telecommunications Standard Insti-

tute, recomiendan en sus protocolos que variables discretas como el no de paquetes de
llamada en una comunicación, el tiempo de lectura entre dos paquetes de llamada con-
secutivos, el número de datagramas en un paquete de llamada o el tiempo de lectura
entre dos datagramas de un paquete de llamada se describan como v.a. discretas con
distribución geométrica.
2.3.4 Distribución binomial negativa
Una v.a. se dice que sigue una distribución binomial negativa de parámetros r
y p, con r entero y 0 < p < 1, y se nota X → BN (r, p), si su mpf es
µ ¶
x−1 r
f (x) = p (1 − p)x−r para x = r, r + 1, ...
r−1
Esta distribución es una extensión de la geométrica y está relacionada con la de

Bernouilli en el siguiente sentido: el que una distribución binomial negativa de paráme-
tros r y p tome el valor k es equivalente a que se produzcan k − 1 ensayos de Bernouilli
hasta el r ésimo éxito.
Análogamente a lo que ocurre con la geométrica, en ocasiones puede ser más conve-
niente contar el número de fracasos hasta r−ésimo éxito, en cuyo caso se 
tendrá que la
k+r−1
v.a. toma valores k = 0, 1, ... con probabilidad P [X = k] =   pr (1 − p)k .
r−1
Se tienen, por tanto, dos formas de expresar la función masa de la distribución:
µ ¶
x−1 r
f (x) = p (1 − p)x−r para x = r, r + 1, ...
r−1
ó
 
x+r−1
f (x) =   pr (1 − p)x para x = 0, 1, ...;
r−1
se elegirá una u otra dependiendo de si nuestra variable observada admite o no el valor

0.
Ejemplo 2.15 Continuando con el ejemplo del canal binario simétrico con probabilidad
de cruce ε = 0.05, si, por ejemplo, estamos interesados en contar el número de bits
correctos hasta que se produce el 2o error, dicha v.a. sigue una distribución BN(2, 0.95).
Ejemplo 2.16 Si consideramos el estudio de tráfico de vídeo de teleconferencia en

redes ATM, el número de celdas ocupadas por cada trama de tráfico puede considerarse
que sigue una distribución binomial negativa.
2.3.5 Distribución uniforme
Se dice que una v.a. X es uniforme entre x1 y x2 y se nota X →

U (x1 , x2 ) si su dpf es

 1
si x1 < x < x2
x2 −x1
f (x) =
 0 en otro caso
µ ¶
1 1 1
= rect x − (x1 + x2 ) = [u (x − x1 ) − u (x − x2 )] .
x2 − x1 2 x2 − x1
Comprobamos que en efecto es dpf ya que

Z ∞ Z x1 Z x2 Z ∞
f (x) dx = f (x) dx + f (x) dx + f (x) dx
−∞ −∞ x1 x2
= 0 + 1 + 0 = 1.
La cdf de esta variable es

Z x
F (x) = f (t) dt
−∞


 0 si x < x1


= x−x1
si x1 ≤ x < x2

 x2 −x1

 1 si x ≥ x2
x − x1
= I (x) + I[x2 ,∞) (x) .
x2 − x1 [x1 ,x2 )
El ejemplo más habitual de esta variable es la variable uniforme en el intervalo

(0, 1) ; valores simulados de esta variable son los que se calculan con la orden RND de
cualquier calculadora o con la función rand de MATLAB.
La característica que define a esta variable es que dos intervalos cualesquiera entre
x1 y x2 de la misma longitud, tienen la misma probabilidad.
2.3.6 Distribución exponencial
Esta distribución modela muy satisfactoriamente aquellos fenómenos aleatorios que

miden el tiempo que transcurre entre que ocurren dos sucesos. Por ejemplo, entre la
puesta en marcha de una cierta componente y su fallo o el tiempo que transcurre entre
dos llamadas consecutivas a una centralita.
Si X sigue una distribución exponencial de parámetro λ, se nota

X → exp (λ), su cdf es
½
1 − e−λx si x ≥ 0 ³ ´
P [X ≤ x] = = 1 − e−λx u (x) ,
0 en otro caso
su dpf
½
λ · e−λx si x ≥ 0
f (x) = = λe−λx u (x)
0 en otro caso
y su función de supervivencia,
½ −λx
e si x ≥ 0
P [X > x] = .
1 en otro caso
Para comprobar que la función f (x) es, efectivamente, dpf,

Z ∞ Z ∞ h i∞
f (x) dx = λ · e−λx · dx = −e−λx = 1 − lim e−λx = 1.
−∞ 0 0 x→∞
Ejemplo 2.17 Si en Ejemplo 9.4 consideramos el tiempo que transcurre entre visita y
visita a la página WEB, este tiempo (medido en días), T , es una v.a. exp (15).
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
-1 0 1 2 3 4 5 -1 0 1 2 3 4 5
x x
Figura 2.13: Función de densidad (izquierda) y de distribución (derecha) de una dis-

tribución exponencial de parámetro 1.
2.3.7 Distribución Gamma
Una v.a. sigue una distribución Gamma de parámetros a y λ si su

dpf es
λ (λx)a−1 e−λx
f (x) = u (x) ,
Γ (a)
R∞
donde Γ (x) = 0 sx−1 e−s ds es la función gamma.
Su cdf no tiene en general una expresión explícita, aunque sí en determinadas

elecciones de sus parámetros.
Si a = n, número natural, la distribución se denomina Erlang. Esta distribución

juega un papel fundamental en el ámbito de la teoría de colas y en su aplicación al
Teletráfico; la estudiaremos con más detalle en el tema dedicado al proceso de Poisson.
En el caso en que n = 1 se tiene la distribución exponencial.
0.35 0.12
0.3
0.1
0.25
0.08
0.2
0.06
0.15
0.04
0.1
0.05 0.02
0 2 4 6 8 10 0 5 10 15 20 25 30
x x
Figura 2.14: Funciones de densidad de distribuciones gamma de parámetros 2 y 1

(izquierda) y 10 y 1(derecha).
2.3.8 Distribución de Weibull
Una v.a. sigue una distribución de Weibull si su dpf es
β
f (x) = αβxβ−1 e−αx u (x) .
Su cdf es
β
F (x) = 1 − e−αx u (x) .
Obsérvese que si β = 1 se tiene la distribución exponencial.
Si por el contrario, β = 2, la distribución de denomina distribución de Rayleigh;

esta distribución es utilizada, por ejemplo, para medir la fluctuaciones aleatorias de la
amplitud de ciertas ondas o para modelizar la intensidad de los vientos.
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2 0.2
-1 0 1 2 3 4 5 -1 0 1 2 3 4 5
x x
Figura 2.15: Función de densidad (izquierda) y de distribución (derecha) de una dis-

tribución de Weibull de parámetros 1 y 2.
2.3.9 Distribución normal
Una variable aleatoria continua es normal o gaussiana, de paráme-

¡ ¢
tros µ y σ2 y se nota X → N µ, σ 2 , si su dpf es
" #
1 (x − µ)2
f (x) = √ exp − para todo x ∈ R.
2πσ2 2σ2
Esta dpf tiene la propiedad de ser simétrica respecto a µ (que como veremos es
su media). Además, es tanto más ”achatada” cuanto mayor sea σ2 , y tanto más
”apuntada” cuanto menor sea σ2 (ver Figura 2.16).
Su cdf viene dada por
Z " #
x
1 (t − µ)2
F (x) = √ exp − dt,
−∞ 2πσ2 2σ 2
sin que esta integral pueda ser expresada mediante funciones elementales. Su cálculo
debe llevarse a cabo mediante técnicas de análisis numérico.
Figura 2.16: Funciones de densidad de distribuciones normales de media 0 y varianza

0.5, 1 y 4.
La importancia de la distribución normal es imponderable. Es, sin duda, el modelo

aleatorio más relevante de todos los posibles. La razón es que puede servir como modelo
de la inmensa mayoría de los fenómenos de la naturaleza. También en el ámbito de las
Telecomunicaciones la distribución normal es muy utilizada. Por ejemplo, veremos que
es un buen modelo para describir el ruido que se adhiere a una señal aleatoria.
2.4 Distribuciones condicionadas
Hasta ahora hemos dado las definiciones necesarias para describir una variable
aleatoria X, discreta o continua, mediante su distribución de probabilidad: Dicha dis-
tribución de probabilidad queda caracterizada mediante la cdf o mediante las funciones
mpf o dpf, según sea discreta o continua. De esta forma, aunque los valores que tome
la variable X no pueden ser conocidos a priori, hasta que se produce una realización
concreta, sí podemos conocer la probabilidad de que los valores que adquiera la variable
pertenezcan a un intervalo, por ejemplo.
En esta sección queremos generalizar el concepto de distribución de probabilidad
considerando un concepto del que ya hemos hablado: La probabilidad condicionada. La
motivación de lo que vamos a llamar distribuciones condicionadas es la misma que la

que hicimos en su momento para la probabilidad condicionada: El conocimiento previo
de cualquier suceso modifica nuestro grado de creencia en la ocurrencia posterior de
cualquier otro suceso. A continuación veremos ejemplos que aclararán cualquier duda.
Sea una variable aleatoria X con cdf F (x) y sea un suceso A con proba-
bilidad no nula. Se define la cdf condicionada de la v.a. X al suceso
A como
P [{X ≤ x} ∩ A]
F (x | A) = ,
P [A]
donde P [·] es la probabilidad asociada a la distribución de la v.a. X.
Puede comprobarse que la función F (· | A) cumple las propiedades de cualquier cdf,

como en la Proposición 2.1.
Sea una v.a. discreta X y sea un suceso A con probabilidad no nula. Se

define la mpf de X condicionada al suceso A como
f (x | A) = P [X = x | A] .
La relación existente entre la cdf condicionada y la mpf condicionada es la misma

que la que existe entre el análogo de ambas funciones sin condicionamiento, recogida
en la Proposición 2.4.
Sea una v.a. continua X y sea un suceso A con probabilidad no nula.

Se define la función de densidad de probabilidad de X condicionada
al suceso A como
dF (x | A)
f (x | A) = .
dx
La relación existente entre la cdf condicionada y la dpf condicionada es análoga a

la que existe entre ambas funciones sin condicionamiento, recogida en la Proposición
2.2.
Existe un caso importante donde el cálculo de la dpf condicionada es más explícito:
Sea X una v.a. continua y sea A = {a < X < b}1 . En ese caso,
P [X ≤ x ∩ a < X < b]
F (x | A) =
P [a < X < b]


 0 si x ≤ a


P [X≤x]
= si a < x < b

 P [a<X<b]

 1 si x ≥ b


 0 si x ≤ a


F (x)
= si a < x < b .

 F (b)−F (a)

 1 si x ≥ b
Además, esta expresión es válida para a = −∞ y b = ∞, ya que
F (−∞) = lim F (x) = 0

x→−∞
F (∞) = lim F (x) = 1.

x→∞
Por tanto, la dpf condicionada es

dF (x | A)
f (x | A) =
 dx
 0 si x ≤ a ó x ≥ b
=
 dF (x) si a < x < b
F (b)−F (a)

 0 si x ≤ a ó x ≥ b
=
 f (x)
si a < x < b
F (b)−F (a)
Los conceptos de cdf, mpf y dpf de probabilidad condicionadas permiten calcular

probabilidades referentes a variables aleatorias en presencia de condicionamiento, de
una manera completamente análoga a como se hace cuando no hay ningún tipo de
condicionamiento. Dicho de otra forma, pueden reescribirse las proposiciones 2.2 y 2.4
en los mismos términos en presencia de condicionamiento.
1
Las desigualdades estrictas no son relevantes, ya que para una variable continua un punto no tiene
masa de probabilidad.
Ejemplo 2.18 Consideremos la variable del Ejemplo 2.8.
Sea A = {X > 2} . En ese caso,


 0 si x ≤ 2




P [X = x ∩ X > 2]  0.4
si x = 3
0.4+0.2
f (x | A) = =
P [X > 2] 
 0.2
si x = 4

 0.4+0.2


 0 en cualquier otro caso
Ejemplo 2.19 Sea una v.a. uniforme en el intervalo (0, 1). En ese caso, su dpf es
f (x) = 1 si 0 ≤ x ≤ 1
y cero en cualquier otro caso.
Supongamos que nos dicen que una realización de esta variable ha ocurrido en el
intervalo (0.5, 1). En ese caso, la dpf condicionada es

 0 si x ≤ 0.5 ó x ≥ 1
f (x | X ∈ (0.5, 1)) =
 f (x)
si 0.5 < x < 1
F (b)−F (a)

 0 si x ≤ 0.5 ó x ≥ 1
=
 1 si 0.5 < x < 1
0.5

 0 si x ≤ 0.5 ó x ≥ 1
= .
 2 si 0.5 < x < 1
Es decir, se trata de una v.a. con distribución U (0.5, 1).
Por último, la consideración de las v.a. discretas como límite de continuas utilizando
la función delta de Dirac puede realizarse de manera completamente análoga para definir
la dpf generalizada condicionada de una v.a. discreta.
2.5 Extensión del Teorema de la Probabilidad Total y del

Teorema de Bayes
Teorema 2.2 Sea X una v.a. continua definida sobre un espacio probabilístico (Ω, z, P ),
y sea B un suceso medible de dicho espacio. Entonces,
fX (x | B) P [B]
P [B | X = x] = .
fX (x)
Demostración. Si consideramos los sucesos B y X = x, según la definición de
probabilidad condicionada se tendría que
P [B, X = x]
P [B | X = x] = .
P [X = x]
El problema en esta expresión es que si X es continua, P [X = x] = 0. De todas formas,
tiene sentido pensar en la probabilidad P [B | X = x] como en la probabilidad de que
ocurra el suceso B una vez que se ha comprobado el valor de X, que ha resultado ser
x. Esta probabilidad, que no puede calcularse mediante la definición de probabilidad
condicionada, sí puede ser definirse de la siguiente manera. Por un lado, se tiene que
P [x < X ≤ x + ∆x | B] P [B]
P [B | x < X ≤ x + ∆x] = ;
P [x < X ≤ x + ∆x]
además,
P [x < X ≤ x + ∆x | B] = FX (x + ∆x | B) − FX (x | B)
P [x < X ≤ x + ∆x] = FX (x + ∆x) − FX (x) ,
de manera que dividiendo por ∆x en el numerador y el denominador y tomando ∆x →

0, se tiene que
P [B | X = x] = lim P [B | x < X ≤ x + ∆x]

∆x→0
fX (x | B) P [B]
= ,
fX (x)
siempre que fX (x) 6= 0.
Teorema 2.3 Sea X una v.a. continua definida sobre un espacio probabilístico (Ω, z, P ),
y sea B un suceso medible de dicho espacio. Entonces:
Z ∞
P [B] = P [B | X = x] fX (x) dx
−∞
Demostración. Si finalmente multiplicamos ambos miembros por fX (x) e inte-

gramos respecto de x, se tiene que
Z ∞
P [B] = P [B | X = x] fX (x) dx,
−∞
expresión que supone una extensión del Teorema de la Probabilidad Total.
1. En el Departamento de Arquitectura de Computadores de una cierta

universidad han diseñado un nuevo hardware y pretenden comprobar
si éste funciona. Para ello piden a una empresa proveedora que les
fabrique prototipos de su hardware. Cada prototipo cuesta 600² y
ellos disponen de un presupuesto de 2500². El problema es que en
el Departamento estiman en un 25% la probabilidad de que, en esta
primera fase del diseño, un prototipo se queme por un cortocircuito
al ponerlo en funcionamiento, sin que puedan comprobar el correcto
funcionamiento del hardware.
(a) ¿Cuál es la probabilidad de que no puedan comprobar si el hard-

ware funciona por falta de presupuesto?
Vamos a considerar la v.a. X : no de prototipos utilizados hasta que el primero

funciona, que sigue una distribución geométrica de parámetro p = 0.75. En
ese caso, se nos pregunta acerca de
∞
X
P [X > 4] = 0.75 (1 − 0.75)k−1 = 0.00 390 625.
k=5
(b) Si se necesitan al menos dos prototipos en funcionamiento para

verificar que ambos tienen el mismo comportamiento, ¿cuál es la
probabilidad de que no tengan suficiente presupuesto?
Consideremos ahora la v.a. Y : no de prototipos utilizados hasta que funcio-

nan dos de ellos, que sigue una distribución binomial negativa de parámetros
r = 2 y p = 0.75. En ese caso, se nos pide
∞ µ
X ¶
k−1
P [Y > 4] = 0.752 (1 − 0.75)k−2 = 0.051
1
k=5
(c) Después de la adquisición de dos prototipos, ambos han cortocir-

cuitado. Calcular de nuevo las probabilidades de a) y b).
Para responder al primer apartado bajo condicionamiento,
P [X > 4 ∩ X > 2] P [X > 4]

P [X > 4 / X > 2] = = = 0.0149
P [X > 2] P [X > 2]
De igual forma,
P [Y > 4 ∩ Y > 2] P [Y > 4]

P [Y > 4 / Y > 2] = = = 0.1946
P [Y > 2] P [Y > 2]
2. El voltaje, v (t) , de la corriente eléctrica que provoca un ruido en un

cierto canal de comunicación en cada instante t se modela adecuada-
mente mediante una distribución gaussiana de parámetros µ = 0V y
σ = 3.5V .
(a) ¿Cuál es la probabilidad de que el ruido supere los ±10V ?

· ¸
−10 10
P [|v (t)| > 10] = 1 − P [−10 < v (t) < 10] = 1 − P <Z<
3.5 3.5
= 1 − [FZ (2.86) − (1 − FZ (2.86))] = 0.0042.
(b) Se cuenta con un dispositivo detector de señal que se activa si

la señal que llega a través del canal supera los ±7V . Si en un
instante t0 este dispositivo se ha activado a causa del ruido, ¿cuál

es la probabilidad de que éste supere en ese instante los ±10V ?
P [|v (t)| > 10 ∩ |v (t)| > 7]

P [|v (t)| > 10 / |v (t)| > 7] =
P [|v (t)| > 7]
P [|v (t)| > 10 ]
= = 0.093.
P [|v (t)| > 7]
(c) Se desea diseñar un nuevo dispositivo del tipo del anteriormente

descrito, de manera que se active por un ruido como v (t) sólo
cuando éste tome el 10% de sus valores más extremos (se entiende
que el 5% de los más altos y el 5% de los más bajos), ¿cuál debe
ser el umbral en V donde el dispositivo se active?
Debemos encontrar v0 tal que
P [|v (t)| > v0 ] = 0.1
o equivalentemente
P [|v (t)| < v0 ] = 0.9.
Por su parte,
h v v0 i ³v ´
0 0
P [|v (t)| < v0 ] = P − <Z< = 2FZ − 1,
3.5 3.5 3.5
de donde se sigue que

³v ´
0
FZ = 0.95.
3.5
En ese caso,
v0
= 1.645
3.5
v0 = 5.7575V.
3. La amplitud, A, de la señal resultante de un sistema de radar que recibe

únicamente ruido sigue una distribución de Rayleigh con parámetro
α = 0.2V .
(a) El sistema proporciona una falsa detección de señal si A excede

un nivel umbral de a0 V. Calcular dicho umbral de manera que la
probabilidad de una falsa detección sea de 0.001.
La densidad de A es
2
fA (x) = 0.4xe−0.2x .
Debemos encontrar a0 tal que P [A > a0 ] = 0.001. Para ello

Z a0
P [A > a0 ] = 1 − fA (x) dx.
0
Resolviendo dicha integral, a0 = 5.8777.
(b) Se desea digitalizar el sistema de radar. Para ello, cuando se reciba

el ruido y su amplitud A, se construirá una nueva v.a. A0 , discreta,
con N valores a0 < ... < aN−1 de manera que siendo a0 = 0,
£ ¤ 1
P [an < A < an+1 ] = P an ≤ A0 < an+1 = , n = 0, ..., N − 2
N
£ 0 ¤ 1
P [A > aN−1 ] = P A ≥ aN−1 = .
N
Calcular y representar en una sola gráfica las funciones de dis-
tribución de A y de A0 para N = 10.
El primer valor viene dado por a0 = 0. El siguiente, a1 , debe ser tal que
Z a1
1
P [a0 < A < a1 ] = fA (x) dx = ,
a0 10
de donde se sigue que a1 = 0.7258. Procediendo análogamente, se sigue que
a2 = 1.0563, a3 = 1.3354, a4 = 1.5981, a5 = 1.8616
a6 = 2.1404, a7 = 2.4535, a8 = 2.8367, a9 = 3.393, a10 = 7.603

0.8
0.6
0.4
0.2
0 2 4 6 8
x
Figura 2.17: Funciones de distribución de A y A0 .
Por tanto, las cdf de A y A0 son, respectivamente:

³ 2
´
FA (x) = 1 − e−0.2x u (x)


 0 si x < 0.7258





 0.1 si 0.7258 ≤ x < 1.0563





 0.2 si 1.0563 ≤ x < 1.3354







 0.3 si 1.3354 ≤ x < 1.5981





 0.4 si 1.5981 ≤ x < 1.8616

FA0 (x) = 0.5 si 1.8616 ≤ x < 2.1404





 0.6 si 2.1404 ≤ x < 2.4535





 0.7 si 2.4535 ≤ x < 2.8367





 0.8 si 2.8367 ≤ x < 3.3393





 0.9 si 3.3393 ≤ x < 7.603




 1 si x ≥ 7.603
y sus gráficas aparecen en la Figura 2.17.
4. El receptor de un sistema de comunicación filtra y amplifica el voltaje

que llega a través de las terminales de una antena. El output final del
receptor, muestreado en un cierto instante de tiempo t, es una v.a. X.
Cuando no hay señal, sino sólo ruido ambiental (hipótesis H0 ), la dpf
de esta variable es
1 x2
fX (x / H0 ) = √ e− 0.5 .
0.5π
Cuando se recibe una señal además del ruido (hipótesis H1 ), la dpf es
1 (x−2.5)2
fX (x / H1 ) = √ e− 0.5 .
0.5π
A priori, la probabilidad de que se reciba señal es de 0.5.
(a) Suponiendo que se ha recibido un valor particular del output,

x = 1.2V , ¿cuál es la probabilidad (a posteriori) de que haya señal
presente?
Utilizando la extensión del teorema de Bayes, se tiene que
fX (1.2 / H1 ) P [H1 ]
P [H1 / x = 1.2] =
fX (1.2 / H1 ) P [H1 ] + fX (1.2 / H0 ) P [H0 ]
= 0.3775.
(b) ¿Cuál es la probabilidad de que el output recibido supere los 5V ?
P [X > 5] = P [X > 5 / H0 ] P [H0 ] + P [X > 5 / H1 ] P [H1 ]

µZ ∞ ¶ µZ ∞ ¶
1 1
= N (0; 0.25) dx + N (2.5; 0.25) dx '0
5 2 5 2
(c) ¿Cuál debe ser el umbral a partir del cual decidamos que hay
señal presente si queremos que la probabilidad de error tipo II sea
inferior al 5%? ¿Cuál es la probabilidad del error tipo I en ese
caso?
Debemos encontrar el valor de x0 tal que P [X < x0 / H1 ] = 0.05, cuya

solución es x0 = 1.677. Además, la probabilidad de error tipo I es
P [X > x0 /H0 ] = 0.0004.
1. Ejemplos de v.a. en Viniotis (1997) 71-76.
2. V.a. de tipo mixto (mezcla de discretas y continuas) en Yates & Goodman (1998)
148-150 y Stark & Woods (1994) 68-69.
3. La distribución de Poisson como límite de la distribución binomial en Stark &

Woods (1994) 37-42.
4. Más distribuciones de tipo discreto y continuo con interesantes ejemplos en Pa-

poulis (1991) 73-79, Yates & Goodman (1998) 49-55 y 132-143, Peyton (1993)
48-57 y Stark & Woods (1994) 60-66.
5. El test χ2 para comparar histogramas con funciones de densidad en Viniotis

(1997) 111-114.
6. Probabilidad geométrica en Grimmet & Stirzaker (2001) 133-138.

Capítulo 3
Funciones de una variable

aleatoria
Resumen. El comportamiento desde el punto de vista probabilístico de

una v.a. se modifica cuando sobre ésta se realiza una determinada trans-
formación: en el presente capítulo se establecen resultados que permiten
conocer la distribución de probabilidad de funciones de una v.a. Por otra
parte, se definen la media y la varianza asociadas a una v.a., que propor-
cionan información muy relevante acerca del comportamiento de la v.a.
3.1 Transformaciones de una variable aleatoria
Sea X una v.a. definida sobre el espacio probabilístico (Ω, z, P (·)), y sea Y = g (X)
una nueva v.a.1 fruto de aplicar la función g (·) sobre los valores de X. De esta manera,
los valores concretos de Y se darán cuando:
1. Ocurra un resultado del espacio probabilístico, ω,

1
g debe ser una función medible, es decir, para todo y ∈ R, {ω : g (X (ω)) ≤ y} debe ser un conjunto
de la σ−álgebra z.
77
2. se asocie a este resultado ω el valor según X, xω = X (ω), y
3. se obtenga la realización de Y , yω = g (xω ) = g (X (ω)) .
Por tanto, la nueva variable Y es una v.a. definida sobre el mismo espacio proba-
bilístico que la variable X, pero cuya distribución, lógicamente, no es la misma que la
de X, ya que se ve afectada por la transformación g (·). El objetivo de esta sección es
describir la distribución de la variable Y a partir de la de la variable X.
Teorema 3.1 (del cambio de variable discreto) Sea X una v.a. cualquiera y sea
Y = g (X) una transformación medible de X de manera que resulte una v.a. discreta.
Entonces, la mpf de Y viene dada por
£ ¤
fY (y) = P X ∈ g −1 (y) .
Demostración. Trivial.
Corolario 3.1 Sea X una v.a. discreta y sea Y = g (X) una transformación medible
de X de manera que resulte una v.a. discreta. Entonces, la mpf de Y viene dada por
X
fY (y) = fX (x) ,
x∈g −1 (y)
donde fX (·) es la mpf de X.
Ejemplo 3.1 Sea una v.a. X → Geométrica (3/4). entonces,

µ ¶x−1
3 1
fX (x) = · para x = 1, 2, 3, ...
4 4
Sea la variable Y = X 2 . Vamos a encontrar su mpf:
Como todos los valores de X son positivos, la transformación g (x) = x2 es una
transformación uno a uno; en este caso,
µ ¶√y−1
3 1
fY (y) = · para y = 1, 4, 9, ...
4 4
Ejemplo 3.2 Sea X v.a. discreta con dpf generalizada
1 1 1 1 11
fX (x) = δ (x + 2) + δ (x + 1) + δ (x) + δ (x − 1) + δ (x − 2)
5 6 5 15 30
Vamos a calcular la función distribución de Y = X 2 .

El conjunto de valores que toma la variable Y es
n o
2 2 2 1 2
Y ∈ (−2) , (−1) , 0 , 1 , 2 = {0, 1, 4} .
La mpf de Y :
X 1
fY (0) = fX (x) = fX (0) =
5
x∈g −1 (0)
X 1 1
fY (1) = fX (x) = fX (−1) + fX (1) = +
6 15
x∈g −1 (1)
X 1 11
fY (4) = fX (x) = fX (−2) + fX (2) = + .
5 30
x∈g −1 (4)
Teorema 3.2 (del cambio de variable continuo) Sea X una v.a. continua con
dpf fX positiva en el conjunto A. Sea Y = g (X) una transformación medible de X
de manera que Y resulte una v.a. continua.
Entonces, la dpf de Y puede calcularse en dos pasos de la siguiente manera:
1. Resolviendo para cada y la ecuación y = g (x) , denotando x1 , ..., xn , ... a sus

soluciones reales.
2. Asignando

 fX (x1 )
+ ... + fX (xn )
+ ... si y ∈ g (A)
|g 0 (x1 )| |g 0 (xn )|
fY (y) = .
 0 en otro caso
Demostración. Stark & Woods (1994), 120.
Observación 3.1 Puede darse una expresión alternativa de este resultado consideran-
do la fórmula de la derivada inversa.
Ejemplo 3.3 Sea una v.a. continua X, con dpf


 1 · e− σx si x > 0
σ
fX (x) = .
 0 en otro caso
Vamos a calcular la dpf de la variable Y = Ln X.

g (X) = Ln X, estrictamente creciente, de manera que para cada y, la ecuación
y = ln x tiene sólo una solución, g−1 (y) = ey .
dg −1 (Y )
Por otra parte, dY = eY y A = (0, ∞) , luego g (A) = (−∞, ∞, ) así que
½
1 − ey y
fY (y) = e σ · e para todo y ∈ (−∞, ∞)
σ
½ ³ ´
1 − eσy −y
= e para todo y ∈ (−∞, ∞)
σ
Ejemplo 3.4 Sea una v.a. X con distribución exponencial de parámetro λ = 1. Sea la
v.a. Y = 2X 2 . Calculemos la dpf de Y.
Dado que g (X) = 2X 2 , se tiene que g 0 (X) = 4X.
Si y < 0, la ecuación y = 2x2 tiene soluciones no reales. Por tanto, fY (y) = 0 para
todo y < 0.
q q
y
Si y > 0, la ecuación y = 2x2 tiene soluciones x1 = 2 y x2 = − y2 . Por tanto,
³q ´ ³ q ´
y
fX 2 fX − y2
fY (y) = q + q si y > 0;
y
4· 2 4 · y2
³ q ´
como fX (x) = 0 si x < 0, fX − y2 = 0, así que
³q ´
y
fX 2
fY (y) = q si y > 0.
y
4· 2
Podemos comprobar que el área total bajo la dpf es la unidad:

Z ∞ −√ y
e 2
q dy = 1.
y
0 4 2
3.2 Momentos de una v.a.
El objetivo de esta sección es establecer medidas numéricas con una interpretación

física clara que proporcionen información relevante acerca del comportamiento de una
v.a. Dichas medidas numéricas se conocen como momentos, de entre los cuales los más
importantes son la media y la varianza.
Sea X una v.a. y sea Y = g (X) una función medible suya. Entonces,
se define la media de la función g (X) como
Z ∞
E [g (X)] = g (x) · fX (x) · dx,
−∞
donde por fX (x) estamos notando la dpf o la dpf generalizada de X.
Como caso particular y más evidente, tenemos la definición de media de una varia-
ble, considerando la función g (X) = X.
Sea X una v.a. Se define su media o esperanza matemática como

Z ∞
EX = x · f (x) · dx,
−∞
donde f (x) representa la dpf o la dpf generalizada, respectivamente.2
La interpretación de la media es la de un valor central alrededor del que se dan

el conjunto de realizaciones de la v.a. De hecho, veremos que, en cierto sentido, es el
punto que está más cerca de todos los valores posibles de la v.a. Otra interpretación
es la de valor esperado, en el sentido de que es el valor de la variable aleatoria en el
que a priori se tienen más esperanzas.
2
Es importante observar que en la definición se está suponiendo que la serie o la integral existen,
son finitas. Esto no tiene que ocurrir necesariamente, pero a efectos prácticos, siempre que escribamos
la suma de una serie o una integral estaremos suponiendo su convergencia.
Ejemplo 3.5 Sea una v.a. discreta con dpf generalizada,
1 2 2
f (x) = δ (x) + δ (x − 1) + δ (x − 2) .
5 5 5
En ese caso,
1 2 2 6
EX = 0 · + 1 · + 2 · = = 1.2
5 5 5 5
Ejemplo 3.6 Sea una variable binomial X → B (n, p) . Calculemos su media:
n
X n!
EX = x· · px · (1 − p)n−x
x! (n − x)!
x=0
n
X (n − 1)!
=n·p· · px−1 · (1 − p)n−x
x=1
(x − 1)! (n − x)!
n−1
X
x−1=t (n − 1)!
= n·p· · pt · (1 − p)n−t−1 = n · p,
t! (n − t − 1)!
t=0
donde se ha utilizado que
n−1
X (n − 1)!
· pt · (1 − p)n−t−1 = 1
t! (n − t − 1)!
t=0
porque es la suma de todos los valores de una mpf de una v.a. binomial de parámetros
n − 1 y p.
Ejemplo 3.7 Sea una variable de Poisson, X → P (λ) . Calculemos su media:
∞
X λx
EX = x · e−λ ·
x=0
x!
∞
X ∞ X λx−1
−λ λx
= x·e · = e−λ · λ ·
x! (x − 1)!
x=1 x=1
∞
X
x−1=t λt
= λ · e−λ · = λ · e−λ · eλ = λ.
t=0
t!
Ejemplo 3.8 Sea una variable uniforme, X → U (x1 , x2 ) . Calculemos su media:
Z x2
1
EX = x· · dx
x1 x 2 − x1
· 2 ¸x2
1 x 1 x2 − x21
= · = · 2
x2 − x1 2 x1 2 x2 − x1
1 (x2 − x1 ) · (x2 + x1 ) 1
= · = (x1 + x2 ) ,
2 x2 − x1 2
es decir, el punto medio del intervalo.
Ejemplo 3.9 Sea una variable exponencial, X → exp (λ) . Calculemos su media:
Z ∞
EX = x · λ · e−λx · dx
0
u=x
dv = λ · e−λx · dx h i∞ Z ∞
= −x · e−λx + e−λx · dx
0 0
· ¸
1 −λx ∞ 1
=0+ − e = .
λ 0 λ
Ejemplo 3.10 Sea una variable gamma, X → Gamma (a, λ).
Z ∞
λ (λx)a−1 · e−λx a
EX = x dx = .
0 Γ (a) λ
Ejemplo 3.11 Sea una variable Weibull, X → W eibull (α, β).
³ ´
Z ∞ Γ 1 + β1
β
EX = xαβxβ−1 e−αx dx = .
0 α1/β
¡ ¢
Ejemplo 3.12 Sea una variable normal, X → N µ, σ2 . Calculemos su media:
Z ∞ " #
1 (x − µ)2
EX = x· √ exp − · dx
−∞ 2πσ2 2σ2
Z ∞ " #
1 (x − µ)2
=√ x · exp − · dx
2πσ2 −∞ 2σ2
x−µ Z ∞
=y 1 1 2
σ
= √ (µ + σy) · e− 2 y · dy
2π
·Z ∞−∞ Z ∞ ¸
1 1 2 1 2
=√ µ · e− 2 y · dy + σ · y · e− 2 y · dy
2π −∞ −∞
1 h √ i
=√ µ · 2π + σ · 0 = µ.
2π
En el caso de que la distribución de probabilidad de la v.a. se haya visto modificada

por la ocurrencia de un suceso medible A del espacio muestral, tendremos que considerar
la nueva distribución modificada a la hora de calcular la media, en el siguiente sentido:
La media o esperanza matemática condicionada de una v.a., dado

un suceso A con probabilidad no nula se define como
Z ∞
E [X | A] = x · f (x | A) ,
−∞
donde por f (x | A) estamos notando la dpf o la dpf generalizada condi-

cionadas, respectivamente.
Ejemplo 3.13 Sea una v.a. uniforme en el intervalo (0, 1). Supongamos que nos dicen
que una realización de esta variable ha ocurrido en el intervalo (0.5, 1). En ese caso,
vimos en el Ejemplo 2.19 que la dpf condicionada es
f (x | X ∈ (0.5, 1)) = 2I[0.5,1) (x)
Calculemos su media condicionada:

Z 1 £ ¤1
E [X | X ∈ (0.5, 1)] = 2 · x · dx = x2 0.5 = 1 − 0.25 = 0.75.
0.5
A partir de medias condicionadas a sucesos que formen una partición puede recu-
perarse la media global, en un resultado análogo al Teorema de la Probabilidad Total.
Para enunciarlo es necesario previamente demostrar que este teorema, que puede apli-
carse a una mpf porque éstas son probabilidades, también es aplicable a una dpf.
Lema 3.1 Sea una v.a. X con dpf fX (x) y una partición del espacio muestral formada
por los conjuntos A1 , ..., AN . Entonces,
N
X
fX (x) = fX (x | Ai ) P [Ai ] .
i=1
Demostración. Dado que la cdf mide probabilidades, aplicando el Teorema de la

Probabilidad Total se tiene que
N
X
FX (x) = FX (x | Ai ) P [Ai ] .
i=1
Derivando en esta expresión se obtiene la tesis del lema.
Teorema 3.3 Sea X una v.a. y una partición del espacio muestral formada por los
conjuntos A1 , ..., AN . Entonces,
N
X
E [X] = E [X | Ai ] P [Ai ] .
i=1
Demostración. Sea fX (x) la mpf o la dpf de la v.a. Como en ambos casos se

verifica el Teorema de la Probabilidad Total, se tiene que
N
X
fX (x) = fX (x | Ai ) P [Ai ] .
i=1
Si multiplicamos en ambos miembros por x,

N
X N
X
xfX (x) = x fX (x | Ai ) P [Ai ] = xfX (x | Ai ) P [Ai ]
i=1 i=1
y sumamos o integramos respectivamente en todos los x se tiene el resultado.

A propósito de lo que se describe en la primera parte de este capítulo, si se considera

una transformación Y = g (X) de la v.a. original, podemos estar interesados en calcular
la media de la v.a. Y . En principio, y siguiendo la metodología descrita hasta ahora,
deberíamos realizar el oportuno cambio de variable y, una vez conocida la distribución
de la v.a. Y , calcular
Z ∞
E [Y ] = yfY (y) dy.
−∞
No obstante, este cómputo puede ser bastante complejo desde el punto de vista del
cálculo. En este sentido, utilizar la definición puede ser mucho más sencillo, como se
ilustra en el siguiente ejemplo.
Ejemplo 3.14 Calculemos la media de la v.a. Y del Ejemplo 3.4 de las dos formas,
es decir, mediante el cambio de variable y mediante la definición.
1. Teniendo en cuenta que X tiene distribución exponencial de parámetro λ = 1

e Y = 2X 2 , que g (X) = 2X 2 y g 0 (X) = 4X y que la ecuación y = 2x2 tiene
q
solución positiva x1 = y2 , se tiene que,
³q ´
y
fX 2
fY (y) = q u (y) .
y
4· 2
Calculemos la media:
Z √y
∞
e− 2
E [Y ] = y q dy = 4.
0 4 y2
2. Directamente podemos decir que

Z ∞ Z ∞
E [Y ] = g (x) fX (x) dx = 2x2 e−x = 4.
−∞ 0
Queda de manifiesto que el segundo método de cálculo es sustancialmente más corto

y sencillo que el primero.
El siguiente resultado es una importante propiedad del operador esperanza matemáti-

ca, que permite simplificar enormemente su cálculo ante las operaciones más básicas,
como son la suma de v.a. y la multiplicación por constantes escalares.
Proposición 3.1 Sean X una v.a., a1 , ..., an constantes y g1 (X) , ..., gn (X) n fun-
ciones de la variable. Entonces,
E [a1 g1 (X) + ... + an gn (X)] = a1 E [g1 (X)] + ... + an E [gn (X)] .
Demostración. Es inmediato, debido a las propiedades de linealidad de la suma

y de la integral.
El segundo momento más importante asociado a una v.a. es su varianza, que se

interpreta como una medida de la concentración de los valores de la v.a. en torno a su
media.
h i
Sea una v.a. X. Se define su varianza como V ar [X] = E (X − EX)2 .
Es decir, es la media de las desviaciones al cuadrado de los valores de la
variable respecto de su media.
p
La raíz cuadrada de la varianza, σ = V ar [X] se conoce como desviación
típica.
Existe un método más cómodo para el cálculo de cualquier varianza. En concreto,

h i h i
V ar [X] = E (X − EX)2 = E X 2 − 2X · EX + (EX)2
£ ¤ £ ¤
= E X 2 − 2 · EX · EX + (EX)2 = E X 2 − (EX)2 .
Como se comentaba anteriormente, la interpretación de la varianza es la de un

promedio que mide la distancia de los valores de la variable a la media de ésta. Si la
varianza es pequeña, indica una alta concentración de los valores de la variable en torno
a la media; y viceversa, si la varianza es grande, indica alta dispersión de los valores de
la variable respecto de la media.
Ejemplo 3.15 Calculemos la varianza de una v.a. X → B (n, p) .

n
£ 2¤ X n!
E X = r2 pr (1 − p)n−r
r! (n − r)!
r=0
n
X n!
= r2 pr (1 − p)n−r
r=1
r! (n − r)!
n
X (n − 1)!
=n·p· r pr−1 (1 − p)n−r
(r − 1)! (n − r)!
r=1
n−1
X
r−1=t (n − 1)!
= n·p· (t + 1) pt (1 − p)n−1−t
t! (n − t − 1)!
t=0
n−1
X (n − 1)!
=n·p· t· pt (1 − p)n−1−t
t=0
t! (n − t − 1)!
n−1
X (n − 1)!
+n·p· pt (1 − p)n−1−t
t=0
t! (n − t − 1)!
= n · p · [(n − 1) · p + 1] .
Por tanto,
£ ¤
V ar [X] = E X 2 − EX 2 = (np)2 + np (1 − p) − (np)2 = np (1 − p) .
Vamos a interpretar este resultado: La función p (1 − p) con 0 ≤ p ≤ 1 tiene

mínimos en p = 0, 1 y máximo en p = 0.5. Es decir, la máxima variabilidad en los
valores de una variable binomial se dará cuando sea tan probable que se de un éxito
como que no se de; y viceversa, la mínima variación de los resultados ocurrirá cuando
p = 0 o p = 1, es decir, ¡cuando la v.a. es constante!
Ejemplo 3.16 Calculemos la varianza de una v.a. X → P (λ)

∞ ∞
£ 2¤ X 2 −λ λ
r X λr−1
E X = r e =λ· e−λ · r ·
r=0
r! r=1
(r − 1)!
∞
X
r−1=t λt
= λ· e−λ · (t + 1) ·
t!
t=0
∞
X X ∞
λt λt
=λ· t · e−λ · +λ· e−λ · = λ2 + λ,
t=0
t! t=0
t!
así que
£ ¤
V ar [X] = E X 2 − EX 2 = λ.
Obsérvese que en este caso no hay cota para la variabilidad de los datos: cuanto
mayor sea el parámetro λ, mayor será la variabilidad de los resultados.
Ejemplo 3.17 Calculemos la varianza de una v.a. X → U (x1 , x2 ) .

Z x2
£ ¤ 1 1 x32 − x31
E X2 = x2 · · dx =
x1 x2 − x1 3 x2 − x1
x22 + x1 x2 + x21
= ;
3
por tanto,
£ ¤
V ar [X] = E X 2 − EX 2
x22 + x1 x2 + x21 (x1 + x2 )2 (x2 − x1 )2
= − = .
3 4 12
Por tanto, se observa que cuanto mayor sea la longitud del intervalo [x1 , x2 ] , mayor
será la variabilidad de los resultados.
Ejemplo 3.18 Calculemos la varianza de una v.a. X → exp (λ)

Z ∞
£ 2¤
E X = x2 · λ · e−λx · dx
0
u=x
dv = x · λ · e−λx · dx · µ 1
¶¸∞
= x · −x · e−λx + · e−λx
λ 0
Z ∞µ ¶
1
− −x · e−λx + · e−λx dx
0 λ
· ¸
1 1 2
= 0 − − 2 − 2 = 2.
λ λ λ
Por tanto,
£ ¤ 1
V ar [X] = E X 2 − EX 2 = 2 .
λ
Recordemos que esta variable es un buen modelo para describir el tiempo de vida de
1
sistemas con esperanza de vida λ. En este sentido, se observa que cuanto mayor sea
esta esperanza de vida mucho mayor será la variabilidad que puede darse en ese tiempo
de vida.
a
Ejemplo 3.19 La varianza de X → Gamma (a, λ) es λ2
.
Ejemplo 3.20 La varianza de X → W eibull (α, β) es

³ ´ ³ ´2
Γ 1 + 2 β1 − Γ 1 + β1
.
α2/β
¡ ¢
Ejemplo 3.21 Calculemos la varianza de una v.a. X → N µ; σ2 .
Z ∞
£ 2¤ 1 1 x−µ 2
E X =√ x2 e− 2 ( σ ) dx
2πσ −∞
x−µ Z ∞
=y 1 1 2
σ
= √ (µ + σy)2 e− 2 y · dy
2π −∞
·Z ∞ Z ∞ Z ∞ ¸
1 1 2 1 2 1 2
=√ · µ2 e− 2 y · dy + 2µσye− 2 y · dy + σ2 y 2 e− 2 y · dy
2π −∞ −∞ −∞
1 h √ √ i
= √ · µ2 2π + 0 + σ2 2π = µ2 + σ 2 ,
2π
así que
£ ¤
V ar [X] = E X 2 − EX 2 = σ2 .
Si se observan los gráficos que vimos como ejemplos de distribuciones gaussianas se

hace evidente que la varianza σ 2 repercute en la variabilidad de los resultados, ya que
cuanto mayor es, más ”anchas” son las gráficas de la dpf y viceversa.
Como hemos comentado, la utilidad de la media y la varianza asociados a la dis-

tribución de una v.a. es que permiten conocer características y propiedades de dicha
distribución sin necesidad de conocer toda la distribución. A modo de ejemplo, tenemos
los dos siguientes teoremas.
Teorema 3.4 (Desigualdad de Markov) Sea una v.a. no negativa, X. Entonces,
EX
P [X ≥ t] ≤ para todo t > 0.
t
Ejemplo 3.22 En la producción en serie de resistores eléctricos de 1000 ohm se con-

sidera defectuoso un resistor de más de 1500 ohm. Si se desea establecer una cota para
el porcentaje máximo de resistores que serán rechazados, tomando como media de la
resistencia de cada resistor 1000 ohm,
1000
P [R ≥ 1500] = = 0.67,
1500
es decir, se rechazarán, a lo sumo, el 67% de los resistores.
Teorema 3.5 (Desigualdad de Chebyshev) Sea una v.a. X. Entonces,
V ar [X]
P [|X − EX| ≥ t] ≤ .
t2
Ejemplo 3.23 Vamos a estimar qué porcentaje de valores se desvían más de dos
desviaciones típicas de la media en cualquier variable.
h p i V ar [X] 1
P |X − EX| ≥ 2 V ar [X] ≤ ³ p ´2 = .
4
2 V ar [X]
Como vemos, este resultado es fundamental a la hora de estudiar el grado de concen-

tración de los valores de la variable respecto de la media. Nótese que para su aplicación
no es necesario conocer de la v.a. más que su media y su varianza.
No obstante, hay que decir que la desigualdad de Chebyshev no es demasiado pre-
cisa, en el sentido de que la cota que proporciona puede estar bastante lejos del ver-
dadero valor de la probabilidad. Para poner de manifiesto este hecho, consideremos el
siguiente ejemplo.
Ejemplo 3.24 En la tabla adjunta se muestra en una columna el verdadero valor de la

£ ¤ ¡ ¢
probabilidad P |X − EX| ≥ kt2 para una distribución N EX, σ2 , y en la columna
adyacente, el valor de la cota que proporciona la desigualdad de Chebyshev para esa
probabilidad.
£ ¤
k P |X − EX| ≥ kt2 Cota
0 1 1
0.5 0.617 1
1 0.317 1
1.5 0.134 0.444
2 0.045 0.250
2.5 0.012 0.160
3 0.003 0.111
1. La modulación en frecuencia es una de la técnicas más usuales en Teoría

de la Comunicación. En ella se utiliza habitualmente una señal analógi-
ca de tipo sinusoidal cuya fase puede variar aleatoriamente en un rango
de valores.
Consideremos específicamente la señal X (t) = A · cos (2πfc t + Θ) ,donde

A y fc son constantes y Θ → U (0, 2π).
(a) Calcular la dpf de esta señal.

Para empezar, debemos tener en cuenta que la ecuación
x = A cos (2πfc t + θ)
tiene dos soluciones cuando θ ∈ [0, 2π]:

³x´
θ1 = arccos − 2πfc t (∈ [0, 2π])
A
θ2 = 2π − θ1
cuyas derivadas en valor absoluto valen

¯ ¯ ¯ ¯
¯ dθ1 ¯ ¯ dθ2 ¯
¯ ¯= √ 1 = ¯ ¯.
¯ dx ¯ A2 − x2 ¯ dx ¯
Aplicando el teorema de cambio de variable,
¯ ¯ ¯ ¯
¯ dθ1 ¯ ¯ dθ2 ¯ 1
¯
fX(t) (x) = fΘ (θ 1 ) × ¯ ¯ ¯
+ fΘ (θ2 ) × ¯ ¯= √ 1 ,
dx ¯ dx ¯ π A2 − x2
donde x puede variar entre −A y A, ya que se completa todo el periodo del
coseno.
Podemos comprobar que el resultado no es incoherente asegurándonos, al
menos, de que fX(t) (x) es función de densidad. Como es positiva, tan sólo
hay que verificar que su integral es la unidad:
Z ∞ Z A
1 1
fX(t) (x) dx = √ dx = 1.
−∞ −A π A − x2
2
(b) Calcular su media y su varianza.

Z 2π
1
E [X (t)] = A cos (2πfc t + θ) dθ
0 2π
= 0
Z 2π
£ ¤ 1
E X 2 (t) = A2 cos2 (2πfc t + θ) dθ
0 2π
A2
= = V ar [X (t)] .
2
2. Un limitador de corriente recibe una señal analógica x (t) y en cada

instante transforma esta señal en una señal limitada, de la forma:


 −1 si x (t) < −1


y (t) = x (t) si − 1 < x (t) < 1 .



 1 si x (t) > 1
Calcular la dpf, la media y la varianza de la señal Y (t) resultante de in-

troducir en el limitador de corriente una señal X (t) que en cada instante
de tiempo sigue una distribución normal de media cero y varianza 1.
Y (t) se trata de una v.a. que no es enteramente continua, ya que puede tomar
los valores 1 y −1 con probabilidad no nula: esta es una v.a. de las denominadas
mixtas. Tiene sentido pensar en su dpf como en una función que al evaluarla en
1 y −1, proporcione la masa de probabilidad de estos valores, mientras que al
evaluarla en y ∈ (−1, 1) proporcione la densidad de probabilidad de estos valores,
de manera que
Z 1
fY (t) (−1) + fY (t) (y) dy + fY (t) (1) = 1.
−1
Para calcular esta dpf,

Z −1
1 x2
P [Y (t) = −1] = P [X (t) < −1] = √ e− 2 dx = 0.1587
−∞ 2π
Z ∞
1 − x2
P [Y (t) = 1] = P [X (t) > 1] = √ e 2 dx = 0.1587;
1 2π
por su parte, la dpf en el intervalo (−1, 1) se obtiene mediante un cambio de
variable trivial, ya que en ese caso, Y (t) = X (t). Por tanto,
1 y2
fY (t) = 0.1587δ (y + 1) + √ e− 2 I(−1,1) (y) + 0.1587δ (y − 1) .
2π
Además,
Z 1
1 y2
E [Y (t)] = (−1) × 0.1587 + y √ e− 2 dy + 1 × 0.1587 = 0
−1 2π
Z 1
£ ¤ 1 y2
E Y 2 (t) = (−1)2 × 0.1587 + y 2 √ e− 2 dy + 12 × 0.1587
−1 2π
= V ar [Y (t)] = 0.5161.
3. Un cuantizador (quantizer) “digitaliza” cualquier señal analógica posi-

tiva de la siguiente forma: cuando recibe una señal x, emite otra señal
digital, k ∈ Z, cuando k < x ≤ k + 1, 0 ≤ k < ∞.
Calcular la función masa de probabilidad, la media y la varianza de

la señal digital resultante de introducir en este dispositivo una señal
analógica con distribución exponencial de parámetro λ = 1.5.
Denominemos Y a la señal digital (v.a. discreta) resultante. Aplicando el teorema

de cambio de variable discreto,
Z k+1
P [Y = k] = P [k < X ≤ k + 1] = 1.5e−1.5x dx
k
1 − e−1.5
= , k = 0, 1, ...
e1.5k
Por su parte,
∞
X 1 − e−1.5
E [Y ] = k = 0.2872
e1.5k
k=0
∞
X
£ ¤ 1 − e−1.5
E Y2 = k2 = 0.4522
e1.5k
k=0
V ar [Y ] = 0.4522 − 0.28722 = 0.6397.
4. Un objeto es lanzado con velocidad inicial v = 15m/s y ángulo α sobre el

eje X. Según las leyes de Newton, la distancia alcanzada por el objeto
v2
es d = g sin 2α.

 ke3a si 0 ≤ a < π
2
Considérese que el ángulo es una v.a. con densidad fα (a) = .
 0 en otro caso
(a) Calcular k y la dpf de la distancia recorrida por el objeto.

v2
En primer lugar, la ecuación d = g sin 2a cuando a ∈ [0, π2 ) tiene dos inver-
sas:
¡ ¢
arcsin d vg2 π
a1 = , a2 = − a1 .
2 2
Por otra parte,
da1 1 1 da2 1 1
= r³ ´ , = − r³ ´ .
dd 2 v2
2 dd 2 v2
2
g − d2 g − d2
Podemos, por tanto, aplicar el teorema de cambio de variable:

¯ ¯ ¯ ¯
¯ da1 ¯ ¯ da2 ¯
fD (d) = fα (a1 ) × ¯¯ ¯ + fα (a2 ) × ¯ ¯
¯ dd ¯ .
dd ¯
R π/2 3
Por su parte, 1 = 0 ke3a da,de donde k = 3 . Por tanto,
e 2 π −1
µ ³ ´ ³ ³ ´´ ¶
3 1 3
arcsin d g 3
π−arcsin d g
fD (d) = 3 r³ ´ e2 v 2
+ e2 v 2
,
e2π − 1 v2
2
2 g − d2
h 2i
donde d ∈ 0, vg .
(b) Calcular la distancia media recorrida en aquellos lanzamientos que

v2
superan una distancia de 2g .
v2
Si nos restringimos a aquellos lanzamientos que superan 2g , debemos consi-
derar la densidad condicionada


 0 si d < v2
ód> v2
2g g
fD / D> v2 (d) = v2 v2
.
2g 
 hfD (d)2 i si ≤d≤
P D> v2g 2g g
En esta expresión,
· ¸ Z v2 µ ³ ´ ³ ³ ´´ ¶
v2 g 3 1 3
arcsin x g2 3
π−arcsin x g2
P D> = 3
r³ ´ e 2 v +e 2 v dx
2g v2
e2π − 1 v2
2
2g
2 g − x2
 Ã ! Ã Ã !! 
Z 152 3
arcsin x 3
π−arcsin x
10 3 1  2 152 2 152 
= 3 r³ ´ e 10 +e 10  dx
2 π 2
15
e2 − 1 152 2
20
2 10 −x
= 0.4402.
h i R 15102
v2 xfD (x)
Por tanto, E D / D > 2g = 152 0.4402 dx = 20.25.
20
5. En la línea de lo descrito en uno de los ejercicios del capítulo ante-

rior, existen un tipo de limitadores de la amplitud de la corriente que
suavizan la señal. Por ejemplo, consideremos un limitador de este tipo

que si recibe la señal X, la transforma en una señal Y de la forma:

 1 − e−X si X ≥ 0
Y = .
 − ¡1 − eX ¢ si X ≤ 0
Si se introduce en este dispositivo un input X con distribución gaussia-

na de media cero y varianza uno, calcular la dpf y la media de la señal
limitada resultante.
En primer lugar, la ecuación


 1 − e−x si x ≥ 0
y=
 − (1 − ex ) si x ≤ 0
tiene una única solución,


 − ln (1 − y) si 0 ≤ y < 1
x= ,
 ln (1 + y) si − 1 < y ≤ 0
cuya derivada es

dx  1
si 0 ≤ y < 1
1−y
= .
dy  1
si − 1 < y ≤ 0
1+y
Aplicando el teorema de cambio de variable,


 fX (− ln (1 − y)) × 1 si 0 ≤ y < 1
1−y
fY (y) =
 f (ln (1 + y)) × 1 si − 1 < y ≤ 0
X 1+y
 ³ ³ ´´ 2

 √1 e− 12 ln 1−y1
1
= 2π 1−y si 0 ≤ y < 1 .

 √1 e− 12 (ln(1+y))2 1 si − 1 < y ≤ 0
2π 1+y
Para asegurarnos de que al menos es función de densidad,

Z 0 Z 1
1 − 1 (ln(1+y))2 1 1 1 2 1
√ e 2 dy + √ e− 2 (− ln(1−y)) = 1.
−1 2π 1+y 0 2π 1−y
Por último, no es necesario realizar operaciones para comprobar que la media de

Y es cero, ya que su densidad es simétrica respecto del origen.
1. Interesantes ejemplos de cambios de variable en Stark & Woods (1994) 106-159,

Peyton (1993) 75-89, Papoulis (1991) 86-100, Yates & Goodman (1998) 64-67 y
150-155 y León-García 119-126.
2. Más sobre función característica con aplicaciones en Grimmet & Stirzaker (2001)
148-212, y Papoulis (1991) 115-120.
3. Concepto de función generatriz de probabilidades en Viniotis (1997) 138-139.
4. Generación de valores simulados de v.a. en Peyton (1993) 89-90, Grimmet &

Stirzaker (2001) 122-125, León-García 155-162 y Viniotis (1997) 145-150.
5. Distribuciones de probabilidad relacionadas con la distribución normal en Grim-

met & Stirzaker (2001) 119-121.
6. Cota de Chernoﬀ, utilizando la función generatriz de momentos, en Stark &

Woods (1994) 202-203.
Capítulo 4
Variables aleatorias
multidimensionales
Resumen. En los capítulos anteriores hemos desarrollado los aspectos

más importantes relacionados con el concepto de v.a. El objetivo del pre-
sente capítulo es extender el concepto de v.a. a un ambiente multidimen-
sional, lo que permitirá modelizar probabilísticamente fenómenos aleatorios
que deban describirse por más de una variable. Se estudia también cómo
una v.a. puede afectar al comportamiento probabilístico de otra v.a. y
el caso límite en que esto no ocurre, en el que se habla de independencia
estadística.
4.1 Distribuciones conjunta, marginal y condicionada
4.1.1 Distribución conjunta
Sean X1 , ..., XN v.a. definidas sobre el mismo espacio probabilístico.

El vector ordenado (X1 , ..., XN ) es una v.a. N−dimensional o vector
99
aleatorio de dimensión N.
Desde el punto de vista matemático, un vector aleatorio de dimensión N no es

más que una función con dominio el espacio probabilístico y destino o conjunto final
RN , de manera que las anti-imágenes de intervalos de RN sean medibles en el espacio
probabilístico:
(X1 , ..., XN ) : (Ω, z, P (·)) → RN
ω → (x1 , ..., xN ) = (X1 (ω) , ..., XN (ω))
No obstante, comencemos centrándonos en el caso bidimensional.
Sea una v.a. bidimensional (X, Y ). Se define la cdf conjunta de X e

Y como
FX,Y (x, y) = P [X ≤ x, Y ≤ y] .
Ejemplo 4.1 Sea un vector aleatorio (X, Y ) con los siguientes valores y probabilidades
de éstos:
P [X = 1, Y = 1] = 0.2
P [X = 2, Y = 1] = 0.3
P [X = 3, Y = 3] = 0.5
Entonces, la cdf,


 0 si x < 1 o y < 1





 0.2 si 1 ≤ x < 2 e y ≥ 1


FX,Y (x, y) = 0.5 si 2 ≤ x < 3 e y ≥ 1 .





 0.5 si x ≥ 3 y 1 ≤ y < 3



 1 si x ≥ 3 e y ≥ 3
Obsérvese que ya en el caso de dimensión 2, el más sencillo de entre los multidi-

mensionales, el cálculo de la cdf es bastante engorroso.
Proposición 4.1 Cualquier cdf conjunta FX,Y verifica las siguientes propiedades:
1. FX,Y (−∞, −∞) = FX,Y (x, −∞) = FX,Y (−∞, y) = 0
2. FX,Y (∞, ∞) = 1
3. 0 ≤ FX,Y (x, y) ≤ 1
4. Es una función no decreciente en las variables x e y.
5. P [x1 < X ≤ x2 , y1 < Y ≤ y2 ] = FX,Y (x2 , y2 ) + FX,Y (x1 , y1 ) − FX,Y (x1 , y2 ) −

FX,Y (x2 , y1 ).
6. FX,Y (x, ∞) = FX (x) y FX,Y (∞, y) = FY (y).
Demostración. Es trivial a partir de la definición. Puede encontrarse en Stark &

Woods (1994) 83-85.
En el capítulo dedicado a las v.a. unidimensionales clasificamos dichas variables en

discretas o continuas según el carácter de su cdf y del rango de valores de la variable.
En el caso de v.a. multidimensionales podría darse una clasificación análoga diciendo
que un vector aleatorio será discreto o continuo si lo son las v.a. que lo componen.
Sin embargo, esta clasificación no sería exhaustiva, ya que podrían darse ejemplos de
vectores donde algunas componentes son discretas y otras son continuas. Esto, no
obstante, no es habitual, así que utilizaremos la clasificación de vectores discretos y
continuos de ahora en adelante refiriéndonos al carácter de todas sus componentes.
Hay que hacer notar que en el ámbito de las Telecomunicaciones son mayoritarias
las variables de tipo continuo, de ahí que en la literatura se haga especial hincapié en
la notación y las definiciones propias de estas variables.
Finalmente, en el caso en que en vez de dos tengamos N variables (X1 , ..., XN ),
podemos definir su cdf conjunta como
FX1 ,...,XN (x1 , ..., xN ) = P [X1 ≤ x1 , ..., XN ≤ xN ] .

En la línea de extender las definiciones dadas en el caso unidimensional, corresponde

ahora definir la mpf conjunta y la dpf conjunta de un vector aleatorio. Así:
Sea (X1 , ..., XN ) un vector aleatorio discreto. Entonces, se define su

mpf conjunta como
fX1 ,...,XN (x1 , ..., xN ) = P [X = x1 , ..., XN = xN ] .
Sea (X1 , ..., XN ) un vector aleatorio continuo. Entonces, se define su

dpf conjunta1 como
∂ N FX1 ,...,XN (x1 , ..., xN )

fX1 ,...,XN (x1 , ..., xN ) = .
∂x1 ...∂xN
En el Capítulo 2 vimos cómo en el caso unidimensional una v.a. discreta podía

tratarse como una v.a. continua considerando su dpf generalizada. En este caso, definir
una función equivalente a aquella dpf generalizada es más complejo desde el punto de
vista técnico. No obstante, intuitivamente sí podemos pensar en las características de
esta función: sería una función constantemente nula salvo en un conjunto numerable de
puntos; en estos puntos su valor sería la probabilidad de esos puntos multiplicada por
una función delta de Dirac multivariante. Así definida, la dpf generalizada permitiría
calcular probabilidades asociadas al vector aleatorio como integrales suyas, aunque
habría que tener las mismas precauciones que se consideraron en el caso de una v.a.
con los puntos de la frontera, ya que éstos podrían tener probabilidad no nula. En lo
sucesivo aludiremos en ocasiones a la dpf generalizada de un vector aleatorio discreto
para tratar de simplificar la notación.
De manera inmediata podemos establecer un resultado análogo al del caso uni-
dimensional que permite calcular la cdf conjunta a partir de la dpf conjunta. Sin
embargo, no puede decirse lo mismo del caso discreto.
1
Hemos de suponer que la cdf es continua y derivable salvo en un conjunto numerable de puntos.
Proposición 4.2 Sea X1 , ..., XN un vector aleatorio continuo. Entonces,

Z x1 Z xN
FX1 ,...,XN (x1 , ..., xN ) = ... fX1 ,...,XN (t1 , ..., tN ) · dtN · ... · dt1
−∞ −∞
Demostración. Considérese el Teorema Fundamental del Cálculo junto con la

condición FX1 ,...,XN (−∞, ..., −∞) = 0.
A continuación vamos a enumerar las principales propiedades de las funciones de
densidad y masa de probabilidad conjuntas. En cada caso especificaremos si el resultado
es válido en el caso discreto o continuo, ya que no siempre pueden darse resultados
análogos. Las propiedades se enuncian para el caso bidimensional, pero no es difícil
imaginar la extensión al caso multidimensional general.
Proposición 4.3 Sea (X, Y ) un vector aleatorio. Entonces:
1. fX,Y (x, y) ≥ 0ya sea fX,Y dpf o mpf.
Demostración. Si se trata de un vector discreto, téngase en cuenta que fX,Y

mide probabilidad. Si es continuo, dado que FX,Y es no decreciente, su derivada
no puede ser negativa.
R∞ R∞
2. −∞ −∞ fX,Y (x, y) · dy · dx = 1 si el vector es continuo.
P P
x y fX,Y (x, y) = 1 si el vector es discreto.
Demostración. En el caso continuo, considérese el Teorema Fundamental del

Cálculo y las propiedades de la cdf conjunta; en el discreto, la probabilidad total
es la unidad.
Rx Ry
3. Si el vector es continuo, FX,Y (x, y) = −∞ −∞ fX,Y (t, s) · ds · dt.
4. Si el vector es continuo
Z x Z ∞ Z ∞ Z y
FX (x) = fX,Y (t, s) · ds · dt y FY (y) = fX,Y (t, s) · ds · dt
−∞ −∞ −∞ −∞
Si el vector es discreto
XX XX
FX (x) = fX,Y (xi , yj ) y FY (y) = fX,Y (xi , xj )
xi ≤x yj xi yj≤y
Demostración. En el caso continuo,

Z x Z ∞
fX,Y (t, s) · ds · dt = P [X ≤ x, −∞ < Y < ∞] = FX (x)
−∞ −∞
y análogamente ocurre en el caso discreto.
Z x2 Z y2
P [x1 < X ≤ x2 , y1 < Y ≤ y2 ] = fX,Y (t, s) · ds · dt,
x1 y1
y las desigualdades pueden ser estrictas o no, sin que la igualdad varíe.
Demostración. De nuevo considérese el teorema fundamental del cálculo y la

definición de cdf conjunta.
6. De forma más general,

Z Z
£ ¤
P (X, Y ) ∈ A ⊂ R2 = fX,Y (x, y) dydx
A
Z ∞ Z ∞
fX (x) = fX,Y (x, y) · dy y fY (y) = fX,Y (x, y) · dx
−∞ −∞
Si el vector es discreto,
X X
fX (x) = fX,Y (x, y) y fY (y) = fX,Y (x, y)
y x
Demostración. Se sigue inmediatamente de la Propiedad 4.

Ejemplo 4.2 Consideremos el vector X = (X1 , X2 , X3 )0 , que denota la posición de

una partícula dentro de una esfera centrada en el origen y de radio a. Si asumimos que
la partícula puede ocupar cualquier posición en la esfera con la misma probabilidad,
3
fX1 ,X2 ,X3 (x1 , x2 , x3 ) = I√ 2 2 2 (x1 , x2 , x3 ) .
4πa3 { x1 +x2 +x3 <a}
Vamos a calcular la probabilidad de que la partícula se encuentre dentro de una

esfera interior de radio 23 a.
· q ¸
2 2 2 2
P X ∈ {(x1 , x2 , x3 ) / x1 + x2 + x3 < a
3
Z Z Z
3
= √ 2 2 2 2 4πa3 dx1 dx2 dx3
(x1 ,x2 ,x3 )/ x1 +x2 +x3 < 3 a
Z 2 a Z 2π Z 2π
3 3 8
= r2 sin φ dr dφ dθ = ,
4πa3 0 0 0 27
que coincide, trivialmente, con el cociente del volumen de ambas esferas.
4.1.2 Distribuciones marginales
Una vez que somos capaces de describir la distribución de probabilidad de un vector

aleatorio mediante su cdf conjunta y su mpf o su dpf, surge un nuevo problema: Qué
ocurre si deseamos conocer la distribución de probabilidad de una o más variables del
vector, no del vector en su conjunto.
De la sexta propiedad de la Proposición 4.1 se deduce que la función de distribución
de una v.a. que forma parte del vector puede recuperarse a partir de la cdf conjunta
sin más que hacer llegar al límite ∞ la otra v.a., manteniendo constante la propia
variable. A las funciones de distribución así generadas se les conoce como funciones
de distribución marginales.
Ejemplo 4.3 Calculemos las funciones de distribución de X e Y en el Ejemplo 4.1.

Como


 0 si x < 1 o y < 1





 0.2 si 1 ≤ x < 2 e y ≥ 1


FX,Y (x, y) = 0.5 si 2 ≤ x < 3 e y ≥ 1 ,





 0.5 si x ≥ 3 y 1 ≤ y < 3



 1 si x ≥ 3 e y ≥ 3


 0 si x < 1




 0.2 si 1 ≤ x < 2
FX (x) = FX,Y (x, ∞) =

 0.5 si 2 ≤ x < 3




 1 si x ≥ 3


 0 si y < 1


FY (y) = FX,Y (∞, y) = 0.5 si 1 ≤ y < 3 .



 1 si y ≥ 3
Análogamente, de la sexta propiedad de la Proposición 4.3 se sigue que la masa o

la densidad de probabilidad de una de las variables del vector se obtienen, respectiva-
mente, sumando o integrando el resto de las variables. A las nuevas funciones masa de
probabilidad o de densidad se les conoce como funciones de densidad o masa de
probabilidad marginales respectivamente.
En el caso en que tengamos N variables podemos estar interesados en calcular la
dpf o la mpf conjunta de K de ellas (supongámoslas las K primeras). En ese caso,
a) Si el vector es continuo, fX1 ,...,XK (x1 , ..., xK )

Z ∞ Z ∞
= ... fX1 ,...,XK ,Xk+1 ,...,XN (x1 , ..., xK , xK+1 , ..., xN ) · dxN · ... · dxK+1
−∞ −∞
b) Si el vector es discreto,
X X
fX1 ,...,XK (x1 , ..., xK ) = ... fX1 ,...,XK ,Xk+1 ,...,XN (x1 , ..., xK , xK+1 , ..., xN )
xK+1 xN
Ejemplo 4.4 Calculemos la masa de probabilidad de las variables X e Y del Ejemplo

4.1.
 

 f (1, 1) si x = 1 
 0.2 si x = 1
X 
 X,Y 

fX (x) = fX,Y (x, y) = fX,Y (2, 1) si x = 2 = 0.3 si x = 2

 

y 
 f 
 0.5 si x = 3
X,Y (3, 3) si x = 3
cuya dpf generalizada es fX (x) = 0.2δ (x − 1) + 0.3δ (x − 2) + 0.5x (x − 3) .

 
X  fX,Y (1, 1) + fX,Y (2, 1) si y = 1  0.5 si y = 1
fY (y) = fX,Y (x, y) = = ,
x
 fX,Y (3, 3) si y = 3  0.5 si y = 3
con dpf generalizada fY (y) = 0.5 (δ (y − 1) + δ (y − 3)) .
Ejemplo 4.5 Sea el vector bidimensional (X, Y ) con dpf conjunta fX,Y (x, y) = x ·
e−x(y+1) u (x) u (y) . La dpf marginal de X,
Z ∞
fX (x) = fX,Y (x, y) dy
Z−∞
∞
= xe−x(y+1) u (x) dy = e−x u (x) .
0
Análogamente, la dpf marginal de Y ,

Z ∞
fY (y) = fX,Y (x, y) · dx
Z−∞
∞
1
= xe−x(y+1) u (y) dx = u (y) .
0 (1 + y)2
4.1.3 Distribuciones condicionadas
En el capítulo anterior dimos la definición de distribuciones de una variable condi-

cionadas a la ocurrencia de un suceso. En este ambiente, un caso particular lo consti-
tuyen las distribuciones que se generan cuando una de las v.a. del vector toma un valor
concreto.
Así pues, sea (X, Y ) un vector aleatorio:
Se define la dpf o la mpf de X condicionada a Y = y,
fX,Y (x, y)
fX|Y =y (x) =
fY (y)
Análogamente, se define la dpf o la mpf de Y condicionada a
X = x,
fX,Y (x, y)
fY |X=x (y) =
fX (x)
Por último, se define la cdf de X condicionada a Y = y, como
 R
 x f
−∞ X|Y =y (t) · dt si el vector es continuo
FX (x | Y = y) = P [X ≤ x | Y = y] = P
 f (x ) si el vector es continuo
xi ≤x X|Y =y i
Análogamente, se define la cdf de Y condicionada a X = x, como

 R
 y f
−∞ Y |X=x (t) · dt si el vector es continuo
FY (y | X = x) = P [Y ≤ y | X = x] = P
 f (y ) si el vector es continuo
yi ≤y Y |X=x i
Ejemplo 4.6 Sean las variables X e Y con la mpf conjunta siguiente:
y\x 0 1 2
0 3/28 9/28 3/28

1 3/14 3/14 0
2 1/28 0 0
calculemos distribuciones marginales y condicionadas.

Las marginales son


 3
+ 3
+ 1
si x = 0

 28 14 28
fX (x) = 9 3
+ + 0 si x = 1

 28 14

 3
28 + 0 + 0 si x = 2
y


 3
+ 9
+ 3
si y = 0

 28 28 28
fY (y) = 3 3
+ + 0 si y = 1

 14 14

 1
28 + 0 + 0 si y = 2
Como ejemplos de las condicionadas (hay 6 en total) calculemos la mpf de X condi-

cionada a Y = 1 y la de Y condicionada a X = 1.
 3

 6 si x = 0
14


 143
fX|Y =1 (x) = 6 si x = 1 .
14

 14


 06 si x = 2
14
 9

 28
si y = 0

 15
 28
3
fY |X=1 (y) = 14
15 si x = 1 .

 28


 0
15 si x = 2
28
Como es evidente, una vez que tenemos caracterizada la distribución condicionada

de una variable aleatoria al valor de otra, cualquier momento de dicha distribución
(media, varianza, ...) puede calcularse de manera trivial a partir de su mpf o su dpf.
Ejemplo 4.7 Consideremos que la v.a X representa el input de un canal de comuni-

cación, con posibles valores +1 y −1 equiprobables, y sea Y el dígito que llega al destino,
con valores también +1 y −1. El canal es un canal binario simétrico con probabilidad
de cruce del 5%.
Con los datos expuestos podemos caracterizar mediante sus dpf generalizadas las
distribuciones marginales de X e Y , la distribución conjunta de ambos y las dos dis-
tribuciones condicionadas posibles de cada variable respecto de la otra.
La distribución marginal de X viene dada por
1 1
fX (x) = δ (x − 1) + δ (x + 1)
2 2
La distribución marginal de Y viene dada por
P [Y = +1] = P [Y = +1 | X = +1] P [X = +1] + P [Y = +1 | X = −1] P [X = −1]
= 0.95 × 0.5 + 0.05 × 0.5 = 0.5
P [Y = −1] = 0.5
1 1
fY (y) = δ (y − 1) + δ (y + 1) .
2 2
La distribución de Y condicionada al suceso X = +1 viene dada por:
fY |X=+1 (y) = 0.95 × δ (y − 1) + 0.05 × δ (y + 1)
La distribución de Y condicionada al suceso X = −1 viene dada por:
fY |X=−1 (y) = 0.95 × δ (y + 1) + 0.05 × δ (y − 1)
La distribución conjunta de X e Y viene dada por
fX,Y (x, y) = P [Y = y | X = x] P [X = x]


 0.95 × 0.5 si x = +1, y = +1





 0.05 × 0.5 si x = +1, y = −1


= 0.05 × 0.5 si x = −1, y = +1





 0.95 × 0.5 si x = −1, y = −1



 0 en otro caso
La distribución de X condicionada al suceso Y = +1 viene dada por
fX,Y (x, +1)

fX|Y =+1 (x) = = 0.95 × δ (y − 1) + 0.05 × δ (y + 1) .
fY (+1)
La distribución de X condicionada al suceso Y = −1 viene dada por
fX,Y (x, −1)

fX|Y =−1 (x) = = 0.05 × δ (y − 1) + 0.95 × δ (y + 1) .
fY (−1)
La extensión del concepto de distribución condicionada cuando se tiene un vector

aleatorio de más de dos variables es inmediata. En concreto, si tenemos un vector
X = (X1 , ..., XN )0 , podemos considerar la distribución de probabilidad de un vector
formado por un subconjunto de variables de X, (Xi1 , ..., Xik )0 , condicionada al hecho
de que se han dado determinados valores en otro subconjunto de variables de X, Xj1 =
xj1 , ..., Xjl = xjl . Esta distribución vendrá caracterizada por su fmp o su dpf, según sea
el vector discreto o continuo, y tendrá la expresión
fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl )
fXi1 ,...,Xik |Xj1 =xj1 ,...,Xjl =xjl (xi1 , ..., xik ) = ,
fXj1 ,...,Xjl (xj1 , ..., xjl )
donde fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl ) es la mpf o la dpf conjunta de las
variables Xi1 , ..., Xik , Xj1 , ..., Xjl y fXj1 ,...,Xjl (xj1 , ..., xjl ) es la mpf o la dpf conjunta
de las variables Xj1 , ..., Xjl .
4.2 Independencia estadística
En el capítulo referente a probabilidad hablamos de independencia de sucesos.

Decíamos entonces que dos sucesos A y B eran independientes sii P [A ∩ B] = P [A] ·
P [B] .
Esta definición puede extenderse al caso en que tengamos dos variables aleatorias X
e Y si consideramos como conjuntos, A = {X ≤ x} y B = {Y ≤ y} para cualesquiera
x e y reales.
Así, diremos que X e Y son estadísticamente independientes si y

sólo si
P [X ≤ x, Y ≤ y] = P [X ≤ x] · P [Y ≤ y]
o lo que es lo mismo,
FX,Y (x, y) = FX (x) · FY (y) .
De manera inmediata se sigue que esta expresión es equivalente a
fX,Y (x, y) = fX (x) · fY (y) ,
donde fX,Y (·), fX (·) y fY (·) son dpf o mpf.

La interpretación del hecho de que dos v.a. sean estadísticamente independientes es
que el comportamiento de una no tiene ningún efecto sobre la otra y viceversa. Cabe
preguntarse en ese caso, qué sentido tiene una distribución condicionada de una variable
a otra que no guarda ninguna relación con ella. Vamos a comprobarlo calculando las
distribuciones condicionadas de v.a. estadísticamente independientes:
fX,Y (x, y) fX (x) · fY (y)
fX|Y =y (x) = = = fX (x) ;
fY (y) fY (y)
es decir, el comportamiento aleatorio de una v.a. condicionada al valor de otra que
es estadísticamente independiente de ella (descrito mediante la función fX|Y =y (x)) es
completamente igual que si no se condiciona a dicho valor (descrito por la función
fX (x)).
Ejemplo 4.8 Sea el vector (X, Y ) con dpf conjunta


 24xy si x, y ≥ 0 y x + y ≤ 1
fX,Y (x, y) = .
 0 en otro caso
La dpf marginal de X :
Z 1−x
fX (x) = 24xy · dy = 12x (1 − x)2 si 0 ≤ x ≤ 1
0
La dpf marginal de Y :
Z 1−y
fY (y) = 24xy · dx = 12y (1 − y)2 si 0 ≤ y ≤ 1.
0
Como
fX,Y (x, y) 6= fX (x) · fY (y) ,
las variables X e Y no son independientes.
Ejemplo 4.9 Sea ahora el vector (X, Y ) con dpf conjunta


 4xy si 0 ≤ x, y y x, y ≤ 1
fX,Y (x, y) =
 0 en otro caso
La dpf marginal de X:
Z 1
fX (x) = 4xy · dy = 2x si 0 ≤ x ≤ 1
0
La dpf marginal de Y :
Z 1
fY (y) = 4xy · dx = 2y si 0 ≤ y ≤ 1.
0
Como
fX,Y (x, y) = fX (x) · fY (y) ,
las v.a. X e Y son independientes.
De la interpretación que hemos dado de v.a. independientes se sigue de manera

inmediata que si dos v.a. son independientes, esto es, no mantienen ninguna relación,
tampoco lo harán funciones suyas. Este hecho se recoge en el siguiente resultado.
Teorema 4.1 Sean X e Y v.a. independientes y V = g (X) y W = h (Y ) funciones

suyas que sean v.a.. Entonces, V y W también son independientes.

En el ámbito de las Telecomunicaciones se dan numerosas situaciones donde aparece
una v.a. W , suma de otras dos v.a. (generalmente continuas) estadísticamente inde-
pendientes, X e Y, es decir, W = X + Y. Por ejemplo, se da cuando a una señal X se
le adhiere un ruido que le es completamente ajeno (independiente), Y . En ese caso, la
suma representa la señal resultante y querremos conocer su comportamiento aleatorio
a partir del de X e Y .
Teorema 4.2 (de convolución) En esta situación,

Z ∞
fW (w) = fY (y) · fX (w − y) · dy
−∞
= fX ∗ fY (w)
donde fX y fY son las dpf generalizadas de X e Y , respectivamente.
Demostración. Grimmet & Stirzaker (2001), 70 y 113.
Ejemplo 4.10 Un sistema opera con una componente clave cuya duración, T1 , sigue
una distribución exponencial de parámetro λ. Si esta componente falla, inmediatamente
se pone en funcionamiento una componente exactamente igual que hasta entonces ha
funcionado en standby, cuya duración notamos por T2 , variable aleatoria independiente
de T1 .
Si pretendemos conocer la distribución de probabilidad de la duración total del sis-
tema, que vendrá dada por la v.a. T = T1 + T2 , podemos poner en práctica el teorema
de convolución. Para ello, tengamos en cuenta que
fTi (x) = λe−λx u (x) , i = 1, 2.
Por tanto,
Z z
fT (z) = λe−λx λe−λ(z−x) dx = λ2 ze−λz u (z) .
0
Como vemos, se trata de una distribución Erlang de parámetros 2 y λ.

En el caso de que en vez de dos v.a. se tenga un vector X = (X1 , ..., XN )0 , la

manera natural de extender el concepto de independencia es inmediata. Se dice que el
vector está formado por componentes independientes si
fX1 ,...,XN (x1 , ..., xN ) = fX1 (x1 ) · ... · fXN (xN ) .
Finalmente, si se tienen dos vectores aleatorios XN×1 e YM×1 , se dice que son
independientes si
fX,Y (x1 , ..., xN , y1 , ..., yM ) = fX (x1 , ..., xN ) fY (y1 , ..., yM ) .
1. Un teléfono portátil tiene la misma probabilidad de ser localizado en

cualquier lugar dentro de un círculo con centro en la base del teléfono
y radio 4km, de manera que si notamos por (X, Y ) el vector de sus
coordenadas, su dpf es constante en la región x2 + y 2 ≤ 42 .
(a) Si en un momento X = x0 , calcular la dpf de la v.a. Y .
En primer lugar, tengamos en cuenta que la dpf conjunta debe ser


 1
si x2 + y2 ≤ 42
π×42
fX,Y (x, y) = .
 0 en otro caso
fX,Y (x0 ,y)

Se nos pide fY / X=x0 (y) = fX (x0 ) ,donde
√ q¡ ¢
Z ∞ Z + 42 −x20 42 − x20
1
fX (x0 ) = fX,Y (x0 , y) dy = √ dy = ,
−∞ − 42 −x20 π × 42 8π
para x0 ∈ [−4, +4]. Podemos comprobar que es función de densidad, ya que

R 4 √(42 −x2 )
−4 8π dx = 1. Por tanto,
1 q q
π×42 1
fY / X=x0 (y) = q = q¡ ¢ si − 42 − x20 < y < + 42 − x20
(42 −x20 ) 2 42 − x20
8π
√
R + 42 −x2
y cero en otro caso. De nuevo podemos ver que es densidad, ya que √ 2 20 q 12 2 dy =
− 4 −x0 2 (4 −x0 )
h p p i
1. De hecho, obsérvese que se trata de la distribución uniforme en − 42 − x20 , 42 − x20 .
(b) ¿Cuál es la probabilidad de que la distancia en km a la base del

teléfono, D, sea inferior o igual a d? Calcular la dpf de la v.a. D.
Se nos pide
Z
£ © ª¤ 1
P (X, Y ) ∈ (x, y) /x2 + y 2 ≤ d2 = dxdy
x2 +y2 ≤d2 π × 42
x = ρ cos α
y = ρ sin α Z d Z 2π
1 d2
= ρdρdα = para 0 ≤ d ≤ 4.
0 0 π × 42 16
Obsérvese que por tanto, la cdf de la v.a. D es



 0 si d < 0


£ 2 2 2
¤
FD (d) = P [D ≤ d] = P X + Y ≤ d d2
si 0 ≤ d ≤ 4

 16

 1 si d > 4
y su dpf

 0 si d < 0 ó d > 4
fD (d) = .
 d si 0 ≤ d ≤ 4
8
2. Existe un tipo de transmisión de datos donde el número, N, de bytes

que componen cada mensaje sigue una distribución geométrica de parámetro
p. Los dígitos que componen los mensajes se reparten en paquetes que
tienen una longitud máxima de M bytes. Denominemos Q al número

de paquetes completos en un mensaje y R al número de bytes restantes.
Calcular mpf conjunta y marginales de Q y R.
Comencemos calculando la mpf conjunta:
P [Q = q, R = r] = P [N = qM + r] = (1 − p) pqM+r .
Por tanto, la mpf marginal de Q es
P [Q = q] = P [N ∈ {qM, qM + 1, ..., qM + (M − 1)}]

M−1
X ¡ ¢ ¡ ¢q
= (1 − p) pqM+k = 1 − pM pM , q = 0, 1, ...;
k=0
es decir, Q sigue una distribución geométrica de parámetro pM .
Por su parte, la mpf marginal de R es
P [R = r] = P [N ∈ {r, M + r, r + 2M, ...}]

X∞
1−p r
= (1 − p) pqM+r = p , r = 0, 1, ..., M − 1.
1 − pM
q=0
3. Consideremos un par de v.a. cuya dpf conjunta es ce−(x+y) si 0 ≤ y ≤

x < ∞ y cero en otro caso.
Calcular c, la dpf marginal de X e Y , la dpf de X condicionada a cada

valor de Y , la dpf de Y condicionada a cada valor de X y P [X + Y ≤ 1].
Dado que
Z ∞ Z ∞
1 = fX,Y (x, y) dydx
Z−∞∞ Z −∞
∞
c
= ce−(x+y) dxdy = ,
0 y 2
se tiene que c = 2.
Las marginales de X e Y son, respectivamente:

Z ∞ Z x
fX (x) = fX,Y (x, y) dy = 2e−(x+y) dy = −2e−2x + 2e−x para 0 < x < ∞
−∞ 0
Z ∞ Z ∞
fY (y) = fX,Y (x, y) dx = 2e−(x+y) dx = 2e−2y para 0 < y < ∞.
−∞ y
Por su parte,

fX,Y (x, y)  e−y
si 0 < y < x0
1−e−x0
fY / X=x0 (y) = = .
fX (x0 )  0 en otro caso

 e−x+y0 si 0 < y0 < x
fX/Y =y0 (x) =
 0 en otro caso
Finalmente,
Z
P [X + Y ≤ 1] = fX,Y (x, y) dxdy
x+y≤1
Z 1/2 Z 1−y
= 2e−(x+y) dxdy = e−2 − 2e−1 + 1 = 0.264
0 y
4. Una computadora recibe mensajes procedentes de tres canales de co-

municación. Si notamos X1 , X2 y X3 al número de mensajes recibidos
a través del canal 1, 2 y 3, respectivamente, en una hora, la dpf de estas
tres variables es fX1 ,X2 ,X3 (x1 , x2 , x3 ) = (1 − a1 ) (1 − a2 ) (1 − a3 ) ax1 1 ax2 2 ax3 3 ,
donde 0 ≤ x1 , x2 , x3 , y 0 < a1 , a2 , a3 < 1. Se pide calcular:
(a) Probabilidad de que lleguen dos o más mensajes desde el canal 1.
Antes de comenzar, obsérvese que las tres variables del vector son indepen-
dientes.
P∞
P [X1 ≥ 2] = x1 =2 fX1 (x1 ) . Por su parte, la marginal de X1 es
∞ X
X ∞
fX1 (x1 ) = (1 − a1 ) (1 − a2 ) (1 − a3 ) ax1 1 ax2 2 ax3 3 = (1 − a1 ) ax1 1 .
x2 =0 x3 =0
Por tanto,
∞
X
P [X1 ≥ 2] = (1 − a1 ) ax1 1 = a21 .
x1 =2
(b) Probabilidad de que haya llegado al menos un mensaje a través de

los canales 1 ó 3, si ha llegado uno a través del 2.
P [X1 + X3 ≥ 1 / X2 = 1] = P [X1 ≥ 1 / X2 = 1] + P [X3 ≥ 1 / X2 = 1]
−P [X1 ≥ 1 ∩ X3 ≥ 1 / X2 = 1]
X∞ ∞
X
= fX1 / X2 =1 (x1 ) + fX3 / X2 =1 (x3 )
x1 =1 x3 =1
∞
X ∞
X
− fX1 ,X3 / X2 =1 (x1 , x3 ) .
x1 =1 x3 =1
Por su parte, como las variables son independientes,
fX1 / X3 =1 (x1 ) = (1 − a1 ) ax1 1
fX2 / X3 =1 (x2 ) = (1 − a2 ) ax2 2
fX1 ,X2 / X3 =1 (x1 , x2 ) = (1 − a1 ) (1 − a2 ) ax1 1 ax2 2 ,
de manera que
∞
X ∞
X
P [X1 + X3 ≥ 1 / X2 = 1] = (1 − a1 ) ax1 1 + (1 − a3 ) ax3 3
x1 =1 x3 =1
∞
X X∞
− (1 − a1 ) ax1 1 (1 − a3 ) ax2 3
x1 =1 x3 =1
= a1 + a3 − a1 a3 .
(c) Probabilidad de que llegue al menos un mensaje.
P [X1 + X2 + X3 > 0] = 1 − P [X1 + X2 + X3 = 0]
= 1 − P [X1 = 0, X2 = 0, X3 = 0]
= 1 − (1 − a1 ) (1 − a2 ) (1 − a3 ) .
5. Consideremos una centralita telefónica y notemos X al tiempo en se-

gundos hasta que llega la primera llamada e Y al tiempo en segundos
hasta que se recibe la segunda llamada. La densidad conjunta de X e
Y es fX,Y (x, y) = λ2 e−λy si 0 < x < y, donde λ es una constante positiva
que coincide con el promedio de llamadas recibidas por segundo.
(a) Identificar las distribuciones de probabilidad del tiempo hasta la

primera llamada y del tiempo que transcurre entre la primera y
la segunda.
Caractericemos la distribución de X mediante su dpf :

Z ∞ Z ∞
fX (x) = fX,Y (x, y) dy = λ2 e−λy dy = λe−λx ,
−∞ x
para 0 < x < ∞. Es decir, se trata de una distribución exponencial de

parámetro λ.
(Este apartado se podrá hacer después de estudiar el siguiente capítulo) Por

su parte, el tiempo que transcurre desde que se da la primera llamada hasta
que se da la segunda llamada puede medirse mediante la v.a. W = Y − X.
Si consideramos la transformación w = y − x y v = x, la transformación

inversa es x = v e y = v + w, para la cual el jacobiano en valor absoluto es
1. Por tanto,
fV,W (v, w) = λ2 e−λ(v+w) = λe−λv · λe−λw ,

para v > 0, w > 0. Es decir, X y Y − X siguen distribuciones exponenciales

e independientes, mientras que X e Y no son independientes. Además,
fW (w) = λe−λw u (w) .
(b) Si la segunda llamada se ha producido en el instante Y = y, iden-

tificar la distribución de probabilidad del instante en que se ha
producido la primera llamada.
Se trata de caracterizar la distribución de probabilidad de X condicionada

al valor que se de de la variables Y , que lo notaremos por y0 :
fX,Y (x, y0 )
fX / Y =y0 (x) = .
fY (y0 )
Por su parte,
Z ∞ Z y
fY (y) = fX,Y (x, y) dx = λ2 e−λy dx = λ2 ye−λy ,
−∞ 0
para 0 < y < ∞. Por tanto,
1
fX / Y =y0 (x) = para 0 < x < y0 .
y0
Es decir, se trata de una distribución uniforme en el intervalo [0, y0 ], lo que

puede interpretarse como que, dada la segunda llamada, la primera se habrá
producido en un instante completamente al azar desde el inicio hasta la
segunda llamada.
1. Vectores aleatorios ’mixtos’ (mezcla de v.a. discretas y continuas) en Papoulis

(1991) 131-132.
2. Aplicación del condicionamiento de distribuciones en el estudio de las razones de

fallo de sistemas en Stark & Woods (1994) 96-99.
3. Teoría de la decisión desde una perspectiva bayesiana en Stark & Woods (1994)
303-312, con aplicación a un sistema de comunicación digital.
Capítulo 5
Funciones de varias variables

aleatorias
Resumen. En el presente capítulo se estudia de nuevo el problema del

cambio de variable, en este caso a nivel multivariante, que permite obtener
la distribución de probabilidad de una función de varias v.a. de las que se
conoce su distribución conjunta. Se definen asimismo el vector de medias
y la matriz de varianzas-covarianzas asociados a varias variables aleatorias,
con su interpretación como medidas numéricas que describen el compor-
tamiento probabilístico del vector. Además, se introduce la definición y las
propiedades más importantes de la distribución conjuntamente gaussiana,
extensión multivariante de su análoga en variables aleatorias.
5.1 Transformaciones de un vector aleatorio
El objetivo de esta sección es abordar el problema que se plantea cuando partiendo

de un vector aleatorio con una cierta distribución, se generan una o varias funciones de
este vector, y se trata de averiguar cuál es la distribución del nuevo vector.
123
Teorema 5.1 (del cambio de variable multivariante) Sea X = (X1 , ..., XN )0 un

vector aleatorio con dpf fX positiva en el conjunto A. Sea Y = (Y1 , ..., YM )0 , con
Yi = Ti (X1 , ..., XN ) , un nuevo vector aleatorio formado por transformaciones medibles
de X de manera que Y resulte un vector continuo.
Entonces, la dpf de Y puede calcularse en dos pasos de la siguiente manera:
1. Resolviendo para cada y la ecuación (y1 , ..., yM ) = (T1 (x) , ..., TM (x)) , denotando
¡ ¢
x(k) = T1−1 (y1 , ..., yM ) , ..., TM
−1
(y1 , ..., yM ) a cada una de sus soluciones reales
(tantas como inversas de la transformación global), y Jk al jacobiano de cada una
de estas inversas, es decir,
¯ ¯
¯ ∂T1−1 ∂T1−1 ¯
¯ ∂y1 ... ∂yM ¯
¯ ¯
¯ .. .. .. ¯
Jk = ¯ . . . ¯
¯ ¯
¯ ∂TM−1 −1
∂TM ¯
¯ ... ¯
∂y1 ∂yM
2. Asignando
 P ¡ (k) ¢

k fX x |Jk | si y ∈ (T1 (A) , ..., TM (A))
fY (y1 , ...yM ) = .
 0 en otro caso
Demostración. Stark & Woods (1994), 145-147.
Ejemplo 5.1 Consideremos una transformación lineal de dos variables:
Y1 = aX1 + bX2
Y2 = cX1 + dX2
donde a, b, c, d son constantes reales. La única transformación inversa es
dY1 − bY2
X1 =
ad − bc
−cY1 + aY2
X2 = ,
ad − bc
si suponemos que ad − bc 6= 0.
El determinante del jacobiano es

¯ ¯
¯ d −b ¯
¯ ¯ 1
J = ¯¯ ad−bc ad−bc ¯=
¯ ad − bc .
¯ −c a ¯
ad−bc ad−bc
Por tanto,
µ ¶
1 dy1 − by2 −cy1 + ay2
fY1 ,Y2 (y1 , y2 ) = fX ,X ,
|ad − bc| 1 2 ad − bc ad − bc
Ejemplo 5.2 Sea el vector aleatorio (X, Y ) con dpf conjunta


 k · (x + y)2 si − 2 < x < 2, −3 < y < 3
fX,Y (x, y) =
 0 en otro caso
¡ ¢
Consideremos el nuevo vector aleatorio (W, Z) = eX , 2Y + 1 .
Para calcular la constante k, hemos de tener en cuenta que
Z ∞ Z ∞
1= fX,Y (x, y) dydx,
−∞ −∞
así que
Z 2 Z 3
1= k (x + y)2 dydx = 104 · k,
−2 −3
1
luego k = 104 .
Apliquemos el teorema de cambio de variable para calcular exactamente la dpf con-

junta de W y Z,
µ ¶ ¯ ¯
z−1 ¯ 1 ¯
fW,Z (w, z) = fX,Y ln w, · ¯¯ ¯¯ para todo e−2 < w < e2 y − 5 < z < 7
2 2w
ya que el jacobiano es
¯ ¯
¯ 1 ¯
¯ w 0 ¯
¯ ¯.
¯ 1 ¯¯
¯ 0 2
X V
a1 Σ
a2
a3
Y Σ W
a4
Figura 5.1: Representación de un θ−rotational transformer
Ejemplo 5.3 El circuito que se muestra en la Figura 5.1 se da en un stereo baseband

system. Los coeficientes ai son pesos que si se consideran
a1 = a2 = cos θ
a3 = a4 = sin θ,
configuran un θ−rotational transformer.

Vamos a considerar que las señales originales del sistema, X e Y , son v.a. gaus-
sianas independientes con media cero y la misma varianza, σ2 , es decir,
· ¸
1 1 ¡ 2 2
¢
fX,Y (x, y) = exp − x + y .
2πσ2 2σ2
Tratemos de calcular la dpf conjunta de las v.a. resultantes,
V = X cos θ + Y sin θ
W = X sin θ − Y cos θ.
En este caso también hay una sóla inversa de la transformación,
x = v cos θ + w sin θ
y = v sin θ − w cos θ,
con jacobiano
¯ ¯ ¯ ¯
¯ dx dx ¯ ¯ ¯
¯ ¯ ¯ cos θ sin θ ¯
J = ¯¯ dv dw ¯=¯
¯ ¯
¯ = −1,
¯
¯ dy dy ¯ ¯ sin θ − cos θ ¯
dv dw
luego
· ¸
1 1 ¡ 2 2
¢
fV,W (v, w) = exp − 2 v + w ,
2πσ 2 2σ
es decir, mantienen la misma distribución conjunta que X e Y .
Cabría pensar que la principal limitación en la aplicación del teorema de cambio de

variable es que tiene que haber al menos tantas v.a. de salida como de entrada para
poder obtener la inversa del cambio, no pudiendo aplicarse, por ejemplo, a los casos
considerados donde se deseaba conocer la dpf de una v.a. Z = g (X, Y ). Realmente no
es así, ya que se pueden introducir si es necesario v.a. ficticias que luego son eliminadas,
como se ilustra en el siguiente ejemplo.
Ejemplo 5.4 Consideremos que deseamos conocer la distribución de la v.a. D =

√ ¡ ¢
X 2 + Y 2 cuando X e Y son iid según una distribución N 0; σ 2 . Vamos a estudiar
este problema considerando además una nueva v.a. que permita deshacer la transfor-
mación fácilmente. Por ejemplo,
p
D = X2 + Y 2
E = X,
en cuyo caso, hay dos transformaciones inversas:
x1 = e
p
y1 = d2 − e2
x2 = e
p
y2 = − d2 − e2 ,
siendo además necesario que −e < d < e.

Los jacobianos de las inversas coinciden en valor absoluto,
¯¯ ¯¯
¯¯ ¯¯
¯¯ 0 1 ¯¯
¯¯
|J1 | = |J2 | = ¯¯ ¯¯ = √ d .
¯¯ d2 − e2
¯¯ √ 2d 2 √ 2e 2 ¯¯
d −e d −e
Por tanto,
 £ ¤

 1
exp − 2σ1 2 d2 √d2d−e2 +

 2πσ 2
1
£ ¤
fD,E (d, e) = exp − 2σ1 2 d2 √d2d−e2 si d > 0, −e < d < e

 2πσ2

 0 en otro caso
 h 2i
 1 √ d d
exp − 2σ si d > 0, −e < d < e
πσ 2 d2 −e2 2
=
 0 en otro caso
Como realmente tan sólo estamos interesados en conocer la distribución de la v.a.

D, calculamos su dpf marginal, eliminando la dependencia de la v.a. ’ficticia’ E:
Z · ¸
1 d d2
fD (d) = 2
√ exp − 2 de
|e|<d πσ d2 − e2 2σ
· 2
¸
d d
= 2
exp − 2 si d > 0.
σ 2σ
5.2 Momentos asociados a varias variables
Análogamente a lo que se expuso en el Capítulo 3 acerca de la esperanza matemática

de una función de una v.a., podemos considerar que si tenemos un vector aleatorio
formado por las v.a. X1 , ..., XN y g (·) es una medible función de estas variables,
entonces, la media o esperanza matemática de esta función es
Z ∞ Z ∞
E [g (X1 , ..., XN )] = ... g (x1 , ..., xN ) · fX1 ,...,XN (x1 , ..., xN ) · dxN · ... · dx1
−∞ −∞
donde fX1 ,...,XN (x1 , ..., xN ) es la dpf o la dpf generalizada del vector aleatorio.
Como consecuencia inmediata de esta definición, se tiene el hecho de que este opera-
dor esperanza multivariante también es lineal, en el sentido que se recoge en el siguiente
teorema.
Teorema 5.2 Sea un vector aleatorio (X1 , ..., XN )0 y sean α1 , ..., αN escalares cua-
lesquiera. Entonces
E [α1 X1 + ... + αN XN ] = α1 E [X1 ] + ... + αN E [XN ] ,
es decir, la media de la suma ponderada es la suma ponderada de las medias.
PN
Demostración. Si consideramos g (X1 , ..., XN ) = i=1 αi · Xi , entonces
Z ∞ Z N
∞ X
E [g (X1 , ..., XN )] = ... αi · Xi · fX1 ,...,XN (x1 , ..., xN ) · dxN · ... · dx1
−∞ −∞ i=1
N Z
X ∞ Z ∞
= ... αi · Xi · fX1 ,...,XN (x1 , ..., xN ) · dxN · ... · dx1
i=1 −∞ −∞
XN Z ∞ N
X
= αi · Xi · fXi (xi ) · dxi = αi · E [Xi ] .
i=1 −∞ i=1
Dado el vector aleatorio (X, Y ), se define la correlación entre X e Y

como
RXY = m11 = E [XY ] ,
a partir de la cual se puede calcular la covarianza entre X e Y como
Cov (X, Y ) = E [(X − EX) · (Y − EY )] = E [XY ] − EX · EY = RXY − EX · EY.

La covarianza entre dos variables1 es una medida de la asociación lineal existente

entre ellas. Será positiva si la relación entre ambas es directa (si crece una crece la
otra) y negativa si es inversa (si crece una decrece la otra); además, será tanto mayor
en valor absoluto cuanto más fuerte sea la relación lineal existente. Para poder valorar
esta relación lineal en términos relativos se estandariza la covarianza, dando lugar a lo
que se conoce como coeficiente de correlación lineal:
Cov [X, Y ]
ρ= p .
V ar [X] · V ar [Y ]
Este coeficiente es siempre un número real entre -1 y 1 (Yates & Goodman (1998),
98). Si es cero, indica una ausencia total de relación lineal entre las variables. Si es
uno o menos uno indica una relación lineal total entre las variables, directa o inversa
según lo indique el signo.
Si dos v.a. tienen covarianza cero o equivalentemente, si RXY = EX·EY,

se dicen que son incorreladas.
Si dos v.a. son tales que RXY = 0, se dice que son ortogonales.
Proposición 5.1 Dos v.a. independientes son siempre incorreladas
Demostración. Sean X e Y esas v.a. Por ser independientes,
fX,Y (x, y) = fX (x) · fY (y) ,
luego
Z ∞ Z ∞
RXY = xy · fX (x) · fY (y) · dy · dx
Z−∞
∞
−∞
Z ∞
= xfX (x) dx · yfY (y) dy = EX · EY,
−∞ −∞
1
Si se considera la covarianza de una v.a. consigo misma,
£ ¤
Cov (X, X) = E [(X − EX) (X − EX)] = E (X − EX)2 = V arX,
esta cantidad coincide con su varianza.

en cuyo caso Cov [X, Y ] = 0.

La pregunta obvia que surge a la luz de este resultado es: ¿Y al contrario? ¿Dos v.a.
incorreladas serán independientes? O equivalentemente, ¿si dos v.a. no tienen ninguna
relación de tipo lineal (incorreladas) ocurrirá que tampoco tienen ninguna relación de
ningún tipo (independientes)? La respuesta es que no en general. Tan sólo en un caso
que veremos más adelante.
Ejemplo 5.5 Consideremos una variable aleatoria X y una combinación lineal de ésta,
Y = aX +b. Estudiemos el grado de relación lineal que une a ambas variables mediante
su coeficiente de correlación lineal.
£ ¤
E [XY ] = E [X (aX + b)] = aE X 2 + bE [X]
Cov (X, Y ) = E [XY ] − EX · EY

£ ¤
= aE X 2 + bE [X] − EX (aEX + b)
¡ £ ¤ ¢
= a E X 2 − EX 2 = aV arX
h i
V arY = E ((aX + b) − (aEX + b))2
h i h i
= E (aX − aEX)2 = E a2 (X − EX)2
h i
= a2 E (X − EX)2 = a2 V arX,
luego
Cov (X, Y ) aV arX

ρXY = √ =√ = 1 · signo (a) .
V arX · V arY V arXa2 V arX
Es decir, la relación lineal entre ambas variables es total (trivial), y dicha relación es
directa si a es positivo e inversa si a es negativo.
Las propiedades del operador esperanza son muy útiles en la práctica, por ejemplo,
cuando se trata de conocer la varianza de combinaciones lineales de varias variables.
Veamos algún ejemplo al respecto y después un resultado general que los englobe todos.
Ejemplo 5.6 Calculemos la varianza de X1 + X2 :
h i £ ¤ £ ¤ £ ¤
E (X1 + X2 )2 = E X12 + X22 + 2X1 X2 = E X12 + E X22 + 2E [X1 X2 ]
h i
V ar (X1 + X2 ) = E (X1 + X2 )2 − E [X1 + X2 ]2
£ ¤ £ ¤
= E X12 + E X22 + 2E [X1 X2 ] − (EX1 + EX2 )2
£ ¤ £ ¤
= E X12 + E X22 + 2E [X1 X2 ] − EX12 − EX22 − 2EX1 EX2
£ ¤ £ ¤
= E X12 − EX12 + E X22 − EX22 + 2 (E [X1 X2 − EX1 EX2 ])
= V arX1 + V arX2 + 2Cov (X1 , X2 ) .
Ejemplo 5.7 Calculemos la varianza de X1 − X2 :
h i £ ¤ £ ¤ £ ¤
E (X1 − X2 )2 = E X12 + X22 − 2X1 X2 = E X12 + E X22 − 2E [X1 X2 ]
h i
V ar (X1 − X2 ) = E (X1 − X2 )2 − E [X1 − X2 ]2
£ ¤ £ ¤
= E X12 + E X22 − 2E [X1 X2 ] − (EX1 − EX2 )2
£ ¤ £ ¤
= E X12 + E X22 − 2E [X1 X2 ] − EX12 − EX22 + 2EX1 EX2
£ ¤ £ ¤
= E X12 − EX12 + E X22 − EX22 − 2 (E [X1 X2 − EX1 EX2 ])
= V arX1 + V arX2 − 2Cov (X1 , X2 ) .
PN
Proposición 5.2 Sea una suma de N−variables, X = i=1 αi · Xi . Entonces,
N X
X N
V ar [X] = αi · αj · Cov (Xi , Xj ) ,
i=1 j=1
donde Cov (Xi , Xi ) = V ar (Xi ), para i = 1, ..., N.

P
Demostración. Como X̄ = N i=1 αi · EXi ,
h¡ ¢2 i
V ar [X] = E X − X̄
"Ã N !Ã N !#
X ¡ ¢ X ¡ ¢
=E αi · Xi − X̄i αi · Xi − X̄i
i=1 i=1
N
XXN
£¡ ¢¡ ¢¤
= αi · αj · E Xi − X̄i Xj − X̄j
i=1 j=1
N X
X N
= αi · αj · Cov (Xi , Xj )
i=1 j=1
En el caso en que las variables sean incorreladas,

X N
N X N
X
V ar [X] = αi · αj · Cov (Xi , Xj ) = α2i · V ar [Xi ] ,
i=1 j=1 i=1
ya que

 0 si i 6= j
Cov [X, Y ] = .
 V ar [X ] si i = j
i
Dado un vector de N−variables, X = (X1 , ..., XN )0 , se define su vector

de medias como
 
E [X1 ]
 
 .. 
µX =  . ,
 
E [XN ]
y su matriz de varianzas-covarianzas como
CX = (Ci,j )i,j=1,...,N ,
donde

 V ar (Xi ) si i = j
Ci,j = .
 Cov (X , X ) si i 6= j
i j
Esta matriz contiene las varianzas de cada variable del vector en la diagonal
y en el elemento (i, j) la covarianza entre la i−ésima y la j−ésima variable.
De forma análoga, la matriz de covarianzas puede definirse como
£ ¤
CX N×N = E (X − µX )N×1 (X − µX )01×N .
Por otra parte,
£ ¤ £ ¤
CX = E (X − µX ) (X − µX )0 = E XX 0 − µX µ0X ,
donde a la matriz E [XX 0 ] se le suele denominar matriz de correlaciones o de

autocorrelaciones, y se le nota RX .
Ambas matrices, CX y RX , son matrices simétricas.
Dados dos vectores aleatorios X e Y de la misma dimensión, se dice que

son incorrelados si E [XY 0 ] = E [X] E [Y 0 ] y se dice que son ortogonales
si E [X 0 Y ] = 0.
Obsérvese la similitud de la definición de vectores aleatorios ortogonales respecto

de esta misma definición en el caso de vectores en un espacio vectorial con producto
escalar, donde u y v se dicen ortogonales si u0 v = 0.
La linealidad del operador media facilita rápidamente la expresión del vector de
medias y la matriz de varianzas-covarianzas de combinaciones lineales de vectores, como
se recoge en el siguiente resultado.
Proposición 5.3 Sea el vector aleatorio XN×1 con vector de medias µX y matriz de
varianzas covarianzas CX . Sea el vector YM×1 = AM×N · XN×1 + bM×1 . Entonces, el
vector de medias y la matriz de varianzas covarianzas de Y vienen dadas por
µY = AµX + b
CY = ACX A0 .
Demostración. Es eminentemente técnica por lo que se obvia. Se basa en la

linealidad de la media.
Ejemplo 5.8 Vamos a ver que la aplicación de este resultado facilita bastante deter-
minados cálculos. Por ejemplo, si queremos calcular V ar (X1 + X2 ), podemos tener en
cuenta que
 
³ ´ X1
X1 + X2 = 1 1  ,
X2
de manera que
  
³ ´ V arX1 Cov (X1 , X2 ) 1
V ar (X1 + X2 ) = 1 1   
Cov (X1 , X2 ) V arX2 1
= V arX1 + V arX2 + 2Cov (X1 , X2 ) .
5.3 Distribución conjuntamente gaussiana
Recordemos que se dice que una v.a. X sigue una distribución normal o gaussiana
si su dpf es de la forma
1 1
fX (x) = √ exp{− 2 (x − µ)2 }.
2πσ 2σ
Supongamos ahora que tenemos un vector aleatorio de componentes independientes,
X = (X1 , ..., XN )0 , donde todas ellas sigue una distribución gaussiana, esto es,
¡ ¢
Xi → N µi ; σ 2i .
En ese caso, la dpf conjunta del vector es

N
Y
fX (x1 , ..., xN ) = fXi (xi )
i=1
(N µ ¶ )
1 1 X xi − µi 2
= q exp − .
(2π)N σ21 ...σ 2N 2 σi
i=1
Esta expresión se puede reescribir matricialmente como

½ ¾
1 1 0 −1
fX (x) = q exp − (x − µX ) CX (x − µX ) , (5.1)
2
(2π)N det (CX )
donde
x = (x1 , ..., xN )0
µX = (µ1 , ..., µN )0
 
σ2 . . . 0
 1 
 . .. 
CX =  .. . . . . .
 
0 ... σN2
Obsérvese que µX es el vector de medias y CX es la matriz de covarianzas que,

por ser X de componentes independientes, es diagonal. La pregunta es inmediata:
¿podría definirse una dpf conjunta de la misma forma pero sin imponer que la matriz
de covarianzas sea diagonal? La respuesta es afirmativa y da lugar a la definición de
distribución conjuntamente gaussiana:
Un vector formado por N variables aleatorias X = (X1 , ..., XN )0 se dice

que sigue una distribución conjuntamente normal o gaussiana si su
dpf conjunta es de la forma
· ¸
1 1 0 −1
fX (x) = q · exp − (x − µX ) · CX (x − µx ) ,
2
(2π)N det (CX )
donde
CX = (Ci,j )i,j=1,...,N

 V ar [Xi ] si i = j
Cij =
 Cov [X , X ] si i 6= j
i j
x = (x1 , ..., xN )0
µX = (EX1 , ..., EXN )0
y se nota X → NN (µX ; CX ) .
Puede demostrarse que, en efecto, la dpf así definida cumple las condiciones para ser
una auténtica función de densidad siempre que CX sea una matriz definida positiva2 ,
y que además, el vector µX es en efecto el vector de medias y la matriz CX la matriz
de covarianzas de X (Grimmet & Stirzaker (2001), 116-117).
Vamos a destacar algunas de las excelentes propiedades de la distribución conjun-
tamente gaussiana. Concretamente, nos centraremos en los siguientes resultados:
• Cualquier marginal sigue también una distribución gaussiana.
• Cualquier distribución condicionada sigue también una distribución gaussiana.
• Cualquier combinación lineal de un vector gaussiano es también gaussiana.
Teorema 5.3 Sea un vector XN×1 = (X1 , ..., XN )0 con distribución conjuntamente
gaussiana de vector de medias µ y matriz de covarianzas CX . En ese caso, el subcon-
junto de variables del vector, (Xi1 , ..., XiM ), con M < N también sigue distribución
conjuntamente gaussiana, de parámetros (µi1 , ..., µiM )0 y matriz de covarianzas consti-
tuida por las filas y las columnas de CX correspondientes a las variables Xi1 , ..., XiN .
Demostración. Muirhead (1982) 7.
Ejemplo 5.9 Sea un vector (X1 , X2 , X3 )0 gaussiano, de vector de medias cero y matriz
de covarianzas
 
2 1 0
 
 
 1 3 1 .
 
0 1 1
En aplicación del teorema, las marginales univariantes siguen las distribuciones

siguientes: X1 → N (0, 2) , X2 → N (0, 3) , X3 → N (0, 1).
2
Se dice que una matriz CN×N es definida positiva si todos sus valores propios , λ1 , ..., λN , soluciones
del polinomio característico det (C − λIN ) = 0, son positivos.
Por su parte, las marginales bivariantes siguen las distribuciones siguientes:

   
0 2 1
(X1 , X2 )0 → N2   ,  
0 1 3
   
0 2 0
(X1 , X3 )0 → N2   ,  
0 0 1
   
0 3 1
(X2 , X3 )0 → N2   ,  
0 1 1
Teorema 5.4 Cualquier subconjunto de variables de un vector gaussiano condicionado

a los valores de cualquier otro subconjunto de variables del propio vector sigue distribu-
ción conjuntamente gaussiana. Concretamente, la distribución de XN×1 condicionada
a YM×1 = yM×1 , siendo (X, Y )0(M+N)×1 conjuntamente gaussiano, es gaussiana de
vector de medias
h i ¡ ¢ ¡ ¢
E X |Y=y = µN×1 + (CXY )N×M CY−1 M×M yM×1 − µM×1
y matriz de varianzas-covarianzas
³ ´
V ar X |Y=y = CX − CXY CY−1 CXY
0
,
donde el elemento (i, j) de CXY es Cov (Xi , Yj ).3
Demostración. Stark & Woods (2002) 556-563.
Ejemplo 5.10 Siguiendo con el ejemplo amterior, vamos a considerar la distribución

de X1 condicionada a (X2 , X3 )0 = (0.5, 0.25)0 .
Según el teorema, ésta es gaussiana, de vector de medias
 −1  
³ ´ 1 0 0.5 − 0
E [X1 |X2 =0.5,X3 =0.25 ] = 0 + 1 0     = 0.5
3 1 0.25 − 0
3
Obsérvese que el vector de medias condicionado es una combinación lineal de las variables que
condicionan. Eso tendrá su importancia en el capítulo siguiente.
y matriz de covarianzas (es decir, varianza)

 −1  
³ ´ 1 0 1
V ar (X1 |X2 =0.5,X3 =0.25 ) = 2 − 1 0     = 1.
3 1 0
Ejemplo 5.11 Como caso particular, vamos a describir con más detalle el caso bi-
variante, tanto en lo que respecta a su densidad como a las distribuciones marginales
y condicionadas.
Sea por tanto un vector (X, Y )02×1 , con distribución conjuntamente gaussiana de
vector de medias (µX , µY )0 y matriz de covarianzas
 
σX2 ρσX σ Y
C(X,Y ) =  ,
ρσ X σY σY2
donde ρ = Cov(X,Y
σ X σY
)
es el coeficiente de correlación lineal. Entonces, det C(X,Y ) =
¡ ¢
σ2X σ2Y 1 − ρ2 y
 
1  σ2X
1
− σXρσY
−1
C(X,Y = .
) 1 − ρ2 − σXρσY 1
σ 2Y
Por tanto, la dpf conjunta es
1
fX,Y (x, y) = p
2πσ X σY 1 − ρ2
( " #)
−1 (x − µX )2 2ρ (x − µx ) (y − µY ) (y − µY )2
· exp − + .
2 (1 − ρ2 ) σ 2X σ X σY σ2Y
1√
Puede verse fácilmente que esta función alcanza su máximo, , en el punto
2πσ X σ Y 1−ρ2
(µX , µY ).
Por ejemplo, si
   
0 1 0
µ=  , CX =  
0 0 1
se tiene una dpf con la forma que aparece en la Figura 5.2 (izquierda), o si por ejemplo,
0.16
0.14 0.08
0.12
0.1 0.06
0.08 0.04
0.06
-4 0.04 -4 -4 0.02 -4
0.02
-2 0 -2 -2 0 -2
y x y x
2 2 2 2
4 4 4 4
Figura 5.2: Densidades gaussianas bivariantes.

   
0 1 1
µ=  , CX =  
0 1 4
la forma de la dpf es la que aparece en esa misma figura (derecha).

¡ ¢ ¡ ¢
Evidentemente, las distribuciones marginales son N µX , σ2X y N µY , σ2Y .
En lo que respecta a las distribuciones marginales, aplicando el último resultado
tenemos que
µ ¶
σX ¡ ¢
X | Y = y0 → N µX + ρ (y0 − µY ) ; σ2X 1 − ρ2
σY
µ ¶
σY 2
¡ 2
¢
Y | X = x0 → N µY + ρ (x0 − µX ) ; σY 1 − ρ .
σX
Obsérvese que, curiosamente, la varianza condicionada no depende del valor que condi-
ciona. Esto tendrá importantes repercusiones más adelante.
Continuando con las propiedades, una de las más útiles es su invarianza frente a
transformaciones lineales, como se recoge en los siguientes resultados.
Teorema 5.5 Un vector aleatorio XN×1 sigue distribución conjuntamente gaussiana

si y sólo si
Y = A1×N · XN×1
es una v.a. gaussiana para cualquier matriz A no nula.
Demostración. Papoulis (1991), 197.
Teorema 5.6 Sea un vector aleatorio XN ×1 = (X1 , ..., XN )0 con distribución gaussia-
na, vector de medias µX y matriz de covarianzas CX . Sea
YM×1 = AM×N · XN×1 + bM×1
una combinación lineal suya. Entonces, Y tiene distribución gaussiana de vector de

medias µY = A · µX + b y matriz de covarianzas CY = A · CX · A0 (siempre que esta
matriz tenga determinante no nulo).
Demostración. Es un corolario trivial del teorema anterior.
Ejemplo 5.12 Sean dos v.a. X1 y X2 con distribución conjuntamente gaussiana con
medias cero, varianzas σ2X1 = 4 y σ2X2 = 9 y covarianza, cX1 ,X2 = 3. Si estas variables
se transforman linealmente en las variables
Y1 = X1 − 2X2
Y2 = 3X1 + 4X2
las nuevas variables tienen distribución conjuntamente gaussiana, con medias

     
¡ ¢0 1 −2 0 0
µY1 , µY2 =  ·  =  
3 4 0 0
y matriz de covarianzas
       
σ2Y1 cY1 ,Y2 1 −2 4 3 1 3 28 −66
 =   = 
cY1 ,Y2 σY22 3 4 3 9 −2 4 −66 252
Otra de las más importantes propiedades es que se trata del único caso en el que
independencia e incorrelación son equivalentes.
Teorema 5.7 Sea XN×1 un vector con distribución conjuntamente gaussiana. En-
tonces sus componentes son incorreladas si y sólo si son independientes.
Demostración. Ya sabemos que si son independientes son incorreladas (incluso si

la distribución no es conjuntamente gaussiana).
Para probar que si son incorreladas entonces son independientes sólo hay que tener
en cuenta que si son incorreladas, la matriz de covarianzas es diagonal y la densidad
conjunta puede expresarse como producto de las marginales, como aparece en (5.1), lo
que demuestra que son independientes.
Como último resultado general, vamos a enunciar un teorema que supone, en cierto
modo, el recíproco de la forma en que hemos generado la distribución conjuntamente
gaussiana. Comenzamos calculando la distribución conjuntamente gaussiana cuando
las variables son independientes, generalizando después a una matriz de covarianzas
genérica. Veamos ahora que si se tiene una matriz de covarianzas genérica, puede
encontrarse un vector combinación lineal con v.a. independientes.
Teorema 5.8 Sea X un vector aleatorio con distribución conjuntamente gaussiana y

matriz de covarianzas CX . Entonces existe una matriz AN×N de manera que el vector
Y = A−1 · X
sigue distribución conjuntamente gaussiana con componentes independientes.
Demostración. Dado que cualquier combinación lineal del vector X mantiene

distribución gaussiana, se trata simplemente de un problema de diagonalización de la
matriz CX .
A este respecto, téngase en cuenta que una matriz simétrica (definida positiva) como
CX puede ser diagonalizada mediante una matriz A de manera que
¡ ¢0
A−1 CX A−1 = IN .
1. Una señal analógica aleatoria que se observa a lo largo del tiempo tiene
la expresión X (t) = A · cos (2πfc t + Θ) ,donde A sigue una distribución de
Rayleigh de parámetro α, Θ → U (0, 2π), siendo ambas v.a. indepen-
dientes. Calcular la media y la varianza de la v.a. X (t) para cada
t.
Dado que A y Θ son independientes,
2 1
fA,Θ (a, θ) = fA (a) · fΘ (θ) = 2αae−αa ,
2π
para 0 < a < ∞ y 0 < θ < 2π. Por tanto,

Z Z
E [X (t)] = x (t) fA,Θ (a, θ) dadθ
R2
Z ∞ Z 2π
2 1
= a cos (2πfc t + θ) 2αae−αa dadθ
0 0 2π
Z 2π Z ∞
2 1
= cos (2πfc t + θ) dθ a2αae−αa da
0 0 2π
= 0
Z Z
£ ¤
E X 2 (t) = x2 (t) fA,Θ (a, θ) dadθ
R2
Z ∞ Z 2π
2 1
= a2 cos2 (2πfc t + θ) 2αae−αa dadθ
0 0 2π
Z 2π Z ∞
1 2 2
= cos (2πfc t + θ) dθ a2 2αae−αa da
2π 0 0
1 1
= ·π· ,
2π α
pπ
donde se ha utilizado que E [A] = 4α y V ar [A] = 4−π4α . Por tanto,
£ ¤ 1
V ar [X (t)] = E X 2 (t) − E [X (t)]2 = .
2α
2. Sea (X, Y ) con distribución gaussiana de medias cero, varianzas uno y

coeficiente de correlación lineal ρ. Calcular dpf conjunta de (|X| , Y ) .
Si denominamos u = |x| y v = y, esta transformación bivariante tiene dos inversas,

x = ±u, y y = v, cuyos jacobianos en valor absoluto coinciden y valen 1. Por
tanto,
fU,V (u, v) = fX,Y (u, v) |J1 | + fX,Y (−u, v) |J2 |

1
1 − (u2 −2ρuv+v2 )
= p e 2(1−ρ2 )
2π 1 − ρ2
1
1 − (u2 +2ρuv+v2 )
+ p e 2(1−ρ2 ) ,
2π 1 − ρ2
para u ≥ 0.
3. Sea una señal aleatoria X (t): es decir, para cada t0 , tenemos una v.a.
X (t0 ). Supongamos, además, que todas las v.a. X (t) son gaussianas
y que cualquier subconjunto de ellas tiene distribución conjuntamente
gaussiana. Consideremos también que la media de todas estas variables
es cero y que la correlación entre pares de variables viene dada por
RX (τ ) = E [X (t) X (t + τ )] = e−|τ | ,para todo t y todo τ .
(a) Se ha observado que X (0) = 0.2V . Calcular en ese caso la proba-

bilidad de que a los 5 segundos la señal se haya separado de su
media más de dos desviaciones típicas.
Hemos de tener en cuenta que ha ocurrido el suceso X (0) = 0.2 a la hora de

determinar la distribución de X (5) ya que ésta será condicionada. Concre-
tamente, como la distribución (X (0) , X (5)) es conjuntamente gaussiana, la
distribución de X (5) condicionada a X (0) = 0.2 es también gaussiana de
media 0.2 × e−5 y varianza 1 − e−5 . Por tanto, la probabilidad que se nos
pide es
Z 0.2e−5 +2×(1−e−5 ) (x−0.2e−5 )
2
1 −
1− p e 2(1−e−5 )
dx = 4. 623 4 × 10−2
−5
2π (1 − e )
0.2e−5 −2×(1−e−5 )
(b) Se toma la muestra de la señal X = (X (0) , X (1) , ..., X (9))0 y se

transforma en el vector Y3×1 = A3×10 ·X10×1 , donde A = (|i − j|) i=1,2,3 .
j=1,...,10
Determinar la distribución de probabilidad del vector Y y de cada
una de sus componentes. Valorar también el grado y el sentido de
la relación lineal que se da entre estas componentes.
Al tratarse de una combinación lineal de variables gaussianas, el vector re-

sultante también lo es. Concretamente su media es
A · µX = 0
y su matriz de varianzas covarianzas es

 
535. 56 448. 31 366. 06
 
0  
A · CX · A =  448. 31 378. 56 311. 32 
 
366. 06 311. 32 260. 72
Por su parte, Y1 → N (0, 535. 56) , Y2 → N (0, 378. 56) y Y3 → N (0, 260. 72).
Asimismo, para valorar el grado de relación lineal entre ellas,
448. 31
ρY1 ,Y2 = √ = 0. 995 650 688 6
378. 56 × 535. 56
366. 06
ρY1 ,Y3 = √ = 0. 979 627 651 4
535. 56 × 260. 72
311. 32
ρY2 ,Y3 = √ = 0. 990 951 698 9
378. 56 × 260. 72
lo que implica que existe un altísimo grado de relación lineal entre cada par
de variables.
(c) ¿Son independientes X (0) y X (1)? En caso afirmativo, demuéstrese;

en caso negativo, ¿existe alguna combinación lineal de ambas que
de lugar a un nuevo vector bidimensional formado por variables
independientes? En caso afirmativo, hállese; en caso negativo, de-
muéstrese.
Al ser variables conjuntamente gaussianas, incorrelación e independencia son

equivalentes. Por ello, podemos decir que no son independientes, ya que no
son incorreladas.
Por otra parte, si consideramos una combinación lineal de estas variables

dada por una matriz
 
a11 a12
A= ,
a21 a22
la matriz de varianzas covarianzas de la combinación lineal será

 
1 e−1
A  A0
e−1 1
¡ ¢ ¡ ¢
donde el elemento (1, 2) ó el (2, 1), a21 + a22 e−1 a11 + a21 e−1 + a22 a12 , es
la covarianza de las variables una vez realizada la transformación. Se trata
por tanto, de que
¡ ¢ ¡ ¢
a21 + a22 e−1 a11 + a21 e−1 + a22 a12 = 0.
Esto ocurre si
¡ ¢ a12
a11 = − a21 e−1 + a22 ,
a21 + a22 e−1
luego podemos considerar, por ejemplo,
1 + 2e−1
a12 = 1, a21 = 2, a22 = 1, a11 = − .
2 + e−1
4. Supongamos que la posición en coordenadas cartesianas de una partícu-

la en un plano es aleatoria según una distribución conjuntamente gaussia-
na de vector de medias 01×2 y matriz de covarianzas I2 . Se desea
observar la posición del vector en coordenadas polares: identificar la
distribución de probabilidad de la distancia al origen y el ángulo sobre
el eje X.
p
Notemos v = x2 + y2 y θ = ] (x, y). En ese caso, la transformación inversa es
x = v cos θ e y = v sin θ. El jacobiano de esta transformación inversa
¯ ¯
¯ ¯
¯ cos θ −v sin θ ¯
Jv,θ = ¯¯ ¯ = v.
¯
¯ sin θ v cos θ ¯
Por tanto,
v − v2 cos2 θ+v2 sin2 θ 1 − v2

fV,Θ (v, θ) = e 2 = ve 2 ,
2π 2π
para v ≥ 0, 0 ≤ θ < 2π. Obsérvese que V y W son independientes, ya que
fV,Θ (v, θ) = fV (v) · fΘ (θ) ,
v2
donde fV (v) = ve− 2 para v ≥ 0 y fΘ (θ) = 1
2π para 0 ≤ θ < 2π. Es decir,
1
V sigue una distribución de Rayleigh de parámetro α = 2 y Θ una distribución
uniforme en [0, 2π].
5. Sean X e Y las v.a. que miden el tiempo que transcurre hasta la primera
y la segunda llamada, respectivamente, a una centralita telefónica. La
densidad conjunta de estas variables es fX,Y (x, y) = λ2 e−λy para 0 < x <
y. Calcular la densidad conjunta y las marginales de X, tiempo hasta
la primera llamada, y W = Y − X, tiempo entre la primera llamada y la
segunda llamada. ¿Qué se puede decir de la relación entre las variables
X e Y ? ¿Y entre las variables X y W ?
Si consideramos w = y −x y v = x, la transformación inversa es x = v e y = v+w,

para la cual el jacobiano en valor absoluto es 1. Por tanto,
fV,W (v, w) = λ2 e−λ(v+w) = λe−λv · λe−λw ,
para v > 0, w > 0. Es decir, X y Y − X siguen distribuciones exponenciales e

independientes, mientras que X e Y no son independientes.
1. Propiedades de las matrices de covarianza y aplicación de la diagonalización de

estas matrices en el campo del reconocimiento de patrones en Stark & Woods
(1994) 233-248.
2. Más sobre función característica en Stark & Woods (1994) 258-261.
3. Función característica de la distribución conjuntamente gaussiana en Stark &

Woods (1994) 261-262.
4. Vectores aleatorios complejos con distribución conjuntamente gaussiana en Pa-

poulis (1991) 198-199.
5. Formas cuadráticas asociadas a vectores con distribución conjuntamente gaussia-

na en Papoulis (1991) 199-200.
6. Simulación de valores de vectores aleatorios en Peyton (1993) 150-151, Viniotis

(1997) 270-272 y Leon-Garcia (1994) 251-255.
7. Más ejemplos de cambios de variable en Leon-Garcia (1994) 221-231, Stark &

Woods (1994) 122-151, Grimmet & Stirzaker (2001) 107-115, Papoulis (1991)
135-148 y Yates & Goodman (1998) 174-177.
Capítulo 6
Estimación I
Resumen. Aún admitiendo que el azar impide conocer de manera exacta

el valor que tomará una v.a., en este capítulo se describen técnicas de es-
timación que permiten aproximarlo con mayor o menor precisión, precisión
que se medirá como una media cuadrática en el sesgo de la estimación.
También se aborda en este capítulo el problema de la estimación de los
parámetros desconocidos de una distribución, mediante un único valor (es-
timación puntual) o mediante un rango de valores (estimación por intervalos
de confianza).
6.1 Estimación de una v.a.
Para ilustrar el problema, consideremos la siguiente situación: sea X la v.a. que

mide el valor de la intensidad de corriente que se transmite a través de un circuito debido
a la creación de una determinada diferencia de potencial. No obstante, por efecto de la
propia corriente sobre el conductor que utiliza el circuito, se genera un ruido aleatorio
N (por ejemplo, ruido de fondo) que se adhiere a la corriente X. De esta forma, lo que
en realidad puede observarse en el laboratorio no es la corriente X sino una corriente
contaminada Y = X + N. Si el investigador desea aproximar el verdadero valor que
149
tomará la v.a. X, lo lógico es que base su estimación en la observación de la v.a. Y ,

ya que ambas están estrechamente relacionadas.
El planteamiento general del problema es sencillo: Tratamos de encontrar un valor
concreto, que notaremos x̂, de manera que al realizar el experimento aleatorio al que
la v.a. X está asociada, el valor x̂ esté tan cercano como sea posible al verdadero valor
de X, x0 . Este valor se denomina un estimador.
A su vez, se genera un nuevo problema: ¿Qué entendemos por cercano o lejano?
Dicho de otra forma, tenemos que dotarnos con una medida de cercanía para poder
elegir el estimador que proporcione valores más cercanos en algún sentido al valor de
la v.a. a estimar.
El criterio más habitual para medir la cercanía entre la v.a. y el estimador es el
error cuadrático medio (a partir de ahora ecm):
h i
ε = E (X − x̂)2 ,
es decir, la media del cuadrado de la diferencia entre la variable y el estimador.

Mediante la medida del ecm el objetivo es elegir el mejor estimador, en el sentido de
que minimice el error así medido. Llamaremos a este estimador, estimador óptimo o,
también estimador mínimo cuadrático. En general, al proceso de estimación donde
se trata de hacer mínimo el ecm se le conoce como estimación mínimo cuadrática.
Como es lógico, la elección del estimador óptimo dependerá de la información
disponible.
6.1.1 Estimación a ciegas
Podría darse el caso en que se conozca tan sólo la distribución de la v.a. X, sin
ninguna otra información relevante acerca de esta v.a., como por ejemplo, su relación
con otras v.a. que puedan observarse. Este caso es denominado en algunos libros en
inglés blind estimation (literalmente, estimación ciega) ya que es muy poco lo que se
conoce a la hora de estimar X. Desde luego, es la peor de las situaciones que pueden
darse a la hora de estimar, lo que conducirá a estimadores, en principio, poco precisos.
Teorema 6.1 En ausencia de observación alguna, el estimador óptimo de la v.a.

en el sentido mínimo cuadrático es
x̂ = E [X] .
Demostración. Buscamos resolver el problema

h i
min E (X − x̂)2 .
x̂
Si desarrollamos el ecm,
£ ¤
ε = E X 2 − 2x̂E [X] + x̂2 .
Para minimizarlo, derivemos e igualemos a cero:

de
= −2E [X] + 2x̂ = 0,
dx̂
de donde
x̂ = E [X] .
Como además, la segunda derivada es negativa, se garantiza que es un mínimo.

Observando este resultado, ahora tiene aún más sentido la primera interpretación de
la media que dimos, como valor esperado o mejor predicción de la v.a. X (en ausencia
de otra información).
Además, mediante el teorema acabamos de demostrar que
h i h i
V ar [X] = E (X − EX)2 = min E (X − a)2 ,
a∈R
es decir, la varianza (el ecm del estimador óptimo) es el menor ecm que puede darse.
Ejemplo 6.1 Si aplicamos el teorema al caso en que queramos apostar a los dados,
como
1 1 1 1 1 1
EX = 1 · + 2 · + 3 · + 4 · + 5 · + 6 · = 3.5,
6 6 6 6 6 6
paradójicamente, el estimador mínimo cuadrático nos haría perder siempre. Hay que
decir que existen otras técnicas de estimación que garantizarían siempre que el esti-
mador fuera un valor verosímil de la v.a.
6.1.2 Estimación conocida la ocurrencia de un suceso
Supongamos ahora que se conoce la distribución de la v.a. X y además, que X ∈ A,

con P [A] > 0.
En primer lugar hay que tener en cuenta que, conocido que ha ocurrido el suceso A,
el ecm también debe tener este hecho presente, de manera que ahora debemos minimizar
h i
2
ε = E (X − x̂) | A .
Teorema 6.2 Dada la ocurrencia del suceso A, el estimador mínimo cuadrático (es
decir, con mínimo ecm o estimador óptimo) de X es
x̂ = E [X | A] .
Demostración. Esencialmente es la misma que la demostración anterior, cam-

biando las medias por medias condicionadas.
Ejemplo 6.2 La duración de una llamada telefónica T es una v.a. exponencial de

media E [T ] = 3 minutos. Si observamos que una llamada ya dura más de dos minutos,
¿cuál será el estimador mínimo cuadrático de la duración de esa llamada?
Sabemos que la dpf de T es
1 1
fT (t) = e− 3 t para t > 0.
3
A su vez, la dpf condicionada a T > 2 es
1 1
fT |T ≥2 (t) = e− 3 (t−2) para t > 2,
3
y la media de ésta
Z ∞
1 1
E [T | T > 2] = t e− 3 (t−2) dt = 5 minutos.
2 3
Este hecho es consecuencia de la llamada propiedad de no memoria de la distribución

exponencial ya que, pasados dos minutos, aún se espera que la llamada dure otros tres
más, como al principio, cuando la llamada acababa de empezar.
6.1.3 Estimación conocido el valor de otra v.a. Y = y
En este caso deseamos predecir el valor que tomará la v.a. X, para lo que contamos
con la información que proporciona la observación de otra v.a., Y , relacionada en mayor
o menor medida con X.
Teniendo en cuenta el estimador óptimo cuando se conoce un suceso dado (caso es-
tudiado en el apartado anterior), podríamos considerar que este suceso es precisamente
la observación de la v.a. Y . Es decir, si se observa que Y = y, el estimador óptimo,
según lo visto en el apartado anterior, sería E [X | Y = y]. Pero si, por ejemplo, la v.a.
Y es continua, el suceso Y = y es un suceso con probabilidad cero, de manera que no
es posible considerar el apartado anterior, donde imponíamos que P [A] > 0.
No obstante, tiene sentido pensar en la media condicionada como mejor estimador,
y demostraremos enseguida que, en efecto, lo es. Pero es importante tener en cuenta
que, en este caso, estamos tratando de predecir el valor de una v.a. X cuando se de
un cierto valor y de otra v.a. Y . Tenemos por tanto, que el estimador óptimo de X en
esa situación es una v.a., ya que depende del valor que Y tome, siendo éste aleatorio.
En el siguiente resultado vamos a demostrar que, en efecto, la media condicionada
es el estimador óptimo. Notaremos a la v.a. que para cada valor de Y proporciona la
media de X condicionada a ese valor como E [X | Y ].
Teorema 6.3 El estimador óptimo de X cuando se observa la v.a. Y es
X̂ (Y ) = E [X | Y ] ,
es decir, la v.a. que para cada valor Y = y, toma el valor
x̂ (y) = E [X | Y = y] .
Demostración. El problema puede plantearse matemáticamente como

h i
min E (X − g (Y ))2 .
g(Y )
Podemos considerar que cualquier función de Y puede expresarse como
g (Y ) = E [X | Y ] + δ,
donde δ será en cualquier caso una función de Y .

De esta manera,
h i h i
ε = E (X − g (Y ))2 = E (X − E [X | Y ] − δ)2
h i £ ¤
= E (X − E [X | Y ])2 − 2E [(X − E [X | Y ]) δ] + E δ 2 .
Por su parte, el término cruzado,
E [(X − E [X | Y ]) δ] = E [Xδ] − E [E [X | Y ] δ]
= E [Xδ] − E [Xδ] = 0,
ya que
Z
E [E [X | Y ] δ] = E [X | Y = y] δ fY (y) dy
ZR Z
= x fX|Y =y (x) dx δ fY (y) dy
ZR ZR
= x δ fX|Y =y (x) fY (y) dx dy
ZR ZR
= x δ fX,Y (x, y) dx dy = E [Xδ] .
R R
Por tanto,
h i £ ¤
ε = E (X − E [X | Y ])2 + E δ 2
h i
≥ E (X − E [X | Y ])2
y se alcanzará el mínimo cuando δ = 0, es decir, cuando g (Y ) = E [X | Y ].

Al estimador óptimo, X̂ (Y ) = E [X | Y ], se le conoce como curva de

regresión de X sobre Y .
Ejemplo 6.3 Suponiendo que X e Y son independientes,
x̂ = E [X | Y = y] = E [X] .
Dicho de otra forma, si las v.a. son independientes, la estimación mínimo cuadrática
es la misma que si ignoráramos el valor de Y .
Ejemplo 6.4 Las v.a. X e Y tienen dpf conjunta


 6y si 0 ≤ y ≤ x ≤ 1
fX,Y (x, y) = .
 0 en otro caso
Calculemos el estimador óptimo de X dado Y y el ecm de este estimador.

Para ello debemos calcular la densidad condicionada de X cuando Y = y:
Z 1
fY (y) = 6ydx = 6y − 6y 2 , y ∈ [0, 1]
y
6y 1
fX|Y =y (x) = 2
= para x ∈ [y, 1] .
6y − 6y 1−y
Por otra parte, la densidad de X es

Z x
fX (x) = 6ydy = 3x2 para 0 ≤ x ≤ 1.
0
Entonces, el estimador óptimo de X dado Y = y,

Z 1
1 1
E [X | Y = y] = x dx = (1 + y) para y ∈ [0, 1] .
y 1−y 2
En general,
1
X̂ (Y ) = (1 + Y ) .
2
Obsérvese que en este caso, el estimador óptimo es un estimador lineal.

Por otra parte,

·³ "µ ¶2 #
´2 ¸ 1
e = E X − X̂ (Y ) =E X − (1 + Y )
2
£ ¤ 1 1 h i
= E X 2 − 2 E [X (1 + Y )] + E (1 + Y )2
2 4
Z 1 Z 1Z x Z
1 1 ¡ ¢
= x2 3x2 dx − x (1 + y) 6ydydx + (1 + y)2 6y − 6y 2 dy
0 0 0 4 0
3 23 23 1
= − + = .
5 20 40 40
6.1.4 Estimación conocido el valor de otro vector Y = y
El Teorema 6.3 se ha demostrado para dos v.a. X e Y . No obstante, puede exten-

derse al ámbito multivariante, donde se considere la estimación de un vector aleatorio
XM×1 dadas las observaciones de otro vector aleatorio, YN×1 . En ese caso, se tratará
de minimizar los ecm que se producen simultáneamente en cada una de las N com-
ponentes de X. La extensión del teorema permite conluir que el estimador óptimo
es
 
E [X1 | Y]
 
 .. 
X̂ (Y) =  .  ≡ E [X | Y]
 
E [XN | Y]
y el ecm de este estimador es la suma de los ecm componente a componente, es decir,
M
X h i
ε= E (Xi − E [Xi | Y])2 .
i=1
Si bien el problema teórico del cálculo del mejor estimador está resuelto, incluso
cuando se tiene más de una v.a. a predecir con más de una v.a. a observar, también
es cierto que ese cálculo implica un proceso que en la práctica puede resultar bastante
complejo: habría que calcular la media condicionada y esto no siempre es sencillo, sobre
todo si el número de variables predictoras es mayor que uno.
Vamos a poner ahora de manifiesto un resultado general de gran importancia en

el cálculo de la estimación mínimo cuadrática, conocida como principio de ortogo-
nalidad. Este principio permite interpretar la estimación mínimo cuadrática desde
una interesante perspectiva geométrica: así, el estimador óptimo es aquél que provo-
ca un sesgo que es ortogonal a cualquier función de las observaciones. Extraeremos
importantes consecuencias de él en breve.
Lema 6.1 Principio de ortogonalidad. El sesgo de la estimación óptima de X

dado Y, esto es
s (X, Y) = X − E [X | Y] ,
es ortogonal a cualquier función medible de Y, es decir,
E [(X − E [X | Y]) h (Y)] = 0,
para cualquier función medible h (·).1
Demostración. La demostración se realizó, en el caso unidimensional, en la de-

mostración del Teorema 6.3, cuando se demostró que el término cruzado en el desarrollo
del ecm era cero fuese quien fuese δ.
La primera consecuencia del principio de ortogonalidad es que proporciona un sen-
cillo método para calcular el estimador óptimo si la distribución de las variables es
conjuntamente gaussiana.
Teorema 6.4 Sea una v.a. X centrada que se desea estimar mediante las observa-
ciones de N−variables Y1 , ..., YN , de manera que (X, Y1 , ..., YN ) sigue una distribución
conjuntamente gaussiana con vector de medias cero.
1
Por analogía con la propiedad geométrica de ortogonalidad, notaremos a esta propiedad
s (X, Y ) ⊥ h (Y ) .
Entonces, el estimador óptimo de X dado Y = (Y1 , ..., YN )0 es

N
X
E [X | Y] = ai Yi ,
i=1
donde los pesos ai son tales que verifican la siguiente condición de ortogonalidad:
"Ã N
! #
X
E X− ai Yi Yj = 0 para todo j = 1, ..., N.
i=1
Además, el ecm asociado es la varianza condicionada,
e = V ar (X|Y ) = V arX − CXY CY−1 CXY

0
,
donde el elemento j de CXY es Cov (X, Yj ) .
Demostración. Como (X, Y1 , ..., YN ) sigue una distribución conjuntamente gaussia-

³ P ´
na, también la siguen X − N a Y ,
i=1 i i 1Y , ..., YN .
P
Por otra parte, según el Teorema 5.4, E [X | Y] = N i=1 ai Yi y, según el principio
de ortogonalidad,
"Ã N
! #
X
i=1
En el caso en que las v.a. sigan distribución conjuntamente gaussiana pero no

tengan medias cero, el procedimiento, esquemáticamente, sería el siguiente. Dadas las
variables con media no cero X, Y1 , ..., YN :
1. Se centran las variables, construyendo un nuevo vector de variables centradas:
X c = X − EX
Yjc = Yj − EYj , para j = 1, ..., N
2. Se aplica el principio de ortogonalidad para encontrar el estimador óptimo de X c ,

dado Yc , obteniendo
N
X
X̂ c = ai Yic .
i=1
3. Se deshace el cambio de variable para obtener el estimador óptimo de X :

N
X N
X N
X
X̂ c = ai Yic ⇐⇒ X̂ − EX = ai (Yi − EYi ) ⇐⇒ X̂ = EX + ai (Yi − EYi ) .
i=1 i=1 i=1
Desde luego, si la distribución de (X, Y1 , ..., YN ) no es conjuntamente gaussiana, el

principio de ortogonalidad no permite el cálculo de la estimación óptima de forma tan
inmediata pero, como veremos a continuación, sí facilitará estimaciones subóptimas:
concretamente, será capaz de caracterizar con comodidad la mejor estimación posible
de entre todas las estimaciones lineales.
Ejemplo 6.5 Sea el vector (X1 , X2 , X3 )0 conjuntamente gaussiano, de vector de me-

³ ´
dias 0 0 0 y matriz de varianzas-covarianzas
 
1 1 2
 
 
 1 2 3 .
 
2 3 1
Vamos a calcular el estimador óptimo de X1 dadas X2 y X3 , que, como las variables

son centradas, notaremos
X̂1 = aX2 + bX3 .
Según el principio de ortogonalidad, se verifica
E [(X1 − (aX2 + bX3 )) X2 ] = 0
E [(X1 − (aX2 + bX3 )) X3 ] = 0,
de donde
£ ¤
E [X1 X2 ] = aE X22 + bE [X2 X3 ]
£ ¤
E [X1 X3 ] = aE [X2 X3 ] + bE X32 ;
sustituyendo, se tiene el sistema
1 = a×2+b×3
2 = a×3+b×1
cuya solución es b = − 17 , a = 57 . Por tanto, X̂1 = 57 X2 − 17 X3 . Por su parte, el ecm es

 −1  
³ ´ 2 3 1
V arX − CXY CY−1 CXY 0
=1− 1 2     = 4.
3 1 2 7
Ejemplo 6.6 Vamos a resolver el mismo ejercicio, pero suponiendo que el vector de
³ ´
medias es 1 2 3 .
Como las variables no tienen medias cero, debemos considerarlas centradas para
poder aplicar el principio de ortogonalidad. Se trata, por tanto, de encontrar el esti-
mador óptimo de X1 − 1 dadas X2 − 2 y X3 − 3, que notaremos X̂1 − 1 = a (X2 − 2) +
b (X3 − 3) .
Aplicando el principio de ortogonalidad (a las variables centradas), se tiene que
E [(X1 − 1 − (a (X2 − 2) + b (X3 − 3))) (X2 − 2)] = 0
E [(X1 − 1 − (a (X2 − 2) + b (X3 − 3))) (X3 − 3)] = 0,
de donde
Cov (X1 , X2 ) = aV arX2 + bCov (X2 , X3 )
Cov (X1 , X3 ) = aCov (X2 , X3 ) + bV arX3 ;
sustituyendo, se tiene el sistema
1 = a×2+b×3
2 = a×3+b×1
cuya solución es b = − 17 , a = 57 . Por tanto,

5 1 5 1 6
X̂1 − 1 = (X2 − 2) − (X3 − 3) ⇐⇒ X̂1 = X2 − X3 − .
7 7 7 7 7
Por su parte, el ecm es el mismo, ya que un cambio de origen no le afecta.
6.1.5 Estimación lineal
Como hemos comentado, el problema de encontrar el estimador óptimo está resuelto

desde el punto de vista teórico, pero en la práctica, imaginemos la complejidad que
supondría, por ejemplo, estimar una variable dados los valores de 3, 4, 5, ... variables
predictoras mediante la media condicionada.
Esta dificultad motiva la necesidad de buscar otro tipo de estimadores óptimos:
éstos ya no serán los mejores, pero podrán ser también razonablemente buenos (en el
sentido mínimo-cuadrático) y, además, serán mucho más fáciles de calcular porque sólo
dependen del vector de medias y de la matriz de varianzas-covarianzas del vector.
Concretamente, en vez de pretender encontrar los mejores estimadores de entre
todos los posibles, vamos a plantearnos encontrar los mejores estimadores de entre
todos los estimadores lineales.
El resultado que resume todo el procedimiento es el siguiente.
Teorema 6.5 Supongamos que tenemos una variable X que queremos predecir o esti-
mar, conocido el valor de un conjunto de variables predictoras, Y1 , ..., YN . Supongamos
también que todas las variables están centradas (tienen media cero). En estas condi-
P
ciones, el estimador lineal óptimo de X dadas Y1 , ..., YN es X̂ = N
i=1 ai Yi , donde los
pesos ai son tales que verifican la condición de ortogonalidad:

"Ã N
! #
X
i=1
Además, el ecm asociado es,
e = V arX − CXY CY−1 CXY

0
,
donde el elemento j de CXY es Cov (X, Yj ) .
Demostración. Se basa en el principio de ortogonalidad. Puede encontrarse, por

ejemplo, en Stark & Woods (2002) 560-563.
Obsérvese que el procedimiento es el mismo que en el caso óptimo cuando la distribu-

ción es conjuntamente gaussiana. La razón es que en ese caso, la media condicionada,
que es el estimador óptimo de verdad, es una combinación lineal de las variables pre-
dictoras, por lo que debe coincidir con el lineal óptimo. Tenemos, por tanto, un único
procedimiento, basado en el principio de ortogonalidad, para realizar estimaciones:
• si el ambiente es el de una distribución conjuntamente gaussiana, este estimador

coincide con el óptimo;
• si por el contrario la variable estimada y las variables predictoras no siguen una

distribución conjuntamente gaussiana, sólo se tienen garantías de que se trata del
estimador lineal óptimo.
¿Qué ocurre si la variable a estimar y/o las variables predictoras no están centradas?
Actuaremos como se comentó en el caso de la estimación gaussiana óptima:
• Se centran las variables.
• Se busca el estimador lineal óptimo de la variable centrada, basado en las variables

predictoras centradas.
• Se obtiene el estimador lineal óptimo de la variable a estimar a partir de él.
Ejemplo 6.7 Vamos a deducir como un sencillo ejercicio el caso más simple, que
corresponde a la estimación lineal óptima de una v.a. X conocido el valor de otra v.a.
Y . A esta estimación se le conoce como recta de regresión.
• En principio las variables no tienen porqué estar centradas, así que consideramos
la estimación de X − EX dada Y − EY .
• Buscamos el estimador lineal óptimo X̂ −EX = a (Y − EY ) . Para ello aplicamos

el teorema, que proporciona una única condición de ortogonalidad:
E [(X − EX − a (Y − EY )) (Y − EY )] = 0,
es decir,
Cov (X, Y ) − aV arY = 0,
Cov(X,Y )
de donde a = V arY .
• Se tiene, por tanto,

Cov (X, Y )
X̂ = EX + (Y − EY ) .
V arY
Cov(X,Y )2
Además, el ecm asociado es e = V arX − CXY CY−1 CXY
0 = V arX − V arY =
¡ ¢
V arX 1 − ρ2XY .
Ejemplo 6.8 Ya hemos comentado en alguna ocasión que es frecuente el problema de la

señal X que llega contaminada por un ruido N de manera que nosotros no observamos
más que una señal Y = X + N, sin que sepamos distinguir cuál es la señal original y
cuál el ruido. El ruido, en general, es independiente de la señal, ya que es algo ajeno
al sistema, y no supone pérdida de generalidad suponer que tiene media cero. Tampoco
supone pérdida de generalidad suponer que la señal X tiene media cero.
En estas condiciones, vamos a obtener la estimación de X mediante el estimador
lineal óptimo.
Cov [X, Y ] E [X · (X + N)] − 0
a= =
V ar [Y ] V ar [X + N]
£ 2¤ £ ¤
E X E X2
= =
V ar [X] + V ar [N] E [X 2 ] + E [N 2 ]
1
= 2] .
1 + E[N
E[X 2 ]
Por tanto, el estimador lineal óptimo de X cuando se observa Y es

1
X̂ (Y ) = E[N 2 ]
Y
1+ E[X 2 ]
Obsérvese que cuanto mayor es la varianza del ruido, menos se tiene en cuenta la
observación de Y , tendiendo a cero, es decir, a la media de X, que es el estimador
cuando se ignora por completo a Y .
Por otra parte, si ambas v.a. siguieran una distribución conjuntamente gaussiana,
lo cual no es difícil en la práctica, se tendría la garantía de que la recta de regresión es
en realidad el estimador óptimo.
Ejemplo 6.9 La tabla siguiente determina la mpf conjunta de dos v.a. X e Y .
PX,Y (x, y) y = −1 y=0 y=1
x = −1 1/12 1/12 1/6

x=0 1/12 1/6 1/12
x=1 1/6 1/12 1/12
Calculemos el estimador lineal óptimo de X dado Y y el ecm de esa estimación.

Para ello sólo necesitamos los momentos de primer y segundo orden:
µ ¶ µ ¶ µ ¶
1 1 1 1 1 1 1 1 1
EX = (−1) + + +0 + + +1 + + =0
12 12 6 12 6 12 6 12 12
µ ¶ µ ¶ µ ¶
£ ¤ 1 1 1 1 1 1 1 1 1 2
E X 2 = (−1)2 + + +0 2
+ + +1 2
+ + = = V arX
12 12 6 12 6 12 6 12 12 3
µ ¶ µ ¶ µ ¶
1 1 1 1 1 1 1 1 1
EY = (−1) + + +0 + + +1 + + =0
12 12 6 12 6 12 6 12 12
µ ¶ µ ¶ µ ¶
£ ¤ 1 1 1 1 1 1 1 1 1 2
E Y 2 = (−1)2 + + +02
+ + +12
+ + = = V arY
12 12 6 12 6 12 6 12 12 3
1 1 1 1
E [XY ] = (−1) · (−1) + (−1) · 0 + (−1) · 1 + 0 · (−1)
12 12 6 12
1 1 1 1 1
+0 · 0 + 0 · 1 + 1 · (−1) + 1 · 0 + 1 · 1
6 12 6 12 12
1
= − = Cov (X, Y )
6
− 16
ρ= 2 = −0.25.
3
Cov(X,Y )
Por tanto, la recta de regresión es X̂ (Y ) = V arY Y = −0.25Y. El ecm de este
estimador es
¡ ¢ 2¡ ¢
e = V arX 1 − ρ2 = 1 − 0.252 = 0.625.
3
6.2 Estimación de los parámetros de una distribución
En la sección anterior se parte del conocimiento de la distribución que las v.a. siguen
para el cálculo de los estimadores.
Pero ¿qué ocurre cuando desconocemos uno o más parámetros de la distribución
que sigue una v.a.? Por ejemplo, si observamos repetidamente los valores de una v.a. y
sospechamos por la forma de su densidad que sigue una distribución gaussiana, ¿cómo
conocer los parámetros µ y σ2 ?
El punto de partida en el planteamiento de este problema es el siguiente: dada
una v.a. X que sigue una determinada distribución de probabilidad, deseamos conocer
un parámetro asociado a esta distribución, que notaremos en general θ. La única
información de la que dispondremos será una muestra aleatoria simple (a partir de
ahora, mas), es decir, un conjunto de observaciones X1 , ..., XN que no son más que
copias i.i.d., con la misma distribución que la v.a. X. Esta muestra debe ayudarnos a
calcular al menos, una aproximación lo más precisa posible del parámetro θ.
Vamos a considerar dos formas distintas de aproximar el valor de θ. La primera será
la construcción de estimadores puntuales que proporcionarán, a partir de la muestra,
un valor concreto que aproxime el parámetro desconocido. La segunda forma consiste
en dar una región o intervalo de confianza donde tengamos amplias garantías de que
el parámetro se encuentra.
6.2.1 Estimación puntual
Por tanto, a partir de la observación de muestras aleatorias simples, pretendemos

obtener estimaciones de parámetros de la distribución. Concretamente, nos vamos a
centrar en los parámetros media y varianza.
Sea una mas X = (X1 , ..., XN )0 de una determinada v.a. X. Un esti-

mador de θ, Θ̂ (X), es una función de la muestra que trata de estimar θ,
pero que no depende de θ.
A continuación debemos plantearnos cuáles son las propiedades que convierten a

un estimador en un buen estimador.
En primer lugar, parece lógico pensar que si bien el estimador no proporcionará
siempre el estimador exacto del parámetro, al menos deberá establecer estimaciones
que se equivoquen en igual medida por exceso que por defecto. Este tipo de estimadores
se denominan insesgados.
Un estimador Θ̂ (X) de θ se dice insesgado si

h i
E Θ̂ = θ.
Se denomina sesgo de un estimador a

¯ h i ¯
¯ ¯
¯E Θ̂ − θ ¯.
Por otra parte, también sería deseable que cuanto más rica fuera la muestra, más se
aproximara el estimador al valor del parámetro desconocido. Este tipo de estimadores
se denominan consistentes.
Sea Θ̂N (X) un estimador de θ construido a partir de una muestra de

tamaño N, X = (X1 , ..., XN )0 . Se dice que el Θ̂N es consistente si
h¯ ¯ i
¯ ¯
lim P ¯Θ̂N − θ¯ > ε = 0 para todo ε > 0.
N→∞
(Se dice también que el estimador converge en probabilidad al parámetro).
Existen otras propiedades que pueden resultar de interés para los estimadores, pero
no las veremos aquí.
Estimación de la media de una v.a.
Teorema 6.6 Sea una v.a. X, y una mas suya, X1 , ..., XN . Entonces, la media
muestral,
X1 + ... + XN
MN (X) =
N
es un estimador insesgado y consistente de E [X] .
Demostración. Para la insesgadez,
E [X1 ] + ... + E [XN ] EX + ... + EX

E [MN (X)] = = = EX.
N N
Para la consistencia, tengamos en cuenta que la varianza de este estimador es

· ¸
1 1
V ar [MN (X)] = V ar X1 + ... + XN
N N
1 1
= 2 V ar [X1 ] + ... + 2 V ar [XN ]
N N
V ar [X]
= .
N
Ahora bien, según la desigualdad de Chebyshev,
V ar [MN (X)] V ar [X] N→∞

P [|MN (X) − EX| > ε] ≤ 2
= → 0.
ε Nε2
Estimación de la varianza de una v.a.
Teorema 6.7 Sea una v.a. X y una mas suya, X1 , ..., XN . Entonces, la varianza
muestral,
N
1 X
VN (X) = (Xi − MN (X))2
N −1
i=1
es un estimador insesgado y consistente de V ar [X].

Demostración.
  2 
X N XN
E Xi − 1 Xj  
N
i=1 j=1
  
X N  XN XN 
 2 1
= E 2
X − Xi Xj + 2 Xj Xk 
 i N N 
i=1 j=1 j,k=1
  
N 

 

X 2 2 XN
1 XN
1 XN 
= E  2
Xi − Xi −2
Xi Xj + 2 2
Xj + 2 Xj Xk 
 N N N N 
i=1 
 j=1 j=1 j,k=1 

j6=i j6=k
2
= (N − 1) σ ,
£ ¤
ya que E Xi2 = σ2 + µ2 . Por tanto,
"P #
N
− µ̂)2
i=1 (Xi
E = σ2 ,
N −1
lo que demuestra que es insesgado. Por otra parte,

h¡ ¢2 i
V ar [VN (X)] = E VN (X) − σ2
 


 1 XN XN
=E
 2  (Xi − µ̂) 4
+ (Xi − µ̂) (Xj − µ̂) + σ4
(N − 1)  i=1 i,j=1
j6=i
N
)#
2σ2 X 2
+− (Xi − µ̂) .
n−1
i=1
Obsérvese que conforme N → ∞, el término más preponderante es

PN
− µ̂)4
i=1 (Xi N 4 N>> m4
2 = 2m ≈ .
(N − 1) (N − 1) N
De nuevo por la desigualdad de Chebychev,
£¯ ¯ ¤ V ar [VN (X)] N>> m4 N→∞

P ¯VN (X) − σ2 ¯ > ε ≤ ≈ → 0,
ε2 Nε2
lo que demuestra que es consistente.


Figura 6.1: Histograma para la muestra x1×1000 con 32 intervalos.
Ejemplo 6.10 Mediante Matlab hemos generado una muestra aleatoria simple de 1000
valores de una distribución N (0, 1). No obstante, vamos a suponer que desconocemos
de qué distribución proceden los datos y vamos a tratar de ajustar una distribución
teórica partiendo de los valores de la muestra:
x1×1000 = (0.1253, 0.2877, −1.1465, 1.1909, 1.1892, −0.0376, 0.3273, ...)
Para empezar, debemos pensar en una distribución adecuada. Para ello puede obser-
varse el histograma de los datos por si éste recuerda la forma de alguna dpf conocida.
En este caso, el histograma de la muestra aparece en la Figura 6.1, histograma que
recuerda claramente la dpf de una distribución normal.
La pregunta inmediata una vez que se opta por ajustar mediante una distribución
normal es ¿qué normal? Es decir, ¿qué media y qué varianza se proponen para la
distribución que queremos ajustar a estos datos? Evidentemente, la respuesta a esta
pregunta la proporcionan los estimadores insesgados y consistentes que hemos encon-
trado para estos parámetros. Concretamente,
M1000 (x) = −0.0387

V1000 (x) = 0.8906,
por lo que ajustaríamos los datos de la muestra x mediante una distribución N (−0.0387, 0.8906).
Obsérvese que es una distribución muy parecida a la que sabemos que es la auténtica
distribución, N (0, 1).
6.2.2 Estimación por intervalos de confianza
En la estimación por intervalos de confianza el objetivo es encontrar una región

basada en una muestra donde el parámetro a estimar se encuentre con una alta proba-
bilidad, que se denominará nivel de confianza.
En este apartado nos vamos a centrar en encontrar intervalos de confianza para los
parámetros media y varianza en distribuciones gaussianas.
Intervalos de confianza para la media
Teorema 6.8 Sea X una v.a. con distribución gaussiana de media µ desconocida
y varianza σ2 conocida. Sea una mas X = (X1 , ..., XN )0 de X, y MN (X) la media
muestral asociada:
N
1 X
MN (X) = Xi .
N
i=1
Entonces,
· · ¸¸
σ σ
P µ ∈ MN (X) − z1− α2 √ , MN (X) + z1− α2 √ = 1 − α,
N N
³ ´
donde z1− α2 es tal que FZ z1− α2 = 1 − α2 , siendo Z → N (0, 1) .
Es decir, la media se encuentra en el intervalo
· ¸
σ σ
MN (X) − z1− α2 √ , MN (X) + z1− α2 √
N N
con un (1 − α)% de confianza.
α 0.9 0.925 0.95 0.975 0.99 0.995 0.999 0.9995

zα 1.282 1.440 1.645 1.967 2.326 2.576 3.090 3.291
Tabla 6.1: Distintos valores de zα para distintos α
¡ ¢
Demostración. Dado que la v.a. sigue una distribución N µ, σ2 , la media
³ 2
´
muestral sigue una distribución N µ, σN ; por lo tanto,
MN (X) − µ
Z= q → N (0, 1) .
σ2
N
En términos de la función de distribución de Z, se tiene que

h i
P −z1− α2 < Z < z1− α2 = 1 − α.
Pero, por otra parte,

 
h i M (X) − µ
N
P −z1− α2 < Z < z1− α2 = P −z1− α2 < q < z1− α2 v 
σ2
N
" r r #
σ2 σ2
= P −z1− α2 < MN (X) − µ < z1− α2
N N
" r r #
σ2 σ2
= P µ − z1− α2 < MN (X) < µ + z1− α2 .
N N
No obstante, hay que reconocer que en la práctica es poco probable que se desconoz-
ca el valor de la media y sí se conozca el de la varianza, de manera que la aplicación
de este teorema es muy limitada. El siguiente resultado responde precisamente a la
necesidad de extender el anterior cuando se desconoce el valor de la varianza.
Teorema 6.9 Sea X una v.a. con distribución gaussiana de media µ y varianza σ2 ,
ambas desconocidas. Sea una mas X = (X1 , ..., XN )0 de X, la media muestral
N
1 X
MN (X) = Xi
N
i=1
y la varianza muestral,
N
1 X
VN (X) = (Xi − MN (X))2 .
N −1
i=1
Entonces,
" " r r ##
VN (X) VN (X)
P µ ∈ MN (X) − t1− α2 ;N−1 , MN (X) + t1− α2 ;N−1 = 1 − α,
N N
donde tα;N es el valor tal que FTN (tα;N ) = α, siendo TN una v.a. con distribución
llamada T de Student con N grados de libertad2 .
Es decir, confiamos en un (1 − α)% en que el intervalo
" r r #
VN (X) VN (X)
MN (X) − t1−α/2;N−1 , MN (X) + t1−α/2;N−1
N N
contiene a la media, que es desconocida.
Demostración. Canavos (1988) 277.
Ejemplo 6.11 Para la muestra que hemos considerado en el Ejemplo 6.10, el intervalo
de confianza que se establece al 95% de confianza para la media es
Ã r !
0.8906 ¡ ¢
−0.0387 ∓ 1.6464 = −8. 783 3 × 10−2 , 1. 043 3 × 10−2
1000
Obsérvese que, en efecto, la verdedera media, µ = 0, está en el intervalo de confianza.
Intervalos de confianza para la varianza
Análogamente, pueden darse intervalos de confianza para la varianza con la media

conocida o desconocida, cuando la v.a. observada sigue una distribución gaussiana.
Ambos casos se recogen en el siguiente resultado.
2
Los valores tα;N pueden obtenerse por ejemplo, con la orden tinv (α, N) de MATLAB. También
existen tablas que proporcionan algunos de estos valores (Stark 279, Papoulis 249).
Teorema 6.10 Sea X una v.a. con distribución gaussiana de media µ y varianza σ2 .
Sea una mas X = (X1 , ..., XN )0 de X, la media muestral
N
1 X
MN (X) = Xi .
N
i=1
Entonces:
1. Si la media µ es conocida,
"P PN #
N 2 2
i=1 (Xi − µ) 2 i=1 (Xi − µ)
P <σ < = 1 − α.
χ21− α ;N χ2α ;N
2 2
2. Si la media µ es desconocida,
"P PN #
N 2 2
(X i − M N (X)) (Xi − M N (X))
P i=1
< σ2 < i=1 2 = 1 − α.
χ21− α ;N−1 χ α ;N−1
2 2
³ ´
En ambas expresiones, χ2α;N corresponde con aquel valor tal que Fχ2 χ2α;N =
α, donde χ2 sigue una distribución conocida como χ cuadrado con N grados de
libertad3 .
Demostración. Canavos (1988) 280-281.
Ejemplo 6.12 Para la muestra del Ejemplo 6.10, el intervalo de confianza para la
varianza al 95% que proporciona el teorema es
µ ¶
889.7524 889.7524
, = (0. 817 41, 0. 974 22) .
1.0885 × 103 913.3010
Obsérvese que ¡σ 2 = 1 no pertenece al intervalo de confianza al 95%! Esto puede tener

dos explicaciones:
1. Nos encontramos en ese 5% de casos en que la varianza, por error, cae fuera del
intervalo.
3
Estos valores pueden obtenerse mediante la función chi2inv (1 − α, N) de MATLAB. También
existen tablas donde aparecen algunos de estos valores, como en Papoulis 253.
2. El procedimiento mediante el que Matlab simula datos normales no es muy preciso.
Vista la experiencia con Matlab, personalmente me decanto por la segunda opción.

Si en vez de utilizar un 95% de confianza usamos el 99%, el intervalo es ahora
µ ¶
889.7524 889.7524
, = (0. 795 91, 1. 002 4) ,
1.1179 × 103 887.6211
al que sí pertenece la verdadera varianza. Obsérvese que al aumentar el nivel de sig-

nificación, dado que nos hacemos más intolerantes con los errores, el intervalo se hace
más amplio.
1. Sean las variables X1 , X2 , ... muestras tomadas una a continuación de

la otra en intervalos constantes de tiempo de una onda que representa
una señal de voz. Un dispositivo de predicción de segundo orden se
aplica a estas muestras para obtener una predicción lineal óptima en el
sentido mínimo cuadrático de Xn conocidos los valores de Xn−2 y Xn−1 .
Calcular el valor de esta predicción y su error cuadrático medio con la
siguiente información: todas las muestras tienen media cero y varianza
σ 2 ; la covarianza entre las muestras es Cov (Xi , Xj ) = ρ|i−j| σ2 , con ρ0 = 1,
ρ1 = 0.825 y ρ2 = 0.562.
Vamos a notar X̂n = aXn−1 +bXn−2 al estimador lineal óptimo. Según el principio
de ortogonalidad,
E [(Xn − aXn−1 − bXn−1 ) Xn−1 ] = E [(Xn − aXn−1 − bXn−1 ) Xn−2 ] = 0,
es decir,
0.825σ2 − aσ2 − b0.825σ2 = 0
0.562σ2 − a0.825σ2 − bσ2 = 0,

de donde a = 1. 131 y b = −0. 371.
Por su parte, el ecm es
h i
E (Xn − (1.131Xn−1 − 0.371Xn−2 ))2
£ ¤
= E Xn2 − 2 × 1.131E [Xn Xn−1 ] + 2 × 0.371E [Xn Xn−2 ]
£ 2 ¤ £ 2 ¤
+1.1312 E Xn−1 + 0.3712 E Xn−2 − 2 × 1.131 × 0.371E [Xn−1 Xn−2 ]
= σ2 − 2 × 1.131 × 0.825σ2 + 2 × 0.371 × 0.562σ 2 + 1.1312 σ2
+0.3712 σ 2 − 2 × 1.131 × 0.371 × 0.825σ2
= 0.275σ2 ,
lo que supone el 27.5% de la variabilidad total de la señal. Se ha mejorado, por

tanto, en un 72.5% la estimación que proporciona la media.
2. Un teléfono portátil tiene la misma probabilidad de ser localizado en

cualquier lugar dentro de un círculo con centro en la base del teléfono
y radio 4km, de manera que si notamos por (X, Y ) el vector de sus
coordenadas, su dpf es constante en la región x2 + y 2 ≤ 42 .
Se desea estimar la posición del teléfono dentro de su radio de ac-

ción conociendo tan sólo una de sus coordenadas. Encontrar la mejor
estimación en el sentido mínimo cuadrático de cada una de las coorde-
nadas conocida la otra y el error cuadrático medio de esas estimaciones.
¿Serán estimaciones fiables?
1
La dpf conjunta de (X, Y ) es fX,Y (x, y) = π×42
para x2 + y2 ≤ 42 .
Para obtener la mejor estimación posible debemos calcular previamente las dis-
tribuciones condicionadas, y para éstas, antes hemos de calcular las marginales:
Z √
42 −x2
√
1 1 42 − x2
f X (x) = √ 2
dy = ,
− 42 −x2 π×4 8 π
para −4 < x < 4. Análogamente,

p
1 42 − y2
f Y (y) = ,
8 π
para −4 < y < 4.
Por su parte,
1
π×42 1
fY / X=x (y) = √ = √
1 42 −x2 2 4 − x2
2
8 π
√ √
para − 42 − x2 < y < 42 − x2 . Se trata de una distribución uniforme, cuya
h i
media es el punto medio. Así, E [Y / X] = 0 y el ecm es e = E (Y − 0)2 =
R 4 2 1 √42 −y2
−4 y 8 π dy = 4.
En cualquier caso, las estimaciones no serán muy fiables, ya que en una distribu-
ción uniforme puede darse cualquier valor con la misma densidad, luego la media
no será en absoluto un buen estimador.
El procedimiento es análogo para X / Y , dada la simetría del vector.
3. Sea una señal aleatoria X (t): es decir, para cada t0 , tenemos una v.a.
X (t0 ). Supongamos, además, que todas las v.a. X (t) son gaussianas
y que cualquier subconjunto de ellas tiene distribución conjuntamente
gaussiana. Consideremos también que la media de todas estas variables
es cero y que la correlación entre pares de variables viene dada por
RX (τ ) = E [X (t) X (t + τ )] = e−|τ | ,para todo t y todo τ . Se toma una
muestra de la señal en los instantes t = 0, t = 1 y t = 2, y se desea con
ellas predecir el valor de la señal en el instante t = 3.
Realizar la mejor estimación posible en el sentido mínimo cuadrático

y calcular el error cuadrático medio de esa predicción.
Como las observaciones siguen una distribución conjuntamente gaussiana, la mejor

estimación posible coincide con la mejor estimación lineal posible, dada por el
principio de ortogonalidad. Si notamos al estimador
X̂ (3) = aX (0) + bX (1) + cX (2) ,
se tiene que
E [(X (3) − aX (0) − bX (1) − cX (2)) X (0)] = 0
E [(X (3) − aX (0) − bX (1) − cX (2)) X (1)] = 0
E [(X (3) − aX (0) − bX (1) − cX (2)) X (2)] = 0
es decir,
e−3 − a − be−1 − ce−2 = 0
e−2 − ae−1 − b − ce−1 = 0
e−1 − ae−2 − be−1 − c = 0
de donde a =0, b = 0 y c = 0. 37. Obsérvese que el estimador sólo tiene en cuenta

la variable predictora más reciente. El ecm:
h i
e = E (X (3) − 0.37X (2))2 = 0.86.
4. Una fuente de corriente debería emitir un voltaje desconocido V0 , pero

debido a ruidos en los conductores, lo único que podemos observar
es una corriente eléctrica X = V0 + V , donde el ruido V es una v.a.
gaussiana de media cero.
(a) Se desea, en primer lugar, estimar V0 mediante la media muestral.

¿Cuál debe ser el tamaño mínimo de la muestra necesario para
garantizar que el estimador se separa de su verdadero valor a lo
sumo el 1% de la desviación típica de la señal observada X con un
95% de fiabilidad?
¡ ¢ ¡ ¢
Hay que tener en cuenta que si V → N 0, σ 2 , entonces X → N V0 , σ2 .
Además, la media muestral, al ser suma de v.a. gaussianas independientes
es también gaussiana, de media
"P #
N
i=1 Xi NV0
E [MN (X)] = E = = V0 .
N N
PN
Xi
Para calcular su varianza, consideremos que i=1
N puede verse como el
resultado de la combinación lineal
 
X1
 
µ ¶ 
1 1 1  X
 2

,
MN (X) = , , ...,  
N N N  ... 
 
XN
luego la varianza de esta variable es
 
σ 2 0 · · · 0  
  1
 .. . 
 2 . ..   N 
µ ¶ 0 σ  1 
1 1 1  .. . . .   N  σ2
 
, , ..., .
N N N  . . .   ..  = N
  . 
 
 σ2 0   1 
 
N
0 ··· 0 σ2
³ 2
´
Así pues, MN (X) → N V0 , σN . Por tanto, para encontrar N tal que
P [|MN (X) − V0 | < 0.01σ] > 0.95 debemos tener en cuenta que
P [|MN (X) − V0 | < 0.01σ] = P [−0.01σ < MN (X) − V0 < 0.01σ]

· ¸
0.01σ MN (X) − V0 0.01σ
= P − √ < √ < √
σ/ N σ/ N σ/ N
h √ √ i
= P −0.01 N < Z < 0.01 N
³ √ ´ ³ √ ´ ³ √ ´
= FZ 0.01 N − FZ −0.01 N = 2FZ 0.01 N − 1,
donde Z → N (0, 1). Por tanto,

³ √ ´ ³ √ ´ ³ √ ´
2FZ 0.01 N − 1 > 0.95 ⇐⇒ 2FZ 0.01 N > 1.95 ⇐⇒ FZ 0.01 N > 0.975
√ √
de donde 0.01 N > 1.96 ⇐⇒ N > 196.
Por tanto, es necesario que N ≥ 38417.
(b) Posteriormente, se desea hallar un intervalo de confianza para la

varianza de la corriente observada y otro para V0 , ambos al 95%
de confianza. Determinar estos intervalos si se ha tomado una
muestra de 25 valores de X resultando que la media muestral es
P 25 2
i=1 (xi −M25 (x))
M25 (x) = 112 y la varianza muestral, s2 = 24 = 0.36.
El intervalo de confianza para la media:

" r r #
0.36 0.36
112 − t0.975;24 , 112 + t0.975;24 = [111.75, 112.25] .
25 25
El intervalo de confianza para la varianza:

" # · ¸
24 × 0.36 24 × 0.36 24 × 0.36 24 × 0.36
, = , = [0.219, 0.698] .
χ20.975;24 χ20.025;24 39.4 12.4
5. Una señal que se recibe desde el espacio es muestreada repetidamente

para tratar de encontrar un modelo aleatorio adecuado para ella. En
la Tabla 6.2 aparece una colección de estas muestras con 20 valores.
Con esta información, ajustar un modelo adecuado para la señal y
proporcionar un intervalo de confianza para su media y otro para su
varianza con un nivel de significación del 5%.
SUGERENCIA: Para elegir una distribución adecuada a los datos de la señal, dibujar un
histograma con 5 intervalos y elegir como distribución la de una función de densidad que
se parezca al histograma.
En primer lugar, el histograma de estos datos (ver Figura 2.4) sugiere que pro-
pongamos como modelo aleatorio una distribución normal. Para caracterizar
exactamente qué distribución normal proponemos, debemos estimar la media y
la varianza, que son desconocidas. Nosotros proponemos estimadores insesgados
−0.1867 −0.5883 −0.1364 1.0668 0.0593

0.7258 2.1832 0.1139 −0.0956 −0.8323
−0.4326 −1.6656 −1.1465 1.1892 0.3273
0.1253 0.2877 1.1909 −0.0376 0.1746
Tabla 6.2: Muestra de la señal recibida del espacio.
y consistentes: la media muestral y la varianza muestral, que para los datos de

la muestra valen
M20 (x) = 0.1161; V20 (x) = 0.7697.
Por tanto, la distribución que proponemos para los datos es una N (0.1161, 0.7697).
Por otra parte, considerando que la distribución es normal, podemos dar intervalos
de confianza para la media y la varianza:
Para la media
" r r #
0.7697 0.7697
0.1161 − 2.09 , 0.1161 + 2.09 = [−0.294, 0.527] ,
20 20
y para la varianza
· ¸
0.7697 × 19 0.7697 × 19
, = [0.444, 1.642] .
32.85 8.91
1. Estimación de los valores de una v.a. mediante estimación bayesiana (no mínimo
cuadrática) en Stark & Woods (1994) 303-312 y Yates & Goodman (1998) 307-
310.
2. Estimación de los valores de una v.a. mediante estimación por máxima verosimi-
litud y ejemplo sobre un canal de comunicaciones en Viniotis (1997) 322-324.
Figura 6.2: Histograma de los datos de la muestra.
3. Una perspectiva de la estimación mínimo cuadrática de valores de una v.a. desde

el principio de ortogonalidad en Grimmet & Stirzaker (2001) 343-350.
4. Interpretación geométrica del principio de ortogonalidad en Papoulis (1991) 178

y 201-207.
5. Interesantes ejemplos de estimación de valores de una v.a. en Yates & Goodman

(1998) 302-306.
6. Otras propiedades de los estimadores puntuales en Grimmet & Stirzaker (2001)

319-331.
7. Estimación puntual de vectores media y matrices de covarianza en Stark & Woods

(1994) 281-283.
8. Estimación puntual de parámetros mediante el principio de máxima verosimilitud

en Stark & Woods (1994) 284-288, Papoulis (1991) 260-262.
9. Estimación puntual de parámetros mediante el principio de mínimos cuadrados

y sus propiedades en Stark & Woods (1994) 288-296.
10. Estimación puntual bayesiana en Papoulis (1991) 256-260.
11. Estimación lineal de un vector de parámetros en Stark & Woods (1994) 288-296.
12. Estimación del vector de medias y de la matriz de covarianzas de un vector

aleatorio en Stark & Woods (2002) 286-290.
13. Definición detallada de la distribución T de Student en Grimmet & Stirzaker

(2001) 120-121 y de la χ2 en Papoulis (1991) 200.
14. Intervalos de confianza para el parámetro de una distribución exponencial, de una

distribución de Poisson y para una proporción en Papoulis (1991) 249-251.
15. Estimación no paramétrica: Intervalos de confianza para la función de distribu-

ción de una v.a. con distribución desconocida.
Capítulo 7
Secuencias y procesos aleatorios.

Introducción
Resumen. El concepto de variable o de vector aleatorio cuenta con una

importante limitación a la hora de servir de modelo a fenómenos que tienen
una evidente e insoslayable dependencia de un parámetro determinístico,
normalmente el tiempo. Para este tipo de fenómenos, en este y sucesivos
capítulos se introducen los conceptos de secuencia aleatoria (si el tiempo
transcurre a pulsos) o proceso aleatorio (si el tiempo es observado de manera
permanente).
7.1 Introducción
Uno de los problemas más frecuentes dentro del ámbito de las telecomunicaciones
es la caracterización y el estudio de fenómenos de tipo aleatorio tales como señales de
audio o imagen, datos digitales provenientes de una computadora o señales eléctricas
en general. En todos estos ejemplos, hay una característica que es común a todos ellos:
su comportamiento se modifica de manera natural en función de un nuevo parámetro
183
no considerado hasta ahora, el tiempo. Es decir, todos estos fenómenos se ven afectados
por dos fuentes de variación:
a. Por una parte son aleatorios, así que su valor depende de la ocurrencia de un deter-
minado suceso medible de un espacio probabilístico.
b. Por otra parte, y esto es una novedad, su valor depende del instante en que se
observe, ya que evoluciona con el paso del tiempo.
Fenómenos de este tipo se conocen como secuencias aleatorias (a partir de ahora

s.a.) o procesos aleatorios (a partir de ahora p.a.). En lo que resta de la asignatura
vamos a extender las herramientas que se han desarrollado para la descripción de las v.a.
al contexto de las s.a. y los p.a.; describiremos los ejemplos más usuales en el ámbito
de las telecomunicaciones, desarrollaremos definiciones y técnicas necesarias para su
estudio y el de los fenómenos que involucran en cualquier proceso de comunicación.
La distinción entre secuencias y procesos aleatrorios es crucial, y tiene que ver con la
manera en que se observe el tiempo: hablaremos de secuencias cuando éste se observe
en pulsos aislados, y de procesos cuando se mida sin interrupción. El tratamiento de
ambos, secuencias y procesos, es muy distinto, lo que conduce a que deban estudiarse
por separado, como haremos en los siguientes capítulos. Decir por último que algunos
autores hablan de procesos aleatorios en tiempo discreto refiriéndose a lo que nosotros
llamamos aquí secuencias aleatorias y de procesos aleatorios en tiempo continuo en
referencia a lo que nosotros denominamos procesos aleatorios.
7.2 Definición
Sea (Ω, z, P [·]) un espacio probabilístico. Si dado ω ∈ Ω se tiene que

X [n, ω] es una v.a. para cada entero n ∈ T ⊂ R, X [n, ·] es una secuen-
cia aleatoria o estocástica1 (s.a.). El conjunto T suele ser el conjunto

formado por todos los enteros o algún subconjunto de éstos.
Es decir, podemos decir que una s.a. es la asignación de una sucesión a cada suceso
de un espacio muestral de un espacio probabilístico, es decir,
X [n, ·] : Ω → {sucesiones} ,
ω→x[n,ω]
de manera que para cada n ∈ T, X [n, ω] resulte una v.a.

Al igual que en la notación de v.a. obviábamos por comodidad la dependencia de
la variable ω ∈ Ω, de ahora en adelante notaremos en general a una s.a. como X [n].
Las s.a. se usan principalmente como modelos de señales (analógicas o digitales) que
son muestreadas en determinados instantes de tiempo para su observación, en ámbitos
como procesamiento de voces e imágenes, control digital y comunicaciones en general.
Sea (Ω, z, P [·]) un espacio probabilístico. Si dado ω ∈ Ω se tiene que

X (t, ω) es una v.a. para cada t ∈ T ⊂ R, X (t, ·) es un proceso aleatorio o
estocástico (p.a.). El conjunto T suele ser toda la recta real, los positivos
o algún subconjunto de éstos.
Es decir, un p.a. es la asignación de una función a cada suceso de un espacio

muestral de un espacio probabilístico,
X (t, ·) : Ω → {f unciones de t ∈ T } ,
ω→x(t,ω)
de manera que para cada t ∈ T, X (t, ω) resulte una v.a.

Como en el caso de las s.a., notaremos en general a un p.a. como X (t), obviando
en la notación la dependencia de ω.
Para cada ω ∈ Ω concreto, la función x (t, ω) se conoce como función muestral
asociada a ζ.
1
El término aleatorio, de origen latino, es sinónimo de estocástico, de origen griego. Ambos vocablos
son completamente equivalentes, lo que es importante a la hora de consultar la bibliografía.
Espacio
muestral
ω2 ω1
ω3
X1( t )
X1( tk )
X2(tk )
X2( t )
X3( t ) X3(tk )
tk
Figura 7.1: Distintas funciones muestrales x (t, ω) de un p.a. X (t).
El ámbito de aplicación del concepto de p.a. es amplisimo. Para empezar, puede

utilizarse como modelo de cualquier fenómeno del que una s.a. sea a su vez modelo
cuando el fenómeno sea muestreado: es decir, con un p.a. no es preciso tomar muestras
en determinados instantes, ya que se observa de manera continuada. Pero quizá el
uso más habitual de los p.a. sea como modelos de ruido en sistemas físicos sujetos a
incertidumbre o en procesos de comunicación donde el receptor desconoce en alguna
medida la información que el emisor pretende transmitir.
Es importante observar que los conceptos de secuencia y proceso aleatorios son una
extensión del concepto de vector aleatorio. Téngase en cuenta que un vector aleatorio es
una secuencia finita de v.a., mientras que una s.a. es una secuencia infinita numerable
y un p.a. una secuencia infinita no numerable de v.a.
Por último, hay un aspecto técnico muy importante a destacar de cara a los próx-
imos capítulos. En los conceptos de secuencia y proceso se realiza una clasificación
implícita de los fenómenos aleatorios dependiendo de si el tiempo es considerado dis-
creto o continuo. Esa misma clasificación podría realizarse del mismo fenómeno en sí:
es decir, podríamos estudiar por un lado fenómenos aleatorios medidos por variables
discretas y por otro lado fenómenos aleatorios descritos por variables continuas. Eso
nos llevaría a estudiar cuatro familias: las s.a. discretas, las s.a. continuas, los p.a.
discretos y los p.a. continuos. Afortunadamente, vimos cómo las v.a. dicretas pueden
englobarse en el estudio de las v.a. continuas mediante el uso de su dpf generalizada,
de manera que no es necesario realizar esa nueva clasificación. En los siguientes capí-
tulos vamos a estudiar exclusivamente secuencias y procesos aleatorios, incluyendo en
ambos tanto v.a. discretas como continuas mediante el concepto de dpf. No obstante,
es importante distinguir en cada caso qué tipo de fenómeno se está analizando, de cara
a aplicar convenientemente las propiedades de las v.a. estudiadas hasta ahora
7.3 Ejemplos
1. Se almacenan como una función M (t) el número de llamadas recibidas en una

centralita telefónica cada día t durante 276 días.
La Figura 7.2 es una representación resultante de una secuencia concreta de 176

días.
Nótese que en este ejemplo el tiempo y el conjunto de valores posibles son con-
juntos discretos (se mide día a día y el número de llamadas es un entero), aunque
la apariencia de la gráfica sea la de una función continua de variable continua: se
trata, por tanto, de una s.a. discreta.
2. En la misma centralita del ejemplo anterior se contabiliza el tiempo de duración

de cada llamada, T (n), donde n indica la llamada n− ésima.
En esta ocasión, cada secuencia muestral es una secuencia de números reales. El

tiempo se considera como discreto (el tiempo aquí es en realidad el índice o no de
orden de las llamadas) y el rango de valores es [0, ∞): se trata, por tanto, de una
Figura 7.2: Número de llamadas recibidas en un día. Secuencia asociada a 276 días.
s.a. continua.
En la Figura 7.3 aparece una representación de una posible función muestral.
3. Una impresora tiene capacidad para almacenar en memoria 1 Mb. Se considera

N (t) el número de bits que la impresora tiene en cola o imprimiendo en cada
instante t. En este caso, el tiempo es una variable continua y el rango de valores
del p.a. es el conjunto de los enteros entre 0 y 1.000 (discreto): se trata, por
tanto, de un p.a. discreto.
4. Se observa una señal eléctrica (de forma sinusoidal) que se sabe está contaminada
por un ruido. Un valor observado x (t, s) , que se representa en la Figura 7.4,
corresponde a una función muestral de la señal, parte de la cual se debe al efecto
aleatorio del ruido.
En esta ocasión, tanto el tiempo como el rango de valores de la señal, son contin-
uos, de manera que se trata de un p.a. continuo.
Figura 7.3: Duración de llamadas consecutivas. Función muestral.

Figura 7.4: Función muestral de una señal contaminada por ruido.

Interesantes ejemplos en Viniotis (1997)389-393, Stark & Woods (1994) 318-323,

Yates & Goodman (1998) 201-207 y Peyton (1993) 163-168.
Capítulo 8
Secuencias aleatorias
Resumen. La descripción estadística de una s.a. a partir de sus densi-

dades conjuntas o sus primeros momentos permite caracterizar las familias
más importantes (gaussianas, estacionarias, ...) así como su comportamien-
to cuando se consideran como inputs de sistemas lineales. Finalmente, se
introduce el concepto de convergencia de s.a. en sus distintas versiones y
algunas de sus aplicaciones en el Teorema Central del Límite.
8.1 Descripción estadística
Recordemos que una s.a., X [n], puede interpretarse como una sucesión, en general
infinita, de v.a. De esta forma, si nos preguntamos qué es necesario conocer para que
podamos calcular la probabilidad de cualquier suceso que involucre a X [n], hemos
de decir que deberíamos disponer de todas las cdf o todas las dpf de un conjunto
cualesquiera de v.a. que componen la s.a.1 . Decimos, por tanto, que una s.a. queda
estadísticamente especificada si para cada N v.a. consideradas en cualesquiera
1
¿Con las dpf de cualquier conjunto finito de v.a. de X [n] podríamos conocer probabilidades de
sucesos que involucren un número infinito de éstas? La respuesta es que sí. Para profundizar sobre este
hecho puede verse Stark & Woods (1998) 321-326.
191
instantes k1 , ..., kN , se conoce la dpf (o la cdf ) conjunta de las v.a. X [k1 ] , ..., X [kN ],
fX[k1 ],...,X[kN ] (x1 , ..., xN ) .
De todas formas, como vimos al considerar las variables y vectores aleatorios, gran
parte de las propiedades estadísticas de éstos dependen en gran medida de sus primeros
momentos. En este sentido,
se define la función media de la s.a. X [n] como
µX [n] = E [X [n]] ,
y se define la función de autocorrelación de la s.a. X [n] como
RX [n, k] = E [X [n] X [k]∗ ] .
Observación 8.1 En la expresión de la función de autocorrelación se está consideran-

do la posibilidad de que la s.a. sea compleja. No obstante, prácticamente no veremos
ejemplos de este tipo. De todas formas, una s.a. compleja puede verse como un par de
s.a. reales, una que represente la parte real y otra la parte imaginaria.
Es cierto que no siempre tienen que existir los momentos de primer y segundo
orden de una v.a. Las s.a. que posean estos momentos se denominan s.a. de segundo
orden, y serán las que principalmente consideremos en esta asignatura.
Por otra parte, a partir de la función media y de autocorrelación pode-

mos definir, a su vez, la función de autocovarianza de la s.a. X [n]
como
CX [n, k] = Cov (X [n] , X [k]) = RX [n, k] − µX [n] µX [k]∗ .
Como principal característica de las funciones de autocorrelación y autocovarianza,

nótese que si X [n] es real, ambas funciones son simétricas, es decir,
RX [n, k] = RX [k, n]
CX [n, k] = CX [k, n] .
Por otra parte, es de destacar que
CX [n, n] = RX [n, n] − µX [n]2 = V ar (X [n]) .
8.2 Algunas familias de s.a.
En esta sección vamos a introducir las definiciones de algunas de las familias de s.a.
más habituales y que se utilizarán en adelante.
8.2.1 S.a. gaussianas
En primer lugar, vamos a extender el concepto de vector aleatorio gaussiano al

ámbito de las s.a. Este tipo de secuencias son ampliamente utilizadas en el ámbito
de la ingeniería, ya que suponen un buen modelo para un gran número de fenómenos
físicos: este hecho está avalado por el conocido como Teorema Central del Límite.
Por otra parte, las propiedades matemáticas de estas secuencias, como ocurre con los
vectores gaussianos, son excelentes, de ahí que se procure considerar modelos de este
tipo para que el cálculo se simplifique significativamente
Sea una s.a. X [n]. Se dice que X [n] es una secuencia aleatoria
gaussiana si cualquier conjunto de N v.a. de la secuencia tienen distribu-
ción conjuntamente gaussiana.
Los dos siguientes tipos de s.a. tienen que ver con propiedades de independencia
entre las v.a. que forman la secuencia.
8.2.2 S.a. independientes y s.a. incorreladas
independiente si cualquier conjunto de N v.a. de la secuencia son inde-
pendientes entre sí.
Obsérvese que la función de autocovarianza de una s.a. X [n] independiente será

diagonal, en el siguiente sentido:
CX [n, k] = 0 si n 6= k,
ya que la independencia implica la incorrelación.
En general, aquellas s.a. tales que su función de autocovarianza es cero

salvo en la diagonal se denominan s.a. incorreladas.
Lo que hemos puesto de manifiesto, por tanto, es que una s.a. independiente es
incorrelada. El recíproco no es cierto, en general, pero como ocurre con los vectores
gaussianos, sí lo es cuando consideramos s.a. gaussianas.
Teorema 8.1 Una s.a. gaussiana es independiente si y sólo si es incorrelada.
Demostración. ⇒ Acabamos de ver que la independencia implica la incorrelación.

⇐ Además, si la s.a. es incorrelada y gaussiana, cualquier vector formado por v.a.
suyas es gaussiano e incorrelado, luego está formado por v.a. independientes. Eso
implica que la s.a. es también independiente.
8.2.3 S.a. con incrementos independientes
con incrementos independientes si cualquier conjunto de N v.a. de la
secuencia, X [k1 ] , X [k2 ] , ..., X [kN ], con k1 < k2 < ... < kN , son tales que
los incrementos
X [k1 ] , X [k2 ] − X [k1 ] , ..., X [kN ] − X [kN−1 ]
son independientes entre sí.
Como veremos más adelante, son numerosas las ocasiones en que las relaciones entre
las v.a. que forman una s.a. tan sólo dependen de la distancia que las separa en el
tiempo, no del instante en que se produzcan. En este tipo de s.a. el modelo matemático
es mucho más sencillo, como veremos.
8.2.4 S.a. estacionarias
estacionaria en sentido estricto o estrictamente estacionaria si para
cualquier conjunto de N v.a. de la secuencia, X [k1 ] , X [k2 ] , ..., X [kN ], con
k1 < k2 < ... < kN , y para cada entero l se verifica que
fX[k1 ],X[k2 ],...,X[kN ] (x1 , ..., xN ) = fX[k1 +l],X[k2 +l],...,X[kN +l] (x1 , ..., xN )
para todo (x1 , ..., xN ). Es decir, si sus dpf conjuntas no se modifican si se

trasladan en el tiempo.
Obsérvese en particular que si se toma N = 1, la condición resulta ser
fX[k] (x) = fX[k+l] (x)
para todo k y todo l. Es decir, todas las dpf de las v.a. que forman la s.a. son la
misma.
Por otra parte, si se toma N = 2,
fX[n],X[k] (x1 , x2 ) = fX[n+l],X[k+l] (x1 , x2 )
para todo n, k y l. Por tanto, las densidades entre dos v.a. cualesquiera es la misma
siempre que las separe la misma distancia en el tiempo (en este caso k − n).
estacionaria en sentido débil o débilmente estacionaria si:
1. Su función media es constante y

2. su función de autocorrelación sólo depende de la distancia en el tiempo entre las

v.a., es decir,
RX [n, k]
sólo depende de k − n, en cuyo caso se notará
RX [n, k] ≡ RX [k − n] .
Es decir, una s.a. es débilmente estacionaria si sus momentos de primer y segundo

orden no se modifican si se trasladan en el tiempo.
Como vamos a ver, que una s.a. sea estrictamente estacionaria es una hipótesis más
restrictiva que lo sea en sentido débil. En general, suele considerarse que las s.a. son
débilmente estacionarias, ya que esto simplifica sustancialmente el modelo matemático
sin restringir de manera significativa el ámbito de aplicación de los resultados.
Teorema 8.2 Cualquier s.a. estrictamente estacionaria es débilmente estacionaria.
Demostración.
µX [n] = E [X [n]] .
Ahora bien, todas las v.a. de la s.a. tienen la misma dpf, luego en particular tienen la
misma media.
Análogamente,
RX [n, k] = E [X [n] X [k]]
sólo depende de k − n ya que la dpf conjunta de X [n] y X [k] sólo depende de esta
cantidad.
¿El recíproco de este teorema será cierto? No en general. Sin embargo, vamos a ver
que en el caso de s.a. gaussianas ambos conceptos son equivalentes.
Teorema 8.3 Sea X [n] una s.a. gaussiana. Entonces X [n] es débilmente estacionaria
si y sólo si es estrictamente estacionaria.
Demostración. ⇐ Acabamos de ver que si es estrictamente estacionaria, en par-

ticular es débilmente estacionaria.
⇒ Por otra parte, si X [n] es débilmente estacionaria, E [X [n]] es constante y
CX (n, k) sólo depende de n − k. Por tanto, los vectores medias y las matrices de
covarianzas de cualesquiera vectores
(X [k1 ] , ..., X [kN ])
(X [k1 + l] , ..., X [kN + l])
son idénticos. Comoquiera que la distribución conjuntamente gaussiana sólo depende

del vector de medias y de la matriz de covarianzas, la dpf conjunta de ambos vectores
coincide, con lo que se demuestra que la s.a. es estrictamente estacionaria.
Ejemplo 8.1 Recorrido aleatorio.

Consideremos la siguiente s.a.:
X [0] = 0
X [n] = X [n − 1] + W [n] para n ≥ 1,
donde W [n] es a su vez una s.a. gaussiana, de media cero, varianza σ2 en todas sus v.a.
que, además, son todas incorreladas entre sí. A una s.a. de este tipo se le denomina
recorrido aleatorio, en este caso, con incrementos gaussianos (e independientes).
En la Figura 8.1 aparecen dos secuencias muestrales de este tipo, con σ2 = 1,
simuladas mediante un sencillo programa implementado en MATLAB.
En primer lugar, tengamos en cuenta que si las v.a. de W [·] son incorreladas y
conjuntamente gaussianas, son también independientes: por tanto, W [n] es una s.a.
independiente. Como además todas las v.a. tienen la misma varianza, σ2 , y media
Figura 8.1: Funciones muestrales de un recorrido aleatorio.
cero, podemos decir que
RW [n, k] = σ2 δ [k − n] ,
donde

 1 si k = n
δ [k] =
 0 si k 6= n
es la función impulso discreta.

Por otra parte,
X [n] = X [n − 1] + W [n]
= X [n − 2] + W [n − 1] + W [n]
= X [0] + ... + W [n]

Xn
= W [i] ,
i=1
de manera que al ser cada vector de v.a. de X [n] combinación lineal de v.a. de W [n]
se tiene que X [n] es también una s.a. gaussiana.
Para ver si X [n] tiene incrementos independientes consideramos una muestra suya
en instantes k1 < ... < kN . En ese caso,

k1
X
X [k1 ] = W [i]
i=1
Xk2
X [k2 ] − X [k1 ] = W [i]
i=k1 +1
..
.
kN
X
X [kN ] − X [kN−1 ] = W [i]
i=kN−1 +1
Obsérvese que cada incremento es combinación lineal de v.a. gaussianas distintas y

todas ellas incorreladas, de manera que estos incrementos son a su vez incorrelados.
Como en v.a. gaussianas la incorrelación implica la independencia, se pone de mani-
fiesto que X [n] tiene incrementos independientes.
Además,
" n # n
X X
µX [n] = E [X [n]] = E W [i] = E [W [i]] = 0
i=0 i=0
y
 
Xn k
X
n<k
RX [n, k] = E  W [i] W [j]
i=0 j=0
 
X k
n X n X
X k
= E W [i] W [j] = E [W [i] W [j]]
i=0 j=0 i=0 j=0
2
= σ n,
ya que

 σ 2 si i = j
E [W [i] W [j]] = .
 0 si i 6= j
Análogamente podemos demostrar que si k ≤ n,
RX [n, k] = σ2 k,
de manera que, en general,
RX [n, k] = σ2 min (n, k) .
En particular, obsérvese que la s.a. no es independiente, ya que v.a. distintas no

están incorreladas.
Por último, cabe preguntarse si esta s.a. gaussiana con incrementos independientes
pero que no es independiente, es estacionaria en sentido débil o estricto. En realidad,
al ser gaussiana la secuencia, ambos tipos de estacionariedad son equivalentes. La
respuesta es que X [n] no es estacionaria en ningún sentido, ya que, por ejemplo,
V ar (X [n]) = σ2 n
depende de n, cuando debería ser constante si fuera estacionario.
8.2.5 Cadenas de Markov en tiempo discreto
Las cadenas de Markov en tiempo discreto constituyen una importante de s.a. con
importantes aplicaciones en distintos ámbitos. En este apartado presentamos tan sólo
una breve introducción a los aspectos más relevantes que involucran.
Sea X [n] una s.a. con espacio de estados discreto formado por los ele-
mentos
0, 1, 2, ...
Si además verifica la siguiente propiedad (condición de Markov):
P [X [n + 1] = in+1 | X [0] = i0 , ..., X [n] = in ] = P [X [n + 1] = in+1 | X [n] = in ]
entonces dicho proceso es una cadena de Markov en tiempo discreto.

La condición de Markov debe interpretarse en el sentido de que la evolución futura

de la cadena (instante n + 1) no se ve influida por el pasado de la cadena (instantes 0
a n − 1), sino sólo por el presente de la misma (instante n).
La probabilidad de que si en un instante n se ocupa el estado i en el

n + 1 se ocupe el estado j se conoce como probabilidad de transición
en un paso:
P [X [n + 1] = j | X [n] = i] .
Estas probabilidades dependen de i, de j y de n. Sin embargo, las cadenas de Markov

más usuales son aquellas en que no dependen de n, y se conocen como cadenas de
Markov homogéneas. En ellas, notaremos
P [X [n + 1] = j | X [n] = i] = pij
En este apartado consideraremos sólo cadenas de Markov homogéneas.

Así pues, tenemos las probabilidades pij que representan las probabilidades de pasar
en un sólo paso del estado i al estado j. Podemos agruparlas todas en una matriz,
que llamaremos matriz de transición de la cadena, P = (pij ) . Esta matriz verifica
dos propiedades obvias:
pij ≥ 0 y
X
pij = 1 para todo j.
j
Además, a partir de la matriz de transición podemos calcular la probabilidad de

(n)
pasar de i a j en n pasos, lo que llamaremos transiciones en n pasos, pij . De la
propiedad de Markov se deduce el siguiente interesante resultado.
Teorema 8.4 Se verifica:
P (n) = P n .
Demostración. Es una sencilla demostración por inducción. Puede verse con

detalle en Grimmet & Stirzaker (2001) 215.
Ejemplo 8.2 Supongamos una máquina con dos componentes electrónicos que se ins-
peccionan cada hora. Un componente que está operativo en el instante n tiene una
probabilidad p de fallar antes de la próxima revisión. Un componente que está en
reparación en el instante n tiene una probabilidad r de estar operativo en la próxima
revisión. Se supone que las componentes fallan y se reparan independientemente unas
de otras. Plantear la cadena de Markov en tiempo discreto que modela el número de
componentes operativos.
El tiempo toma valores 0, 1, 2, ... y representa las sucesivas revisiones del equipo.
El espacio de estados está formado por 0, 1, 2. La matriz de transición es
0 1 2
0 (1 − r)2 2r (1 − r) r2
1 p (1 − r) pr + (1 − p) (1 − r) (1 − p) r
2 p2 2p (1 − p) (1 − p)2
Habrá ocasiones en que nos interese conocer la probabilidad de que la cadena esté
ocupando el estado i en el instante n, independientemente de la posición en estados
anteriores. En este sentido, si notamos
(n)
pi = P [X [n] = i]
a las llamadas probabilidades absolutas, se tiene que (Grimmet & Stirzaker (2001)
215-216)
p(n) = p0 · P n ,
donde p0 nota la distribución inicial de la cadena.
Ejemplo 8.3 Supóngase que el estado de una componente electrónica puede ser activa
(A) o inactiva (I) y que la observación de dicha componente en sucesivos instantes fijos
de tiempo (cada día) forma una cadena de Markov homogénea. Supóngase también que
la matriz de transición es la siguiente:
A I
A 0.7 0.3
I 0.6 0.4
a) Si un día concreto está inactiva, ¿cuál es la probabilidad de que también esté inactiva
el día siguiente?
0.4
b) Si un día concreto está activa, ¿cuál es la probabilidad de que el día siguiente

continúe activa?
0.7
c) Si un día concreto está inactiva, ¿cuál es la probabilidad de que el día siguiente esté
activa?
0.6
d) Si un miércoles está activa, ¿cuál es la probabilidad de que el sábado esté activa?

 
0.667 0.333
Como P 3 =  ,
0.666 0.334
la respuesta es 0.667.
e) Si un miércoles está inactiva, ¿cuál es la probabilidad de que el sábado esté activa?
0.666
Supóngase que la probabilidad de que un miércoles esté activa es 0.2 y que la pro-
babilidad que esté inactiva es 0.8: (Es decir, p(0) = (0.2, 0.8))
f ) Determínese la probabilidad de que esté inactiva el jueves.
p(1) = p(0) P = (0.62, 0.38) ,
luego la respuesta es 0.38.
g) Determínese la probabilidad de que esté inactiva el viernes.
Como p(2) = p(0) P 2 = (0.662, 0.338) ,
la respuesta es 0.338.
h) Determínese la probabilidad de que esté inactiva el sábado.
Dado que p(3) = p(0) P 3 = (0.6662, 0.3338) ,
esta probabilidad es 0.3338.
Distribución estacionaria
Como se ha comprobado en este último ejemplo, hay ocasiones en que las distribu-
ciones absolutas de la cadena parece que convergen, con el paso del tiempo, a una
distribución particular, que no depende del tiempo. ¿Cuándo ocurre esto?
Supongamos una distribución de probabilidades absolutas tal que con el

paso del tiempo la probabilidad de que se ocupen los estados de la cadena
(n)
es independiente del tiempo, es decir, pj = pj . En ese caso, la distribu-
ción formada por las probabilidades pj recibe el nombre de distribución
estacionaria.
No todas las cadenas tienen distribución estacionaria; aquellas que sí la tienen,

cuando la alcanzan con el paso del tiempo, se dice que han llegado al equilibrio.
Para garantizar la existencia de distribución estacionaria de una cadena de Markov
en tiempo discreto tenemos que definir nuevas propiedades.
Se dice que una cadena de Markov en tiempo discreto es irreducible

si desde cualquier estado inicial se puede alcanzar en un número finito de
pasos cualquier otro estado. Se dice que una cadena es aperiódica si no
posee estados que supongan ciclos periódicos de transiciones, es decir, que
sean visitados periódicamente2 .
El problema de la existencia de distribución estacionaria queda resuelto en el si-

guiente teorema.
Teorema 8.5 (Criterios de Foster) Sea una cadena de Markov en tiempo discreto con
matriz de transición de estados P, irreducible y aperiódica. Si existe distribución de
probabilidad z tal que
z = z · P,
entonces dicha distribución es la distribución estacionaria de la cadena. Además, se

verifica que
(n) (n)
lim p = lim pj = zj .
n→∞ ij n→∞
Demostración. Grimmet & Stirzaker (2001) 227-230.

El cálculo de la distribución estacionaria es así muy sencillo. Una vez que hayamos
comprobado que la cadena es irreducible, basta resolver (si es posible) el sistema
π = π · P,
con la condición adicional de que π es una distribución, es decir,
X
π i = 1.
i
2
Para más detalles acerca de estos conceptos, ver Grimmet & Stirzaker (2001) o Viniotis (1997)
543-545.
Ejemplo 8.4 Una centralita telefónica puede estar desocupada (estado 0), con una
llamada (estado 1) o con una llamada y otra en espera (estado 2) y es observada cada
minuto, siguiendo estas observaciones una cadena de Markov homogénea con matriz de
transición
Estado 0 Estado 1 Estado 2

Estado 0 0 2/3 1/3
.
Estado 1 3/8 1/8 1/2
Estado 2 1/2 1/2 0
¿Cómo evaluaríamos la evolución de la centralita después de un tiempo suficiente-

mente grande?
Calculamos la distribución estacionaria:
π =π·P
considerando además que
π0 + π1 + π2 = 1,
da como resultado
π0 = 0.2777
π1 = 0.4166
π2 = 0.3055
8.3 Sistemas lineales
8.3.1 Principios básicos de los sistemas lineales en tiempo discreto
En este apartado pretendemos presentar los resultados fundamentales acerca del

tratamiento de los denominados sistemas lineales en tiempo discreto. Se evitará pro-
fundizar en el tema, ya que éste será desarrollado exhaustivamente en la asignatura
… x [ n-1 ], x [ n ], x [ n+1 ], … L{·} … y [ n-1 ], y [ n ], y [ n+1 ], …
Figura 8.2: Representación de un sistema lineal en tiempo discreto.
Sistemas Lineales que se cursa en este mismo cuatrimestre del Plan de Estudios. Aquí
sólo se presentan los resultados necesarios para su aplicación a las s.a.
Un sistema en tiempo discreto es una transformación de una se-

cuencia, denominada input, en otra secuencia, denominada output. El
mecanismo de la transformación se denomina operador del sistema. Es-
quemáticamente, se nota
y [n] = L {x [n]} ,
donde x [n] es el input, L es el operador del sistema e y [n] es el output.

Un sistema con operador L se dice lineal si para cualesquiera secuencias
x1 [n] y x2 [n] y cualesquera escalares a1 y a2 , se tiene que
L {a1 x1 [n] + a2 x2 [n]} = a1 L {x1 [n]} + a2 L {x2 [n]} .
Ejemplo 8.5 Son sistemas lineales las siguientes transformaciones:
1 1 1
y [n] = x [n + 1] + x [n] + x [n − 1]
3 3 3
y [n] = ay [n − 1] + by [n − 2] + cx [n] .
Un sistema dado por el operador L se denomina lineal e invariante

en el tiempo (a partir de ahora LTI) si es lineal y para cada k
y [n + k] = L {x [n + k]} .
En el caso de los sistemas LTI el operador puede sustituirse por la convolución con
una función llamada respuesta al impulso:
∞
X
y [n] = h [n] ∗ x [n] = h [k] x [n − k] ,
k=−∞
donde
h [n] = L {δ [n]} ,
siendo δ [n] el impulso unitario discreto.3
8.3.2 Sistemas lineales y s.a.
En este apartado pretendemos estudiar el comportamiento del output de un sistema

LTI cuando como input se introduce una s.a. Concretamente, vamos a establecer
resultados acerca de su función media y de autocorrelación.
Dado un sistema caracterizado por el operador L y una s.a. X [n] que

se utiliza como input del sistema, el output del mismo es la s.a. dada por
la asignación
Y [n, ζ] = L {X [n, ζ]} para cada ζ ∈ Ω.
3
Aunque no se haya dicho explícitamente, téngase en cuenta que el output de un sistema LTI con
input una secuencia lineal podría ser una secuencia compleja. Por ejemplo, esto ocurriría con ciertas
respuestas de impulso complejas.
En particular, si el sistema es LTI, con función de respuesta al impulso h [n], se

tendrá que
∞
X
Y [n] = h [k] X [n − k] .
k=−∞
Ahora bien, en esta última igualdad debemos tener en cuenta que la serie es el límite
de la sucesión de sumas parciales, es decir,
N
X
Y [n] = lim h [k] X [n − k] .
N→∞
k=−N
Aunque podemos imaginar que ese límite es en realidad una v.a. para cada n y por
tanto, Y [n] es una s.a. este aspecto formal lo trataremos en el apartado 8.4.1.
Lógicamente, el objetivo desde el punto de vista estadístico sería caracterizar el
output del sistema mediantes sus dpf. Pero el problema en la aplicación de sistemas a
s.a. es que éste mezcla las v.a. del input para dar lugar al output, de manera que puede
resultar extremadamente complejo encontrar siquiera la dpf de cada v.a. del output
dadas todas las conjuntas del input.
Sin embargo, como vamos a ver, resulta algo más sencillo obtener los primeros
momentos (de primer y segundo orden) del output dados los del input, de manera que
podemos estudiar mediante éstos las principales características del output.
Teorema 8.6 Sea X [n] el input de un sistema LTI dado por el operador L. Entonces,
si notamos por Y [n] al output, se tiene que
E [Y [n]] = L {E [X [n]]} = h [n] ∗ µX [n] .
Demostración. Denotemos por h [n] a la respuesta de impulso del sistema. En

ese caso,
∞
X
Y [n] = h [k] X [n − k] .
k=−∞
Si tomamos media, tendríamos

" ∞
#
X
E [Y [n]] = E h [k] X [n − k] .
k=−∞
Suponiendo que el operador media pueda entrar dentro del sumatorio4 , tendríamos
∞
X
E [Y [n]] = h [k] E [X [n − k]] = L {E [X [n]]} .
k=−∞
Corolario 8.1 Si además X [n] es estacionario en sentido débil,

∞
X
E [Y [n]] = µX h [k] ,
k=−∞
donde µX es la media de X [n].5
Demostración. Como E [X [n]] es constante,

∞
X ∞
X ∞
X
E [Y [n]] = h [k] E [X [n − k]] = h [k] µX = µX h [k] .
k=−∞ k=−∞ k=−∞
Para establecer un resultado análogo aplicable a la función de autocorrelación, es

necesario aclarar algunos aspectos técnicos:
1. En primer lugar, podemos estar interesados en estudiar la relación existente entre

el input y el output. Ésta podrá ser evaluada con la función de autocorrelación
cruzada, dada por
RXY [n, k] = E [X [n] Y [k]∗ ] .
2. Si deseamos utilizar esta función como input de un sistema lineal, tenemos el

problema de que hay dos índices en el tiempo, n y k, y no se sabe sobre cuál
opera el sistema. Para evitar esta indefinición, notaremos al sistema Ln , donde
n indicará el índice sobre el que se indican el input y el output del sistema.
4
Para profundizar sobre este aspecto, ver Stark 343.
P
5
Suponiendo que se dan las condiciones para que la serie ∞k=−∞ h [k] sea convergente.
3. Por último, si la respuesta de impulso de L es h [n], se define el operador

adjunto, L∗ como el que tiene respuesta de impulso h∗ [n]: se cumple que si
Y [n] = L {X [n]}, entonces Y ∗ [n] = L∗ {X [n]}.
Teorema 8.7 Sean X [n] e Y [n] el input y el output, respectivamente, de un sistema

LTI dado por el operador Ln . Entonces,
RXY [n, k] = L∗k {RX [n, k]}
RY [n, k] = Ln {RXY [n, k]} = Ln {L∗k {RX [n, k]}} .
Demostración.
X [n] Y [k]∗ = X [n] L∗k {X ∗ [k]} = L∗k {X [n] X ∗ [k]} ;
por tanto,
E [X [n] Y [k]∗ ] = E [L∗k {X [n] X ∗ [k]}] = L∗k {E [X [n] X ∗ [k]]} = L∗k {RX [n, k]} .
Análogamente,
Y [n] Y ∗ [k] = Ln {X [n]} Y ∗ [k] = Ln {X [n] Y [k]∗ } ,
de manera que
E [Y [n] Y ∗ [k]] = E [Ln {X [n] Y [k]∗ }] = Ln {E [X [n] Y [k]∗ ]} = Ln {RXY [n, k]} .
Para obtener las expresiones en términos de las respuestas al impulso no hay más
que expresar los operadores como convoluciones.
Corolario 8.2 En las mismas condiciones que el teorema,
CXY [n, k] = L∗k {CX [n, k]}
CY [n, k] = Ln {CXY [n, k]}
= Ln {L∗k {CX [n, k]}} .
Demostración. Trivial, considerando que media y L son lineales.

Ambos resultados se simplifican cuando nos referimos a s.a. débilmente estaciona-
rias, como se refleja en el siguiente teorema. Se enuncia tan sólo para s.a. reales, que
serán las que consideremos en exclusiva.
Teorema 8.8 Sea X [n] una s.a. débilmente estacionaria real, que se introduce como
input de un sistema LTI en tiempo discreto también real, L [·], caracterizado por h [n].
En ese caso, el output Y [n] = L {X [n]} , es también débilmente estacionario y
RXY [n] = RX [n] ∗ h [n]
RY [n] = RXY [n] ∗ h [−n]
Demostración. En primer lugar,

" #
X
RXY [n] = E [X [m] Y [m + n]] = E X [m] h [k] X [m + n − k]
k
X
= h [k] RX [n − k]
k
= RX [n] ∗ h [n] .
Análogamente,
"Ã ! #
X
RY [n] = E [Y [m] Y [m + n]] = E h [k] X [m − k] Y [n + m]
k
X
= h [k] E [X [m − k] Y [m + n]]
k
X X
= h [k] RXY [n + k] = h [−l] RX [m − l] = RXY [n] ∗ h [−n] .
k l
Ejemplo 8.6 Consideremos una secuencia X [n] y el sistema LTI dado por
Y [n] = X [n] − X [n − 1] .
Este output se conoce como edge detector.

Vamos a calcular sus momentos de primer y segundo orden, conocidos los del input
y suponiendo que éste es débilmente estacionario. En primer lugar, el operador lineal
viene caracterizado por
h [n] = L {δ [n]} = δ [n] − δ [n − 1] .
Por tanto,
E [Y [n]] = µX [n] ∗ h [n] = µX [n] − µX [n − 1]
RXY [n, k] = RX [n] ∗ h [n] = RX [n, k] − RX [n, k − 1]
RY [n, k] = RXY [n] ∗ h [−n]
= RX [n, k] − RX [n, k − 1] − RX [n − 1, k] + RX [n − 1, k − 1] .
Si consideráramos, por ejemplo, que X [n] es una s.a. débilmente estacionaria con
media cero y
RX [n, k] = a|n−k| , con 0 < a < 1,
entonces,
µY [n] = 0
RXY [n, k] = a|n−k| − a|n−k+1|
RY [n, k] = 2a|n−k| − a|n−1−k| − a|n−k+1| ,
de manera que el output Y [n] también es débilmente estacionario.

Finalmente, consideremos el caso gaussiano en el siguiente teorema.
Teorema 8.9 Consideremos una s.a. gaussiana X [n] como input de un sistema LTI
dado por el operador L [.]. Entonces el output es una s.a. gaussiana cuya función media
y función de autocorrelación viene dado en el Teorema 8.7.
Demostración. Puede verse como corolario del resultado análogo en el ambiente

de procesos aleatorios que se verá más adelante.
El principal problema a la hora de poner en práctica estos resultados es que implican
el cálculo de convoluciones que, en general, pueden ser bastante complejas. Este dificul-
tad se obvia en parte si se realizan tales cálculos pasando al dominio de las frecuencias,
donde las convoluciones se transforman en productos, en lo que se conoce como análisis
espectral. Nosotros abordaremos este aspecto en el ámbito de los procesos aleatorios,
en los siguientes capítulos. Los resultados correspondientes a s.a. son análogos a los
que se verán allí.
8.4 Convergencia de s.a.
Uno de los aspectos de mayor interés cuando se estudian sucesiones de números

reales es, sin duda, su convergencia. De igual forma, el estudio de las condiciones en
las que una s.a. converge en algún sentido es uno de los problemas más comunes en
el Cálculo de Probabilidades. En el presente apartado se introducen distintos tipos de
convergencia para s.a. y la aplicación de estos conceptos en distintos teoremas límite.
8.4.1 Tipos de convergencia
A continuación vamos a dar distintos tipos de convergencia asociados a secuencias

aleatorias. Veremos también en qué sentido se relacionan esas distintas maneras de
converger de una misma s.a.
Se dice que una s.a. X [n] converge casi seguramente a la v.a. X,

c.s.
y se nota X [n] → X, si la sucesión X [n, ζ] converge a X (ζ) para cada
suceso del espacio muestral, ζ ∈ Ω, salvo quizás en un conjunto de sucesos
con probabilidad cero. O equivalentemente:
h i
P lim X [n, ζ] = X (ζ) = 1.
n→∞
Se dice que una s.a. X [n] converge en media cuadrática a la v.a.

m.c.
X, y se nota X [n] → X, si
h i
lim E |Xn − X|2 = 0.
n→∞
Se dice que una s.a. X [n] converge en probabilidad a la v.a. X, y

p
se nota X [n] → X, si para cada ε > 0
lim P [|Xn − X| > ε] = 0.

n→∞
Se dice que una s.a. X [n] con cdf FX[n] (x) converge en distribución
d
a la v.a. X, y se nota X [n] → X, con cdf FX (x) si
lim FX[n] (x) = FX (x)

n→∞
para todo x tal que FX es continua.
Teorema 8.10 Se verifican las siguientes implicaciones:

c.s.
X [n] → X
&
p d
X [n] → X −→ X [n] → X .
%
m.c.
X [n] → X
Además, ninguna otra implicación se verifica en general.
Demostración. Grimmet & Stirzaker (2001) 310-315.

8.4.2 Teoremas límite
Teorema 8.11 (Ley débil de los grandes números) Sea X [n] una s.a. constitui-
da por v.a. independientes tales que todas ellas tienen la misma media, µ, y la misma
varianza, σ2 . Entonces,
Pn
i=1 X [i] p.
→ µ.
n
Demostración. Está hecha: es la demostración de que la media muestral es con-

sistente.
Teorema 8.12 (Ley débil de los grandes números con varianzas no homogéneas)
Sea X [n] una s.a. constituida por v.a. independientes tales que todas ellas tienen la
misma media, µ, y varianzas σ2 [n] que verifican
∞
X σ2 [n]
< ∞.
n2
n=1
Entonces,
Pn
i=1 X [i] p.
→ µ.
n
Demostración. Stark & Woods (1994) 357.
Teorema 8.13 (Ley fuerte de los grandes números) Sea X [n] una s.a. consti-
tuida por v.a. independientes tales que todas ellas tienen la misma media, µ, y la
misma varianza, σ2 . Entonces,
Pn
i=1 X [i] c.s. y m.c.
→ µ.
n
Teorema 8.14 (Teorema Central del Límite) Sea X [n] una s.a. constituida por
v.a. independientes tales que todas ellas tienen la misma distribución de probabilidad6 ,
6
Existe una versión más general de este teorema donde sólo se exige que coincidan los momentos de
primer y segundo orden de las v.a. de la secuencia. Puede encontrarse en Stark 213-214.
distribución de media µX y varianza σ 2X . En ese caso,

PN
X [i] − NµX d
i=1 √
→X
NσX
cuando N → ∞, con X → N (0, 1) . Dicho de otra forma, si N >>, entonces
N
X ¡ ¢
X [i] ≈ N NµX , Nσ2 .
i=1
Demostración. Peyton (1993) 119-120.

El Teorema Central del Límite proporciona una justificación matemática del porqué
la distribución gaussiana es un modelo adecuado para un gran número de fenómenos
reales en donde la v.a. observada en un momento dado es el resultado de sumar un gran
número de sucesos aleatorios elementales. Como veremos, esto sucede con frecuencia en
el ámbito de las Telecomunicaciones. Concretamente, en los fenómenos que dan lugar
a los ruidos de un proceso de comunicación.
Ejemplo 8.7 Consideremos una v.a. X con distribución U [0, 1]. Consideremos una
P ¡ ¢
m.a.s. de ella, X1 , ..., XN . Según el teorema central del límite, N
i=1 X [i] ≈ N N × 0.5, N × 12
−1 .
Para poner este resultado de manifiesto se ha realizado el siguiente experimento:

P
Para N = 1, 2, 5 y 10, se ha simulado una muestra de N i=1 X [i], dibujando su
histograma en cada caso. Estos histogramas aparecen en la Figura 8.3. En ella se pone
de manifiesto como según N crece, el histograma se va pareciendo cada vez más a una
densidad gaussiana.
1. Un dispositivo electrónico está constituido por dos componentes, X e

Y, que pueden estar activadas (1) o desactivadas (0). Se observa el
estado del dispositivo en determinados instantes de tiempo, siendo en
cada uno de ellos p la probabilidad de que X o Y cambien de estado.
Notemos Xn e Yn a las v.a. que describen si cada componente está
Figura 8.3: Ilustración del Teorema Central del Límite.
activada o desactivada en la n-ésima observación, y considérese que

ambas secuencias son independientes y que son además independientes
entre sí. Para observar el estado del dispositivo en su conjunto, se
considera Zn = (Xn , Yn ), con estados posibles (0, 0), (1, 0), (0, 1) y (1, 1).
(a) Justificar que Zn es una cadena de Markov en tiempo discreto.
El hecho de que Zn sea una cadena de Markov en tiempo discreto viene dado
porque su evolución en cada paso sólo tiene que ver con su estado en el paso
anterior.
(b) ¿Cuál es la probabilidad de que en dos pasos el dispositivo esté

totalmente desactivado si al principio las dos componentes estaban
activadas? ¿Cuál es la probabilidad de que al cabo del tiempo el
dispositivo esté totalmente desactivado?
Notemos a los estados de la cadena como A : (0, 0), B : (0, 1), C : (1, 0) y
D : (1, 1). Su matriz de transición de estados en un paso es

 
(1 − p)2 p (1 − p) p (1 − p) p2
 
 
 p (1 − p) (1 − p)2 p2 p (1 − p) 
P = .

 p (1 − p) p2 (1 − p)2 p (1 − p) 
 
p2 p (1 − p) p (1 − p) (1 − p)2
La respuesta a la probabilidad de que el dispositivo esté totalmente desac-

tivado (estado A) en dos pasos si estaban ambas componentes activadas
(estado D) es el elemento (1, 4) de la matriz de transición en dos pasos, P 2 ,
cuyo valor es 4p2 (1 − p)2 .
Para responder a la segunda pregunta hemos de tener en cuenta que con el
paso del tiempo, la cadena alcanzará sus distribución estacionaria, si ésta
existe. Como es una cadena irreducible, podemos afirmar que sí y calcularla
como solución del sistema
³ ´ ³ ´
π1 π2 π3 π 4 = π1 π2 π3 π4 P
o equivalentemente,
π1 (1 − p)2 + π2 p (1 − p) + π3 p (1 − p) + π4 p2 = π1
π1 p (1 − p) + π2 (1 − p)2 + π3 p2 + π4 p (1 − p) = π2
π1 p (1 − p) + π2 p2 + π3 (1 − p)2 + π4 p (1 − p) = π3
π1 p2 + π2 p (1 − p) + π3 p (1 − p) + π4 (1 − p)2 = π4
sistema al que añadimos la condición π1 + π 2 + π3 + π 4 = 1. En ese caso, la

solución es π1 = π2 = π3 = π4 = 14 . Por tanto, la probabilidad de que esté
desactivada con el paso del tiempo es 14 .
2. Una partícula se mueve a lo largo de una línea recta y, en cada instante

unitario de tiempo puede dar saltos de longitud ±1 con probabilidad p :
P
dicho de otra forma, su posición puede ser descrita como Sn = n−1
i=0 Xn ,
donde Xn = 2In − 1, siendo In variables de Bernouilli de parámetro p

para cada n, todas ellas independientes.
(a) Calcular la mpf, la media y la varianza de cada v.a. Sn .
Como
n−1
X n−1
X
Sn = (2In − 1) = 2 In − n
i=0 i=0
Pn−1
y i=0 In es una v.a. binomial de parámetros n y p (al ser suma de n v.a.
Bernouilli de parámetro p), la mpf es
µ ¶
n k
fSn (s) = P [Sn = s] = P [Sn = 2k − n] = p (1 − p)n−k ,
k
para los valores posibles s = 2k − n, siendo k = 0, ..., n.
(b) Calcular la función media y la función de autocorrelación de la s.a.

Sn . ¿Es débilmente estacionaria?
Por su parte, la media es E [Sn ] = nE [Xn ] = n (2p − 1) .
Para el cálculo de la varianza tengamos también en cuenta que Sn es suma

de n−v.a. independientes Xn con la misma distribución, luego V ar (Sn ) =
nV ar (Xn ) = 4np (1 − p) .
Como hemos visto, µ [n] = n (2p − 1) , por lo que ya podemos afirmar que
la s.a. no es débilmente estacionaria, ya que su media depende del tiempo.
Además,
CS [n, k] = E [(Sn − E [Sn ]) (Sk − E [Sk ])] = E [(Sn − nE [Xn ]) (Sk − kE [Xk ])]
Ã ! k 
X n X
= E (Xn − E [Xn ])  (Xk − E [Xk ])
i=1 j=1
n X
X k n X
X k
= E [(Xn − E [Xn ]) (Xk − E [Xk ])] = CX [n, k] .
i=1 j=1 i=1 j=1
Teniendo en cuenta que la s.a. Xn está formada por v.a. independientes,
k
n X min(n,k)
X X
CS [n, k] = CX [n, k] = V ar (Xi ) = min (n, k) 4p (1 − p) .
i=1 j=1 i=1
3. Consideremos un sistema LTI en tiempo discreto cuya respuesta al

impulso es h [n] = ρn u [n], con |ρ| < 1. El input de este sistema es una
señal determinística, xn = 3, contaminada por un ruido Wn de media 2
y RW [m, n] = σ2W δ [m − n] + 4. Calcular la función media y la función de
autocovarianza del output de este sistema.
Si notamos al input como Y [n] = x [n] + W [n] = 3 + W [n] , se tiene que
µY [n] = 3 + E [Wn ] = 5
RY [m, n] = E [Y [n] Y [m]] = E [(3 + W [n]) (3 + W [m])]
= 9 + 6µW + RW [m − n] = 25 + σ2W δ [m − n] .
Por tanto, CY [n] = σ 2W δ [n] .
Notemos, por su parte, al output como Z [n] = h [n] ∗ Y [n]. En ese caso, µZ [n] =
P µY
µY ∞k=−∞ h [k] = 1−ρ .
Por otra parte, obsérvese que Yn es débilmente estacionaria. Por tanto, Zn tam-
bién lo es y
∞
X
CY Z [n] = CY [n] ∗ h [n] = σ2W δ [k] ρn−k u [n − k] = σ2W ρn u [n]
k=−∞
X∞
CY [n] = CY Z [n] ∗ h [−n] = σ2W ρk u [k] ρk−n u [k − n]
k=−∞
∞
X X∞
¡ 2 ¢k−n ρn
= σ2W ρ2k−n = 2 n
σW ρ ρ = σ2W .
1 − ρ2
k=n k=n
4. El tiempo de espera para acceder a un registro de una base de datos

es una v.a. con distribución uniforme entre 0 y 10 ms. El tiempo de
lectura del registro es de 3 ms. El tiempo total de acceso al registro es
el tiempo de acceso más el tiempo de lectura. Antes de ejecutar una
determinada tarea, es necesario acceder a 12 registros de información.
Estimar la probabilidad de que esto le lleve más de 116 ms.
Notemos X a la v.a. tiempo total de acceso a un registro, que según el enunciado,

100
sigue una distribución U (3, 13), cuya media es 8 y cuya varianza es 12 = 8. 33.
Por su parte, la variable que mide el tiempo de acceso a los 12 registros será S12
P
= 12 i=1 Xi , donde X1 , ..., X12 son v.a. iid con distribución U (3, 13): por tanto,
100
E [S12 ] = 12 × 8 = 96 y V ar (S12 ) = 12 × 12 = 100.
Utilizando el teorema central del límite podemos estimar la probabilidad que se

nos requiere de la siguiente forma:
· ¸ · ¸
S12 − 96 116 − 96 S12 − 96
P [S12 > 116] = P √ > √ =P √ >2
100 100 100
Z ∞
1 x2
' P [Z > 2] = √ e− 2 dx = 0.0228.
2 2π
5. Las llamadas telefónicas pueden ser clasificadas en llamadas de voz

(V) o llamadas de datos (D) (realizadas por modems o faxes). Se ha
estimado que P [V ] = 0.8 y P [D] = 0.2. Se sabe además, que ambos
tipos de llamadas se producen independientemente. Consideremos la
v.a. Cn que cuenta el número de llamadas de datos en un conjunto de
n llamadas. Estimar la probabilidad de que se produzcan más de 20
llamadas de datos en un conjunto de 100 llamadas.
Si notamos X a la v.a. que toma el valor 1 si una llamada es de datos y el valor 0

si es de voz, esta v.a. sigue una distribución de Bernouilli de parámetro p = 0.2.
Por otra parte, podemos considerar que la v.a. que cuenta el número de llamadas
P
de datos en 100 llamadas es S100 = 100
i=1 Xi , donde X1 , ..., X100 son v.a. iid como
X: esta v.a. tiene media 20 y varianza 16.
Podemos estimar la probabilidad que se nos pide mediante el teorema central del
límite:
· ¸ · ¸
S100 − 20 20 − 20 S100 − 20
P [S100 > 20] = P √ > √ =P √ > 0 ' P [Z > 0] = 0.5.
16 16 16
8.6 Para saber más
1. Se profundiza en la utilización de la axiomática de Kolmogorov a la hora de

considerar sucesos relacionados con una s.a. en Stark & Woods (1994) 320-326.
2. Estudio exhaustivo de las cadenas de Markov en tiempo discreto en Viniotis

(1997) 535-557.
3. Más sobre cadenas de Markov en tiempo discreto en Grimmet & Stirzaker (2001)
213-256 y Yates & Goodman (1998) 357-380.
4. Modelos ARMA (Autorregresive Moving Average) en Stark & Woods (2002) 365
y Viniotis (1997) 409.
5. Simulación de s.a. como outputs de sistemas LTI en Stark & Woods (2002)
355-358.
6. Estimación de la densidad espectral en Stark & Woods (2002) 610-623.
7. Un tipo particular de s.a., las martingalas, y teoremas límite para éstas en Stark
& Woods (1994) 357-361, Grimmet & Stirzaker (2001) 333-342.
8. Más sobre teoremas límite en Grimmet & Stirzaker (2001) 328 y 332 y Peyton
(1993) 118-121.
9. Importancia del Teorema Central del Límite en ejemplos en Viniotis (1997) 352-
355.
10. Interpretación y ejemplos de los distintos tipos de convergencia de s.a. en Leon-

Garcia (1994) 295-301.
Capítulo 9
Procesos aleatorios. Introducción
Resumen. Los procesos aleatorios suponen la extensión de las s.a. cuan-

do el tiempo es un parámetro continuo, lo que ocurre en un gran número de
fenómenos relacionados con las telecomunicaciones. Su descripción estadís-
tica viene dada, fundamentalmente, por las dpf conjuntas de sus variables,
si bien se prestará especial atención a sus momentos de primer y segundo or-
den, ya que éstos proporcionan una descripción más sencilla, aunque menos
precisa. En este capítulo se introducen también las principales familias de
p.a. utilizadas en la mayoría de las aplicaciones. Se describe por último el
proceso de Poisson, que por su importancia merecen un estudio detallado.
9.1 Introducción
En el capítulo anterior consideramos el estudio de secuencias aleatorias, secuencias

que pueden ser modelo de un gran número de fenómenos reales. Comentamos entonces
algunas de las numerosas aplicaciones que podían darse en el ámbito de las telecomuni-
caciones. Hemos de recordar que muchas de ellas se daban cuando la observación de un
fenómeno se simplificaba tomando muestras del fenómeno sólo en un conjunto nume-
rable de instantes de tiempo, aunque en realidad el tiempo era un parámetro continuo.
225
Realmente, hemos de ser conscientes de que la gran mayoría de fenómenos que forman
parte de un proceso de comunicación utilizan el tiempo como un parámetro continuo, de
manera que la utilización de s.a. para su modelización no deja de ser una simplificación
del problema que podrá ser más o menos exitosa. Por ello este capítulo adquiere una
importancia fundamental en el transcurso de la asignatura, ya que en él consideramos
la que a juicio de muchos es la herramienta fundamental que la Estadística proporciona
al campo de la telecomunicaciones: los procesos aleatorios.
Por otra parte, la utilización del tiempo como parámetro continuo supone un enorme
salto cualitativo en cuanto a la complicación de los modelos y su análisis desde el punto
de vista matemático. Pero esto, a la vez, los enriquece enormemente, ya que podremos
utilizar nuevas herramientas matemáticas que en el caso de las s.a. no eran procedentes,
como el cálculo diferencial e integral sobre la variable temporal (continua).
A efectos introductorios, recordemos las definiones básicas de forma simplificada:
Un p.a. es una función real o compleja X (t) dependiente de t que a

cada t ∈ R le asigna una v.a. (o un par en el caso complejo) definida sobre
el mismo espacio de probabilidad.
Una realización concreta del proceso, debida a la ocurrencia de un de-
terminado suceso del espacio muestral, da lugar a una función muestral,
que notaremos x (t) .
Al decir que en cada instante de tiempo el proceso es una v.a., estamos admitiendo
que para cada n variables del proceso, medidas en los instantes t1 , ..., tn , X (t1 ) , ..., X (tn ) ,
existe su dpf conjunta, fX(t1 ),...,X(tn ) (x1 , ..., xn ) , que verifica todas las propiedades ex-
puestas en el Capítulo 4.
Al hilo de la consideración de estas dpf conjuntas surge la siguiente pregunta: ¿qué
es necesario saber de un p.a. para que quede completamente especificado? En el caso
de las s.a. vimos que las dpf conjuntas eran suficientes, pero ahora contamos con la
dificultad de que el tiempo es continuo o, dicho de otra forma, existen muchísimas
más v.a. en el p.a. que en una s.a. ¿Serán entonces suficientes las dpf conjuntas?
La respuesta es que no, en general. De todas formas, nosotros sólo vamos a estudiar
p.a. suficientemente regulares, procesos tales que conociendo todas estas dpf conjuntas
de cualesquiera familias de vectores del proceso (se dice en ese caso que el proceso
está estadísticamente determinado), se pueden calcular probabilidades de todo tipo
referentes al p.a. Este tipo de procesos se conocen como p.a. separables.
Ejemplo 9.1 Consideremos el p.a.

∞
X
X (t) = X [n] pn (t − T [n]) ,
n=−∞
donde X [n] y T [n] son s.a. y pn (·) son funciones determinísticas.

Por ejemplo, puede considerarse pn (t) = u (t) , en cuyo caso
∞
X
X (t) = X [n] u (t − T [n]) ,
n=−∞
y el p.a. puede interpretarse como un proceso que se va incrementando amplitudes

aleatorias X [n] en instante aleatorios T [n]. Más adelante veremos un ejemplo más
concreto de un p.a. de este tipo, donde las amplitudes son constantes e iguales a uno
y la secuencia de T [n] está formada por v.a. exponenciales iid: a este proceso se le
denomina Proceso de Poisson.
Ejemplo 9.2 Errores independientes.

Durante el año 2001 la Organización de Consumidores y Usiarios (OCU) sacó a la
luz pública un informe donde se ponía de manifiesto que la medición de los contadores
de luz de las compañías eléctricas sospechosamente se equivocaban en mayor medida
siempre a favor de la compañía.
Este es un ejemplo de medición sujeta a error aleatorio, que puede modelizarse
adecuadamente mediante un p.a. Consideremos para ello las siguientes hipótesis:
1. El consumo eléctrico de un hogar se mide mediante el p.a. Z (t) , pero con la

siguiente particularidad. En vez de medir este consumo en términos absolutos,
medimos el incremento del consumo respecto del consumo medio habitual (cono-
cido). De esta forma garantizamos que Z (t) tiene media constantemente cero.
2. El error que comete el contador de la luz se representa mediante un p.a. E (t) .

Este proceso debería tener media cero (de ahí que la OCU denuncie que no es
así). Además, es lógico pensar que sea un proceso independiente, ya que errores
en momentos distintos no deben estar relacionados entre sí. Por otra parte, la
varianza σ 2 , de este proceso es un indicador de la calidad del contador. Tan-
to menor sea σ2 , más preciso será el contador. Por otra parte, la ley impone
condiciones de calidad sobre los contadores, condiciones verificables gracias a σ 2 .
3. Además, es lógico considerar que el error E (t) es independiente del consumo

X (t).
4. Podemos suponer además, aunque esta hipótesis no es fundamental, que ambos

p.a. son lo que llamaremos más adelante p.a. gaussianos.
En estas condiciones, lo que el empleado de la compañía eléctrica observa cuando

toma la lectura es X (t) = Z (t) + E (t) .
En este sentido, existe una aplicación de los p.a., denominada Teoría de Filtrado,
cuyo objetivo es estimar el verdadero valor z (t) (desconocido) a partir del dato x (t)
conocido. Por ejemplo, un filtro de este tipo es el definido en el Ejemplo 6.8, donde
vimos que la mejor estimación posible (en el sentido de que tenga menor ecm) es
1
Ẑ (t) = σ2
X (t) .
1+ V ar[Z(t)]
9.2 Valores esperados de un p.a.
Se define la función media o simplemente la media de un p.a. X (t)

como
Z ∞
mX (t) = x̄ (t) = E [X (t)] = xfX(t) (x) dx
−∞
Nótese que, como su nombre indica, se trata de una función determinística, real o
compleja. No tiene ninguna componente aleatoria.
Se define la función de autocovarianza o simplemente la covarianza

de un p.a. X (t) como
CX (t, s) = Cov [X (t) , X (s)] = E [(X (t) − mX (t)) (X (s) − mX (s))∗ ]

Z ∞Z ∞
= (x1 − x̄ (t)) (x2 − x̄ (s))∗ fX(t),X(s) (x1 , x2 ) dx2 dx1
−∞ −∞
Se define la función de autocorrelación o simplemente la autoco-

rrelación de un p.a. X (t) como
Z ∞ Z ∞
RX (t, s) = E [X (t) · X (s)∗ ] = x1 x∗2 fX(t),X(s) (x1 , x2 ) dx2 dx1
−∞ −∞
Nótese que la diferencia entre ambas funciones tan sólo es el producto de las medias.
CX (t, s) = RX (t, s) − mX (t) · mX (s)∗ .
De hecho, si el proceso está centrado en media, es decir, si su media es constantemente

cero, ambas funciones coinciden.
En general, se presta más atención a la función de autocorrelación en el análisis
espectral del proceso, que veremos en breve; por contra, se estudia con más atención a
la covarianza en todo lo referente a la estimación.
La interpretación física de la función de autocorrelación (consideremos para esta dis-

cusión procesos centrados en media) RX (t, t + τ ) es la de una función que proporciona
una medida de la interdependencia entre dos v.a. del proceso, X (t) y X (t + τ ), que
distan τ unidades de tiempo. Aparentemente es esperable que tanto más rápidamente
cambie el proceso, más decrezca la autocorrelación conforme aumenta τ .
De hecho, la gran importancia de estas funciones asociadas a un proceso, media

y autocovarianza o autocorrelación, es que aportan toda la información acerca de la
relación lineal que existe entre dos v.a. cualesquiera del proceso. En la práctica, resulta
extremadamente complicado conocer completamente la distribución de un proceso y,
cuando esto ocurre, no siempre es sencillo utilizar las técnicas del cálculo de probabili-
dades para el tratamiento de estos procesos. Sin embargo, tan sólo con la información
dada por la función media y la función de autocorrelación pueden ofrecerse resultados
muy relevantes acerca de los procesos.
Ejemplo 9.3 Señal aleatoria binaria.

Consideremos una señal binaria con las siguientes condiciones:
1. El 0 y el 1 se representan por pulsos de amplitud A y −A voltios, respectivamente,

de duración T segundos.
2. Los pulsos son asincrónicos en el siguiente sentido: como no se sabe cuándo em-
pezó la señal, el instante en que se produce el primer pulso desde que se comienza
a contabilizar el tiempo es Td , donde Td → U [0, T ]. Puede decirse que el valor de
T es equivalente a la fase de la señal.
3. En cada intervalo (n − 1) T < t − td < nT , el p.a. vale A o −A según el resultado

de un experimento de Bernouilli con p = 0.5.1
Vamos a calcular su función media y su función autocorrelación:

En primer lugar, sin necesidad de realizar cálculos, dado que las amplitudes A y
−A se dan con la misma probabilidad, la media es cero, µX (t) = 0.
Por otra parte, para calcular la autocorrelación, consideremos v.a. del proceso, X (t)
y X (t + τ ):
1
O más coloquialmente, si lanzamos una moneda y sale cara vale A y si sale cruz vale −A.
Si |τ | > T , ambas v.a. ocurren en intervalos de tiempo correspondientes a pulsos

distintos, por lo que son independientes, en cuyo caso
E [X (t) X (t + τ )] = E [X (t)] E [X (t + τ )] = 0
Si |τ | < T y t = 0, el promedio dependerá de la fase, ya que de ella depende que

ambas v.a. coincidan en el mismo pulso, de tal manera que

 A2 si t < T − |τ |
d
E [X (t) X (t + τ ) | Td = td ] =
 0 en otro caso
y tomando promedios sobre los valores de Td ,

Z T
E [X (t) X (t + τ )] = E [X (t) X (t + τ ) | Td = td ] fTd (td ) dtd
0
Z T −τ Z T −τ 2 ³
2 A τ´
= A fTd (td ) dtd = dtd = A2 1 − .
0 0 T T
De igual forma puede encontrarse la misma expresión para cualquier otro valor de
t, de manera que

 A2 ¡1 − τ ¢ si |τ | < T
T
RX (t, t + τ ) = .
 0 si |τ | ≥ T
Obsérvese que esa cantidad no depende de t. Veremos más adelante que en ese caso se
dice que el p.a. es débilmente estacionario.
9.3 P.a. independientes
Sea un p.a. X (t). Si para cada n instantes de tiempo, t1 , ..., tn , las v.a.
del p.a. en esos instantes son independientes, es decir,
fX(t1 ),...,X(tn ) (x1 , ..., xn ) = fX(t1 ) (x1 ) · ... · fX(tn ) (xn ) ,
se dice que el proceso es independiente.

Figura 9.1: Funciones muestrales de una señal aleatoria binaria.
La interpretación de este tipo de procesos es la de aquellos en donde el valor de

la v.a. que es el proceso en un momento dado no tiene nada que ver con el valor del
proceso en cualquier otro instante. Desde un punto de vista físico estos procesos son
muy caóticos y se asocian en la práctica a ruidos que no guardan en un momento dado
ninguna relación consigo mismos en momentos adyacentes.
Ejemplo 9.4 El proceso E (t) considerado en el Ejemplo 9.2 es independiente.
Proposición 9.1 Dado X (t) un p.a. independiente,


 V ar (X (t1 )) si t1 = t2
CX (t1 , t2 ) =
 0 en otro caso
o equivalentemente,
 h i
 E X (t1 )2 si t1 = t2
RX (t1 , t2 ) = .
 E [X (t )] E [X (t )] en otro caso
1 2
Demostración. Trivial, ya que la independencia de v.a. implica su incorrelación.


Figura 9.2: Función muestral de un proceso independiente formado por v.a gaussianas
de media cero y varianza uno.
9.4 P.a. estacionarios
Como hemos comentado, la descripción de los p.a. en términos estadísticos viene

dada por las dpf conjuntas de las v.a. que lo forman. De ellas dependen, por ejemplo,
las medias o las varianzas en cada instante de tiempo, la relación entre v.a. más o
menos alejadas en el tiempo (a partir de la covarianza de ambas) o la dpf de una v.a.
conocido el valor del proceso en un instante anterior. En este sentido, la siguiente
definición se refiere a aquellos procesos en los que el comportamiento estadístico del
proceso no se ve afectado por el paso del tiempo, permaneciendo constante respecto de
éste. Concretamente,
un p.a. X (t) se dice estacionario en sentido estricto (o simplemente

estacionario) si la dpf conjunta de cualesquiera n v.a. suyas medidas en los
instantes t1 , ..., tn , fX(t1 ),...,X(tn ) (x1 , ..., xn ) , permanece constante cuando
transcurre cualquier intervalo de tiempo ∆. Es decir,
fX(t1 +∆),...,X(tn +∆) (x1 , ..., xn ) = fX(t1 ),...,X(tn ) (x1 , ..., xn ) .

Las propiedades de los p.a. estacionarios en sentido estricto son muchas, pero
destaquemos algunas inmediatas. Hay que insistir, no obstante, en que la definición es
mucho más amplia de lo que estas propiedades implican.
1. Todas las v.a. del proceso tienen la misma distribución. Para ver que esto es
cierto tómese n = 1 en la definición, ya que, en ese caso, fX(t) (x) = fX(t+∆) (x)
para todo ∆.
2. La distribuciones conjunta de cualesquiera dos v.a. del proceso tomadas en ins-

tantes t1 y t2 sólo dependen de las distancia que las separe en el tiempo, t2 − t1 ,
ya que fX(t1 ),X(t2 ) (x1 , x2 ) = fX(t1 +∆),X(t2 +∆) (x1 , x2 ) .
Esto implica, entre otros aspectos, que todos los momentos pares de v.a. del
proceso que disten lo mismo en el tiempo son iguales.
Uno de los errores más habituales entre el alumnado es pensar que los p.a. esta-
cionarios son procesos que no dependen del tiempo. Eso es absolutamente falso. Que
las propiedades estadísticas no dependan del tiempo no quiere decir que el proceso no
dependa del tiempo.
En la práctica podría ocurrir que difícilmente un proceso fuera estrictamente esta-
cionario, ya que las condiciones que exige la definición de estos procesos, la invarianza
de las distribuciones conjuntas en el tiempo, parecen muy exigentes. Es por ello que
se definen otro tipo de procesos, los procesos débilmente estacionarios, que también
tienen, en cierto sentido, propiedades de invarianza estadística en el tiempo, pero que
podrían darse más fácilmente en la práctica. Concretamente,
X (t) es un p.a. débilmente estacionario si
1. mX (t) es independiente de t y
2. C (t, s) (o R (t, s)) depende tan sólo de t − s, en cuyo caso se nota C (t − s) (ó

R (t − s)).
Es importante destacar que la primera de las condiciones es irrelevante, ya que

siempre se puede centrar en media un proceso para que ésta sea cero, constante. Es
decir, en la práctica es indiferente estudiar un proceso X (t) con función media µX (t)
que estudiar el proceso Y (t) = X (t) − µX (t), con media cero.
La propiedad más exigente y realmente importante es la segunda. Viene a decir
que, como en el caso de los procesos estrictamente estacionarios, la relación entre v.a.
del proceso sólo depende de la distancia en el tiempo que los separa.
Una medida importante asociada a un p.a. débilmente estacionario es la potencia
promedio, definida como la media del cuadrado de éste en cada instante t, es decir
h i
RX (0) = E |X (t)|2 . Más adelante observaremos con detenimiento esta medida.
Obviamente, todo proceso estrictamente estacionario es también débilmente esta-
cionario. El recíproco, no obstante, no es cierto en general; tan sólo se da en un caso
que veremos más adelante.
A continuación se detallan algunas de las propiedades más importantes de la función
de autocorrelación cuando el proceso es estacionario (débil).
Teorema 9.1 Sea X (t) un proceso estacionario (débil). Entonces, si notamos RX (τ ) =

E [X (t) X (t + τ )∗ ] para todo t, su función de autocorrelación:
1. La función de autocorrelación es una función par, es decir, RX (−τ ) = R∗X (τ ) .
2. El máximo del módulo de la función de autocorrelación se da al menos en el cero

y es la potencia del proceso. Es decir, |RX (τ )| ≤ RX (0) para todo τ . Además, si
existe T > 0 tal que RX (T ) = RX (0), entonces RX (τ ) es periódica.
RX (−τ ) = E [X (t) X (t − τ )∗ ] = E [X (t − τ )∗ X (t)] = (E [X (t − τ ) X (t)∗ ])∗ = RX

∗
(τ )
Por otra parte, se ha comentado con anterioridad que dadas dos v.a., ocurre en gen-
eral que2 m211 ≤ m02 m20 . En el caso de que consideremos una v.a. X (t) y otra v.a.
X (t + τ ), se tiene que
h i h i
E [X (t) X (t + τ )]2 ≤ E X (t)2 E X (t + τ )2 ,
es decir, RX (τ )2 ≤ RX (0)2 , luego |RX (τ )| ≤ RX (0) .

Por último, como
h i h i
E [X (t) (X (t + τ + T ) − X (t + τ ))]2 ≤ E X (t)2 E (X (t + τ + T ) − X (t + τ ))2
es decir,
(RX (τ + T ) − RX (τ ))2 ≤ RX (0) (2RX (0) − 2RX (T )) ,
de manera que si RX (T ) = RX (0), entonces RX (τ + T ) = RX (τ ) .
Ejemplo 9.5 La señal recibida por un receptor AM de radio es una señal sinusoidal
con fase aleatoria, dada por X (t) = A · cos [2πfc t + Ξ] , donde A y fc son constantes y
Ξ es una v.a. uniforme en (−π, π) .
En ese caso,
Z π
1 A
E [X (t)] = A cos (2πfc t + ξ) dξ = [sin (2πfc t + ξ)]ξ=π
ξ=−π
−π 2π 2π
A
= sin (2πfc t) cos (π) + cos (2πfc t) sin (π) − sin (2πfc t) cos (−π) − cos (2πfc t) sin (−π)
2π
A
= [0 + 0] = 0.
2π
£ ¤
RX (t, t + τ ) = E [X (t + τ ) X (t)] = E A2 cos (2πfc t + 2πfc τ + Ξ) cos (2πfc t + Ξ)
A2 A2
= E [cos (4πfc t + 2πfc τ + 2Ξ)] + E [cos (2πfc τ )]
2 2
2
Para más detalles ver Haykin 244.
Z
A2 π 1 A2
= cos (4πfc t + 2πfc τ + 2ξ) dξ + cos (2πfc τ )
2 −π 2π 2
A2 A2 A2
= ·0+ cos (2πfc τ ) = cos (2πfc τ ) .
2 2 2
De esta forma, hemos demostrado que el proceso es débilmente estacionario y que su

A2
función de autocorrelación (y autocovarianza) vale RX (τ ) = 2 cos (2πfc τ ) . Es de
1
destacar que cada fc unidades de tiempo las v.a. están máximamente relacionadas, lo
que resulta obvio a la vista de la forma del proceso.
En un p.a. X (t) débilmente estacionario y gracias a la función de autocovarianza,

podríamos observar el grado de relación lineal entre las v.a. del proceso separadas τ
unidades de tiempo, mediante el coeficiente de correlación lineal,
Cov (X (t) X (t + τ )) CX (τ )
ρ (τ ) = p = .
V ar (X (t)) V ar (X (t + τ )) CX (0)
Esta medida pone de manifiesto la importancia del estudio de CX (τ ) , ya que es-

tandarizada mediante la constante CX (0), es el propio coeficiente de correlación lineal
entre v.a. del proceso. Si además el p.a. es centrado en media, CX (τ ) coincide con
RX (τ ) y la misma observación puede hacerse con esta función.
9.5 Pares de p.a. estacionarios
Uno de los problemas más importantes a abordar en la aplicación de los sistemas,

lineales o no, a los p.a. es describir la relación entre un p.a. que será el input, X (t) ,
y el p.a. que será el output, Y (t). Desde el punto de vista estadístico, esta relación
debe venir dada por las densidades conjuntas de un número arbitrario de v.a. de ambos
procesos,
fX(t1 ),...,X(tn ),Y (s1 ),...,Y (sm ) (x1 , ..., xn , y1 , ..., ym ) .
En este sentido,
si estas dpf conjuntas de dos procesos X (t) e Y (t) son todas indepen-
dientes del tiempo, de manera que son constantes cuando se las desplaza en
el tiempo, es decir, para cualesquiera ∆,
fX(t1 ),...,X(tn ),Y (s1 ),...,Y (sm ) (x1 , ..., xn , y1 , ..., ym )
= fX(t1 +∆),...,X(tn +∆),Y (s1 +∆),...,Y (sm +∆) (x1 , ..., xn , y1 , ..., ym ) ,
se dice que los procesos son conjuntamente estacionarios en sentido

estricto.
Obsérvese que procesos conjuntamente estacionarios son estacionarios individual-

mente.
Por otra parte, dados dos p.a., X (t) e Y (t) ,
se define la función de covarianza cruzada o simplemente la cova-

rianza cruzada como
CX,Y (t, s) = Cov [X (t) , Y (s)] .
Análogamente, se define la función de correlación cruzada o simple-

mente la correlación cruzada como
RX,Y (t, s) = E [X (t) Y (s)∗ ] .
Obsérvese que, de nuevo, si se tienen dos procesos conjuntamente estacionarios,
CX,Y (t, s) = CX,Y (t + ∆, s + ∆)
RX,Y (t, s) = RX,Y (t + ∆, s + ∆)
y por ello se nota
CX,Y (t, s) = CX,Y (s − t)
RX,Y (t, s) = RX,Y (s − t)
También se dice que

dos procesos X (t) e Y (t) son conjuntamente estacionarios en sen-

tido débil si son estacionarios en sentido débil cada uno de ellos y
CX,Y (t, t + ∆) = CX,Y (∆)
o análogamente
RX,Y (t, t + ∆) = RX,Y (∆) .
De entre las propiedades más importantes de la función de autocorre-

lación cruzada destacamos las siguientes.
Teorema 9.2 Sean X (t) e Y (t) dos procesos aleatorios conjuntamente estacionarios
(débil). Entonces:
1. RXY (−τ ) = RY∗ X (τ ) .

p
2. |RXY (τ )| ≤ RX (0) RY (0).
Demostración. Es esencialmente la misma que en el caso de la función de auto-

correlación de un p.a.
Ejemplo 9.6 Sean los procesos
X (t) = A · cos [ω 0 t] + B · sin [ω0 t]
Y (t) = B · cos [ω 0 t] − A · sin [ω 0 t] ,
donde ω 0 es constante y A y B son v.a.

Comoquiera que:
Z ∞ Z ∞
µX (t) = a · cos [ω0 t] · fA (a) · da + b · sin [ω 0 t] · fB (b) · db
−∞ −∞
= E [A] · cos [ω 0 t] + E [B] · sin [ω 0 t]
µY (t) = E [B] · cos [ω 0 t] − E [A] · sin [ω 0 t]

RX (t, t + τ ) = E [(A · cos [ω 0 t] + B · sin [ω0 t]) · (A · cos [ω 0 (t + τ )] + B · sin [ω 0 (t + τ )])]

£
= E A2 · cos [ω 0 t] · cos [ω 0 (t + τ )] + A · B · cos [ω 0 t] · sin [ω0 (t + τ )]
¤
+A · B · sin [ω 0 t] · cos [ω 0 (t + τ )] + B 2 · sin [ω 0 t] sin [ω0 (t + τ )]
£ ¤
= E A2 · cos [ω0 t] · cos [ω 0 (t + τ )] +
E [A · B] · (cos [ω 0 t] · sin [ω 0 (t + τ )] + sin [ω 0 t] · cos [ω 0 (t + τ )]) +

£ ¤
E B 2 · sin [ω 0 t] sin [ω 0 (t + τ )]
£ ¤
RY (t, t + τ ) = E B 2 · cos [ω0 t] · cos [ω 0 (t + τ )] −
E [A · B] · (cos [ω 0 t] · sin [ω 0 (t + τ )] + sin [ω 0 t] · cos [ω 0 (t + τ )]) +

£ ¤
E A2 · sin [ω 0 t] sin [ω 0 (t + τ )] ,
una condición suficiente para que ambos procesos sean estacionarios en sentido débil
es que A y B sean centrados en media, incorreladas y con la misma varianza, σ2 .
En esas condiciones,
RX (t, t + τ ) = σ2 · cos (ω 0 τ ) = RY (t, t + τ )
y vamos a ver que así son también conjuntamente estacionarios en sentido débil:
RXY (t, t + τ ) = E [AB cos (ω 0 t) cos (ω 0 t + ω 0 τ )
+B 2 sin (ω 0 t) cos (ω 0 t + ω 0 τ )
−A2 cos (ω 0 t) sin (ω 0 t + ω 0 τ )
−AB sin (ω 0 t) sin (ω 0 t + ω 0 τ )]
= E [AB] cos (2ω 0 t + ω 0 τ )
+σ2 sin (ω 0 t) cos (ω 0 t + ω 0 τ )
−σ2 cos (ω 0 t) sin (ω 0 t + ω 0 τ )

=0
+σ2 sin (ω 0 t) cos (ω 0 t + ω 0 τ )
−σ2 cos (ω 0 t) sin (ω 0 t + ω 0 τ )
= −σ2 sin [ω 0 τ ]
9.6 P.a. gaussianos
Hasta ahora hemos definido y estudiado familias muy amplias de procesos (inde-
pendientes, estacionarios, ...). En esta sección vamos a considerar más concretamente
la conocida como familia de procesos aleatorios gaussianos, que constituye, sin duda, la
más importante de entre las que se utilizan en Telecomunicaciones y en cualquier otro
ámbito de aplicación de la Estadística.
Supongamos que observamos un p.a. X (t) en un intervalo [0, T ] y que este

RT
proceso es tal que la v.a. Y = 0 g (t) · X (t) · dt es una v.a. gaussiana para
£ ¤
cualquier función g (t) tal que E Y 2 < ∞. En ese caso, se dice que X (t)
es un proceso gaussiano.
Esta definición puede interpretarse como una extensión de la propiedad que ob-
servamos para los vectores gaussianos, donde combinaciones lineales de éstos seguían
siendo gaussianos. En este caso se trata de una combinación lineal continua, es decir de
una integración ponderada por los pesos que determina la función g (·)3 . No obstante,
esta definición no es en absoluto práctica para comprobar si un p.a. es gaussiano. La
siguiente es una definición alternativa que sí es fácilmente utilizable:
Un p.a. X (t) se dice proceso gaussiano si cualquier colección de va-

riables del proceso tiene distribución conjuntamente gaussiana. Es decir, si
3
Una combinación lineal de este tipo se denomina funcional lineal.
cualquier colección X (t1 ) , ..., X (tn ) tiene dpf conjunta

· ¸
1 1 0 −1
fX(t1 ),...,X(tn ) (x1 , ..., xn ) = p exp − (x − µ) · C · (x − µ) ,
(2π)n det (C) 2
donde
x = (x1 , ..., xn )0 ,
µ = (E [X (t1 )] , ..., E [X (tn )])0 ,
C = (Ci,j )i,j=1,..,n ,
Cij = Cov [X (ti ) , X (tj )] .
Nótese que un proceso gaussiano está completamente descrito una vez que se cono-
cen su función media y su autocovarianza o su autocorrelación.
Existen dos razones fundamentales por las que, como hemos comentado, los p.a.
gaussianos son la familia de p.a. más relevante: Por una parte, las propiedades analíti-
cas que verifican los hacen fácilmente manejables, como veremos a continuación. Por
otra parte, estos procesos han demostrado ser un excelente modelo matemático para
gran número de experimentos o fenómenos reales (resultado amparado en el Teorema
Central del Límite).
Propiedades de los procesos gaussianos
Teorema 9.3 Un proceso gaussiano es independiente si y sólo si C (ti , tj ) = 0 para

todo i 6= j.
Demostración. Resulta trivial recordando que para v.a. gaussianas incorrelación
e independencia son conceptos equivalentes.
Teorema 9.4 Si X (t) es un proceso gaussiano débilmente estacionario, también es

estrictamente estacionario.
Demostración. Como X (t) es débilmente estacionario, E [X (t)] = µX para todo

t y CX (ti , tj ) = CX (ti − tj ) .
Por tanto, los vectores medias y las matrices de covarianzas de cualesquiera vectores
(X (t1 ) , ..., X (tn ))
(X (t1 + ∆) , ..., X (tn + ∆))
son idénticos. Comoquiera que la distribución gaussiana sólo depende del vector de
medias y de la matriz de covarianzas, la demostración está concluida.
Ejemplo 9.7 Sea un proceso gaussiano X (t) débilmente estacionario con E [X (t)] = 4
y autocorrelación RX (τ ) = 25e−3|τ | . Obsérvese que la autocorrelación decrece rápida-
mente con el paso del tiempo.
Si deseamos caracterizar la distribución de probabilidad de tres v.a. del proceso,
1 1
observadas en los instantes t0 , t1 = t0 + 2 y t2 = t1 + 2 = t0 + 1, necesitamos las
medias, E [X (ti )] = 4 y la matriz de covarianzas,
 
25 − 16 25e−3/2 − 16 25e−6/2 − 16
 
 
CX(t0 ),X(t1 ),X(t2 ) =  25e−3/2 − 16 25 − 16 25e−3/2 − 16 .
 
25e−6/2 − 16 25e−3/2 − 16 25 − 16
9.7 P.a. de Markov
No debemos perder de vista la complejidad que implica la descripción estadística

de un proceso aleatorio. Pensemos por ejemplo que un proceso ha evolucionado hasta
un instante t y se conoce esa evolución; es decir, se conoce el valor X (s) = xs para
todo s ≤ t. Si se desea describir la posición del proceso en un instante posterior a t,
t + ∆, sería necesario calcular la distribución condicionada
X (t + ∆) | {X (s) = xs para todo s ≤ t} .
Esto, en general, es bastante complejo.

Además, ¿tiene sentido pensar que la evolución del proceso en el instante t + ∆ se

vea afectada por toda la historia del proceso, desde el instante inicial s = 0 hasta el
último instante de esa historia s = t? Parece lógico pensar que la evolución del proceso
tenga en cuenta la historia más reciente de éste, pero no toda la historia. Esta hipotesis
se ve avalada por los perfiles más habituales de las funciones de autocorrelación, donde
observamos que la relación entre variables del proceso suele decrecer en la mayoría de
las ocasiones conforme aumenta la distancia en el tiempo entre las mismas.
Los procesos de Markov son un caso donde esto ocurre. Se trata de procesos que
evolucionan de manera que en cada instante olvidan todo su pasado y sólo tienen en
cuenta para su evolución futura el instante más reciente, más actual. En el siguiente
sentido:
Un p.a. X (t) se dice markoviano o de Markov si para cualesquiera

t1 < ... < tn < tn+1 instantes consecutivos de tiempo se verifica
fX(tn+1 )|X(t1 )=x1 ,...,X(tn )=xn (xn+1 ) = fX(tn+1 )|X(tn )=xn (xn+1 ) .
Esta definición se suele enunciar coloquialmente diciendo que un p.a. de Markov es

aquel cuyo futuro no depende del pasado sino tan sólo del presente.
A continuación se detallan algunas de las propiedades más importantes de los pro-
cesos de Markov.
Teorema 9.5 Sea X (t) un proceso de Markov. Entonces, la dpf conjunta de cua-
lesquiera n v.a. del proceso puede darse en términos de las densidades condicionadas
de v.a. consecutivas y de la dpf inicial. Concretamente, si t1 < ... < tn ,
fX(t1 ),...,X(tn ) (x1 , ..., xn ) = fX(tn )|X(tn−1 )=xn−1 (xn ) · ... · fX(t2 )|X(t1 )=x1 (x2 ) · fX(t1 ) (x1 ) .
Demostración. Es una aplicación iterativa de la definición.

Teorema 9.6 Sea X (t) un proceso gaussiano. Este proceso es markoviano si y sólo si
CX (t1 , t2 ) · CX (t2 , t3 )
CX (t1 , t3 ) = ,
CX (t2 , t2 )
para cualesquiera t1 < t2 < t3 .
Demostración. Se trata de una demostración eminentemente técnica que se omite

por brevedad.
Corolario 9.1 Un proceso X (t) gaussiano, centrado, con incrementos independientes

y estacionarios es de Markov.
Demostración. Basta con aplicar el resultado anterior sabiendo que, como vi-
mos en el caso del movto. browniano, la autocorrelación de un proceso centrado con
incrementos independientes y estacionarios es
CX (t1 , t2 ) = σ2 · min (t1 , t2 ) ,
CX (t1 ,t2 )·CX (t2 ,t3 ) σ 2 t1 σ 2 t2

luego se verifica CX (t1 , t3 ) = CX (t2 ,t2 ) , ya que σ2 t1 = σ 2 t2
.
Los p.a. continuos de Markov tienen interesantes aplicaciones en procesamiento

de señales y control de sistemas, entre otros ámbitos. Los p.a. discretos de Markov,
conocidos como cadenas de Markov en tiempo continuo, se utilizan en redes de
computadoras, teletráfico, fiabilidad, entre otras aplicaciones.
Ejemplo 9.8 Una aplicación en fiabilidad. Teoría de Colas.

Consideremos una computadora que tiene dos procesadores independientes que pueden
fallar y ser reparados sucesivamente. Podemos describir este sistema mediante tres es-
tados: 2 cuando los dos procesadores han fallado, 1 cuando uno de ambos ha fallado
y 0 cuando ambos funcionan. Sería deseable para el investigador saber cuál es la pro-
babilidad de cada uno de esos estados, sobre todo sería conveniente conocer cuál es
la probabilidad de que el sistema se cuelgue, es decir, que fallen ambos procesadores
simultáneamente.
Para ello es necesario conocer previamente cuál es el modelo aleatorio de los tiem-
pos de fallo de los procesadores: el modelo más habitual es considerar que estos tiempos
que se dan desde que un procesador comienza a funcionar hasta que falla siguen una
distribución exponencial de parámetro λ > 0; asimismo es necesario conocer el modelo
del tiempo necesario para la reparación de un procesador o tiempo de servicio, que tam-
bién suele considerarse exponencial, de parámetro µ > 0. Además, hemos de suponer
que los tiempos de fallo y los tiempos de servicio son independientes.
Si notamos X (t) al estado del sistema en el instante t, se trata de un p.a. discreto

que puede tomar tres valores: 0, 1 y 2; es más, teniendo en cuenta la propiedad de no
memoria de la distribución exponencial, se podría demostrar fácilmente que se trata de
un p.a. de Markov: concretamente, de una cadena de Markov en tiempo continuo, ya
que el espacio de estados es un conjunto discreto.
Para caracterizar la cadena debemos analizar de qué manera se producen las transi-
ciones de un estado a otro. En este sentido, teniendo en cuenta que el mínimo de dos
distribuciones exponenciales independientes es una nueva exponencial de parámetro la
suma de los parámetros, se pueden dar las siguientes transiciones con sus respectivas
distribuciones:
Transición entre estados Distribución del tiempo hasta la transición

0⇒1 exp(2λ)
1⇒2 exp(λ)
2⇒1 exp(2µ)
1⇒0 exp(µ)
Estas transiciones pueden representarse en la Figura 9.3.
Vamos a calcular ahora las probabilidades de cada uno de los estados. Para ello es
importante tener en cuenta que si T sigue una distribución exponencial de parámetro
2λ λ
0 1 2
µ 2µ
Figura 9.3: Diagrama de transiciones entre estados. No de procesadores que fallan.
a, se tiene que
e−at − e−a(t+∆t)
P [t < T ≤ t + ∆t | T > t] =
e−at
−a ∆t
= 1 − eÃ !
−a ∆t (−a ∆t)2
= 1− 1+ + + ...
1! 2!
= a ∆t + o (∆t) ,
donde o (∆t) denota una cantidad de inferior orden a ∆t. Con esta puntualización,
P [X (t + ∆t) = 0] = (1 − 2λ ∆t) P [X (t) = 0] + µ ∆t P [X (t) = 1] + o (∆t)
P [X (t + ∆t) = 1] = 2λ ∆t P [X (t) = 0] + (1 − (µ + λ) ∆t) P [X (t) = 1]
+2µ ∆t P [X (t) = 2] + o (∆t)
P [X (t + ∆t) = 2] = λ ∆t P [X (t) = 1] + (1 − 2µ ∆t) P [X (t) = 2] + o (∆t) .
Si notamos pi (t) = P [X (t) = i] , podemos reescribir estas ecuaciones matricialmente

como
    
p0 (t + ∆t) − p0 (t) −2λ µ 0 p0 (t)
    
    
 p1 (t + ∆t) − p1 (t)  =  2λ − (λ + µ) 2µ   p1 (t)  ∆t + o (t) .
    
p2 (t + ∆t) − p2 (t) 0 λ −2µ p2 (t)
Si ahora dividimos en ambos miembros por ∆t y tomamos ∆t → 0, queda la ecuación

dp(t)
diferencial matricial dt = Ap (t) , donde
 
−2λ µ 0
 
 
A =  2λ − (λ + µ) 2µ 
 
0 λ −2µ
se denomina generador infinitesimal de la cadena. Obsérvese que puede darse

una sencilla regla mnemotécnica para calcular el generador infinitesimal a partir del
diagrama de transiciones sin realizar los cálculos previos. Concretamente, si A = (aij ),

 razón de entrada al estado i desde el j si i 6= j
aij =
 − (razón de salida del estado i) si i = j
La solución de esa ecuación diferencial matricial es p (t) = eAt P0 , donde por P0 se

nota la distribución en el instante original de la cadena4 y eAt = I3 + At + 2!1 (At)2 + ...
Esta distribución de probabilidad, p (t), se conoce como distribución transitoria de
la cadena.
Por otra parte, es lógico pensar que cuando t → ∞ las probabilidades pi (t) tiendan
a estabilizarse en torno a un cierto valor pi . En ese caso al derivarlas quedará cero y
4
Por ejemplo, si al principio los dos procesadores están funcionando,
 
0
 
 
P0 =  0  .
 
1
la ecuación diferencial queda 0 = Ap; resolviendo este sistema lineal queda que
µ ¶2
µ
p0 =
λ+µ
2λµ
p1 =
(λ + µ)2
µ ¶2
λ
p2 =
λ+µ
Esta distribución se conoce como distribución estacionaria de la cadena, y se

interpreta como las probabilidades de que la cadena se encuentre en cada uno de los
estados posibles cuando ha pasado un tiempo suficientemente amplio como para que la
cadena se estabilice.
9.8 El p.a. de Poisson
Hasta hora casi siempre hemos pensado en ejemplos prácticos, reales, de procesos
fundamentalmente vinculados a señales aleatorias. Sin embargo, el proceso de Poisson
es un modelo para un nuevo tipo de procesos de la vida real que cuentan ocurrencias
de un suceso a lo largo del tiempo, denominados por ello procesos de recuento. Algunos
de los ejemplos más comunes en el campo de las telecomunicaciones son el proceso que
cuenta el número de llamadas recibidas en una centralita telefónica o el que cuenta
el número de visitas a una página WEB. En otros ámbitos, como la Física, estos p.a.
pueden servir, por ejemplo, para contabilizar el número de partículas emitidas por un
cuerpo. En todas estas aplicaciones, el p.a. tendría la expresión
∞
X
N (t) = u (t − T [n]) ,
n=1
donde T [n] es una s.a. que representa el momento de la n−ésima llegada que cuenta
el proceso.
El proceso de Poisson de parámetro λ es precisamente el p.a. para el cual la
v.a. T [n] es una suma de n exponenciales independientes del mismo parámetro λ, lo
Ti Ø exp ( λ )
Ίi Ø Erlang ( i ; λ ) X(t)
T1 T2 T3 T4 T5 T6 T7
Ί1 Ί2 Ί3 Ί4 Ί5 Ί6 Ί7
Figura 9.4: Representación gráfica de una función muestral de un p.a. de Poisson.
que genera una distribución de Erlang de parámetros n y λ, con dpf
(λt)n−1 −λt
fT [n] (t) = λe u (t) .
(n − 1)!
Alternativamente, puede decirse que el proceso de Poisson es aquél en el que los

tiempos entre llegadas,
Υ [n] = T [n] − T [n − 1] ,
siguen siempre distribuciones exponenciales independientes5 del mismo parámetro,

esto es
fΥ[n] (t) = λe−λt u (t) .
Ejemplo 9.9 En la Figura se muestran funciones muestrales de un proceso de Poisson

de parámetro λ = 1. Han sido simuladas mediante un sencillo programa de MATLAB.
5
Obsérvese por tanto que la s.a. T [n] tiene incrementos independientes.
Figura 9.5: Funciones muestrales de un proceso de Poisson de parámetro 1.
Vamos a interpretar la función muestral de la izquierda pensando, por ejemplo, que

representa el número de visitas a una página WEB: Se observa que poco depués de los
tres minutos se han dado 3 visitas; después pasan casi 5 minutos sin ninguna visita; a
continuación se producen un buen número de visitas en poco tiempo; ...
Si observamos tan sólo el eje del tiempo, podríamos señalar los instantes en que se
producen las llegadas. Sabemos que esos incrementos en el tiempo desde que se produce
una llegada hasta la siguiente siguen una distribución exponencial, en este caso de
parámetro 1.
Hay que notar que este proceso es discreto. Vamos a ver cuáles son las mpf asociadas
y analicemos sus principales propiedades.
Teorema 9.7 Sea N (t) un proceso de Poisson de parámetro λ. Entonces, para todo t
se tiene que N (t) → P (λt).
Demostración.
P [N (t) = n] = P [T [n] ≤ t, T [n + 1] > t]
= P [T [n] ≤ t, Υ [n + 1] > t − T [n]]

Z t
= P [Υ [n + 1] > t − α | T [n] = α] fT [n] (α) dα u (t)
0
Z t ·Z ∞ ¸
= fΥ[n+1] (β) dβ fT [n] (α) dα u (t)
0 t−α
Z tZ ∞
(λα)n−1 −λα
= λe−λβ dβ λe dα u (t)
0 t−α (n − 1)!
n
(λt) −λt
= e u (t)
n!
Corolario 9.2 La media de un proceso de Poisson de parámetro λ es µN (t) = λt.
Corolario 9.3 El proceso de Poisson no es estacionario en ningún sentido.
Teorema 9.8 Sea N (t) un proceso de Poisson de parámetro λ. Entonces:
1. El proceso tiene incrementos independientes.
2. Para cualesquiera t1 < t2 , el incremento N (t2 ) − N (t1 ) sigue una distribución

de Poisson de parámetro λ (t2 − t1 ).
Demostración. Se basa en el hecho de que T [n] tiene incrementos independientes

y en la propiedad de no memoria de la distribución exponencial. Para más detalles,
véase Stark & Woods (1994) 379.
Teorema 9.9 Sea N (t) un proceso de Poisson de parámetro λ. Entonces
RN (t1 , t2 ) = λ min (t1 , t2 ) + λ2 t1 t2
CN (t1 , t2 ) = λ min (t1 , t2 ) .
Demostración. Si t2 ≥ t1
RN (t1 , t2 ) = E [N (t1 ) N (t2 )]
= E [N (t1 ) (N (t2 ) − N (t1 ) + N (t1 ))]

h i
= E [N (t1 ) (N (t2 ) − N (t1 ))] + E N (t1 )2
h i
= E [N (t1 )] E [N (t2 ) − N (t1 )] + E N (t1 )2
= λt1 λ (t2 − t1 ) + λt1 + λ2 t21
= λt1 + λ2 t1 t2 .
Análogamente, si t2 < t1 ,
RN (t1 , t2 ) = E [N (t1 ) N (t2 )] = λt2 + λ2 t1 t2 .
Por tanto,
RN (t1 , t2 ) = λ min (t1 , t2 ) + λ2 t1 t2 .
Conocidas las mpf de cada v.a. del proceso, podemos conocer también las conjuntas
de cualquier vector de v.a. del proceso, como se recoge en el siguiente resultado.
Teorema 9.10 Sea N (t) un proceso de Poisson de parámetro λ. Entonces, para cua-
lesquiera t1 < ... < tk ,
fN(t1 ),...,N(tk ) (n1 , ..., nk )

 n n −n n −n
 e−α1 α1 1 · e−α2 α2 2 1 · ... · e−αk α2 k k−1 si n ≤ ... ≤ n
n1 ! (n2 −n1 )! (nk −nk−1 )! 1 k
= ,
 0 en otro caso
donde αi = λ (ti − ti−1 ) .
Demostración. Si notamos M1 = N (t1 ) y Mi = N (ti ) − N (ti−1 ) para i = 2, ..., k,

estas v.a. son v.a. de Poisson de parámetro αi e independientes. Entonces,
fN(t1 ),...,N(tk ) (n1 , ..., nk ) = fM1 ,...,Mk (n1 , n2 − n1 , ..., nk − nk−1 )
= fM1 (n1 ) · fM2 (n2 − n1 ) · ... · fMk (nk − nk−1 )
Teorema 9.11 El proceso de Poisson es de Markov.
Demostración. Si se tienen t1 < t2 < ... < tn , dado que el proceso tiene incre-
mentos independientes,
fX(tn+1 )|X(t1 )=x1 ,...,X(tn )=xn (xn+1 ) = fX(tn+1 )|X(tn )=xn (xn+1 ) .
Las siguientes propiedades que destacamos del proceso de Poisson tienen importan-
tísimas aplicaciones en el ámbito del Teletráfico y, en general, de la Teoría de Colas.
Teorema 9.12 (Propiedad aditiva del proceso de Poisson) Sean N1 (t) p.a. de
Poisson de parámetro λ1 , N2 (t) p.a. de Poisson de parámetro λ2 , ambos independien-
tes. Entonces, N1 (t) + N2 (t) es un p.a. de Poisson de parámetro λ1 + λ2 .
Demostración. Yates & Goodman (1998) 352-353.
Teorema 9.13 (Propiedad de descomposición de un proceso de Poisson) Sea

N (t) un p.a. de Poisson de parámetro λ. Supongamos que de todos los eventos que
cuenta el proceso, sólo consideramos una parte de ellos; concretamente los que presen-
tan una característica que tiene probabilidad p entre todos los eventos. En ese caso, si
notamos por Np (t) al proceso que cuenta los eventos con la característica dada, dicho
proceso es de Poisson de parámetro λ · p.
Demostración. Yates & Goodman (1998) 353-354.

Teorema 9.14 El tiempo W que transcurre desde un instante arbitrario t0 hasta la

siguiente discontinuidad de un proceso de Poisson de parámetro λ es una v.a. exponen-
cial de parámetro λ, independientemente de la elección del punto t0 . Esta propiedad
aparentemente paradójica se conoce como propiedad de no memoria del proceso de
Poisson.
Demostración. Supongamos que en el instante t0 se ha producido la llegada n − 1

pero no la n-ésima, es decir, T [n − 1] < t0 y T [n] > t0 . En ese caso,
P [T [n] > t0 + t, T [n] > t0 ] e−λ(t0 +t)

P [T [n] > t0 + t | T [n] > t0 ] = = = e−λt .
P [T [n] > t0 ] e−λt0
Obsérvese que, en realidad, esta propiedad de no memoria lo es de la distribución

exponencial.
Ejemplo 9.10 Es frecuente considerar que el proceso que cuenta el número de partícu-
las emitidas por un material radiactivo es un proceso de Poisson. Vamos a suponer por
tanto, que estamos observando el comportamiento de un determinado material del que
se conoce que emite a razón de λ partículas por segundo.
Supongamos que se observa el proceso que cuenta el número de partículas emitidas
desde un instante t hasta el instante t + T0 . Si en ese intervalo de tiempo se supera un
umbral de N0 partículas, debería sonar una señal de alarma. En ese caso, la probabili-
dad de que la alarma suene es
∞
X k N0
X
−λT0 (λT0 ) (λT0 )k
P [N (t + T0 ) − N (t) > N0 ] = e =1− e−λT0 ,
k! k!
k=N0 +1 k=0
ya que N (t + T0 ) − N (t) → P (λT0 ).
Ejemplo 9.11 El número de visitas a la página WEB de una empresa que desea vender
sus productos a través de INTERNET es adecuadamente descrito mediante un proceso
de Poisson. Sabiendo que durante una hora se reciben un promedio de 5 visitas,
1. ¿cuál es la probabilidad de que no se reciba ninguna visita en media hora?
(5 × 0.5)0
P [N (0.5) = 0] = e−5×0.5 = 8. 208 5 × 10−2 ,
0!
apenas un 8% de probabilidad.
2. ¿Cuál es el promedio de visitas en 5 horas a la WEB? E [N (5)] = 5 × 5 =

25 visitas.
3. La empresa absorbe otra empresa del sector y opta por establecer un enlace di-
rectamente desde la página de su filial a la propia, garantizándose que todos los
clientes de la filial visitan su página. Si el promedio de clientes que visitaban la
página de la filial era de 2 clientes a la hora, ¿cuál es la probabilidad de que tras
la fusión no se reciba ninguna visita en 10 minutos?
Al hacerse con los clientes de la otra empresa (notemos por M (t) al proceso de
Poisson que contaba sus visitas, de parámetro λ = 2 visitas/hora), lo que ha
ocurrido es que ahora el número de visitas a la WEB de la empresa es la suma
de ambos procesos: T (t) = N (t) + M (t) .
Suponiendo que los procesos de Poisson que contaban las visitas a ambas empresas
fueran independientes, se tiene que T (t), en virtud de la propiedad aditiva del
proceso de Poisson, es también un proceso de Poisson, de parámetro λ = 5 + 2 =
7 visitas/hora. Por tanto,
· µ ¶ ¸ ¡ ¢
1 0
1 −7× 16 7 × 6
P T =0 =e = 0.3114,
6 0!
una probabilidad del 31%.
1. Un satélite recibe mensajes de un centro en la Tierra de acuerdo con

un proceso de Poisson de razón 15 mensajes por minuto.
(a) Calcular la probabilidad conjunta de que se reciban 10 mensajes en

los 10 primeros segundos de emisión y 10 mensajes en los siguientes
30 segundos de emisión.
Se nos pide P [N (10) − N (0) = 10 ∩ N (40) − N (10) = 10] . Teniendo en

cuenta que el proceso de Poisson tiene incrementos independientes,
P [N (10) − N (0) = 10 ∩ N (40) − N (10) = 10]
= P [N (10) − N (0) = 10] · P [N (40) − N (10) = 10]

(0.25 × 10)10 (0.25 × 30)10
= e−0.25×10 × e−0.25×30 = 1. 85 × 10−5 .
10! 10!
(b) Si se superan los 30 mensajes en un minuto, el dispositivo de re-

cepción del satélite se colapsa. Supongamos que a los 30 segundos
habían llegado 20 mensajes: ¿cuál es la probabilidad de que el
sistema se colapse en el primer minuto?
P [N (60) − N (30) > 10 / N (30) − N (0) = 20] =
∞
X (0.25 × 30)k
P [N (60) − N (30) > 10] = e−0.25×30 = 0.1379
k!
k=11
(c) Entre los mensajes recibidos el 20% son mensajes de datos. Calcu-
lar la probabilidad de que se reciban más de 5 mensajes de datos
en un minuto.
Por la propiedad de descomposición, si notamos ND (t) al proceso que cuenta

el número de datos hasta los t segundos, entonces ND (t) sigue un procceso
de Poisson de parámetro λD = 0.25 × 0.2 = 0.05men/sg. Por tanto,
∞
X (0.05 × 60)k
P [ND (60) > 5] = e−0.05×60 = 8. 39 × 10−2
k!
k=6
(d) Un nuevo centro terrestre va a utilizar el satélite y el número

de mensajes que emitirá por minuto también sigue un proceso de
Poisson. Establecer alguna condición sobre la razón máxima de

mensajes emitidos por minuto en este centro para que la proba-
bilidad de que el dispositivo receptor del satélite se colapse en no
más del 1%.
Notemos M (t) al nuevo proceso de Poisson, de parámetro λM , correspondiente
al número de mensajes por segundo desde el otro centro en la Tierra. Por
la propiedad aditiva, la suma de ambos procesos (suponiéndolos indepen-
dientes) también es de Poisson, de parámetro 0.25 + λM . Se requiere que
P [N (60) + M (60) > 30] < 0.01 es decir,
∞
X ((0.25 + λM ) × 60)k
e−(0.25+λM )×60 < 0.01.
k!
k=31
2. Sean X (t) e Y (t) dos señales aleatorias independientes entre sí, gaus-
sianas, de media cero y ambas con la misma función de autocovarian-
za, C (t1 , t2 ). Consideremos la señal modulada en amplitud dada por
Z (t) = X (t) cos 2πfc t + Y (t) sin 2πfc t.
(a) Calcular la media y la función de autocovarianza de Z (t).
µZ (t) = E [X (t) cos 2πfc t + Y (t) sin 2πfc t]
= E [X (t)] cos 2πfc t + E [Y (t)] sin 2πfc t = 0
CX (t, t + τ ) = RX (t, t + τ ) = E [Z (t) Z (t + τ )]
= E [X (t) cos 2πfc tX (t + τ ) cos 2πfc (t + τ )]
+E [X (t) cos 2πfc tY (t + τ ) sin 2πfc (t + τ )]
+E [Y (t) sin 2πfc tX (t + τ ) cos 2πfc (t + τ )]
+E [Y (t) sin 2πfc tY (t + τ ) sin 2πfc (t + τ )]
= C (t, t + τ ) cos 2πfc t cos 2πfc (t + τ )
+C (t, t + τ ) sin 2πfc tY (t + τ ) sin 2πfc (t + τ )
= C (t, t + τ ) cos 2πfc τ .

(b) Establecer condiciones para que Z (t) sea débilmente estacionaria

y estrictamente estacionaria en función de propiedades sobre X (t)
e Y (t).
Para que Z (t) sea débilmente estacionaria, basta con que X (t) e Y (t) lo
sean, ya que en ese caso, además de tener media cero (constante por tanto),
CZ (t, t + τ ) sólo dependerá de τ .
Por otra parte, Z (t) también es un proceso gaussiano. Para ponerlo de mani-
fiesto, tengamos en cuenta que una muestra de v.a. de Z (t) puede obtenerse
como combinación lineal de v.a. de X (t) e Y (t): como ambos procesos son
gaussianos, combinaciones lineales de v.a. suyas siguen distribución conjun-
tamente gaussiana.
Así pues, al ser gaussiano, las condiciones para ser estrictamente estacionario
son las mismas que para ser débilmente estacionario, ya que ambos conceptos
coinciden en estos procesos.
(c) Calcular la dpf conjunta de cualesquiera colección de variables

Z (t1 ) , ..., Z (tn ) .
La dpf conjunta de (Z (t1 ) , ..., Z (tn ))0 será la de un vector con distribución
conjuntamente gaussiana. Para determinarlo totalmente necesitamos el vec-
tor de medias y la matriz de covarianzas: el vector de medias es cero; por su
parte, para el cálculo de la matriz de covarianzas debemos tener en cuenta
que CZ (t, t + τ ) = C (t, t + τ ) cos 2πfc τ . Por tanto, el elemento (i, j) de esta
matriz es C (tj − ti ) cos 2πfc (tj − ti ).
3. Consideremos que X (t) es una señal gaussiana, centrada e incorrelada

con varianza 1. Se introduce esta señal en un quadratic rectifier, cuyo
output es Y (t) = X 2 (t) . Calcular, la dpf de cada v.a. Y (t), la dpf
conjunta de cada par de variables (Y (t1 ) , Y (t2 )) y la media y la función
de autocovarianza de Y (t) .
Comencemos por la dpf de cada v.a. Y (t). Obsérvese que el cambio Y (t) =
p
X 2 (t) tiene dos inversas, X (t) = ± Y (t). Así, para 0 ≤ y < ∞
√ 1 √ 1 √ 1 1 1
fY (t) (y) = fX(t) (+ y) √ + fX(t) (− y) √ = fX(t) ( y) √ = √ e− 2 y .
2 y 2 y y 2πy
¡ ¢
Análogamente, el cambio (Y (t1 ) , Y (t2 )) = X 2 (t1 ) , X 2 (t2 ) tiene cuatro inver-
³ p p ´
sas, (X (t1 ) , X (t2 )) = ± Y (t1 ), ± Y (t2 ) , todas ellas con el mismo jaco-
1
biano en valor absoluto, |J| = √ . Por tanto, y teniendo en cuenta la
4 Y (t1 )Y (t2 )
1 √1 − 12 (y1 +y2 )
simetría de la densidad de (X (t1 ) , X (t2 )) , fY (t1 ),Y (t2 ) (y1 , y2 ) = 2π y1 y2 e ,
para 0 ≤ y1 , y2 < ∞.
Por su parte, la media del proceso es

Z ∞
£ ¤ 1 1 2
E [Y (t)] = E X 2 (t) = x2 √ e− 2 x dx = 1
−∞ 2π
y la autocorrelación
£ ¤
RY (t, t + τ ) = E [Y (t) Y (t + τ )] = E X 2 (t) X 2 (t + τ )

£ ¤ £ ¤  1 si τ > 0
= E X 2 (t) E X 2 (t + τ ) = ,
 3 si τ = 0

 0 si τ > 0
por tanto, CY (t, t + τ ) = .
 2 si τ = 0
4. Una componente crucial de un sistema tiene un tiempo de vida con

distribución exponencial de parámetro 1.5 años−1 . Supongamos que se
tienen 3 componentes más de este tipo para sustituir una que anterior-
mente ha fallado. Consideremos la cadena N (t) que cuenta el número
de componentes disponibles (sin contar la que está en funcionamiento).
(a) Justificar que N (t) es una cadena de Markov.

Los posibles estados de N (t) son 0, 1, 2 y 3, y las transiciones posibles entre

estados son 3 ⇒ 2, 2 ⇒ 1 y 1 ⇒ 0. Por su parte, los tiempos necesarios para
esas transiciones son v.a. exponenciales de parámetro λ = 1.5años−1 .
Se trata de una cadena de Markov porque tan sólo es necesario conocer el

estado de la misma en el último instante disponible para determinar proba-
bilidades de estados futuros.
(b) Calcular el generador infinitesimal de la cadena.
En primer lugar, notemos pj (t) = P [N (t) = j]. Entonces,
p3 (t + ∆t) = (1 − λ∆t) p3 (t) + o (∆t)
p2 (t + ∆t) = (1 − λ∆t) p2 (t) + λ∆tp3 (t) + o (∆t)
p1 (t + ∆t) = (1 − λ∆t) p1 (t) + λ∆tp2 (t) + o (∆t)
p0 (t + ∆t) = p0 (t) + λ∆tp1 (t) + o (∆t)
o matricialmente,
    
p0 (t + ∆t) − p0 (t) 0 1.5 0 0 p0 (t)
    
    
 p1 (t + ∆t) − p1 (t)   0 −1.5 1.5 0   p1 (t) 
 =   ∆t + o (t)
    
 p2 (t + ∆t) − p2 (t)   0 0 −1.5 1.5   p2 (t) 
    
p3 (t + ∆t) − p3 (t) 0 0 0 −1.5 p3 (t)
Si dividimos en ambos miembros por ∆t y tomamos límite ∆t → 0,
p00 (t) = 1.5p1 (t)
p01 (t) = 1.5 (p2 (t) − p1 (t))
p02 (t) = 1.5 (p3 (t) − p2 (t))
p03 (t) = −1.5p3 (t)

Así, podemos concluir que el generador infinitesimal de la cadena es la matriz

 
0 1.5 0 0
 
 
 0 −1.5 1.5 0 
A=

.

 0 0 −1.5 1.5 
 
0 0 0 −1.5
(c) Calcular la distribución estacionaria de la cadena.
Por su parte, la distribución estacionaria será la que se de cuando pase un

tiempo suficientemente largo. Se calcula como solución del sistema
   
0 1.5 0 0   0
  p0  
    
 0 −1.5 1.5 0    0 
  
p1   
  = 0 
 0 0 −1.5 1.5   
  
p2   
  
  0 
 0 0 0 −1.5  
  p3  
1 1 1 1 1
y vale p0 = 1, p1 =, p2 = p3 = 0. Es decir, y como es lógico, con el paso del

tiempo las tres componentes acabarán teniendo que ser utilizadas por fallo
de las anteriores.
5. Consideremos el desplazamiento a lo largo de un eje, X (t), de una

partícula que sigue un proceso gaussiano con incrementos indepen-
dientes y estacionarios: cada incremento X (t + ∆) − X (t) sigue una
distribución gaussiana centrada y de varianza ∆.
(a) Calcular la probabilidad de que, partiendo del origen, la partícula

se haya desplazado por encima de las 0.5 unidades de longitud
sobre el eje (en dirección positiva o negativa) en 5 unidades de
tiempo.
Hay que tener en cuenta que X (5) − X (0) → N (0, 5) siendo X (0) = 0. Por
tanto,
Z 0.5
1 x2
P [|X (5) − X (0)| > 0.5] = 1 − √ e− 10 dx = 0.823.
−0.5 10π
(b) Calcular de nuevo el apartado (a) suponiendo que en el instante
t = 3 la posición de la partícula era X (3) = 1.
Hemos de calcular P [|X (5)| > 0.5 / X (3) = 1] . Para ello, tengamos en cuen-
ta que la dpf de X (5) / X (3) = 1 es
h i
fX(3) (1) √ 1
exp − (x−1)
2
" #
2π(5−3) 2(5−3) 1 (x − 1)2
fX(5) / X(3)=1 (x) = = √ exp − ,
fX(3) (1) 4π 4
que es la dpf de una v.a. gaussiana de media 1 y varianza 2. Por tanto,

Z 0.5 " #
1 (x − 1)2
P [|X (5)| > 0.5 / X (3) = 1] = 1 − √ exp − dx = 0.783
−0.5 4π 4
(c) Realizar la mejor predicción en sentido mínimo cuadrático de la

posición de la partícula en el instante t = 4 sabiendo que
X (0) = 0, X (1) = 1, X (2) = 2, X (3) = 3
y calcular el ecm de esa estimación.

En primer lugar, dado que X (t) es un proceso gaussiano, la mejor predicción
coincide con la mejor predicción de tipo lineal. Por otra parte, al ser X (t)
markoviano, tan sólo es necesario considerar la información más reciente,
en este caso, X (3) = 3. Así pues, se trata tan sólo de obtener la recta de
regresión de X (4) sobre X (3):
Cov (X (3) , X (4))
X̂ (4) = X (3) = X (3) = 3.
V ar (X (3))
El ecm es
 " #2 
Cov (X (3) , X (4))
e = V ar (X (4)) 1 − p  = 1.
V ar (X (3)) V ar (X (4))
1. Axiomática de Kolmogorov en p.a. separables para garantizar que un proceso

está caracterizado totalmente mediante las dpf conjuntas de sus v.a. en Grimmet
& Stirzaker (2001) 371-373.
2. Más propiedades de la función de autocorrelación y de autocorrelación cruzada

en Peyton (1993) 174-175.
3. Estimación de la función de autocorrelación en Peyton (1993) 178-180.
4. Más sobre el proceso de Wiener en Stark & Woods (1994) 386-387 y Grimmet &
Stirzaker (2001) 516-525.
5. El proceso de Wiener definido como límite de un recorrido aleatorio en Papoulis

(1991) 346-347 y Gardner (1989) 125-129.
6. Descripción detallada del movimiento browniano desde un punto de vista de la

Física en Papoulis (1991) 348-349.
7. Estudio exhaustivo del proceso de Poisson en Viniotis (1997) 439-458. Se presen-

tan más propiedades y variaciones del proceso tales como el Interrupted Poisson
Process (IPP), el Markov Modulated Poisson Process (MMPP) o el proceso com-
puesto de Poisson.
8. Caracterización alternativa del proceso de Poisson y otras propiedades en Stark

& Woods (1994) 381-384 y Gardner (1989) 129-137.
9. Descripción del proceso de Poisson y aplicación a la modelización del ruido de

fondo en Papoulis (1991) 354-362.
10. Ecuaciones de Chapman-Kolmogorov para caracterizar cadenas de Markov en

tiempo continuo en Stark & Woods (1994) 398-399 y Viniotis (1997) 567-568.
11. Más sobre cadenas de Markov en tiempo continuo: procesos de nacimiento y

muerte. Aplicaciones de Teoría de Colas en Teletráfico en Stark & Woods (2002)
425-429.
12. Aplicación de las cadenas de Markov en tiempo continuo a redes de área local en
Viniotis (1997) 571-574.
13. Simulación de trayectorias de cadenas de Markov en Viniotis (1997) 574-576.
14. P.a. periódicos y cicloestacionarios en Stark & Woods (1994) 408-411, Gardner
(1989) 323-402 y Papoulis (1991) 373-376.
15. Estudio específico de p.a. complejos en Papoulis (1991) 184-186.
16. Aplicación de los p.a. a la modulación de señales en Papoulis (1991) 362-372.
17. Modulación digital por desplazamiento de la fase en Stark & Woods (2002) 416-
418.
18. Señales asíncronas binarias en Stark & Woods (2002) 406-408.
19. Señales telegráficas aleatorias en Stark & Woods (2002) 414-416.
20. El proceso de Ornstein-Uhlenbeck en Leon-Garcia (1994) 377-378.

Capítulo 10
Transmisión de procesos
aleatorios a través de sistemas
lineales
Resumen. En este capítulo se estudian las principales características

estadísticas de un p.a. que se introduce como input de un sistema lineal
e invariante en el tiempo, prestando especial atención al caso de procesos
débilmente estacionarios. Se introduce también el concepto de densidad es-
pectral de potencia, en el análisis espectral de la función de autocorrelación.
10.1 Introducción
Sin duda, uno de los fenómenos que justifica en gran medida la existencia de las
Telecomunicaciones como una de las más importantes ramas de la Ingeniería es la
necesidad de la transmisión de señales a través de cualquier medio físico.
En general, en el proceso de transmisión interviene una señal original, llamada de
entrada o input y un sistema que modifica el input y lo convierte en otra señal, llamada
267
de salida o output.
El objeto de este capítulo es estudiar qué ocurre, desde el punto de vista estadístico,
cuando un p.a. se introduce como entrada en un sistema lineal, invariante en el tiempo.
Concretamente, querremos conocer las características de la salida y su relación con la
entrada.
10.2 Sistemas lineales en tiempo continuo
Así pues, vamos a comenzar con las definiciones más sencillas que intervienen en
este proceso de transmisión:
Un sistema es un mecanismo o transformación que permite obtener una

función o proceso denominado salida o output a partir de otro, denomi-
nado entrada o input.
Input : x (t)
Output : y (t) = F (x (t))
En este curso sólo vamos a tratar sistemas determinísticos, es decir, aquellos

sistemas que siempre proporcionan la misma salida ante la misma entrada. Frente a
estos sistemas existen también los llamados sistemas aleatorios.
En este capítulo nos centramos exclusivamente en procesos y sistemas reales, no
complejos.
Un sistema se dice lineal si F (αx1 (t) + βx2 (t)) = αF (x1 (t))+βF (x2 (t))
para cualesquiera α, β, t reales, x1 , x2 funciones o procesos.
Es decir, un sistema es lineal si se verifica el principio de superposición, en el sentido

de que la respuesta del sistema ante un conjunto de señales aplicadas simultáneamente
es igual a la suma de las respuestas ante cada señal aplicada individualmente.
x(t) y(t)
F(·)
Figura 10.1: Representación gráfica de un sistema.
Un sistema se dice invariante en el tiempo o estacionario cuando

y (t) = F (x (t)) implica que F (x (t + c)) = y (t + c) para cualesquiera t, c.
Es decir, en un sistema invariante en el tiempo, cuando el input se adelanta o se

atrasa en el tiempo, el output sufre la misma modificación.
Asociado a un sistema lineal invariante en el tiempo (a partir de ahora

LTI), F (x, t) , podemos definir la denominada función de respuesta al
impulso unidad, h (t) , de manera que
Z ∞
y (t) = F (x, t) = h (t − s) x (s) ds = x (t) ∗ h (t) ,
−∞
interpretable como los pesos sobre los inputs que dan lugar a los outputs.
Un manera constructiva de calcular esta función de respuesta en sistemas LTI es la

siguiente. Dado que
Z ∞
x (t) = x (ξ) · δ (t − ξ) · dξ,
−∞
entonces,
µZ ∞ ¶ Z ∞
y (t) = F (x (t)) = F x (ξ) · δ (t − ξ) · dξ = x (ξ) · F (δ (t − ξ)) · dξ,
−∞ −∞
de manera que h (t) = F (δ (t)) , es decir, la función de respuesta al impulso unidad en

el instante t, como su propio nombre indica, es la salida ante un impulso unidad unidad
en el instante t.
10.3 Análisis espectral de la función de autocorrelación

de un proceso débilmente estacionario
En el ámbito de la Teoría de la Señal, el análisis espectral, también llamado en el

dominio de las frecuencias, está asociado al estudio de la transformada de Fourier de
las señales. Para las señales determinísticas, el estudio del espectro permite representar
una función como una superposición de funciones exponenciales. En el caso de señales
aleatorias como las que nos ocupan en esta asignatura, el estudio del espectro tiene dos
aplicaciones principales: la primera involucra las transformadas de Fourier de promedios
estadísticos del proceso, y tiene una vertiente estrictamente determinística; la segunda
de las intrepretaciones se refiere a la representación de procesos como superposición de
funciones exponenciales, pero donde ahora los coeficientes son aleatorios. Nosotros sólo
abordaremos en este curso la primera de ellas.
Es cierto que hasta ahora todas las consideraciones hechas sobre cada proceso X (t)
y cada una de sus posibles funciones muestrales x (t), han tenido en cuenta únicamente
el dominio del tiempo. Esto se debe a que el tiempo es nuestra referencia más usual a
la hora de observar un fenómeno que depende del tiempo.
Sin embargo, también es sabido que en ocasiones es más conveniente utilizar el
dominio de las frecuencias para observar un fenómeno de este tipo. En el caso de los
p.a., una de las razones de que esto sea así tiene que ver con la aplicación práctica de
los modelos matemáticos que estamos ofreciendo en toda la asignatura, modelos que,
en ocasiones, son más fácilmente observables en el dominio de las frecuencias.
Precisamente, el motivo de que se estudie análisis espectral en el contexto de este
capítulo es que una de las propiedades más utilizadas es la que permite realizar convolu-
ciones como productos de transformadas de Fourier, como vamos a ver a continuación.
Esto facilita en gran medida los cálculos que hay que realizar para describir el output
de un sistema LTI con inputs aleatorios.
Como hemos comentado, la descripción espectral o en el dominio de frecuencias
se obtiene mediante el análisis de las transformadas de Fourier. A este respecto, el
siguiente apartado sirve a modo de recordatorio de los principales resultados referentes
a estas transformadas de Fourier.
10.3.1 Transformada de Fourier
La transformada de Fourier o espectro, G (f )1 , de una función g (t) se define

como
Z ∞
G (f) = g (t) · e−j2πf t · dt,
−∞
√
donde e−j2πf t = cos (2πf t) − −1 sin (2πft) .
La Transformada de Fourier inversa permite calcular de nuevo g (t) a partir de su
espectro, ya que
Z ∞
g (t) = G (f) ej2πf t df.
−∞
El par formado por las expresiones de g (t) y G (f) , una en función de la otra,
forma lo que se denomina un par de transformadas de Fourier, y se simboliza
g (t) ←→ G (f) .
1
Al considerar como variable independiente f , se está utilizando como unidad de medida los ciclos
por segundo o Herzios (Hz). Otros autores utilizan ω = 2πf, cuyas unidades son radianes por segundo.
Es importante no mezclar ambas unidades.
Es importante tener una interpretación del concepto de transformada de Fourier.

R∞
Para ello, téngase presente que mediante la expresión g (t) = −∞ G (f ) ej2πf t df estamos
expresando la señal g (t) como una suma continua de funciones exponenciales complejas
(senos y cosenos), donde hay un sumando para cada frecuencia f ∈ R; la amplitud de
cada componente (sumando) que corresponde a cada frecuencia f, es proporcional a la
transformada de Fourier en esa frecuencia, G (f ), de manera que representa una especie
de coordenada de la señal g (t) en la frecuencia f .
Desde un punto de vista analítico, el espectro es una función compleja y par. Su
existencia está garantizada siempre que se verifiquen las siguientes condiciones, cono-
cidas como condiciones de Dirichlet:
1. g (t) tiene un número finito de máximos, mínimos y discontinuidades en cualquier

intervalo finito de su dominio,
R∞
2. −∞ |g (t)| dt < ∞.
Pero más allá de las condiciones matemáticas para la existencia del espectro debe-
R∞
mos pensar que cualquier señal real (físicamente realizable) de energía finita −∞ |g (t)|2 dt <
∞ tiene espectro.
De entre las propiedades más importantes de la transformada de Fourier destacamos
las siguientes.
PN PN
Proposición 10.1 1. g (t) = n=1 αn gn (t) ←→ n=1 αn Gn (f) = G (f )
2. g (t − t0 ) ←→ G (f ) e−j2πf t0
g (t) ej2πf0 t ←→ G (f − f0 )
³ ´
1 f
3. g (αt) ←→ |α| G α
4. G (t) ←→ g (−f)
dn g(t)
5. dtn ←→ (j2πf)n G (f)
Rt G(f ) G(0)
6. −∞ g (τ ) dτ ←→ j2πf + 2 δ (f)
7. g ∗ (t) = G∗ (−f)
g ∗ (−t) = G∗ (f)
R∞
8. g1 (t) ∗ g2 (t) = −∞ g1 (τ ) · g2 (t − τ ) · dτ ←→ G1 (f) · G2 (f)
R∞
g1 (t) · g2 (t) ←→ −∞ G1 (ξ) G2 (f − ξ) dξ = G1 (f) ∗ G2 (f)
R∞ ∗
R∞ ∗
9. −∞ g1 (τ ) g2 (τ ) dτ = −∞ G1 (2πf ) G2 (2πf) df, resultado conocido como Teore-
R∞ R∞
ma de Parseval; si g1 (t) = g2 (t) , se tiene −∞ |g (t)|2 dt = −∞ |G (2πf)|2 df .
10.3.2 Densidad espectral de potencia
Sea un p.a. X (t) débilmente estacionario y de segundo orden, esto es, que verifique
h i
E |X (t)|2 < ∞.
Consideremos su función de autocorrelación, RX (τ ).
Se define la densidad espectral de potencia de X (t) (a partir de aho-

ra psd, por power spectral density), que notaremos SX (f ), como la trans-
formada de Fourier de RX (τ ), es decir,
Z ∞
SX (f ) = RX (τ ) e−j2πf τ dτ .
−∞
Las principales propiedades de la psd quedan recogidas en el siguiente enunciado.
Teorema 10.1 Sea un p.a. X (t) con psd SX (f). Entonces,
1. SX (·) es una función real tal que SX (f) ≥ 0.
2. Si X (t) es real, SX (−f ) = SX (f).

R∞
3. PXX = −∞ SX (f) · df = RX (0) .
Demostración. Se siguen de las propiedades de RX (τ ) y de la TF.
Ejemplo 10.1 Sea el proceso X (t) = cos (2πf0 · t + Ξ) , donde Ξ → U (−π, π).
Calculemos su densidad espectral de potencia
1
Ya sabemos que RX (τ ) = 2 cos (2πf0 τ ) .
1
Como cos (2πf0 τ ) ←→ 2 [δ (f − f0 ) + δ (f + f0 )] , se tiene que
1
SX (f) = (δ (f − f0 ) + δ (f + f0 )) .
4
a
Ejemplo 10.2 Consideremos un p.a. X (t) con autocorrelación RX (τ ) = 2 · e−a·|τ | ;
entonces dicho proceso es estacionario y
ha i a2
SX (f ) = T F · e−a·|τ | = ,
2 a2 + (2πf)2
2a
ya que e−a·|τ | ←→ a2 +(2πf )2
.
10.3.3 Ruido blanco
El ruido blanco es un tipo de proceso aleatorio que puede ser un modelo matemático
adecuado para describir fenómenos reales tales como el ruido termal. El motivo de que
se defina aquí es que su descripción es muy sencilla en términos de su dps.
Un proceso débilmente estacionario, X (t), se dice ruido blanco si es

N0
centrado y su dps es constante. Es decir, SX (f) = 2 , donde N0 es una
constante positiva expresada en Watios por Hertzio.
Es decir, un ruido blanco se caracteriza porque su densidad espectral de potencia

es independiente de la frecuencia considerada.
El adjetivo blanco se usa precisamente por analogía con la luz blanca, que con-
tiene cantidades similares de radiación electromagnética en el espectro de frecuencias
usualmente observables.
El problema a la hora de considerar un ruido blanco viene dado porque no es un
R∞
proceso de segundo orden, ya que PXX = −∞ SX df = ∞.
N0
De hecho, su función de autocorrelación es RX (τ ) = 2 · δ (τ ) .
Esto conduce a una aparente paradoja:
R∞
• Por un lado, parece claro que PXX = −∞ SX df = RX (0) = ∞.
• Sin embargo, se trata de procesos que son físicamente realizables, de manera que
no tiene mucho sentido pensar que su potencia promedio sea infinita.
Hemos de decir que esta paradoja es un serio inconveniente que plantea el modelo
matemático que se propone con un ruido blanco a la hora de representar el fenómeno
físico que lo motiva. No obstante, tiene tan buenas propiedades por su sencillez que
merece la pena asumir esa paradoja. Así, debemos pensar en un ruido blanco como
N0 N0
en un p.a. con SX (f ) = 2 y RX (τ ) = 2 δ (τ ) , donde a pesar de que se tendría que
N0 0
PX = RX (0) = ∞, consideraremos en ocasiones que 0 PX = 2 .
Por otra parte, interpretando en otro sentido la función de autocorrelación, dos v.a.
de un ruido blanco están incorreladas, por muy próximas que se encuentren entre sí. Si
además consideramos que el ruido blanco es gaussiano, no sólo están incorreladas sino
que son independientes.
En muchísimas aplicaciones prácticas se consideran ruidos blancos y además gaus-
sianos, hipótesis que suele estar avalada por el Teorema Central del Límite, ya que el
proceso estará generado en cada instante por la suma de un gran número de observa-
ciones.
10.3.4 Densidad espectral cruzada de potencia
Sean X (t) e Y (t) procesos conjuntamente estacionarios (débil).
Entonces, se define la densidad espectral cruzada de potencia de

X (t) e Y (t) como
SXY (f ) = T F [RXY (τ )]
y la de Y (t) y X (t) como
SY X (f ) = T F [RY X (τ )] .
Destacamos las principales propiedades de la densidad espectral cruzada en el si-

guiente enunciado.
Teorema 10.2 Sean X (t) e Y (t) procesos conjuntamente estacionarios (débil). En-
tonces:
1. SXY (f) = SY X (−f ) = SY∗ X (f )
2. Si X (t) e Y (t) son ortogonales, SXY (f) = SY X (f) = 0.
3. Si X (t) e Y (t) son incorrelados, SXY (f) = SY X (f) = 2π · µX · µY · δ (f )
Demostración. Se basan en las propiedades de las autocorrelaciones cruzadas y

de la TF.
Ejemplo 10.3 Consideremos dos procesos X (t) e Y (t) conjuntamente estacionarios

en sentido débil, con densidad espectral conjunta

 a + jbf si − fc < f < fc
fc
SXY (f) = ,
 0 en otro caso
donde fc > 0, a y b son constantes. Entonces,

Z fc µ ¶
jbf
RXY (τ ) = a+ · ej2πf τ · df
−fc f c
Z fc Z
j2πf τ b fc
=a e · df + j f · ej2πf τ · df
−fc fc −fc
"µ ¶2 #fc
a h j2πf τ ifc b 1
= e +j ej2πf τ (j2πfτ − 1)
j2πτ −fc fc j2πτ
−fc
a b a+b
= sin (2πfc τ ) + [sin (2πfc τ )] = sin (2πfc τ ) .
πτ πτ πτ
Ejemplo 10.4 Supongamos que deseamos observar el proceso X (t) pero sólo podemos
observar este proceso interferido por otro, N (t), centrado y estacionario en sentido
débil, a través del proceso
Y (t) = X (t) + N (t) .
Supongamos, además, que X (t) y N (t) son conjuntamente estacionarios en sentido

débil.
Respecto del proceso observado, hay que decir:
E [Y (t)] = E [X (t)] + E [N (t)] = µX (t) = µX
RY (t, t + τ ) = RX (τ ) + RXN (τ ) + RNX (τ ) + RN (τ ) ,
luego Y (t) también es débilmente estacionario. Además,
SY (f ) = SX (f) + SXN (f ) + SNX (f) + SN (f) .
Dado que N (t) es algo ajeno a X (t) que se adhiere a él, vamos a suponer, adi-
cionalmente, que X (t) y N (t) son independientes. En ese caso,
RXN (τ ) = E [X (t)] · E [N (t + τ )] = 0
RNX (τ ) = 0,
luego
RY (τ ) = RX (τ ) + RN (τ )
SY (f) = SX (f ) + SN (f) .
10.4 Sistemas LTI con inputs aleatorios
Si en un sistema LTI con función de respuesta al impulso unidad h (t) consideramos

como input un p.a. X (t), el output será el proceso
Z ∞
Y (t) = h (t − s) X (s) ds,
−∞
donde la integral hemos de entenderla como un límite en m.c.2

En este sentido, el objetivo de este capítulo es describir cuáles son las características
principales del output, conocidas las del input y las del sistema.
Teorema 10.3 Dado un sistema LTI, F (·), para cualquier proceso aleatorio se cumple
que
E [F (X (t))] = F (E [X (t)]) .
Corolario 10.1 En las mismas condiciones,
E [Y (t)] = E [h (t) ∗ x (t)] = µX (t) ∗ h (t)
RX,Y (t1 , t2 ) = h (t2 ) ∗ RX (t1 , t2 )
RY (t1 , t2 ) = h (t1 ) ∗ RXY (t1 , t2 ) = h (t1 ) ∗ h (t2 ) ∗ RX (t1 , t2 ) .
Demostración. Para la media,
E [Y (t)] = E [F (X (t))] = F (E [X (t)]) .
Para la autocorrelación cruzada, dado que
Y (t) = F (X (t)) ,
multiplicando esta ecuación por X (t1 ) tenemos
X (t1 ) · Y (t) = X (t1 ) · F (X (t)) = F (X (t1 ) · X (t)) ,
dado que el sistema es lineal. Tomando esperanza
E [X (t1 ) · Y (t)] = E [F (X (t1 ) · X (t))] = F (E [X (t1 ) · X (t)]) ,

2
Ver Viniotis (1997), 486, para una discusión más profunda acerca de cómo identificar el output
como un p.a.
mX(t) mY(t)
h(t)
RX(t1,t2) RXY(t1,t2) RY(t1,t2)

h(t2) h(t1)
Figura 10.2: Primeros momentos del output de un sistema LTI.
es decir,
RXY (t1 , t) = F (RX (t1 , t)) .
Para la autocorrelación del output, dado que
Y (t) = F (X (t)) ,
multiplicando por Y (t2 ) ,
Y (t) · Y (t2 ) = F (X (t)) · Y (t2 ) = F (X (t) · Y (t2 )) ;
tomando esperanza
RY (t, t2 ) = F (RXY (t, t2 )) .
Corolario 10.2 En las mismas condiciones,
CX,Y (t1 , t2 ) = CX (t1 , t2 ) ∗ h (t2 )
CY (t1 , t2 ) = CX,Y (t1 , t2 ) ∗ h (t1 ) .

En lo que resta del capítulo vamos a suponer que el input es un proceso débilmente
estacionario, X (t) , que pasa a través de un filtro lineal invariante en el tiempo con
función de respuesta al impulso unidad h (·), dando lugar a un nuevo proceso Y (t).
Vamos a ver cuál es la forma de los momentos del output en ese caso.
Teorema 10.4 El proceso Y (t) resultante del paso del input estacionario (débil) X (t)
a través de un sistema LTI dado por la función de respuesta al impulso unidad h (·) es
también estacionario (débil). Además, ambos procesos son conjuntamente estacionarios
en sentido débil y
Z ∞
µY = µX · h (s) · ds = µX · H (0)
−∞
RXY (τ ) = RX (τ ) ∗ h (τ )
RY X (τ ) = RX (τ ) ∗ h (−τ )
RY (τ ) = RXY (τ ) ∗ h (−τ ) = RX (τ ) ∗ h (τ ) ∗ h (−τ ) .

·Z ∞ ¸
µY (t) = E [Y (t)] = E h (s) X (t − s) ds
−∞
Z ∞ Z ∞
= h (s) E [X (t − s) ds] = h (s) µX ds
−∞ −∞
Z ∞
= µX · h (s) · ds = µX · H (0) ,
−∞
donde por H (0) hemos notado la transformada de Fourier de la función de respuesta

al impulso unidad en la frecuencia cero.
Por otra parte,
RXY (t, t + τ ) = E [X (t) · Y (t + τ )]

· Z ∞ ¸ Z ∞
= E X (t) · X (t + τ − ξ) · h (ξ) · dξ = E [X (t) · X (t + τ − ξ)] · h (ξ) · dξ
−∞ −∞
Z ∞
= RX (τ − ξ) · h (ξ) · dξ = RX (τ ) ∗ h (τ ) ,
−∞
luego la autocorrelación cruzada sólo depende del incremento en el tiempo, es decir,

RXY (t, t + τ ) = RXY (τ ) .
Análogamente puede demostrarse que RY X (τ ) = RX (τ ) ∗ h (−τ ) .
Además,
RY (t, t + τ ) = E [Y (t) · Y (t + τ )]
·Z ∞ ¸
=E X (t − ξ) · h (ξ) · dξ · Y (t + τ )
Z ∞ −∞ Z ∞
= E [X (t − ξ) · Y (t + τ )] · h (ξ) · dξ = RXY (τ + ξ) · h (ξ) · dξ
−∞ −∞
Z ∞
= RXY (τ − α) · h (−α) · dα = RXY (τ ) ∗ h (−τ ) ,
−∞
que también depende tan sólo de τ . Uniendo estos dos últimos resultados tenemos que
Z ∞ Z ∞
RY (τ ) = RX (τ ) ∗ h (τ ) ∗ h (−τ ) = h (s) h (r) RX (τ − r + s) dsdr
−∞ −∞
y podemos concluir que, al igual que el input, el output es estacionario (débil).
Ejemplo 10.5 X (t) es un p.a. estacionario en sentido débil con promedio
µX = 10 V.
Este p.a. es input de un sistema lineal invariante en el tiempo con respuesta al impulso
unidad

 e 0.2
t
si 0 ≤ t ≤ 0.1
h (t) = .
 0 en otro caso
Calculemos el promedio del output.

Z ∞ Z 0.1 h i0.1
t
µY = µX h (t) dt = 10 e 0.2 dt = 2 et/0.2 = 1.30 V.
−∞ 0 0
N0
Ejemplo 10.6 Sea X (t) un ruido blanco con RX (τ ) = 2 δ (τ ) . Vamos a tratar de
calcular la potencia promedio un output resultante de introducir como input este ruido
en un sistema LTI cualquiera.
N0 N0
RXY (τ ) = RX (τ ) ∗ h (τ ) = δ (τ ) ∗ h (τ ) = h (τ ) .
2 2 Z
N0 N0 ∞
RY Y (τ ) = RXY (τ ) ∗ h (−τ ) = h (τ ) ∗ h (−τ ) = h (τ − ξ) · h (−ξ) · dξ
2 2 −∞
Si hacemos τ = 0, tenemos que

Z ∞
N0 N0
PY = RY (0) = h2 (ξ) · dξ = · Eh .
2 −∞ 2
En los resultados anteriores se ha puesto de manifiesto la importancia de la convolu-

ción para conocer las características del output en función de las del input. No obstante,
es conocido que la convolución es una operación complicada en un gran número de ca-
sos; sin embargo, como se ha comentado, su análogo en el dominio de las frecuencias es
el producto, operación mucho más sencilla, de manera que resulta de especial interés
traducir los resultados anteriores al dominio de las frecuencias.
Teorema 10.5 Sea SY (f) la dps del proceso Y (t) generado mediante un sistema LTI
R∞
a partir de un input estacionario (débil) X (t) , Y (t) = −∞ h (t − s) · X (s) · ds.
Entonces,
SXY (f) = SX (f) H (f)
SY (f) = SX (f) |H (f )|2 ,
donde hemos notado por H (f) la transformada de Fourier de la función de respuesta

al impulso unidad. Debido al importante papel que juega esta función en la expresión
se le denomina función de transferencia.
Demostración. Basta con aplicar las propiedades de la TF en el Teorema anterior.
De esta manera, posiblemente el camino más fácil para calcular la autocorrelación

del output sea calcular la dps del input, multiplicarla por el módulo al cuadrado de la
Σ-
Y(t)
X(t)
= X ( t ) – X ( t-T )
Retraso T
|H ( f )|2
4
-3/T
-3 -2/T
-2 -1/T
-1 00 1/T
1 2/T
2 3/T
3
1/T f
Figura 10.3: Comb filter. Arriba el diagrama que representa el filtro. Abajo, el módulo
al cuadrado de la función de transferencia.
función de transferencia y hacer TF inversa, evitando así hacer ninguna convolución.

Esquemáticamente:
TF
RX (τ ) → SX (f)
↓
T F −1
RY (τ ) ← SY (f ) = SX (f) |H (f )|2
Ejemplo 10.7 Consideremos el filtro que se representa en la Figura 10.3, consistente

en un retraso T sobre la señal y en la diferencia entre ésta y el retraso.
Notemos SX (f ) la densidad espectral de X (t) y tratemos de calcular SY (f ).
La función de transferencia
H (f) = 1 − exp (−j2πf T ) ,
dado que
h (t) = δ (t) − δ (t − T ) .
|H (f)|2 = 4 sin2 (πfT ) ,
luego
SY (f ) = 4 sin2 (πfT ) · SX (f)
Corolario 10.3 En particular, si de nuevo consideramos SY (f) la dps del proceso

Y (t) generado mediante un sistema LTI con función de transferencia H (f) a partir de
un input estacionario (débil) X (t) , se tiene que
h i Z ∞
E |Y (t)|2 = RY (0) = SX (f) |H (f)|2 df.
−∞
Esta última ecuación describe la potencia del output. Obsérvese que si, por ejemplo,
el filtro sólo considera frecuencias bajas, esto es, H (f ) = 0 para |f | > f0 , y SX (f) = 0
h i
para |f| < f0 , entonces E |Y (t)|2 = 0 y estaríamos ante una señal nula debido a que
el filtro la ha eliminado totalmente.
Para finalizar el capítulo, vamos a analizar con más detalle lo que ocurre si el input
del sistema LTI es un proceso gaussiano.
Teorema 10.6 El output de un sistema LTI con función de respuesta al impulso

unidad h (·), cuando el input es un proceso gaussiano, es otro proceso gaussiano, con
función media y autocovarianza dadas por el Corolario 10.1.
Demostración. El output Y (t) vendrá dado en función del input X (t) como
Z ∞
Y (t) = h (t − τ ) · X (τ ) · dτ
−∞
Vamos a mostrar que Y (t) es un proceso gaussiano utilizando la primera definición que
vimos de esta familia de procesos.
Si consideramos cualquier función g (t) ,
Z T Z T Z ∞
Y (t) · g (t) · dt = h (t − τ ) · X (τ ) · dτ · g (t) · dt
0 0 −∞
Z ∞ µZ T ¶
= X (τ ) · h (t − τ ) · g (t) · dt · dτ
−∞ 0
Como X (t) es gaussiano cualquier expresión del tipo

Z ∞
X (τ ) · (γ (τ )) · dτ
−∞
es gaussiana. En particular con

Z T
γ (τ ) = h (t − τ ) · g (t) · dt.
0
W
Ejemplo 10.8 Un proceso gaussiano de ruido blanco con N0 = 10−15 Hz es el input
de un sistema lineal invariante en el tiempo con respuesta al impulso unidad

 2π106 e−2π106 t si t ≥ 0
h (t) = .
 0 en otro caso
Calculemos
a. La densidad espectral del output.
b. La autocorrelación del output.
c. La potencia promedio del output.

10−15 W
Para empezar, SX (f) = 2 Hz para todo f.
2
(2π106 )
Además, |H (f)|2 = .
(2π106 )2 +(2πf )2
Por tanto,
¡ ¢2
2 10−15 2π106 π10−9 4π106
SY (f ) = |H (f)| · SX (f) = · = .
2 (2πf )2 + (2π106 )2 2 (2πf)2 + (2π106 )2
π10−9 6 |τ |
Haciendo transformada de Fourier inversa, RY (τ ) = 2 · e−2π10 ,luego la
π
potencia promedio del output es RY (0) = 2 · 10−9 W.
Además, sabemos que por ser el input gaussiano, también lo es el output.
Ejemplo 10.9 Sea el proceso

Z t+T
1
Y (t) = X (α) · dα,
2T t−T
promedio de otro proceso X (t) en el intervalo (t − T, t + T ) , proceso que supondremos

débilmente estacionario.
Y (t) puede verse como output de un sistema LTI con input X (t). Concretamente,
1
con h (t) un rectángulo centrado en cero con base de longitud 2T y altura 2T .
Para esta función de respuesta al impulso unidad h (t), la función ρ (t) = h (t) ∗
1
h (−t) es un triángulo centrado en cero con base de longitud 4T y altura 2T .
sin (T 2πf)
H (f) =
T 2πf
sin2 (T 2πf )
SY (f) = SX (f) ·
T 2 (2πf)2
RY (τ ) = RX (τ ) ∗ ρ (t)
Z 2T µ ¶
1 |α|
= 1− RX (τ − α) · dα
2T −2T 2T
1
RT
Si tomamos t = 0, tenemos la v.a. ν T = 2T −T X (t) · dt = Y (0) . La varianza de
esta v.a. es
Z 2T µ ¶
1 |α|
CY (0) = 1− CX (α) · dα.
2T −2T 2T
1. Consideremos W (t), ruido blanco gaussiano con potencia N0 /2, que

1
pasa a través de un filtro RC, con H (f ) = 1+j2πf RC .
(a) Caracterizar la distribución conjunta de 3 v.a. del output que

disten entre sí una distancia en el tiempo tal que el grado de
relación lineal entre dos de ellas consecutivas no sea superior al
1%.
En primer lugar hay que decir que como el input es un proceso gaussiano y
el sistema es LTI, el output también es gaussiano. Además, si notamos Y (t)
a dicho output, su media es µY = µX · H (0) = 0 y su densidad espectral de
potencia
SY (f ) = SX (f ) · |H (f)|2
N0 1 1 N0 1
= · · =
2 1 + j2πfRC 1 − j2πf RC 2 1 + (2πfRC)2
N0 (1/RC)2 N0 (1/RC) 2 (1/RC)
= 2 2 = ,
2 (1/RC) + (2πf ) 2 2 (1/RC)2 + (2πf)2
luego, aplicando transformada de Laplace inversa, su función de autocorre-

1
N0 − RC |τ |
lación es RY (τ ) = 4RC e .
Por lo tanto, entre cada par de v.a. del otput, el grado de relación lineal
en %, observado mediante el coeficiente de correlación lineal al cuadrado es
RY (t−s)2 1
100 × ρ2Y (t),Y (s) = RY (0)2
= e− RC |τ | .
Si deseamos que las v.a. disten entre sí un tiempo τ tal que este grado de
1
relación lineal sea inferior al 1%, debe cumplirse e− RC |τ | < 0.01 o equivalen-
temente, |τ | > −RC ln 0.01 = 4.60RC.
Así pues, esas tres variables seguirán una distribución conjuntamente gaussia-
na de vector de medias cero y matriz de covarianzas

 
N0 N0 −4.60 N0 −9.20
 4RC 4RC e 4RC e 
 N0 −4.60 N0 N0 −4.60 
 4RC e 4RC e
.
 4RC 
N0 −9.20 N0 −4.60 N0
4RC e 4RC e 4RC
(b) Calcular el coeficiente de correlación lineal entre cada v.a. del

input y del output en el mismo instante de tiempo. ¿Qué puede
decirse acerca de la distribución conjunta de probabilidad de estas
dos variables?
Dado que
N0 1
SXY (f) = SX (f) · H (f) = · ,
2 1 + j2πf RC
la función de autocorrelación cruzada es
N0 1 − τ
RXY (τ ) = e RC u (τ ) .
2 RC
Por tanto,
N0
r
RXY (0) 2
ρX(t)Y (t) =p = q 2RC = .
RX (0) RY (0) N0 N0 RC
2 4RC
Con respecto de la distribución conjunta del input y el output, tan sólo

conocemos sus momentos de primer y segundo orden, pero no exactamente
de qué distribución se trata.
2. Una señal de tipo sinusoidal con fase aleatoriamente distribuida en

(0, 2π), de la forma X (t) = A cos (2πfc t + Θ) pasa a través de un sistema
cuya respuesta al impulso unidad es h (t) = W exp [−W |t|] . En estas
expresiones, A, fc y W son constantes positivas. Notemos Y (t) a la
salida resultante.
(a) Calcular la covarianza entre cada variable X (t) y cada variable

Y (t) y la varianza de cada variable Y (t).
A
Anteriormente comprobamos que RX (τ ) = 2 cos (2πfc τ ). Por otra parte,
2W 2
H (f) = ,
W 2 + (2πf )2
por tanto,
2W 2 A
SXY (f ) = 2 · [δ (f − fc ) + δ (f + fc )] .
W 2 + (2πf) 4
Finalmente,
Z ∞
AW 2
Cov (X (t) , Y (t)) = RXY (0) = SXY (f ) df =
−∞ W 2 + (2πfc )2
y
Z ∞
2A2 W 4
V ar (Y (t)) = SY (f) df = ³ ´2
−∞ W 2 + (2πfc )2
(b) Encontrar una expresión para la salida Y (t) en el instante t = 10

cuando A = fc = W = 1.
Z ∞
Y (t) = X (t) ∗ h (t) = X (s) h (t − s) ds,
−∞
luego
Z ∞
2
Y (10) = cos (2πs + θ) e−|10−s| ds = cos θ.
−∞ 1 + (2π)2
3. Una señal aleatoria centrada X (t) tiene función de autocorrelación

RX (τ ) = e−2|τ | . Dicha señal pasa a través de un filtro (denomina-
do en inglés tapped delay line filter) cuya función de transferencia
es H (f) = a1 e−j2πf t1 + a2 e−j2πf t2 .
(a) Encontrar la media y la autocorrelación del output Y (t).

Obsérvese que haciendo transformada de Fourier inversa, se tiene que
h (t) = a1 δ (t − t1 ) + a2 δ (t − t2 ) .
Por tanto,
RXY (τ ) = RX (τ ) ∗ h (τ ) = a1 e−2|τ −t1 | + a2 e−2|τ −t2 |
y
h i
RY (τ ) = RXY (τ ) ∗ h (−τ ) = a1 e−2|τ −t1 | + a2 e−2|τ −t2 | ∗ [a1 δ (τ + t1 ) + a2 δ (τ + t2 )]
¡ ¢ ³ ´
= a21 + a22 e−2|τ | + a1 a2 e−2|τ −(t1 −t2 )| + e−2|τ −(t2 −t1 )|
(b) Encontrar el coeficiente de correlación lineal de cada v.a. X (t) y

cada v.a. Y (s), para cada t y cada s.
Como hemos demostrado que
RXY (τ ) = a1 e−2|τ −t1 | + a2 e−2|τ −t2 |
V ar (Y (t)) = RY (0) = a21 + 2a1 a2 e−2|t1 −t2 | + a22 ,
Cov (X (t) , Y (s)) a1 e−2||t−s|−t1 | + a2 e−2||t−s|−t2 |

ρX(t),Y (s) = p = q .
V ar (X (t) V ar (Y (s))) a21 + 2a1 a2 e−2|t1 −t2 | + a22
4. Se desea encontrar una manera de generar en la práctica un proceso

Y (t) caracterizado porque su función de autocorrelación es RY (τ ) =
σ 2 −α|τ |
2α e .
(a) Encontrar un sistema LTI de manera que este proceso Y (t) sea
el output al introducir como input un ruido blanco gaussiano con
densidad espectral de potencia σ2 .
Dado que
σ2
SY (f ) = ,
α2 + (2πf)2
buscamos un sistema LTI tal que SY (f ) = SX (f) |H (f)|2 o lo que es lo

mismo
σ2
= σ2 |H (f )|2 ,
α2 + (2πf)2
de donde
1 1 1
|H (f)|2 = 2 = .
α2 + (2πf ) α + j2πf α − j2πf
1
Así, podemos considerar que H (f ) = α+j2πf , en cuyo caso, h (t) = e−αt u (t) .
(b) Calcular la probabilidad de que Y (t) así generado recorra una dis-
tancia superior a 1 unidad en 1 unidad de tiempo.
Hay que tener en cuenta que el output es gaussiano al serlo también el input.
Por tanto, Y (t + 1) − Y (t) es una v.a. gaussiana de media cero y varianza
h i σ2 ¡ ¢
E (Y (t + 1) − Y (t))2 = 2 (RY (0) − RY (1)) = 1 − e−α .
α
Así pues,
P [|Y (t + 1) − Y (t)| > 1] = P [−1 < Y (t + 1) − Y (t) < 1]

 
−1 1
= P q <Z < q 
σ 2 σ 2
−α −α
α (1 − e ) α (1 − e )
 
1
= 2FZ  q  − 1.
σ2 −α
α (1 − e )
5. Considérese la ecuación diferencial lineal con input aleatorio dada por

Y 0 (t) + cY (t) = X (t). Una forma sencilla de estudiar el proceso resul-
tante Y (t) es considerar que éste es output de un sistema con input
1
X (t) y función de transferencia dada por H (f) = c+j(2πf ) . Encontrar
µY , RXY (τ ) y RY (τ ) si X (t) es un ruido blanco gaussiano.
La media del output es cero por serlo la del input.
Además, si consideramos que σ2 es la potencia del input,
1
SXY (f) = σ2 ,
c + j (2πf )
1
de donde RXY (τ ) = σ2 exp (−cτ ) u (τ ) y SY (f) = σ2 c2 +(2πf )2
, de donde RY (τ ) =
σ2
2c exp (−c |τ |) .
1. Una breve introducción a los sistemas aleatorios en Gardner (1989) 199-200.
2. Ecuaciones diferenciales lineales vistas como resultado de la aplicación de sistemas

LTI en Papoulis (1991) 313-316 y Stark & Woods (1994) 485489.
3. Cómo estimar la densidad espectral de potencia mediante un sistema LTI paso-

banda estrecho en Peyton (1993) 248-252.
4. Sistemas LTI multidimensionales con inputs vectores de p.a. en Stark & Woods
(1994) 511-519.
5. Simulación de p.a. débilmente estacionarios como outputs de sistemas LTI con

inputs ruidos blancos en Viniotis (1997) 488-489.
Capítulo 11
Estimación II
Resumen. Como continuación de lo estudiado en el Capítulo 6, referido a

variables y vectores aleatorios, este capítulo es una breve introducción a los
principales problemas que pueden abordarse mediante la estimación lineal
de procesos y secuencias aleatorias desde la perspectiva mínimo cuadrática.
11.1 Introducción
En el planteamiento general del problema hay que comenzar destacando el hecho

de que estas técnicas pueden aplicarse tanto a procesos como a secuencias aleatorias.
Por simplificar la notación, vamos a enunciar el problema siempre con la notación de
los p.a., si bien es perfectamente válida para las s.a.:
Sea X (t) un p.a. (o una s.a.) que no puede observarse exactamente
por algún motivo (errores de medición, observaciones contaminadas por

ruidos, ...). Sea Y (s) otro p.a. (o s.a.) relacionado en mayor o menor
medida con X (t) y que se utilizará en el proceso de estimación como fuente
de información para dichas estimaciones. El objetivo de la estimación es
encontrar un valor estimado de X (t), que notaremos X̂ (t) cuando se conoce
293
el valor del proceso Y (s) en un intervalo de tiempo a ≤ s ≤ b que puede ser

infinito. El criterio de optimalidad de la estimación, como en el Capítulo 6,
es la minimización del ecm.
11.2 Planteamiento de distintos problemas en estimación
Si deseamos estimar X (t) mediante la observación de Y (s) 6= X (s) en

a ≤ s ≤ b, con t ∈ [a, b], hablaremos de un un problema de filtrado.
Por el contrario, si deseamos estimar X (t) mediante la observación de
Y (s) = X (s) en a ≤ s ≤ b, con t ∈ [a, b], hablaremos de un problema de
interpolación.
Ejemplos de problemas de filtrado pueden darse en observaciones de una señal

contaminada por ruido. Mediante la observación de la señal contaminada Y (s) en un
intervalo de tiempo se pretendería estimar el valor de la verdadera señal X (t) en un
instante t de ese intervalo.
Si deseamos estimar X (t) mediante la observación de Y (s) = X (s) en

a ≤ s ≤ b, con t > b, hablaremos de un un problema de predicción
hacia adelante (forward prediction).
Este tipo de problemas se dará cuando se trate de predecir el valor del proceso (o
de la secuencia) conocida la historia de éste en un intervalo de tiempo anterior.
Si deseamos estimar X (t) mediante la observación de Y (s) = X (s) en

a ≤ s ≤ b, con t < a, hablaremos de un un problema de predicción
hacia atrás (backward prediction).
Análogamente, mediante este proceso de estimación se desea estimar la posición del

proceso (o secuencia) en un instante pasado cuando lo que se conoce es la trayectoria
del proceso en instantes posteriores.
11.3 Solución de algunos problemas de estimación me-

diante resultados ya conocidos
Hay que tener presente que en el Capítulo 6 se dieron técnicas muy relacionadas
con los problemas que estamos planteando aquí, pero referidas a variables y vectores
aleatorios. Es evidente que podemos aplicar esas técnicas en este ambiente siempre que
sea posible.
Concretamente, esto ocurrirá cuando deseemos estimar X (t) conocido, a lo sumo,
un conjunto finito de valores de Y (s). El problema vendrá cuando las observaciones de
Y (s) sean demasiadas, es decir, cuando ya no sean un vector finito sino una secuencia
infinita (numerable) o, incluso, una función de variable real (no numerable).
En esta sección vamos a utilizar, por tanto, las técnicas del Capítulo 6 para resolver
distintos ejemplos de problemas de estimación planteados en el apartado anterior, siem-
pre desde el punto de vista de la estimación lineal óptima.
Predicción
• Supongamos que deseamos estimar linealmente el valor futuro de un p.a. X (t + λ),

en términos del valor en el presente, X (t). Supondremos que el proceso es débil-
mente estacionario y que es centrado1 .
Según el Teorema 6.5, el estimador lineal óptimo es
Cov (X (t + λ) , X (t)) RX (λ)

X̂ (t + λ) = X (t) = X (t)
V ar (X (t)) RX (0)
y el ecm
µ ¶
¡ 2
¢ RX (λ)
e = V ar (X (t + λ)) 1 − ρ = RX (0) 1 − = RX (0) − RX (λ) .
RX (0)
1
Esto no supone pérdida de generalidad, sino tan sólo simplificar el cálculo.
2
Ejemplo 11.1 Consideremos el proceso X (t) centrado con RX (τ ) = 3e−2τ . En ese
caso, el predictor lineal óptimo es
2
X̂ (t + λ) = e−2λ X (t) ,
con un ecm
³ 2
´
e = 3 1 − e−2λ .
Obsérvese como, lógicamente, cuanto mayor es λ, es decir, cuanto más a largo plazo
es la estimación, mayor es el error que se comete.
Los dos casos límites se darían:
a) Cuando λ = 0, en cuyo caso X̂ (t) = X (t) y e = 0, y
b) cuando λ → ∞, en cuyo caso X̂ (∞) → 0 (la media) y e → 3 (la varianza).
• Supongamos ahora la misma situación anterior, pero donde ahora contamos con
la observación de X (t) y de Ẋ (t).
Aplicando el Teorema 6.5, se tiene que el estimador lineal óptimo de X (τ + λ)

³ ´0
dado Y = X (t) , Ẋ (t) es
X̂ (t + λ) = a1 X (t) + a2 Ẋ (t) ,
donde los pesos ai son tales que verifican la condición de ortogonalidad:

h³ ´ i
E X (t + λ) − a1 X (t) − a2 Ẋ (t) X (t) = 0
h³ ´ i
E X (t + λ) − a1 X (t) − a2 Ẋ (t) Ẋ (t) = 0
Dado que
dRX (τ )
RẊX (τ ) =
dτ
dRX (τ )
RX Ẋ (τ ) = −
dτ
d2 RX (τ )
RẊ (τ ) = − ,
dτ 2
esta condición de ortogonalidad resulta ser:
dRX (0)
RX (λ) − a1 RX (0) − a2 = 0
dτ
dRX (−λ) dRX (0) d2 RX (0)
− + a1 + a2 = 0.
dτ dτ dτ 2
Ejemplo 11.2 Si de nuevo consideramos el proceso X (t) centrado con RX (τ ) =

2
3e−2τ ,
dRX (λ) 2
= −12λe−2λ
dτ
dRX (0)
=0
dτ
d2 RX (0)
= −12,
dτ
de manera que la condición de ortogonalidad queda
2
3e−2λ − 3a1 = 0
2
−12λe−2λ + 12a2 = 0,
de donde
2
a1 = e−2λ
2
a2 = λe−2λ
y el estimador lineal óptimo es
2 2
X̂ (τ + λ) = e−2λ X (t) + λe−2λ Ẋ (t) .
• En un nuevo planteamiento del problema de predicción, supongamos ahora que

queremos estimar linealmente el valor de una s.a. Xn conocida la historia de la
secuencia hasta el instante anterior, (X0 , ..., Xn−1 ), mediante
n−1
X (n)
X̂n = ai Xi .
i=0
En este caso, del Teorema 6.5 se sigue que el vector de parámetros debe verificar
la ecuación
0 ¡ £ ¤¢−1
a(n) = E [(Xn−1 , ..., X0 ) Xn ] E (Xn−1 , ..., X0 )0 (Xn−1 , ..., X0 )
= (RX [n − 1, n] , ..., RX [0, n]) (RX [n − i, n − j])−1

1≤i,j≤n .
Ejemplo 11.3 Consideremos que observamos una s.a. Xn con µX = 0 y RX [m] =

|m| |m|
σ21 ρ1 + σ 22 ρ2 en los instantes n = 0, 1 y deseamos predecir el valor de la secuencia
en n = 2. En ese caso, el estimador lineal óptimo será:
 0  
(2)
a1 X0
X̂2 =    ,
(2)
a2 X1
donde
 0  −1
a1
(2) ³ ´ RX (0) RX (1)
  = RX (2) RX (1)  
(2)
a2 RX (1) RX (0)
³ ´
= σ21 ρ21 + σ 22 ρ22 σ21 ρ1 + σ22 ρ2
 −1
σ 21 + σ22 σ21 ρ1 + σ 22 ρ2
× 
σ21 ρ1 + σ22 ρ2 σ21 + σ 22
Filtrado
• Supongamos que deseamos estimar linealmente el valor de un proceso X (t) cono-

cido el valor de otro proceso Y (t) en el mismo instante, ambos procesos centrados
y conjuntamente estacionarios en sentido débil.
En ese caso, aplicando de nuevo el Teorema 6.5, se tiene que
Cov (X (t) , Y (t)) RXY (0)

X̂ (t) = Y (t) = Y (t)
V ar (Y (t)) RY (0)
y el ecm
Ã !
¡ 2
¢ RXY (0)
e = V ar (X (t)) 1 − ρ = RX (0) 1 − p .
RX (0) RY (0)
Ejemplo 11.4 Una señal aleatoria X (t), débilmente estacionaria, centrada en media
con RX (τ ) = 5e−|τ | , es contaminada por un ruido blanco N (t) con potencia promedio
PN = 3, de manera que lo que se observa realmente es la señal resultante,
Y (t) = X (t) + N (t) ,
sin que se sepa, observado Y (t), cuál es el verdadero valor de X (t). El proceso X (t)
es independiente del ruido N (t).
El proceso de filtrado debe tratar de estimar linealmente el valor de X (t) observada
la señal contaminada Y (t).
Para ello, obsérvese que
E [Y (t)] = E [X (t) + N (t)] = E [X (t)] + E [N (t)] = 0,
RY (t, t + τ ) = E [Y (t) Y (t + τ )] = E [(X (t) + N (t)) (X (t + τ ) + N (t + τ ))]
= E [X (t) X (t + τ ) + X (t) N (t + τ ) + N (t) X (t + τ ) + N (t) N (t + τ )]
= E [X (t) X (t + τ )] + E [X (t) N (t + τ )] + E [N (t) X (t + τ )] + E [N (t) N (t + τ )]
= RX (τ ) + 0 + 0 + RN (τ ) ,
dado que los procesos X (t) son independientes y centrados, luego ortogonales.
Por tanto,
RXY (0)
X̂ (t) = Y (t)
RY (0)
E [X (t) (X (t) + N (t))]
= Y (t)
RX (0) + RN (0)
RX (0)
= Y (t)
RX (0) + RN (0)
1
= Y (t)
1+ R N (0)
RX (0)
1
= Y (t) = 0.625Y (t)
1 + 35
y el error cuadrático medio,
¡ ¢
ecm = V ar [X (t)] · 1 − ρ2
 
1
= RX (0) 1 − 
1+ R N (0)
RX (0)
= 1.875,
lo que supone un
ρ2 × 100% = 62.5%
de bondad de ajuste.
Obsérvese que cuanto mayor sea la potencia del ruido, peor será el ajuste.
• Vamos a generalizar la situación anterior al caso de una s.a. y donde utilizamos

toda la información hasta el presente para filtrar la secuencia en el presente. Es
decir, consideramos que observamos
Yn = Xn + Vn ,
donde X ⊥ V ambas centradas, Vn ruido blanco de varianza σ2V .
Deseamos, por tanto, encontrar el filtro lineal óptimo

n
X (n)
X̂n = ai Yi .
i=0
La condición de ortogonalidad en este caso exige que evaluemos primero la función

de autocorrelación de Y y la cruzada entre X e Y :
£ ¤
RY [i, j] = E Yi Yj∗ = RX [i, j] + σ 2V δ ij
E [Xn Yi∗ ] = RX [i, n] para 0 ≤ i ≤ n.
Con esta información, la condición de ortogonalidad resulta
¡ £ ¤¢−1
a(n)0 = E [(Yn , ..., Y0 ) Xn ] E (Y0 , ..., Yn )0 (Y0 , ..., Yn )
h i−1
= (RX [n, n] , ..., RX [0, n]) (RX [i, j])i,j=0,...,n + σ2V In+1
Ejemplo 11.5 Consideremos
Yn = Xn + Wn
|m| |m|
con Xn y Wn centrados, Wn ruido blanco de varianza σ 2W y RX [m] = σ21 ρ1 + σ22 ρ2 .
Entonces,
(2) (2) (2)

X̂2 = a0 Y0 + a1 Y1 + a2 Y2 ,
donde
 0  0
a20 σ21 + σ 22
   
 (2)   
 a1  =  σ21 ρ1 + σ 22 ρ2 
   
(2)
a2 σ21 ρ21 + σ 22 ρ22
 −1
σ 2 + σ22 + σ2W σ21 ρ1 + σ22 ρ2 σ21 ρ21 + σ22 ρ22
 1 
 
×  σ 21 ρ1 + σ22 ρ2 2 2 2 2
σ1 + σ 2 + σW σ1 ρ1 + σ2 ρ2  . 2
 
σ 21 ρ21 + σ22 ρ22 2 2 2
σ1 ρ1 + σ2 ρ2 σ1 + σ2 + σW2 2
Interpolación
• Deseamos estimar linealmente el valor X (t + λ) de un proceso centrado y débil-

mente estacionario en el punto t + λ del intervalo (t, t + T ), conocido el valor de
este proceso en 2N + 1 muestras del mismo,
(X (t − NT ) , ..., X (t − T ) , X (t) , X (t + T ) , ..., X (t + NT )) .
De nuevo aplicando el Teorema 6.5, el estimador lineal óptimo será
k=N
X
X̂ (t + λ) = ak X (t + kT ) , con 0 < λ < T.
k=−N
Los pesos ak deben verificar la condición de ortogonalidad:

"( k=N
) #
X
E X (t + λ) − ak X (t + kT ) X (t + nT ) = 0 para |n| ≤ N
k=−N
o equivalentemente
k=N
X
ak RX (kT − nT ) = RX (λ − nT ) para |n| ≤ N.
k=−N
Obsérvese que se trata de un sistema de 2N + 1 ecuaciones con 2N + 1 incógnitas

de cuya solución se obtiene el estimador lineal óptimo.
11.4 Otros problemas de estimación
A la vista de los ejemplos que acabamos de estudiar, parece evidente que las limi-
taciones de las técnicas que conocemos vienen dadas, como se ha comentado, por la
dimensión finita del vector de las componentes predictoras.
En este sentido, todos estos ejemplos y otros que pueden plantearse cuando se tiene
un conjunto de observaciones infinito (numerable o no numerable) tienen una resolución
más compleja y no se abordan en esta asignatura. No obstante, es importante hacer
hincapié en la riqueza que estas aplicaciones tienen en un campo como las Telecomuni-
caciones, de manera que un estudio más exhaustivo del proceso de estimación se hace
necesario en la formación del Ingeniero de Telecomunicaciones.
1. Un proceso aleatorio centrado, X (t), no puede ser observado en todos

los instantes de tiempo, de manera que para su estudio se considera
la s.a. Xn = X (n). Obtener la mejor estimación lineal en el sentido
1
mínimo cuadrático de los valores del proceso en los instantes t = n + 2
a partir de la información que proporciona la observación de Xn y

Xn+1 y calcular el error cuadrático medio de dichas estimaciones si
RX (τ ) = e−|τ |/2 .
En primer lugar, el problema planteado es un problema de interpolación. Para

resolverlo, apliquemos el principio de ortogonalidad:
h³ ´ i h³ ´ i
E Xn+ 1 − X̂n+ 1 Xn = E Xn+ 1 − X̂n+ 1 Xn+1 ,
2 2 2 2
donde
X̂n+ 1 = aXn + bXn+1 .

2
Por tanto,
h³ ´ i µ ¶
1
E Xn+ 1 − aXn − bXn+1 Xn = RX − aRX (0) − bRX (1) = 0
2 2
h³ ´ i µ ¶
1
E Xn+ 1 − aXn − bXn+1 Xn+1 = RX − aRX (1) − bRX (0) = 0
2 2
o equivalentemente,
1 1
a + be− 2 = e− 4
1 1
ae− 2 + b = e− 4
de donde a = 0.4848 y b = 0.4848, es decir,
X̂n+ 1 = 0.4848Xn + 0.4848Xn+1 .

2
Por su parte, el ecm es

  £1¤ 
³ £ ¤ ´
£ ¤  V ar (Xn ) CX [1] C
e = V arXn+ 1 − CX 12 CX 12   X £ 2 ¤  = 0.245.
2
CX [1] V ar (Xn−1 ) CX 12
2. Sea Y (t) la observación de un proceso gaussiano, centrado, X (t) con-

taminado por un ruido blanco también gaussiano, independiente de
X (t), de potencia promedio 1. La autocorrelación de X (t) es RX (τ ) =
t2
e− 2 . Basándonos en las observaciones y (0) = 0, y (1) = 1.2 e y (2) = 0.9,
obtener la mejor estimación posible en el sentido mínimo cuadrático
de X (2.5).
El problema es un problema de filtrado. Por otra parte, aunque se pide la mejor

estimación posible. ésta coincide con la mejor estimación lineal posible, ya que
X (t) e Y (t) siguen una distribución conjuntamente gaussiana, al ser Y (t) suma
de X (t) y de W (t) ambos gaussianos.
Si notamos W (t) al ruido blanco gaussiano, se trata de estimar X (2.5) conocido

el valor de Y (t) = X (t) + W (t) en los instantes t = 0, 1, 2. Para ello sabemos
que X (t) es centrado, gaussiano y conocemos su autocorrelación. Además, W (t)
es ruido blanco de potencia 1 incorrelado (e independiente) con X (t). Notemos a
la estimación X̂ (2.5) = aY (0) + bY (1) + cY (2) . En ese caso, según el principio
de ortogonalidad,
E [(X (2.5) − (aY (0) + bY (1) + cY (2))) Y (0)] = 0
E [(X (2.5) − (aY (0) + bY (1) + cY (2))) Y (1)] = 0
E [(X (2.5) − (aY (0) + bY (1) + cY (2))) Y (2)] = 0
En la primera de las ecuaciones tenemos:
0 = E [(X (2.5) − (a [X (0) + W (0)] + b [X (1) + W (1)] + c [X (2) + W (2)]))
× [X (0) + W (0)]]
0 = RX (2.5) − aRX (0) − a − bRX (1) − cRX (2)
En la segunda ecuación:
0 = E [(X (2.5) − (a [X (0) + W (0)] + b [X (1) + W (1)] + c [X (2) + W (2)]))
× [X (1) + W (1)]]
0 = RX (1.5) − aRX (1) − bRX (0) − b − cRX (1)
En la tercera ecuación:
0 = E [(X (2.5) − (a [X (0) + W (0)] + b [X (1) + W (1)] + c [X (2) + W (2)]))
× [X (2) + W (2)]]
0 = RX (0.5) − aRX (2) − bRX (1) − cRX (0) − c
Así, el sistema resulta
2.52 1 22
e− 2 − 2a − be− 2 − ce− 2 = 0
2
− 1.5 1 1
e 2 − ae− 2 − 2b − ce− 2 = 0
2 2
− 0.5 − 22 − 12
e 2 − ae − be − 2c = 0,
cuya solución es a = −1. 85×10−2 , b = 3. 72×10−2 , c = 0. 43, luego la estimación

es
x̂ (2.5) = −1. 85 × 10−2 × 0 + 3. 72 × 10−2 × 1.2 + 0. 43 × 0.9 = 0. 43.
3. Se está diseñando un robot controlado a distancia. Considérese (X (t) , Y (t))

la posición del robot sobre el plano. Se desea predecir la posición del
robot en el instante t = 10s para lo cual se observa su trayectoria en
los instantes t = 7, 8, 9. Encontrar la mejor estimación posible en el
sentido mínimo cuadrático de (X (10) , Y (10)) y el ecm de dicha esti-

mación considerando que X (t) e Y (t) son ambos procesos centrados,
independientes entre sí, gaussianos y con función de autocorrelación
e−0.1|τ|
R (τ ) = 2 .
En este problema de predicción, las coordenadas son independientes entre sí, luego
podemos estimar cada una de ellas por separado. Además, tienen los mismos
momentos de primer y segundo orden, luego la estimación lineal (y óptima en
general, al ser procesos gaussianos) es la misma para ambas.
Así, consideremos la estimación de la coordenada con respecto al eje X,
X̂ (10) = aX (7) + bX (8) + cX (9) .
Aplicando el principio de ortogonalidad,
E [(X (10) − (aX (7) + bX (8) + cX (9))) X (7)] = 0
E [(X (10) − (aX (7) + bX (8) + cX (9))) X (8)] = 0
E [(X (10) − (aX (7) + bX (8) + cX (9))) X (9)] = 0
RX (3) − aRX (0) − bRX (1) − cRX (2) = 0
RX (2) − aRX (1) − bRX (0) − cRX (1) = 0
RX (1) − aRX (2) − bRX (1) − cRX (0) = 0
cuya solución es a = b = 0, c = 0.9.
Por tanto, la estimación es la que proporciona la recta de regresión:

   
X̂ (10) 0.9 × X (9)
 = .
Ŷ (10) 0.9 × Y (9)
El ecm es la suma de los ecm de cada estimación, y ambos son iguales:

·³ ´2 ¸
e = 2 × E X (10) − X̂ (10) = 2 × 0.091 = 0.1813.
4. Consideremos una señal X [n] observada en tiempo discreto, centrada,

con función de autocorrelación dada por RX [m] = 2 × 3|m| . Calcular
la mejor predicción lineal posible de X [3] basada en las observaciones
anteriores de la secuencia.
Se trata de un problema de predicción.
Notando al estimador lineal como
X̂ [3] = aX [0] + bX [1] + cX [2] ,
según el principio de ortogonalidad,
E [(X [3] − (aX [0] + bX [1] + cX [2])) X [0]] = 0
E [(X [3] − (aX [0] + bX [1] + cX [2])) X [1]] = 0
E [(X [3] − (aX [0] + bX [1] + cX [2])) X [2]] = 0
RX [3] − aRX [0] − bRX [1] − cRX [2] = 0
RX [2] − aRX [1] − bRX [0] − cRX [1] = 0
RX [1] − aRX [2] − bRX [1] − cRX [0] = 0
2 × 33 − 2a − 2 × 31 b − 2 × 32 c = 0
2 × 32 − 2 × 31 a − 2b − 2 × 31 c = 0
2 × 31 − 2 × 32 a − 2 × 31 b − 2c = 0
cuya solución es a = 0, b = 0, c = 3. Obsérvese que eso coincide con la idea de

la propiedad de Markov, ya que para estimar en el instante t = 3 tan sólo es
necesario conocer el comportamiento en el último instante.
La predicción es X̂ [3] = 3 × X [2] .

1. Planteamiento general del problema de predicción en Papoulis (1991) 487-508,

Leon-Garcia (1994) 426-438, Gardner (1989) 416-434 y Stark & Woods (1994)
557-563.
2. Algoritmo de Levinson para hallar la solución al problema de predicción en Vin-

iotis (1997) 497-499.
3. Planteamiento general del problema de filtrado en Papoulis (1991) 508-515, Leon-

Garcia (1994) 426-438, Gardner (1989) 416-434 y Stark & Woods (1994) 563-578.
4. Planteamiento general del problema de estimación lineal de p.a. en Stark &

Woods (1994) 578-594.
5. Descripción del filtro de Kalman como estimador lineal óptimo en su versión

discreta en Leon-Garcia (1994) 438-443 y Viniotis (1997) 503-510.
6. Descripción del filtro de Wiener-Kolmogorov en Viniotis (1997)494-497, Stark &

Woods (1994) 573-578 y en Leon-Garcia (433-438).
7. Un estudio avanzado del filtro de Kalman con aplicaciones en Economía e Inge-

niería en Valderrama-Bonnet y Ruiz-Molina (1996).
8. Resolución del problema de predicción mediante las ecuaciones de Yule-Walker y

el algoritmo de Levinson en Leon-Garcia (1994) 431-433.
Bibliografía
[1] Canavos, G. (1988). Probabilidad y Estadística. Aplicaciones y Métodos. McGraw-

Hill, New York.
[2] Gardner, W.A. (1989). Introduction to Random Prodesses with Applications to

Signals and Systems. McGraw-Hill, New York.
[3] Grimmet, G. and Stirzaker, D. (2001). Probability and Random Processes. Oxford
University Press, Oxford.
[4] Haykin, S. (1994). Communications Systems. John Wiley & Sons, New York.
[5] Helstrom, C.W. (1991). Probability and Stochastic Processes for Engineers. Pren-
tice Hall, New Jersey.
[6] Leon-Garcia, A. (1994). Probability and Random Processes for Electrical Engi-
neers. Addison-Wesley, Massachusetts.
[7] Muirhead R. (1982). Aspects of Multivariate Statistical Theory. John Wiley &
Sons, New York.
[8] Papoulis, A. (1991). Probability, Random Variables and Stochastic Processes.

McGraw-Hill, New York.
[9] Peyton, Z. (1993). Probability, Random Variables and Random Signal Principles.
309
[10] Stark, H. and Woods, J. (1994). Probability, Random Processes and Estimation
Theory for Engineers. Prentice Hall, New Jersey.
[11] Stark, H. and Woods, J. (2002). Probability, Random Processes with Applications
to Signal Processing. Prentice Hall, New Jersey.
[12] Valderrama M. y Ruiz, J.C. (1996). Filtrado de Kalman. Aplicaciones en Economía

e Ingeniería. EUB, Barcelona.
[13] Viniotis, A. (1998). Probability and Random Processes for Electrical Engineers.
[14] Yates, R. and Goodman, D. (1998). Probability and Random Processes. John Wiley
& Sons, New York.

Apuntes de Estadistica Especialidad Telematica PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes de Estadistica Especialidad Telematica PDF

Cargado por

Copyright:

Formatos disponibles

Apuntes de Estadística

Prof. Dr. Antonio José Sáez Castillo

1 Introducción al Cálculo de Probabilidades 9

1.1.2 Interpretación clásica de la probabilidad . . . . . . . . . . . . . . 11

1.5 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2 Variable aleatoria unidimensional 35

2.2.3 V.a. discreta. Función masa de probabilidad . . . . . . . . . . . 45

2.3 Descripción de algunos modelos de v.a. discretas y continuas . . . . . . 53

2.3.7 Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . 62

3 Funciones de una variable aleatoria 77

4 Variables aleatorias multidimensionales 99

4.1.2 Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . 105

4.4 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

5 Funciones de varias variables aleatorias 123

6.1.4 Estimación conocido el valor de otro vector Y = y . . . . . . . . 156

6.1.5 Estimación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

7 Secuencias y procesos aleatorios. Introducción 183

7.2 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

8 Secuencias aleatorias 191

8.3 Sistemas lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

9 Procesos aleatorios. Introducción 225

9.4 P.a. estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233

9.10 Para saber más... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264

10 Transmisión de procesos aleatorios a través de sistemas lineales 267

10.4 Sistemas LTI con inputs aleatorios . . . . . . . . . . . . . . . . . . . . . 277

Resumen. El concepto de probabilidad que forma parte del lenguaje

En nuestra vida cotidiana asociamos usualmente el concepto de Probabilidad a su

• ¿Qué número de llamadas telefónicas se produce a una centralita en un día? No

• ¿Cuál es el tamaño de un paquete de información que se transmite a través de

• ¿Cuál es la posición de un objeto detectado mediante GPS? Dicho sistema ob-

En todos estos ejemplos el azar es un factor insoslayable para conocer el compor-

proporciona los mismos resultados se conoce como experimento aleatorio. En con-

1.1.1 Interpretación frecuentista de la probabilidad

1.1.2 Interpretación clásica de la probabilidad

Otro punto de vista que permite abordar el proceso de asignación de probabilidad a

1.2 Definición axiomática de probabilidad

1.2.1 Teoría de conjuntos

Si consideramos un experimento aleatorio, podemos caracterizar los posibles re-

conceptos y propiedades básicas del álgebra de conjuntos. Todas las demostraciones de

Un conjunto es una colección de elementos.

Para cada A se verifica ∅ ⊂ A ⊂ A ⊂ Ω.

Lema 1.1 Propiedad transitiva. Si C ⊂ B y B ⊂ A, entonces, C ⊂ A.

El conjunto formado por todos los posibles resultados elementales de un

Llamaremos suceso seguro a la unión de todos los elementos del espacio

La unión de B y A es un conjunto cuyos elementos son los elementos de

Lema 1.2 Si A ⊂ B, entonces A ∪ B = B.

La intersección de A y B es el conjunto formado por los elementos

El conjunto complementario de un conjunto A, Ā ó Ac , está formado

Lema 1.3 Leyes de Morgan.

En este sentido, dado un espacio muestral Ω, cualquier colección de

se denomina álgebra o campo.

Ejemplo 1.3 Sea un espacio muestral Ω.

En resumen, dado un experimento aleatorio, cada posible resultado estará carac-

1.2.2 Espacio probabilístico

Dado un espacio muestral Ω y una σ−álgebra sobre este espacio, z,

3. Dada una colección de sucesos A1 , A2 , ..., con Ai ∩ Aj = ∅ para todo i 6= j,

Esta definición, llamada definición axiomática, permite interpretar la probabilidad

La terna (Ω, z, P [·]) recibe el nombre de espacio probabilístico.

En lo sucesivo, y por comodidad, sólo consideraremos sucesos de la σ−álgebra

Lema 1.4 P [∅] = 0.

Demostración. 1 = P [Ω ∪ ∅] = P [Ω] + P [∅] .

Lema 1.7 Sean A y B dos sucesos cualesquiera. Entonces, P [A ∪ B] = P [A]+P [B]−

1.3 Probabilidad condicionada. Independencia de sucesos