Está en la página 1de 60

Introducción a los Procesos Estocásticos

Alvaro M. Naupay Gusukuma

19 de diciembre de 2013
Índice general

1. Espacios de Probabilidad y Variables Aleatorias 1


1. Espacios de Probabilidad . . . . . . . . . . . . . . . . . . . . . . 1
2. Variables Aleatorias y Procesos Estocásticos . . . . . . . . . . . 4
3. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . 12
4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2. Esperanza e Independencia 19
1. Valor Esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2. Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . 31
3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3. Procesos de Bernoulli y Sumas de Variables Aleatorias Indepen-


dientes 43
1. Proceso de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 44
2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4. Procesos de Poisson 49
1. Procesos de recuento de llegadas . . . . . . . . . . . . . . . . . 49

5. Cadenas de Markov 51
1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2. Visitas a un estado fijo . . . . . . . . . . . . . . . . . . . . . . . 53

Bibliografı́a 55

Índice alfabético 56
ii Índice general
1
Espacios de Probabilidad y Variables
Aleatorias

En este capı́tulo el vocabulario básico de la teorı́a de probabilidad será in-


troducido. La mayorı́a de estos términos tienen connotación en el lenguaje
ordinario.

1. Espacios de Probabilidad
La noción básica en teorı́a de la probabilidad es que de un experimento
aleatorio: un experimento cuyos resultados no pueden ser determinados con
anticipación. El conjunto de todos los posibles resultados de un experimento
es llamado el espacio muestral es un experimento.
Un evento es un subconjunto de un espacio muestral. Un evento A se
dice que ocurre si y sólo si los resultados observados ω del experimento es
un elemento del conjunto A.

EJEMPLO 1.1 Considere un experimento que consiste en contar el núme-


ro de accidentes de tráfico en una intersección dada durante un intervalo
de tiempo especificado. El espacio muestral es el conjunto {0, 1, 2, 3, . . .}. La
declaración “el número de accidentes es menor que o igual a siete” describe
los eventos {0, 1, . . . , 7}. El evento A = {5, 6, 7, . . .} ocurre si y sólo si el núme-
ro de accidentes es 5 o 6 o 7 o . . .. ⊳

Dado un espacio muestral Ω y una evento A, el complemento Ac de A se


define como el evento que ocurre si y sólo si A no ocurre, es decir,

Ac = {ω ∈ Ω : ω ∈
/ A} . (1.2)

Dado dos eventos A y B, Su unión es el evento que ocurre si y sólo si cual-


quiera de los dos A o B(o ambos) ocurren, es decir,

A ∪ B = {ω ∈ Ω : ω ∈ A o ω ∈ B} . (1.3)
2 CAP. 1: ESPACIOS DE PROBABILIDAD Y VARIABLES ALEATORIAS

La intersección de A y B es el evento que ocurre si y sólo si ambos A y B


ocurren, es decir,

A ∩ B = {ω ∈ Ω : ω ∈ A y ω ∈ B} . (1.4)

Las operaciones como uniones, intersecciones y complementos pueden ser


combinadas para obtener nuevos eventos. En particular, las siguientes iden-
tidades son de importancia:

(A ∪ B)c = Ac ∩ B c , (A ∩ B)c = Ac ∪ B c . (1.5)

El conjunto Ω es también llamado evento cierto. El conjunto que no contiene


elementos es llamado el evento vacı́o y es denotado por ∅. Note que ∅ = Ωc
y Ω = ∅c . Dos eventos se dice que son disjuntos si ellos no tienen elementos
en común, es decir, A y B son disjuntos si

A∩B =∅.

Si dos eventos son disjuntos, la ocurrencia de uno implica que el otro no se


ha producido. Una familia de eventos es llamado disjunto si cada par de ellos
son disjuntos.
Un evento A se dice que implica el evento B, representado por A ⊂ B, si
cada ω en A pertenece también a B. Mostrar que dos eventos A y B son los
mismos, entonces, es suficiente mostrar que A implica B y B implica A.
Si A1 , A2, . . . son eventos, entonces su unión


[
Ai
i=1

es el evento que ocurre si y sólo si al menos uno de ellos ocurre. Su intersec-


ción

\
Ai
i=1

es el evento que ocurre si y sólo si todos ellos ocurren.


A continuación, correspondiendo a nuestra noción intuitiva sobre la po-
sibilidad de que un evento ocurra, se introduce una función definida sobre
una colección de eventos.
SEC. 1: ESPACIOS DE PROBABILIDAD 3

DEFINICIÓN 1.6.
Sea Ω un espacio muestral y P una función que asocia un número
a cada evento. Entonces P es llamado una medida de probabilidad
siempre que

(a) para cualquier evento A, 0 ≤ P(A) ≤ 1;

(b) P(Ω) = 1;

(c) para cualquier sucesión A1, A2, . . . de eventos disjuntos,


∞ ∞
!
[ X
P Ai = P(Ai) .
i=1 i=1

Por el axioma (b), la probabilidad asignada a Ω es 1. Usualmente, habrá otros


eventos A ⊂ Ω tales que P(A) = 1. Si una declaración cumple para todo ω de
un conjunto A con P(A) = 1, entonces es costumbre decir que la declaración
es verdad casi seguramente o que se cumple para casi todo ω ∈ Ω.
El Axioma (c) es un condición severa sobre la manera en que las probabili-
dades son asignadas a eventos. De hecho, es usualmente posible asignar una
probabilidad P(A) a cada subconjunto A y aun satisfacer (c). Debido a esto,
se acostumbra a definir P(A) sólo para algunos subconjuntos A. A través de
este libro vamos a evitar el problema mediante el uso de la palabra “evento”
sólo para aquellos subconjuntos A de Ω para los cuales P(A) se definido.
Si el espacio muestral Ω es {0, 1, 2, . . .} como en el ejemplo (1.1), entonces
existen tantos subconjuntos de Ω como puntos en la lı́nea recta hay. Por lo
tanto, podrı́a ser difı́cil asignar una probabilidad a cada evento en una for-
ma explı́cita. Además, casi cualquier problema significativo de la vida real
requiere considerar espacios muestrales mucho más complejos. Usualmente
en tales situaciones, las probabilidades de sólo algunos eventos claves son
especificadas y las probabilidades restantes se dejan para ser calculadas a
partir de los axiomas (1.6a,b,c) teniendo en cuenta las distintas relaciones
que podrı́an existir entre los eventos. En realidad, la mayor parte de la teorı́a
de la probabilidad se ocupa de la búsqueda de métodos para hacer precisa-
mente esto. Lo siguiente es algunos de los primeros pasos en esta dirección.
Proposición 1.7 Si A1, . . . , An son eventos disjuntos, entonces

P(A1 ∪ . . . ∪ An ) = P(A1) + · · · + P(An)

Proposición 1.8 Si A ⊂ B, entonces P(A) ≤ P(B).

Proposición 1.9 Para cualquier evento A, P(A) + P(Ac ) = 1.


4 CAP. 1: ESPACIOS DE PROBABILIDAD Y VARIABLES ALEATORIAS

TEOREMA 1.10.
Si B1 , B2, . . . son eventos disjuntos con ∪∞
i=1 Bi = Ω, entonces para
cualquier evento A,

X
P(A) = P(A ∩ Bi ) .
i=1

Proposición 1.11 Sea A1 , A2, . . . una sucesión de eventos tales que A1 ⊂ A2 ⊂ A3 ⊂ · · ·


y ponga A = ∪∞ i=1Ai . Entonces

P(A) = lı́m P(An) .


n→∞

COROLARIO 1.12.
Sea A1 , A2, . . . una sucesión de ventos tales que A1 ⊃ A2 ⊃ A3 ⊃ · · · ,
y ponga A = ∩∞ i=1Ai . Entonces

P(A) = lı́m P(An) .


n→∞

2. Variables Aleatorias y Procesos Estocásticos


Suponga que se nos da un espacio muestral Ω y una medida de probabi-
lidad P. Con mayor frecuencia, especialmente en problemas aplicados, esta-
mos interesados en funciones de resultados en lugar de los resultados en si
mismos.

DEFINICIÓN 2.1.
Una variable aleatoria X con valores en el conjunto E es una función
que asigna un valor X(ω) en E a cada resultado ω en Ω.

El ejemplo más usual de E son los conjuntos de enteros no negativos N = {0, 1, 2, . . .},
el conjunto de todos los enteros {. . . , −1, 0, 1, . . .}, el conjunto de todos los
números reales R = (−∞, ∞), y el conjunto de todos los números reales no
negativos R+ = [0, ∞). En los primeros dos casos y, más generalmente, cuan-
do E es finito o infinito numerable, X se dice que es una variable aleatoria
discreta.
EJEMPLO 2.2 Considere el experimento de lanzar una moneda una vez. Los
dos posibles resultados son “caras” y “sellos”, es decir, Ω = {C, S}. Supon-
gamos que X es definido poniendo X(C) = 1, X(S) = −1, Entonces X es
SEC. 2: VARIABLES ALEATORIAS Y PROCESOS ESTOCÁSTICOS 5

una variable aleatoria tomando valores en el conjunto E = {1, −1}. Podemos


pensar de esto como la ganancia de un jugador, quien recibe o pierde un sol
según sean los resultados, cara o sello. ⊳

EJEMPLO 2.3 Dejar que un experimento consista en medir el tiempo de vida


de doce focos. El espacio muestral Ω es el conjunto de todas las 12-tuplas
ω = (ω1, . . . , ω12) donde ωi ≥ 0 para todo i. Entonces
1
X(ω) = (ω1 + ω2 + · + ω12)
12
define una variable aleatoria en este espacio muestral Ω. Este representa el
promedio del tiempo de vida de los 12 focos. ⊳

EJEMPLO 2.4 Suponga que un experimento consiste de observar la acele-


ración de un vehı́culo durante los primeros 6 segundos de una carrera. En-
tonces cada posible resultado es una función continua por la derecha real
valuada ω definida por 0 ≤ t ≤ 60, y el espacio muestral Ω es el conjunto de
todos las funciones ω. Para t ∈ [0, 60], dejemos que

Xt (ω) = ω(t) ,
Z t
Yt (ω) = ω(s) ,
0
Z t Z tZ u
Zt (ω) = Yu (ω)du = ω(s)dsdu ,
0 0 0

para cada ω ∈ Ω. Entonces Xt , Yt y Zt son variables aleatorias sobre Ω. Para


los resultados ω, X(ω) es la aceleración en el momento t, Yt (ω) la velocidad y
Zt (ω) la posición. ⊳

Sea X una variable aleatoria tomando valores en un conjunto E y sea f


una función real valuada definida sobre un conjunto E. Entonces para cada
ω ∈ Ω, X(ω) es un punto en E y f asigna el valor f (X(ω)) a ese punto. Por
f (X) nos referimos a la variable aleatoria cuyo valor en ω ∈ Ω es f (X(ω)).
Una función particular de cierto uso es la función indicador IB de un subcon-
junto B de E; IB (x) es 1 o 0 según que x ∈ B o x ∈ / B. Entonces IB (X) es una
variable aleatoria que es igual a 1 si el evento {X ∈ B} ocurre y es igual a
0 en caso contrario. Muy a menudo habrá un número de variables aleatorias
X1 , . . . , Xn y nos ocuparemos de las funciones de ellas. Si X1, . . . , Xn toma va-
lores en E, y si f es una función real valuada definida sobre E ×· · ·×E = E n,
entonces f (X1, . . . , Xn ) es una variable aleatoria real valuada cuyos valores
en ω ∈ Ω es f (X1(ω), . . . , Xn(ω)).
Un proceso estocástico con espacio de estados E es una colección {Xt : t ∈ T }
de variables aleatorias Xt definidas sobre el mismo espacio de probabilidad
6 CAP. 1: ESPACIOS DE PROBABILIDAD Y VARIABLES ALEATORIAS

y tomando valores en E. El conjunto T es llamado su conjunto de paráme-


tros. Si T es numerable, especialmente si T = N = {0, 1, . . .}, el proceso se
dice que es un proceso de parámetro discreto. Por otra parte, si T es no nu-
merable, el proceso se dice que tiene un parámetro continuo. En este últimos
caso los ejemplos usuales son T = R+ = [0, ∞) y T = [a, b] ⊂ R = (−∞, ∞).
Es costumbre pensar en el ı́ndice t representa el tiempo, y luego se piensa en
Xt como el “estado” o la “posición” del proceso en el timepo t .
EJEMPLO 2.5 En el ejemplo (2.4) Yt es la velocidad del vehı́culo en el tiempo
t y la colección {Yt : 0 ≤ t ≤ 60} es un proceso estocástico con parámetro de
tiempo continuo con espacio de estado E = R+ = [0, ∞). Similarmente para
{Zt : 0 ≤ t ≤ 60}. ⊳
EJEMPLO 2.6 Considere el proceso de llegadas de los clientes a una tienda,
y suponga que el experimento está configurado para medir los tiempos de
llegadas. Entonces el espacio muestral Ω es el conjunto de todas las sucesio-
nes ω = (ω1, ω2, . . .) de números reales no negativos ωi . Para cada ω ∈ Ω
y t ∈ R+ = [0, ∞), pongamos Nt(ω) = k si y sólo si el entero k es tal que
ω1 + · · · + ωk ≤ t < ω1 + · · · + ωk+1 (Nt(ω) = 0 si t < ω1). Entonces para el
resultado ω, Nt (ω) es el número de llegadas en el intervalo de tiempo (0, t].
Para cada t ∈ R+ , Nt es una variable aleatoria tomando valores en el conjunto
E = {0, 1, . . .}. Ası́, {Nt : t ∈ R+ } es un proceso estocástico de parámetro
de tiempo continuo con espacio de estado E = {0, 1, . . .}. Considerado co-
mo una función en t, para un ω fijado, la función Nt (ω) es no decreciente,
continua por la derecha y creciente soló por saltos; ver Figura 1.2.1 ⊳
Nt (ω)

5
4
3
2
1

0 2 4 6 8 10 t

Figura 1.2.1: Una realización posible de un proceso de llegada. La figura


es para los resultados ω = {1.2, 3.0, 1.7, 0.5, 2.6, . . .}.

Sea X una variable aleatoria tomando valores en R =] − ∞, ∞[. Si b ∈ R, el


conjunto de todos los resultados ω para los cuales X(ω) ≤ b es un evento, a
saber, el evento {ω : X(ω) ≤ b}. Escribiremos [X ≤ b] para abreviar, en vez
de {ω : X(ω) ≤ b} y también escribiremos P[X ≤ b] para P({X ≤ b}). Si
a ≤ b, entonces
[X ≤ a] ⊂ [X ≤ b] , (2.7)
SEC. 2: VARIABLES ALEATORIAS Y PROCESOS ESTOCÁSTICOS 7

y la Proposición (1.8) implica que

P[X ≤ a] ≤ P[X ≤ b] . (2.8)

Notando que
[X ≤ a] ∪ [a < X ≤ b] = [X ≤ b]
y que los eventos [X ≤ a] y [a < X ≤ b] son disjuntos, obtenemos, por (1.7),

P[a < X ≤ b] = P[X ≤ b] − P[X ≤ a] . (2.9)

Luego, note que Ω = [X < +∞] = ∞


S
n=1 [X ≤ bn ] para cualquier sucesión
b1 , b2, . . . creciente a +∞. Ya que [X ≤ b1] ⊂ [X ≤ b2] ⊂ · · · por (2.7), Proposi-
ción (1.11) se aplica, y obtenemos

lı́m P[X ≤ bn ] = P[X < ∞] = 1 . (2.10)


n→∞

. una sucesión decreciente con lı́mn→∞ bn = b. Luego [X ≤ b1] ⊃ [X ≤ b2] ⊃ ·


Sea b1, b2, . . T
por (2.7), y ∞ n=1 [X ≤ bn ] = [X ≤ b]. Por el Corolario(1.12), por lo tanto,

P[X ≤ b] = lı́m P[X ≤ bn ] . (2.11)


n→∞

En particular, si la sucesión bn decrece a −∞, el lı́mite en (2.11) será cero.


La función ϕ definida por

ϕ(b) = P[X ≤ b], −∞ < b < +∞ , (2.12)

es llamada la función de distribución de la variable aleatoria X. Si ϕ es un


función de distribución, entonces (también ver Figura 1.2.2)

(a) ϕ es no decreciente por (2.8),


(b) ϕ es continua a la derecha por (2.11)
(2.13)
(c) lı́mb→∞ ϕ(b) = 1 por (2.10),
(d) lı́mb→−∞ ϕ(b) = 0 por (2.11) de nuevo.

ϕ(b)

1,0

b
0

Figura 1.2.2: Una función de distribución es no decreciente y


continua a la derecha y se encuentra entre 0 y 1.
8 CAP. 1: ESPACIOS DE PROBABILIDAD Y VARIABLES ALEATORIAS

En la dirección opuesta, si ϕ es cualquier función definida sobre la linea real


tal que (2.13a)-(2.13d) se cumplen, entonces tomando

Ω =] − ∞, +∞[
P(] − ∞, b]) = ϕ(b), −∞ < b < +∞ ,

y dejando
X(ω) = ω , ω∈Ω,
Vemos que X es un variable aleatoria con la función de distribución ϕ. Por
lo tanto, para cualquier función ϕ, existe una variable aleatoria X que tiene
ϕ como su función de distribución.
A continuación, sea X una variable aleatoria tomando valores en el con-
junto E(enumerable). Entonces para cualquier a ∈ E,

π(a) = P[X = a] (2.14)

es un número no negativo, y hay que tener


X
π(a) = 1 . (2.15)
a∈E

La colección {π(a) : x ∈ E} es llamada la distribución de probabilidad de


X.
En el caso de X no discreta, a veces es posible diferenciar la función de
distribución. Entonces la derivada de la función de distribución de X es lla-
mada la función de densidad de probabilidad de X.

EJEMPLO 2.16 Considere el ejemplo (2.2). Si la probabilidad de “caras” es


0.4, entonces

P(∅) = 0, P({C}) = 0,4, P({S}) = 0,6, P({C, S}) = 1 .

La variable aleatoria X definida en (2.2) sólo toma dos valores: −1 y +1, y

P[X = −1] = 0,6 P[X = 1] = 0,4 .

Entonces 
 0 b < −1 ,
ϕ(b) = P[X ≤ b] = 0.6 −1 ≤ b < 1 ,
1 1≤b.

EJEMPLO 2.17 En estudios de simulación usando computadoras, la siguien-


te configuración fue utilizad en la “generación de varaibles aleatorias a partir
de una función de distribución ϕ dada”.
SEC. 2: VARIABLES ALEATORIAS Y PROCESOS ESTOCÁSTICOS 9

Una tabla de “números aleatorios” es una colección de números ω que


caen en el intervalo [0, 1] tal que el número tomado “al azar” está en el inter-
valo [a, b] con probabilidad b − a. En nuestra terminologı́a, lo que significa es
que tenemos un espacio muestral Ω = [0, 1] y una medida de probabilidad
P sobre Ω definida de modo que P([a, b]) = b − a para todo 0 ≤ a ≤ b ≤ 1.
Entonces el evento “el número tomado ω es menor que o igual a b”, es decir,
el evento [0, b], tiene probabilidad b.
Supongamos que la función de distribución dada ϕ es continua y estric-
tamente creciente. Entonces para cualquier ω ∈ Ω = [0, 1], existe un y sólo un
a ∈ R satisfaciendo ϕ(a) = ω. Por lo tanto, estableciendo
X(ω) = a si y sólo si ϕ(a) = ω
se define una función X de Ω en R (ver Figura 1.2.3)

1
ϕ(t) ϕ

Ω ω

0 t
X(ω)
R

Figura 1.2.3: Definición de una variable aleatoria X con una


función de distribución ϕ dada.
Para cualquier t ∈ R, X(ω) ≤ t si y sólo si ω ≤ ϕ(t), y consecuentemente
P[X ≤ t] = P({ω : X(ω) ≤ t}) = P([0, ϕ(t)]) = ϕ(t) ,
en otras palabras, la variable aleatoria X que hemos definido tiene la función
ϕ dada como su distribución.
Por lo tanto, escogiendo un número ω al azar de la tabla de “números
aleatorios” y luego calculando X(ω) correspondiente a ω de la Figura 1.2.3, se
obtiene un posible valor de una variable aleatoria X que tiene la distribución
ϕ. ⊳
EJEMPLO 2.18 Una corrección de la trayectoria a mitad de curso exige un
incremento en la velocidad de 135f t/sec. El motor de la astronave propor-
ciona a un empuje que causa una aceleración constante de 15f t/sec2. Basado
en esto, se decide prender el motor por 9 segundos. Pero el rendimiento del
motor indica que la duración real del tiempo de combustión será una varia-
ble aleatoria T con

0 t<9,
P[T ≤ t] = −5(t−9)
1−e t≥9.
10 CAP. 1: ESPACIOS DE PROBABILIDAD Y VARIABLES ALEATORIAS

¿Cuál es el crecimiento en la velocidad debido a esta combustión?


Sea Ω el conjunto de todos los posibles tiempo de combustión, i.e., Ω = [0, ∞[,
y definir T (ω) = ω. Entonces, para el resultado ω, el incremento de la veloci-
dad será
X(ω) = 15T (ω) = 15ω .
En consecuencia,
1
P[X ≤ b] = P[15T ≤ b] = P[T ≤ b]
 15
0 si b < 135 ,
=
1 − e(b−135)/3 si b ≥ 135 .

Supongamos que tenemos, definido sobre el mismo espacio muestral Ω, un


número de variables aleatorias X1, . . . , Xn tomando valores en un conjun-
to contable E. Entonces la probabilidad de cualquier evento asociado con
X1 , . . . , Xn puede ser calculado (meidante el uso de los resultados de la Sec-
ción 1) una vez que su distribución conjunta se especifica dando
P[X1 = a1 , . . . , Xn = an ]
para todas las n-tuplas (a1 , . . . , an ) con ai ∈ E. En el caso de variables aleato-
rias X1, . . . , Xn tomando valores en R, la distribución conjunta se especifica
dando
P[X1 ≤ b1, . . . , Xn ≤ bn ]
para todos los números b1, . . . , bn ∈ R. La especificación de estas probabilida-
des en si mismo pueden ser difı́ciles a veces. El concepto que introducimos a
continuación simplifica tales tareas (cuando se utiliza correctamente).

DEFINICIÓN 2.19.
Las variables aleatorias discretas X1 , . . . , Xn se dicen que son inde-
pendientes si

P[X1 = a1 , . . . , Xn = an ] = P[X1 = a1 ] · · · P[Xn = an ] (2.20)

para todo a1 , . . . , an ∈ E. Si los Xi toman valores en R, ellos se dicen


que son independientes si

P[X1 ≤ b1 , . . . , Xn ≤ bn ] = P[X1 ≤ b1] · · · P[Xn ≤ bn ] (2.21)

para todo b1 , . . . , bn ∈ R. Una colección infinita {Xi : t ∈ T } de


variables aleatorias es llamada independiente si cualquier número
finito de ellas son independientes.
SEC. 2: VARIABLES ALEATORIAS Y PROCESOS ESTOCÁSTICOS 11

En particular, (2.21) implica, y está implı́cito en, la condición de que


P[X1 ∈ B1 , . . . , Xn ∈ Bn] = P[X1 ∈ B1 ] . . . P[Xn ∈ Bn ] (2.21’)
para todos los intervalos B1, . . . , Bn ⊂ R.
Cerramos esta sección, ilustrando el concepto a través de ejemplos.
EJEMPLO 2.22 Sean X e Y variables aleatorias discretas tomando valores
en {1, 2, 3, . . .}. Suponer
P[X = m, Y = n] = (0,64)(0,2)n+m−2, n, m = 1, 2, . . . .
Para cualquier m = 1, 2, . . . , usando el Teorema (1.10) con A = [X = m] y
Bi = [Y = i], obtenemos †

X
P[X = m] = P[X = m, Y = i]
i=1

X
m−1
= (0,64)(0,2) (0,2)i−1
i=1
m−1
= (0,8)(0,2) .
Igualmente, para cualquier n ∈ {1, 2, . . .}, usando (1.10) con A = [Y = n] y
Bi = [X = i] ahora, obtenemos

X
P[Y = n] = P[X = i, Y = n] = (0,8)(0,2)n−1 .
i=1

Ya que
P[X = m, Y = n] = P[X = m]P[Y = n]
para todo m y n, X e Y son independientes. ⊳
EJEMPLO 2.23 Sea X e Y dos variables aleatorias discretas tomando valores
en N = {0, 1, 2, . . .} y con la distribución conjunta
 −7 m n−m
 e 4 3
si m = 0, 1, . . . , n; n ∈ N;
P[X = m, Y = n] = m!(n − m)!
0 en otro caso.

Entonces, usando el Teorema (1.10) con A = [X = m] y Bi = [Y = i], para


cualquier m ∈ N, tenemos †

X
P[X = m] = P[X = m, Y = i]
i=0
∞ (2.24)
X e−7 4m3i−m e−4 4m
= = .
i=m
m!(i − m)! m!

Como un recordatorio, 1 + x + x2 + · · · = 1/(1 − x) para x ∈ [0, 1[. También, en el Ejemplo (2.23),
1 + x + x2 /2! + x3 /3! + · · · = ex para cualquier x ∈ R.
12 CAP. 1: ESPACIOS DE PROBABILIDAD Y VARIABLES ALEATORIAS

Del mismo modo, usando el Teorema (1.10) de nuevo, para cualquier n ∈ N,



X
P[Y = n] = P[X = i, Y = n]
i=0
n
X e−74i 3n−i
=
i=0
i!(n − i)!
−7n
e X n! i n−i e−77n
= 43 = .
n! i=0 i!(n − i)! n!

Ya que P[X = m, Y = n] 6= P[X = m]P[Y = n], X e Y son no independientes.


EJEMPLO 2.25 Sea X e Y como en el ejemplo anterior. Entonces X e Y − X


son independientes. Para mostrar esto, notemos que

e−7 4m3k
P[X = m, Y − X = k] = P[X = m, Y = m + k] =
m!k!
para todo m, k ∈ N y que

X e−33k
P[Y − X = k] = P[X = i, Y − X = k] =
i=0
k!

para cualquier k ∈ N. Usando (2.24) con este resultado, vemos que

P[X = m, Y − X = k] = P[X = m]P[Y − X = k]

para cualquier m, k ∈ N, como se pedı́a. ⊳

3. Probabilidad Condicional
Sea Ω un espacio muestral y P una medida de probabilidad sobre este.

DEFINICIÓN 3.1.
Sean A y B eventos. La probabilidad condicional de A dado B, escrito
como P[A|B], es un número que satisface

(a) 0 ≤ P[A|B] ≤ 1 ,

(b) P[A ∩ B] = P[A|B]P[B].


SEC. 3: PROBABILIDAD CONDICIONAL 13

Si P[B] > 0, entonces P[A|B] es únicamente definido por (3.1b). De otra ma-
nera, si P[B] = 0, P[A|B] puede tomar a ser cualquier número en [0, 1].
Para un B fijado con P[B] > 0, considerado como una función de A, la
P[A|B] satisface las condiciones (1.6) para una medida de probabilidad. Es
decir,

(a) 0 ≤ P[A|B] ≤ 1 , (3.2)


(b) P[Ω|B] = 1 ,
X∞

(c) P[∪i=1Ai|B] = P[Ai|B] siempre que los eventosA1 , A2, . . .
i=1
sean disjuntos; y por lo tanto las proposiciones (1.8)-(1.12) se sumplen.

Heurı́sticamente, pensamos de la siguiente manera. Supongamos que el


resultado ω del experimento es saber si está en B, es decir, B ha ocurrido.
Entonces el evento A puede ocurrir is y sólo si ω ∈ A ∩ B. Y nuestra esti-
mación de la probabilidad de que A se produzca dado que B ha ocurrido se
convierte en la medida relativa de A ∩ B con respecto a B.
Sin embargo, en la práctica, por lo general tenemos las distintas proba-
bilidades condicionales básicas ya especificadas, y nuestra tarea se convierte
entonces en calcular las otras probabilidades y probabilidades condicionales.
La siguiente proposición proporciona una herramienta simple para el calcu-
lar la probabilidad de un evento por el condicionamiento de otros eventos.
Se hace referencia a veces como el teorema de la probabilidad total.

TEOREMA 3.3.
Si B1 , B2, . . . son eventos disjuntos con ∪∞
i=1 Bi = Ω, entonces para
cualquier evento A,

X
P[A] = P[A|Bi]P[Bi] .
i=1

Demostración: Por el Teorema (1.10),



X
P[A] = P[A ∩ Bi ] ;
i=1

y por (3.1b), P[A ∩ Bi ] = P[A|Bi]P[Bi] para cada i. 

Una consecuencia simple de este teorema es conocida como la fórmula de


Bayes.
14 CAP. 1: ESPACIOS DE PROBABILIDAD Y VARIABLES ALEATORIAS

COROLARIO 3.4.
Si B1, B2, . . . son eventos disjunto scon unión Ω, entonces para cual-
quier evento A con P[A] > 0, y cualquier j,

P[A|Bj ]P[Bj ]
P[Bj |A] = ∞ .
X
P[A|Bi]P[Bi]
i=1

Demostración: Usando (3.1b),


P[A ∩ Bj ]
P[Bj |A] = .
P[A]
Escribiendo P[A] como la suma en el Teorema (3.3) y usando (3.1b) para es-
cribir P[A ∩ Bj ] = P[A|Bj ]P[Bj ] lo que completa la demostración. 

EJEMPLO 3.5 Una moneda es lanzada hasta que aparezca dos veces cara.
Sean X e Y , los números de los lanzamientos en que aparecen la primera y la
segunda cara respectivamente. Si p es la probabilidad de que aparezca cara
en cualquiera de los lanzamientos, entonces
 2 n−2
pq si m = 1, . . . , n − 1; n = 2, 3, . . . ;
P[X = m, Y = n] =
0 en otro caso;

donde q = 1−p, 0 < p < 1. Por el Teorema (1.10), para cualquier m = 1, 2, . . . ,


X
P[X = m] = P[X = m, Y = i]
i
X∞
= p2q i−2 = pq m−1 .
i=m+1

Del mismo modo, para cualquier n = 2, 3, . . . ,


X
P[Y = n] = P[X = i, Y = n]
i
n−1
X
= p2q n−2 = (n − 1)p2q n−2 .
i=1

Ası́, usando la Definición (3.1b),


p2 q n−2 1
P[X = m|Y = n] = = (3.6)
(n − 1)p2q n−2 n−1
SEC. 3: PROBABILIDAD CONDICIONAL 15

para cualquier n = 2, 3, . . . y m = 1, 2, . . . , n − 1. Es decir, si se sabe que la


segunda cara ocurre en el n-ésimo lanzamiento, la primera cara debe haber
salido durante los n − 1 lanzamientos, y todos las n − 1 posibilidades son
igualmente probables.
Tenemos, para cualquier m = 1, 2, . . . , n − 1 y n = 2, 3, . . .,
p2q n−2
P[Y = n|X = m] = m−1 = pq (n−m)−1
pq
pero un cálculo más instructivo es el siguiente
P[X = m, Y − X = k]
P[Y − X = k|X = m] =
P[X = m]
P[X = m, Y = k + m]
= (3.7)
P[X = m]
p2 q k+m−2
= m−1
= pq k−1 .
pq
Hay dos conclusiones conclusiones que pueden extraerse de (3.7): Y − X es
independiente de X, y Y − X tiene la misma distribución que X. ⊳
EJEMPLO 3.8 Soponga que la duración de una conversación telefónica entre
dos señoritas es una variable aleatoria X con función de distribución
P[X ≤ t] = 1 − e−0,03t , t≥0,
donde el tiempo es medido en minutos. Teniendo en cuenta que la conversa-
ción ha estado sucediendo desde hace 30 minutos, vamos a calcular la proba-
bilidad de que esta continue por lo menos otros 20 minutos. Es decir, desea-
mos calcular P[X > 50|X > 30]. Como el evento [X > 50, X > 30] es el
mismo que el evento [X > 50], tenemos por (3.1b),
P[X > 50, X > 30] P[X > 50]
P[X > 50|X > 30] = = .
P[X > 30] P[X > 30]
Pero por (1.9), P[X > t] = 1 − P[X ≤ t] = e−0,03t para cualquier t ≥ 0. Ası́
e−1,5
P[X > 50|X > 30] = −0,9
= e−0,6 .
e
Señalando que e−0,6 = P[X > 20], tenemos este interesante resultado: la pro-
babilidad de que la conversación continúe otros 20 minutos es independiente
del hecho de que ya ha durado 30 minutos. En efecto, para cualquier t, s ≥ 0,
P[X > t + s, X > t] P[X > t + s]
P[X > t + s|X > t] = =
P[X > t] P[X > t]
e−0,03(t+s)
= −0,03t
= e−0,03s = P[X > s] .
e
16 CAP. 1: ESPACIOS DE PROBABILIDAD Y VARIABLES ALEATORIAS

Es decir, la probabilidad de que la conversación continúe otras s unidades


de tiempo es independiente del tiempo transcurrido. O, en todo instante t, la
conversación de las damas se inicia de nuevo!. ⊳

4. Ejercicios
4.1 Un experimento consiste en sacar tres bulbos de flash de un lote y cla-
sificar cada una como defectuosa (D) o no defectuosa (N ). Una elección,
entonces, puede ser descrita como una terna; por ejemplo, (N, N, D) re-
presentando los resultados donde el primer y segundo bulbo han si-
do encontrado no defectuosos y el tercero defectuoso. Denote por A el
evento “el primer bulbo sacado fue defectuoso”, B el evento “el segun-
do bulbo sacado fue defectuoso” y C el evento “el tercer bulbo sacado
fue defectuoso”.

(a) Describir el espacio muestral haciendo una lista de todos los resulta-
dos posibles.
(b) Listar todos los resultados en A, B, B ∪ C, A ∪ C, A ∪ B ∪ C, A ∩ B,
Ac ∩ B c ∩ C, A ∩ B c ∩ C, (A ∪ B c ) ∩ C, (A ∩ C) ∪ (B c ∩ C).

4.2 Describir en detalle los espacios muestrales para los siguientes experi-
mentos:

(a) Tres lanzamientos de una moneda.


(b) Un número infinito de lanzamientos de moneda.
(c) La medida de la velocidad de autos que pasan por un punto dado.
(d) Puntaje de una clase de 20 sobre un examen.
(e) Medida de la temperatura del mediodı́a en una determinada locali-
dad.
(f) Observación de las llegadas a una tienda.

4.3 Un experimento consiste en disparar un proyectil a un objetivo y obser-


var la posición del punto de impacto. (Suponga que el origen del sistema
de coordenadas esta situado en el objetivo). Entonces, un resultado es un
par ω = (ω1, ω2), donde ω1 es la abscisa y ω2 la ordenada del punto de
impacto. El espacio muestral Ω consiste de todos esos pares ω. Para cada
ω ∈ Ω, pongamos
q
X(ω) = |ω1|, Y (ω) = |ω2 |, Z(ω) = ω12 + ω22 .

(a) ¿Qué significado tienen X, Y y Z ?.


SEC. 4: EJERCICIOS 17

(b) Suponga que la medida de probabilidad es tal que P es tal que

Z−∞ Z−∞  
1 1 2
P({ω : ω1 ≤ a, ω2 ≤ b}) = exp − (x + y 2 ) dxdy .
2π 2
a b

Entonces mostrar que X e Y son variables aleatorias independientes


con la misma función de distribución
Z−t
1 2
ϕ(t) = √ e−x /2dx , 0≤t<∞.

t
18 CAP. 1: ESPACIOS DE PROBABILIDAD Y VARIABLES ALEATORIAS
2
Esperanza e Independencia

Considere un gran pedazo de tierra cuya área tomamos como una uni-
dad. La tierra es dividida en n lotes los cuales, para propósitos de compra y
venta, son indivisibles. Sea Ω denota toda la tierra y P(A) el area de la región
A. Sea X(ω) denota el precio por unidad de área del lote que contiene el pun-
to ω. Entonces X toma sólo n valores, digamos b1 , b2, . . . , bn . La región sobre
el cual X es igual a bk tiene área P[X = bk ], y por lo tanto, el valor de la tierra
total es
Xn
E[X] = bk P[X = bk ] .
k=1

Notar que E[X] es, en un sentido, la integral de la función MX sobre el con-


junto Ω, y luego el área total de Ω es P[Ω] = 1, E[X] también es el precio
unitario medio.
Si pensamos en Ω como un espacio muestral y P como una medida de
probabilidad (como podemos), entonces X se convierte en una variable alea-
toria. La integral de X que se obtiene es entonces llamada el valor esperado de
X. La justificación para el término “valor esperado” se encuentra en nuestra
interpretación de E[X] como el promedio de X sobre Ω. Este concepto de
la integración de una variable aleatoria X sobre un espacio muestral Ω con
respecto a una medida de probabilidad P se extiende también para espacios
de probabilidad arbitrarios. El presente capı́tulo se dedica a esto y conceptos
relacionados.
En la Sección 1 damos una explicación de tomar esperanza. Luego en la
Sección 2 introducimos la esperanza condicional y listamos muchas de sus
propiedades. El lector podrı́a estudiar la Sección 1 y leer la Sección 2 una o
dos veces. Se exhorta a no pasar mucho tiempo en la Sección 2 en vez de ello
pasar a los Capı́tulos 3, 4 y 5. En estos capı́tulos habrá muchas oportunida-
des de observar el trabajo de la esperanza condicional; haciendo referencia
a los citados teoremas de este capı́tulo, el lector los aprenderá y apreciará.
Los Teoremas sobre esperanza y esperanza condicional forman la gramática
del lenguaje de las probabilidades y son indispensables para cualquiera que
20 CAP. 2: ESPERANZA E INDEPENDENCIA

desee familiarizarse con este lenguaje. Pero no se inicia el aprendizaje de un


lenguaje sólo memorizando las reglas de la gramática.

1. Valor Esperado
Sea Ω un espacio muestral, P una medida de probabilidad y X una va-
riable aleatoria discreta definida sobre Ω. Sean b0 , b1, b2 . . . ∈ R+ = [0, ∞[ los
valores que toma X, y poner Bn = {ω | X(ω) = bn }. Entonces B0 , B1, . . . son
disjuntos y su unión es Ω. La función X es igual a bn sobre el conjunto Bn
cuya medida es P[Bn ]. Por lo tanto la integral de la función X con respecto
de la medida P es
E[X] = b0 P[B0] + b1P[B1] + b2 P[B2] + · · · (1.1)
(permitimos que sea +∞). (Ver Figura 2.1.1). Notar que el lado derecho divi-
dido por 1 = P[Ω] puede también ser considerado como el promedio ponde-
rado de la

Figura 2.1.1: El valor esperado de una variable aleatoria discreta es la


suma de sus valores ponderados por las correspondientes probabilidads.

función X con respecto a la distribución de pesos dada por P. Reempla-


zando P[Bn] por P[X = bn ] en (1.1), hacemos lo siguiente

DEFINICIÓN 1.2.
El valor esperado de una variable aleatoria discreta X tomando valores
en el conjunto E ⊂ R+ es
X
E[X] = aP[X = a] .
a∈E

Lo anterior define el valor esperado de X cuando esta es una variable aleato-


ria discreta no negativa. Extendamos primero esto para variables aleatorias
no negativas arbitrarias y luego para variables aleatorias arbitrarias.
Supongamos que X es una variable aleatoria real valuada no negativa.
Entonces es posible encontrar variables aleatorias discretas X1, X2 , . . . tal que
X1 (ω) ≤ X2(ω) ≤ · · · (1.3)
y
lı́m Xn (ω) = X(ω) (1.4)
n→∞
SEC. 1: VALOR ESPERADO 21

para todo ω. Ya que cada Xn es discreta, su valor esperado E[Xn] está bien
definido por (1.2). Por nuestra interpretación de E[Xn] como un integral es
fácil ver que
E[X1] ≤ E[X2] ≤ · · · ,
y parece razonable hacer lo siguiente

DEFINICIÓN 1.5.
Sea X una variable aleatoria no negativa, y sean X1 , X2, . . . variablea
aleatorias discretas satisfaciendo (1.3) y (1.4). Entonces definimos el
valor esperado de X como

E[X] = lı́m E[Xn] ≤ +∞ .


n→∞

Finalmente, si X es una variable aleatoria real valuada (no necesariamente


no negativa) y si definimos

0 si X(ω) < 0 ,
Y (ω) = (1.6)
X(ω) si X(ω) ≥ 0 ,
y

−X(ω) si X(ω) < 0 ,
Z(ω) = (1.7)
0 si X(ω) ≥ 0

para todo ω ∈ Ω, entonces ambos Y y Z son variables aleatorias no negativas


y
X =Y −Z .
La definición (1.5) proporciona el sentido para los valores esperados Y y Z,
ahora haremos lo siguiente

DEFINICIÓN 1.8.
Sea X una variable aleatoria arbitraria con valores en R, sean Y y Z
definidos por (1.6) y (1.7). Entonces

E[X] = E[Y ] − E[Z]

siempre que al menos uno de los números E[Y ] y E[Z] sea finito. Si
E[Y ] = E[Z] = +∞, entonces se dirá que X no tiene valor esperado.
22 CAP. 2: ESPERANZA E INDEPENDENCIA

Las definiciones (1.2) y (1.8) son bastante viables, pero (1.5) no lo es. De he-
cho, aún no hemos resuelto la cuestión de no ambuigüedad. Si {Xn } es una
sucesión creciente de variables aleatorias discretas a X y si {Yn } es otra su-
cesión de variables aleatorias discretas creciente a X, entonces la Definición
(1.5) pondrı́a E[X] = lı́mn E[Xn ] y E[X] = lı́mn E[Yn]. ¿Cómo sabemos que
estos dos números son los mismos? En efecto, ellos son los mismos, como la
demostración del siguiente teorema lo muestra. Como subproducto se obtie-
ne una buena fórmula de cálculo.

TEOREMA 1.9.
Para cualquier variable aleatoria no negativa X,
Z ∞
E[X] = P[X ≥ t]dt (1.10)
0

Demostración: Primero, suponer que X es discreto con valores en E. Entonces


usando la Definición (1.2) y cambiando el orden de la suma e integración,
obtenemos (ver Figura 2.1.2)

P[X ≤ t]

P[X = c]

P[X = b]

P[X = a]

a b c t

Figura 2.1.2: Para una variable aleatoria discreta no negativa X, E[X] es


el área sombreada, no importa la forma en que se corta

X
E[X] = aP[X = a]
a∈E
XZ a
= dtP[X = a] (1.11)
0
Ra∈E
∞ P R∞
= 0 dt a>t P[X = a] = 0 P[X > t]dt .

Seestablece (1.10) para X discreto.


SEC. 1: VALOR ESPERADO 23

Sea X una variable aleatoria discreta no negativa, y sean X1, X2 , . . . varia-


bles aleatorias discretas crecientes hacia X. Entonces (1.11) se aplica a cada
Xn , y tenemos
Z ∞
E[Xn] = P[Xn > t]dt . (1.12)
0

Por otra parte, ya que los Xn crecen hacia X, para cualquier t ≥ 0,



[
{X1 > t} ⊂ {X2 > t} ⊂ · · · ; {Xn > t = {X > t} .
n=1

Ası́, la Proposición (1.1.11) se aplica para dar

lı́m P[Xn > t] = P[X > t] . (1.13)


n→∞

Se deduce a partir de (1.12) y (1.13) y de la monotonicidad de la convergencia


que, por la Definición (1.5), tenemos
Z∞ Z∞
E[X] = lı́m E[Xn] = lı́m P[Xn > t]dt = P[X > t]dt .
n→∞ n→∞
0 0

Esto completa la demostración. 


Notemos que, en la Definición (1.5), la suceción es elegida para aproximar
X no tiene nada que ver con el valor E[X]. La fórmula (1.10) es en general
fácil de usar si la distribución de X es conocida. (Ver Figura 2.1.3). En el caso
de variables aleatorias discretas tomando valores enteros 0, 1, 2, . . ., se reduce
aún más a una suma simple:

COROLARIO 1.14.
Si X es una variable aleatoria tomando valores en N = {0, 1, 2, . . .},
entonces

X
E[X] = P[X > n] .
n=0

Figura 2.1.3: Valor esperado de una variable aleatoria no negativa es el


área sombreada que está por encima de la función de distribución

En el caso de una variable aleatoria arbitraria, usando el Teorema (1.9)


calcular E[Y ] y E[Z] en la Definición (1.8), obtenemos (ver Figura 2.1.4)
24 CAP. 2: ESPERANZA E INDEPENDENCIA

Figura 2.1.4: Valor esperado de la variable aleatoria X es la diferencia


E[Y ] − E[Z] de las áreas sombreadas.

COROLARIO 1.15.
Para cualquier variable aleatoria X,

Z∞ Z0
E[X] = P[X > t]dt − P[X ≤ t]dt ,
0 −∞

siempre que al menos uno de los términos de la derecha sea finito.

En la fórmula dada por (1.5), si integramos por partes obtenemos

COROLARIO 1.16.
Para cualquier variable aleatoria real valuada X con función de dis-
tribución ϕ,
Z∞
E[X] = tdϕ(t) ,
−∞

siempre que la integral converga absolutamente.

En el cálculo de una esperanza en particular, la elección de una fórmula sobre


otra es en gran medida una cuestión de conveniencia. Si existe una expresión
en forma cerrada para P[X > t], en general, es fácil usar el Corolario (1.16) o
su equivalente discreto, la Definición (1.2).
EJEMPLO 1.17 El número de arribos en una tienda durante un intervalo de
tiempo especificado es una variable aleatoria X con
e−8 8n
P[X = n] = , n = 0, 1, . . . .
n!
Entonces, usando la Definición (1.2),

X e−88n
E[X] = n
n=0
n!

−8
X 8n−1
= 8e = 8e−8e8 = 8 .
n=1
(n − 1)!

SEC. 1: VALOR ESPERADO 25

EJEMPLO 1.18 El tiempo de vida X de un elemento tiene la distribución


P[X ≤ t] = 1 − e−0,02t , t≥0.
Este es una variable aleatoria no negativa; es fácil calcular E[X] mediante el
uso del Teorema (1.9). Obtenemos
Z ∞ Z ∞
1
E[X] = P[X ≥ t]dt = e−0,02tdt = = 50 .
0 0 0,02

EJEMPLO 1.19 La intensidad X de la luz que cae sobre cierta superficie tiene
una distribución ϕ dada por
 
1 1 2
dϕ(t) = p exp − 2 (t − α) dt , −∞ < t < ∞ .
2πβ 2 2β

Esta distribución es llamada “la distribución normal con media α y varianza


β 2 ”. Usando el Corolario (1.16),
Z ∞  
1 1 2
E[X] = p t exp − 2 (t − α ) dt = α .
−∞ 2πβ 2 2β

EJEMPLO 1.20 Una variable discreta X tiene una distribución


P[X = n] = pq n−1 , n = 1, 2, . . . .
donde p, q > 0, p + q = 1. Si usamos la definición (1.2),†

X 1 1
E[X] = npq n−1 = p 2
= .
n=1
(1 − q) p

Por otro lado, si elegimos usar el Corolario (1.14), primero calculamos



X ∞
X
P[X > n] = P[X = k] = pq k−1 = q n
k=n+1 k=n+1

para todo n ∈ N; entonces



X 1 1
E[X] = qn = = .
n=0
1−q p


P∞ n
P∞Notarn−1que, para x2 ∈]0,
P∞1[, n=0 x = 1/(1 − x). Si diferenciamos ambos lados obtenemos
n=1 nx = 1/(1 − x) y n=2 n(n − 1)x n−2
= 2/(1 − x)3
26 CAP. 2: ESPERANZA E INDEPENDENCIA

EJEMPLO 1.21 Una pieza de equipo tiene dos componentes cuyos tiempo
de vida X e Y son variables aleatorias independientes con distribuciones
P[X ≤ t] = 1 − e−2t , P[Y ≤ t] = 1 − e−3t , t≥0.
El equipo falla si uno de los dos componentes lo hace, es decir, la vida útil
del equipo es Z = mı́n(X, Y ). Para calcular E[Z] usaremos el Teorema (1.9).
Ahora, Z > t si y sólo si ambos X > t e Y > t. Ası́
P[Z > t] = P[X > t, Y > t]
= P[X > t]P[Y > t] = e−2t e−3t = e−5t ,
donde la segunda desigualdad sigue de la independencia de X e Y (ver la
Definición(1.2.21) ). Ası́
Z ∞
1
E[Z] = e−5t dt = .
0 5

Si X es una variable aleatoria tomando valores en E, y si f es una función


de E en R, entonces f (X) es una variable aleatoria con valores en R. Dada
la distribución de X, uno puede obtener la distribución de Y = F (X) y,
usando esta, calcular el valor esperado de Y mediante el uso de la formula
de la proposición anterior. Sin embargo, es más fácil pensar en E[Y ] con la
integral de la función Y con respecto a P y obtener esta como en la Definición
(1.2):
Proposición 1.22 Sea X una variable aleatoria discreta tomando valores en
E, y sea f una función de E en R. Entonces
X
E[f (X)] = f (a)P[X = a] ,
a∈E

siempre que la suma es absolutamente convergente.


Demostración: La variable aleatoria Y = f (X) toma los valores f (a) sobre el
conjunto [X = a], cuya medida es P[X = a]. La integral de Y por lo tanto es
P
f (a)P[X = a] donde la sumatoria es sobre todo a ∈ E. 
En el caso de variables aleatorias arbitrarias (incluso discretas), el mismo ra-
zonamiento da lo siguiente.
Proposición 1.23 Sea X una varaible aleatoria con valores en E, y sea f una
función de E en R. Entonces
Z
E[f (X)] = f (t)dϕ(t) ,
E

siempre que la integral sea absolutamente convergente.


SEC. 1: VALOR ESPERADO 27

Demostración: Se omite. Si en cambio, tuvieramos uan función de más de una


variable aleatoria, la anterior proposición se convierte en lo siguiente. Nue-
vamente omitiremos la demostración. 

TEOREMA 1.24.
Sea X1 , . . . , Xn variables aleatorias tomando valores en E y sea f una
función de E × · · · × E = E n hacia R+ . Entonces
Z
E[f (X1, . . . , Xn)] = f (t1, . . . , tn )dϕ(t1, . . . , tn )
En

donde ϕ es la distribución conjunta de X1 , . . . , Xn . En caso de que


X1 , . . . , Xn sean discretas, esto se convierte en
X
E[f (X1, . . . , Xn )] = f (a1, . . . , an )P[X1 = a1 , . . . , Xn = an ]
a

donde la sumatoria es sobre todas la n−tuplas a = (a1, . . . , an ) con


ai ∈ E.

COROLARIO 1.25.

(a) E[cX] = cE[X] ;

(b) E[X + Y ] = E[X] + E[Y ] ;

(c) E[c1X1 + · · · + cn Xn ] = c1 E[X1] + · · · cn E[Xn] .

Demostración: (a) es inmediato de la Proposición (1.23), donde tomamos f (a) = ca


y luego usar Corolario (1.16). La prueba de (b) se sigue de (1.24) tomando
f (a, b) = a + b, y (c) es inmediato de (a) y (b). 
Observamos que en el anterior corolario, no hicimos ningún supuesto de
independencia: si las variables aleatorias son o no independientes, el valor
esperado de cualquier combinación lineal de ello es igual a la combinación
lineal de sus esperanzas. Lo siguiente es el análogo para el caso de la multi-
plicación.

Proposición 1.26 Sean X e Y variables aleatorias independientes tomando


valores en E, y sean g y h funciones de E en R+ . Entonces

E[g(X)h(Y )] = E[g(X)]E[h(Y )] .
28 CAP. 2: ESPERANZA E INDEPENDENCIA

Demostración: Para X e Y discretas. Poner f (a, b) = g(a)h(b) en el Teorema


(1.24). Entonces
XX
E[g(X)h(Y )] = g(a)h(b)P[X = a, Y = b] .
a b

Pero la independencia de X e Y implican que

P[X = a, Y = b] = P[X = a]P[Y = b]

para cualesquiera a y b. Luego


XX
E[g(X)h(Y )] = g(a)h(b)P[X = a]P[Y = b]
a b
X X
= g(a)P[X = a] h(b)P[Y = b]
a b
= E[g(X)]E[h(Y )] .


El supuesto de independencia en esta proposición: si X e Y son no indepen-
dientes, entonces E[g(X)h(Y )] debe diferir de E[g(X)]E[h(Y )].
Para ciertas funciones especiales f , E[f (X)] se da ciertos nombres espe-
ciales. En particular, si f (b) = bn entonces E[f (X)] = E[X n ] es llamado el nth
momento de X sobre el origen. Si f (b) = (b − µ)2, donde µ = E[X], entonces
E[f (X)] = E[(X −µ)2 ] es llamado la varianza de X y es denotado por Var(X).
Si X es una variable aleatoria de valores enteros y no negativa, y si f (b) = αb
para algún α ∈ [0, 1], entonces E[f (X)] = E[αX ] es un número entre 0 y 1.
Considerado como una función de α ∈ [0, 1], G(α) = E[αX ] es llamada la
función generadora de X. Si X es una variable una variable aleatoria no nega-
tiva, y si f (b) = e−αb para algún α > 0, entonces E[f (X)] es nuevamente un
número entre 0 y 1. Considerado como una función de α, F (α) = E[e−αX ] es
llamada la transformada de Laplace de X.
El valor esperado de X es una guı́a aproximada de el valor de X es pro-
bable que sea cerca. La varianza de X mide la desviación de X desde este
valor probable E[X]. Si la varianza es pequeña, entonces X es más probable
de esta cerca de E[X]. Lo siguiente es una estimación que puede ser usada
cuando la distribución de X no es conocido. Esta es llamada la desigualdad de
Chebishev

Proposición 1.27 Sea X una variable aleatoria con esperanza a y varianza b2.
Entonces para cualquier ε > 0,

b2
P[|X − a| > ε] ≤ .
ε2
SEC. 1: VALOR ESPERADO 29

Demostración: Considere la esperanza de la variable aleatoria positiva Y = (X−a)2 ;


esta es E[Y ] = b2. Ahora, E[Y ] es la integral de Y sobre todo Ω, y como tal
esta es más grande que la integal de Y sobre el conjunto [Y > ε2]. La medida
de este conjunto es P[Y > ε2], y Y > ε2 sobre este conjunto. Por lo que la
integral sebe ser más grande que ε2P[Y > ε2 ]. Esto es,
b2 ≥ ε2 P[Y > ε2] ,
de donde se deduce la proposición. 
En el cálculo de la varianza por lo general vale la pena señalar que
Var(X) = E[(X − E[X])2] (1.28)
= E[X 2 − 2XE[X] + (E[X])2]
= E[X 2 ] − (E[X])2
A continuación siguen algunos ejemplos de estos cálculos.
EJEMPLO 1.29 Considere la variable aleatoria X del Ejemplo(1.17). Tene-
mos ya calculado E[X] = 8. Ahora, obtener la varianza usamos la fórmula
(1.28). Calcular E[X 2], notar que es fácil calcular E[X(X −1)] primero y luego
usar E[X 2] = E[X(X − 1)] + E[X]. Ahora,

X e−88n
E[X(X − 1)] = n(n − 1)
n=0
n!

−8 2
X 8n−2
=e 8 = 82 e−8e8 = 64 .
n=2
(n − 2)!

Por lo tanto,
E[X 2] = 64 + 8 ,
y
Var(X) = E[X 2 ] − (E[X])2 = 8 .
A continuación su función generadora. Tenemos
G(α) = E[αX ]

X e−88n
= αn = e−8 e8α = e−8(1−α) ,
n=0
n!

para cualquier α ∈ [0, 1]. Notar que la derivada de G en α = 1 es

G′ (1) = 8e−8(1−α)|α=1 = 8 = E[X] ,


mientras que la segunda derivada de G en α = 1 es

G′′ (1) = 64e−8(1−α)|α=1 = 64 = E[X(X − 1)] ,


30 CAP. 2: ESPERANZA E INDEPENDENCIA

y la tercera derivada es

G′′′ (1) = 83e−8(1−α) |α=1 = 83 = E[X(X − 1)(X2)] .


EJEMPLO 1.30 Considerar el tiempo de vida X del elemento discutido en el
Ejemplo (1.18). Su esperanza era de E[X] = 50. Ahora,
Z ∞
E[X 2] = t2 dϕ(t)
Z0 ∞
= t2 0,02e−0,02tdt
Z0 ∞
= 2te−0,02tdt
0 Z ∞
2
= t0,02e−0,02t dt = 2(E[X])2 ,
0,02 0
y por lo tanto

Var(X) = E[X 2] − (E[X])2 = (E[X])2 = 2500 .

Calculando la transformada de Laplace de X, encontramos


Z ∞
F (α) = E[e−αX ] = e−αt 0,02e−0,02tdt
0 Z ∞
0,02 0,02
= (α + 0,02)e−(α+0,02)tdt =
α + 0,02 0 α + 0,02
Observemos que la derivada de F en α = 0 es

0,02 1
F ′ (0) = −

= − = −E[X]
(α + 0,02)2 α=0 0,02
y que la segunda derivada en α = 0 es

′′ 0,02 1
= E[X 2] .

F (0) = 2 3
= 2 2
(α + 0,02) α=0
0,02

El resultado acerca de la derivada de la función generadora en el Ejemplo


(1.29) cumple en general: tenemos, para la función generadora G de una va-
riable aleatoria de valores enteros no negativa X,

G(k) (1) = E[X(X − 1) . . . (X − k + 1)] (1.31)


SEC. 2: ESPERANZA CONDICIONAL 31

donde G(k) es la k-ésima derivada G. Del mismo modo, los resultados en


el Ejemplo (1.30) sobre la transformada de Laplace también se generalizan.
Para cualquier variable aleatoria no negativa X con transformada de Laplace
F,
F (k) (0) = (−1)k E[X k ] . (1.32)
También vale la pena mencionar que una función generadora define la dis-
tribución de probabilidad asociada con esta; esto es verdad porque

X
G(α) = αn P[X = n] , α[0, 1] , (1.33)
n=0

lo que significa que P[X = n] es el coeficiente de αn en la expansión de serie


de potencia de G(α). Del mismo modo, la transformada de Laplace define la
función de distribución asociada.
Terminamos esta sección con dos teoremas sobre el valor esperado del
lı́mite de una sucesión de variables aleatorias. El primero es llamado el teo-
rema de convergencia monotona y el segundo el teorema de convergencia
acotada. La prueba de la primera es la misma como la de (1.9), y no repetire-
mos esto; también omitiremos la segunda demostración.

TEOREMA 1.34.
Si X1 , X2, . . . es una sucesión creciente de variables aleatorias
no negativas a la variable aleatoria X, entonces las esperanzas
E[X1], E[X2], . . . son crecientes hacia E[x].

TEOREMA 1.35.
Sean X1 , X2 , . . . una sucesión de variables aleatorias que son acotadas
en valor absoluto por una variable aleatoria Y tal que E[Y ] < ∞. Si

lı́m Xn (ω) = X(ω)


n→∞

para casi todo ω ∈ Ω, entonces

lı́m E[Xn] = E[X] .


n→∞

2. Esperanza condicional
Sea Y una variable aleatoria discreta tomando valores en R+ , y sea A un
evento con P[A] > 0. Entonces la probabilidad condicional de que Y = b
32 CAP. 2: ESPERANZA E INDEPENDENCIA

dado que ha ocurrido el evento A es (ver 1.3.1)


P[{Y = b} ∩ A]
P[Y = b|A] = . (2.1)
P[A]
Como b varı́a, este es llamado la distribución condicional de Y dado el evento
A.
Definimos la esperanza condicional de Y dado el evento A como
X
E[Y |A] = bP[Y = b|A] . (2.2)
b

en particular, cuando A = [X = a] para una variable aleatoria discreta X


tomando valores en el conjunto E,
X
E[Y |X = a] = bP[Y = b|X = a] (2.3)
b

es llamado la esperanza condicional de Y dado que X = a. Como a varı́a,


(2.3) define una función f sobre E según
f (a) = E[Y |X = a] . (2.4)
Por la esperanza condicional de Y dado X, escribiendo E[Y |X], nos referi-
mos a la variable aleatoria f (X); es decir
E[Y |X] = f (X) (2.5)
donde f es como se define por (2.4). La siguiente definición es la versión
generalizada de esta.

DEFINICIÓN 2.6.
Sean X1 , . . . , Xn variables aleatorias discretas tomando valores en E,
y sea Y una variable aleatoria discreta con valores en R+ . Entonces la
esperanza condicional de Y dado X1 , . . . , Xn es

E[Y |X1 , . . . , Xn] = f (X1, . . . , Xn)

donde para cualquier n-tupla (a1 , . . . , an ) con ai ∈ E,


X
f (a1, . . . , an ) = bP[Y = b|X1 = a1 , . . . , Xn = an ] .
b

Si Y es no discreta, entonces una definición análoga es dada en términos de


su distribución condicional P[Y ≤ t|X1 = a1 , . . . , Xn = an ]. Por ejemplo, si Y
es no negativo,
E[Y |X1 , . . . , Xn] = f (X1, . . . , Xn) (2.7)
SEC. 2: ESPERANZA CONDICIONAL 33

donde
Z ∞
f (a1, . . . , an ) = P[Y > t|X1 = a1 , . . . , Xn = an ]dt (2.8)
0

para todo a1 , . . . , an ∈ E.
Para cualquier evento A, su función indicador IA (que es tal que IA (ω) = 1
o 0 de acuerdo si ω ∈ A o no) es una variable aleatoria. Entonces definimos
la probabilidad condicional de A dado X1 , . . . , Xn como

P[A|X1, . . . , Xn] = E[IA |X1 , . . . , Xn ] . (2.9)

Lo siguiente son algunas propiedades simples de esperanza condicional. Es-


tas son propiedades análogas a las Proposiciones (1.22), (1.23), (1.24) y (1.25).
Omitiremos las pruebas.
Proposición 2.10 Sea Y una variable aleatoria discreta con valores en E y g
una función desde E en R+ . Entoncess
X
E[g(Y )|X1 , . . . , Xn] = g(b)P[Y = b|X1 , . . . , Xn] .
b∈E

Proposición 2.11 Sean Y1, . . . , Ym variables aleatorias discretas con valores


en E, y sea g una función desde E m en R+ . Entonces

E[g(Y1, . . . , Yn)|X1 , . . . , Xn ]
X
= g(b1, . . . , bm)P[Y1 = b1 , . . . , Ym = bm |X1 , . . . , Xn] .
b

COROLARIO 2.12.
Si Y1 , . . . , Ym toma valores en R+ y c1 , . . . , cm son constantes, entonces

E[c1Y1 + · · · + cm Ym |X1 , . . . , Xn]


= c1 E[Y1|X1 , . . . , Xn ] + · · · + cm E[Ym|X1 , . . . , Xn ] .

EJEMPLO 2.13 Sea X e Y variables aleatorias con

P[Y = 2|X = 1] = 0,4 P[Y = 3|X = 1] = 0,6


P[Y = 4|X = 2] = 0,4 P[Y = 9|X = 2] = 0,6

Sea f (b) = E[Y |X = b], b = 1, 2. Entonces

f (1) = 2(0,4) + 3(0,6) = 21(0,4) + 31(0,6) = 2,6


f (2) = 4(0,4) + 9(0,6) = 22(0,4) + 32(0,6) = 7 .
34 CAP. 2: ESPERANZA E INDEPENDENCIA

Ası́,
E[Y |X] = f (X) = (0,4)2X + (0,6)3X .

EJEMPLO 2.14 Considerar las tres variables aleatorias X, Y y Z con distri-
bución conjunta
P[X = k, Y = m, Z = n] = p3q n−3
para k = 1, . . . , m−1; m = 2, . . . , n−1; n = 3, 4, . . ., donde 0 < p < 1, p+q = 1.
Entonces para k = 1, . . . , m − 1; m = 2, 3, . . .;

X
P[X = k, Y = m] = p3 q i−3 = p2q m−2 .
i=m+1

Ası́, para k = 1, . . . , m − 1 y m = 2, . . . , n − 1, tenemos


P[Z = n|X = k, Y = m] = pq n−m−1 .
Por lo tanto, para k = 1, . . . , m − 1 y m = 2, 3, . . .,

X
E[Z|X = k, Y = m] = npq n−m−1
n=m+1
X∞
= (j + m)pq j−1
j=1

X 1
=m+ jpq j−1 = m + .
j=1
p

Ası́,
1
E[Z|X, Y ] = Y + .
p
Notar que para cualquier función acotada g,

X
E[g(Z)|X = k, Y = m] = g(i + m)pq j−1 ,
j=1

tal que

X
E[g(Z)|X, Y ] = g(Y + j)pq j−1 .
j=1

En particular, si g(b) = αb para algún α ∈ [0, 1], entonces



E[g(Z)|X, Y ] = αY .
1 − qα

SEC. 2: ESPERANZA CONDICIONAL 35

La siguiente proposición dice que si el conocimiento de X1, . . . , Xn determina


Y completamente, entonces la esperanza condicional de Y dado X1 , . . . , Xn
es igual a Y , el mismo. La demostración es muy simple ası́ que la omitiremos.

Proposición 2.15 Si Y se puede escribir como


Y = f (X1, . . . , Xn)
para alguna función f , entonces
E[Y |X1 , . . . , Xn ] = Y .
Lo siguiente es un resultado muy útil en situaciones donde E[Y |X1 , . . . , Xn ]
es fácil de obtener o saber de alguna manera. Ya que E[Y |X1 , . . . , Xn] es una
variable aleatoria tomando valores reales, podemos hablar acerca de sus va-
lores esperados. Esos valores esperados es lo mismo que la esperanza de Y .
En palabras, el valor esperado de cualquier esperanza condicional de Y es
igual al valor esperado de Y .
Proposición 2.16 E[E[Y |X1 , . . . , Xn ]] = E[Y ] .
Demostración: Para discretas Y, X1, . . . , Xn. Haciendo
E[Y |X1 , . . . , Xn ] = f (X1, . . . , Xn) ;
entonces
E[E[Y |X1 , . . . , Xn]] = E[f (X1, . . . , Xn)] (2.17)
X
= f (a1, . . . , an )P[X1 = a1 , . . . , Xn = an ] .
a

Por otra parte,


X
f (a1, . . . , an ) = bP[Y = b|X1 = a1 , . . . , Xn = an ] . (2.18)
b

Poniendo (2.18) en (2.17) y cambiando el orden de la sumatoria, notando la


Definición (1.3.1) de probabilidades condicionales, obtenemos
E[E[Y |X1 , . . . , Xn ]]
XX
= P[Y = b|X1 = a1 , . . . , Xn = an ]P[X1 = a1 , . . . , Xn = an ]
b a
X X
= b P[Y = b|X1 = a1 , . . . , Xn = an ]
b a
X
= bP[Y = b] = E[Y ] .
b
36 CAP. 2: ESPERANZA E INDEPENDENCIA


El siguiente resultado es muy importante en la teorı́a de procesos estocásti-
cos. Este muestra como obtener la esperanza condicional de Y dado X1 , . . . , Xn
cuando es fácil de obtener lo mismo dado X1 , . . . , Xn más alguna informa-
ción extra contenida en Xn+1, . . . , Xn+m.

TEOREMA 2.19.
Para cualquier n, m ≥ 1

E[E[Y |X1 , . . . , Xn+m]|X1, . . . , Xn ] = E[Y |X1 , . . . , Xn] .

Demostración: Para n = 2, m = 1, X1 , X2 , X3, Y discretas. Sea Z = f (X1, X2, X3)


= E[Y |X1 , X2, X3]. Necesitamos demostrar que

E[Z|X1, X2] = E[Y |X1 , X2 ] . (2.20)

Tenemos

E[Z|X1 = a1 , X2 = a2 ] = E[f (X1, X2, X3)|X1 = a1 , X2 = a2 ]


X
= f (a1 , a2, a3 )P[X3 = a3 |X1 = a1 , X2 = a2 ]
a3

y X
f (a1, a2, a3 ) = bP[Y = b|X1 = a1 , X2 = a2 , X3 = a3 ] .
b

Poniendo los dos cálculos juntos, tenemos


X
E[Z|X1 = a1 , X2 = a2 ] = bP[Y = b|X1 = a1 , X2 = a2 ] (2.21)
b
= E[Y |X1 = a1 , X2 = a2 ] ,

ya que
X
P[Y = b|X1 = a1 , X2 = a2 , X3 = a3 ]P[X3 = a3 |X1 = a1 , X2 = a2 ]
a3
X
= P[Y = b, X3 = a3 |X1 = a1 , X2 = a2 ]
a3
= P[Y = b|X1 = a1 , X2 = a3 ]

por (1.3.1) y (1.3.2). Notar que (2.21) es lo mismo que (2.20) lo que completa
la demostración. 
SEC. 2: ESPERANZA CONDICIONAL 37

COROLARIO 2.22.
Si
E[Y |X1 , . . . , Xn , . . . , Xn+m] = g(X1, . . . , Xn ) ,
entonces
E[Y |X1 , . . . , Xn] = g(X1 , . . . , Xn) .

Demostración: Por el Teorema (2.19) y la Proposición (2.15),


E[Y |X1 , . . . , Xn ] = E[E[Y |X1 , . . . , Xn, . . . , Xn+m]|X1 , . . . , Xn ]
= E[g(X1, . . . , Xn )|X1, . . . , Xn ]
= g(X1, . . . , Xn ) .

El Corolario anterior tiene la siguiente interpretación. Suponer que dado
X1 , . . . , Xn+m, que la esperanza condicional de Y depende sólo en X1 , . . . , Xn.
Esto significa que, la medida de la predicción del valor de Y se refiere, cono-
cimiento de X1 , . . . , Xn hace más conocimiento sobre Xn , . . . , Xn+m es irre-
levante. Por lo tanto, la esperanza condicional de Y dado X1 , . . . , Xn es la
mismo que la de Y dado X1 , . . . , Xn+m .
Un caso particular de esto sucede con bastante frecuencia. Suponer que
tenemos E[Y |X1 , . . . , Xn ] calculado; y suponga que Y1, . . . , Ym son funciones
del X1 , . . . , Xn , es decir, Y1 = gm (X1 , . . . , Xn ), . . . , Ym = gm (X1, . . . , Xn). En-
tonces E[Y |X1 , . . . , Xn , Y1, . . . , Ym ] = E[Y |X1 , . . . , Xn].
Otro importante concepto está contenido en el siguiente Teorema. Supo-
ner que {Y1, . . . , Ym } y {X1 , . . . , Xn } son tales que sabiendo los valores de
un conjunto determina los valores del otro. Este es especı́ficamente el ca-
so cuando Y1 = g1 (X1, . . . , Xn), . . . , Ym = gm (X1, . . . , Xn ) y por el contrario
X1 = f1(Y1, . . . , Ym), . . . , Xn = fn (Y1, . . . , Ym). Entonces para cualquier varia-
ble aleatoria Y , la esperanza condicional de Y dado X1 , . . . , Xn es la misma
que la esperanza condicional de Y dado Y1 , . . . , Ym. Esto es ası́ desde que
{X1 , . . . , Xn} lleva la misma información que {Y1, . . . , Ym }. La demostración
es fácil y será omitida.
TEOREMA 2.23.
Suponer las colecciones {X1 , . . . , Xn } y {Y1, . . . , Ym} son tales que el
conocimiento de las variables aleatorias en una colección determina
los valores de las variables aleatorias en el otro. Entonces para cual-
quier Y ,
E[Y |X1 , . . . , Xn ] = E[Y |Y1 , . . . , Ym ] .

Terminamos esta sección dando una extensión del concepto de independen-


cia
38 CAP. 2: ESPERANZA E INDEPENDENCIA

DEFINICIÓN 2.24.
El conjunto de variables aleatorias {Y1 , . . . , Ym } se dice que son inde-
pendientes de {X1 , . . . , Xn } si

E[g(Y1, . . . , Ym)|X1, . . . , Xn ] = E[g(Y1, . . . , Ym )]

para toda función no negativa g. Dos procesos estocásticos


{Yt ; t ∈ T1 } y {Xt ; t ∈ T2} se dice que son independientes uno
del otro si y solo si cualquier colección finita {Yt1 , . . . , Ytm } del prime-
ro es independiente de cualquier colección finita {Xt1 , . . . , Xtn } del
segundo.

Observamos que en una colección de variables aleatorias, independencia en


el sentido de (1.2.19) es equivalente a la independencia, en el sentido de
(2.24), de cualquiera de las dos subcolecciones. Como tal, no vamos a dis-
tinguir entre los dos.
Lo siguiente es un nuevo concepto, la de independencia condicional.

DEFINICIÓN 2.25.
{Y1 , . . . , Ym } se dice que es condicionalmente independiente de
{Z1 , . . . , Zk } dado {X1, . . . , Xn } siempre que

E[g(Y1, . . . , Ym)|X1 , . . . , Xn ; Z1, . . . , Zk ] = E[g(Y1, . . . , Ym)|X1 , . . . , Xn ]

para todas las función no negativas g. La colección {Yt ; t ∈ T1} se dice


que es condicionalmente independiente de la colección {Zt ; t ∈ T2 }
dado la colección {Xt ; t ∈ T3 } siempre que para cualquier colección
finita {Yt1 , . . . , Ytm } de la primera y cualquier colección finita de la
segunda Zs1 , . . . , Zsn ,

E[g(Yt1 , . . . , Ytm )|Zs1 , . . . , Zsn ; Xt , t ∈ T3] = E[g(Yt1 , . . . , Ytm )|Xt , t ∈ T3 ]

para todas las funciones no negativas g.

En palabras, {Y1, . . . , Ym} es condicionalmente independiente de {Z1, . . . , Zk }


dado {X1, . . . , Xn } siempre que, para predecir el valor de cualquier función
de Y1 , . . . , Ym se refiere, el conocimiento extra de Z1 , . . . , Zk pierde toda su
significancia una vez que el valor de los X1 , . . . , Xn son conocidos.

EJEMPLO 2.26 Considerar las variables aleatorias X, Y, Z del ejemplo (2.14).


SEC. 3: EJERCICIOS 39

Habı́amos demostrado que



X
E[g(Z)|X, Y ] = g(Y + j)pq j−1 .
j=1

Siendo el lado derecho independiente de X, vemos que Z es condicional-


mente independiente de X dado Y . También observamos que Z es no inde-
pendiente de X. ⊳

EJEMPLO 2.27 Sean X1 , X2, . . . una sucesión de variables aleatorias con E[Xi] = µ
para todo i. Sea N una variable aleatoria entero valuada y no negativa inde-
pendiente de X1 , X2, . . . con E[N ] = λ. Para cada ω ∈ Ω, sea

0 si N (ω) = 0
Y (ω) =
X1(ω) + · · · + Xn (ω) si N (ω) = n .

Nos gustarı́a calcular E[Y ]. Podemos pensar en X1 , X2, . . . como las canti-
dades gastadas por los clientes 1, 2, . . . y de N como el número de llegadas
dentro de la primera hora. Entonces Y es total de ingresos dentro de esta
hora.
Por la proposición(2.16),

E[Y ] = E[E[Y |N ]] . (2.28)

Por otro lado, ya que N es independiente de X1 , X2, . . ., para n ≥ 1,

E[Y |N = n] = E[X1 + · · · + Xn |N = n]
= E[X1 + · · · + Xn ]
= E[X1] + · · · + E[Xn ] = nµ .

Por lo tanto
E[Y |N ] = N µ ,
y por (2.28)
E[Y ] = E[µN ] = µE[N ] = λµ .

3. Ejercicios
3.1 Encontrar el valor esperado de una variable aleatoria X tomando los va-
lores −5, 1, 4, 8, 10 con probabilidades 0.3, 0.2, 0.2, 0.1, 0.2 respectivamen-
te.
40 CAP. 2: ESPERANZA E INDEPENDENCIA

3.2 Considere la variable aleatoria X tomando los valores −2, 0, 2 con proba-
bilidades 0.4, 0.3, 0.3 respectivamente. Calcular los valores esperados de
X, X 2 , 3x2 + 5

3.3 Calcular la varianza y la función generadora de la variable aleatoria en


el Ejemplo (1.20).

3.4 Una variable aleatoria X se dice que tiene la distribución uniforme sobre
[a, b] si
t−a
P[X ≤ t] = , a≤t≤b.
b−a
(a) Calcular E[X], Var(X), E[(X − a)/(b − a)].
(b) Encontrar la distribución de Y = (X − a)/(b − a).

3.5 Calcular la varianza y la transformada de Laplace del tiempo de vida en


el Ejemplo (1.21).

3.6 Calcular la varianza de la intensidad de luz en el Ejemplo (1.19)

3.7 El avance X entre dos vehı́culos en un instante fijado es una variable


aleatoria con

P[X ≤ t] = 1 − 0.6e−0.02t − 0.4e−0.03t , t≥0.

Encontrar el valor esperado y la varianza de el avance.

3.8 Mostrar que para cualesquiera constantes a y b,

Var(aX + b) = a2 Var(X)

para cualquier variable aleatoria X.

3.9 Mostrar que para cualesquiera dos variables independientes X e Y .

Var(X + Y ) = Var(X) + Var(Y ) .

3.10 El tiempo de vida X de un dispositivo tiene la distribución

P[X ≤ t] = 1 − e−ct , t≥0.

(a) Mostrar que E[X] = 1/c.


(b) Mostrar que (ver también el Ejemplo (1.3.8))
1
E[X|X > t] = t + .
c
SEC. 3: EJERCICIOS 41

3.11 Sean X, Y definidas como en el Ejemplo (1.2.23).

(a) Calcular E[X], E[Y − X], E[Y ].


(b) Encontrar E[Y − X|X], E[Y |X].
(c) Mostrar por cálculos directos que E[E[Y |X]] = E[Y ].

3.12 Suponga que X1 , X2, . . . son variables aleatorias no negativas indepen-


dientes e idénticamente distribuidos con

E[Xn ] = a , Var(Xn) = b2 .

Sea N una variable aleatoria entero valuada no negativa que es indepen-


diente de {X1 , X2, . . .}, y sea

E[N ] = c , Var(N ) = d2 .

Sea S0 = 0, S1 = X1 , S2 = X1 + X2, . . ., y se Y = SN .

(a) Calcular E[Y |N ], E[Y 2|N ].


(b) Calcular E[Y ], E[Y 2 ], Var(Y ).
(c) Mostrar que para cualquier α ∈ R+ ,

E[eαY ] = G(F (α))

donde

F (α) = E[e−αXn ] , G(β) = E[β N ] ; α ∈ R+ , β ∈ [0, 1] .


42 CAP. 2: ESPERANZA E INDEPENDENCIA
3
Procesos de Bernoulli y Sumas de Variables
Aleatorias Independientes

Considerara un experimento consistiendo de una sucesión infinita de en-


sayos. Suponer que los ensayos son independientes uno del otro y que cada
uno tiene solo dos posibles resultados: “éxito” y “fracaso”. Un posible re-
sultado de tal experimento es (E, F, F, E, F, E, . . .), lo que se entiende de este
resultado es que el primer ensayo fue éxito, el segundo y tercero fueron fraca-
sos, cuarto fue éxito, el quinto fue fracaso, sexto fue éxito, etc. Ası́, el espacio
muestral Ω del experimento consiste de todas las sucesiones de dos letras E
y F , es decir,
Ω = {ω : ω = (ω1, ω2, . . .), ωi es E o F } .
A continuación describimos una medida de probabilidad P sobre todos los
subconjuntos de Ω. Sea 0 ≤ p ≤ 1, y definir q = 1 − p. Pensamos en p y
q como las probabilidades de éxito y fracaso en cualquiera de los ensayos.
La probabilidad del evento {ω : ω1 = E, ω2 = E, ω3 = F } debe ser entonces
p·p·q = p2q, y la probabilidad del evento {ω : ω1 = E, ω2 = F, ω3 = F, ω4 = F, ω5 = E}
deber ser p · q · q · q · p = p2q 3 . Para cada n, consideramos todos los eventos
que son especificados por los primeros n ensayos y definir sus probabilida-
des de esta manera. Esto, en adición a las condiciones en la Definición (1.1.6),
especifica completamente la probabilidad P.
Para cada ω ∈ Ω y n ∈ {1, 2, . . .}, definir Xn (ω) = 1 o 0 de acuerdo co-
mo ωn = E o ωn = F . Entonces para cada n, tenemos una variable alea-
toria Xn cuyos únicos valores son 1 y 0. Se deduce a partir de la descrip-
ción de P que X1 , X2, . . . son independientes e idénticamente distribuidos
con P[Xn = 1] = p, P[Xn = 0] = q. En las primeras tres secciones de este
capı́tulo estaremos interesados en las propiedades de procesos estocásticos
tales como {Xn : n = 1, 2, . . .} y otros definidos en términos de {Xn }.
Los procesos {Xn} son muy simples en su naturaleza, y la respuesta a las
mayorı́a de los problemas planteados aquı́ son fáciles de obtener. Nuestro
objetivo aquı́ es demostrar algunas de las preguntas que son planteados en
el estudio de un proceso estocástico, y proporcionar alguna experiencia en el
44CAP. 3: PROCESOS DE BERNOULLI Y SUMAS DE VARIABLES ALEATORIAS INDEPENDIENTES

uso de las herramientas de los Capı́tulos 1 y 2.


Los procesos de las Secciones 2 y 3 proporcionan dos ejemplos de sumas
de variables aleatorias idénticamente e independiente distribuidas. Recoge-
mos los resultados de carácter más general sobre este tipo de procesos en la
Sección 4 junto con algunos teoremas clásico de limites.

1. Proceso de Bernoulli
Sea Ω un espacio muestral y P una medida de probabilidad sobre Ω. Sea
{Xn ; n = 1, 2, . . .} una sucesión de variables aleatorias definidas sobre Ω y
tomando solo los valores de 0 y 1.

DEFINICIÓN 1.1.
El proceso estocástico {Xn : n = 1, 2, . . .} es llamado proceso de Ber-
noulli con probabilidad de éxito p siempre que

(a) X1 , X2, . . . son independientes, y

(b) P[Xn = 1] = p, P[Xn = 0] = q = 1 − p para todo n.

EJEMPLO 1.2 Productos terminados que vienen de una lı́nea de ensamblaje


se les da una inspección de rutina. Si el n-ésimo artı́culo es “defectuoso”
poner Xn = 1, en otro caso Xn = 0. Si el proceso de producción esta “bajo
control”, ⊳
SEC. 2: EJERCICIOS 45

2. Ejercicios
(5.1) Considerar una posible realización ω = (E, F, F, F, E, E, F, E, . . .) de
una sucesión de ensayos independientes con dos posibles resultados,
E y F . Para este particular ω, cuales son las valores de las variables
aleatorias

(a) X1, X2 , . . . , X8 ;
(b) N0, N1, . . . , N8;
(c) T0, T1, T2, T3, T4?

(5.2) En el ejemplo (1.2) sea la tasa defectuosa p = 0,05. ¿Cuál es la proba-


bilidad de que el primer, segundo y tercer artı́culo inspeccionado son
todos defectuosos?. ¿Cuál es la probabilidad de que exactamente uno
del primero, segundo o tercer artı́culo sea defectuoso?

(5.3) Para el proceso descrito en el Ejemplo (1.3), calcular e interpretar las


siguientes cantidades.

(a) P[N1 = 0, N2 = 0, N3 = 1, N4 = 1]
(b) P[N1 = 1, N3 = 2, N4 = 2]
(c) P[N8 = 6, N15 = 12]

(5.4) Para el problema introducido en le Ejemplo (1.4), ¿Cuál es el número


esperado de rodajes, dentro de los 400 producidos, que no cumple las
especificaciones.

(5.5) Para p = 0,8, calcular

(a) E[N3], E[N7], E[N3 + 4N7]


(b) Var(N3), Var(N7 − N3 )
(c) E[6N4 + N7|N2 ].

(5.6) Considere ensayos de Bernoulli con probabilidad p = 0,8 para el éxi-


to.Suponer que el resultado de los primeros cinco ensayos, respectiva-
mente, E, F, F, E, E. ¿Cuál es el valor esperado de N3 + 2N7 dado su
historia pasada?.

(5.7) Generalizar el resultado del Ejemplo (2.16) mostrando que para cual-
quier n, m ∈ N,
E[Nn+m|Nn ] = Nn + mp .
46CAP. 3: PROCESOS DE BERNOULLI Y SUMAS DE VARIABLES ALEATORIAS INDEPENDIENTES

(5.8) Repetir los pasos de la demostración del Teorema (2.14) para mostrar la
veracidad del siguiente resultado particular

E[3N54 + N83 |N0 , N1, N2] = E[3N54 + N83 |N2 ] .

(5.9) Distribución Hipergeométrica. Sean k, m, n enteros con k ≤ m+n. Mos-


trar que para cualquier entero j con 0 ≤ j ≤ m, 0 ≤ k − j ≤ n,
  
m n
j k−j
P[Nm = j|Nm+n = k] =   .
m+n
k
Esto define una distribución de probabilidad en j; este es llamado la
distribución hipergeométrica. Notar que Nm puede ser reemplazado
por la suma Xn1 + · · · + Xnm de cualquier variable m de X1 , . . . , Xm+n.

(5.10) En el Ejemplo (1.2), suponer que los artı́culos son empacados en cajas
de 100 cada uno. Un plan de inspección de muestreo da el aviso para
rechazar un caja de una muestra de 5 muestra que la caja contiene una
o más defectos. ¿Cuál es la probabilidad de que una caja que contenga
exactamente 4 defectos sea rechazada?

(5.11) En el Ejemplo (3.1) suponer que la razón de cruzamientos es de 4 vehı́cu-


los por minuto. Calcular e interpretar las siguientes cantidades.
(a) p = P[Xn = 1],
(b) P[T4 − T3 = 12]
(c) E[T4 − T3], E[T13 − T3]
(d) Var(T2 + 5T3).
(5.12) Repetir la demostración del Teorema (3.6) para mostrar que

P[T8 = 17|T0, . . . , T7] = pq 16−T7

si el evento [T7 ≤ 16] ocurre.

(5.13) Mostrar, siguiendo los pasos del Ejemplo (3.17), que


m
E[Tn+m|Tn] = Tn + .
p

(5.14) Calcular lo siguiente (y compara con (2.2.14)):


(a) P[T1 = k, T2 = m, T3 = n]
SEC. 2: EJERCICIOS 47

(b) P[T3 = n|T1 = k, T2 = m]


(c) E[T3|T1 = k, T2 = m]
(d) E[g(T3)|T1, T2] para g(b) = αb , α ∈ [0, 1].
(5.15) Si una variable aleatoria T tiene la distribución geométrica, entonces
P[T > n + m|T > n] = q m = P[T > m]
para todo n y m. Mostrar que lo contrario también es verdad: si una
variable aleatoria discreta T es tal que
P[T > n + m|T > n] = P[T > m]
para todo m, n ∈ N, entonces T tiene una distribución geométrica.
(5.16) La probabilidad de que un conductor dado pare para tomar una au-
topista es p = 0,04; conductores diferentes, por supuesto, hacen sus
decisiones de parar o no independientemente uno del otro. Dado que
nuestra autopista contó 30 carros pasándose sin parar, ¿Cuál es la pro-
babilidad de ser tomado por el carro 37avo. o anteriores?
(5.17) Continuación. Suponer que las llegadas de los carros ellos mismos son
descritos como en Ejemplo (3.1) con 4 vehı́culos por minuto. Entonces
“éxito” para el autopista ocurre en el tiempo n siempre que una llegada
ocurre en n y que el carro para tomarla. Sea T el tiempo (en segundos)
en que ella finalmente toma el trayecto.
(a) Encontrar la distribución de T ; calcular E[T ], Var(T ).
(b) Dado que después de 5 minutos (en el que 12 carros pasan por) ella
está aún ahı́, calcular el valor esperado de T .
(5.18) Un hombre joven y un furioso marido lucharan a duelo. Cada uno tie-
ne un gran suministro de municiones, y en intervalos establecidos cada
uno dispara al otro. En cada disparo, la probabilidad de que el primer
hombre mate al segundo es p1 y la probabilidad de que el segundo ma-
te al primero es p2 (es posible que ambos mueran). Asumiremos que las
rondas subsiguientes de el duelo son independientes y las probabilida-
des se mantienen constantes.
(a) Encontrar la probabilidad de que el duelo dure exactamente 13 ron-
das.
(b) Encontrar la probabilidad de que el joven salga con vida.
(c) Encontrar la probabilidad de que el duelo dure exactamente 13 ron-
das con el hombre joven con vida al final.
48CAP. 3: PROCESOS DE BERNOULLI Y SUMAS DE VARIABLES ALEATORIAS INDEPENDIENTES
4
Procesos de Poisson

1. Procesos de recuento de llegadas


Sea Ω un espacio muestral y P una medida de probabilidad sobre este.
50 CAP. 4: PROCESOS DE POISSON
5
Cadenas de Markov

1. Introducción
Sea Ω un espacio muestral y P una medida de probabilidad sobre este.
Considere un proceso estocástico X = {Xn : n ∈ N} con un espacio de
estados contable E; es decir, para cada n ∈ N = {0, 1, . . .} y ω ∈ Ω, Xn (ω)
es un elemento del conjunto contable E. Es costumbre decir que “el proceso
está en el estado j del tiempo n”, esto representa Xn = j. Ası́, Xn se refiere
al estado del proceso X en el tiempo n, y el conjunto E es llamado el espacio
de estados del proceso X.

DEFINICIÓN 1.1.
El proceso estocástico X = {Xn : x ∈ N} es llamado una cadena de
Markov siempre que

P {Xn+1 = j | X0 , . . . , Xn} = P {Xn+1 = j | Xn }

para todo j ∈ E y n ∈ N.

Una cadena de Markov, entonces, es una sucesión de variables aleatorias ta-


les que para cualquier n, Xn+1 es condicionalmente independiente de X0 , . . . ,
Xn−1 dado Xn . Es decir, el “siguiente” estado Xn+1 del proceso es indepen-
diente de los estados “pasados” X0 , . . . , Xn−1 siempre que el estado “presente”
Xn sea conocido.
A lo largo de la discusión nos limitaremos a las cadenas de Markov para
los cuales la probabilidad condicional

P {Xn+1 = j | Xn = j} = P (i, j) , i, j ∈ E , (1.2)

es independiente de n. Esta restricción es conveniente desde el punto de vista


computacional y, como ejercicio mostrar (4.13), no causa ninguna pérdida de
generalidad de la teorı́a. Las probabilidades P (i, j) son entonces llamadas las
52 CAP. 5: CADENAS DE MARKOV

probabilidades de trancisión para la cadena de Markov X, y una cadena de


Markov X satisfaciendo (1.2) será llamado de tiempo homogéneo si enfatizar
esto es necesario. Es de costumbre organizar las P (i, j) en un arreglo matri-
cial y llamar a la matriz resultante P la matriz de transición de la cadena de
Markov X. si E = {0, 1, . . .}, por ejemplo, la matriz de transición es
 
P (0, 0) P (0, 1) P (0, 2) · · ·
P (1, 0) P (1, 1) P (1, 2) · · ·
 
P (2, 0) P (2, 1) P (2, 2) · · ·
P =
 ·

 · · · · · 

 · · · · · ·
· · · ···

Lo siguiente son los principios de la notación la seguiremos con respecto a


matrices y vectores.

NOTACIONES 1.3 Si los M(i, j) son números reales definidos para todo
i, j en algún conjunto contable E, entonces por M denotamos la matriz cu-
yos (i, j)-entrada es M(i, j). Contrariamente, si M es una matriz, por M(i, j)
significa le (i, j)-entrada de M. Denotaremos los vectores columnas con le-
tras minúsculas tales como f, g, h, . . . y los vectores filas por letras griegas
minúsculas tales como π, ν, . . .. Si f es un vector columna, f (i) es la i-entrada;
si π es un vector fila, π(j) es su j-entrada. Los vectores columna serán con-
siderados como funciones definidas sobre E, y cuando quede claro que esta-
mos hablando de una función f nos tomaremos la libertad de mostrar esta
como f = (a, b, . . .) esto por facilidad tipográfica, a pesar de que todavı́a
estamos pensando en ello como un vector columna.
La matriz identidad siempre será denotada por I; además I(i, j) = 1 o 0
de acuerdo con i = j o i 6= j. Cualquier vector o matriz en el que cada entrad
es cero será denotado por 0. El vector columna de unos será denotado por
1; por lo tanto 1(i) = 1 para todo i. Para cualquier j, escribiremos 1j para el
vector columna en el que cada entrada es cero excepto la j-entrada, que es
uno; por lo tanto 1j (i) = I[j] (i) = 1 o 0 de acuerdo con i = j o i 6= j.
Igualdades y desigualdades entre vectores (o entre matrices) son siempre
término a término. Por mo tanto M ≥ 0 significa M(i, j) ≥ 0 para todo i, j;
f ≤ g significa f (i) ≤ g(i) para todo i 

Cualquier entrada de una matriz de transición P es no negativa, y la suma


de términos de cualquier fila es igual a la unidad. Tales matrices tiene un
nombre especial.
SEC. 2: VISITAS A UN ESTADO FIJO 53

DEFINICIÓN 1.4.
Sea P una matriz cuadrad de entradas P (i, j) definido para todo
i, j ∈ E. Entonces P es llamada una matriz de Markov sobre E siem-
pre que

(a) Para cualquier i, j ∈ E, P (i, j) ≥ 0, y


X
(b) Para cada i ∈ E, P (i, j) = 1
j∈E

Ası́, la matriz de transición de una cadena de Markov es una matriz de Mar-


kov. Contrariamente, para cualquier matriz de Markov dada sobre un con-
junto contable E, es posible construir un espacio muestral Ω, una probabi-
lidad P sobre todos los subconjuntos de Ω, y variables aleatorias X0 , X1, . . .
sobre Ω tomando valores en E tal que X = {Xn } es una cadena de Marlov
cuya matriz de transición es la matriz dada. En tal construcción, es usual to-
mar Ω como el conjunto de todas la sucesiones ω = (ω0, ω1, ω2, . . .) con ωi ∈ E
para cualquier i y definir Xn (ω) = ωn . Entonces cada realización(evento) ω es
la secuencia de estados observándose que corresponde a esa realización.
Sea X una cadena de Markov con matriz de transición P y espacio de
estado E, y sea i, j, k ∈ E fijos. De la definición elemental (1.3.1) de probabi-
lidad condicional, podemos escribir
P {X6 = j, X7 = k | X5 = i} = P {X7 = k | X5 = i, X6 = j}P {X6 = j | X5 = i} .
Por otro lado, por Definición (1.1)
P {X7 = k | X5 = i, X6 = j} = P {X7 = k | X6 = j} ;
y por la condición de tiempo-homogéneo (1.2),
P {X7 = k, | X6 = j} = P (i, k)
P {X6 = j | X5 = i} = P (i, j)

2. Visitas a un estado fijo


A través de esta sección X = {Xn ; n ∈ N} es una cadena de Markov con
espacio de estado E y matriz de transición P . En vez de escribir P {A | X0 = i}
simplemente escribiremos Pi {A}; y similarmente, en vez de E[Y | X0 = i]
escribiremos Ei [Y ]. Para i ∈ E fijo, Pi es una medida de probabilidad sobre
Ω y Ei es el correspondiente operador de esperanza.
Sea j ∈ E fijado, y para cada ω ∈ Ω, sea Nj (ω) sea el número de veces
que j aparece en la sucesión X0 (ω), X1(ω), X2(ω), . . .. Entonces Nj (ω) es el
54 CAP. 5: CADENAS DE MARKOV

número total de visitas al estado j por el proceso X para la realización ω.


Si Nj (ω) es finito, entonces X eventualmente deja el estado j para nunca
regresar; es decir, existe un entero n tal que Xn (ω) = j y Xm (ω) 6= j para
m > n (este n, desde luego, dependerá de ω ). Por otro lado, si Nj (ω) = ∞
para una realización ω, entonces X visita j una y otra vez (y no existe entero
n con Xm (ω) 6= j para todo m > n). Para los propósitos de predecir el futuro,
es cuestión de cierta importancia para determinar si un ω del primer tipo
(que cede sólo un número finito de visitas a j) que esta por venir.
Bibliografı́a

[1] A.F. Izmailov y M.V. Solodov, Métodos Numéricos de Optimización(en ru-


so), Fiziko-Matematicheskaya Literatura, Moscú, 2003. 304 pp. ISBN: 5-
9221-0045-9

[2] A.F. Izmailov y M.V. Solodov, Optimización, Vol.2: Métodos Computacio-


nales, IMPA, Rio de Janeiro, 2007.

[3] E.L. Lima, Álgebra Lineal(sexta edición), Colección Matemática Univer-


sitaria, IMPA, 2003.

[4] E.L. Lima, Análisis Real, Vol.1(séptima edición), Colección Matemática


Universitaria, IMPA, 2004.

[5] E.L. Lima, Análisis Real, Vol.2, Colección Matemática Universitaria, IM-
PA, 2004.
Índice alfabético

Casi
seguramente, 3
todo, 3
Espacio muestral, 1
Evento, 1
cierto, 2
vacı́o, 2
Eventos
disjuntos, 2
Experimento aleatorio, 1
Función
de distribución, 7
indicador, 5
Medida de probabilidad, 3
Parámetro
continuo, 6
discreto, 6
Probabilidad
condicional, 12
Variable
aleatoria, 4

56

También podría gustarte